一、什么是大数据
大数据一般指在数据量在10TB以上的数据集, 通常具有“5V”的特点:
1. 容量(Volume):数据量大,数据量的大小决定所考虑的数据的价值和潜在的信息;
2. 种类(Variety):数据类型多,包括但不仅限于文本,音频,视频以及图片;
3. 速度(Velocity):指数据产生和获取的速度快;
4. 低价值密度(Value):数据中的有价值数据量级较小;
5. 真实性(Veracity):数据质量因数据来源以及记录方式等影响因素的不同,会出现较大的差异,而这种差异性会极大程度地影响数据分析的精确性;
换个说法,大数据建模就是指利用相关的计算机技术从大数据中挖掘数据特征,并用量化理论数学化数据特征关系以描述业务需求和模式的一种方法体系。
二、如何学习并掌握这个大数据建模呢?
1、尽可能的积累理论知识加以转化。
需要了解掌握的基础理论:计算机基础,数据分析软件,统计分析学,数据库基础,计量模型体系以及机器学习算法基础以及进阶等。
建模数据的抽取,清洗和加工以及建模算法的训练和优化会涉及大量的计算机语言和技术。比如:数据查询语言SQL,数据环境Hadoop和Spark,数据操作系统Linux, 数据分析软件R、SAS、Python、Matlab等。
特征工程涉及到统计/数学/信息论/计量等学科的基本概念。比如:变量的均值,分位数,峰度,谱,信息熵,cosi,衰退速率以及马氏距离等。
建模阶段涉及多种量化模型,比如:计量模型,机器学习模型,复杂网络等。比较常见的模型有:回归分析模型,随机森林,时间序列,神经网络,SVM统计模型等。
要在实际项目中自由使用这些模型算法,不仅需要了解基本的数学原理,还需要对相应的计算机语言实现有深刻的了解。至少你必须能够在主流分析软件中调用算法包。再高阶的要求是能够自己编写和完善算法。只有这样,我们才能相对正确地设计和优化基于实际数据结构的算法,并获得在各个方面性能都比较优秀的模型。
2、积累实战技能。
实践是检验真理的唯一标准,实践出真知,如果我们无法在实际生活中积累大数据建模经验,那我们也可以参加一些平台的数据建模竞赛。
我们可以通过美国著名大数据建模竞赛平台Kaggle、Analytics,Vidhya平台上的Hackatons、国内天池大数据竞赛、DataCastle等错的竞赛平台积累相关实战经验,不断丰富自己的阅历。
3、有些知识不容易在书本资料上获取,也不能光纸上谈兵,还是需要大量实践以及从项目经验中获取知识
例如 ,缺失的价值处理 、特征构造 、转换等依赖于模型方法 、数据 、业务目标等。 除了建立在前面提到的量化指标上的特性外,对模型性能贡献最大的特性,是与构建逻辑和业务逻辑密切相关的特性。
这里举两个例子来说明。
例1:在构建线性模型时通常会对变量间的非线性关系做线性数学变换(Log),而在实际的操作中,需不需要做变换以及如何变换是与具体的模型形式挂钩的。
神经网络,随机森林等模型,是不需要做线性变换的,反而会倾向于对特征做离散化处理。
模型训练调整参数,需要在心中有一杆bias variance的秤,揣着一把奥卡姆剃刀,方能建一手好模。
例2:异常的交易风险,通常表明客户存在违约或者欺诈的风险,那么如何去构造特征来描述异常交易风险呢?
可以是统计指标方差、变异度、数学指标马氏距离;
也可以是业务逻辑“过去3天的交易金额相较于历史水平涨幅大于100%”。
后者显然不专属于任何一门学科,它来自于对业务的理解和消化。
同样,模型算法的选择需要考虑的不仅仅是模型表现,还需要考虑成本。
因为建模是一方面,模型能够实施生产是另一方面。结构复杂和特征量大的模型往往意味着背后需要大量的计算资源,人力资源和时间资源支持。模型的现有表现和未来可能的衰减速度值不值得耗费大量人力物力去生产部署,部署后模型带来的效益是否能在长期内冲销成本也是建模人员需要去考虑的事情。
最重要的是,我们要知道,大数据建模只是解决问题的方法之一,与其他任何一种解决问题的途径手段在本质上没有什么不一样的。
建模前对业务目标的了解,对建模必要性的分析,对模型目标变量的刻画以及对建模样本的选取等问题反而比建模本身更值得引人关注。
以“如何选择网盾科技的云服务器”为例,如何对“云服务器”进行准确的定义是建模前需要解决的第一要事。如果对云服务器的定义有偏差,即使后续的算法表现再优良,模型也无法最大程度地服务需求,基于不准确的定义识别出的“云服务器”不再符合对问题的定义,整个建模工作在某种程度上也失去了本来的意义。
就像是本来要找身上有文身的人,由于错误的认为“文身”就是“黑斑”,最后找了身上有黑斑的人,虽然身上都是有东西的,但是却不是精准定位的有纹身的人群。
对于专业的modeler来说,真正花费在建模上时间恐怕不会超过他们日常工作的40%。
毕竟建模技术的实现容易,而让模型最大程度地的满足业务需求,发挥商业价值则需要花费非常多的心血。
三、大数据建模功能会涉及哪些工作?
第一步,业务理解和业务梳理,将业务问题抽象成数学问题。
所以这严格要求了需求和产品的职位,要求业务沟通能力,要求对所在行业的业务知识和运营有了解。
第二步,数据探索。
一般在和业务初步确实问题后要取数据,做数据探索,确定和证实前期的问题是不是真问题,还是假需求,如果是真问题,则确定下一步问题方向。这一步要求数据库,探索性数据分析,问题分析等技能。相应的是BI的职位,有些公司统称数据分析。
第三步,数学建模。
也就是核心的数据挖掘算法。在工业届,都有现在的工具,主要时间都花在特征挖掘和调参方面。
第四步,提出解决方案。
即从模型结果出发,对应的业务改进方法是什么,而不是准确率是多少,业务关心的是能不能提高收入,模型怎么样他们既不关心也看不懂。
在有些公司,对数据挖掘要求不深入,那么数据分析是什么都做。有些公司,特别是乙方咨询公司,要求什么都要攻,对甲方是一条龙服务。在大部分公司,四个方面的能力都是要求的,缺少对业务的理解,算法工程师容易陷入模型中自嗨,导致最终做出来的东西业务方不用。
从上面分析,硬技能,首先是数据库,软件应用,加mysql,Oracle, python, spark 等,其次是数学知识模型算法等稍微有点难度的东西。
软技能,就是沟通,以及对问题的思考和分析能力。
硬技能容易学,但软技能不容易学。刚入行的人总喜欢强调算法,模型,大数据框架,这很正常,何为后端人员也许做的就是这些。但如果想要走得更远,做得更深,对于业务能力和问题分析能力的要求也就越高了。
最后补充一句,大数据行业职场一般有两条线,一是业务线,要求梳理业务问题,分析,建模。另一条是开发线,就是构建高性能大数据分析平台,供建模人员和业务方使用,提高公司运营效率。
四、大数据模型工具
当今的商业决策对基于海量 的数据依赖越来越强烈,正确而连贯的数据流对商业用户做出快速、灵活的决策起到决定性的作用。建立正确的数据流和数据结构才能保证最好的结果,这个过程叫做数据建模。在实际行业运用的过程中,为了避免认为错误并且加快进度,我们需要使用专业的软件来帮助我们建立数据逻辑模型和物理模型、生成DDL,并且能够生成报告来描述这个模型,同时分享给其他伙伴。下面所列出的工具都是精挑细选的数据建模工具,推荐给大家使用。
1、PowerDesigner
PowerDesigner是目前数据建模业界的领头羊。功能包括:完整的集成模型,和面向包含IT为中心的、非IT为中心的差异化建模诉求。支持非常强大的元数据信息库和各种不同格式的输出。PowerDesigner拥有一个优雅且人性化的界面,非常易懂的帮助文档,快速帮助用户解决专业问题。
2、ER/Studio
ER/Studio 是一个支持多平台环境的直观数据建模工具,并且本地集成了用于处理大数据平台,例如-MongoDB和Hadoop Hive。它能够进行正向和逆向工程,并且拥有“比较合并”功能,能够输出例如XML、PNG、JPEG等格式文档。内建自动执行任务功能支持当前流行数据库平台。ER/Studio功能非常强大,拥有直观的界面和很好的用户支持特别易于马上开始工作。
3、Sparx Enterprise Architect
Enterprise Architect是一个拥有丰富功能的数据建模工具。自诩是高性价比的明智之选。Enterprise Architect帮助企业用户快速建立强大的可维护的系统,而且很容易在共享项目中扩展到大型的协作团队中去。 Enterprise Architect 同样有动态运行模拟模型的能力,用以验证模型和更加正确和深入的理解原来商业系统运作的方式。
4、CA ERwin
ERwin 也是业界领先的数据建模解决方案,能够为用户提供一个简单而优雅的界面同时处理复杂的数据环境问题。Erwin的解决方案提提供敏捷模型,同时元数据可以放在普通的数据库中进行处理,这样就能够保证数据的一致性和安全性。Erwin支持高度自定义的数据类型、APIs,允许自动执行宏语言等等。Erwin还建有一个很活跃的用户讨论社区,使得用户之间可以分享知识和各种经验。
5、IBM - InfoSphere Data Architect
InfoSphere 是一个很创新的、运行在开源平台-Eclipse上的数据建模工具。Infopshere主要聚焦于一下三个主要的特性:高效、简洁、高度集成。InfoSphere能够帮助商业用户建立逻辑、物理模型图,并且之后能非常方便的在各种不同的应用和系统中进行使用。InfoSphere是一个端到端的解决方案,可以快速高效地用在建立、部署、更新数据模型。同时也非常简易的集成了IBM的其他相关产品。
以上便是推荐的大数据建模工具,他们在数据建模方面带来的效率几乎是大家公认的,用好上述工具将让你能力得到再一次跃迁。
哈尔滨做企业流水大连定做入职工资流水深圳办理个人银行流水济南自存银行流水定制宁波代开网银流水深圳定做企业对私流水济南企业对私流水代办无锡做入职薪资流水上海企业账户流水温州打印薪资明细哈尔滨办手机银行流水上海日常消费流水定做广州定做企业对公流水深圳打印自存银行流水厦门代办打卡工资流水大连做入职流水苏州定做薪资账单无锡打印个人流水大连代开入职账单金华代做入职账单宁波做薪资流水北京开离职证明无锡代办手机银行流水深圳办电子版银行流水温州打印支付宝流水无锡制作房贷流水无锡代做入职工资流水北京企业账户流水办理深圳工资证明代开苏州定做薪资账单北京公司对公流水办理北京办理转账银行流水沈阳企业对公流水定做温州定做薪资流水昆明公司对公流水代开上海打印对公银行流水杭州代开银行流水电子版昆明转账银行流水办理石家庄办银行流水修改成都签证银行流水 制作杭州代办企业对私流水大连定制签证流水北京制作企业对私流水杭州代开自存银行流水北京做公司对公流水上海APP银行流水代做济南企业贷流水代做成都银行流水账单电子版定做金华开入职明细上海制作转账银行流水北京定做银行流水PS上海办房贷银行流水南京电子版银行流水代办北京办APP银行流水厦门定制入职账单哈尔滨开打卡工资流水金华代开个人银行流水温州打印入职明细金华制作入职薪资流水深圳工资银行流水代做温州办理公司流水石家庄做公司流水温州制作对公流水金华做银行流水哈尔滨定做车贷流水哈尔滨代办流水深圳公司账户流水制作厦门代办签证流水上海做房贷银行流水深圳定制离职证明杭州房贷银行流水办理厦门代做工资流水账单上海公司银行流水打印宁波代做个人银行流水金华定做个人银行流水广州打印工资流水app截图金华定制支付宝流水账单深圳代做银行流水账单电子版温州代开工资账单上海办理企业银行流水上海个人银行流水代开苏州代开工资明细杭州做公司账户流水无锡开贷款流水温州开房贷流水金华制作个人银行流水金华代做车贷流水深圳企业对公流水代开金华代做入职账单上海定做对公账户流水成都离职证明定制温州做银行流水无锡代做银行流水账单深圳制作个人银行流水金华打印工资流水明细北京代办对公银行流水广州办工资证明开公司账户流水温州做薪资流水上海定做车贷银行流水成都银行流水电子版代开个人银行流水打印上海个人银行流水定做南京银行流水电子版代办金华办理银行流水单石家庄定制入职流水深圳做工资证明深圳工资证明代做无锡办入职明细银行流水电子版打印哈尔滨办理签证流水哈尔滨定制银行流水账北京打印电子版银行流水南京个人银行流水代办温州定做网银流水济南自存流水代做成都个人银行流水打印成都薪资银行流水制作南京签证银行流水 办理南京工资流水app截图代做大连打印工资明细苏州代开工资流水明细深圳企业对私流水打印北京制作公司账户流水个人银行流水代开金华定制流水单深圳代做离职证明金华定制车贷流水离职证明打印温州代办入职明细哈尔滨代做薪资账单济南贷款银行流水代做企业贷流水办理南京签证银行流水 定做温州定制入职明细温州代办个人银行流水上海做车贷银行流水济南工资证明定制大连办入职流水温州定制银行流水账广州定做入职银行流水广州代办电子版银行流水宁波办理薪资账单金华办理个人银行流水厦门定制微信流水账单北京办理入职银行流水哈尔滨定制薪资明细房贷银行流水 打印温州办理工资账单成都APP银行流水办理北京公司账户流水上海打印转账银行流水宁波代办银行流水账单厦门制作入职流水上海定做电子版银行流水金华办网银流水温州打印银行流水账单温州定做个人银行流水杭州APP银行流水定制大连代开企业流水苏州办工资流水明细厦门制作入职账单厦门打印银行流水北京电子版银行流水代办深圳代开工资流水app截图房贷银行流水代做苏州办理支付宝流水账单苏州定做微信流水北京定做APP银行流水成都车贷银行流水 代做金华开工资流水账单成都车贷银行流水 定做广州制作银行流水对账单昆明签证银行流水 制作金华开流水账单深圳车贷银行流水 办理北京定制银行流水PS深圳定做企业对私流水温州办微信流水苏州定做网银流水无锡办理流水杭州对公账户流水定做石家庄制作入职明细宁波办银行流水单银行流水账单电子版代做无锡做薪资账单上海工资证明代办金华定做薪资账单杭州电子版银行流水代办深圳开电子版银行流水成都车贷银行流水 打印厦门制作手机APP流水银行流水电子版代办厦门办工资明细上海银行流水电子版打印上海企业对公流水代办杭州工资证明打印广州代办企业账户流水工资流水app截图定做金华代开工资账单