大数据分析解决方案_第1页
大数据分析解决方案_第2页
大数据分析解决方案_第3页
大数据分析解决方案_第4页
大数据分析解决方案_第5页
已阅读5页,还剩78页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、大数据分析的三个技巧 2013年01月08日09:03 来源:CIO时代网【文章摘要】大大数据的性质质是有他的三三个特点(数数据量大、种种类多、处理理速度快)决决定的,数据据分析的角色色和作用理所所当然是由大大数据的性质质决定的。当当数据分析作作用于大数据据时,大数据据必须身兼数数职。意思就就是数据分析析在一个组织织中扮演着多多种角色和担担负着多重责责任。数据分析的的职位是由DDJ Pattil和Jeeff Haammerbbacherr制定的,他他们试图称呼呼数据组的同同事们,而又又不想因为称称呼而限制他他们的能力。(bbecausse of improoper jjob tiitle ll

2、ike bbusineess annalystt or rresearrch sccientiist Buuildinng Datta Sciience Teamss)随着大数据据在驱动企业业成功中越来来越有决定性性作用,数据据分析也变得得越来越受欢欢迎。然而,一一些领导者对对数据分析扮扮演的角色和和它所起的作作用仍然不是是很了 解,就就像很多时候候领导者不知知道怎么从大大数据中抽取取有用的信息息,虽然很清清楚的知道这这些大数据是是很可信的。他他们的脚步落落后了他们的眼眼光在大数据据的利用上其其 实是模糊糊的。大数据的性性质是有他的的三个特点(数数据量大、种种类多、处理理速度快)决决定的,数据

3、据分析的角色色和作用理所所当然是由大大数据的性质质决定的。当当数据分析作作用于大数据据时,大数据据必须身兼数数职。意思就就是数据分析析在一个组织织中扮演着多多种角色和担担负着多重责责任。多种知识的的掌握为了解决数数据量大的问问题,大数据据平台(例如如:Apacche Haadoop、LLexisNNexis HPPC)要要求数据是被被整理过的。数数据分析员应应该具有大数数据平台应用用的全方位知知识,这样才才能熟练的应应用数据平台台处理大数据据。数据分析析元应当具有有以下知识:1、了解大大数据平台的的框架,例如如:DFS和和MapReeduce,他他们的编程框框架提供强大大的应用程序序设计。这就

4、就意味着数据据分析员还要要有软件构筑筑和设计的能能力。2、精通大大数据平台支支持的编程语语言,例如:Java, Pythhon, CC+, oor ECLL, 等等。3、具有熟熟练的数据库库知识,特别别是用到SQQL语言的数数据库,像:HBasee, CouuchDB, 等等。因因为大数据平平台经常需要要数据库来存存储和转换数数据。4、具有数数学/统计学学、机器学习习、数据挖掘掘领域的专业业知识。一个企业的的成功不是由由数据量决定定的,而是由由能否成功的的从大数据中中发现和抽取取有用的知识识模式和关系系决定的,然然后用这些有有价值的信息息创造出有价价值的产 品品。统计学、机机器学习和数数据挖掘

5、可以以很好的用于于理解数据和和发掘数据的的价值。自然然,为了成功功数据分析者者必须具备这这些领域的专专门知识。会会使用一些数数据挖掘工具具 或者平台台(例如:RR, Exccel, SSPSS aand SAAS)是最好好的,可以TTop Annalytiics annd bigg dataa softtware toolss这本书。5、熟练应应用自然语言言处理的软件件或工具。大大数据的内容容大都来自于于文本文件、新新闻、社交媒媒体和报告、建建议书等等。因因此了解和掌掌握至少一种种自然语言处处理软件或工工具对于做一一个成功的分分析者起着决决定性的作用用。6、应用至至少一种数据据可视化工具具。为

6、了更有有效的演示数数据存在的模模式和关系,能能应用好数据据可视化工具具无疑是对数数据分析员的的一个加分。这这里有20款款数据可视化化工具的链接接。创新好好奇随着数据变变化速度的加加快,经常也也会有新的发发现和问题出出现,数据分分析员应该对对那些变化敏敏感、对新发发现好奇,并并且找出应对对新问题的方方法。他/她她也要热情的的及时相互沟沟通,从新问问题中探索新新产品的思路路和解决方案案,成为产品品创新的驾驭驭者。商业技能首先,数据据分析员多元元化的性质决决定了数据分分析员要好很很强的沟通能能力,在企业业里数据分析析员必须和不不同的人沟通通,其中包括括:沟通和理理解业务需求求、应用程 序的要求、把把

7、数据的模式式和关系翻译译给市场部、产产品开发组和和公司高管看看。对于企业业来说有效的的沟通是及时时采取行动应应对大数据新新发现的关键键。数据分析析员应该是能能 联系所有有,很好的沟沟通者。第二、数据据分析员要具具有良好的规规划和组织能能力。这样他他/她才能巧巧妙地处理多多个任务、树树立正确的优优先顺序、保保证按时完成成任务。第三,数据据分析员应该该具有说服力力、激情、和和演讲能力。才才能引导人们们基于数据的的发现做出正正确的决定,让让人们相信新新发现的价值值。数据分析析员在某种意意义上说是领领导者,驱动动产品创新。所有这些大数据据的性质决定定了数据分析析员该具备的的技巧和他们们在企业中扮扮演的

8、角色。 HYPERLINK 盘点大数据分析析的十二大杀杀手锏分类: HYPERLINK BI HYPERLINK MapReeduce22011-111-19 13:122218人人阅读 HYPERLINK l comments 评论论(0) HYPERLINK javascript:void(0); o 收藏 收藏藏 HYPERLINK l report o 举报 举报当数据以成百上上千TB不断断增长的时候候,我们需要要一种独特技技术来应对这这种前所未有有的挑战。大数据分析迎来来大时代全球各行各业的的组织机构已已经意识到,最最准确的商务务决策来自于于事实,而不不是凭空臆想想。这也就意意味着,

9、他们们需要在内部部交易系统的的历史信息之之外,采用基基于数据分析析的决策模型型和技术支持持。互联网点点击数据、传传感数据、日日志文件、具具有丰富地理理空间信息的的移动数据和和涉及网络的的各类评论,成成为了海量信信息的多种形形式。极具挑战性的是是,传统的数数据库部署不不能处理数TTB数据,也也不能很好的的支持高级别别的数据分析析。在过去十十几年中,大大规模并行处处理(MPPP)平台和列列存储数据库库开启了新一一轮数据分析析史上的革命命。而且近年年来技术不断断发展,我们们开始看到,技技术升级带来来的已知架构构之间的界限限变得更加模模糊。更为重重要的是,开开始逐步出现现了处理半结结构化和非结结构化信

10、息的的NoSQLL等平台。大数据分析迎来来大时代本文中,我们将将向大家介绍绍迄今为止,包包括EMC的的Greennplum、HHadoopp和MapRReducee等提供大数数据分析的产产品。此外,惠惠普前段时间间收购实时分分析平台Veerticaa、IBM独独立的基于DDB2智能分分析系统和NNetezzza的相关产产品。当然,也也有微软的PParalllel Daata Waarehouuse、SAAP旗下公司司Sybasse的Sybbase IIQ数据仓库库分析工具等等。下面,就就让我们来了了解业界大数数据分析的这这十二大产品品:1.模块化EMMC Apppliancce处理多种种数据类

11、型2010年EMMC收购了GGreenpplum,随随后,利用EEMC自身存存储硬件和支支持复制与备备份功能的GGreenpplum大规规模并行处理理(MPP)数数据库,推出出了EMC Greennplum Data Compuuting Appliiance (DCA)。通过与SSAS和MaapR等合作作伙伴,DCCA扩大了对对Greennplum的的数据库支持持 。支持大数据分析析的EMC Appliiance今年5月,EMMC推出了自自己的Haddoop软件件工具,而且且该公司还承承诺,今年秋秋季发布的模模块化DCAA将支持Grreenpllum SQQL/关系型型数据库,HHadoop

12、p部署也能在在同样的设备备上得到支持持。借助Haadoop,EEMC能够解解决诸如网络络点击数据、非非结构数据等等真正大数据据分析的困难难。模块化的的DCA也能能够在同样的的设备上支持持长期保留的的高容量的存存储模块,从从而满足监测测需求。2.Hadooop和MappReducce提炼大数数据Hadoop是是一个开放源源码的分布式式数据处理系系统架构,主主要面向存储储和处理结构构化、半结构构化或非结构构化、真正意意义上的大数数据(通常成成百上千的TTB甚至PBB级别数据)应应用。网络点点击和社交媒媒体分析应用用,正在极大大地推动应用用需求。Haadoop提提供的MappReducce(和其他他

13、一些环境)是是处理大数据据集理想解决决方案。MapReduuce能将大大数据问题分分解成多个子子问题,将它它们分配到成成百上千个处处理节点之上上,然后将结结果汇集到一一个小数据集集当中,从而而更容易分析析得出最后的的结果。MapReduuce结构图图Hadoop可可以运行在低低成本的硬件件产品之上,通通过扩展可以以成为商业存存储和数据分分析的替代方方案。它已经经成为很多互互联网巨头,比比如AOL、eeHarmoony(美国国在线约会网网站)、易趣趣、Faceebook、TTwitteer和Nettflix大大数据分析的的主要解决方方案。也有更更多传统的巨巨头公司比如如摩根大通银银行,也正在在考

14、虑采用这这一解决方案案。3.惠普Verrtica电电子商务分析析今年二月被惠普普收购的Veerticaa,是能提供供高效数据存存储和快速查查询的列存储储数据库实时时分析平台。相相比传统的关关系数据库,更更低的维护和和运营成本,就就可以获得更更快速的部署署、运行和维维护。该数据据库还支持大大规模并行处处理(MPPP)。在收购购之后,惠普普随即推出了了基于x866硬件的HPP Verttica。通通过MPP的的扩展性可以以让Verttica为高高端数字营销销、电子商务务客户(比如如AOL、TTwitteer、 Grrouponn)分析处理理的数据达到到PB级。惠普Vertiica实时分分析平台其实

15、,早在惠普普收购之前,VVerticca就推出有有包括内存、闪闪存快速分析析等一系列创创新产品。它它是首个新增增Hadooop链接支持持客户管理关关系型数据的的产品之一,也也是首个基于于云部署风险险的产品平台台之一。目前前,Verttica支持持惠普的云服服务自动化解解决方案。4.IBM提供供运维和分析析数据仓库去年,IBM推推出了基于DDB2的Smmart AAnalyttic Syystem(图图中左侧),那那么它为何还还要收购另外外的Neteezza方案案平台呢?因因为前者是具具备高扩展性性企业数据仓仓库的平台,可可以支持成千千上万的用户户和各类应用用操作。比如如,呼叫中心心通常拥有大大

16、量的雇员需需要快速回拨拨客户的历史史通话记录。SSmart Analyytic SSystemm提供了整合合信息的DBB2数据库,预预配置Coggnos BBI软件模块块,可以在IIBM Poower SSystemm(RISCC或者X866架构)上运运行。Smart AAnalyttic Syystem及及NetezzzaNetezzaa致力于为数数字化营销公公司、电信、和和其他挖掘成成百上千TBB甚至PB级级别数据的公公司,提供高高可扩展分析析应用的解决决方案。IBBM的Nettezza TwinFFin数据仓仓库设备,支支持大规模并并行处理,可可以在一天时时间内部署完完毕。Nettezz

17、a支支持多种语言言和方式进行行数据库分析析,其中包括括Java、CC、C+、PPythonn和MapRReducee。与此同时时,它还支持持如SAS,IIBM SPPSS使用的的矩阵操作方方法和R编程程语言。IBBM Nettezza最最近增加了一一个高容量长长期存档设备备以满足更多多要求。5.Infobbrightt减少DBAA工作量和查查询时间Infobriight列存存储数据库,旨旨在为数十TTB级别数据据提供各类分分析服务。而而这一块也正正是甲骨文和和微软SQLL Servver的核心心市场之一。IInfoBrright还还表示,建立立在MySQQL基础之上上的数据库也也提供了另外外一

18、种选择,它它专门针对分分析应用、低低成本简化劳劳动力工作、交交付高性能的的服务进行设设计。列存储数据库能能够自动创建建索引,而且且无需进行数数据分区和DDBA调整。相相比传统数据据库,它可以以减少90%的人工工作作量,而且由由 于其采用用高数据压缩缩,在数据库库许可和存储储等方面的开开支也可以减减少一半。Knowleddge Grrid查询引引擎InfoBriight最新新的4.0版版本产品,新新增了一个DDomainnExperrt的功能。企企业用户可以以借此忽略不不断重复的那那些数据,比比如邮箱地址址 、URLL和IP地址址。与此同时时,公司还可可以增加与呼呼叫记录、业业务交易或者者地理位

19、置信信息相关的数数据。Kowwledgee Gridd查询引擎则则可以帮助过过滤那些静态态数据而只关关注那些变化化的数据。也也就是说,它它可以帮助节节省数据查询询的时间,因因为那些无关关的数据无需需进行解压缩缩和筛选。6.Kogniitio提供供三倍速度和和虚拟多维数数据集Kognitiio是一家本本身不生产硬硬件产品的数数据库厂商,它它看到了客户户对快速部署署的广泛兴趣趣和市场需求求,推出了在在惠普、IBBM硬件产品品上预配置有有WX2数据据库的Lakkes、Riivers和和Rapidds解决方案案。Lakes能够够以低成本、110TB数据据存储和每个个模块48个个运算核心提提供大容量存存

20、储服务。电电信或金融服服务公司,可可以使用这种种配置来扫描描大量的分支支结构的各种种信息记录。RRiverss则提供了容容量和速度之之间的平衡,预预配置为2.5TB存储储容量,它的的每个模块拥拥有48个运运算核心。而而追求查询性性能的Rappids,其其预配置提供供有96个运运算核心,每每个模块仅仅仅为1.5TTB。该产品品方案主要针针对金融公司司在算法交易易或者其他高高性能要求方方面的需求。Kognitiio基于内存存运算的数据据仓库和数据据分析今年, Koggnitioo新增了一个个虚拟化OLLAP风格的的Pabloo分析引擎。它它提供了灵活活的、为企业业用户进行分分析的解决方方案。用户可

21、可升级选用WWX2构建一一个虚拟多维维数据集。因因此,WX22数据库中任任何一个维度度的数据都可可在内存中用用于快速分析析。这种分析析的前端接口口是我们常见见的Micrrosoftt Exceel。7.微软SQLL Servver新增PPDW功能今年年初微软发发布的SQLL Servver R22 Paraallel Data Warehhouse(PPDW,并行行数据仓库),一一改以往SQQL Serrver部署署时间需要花花 费两年半半时间的历史史,它可以帮帮助客户扩展展部署数百TTB级别数据据的分析解决决方案。支持持这一产品的的包括有合作作伙伴惠普的的硬件平台。发发布之初,虽虽然微软官网

22、网提供有让利利折扣,但PPDW售价仍仍超过130000美元/TB(用户户和硬件访问问量)。SQL Serrver PPDW和很多产品一样样,PDW使使用了大规模模并行处理来来支持高扩展展性,但微软软进入这一市市场实属“姗姗姗来迟”,而而且在一定程程度上说,数数据仓库分析析和内存分析析计算市场落落下了后腿。目目前,微软寄寄希望于其整整体数据库平平台在市场上上带来的差异异化竞争力。这这意味着,所所有沿袭了基基于微软平台台的数据和数数据管理,将将被广泛应用用在信息集成成领域RReportting aand Annalysiis Serrvicess,而这一切切都基于SQQL Serrver数据据库。

23、微软在今年100月12日通通过推出Appache Hadooop和相关的的SQL AAzure Hadooop服务,宣宣布进入大数数据领域。AAzure服服务将在20011年底亮亮相,而相应应的本地配套套软件要在明明年上半年推推出,现在也也不清楚微软软是否会与其其他硬件合作作伙伴或者相相关大数据设设备厂商合作作。8.甲骨文讲述述Enginneeredd Systtems的故故事甲骨文表示,EExadatta(图中左左侧)是迄今今以来发布的的产品中最为为成功的产品品,自从20008年推出出以来,已经经拥有超过11000名客客户。而enngineeered ssystemm使得甲骨文文11g数据据

24、库,可以支支持基于X886的数据处处理和磁盘存存储层,其闪闪存缓存也使使得可以实现现超快速查询询处理。它既可应用在任任意事务环境境中,也可以以应用在数据据仓库(但不不能同时进行行)。Exaadata的的混合柱状压压缩能够实现现列存储数据据库的某些高高效率特点,提提供高达100:1的压缩缩比,而大部部分行存储数数据库的平均均压缩比为44:1。甲骨文在9月通通过宣布Orracle SuperrClustter(图中中右侧),扩扩展了enggineerred syystemss产品家族。它它采用了最新新的Sun Sparcc T-4芯芯片。SupperCluuster支支持全机架/半机架配置置,而且

25、用户户可以在半机机架容量基础础上进行扩容容。满额配置置提供有12200个CPPU线程,44TB内存,997TB至1198TB磁磁盘存储,88.66TBB闪存。甲骨文大数据分分析系统设施施甲骨文声称,SSuperCClusteer事务处理理和数据仓库库性能相比传传统服务器架架构能分别带带来10倍和和50倍速度度提升。但作作为一个专有有的Unixx机器,甲骨骨文想通过SSuperCClusteer,在面向向x86硬件件的数据仓库库部署迁移大大潮中力挽狂狂澜。甲骨文文的Exaddata和EExaloggic都基于于x86架构构而且运行LLinux系系统。在十月召开的OOraclee OpennWor

26、ldd中,甲骨文文宣布将新增增一个分布式式pachee Hadooop软件和和相关的大数数据设备。甲甲骨文也计划划推出一个独独立的基于开开源BerkkeleyDDB产品的NNoSQL。9.ParAcccel大打打列存储、MMPP和数据据库分析组合合拳ParAcceel是ParrAccell Anallytic Databbase(PPADB)的的开发厂商提供快速速、选择性查查询和列存储储数据库,并并基于大规模模并行处理优优势特点的产产品。该公式式表示,其平平台支持一系系列针对各种种复杂、先进进应用的工作作负载报告和和分析。ParAcceel大数据解解决方案内置的分析算法法可以为分析析师提供高级

27、级数学运算、数数据统计、和和数据挖掘等等各种功能,同同时,它还提提供一个开放放的API,可可以扩展数据据库的各种数数据处理能力力和第三方分分析应用。Table ffunctiions被用用来传送和接接收第三方和和采用C、CC+等编写写的定制算法法的数据结果果。ParAAccel与与Fuzzyy Logiix一家家提供各种描描述统计学、统统计实验模拟拟和模式识别别功能库功能能的服务商。此此外, Taable ffunctiions还支支持MapRReducee和广泛应用用在金融服务务的700多多种分析技术术。10.Sybaase推进IIQ列存储数数据库SAP旗下的SSybasee是列存储数数据库

28、管理系系统的首批厂厂商,而且目目前仍然是拥拥有20000多个客户的的畅销厂商。今今年夏天推出出了Sybaase IQQ 15.33版本,该版版本产品能够够处理更多数数据和更多数数据类型,也也能胜任更多多查询,当然然这主要得益益于其包含了了一个名叫PPlexQ 的大规模并并行处理功能能。基于MPP大规规模并行处理理的PlexxQ分布式查查询平台,通通过将任务分分散到网格配配置中的多台台计算机,加加速了高度复复杂的查询。有有报道说,它它能提供比现现有的IQ部部署快12倍倍的交付能力力。Sybase IQ为了支持不同的的分析,155.3版本的的产品增加了了分布式处理理功能,来执执行PlexxQ网格中

29、跨跨CPU的查查询服务。为为了确保实现现最快速度的的查询,PllexQ包含含了一个逻辑辑服务器让管理员对对PlexQQ网格的物理理服务器组成成虚拟群集,以以便优化分析析工作负载、用用户需求和应应用程序。Sybase IQ和其他他大多数的支支持MPP功功能的产品之之间区别主要要在于,它采采用了全共享享的方式。全全共享的缺点点是CPU会会争相访问共共享存储(通通常是SANN),而这会会降低查询性性能。不过SSybasee坚持认为,从从优化查询的的角度来说全全共享会更加加灵活,因为为所有的CPPU 都会访访问所有的数数据。所以,我我们可以对某某个特定的查查询尽可能多多(或者少)地地分配计算资资源。1

30、1.Teraadata从从EDWs跨跨入大规模分分析领域一旦成为企业级级数据仓库(EEDW)的宣宣传者,近年年来Teraadata就就已经放松了了扩展Terradataa数据库产品品家族的步伐伐。该公司的的高性能、高高容量产品被被广泛采用和和复制,因为为其中包括了了很多企业工工作量管理的的功能模块,包包括虚拟OLLAP(三维维立体式)分分析模型 。Teradatta在数据库库分析领域不不断推陈出新新,但在结构构化数据、半半结构化数据据和大部分非非结构化数据据领域几乎没没有很大成果果。这也就是是为什么该公公司要收购AAster Data一家提供供SQL-MMapRedduce框架架的公司。MMa

31、pRedduce处理理拥有广泛的的市场需求,因因为存在着大大量的互联网网点击数据、传传感数据和社社交媒体内容容。Teradatta平台产品品家族Teradatta日前宣布布了一项Asster DData MMapRedduce产品品的计划,它它建立在以往往产品同样的的硬件平台之之上,而且在在Teraddata和AAster Data之之间新增了两两种集成方法法。通过收购购,Teraadata打打破了在数据据仓储业被认认为最广泛、最最具扩展性的的界限。12.10100data提提供基于云计计算大数据分分析正如标题所说,11010daata能够提提供基于云计计算的大数据据分析平台。很很大数据库平平

32、台供应商提提供基于云的的沙箱测试和和开发环境, 但10100data的的管理数据库库服务,主要要针对将整个个工作负载迁迁移到云的全全过程。该服务支持一种种提供“丰富富而又高级的的内置分析功功能”,其中中包括有预测测分析。其一一大卖点是服服务包括了数数据建模和设设计、信息集集成和数据转转换。1010datta提供基于于云计算大数数据分析其客户包括有对对冲基金、全全球各大银行行、证券交易易商,零售商商和包装消费费品公司。何谓大数据?大数据,也就是是国外常说的的Big DData。IIBM把大数数据概括成了了三个V,即即大量化(VVolumee)、多样化化(Variiety)和和快速化(VVeloc

33、iity)。这这些特点也反反映了大数据据所潜藏的价价值(Vallue),我我们也可以认认为,四个VV高度概括了了大数据的基基本特征。业界比较一致对对大数据的定定义是:大数数据是指无法法在一定时间间内用常规软软件工具对其其内容进行抓抓取、管理和和处理的数据据集合。大数据时代 分分析技术如何何进化2012-066-19 007:30比比特网袁斌关键字:FICCO HYPERLINK 大数据费埃哲当你在应用用信用卡进行行交易时,你你可能没有意意识到,这笔笔交易是否成成功,是由费费埃哲(FIICO)公司司的产品在后后台进行智能能判断和监测测的。目前,费费埃哲公司的的Falcoon解决 HYPERLIN

34、K t _blank 方案案在帮助客户户监控全球22/3的信用用卡交易,并并从中辨别欺欺诈活动。显显然,这是一一个非常典型型的大数据应应用银行行每天的信用用卡交易数都都是一个天文文数字,如何何有效处理和和鉴别这些数数据,帮助 HYPERLINK t _blank 企企业做出正确确的决策?在在非结构化数数据汹涌增加加的今天,费费埃哲公司又又是如何判断断 HYPERLINK t _blank 大数据时代代的分析技术术进展?日前前, HYPERLINK t _blank 比特网记者采采访了费埃哲哲(FICOO)公司首席席执行官Wiill Laansingg先生。费埃哲(FICCO)公司首首席执行官W

35、Will LLansinng先生问:大数据据对软件和硬硬件都有非常常强的挑战,所所以现在业界界有一种趋势势,要做软硬硬件结合,以以更紧密的 HYPERLINK t _blank 一一体机形式来来提供分析服服务。最典型型的产品,例例如 HYPERLINK t _blank 甲骨文公司的的 Exallyticss系统。那么么,您是如何何看待这一趋趋势?费埃哲哲公司会如何何更好地与硬硬件进行优化化整合?答:这是一一个非常好的的问题。就费费埃哲公司而而言,基础架架构并不是我我们的专长,所所以我们要和和我们的客户户去合作。目目前,我们有有一些合作方方式是基于 HYPERLINK t _blank SSa

36、aS的,也也有一些是基基于其它各类类解决方案的的。费埃哲公公司并不强制制客户使用某某种特定的基基础架构来运运行我们的应应用、捕捉应应用数据,而而是在客户现现有的基础架架构运营优化化、进行合作作。实际上,费费埃哲公司也也在和一些实实验室合作,例例如Clouudera,借借此来拓展我我们的能力,消消除我们(对对硬件基础设设施在理解上上)的局限性性。问:在大数数据的分析方方面,数学模模型非常重要要。我们知道道,费埃哲公公司在金融领领域有很深的的积累。那么么,这种积累累如何推广到到其他行业?答:费埃哲哲公司在垂直直行业已经有有很长时间的的积累了,这这也是我们能能够将业务拓拓展到非金融融行业的一大大原因

37、。我们们公司非常擅擅长分析一些些复杂、困难难的问题,这这些分析技巧巧不仅适用于于金融行业,也也适用于其他他多个行业。例例如,我们对对于客户行为为的了解,就就不局限于金金融行业,还还包括保险行行业和零售行行业。在保险险行业当中,某某些欺诈的行行为和在银行行业当中的信信用卡欺诈的的用户行为是是非常类似的的。而在营销销解决方案方方面,很多零零售行业的客客户行为和银银行客户的行行为也非常近近似。所以,我我们在金融行行业的客户管管理经验,也也可以应用到到零售行业。以费埃哲公公司在中国的的业务发展为为例,银行业业务是最传统统的领域。但但从一年前开开始,费埃哲哲就开始把我我们成熟的技技术推向保险险领域,协助

38、助保险公司做做理赔的反欺欺诈。尽管保保险行业的业业务特点跟银银行不太一样样,但我们的的技术是同样样适用的,而而且我们在国国外的保险行行业也有所积积累。因此,费费埃哲在国内内的保险理赔赔反欺诈的案案例就非常成成功客户户回访时,他他们表示,现现在能够通过过数据分析,实实时抓住大批批量的理赔欺欺诈。问:我们也也注意到,您您提到了信用用卡反欺诈这这个大数据应应用。但相对对而言,这都都是针对结构构化数据的,针针对邮件、文文本这些非结结构化的数据据,费埃哲公公司将采用哪哪些解决方案案去处理?答:大数据据的定义当中中,包括3个个V(高容量量、高速度、多多类型)。虽虽然费埃哲的的信用卡反欺欺诈解决方案案只是针

39、对结结构化数据,但但我们已经能能够处理大容容量数据和高高速的数据。到到目前为止,我我们还是采用用相对传统的的方式,将数数据简化到一一个智能的、可可操作的层面面,然后基于于这些数据来来做出快速决决策。尽管我我们现在只能能做到这三个个V当中的两两个,但我们们非常接近完完美地来解决决这个问题的的。随着基础础架构不断的的完善和演进进,费埃哲的的解决方案也也会发生变化化。问:在数据据爆发的时代代,我们进行行数据分析的的方式需要改改变吗?答:我们关关于大数据的的绝大多数讨讨论都集中在在数据的规模模,并没有相相应关注在数数据分析方式式的改变。 “数据流”的的分析对于FFICO并不不陌生,其中中最好的应用用莫

40、过于我们们的反欺诈解解决方案FICO Falcoon Fraaud Maanagerr。Falccon模型依依靠交易特征征,它概括了了数据在交易易过程中的特特征,以便计计算相关的欺欺诈特点的变变量,而不依依赖由此生成成的既有数据据。我们在数据据流特征分析析领域不断推推动创新,尤尤其在反欺诈诈领域。这些些创新技术包包括:全球智智能特征识别别技术。它可可以自动发现现银行卡交易易、 HYPERLINK t _blank ATM和商户户交易中的不不正常行为。再再比如FICCO公司开发发的自我校正正分析技术,它它可以随着客客户行为模式式的改变,服服务渠道的改改变而改善侦侦测的准确性性。另一个由由大数据带

41、来来的变化是分分析必须减少少对于固有数数据的依赖。分分析模型将能能够根据数据据流中的动态态数据自我调调整。为了应应对不断增加加的数据流中中的动态数据据,我们集中中研发了自我我学习的一些些技术,包括括:自适应分分析和自我矫矫正分析技术术。我们坚信信这些关键技技术将弥补传传统方式的不不足。自学习习技术甚至将将可能在某些些领域取代传传统的模式。最近,我们们在自己开发发的自我校正正分析技术上上取得了重大大进展。已申申请专利的“多多层自我校正正分析技术”的的体系结构与与神经网络模模式类似,但但与之不同的的是新模式可可以在数据流流中自我校正正。使用多层层自我校正模模式将需要更更少的数据采采样,并且可可以直

42、接与自自适应分析技技术联合使用用,可以更为为动态地发现现欺诈。将“多多层自我校对对系统”与目目前通用的技技术相比,我我们预见未来来的分析技术术将大幅提高高。问:更进一一步地说,现现在的大数据据分析,都是是数据进行筛筛选、过滤到到数据仓库当当中,然后进进行分析。随随着硬件设备备在性能和容容量上不断提提升,还有必必要对传统分分析技术进行行大规模改进进吗?答:今天的的大数据分析析情况确实如如你所说的这这样。但我相相信,在不远远的将来,我我们会需要直直接对大数据据进行分析。这这种分析可能能有两种方式式:一种是随随着数据集的的不断增加,我我们需要重新新建模在在数据集不断断增加的情况况下,可能需需要考虑应

43、用用Hadooop技术进行行 HYPERLINK t _blank 存储,否则我我们就没有容容量足够大的的存储空间;另一种方式式则是采用基基于机器学习习的方法,来来进行大数据据的处理和分分析。至于硬件的的性能,也许许现在还不是是问题,但当当我们考虑所所有数据,并并从中找出最最有价值的地地方时,用现现有的基础架架构就会显得得远远不够。例例如,今天的的银行客户,他他们已经知道道,未来他们们的数据是分分散的、遍布布各地的,可可能在银行内内部,可能在在 HYPERLINK t _blank 局域网或者在在云里面,他他们希望这些些数据都能够够被读取,都都对数据进行行分析。显然然,这是今天天的架构无法法完

44、成的,这这需要将来才才可以实现。问:那么,您您认为机器学学习和传统模模型这两种数数据分析方式式,哪种更有有发展前途?答:大数据据的最终目标标就是利用各各种数据来做做出最好的决决策。大数据据最 HYPERLINK t _blank 美的地方,就就是我们不再再受数据容量量的局限,它它可以不断的的增加一些变变量,然后增增加价值,帮帮助我们做出出更好的决策策。如你所提提到的,现在在我们有两种种模型,一种种是基于假设设的模型,例例如前几年麦麦肯锡提出来来的假设模型型,说我们要要关注哪些高高价值数据,关关注相关领域域的数据,关关注那些能够够提升效率的的数据。另一种模型型就是一种不不是基于假设设的模型,确确

45、切地说,是是一种机器学学习的模型。这这种模型跟假假设模型完全全不同。我并并不认为这两两种模型可以以相互替代。从从长期来看,一一定会有更多多的数据需要要我们去关注注。对大数据据来说,它能能够不断的增增加变量,帮帮助我们基于于这些数据做做出更好的决决策,这是它它特别有优势势的一个地方方。我个人认认为,在比较较长的一段时时间之后,机机器学习的这这种方式,有有可能会取代代假设的这种种模型。问:在金融融领域的机器器学习应该具具有什么特性性?答:以小额额贷款的机器器学习为例,这这需要非常快快速观察和衡衡量,能够迅迅速发现坏帐帐,这样才能能够快速学习习、调整。尽尽管目前也有有一些公司推推出了所谓的的机器学习

46、,但但这是非常有有局限性的,主主要是用于展展示,展示出出新科技所带带来的可能性性,并告诉客客户这个新科科技可以不断断完善,并且且最终能够降降低风险。技术基础:大数数据分析技术术的发展ZDNet 存存储系统 来来源: 赛迪迪网 20112年05月月16日 评评论(0)关键词: 大数数据 MappReducce Gooogle本文摘要大数据分析技术术最初起源于于互联网行业业。网页存档档、用户点击击、商品信息息、用户关系系等数据形成成了持续增长长的海量数据据集。这些大大数据中蕴藏藏着大量可以以用于增强用用户体验、提提高服务质量量和开发新型型应用的知识识,而如何高高效和准确的的发现这些知知识就基本决决

47、定了各大互互联网公司在在激烈竞争环环境中的位置置。首先,以以Googlle为首的技技术型互联网网公司提出了了MapReeduce的的技术框架,利利用廉价的PPC服务器集集群,大规模模并发处理批批量事务。大数据分析技术术最初起源于于互联网行业业。网页存档档、用户点击击、商品信息息、用户关系系等数据形成成了持续增长长的海量数据据集。这些大大数据中蕴藏藏着大量可以以用于增强用用户体验、提提高服务质量量和开发新型型应用的知识识,而如何高高效和准确的的发现这些知知识就基本决决定了各大互互联网公司在在激烈竞争环环境中的位置置。首先,以以Googlle为首的技技术型互联网网公司提出了了MapReeduce的

48、的技术框架,利利用廉价的PPC服务器集集群,大规模模并发处理批批量事务。利用文件系统存存放非结构化化数据,加上上完善的备份份和容灾策略略,这套经济济实惠的大数数据解决方案案与之前昂贵贵的企业小型型机集群+商商业数据库方方案相比,不不仅没有丢失失性能,而且且还赢在了可可扩展性上。之之前,我们在在设计一个数数据中心解决决方案的前期期,就要考虑虑到方案实施施后的可扩展展性。通常的的方法是预估估今后一段时时期内的业务务量和数据量量,加入多余余的计算单元元(CPU)和和存储,以备备不时只需。这样的方式直接接导致了前期期一次性投资资的巨大,并并且即使这样样也依然无法法保证计算需需求和存储超超出设计量时时的

49、系统性能能。而一旦需需要扩容,问问题就会接踵踵而来。首先先是商业并行行数据库通常常需要各节点点物理同构,也也就是具有近近似的计算和和存储能力。而而随着硬件的的更新,我们们通常加入的的新硬件都会会强于已有的的硬件。这样样,旧硬件就就成为了系统统的瓶颈。为为了保证系统统性能,我们们不得不把旧旧硬件逐步替替换掉,经济济成本损失巨巨大。其次,即即使是当前最最强的商业并并行数据库,其其所能管理的的数据节点也也只是在几十十或上百这个个数量级,这这主要是由于于架构上的设设计问题,所所以其可扩展展性必然有限限。而MapRedduce+GGFS框架,不不受上述问题题的困扰。需需要扩容了,只只需增加个机机柜,加入

50、适适当的计算单单元和存储,集集群系统会自自动分配和调调度这些资源源,丝毫不影影响现有系统统的运行。如如今,我们用用得更多的是是Googlle MappReducce的开源实实现,即Haadoop。除除了计算模型型的发展,与与此同时,人人们也在关注注着数据存储储模型。传统统的关系型数数据库由于其其规范的设计计、友好的查查询语言、高高效的数据处处理在线事务务的能力,长长时间地占据据了市场的主主导地位。然而,其严格的的设计定式、为为保证强一致致性而放弃性性能、可扩展展性差等问题题在大数据分分析中被逐渐渐暴露。随之之而来,NooSQL数据据存储模型开开始风行。NNoSQL,也也有人理解为为Not OO

51、nly SSQL,并不不是一种特定定的数据存储储模型,它是是一类非关系系型数据库的的统称。其特特点是:没有有固定的数据据表模式、可可以分布式和和水平扩展。NNoSQL并并不是单纯的的反对关系型型数据库,而而是针对其缺缺点的一种补补充和扩展。典典型的NoSSQL数据存存储模型有文文档存储、键键-值存储、图图存储、对象象数据库、列列存储等。而而比较流行的的,不得不提提到Googgle提出的的Bigtaable。Bigtablle是一种用用于管理海量量结构化数据据的分布式存存储系统,其其数据通常可可以跨成千个个节点进行分分布式存储,总总数据量可达达PB级(110的15次次方字节,1106GB)。HH

52、Base是是其开源实现现。如今,在在开源社区,围围绕Googgle MaapReduuce框架,成成长出了一批批优秀的开源源项目。这些些项目在技术术和实现上相相互支持和依依托,逐渐形形成了一个特特有的生态系系统。这里借借用Clouudera所所描绘的架构构图来展现HHadoopp生态系统。这这个系统为我我们实现优质质廉价的大数数据分析提供供了坚实的技技术基础。使用Stormm实现实时大大数据分析! HYPERLINK 实时 HYPERLINK Stormm HYPERLINK 大数据摘要:随着数据据体积的越来来越大,实时时处理成为了了许多机构需需要面对的首首要挑战。SShruthhi Kumm

53、ar和Siiddharrth Paatankaar在Dr.Dobbs上结合了了汽车超速监监视,为我们们演示了使用用Stormm进行实时大大数据分析。CCSDN在此此编译、整理理。简单和明了,SStorm让让大数据分析析变得轻松加加愉快。当今世界,公司司的日常运营营经常会生成成TB级别的的数据。数据据来源囊括了了互联网装置置可以捕获的的任何类型数数据,网站、社社交媒体、交交易型商业数数据以及其它它商业环境中中创建的数据据。考虑到数数据的生成量量,实时处理理成为了许多多机构需要面面对的首要挑挑战。我们经经常用的一个个非常有效的的开源实时计计算工具就是是 HYPERLINK t _blank Sto

54、rmm Twwitterr开发,通常常被比作“实实时的Haddoop”。然然而Storrm远比Haadoop来来的简单,因因为用它处理理大数据不会会带来新老技技术的交替。Shruthii Kumaar、Sidddhartth Pattankarr共同效力于于Infossys,分别别从事技术分分析和研发工工作。本文详详述了Stoorm的使用用方法,例子子中的项目名名称为“超速速报警系统(SSpeediing Allert SSystemm)”。我们们想实现的功功能是:实时时分析过往车车辆的数据,一一旦车辆数据据超过预设的的临界值 便触发发一个triigger并并把相关的数数据存入数据据库。Sto

55、rm对比Hadooop的批处理理,Storrm是个实时时的、分布式式以及具备高高容错的计算算系统。同HHadoopp一样Stoorm也可以以处理大批量量的数据,然然而Storrm在保证高高可靠性的前前提下还可以以让处理进行行的更加实时时;也就是说说,所有的信信息都会被处处理。Stoorm同样还还具备容错和和分布计算这这些特性,这这就让Stoorm可以扩扩展到不同的的机器上进行行大批量的数数据处理。他他同样还有以以下的这些特特性:易于扩展。对于于扩展,你只只需要添加机机器和改变对对应的toppologyy(拓扑)设设置。Stoorm使用HHadoopp Zookkeeperr进行集群协协调,这样

56、可可以充分的保保证大型集群群的良好运行行。每条信息的处理理都可以得到到保证。Storm集群群管理简易。Storm的容容错机能:一一旦topoology递递交,Stoorm会一直直运行它直到到topollogy被废废除或者被关关闭。而在执执行中出现错错误时,也会会由Storrm重新分配配任务。尽管通常使用JJava,SStorm中中的topoology可可以用任何语语言设计。当然为了更好的的理解文章,你你首先需要安安装和设置SStorm。需需要通过以下下几个简单的的步骤:从Storm官官方下载 HYPERLINK t _blank Sttorm安装装文件将bin/diirectoory解压到到你

57、的PATTH上,并保保证bin/stormm脚本是可执执行的。Storm组件件Storm集群群主要由一个个主节点和一一群工作节点点(workker noode)组成成,通过 ZZookeeeper进行行协调。主节点:主节点通常运行行一个后台程程序 Nimbuus,用于响响应分布在集集群中的节点点,分配任务务和监测故障障。这个很类类似于Haddoop中的的Job TTrackeer。工作节点:工作节点同样会会运行一个后后台程序 Suppervissor,用于于收听工作指指派并基于要要求运行工作作进程。每个个工作节点都都是topoology中中一个子集的的实现。而NNimbuss和Supeervi

58、soor之间的协协调则通过ZZookeeeper系统统或者集群。ZookeepperZookeepper是完成成Superrvisorr和Nimbbus之间协协调的服务。而而应用程序实实现实时的逻逻辑则被封装装进Storrm中的“ttopoloogy”。ttopoloogy则是一一组由Spoouts(数数据源)和BBolts(数数据操作)通通过Streeam Grroupinngs进行连连接的图。下下面对出现的的术语进行更更深刻的解析析。Spout:简而言之,Sppout从来来源处读取数数据并放入ttopoloogy。Sppout分成成可靠和不可可靠两种;当当Stormm接收失败时时,可靠的S

59、Spout会会对tuplle(元组,数数据项组成的的列表)进行行重发;而不不可靠的Sppout不会会考虑接收成成功与否只发发射一次。而而Spoutt中最主要的的方法就是nnextTuuple(),该该方法会发射射一个新的ttuple到到topollogy,如如果没有新ttuple发发射则会简单单的返回。Bolt:Topologgy中所有的的处理都由BBolt完成成。Boltt可以完成任任何事,比如如:连接的过过滤、聚合、访访问文件/数数据库、等等等。Boltt从Spouut中接收数数据并进行处处理,如果遇遇到复杂流的的处理也可能能将tuplle发送给另另一个Bollt进行处理理。而Bollt中

60、最重要要的方法是eexecutte(),以以新的tupple作为参参数接收。不不管是Spoout还是BBolt,如如果将tupple发射成成多个流,这这些流都可以以通过decclareSStreamm()来声明明。Stream Grouppings:Stream Groupping定义义了一个流在在Bolt任任务间该如何何被切分。这这里有 HYPERLINK t _blank Stoorm提供的的6个Strream GGroupiing类型:1. 随机分组组(Shufffle ggroupiing):随随机分发tuuple到BBolt的任任务,保证每每个任务获得得相等数量的的tuplee。2.

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论