大数据项目实施_第1页
大数据项目实施_第2页
大数据项目实施_第3页
大数据项目实施_第4页
大数据项目实施_第5页
已阅读5页,还剩47页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据项目实施

BigDataProjectImplementation阿列克谢AlexeyFilanovskiy数据仓库和大数据全球领导者计划服务器技术产品经理DW&BigDataGlobalLeadersProgramProductmanagerservertechnologies1什么是全球数据仓库领导者计划?

WhataboutGDWLprogram?2什么是全球数据仓库领导者计划?WhataboutGDWLprogram?我们与全球主要的数据仓库和大数据客户一起工作WeareworkingallaroundtheworldwithkeyDataWarehouseandBigDatacustomers我们观察到许多客户的项目实施Wehaveseenmanycustomer’simplementations我们看到很多成功的例子,也有并不如此成功的Wehaveseensuccessfulexamplesandnotsosuccessful我们帮助哪些并不特别成功的客户迈向成功Wehelpedsecondcategorytobecamethefirst今天我们也将利用全球客户的经验来描述大数据之旅如何迈向成功TodayIwilluseworldwidecustomer’sexperiencetodescribehowlookslikeBigDataJourney对我来说,精彩的演示–并不是自己完成的,而是和我们的客户一起Brilliantpresentationforme–notingtodomyself,justcompilecustomer’sslides3为什么我们要谈论这个话题?

Whywearegoingtotalkaboutthis?42012年的大数据BigDatain20125年前大数据引发了大量的热议5yearagotermBigDatahavecreatedalotofbuzz每个人都在谈论它,但只有很少的客户真的做了一些事情Everyonewastalkingaboutit,butonlyveryfewcustomersreallydidsomething这就像是淘金热!

itwaslikeagoldenrush!5淘金热GoldRush62012甚至许多人认为并相信,“大数据”是灵丹妙药,可以治疗任何疾病并解决任何问题Andmanypeoplethoughtandbelieved,that“bigdata”ismagicpill,whichcouldtreatanydiseaseandresolveanyproblem72014年的大数据BigDatain20142年后人们意识到大数据不是万能的2yearslatepeoplerealized,thatBigDataisnotsomethingsacral其中一些人感到失望Someofthemgotdisappointed更多人开始做一些事情,如运行新的项目Otherpeoplestartdoingsomething,runningnewandnewprojects正如Gartner预测的那样AllasGartnerpredicts82016年的大数据BigDatain20162年后大数据已经从炒作循环曲线中消失2yearslateBigDatahasdisappearedfromthehypecyclecurve现在它是一个技术堆栈,被许多客户所使用!Nowit’satechnologystack,whichusedbymanycustomers!9什么是“大数据项目”?

Whatisthe“bigdataproject”?10什么是“大数据项目”?Whatisthebigdataproject?1)不要将大数据项目视为技术替代项目。它是技术演变。其中一个情况:有些客户开始打算启动将所有关系数据库,并将其替换为大数据(Hadoop,NoSQL...)

1)Don’tthinkaboutBigDataprojectasreplacementproject.It’sevolution.Therearesomecustomers,whostartwithintentiontokick-offallrelationaldatabasesandreplaceitwithBigData(Hadoop,NoSQL…).Oneofthestory:*时间表-2014年:“我们的CIO定义了目标-用新的大数据技术取代所有关系数据库”(C)一家香港公司*Timeline–2014: “OurCIOdefinethegoal–replaceallrelationaldatabaseswithnewbigdatatechnologies”(C)HongKongBasedcompany*时间线-2015年:“我们开始实施......过了一段时间,我们意识到,考虑到我们的技术资源,这样做几乎是不可能的。我们不是谷歌,也没有100位开发人员维护这个解决方案“(C)同一家香港公司*Timeline–2015: “Westartedimplementation…andafterawhile,werealizedthatit’salmostimpossibletodothis,givenourtechnicalresources.WearenotGoogleanddon’thave100softhedevelopersformaintainthissolutions”(C)HongKongBasedcompany*时间线-2016:“我们开始考虑混合解决方案,比如Hadoop或NoSQL等现代大数据技术对传统技术的补充(而不是取而代之)”(C)还是这家香港公司*Timeline–2016:“Westartthinkingabouthybridsolution,likecomplement(insteadreplacing)tothetraditionaltechnologiesbymodernBigDatatechnologies,suchasHadooporNoSQL”(C)HongKongBasedcompany11参考架构(Referencearchitecture)12虚拟化和查询联合Virtualisation&QueryFederation企业绩效管理EnterprisePerformanceManagement预建和即席分析BI资产Pre-built&

Ad-hoc

BIAssets信息服务Information

Services数据摄取DataIngestion信息解释InformationInterpretation访问和性能层Access&PerformanceLayer基础数据层FoundationDataLayer原始数据RawDataReservoir数据科学Data

Science数据引擎和多结构数据源DataEngines&

Poly-structured

sources内容Content文档Docs网络和社交媒体Web&SocialMediaSMS结构化数据源StructuredData

Sources运营数据(OperationalData)COTS数据(COTSData)流数据和BAM(Streaming&BAM)不可变的原始数据,原始数据不需要解释ImmutablerawdatareservoirRawdataatrestisnotinterpreted不可改变的建模数据。业务流程中性形式。从业务流程变更中抽象出来Immutablemodelleddata.BusinessProcessNeutralform.Abstractedfrombusinessprocesschanges过去,现在和将来的企业数据解读。结构化以支持敏捷的访问和导航Past,currentandfutureinterpretationofenterprisedata.Structuredtosupportagileaccess&navigation发现探索实验室沙箱DiscoveryLabSandboxes快速开发沙箱RapidDevelopmentSandboxes基于项目的数据存储以支持特定的数据发现和探索目标Projectbaseddatastorestosupportspecificdiscoveryobjectives基于项目的数据存储,以促进快速内容/展现交付Projectbaseddatastoredtofacilitaterapidcontent/presentationdelivery数据源DataSources主数据和参考数据源Master&Reference

DataSourcesHDFS–读架构HDFS–Schemaonread甲骨文数据库-写架构OracleDatabase–Schemaonwrite企业数据服务(EnterpriseDataService)提供高质量的数据环境,为不同的用户群体提供有意义的信息和商业智能,以获得特定的业务成果Deliveringahighqualitydataenvironmentthatprovidesmeaningfulinformationandbusinessintelligencetoadiverseusercommunityinordertoachievespecificbusinessoutcomes13金Gold业务验证的计算和转换被确定为对质量至关重要管理和制定以适应商业实践BusinessvalidatedcomputationsandtransformationsIdentifiedascriticaltoqualityManagedandformulatedtofitbusinesspractices集成的,结构化的,定义的Integrated,Structured,Defined经过业务认证和验证,管理人员定义关键数据质量信息BusinessCertifedandvalidatedStewardsdefinecriticaltoqualitydataprofile银SilverIT数量验证(收到的数据是数据加载的);IT针对源系统进行了验证;IT格式认证(空值,数字与字符,与源系统相同的质量)ITQuantityvalidation(datareceivedisdataloaded);ITvalidatedagainstsourcesystems;ITformatcertified(nulls,numbervschar,samequalityassourcesystem)最小操纵的数据Minimallymanipulateddata铜Bronze数据直接来源于数据源DatadirectlyfromsourceLGCNS大数据业务扩张(BigDataBusinessExpansion)

14主动预测predictive被动响应Reactive业务创新(物联网等)NewBizCreation(IoT…)I.智慧商务智能/数据仓库SmartBI/DW传统商务智能/数据仓库TraditionBI/DW业务分析“解决问题”BusinessAnalytics"ProblemSolving"大数据/混合架构BigData/HybridArchitectureIII.大数据分析(如社交媒体分析)III.BigDataAnalytics(SocialMediaAnalytics)II.混合信息架构II.HybridInformationArchitectureLGCNS是众多客户之一,他们对传统数据仓库进行了现代化改造LGCNSisoneofthemanycustomers,whomadeamodernizationofthetraditionalDataWarehouseCaixa银行是成功实施混合架构的另一个例子CaixaBankisanotheroneexampleofsuccessfulimplementationofHybridArchitecture架构信息架构模型分层描述Garanti银行是成功实施混合架构的另一个例子GarantiBankisanotheroneexampleofsuccessfulimplementationofHybridArchitectureGaranti银行–智能和分析平台全数据管理平台:更好的洞察力,实时供应,降低风险阿尔法银行AlfaBank什么是大数据项目?Whatisthebigdataproject?1)不要将大数据项目视为关于替换项目。它是技术演变。Don’tthinkaboutBigDataprojectasaboutreplacementproject.It’sevolution.2)新技术(大数据)允许存储更多数据。如果以前的方式是:“考虑你加载到数据库中的内容”,现在它已经被转换为:“把你拥有的所有数据放在Hadoop(数据池)层上”。您对加载到系统中的数据所需要做的选择性会降低。这是关于数据量Newtechnologies(BigData)allowstostoremoredata.Ifpreviousphilosophywas:“thinkwhatdoyouloadintoDatabase”,nowithavebeenconvertedinto:“PuteverythingyouhaveontheHadoop(Datapool)tier”.Youcouldbelessselectivewithdatathatyouloadintothesystem.it’saboutvolume3)这意味着您可以将更多可变数据存储到您的单一系统(非结构化,半结构化,结构化)Itmeansthatyoumaystoremorevariabledataintoyoursinglesystem(unstructured,semi-structured,structured)18Hadoop允许存储大量数据,SunTrust从单一逻辑位置的不同来源获取数据Hadoopallowstostorebigamountofdata,whichSunTrustgetsfromdifferentsourcesinsinglelogicalplace甲骨文大数据数据量增长(OracleBigDataGrowthVolumes)假设持续增长,未压缩估计,不包括HDFS复制Assumedconsistentgrowth,Uncompressedestimates,NotincludingHDFSreplication国际足联正试图预测足球(足球)比赛中的欺诈行为,因此他们需要来自不同来源的信息,这些信息来自不同的格式。Hadoop允许轻松将其放置在HDFS上FIFAistryingtopredictfraudinfootball(soccer)games,fromthistheyneedinformationfromdifferentsources,whichtheygotindifferentformats.HadoopallowseasilylanditontheHDFS运动数据相关的初始需求范围将是:赛程和现场比分(黄牌和红牌,罚球......)球队排队桌子/表格比赛对抗过去的球队比赛(友谊赛,杯赛等)所有4名裁判(裁判员,边裁等)球员和球队的表现通过完成情况跑步距离铲球情况犯规...投注相关信息预期值…澳大利亚能源公司的传统架构看起来像一个纠结的网络。HDFS是一种数据总线,它可以将所有数据源都放置在那里LegacyarchitectureofEnergyAustralialookslikeatangledWeb.HDFSiskindofdatabus,wheretheyabletolandalldatasourcesSmart是菲律宾最大的电信运营商之一,它存储结构化数据-CDR,但数据量巨大!SmartisoneofthebiggestTelcooperatoronthePhilippines,storesprettystructuredata–CDRs,butvolumeishuge!初始环境节点数HDFS总容量回顾什么是大数据项目?Whatisthebigdataproject?Recap1)不要将大数据项目视为关于替换项目。它是技术演变。Don’tthinkaboutBigDataprojectasaboutreplacementproject.It’sevolution.2)新技术(大数据)允许存储更多数据。如果以前的方式是:“考虑你加载到数据库中的内容”,现在它已经被转换为:“把你拥有的所有数据放在Hadoop(数据池)层上”。您对加载到系统中的数据所需要做的选择性会降低。这是关于数据量Newtechnologies(BigData)allowstostoremoredata.Ifpreviousphilosophywas:“thinkwhatdoyouloadintoDatabase”,nowithavebeenconvertedinto:“PuteverythingyouhaveontheHadoop(Datapool)tier”.Youcouldbelessselectivewithdatathatyouloadintothesystem.it’saboutvolume3)这意味着您可以将更多可变数据存储到您的单一系统(非结构化,半结构化,结构化)Itmeansthatyoumaystoremorevariabledataintoyoursinglesystem(unstructured,semi-structured,structured)23成功的大数据项目的关键点

KeyaspectsofthesuccessfulBigDataProject24成功的大数据项目的关键点KeyaspectsofthesuccessfulBigDataProject1)想象一个“钱钮”,只要你按下它,你就会获得钱。有没有想过?现在忘记吧

。此按钮不存在!Thinkaboutone“moneybutton”,whichbringsmoneytoyouassoonasyoupressit.Havethought?Andnowforget

.Thisbuttondoesn’texist!2)艰苦的项目工作是一个关键的成功因素。做测试,试点,到项目。Hardprojectworkisakeysuccessfactor.DoPoCs,Pilots,Projects.3)通常,客户会有许多大数据项目。但是有一个超级有利可图的项目却是非常罕见的。Usually,customershavemanyBigDataprojects.It’sveryrare,whensomeonehasonesupergoldprofitableproject25一年以来,罗氏进行了许多测试和试点。并非所有的人都成功了。ForoneyearRocherunmanyPoCandPilots.Notallofthemhavebeensuccessful.大约有20个测试已经发生/正在进行中About20PoCswereconducted/beingconducted肿瘤图像坐标的空间分析Spatialanalysisontumorimagescoordinates人力资源人员分析HRpeopleanalytics新一代测序数据处理Nextgenerationsequencingdataprocessing预测性维护的统计模型StatisticalmodelforpredictivemaintenancesTeradata连接器Teradataconnector从2015年开始Since20155个应用程序5liveapplications2017年有5个新应用程序5additionalappsin2017在2016年4月,CaixaBank拥有76个大数据项目AtApril2016CaixaBankhad76BigDataProjects项目组合项目组合项目类型Garanti银行经营许多项目,涉及许多业务挑战Garantibankrunsmanyprojectswithmanydivisions,relatedwithmanybusinesschallenges预警系统下一个最佳供应客户社交网络分析数据治理客户DNA城市分析数据水池7个支柱成功的大数据项目的关键点KeyaspectsofthesuccessfulBigDataProject1)想象一个“钱钮”,只要你按下它,你就会获得钱。有没有想过?现在忘记吧

。此按钮不存在!Thinkaboutone“moneybutton”,whichbringsmoneytoyouassoonasyoupressit.Havethought?Andnowforget

.Thisbuttondoesn’texist!2)艰苦的项目工作是一个关键的成功因素。做测试,试点,到项目。Hardprojectworkisakeysuccessfactor.DoPoCs,Pilots,Projects.3)通常,客户会有许多大数据项目。但是有一个超级有利可图的项目却是非常罕见的。Usually,customershavemanyBigDataprojects.It’sveryrare,whensomeonehasonesupergoldprofitableproject4)正在成功实施大数据项目的公司通常拥有CDO(首席数据官)来指明方向。通常他/她是权力和决策者的中心Companies,whoisdoingsuccessfulBigDataprojects,usuallyhaveCDO(ChiefDataOfficer),wholeadthisdirection.Usuallyhe/sheisthecenterofthepoweranddecisionmaker5)创新。创建并运行研究实验室和研发部门。技术允许您存储更多数据和更多数据格式。但它本身并不能解决您的业务挑战。Beinnovative.OpenandruntheresearchlabsandR&D.Technologiesallowyoutostoremoredataandmoredataformats.Butitdoesn’tsolveyourbusinesschallengesitself.29阿尔法银行创新实验室AlfaBankinnovativeLab30德意志银行实验室DeutscheBankLab31主题探索主题生态系统观测技术趋势DeutscheBankStrategicRoadmap德意志银行策略路线跨行业趋势成功的大数据项目的关键点KeyaspectsofthesuccessfulBigDataProject1)想象一个“钱钮”,只要你按下它,你就会获得钱。有没有想过?现在忘记吧

。此按钮不存在!Thinkaboutone“moneybutton”,whichbringsmoneytoyouassoonasyoupressit.Havethought?Andnowforget

.Thisbuttondoesn’texist!2)艰苦的项目工作是一个关键的成功因素。做测试,试点,到项目。Hardprojectworkisakeysuccessfactor.DoPoCs,Pilots,Projects.3)通常,客户会有许多大数据项目。但是有一个超级有利可图的项目却是非常罕见的。Usually,customershavemanyBigDataprojects.It’sveryrare,whensomeonehasonesupergoldprofitableproject4)正在成功实施大数据项目的公司通常拥有CDO(首席数据官)来指明方向。通常他/她是权力和决策者的中心Companies,whoisdoingsuccessfulBigDataprojects,usuallyhaveCDO(ChiefDataOfficer),wholeadthisdirection.Usuallyhe/sheisthecenterofthepoweranddecisionmaker5)创新。创建并运行研究实验室和研发部门。技术允许您存储更多数据和更多数据格式。但它本身并不能解决您的业务挑战。Beinnovative.OpenandruntheresearchlabsandR&D.Technologiesallowyoutostoremoredataandmoredataformats.Butitdoesn’tsolveyourbusinesschallengesitself.6)培育人才。公司内部。在大学里(像Caixa银行一样)Growupthepersonnel.Insidethecompany.Intheuniversity(likeCaixaBankdoes)7)让你的系统更加用户友好。更友好就意味着更少的IT工作Makeyousystemsmoreuserfriendly.Thanmorefriendlytheyare,thanlessworktotheIT33Borse集团BorseGroupIT转型让业务人员能开发IT系统成功的大数据项目的关键点KeyaspectsofthesuccessfulBigDataProject1)想象一个“钱钮”,只要你按下它,你就会获得钱。有没有想过?现在忘记吧

。此按钮不存在!Thinkaboutone“moneybutton”,whichbringsmoneytoyouassoonasyoupressit.Havethought?Andnowforget

.Thisbuttondoesn’texist!2)艰苦的项目工作是一个关键的成功因素。做测试,试点,到项目。Hardprojectworkisakeysuccessfactor.DoPoCs,Pilots,Projects.3)通常,客户会有许多大数据项目。但是有一个超级有利可图的项目却是非常罕见的。Usually,customershavemanyBigDataprojects.It’sveryrare,whensomeonehasonesupergoldprofitableproject4)正在成功实施大数据项目的公司通常拥有CDO(首席数据官)来指明方向。通常他/她是权力和决策者的中心Companies,whoisdoingsuccessfulBigDataprojects,usuallyhaveCDO(ChiefDataOfficer),wholeadthisdirection.Usuallyhe/sheisthecenterofthepoweranddecisionmaker5)创新。创建并运行研究实验室和研发部门。技术允许您存储更多数据和更多数据格式。但它本身并不能解决您的业务挑战。Beinnovative.OpenandruntheresearchlabsandR&D.Technologiesallowyoutostoremoredataandmoredataformats.Butitdoesn’tsolveyourbusinesschallengesitself.6)培育人才。公司内部。在大学里(像Caixa银行一样)Growupthepersonnel.Insidethecompany.Intheuniversity(likeCaixaBankdoes)7)让你的系统更加用户友好。更友好就意味着更少的IT工作Makeyousystemsmoreuserfriendly.Thanmorefriendlytheyare,thanlessworktotheIT8)做数据探索。大数据不仅仅是关于静态报告。你必须探索数据。你必须从数据中挖掘价值DodataDiscovery.BigDatait’snotonlyaboutstaticreporting.Youhavetoexplorethedata.Youhavetominevaluesfromthedata35分析工具组合已知的问题已知的数据来源未知的问题未知的数据来源数据探索数据挖掘商务智能我们现在的分析工具覆盖了所有可能的分析类型最常见的应用场景

Mostcommonusecases37最常见的应用场景Mostcommonusecases1)数据池-将所有数据存储在一个地方。存储各种格式的大量数据在同一个地方。几乎所有Oracle大数据客户都在为此使用HadoopDatapool–storealldatainsingleplace.Storebigdatavolumes,varietyoftheformatsinthesingleplace.AlmostallOracleBigDatacustomersareusingHadoopforthispurposes38Garanti银行最常见的应用场景39数据池结构化数据StructureData半结构化数据SemiStructured非结构化数据Unstructured信用卡行为客户财务客户行为信贷智能应用位置系统和应用日志渠道日志(ATM互联网,IVR,CC)

点击流数据客户投诉社交媒体数据语音到文字最常见的应用场景Mostcommonusecases1)数据池-将所有数据存储在一个地方。存储各种格式的大量数据在同一个地方。几乎所有Oracle大数据客户都在为此使用HadoopDatapool–storealldatainsingleplace.Storebigdatavolumes,varietyoftheformatsinthesingleplace.AlmostallOracleBigDatacustomersareusingHadoopforthispurposes2)数据池提供对广泛信息的访问。如果您的企业有很多客户,那么创建360视图配置文件以向他提供目标报价相当常见Datapoolprovidesaccesstowidescopeoftheinformation.AndIfyourbusinesshasalotofcustomers,it’squitecommontocreate360viewprofile,formakingtargetofferstohim40AdNoc360视图(360view.AdNoc.)AdNoc是阿联酋的天然气公司AdNocisGascompanyinUAE他们几乎在每个加油站都有小超市TheyhaveminimarketalmostontheeachGasstation根据客户的消费情况,他在采购期间实时获得相应的报价Basedonthecustomer’sspendingprofile,hegetcorrespondingofferinreal-timeduringthepurchasing大数据潜在应用场景2(目标客户促销)中国东方航空360视图(360view.ChinaEasternAirlines)这是业务场景实施的基础Smart360视图(360view.Smart)超级定位使用数据汇总来改进广告系列定位客户资料验证使用信息提供额外的信用验证或分析输入AlfaBank360视图。基于背景信息提供最佳优惠信息360view.AlfaBank.NextBestOffer,basedontheprofile根据运营历史和个人喜好,客户最好的纪念品是泰迪熊!西班牙电信360视图(360view.Telefonica)西班牙电信将客户分类并试图预测电视节目或电影,这对具体的人来说会很有意思TelefonicacategorizethecustomersandtryingtopredictTVshowormovie,whichwillbeinterestingfortheconcreteperson我

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论