集大数据之成

上传人：我*** IP属地：北京上传时间：2024-03-10 格式：PPTX 页数：34 大小：6.81MB 积分：15 举报 版权申诉

已阅读5页，还剩29页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

12集大数据之大成大数据信息整合是Hadoop项目成败的关键以上统计源自：Extract,Transform,andLoadBigDataWithApacheHadoop-Whitepaper:

大部分客户80%大数据项目开发任务集中在数据整合阶段少部分客户大部分Hadoop方案包括以下阶段：数据收集数据移动数据转换数据清洗数据整合数据探查数据分析基于海量的，互不相关的数据源和数据类型BigDataIntegrationChallenges20%大数据项目开发任务集中在数据分析阶段为什么80%的工作量是数据集成？数据源的多样性优化性能数据问题缺失或不良的需求复杂性缺少数据理解多种格式要想实施成功的项目，有意义和准确的数据不应该成为问题。因此，数据需要符合业务要求和业务规范，以便正确的和持续使用数据。限制因素–传统数据和大数据4数据质量从数据池获取可消费的数据TheDataLakeunfetteredAddingintegration&governancediscipline5Hadoop是一个吸引人的，令人兴奋的引擎。

但是就其本身而言，它是：没有数据治理的一切都需要手工定制需要传统开发人员花昂贵代价学习开发技巧没有涵盖数据质量和数据世系概念

HadoopisjustnotasolutionforBigDataIntegration

因此今天大部分BigData项目看上去就像：客户需要可预测成本一个可以迅速落地的替代解决方案BigDataIntegrationChallengesAlthoughmanyHadoopprojectsperformETLworkstreams,HadooplacksthenecessarykeyfeaturesofcommercialdataIntegrationtoolsHadoop缺乏关键的商业化数据集成组件ApurelyHadoop-basedapproachtodataintegrationwillrequirecustomcodeandthereforehighercoststomaintainandChange一个纯粹的基于Hadoop数据集成方案需要客制化开发，因此维护和变更成本更高Atfacevalue,ETLisaprettytrivialproblem.WellitturnsoutthatETLishardforanumberofdifferentreasons.ETL实际上是一个很难落地的过程…usehigherleveltoolswheneverpossible.尽可能使用产品化工具DataaccessibilityisprobablyoneoftheproblemsthatalotofCloudera’scustomersI’veworkedwithhavefoughtwiththemost.数据可达性是Cloudera大部分客户最常遇到的问题IfyouwanttodosomethingtriviallikejointwodatasetsandyouwanttowritethisinJavaMapReduce,it’sprettypainful.在JavaMapReduce中关联琐碎的数据是相当痛苦的Metadataiscritical.MorethanjustDDL.除了DDL，元数据是重中之重！*See&redistributeGartner:HadoopIsNotaDataIntegrationSolution,MervAdrian,TedFriedman,January2013**SeepublicpresentationfromHadoopSummit:EricSammer,EngineeringManager,ClouderaSeeacomparisonofInformationServerversusopensourcetooling:ITG:BusinessCaseforEnterpriseDataIntegrationStrategy:ComparingIBMInfoSphereInformationServerandOpenSourceTools(2013)太昂贵！风险太高！局限太多！BigData‘新’玩家

和‘老’玩家都认可:Hadoop不是一个数据集成解决方案

老玩家:

参照Gartner*新玩家:

参照Cloudera**BigDataIntegrationChallenges五个最佳实践任何地点，任何目的都无需手工代码统一的企业级数据集成和数据管治平台海量数据集成扩展性跨企业的世界级数据管治强大的跨企业的管理和操作控制12345BigDataIntegrationChallenges最佳实践#1

任何地点，任何目的都无需手工代码大数据集成的任何方面都无需手工开发代码

--CodelessforANYTHING!!!这意味着更低的成本DItoolingreduceslaborcostsby90%overhandcodingOnesetofskillsandbestpracticesleveragedacrossallprojects更快的时间DItoolingreducesprojecttimelinesby90%overhandcodingMuchlesstimerequiredtoaddnewsourcesandnewDIprocesses更高的数据质量Dataprofilingandcleansingareverydifficulttoimplementusinghandcoding更有效的数据管治requiresworld-classdataintegrationtoolingtosupportobjectiveslikeimpactanalysisanddatalineageSomecustomershaveseenupto87%costsavingswhenusingInfoSphereInformationServervshandcodingBigDataIntegrationChallenges连通性：丰富的大数据源接口高速，并行读写HDFSBigDataFileStageCommonJDBCConnectorApacheDerbyIBMBigInsightsSQLDrivers其他大数据和NoSQL数据源InfoSphereStreamsConnectorODBCforHive其他BigData/NoSQLSources:Hive,Hbase,MongoDB,Cassandra,ApachAvro,Jaql…etc.Sample:JSONAddedtotheXMLStageServer和Parallel任务读和写不需要XSDSupportevenmoreconnectivitywithInformationServer!连通性：JSON示例{"firstName":"Homer","lastName":"Simpson","relatives":[”Abe","Marge",”Bart","Lisa",”Maggie"]}连通性：实时整合InfoSphereStreams连接器1) 用户希望向现有DataStage作业添加Streams分析2) 用户希望向现有Streams应用添加DataStage处理3) 从头创建一个DataStage作业和Streams应用。

这些整合可能具有以下数据流：• DataStage->Streams• DataStage->Streams->DataStage• Streams->DataStage连通性：实时整合InfoSphereCDC用于大数据13InfoSphere

数据复制应用程序事务日志高速双向数据对实时信息的低延迟捕获分析极大规模的移动信息每秒TB级数据，每天PB级数据。分析各种信息分析原生格式的各种信息–流音频、视频、空间等信息非扩散性的记录捕获从事务数据库日志中读取数据，将数据分发给任何目标–包括BigDataStreams、ETLforWarehouses或BigInsightsRDBMS

消息队列ETLHadoop系统流系统仓库BDFS示例

客户情绪倾向性分析作业可以通过分析电子邮件在InfoSphereBigInsights中执行。客户情绪倾向性摘要将被更新到仓库中。InfoSphereDataStage作业将挑选信息并更新数据仓库（使用SCD阶段的客户维度）可执行基于分类的电子邮件的风险识别。可以将电子邮件分类为高风险和低风险。分析作业输出风险分类BigDataIntegrationChallenges最佳实践#2

统一的企业级数据集成和数据管治平台作业构建一次，即可在企业内任意平台上运行而无需改动企业内任意访问，移动，装载各类数据源支持各种数据集成场景：批量处理数据联邦CDC面向SOA的数据集成任务实时数据的完整性业务用户自助服务支持建立世界级的跨企业数据治理大数据集成支持按需自助服务这意味着BigDataIntegrationChallenges新用户以灵活、简单的方式检索数据的能力–“只需两次次单击”只需几次单击，便可在文件/数据库与BigInsights之间移动数据满足需求，以便：生成用于个人开发工作的沙盒用户界面显示了一些策略选项，

无需任何编码即可将它们自动化。基于所选的策略和源系统功能来

利用InfoSphereDataStage和

InfoSphereDataReplication。整合的设计和操作元数据，用于

内置治理

用于大数据的InfoSphereDataClick：敏捷和可控的整合DB2/

ORACLEInfoSphereDataClickBigInsights分析应用数据仓库转换/复制分析存储分析DS/

CDC允许任意授权用户获取/共享数据自动注册元数据其他增强包括：新的主页监控基于网页的授权扩充了连通性，包括AmazonS3,hadoop,odbc,jdbc,nativeoracle&db2DataClick…数据整合自服务fordatalake最佳实践#3

海量数据集成扩展性一次设计Developthelogicinthesamemannerregardlessofexecutionplatform任意扩展Executethelogicinanyofthe5patternsforscalabledataintegration…nosinglepatternissufficient这意味着?InfoSphereInformationServeristheonlyBigDataIntegrationplatformsupportingall5oftheseusecasesBigDataIntegrationChallengesCase1.InfoServer并行引擎可以独立处理任何传统数据源Case2.下推处理到并行数据库Case4.下推处理到HadoopMapReduceCase5.InfoServer并行引擎不借助M/R，独立处理HDFSOutsideHadoopEnvironmentWithinHadoopEnvironmentCase3.在Hadoop内外并行移动和处理数据海量数据扩展性:你需要知道的

成功的大数据信息集成需要海量数据扩展性对数据量，吞吐量，处理器数量和节点数没有任何限制通过简单增加硬件即可处理更多数据第一时间处理更多，更高价值的业务问题确保新增硬件获得可预测的性能和收益SourceslegacyappsdbsXls.,xml,flatwarehousez/OSBusinessInitiativesBISAPWarehouseMDMDataProcessingSystem–SoftwareandHardwareBigDataIntegrationChallenges20海量数据扩展性要求合适的架构：

包括四个关键特征绝大多数可扩展的平台，为支持四个关键扩展性特征都做了特别的设计-例如:TeradataGreenplumPureDataforAnalyticsDB2DPFInformationServer一个SharedNothing的架构使用软件实现数据流利用数据分区获取线性扩展性运行结果和设计环境隔离手工代码很难支持四个关键特征一个错误的架构会导致客户必须将ETL流程下推到数据库或者HadoopMapReduce.Note:这即是‘ETLPushdown’或ELT这将也许导致一些严重的问题BigDataIntegrationChallenges作业设计:

通过图形化设计时，只创建一个数据流作业运行:

串行或并行sequential4-wayparallel128-wayparallel底层硬件128ProcessorMPPUni-processorSMPInfoSphereInformationServer支持海量数据扩展超高的速度读写HadoopInfoSphereInformationServerEthernet(10Gbit)Server:IntelWestmere-EX(4sockets)CPU:Intel(R)Xeon(R)CPUE7-4870@2.40GHzMemory:1TBStorage:1TBServers:x3630M3NumberofSystems:26NumberofSystemsusedforBDFSTest:5CPU:Intel(R)Xeon(R)CPUX5675@3.07GHzMemory:48GBStorage:4TBInfoSphereBigInsights1DataStagemachineBDFSread 3.6TB/hrBDFSwrite 3.6TB/hr2DataStagemachinesBDFSread 5.2TB/hrBDFSwrite 4.1TB/hr

(HDFSdatanodediskbusy100%)BigDataIntegrationChallengesBDFS数据流程图名称节点文件请求BDFS数据节点BDFS数据数据PXPXBDFS使用多个读取器流程并行化HDFS读取InfoSphereDataStageBigDataIntegrationChallenges动态的

Instantlygetbetterperformanceashardwareresourcesareadded可扩展的

Addanewservertoscaleoutthroughsimpletextfileedit(or,ingridconfig,automaticallyviaintegrationwithgridmanagementsoftware).数据分区

IntrueMPPfashion(likeHadoop)datapersistedintheDIparalleltoscaleouttheI/O.SourceDataTransformCleanseEnrichEDWInfoSphereInformationServerISBigDataIntegrationDiskCPUMemorySequentialDiskCPUSharedMemoryCPUCPUCPU4-wayParallel64-wayParallelUniprocessorSMPSystemMPPClusteredSystemBigDataIntegrationChallenges在哪里运行可扩展的数据集成？运行在Database上优点:ExploitdatabaseMPPengineMinimizedatamovementLeveragedatabaseforjoins/aggregationsWorksbestwhendataisalreadycleanFreesupcyclesonETLserverUseexcesscapacityonRDBMSserverDatabasefasterforsomeprocesses缺点:VeryexpensivehardwareandstorageCanforce100%relianceonELTDegradationofquerySLAsNotallETLlogiccanbepushedintoRDBMS(withELTtoolorhandcoding)Can’texploitcommodityhardwareUsuallyrequireshandcodingLimitationsoncomplextransformationsLimiteddatacleansingDatabaseslowerforsomeprocessesELTcanconsumeRDBMScapacity(capacityplanningisnontrivial)运行在ETL引擎上优点:ExploitETLMPPengineExploitcommodityhardwareandstorageExploitgridtoconsolidateSMPserversPerformcomplextransforms(datacleansing)thatcan’tbepushedintoRDBMSFreeupcapacityonRDBMSserverProcessheterogenousdatasources(notstoredinthedatabase)ETLserverfasterforsomeprocesses缺点:ETLserverslowerforsomeprocesses(dataalreadystoredinrelationaltables) Mayrequireextrahardware(lowcosthardware)运行在Hadoop上优点:ExploitMapReduceMPPengineExploitcommodityhardwareandstorageFreeupcapacityonthedatabaseserverSupportprocessingofunstructureddataExploitHadoop’scapabilitiesforpersistingdata(e.g.updatingandindexing)Lowcostarchivingofhistorydata缺点:NotallETLlogiccanbepushedintoRDBMS(withELTtoolorhandcoding)CanrequirecomplexprogrammingMapReducewillusuallybemuchslowerthanparalleldatabaseorscalableETLtoolRisk:Hadoopisstillayoungtechnology大数据信息集成解要求一个平衡的解决方案以支持上述场景BigDataIntegrationChallenges大数据信息集成也需要在HadoopMapReduce环境之外，具备处理扩展性数据集成任务的能力。MapReduceisS-L-O-W

当处理某些整合逻辑时，MapReduce有着众所周知的性能局限性：

--处理大数据量复杂转换时，如大表关联

--许多大数据供应商和研究人员正在寻找规避MapReduce性能缺陷的方法负载数据集成逻辑不能简单有效地被下推到并行数据库或MapReduce,某些场景甚至完全不可行

--基于IBM在众多客户早期Hadoop项目的经验，显示了数据集成过程不易被下推到MapReduce

--如果没有InfoSphereinformationServer,这些更复杂的数据集成过程必须在MapReduce中手工开发代码，导致更长的项目周期，更昂贵的成本，更高的项目复杂度。(Note:InfoSphereDataStagecanprocessdataintegration10X-15XfasterthanMapReduce)你也许想知道为什么ETLPushdown(orELT)到MapReduce对大数据信息集成是远远不够的BigDataIntegrationChallenges最佳实践#4跨企业的世界级数据管治这意味着IT和业务部门都需要高可信度的数据可信的数据要求高质量，高安全性，符合业务目标报表数据从哪里来?数据在Hadoop中做了什么处理？数据进入数据池之前在哪里?通常这些需求来源于行业内的特定规则BigDataIntegrationChallenges你的业务用户如何理解存储在大数据中的信息内容？

你是否正在评估BigData的数据质量？?为什么数据管治对大数据很关键？报表数据从哪里来?数据在Hadoop中做了什么处理？数据进入数据池之前在哪里?BigDataIntegrationChallenges29大数据清洗（验证、充实和匹配）对传统数据和大数据的统一和整合访问验证、标准化、充实和匹配数据值得信任的数据存储实现了整体视图业务洞察事务数据传统应用源社会网络视频和照片整合数据质量仓库风险仪表板流计算最佳实践#5

强大的跨企业的管理和操作控制这意味着大数据信息集成运行维护当监控运行环境时，为运维人员，开发人员和其他人员，提供快速解答负载管理为共享的繁忙系统调配资源，设定运行优先级性能分析提供了洞察资源消耗的能力，帮助估算生产系统可能需要的资源。构建工作流，包括HadoopOozie定义的工作流及其他数据集成工作流大数据信息集成系统管理基于Web的安装自动配置以满足24*7的HA要求

迅速部署新的工程实例集中身份验证，授权和线程管理安全相关的审计日志，以满足SOX合规BigDataIntegrationChallenges价值：适用于大数据整合和治理的InfoSphereInformationServerInformationServer(IS)影响：更低的TCO和更快的速度设计点专为数据整合而定制IS提供了高得多的性能、适用性、功能和更低的成本。架构MPP管道和分区架构表明，数据磁盘着路仅适用于进行排序或显式指定时。执行的延迟较低。IS可为许多常见的数据整合流程提供超过

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

集大数据之成

文档简介

温馨提示

最新文档

评论

集大数据之成

文档简介

温馨提示

最新文档

评论

相关文档