




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、.大数据胜利关键 - - 高效地实现大数据的挪动刘春霞liuchunxcn.ibmIBM软件部资坚信息整合顾问.3InfoSphere:维护信息供应链信息治理治理质量平安和隐私生命周期规范事务和协作运用业务分析运用外部信息源分析整合管理多维数据集流大数据主数据内容数据流信息数据仓库内容分析整合和清洗.Thirst for Information可靠信息挪动的速度矫捷用户想要快速地访问数据,几分钟内和小时级内如自主的数据整合)对分析的需求两者都需求!权威性 在一个流程框架内内的可靠信息防止信息冗余需求矫捷和可靠的数据访问.任何数据到大数据大数据到任何数据大数据中心批量数据整合用于大数据任何数据E
2、TL / ELTETL / ELTELT加载获益利用探求性分析方法最正确性能/最小批处置窗口和实时流数据提取获益从多种来源提取数据:机器数据、社交数据、多构造成熟的整合工具,更高的消费力数据中心获益以大数据方式产生和分析的数据 从不去除用于完成大数据运转时内的任务的图形工具将现有的企业数据引入一个探求性分析平台将社交数据和机器数据引入一个企业数据仓库系统自动化一个低本钱数据暂存区域的工具对数据的推送处置不是其他方法.BigInsightsHadoopInfoSphere BigInsights 的批量数据整合集市 数据仓库仓库集市DataStage数据库FilesFiles文件并行写入Data
3、Stage子集并行读取细节和摘要.与大数据来源交换信息将企业信息转移到大数据来源,使它可包含在分析中获取 Hadoop 的分析结果,并将它们运用于其他 IT 处理方案并行性和规模对 HDFS 的支持经过信息效力器并行引擎提供了大规模可伸缩性作业血缘与大洞察来源/目的步骤运用信息效力器中的扩展性功能大数据文件组件.运用 BDFS 作为来源BDFS 引入了新来源选项 Namenode Cluster Host 和 PortBDFS 可并行读取文件方式BDFS 可运用 Readers 选项并行读取单个文件.BDFS 数据流程图称号节点文件恳求BDFS数据节点BDFS数据数据PXPXBDFS 运用多个
4、读取器流程并行化 HDFS 读取InfoSphere DataStage.运用 BDFS 作为目的BDFS 引入了新的目的选项 Namenode Cluster Host 和 PortBDFS 通常写入单个文件BDFS 可以并行写入多个文件.BDFS 例如 客户心情倾向性分析作业可以经过分析电子邮件在 InfoSphere BigInsights 中执行。客户心情倾向性摘要将被更新到仓库中。InfoSphere DataStage 作业将挑选信息并更新数据仓库运用 SCD 阶段的客户维度可执行基于分类的电子邮件的风险识别。可以将电子邮件分类为高风险和低风险。分析作业输出风险分类.12BDFS:
5、可扩展性和性能Information Server Big data integrationDataStage Nodes (2)Server: Intel Westmere-EX (4 sockets)CPU: Intel(R) Xeon(R) CPU E7- 4870 2.40GHzStorage: 1TB BigInsights NodesServers: x3630 M3Number of Systems: 26 (5 used for the test)CPU: Intel(R) Xeon(R) CPU X5675 3.07GHzMemory: 48GBStorage: 4TB.13
6、Information Server Big data integration- 读写都具有近线性的可扩展才干- 最高可达5.2 TB/小时- DataStage节点翻倍,处置效率翻倍直至磁盘资源全部占用BDFS:可扩展性和性能.平衡的优化 从 DataStage 生成 Hadoop MapReduce 作业运用 DataStage Design 流程生成 ETL 作业运用 Balanced Optimization 将其编译为在 BigInsights 上运转。将支持完全下推 Hadoop 内的一切处置假设能够混合下推 内部的一些处置和外部剩余处置,详细取决于来源和目的.15经过Inform
7、ation Server和Hadoop 数据文件系统 (HDFS)的 整合,强化了IBM在大数据的指点位置经过 Job Sequencer 对 Big Insights 和其他 MapReduce 作业进展编程调用,结合 DataStage 和 Hadoop 实现端到端任务流。利用设计器用户界面和规范阶段构造来生成 MapReduce 作业,为用户提供处置 BigData 来源的才干,可以运用 Hadoop 更高效地处置这些来源。实现 InfoSphere DataStage 和 InfoSphere Streams 之间的直接数据流整合,结合两个平台的强大功能和运用范围经过一切用例提供丰富元
8、数据支持。自动化的大数据作业生成.从 DataStage 调用 Oozie 任务流Oozie 是 Hadoop 中的一个任务流方案引擎Oozie 提供了一个 Java API 来调用 Oozie 任务流调用者是 Oozie 客户端DS 可充任 Oozie 客户端运用 Oozie API,我们构建了一个 Oozie 调用者模块该模块是同步的胜利执行任务流时前往 1发生错误时前往 0作业调度程序有一个执行命令阶段Oozie 调用者模块从执行命令阶段执行运用前往代码在发生错误时放弃作业序列序列.InfoSphere Streams-Information Server 衔接器1)用户希望向现有 Da
9、taStage 作业添加 Streams 分析2)用户希望向现有 Streams 运用添加 DataStage 处置3)从头创建一个 DataStage 作业和 Streams 运用。这些整合能够具有以下数据流:DataStage - StreamsDataStage - Streams - DataStageStreams - DataStage.联邦整合用于大数据18分析和报告工具Web 运用建模 查询 交付搜索 分析 可视化Vivisimo VelocityInfoSphere FederationHive(odbc)InfoSphere Database Federation 能够是
10、IBM Vivisimo 等大数据联邦处理方案的另一个企业数据来源.新用户以灵敏、简单的方式检索数据的才干 “只需一次单击只需几次单击,便可在文件/数据库与 BigInsights 之间挪动数据满足需求,以便:生成用于个人开发任务的沙盒用户界面显示了一些战略选项,无需任何编码即可将它们自动化。基于所选的战略和源系统功能来利用 InfoSphere DataStage 和 InfoSphere Data Replication。整合的设计和操作元数据,用于内置治理 用于大数据的 InfoSphere Data Click:矫捷和可控的整合DB2/ORACLEInfoSphere Data Cli
11、ckBigInsights分析运用数据仓库转换/复制分析存储分析DS/CDC.实时整合用于大数据20InfoSphere数据复制运用程序事务日志高速双向数据对实时信息的低延迟捕获分析极大规模的挪动信息每秒 TB 级数据,每天 PB 级数据。分析各种信息分析原生格式的各种信息 流音频、视频、空间等信息非分散性的记录捕获从事务数据库日志中读取数据,将数据分发给任何目的 包括 Big Data Streams、ETL for Warehouses 或 Big Insights RDBMS 音讯队列ETLHadoop 系统流系统仓库.21InfoSphere Data Click 实时数据高性能传送J
12、ournal LogRedo/Archive LogsSource EngineAnd MetadataTarget EngineAnd MetadataTCP/IPNetezzaTargetsSourcesOracleDB2提升数据仓库数据及时性, 动态的数据仓库结合 ETL/ELT优化批处置从源到目的更少的时间和处置即使制止抽取,数据也可以获取为转换清洗ETL提供实时的数据降低数据集市的本钱.221st Click2nd Click预选数据源和目的Tab页上显示的核对标志阐明所需的配置完成复查配置 Execution!InfoSphere Data Click 点击两下完成数据整合.23顶
13、级性能加速时间价值:Information Server高速的Netezza ConnectorInfoSphere Information Server (Intel Xeon E7-4870)OS: Red Hat EL 5.3 x86-64Processor Type: Intel Xeon E7- 4870, 40 cores/80 threadsProcessor Speed: 2.4GHZMemory Size: 1 TB RAMDisk Space: 2 TB total disk spaceNetwork Card: Intel10 Gigabit CX4 IBM Netezz
14、a 1000-12 Appliance (TwinFin-12)12 S-Blades96 CPU coresProcessor: Intel Xeon E5520 2.27GHz Storage Space: 128 TB* * 4x compression ratio Network Card: Intel10 Gigabit CX463 writer option enabled 10G EthernetNetezzaAll performance data was obtained in the specific operating environment and under the
15、conditions shown and is presented as an illustration only. Performance obtained in other operating environments may vary, and customers should conduct their own testing.卸载速度= 2.58 TB / hour加载速度= 2.38 TB / hour.24大数据清洗验证、充实和匹配对传统数据和大数据的一致和整合访问验证、规范化、充实和匹配数据值得信任的数据存储实现了整体视图业务洞察事务数据传统运用源社会网络视频和照片整合数据质量
16、仓库风险仪表板流计算.Information Server 提供市场上最全面的数据集成和数据管理处理方案独特优势Business/IT collaboration on data quality objectivesAutomated business / IT collaborationEstablish framework for metadata lineageUnderstand your dataIncludes automated data discoveryCleanse and validate dataHighest performance tools in the marketMonitor data qualityOnly solution offering real time / in-flight data validation and monitoringFlexibilitySOA enabledBreadth of supported sources and targets优点Lowest Total Cost of Ownership (TCO)Enables shared services and centralized rule managementProvides a shared metadata repo
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 个人责任与义务执行承诺书8篇范文
- 消化道出血的观察及护理
- 2025年电网公文写作试题及答案
- 2025年英语出国考试卷子及答案
- 防汛风险管理培训课件
- 乡村文化旅游与乡村旅游产业发展模式研究
- 健康产品安全质量承诺书5篇范文
- 2025年医学法律法规考试题库及答案
- 2025年新能源绿色制造产业链升级与创新趋势报告
- 2025年氢能基础设施建设投资策略与成本效益优化报告
- (9月3日)铭记历史珍爱和平-纪念中国人民抗日战争暨世界反法西斯战争胜利80周年爱国主义主题教育班会课件
- 2025广东汕尾市海丰县纪委监委招聘政府聘员6人笔试模拟试题及答案解析
- 5.1 文明有礼(教学课件) 统编版道德与法治 八年级上册
- 2025年事业单位工勤技能-河北-河北汽车驾驶与维修员二级(技师)历年参考题库含答案解析(5套)
- 2025年心理健康教育及辅导理论知识考试试卷及答案
- 非财务人员财务基础知识培训
- 2025年新版《煤矿安全规程》
- DB42∕T 2130-2023 《林业生态产品清单》
- 2025年合规专业面试题及答案
- 西畴殡葬管理办法
- 小学生意外伤害课件
评论
0/150
提交评论