大数据技术交流_第1页
大数据技术交流_第2页
大数据技术交流_第3页
大数据技术交流_第4页
大数据技术交流_第5页
已阅读5页,还剩32页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、大数据平台技术交流吴敏达 资深技术顾问2从各种各样类型的巨大数据中,快速获得有价值信息的能力,就是大数据技术什么是大数据Variety: 管理复杂的多角度关系和非关系类型的数据 (你是否忽略利用的非结构化数据进行决策吗)Velocity: 流数据或者大量数据的移动 (你是否希望通过实时操作提供更好的结果)Volume: 数据量从TB级到ZB级 (你是否收集了所有数据,并在使用它吗)Veracity:1/3 的领导在做业务决策时候不相信获得的信息大数据参考架构超越传统的数据仓库概念流计算Internet级别传统数据仓库In-Motion AnalyticsData Analytics, Data

2、 Operations & Model BuildingResultsInternet ScaleDatabase &WarehouseAt-Rest Data AnalyticsResultsUltra Low Latency ResultsInfoSphere BigInsights传统/关系型数据源非传统/非关系型数据源传统/关系型数据源非传统/非关系型数据源Cloud | Mobile | Security IBM大数据平台和应用框架通过可视化的方法采集、抽取、以及探查数据应用加速器,加速应用开发,快速实现分析价值BI / ReportingBI / ReportingExplorat

3、ion / VisualizationFunctionalAppIndustryAppPredictive AnalyticsContent AnalyticsAnalytic Applications(分析应用)IBM Big Data Platform(大数据平台)Systems ManagementApplications & DevelopmentVisualization & Discovery分析流数据,以及在大数据的是谁数据洞察数据管控(数据质量、生命周期、)低成本地分析PB级结构化和非结构化数据操作型数据或者历史数据的,基于数据仓库内嵌分析Accelerators(加速器)In

4、formation Integration & Governance信息整合和管控HadoopSystemStream ComputingData WarehouseContextual Discovery索引和联邦的上下文相关分析议程IBM hadoop平台BigInsightsIBM 流计算Streams IBM数据仓库平台pure Data基于大数据平台的数据分析-DataExplorerIBM大数据优势汇总Forrester Wave关于大数据的报告6BigInsights 企业版连接和集成StreamsNetezzaText processing engine and library

5、 JDBCFlume基础架构JaqlHivePigHBase MapReduceHDFS ZooKeeperIndexingLuceneAdaptive MapReduceOozieText compressionEnhanced securityFlexible scheduler可选 IBM 产品分析和探查应用 DB2BigSheetsWeb CrawlerDistrib file copyDB exportBoardreaderDB importAd hoc queryMachine learningData processing. . . 管理和开发工具 管理控制台 Monitor c

6、luster health, jobs, etc. Add / remove nodes Start / stop services Inspect job status Inspect workflow status Deploy applications Launch apps / jobs Work with distrib file systemWork with spreadsheet interfaceSupport REST-based API . . . R Eclipse 开发工具 Text analytics MapReduce programming Jaql, Hive

7、, Pig development BigSheets plug-in development Oozie workflow generation Integrated installerOpen SourceIBM IBM Cognos BIBig SQL Accelerator for machine data analysis Accelerator for social data analysis GuardiumDataStageData ExplorerSqoop HCatalogGPFS FPOBigInsights 优势列表High Performance & Availabi

8、lity GPFS-FPO At least 2X faster than open source Hadoop17x throughput speedup for document index lookupsFault resistance for Real Time DataPOSIXAdaptive MapReduce SQL Interface ( BigSQL )Integrated Install & Mgt Consoles Security LDAP+High speed LZO CompressionDevelopment Toolingenvironment, testin

9、g, and optimizationWarehouse RDBMS & Streams IntegrationSystemT Text AnalyticsBlazing Fast, Uses Unstructured data does not require structuring, (MapReduce)Customized AnnotatorsBigSheetsInsight Engine for analytics on Massive amounts of data in BigInsights. Power of Map/Reduce within reach of the Bu

10、siness professional with a familiar Spreadsheet-like environment.Built in VisualizationsSystemML Machine Leaning (Watson)Directly implemented ML algorithms on MapReduceDeep Statistical / Mining embedded into BigInsights PlatformBigIndexDistributed indexing and searchParallel indexing and search企业级别基

11、础设施企业级别分析能力GPFS-FPO与HDFS各项指标对比BigInsights GPFS-FPO开源HDFS或其他方案健壮性无单点故障 99.99%NameNode 存在单点故障数据一致性高数据可能会丢失可扩展性数千节点,实测4000+数千节点POSIX 兼容完全兼容有限数据管理能力安全、备份、快照、缓存、复制有限传统应用性能好,兼顾读写性能随机读写性能差安全性支持ACL, 容量限制,安全认证不支持IBM Adaptive MapReduce 提供强大的企业级管理,用于在可扩展的共享网格上运行分布式应用程序和大数据分析。它可加速数十个并行应用程序,以加快实现成果并更好地利用所有可用资源。T

12、eraSort ThroughputSWIM10 times fewer CPU cores6 times faster60 times fasterBerkley SWIM is a workload benchmark developed at University of California at Berkley.Measure core scheduling efficiency of MapReduce workloads at Hadoop World 2011Multi-tenant resource management10 x Less hardware for the fa

13、stest TeraSort score.Big SQL: 让 Hadoop 原生支持 SQL原生 SQL 支持 BigInsightsANSI SQL 92+Standard syntax support (joins, data types, )真正的 JDBC/ODBC Prepared statementsCancel supportDatabase metadata API supportSecure socket connections (SSL)优化Leveraging MapReduce parallelismorDirect access for low-latency qu

14、eries多种数据源HBase (including secondary indexes)CSV, Delimited files, Sequence filesJSONHive tablesBig SQL EngineBigInsightsData Sources SQLHive TablesHBase tablesCSV FilesApplicationJDBC / ODBC Server JDBC / ODBC Driver 使用报表工具Cognos BI server 可以下推计算到 BigInsights更快响应时间没有 Hive 的限制Application (Map-Reduce

15、)Storage(HBase, HDFS)InfoSphere BigInsightsCognos BI ServerExplore & AnalyzeReport & ActSQL Interfacevia JDBC可以使用已有的工具: SQuirreL SQLUsing existing SQL tooling against BigDataSupport for “standard” authentication!(not supported for Hive, but supported by Big SQL!)13可以使用已有的工具: EclipseUsing existing SQ

16、L tooling against BigDataSame setup as for existing SQL sources!Support for “standard” authentication!14集成的基于Web的安装无缝的单节点或者集群模式安装开源组件和IBM组件的安装验证检查,确保系统正常运行基于Web的管理控制平台任务和工作流管理系统健康监控集群以及文件系统管理基于表单的分析仪表盘议程IBM hadoop平台BigInsightsIBM 流计算Streams IBM数据仓库平台pure Data基于大数据平台的数据分析-DataExplorerIBM大数据优势汇总计算模式的变

17、革动态数据的实时分析 流数据结构或非结构化动态数据流 流计算实时对流数据进行分析计算静态数据的历史分析批处理模式查询驱动:静态数据提交查询依靠数据库,数据仓库传统计算模式流计算模式QueriesMemoryDiskUpdatesMemoryDiskEvent DataQueriesAlerts Actions20IBM InfoSphere StreamsA platform for real-time analytics on BIG data一个处理流数据的低延迟平台毫秒级,甚至微妙级端到端的延迟一个可高度扩展的,用于实时分析的高性能平台通过横向增加硬件获得近线性的处理能力扩展高达125个

18、节点扩展一个灵活的、动态的平台Streams应用灵活部署支持动态部署新的分析应用Millions of events per secondMicrosecond LatencyTraditional / Non-traditional data sourcesReal time decisionsPowerfulAnalyticsAlgo TradingTelco churnpredictSmartGridCyberSecurityGovernment /Law enforcementICUMonitoringEnvironmentMonitoring21 连续注入连续分析实现可扩展: 将应用

19、分布到多个计算节点 在流连接的硬件节点之间分发Streams流计算平台基础设施提供服务:在跨硬件/软件节点中调度分析建立流媒体连接变换过滤 / 采样分类关联注释在适当的地方,处理单元可以是“融合”在一起从而消除通信的延迟Streams Toolkit (常用)JoinFunctorAggregatePunctorSortFilterDirectory-ScanFileSourceFileSinkUDPSourceUDPSinkTCPSourceTCPSinkExportImportODBCSourceODBCEnrichsolidDBEnrichInetSourceODBCAppend高度可并

20、行扩展能力同时利用几十台、上百台进行实时数据流处理X86 BoxX86 BladeCellBladeBlue GeneFPGABladeX86 BladeX86 BladeX86BladeX86 BladeX86BladeTransport Streams Data Fabric高可用、集群部署能力Processing Element ContainerProcessing Element ContainerProcessing Element ContainerProcessing Element ContainerProcessing Element Container优化调度器把操作符分

21、配到不同的节点运行,并持续监控资源的使用情况自适应资源、工作负载、数据速率的变化在低成本硬件上运行从单节点PC到刀片服务器到多阵列集群26参考性能数据 吞吐性能和延迟1,975 streams2,133 streams163 streams24 channels163 Decision Engines356 Blue Gene Nodes356 Processing Elements4,274 streamsData Feed每秒500万条记录平均延迟 150 微秒最小延迟50 微秒65K中49条延迟 2 毫秒大数据的实时分析平台分析不同的数据源,每秒分析上百万个事件易用性能图形化应用开发模式

22、,容易管理和监控集成能力集成XML ,MQ, DataStage,HDFS等高级工具包和加速器事件序列和地理信息数据库工具箱和CEP处理 可定制化的电信和媒体分析加速器帮助快速部署应用.InfoSphere StreamsInfoSphere Streams议程IBM hadoop平台BigInsightsIBM 流计算Streams IBM数据仓库平台pure Data基于大数据平台的数据分析-DataExplorerIBM大数据优势汇总 专家集成数据系统for Transactions为满足交易型数据服务而优化的系统for Operational Analytics为满足操作型分析数据服务

23、而优化的系统for Analytics为满足分析型数据服务而优化的系统Data PlatformDelivering Data Services议程IBM hadoop平台BigInsightsIBM 流计算Streams IBM数据仓库平台pure Data基于大数据平台的数据分析-DataExplorerIBM大数据优势汇总Name change and new releaseIBM InfoSphere Data ExplorerApplication/Users结合企业各类数据,包括大数据的分析结果FileSystemsRelationalDataContentManagementEm

24、ailCRMSupplyChainERPRSS FeedsExternalSourcesCloudCustomSourcesVelocity PlatformIBM Big Data PlatformSystems ManagementApplication DevelopmentVisualization & DiscoveryAcceleratorsInformation Integration & GovernanceHadoopSystemStream ComputingData WarehouseCommentingRatingSharedFoldersTaggingIDE给最终用户提供整合的企业级的信息探查Application FrameworkReal TimeAnalyticsInternet ScaleAnalyticsIn-DatabaseAnalyticsFederatedDiscoveryNavigation and Visualization33Enterprise DataConnectorsI

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论