大数据平台技术方案

上传人：d*** IP属地：天津上传时间：2022-08-16 格式：DOCX 页数：170 大小：1.87MB 积分：30 举报 版权申诉

已阅读5页，还剩165页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、大数据平台技术方案 TOC o 1-5 h z 大数据平台技术方案 1 HYPERLINK l bookmark0 o Current Document 需求概述 5背景概述 5建设目标 5需求理解 6面临挑战 7设计原则 8 HYPERLINK l bookmark2 o Current Document 总体技术方案 10软件架构 10总体技术架构设计 11 HYPERLINK l bookmark4 o Current Document 功能组件完整性介绍 14架构优化设计 64功能优势说明 68集群规划 68 HYPERLINK l bookmark46 o Current Docum

2、ent 系统基本功能点 76的发展紧随Apache 社区 76集群内所有组件的管理节点均实现HA 77提供完全基于WEB图形化的集群服务器角色，配置和状态管理 77集群支持线性扩展 77100%兼容标准SQL92 78支持分布式文件系统HDFS和 HBase等主流数据库 80支持多种计算执行引擎 81支持异构数据库关联查询 86支持大部分的机器学习和数据挖掘算法 87支持图形化ETL 87同时支持Solr和 ElasticSearch 88支持各种类型的数据 89支持多租户 89支持支持分布式存储数据加密 90支持记录操作日志留存 90支持自适应压缩算法 91SQL支持各类函数 91具备可视化

3、分析能力 93支持建立OLAP Cube 94支持数据预警功能 94支持多种数据类型的文件加载到大数据平台 94支持复杂模型建模 96 HYPERLINK l bookmark56 o Current Document 数据上载速度快 98SQL性能好 101朴素贝叶斯分类性能好 102 HYPERLINK l bookmark58 o Current Document 数据库功能支持 103 HYPERLINK l bookmark60 o Current Document 开发及应用接口 103SQL语法兼容性 104生命周期管理功能 106表分区功能 106表压缩功能 107大表索引管理

4、 107数据导入与导出 107多级数据存储 108半结构化与非结构化数据支持 108 HYPERLINK l bookmark62 o Current Document 安全可靠与运维能力 109 HYPERLINK l bookmark64 o Current Document 资源管理 109 HYPERLINK l bookmark66 o Current Document 系统容错性 110 HYPERLINK l bookmark68 o Current Document 系统可靠性 111单点故障消除 111容灾与备份 112在线扩容 112需求概述背景概述近年来，大数据相关技术发

5、展迅速，大数据技术越来越成熟，已经有越来越多的企事业单位通过大数据技术为来创造更多的价值的同时，也为企事业单位带来了更高的性价比、和更易于扩展的超大规模数据处理能力。基于大数据平台技术，整合现有人口数据，接入公安的舆情数据，搭建处理能力更强，更易于扩展，性能更高的统一数据平台。不仅可以很好的满足高计算、高存储、高负载的要求，更能够对海量的数据进行数据存储、清洗、加工、建模等，把先前无法利用的数据充分利用，提升对数据的认识，抓住机遇为华西医院平台建设做好最基础、最扎实的工作。建设目标全市人口基础数据库大数据平台系统需要建设成为一个是一个高可靠性、高安全性、高性能、高可扩展性、高灵活性的先进系统

6、，用来存储、管理、检索、分析、查询等操作，系统能够提供灵活应用提供可靠、安全、高效的保障，并能够为灵活的建立多种应用提供强大开发支持。系统需要提供对数据仓库类应用的支持，提供对数据分析、数据挖掘类应用的支持，能够存储、查询、分析海量全市公安局的历史数据，提供实时数据计算模块，提供并行分析算法包，可以替代传统数据库系统的大数据管理软件系统、大规模并行数据挖掘软件工具包、R语言业务建模可视化工具、流式计算软件工具包、数据复制与资源管理等支持类软件工具包。全市人口建设的大数据应用平台项目，要实现的具体业务目标为海量数据的低成本高效存储、加工、使用。支持各类结构化、半结构化、非结构化海量数据的低成本存

7、储，快速批处理加工，各应用系统的在线数据查询、统计分析、数据挖掘等需求；为超长时间的海量历史数据存储和使用提供技术基础设施。支持将人口、环境、教育等数据导入导数据平台。同时必须支持蒙古文相关数据的分析、处理。支持移动互联渠道场景的高并发低延时数据服务需求银行在移动互联渠道提供的客户服务逐渐丰富，客户点击流量增长快速，客户的体验要求也在提高。大数据基础软件应能较好地支持移动互联业务场景高并发低延时的数据访问需求，包括通过流式计算框架对客户个性化场景营销、实时风险监测、银行流动性风险实时预警等需求实现提供技术平台支持。支持业务数据分析团队自主数据探索和业务建模通过良好可视化支持的集成工具软件，业

8、务数据分析团队可编写简易的R语言数据处理和可视化程序，自主探索分析业务数据，利用机器学习算法对业务数据建模和验证，利用成熟的量化模型算法支持更科学的经营决策。建立人口与环境、教育等社会资源的模型，进行深度数据挖掘。软件相关支持服务为更好发挥大数据平台的技术优势，同时确保系统平稳安全运行，需要提供现场和非现场形式的产品业务培训和技术培训、运维支持、产品缺陷修复和产品升级、大数据技术架构咨询、应用开发指导等关联支持服务。将利用在行业内积累的的丰富经验，以及在大数据平台技术的积累的深厚的实力，协助华西医院建设以大数据技术为基础，融合开发、测试、生产的统一平台，利用大数据技术解决现有传统架构下面临的

9、的计算瓶颈、存储压力、扩展问题、以及应用限制等问题。需求理解通过对华西医院基础软件及服务建设需求的分析，以及我们对数据应用的理解，我们总结了如下数据应用和相关流程：华西医院基础软件及服务数据处理平台是一个高可靠、高稳定、高安全、高性能、高可扩展、高易用性的基础数据存储、分析、管理、计算平台。平台将完成现有数据仓库类业务，另外也将完成历史数据存储、查询、分析类的应用。数据处理平台需要定期、批量的接受公安局内部和外部各类系统所产生的数据，以批量的方式将数据插入至数据处理平台，插入数据后进行数据清洗、数据转换、数据格式统一、数据入库等操作。数据处理平台也可能会定期从其他现有系统中抽取部分业务数据

10、至平台中，为后期综合分析准备数据。数据处理平台准备好数据后，将通过SQL、 R 语言等方式对数据处理平台中的数据进行数学分析、数据挖掘和机器学习，并将结果快速显示出来，尤其是对人口与环境、教育等社会资源的模型进行分析，进行数据深度挖掘和分析。数据处理平台对SQL支持的完整程度将是选择平台的重要考虑之一。对SQL 2003标准的完整支持，包括对各种数据类型的支持，对各种复杂连接查询的支持，对相关子查询、嵌套子查询的支持、对操作符、函数的完整支持，会使得后期在数据处理平台的应用开发变得非常方便、并且平台将方便的与现有平台、现有应用进行对接，同时上层通过SQL完成的应用，通过JDBC/ODBC接口连

11、接的应用可以不用做任何修改，这是数据处理平台对基础应用支撑。需要对数据处理平台的数据进行建模，以完成相关业务模型操作和计算。数据处理平台需要支持数据分析、数据挖掘、机器学习算法。平台需要提供对 R语言和 Python 的支持，能够使用R语言所提供的5 千多种算法，可以通过算法灵活的对数据进行分析和挖掘，提供对业务有价值的结果。数据处理平台需要提供通用的应用接口，以方便与现有应用、现有系统进行对接，完成系统集成。面临挑战华西医院的数据增长迅速，已经达到TB 级别，如果加上非结构化数据，未来几年的数据存储将达到几十TB，甚至上百TB的数据量级别，如何对这些海量历史数据资产进行有效的存储、管理、整

12、合，并在此基础上进行快速共享、计算、分析，最终达到对业务的有效知道是本系统的建设关键。在华西医院项目基础软件及服务建设过程中，主要会面临以下挑战：扩展性：当数据量达到一定限度之后，无论是数据存储、分析、查询，都会受到极大的限制，系统的横向扩展性的能力将是系统建设的重要考量之一。价格 : 系统的横向扩展，必然会带来软件、硬件成本的增加，以及后期升级、维护、扩展的成本的投入也是系统扩展面临的挑战。性能：数据动辄几十TB、甚至上百TB，面对如此海量的数据，若要进行高效的计算、分析，为业务提供有效的指导，必须要满足业务允许的时间要求。平台的易用性：华西医院项目基础软件及服务的数据处理平台易用性也是

13、系统建设的关键问题，能否提供一个可简单、方便为上层应用使用的平台，或者可以将现有应用方便迁移到新建设的华西医院项目基础软件及服务数据处理平台也是面临的挑战。平台的易用性将直接影响到平台的建设、应用的建设，将直接影响工作成本。设计原则系统在设计过程中除考虑满足当前项目建设要求外，还应当满足后续系统平滑扩展升级要求，因此总方案设计遵循如下设计原则。开放性引入业界开放的、成熟的标准，从而保证系统成为符合标准又不失灵活性的开放平台，为未来的系统的灵活开放奠定基础。需要支持业界开放的标准接口，如：SQL2003， PL/SQL等等，同时完全兼容开源的标准。先进性基于统一的整体架构，采用先进的、成熟的、可

14、靠的技术与软硬件平台，保证基础数据平台系统易扩展、易升级、易操作、易维护等特性。基于业界热门的，且领先的Spark技术，极速提高平台的整体计算性能。可扩展性随着新的业务需求的不断产生，支持基础数据模型、应用分析模型、前端应用的扩展性；支持在统一系统架构中服务器、存储、I/O 设备等的可扩展性。可靠性制定并实施基础数据平台高可用性方案、运行管理监控制度、运行维护制度、故障处理预案等，保证本期系统在多用户、多节点等复杂环境下的可靠性。高效性高效性包含两方面内容，一方面系统需要在规定时间内完成数据写入操作，并将数据写入对数据分析的影响降到最低；另一方面系统需要实现规划要求的数据查询和统计分析速度。正

15、确性数据质量贯穿基础数据平台系统建设的每个环节，基础数据平台系统通过合理的数据质量管理解决方案保证数据质量。安全性按国家标准、行业标准、安全规范等实现数据安全管理。可维护性系统要有统一的管理平台, 管理基础数据平台系统的各个环节，能对系统进行相应的性能管理和日志监控。易用性有良好的人机接口不灵活多样的展现方式，需要对最终用户提供适当的培训就可以方便地使用新的分析工具，从而减少IT 人员的工作量，同时加强了集群监管的时效性。总体技术方案通过对华西医院基础软件及服务需求的理解，以及根据建设目标、设计原则的考虑，建议华西医院采用基于大数据基础平台的架构方案，来满足华西医院基础软件及服务建设的要求

16、。软件架构Apache Hadoop 是针对大规模分布式数据而开发的软件框架，目前已经成为企业管理大数据的基础支撑技术。是解决企业数据中心大数据存储、大规模数据计算、快速数据分析的优秀基础数据平台。然而现有的Hadoop技术仍然面临一些挑战：性能上，尽管 Hadoop在 100TB以上的数据上远远领先于传统数据处理技术，然而对GB到TB级数据的处理效率较低；其次，只有对海量的数据进行高效的分析及利用才能将大数据中存在的巨大潜在价值转换为实际的商业价值，这就需要完备的决策分析工具集运行在Hadoop 架构之上；最后，亟需完备的企业级解决方案来加速大数据应用的广泛部署。企业级大数据分析平台是

17、业界领先的处理企业级大数据场景的高性能一站式分析平台。它可以帮助企业快速建立一个统一的数据和计算平台，快速支持企业内部/外部数据的采集与集成、实现海量数据的存储、并提供极佳的数据计算与深度分析挖掘能力。在大数据平台之上，用户可以构建相应分析挖掘应用，从而辅助企业及时洞察新的商机和潜在的风险，提升企业竞争力。大数据产品具有业界完整的SQL on Hadoop支持，实现完整支持SQL标准，增强分布式事务处理能力，全面支持MPP 场景；突破实时处理计算框架，支持物联网实时业务分析；最完整的并行数据挖掘算法库，并原创前沿机器学习组件；一站式图形化的数据开发套件，可快速分析应用；它是企业级大数据场景的高

18、性能一站式分析平台的优秀选择。总体技术架构设计基于企业内部多年的大数据建设实践经验，针对开源Apache Hadoop/Spark框架进行了大量的修复完善及深度优化工作，并自主创新的众多功能和实用工具，易于使用者开发和管理。华西医院的数据来源自多个方面，包括内部数据来源以及未来可能第三方数据接入。各类数据的来源方式多样化，包括关系型数据库数据、数据仓库数据、实时数据、文件数据、图片数据等。面对于多种数据接入的需求，大数据平台提供多种针对性的接入方式以及工具，通过分布式消息队列Kafka 接入实时数据；通过Sqoop全量或定时增量抽取同步关系型数据库；采用 Kettle 作为数据抽取管理工具，

19、Kettle 提供图形化的界面定义数据抽取规则，并可与其他工具相结合，完成数据抽取的工作流；同时，分布式文件系统HDFS通过FTP Over HDFS提供文件通过FTP传入 HDFS的通道；通过Flume 提供海量日志文件的聚汇到HDFS的功能。大数据分析平台从功能架构上分为数据集成套件、大数据计算平台、算法与序号名称软件说明软件来源1数据集成套件提供对多种结构化和非结构化数据的灵活集成。支持不同系统和设备的开发工具套件，能够根据企业的需求方便地快速扩展，为企业快速收集其信息系统之外的设备、用户和社交数据。同时也提供网络爬虫模块，以方便企业获取外部网络数据。自有2大数据计算平台基于开

20、源Hadoop Spark 生态系统，引入了多种核心功能和组件，对复杂开源技术进行高度集成和性能优化，面向基础设施层进行深度调优。在分布式存储系统的基础上，建立了统一资源调度管理，高效地支持大规模批处理、交互式查询计算、流式计算等多种计算引擎。自有3算法提供挖掘算法工具、人工智能工具实现数自有序号名称软件说明软件来源与分析工具据深度挖掘能力；同时为各类客户查询分析、应用开发等相关工具，方便人员使用。4系统运维管控系统运维监控中心可提供快速完成产品套件的安装部署、节点监控、访问权限管理、资源配额管理、系统告警分析、升级扩容等计算平台维护工作，通过统一的图形化界面实现对大数据平台及运行服

21、务状况的实时监控和管理。自有数据资产管理将数据对象作为一种全新的资产形态，围绕数据资产本身建立一个可靠可信的管理机制，提供数据标准管理、数据资产管理、元数据管理、数据质量管理、数据安全等，以实现数据的可管、可控、可视，为实现数据价值增值奠定良好基础。自有数据可视化Vision 具有仪表盘(Dashboard) 、灵活查询 ( Query) 、电子表格(Spreadsheet) 、多维分析(Analysis) 、移动应用(Mobile) 、分析报告插件 ( Office Addin) 、自助分析( xQuery) 、数据采集(dataIn) 、数据挖掘( Smart M

22、ining) 等丰富的功能，用户可以更直观便捷地获取信息，并开创性地把各种技术整合到一个集成环境中。自有基于企业内部多年的大数据建设实践经验，针对开源Apache Hadoop/Spark并自主创新的众多功能和实用工具，框架进行了大量的修复完善及深度优化工作，易于使用者开发和管理。功能组件完整性介绍基于企业内部多年的大数据建设实践经验，针对开源Apache Hadoop/Spark框架进行了大量的修复完善及深度优化工作，并自主创新的众多功能和实用工具，易于使用者开发和管理。产品功能说明：功能内容描述数据集成组件（Data Hub ）数据库导入支持MySql、 Oracle 、 DB2等多种数

23、据库到Hive 、 HDFS的数据导入；支持常见数据库互导以及导入到HDFS和 Hive；本地文件导入支持本地文件、Excel 、 CSV到 Hive、 HDFS的导入；客户端导本地路径文件源、客户端导数据库数据源；Dump文件上传到Hive、 HDFS、DB；公有云数据导入提供阿里云、亚马逊云RDS到 HIVE、 HDFS、常见DB数据导入；大数据类数据库导入支持Redis 、 HBase、 Impala 、 MongoDB等数据导入Http 流式上传提供http 流式上传方式，开放上传接口，上传到kafka消息队列服务提供Kafka 消息队列服务其他类型导入支持SAP、网络数据爬取等功能；

24、提供FTP上传到HDFS迁移任务展示所创建的任务信息及任务运行情况，并可对任务进行管理查看所有数据迁移任务的执行历史和日志（比如某条任务是每小时执行一次，就会产生多条执行历史）资源库创建资源库连接信息并保存，在之后的上传过程中，可以选择已经保存过的数据库，自动进行连接选择，不用再输入信息，方便操作；对保存过的资源库连接进行列表展示，并可以对资源库信息进行管理操作；流程管理流程的新建、复制、删除、修改、启用、停止、查询，定义任务调度策略；大数据平台组件（Hadoop Distribution ）分布式文件存储 -HDFS分布式文件存储、多副本备份与同步机制，提供容错机制，可修改副本策略，

25、支持跨机房备份；大文件写入、流式数据访问、高吞吐量数据访问；支持数据存储分布策略，支持机架感知与负载均衡，支持高可用；NoSQL数据库分布式、列存储、多维结构存储，支持结构化和非结构化大数据量的高速读写操作；面向列表（簇）的存储和权限控制，列（簇）独立检索，以及二级索引，支持数据多版本；面向列的数据压缩，高压缩比，有效降低磁盘I/O ；数据仓库工具- Hive海量结构数据批量离线分析；提供基于HQL的数据查询机制，支持UDF，自定义存储格式，扩展数据类型，函数和脚本；批量计算框架-MapReduce数据划分和计算任务调度；内存计算引框架- Spark分布式内存计算引擎；流数据计算引擎基于S

26、torm 与 Spark Streaming 的流式计算引擎；分布式数据库MPP支持基于Spark 的 MPP架构数据库，基于Spark 扩展CRUD操作；多维分析引擎-Kylin提供OLAP分析能力，支持SQL查询分布式消息队列服务- Kafka支持消息队列的负载均衡、分区存储、数据压缩等分布式协作服务 -Zookeeper配置管理、配置更新通知、节点主备容灾、节点心跳管理等；统一资源调度- Yarn支持资源封装、调度、隔离以及配额管理；支持Capacity（静态）、 FIFO（先进先出）、 Fair（公平、动态）等调度模式；交互式分析引擎 -Impala支持基于SQL的查询分析；支持

27、基于JDBC/ODBC的数据库连接，支持 BI 可视化工具连接数据导入导出-Sqoop支持传统数据库到Hadoop；支持Hadoop到传统数据库；全文搜索引擎- Solr基于Lucene 的全文搜索服务器；日志采集服务-Flume分布式、可靠的日志采集服务；日志分析服务- ELK提供一个分布式多用户能力的全文搜索引擎；支持日志搜集处理框架、快速的日志综合处理能力；支持日志搜索、可视化、分析能力缓存服务- Redis基于Key-value 的数据缓存库，支持数据同步；安全保障支持Kerberos 认证和LDAP集成；任务调度( Task Scheduler )实例管理快速检索查询当前平台的所有

28、流程实例、流程执行实例依赖关系图形化、实例执行流程图查看；重跑、补跑、任务重试、终止；实例相关流程调度历史时长图形化与列表两种方式展示；配置管理数据库等资源的连接配置；依赖的hadoop/hdfs 等相关的配置；支持短信/ 邮箱告警服务，如邮箱配置、SMS配置，告警短信配置；数据分析( SQL/R/Python Editor)数据源管理获取数据库元数据信息，可以展开并快速检索表信息；数据查询提供SQL编辑器，支持语法补全、关键字补全、数据库表提示、SQL格式化；支持SQL2 003 标准，兼容SqlServer/Oracle 语法，支持存储过程、支持TPC-DS测试集99 个 SQL语句；查

29、询结果可以通过交叉表进行进过展示，默认显示前100 行；脚本开发支持R、 Python 脚本运行；定时任务展示当前定时任务列表及执行历史；定时任务添加、修改、删除、禁止，可以配置任务的调度周期多租户管理( User Admin)用户管理- 操作用户用户及账户的添加、修改、删除，用户启停用；项目管理- 多租户管理提供项目管理、人员分配、权限管理等功能费用管理当前计算、存储资源消耗费用计算，并可查看详情；资源管理当前租户下各项目资源使用情况，对项目进行资源池分配；个人中心密码修改、用户注销；集群管理（ Manager）安装部署安装文件拷贝、环境检测与主机环境配置、组件自动化部署；集群监控指标监控、

30、监控热图、历史配置信息、版本信息；服务管理添加与删除服务、服务启停、部署与移动；参数配置、配置组、历史版本；HA配置，支持全组件的HA配置，包括Manager 管理节点；主机管理添加与删除主机节点、主机监控指标、主机及相关组件的告警信息；告警管理报警历史记录；告警组、告警通知；版本管理平台及各个组件版本管理、版本升级；平台授权信息注册；用户管理- 运维用户用户添加、修改、删除；角色添加、修改、删除；日志管理根据检索内容做简单的信息统计，统计不同类型输出信息数量；根据组件、关键字信息做信息搜索；元数据管理Metadata元数据采集JDBC数据库连接采集、DDL文件上传解析、Excel 模板上传解

31、析、API 读取系统数据元数据内容展示支持数据库Oracle 、 MySQL 、 Postgresql 、 SqlSever 的数据结构、样本数据、变更详情、基本信息、存储信息、分区信息、索引信息；主外键信息采集、视图信息采集、分区信息采集及数据库、表大小的信息采集；支持分布式数据架构Hive 、 HDFS 信息采集功能；支持内部数据处理流程、Oozie 、 azkaban 的信息采集元数据查询支持模糊查询和精确查询的全局搜索；Hive 和 HDFS 支持血缘分析功能，主要为表之间的关联性；支持Ooize 和 Kettle 等常见ETL 开发工具的血缘关系；元数据变更记录可查看系统元数据新增、

32、修改、删除的变更总数目；可查看系统元数据新增、修改、删除的详情；结构化数据管理提供视图目录的新增、修改和删除；元数据添加业务类描述信息记录查看表字段和分区的变更支持用户对元数据添加：问题、描述、数据质量等描述注释问题；用于团队分享协作使用数据；提供基于业务层级数据模型的管理非结构化数据管理提供对象存储系统，对文档、图片、音频视频存储管理；提供对非结构化数据自动打标管理；提供通过标签搜索查询；数据生命周期管理数据生命周期判定原则定义生命周期查询/ 更改数据生命周期监控过期数据销毁元数据权限管理实体数据使用的权限分配功能元数据访问的权限控制数据质量( Data Quality )基础检查按用户选

33、定模式统计空白数量和占比；验证字段的唯一性，统计不唯一id 的占比，计算“孤值”；类型检查统计true/false(/null) 各自占比统计字符集统计各自数量按用户勾选项统计结果日期检查统计日期缺失数量和占比；统计各种时间关键数据；统计各部分时间分布；查找出当中包含的工作日；其它检查按用户输入统计各部分数量和占比提取顶部( 底部 )top N 的值统计用户指定参数不匹配的值及数量比例模式搜索采集具备批量、实时、结构化、非结构化等多样化的采集功能。可提供图形化的操作配数据集成组件(Data Hub)置，统一的调度和监控，结合其良好的分布式并行处理架构，具备动态的横向扩展能力。数据采集批量数

34、据采集作为大数据体系的核心功能组件，既可以基于SMP单机处理,也可以基于低成本的X86 分布式平台展开系统设计，支持库外预处理，基于HADOOP组件实现批量数据的并行数据处理。其核心功能紧紧围绕构建大数据系统在数据处理层面上涉及到的数据采集、清洗、转换、加载及交换的核心数据加工流程展开。（ 1）数据抽取数据抽取功能具备从不同数据源（RDBM、S Hadoop、 MPP等）进行指定规则的数据提取作业，抽取后的数据存储支持落地与不落地两大类进行，抽取后的数据可以为数据转换环节进行处理提供输入，也可以直接进行处理或者加载。支持 Oracle,DB2,Mysql,SQLserver,Teradat

35、a,Greenplum 等主流数据库接口。数据采集采用多样性的接口方式，除了支持传统的JDBC/ODB接口、CFTP文件接口，还支持目前主流的流数据采集的Socket 接口及 Webservice 接口，同时扩展支持了Hadoop生态圈的Flume日志系统采集接口等，提供完善的图形化可拖拽的操作管理界面提供良好的用户体验降低产品使用难度，可以根据实际业务需求选择相应的配置也可以统一使用。数据采集功能针对不同的使用场景诉求提供种类丰富的方式支持，具体来讲主要包括以下几种方式支持：批量数据抽取运用大规模并行计算特点来达到批量数据抽取目标，主要应对数据抽取数据源以较大文件形式对外提供数据时可采用

36、此种采集模式，批量数据采抽取具备如下功能与能力：多协议数据抽取提供了文件和数据库等多种数据抽取方式包括支持：高性能关系型数据仓库、MPP分布式数据仓库、Hadoop等，接口协议可以根据需要随时添加。多格式数据解析多种文件格式抽取（CVS、 XML、 Excel 、 ASN.1、自定义），支持不同格式、参数、编码、分隔符、 Tag 的异构文件解析。提供扩展接口，方便支持其他格式。高效率与控制多个抽取任务发布到集群中并行处理，内部运算使用二进制存储，针对大批量零散文件优化。可控制并发数和任务优先级。流式（实时）数据抽取流式数据采集主要应对海量数据进行高性能的实时数据采集处理，以实时、高效、低

37、延迟为核心驱动点，具备毫秒级数据触发能力，实现秒级单位时间窗口的数据统计分析能力。通过引入采用Hadoop生态圈的开源技术Spark Streaming、Storm、 Flume 等，结合常用标准协议（Socket、 JMS、 HTTP、 HTTPS、 FTP、SFTP）封装的组件，进行实时数据进行抽取和分析计算，并将计算结果进行展示。根据流式技术特征，适合引入流式数据采集的场景应具有如下特点：针对高频度的事件流。每个独立的事件都需要处理和分析。高聚合度，以至于数据的体积会大量的减少。通过可视化界面通过拖拽式操作实现对数据采集控件使用。数据采集内置提供多种数据采集功能来满足数据采集功能诉求，

38、包括但不限于以下HBASE抽取、HDFS抽取、Excel 抽取、XML抽取、TD数据库抽取、GP数据库抽取、MySQL抽取等组件。数据采集组件被统一归纳在抽取控件组件包中，支持用户根据自身诉求动态调整控件包控件内容，同时控件支持根据自身需要进行控件来扩展系统计算能力。ETL产品在实现过程中通过批量数据采集与流式（实时）数据采集二种模式的数据采集能力进行封装形成独立组件，并将其纳入统一的作业调度系统进行统一管控，从而满足不同策略、不同形式、异构数据源之间的数据采集需求。（ 2）数据转换数据转换包括数据过滤、类型转换、文件拆分与合并、维度转换等功能。数据转换的任务主要是进行不一致的数据转换、数据

39、粒度的转换和一些转换规则的计算。其中不一致转换过程是数据整合的过程，侧重于将来源于不同业务系统的相同类型的数据进行统一处理；数据粒度转换需要按照数据仓库粒度对数据进行统一归整；转换规则计算按照设计的计算归则对数据进行重新计算。数据转换功能说明如下：序号功能功能描述1数据转换规则配置提供图形化的界面来实现灵活的数据处理规则配置，主要提供的数据转换规则设置包括：对数据进行计算、合并、拆分的规则配置、对空值替换规则的配置、对数据格式化规则的配置等；序号功能功能描述2数据处理过程记录支持对数据处理过程的日志记录，记录的信息主要包括：元数据记录、转换后数据记录、运用的转换规则、转换的时间等内容；

40、3内置丰富的数据处理组件支持任意合理的数据格式转换，包括但不限于：时间类型的转换、字符编码转换；支持任意合理的数据类型转换；支持数据内容转换，如通过关联关系，将 A数据源中的数据转换为数据源B 中的数据；支持多字段的混合运算，运算规则可灵活配置，包括但不限于：sum、 max、 min、 avg等；支持各种字符操作，包括但不限于：字符替换、字符截取、字符连接；支持记录和字段的抽取，支持对抽取的数据进行字段扩展；支持数据粒度的转换：将业务系统数据按照数据仓库粒度进行聚合。保证转换后的误差在规定的范围内；支持空值处理：捕获空值，根据规则替换为对应数据；支持数据格式化：统一数据源中同类数据的格式，具

41、体包括时间、数值、字符、计量单位等数据；支持数据替换：根据规则用标准数据替换原来的数据，支持各种码表映射，例如用标准编码替换业务系统自定的编码；支持复杂条件过滤，过滤条件可灵活配置；支持脏读；支持环境变量动态修改；支持数据去重处理，可按照用户定义的规则自动判断重复数据，并按照用户定义的规则处理重复的数据；序号功能功能描述支持记录间合并、支持将一条记录按照可配置的规则拆分为多条记录，支持行、列变换；支持一个数据表中多个列的合并；支持跨异构数据库的关联；支持将多个异构数据表合并为一个表；支持将一个数据表拆分为多个数据表；支持多种规则排序；支持多种统计方式；具备度量衡等常用的转换函数；在转换过程中

42、支持数据比较的功能；支持数据预览；支持数据清洗及标准化；支持按行、按列的分组聚合；具备良好的参数处理机制等；ETL处理过程支持各种字符集的转换；支持样品数据抽取4数据转换异常处理支持校验点，当外部数据记录特别庞大时，如果因为某种原因发生故障中断后，可以从最近的校验点开始恢复处理（ 3）数据加载数据加载功能包括文件加载、流加载、压缩加载、不落地加载等。数据加载功能具备将采集、处理后的数据源文件保存到不同数据库（RDBM、 SMPP、 HADOOP等）中。对于不同的数据库加载、不同的方式加载，在数据加载过程的工作原理基本相同，仅在实现层面针对不同数据库或者方式进行个性化控件处理。在加载数据库类别上

43、支持DB2、 Greenplum、 HDFS、 HBase、 Teradata 、 Vertica 、MySql等多种数据库。全量数据加载全量加载是将数据一次性加载到接口机上，是准实时加载，主要应对数据加载数据源以较大文件形式对外提供数据时可采用此种采集模式。流式（实时）数据加载流式数据加载主要应对高频数据，对实时性要求高的数据，采用流式计算方法进行高性能的实时计算实时加载。数据采集管理（ 1）管理监控提供图形化统一配置和监控界面，降低维护人员的使用难度，帮助运维人员及时发现问题、解决问题，更直观的管理ETL任务。完整全面的图形化的监控管理可显示系统总体运行汇总分析报表。具备直观的监控界面，对

44、ETL作业各个步骤的运行情况等进行监控并显示监控信息；包括执行起始时间、作业运行时间、作业每个步骤的执行时间、执行结果、出现错误的位置、错误原因、出现错误的时间等（必须）等内容。提供图形界面的性能分析，包括分析运行的ETL任务的行为、图形化展示 ETL任务整个运行阶段每个时间线上的记录吞吐量、CPU使用率、任务内存使用、物理机器资源占用等，及其平均值的计算。支持直观展示错误与异常信息。支持异常信息告警，告警级别、告警内容、发生时间、告警处理建议等信息展示，并可配置短信或邮件等方式进行提醒。（ 2）数据校验数据校验包括数据采集、数据加载、数据分发等过程中数据校验。在数据采集过程中通过对数据源

45、与目标数据库之间的数据进行对比分析，从而进一步来分析、发现与解决在数据抽取过程可能产生的异常错误信息。数据校验从校验对象细粒度维度分析，支持文件级校验与记录级校验二大类。数据校验模块还内置了部分的数据检查功能，如数据唯一性检查、外键完整性检查。数据校验内容有类型，长度，是否为空，精度，范围，格式等信息。如果数据不符合，会进行过滤，只有正确的数据才能继续使用。对于错误的数据，可以进行输出，包括错误原因和错误字段序号等信息。（ 3）调度策略时间调度时间调度是根据事先定义的执行频度, 计算下次执行时间, 记录执行次数, 并进行流程调度。提供等间隔时间调度和定时调度，具备自动运行和手工执行两种启动方式

46、。等间隔时间调度指 “年，季度，月，旬，周，日，时，分，秒”周期性的调度定时调度是指确定在某个时间点触发，如每个月的1 号和 10 号执行，每天的 9 点和12点执行。时间调度触发分为定时一次性触发和周期性时间触发，定时一次性触发是设定具体的job 调度时间执行一次，周期性时间触发是按设定的时间周期对job进行执行调度。手工调度提供临时调度方式（用于测试、调优、重新执行），由用户手工执行。手工触发是指需要维护人员在页面上点击触发按钮才能触发。有些执行任务节点在执行的时候失败了，并且此失败是不能忽略的，这时候不会执行后面的执行任务节点, 而是需要手工重新执行。维护人员在JOB的执行任务节点中设置

47、了起始断点，并且起始断点分别可以设置在多个执行任务节点上面。这样也是手工触发，JOB执行起始断点间的执行任务节点。消息接口调度通过消息机制实现流程处理过程、调度过程中异常信息的推送，方便产品使用人员实时掌握系统运行情况。功能上支持邮件定制或短信定制，从业务上支持Job 流程类定制、系统信息定制。Job 流程类消息级别大致分为：提示，告警，错误，延时。系统信息定制：系统信息通告类信息。大数据计算存储平台(Hadoop Distribution)大数据计算平台基于Hadoop、 Spark 等社区成熟的开源组件为基础，结合行业应用的需求，进行了深度的优化和改造，显著提升平台运行的稳定性和可靠性。平

48、台在提供海量结构化、非结构化数据处理和线性扩展能力外，还具备四方面的特性：统一的资源管理、海量数据集中存储、高效数据处理、平台高可用。大数据平台提供一站式商用大数据分析处理平台，集成Apache 开源社区Hadoop 2.6 及以上版本，包含HDFS、 MapReduc、e Hive、 HBase、 Spark、 kafka 、Solr 、 Impala 、 Storm、 Flume、 Sqoop、 ELK、 Kylin 等常用组件，组件内核与ApacheHadoop 开源社区版本保持兼容性。并提供对以上组件的集中的可视化管理、配置和监控界面。海量数据集中存储通过基于改造后的分布式文件系统H

49、DFS作为存储海量数据的分布式存储软件架构。HDFS被设计成适合运行在通用硬件(commodity hardware) 上的分布式文件系统。HDFS是一个高度容错性的系统，适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问，非常适合大规模数据集上的应用。HDFS放宽了一部分 POSIX约束，来实现流式读取文件系统数据的目的。HDFS采用master/slave 架构。一个HDFS集群是由一个Namenode和一定数目的 Datanode 组成。Namenode是一个中心服务器，负责管理文件系统的名字空间 (namespace)以及客户端对文件的访问。集群中的Datanode一般是一个节

50、点一个，负责管理它所在节点上的存储。HDFS暴露了文件系统的名字空间，用户能够以文件的形式在上面存储数据。从内部看，一个文件其实被分成一个或多个数据块，这些块存储在一组Datanode 上。Namenode执行文件系统的名字空间操作，比如打开、关闭、重命名文件或目录。它也负责确定数据块到具体Datanode 节点的映射。Datanode 负责处理文件系统客户端的读写请求。在Namenode的统一调度下进行数据块的创建、删除和复制。同时，系统支持多存储层级支持，能够将应用表建立在不同IO 读写速度的不同介质上，包括磁盘、SSD固态硬盘、高速闪存卡和内存，其中建立的非易失存储上的数据表在整个系统

51、重启后能保证数据不丢失，能在SSD上提供与内存相近的性能。高效数据处理（ 1）基于批量的分布式计算引擎通过对开源MapReduce进行改造，基于它写出来的应用程序能够运行在由上千个商用机器组成的大型集群上，并以一种可靠容错的式并行处理上T 级别的数据集。一个MapReduce作业（job ）通常会把输入的数据集切分为若干独立的数据块，由map任务（task ）以完全并行的方式处理它们。框架会对map的输出先进行排序，然后把结果输入给reduce 任务。通常作业的输入和输出都会被存储在文件系统中。整个框架负责任务的调度和监控，以及重新执行已经失败的任务。通常，MapReduce框架和分布式文件系

52、统是运行在一组相同的节点上的，也就是说，计算节点和存储节点通常在一起。这种配置允许框架在那些已经存好数据的节点上高效地调度任务，这可以使整个集群的网络带宽被非常高效地利用。（ 2）分布式数据仓库引擎基于开源的Hive 进行改造优化。可以将数据存放在分布式文件系统或分布式数据库中，并使用类SQL语言进行海量数据统计、查询和分析操作。Hive 提供了一种类似SQL的查询语言HiveQL，它支持在from 子句中嵌套 select, project, join, aggregate, union all和子查询。HiveQL 支持数据定义（DDL）语句来创建特定序列化格式的内部表和分区，以及Bu

53、ckt 类型的列。用户可以从外部源加载数据，将查询结果通过数据操作（DML）语句分别加载和插入到Hive 表中。 HiveQL目前还不支持更新和删除现有表中的行。HiveQL支持多表插入操作，用户可以通过使用一个HiveQL语句来执行在一个相同输入数据中的多个查询。Hive 通过共享该输入数据的扫描来优化这些查询。 HiveQL也是有很好扩展性的。它支持 Java 实现的用户定义的列变换（ UDF）和聚合（UDA）函数。F（ 3）基于内存的分布式计算引擎基于开源Spark 进行深度改造，提供的基于内存的分布式快速计算。拥有Hadoop MapReduce所具有的优点，但不同于MapReduce

54、的是Job 中间输出和结果可以保存在内存中，从而不再需要读写HDFS，因此Spark 能更好地适用于数据挖掘与机器学习等需要迭代的map reduce 的算法。与Hadoop相比，Spark 的中间数据放到内存中，对于迭代运算效率更高。Spark 更适合于迭代运算比较多的 ML 和 DM运算。提供的数据集操作类型包括map、 filter 、 flatMap 、sample、groupByKey、reduceByKey、union 、 sort,partionBy 等多种Transformations 操作类型。同时还提供Count, collect, reduce, lookup, save

55、等多种 actions操作。这些多种多样的数据集操作类型，给给开发上层应用的用户提供了方便。各个处理节点之间的通信模型不再像Hadoop那样就是唯一的Data Shuffle 一种模式。用户可以命名，物化，控制中间结果的存储、分区等。可以说编程模型比Hadoop更灵活。Spark 的适用场景：Spark是基于内存的迭代计算框架，适用于需要多次操作特定数据集的应用场合。需要反复操作的次数越多，所需读取的数据量越大，受益越大，数据量小但是计算密集度较大的场合，受益就相对较小由于RDD的特性，Spark不适用那种异步细粒度更新状态的应用，例如 web服务的存储或者是增量的web爬虫和索引。就是对于

56、那种增量修改的应用模型不适合。（ 4）实时数据处理对开源 Spark streaming 进行了改造，基本的原理是将流数据分成小的时间片断（一般是秒级），以类似batch 批量处理的方式来处理这小部分数据。这里的批处理引擎是Spark，也就是把Spark Streaming 的输入数据按照batch size（如 1 秒）分成一段一段的数据（Discretized Stream ），每一段数据都转换成Spark 中的RDD（ Resilient Distributed Dataset ），然后将Spark Streaming中对 DStream 的 Transformation 操作

57、变为针对 Spark 中对 RDD 的 Transformation 操作，将RDD经过操作变成中间结果保存在内存中。整个流式计算根据业务的需求可以对中间的结果进行叠加，或者存储到外部设备。（ 5） SQL解析器Spark SQL是一个基于Spark 的 SQL解析引擎，通过它实现执行计划的解析、生成、优化、映射工作，使系统可以基于Spark 做类 sql 、标准 sql 甚至其他查询语言的查询，Spark SQL复用了 Hive 的 meta store 数据、 hql 解析、UDFs、SerDes，在执行DDL和某些简单命令的时候，调的是hive 客户端。后续逻辑执行优化、物理

58、执行计划翻译及执行过程，都是使用的spark sql 组件提供的内容，最终的执行引擎是Spark。由于 spark sql 实现对标准SQL和 HQL的支持可以同时处理RDD和 HDFS上的数据，对与传统平台迁移到hadoop 无需大幅改造sql ，已经实施的大数据项目也可以便捷的迁移到spark 上，并且可以很好的将批处理与流处理结合起来，因此成为one size first all 通用方案。具有以下特点：一，能在Scala 代码里写SQL，支持SQL语法检查，能把RDD指定为Table存储起来。此外支持部分SQL语法的DSL。二，支持Parquet（ Parquet 是一种供Hadoo

59、p使用的列式存储格式。Parquet为 Hadoop生态系统中的所有项目提供支持高效率压缩的列式数据表达，而且与数据处理框架、数据模型或编程语言都没有关系）文件的读写，且保留Schema。三，能在 Scala 代码里访问Hive 元数据，能执行 Hive 语句，并且把结果取回作为RDD使用。Spark CRUD技术实现特点：CRUD支持：Spark SQL支持传统DB的 insert , update , delete 操作；高性能保障：充分利用Spark 的高性能特性，支持大规模数据集下的数据更新操作；高性能优化：优化的数据读写结构，减少IO 操作；多版本数据控制；ACID支持：分布式

60、环境下的数据ACID支持分布式应用协调基于 Zookeeper 系统进行优化，应用于分布式应用的协作服务。使得分布式应用可以基于这些接口实现诸如同步、配置维护和分集群或者命名的服务。Zookeeper 很容易编程接入，它使用了一个和文件树结构相似的数据模型。可以使用 Java 或者 C 来进行编程接入。Zookeeper 针对大型分布式系统的可靠协调系统，提供的功能包括：配置维护、名字服务、分布式同步、组服务等。它可以维护系统配置、群组用户和命名等信息。提供数据同步机制，数据严格按时间更新、查询和发布，保证数据的一致性。提供高并发能力，保证集群的高性能，在以读为主的应用中, 可以提供数千台客

人人文库> 全部分类> 行业资料 > 信息产业

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

大数据平台技术方案

文档简介

温馨提示

最新文档

评论

大数据平台技术方案

文档简介

温馨提示

最新文档

评论

相关文档