AAA大数据处理综合处理服务平台的设计与实现_第1页
AAA大数据处理综合处理服务平台的设计与实现_第2页
AAA大数据处理综合处理服务平台的设计与实现_第3页
AAA大数据处理综合处理服务平台的设计与实现_第4页
AAA大数据处理综合处理服务平台的设计与实现_第5页
已阅读5页,还剩3页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、【MeiWei 81 重点借鉴文档】 大数据处理综合处理服务平台的设计与实现 (广州城市职业学院广东广州 510405) 摘要:在信息技术高速发展的今天,金融业面临的竞争 日趋激烈,信息的高度共享和数据的安全可靠是系统建设中 优先考虑的问题。大数据综合处理服务平台支持灵活构建面 向数据仓库、 实现批量作业的原子化、 参数化、 操作简单化、 流程可控化,并提供灵活、可自定义的程序接口,具有良好 的可扩展性。该服务平台以 SOA 为基础,采用云计算的体 系架构,整合多种 ETL 技术和不同的 ETL 工具,具有统一、 高效、可拓展性。 该系统整合金融机构的客户、 合约、 交易、 财务、 产品等主要

2、业务数据, 提供客户视图、 客户关系管理、 营销管理、财务分析、质量监控、风险预警、业务流程等功 能模块。该研究与设计打破跨国厂商在金融软件方面的垄断 地位,促进传统优势企业走新型信息化道路, 充分实现了 “资 源共享、低投入、低消耗、低排放和高效率” ,值得大力发 展和推广。 关键词:面向金融,大数据,综合处理服务平台。 一、研究的意义 目前, 全球 IT 行业讨论最多的两个议题, 一个是大数据 分析“ BigData ”,一个是云计算“ CloudComputing ”。中国五 大国有商业银行发展至今,积累了海量的业务数据,同时还 不断的从外界收集数据。据 IDC (国际数据公司)预测,用

3、 于云计算服务上的支出在接下来的 5 年间可能会出现 3倍的 增长,占据 IT 支出增长总量中 25%的份额。目前企业的各 种业务系统中数据从 GB、TB 到 PB 量级呈海量急速增长, 相应的存储方式也从单机存储转变为网络存储。传统的信息 处理技术和手段,如数据库技术往往只能单纯实现数据的录 入、查询、统计等较低层次的功能,无法充分利用和及时更 新海量数据,更难以进行综合研究,中国的金融行业也不例 外。中国五大国有商业银行发展至今,积累了海量的业务数 据,同时还不断的从外界收集数据。通过对不同来源,不同 历史阶段的数据进行分析,银行可以甄别有价值潜力的客户 群和发现未来金融市场的发展趋势,针

4、对目标客户群的特点 MeiWei_81 重点借鉴文档】 【MeiWei 81 重点借鉴文档】 和金融市场的需求来研发有竞争力的理财产品。所以,银行 对海量数据分析的需求是尤为迫切的。再有,在信息技术高 速发展的今天,金融业面临的竞争日趋激烈,信息的高度共 享和数据的安全可靠是系统建设中优先考虑的问题。随着国 内银行业竞争的加剧,五大国有商业银行不断深化以客户为 中心,以优质业务为核心的经营理念,这对银行自身系统的 不断完善提出了更高的要求。而“云计算”技术的推出,将 成为银行增强数据的安全性和加快信息共享的速度,提高服 务质量、降低成本和赢得竞争优势的一大选择。 面向金融领域的海量数据综合处理

5、服务平台融合了分 布式云计算技术、 SOA 技术、 ETL 技术、作业调度技术,以 SOA 为基础,采用云计算的体系架构,整合多种 ETL 技术 和不同的 ETL 工具,为金融行业建立统一、 高效、 可拓展的 面向金融领域的海量数据综合处理服务平台。该平台支持灵 活构建面向数据仓库、数据集市、数据集文件进行海量数据 的处理、加工和交换,实现批量作业的原子化、参数化、操 作简单化、 流程可控化, 并提供灵活、 可自定义的程序接口, 具有良好的可扩展性,是一个基础服务框架的产品平台。该 系统整合金融机构的客户、合约、交易、财务、产品等主要 业务数据,提供客户视图、客户关系管理、营销管理、财务 分析

6、、质量监控、风险预警、业务流程等功能模块。系统支 持构筑面向运营的服务平台,可以按功能点或数据量来向使 用方收费,使用方按格式要求提供数据,然后点击相关功能 模块得到目标结果。 随着全球各行业对数据整合应用需求的扩大, “面向金 融领域的海量数据综合处理服务平台”的需求将会越来越 大。该平台为银行、证券、保险行业等金融领域服务业创新 和转型升级提供决策支持,能有效推进信息化技术在传统金 融优势产业的融合渗透,属于国家优先发展和重点支持技术 领域。从宏观的角度来看,通过本服务平台的实施,能促进 我国金融信息化的发展,调整产业结构,同时增强企业品牌 竞争力,提高企业在国内外信息科技领域的知名度,打

7、破跨 国厂商在金融软件方面的垄断地位,促进传统优势企业走新 MeiWei_81 重点借鉴文档】 【MeiWei 81 重点借鉴文档】 型信息化道路,完善社会主义市场经济体制,符合我国“十 R 五”规划刚要发展的特点,对全面建设小康社会新胜利、 推进中国特色社会主义伟大事业,具有十分重要的意义。 二、平台设计的技术线路 1、基础技术架构采用了当前先进的云计算技术,系统 采用基于 Hadoop 架构计算模式,突破传统数据库系统对海 量数据处理的速度限制,通过对大量数据的并发访问和处 理,极大地提高了数据处理效率。 2、基于 SOA 方式的批量处理作业调度逻辑设计,采用 集中式管理、分布式、多节点并

8、行运算的设计概念,实现跨 平台、面向数据、高效并发调度多个海量批处理作业。 3、采用 ETL 技术,完成海量数据从源系统到数据仓库 再到数据集市加工、处理、集成的过程。同时,平台支持整 合主流的 ETL 工具( DataStage、Informatica 、Sagent 等)和 对可执行程序和存储过程的调用。 4、采用作业调度技术,通过统一的操作平台和图形化 界面,定义批量作业的调度策略和调度规则,实现跨平台、 跨系统的批量作业的调度、执行和监控;同时,平台通过并 发控制和动态负载均衡实现性能的最大优化。 5、采用影像处理技术实现影像的扫描、处理、分类、 上传。影像扫描通用平台集成了一系列对文

9、件处理、文件扫 描、影像处理、 文件上传的逻辑, 通过一系列的抽象和转化, 使开发人员可以忽略内部细节而直接针对业务逻辑进行设 计。 6、通过工作流技术实现业务线上的流转和审批,并结 合电子化影像,极大地提高了工作效率。 三、平台的功能与架构 1、数据整合层 通过 SOA 技术、 ETL 技术、 hadoop 的 HDFS 技术、影 像处理技术,高效整合来自各个业务系统的数据,保证系统 数据的一致性、准确性和完整性。数据经过加工处理,根据 数据格式和数据量,分别存储在关系型数据库、 hadoopHBASE 、影像存 ?教校?再根据主题应用,将数据 MeiWei_81 重点借鉴文档】 【MeiW

10、ei 81 重点借鉴文档】 整合加工存储在“应用数据存储” ,为用户提供一个统一的 干净的数据视图。2、基础架构层 采用 hadoop 来构建分布式并行计算平台,主要由 MapReduce 的算法执行和一个分布式的文件系统( HDFS) 两部分组成, hadoop 在可伸缩性、健壮性、计算性能和成本 上具有无可替代的优势。 采用公司有自主知识产权的 ETL 软件包或整合主流的 ETL 工具( DataStage、 Informatica 、 Sagent 等)来构建数据 ETL 平台。 采用 Brio 构建数据查询、分析、统计报表平台。 采用 Oracle 和 hadoopHBASE 搭建数据

11、存储平台。 Oracle 采用传统的方式存储数据。 HBase 是 Hadoop 的一个子项目, HBase 采用了 GoogleBigTable 的稀疏的、面向列的数据库实 现方式,建立在 hadoop 的 hdfs 上,一方面用了 hdfs 的高可 靠性和可伸缩行, 另外一方面用了 BigTable 的高效数据组织 形式,为海量数据加工处理存储提供了很好的解决方案。 采用 JBPM 管理并配置流程,实现对流程的读取和保存 操作,并推动流程的流转。 采用 Websphere支持 WEB 应用,用户只需通过浏览器 即可登录系统进行相关操作,提高了易用性和可维护性。 3、集成与服务层 集成与服务

12、层整合了 ETL 引擎、 作业调度引擎、 规则引 擎、影像处理引擎、工作流引擎来实现关键技术路径,并通 过组件化设计,保证了系统的灵活性和可扩展性。系统还提 供了管理监控服务、云计算服务、数据平台服务等。 4、应用层 在数据整合层、基础架构层、集成与服务层的基础上实 现针对业务数据加工、 客户视图、 客户关系管理、 营销管理、 财务分析、资产质量监控、风险预警、业务分析、统计报表 等应用。 系统物理架构如下: 数据源:数据来源于多个业务系统; ETL 服务器:多台服务器组成集群, 部署 hadoopHDFS 、 MeiWei_81 重点借鉴文档】 【MeiWei_81 重点借鉴文档】 data

13、stage工具、 etl 软件包,实现海量数据的综合处理; 存储服务器:多台服务器组成集群,部署oracle 数据 库、 hadoopHBASE 来存储数据,部署影像存储平台来存储 影像文件; WEB 应用服务器:部署 IBMWebspshereapplicationServer ,支持 WEB 应用,部署 JBPM 支持工作流应用; 分析应用服务器: 部署 Brio 服务器, 支持分析、 统计、 报表应用; 客户端: 客户端采用普通 PC,客户端浏览器要求 IE5.5 以上; 网络:服务器、客户端通过 TCP/IP 网络进行连接。 四、关键技术与创新性 云计算技术:本服务平台采用高性能的分布

14、式云计算技 术,实现海量文件存储、海量数据存储和统一的海量数据处 理编程方法和运行环境。云计算主要基于虚拟化和分布式并 行架构两大核心技术,虚拟化平台将服务器虚拟为多个性能 可配的虚拟机,对整个集群系统中所有虚拟机进行监控和管 理,并根据实际资源使用情况对资源池灵活分配和调度。虚 拟化技术不仅消除大规模异构服务器的差异化,其形成的计 算池可以具有超级的计算能力。分布式并行架构是云计算的 另一个核心技术,用于将大量的低配置机器整合为一台高性 能计算机,提供海量的数据存储和处理服务。 SOA 技术:面向服务的体系结构 (service-orientedarchitecture ,SOA )是一个组

15、件模型,它将 应用程序的不同功能单元(称之为服务)通过这些服务之间 定义良好的接口联系起来。接口是独立于实现服务的硬件平 台、操作系统和编程语言的。采用 SOA 技术实现处理、运 行、监控服务之间的松耦合,使系统变得更加灵活,以适应 不断变化的业务需求和环境。 ETL 技术: ETL 中三个字母分别代表的是 ERtract 、 Transform 、Load,即抽取、转换、加载。 ETL 作为构建数据 仓库的一个重要环节,负责将分布的、异构数据源中的数据 MeiWei_81 重点借鉴文档】 MeiWei 81 重点借鉴文档】 如关系数据、平面数据文件等加工到临时中间层,然后进行 清洗、转换、集

16、成,最后加载到数据仓库或数据集市,作为 联机分析处理、数据挖掘的数据基础。采用自主开发的 ETL 工具或整合主流 ETL 工具, 通过周期性的刷新, 为用户提供 一个统一的干净的数据视图,为数据分析提供一个高质量的 数据源。 作业调度技术:数据仓库、数据集市的批量作业数量很 多、处理流程和作业依赖关系复杂多样、性能低下,是 ETL 处理加工遇到的常见问题,系统采用作业调度技术,通过统 一的操作平台和图形化界面,定义批量作业的调度策略和调 度规则,实现跨平台、跨系统的批量作业的调度、执行和监 控。针对数据量巨大、 源数据文件多、 加工逻辑复杂的系统, 使用作业调度技术达到简化管理复杂度,提高系统

17、总体性能 的目的。 影像处理技术:采用我公司自有知识产权的影像扫描通 过平台来实现影像的处理及上传。 扫描影像: 作为一个插件, 该软件可以在 IE 浏览器平台 上调用各种扫描设备扫描图像,并按照预先设定的摸板,对 影像自动存盘,并对扫描的影像进行数据格式压缩,确保传 输文件的大小。 影像处理:对扫描出来的影像提供了预览的功能,支持 放大、缩小查看。对影像还具有自动去黑点、去黑框、自动 纠偏,以及旋转角度等功能。 影像分类:对扫描的影像文件提供分类文件夹,便于用 户按照实际的业务需求来进行分类。 文件操作:支持影像文件的一般操作,如复制、粘贴、 删除、建立文件夹等功能,并支持缩略图的拖拉操作。

18、 影像上传:对于指定的影像资料,在特定的目录下,支 持影像的上传功能, 由服务器进行影像的存放及 ?稻菘飧 ?新。 在传输过程中严格保证文件传输的准确性。 工作流技术:采用基于 Java 的 jBPM 作为工作流引擎, 来设计、优化、运行并控制业务流程。 jBPM 作为工作流引 擎,支持可视化流程定义、版本化部署以及日志跟踪。系统 MeiWei_81 重点借鉴文档】 【MeiWei_81 重点借鉴文档】 充分利用 jBPM 原有特性的基础上做了优化和封装,尤其是 优化了流程的执行、改善流程执行的效率、提高系统的并发 性能。 六、技术推广与社会效益 在未来的五年内,国际金融市场对数据仓库和数据分析 的市场需求将会持续增长,本服务平台开发的数据仓库支撑 技术将得到进一步的升级改造。同时,进一步推进国内金融 信息化同行对数据仓库相关的支撑技术的研发投入

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论