大数据平台项目技术方案参考学习_第1页
大数据平台项目技术方案参考学习_第2页
大数据平台项目技术方案参考学习_第3页
大数据平台项目技术方案参考学习_第4页
大数据平台项目技术方案参考学习_第5页
已阅读5页,还剩110页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

某地信息化建设项目大数据平台技术方案某省某地有限公司二O二三年五月目录TOC\o"1-3"\h\z第1章需求分析 41.1.业务目标需求分析 41.1.1.信息资源整合需求 41.1.2.应用系统整合需求 41.1.3.业务处理和管理需求 41.2.系统功能性需求分析 41.3.信息量指标 51.4.系统性能指标 5第2章总体建设方案 62.1.总体设计原则 62.2.总体目标 82.3.总体建设任务 82.4.系统总体结构 92.4.1.数据采集接入层 102.4.2.数据处理层 102.4.3.数据融合层 112.4.4.数据仓层 132.4.5.数据应用层 142.5.应用架构及设计 142.5.1.大数据基础平台 152.5.2.数据交换平台 262.5.3.数据管理平台 292.5.4.运行支撑平台 322.5.5.数据门户 322.6.系统功能模块简介 332.6.1.数据基础信息平台 332.6.2.数据交换管理系统 412.6.3.数据共享管理系统 462.6.4.数据治理管理系统 472.6.5.运行支持管理系统 482.6.6.统一数据门户管理系统 492.6.7.大数据可视化平台 502.6.8.城运行一张图 522.7.应用支撑系统设计 532.7.1.统一用户管理 532.7.2.统一应用管理 562.7.3.统一服务管理 572.7.4.统一消息服务 592.7.5.统一日志服务 592.8.标准规范建设 602.8.1.管理制度建设 602.8.2.平台标准建设 622.8.3.数据标准建设 632.8.4.标准规范索引 642.9.信息资源规划和数据设计 652.10.数据处理和存储系统设计 672.11.应用集成及接口设计 682.12.网络系统设计 692.13.安全系统设计 692.14.备份系统设计 702.15.运行维护系统设计 702.16.其它系统设计 712.08.系统配置及软硬件选型原则 712.98.系统软硬件配置清单 722.19.系统软硬件物理部署方案 73第3章项目建设与运行管理 743.1.领导和管理机构 743.2.项目实施机构 743.3.运行维护机构 743.4.项目进度、质量 743.5.相关管理制度 75第4章人员配置与培训 764.1.人员配置计划 764.2.人员培训方案 76第5章项目实施进度 785.1.项目实施进度 78第6章初步设计概算 836.1.初步设计投资概算书 83第7章风险分析及对策 887.1.风险分析及对策 88第8章运维服务 89需求分析业务目标需求分析信息资源整合需求信息资源整合是一个为了某种应用目的对业务和信息资源进行梳理、分类、组织、标准化,以满足业务协同对信息资源共享需求的过程。它不只是一个技术过程,更重要的是一个建立信息资源共享和管理机制与规则的过程。同时,信息资源整合应体现信息资源与业务之间的关联性,以满足业务协同对信息资源共享的需要。应用系统整合需求经过多年的电子建设,某地各部门已经建成了大量的应用系统,由于协同工作的需要,各应用系统之间是相互关联的,它们之间存在大量的数据交换与协同。在实际的工作中,对数据进行跨部门交换的需求日益迫切。不少部门由于协同办公的需要,在部范围内建立了一些数据交换的平台,但是由于这些交换平台与业务密切相关,不能推广到更多的电子应用中,造成了重复建设的现象。业务处理和管理需求从信息资源的特点和应用需要来看,信息资源与活动密切相关,信息资源产生于活动的各个环节和部门。在的活动中,部门在履行职能、办理业务和事项中随时都需要和产生信息资源,它的存在和分布是跨行业、跨部门、跨地域的,并且大部分信息资源随着业务的开展不断产生和变化,是一种与活动相关的动态信息资源。所以,信息资源的整合应体现信息资源与业务之间的关联性和动态性,建立以业务需求为依据整合信息资源的机制,以满足协同业务对信息资源共享的需要。系统功能性需求分析建立基础地理空间、人口、法人、宏观经济、信用信息和城建筑信息六大基础,建立信息系统的基底数据,实现城管理中各要素的全面管理,为应用信息系统建设提供统一的数据服务。通过统一的数据管理平台,提供数据标准化工具,使得数据的收集、清理、整合等更加标准与完善,实现各个系统数据的一致性,保证不同来源的信息能够无缝使用,实现提供数据检查、数据转换、数据入、数据性能调优、数据备份与恢复管理、数据权限控制、数据导入导出、数据查询统计等功能,在保证数据高效应用基础上,保证数据的安全性。信息量指标结构化数据10TB,非机构化数据(视频、图片)1PB。系统性能指标一般性数据保存、修改、删除等操作的响应反馈速度不应超过5秒。WEB应用程序不应超过15秒。一般10万条数据的简单查询及统计不应超过30秒,百万条数据的查询统计不应超过60秒。复杂综合性跨模块查询及统计不应超过2分钟。总体建设方案总体设计原则(1) 统一性原则遵循国家电子的要求,以系统工程的方法对系统进行统一规划、统一设计,遵循统一的规范,采用统一的技术,以方便系统建成后的运行和维护,保证系统可持续、高效、安全运行。(2) 标准性、开放性系统所采用的相关标准必须与国际、国家、、级标准相符合,确保系统具有良好的开放性,能够实现与多种技术和软硬件平台的有机集成。(3) 安全性系统应具有完整、全面的安全体系和良好的安全性,能够提供信息传输保密性、数据完整性、身份识别和数字认证、防抵赖性等安全保障措施,确保信息交换的安全运行。系统设计不影响各部门相关信息系统的安全性。(4) 可扩展性系统采用可扩展的技术体系架构,以适应信息化建设和应用系统快速发展的要求。系统必须支持异构数据之间数据交换和共享,支持主流关系型数据,支持不同操作系统之间信息交换应用的互联互通。(5) 高可靠性系统应具有良好的可靠性,建立各种故障的快速恢复机制,确保实现7×24小时地正常运转,确保信息交换工作正常运行。(6) 可管理性系统应具有良好的可管理性,允许管理人员通过管理工具实现系统全面的监控、管理和配置,并为系统故障的判断、排错和分析提供支撑,可对信息交换流程进行简易、灵活地定制和调整,同时对系统运行情况能够实时的统计分析、报表展示。(7) 实现信息全生命周期管理所谓全生命周期管理,就是指从人们对信息的需求开始,到信息报废的全部生命历程的管理。实现全生命周期,需要对城管理部件、企业和公众的信息进行全方位的收集和管理,优化、控制城部件、企业的生命历程,提升数据融合服务平台的服务能力和的执政能力。(8) 科学设计,分步实施某地大数据平台作为数据融合、联网应用和服务的重要载体其建设是一个庞大而复杂的系统工程,必须采取强有力的统一规划、统一标准,总体把握、统筹推进,根据发展阶段和现实需要,有计划、有步骤地推进具体项目建设,并能有机融合,形成整体。其中系统的可靠性、高性能、安全性、绿色节能和扩展性五项将成为建设设计重点。(9) 信息为基,应用为本某地大数据平台建设的目的是打造高效的某地城管理、企业服务和公众服务业务系统。因而,某地大数据平台是业务系统建设的基础,建立完善的应用系统才是建设平台最终目的。只有基于某地大数据平台建立的业务系统,才能发挥平台的作用。(10) 可伸缩和可扩展性原则系统应该真正符合多层浏览器/服务器体系结构,应能满足新增的需求,而系统的体系结构不需做较大的改变,并能保证系统今后的平滑升级。应充分考虑现有技术以及未来电子的发展要求,保证系统具有较好的开放性和结构的扩展性,在系统设计中应尽量采用模块化结构、提高各模块的独立性,尽可能减少模块间的数据藕合,使各子系统问的数据依赖程度减至最低限度,同时,要适当兼顾今后需求扩大时对功能扩展的需要。交换平台和节点应具备支撑多个应用系统的能力和节点个数的易扩充性。(11) 高效性原则系统的运行效率主要包括:处理能力,处理速度,响应时间等。系统在满足其他各项功能需要的前提下,应可能地提高系统运行效率。(12)友好性原则系统应具有人性化的人机交互界面,要求用户界面标准,统一集成,使用简单,减少使用的复杂程度,提高使用效率。(13)可管理易维护性由于电子公共数据开放共享平台系统,使用面广,系统稳定性可用性要求高,因此平台还必须具有良好的可管理和易于维护的特点。总体目标平台建设目标为:以完善的机制体制和全面的安全体系为保障,以弹性动态的基础设施平台为基础,以信息资源数据的共享、交换、融合、服务为核心,以多部门的业务流程协同为手段,打造可持续运营的、实用的、能够真正服务于社会管理、城管理和社会经济管理的信息化体系,并探信息化与体制机制深度融合和互相促进,为未来智慧城的建设打下良好的基础。目标可分解为如下的子目标:1) 实现党委、所有部门及临时设立的机构的数据交换,基础数据集中、清洗、整理,以合理的数据结构进行存储,打破部门信息壁垒,解决信息孤岛问题。2) 形成一整套数据清洗整理体系,前期采集数据通过采集-清洗-反馈-修改-再次采集数据循环,清洗整理,后期各个部门新生产的数据,都以几个数据主体部门数据为基础,产生数据后,再采集清洗,逐步提升基础数据质量。3) 形成整套数据共享体系。数据采集清洗整理后,集中到某地大数据平台,各个部门对已整理的数据提出数据要求,在实现数据安全、保密等多重权限控制情况下,以多种方式提供给部门用户。实现部门之间的数据共享、共用,统一数据环境,减少部门之间数据差异,提高各部门数据质量,方便部门应用。4) 实现综合应用的建设。在完善的数据采集、清洗、共享体系下,在完整、实时、权威及合理结构化的数据融合服务平台之上,实现区域化整体数据应用,为组织单位、公众群体提供完整的数据展现、全面的基础数据服务,以及为领导决策层提供全面的、多层次的、直观的、实时有效的数据分析,解决当前部门应用片面不完整,无法宏观把控的面。总体建设任务大数据平台通过将各委办及投资公司信息资源梳理和整合,建立基础地理空间、人口、法人、宏观经济、信用信息和城建筑信息六大基础,建立信息系统的基底数据,实现城管理中各要素的全面管理,为应用信息系统建设提供统一的数据服务。通过统一的数据管理平台,提供数据标准化工具,使得数据的收集、清理、整合等更加标准与完善,实现各个系统数据的一致性,保证不同来源的信息能够无缝使用,实现提供数据检查、数据转换、数据入、数据性能调优、数据备份与恢复管理、数据权限控制、数据导入导出、数据查询统计等功能,在保证数据高效应用基础上,保证数据的安全性。通过建立数据交换平台,需实现自动抓取各投资公司信息系统中的增量数据,使得各个单位收集及产生的数据向公共基础数据的汇聚,保证公共基础数据数据的能更新、可更新和及时更新,保障公共基础数据数据的现势性。系统总体结构大数据平台依托某地级智慧城中心和大数据平台,对“智慧某地”所需计算、存储、网络资源进行扩容,为形成一体化的“智慧某地”支撑与应用体系奠定基础。以资源整合、信息共享、协同应用为主线,通过数据资源统一管理、共享交换与综合应用,形成“智慧某地”整体框架,为“智慧某地”建设提供数据资源共享化、基础平台标准化、辅助决策智能化、智慧服务享受“一站式”的核心基础支撑,带动各领域的资源共享交换、业务协同、智能化应用与便捷化智慧服务。项目最终建成开放、可共享的高端计算环境,服务于信息化、同时为企业创造新型科研、生产手段和资源服务,为科研提供国际水准的现代化科研环境,为跨行业跨学科的技术合作创造机会,引导培育开发一批推动经济建设和行业发展的应用项目,培育新的经济增长点,培养和吸引一批高级信息技术人才。大数据平台在整个架构中每一层贯穿安全保障体系和标准规范体系,全面保障某地大数据平台的整体安全和平稳运行,范围涵盖某地。大数据平台系统逻辑架构图数据采集接入层数据接入是指不同部门按照业务需求,确定信息交换流程,在部门间实现具有主动推送特点的连续、实时信息传输。典型的应用有公文交换、部门间基础信息交换、综合治税信息交换、信用信息交换、社会保障信息交换等。信息交换有集中交换、分布交换与混合交换等三种模式。数据交换的主要任务是实现数据的发送与接收,对参与者的合法性进行验证,并通过与数据传输中间件的配合,实现可靠的数据交换。数据可靠传输的目的是实现传输过程中的“不错、不丢、不重”。数据传输的可靠性由所选定的中间件软件保证,通过数据传输中的数据压缩/解压缩以及断点续传等功能,保证数据交换的可靠性。数据处理层不同委办交换而来的数据经过数据清洗、比对、融合环节,为某地大数据平台打造信息完整、结构清晰合理、数据准确及时的权威数据。数据清洗由于信息共享平台数据采集部门较多,各个数据采集部门的信息化建设程度各异,数据维护程度也各自不同,信息共享平台对从各个数据采集部门采集回来的数据进行规范性清洗,屏蔽数据采集过程中,数据格式错误、无用甚至对信息共享平台有危害的数据。为信息共享平台建设数据服务中心提供前期的一个数据过滤。数据比对数据比对主要是对采集回来的各类数据,进行关键字段的比较核对,形成各类型属性数据在主表上的挂靠,同时也将采集过来的各个类型属性数据中信息错误或有差异的数据进行更正、统一。针对已经采集并清洗后的数据,分类同地理、自然人口、组织单位三大主表进行数据比对,比对上的数据,分主表和附属信息表存储,包括新增、修改。主表信息,累计增加,附属表比对上后携带主表id存储。无法比对上的附属表信息作为异常数据存储,以便统计和后期反馈。数据比对主要分为程序比对和人工比对两种手段,程序无法识别的数据由人工进行核实。异常数据反馈异常数据反馈功能,将数据采集、清洗、比对同数据采集部门形成互动。将清洗和比对工作中发现的异常数据反馈给数据提供部门,提醒数据提供部门核实的同时,也帮助提高部门自身业务数据准确性。数据融合层数据共享平台在完成数据比对,形成地理信息、自然人口、组织单位三大对象数据结构体系后,通过地理信息标准地址和自然人口身份证号码进行三大整合,使三大相对独立的对象进行关联,有效的实现地理、人口、组织单位的紧密结合。主体对象表抽取对各个部门采集数据进行清洗后,将信息过后的数据分主次抽取,抽取地理、人口、组织单位三大主体对象,形成主体。其中地理信息主表,主要由地理信息构成,以地址信息id为主键,详细地址信息为主要字段,形成地址信息主表。自然人口信息主表,主要由公安自然人口信息构成,以人口信息id(或身份证号)为主键,以自然人口地址信息、自然人姓名、性别等信息为主要字段,形成自然人口信息主表。组织单位信息主表,主要由工商企业登记信息、编办事业单位信息、民政社会团体、民办非企业单位及质监的组织机构代码颁证信息构成,以组织单位id为主键,以工商注册号、组织机构代码证、组织单位名称、注册地址、办公地址等信息为主要字段,形成组织单位信息主表。主题表关联各主题通过对应的主题表中的主键相互关联,如组织单位主题表通过企业地址与地址信息主题表关联、人口主题表通过人员居住地址与地理信息主题表关联、自然人主题表通过身份证号与组织单位主题表关联。业务属性信息关联以主题表关联形成了数据关联融合的整体框架,各业务属性信息之间也需要通过相应的主键进行关联,如自然人口民政、劳动、计生、卫生信息等为属性专题数据表,通过身份证号与自然人主题表关联。属性信息与地理信息的关联属性信息与地理信息的关联地址编码主要通过地址编码实现。地址编码的过程通常包括两个明确的步骤,即地址标准化和地址匹配。地址标准化是指在进行地址编码之前,将道路地址处理为一种熟悉的、常用的格式,纠正道路和地址名称的形式等。目前宁波规划已经采集了20多万条标准地址数据,具备了地址匹配的基础条件。地址匹配指确定具体地址事件的空间位置,并且将其绘制在地图上,最终目标是为给定地址,如:企业地址、人员居住地址等返回最准确的匹配结果,并通过GIS服务器在地图上找到并标明每条地址所对应的位置。地址编码的方式有3种:定位到道路、定位到区域以及定位到道路和定位到区域相结合的方式。定位到道路:是通过道路名和门牌号码进行匹配,在参考主题中每一个路段都具有道路名和起止门牌号码信息,在地理编码时,首先首先根据地址信息中道路名找到参考主题中相同名称的路段,然后根据地址信息中的门牌号及每个路段的起止门牌号码信息找到门牌号所在路段,最后根据门牌号及该路段的起止门牌号码信息进行内插确定该记录在该路段上的位置。定位到区域:将地址中具有区域属性的记录与地图地址相应属性的区域记录进行比较,如果匹配成功,则将待查地址区域以点要素形式生成在地图的相应区域内。定位到区域以及定位到道路和定位到区域相结合的方式:是将上述两个方法折中的方式来实现的。采用地址编码的优点:信息自动匹配,信息自动关联融合,减少了人力物力开销。缺点:匹配信息存在不准确现象,系统实现过程复杂。数据仓层随着某地大数据平台将越来越多的部门数据收集整合起来,信息共享平台数据内容越来越复杂,更多的数据信息无法得到有效的分析利用。而随着社会信息化的快速发展,平台用户决策任务越来越重,决策频率也越来越高,原始的数据分析已经无法负荷这种大量度、高频率、多维度的决策支持工作,为此信息共享平台引入数据仓技术。数据仓是一个面向主题、集成的、非易失的、随时间变化的数据集合,能够对平台数据进行分类、元数据抽取、数据统计、模型搭建、历史数据存储等操作,为智能分析提供多角度、多层次、多时间面的数据支持,方便智能分析中数据统计,利用数据仓,新的分析需求无需从原始数据进行重新归总统计,可直接利用初步综合数据或中度综合数据甚至高度综合数据,从而节约数据分析时间,快速支持用户决策,同时也节约了分析系统设计开发成本。数据仓还存放了大量的历史统计静态数据,对于以时间为主线的环比、同比、趋势等分析可提供直接的数据支持,不需向原始的数据分析那样去调用原始的历史数据来重复统计,也解决有些数据无历史数据记录的弊端。数据应用层应用系统是数据融合服务平台建设的目的,通过应用系统的建设,充分发挥基础人口、组织单位和地理信息融合以及多部门信息整合的优势,满足以往做不好或者不能做的业务应用,以各种灵活的方式为用户提供应用服务,例如部门共享应用、智慧社区、应用、领导桌面、智能分析、权限管理、全面审计、数据目录、单点登录、公众服务等。应用架构及设计大数据平台应用总体架构如下:某地大数据平台应用架构整体架构分为三层,最底层是基础层,包括云平台即中心、物联网和基础网络工程。再向上是数据层,即大数据平台,最上层为应用服务层。大数据平台包含:基础数据即人口、法人、空间地理、建筑、信用信息和宏观经济等六大数据。专题服务数据,包括各行业各部门数据的专题数据。大数据基础平台某地服务所需要的数据来自于各街道,包含传统数据数据、视频、图片、声音、日志文件、电子邮件、地图、Word、PDF等各种文档。这些数据分为结构化数据、半结构化数据和非结构化数据。这些类型的数据无法用传统关系型数据进行数据处理和分析,必须借助于大数据基础平台的HDFS、Hbase、MapReduce等技术手段进行处理和分析,支持顶层应用系统的数据利用。大数据基础平台主要包括如下组件:大数据平台运维管理组件运维管理组件提供大数据平台组件部署及动态扩容,提供大数据平台部署工具,组件部署管理及动态增加机器节点管理工具;组件服务监控管理,提供组件的运行状态、组件的负载情况监控及组件的启动、停止、移除等管理;组件故障自动迁移,节点组件出现故障时,集群中的其它节点中的相应组件自动接管故障组件的工作,保证组件正常服务。主要由两部分组成:运维管理组件-agent和运维管理组件-server。在agent端,采用puppet管理节点;在Server端,采用Jetty,Spring,Jetty,JAX-RS等;可以利用Ganglia,Nagios的分布式监控能力。下图是运维管理组件的系统架构。其中master模块接受API和AgentInterface的请求,完成运维管理组件-server的集中式管理监控逻辑,而每个agent节点只负责所在节点的状态采集及维护。运维管理组件架构图运维管理组件Server会读取Stack和Service的配置文件。当用运维管理组件创建集群的时候,运维管理组件Server传送Stack和Service的配置文件以及Service生命周期的控制脚本到运维管理组件Agent。Agent拿到配置文件后,会下载安装公共源里软件包(Redhat,就是使用yum服务)。安装完成后,运维管理组件Server会通知Agent去启动Service。之后运维管理组件Server会定期发送命令到Agent检查Service的状态,Agent上报给Server,并呈现在运维管理组件的GUI上。运维管理组件Server支持RestAPI,这样可以很容易的扩展和定制化运维管理组件。甚至于不用登陆运维管理组件的GUI,只需要在命令行通过curl就可以控制运维管理组件,以及控制Hadoop的cluster。分布式数据采用分布式数据Hbase。同时利用HBase中的主从复制和循环复制,使得系统达到一种高可用的状态。HBase复制是一种在不同HBase部署中复制数据的方法。它可以作为一种故障恢复的方法,并提供HBase层次的高可用性。在实际应用中,例如,可以将数据从一个面向页面的集群复制到一个MapReduce集群,后者可以同时处理新数据和历史数据。然后再自动将数据传回面向页面请求的集群。HBase复制中最基本的架构模式是“主推送”(master-push),因为每个regionserver都有自己的WAL(或HLog),所以很容易保存现在正在复制的位置。正如众所周知的解决方案-Mysql的主/从复制,只使用二进制文件来跟踪修改。一个主集群可以将数据复制到任意数目的从集群,每个regionserver都会参与复制自己的修改。复制是异步进行的,意味着集群可以是地理上彼此远离的,它们之间的连接可以在某个时刻断开,在主集群上的修改不能马上在从集群上进行同步(最终一致性)。和SQL语句不同,所有的WALEdits(包括来自客户端的Put和Delete产生的多单元格操作)都会被复制以保证原子性。来自每个regionserver的HLog是HBase复制的基础,并且只要它们需要将数据复制到从集群,它们就必须被保存到HDFS上。每个regionserver从它需要的最老的日志开始复制,同时在zookeeper中保存当前恢复的位置来简化错误恢复。每个从集群恢复的位置可能不同,但它们处理的HLog队列内容是相同的。参与复制的集群的规模可以不对等。主集群会通过随机分配尽量均衡从集群的负载。分布式数据仓采用分布式数据仓Hive。XData-Hadoop发行版中Hive的元数据是存储到Mysql中,利用mysql的ha对hive的元数据进行高可用设计。具体如下:安装MySQLHA集成环境的两个节点要配置无密码环境,并且两个节点互相加入了对方节点的known-hosts文件。Heartbeat主从节点都需要两个网卡,一个网卡需要为外网访问提供服务,一个网卡需要为心跳线服务,两个网卡配置IP不能在同一子网中,心跳线所使用网卡IP不要设置路由信息。主节点上的两个不同用处的网卡名称应该分别与从节点上的两个不同用处的网卡对应并相同。Hive是建立在Hadoop上的数据仓基础构架。它提供了一系列的工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。Hive定义了简单的类SQL查询语言,称为QL,它允许熟悉SQL的用户查询数据。作为一个数据仓,Hive的数据管理按照使用层次可以从元数据存储、数据存储和数据交换三个方面来介绍。1、元数据存储Hive将元数据存储在RDBMS中,有三种模式可以连接到数据:SingleUserMode:此模式连接到一个In-memory的数据Derby,一般用于UnitTest。MultiUserMode:通过网络连接到一个数据中,这是最常用的模式。RemoteServerMode:用于非Java客户端访问元数据,在服务器端启动一个MetaStoreServer,客户端则利用Thrift协议通过MetaStoreServer来访问元数据。2、数据存储首先,Hive没有专门的数据存储格式,也没有为数据建立索引,用户可以非常自由地组织Hive中的表,只需要在创建表的时候告诉Hive数据中的列分隔符和行分隔符,它就可以解析数据了。其次,Hive中所有的数据都存储在HDFS中,Hive中包含4种数据模型:Table、ExternalTable、Partition、Bucket。Hive中的Table和数据中的Table在概念上是类似的,每一个Table在Hive中都有一个相应的目录来存储数据。例如,一个表pvs,它在HDFS中的路径为:/wh/pvs,其中,wh是在hive-site.xml中由${hive.metastore.warehouse.dir}指定的数据仓的目录,所有的Table数据(不包括ExternalTable)都保存在这个目录中。Partition对应于数据中Partition列的密集索引,但是Hive中Partition的组织方式与数据中的很不相同。在Hive中,表中的一个Partition对应于表下的一个目录,所有的Partition数据都存储在对应的目录中。例如:pvs表中包含ds和city两个Partition,则对应于ds=20090801,city=US的HDFS子目录为:/wh/pvs/ds=20090801/city=US;对应于ds=20090801,city=CA的HDFS子目录为:/wh/pvs/ds=20090801/city=CA。Buckets对指定列计算hash,根据hash值切分数据,目的是为了便于并行,每一个Buckets对应一个文件。将user列分散至32个Bucket上,首先对user列的值计算hash,比如,对应hash值为0的HDFS目录为:/wh/pvs/ds=20090801/city=US/part-00000;对应hash值为20的HDFS目录为:/wh/pvs/ds=20090801/city=US/part-00020。ExternalTable指向已经在HDFS中存在的数据,可以创建Partition。它和Table在元数据的组织结构上是相同的,而在实际数据的存储上则有较大的差异。在Table的创建过程和数据加载过程(这两个过程可以在同一个语句中完成)中,实际数据会被移动到数据仓目录中。之后对数据的访问将会直接在数据仓的目录中完成。删除表时,表中的数据和元数据将会被同时删除。ExternalTable只有一个过程,因为加载数据和创建表是同时完成的。实际数据是存储在Location后面指定的HDFS路径中的,它并不会移动到数据仓目录中。3、数据交换数据交换主要分为以下几个部分数据交换组成部分用户接口:包括客户端、Web界面和数据接口。元数据存储:通常是存储在关系数据中的,如MySQL、Derby等。解释器、编译器、优化器、执行器。Hadoop:用HDFS进行存储,利用MapReduce进行计算。用户接口主要有三个:客户端、数据接口和Web界面,其中最常用的是客户端。Client是Hive的客户端,当启动Client模式时,用户会想要连接HiveServer,这时需要指出HiveServer所在的节点,并且在该节点启动HiveServer。Web界面是通过浏览器访问Hive的。Hive将元数据存储在数据中,如MySQL、Derby中。Hive中的元数据包括表的名字、表的列和分区及其属性、表的属性(是否为外部表等)、表数据所在的目录等。解释器、编译器、优化器完成HQL查询语句从词法分析、语法分析、编译、优化到查询计划的生成。生成的查询计划存储在HDFS中,并在随后由MapReduce调用执行。Hive的数据存储在HDFS中,大部分的查询由MapReduce完成(包含*的查询不会生成MapRedcue任务,比如select*fromtbl)。以上从Hadoop的分布式文件系统HDFS、分布式数据HBase和数据仓工具Hive入手介绍了Hadoop的数据管理,它们都通过自己的数据定义、体系结构实现了数据从宏观到微观的立体化管理,完成了Hadoop平台上大规模的数据存储和任务处理。分布式计算模块利用MapReduce、Spark等分布式计算框架,为上层应用提供大数据分布式计算的支撑,提供Mahout,MLlib等算法支撑,提供数据存储访问及分布式计算任务的调度、运行支撑环境能力。MapReduceXData-SDH的大数据批处理的计算模式是MapReduce,这是MapReduce设计之初的主要任务和目标。MapReduce是一个单输入、两阶段(Map和Reduce)的数据处理过程。首先,MapReduce对具有简单数据关系、易于划分的大规模数据采用“分而治之”的并行处理思想;然后将大量重复的数据记录处理过程总结成Map和Reduce两个抽象的操作;最后MapReduce提供了一个统一的并行计算框架,把并行计算所涉及到的诸多系统层细节都交给计算框架去完成,以此大大简化了程序员进行并行化程序设计的负担。MapReduce的简单易用性使其成为目前大数据处理最成功的主流并行计算模式。在开源社区的努力下,开源的Hadoop系统目前已成为较为成熟的大数据处理平台,并已发展成一个包括众多数据处理工具和环境的完整的生态系统。目前几乎国内外的各个著名IT委办都在使用Hadoop平台进行委办内大数据的计算处理。HadoopHDFS是GoogleGFS存储系统的开源实现,主要应用场景是作为并行计算环境(MapReduce)的基础组件,同时也是BigTable(如HBase、HyperTable)的底层分布式文件系统。HDFS采用master/slave架构。一个HDFS集群是有由一个Namenode和一定数目的Datanode组成。Namenode是一个中心服务器,负责管理文件系统的namespace和客户端对文件的访问。Datanode在集群中一般是一个节点一个,负责管理节点上它们附带的存储。在内部,一个文件其实分成一个或多个block,这些block存储在Datanode集合里。如下图所示(HDFS体系结构图):HDFS体系结构图HadoopMapReduce是一个使用简易的软件框架,基于它写出来的应用程序能够运行在由上千个商用机器组成的大型集群上,并以一种可靠容错的方式并行处理上TB级别的数据集。一个MapReduce作业(job)通常会把输入的数据集切分为若干独立的数据块,由Map任务(task)以完全并行的方式处理它们。框架会对Map的输出先进行排序,然后把结果输入给Reduce任务。通常作业的输入和输出都会被存储在文件系统中。整个框架负责任务的调度和监控,以及重新执行已经失败的任务。如下图所示(HadoopMapReduce处理流程图):HadoopMapReduce处理流程图Spark分布式计算框架Spark是一个通用的并行计算框架,是一种快速处理大规模数据的通用引擎。HadoopMapReduce的每一步完成必须将数据序列化写到分布式文件系统导致效率大幅降低。Spark尽可能地在内存上存储中间结果,极大地提高了计算速度。MapReduce是一路计算的优秀解决方案,但对于多路计算的问题必须将所有作业都转换为MapReduce模式并串行执行。Spark扩展了MapReduce模型,允许开发者使用有向无环图(DAG)开发复杂的多步数据管道。并且支持跨有向无环图的内存数据共享,以便不同的作业可以共同处理同一个数据。Spark不是Hadoop的替代方案而是其计算框架HadoopMapReduce的替代方案。Hadoop更多地作为集群管理系统为Spark提供底层支持。Spark可以使用本地Spark,HadoopYARN或ApacheMesos作为集群管理系统。Spark支持HDFS,Cassandra,OpenStackSwift作为分布式存储解决方案。Spark采用Scala语言开发运行于JVM上,并提供了Scala,Python,Java和R语言API,可以使用其中的Scala和Python进行交互式操作。流数据处理及消息框架支持主流的流处理框架,框架采用小批量流式处理方式,每隔设定间隔(100毫秒)处理当前批次数据;可支持复杂SQL应用和在线流式机器学习。并且支持Kafka,Flume等常见消息队列或采集工具,兼容现有Hadoop生态系统。支持storm流式处理框架。具有扩展性强、容错性强、延迟低、吞吐高等特点。而且可以将kafka,storm,Hbase等组件连接起来。SparkStreaming流式计算随着大数据的发展,人们对大数据的处理要求也越来越高,原有的批处理框架MapReduce适合离线计算,却无法满足实时性要求较高的业务,如实时推荐、用户行为分析等。SparkStreaming是建立在Spark上的实时计算框架,通过它提供的丰富的API、基于内存的高速执行引擎,用户可以结合流式、批处理和交互试查询应用。本节将详细介绍SparkStreaming实时计算框架的原理与特点、适用场景。Spark是一个类似于MapReduce的分布式计算框架,其核心是弹性分布式数据集,提供了比MapReduce更丰富的模型,可以在快速在内存中对数据集进行多次迭代,以支持复杂的数据挖掘算法和图形计算算法。SparkStreaming是一种构建在Spark上的实时计算框架,它扩展了Spark处理大规模流式数据的能力。SparkStreaming的优势在于:能运行在100+的结点上,并达到秒级延迟。使用基于内存的Spark作为执行引擎,具有高效和容错的特性。能集成Spark的批处理和交互查询。为实现复杂的算法提供和批处理类似的简单接口。基于SparkonYarn的SparkStreaming总体架构如下图所示。SparkonYarn启动后,由SparkAppMaster把Receiver作为一个Task提交给某一个SparkExecutor;Receive启动后输入数据,生成数据块,然后通知SparkAppMaster;SparkAppMaster会根据数据块生成相应的Job,并把Job的Task提交给空闲SparkExecutor执行。图中蓝色的粗箭头显示被处理的数据流,输入数据流可以是磁盘、网络和HDFS等,输出可以是HDFS,数据等。分布式消息框架分布式消息系统属于中间件产品,功能是将前端采集来的数据进行分布式缓存,以供后端进行实时处理。Kafka是一种分布式的,基于发布/订阅的分布式消息系统。可以用来缓存采集的流数据。Topic:特指Kafka处理的消息源的不同分类。Partition:Topic物理上的分组,一个topic可以分为多个partition,每个partition是一个有序的队列。partition中的每条消息都会被分配一个有序的id(offset)。Message:消息,是通信的基本单位,每个producer可以向一个topic(主题)发布一些消息。Producers:消息和数据生产者,向Kafka的一个topic发布消息的过程叫做producers。Consumers:消息和数据消费者,订阅topics并处理其发布的消息的过程叫做consumers。Broker:缓存代理,Kafa集群中的一台或多台服务器统称为broker。数据采集管理组件对数据源的提供者、业务来源、连接信息、连接状态等进行管理,实现对数据来源的跟踪;数据数据采集,提供自Oracle、SQLServer、MySql等数据中采集数据的功能,并进行定时的自动化采集;结构化文件数据采集,提供自结构化数据文件中采集数据的功能,并对文件中的数据行进行自动化字段拆分;非结构化文件采集,提供自FTP自动化定时采集非结构化文件,并对采集到的文件进行统一管理。数据源管理可实现对数据源,可实现对本地文件、主流结构化数据、分布式数据存储等数据源的提供者、业务来源、连接信息、连接状态等进行管理。支持的本地化文件包括excel、csv等;支持的主流结构化数据包括MySql、Oracle、PostgreSql、SQLserver、DB2、MonetDB等;支持的分布式数据存储包括HDFS、Hive、Hbase等。数据采集数据采集包括数据数据采集、结构化文件数据采集、非结构化数据采集。数据采集通过ETL工具实现,ETL负责将分散的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后,进行清洗、转换、集成,最后加载到数据仓或数据集中,成为联机分析处理、数据挖掘提供决策支持的数据。该系统采用SOA技术架构设计,采用组件复用和框架技术,以SOA面向服务的架构为基础,通过该服务平台开发出的应用系统具备松散耦合、可重用服务、标准化的服务接口、支持各种消息模式,实现应用系统之间以及与其他外部应用系统无缝、高效集成。ETL即数据采集单元,是数据转出客户端,是与数据服务器相连的负责采集相关数据的单元,一方链接数据,一方链接VPN,如源数据为多个,则ETL系统采集端部署多个与源数据对应。ETL系统采集端功能如下:1、基本信息配置:设置合作伙伴编码与名称,设置ETL系统采集端编码;导出文件配置:导出文件的保存路径、数据文件名、数据文件列分隔符、导出文件的编码格式,目前数据文件默认为文本文件方式;2、链接配置:配置需要链接的数据的数据类型、链接的IP地址、数据用户名和密码;配置对应的ETL系统入端的链接地址、用户名及密码;3、数据集配置:配置需要提取的数据集清单与每种数据集的采集周期(比如年、月、日等);4、脚本编写及植入:可手工编写数据提取的SQL语句或存储过程,然后将脚本植入到数据采集单元中;5、运行监控:监控数据采集的过程,日志自动保存与输出、报错提醒(邮件\短信等)等;6、数据打包上传:对已经提取的数据进行加密、打包且上传到数据加载单元;为保证数据采集的及时性、准确性,需要根据机房环境和数据种类的不同,为数据采集单元设计不同的部署方式。数据采集单元部署在机房,需要注意以下问题:根据机房环境,设计如何接入互联网的方案;数据采集单元通过VPN连入外联区域;为达到免责目的,数据采集单元务必独立于零售商的硬件设备;合理设计数据采集单元相对于防火墙的位置;在一般情况下,采用远程桌面方式执行日常维护。系统特点支持多种运行环境支持云平台、Windows、Linux、Unix等主流操作系统厂商的运行环境;平台可移植性高,并可对多终端的数据进行同步和协调。支持多数据源数据采集支持多数据源数据采集:支持从主流关系型数据(oracle,MYSQL,SQLServer,DB2,sydbase,informix,达梦,神通),webservice接口,文件服务器等多种存储设备中采集数据。支持大数据存储和访问全面支持大数据存储和访问,支持大数据环境的数据采集。支持大数据存储载体Hadoop/HDFS和Avro,支持访问HDFS内的文件内容。支持主流NoSQL数据,包括:Hbase,mongodb等。图形化作业支持图形化作业:从图形化界面创建数据采集转换、作业,以流程图方式呈现,具备清晰,直观的可视化操作界面。可视化作业支持可视化作业监控调度:在web可视化界面上统一调度作业,支持作业的执行,暂停,以及作业的日志报告查看。支持多数据标准支持XML、WebServices、JSON,JMS等数据标准;遵循restful风格遵循restful风格标准消息传递机制;数据运维管理组件数据运维管理组件提供对大数据平台数据的统一监控和运维管理,具体功能包括:平台数据监控,对大数据平台中已有数据存储量、数据增量、表数量、在线访问人数等信息进行监控;平台数据处理任务管理,对平台中的数据采集处理任务信息进行集中查看及管理;平台操作日志管理,对平台中的用户登录情况、用户访问数据表的情况进行日志记录,并提供筛选及查询功能;用户及部门管理,提供多层级的部门管理及用户管理,并提供用户排序等功能;角色及数据权限管理,提供自定义管理员及平台用户角色的功能,对不同角色可授予精细至表字段的数据访问权限管理;审批管理,提供审批权限配置工具,并根据配置进行流转审批管理。数据监控整体状态监控提供对交换节点、交换作业、吞吐量、异常情况的整体监控。可按照过去一小时、过去一周、过去30天等维度查看数据交换实时流量。可查看交换节点的服务器名称、主机名或IP地址、端口号、是否主服务器、用途、状态等详细信息。基础数据(1)信息资源规划某地大数据平台作为部门数据交换中心和数据共享中心,需要实现数据的集中交换和集中存储,因此,在全面建设之前,必须通过信息资源梳理,对某地各委办之间的输入数据及输出数据进行全面梳理,分析出需要集中交换与共享的数据。在此基础上,通过与中心交换的方式,实现各委办之间的数据共建共享,如下图所示:数据共享交换平台示意图信息资源梳理是对某地各委办在业务开展过程中,从数据的采集、存储、传输到使用的全面规划。通过对各委办的信息需求获取、现状信息环境调研、信息需求分析等一系列数据资源梳理分析工作,站在某地整体的基础之上,设计某地大数据中心需要存储的数据和交换的数据,并在此基础之上,制定数据存储和交换的数据标准。(2)基础数据某地大数据平台未来需要集中存储的数据包括各委办需要交换进来的数据和需要交换出去的数据,两部分数据按照业务主题可划分为人口、法人、空间地理和宏观经济四类数据,每类数据结合国家目前正在建设的人口、法人、空间地理和宏观经济等内容,主要内容包括:人口类数据:存储与人口相关的各种属性信息,包括人口基本信息、人口扩展信息及专用信息,人口基本信息中存储人口最基本的数据项信息,包括:姓名、性别、民族、出生日期、住址、公民身份号码、照片,人口扩展信息中存储户籍、出生、死亡等信息,人口专用信息中按涉及人口管理的委办具体的行政管理职能存储专用的人口信息,包括卫生、教育、税务、计生等专有信息。法人类数据:存储与法人相关的各种信息,包括法人基本信息及法人扩展信息。法人基本信息中存储法人最基本的数据项信息,包括:机构名称、机构类型、机构住所、法定代表人姓名、经营或业务范围、注册或登记机构名称、注册或登记号、资金币种、注册资本或开办资金金额、成立日期、行政区域代码等信息;法人专用信息中按涉及法人管理的委办具体的行政管理职能存储专用的法人信息,包括工商、质监、税务等专有信息。空间地理数据:存储与空间地理有关的元数据、基础空间数据、信息图层数据、地名地址数据、历史数据、三维模型数据等七大类。宏观经济数据:由部门数据信息和类别数据信息组成。部门数据信息反映从各委办采集、清洗、比对后的信息,信息的存储按照数据部门来源划分;类别数据信息是按照经济、社会、居民生活等数据类型进行存储,同一数据类别的信息可以来源于多个部门。(3)基础数据框架数据资源体系框架是某地大数据平台从数据采集、处理、存储和管理的总体架构,为上层应用提供高档次的数据存储和处理环境,数据资源体系框架主要侧重于业务处理所需的信息和信息流,从实际业务出发,开展数据资源梳理,从数据采集、处理、传输、到使用进行统一规划,设计某地大数据平台整体的数据资源架构。从存储信息对象上来看,主要存储三大数据、以及从互联网上获取的各种信息的社会综合大数据。从数据处理过程来看,某地大数据平台数据资源体系框架总体架构如下图所示:数据资源体系框架(4)基础数据分区根据数据资源共享交换平台数据规划,数据资源共享交换平台的数据存储由交换数据临时存储区、操作型数据存储区、数据仓、数据集4个区域构成,具体建设的时候需要根据它们各自的特点分别进行设计。交换数据临时存储区。交换数据临时存储区(ExchangeDataStore,EDS)是用来保证数据交换过程中安全隔离和临时存储的存储区,其数据结构应与接入的应用系统保持一致。操作型数据存储区。操作型数据存储区(OperationalDataStore,ODS)存放集成的、可更新的、近实时的业务数据。ODS主要用于异构业务数据源的明细数据整合后、进入数据仓前的存储,并提供企业面向业务的、近实时的统一数据视图,支持企业全业务数据的近实时查询与分析。ODS是业务系统间公共和共享数据的存储区,是业务系统与数据仓间的数据迁移的缓存区,是支持数据资源共享交换平台应用中实时查询数据的存储区,是日常业务决策支持的数据存储区。ODS数据模型依据数据模型构建,基于主题域组织,其主题域划分和核心数据实体与企业数据模型相同。数据仓。数据仓(DataWarehouse,DW)存放面向主题的、集成的、相对稳定的、反应历史变化的数据。数据仓统一存放与管理经整合后、具体分析价值的企业历史数据,支持基于大量历史数据的企业决策分析。数据仓中存储从业务系统中到处的用于决策和挖掘的企业数据,也到处操作型数据的轻度汇总数据。数据仓的数据一部分通过ODS导入,一部分通过业务系统直接导入。数据仓的数据模型按照主题组织,主题域划分与数据模型相同,数据模型依据数据模型构建。数据集。数据集(DataMarkets,DM)是以数据仓数据为唯一数据源、面向特定分析应用、俺一定方式重新组织的数据集合,是数据仓的子集。数据集基于数据仓创建,用于不同业务部门的需求和不同分析应用的分析数据的存储,数据集的数据模型与企业数据模型一直,用于描述企业业务部门、企业综合分析以及高级管理人员分析所需的数据。数据集模型也按主题组织,但其主题域划分与数据模型不同,数据集的主题是基于企业的不同部门、不同人员的分析需求而组织的。基础数据分层。某地大数据平台数据模型是数据资源层的核心,是整个某地大数据平台数据资源标准的具体体现,包括两级四层,分别为级数据模型、应用级数据模型。级数据模型包括级概念数据模型和级逻辑数据模型。级概念数据模型定义某地大数据中心的主题域,反映业务的综合性信息需求。级逻辑数据模型是对概念数据模型的分解和规范化,描述实体、属性及实体之间的关系,提供了某地大数据中心的总体数据视图。通过建立级数据模型,规范应用级数据模型的设计,可减少信息化应用之间数据的重复定义和不一致性,从源头上保证数据的质量,降低应用集成和数据共享的难度。级数据模型应在各应用系统建设之前,从整个某地的角度,统一、集中设计数据模型,保证数据存储模式合理、科学。应用级数据模型包括应用级逻辑数据模型和应用级物理数据模型。应用级逻辑数据模型是针对具体信息化应用的逻辑数据模型,通常为级逻辑数据模型的子集,为系统开发提供数据规范。应用级物理数据模型是在应用级逻辑数据模型的基础上,考虑各种具体的技术实现因素,结合具体数据管理系统,进行物理结构设计,以满足数据存储需要。应用级数据模型是应用系统的重要组成部分,按照应用系统建设进程不断建立和完善。数据交换平台数据交换平台,通过各种方式,逐步采集完善各类基础数据及专题数据;通过数据交换平台,按照统一的标准和规范,将某地各个委办的数据资源汇总到某地大数据平台,实现某地信息资源的汇聚和传递,满足全县各个委办对实时信息的横向交换以及业务协同等需求,为某地协同、公共服务和辅助决策等提供信息交换和共享服务;为保证数据的动态准确性,需要对基础空间地理信息、人口数据、法人数据等三大基础数据的信息进行数据清洗、数据比对、异常数据反馈、数据入等加工处理。(1)数据采集1)数据采集方向为了保障人口、法人、空间地理信息和宏观经济等数据在采集过程中的完整性、准确性和及时性,应从以下几个方面进行:建立数据采集组织,实地开展数据采集工作。通过划分区域,由专人负责定时采集和更新相应区域的四大数据。通过对采集人员的培训以及制定数据采集制度、数据填报表格,规范数据采集工作,提高数据采集质量。同时,开发数据采集直报系统,充分利用移动应用等技术,实现异地数据直报,提高数据采集工作效率。在行政审批过程中,逐步采集完善基础数据。各委办、服务中心在各事项审批过程中,登记和审核各种与自然人、法人的相关证件信息和基本信息,这些信息可以作为人口和法人的数据来源。通过与某省建设的电子信息系统对接,进行交换获取数据。某省建设的电子类信息化系统包含了大量的基础数据,并且这些系统为各部门提供了开放接口。某地大数据平台可以与这些系统进行对接,获得与某地行政管理范围内的人口、法人、空间地理和宏观经济数据。通过人口普查工作完善基础数据数据。借助每次人口普查工作的开展,收集人口数据,通常人口普查登记包括了人口的自然特征,如年龄、性别、民族、家庭、生育、死亡等等,另外还有社会特征,比如人的迁移、分布、文化特征、教育特征、宗教等等。经济特征数据主要包括就业状况、职业、行业等信息。2)数据采集步骤对于数据采集,建议采用分步进行,逐步扩充的原则,先整合目前能够获取的部门数据,通过对这些数据的整合,搭建起系统的整体框架,并制定相应的数据规范标准以及数据清洗比对规则。通过平台整体效应,吸引其他委办实现数据共享。如果实际业务要求,需要实现数据全面共享,对于未开放数据接口的委办,采用以下两种方法获取相关数据。一是数据首次初始化,可以通过行政手段,协调得到相关历史数据,并根据历史数据结构建立相关业务数据,对于新增或更新的数据可以通过在采集页面增加数据收集插件,对相关数据中的信息进行更新。二是在提供一个具有查询权限的用户基础上,可以通过开发具有页面解析功能的插件,当用户进行查询操作时,通过插件对查询结果页面进行分析,从中获取相关业务数据字段信息,并将获取的信息保存到级数据中。在具体实施过程中,在对不开放数据接口的委办,通过相关的页面插件收集数据,存在一定的风险,如果数据泄露,则会造成非常大的影响,所以建议从易到难,先整合目前能够开放数据接口的委办数据,在逐步扩充,最终实现数据的全面共享。(2)数据交换通过数据交换平台,按照统一的标准和规范,将某地各个委办的数据资源汇总到某地大数据平台,实现某地信息资源的汇聚和传递,满足全各个委办对实时信息的横向交换以及业务协同等需求,为某地协同、公共服务和辅助决策等提供信息交换和共享服务。数据交换的目的是实现传输过程中的“不错、不丢、不重”。数据交换系统核心的功能包括数据桥接子系统、数据传输子系统、前置交换子系统和交换管理监控子系统。1)交换桥接子系统桥接系统的功能完成委办业务系统信息与前置信息(或交换平台)之间双向安全、可靠的信息交换,并实现数据格式转换。桥接实现方式包括直接连接、通过网闸等定时或实时传输。主要功能包括数据映射、数据提取、数据抽取、过滤规则配置、数据转换、数据导出、数据导入、监控管理等功能。2)交换传输子系统交换传输系统即消息总线系统,作为前置交换系统之间的信息交换通道,实现交换信息的打包、转换、传递、路由、解包日志服务等功能。3)前置交换子系统为确保各委办的原有系统的运行不被资源整合所影响,保障原系统的数据安全,使用前置机作为各委办与数据交换平台进行数据交换的窗口,一方面从各业务系统提取数据,向中心提交,另一方面从数据中心接收数据,并向业务系统传递数据。前置机应具备缓存交换数据,对数据进行过滤、加工和展现的功能。主要由网络通信系统、操作系统、交换信息、前置交换环境、交换服务配置工具等组成。4)交换管理监控子系统交换监控子系统作为交换系统的中心管理模块,协同委办交换前置机和中心交换前置机的运行并对交换系统的运行情况进行管理和监控。管理监控子系统提供对整体的监控、业务域的管理、节点的管理、传输管理、安全管理、路由管理、统计分析和日志服务等功能。(3)数据加工为保证数据的动态准确性,需要对基础空间地理信息、人口数据、法人数据等三大基础数据的信息进行加工处理。数据加工处理流程如下图所示:数据加工处理流程图1)数据清洗对各委办采集或交换来的数据按照基础数据的标准格式要求进行检查整理,对不符合质量要求或者错误的数据进行更正,最终确保数据的准确。数据清洗的目的是数是保证数据数据质量。2)数据比对对数据的字段、条件、合理数值范围、检查时段、预警方式等内容,按照不同数据类型、数据来源、变动方式进行单独或组合设置,由系统按照设置的比对指标,对各基础数据的信息进行综合比对分析,并生成比对结果,并根据授权情况,将比对结果分类下发到相关委办,对数据进行核查。核查后反馈的数据,将再次进入数据加工环节。在核查过程中,系统按照设置的监管指标对各部门核查信息进行综合分析,并生成监察结果。3)异常数据反馈异常数据反馈实现数据采集、清洗、比对同数据采集委办形成互动,将清洗和比对工作中发现的异常数据反馈给数据提供委办,提醒数据提供单位核实的同时,也帮助提高委办自身业务数据准确性。4)数据入在数据入时,配置定义入规则和配置定义入流程,支持顺序入,并行入。新增数据字段在入前,要完成新增信息资源目录服务登记工作,包括进行入元数据和入目录的编目、注册、发布、审核等工作。信息资源目录在开展基础应用、扩展应用和专业利用等应用中起承上启下的关键作用,为各种应用提供基础数据管理服务,包括访问用户认证、用户授权、监控、日志等。数据管理平台(1)资源目录服务按照国家信息资源目录体系标准,建立统一的信息资源目录体系,建设统一的信息资源管理中心,形成“物理分散、逻辑集中”信息资源管理模式;提高信息的交换能力,支持跨部门间的信息共享和业务协同,提高交各单位、各部门协同、管理水平。通过借鉴信息资源目录体系,设计某地大数据中心的信息资源目录服务系统,构建信息资源目录体系和信息资源共享环境,并通过目录服务实现跨部门的共享信息资源发现、定位与获取。该系统功能主要包括编目传输、目录服务、目录管理及共享服务。信息资源目录服务系统工作过程分为信息资源目录访问过程、目录服务形成与提供流程和共享信息资源定位与发现流程。目录服务流程准备:首先由各部门建立共享信息,并建立共享信息服务系统,提供共享信息的浏览、查询和下载等服务;编目:各部门对共享信息的内容提取特征,通过编目系统形成目录内容;注册:由各部门通过目录传输系统将目录内容传送到目录服务中心;发布:由目录服务中心对各部门的目录内容进行审核发布。(2)数据质量管理按照国家信息资源目录体系标准,建立覆盖全先的信息资源目录体系,建设全先统一的信息资源管理中心,形成“物理分散、逻辑集中”信息资源管理模式;提高信息的交换能力,支持跨委办之间的信息共享和业务协同,提高全先公共服务和社会管理的水平。数据质量管理系统的功能包括数据质量监控、数据质量评估、数据质量报告、数据质量问题处理、数据质量知识等功能。数据质量监控:根据数据检验等配置的规则,对发现的数据质量异常情况进行告警和拓扑呈现。主要包括源系统关键数据稽核、源系统维表稽核、实体数据检查、处理过程检查、关键指标检查、告警管理、拓扑呈现和规则配置等功能。数据质量评估:根据设定的评估方法对源接口基础数据质量评估和指标关联性分析,相关到评估结果以作为系统质量改进的参考和依据。数据质量报告:对数据质量管理各环节累积的各种信息进行汇总、梳理、统计和分析,形成统计报告,主要包括:报告生成、报告发布、报告查询和报告归档。数据质量问题处理:包括问题生成、问题分析、问题处理和问题总结。数据质量知识:在平台使用及运维过程中,由数据质量管理系统收集有关数据及过程问题的处理经验总结,按关键字的形式进行索引和分类管理。(3)业务建模业务建模是构建用户接口或上层业务应用与基础数据之间的逻辑模型。业务对象和业务分析模型在此实例化。应用服务层是生成并操作接收信息的业务规则和函数的集合。它们通过业务规则(可以频繁更改)完成该任务,并由此被封装到在物理上与应用程序程序逻辑本身相独立的组件中。1)居民身份验证模型居民身份验证模型用于居民个人电子档案建立及居民身份验证,是社区证明系统、业务流转系统等具体业务系统的支撑服务。它可以通过身份证号验证居民身份,比对大数据平台中人口信息中是否具有该居民信息,进行相关业务办理,也可以通过居民生物特征信息(指静脉信息)进行居民唯一身份验证,以此为依据办理相关业务。2)数据综合模型社区综合信息模型是网格化管理体系下动态信息获取的一个重要来源,社区综合信息采集服务将网格内房屋信息、常住人口、暂住人口、特殊人群、紧急情况等信息,通过表单、照片、空间定位等多种手段进行采集,并经2.5/3G/4G无线网络将所采集到的信息及时传送到大数据平台,达到网格动态信息的快速更新、多方共享的目的。其主要功能包括:楼栋信息采集、门牌信息采集、人员信息采集、事件上报、营业网点信息采集、重点场所信息采集、紧急事件处理、代办需求处置、帮扶需求、城管事件上报及其他功能等。3)城运行体征动态模型城运行体征是一个城在完善基础设施、保障能源及各种资源供给、特殊时期营造相应氛围、提供安全应急保障等方面开展的工作。城运行检测以获取城运行全时段、全要素信息为基础,进行常态城运行态势的实时监控、综合评估、发展预测、协调会商、辅助决策等,其目的是要增强城管理工作的整体性、协调性、规范性,营造良好的城环境,以提升城综合运营能力,提高城建设服务管理水平。4)城数据综合分析模型构建城运行管理数学模型,实现对海量的交通数据、地理位置检测数据、环境数据、医疗数据、数据、教育数据、公安数据的实时、全面、系统的数据采集,存储、分析、挖掘。智慧城数据分析系统主要完成分析或决策模型的创建、发布和管理等功能,其主要使用对象是各部门业务人员。数据分析系统能够支持指标的数据分析和处理,包括基础信息的统计分析、城特征指数分析、宏观经济分析等功能。5)移动电子模型移动电子是指综合运用互联网、手机、固定电话等多种方式,使公务人员之间、与公众之间可以随时随地实现相互间的信息传递,从而实现组织结构和工作流程的优化重组,超越时间、空间和部门分割的制约,全方位地向社会提供优质、规范、透明的服务。通过移动电子网上便民服务工程融合、民政、税务、工商、人力资源和社会保障、住房和城乡建设等机构,为某地居民打造一个统一服务平台,方便百姓随时随地利用各种方式进行业务查询、办理等。运行支撑平台(1)引擎。服务引擎主要为顶层应用系统的开发提供共性的服务组件,以减少应用系统对于共性组件的重复采购,减少资源浪费,提高使用效率。服务引擎由手机短消息、即时通信、电子邮件、视频通信、GIS空间分析、工作流、搜索、表单定制等服务组成。权限。权限管理是根据系统设置的安全规则或者安全策略,用户可以访问而且只能访问自己被授权的资源。权限管理主要包括身份认证服务、单点登录服务和权限验证服务等服务。(3)监控。对于某地大数据中心,由于支撑了很多服务和应用,需要把分散在各个应用系统中的监控功能统一管理,形成一套对某地大数据中心有效监控的措施。统一监控服务要包含远程监控、本地监控、数据空间监控、流程监控、负载监控、应用监控、报警通知和监控展示等服务。(4)接口。某地大数据平台应充分调动、企业、居民等多方力量共同运营、维护与建设。在平台体系中起主导和方向性引导作用,为大数据平台提供权威数据和管理方法;企业为平台提供创新的应用方式;居民为平台提供动态的、鲜活的社会动态数据。某地大数据中心开放接口服务,是一套专门为这三个方面用户提供的应用服务,使其方便调用与二次开发。数据门户通过数据门户建设,整合电子信息资源,建立以信息资源展示、二次开发服务为核心的服务系统;基于海量数据,汇集统计分析、工作动态等决策信息,为各级领导提供决策服务;拓展公开信息统一管理、公共服务、在线互动交流等功能,体现服务型数据中心新形象、逐步扩展数据门户网站功能,建设综合性信息网站门户。数据门户主要包括资源展示、在线查询和门户管理等功能。(1)资源展示。信息资源展示服务主要负责对采集的体征数据、事件数据等按照一定的查询条件统计的结果,在系统界面中以视频播放、列表、直方图、折线图、饼图、态势图、体征日报等方式展示出来。也可以将空间化专题信息通过GIS系统更加形象具体的展现出来。信息资源展示的内容包括空间信息地图展示、综合态势展示、事件展示、指标信息展示以及统计结果展示。(2)在线查询。随着数据的集中和整合系统可以提供如自然人口基础信息查询、组织单位基础信息查询和地理信息基础信息查询等专题查询。同时,也可以提供只有数据整合才可以做到的部门数据关联查询和三关联查询服务。(3)门户管理。门户基本管理服务用于实现对大数据中心服务接口对外发布的管理以及与各部门现有系统的对接;实现综合信息登记、审核和发布,应用系统集成单点登录以及门户网站内容管理等功能。应用服务层按企业、民生、三大业务领域规划了三类重点专项即面向企业服务、面向民生服务、面向服务。其中,面向企业服务包括中小企业服务平台、产业经济运行监控平台、智慧招商平台、智慧物流平台;面向民生服务包括民一卡通、社区公共服务平台、智慧医疗;面向服务包括行政审批平台、公开平台、领导决策支持系统、数字城管、智慧环保、智慧交通、综合应急指挥平台和视频云支撑引擎。系统功能模块简介数据基础信息平台基础信息平台主要用于规划设计某地大数据平台数据,包含传统数据数据、视频、图片、声音、日志文件、电子邮件、地图、Word、PDF等各种文档。这些数据分为结构化数据、半结构化数据和非结构化数据。这些类型的数据无法用传统关系型数据进行数据处理和分析,必须借助于大数据基础平台的HDFS、Hbase、MapReduce等技术手段进行处理和分析,支持顶层应用系统的数据利用。大数据信息基础平台主要包括如下组件:大数据平台运维管理组件、分布式数据、分布式数据仓、分布式计算模块、流数据处理及消息框架、数据采集管理组件、数据运维管理组件、基础数据。其中某地需要建设的六大为:人口信息、法人信息、基础地理空间、宏观经济、信用信息和城建筑信息六大基础。大数据平台运维管理组件组件部署及动态扩容,提供大数据平台部署工具,组件部署管理及动态增加机器节点管理工具;组件服务监控管理,提供组件的运行状态、组件的负载情况监控及组件的启动、停止、移除等管理;组件故障自动迁移,节点组件出现故障时,集群中的其它节点中的相应组件自动接管故障组件的工作,保证组件正常服务。大数据平台基础组件大数据基础组件的具体功能模块包括:分布式存储模块,实现分布式文件的存储、存储副本的管理;分布式计算模块,提供分布式的数据计算处理及数据的分布式均衡访问;流数据及消息框架模块,提供流数据的处理框架,实现流数据向大数据平台汇聚功能;提供消息处理框架,实现高速的消息通道数据处理。数据采集管理组件对数据源的提供者、业务来源、连接信息、连接状态等进行管理,实现对数据来源的跟踪;数据数据采集,提供自Oracle、SQLServer、MySql等数据中采集数据的功能,并进行定时的自动化采集;结构化文件数据采集,提供自结构化数据文件中采集数据的功能,并对文件中的数据行进行自动化字段拆分;非结构化文件采集,提供自FTP自动化定时采集非结构化文件,并对采集到的文件进行统一管理。数据运维管理组件数据运维管理组件提供对大数据平台数据的统一监控和运维管理,具体功能包括:平台数据监控,对大数据平台中已有数据存储量、数据增量、表数量、在线访问人数等信息进行监控;平台数据处理任务管理,对平台中的数据采集处理任务信息进行集中查看及管理;平台操作日志管理,对平台中的用户登录情况、用户访问数据表的情况进行日志记录,并提供筛选及查询功能;用户及部门管理,提供多层级的部门管理及用户管理,并提供用户排序等功能;角色及数据权限管理,提供自定义管理员及平台用户角色的功能,对不同角色可授予精细至表字段的数据访问权限管理;审批管理,提供审批权限配置工具,并根据配置进行流转审批管理。基础信息资源建设人口建设人口信息包括人口基础和人口主题,人口主题结构可以持续扩展。某地以公安人口信息为核心,已经建立人口基础。下一步应当继续扩建人口主题,从相关部门采集计生、低保、优抚、社保、教育等人口信息,建立全口径的人口信息。(1)人口基础记录姓名、出生日期、性别、身高等最基本的个人信息。(2)社会保险主题记录养老保险、医疗保险、就业保险、伤残保险、生育保险等社会保险信息。(3)人事档案主题记录个人履历、组织关系、奖罚、服役等档案信息。(4)教育学历主题记录学历、留学、教育、培训等人才信息。(5)医疗保健主题记录就诊、住院、用药等医疗信息。(6)纳税信息主题记录个人所得税等纳税信息。法人建设法人信息包括法人基础和法人主题,法人主题结构可以持续扩展。某地已经建立以质监部门机构代码核心的法人单位基础。下一步应当继续扩建法人单位主题,从工商、国税、地税、民政、编办等部门采集等法人单位信息,建立全口径的法人单位信息。(1)法人基础记录企业名称、注册号码、法人信息、所属行业、经营范围、注册资本、成立日期、审核情况与经营期限、注册地址等

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论