【#数据治理#】大数据治理方案_第1页
【#数据治理#】大数据治理方案_第2页
【#数据治理#】大数据治理方案_第3页
【#数据治理#】大数据治理方案_第4页
【#数据治理#】大数据治理方案_第5页
已阅读5页,还剩120页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

一.大数据现状二.大数据治理方案三.大数据案例解析没有数据数据孤岛,信息不一致,数据难以整合没有数据数据孤岛,信息不一致,数据难以整合决数据中存在的各种问题并让各系统间数据能够互缺乏数据治理、不准确、周期长Demo≠结果,可视化≠大数据分析7,39%7,39%数据采集影响源端业务系统数据采集影响源端业务系统智能应用并不智能智能应用并不智能数据缺、散、乱数据不规整,存在数据缺失、散乱的情况数据多源异构业务系统众多,数据往往来自几十个不同品牌的业务系统元数据类型多样元数据类型多样,缺乏标准统一的元数据存储元数据频繁变更各主题业务系统间数据变更后无法快速进行数据统一缺乏业务词汇标准缺乏贴合行业的专业业务词汇标准数据不一致由于录入或其他问题造成的数据不一致情况DataGovernance2.1大数据整体架构2.2大数据采集交换平台2.3大数据处理平台2.4大数据资产管理平台2.5大数据交换平台2.6大数据接口运维平台2.7大数据分析挖掘平台2.8大数据智能平台2.9大数据决策平台••数据湖是经过治理和整合的数据最佳存放环节•数据湖架构,实现数据治理与大数据应用开发的脱藕,可以支持应用的百花齐放•数据湖确保数据是用户的数据,不是应用开发商的数据•多个不同特色的应用开发,可以分别从数据湖获得各自需要的数据,大大加快应用开发的速度BillBillInmon(数据仓库之父)2015年:事先对数据归类建模的处理,可能对于大数据的各种离线分析有不足、需要演进,因此数据建模方式也需要演进。或许应该采取措施,把大量的原始数据初步处理后保存下来,为未来不断应用创新提供数据来源,而这个想法就是数据湖,现在廉价的存储和大数据技术也提供了这个可能性。2.1大数据整体架构2.2大数据采集集成平台2.3大数据处理平台2.4大数据资产管理平台2.5大数据交换平台2.6大数据接口运维平台2.7大数据分析挖掘平台2.8大数据智能平台2.9大数据决策平台Oracle数据库、To、Cloud、Oracle数据库、To、Cloud、GemfireGemfire实时单表转换过滤实时实时多表关联第三方接口文件准实时中间库数据抓取模块镜像库精简库镜像库精简库大数据/云数据仓库ETL过程①源数据库-接口文件和ETL-目标库②实时单表转换过滤实时实时多表关联第三方接口文件准实时中间库数据抓取模块镜像库精简库镜像库精简库大数据/云数据仓库ETL过程①源数据库-接口文件和ETL-目标库②多种通路选择③实现实时和准实时转换和共享目标数据库或者云直接装载结构化数据结构化数据e源源对源数据库的首次对源数据库的首次同步和实时增量跟踪技术功能说明数据实时抽取•通过源系统端的Agent进程对数据库Log日志进行实时分析,获取交易指令,将交易指令和交易数据经过格式转化生成数据格式;过滤转化为与生产应用相吻合的指令;再次实时传输到目标端系统数据实时转换•复制指定的数据、表、列•支持数据集中,即多个相同结构的数据库中将数据整合到一个库中,同类的数据项集合放到一个表中•支持数据分发实时存储和增量变化通知•Agent将识别到的实时增量数据发送到中间数据库,在此库中维护一张和生产系统对应的数据表;对数据进行整合、过滤和判断后通知订阅方支持ETL实现准实时数据抽取•支持增量抽取间隔到每几秒钟、几分钟、10分钟生成一个接口文件•支持从镜像库中获取数据QETL•支持多表关联同步•只复制到多表关联结果集到目标端•支持复杂的sql模式•支持多种同步维护模式•保持分析日志模式而非sql查询模式1.源端数据库的实时增量跟踪技术2.目标端实时复制转换装载技术3.中间过程中的接口文件技术4.中间过程中的中间库技术5.中间过程中的准实时复杂转换(ETL)技术过滤SenderQUEUEYLoader第三方ETLETL接口数据文件QUEUE"Archived1.源端数据库的实时增量跟踪技术2.目标端实时复制转换装载技术3.中间过程中的接口文件技术4.中间过程中的中间库技术5.中间过程中的准实时复杂转换(ETL)技术过滤SenderQUEUEYLoader第三方ETLETL接口数据文件QUEUE"Archived从生产数据库中抽取数从生产数据库中抽取数整合、转换后,将数据加载到大数据平台或云平台中功能源数据库源数据库大数据/云2.1大数据整体架构2.2大数据采集集成平台2.3大数据处理平台2.4大数据资产管理平台2.5大数据交换平台2.6大数据接口运维平台2.7大数据分析挖掘平台2.8大数据智能平台2.9大数据决策平台单的用户界面实现可视化查询、多表关联和交互式转换查询探索提供统一查询服务,支持多数据源数据关血缘和数据统计信息、支持数据全文搜索4集中监控提供丰富的监控界面,支持仪表盘,支持监控流程、服务、作业支持性能监控5为企业用户提供数据采集、存储、计算、调为企业用户提供数据采集、存储、计算、调度、探索、监控、安全等数据治理相关的一整套数据湖治理解决方案,提供数据分析师准备数据的效率集成方案采集存储采集存储集成各种数据存储平台,提供各类型的数据采集,支持数据全量、增量采集,支持数据清洗验证分析2提供丰富的组件提供丰富的组件,支持可视化拖拽编排流程、模板,简化数据流程、作业的管理,提高数据ETL效率流程设计客户行为分析订单处理客户行为分析订单处理财务报告财务报告企业绩效企业绩效管理容易产生的问题:企业内部企业内部呼叫中心呼叫中心CRM系统 数据 采购系统 数据企业外部企业外部 客户 数据 服务商 数据 合作伙伴 数据 财务报告 数据原始数据订单处理 财务报告 数据原始数据订单处理客户行为客户行为分析企业绩效企业绩效管理清洗后的数据清洗后的数据数据质量报告企业内部企业内部呼叫中心呼叫中心CRM系统数据资产关联数据加工数据数据资产关联数据加工数据 采购系统 数据 采购系统 数据 数据共享数据共享数据标准数据企业外部企业外部 客户 数据 服务商 数据 合作伙伴 数据单一平台、标准组件、拖拽可视化操作,支持定制(组件开发接口支数据库表数据库表结构化结构化数据XLS半结构化数据非结构化非结构化数据界面管理配置比对界面监控任务进度日志数据存储数据存储关系型数据库图数据库文件系统分布式文件系统数据库数据库功能截图——集中监控2.1大数据整体架构2.2大数据采集集成平台2.3大数据处理平台2.4大数据资产管理平台2.5大数据交换平台2.6大数据接口运维平台2.7大数据分析挖掘平台2.8大数据智能平台2.9大数据决策平台手工录入手工录入大数据资产管理系统血缘分析血缘分析数据趋势数据趋势数据地图数据地图访问安全访问安全CWMCWM模型标准自动采集/更新自动采集/更新数据生命周期数据生命周期数据回滚数据回滚表结构对比表结构对比实时性能展示实时性能展示图形化诊断图形化诊断实时会话管理实时会话管理批量导入批量导入业务元数据技术元数业务元数据技术元数据管理元数据OracleMySQLSQLServerPostgreSQL…2.1大数据整体架构2.2大数据采集集成平台2.3大数据处理平台2.4大数据资产管理平台2.5大数据交换平台2.6大数据接口运维平台2.7大数据分析挖掘平台2.8大数据智能平台2.9大数据决策平台数据资产数据目录主题库变动告警数据内容数据结构质量报告公共库数据共享访问控制数据目录数据内容数据结构API服务质量报告统一管理数据资产数据目录主题库变动告警数据内容数据结构质量报告公共库数据共享访问控制数据目录数据内容数据结构API服务质量报告统一管理变动告警•维持现有平台不变•现有平台数据访问能平移到中间件。•多协议支持,扩展性强,部署灵活!•提供基础组件,公共组件,业务组件功能。•引入缓存,内存数据库提升性能•基础数据,字典数据,业务数据整理筛选•业务无缝水平扩展垂直扩展•多样的监控管理手段•降低开发难度,提高开发效率访问统计平台、接口解耦缓存、内存数据库接口管理业务剥离、迁移件作业1作业2件作业1作业2WEB中间件滤作业作业N数据筛选统计缓存(访问频率极高,重复性数据)内存数据库N>第二次访问滤Y 254WEB界面数据件N>第二次访问滤Y 254WEB界面数据件器DISK数据同步(全量、增量)2 WEB中间件WEBWEB界面缓存经营性数据(营业额数据)活跃性数据(使用频率很高)数据量不大内存实时统计每次访问记录缓存或内存关系型数据库定时同步。定时后台统计Hadoop第三方组件Storm流式计算服务器管理组件管理 数据交换系统.示例.拦截器及监控拦截器管理性能监控2.1大数据整体架构2.2大数据采集集成平台2.3大数据处理平台2.4大数据资产管理平台2.5大数据交换平台2.6大数据接口运维平台2.7大数据分析挖掘平台2.8大数据智能平台2.9大数据决策平台业务复杂复杂的调用导致系统出问业务复杂复杂的调用导致系统出问题后难以定位问题。系统独立分布式架构由复杂且较大规模集群构成,各个应用之间相当独立,可能由不同团队、不同语言实现。应用架构由集中式向分布式演进后,整个调用关系变得复杂。跨域垮中心系统一个完整的调用过程可能横跨多个服务及数据中心。系统指标状况无法准确知道整体系统性能及运行情况。核心功能特点、作用特点、作用2)准确掌握生产一线应用部署情况;2.1大数据整体架构2.2大数据采集集成平台2.3大数据处理平台2.4大数据资产管理平台2.5大数据交换平台2.6大数据接口运维平台2.7大数据分析挖掘平台2.8大数据智能平台2.9大数据决策平台••企业级、公共级大数据智能分析平台•超大数据集上提供亚秒级SQL分析能力、支持互联网级高并发访问的企业级数据仓库产品,是以行业标•为业务用户、分析师及工程师提供简便、快捷的大数据分析服务;•自助式敏捷BI:建模的高性能查询、自助式建模、无需编程、JDBC/ODBC支持、非侵入式部>数据集模块:该模块可对数据集进行分类管理,并可对其进行修改删除操作;主要根据业务需求构建数据模型,通过选择拖拽方式操作便捷,并可手动修改定制支持支持ANSISQL查询标准和自定义SQL查询内存建立数据模型(数据立方体Cube),建模速度快极低的查询开销,支持大规模并发查询场景基于Cube预计算技术,支持超大数据集上的亚秒级查询响应支持明细数据查询支持数据流式数据增量构建模型•结果导出支持结果图和表之间灵活转换,结果集的旋转(行列转置),支持结果导出和打印支持ANSISQL查询标准和自定义SQL查询内存建立数据模型(数据立方体Cube),建模速度快极低的查询开销,支持大规模并发查询场景基于Cube预计算技术,支持超大数据集上的亚秒级查询响应支持明细数据查询支持数据流式数据增量构建模型2.1大数据整体架构2.2大数据采集集成平台2.3大数据处理平台2.4大数据资产管理平台2.5大数据交换平台2.6大数据接口运维平台2.7大数据分析挖掘平台2.8大数据智能平台2.9大数据决策平台知识图谱.图图是相互连接的事物及其关系的一种结构化表达。信息读取是顺序的过程,要求阅读者在大脑中将信息串联形成理解,而图能够即时传达信息,易于揭示复杂的模式.在社交网络、交通网络、通讯网络、资金网络等展现场景下,都有比较直观的展现效果图存储技术是支持知识图谱应用的关键技术之一。知识图谱(知识引擎)是多种技术的综合应用,包括自然语言识别(NLP)、机器学习及图存储技术等,其大量知识来源于非结构化数据。知识图谱的整体使用过程包括知识获取、知识融合、知识存储、知识推理、知识应用等步骤,典型应用场景包括搜索引擎、问答系统等 知识图谱构建过程比如在美国限制向中兴通讯出口的消息发布之后,如果我们有中兴通讯的客户供应商、合作伙伴以及竞争对手的关系图谱,就能在中兴通讯停牌的情况下快速地筛选出受影响的国际国内上市公司从而挖掘投资机会或者进行投资组合风险控制PageRank算法——发现重要顶点算法原理1)数量假设:在Web图模型中,如果一个页面节点接收到的其他网页指向的入链数量越多,那么这个页面越重要。2)质量假设:指向页面A的入链质量不同,质量高的页面会通过链接向其他页面传递更多的权重。所以越是质量高的页面指向页面A,则页面A越重要。PageRank算法刚开始赋予每个网页相同的重要性得分,通过迭代递归计算来更新每个页面节点的Pag场景:在犯罪团伙通讯网络中寻找重点人NO.PageRankValue10.0509140520.0573676330.1442252240.2448744950.0812838460.24387240.0702747980.0357291690.03572916100.035729基于现有的知识图谱信息,推断出当前图谱不存在但实际中存在的真是关系知识图谱技术可以帮助我们快速构建一个法律知识图谱,目前还缺乏法律知识图谱的理论工作。跟其他领域的知识图谱相比,法律知识图谱需要考虑法律的逻辑,下面就是一个法律知识图谱的片段:从上面这个例子可以看出,每一个犯罪行为都有主体、客体、主观要件和客观要件,我们就需要从文本中去抽取这些信息,从而形成一个关于犯罪行为的图谱,而通过对海量判决书的挖掘,可以建立犯罪行为之间的关联,比如说,防卫过当和故意伤害之间有一个关联,即误判为的关系。通过这个图谱,给定一个判决书,可以辅助法官判的一个案件是否有误判,是否需要补充信息。2.1大数据整体架构2.2大数据采集集成平台2.3大数据处理平台2.4大数据资产管理平台2.5大数据交换平台2.6大数据接口运维平台2.7大数据分析挖掘平台2.8大数据智能平台2.9大数据决策平台支持功能性解耦价值:提升人和组织的生产力支持功能性解耦沉淀标准化,体系化的知识全方位业务流程化管理,过程透明化提升处理时效支持同步与异步任务支持任务生命周期管理提升处理数量减少系统间沟通成本让管理变得可预期(端到端的业务流程)数据可追溯,审计无忧提升处理数量减少系统间沟通成本让管理变得可预期(端到端的业务流程)数据可追溯,审计无忧用无码图形设计器建立复杂的工作流程决策系统流程编辑决策系统流程跟踪大数据案例解析-深圳龙岗智慧城区大数据案例解析-深圳龙岗智慧城区XX信息化现状与问题随着XX智慧城区项目建设的推进,已经取得较显著成效,但通过前置机方式从各部门、各系统采集数据时,却遇到以下诸多问题:(1)数据不能实时从各系统同步到大数据中心,导致不能实时统计与分析;(2)前置机由所属单位进行管理,出现问题不能及时发现和提醒;(3)建设智慧城区项目,前置机无法采集非结构化的海量数据(如交通视频、安防视频、物联网数据等导致无法实现智能图像识别、智能运维能等人工智能服务,城市智慧难以充分体现;(4)前置机实施需要原厂商较多配合和开发工作,推进、协调、运维都难度较大。在大数据和人工智能时代,迫切需要利用大数据复制技术、实时流技术、大数据采集与集成技术、人工智能技术等建设龙岗智慧城区大数据集成与交换平台,解决传统前置机采集数据方式的上述诸多问题。某区政府数据共享交换平台某区政府数据共享交换平台实现数据采集与交换、数据治理。将现有信息系统与各部门相关的信息资源进行统一采集、清洗、脱敏和标准化。信息资源目录遵循统一的标准规范组织管理所有政务信息资源,釆用元数据对信息资源特征进行描述,形成统一规范的目录内容,通过对目录内容的有效组织和管理,形成目录信息库,为信息资源的汇聚、共享以及对应用的支撑提供信息资源的发现定位服务。公共信息资源共享交换平台门户和与市级共享交换平台的对接。门户实现各类应用的统一入口,统一管理和统一登录。XXXX智慧城区大数据治理1期嗯嗯实现以患者为中心、实现以患者为中心、以时间为轴线,将多源端病历数据聚合、形成统一标准病历,支持分级诊疗与双向转诊等业务,并且大数据还可以挖掘价值,实现人工智能时代的智慧医疗方案优势方案优势为什么选择?为什么选择?XX市卫计委在项目前期充分调研和学习了国内各地医疗大发现因为数据采集工具的选择不当,数据质量不达委沟通的过程中,卫计委对数据的采集方式,数据某券商数据集成案例某券商数据集成案例……地市1-oracle地市2-oracleQETLEnhancedETLQETL数据仓库-oracle地市n-oracle……业务1-oracle业务2-oracle业务n-oracle案例介绍湖北某券商客户使用EnhancedETL将各地市的数据集中复制汇聚集成到数据仓库,然后使用QETL对数据实时导出并进行组合运算,将转换后的数据集实时同步到各业务库。案例功能特点为表中;关注客户所需数据,最小化同步范围,节省系统资源;的向下传递;通过一条SQL从多张分别拥有百万和几亿条的数据表中提取所需结果,该结果返回仅有几十条数据,传统的推送方式要么达不到实时要求,要么占用较大资源,现通过QETL实时的推送所需的几十条数据的结果集,简化了同步方式、大大提高了同步效率,深受客户好评,并将大量推广应用。某省交警大数据应急指挥平台某省交警大数据应急指挥平台XX交警大数据应急指挥平台XX交警大数据应急指挥平台结构化描述行人结构化车辆结构化骑行结构化车辆实时布控无/套牌分析GIS应用(同行分析/频繁过车分析)XX交警大数据应急指挥平台数据集成源端无干扰采集:基于日志解析的数据库实时复制采集多源异构数据支持:支持DB2、Oracle、SQLserver、MySQL、Informix、Dameng、人大金仓等等数据实时清洗:数据过滤、数据剔重、类型转换、编码映射、文件拆分与合并、维度转换等数据实时转换:数据合并、数据拆分、行列互换、排序、修改、去重等数据实时脱敏:姓名脱敏、地址脱敏、随机查表替换、洗牌混淆、参数算数置换等数据存储检索l分布式存储:满足大规模存储应用的需要、提高了系统的可靠性、可用性和存取效率,还易于横向扩展。l快速检索能力:快速的查询引擎与索引构建,秒级响应。l特征检索:指定区域、

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论