王闯舟商业智能与大数据概述_第1页
王闯舟商业智能与大数据概述_第2页
王闯舟商业智能与大数据概述_第3页
王闯舟商业智能与大数据概述_第4页
王闯舟商业智能与大数据概述_第5页
已阅读5页,还剩67页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

商业智能(BusinessIntelligence)与大数据概述王闯舟2013/12/16于同济大学背景简介1983.9-1990.12,同济大学电气工程系,自动控制专业,本科与硕士1991.1-1993.1同济大学电气工程系自动控制教研室1993.1-1994.7德国FESTO上海办事处1994.7-2009.7美国AT&T公司、NCR公司、Teradata,在Teradata担任中国区副总经理和SeniorPracticePartner,负责华北与华东地区的ProfessionalService,东南融通系统工程有限公司,负责其商业智能事业部的技术管理工作2011.8-目前,文思创新(Vanceinfo)、文思海辉(Pactera),负责其商业智能解决方案业务线从1996年开始专注于商业智能、数据仓库领域的咨询与项目实施服务,主要为金融、电信行业的客户提供商业智能解决方案,包括数据仓库基础平台、CRM、风险、运营管理、财务管理等领域2TOPIC商业智能的应用示例1数据仓库解决方案架构23进入大数据时代4Q&A3什么是商业智能BusinessIntelligence商业智能通常被理解为将企业中现有的数据转化为知识,帮助企业做出明智的业务经营决策的工具。商业智能是对商业信息的搜集、管理和分析过程,目的是使企业的各级决策者获得知识或洞察力(insight),促使他们做出对企业更有利的决策。商业智能不是什么新技术,它只是数据仓库、OLAP和数据挖掘等技术的综合运用。数据仓库(DataWarehouse)是一个面向主题的(SubjectOriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(TimeVariant)的数据集合,用于支持管理决策(DecisionMakingSupport)---数据仓库之父BillInmon,“BuildingtheDataWarehouse”(1991)4BI应用案例:管理驾驶窗5BI应用案例:客户获取

事例:争夺铁通的用户实施者:中国电信某地区公司市场部使用应用名称:数据仓库内结算话单步骤:

1、对当月所有用户的结算费用进行排序,发现电话号码96368的结算支出排名最高,查询之前各月份,它的排名也最高,最近一年每月平均结算支出为3390元。

2、查询96368的用户资料为当地一烟草公司客服号码。

3、从数据仓库提取其结算话单,统计其与各个运营商之间互通的情况,发现其与铁通的用户互通较多,造成结算支出较大。

6BI应用案例:客户获取4、针对铁通经营的同样是固定电话,电信的产品完全可替代的特点,派单给大客户服务部,要求大客户经理说服烟草公司把它的分销商的电话全部转为电信电话。5、通过一系列综合的营销手段,成功把烟草公司分销商转换为电信用户

成效:铁通1842个用户转为电信用户按门面电话的最低ARPU40元/月计算,月创收7.37万元,年累计创收88.42万元7BI应用案例:数据仓库效益(国内某股份制银行)实施前实施后营销名单获取时间4-6Weeks<1Day业务及客户统计报表产生速度4-6Weeks<1Day绩效分析能力N/A1天~1周客户可接触率<15%30%+一年能执行营销活动数量<1050+活动平均反馈率无法评估8-30%活动回报率无法评估Upto60%无,贷款容易有风险强大客户单一视图能力8BI应用案例:在市场营销的应用(某银行信用卡中心)基于数据仓库的客户关系管理系统,从了解客户或客户细分开始,在制定各种客户/产品/渠道的营销管理策略时提供决策信息支持,计划、执行并管理各种行销活动。CRM在银行卡管理中提供新卡获取、客户挽留和交叉销售的功能,有力推动银行卡业务快速发展。Ad-hocqueryRawCustomerListAd-hocqueryRawCustomerListAd-hocqueryRawCustomerList优化客户名单

CallCenterSMS直邮-客户获取营销邮件,依据分行及目标客户类型而有不同数据仓库2。营销活动定义、名单进行去重、频率规则的限定和过滤1。初始客户名单通过Brio从数据仓库中筛选出来,并导入TCRM中4。渠道应用接触目标客户,传送促销信息5。数据仓库监控客户开卡事件6。使用Brio分析营销活动成功率3。名单和相应营销信息传送给不同的渠道系统直邮分行CRM系统的主要模块:分析模块沟通管理个性化模板与规则交互:营销渠道整合(callcenter/SMS/Email)最优化:营销评估和优化CRM投产之后,已经执行了170多个营销活动,由于实现了目标客户营销,平均每个营销活动的目标客户从百万级降低到10万,乃至5000-1000之间,所以营销成本比系统投产前降低了90%以上。投资回报:9BI应用案例:客户挽留(某银行信用卡中心)07年10月的预测评分结果显示流失概率50%以上的客户为93975人;在流失概率50%以上客户中,其中3%的客户贡献86%利润;在挽留客户的营销活动中,将主要的资金和资源用在3%高价值客户上,可节省97%的营销成本,而得到86%的效果;流失概率50-60%的客户贡献度分布:投资回报:10BI应用的背后后11支持前述类类型应用的的最佳实践践是构建企企业级数据据仓库EDW(数据平台台),通过过一定的数数据模型来来整合企业业内的各种种数据,并并在此基础础之上构建建相关的分分析型应用用这些应用很很难在企业业原有的OLTP系统(以交交易或者流流程为主))上实现,,如果没有有数据仓库库,也可以以通过手工工或者半手手工的方式式来实现,,但非常麻麻烦,很难难重复使用用BI系统主要通通过数据分分析来发现现数据之间间内含的业业务规律,,其负载类类型和负载载特征与OLTP系统有很大大的差异,,一般都需需要建立物物理独立的的系统,并并采用适合合BI负载环境的的专门技术术平台---一般都是以以基于MPP(MassiveParallelProcessing)技术的数数据库引擎擎为基础目前国内主主流的MPP平台有:DB2,Netezza(IBMPuredata),OracleExadata,Teradata,EMCGreenplum(Pivotal),HPVertica,SAPHANA.Microsoft也推出了它它的MPP数据库一体体机TOPIC商业智能的应用示例1数据仓库解决方案架构23进入大数据时代4Q&A12数据仓库解解决方案整整体框架企业级数据仓库库基础平台台将采用模模块化、参参数化的功功能设计方方式,提高高了系统运运行的稳定定性并有效效的降低实实施成本和和风险。13EDW体系架构应用体系应用主题·应用模式·应用方案·实施规划数据体系数据架构·近源层·基础层·汇总层·集市层技术体系统一交换·统一监控·统一调度·统一发布·统一管控运维体系日常监控·故障处理·备份恢复·系统安全组织架构·管控流程·管控内容管控体系从应用体系系、数据体系、技术术体系、运维体系系和管控体体系五个方方面阐述数数据仓库整体架架构14应用体系—特定主题的应应用15国内外先进银银行总结提炼炼了一套数据据仓库业务应应用框架,包包括了客户管管理、运营管管理、风险管管理、财务管管理、监管与信息息披露五大支柱的几百种应用,为金融机构的的数据仓库项目目建设和推广广应用提供了了极好的借鉴鉴。客户管理客户获取与挽留客户细分与价值提升交叉销售/向上销售事件驱动营销营销活动管理与优化客户生命周期管理风险管理合规与信息披露资产负债管理金融犯罪识别信用风险市场风险操作风险财务管理财务绩效管理资本配置与管理法规遵从与报表产品捆绑与定价财务管理流程优化运营管理交易渠道管理销售渠道管理渠道迁移与流程优化绩效考核与报表产品开发与定价资源规划与管理监管与信息披露1104报表信息披露报表15应用体系—数据应用规划划参考16跨领域的应用用平台客户管理类应应用风险管理类应应用运营管理类应应用财务管理类应应用监管与信息披披露类应用零售CRM对公CRM客户营销管理系统即席查询平台台数据挖掘平台台报表服务平台台满足总分行临临时数据需求求支持业务人员员进行业务探探索客户聚类分析析产品购买关联联分析客户流失概率率模型行为评分模型型申请评分模型型……财务报表风险报表监管报表个人客户报表表对公客户报表表总帐报表考评报表产品报表1104监管报表信息披露报表表新资本协议应用群资产负债管理理人行征信人行反洗钱特别关注客户户信息系统关联方信息查询系统关键经营指标标分析系统管理会计系统人行集中金融融统计风险准备金计提客户利润贡献度计算贵宾服务系统客户积分计算客户经理绩效考核分行绩效考核渠道分析中间业务分析析产品绩效分析析内部财务信息息分析定价系统个人客户内部部评级境内机构网络络布局优化评估估战略性业务指标人行支付报表表分行分润国家外管局监管报表高端客户理财报表技术缓存层近源模型层整合模型层共性加工层应用集市层数据仓库仓内集市仓内集市仓内集市仓内集市仓内集市仓内集市…仓外集市仓外集市仓外集市仓外集市仓外集市…应用集市示例16随机查询–具有IT和业务两方面面的知识和技技能,进行任任意数据探索索和查询,回回答各种未预预先定义的业业务问题。数据挖掘–在灵活分析的的基础上,对对某些业务问问题进行数据据属性的提炼炼和归纳,如如“评分模型型”、“违约约模型”、””细分模型””等。应用系统–支持复杂业务务逻辑的应用用系统,包括括营销活动管管理平台、ALM、利润贡献度度、平衡计分分卡等。实践表明,应应用系统的开开发离不开需需求的成熟和和稳定,只有有通过大量的的灵活分析和和数据挖掘的的应用,才能能形成成熟稳稳定的应用需需求,反之,,应用系统在在业务中的大大量使用,又又会促进分析析人员更加深深入、有效的的分析探索数数据。数据挖掘(Modeling)应用系统随机查询(Ad-hoc)固定报表固定报表–以固定模式回回答简单、常常规的业务管管理、统计类类问题。应用体系—应用模式17数据仓库数据挖掘的流流程取样评估与确认模型化

、数据探索与转化清洗数据与预处理找出并了解业务问题部署到数据仓库知识建模前的预处理通过样本组来建立预测模模型通过对照组与行动动组的比较,评估模型的精准性;通过行动组与不行行动组的比较,评估估执行环节的的优劣。18应用体系—应用规划考虑维度度IT部门除了考虑虑数据质量、、数据可用性性、投资预算算规模之外,,更重要的是是考虑应用实实施能否满足足业务用户目目前收益心理理预期等因素素,要想的大大(全面,具具体,全局观观)。数据仓库建设设规划,要分分步骤进行实实施,起步从从小做起;不同业务部门门对业务应用用的优先度要要求不同,必必须综合考虑虑不同部门对对业务应用的的策略价值和和投资回报评评价,形成初初步的规划后后,再经数据据仓库管理委委员会讨论确确定。数据仓库建设设规划,通常常从以下三个个方面进行评评估:实施难度:IT部门评估策略价值:决决策层评估投资回报:应应用部门评估估19IncreasingQueryandWorkloadComplexityIncreasingDataDetail,Volume,Integration&SchemaSophisticationBI应用模式的类类型与发展ContinuousUpdate&TimeSensitiveQueriesBecomeImportantOPERATIONALIZINGWHATIsHappening?EventBasedTriggeringTakesHoldACTIVEWAREHOUSING

MAKINGithappen!ContinuousUpdate/ShortQueriesEvent-BasedTriggeringPrimarilyBatchIncreaseinAdHocQueriesANALYZINGWHYdidithappen?REPORTINGWHAThappened?AnalyticalModelingGrowsPREDICTINGWHYwillithappen?BatchAdHocAnalyticsIncreasingBusinessValueandImpact20EDW体系架构应用体系应用主题·应用模式·应用方案·实施规划数据体系数据架构·近源层·基础层·汇总层·集市层技术体系统一交换·统一监控·统一调度·统一发布·统一管控运维体系日常监控·故障处理·备份恢复·系统安全组织架构·管控流程·管控内容管控体系从应用体系、、数据体系、技术体体系、运维体系和和管控体系五五个方面阐述述数据仓库规规划。21数据体系—一个相对完整整的BI数据架构应用集市层面向应用按需定制共性加工层初级的数据加加工依赖对应用的的提炼技术缓冲层ETL专用的纯技术术层完全与源系统统结构一致近源模型层基本依照源系系统建模尽量保持业务务数据原貌整合模型层面向整合主题设计提供规范和共共享22数据体系—整合模型层定位长期的,细节节的,整合的的数据存储,,为各类业务务需求提供支支持特点面向主题,数数据整合提供规范和共共享中性设计,偏偏范式化,灵灵活可扩展细节信息,保保留长期历史史23数据据体体系系—整合合层层模模型型主主题题示示例例Product&ServiceEventAgreementChannelPartyAssetFinance&RiskRegion&AddressMarketingOrganization24建模模总总体体原原则则数据整合原则仓库建模总体原则历史保留原则中性原则面向主题原则3NF原则实体体充充分分整整合合记录录审审慎慎整整合合状态态历历史史保保留留关系系历历史史保保留留25Why3NFFurther

NormalisedFullyNormalised5NF4NF3NF2NF1NF(BCNF)特点点:减少少冗冗余余Integrity屏蔽蔽变变化化,,容容易易扩扩展展对数数据据库库引引擎擎多多表表连连接接、、复复杂杂查查询询的的要要求求很很高高业务务人人员员不不容容易易理理解解与与接接受受1NF:第一一范范式式((1NF)::强强调调的的是是列列的的原原子子性性,,即即列列不不能能够够再再分分成成其其他他几几列列。2NF:除了了满满足足1NF,还还必必须须::1、必必须须有一一个个主主键键;2、没没有有包含含在在主主键键中中的的列列必必须须完完全全依依赖赖于于主主键键,,而而不不能能只只依依赖赖于于主主键键的的一一部部分分。3NF:满足足2NF,另另外外非非主主键键列列必必须须直直接接依依赖赖于于主主键键,,不不能能存存在在传传递递依依赖赖。。即即不不能能存存在在::非非主主键键列列A依赖赖于于非非主主键键列列B,非非主主键键列列B依赖赖于于主主键键的的情情况况。26数据据体体系系—共性性加加工工层层定位位提供供相相对对中中性性,,具具有有业业务务意意义义的的初初级级加加工工数数据据,,支支持持上上层层应应用用的的数数据据加加工工,,或或供供业业务务人人员员的的访访问问特点点全局局考考虑虑,,提提炼炼需需求求共共性性多层层次次设设计计,,多多种种数数据据粒粒度度侧重重业业务务理理解解,,蕴蕴含含丰丰富富的的业业务务规规则则27数据据体体系系—应用用集集市市层层定位位提供供特特定定应应用用支支持持特点点面向向应应用用形式式各各异异,,各各自自独独立立按需需定定制制,,满满足足特特定定业业务务的的需求求报表表集集市市挖掘掘集集市市多维维分分析析集集市市28数据据体体系系—各数数据据层层次次的的定定位位小小结结目标以数据下载的结构为准,一般与源系统结构相同数据可能是增量,也可能是全量用于技术加工短期的,细节的反应业务原貌的数据存储直接提供基于源系统结构的简单原貌访问为BI环境中适合的业务需求提供支持长期的,细节的,整合的数据存储为BI环境中适合的各类业务需求提供支持相对中性,具业务意义的初加工数据,但不面向特定应用作为上层应用数据加工的基础,或供业务人员直接访问服务特定应用原则简单处理关注源系统结构的变化简单处理,不考虑整合关注保留策略面向全局,数据整合中性设计,灵活扩展提供规范和共享提炼应用需求共性多种数据粒度易于理解和使用面向具体应用按需设计形式源系统模型近源系统模型设计根据支持应用情况可以保留短期历史面向主题设计偏范式化长期保留历史初步数据加工分层设计形式各异,依具体应用不同重点理解源结构理解源结构主题定义框架设计整合策略实施方法应用筛选应用提炼整体性一致性用途不对外提供数据服务业务原貌查询即时报表数据质量检查灵活查询整合规则检查常规报表灵活查询业务规则检查特定应用技术术缓缓冲冲层层近源源模模型型层层整合合模模型型层层共性性加加工工层层应用集市市层29企业级总总体数据据架构ESB数据采集和交换平台集成型数据区历史数据访问应用数据挖掘工具监管报送平台即席查询工具数据集成平台新核心系统老核心系统客户系统外围系统渠道系统外部系统(外联平台)操作型数据区分析型数据区应用服务区……应用服务器报表工具WEB服务器历史数据区统一报表平台管理会计系统流动性风险系统市场风险系统历史数据平台数据挖掘平台大数据平台数据交换区实时事件处理平台贴源模型层(ODS)主题模型层(EDW)应用集市层数据缓冲层共性加工层(GDM)国家审计署平台非现场审计30EDW体系架构构应用体系系应用主题题·应用模式式·应用方案案·实施规划划数据体系系数据架构构·近源层·基础层·汇总层·集市层技术体系系统一交换换·统一监控控·统一调度度·统一发布布·统一管控控运维体系系日常监控控·故障处理理·备份恢复复·系统安全全组织架构构·管控流程程·管控内容容管控体系从应用体体系、数据体系、技技术体系系、运维体体系和管管控体系系五个方方面阐述述数据仓仓库规划划。31技术体系系—统一数据据交换32技术体系系—统一调度度架构33技术体系系—统一监控控架构34技术体系系—统一信息息发布统一信息息发布定定位统一信息息发布平平台定位位为数据仓库体系系的展现现平台,,用于展现企业业基础数据平台台及所有有分析型型应用资资源。分分析型应应用资源源的集成成包含前前端界面面的整合合和各应应用后台台数据及及权限的的整合登录首页公告页面调用用功能分析型应应用集成成角色管理理授权管理系统管理理日志管理理会话管理理应用模式式固定报表表即席查询询数据挖掘掘用户身份份管理统一认证证单点登录录安全审计计认证管理理统一信息息发布内容容统一入口口权限管理理应用集成成35统一商业业智能门门户功能能架构36EDW体系架构构应用体系系应用主题题·应用模式式·应用方案案·实施规划划数据体系系数据架构构·近源层·基础层·汇总层·集市层技术体系系统一交换换·统一监控控·统一调度度·统一发布布·统一管控控运维体系系日常监控控·故障处理理·备份恢复复·系统安全全组织架构构·管控流程程·管控内容容管控体系从应用体体系、数据体系、技技术体系系、运维体体系和管管控体系系五个方方面阐述述数据仓仓库规划划。3738运维体系系—运营维护护TitleinhereTitleinhereTitleinhereTitleinhereTitleinhereTitleinhereTitleinhereTitleinhereTitleinhere日常监控变更管理问题处理容量规划备份恢复需求管理服务水平组织架构管理工具①②③④⑤⑥⑦⑧⑨主管部门门技术支持持部门生产运行行部门数据支持持部门资源管理理部门资源监控控服务监控控应用监控控运行性性问题题非运行行性问问题变更规规范变更流流程设计原原则备份内内容备份策策略备份管管理技术缓缓冲层层整合模模型层层共性加加工层层应用集集市层层制定SLA标准落实标标准周期性性考核核数据标标准管管理平平台元数据据管理理平台台数据质质量管管理平平台数据需需求平平台项目需需求临时数数据类类需求求组织架架构日常监监控问题处处理变更管管理备份恢恢复容量规规划服务水水平管理工工具需求管管理从现有的经验验看,数据据仓库体系系的运行维维护主要是是通过合理理的组织架架构,制定定易于执行行的运维管管理流程和和规范,通通过完善的的管理工具具,对系统统监控、问问题处理、、系统变更更等常规问问题进行系系统化的处理EDW体系架构应用体系应用主题·应用模式·应用方案·实施规划数据体系数据架构·近源层·基础层·汇总层·集市层技术体系统一交换·统一监控·统一调度·统一发布·统一管控运维体系日常监控·故障处理·备份恢复·系统安全组织架构·管控流程·管控内容管控体系从应用体系系、数据体系、技术术体系、运维体系系和管控体体系五个方方面阐述数数据仓库规规划。39从数据质量相相关故障问问题说起40案例1操作员反映银行内内部对账管管理系统““存款余额额档的导入入”作业出出错.故障现象上游系统升升级后,由由于业务需需要等原因因对字段长长度进行了了扩展,导导致上下游游字段长度度不一致;银行内部对账管管理系统的的活期账务务表里的余余额(可能能是活期、、定期、贷贷款)在数数据库中定定义为13位,但新核心对公中定义为为19位(核心旧旧对公是13位),5日中有一条条数据超过过13位(1900多亿,14位),造成成数据从核核心导入银银行内部对对账管理系系统时溢出出,批次中中断。数据中心计划在在6或7日进行数据据字段的扩扩展,目前前排查内部部对账系统统中仍有部部分字段长长度为13位,存在在一定风风险。问题分析析元数据变变更问题题案例3管理员检查发现现信贷统统计监测测系统批批次作业业“账户户级别统统计中间间新表””执行出出错。故障现象象CMS提供的客客户风险险权重表表存在12条客户编编号为空空的记录录问题分析析空值问题案例2电子银行部反反映ODS平台电子子银行报报表“电电子银行行渠道替替代率报报表”数数据不正正确。故障现象象系统迁移移导致的的数据计计算口径径发生变变化,原原有计算算口径计计算错误误问题分析析数据变更更问题,,指标口口径变化化,指标标标准化化问题企业级数数据管控控内容数据管控控是对企企业数据据的综合合治理,,通常来来说,落落到具体体层面上上可以分分为对数数据标准准、元数数据和数数据质量量的管理理,数据据标准是是支持业业务、技技术和流流程的规规范化建建设的标标准体系系;数据据质量是是数据对对其期望望目的的的符合度度;元数数据是数数据的数数据数据标准准元数据数据质量量数据标准准元数据数据质量量数据规范范数据形态态数据质量量数据标准准向元数数据提供供业务元元数据的的标准定定义指导数据据质量进进行有效效的检测测和检查查通过元数数据管理理平台维维护数据据标准向数据质质量提供供元数据据对象更更好的发发现数据据问题通过数据据质量的的具体操操作来监监控标准准的执行行情况检测元数数据的定定义情况况4142如何做好好数据管控工作,,我们需需要从人人员、流程、技技术多个个方面下下足功夫夫,逐步步管理好好BI数据质量量问题。。通过建立立相应的的数据管管控组织架构构,梳理完完善的管管控工作流程程,通过系统工具具支撑日常工作作,使数数据管控控治理工工作能够够落到实实处,全全面提升升银行数数据运用用水平和和数据质质量。组织和角角色定义义管理办法法管理流程程制度和模模版管理流程技术平台流程制定定系统建设设组织架构技术支持持技术流程人员技术平台台的支持规章制度度管理办法法:数据管控控管理办办法;数据标准准管理办办法;数据质量量管理办办法;元数据管管理办法法;数据需求求管理办办法;监管统计计管理办办法;数据模型型管理办办法;数据交换换管理办办法;……工作模版版:数据标准准需求模模版;数据标准审核核映射模模版;元数据变变更申请请模版;;数据质质量检检核规规则模模版;;数据需需求申申请模模版;;……规章制制度管理办办法说说明总则::第一条条为为规范全全行数数据标标准,,符合合国家家标准准化政政策及及监管管统计计规定定,推推动数数据标标准在在业务务领域域和技技术领领域的的应用用,提高数数据质质量和管理理效率率,落落实监监管统统计规规定,,特制制定本本办法法。第二条条本本办法所所称数数据标标准是是指针针对本本行各各种重重要数据制制定的规范范性文文件,,以确确保这这些重重要数数据在在全行行内外外共同同使用用和交交换中中的一一致性性和准准确性性,是是数据据管控控的基础。。组织与与职责责:第八条数数据管控办办公室室的数数据标标准管管理工工作由由计划划财务务部负负责。。信息息技术术部、、各相相关部部门协协助配配合数数据标标准管管理工作。。第九条计计划财务部部是数数据标标准管管理的的主管管责任任部门门,设设置数数据标标准管管理专专员、、数据据标准准管理理员、、数据据标准准平台台管理理员,,承担担以下下职责……数据标准的的制定定:第十二二条数数据据标准准的制制定流流程分分为标标准需需求提提出、、标准准需求求审批批、标标准制制定、、标准准审核核和标标准发发布阶阶段。。数据标准的应用:第十九九条数数据据标准准的应应用包包括数数据标标准的的落地地执行行和数数据标标准检检核。数据标标准管管理平平台::第二十十六条条数数据标准在在更新新后,,计划划财务务部应应在平平台上上及时时发布布数据据标准准变更更通告附则:第二十十七条因因违反本本办法法产生生的不不良后后果或或造成成损失失,视视情节节按照照有关关规定定追究究相关关人员员责任任。第二十十八条如如果数据标标准管管理工工作中中出现现争议议或者者分歧歧,可可向数数据管管控办办公室室申请请复议议,由由数据据管控控办公公室协协调解解决。。对无无法解解决的的重大大争议议和分分歧,,由数数据管管控办办公室室报请请数据据管控控委员员会决决策。示例43数据管管控委委员会会和办办公室室数据管控委员会(行长、各部门负责人)数据管控办公室(计划财务部、信息技术部)数据标准管理团队数据质量管理团队数据需求管理团队元数据管理团队对全行行数据据管控控工作作进行行集中中统一一领导导,协协调相相关各各职能能部门门的运运作;审议全全行数数据管管控建建设状状况,,研究究确定定全行行数据据管控控的战战略、、方针针和政政策;审定全全行数数据管管控方方案与与实施施计划划,监监督检检查全全行数数据管管控措措施的的执行行情况况;不定期期审议议数据据管控控重大大变更更事项项;针对数数据检检查报报告中中提出出的严严重违违规及及重大大问题题,在在全行行范围围内协协调整整改、、处理理及处处罚;;定期听听取数数据管管控办办公室室对数数据管管控工工作的的汇报报;审议议其其他他需需提提交交委委员员会会研研究究的的数数据据管管控控事事项项。。沟通通和和协协调调数据据管管控控日日常常管管理理工工作作;;制定定数据据管管控控相相关关工工作作计计划划;;推动动数据据管管控控执执行行策策略略和和执执行行方方案案定期期向向决决策策委委员员会会汇报报数据据管管控控工工作作情情况况;;制定定并并审审核核数据据平平台台用用户户角角色色和和数数据据访访问问权权限限控控制制方方案案。。数据据管管控控委委员员会会和和办办公公室室是数据据运运营营和和管管理理的的组组织织。示例例44数据据管管控控总总体体组组织织架架构构数据据管管控控委委员员会会数据据质质量量管管理理专专员员数据据质质量量管管理理员员数据据质质量量平平台台管管理理员员数据据标标准准管管理理专专员员数据据标标准准管管理理员员数据据标标准准平平台台管管理理员员数据据需需求求管管理理专专员员数据据需需求求管管理理员员需求求平平台台管管理理员员元数数据据管管理理专专员员元数数据据管管理理员员元数数据据平平台台管管理理员员数据据管管控控办办公公室室数据据标标准准管管理理团团队队数据据质质量量管管理理团团队队数据据需需求求管管理理团团队队元数数据据管管理理团团队队示例例45数据管控控平台46标准应用用—标准管理理系统_标准浏览览八大类信信息项目录树产品分类类映射到PMS中INDV_BASC_NFO的EDU_LEVEL学历标准准代码小类信息息项明细信息项标准与系系统映射射映射到具具体字段段47数据质量量检核环环节在数据仓仓库的各各个环节节制定数数据质量量检查方方案和检检查指标标,并在在ETL过程中进进行数据据质量检检查,检检查结果果直接返返回到数数据质量量管理结结果库,,供数据据质量系系统进行行数据质质量监控控和分析。48数据质量量管理系统检核规则则检核结果质量分析析检核字段段:OPERATERID记录总数数:3397问题总数数:285检核字段段:COLNUMBER检核类型型:非空空检核频度度规则基本本属性规则扩展展属性指标趋势势分析非空问题题:31%长度问题题:31%一致性问问题:38%趋势分析析问题数::3问题数::7类型分析析检核对象象规则定义义报警渠道道49TOPIC商业智能的应用示例1数据仓库解决方案架构23进入大数据时代4Q&A50阿里小贷贷的传奇奇51阿里小贷贷,债务务人无需提供供抵押品品或第三三方担保保仅凭自自己的信信誉就能能取得贷贷款,并并以借款款人信用用程度作作为还款款保证截至2012年6月,浙江江和重庆庆的阿里里小贷以以16亿元的注注册资金金累计贷贷款260多亿元,,累计服服务企业业12.9万家,单单日利息息收入100万元,不不良率为为0.9%。单笔小小微信贷贷操作作成本为为2.3元,阿里里小贷被被冠以了了“最赚赚钱的小小贷公司司”的称号“大数据据时代””维克托•迈尔-舍恩伯格格(ViktorMayer-Schönberger)5250亿-全球2011年手机机用户数数300亿-Facebook每月共享享出来的的信息条条数1.2万万亿GB(1.2ZB)-2011年全球数据量40%:全球每每年的数数据量增增长率6.8亿台:2012年全球智智能手机销量预测1.8亿台:2012年中国智智能手机销量预测IDC:The3rdPlatformandBigData53数据已经成为一种新的经济资产类别,就像货币和黄金Gartner:2015年大数据据将带来来440万IT岗位Source:InformationWeek2013Analytics,BusinessIntelligenceandInformationManagementSurveyGartner:2015年大数据据将带来来440万IT岗位Gartner最新研究究数据显显示,2013年全球IT支出预计计将超过过3.7万亿美元元,与2012年3.6万亿美元元的支出出预计相相比,增增长3.8%。而大数数据正在在创造辉辉煌,将将带来大大量就业业机会。。Gartner高级副总总裁兼全全球研究究负责人人PeterSondergaard表示:““到2015年,大数数据将为为全球带带来440万个IT岗位,其其中190万个IT岗位在美美国。此此外,在在美国,,每个大大数据相相关的岗位将催生三三个非IT的就业机机会。在在未来的的四年里里,信息息经济将将推动美美国产生生600万个就业业机会。。”Gartner同时也指指出,分分析师们们将提醒醒人们注注意,现现在我们们非常缺缺乏对所所有数据据以及数数据的使使用方法法都很了了解的数数据科学学家。Gartner预测:2020年大数据据将成传传统行业DataScientist:TheSexiestJobofthe21stCenturybyThomasDavenportGartner预测:2015年大数据将将带来440万IT岗位HarvardBusinessReviewaboutDataScientist54IBMAddsVeracity(Uncertainty)to3VsofBigData55Oracle’sV:价值密度低低Value单条数据并并无太多价价值,但庞庞大的数据据量蕴含巨巨大财富56AvailableInformationAnalyzed

InformationAnalyzeALLAvailableInformationTraditionalApproachBigDataApproachAnalyzeSmallSubsetsofInformationAnalyzeAllInformationLeveragemoreofthedatabeingcapturedBigData使得思维模模式发生转转变57TraditionalApproachBigDataApproachCarefullyCleanseInformationBeforeAnalysisAnalyzeAllInformationAsIsASmallAmountofCarefullyCleansedInformationAnalyzedInformationAVeryLargeAmountofMessyInformationAnalyzedInformationReduceeffortrequiredtoleveragedataBigData使得思维模模式发生转转变58TraditionalApproachBigDataApproachStartwithHypothesis,TestAgainstSelectedDataExploreALLData,IdentifyCorrelations?Analyzed

InformationQuestionDataAnswerHypothesisDataCorrelationAllInformationExplorationActionableInsightDataleadstheway…andsometimescorrelationsaregoodenoughBigData使得思维模模式发生转转变59TraditionalApproachBigDataApproachAnalyzedataAFTERithasbeenprocessedandlandedinaWarehouseorMartAnalyzedataINMOTIONasitisgenerated,inreal-timeLeveragedataasitiscapturedBigData使得得思思维维模模式式发发生生转转变变60$M7006005004003002001000InfrastructureSoftwareServicesIDC预测测中中国国大大数数据据技技术术与与服服务务市场场将将会会从从2011年的7760万美元元快速速增增长长到到2016年的6.16亿美美元大数数据据应应用用目目前前仍仍然然还还处处在在早早期期发展展阶阶段段。。互互联联网网公公司司使使用用的的更更为为广广泛泛,,它它们们主主要要基基于于开开源源软软件件开开发发大大数数据据应应用用。。电电信信和和银银行行开开始对对大大数数据据应应用用产产生生浓浓厚厚的的兴兴趣。。Hadoop/MapReduce生态态系统将将会在大数据应用发展中扮演重要的角色。使用Hadoop技术的初创公司层出不穷。大厂商都在加强对Hadoop技术的支持。但未来大数据世界将会是一个多元世界,多种技术将会会并存大数据相关人人才的欠缺将将会成为影影响大数据市市场发展的一一个重要因因素。7中国大数据市市场未来5年年将会以51.4%的速速度增长6113BigDataVendorstoWatchin2013byinformationWeek62HadoopProjectsandVendorDistributions63VendorsProjectsClouderaMapRIBMHortonworksEMCDataStaxHadoopMapReduceYesYesYesYesYesYesHDFSYesYes,anddirectmountNFSYes,andGPFSYesYesNo,butCassandraApachePigYesYesYesYesYesYesApacheHiveYesYesYesYesYesYesApacheHbaseYesYesYesYesYesNo,butCassandraApacheZooKeeperYesYesYesYesYesNoApacheFlume(Incubator)YesYesYesOptionalNoNoApacheOozie(Incubator)YesYesYesOptionalNoNoApacheMahoutYesYesNoOptionalYesNoApacheSqoop(Incubator)YesYesNoOptionalNoNoApacheWhirrYesYesNoNoNoNoApacheAvroYesYesYesNoNoNoHueYesMapRControlSystemNo,butBigInsightsConsoleNoNoNoCascadingNoYesNoNoNoNoApacheLuceneNoNoYesNoNoNoJaqlNoNoYesNoNoNoApacheHCatalog(Incubator)NoNoNoYesNoNoApacheAmbari(Incubator)No,butClouderaManagerNoNoYesNoNo,butOpsCenterApacheCassandraNoNoNoNoNoYesVendorimplementationasofFeb2012.ForHadoopprojectandvendorcapabilitydetailsreadHowtoChoosetheRightApacheHadoopDistribution技术路线对比内容关系型数据库(非SMP)Hadoop大数据平台数据压缩压缩比较高压缩比较低历史拉链实现简单实现复杂(使用Hive)数据分区支持不支持索引支持部分商用平台支持高并发简单查询支持擅长(使用Hbase)低并发复杂查询擅长实现复杂(使用Hive)混合负载管理支持部分商用平台支持数据文件导出实现简单Hbase导出实现复杂,HDFS导出简单系统高可用性高高说明:如果采采用非SMP的关系型数据据库,可支持持非现场审计计应用,如果果采用hadoop大数据平台,,则不支持非非现场审计应应用。64传统DBMS数据处理与Hadoop应

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论