




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、大数据湖体系规划大数据湖体系规划与建设方案与建设方案目录背 景:大数据湖的发展背景与建设理念1生态圈:探索新兴业务入湖建设模式3共 享:大数据湖统一访问共享规划4运 营:大数据湖一体化运营管理建设5体 系:大数据湖体系规划与建设思路2数据架构与承载体系的演变过程完整性、一致性、交互稳定性,并发性,异常可恢复性数据库时代关系型数据库解决了信息时代的数据资源存储和管理,实现了电子化的文件柜 采用数据模型表示数据结构,冗余小 面向事务管理,具有ACID特性 数据统一管理和控制,易维护和扩充 程序与数据独立,具有良好用户接口1数据仓库时代DW研究和解决了从数据库中获取信息的问题,通过OLAP、数据挖掘
2、等帮助企业决策分析,构建商业智能(BI) 面向主题的,关注用户重点业务 集成的,跨越历史、区域、系统 稳定的,具有只读性质,以查询为主 以时间序列存储,非规范化管理2大数据平台时代面对大数据5V特点,采用分布式、并行化的存储和计算架构,提升数据处理能力 对象:PB级,80%以上非结构化数据 技术:分布式架构、云计算、虚拟化等 CAP原理:CAP BASE 目标:线性扩展、弹性计算、实时响应、动态调节31970 s1990 sBill Inmon提出DW概念E.F.Codd发明DBMS2000 sGoogle发布三篇论文存储经济性、高性能、高扩展、高并发、灵活模型适配性企业级跨域整合、业务扩展性
3、、架构设计合理性、流程规范性背景:数据快速入湖,分析更加智能,应用更加多样,服务更加开放u 更多企业数据将进入数据湖,来自传统系统的数据和传感器等新型数据资源不断融合,数据孤岛将继续被打破。u 随着大数据分析能力的不断提高,人工智能的重要性被逐步提升。当今最先进的机器学习和人工智能系统正在超越传统的基于规则的算法,创建出能够理解、学习、预测、适应,甚至可以自主操作的系统。数据服务数据应用数据分析数据治理数据平台以更加深度的数据开放,跨行业大数据关联。以更多样的应用能力,构建针对性行业解决方案。数据平台存储方式向数据湖模式转变,多数据汇聚。支持结构化,半结构化和非结构化数据多数据入湖。入湖即治理
4、,针对性对数据源系统输入数据制定入湖标准数据驱动治理规范,以数据为核心实时制定治理规范。从深度学习到机器学习,从机器学习到人工智能。基于数据湖的大量的原始数据,深度训练,快速分析智能应用,基于AI与机器学习分析,个性化服务提供。应用快速构建,基于数据湖进行细粒度的收集、探索和分析数据湖数据治理数据分析数据应用数据服务数据驱动规范,入湖标准制定人工智能分析,直引湖中数据大数据发展趋势分析应用更加智能,构建更加快速深度数据开放,针对方案制定数据湖产生背景及概念提出企业现在正处于大数据的企业现在正处于大数据的“焦虑期焦虑期”p存储成本问题:海量数据需要在多环境、多级下重复存储,存储开销大p数据形态问
5、题:应用大多聚焦在经过加工后的再生数据,原始数据无法得到充分利用p业务响应问题:必须事先进行充分规划和较长周期加工,欠缺运营所需的灵活性和时效性数据集市数据湖问题问题 ?挑战挑战 ?变革变革 !数据湖一词是数据湖一词是20112011年由年由PentahoPentaho首席技术官詹姆斯首席技术官詹姆斯 迪克森最初提出的,参照迪克森最初提出的,参照“ “数据集市数据集市” ”得来。得来。较小的数据存储库如同瓶装水,经过过滤包装结构化后以供使用数据来源于不同地方如同湖泊,存储更自然状态下的大量的水n 预先设定问题n 使用方式单一n 集中存储+无限能力n 用户各取所需把不同结构的数据把不同结构的数据
6、统一存储统一存储,使不同数据有一致,使不同数据有一致的存储方式,在使用时的存储方式,在使用时方便连接方便连接,真正解决,真正解决数据数据集成集成问题。问题。n全部采集(Collect Everything)n随处研究(Dive In Anywhere)n灵活访问(Flexible Access)数据湖的定义与特性存储一切,分析一切,创建所需数据湖数据湖(Data LakeData Lake)核心思想核心思想 把你以前在磁带上拥有的东西倒入到数据湖,然后开始探索该数据。重要的 只把需要的数据倒入到Hadoop;如果你想结合来自数据湖的信息和客户关系 管理系统(CRM)里面的信息,我们就进行连接,
7、只有需要时才执行这番数 据结合。 数据湖是一种在系统或存储库中以自然格式存储数据的方法,它有助于以各种 模式和结构形式配置数据,通常是对象块或文件。湖中的数据包括结构化数据 从关系数据库(行和列),半结构化数据(CSV、XML、JSON的日志),非 结构化数据(电子邮件,文档,PDF)和二进制数据(图像、音频、视频)从 而形成一个集中式数据存储容纳所有形式的数据。詹姆斯詹姆斯 迪迪克克森森维基百科维基百科从对比中理解数据湖概念 优势篇对比项数据仓库数据湖支持数据类型有限的数据类型支持,以结构化为主支持结构化,半结构化和非结构化数据数据采集方式过程开始于业务流程识别,通常由数据管理者和业务负责人
8、基于数据和业务的某种假设在数据湖世界里,没有关于已经取得的数据假设。一旦数据发生,即开始在细粒度级别收集数据。业务流程发现基于数据与输入数据数据处理能力写入模式,建立模型对数据进行某类格式和结构的处理,为了减少数据的复杂性,比较难于实现上卷(Roll up)和钻取(Drill down)分析,该设计可能需要妥协一定粒度的数据读取模式,接受原始形式的数据,在数据细粒度级别收集、探索和分析非常简单架构重建能力数据库架构演变需要谨慎,过程耗时,成本较高,影响较大,需要对原有数据进行重构不存在结构问题,支持复杂数据类型,便于重置数据模型、查询和应用,并具有简单的重建关系的能力动态性敏捷性差,采用静态固
9、定配置,基于业务流程驱动而设计系统高度敏捷,动态灵活配置,基于数据的业务流程定义扩展性提供预定义的业务需求点燃创新和新的商业机会从对比中理解数据湖概念 劣势篇对比项对比项数据仓库数据仓库数据湖数据湖数据规划体系具有周密的数据发现、采集、探索和转换的数据计划周密的数据发现、采集、探索和转换的数据计划,易于突显数据价值不太重视事先的数据规划,允许存储任何数据,难以抓取数据价值难以抓取数据价值数据利用效率数据利用率高数据利用率高,按数据优先级和数据可用性的大小进行组织,可以快速定快速定位所需数据位所需数据数据利用率低,缺少数据优先级排序缺少数据优先级排序,需要花费大量时间查找和分析前的准备数据需求响
10、应能力具有较高的需求响应能力较高的需求响应能力,可以保证平稳高效的数据访问数据响应延迟较高响应延迟较高,整个分析过程容易中断复杂性和难度较低,建设规模与成本可控很高,建设难度与规模呈线性增长趋势,隐性成本较高逻辑可解释性数据组织逻辑性强,数据关系可解释性较高欠缺语义一致性和严格的元数据,数据关系较为松散,难以解释安全性多年发展历程,保护数据的能力比较成熟比较新的技术,需要持续完善适用对象企业的业务行家和专业人员,技术门槛低技术门槛低面向熟练用户、科学领域的数据科学家,技术门槛高技术门槛高潜在风险潜在风险数据湖数据湖数据沼泽数据沼泽数据湖是大数据概念的延伸p 多样化的数据存储p 高效的数据处理p
11、 存储全部数据p 处理任何数据p 访问任何数据数据能力要求n 支持所有用户n 更容易适应变化n 更快的洞悉能力IT能力要求数据湖的能力视图数据湖并非是个全新概念1. “数据湖”是关于企业应用大数据的概念,是面向企业的最佳的大数据的解决方案2. “数据湖”不仅是数据存储和处理的单元,也是释放数据价值的过程3. 企业大数据应用成功的关键并不是存储所有的数据,而是要创建一个更有意义的“数据湖”,帮助企业加速提取高价值数据的速度4. 数据湖是大数据发展方向上的高级阶段大数据发展方向上的高级阶段,是一种建设理一种建设理念,念,而不是一种特定的实施方法5. “数据湖”是个架构概念,是数据仓库的一种演进,是
12、一种大数据概念下的延伸大数据概念下的延伸数据湖概念上的甄别1、用于安置企业所有数据的一个数据仓库或数据集市2、替代运营数据存储(ODS)3、高性能的生产环境4、生产型报表的应用程序5、一个专门建立的系统来解决一个特定的问题(尽管专门建立的数据集市可以从数据湖中提供)1、用户可以访问大量原始数据的环境2、一个开发和验证分析模型的环境,然后将其转化为生产3、用于探索数据以获得洞察力的分析沙箱4、企业级目录,可帮助用户查找数据并将业务术语与技术元数据链接起来5、一个支持重用数据转换和查询的环境数据湖是数据湖是数据湖数据湖不不是是数据湖体系的架构规划HadoopHadoop不一定是数据湖的组成部分,只
13、是它是目前最理想的选择不一定是数据湖的组成部分,只是它是目前最理想的选择!数据湖的逻辑架构数据湖的数据架构p 持久层(持久层(PersitentPersitent Layer Layer):):存放所有从内部和外部获取的结构化、半结构化和非结构化数据p 分析沙箱(分析沙箱(Analytics SandboxAnalytics Sandbox):):数据科学家和分析师被授予持久层的访问权限并使用进行数据研究和实验p 探索数据源(探索数据源(CuratedCurated):):数据分析师会将有商业价值的数据进行处理并创建新的数据源以提供给业务分析师p 可操作层(可操作层(Operational l
14、ayerOperational layer):):业务分析师继续精炼已处理过的数据,和数据管理团队一起将这些数据转换为更为容易操作和使用的数据,存放之以便得到更广泛的使用数据湖建设的四个阶段p 整合数据湖基础设施p 可扩展的数据处理和摄入p 数据目录管理趋于完善p EDW与Data Lake协作p 对外生产价值输送能力p 数据服务和运营管理能力p 端到端的业务支撑能力p 稳定的成熟度服务架构p 灵活完善的企业运营模式p 分析能力增强p 优化探索环境p 丰富价值发现模型价值挖掘阶段基础架构阶段成熟运营阶段协作交互阶段01020304大多数企业处于前三个阶段的建设和完善过程中建设难点与风险建设难点
15、与风险数据湖关键点数据湖关键点数据湖体系的建设要点与风险分析灵活自动化的采集与存储组织和编目数据管理统一的透明访问方式数据质量和可靠性无感知的分布式架构(存储、计算、网络)企业全局数据的掌握与预测统一元数据规范和管控能力业务关联场景的数据理解系统化的质量管控体系分布技术的规划和扩展能力参考:来自参考:来自实践中数据湖建设内容实践中数据湖建设内容业界主流公司的数据湖规划 HortonworksHortonworks 公司基于基于 Hadoop 生态生态构建的数据湖提出的现代化数据架构(Morden Data Architecture),从南向北包含四个层面:数据采集层(数据采集层(Data Ac
16、quisition Layer) 数据采集层负责从数据源抽取和移动数据,并将数据存放到数据湖中。采集的数据源包括传统的关系型或事务型系统、用户获取的数据、非结构化或半结构化数据、外部数据或流数据等。 数据监管层(数据监管层(Data Curation Layer) 数据监管层负责数据湖中的数据组织、定型并为其他层提供消费,包含数据标准化流程制定,数据创建、脱敏、清洗、转换、维护、管理和展现等工作。 数据供应层(数据供应层(Data Provisioning Layer) 数据供应层采用更适用于业务报表和分析的传统数据储存方式,使用OLAP、数据仓库和数据集市降低数据消费的复杂度并提供快速的交互
17、式查询和分析。 数据消费层(数据消费层(Data Consumption Layer) 数据消费层提供所有最终用户的接口,对于不同用户对数据的需求,大量和多元化的工具和技术会被用于该层。业界主流公司对于数据湖的规划 IBMIBM 公司提出的数据湖架构,包括六大关键部件:一 数据湖资源库按照数据特点进行原始格式的分类存储库二 企业IT交互统一提供企业生产侧系统与数据湖资源库的灵活交互,快速配置能力三 原始数据交互为数据价值发现提供安全的资源分析访问接口与试验环境四 目录接口唯一权威的数据湖元数据发布和访问模式五 基于可视化的交互统一可视化的业务应用交互接口和沙箱环境六 信息集成与治理集成的数据湖
18、运营管理工具与环境目录背 景:大数据湖的发展背景与建设理念1生态圈:探索新兴业务入湖建设模式3共 享:大数据湖统一访问共享规划4运 营:大数据湖一体化运营管理建设5体 系:大数据湖体系规划与建设思路2生产型系统分析型系统数据接入数据存储生产数据(1+N) 操作/临时存储原生数据(1+N) 就近/分域存储应用数据(N) 分区建设内部应用计算处理整合数据(1) 全网/分层支撑协同计算引擎实时检索和流处理引擎结构化数据 (数据库/格式文件等) 半结构化数据 (XML/TXT等)非结构化数据 (语音、视频等)统一索引层计算侧cache生产系统驻留统一接入配置生态圈系统PB级存储OracleMySqlH
19、DFSHbaseGreenplumTXTTB级计算访问共享API数据沙箱访问接口(JDBC、ODBC)同源异构访问挖掘工具交互分析OLAP应用构建工具生产直采前置采集存储计算加速离线批处理引擎交互式查询引擎计算资源调度IOT接入BSSOSSMSS网络/平台生态圈同步镜像运营管控采集接入规范源数据提供规范数据分类规范数据模型规范元字典规范资源申请规范计算调度规范访问接入规范数据共享标准生产模型规范数据湖统一目录逻辑化视图缓存加速统一数据服务代理(Data Broker)统一数据接入跨架构数据联邦存储规范数据安全规范角色权限规范运营管理规范资源池化 弹性伸缩自动调度 按需使用应用专区省分专区生态圈
20、专区源端系统可视化定义 即配即用透明化部署 实时接入调度平台工具外部系统互联网合作伙伴大吞吐管道服务对象外部系统互联网网络爬虫主数据(1) 全网统一大数据湖体系规划大数据湖存储能力规划统一标准/分区存储制定全集团统一数据标准,采取分域分类的数据入湖策略,构建生产、原生、整合/应用、专区等分区数据存储及计算能力,实现数据原生入湖、按需使用的宗旨,为全国1+31省提供应用数据服务能力,注智生产激发生产力。数据存储数据接入数据访问运营管理数据计算计算资源管理资源池化,弹性技术自动调度,按需使用实时流式离线批量内存计算及缓存机器学习交互式查询协同计算非结构化计算存储资源管理结构化数据半结构化数据(日志
21、/XML文件等)非结构化数据(文件/图片/音频/视频等)省份专区生态圈 专区内蒙生产数据区原生数据区整合数据区实体关联视图主数据区省份B/O侧生产系统集团横向系统生态圈生产系统网络/平台生产系统(前置预处理)编码统一转换实体对齐客户产品渠道营销资源服务自然人贵州河北辽宁宁夏互联网金融智能连接智慧家庭物联网新兴ICT人员组织资源产品客户BSS原生数据OSS原生数据MSS原生数据网络/平台数据集团横向数据生态圈-ICT生态圈-金融存储分区原则:p 生产数据区:遵循电信集团数据建模标准及主数据规范要求;规范层面属于大数据湖范畴,物理资源层面可采用湖资源也可自建;p 原生数据区:分域分类存储生产数据;
22、将非标准数据做标准化转化;p 整合数据区:采用大数据挖掘等技术进行实体归集补全;构建实体关联视图;p 主数据区:存储企业级全网主数据,大数据主数据唯一提供者;p 应用专区:本着数据不出湖,充分挖掘数据价值原则,为使用者提供基于自有、原生、整合数据的处理空间,面向应用开展数据处理工作;大数据湖原生数据区规划原生入湖/分类存储/按需使用以原生入湖分类存储按需使用为宗旨,分域分类存储按周期存储原生数据,为云公司、集团ODS、省份大数据平台提供原生数据共享服务,为湖内整合数据区、应用数据区提供原生数据服务。原生数据区生态圈数据网络/平台数据集团横向数据BSS数据OSS数据MSS数据EDA数据共享服务数
23、据生产系统BSS系统OSS系统MSS系统EDA系统集团横向系统生态圈系统网络/平台系统原生入湖预处理入湖数据共享原生数据专区共享原生数据整合共享数据整合区数据专区实体关联视图共享互联网金融智能连接智慧家庭物联网新兴ICT应用枝繁叶茂类翼支付甜橙欺诈盾IWIFI统一账号NFC产品4G-QoS云堤流量控海洋卫星宽带天翼网关智能组网视频通话聚精彩车管专家乐驾天翼云盘企业云189邮箱翼校通翼机通+天翼对讲旺铺助手外勤助手号簿助手手机看店爱音乐天翼视讯天翼阅读爱游戏爱动漫天翼空间易信新视通4G家庭云安全办公专属云加密通道影像云21CN地产大数据语音云旅游大数据移动感知DPI4G分组域话单固网DPI日志留
24、存DPIOIDDMR/CDRPM/CM 智能网管电渠悦ME商机行业短信ODMS量化微信易信号百4G数据集约积分政企KPI渠道终端CRM计费客户服务PPMVSOP综合资源采购辅助财务辅助工程辅助ERP人力久其装维EDA直采省+集团电渠服务量省份专区生态圈专区实体关联视图编码标准化实体对齐移动/固网DPIOIDDMR/CDRCM/CP计费详单HANA数据ODMS翼支付集约积分主数据区大数据湖整合数据区规划构建企业级核心实体关联视图p 保存原子性:整合数据区数据不做聚合操作,保持数据原子性,不影响专区应用指标加工处理;p 实体补齐性:对核心实体根据不同原生数据进行属性补齐;p 实体关联性:面向实体全
25、业务流程数据,整合各域数据实现实体跨域关联视图;p 共享一致性:按照湖应用的使用需求进行共性提炼,实现统一的公共宽表建设;整合数据区完成数据清洗、编码转换、实体对齐及构建企业级核心实体关联视图,为应用专区提供整合数据服务。整合数据区保持数据原子性粒度,不对数据做聚合处理,不影响业务专区业务指标加工处理。实体对齐实体关联视图参与营销活动产品订购资源配给上门服务用户投诉修障维护用户使用存量经营用户出账产品实体跨域关联视图构建BSS数据l 客户信息 l 订购信息OSS数据MSS数据网络/平台l 装维信息l 开通信息l 佣金结算l 成本信息l 用户投诉率l 行为数据l 质量数据l消费信息l服务信息l资
26、源数据l报障数据l财务收入l补贴数据客户产品渠道营销资源服务合作伙伴核心实体自然人lCP/SP订购l位置信息 自然人员工组织地域政企客户合作伙伴数据清洗外部数据管理规则管理实体沉淀聚合管理冲突管理大数据湖应用数据专区规划面向应用的自建自维数据专区p 独立性:保证资源独立性、数据独立性、应用独立性;p 可用性:保证存储、计算、数据资源高可用性及稳定性;确保专区资源可在线、平滑扩展;p 易用性:提供丰富的可视化开发及专区运营工具;p 可管理性:大数据湖对专区具备监控、审计能力;p 数据服务性:专区数据可以数据形式服务,也可开发应用直接链接调用;大数据湖为业务应用场景提供具有数据存储、数据计算、数据
27、服务及数据应用访问能力的应用专区,用户可自行获取数据,面向特定应用场景完成数据加工处理;大数据湖提供专区申请及监控管理,以保证专区健康、有价运营。数据接入源端生产系统/数据仓库省份专区应用生态圈专区应用其它专区应用应用数据专区专区管理整合数据区主数据区省份专区-内蒙自有数据原生数据整合区数据应用数据专区申请专区审批专区划分专区变更专区回收运营监控资源利用率数据处理规范性使用频度应用成果评估安全性监控省份专区-生态圈专区-原生数据区实时采集 批量采集 消息采集共享访问大数据湖主数据区规划 企业级核心/统一运营保障主数据区负责存储全域主数据,并确保与主数据生产者保持同步,为大数据湖各区提供唯一主数
28、据源,以保证湖中企业级核心实体数据的一致性和完整性,提升大数据湖运营效率及效果。p 统一主数据标准:面向全国各域各生产系统提供主数据标准;p 统一主数据存储:面向大数据湖提供统一主数据存储能力;p 统一主数据整合:清洗整合各域主数据,形成统一、标准、唯一主数据;p 统一主数据服务:为大数据湖中各区提供主数据服务;数据接入生产数据入湖主数据区主数据管理主数据整合主数据目录主数据共享主数据评估客户产品渠道订单主数据组织数据专区集团横向生产系统省份BMO生产系统网络/平台系统生态圈生产系统其他系统整合数据区原生数据区原生数据服务专区主数据入湖主数据主数据整合数据原生数据省份专区生态圈专区内蒙贵州河北
29、辽宁宁夏金融智能连接智慧家庭物联网新兴ICT目录背 景:大数据湖的发展背景与建设理念1生态圈:探索新兴业务入湖建设模式3共 享:大数据湖统一访问共享规划4运 营:大数据湖一体化运营管理建设5体 系:大数据湖体系规划与建设思路2已建新建生态圈系统大数据湖数据接入智能连接智慧家庭互联网金融新兴ICT物联网生产系统驻留生产直采前置采集IOT接入同步镜像iWIFI海洋宽带天翼高清天翼网关智能组网翼支付甜橙欺诈盾天翼云盘189邮箱家庭云地产大数据物联网卡车管专家数据湖采集一站式配置采集源连接 / 采集方式(FTP/API/流式/)采集类型(全量/增量)/ 采集计划 / 采集存储数据存储生产副本(已建)生
30、产正本(新建)原生数据智能连接智慧家庭互联网金融物联网新兴ICT整合数据统一账号客户特征行为轨迹应用数据地产大数据专区车管专家营销云盘客户洞察金融欺诈分析专区家庭圈画像计算处理实时流处理引擎StromSpark streaming离线批处理引擎HiveMPP机器学习引擎R图数据库协同计算引擎Data Broker内存计算引擎Redis计算资源按需动态调配计算需求分类 / 资源队列管控 / 租户任务管理 计算规模 / 优先级别 / 时间窗规划 访问共享智慧家庭新兴ICT智能连接IPTV用户流量轨迹客户感知数据互联网金融翼支付合作商户客户金融特征支付风险识别物联网终端设备列表客户故障记录生态圈统一
31、共享目录生态圈客户数据 / 特征画像数据 / 客户感知数据 / 生态圈原生数据 / 主数据 / 整合数据 / 专区数据生态运营协同生态资源互换生态精准营销生态创新发现生态圈应用APIJDBCODBC沙箱共性基础数据专业应用数据基于大数据湖的生态圈建设模式生态圈入湖指导原则p 核心生态圈数据量庞大、繁杂,同时入库对计算资源、并行处理能力、运营效率提出了极大的要求,基于此,应构建科学、完整的入湖流程及标准,保证生态圈数据能够顺利、高效的入湖并发挥效果目标驱动入湖原则p 贴近实际:充分融合业务需求,遵循业务优先原则p 计算效率:充分保证数据质量,让计算效率显著提升p 边际效益:合理控制数据入湖速度、
32、在成本控制的前提下,实现效益最大化p 生态创新:数据、业务、需求间的融会贯通,实现生态圈的关联及衍生场景业务驱动数据分类 了解生态业务关键概念生态核心资料1 掌握生态整体经营状况生态经营数据2 开展生态业务数字化营销生态营销数据3 实现生态管理运营一体化生态管理数据4 开拓生态业务智慧创新生态协同数据5价值驱动入湖逻辑维度说明权重系数优先级准确性数据准确无误0.282高完整性数据完整0.213中一致性数据记录规范0.087低及时性数据获取及时0.234中价值性数据价值0.235高复用性关联性0.347高生态圈数据入湖原则p 优先满足日常运营管理p 业务价值双驱动同步p 先核心后边际再全貌p 先
33、难后易p 先生态高于业务次高于运营管理主数据 客户数据 产品数据 账户数据 .经营数据 收入数据 发展数据 缴费数据 .营销数据 业务订购数据 红包数据 金融消费数据 .管理数据 财务数据 成本/补贴数据 资源/库存数据 业态生产数据 原始数据 生态协同数据 业务流程数据 .解决生产经营看数:以生态圈应用和价值提升需求为导向,优先将客户、经营、营销、管理、生产方面的核心主数据入湖,满足当前业务发展和管理需求阶段一主数据 渠道数据 供应商数据 商客数据 .经营数据 活动数据 交易类数据 .营销数据 业务感知数据 卡券数据 保险数据 .管理数据 人力资源数据 运维数据 网络数据 .业态生产数据 互
34、联网数据 用户行为数据 活动数据 .补充采集数据 . .阶段二开展大数据价值挖掘:将各模块未导入的全量数据入湖,同时丰富生态边际和互联网数据,拓展应用场景,实现大数据精准营销和管理数据深度拓展:不断丰富和拓展数据湖的数据,包含数据的横向范围和纵向深度阶段三缺失的原生态数据 . .其他数据 . .生态圈入湖建设思路与步骤生态圈入湖建设要求与规范生产源端规范生产源端规范入湖建设演进入湖建设演进生态圈入湖生态圈入湖规范规范价值价值灵活灵活生态数据运营生态数据运营p 原生数据规范保障 业务规范:业务指导、流程、制度等文档 主数据:范围、内容及管理规范 数据字典:数据模型、编码约束、元数据等 数据流图(
35、DFD):生产数据流、加工数据流等 指标口径:术语定义、报表指标说明等p 生态能力入湖规划 数据规模:生态全量、核心资料、经营数据等大小 更新频率:交易频率、业务变更频率等 存储结构:生产数据存储模式、存储周期、分层结构等 接入要求:I/O带宽、接入约束、生产备份情况等p 生态入湖步骤 依据数据价值推进生态数据入湖 生态圈需求驱动原生数据的入湖p 原生入湖演进 原则上遵循生态数据原生入湖 当原生入湖存在海量采集(性价比低),理解/支撑困难等 情况,允许按照如下原则进行非原生数据入湖:核心和经营入湖:非原生采集,汇入整合层营销和运营入湖:根据需要采集原生并逐步替换生态协同入湖:完全实现原生数据入
36、湖 生态业务变动大且原生结果滞后数据,允许前瞻性获取生产变化过程表,避免数据模型的大幅调整p 原生数据入湖方案 资料类: 交易类: 主数据/编码类:实时全量同步p 运营规范要求(联动同步) 业务调整通知:新业务定义,生产约束变更、业务流程变更等 数据运营同步:模型结构变更、历史数据调整、口径新 增/调整等 生产模型建设规范:新增/变更模型遵循大数据 湖整体规范要求初始化全量上传后续变更采集全量合并整合历史全量同步周期增量采集全量合并整合p 生态圈入湖要求立足中国电信企业级视角生产侧与数据侧建设协同生产:原生接入保障数据:共享服务保障p 运营原则前瞻性全面性科学性合理性生态圈数据整合处理原则及关
37、键点交费助手用户绑卡用户代金券用户甜橙白条用户手机号码统一统一客户客户IDID手机手机号码号码交费助手交费助手用户用户IDID绑卡绑卡用户用户IDID代金券代金券用户用户IDID甜橙白条甜橙白条用户用户IDID与BSS一致定期保活期保添益宝基金产品申购表统一客户统一客户IDID理财类型理财类型理财产品理财产品支付类型支付类型理财金额理财金额与BSS一致 动态属性分离:采用实体属性分解的模型设计方式,满足业务多变的发展需求IDIDProductIDProductIDLoadDTSLoadDTSREC_SRCREC_SRC1PDT0012014.3.14理财2PDT0022014.3.15交费助手
38、IDIDCustomerIDCustomerIDProductIDProductIDChannelIDChannelIDLoadDTSLoadDTSREC_SRCREC_SRC1ABC123456PDT001CNL0012014.3.14基金产品申购表2DFGSG768PDT002CNL0012014.3.15通讯缴费3C00011PDT001CNL002 2014.3.14 添益宝4C12484PDT002CNL0022014.5.14生活缴费IDIDCustomerIDCustomerIDLoadDTSLoadDTSREC_SRCREC_SRC1ABC1234562014.3.14 理财2
39、DFGSG7682014.3.15交费助手客户实体产品实体客户产品订购关系IDIDChannelIDChannelID LoadDTSLoadDTS REC_SRCREC_SRC1CNL0012014.3.14o2o商户2CNL0022014.3.15网关商户渠道实体IDIDProductIDProductID结算方式结算方式LoadDTSLoadDTSREC_SRCREC_SRC1PDT003全额2014.3.14代金券配置2PDT003差额2014.3.15代金券配置IDIDProductIDProductID生效方式生效方式LoadDTSLoadDTSREC_SRCREC_SRC1PDT
40、003自动设置2014.3.14代金券配置2PDT003发放设置2014.3.15代金券配置产品属性-生效方式产品属性-结算方式 生态业务聚合:聚焦各类业务应用,规划生态整合视图 核心实体对齐:跨业务的实体数据一致性关联生态圈数据整合关键点 支撑湖标准化的数据规范转换; 基于共性化数据处理,支撑广泛、稳定的共享应用;大数据湖整合区建设原则 跨域数据的关联性和横向对齐;统一ID生态圈自然人实体归集与对齐客户资料归集应具备基于资料信息的规则匹配识别和基于客户海量的通信相关信息的挖掘识别方法:1)通过规则匹配识别技术,高效地完成准确性较高的资料信息自然人识别;2)基于大数据技术构建自然人识别模式,作
41、为规则识别的有效补充,提高自然人识别成功率,减少人工核查确认工作量。关键能力要求:p 规则识别和大数据技术识别配合完成资料聚合;深度应用大数据识别技术,通过照片留存、交际圈、位置轨迹、虚拟身份等信息,识别出从资料层面不能反映出的同一自然人。p 大数据技术识别应用到的技术:文本分词、文本匹配、似度计算、多音字库、象形字库、网络图谱算法、指纹权重、关系传递等;聚合规则识别原生数据自然人沉淀物联网互联网金融智能连接智慧家庭自然人识别大数据识别照片留存 交际圈 位置轨迹虚拟身份缴费信息终端信息客户接触 移动A套餐 Iphone用户 客户A1 移动C套餐 预付费 用户 客户A1自然人:客户A省分1省分2
42、证件号码姓名地址联系人 工作单位 规则库综合评价实体归集过程原生数据基于实体完整性基于业务逻辑整合归集自顶向下自底向上数据整合/加工规则用户信息表用户产品订购客户信息客户实名认证客户联系人信用度邮寄信息用户积分编码标准化模型转化/编码统一专区应用保证上层覆盖性自然人基本信息自然人有效移网户数信息自然人黑名单信息自然人用户360信息差异数据下发自然人基本信息自然人扩展信息自然人用户信息自然人用户扩展属性表自然人基本信息自然人扩展信息自然人用户信息自然人用户扩展信息差异数据实体归集数据流程新兴ICT生态圈数据接入与存储 通过对五大生态圈数据采集入湖,统一规范转换后,为各类专区应用提供数据支撑。p
43、生态圈入湖根据生态圈系统的建设情况,科学规划多种采集方式入湖p 生态圈数据规范围绕大数据湖功能分区,探索各类数据的存储要求和能力建设p 生态应用服务针对生态业务应用需求,确定大数据湖的应用支撑模式,构建专区建设规范智能连接物联网智慧家庭互联网金融新兴ICT原生数据区大数据湖五大生态圈数据 批量采集 实时采集准实时采集整合数据区应用数据区互联网金融专区物联网专区生态创新专区互金业务订购用户行为轨迹智能连接物联网智慧家庭互联网金融新兴ICT主数据区统一客户信息生态业务产品统一帐户信息标准编码信息生态收入贡献用户关联信息新业务采集 入湖模式探索对接应用需求 专区规范制定数据分区规划 湖存储功能定义生
44、态采集支撑 入湖采集能力验证目录背 景:大数据湖的发展背景与建设理念1生态圈:探索新兴业务入湖建设模式3共 享:大数据湖统一访问共享规划4运 营:大数据湖一体化运营管理建设5体 系:大数据湖体系规划与建设思路2大数据场景下数据服务的能力建设要求大数据场景:混搭架构平台、多系统共存、不同数据体系、各种应用场景需求统一标准化透明化安全高效 外部应用的便捷接入 跨数据结构的逻辑化访问 灵活安全的权限管控机制 统一标准化数据查询 跨底层数据存储平台混搭架构平台,如HDFS、MPP、SMP等多种数据存储体系,如关系型DB、KV-DB、文件系统等通用的数据查询语言,支持跨平台访问,如PL/SQL,HQL等
45、多应用系统的物理结构透明化逻辑封装,如OLTP、OLAP等多种数据服务场景的权限管控,如查询、分析等多种应用接入能力,如JDBC、Socket等大数据湖统一访问共享建设规划 统一目录/透明访问访问共享数据服务中间件统一访问共享:管、用、看p 管:基于湖中数据构建统一数据目录,屏蔽湖中数据物理存储地址,提供实现湖中可共享数据的管理p 用:数据服务中间件为应用提供多样化数据接口访问能力,如API、JDBC/ODBC、消息、订阅等能力p 看:目录视图为开发者提供湖中可共享数据的统一目录视图,并管理湖中数据访问授权数据计算与存储资源计算引擎数据存储文本数据ORACLEHIVEHBASE统一数据目录数据
46、读取数据能力数据采集数据加工数据挖掘数据应用数据可视化服务封装数据访问接口数据访问接口API接口JDBC/ODBC消息数据缓存内存计算数据访问引擎函数计算统计分析规则配置接口鉴权数据授权目录管控数据开放权限申请授权审批访问共享是湖中数据和应用、能力之间的桥梁,任何功能/应用模块使用湖中数据时,不需要关心数据的存储方式、存储介质、存储位置等信息,只要和访问共享连接既可以实现湖中数据的访问统一访问共享典型应用场景数据挖掘共享数据访问数据挖掘数据挖掘结果数据探索数据访问生产系统自有数据接口遵循入湖规范访问共享统一数据目录专区应用共享数据访问专区数据访问数据加工数据访问数据计算与存储资源原生数据整合数
47、据专区数据生产数据 能力开放(API)共享数据访问服务封装服务订阅服务网关数据访问数据可视化1234数据服务中间件目录管控新建系统专区应用开发者通过统一访问引擎访问湖中共享数据,专区应用直接访问自有专区数据,实现湖中数据统一共享管控和应用 访问灵活访问自有专区数据统一数据目录 共享列表/质量保障/安全可控访问共享数据存储元数据管理数据描述及统计信息数据稽核统一数据目录人工审核数据质量审核数据安全审核开放范围审核开放流程定义运营者审核通过表、视图结合元数据及数据统计信息数据服务中间件目录管控湖中数据只有经过质量和安全评估,符合应用开发的条件后,在明确开放审批流程的前提下,进入统一数据目录对外共享
48、基于湖中具备共享条件的数据构建统一数据目录,通过访问引擎为应用开发者、数据运营者提供湖中数据访问能力,是数据应用、运营和价值实现的基础。大数据服务关键能力:统一数据接入/转换/服务对接能力统一数据服务代理Data Broker大数据系统Hive、Hbase、Impala、数据服务Query、API等能力开放工具查询工具、挖掘工具、OLAP工具等数据应用报表、应用等SMP数据库Oracle、Mysql、DB2、解释查询统一对外接入(JDBC、Socket、Restful)统一数据连接(Agent connector)OLAP引擎Apache Kylin、Cognos、MPP数据库GreenPlu
49、m、Vertica、传统文件系统Excel、XML、Json、AQLPL/SQLHQL数据联邦PostgresSQL性能安全性能优化数据安全缓 存优 先内 存转 换访 问鉴 权脱 敏加 密元数据数据集关联统一维表数据预览格式转换源端连接统一数据服务中间件 跨域联邦/标准查询/统一访问37p 跨底层数据存储平台多种数据存储体系,如关系型DB、KV-DB、文件系统等p 统一标准化数据查询通用的数据查询语言,支持跨平台访问,如PL/SQL,HQL等p 灵活安全的权限管控机制多种数据服务场景的权限管控,如查询、分析等p 跨数据结构的逻辑化访问多应用系统的物理结构透明化逻辑封装,如OLTP、OLAP等p
50、 外部应用的便捷接入多种应用接入能力,如JDBC、Socket等各类跨架构数据源端连接与访问38灵活自主的数据服务集定义39DataBroker查询语法40常用函数:AQL语法(类SQL):示例1:在用户增长数据集中,查询2018年10月比9月的入网用户增长比例,按地区分组,按排序字段排序SELET ROUND(month_ten-month_nine)/ month_nine) as “增长比例”, user_area as “地区” FROM user_in_month_detail GROUP BY user_area ORDER BY order_codeDataBroker查询示例示
51、例2:按照省份,将流量按照100M为步长分档统计,并忽略小于10M的用户数SELECT area_no,segm_step(data_flow,100,10) as 流量分档,count(user_id) as 用户数 FROM user_used_flow GROUP BY area_no,SEGM_STEP(data_flow,100,10) as 流量分档”示例3:按照省,账期,分组统计指标1,指标2值,同时统计行小计,行总计,列小计,列合计,并将省,账期转为交叉列,省份为河北与甘肃。SELECT group_type AS 分组 FROM BIG_DATA_SET t ACROSS(s
52、um(指标1) as “指标1”,sum(指标3) for (PROVINCE,ACCT_MONTH) WHERE t.PROVINCE in(河北,甘肃) ORDER BY group_type ASCROLLALL目录背 景:大数据湖的发展背景与建设理念1生态圈:探索新兴业务入湖建设模式3共 享:大数据湖统一访问共享规划4运 营:大数据湖一体化运营管理建设5体 系:大数据湖体系规划与建设思路2统一运营管理全面性规范化可视化大数据湖运营管理能够为全网提供统一的运营和协同管控,包括运维支撑、运营监控和数据生态评估等多个方面,实现各类数据风险和隐患的快速排查,提升运营效率,为智慧化的运营战略奠定
53、基础。大数据湖运营管理体系规划已建设建设中未建设运营监控采集监控数据分区监控共享服务监控接入用户监控任务状态监控外围系统交互监控运维支撑应用稽核问题跟踪质量探索工具问题派单通知管理日志管理数据生态评估数据分布价值评估安全评估数据热点冗余评估质量评估大数据湖统一运营监控 全生命周期监控/运营规范显性化数据监控视图运营监控视图任务状态监控:对大数据湖中各类任务运行的异常状态进行实时的监控外围系统交互监控:提供外围应用系统与大数据湖进行各类交互操作的监控接入用户监控:对已接入大数据湖的用户类型、操作权限,并发用户量等信息进行监控采集监控:对从各类数据源采集入湖数据是否符合接入规范进行监控数据分区监控:对大数据湖中的原生数据、整合数据等各类数据是否按分区规范存储进行监控共享服务监控:对湖中可共享的各类数据是否符合共享标准和规范进行监控运营监控主要为大数据湖提供数据生产监控和数据运营监控两方面的能力。其中数据生产监控主要提供从数据采集、数据分区存储到共享的监控;数据运营监控实现对接入系统的用户信息、任务执行的状态,以及与外围应用系统的交互操作进行监控,并进行全景展示。数据生命周期程序任务存储分区用户操作通过构建数据质量管控系统,打通数据湖与数据
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 新生宝宝起居护理指南
- 中级经济师考试的合同经济学试题及答案分析
- 标准版委托服务合同模板
- 2025年城市垃圾填埋场封场治理项目社会稳定性评估与风险应对策略报告
- 孕妇尿潴留护理
- 绿色智算中心项目可行性研究报告(参考范文)
- 国际旅游度假区项目可行性研究报告(模板)
- 城乡供水特许经营项目可行性研究报告
- 200MWh构网型储能项目实施方案(参考范文)
- 传染病及突发公共卫生事件健康管理
- 化妆品中二恶烷的检测方法
- 江苏省盐城市射阳实验中学2023-2024学年中考二模物理试题含解析
- 2023年-2024年邮储银行大堂经理岗位资格认证考试题库(含答案)
- 察右后旗宿泥不浪铁矿2023年度治理计划
- 【部编版】道德与法治六年级下册第9课《日益重要的国际组织》精美课件
- 模具管理系统解决方案课件
- 高考日语-必考11个语法
- 杏芎氯化钠注射液-药品临床应用解读
- PCS7临时授权安装
- (外标两点法对数方程)桔梗含量为例
- 【校本作业】六年级下册语文校本作业与单元练习(附参考答案)
评论
0/150
提交评论