版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
//1006/100第一章数据治理背景现状当前,全球正经历以数据为核心要素的深度数字化转型。在此背景下,数据治理体系作为数字经济高质量发展的基础性支撑与数据价值释放的核心保障,正在政策引领、经济驱动和技术革新等多重因素的共同作用下加速重构。本章将从国际治理格局演变、国家战略部署、市场价值释放、技术革命等维度展开分析,系统解析数据治理体系建设的现实基础与发展趋势。(一)国际数据治理政策发展态势国际数据治理格局正经历深刻变革,呈现多元化治理模式和复杂态势。欧盟、美国、中国等主要经济主体已经形成各具特色的数据治理框架,其关注点也正从《通用数据保护条例》(GDPR)为代表的安全保护,逐步转向对数据全生命周期的系统性管理。例如欧盟2022年正式实施的《数据治理法案》(DataGovernanceAct,简称DGA)已成为欧盟数据战略的关键支柱之一,对数据质量提出了明确要求,且给出了最佳实践。美国采取相对宽松的市场导向型路径,联邦层面法律分散但各州立法活跃;日本、新加坡等则采取平衡模式,注重促进数据跨境流动。中国则构建了系统化的数据治理法律与制度框架,强调数据安全与发展并重。全球数据治理呈现四大趋势:首先,数据主权意识显著增强,各国加强对本国数据资源的战略管控;其次,跨境数据流动规则日益复杂,数据本地化要求与自由流动理念相互博弈;第三,数据安全上升至国家安全战略高度,与传统安全深度融合;第四,全球数据治理多边协调机制加速构建,区域性数据治理规则不断涌现。国际组织如OECD、G20等也在积极推动跨境数据流动规则制定,但全球数据治理标准化与协同化仍面临诸多挑战。(二)国家数据治理政策制度体系演进近年来,我国通过系统性顶层制度设计,促进基础设施建设和市场机制创新,并以公共数据开发利用为牵引,构建了数据要素市场化配置的完整政策体系,形成了富有中国特色的数据治理模式:数据基础制度体系建设取得显著进展。在立法方面,以《网络安全法》《数据安全法》《个人信息保护法》和《关键信息基础设施安全保护条例》为核心的"三法一条例"奠定了数据治理法律基础,而2025年1月1日起,《网络数据安全管理条例》正式施行,完善了重要数据的处理规则,并对个人信息保护提出了更高要求,标志着我国进入了“三法二条例”为主的“强合规时代”。在制度体系建设方面,2020年4月,数据首次被确立为与土地、劳动力等并列的生产要素。2022年12月发布的《关于构建数据基础制度更好发挥数据要素作用的意见》(简称“数据二十条”)是中国数据7/100要素顶层设计的纲领性文件,明确提出“探索开展数据质量标准化体系建设,加快推进数据采集和接口标准化,促进数据整合互通和互操作”,要求各部门完善元数据管理、数据脱敏、数据质量、价值评估等标准体系。数据要素市场化配置改革持续深化。数据要素市场化配置改革是落实“数据二十条”精神、推动数字经济高质量发展的核心主线。其目标是打破数据壁垒,促进数据合规高效流通使用,充分释放数据要素价值,构建全国统一的数据要素大市场。《“数据要素×”三年行动计划(2024-2026年)》是推动这项改革的关键举措。该计划旨在通过强化场景需求牵引,发挥数据要素的“乘数效应”,计划中提出在工业、农业、金融等10个重点领域深化数据要素赋能行动,促进数据要素与实体经济深度融合。公共数据开发利用体系趋于成熟。公共数据资源的开发利用是市场化配置改革的突破口,国家数据局正推动建立公共数据资源登记制度、授权运营规范和信息披露机制,厘清权责,激发供给动力。在政策框架构建方面,已初步形成“1+3”的制度体系。其核心为2024年10月中共中央办公厅、国务院办公厅印发的《关于加快公共数据资源开发利用的意见》,辅以2025年1月密集出台的《公共数据资源登记管理暂行办法》《公共数据资源授权运营实施规范(试行)》以及《关于建立公共数据资源授权运营价格形成机制的通知》三个配套政策。此外,关键基础设施建设亦取得重大进展。2025年3月,全国公共数据资源登记服务平台正式上线运行,标志着公共数据市场化迈出重要一步,公共数据资源的开发利用形成了共享、开放和授权运营三种主要形式,已有226个地方建立公共数据开放平台,开放有效数据集超34万个。图1:数据行业宏观政策数据治理体系是数字经济发展的重要基础,正通过构建合规管理和流通框架、提升要素质量价值,成为激活数据要素潜能的核心驱动力。(一)数据治理筑牢数字经济增长基石8/100数据作为新型生产要素,其价值释放依赖于科学的治理框架。《中国数字经济发展研究报告(2024)》显示,2023年我国数字经济规模达到53.9万亿元,占GDP比重为42.8%,对经济增长的贡献率已突破66%。数据要素的核心支撑作用日益凸显。国务院《"十四五"数字经济发展规划》明确,2025年数字经济核心产业增加值占GDP比重将达10%,这对数据治理提出更高要求——通过数据分类分级、安全合规审查、质量标准化等治理手段,实现数据要素的跨行业高效配置。(二)数据要素市场交易规模显著数据要素市场增长迅猛,数据交易市场规模整体也呈现出蓬勃发展的态势。据《数字中国发展报告(2024)》显示,2024年数据生产量达41.06泽字节(ZB),同比增长25%,高质量数据集量质齐升。2025年1月10日,国家数据局局长刘烈宏在全国数据工作会议上表示,2024年全国数据市场交易规模预计超1600亿元,同比增长30%以上,其中场内市场数据交易(含备案交易)规模预计超300亿元,同比实现翻番。这一数据充分表明我国数据要素市场发展已进入快速增长阶段,全国统一数据要素市场建设取得显著成效。图2:我国数据要素流通行业市场概况据不完全统计截至2024年3月底,全国共计成立58家数据交易机构,以北京、上海、深圳、贵阳等五大交易所为引领正通过治理创新突破交易瓶颈:北京国际大数据交易所构建“数据供得出、流得动、用得好”的新型数据交易基础设施,建立全国第一个社会数据资产登记平台,推动数据跨境流动助力国际贸易发展;上海数据交易所建立数据交易管理制度体系,对交易场所内的数据进行合规性、完整性、时效性审查;深圳数据交易所在培育要素市场方面,汇聚了高质量数据资源,上市标的3298个,覆盖超过70个行业、294个应用场景,在全国布局65家数据要素服务工作站,覆盖24个省级行政区、48个城市;贵阳大数据交易所依托oid技术实现数据治理流程存证,2024年数据产品和服务类交易占比提升至76%,数据模型、数据应用等高附加值交易形态快速增长;福建大数据交易所在全国率先构建公共数据与社会数据融合孵化基地,同步上架340款优质公共数据产品,承接组织福建省企业数据资源普查登记工作,揭牌全国首个企业数据资产运营服务中心,面向全国提供“数据资源盘点-资产入表-产品孵化-流通交易”全链条服务。这些实践表明,数据治理已9/100从"概念构建"转向"价值实现",通过质量管控推动数据要素向资产化、金融化演进,助力全国统一数据要素市场加速成型。技术的飞速发展,尤其是人工智能(AI)和大语言模型(LLM)的崛起,正深刻地改变着数据处理和利用的方式,同时也对传统的数据治理理念、框架和技术提出了严峻的挑战,迫使其进行适应性升级。对于数据治理而言,AI既是重要的赋能者,同时也构成了新的治理对象和挑战。人工智能特别是大模型技术的迅猛发展,使数据基础支撑作用空前凸显。从行业前沿趋势来看,大模型训练使用的数据规模呈现爆发式增长。根据公开数据,2018年GPT-1的参数量为1.17亿,预训练数据集约5G,2020年GPT-3的参数量达到1750亿,训练数据量达到了45TB。国内大型基础模型如DeepSeek-R1、百度文心一言、阿里通义千问等千亿参数模型,训练数据量均在PB级别。400B表1:大模型训练使用的数据情况在数据规模跨越式增长的同时,高质量数据语料已成为AI模型性能提升的关键瓶颈。当数据存在大量的噪声、错误或者冗余,将直接导致模型性能指数级衰减。企业不得不投入巨额的资源对数据进行治理,包括数据采集、清洗和标注等,成本极高。据《中国人工智能产业发展报告(2023)》,2022年中国AI领域企业在数据采集和标注上的投入达187亿元,同比增长42.6%,反映了对高质量数据的强烈需求。2024年中文高质量数据集数量首超英文,但行业标注数据缺口仍有较大缺口,催生专业数据工厂新业态,高质量数据已成为AI竞争的战略资源,数据治理能力直接影响企业AI竞争力。在数字化时代的大背景下,数据治理的内涵与边界已逐步超越传统范畴,促使企业去探索契合自身的最优数据治理体系及实践路径。然而,在此进程中,众多企业陷入迷茫之境,对于治理哪些数据,数据治理所涵盖具体哪些内容以及如何高效实施数据治理等问题,尚未达成一致意见,致使企业虽拥有海量的数据资源,却无法深入挖掘与充分利用其潜在价值。当下,企业在数据治理领域所面临的主要挑战和关键问题涵盖以下几个方面:10/100图3:数据治理存在的问题和挑战(一)数据治理的顶层规划不适配在数据治理的实施起步阶段,企业会面临顶层设计难以具体化和实施落地的难题。即便企业能够依据DAMA和DCMM等拟定数据治理规划,但这些计划常常难以转化为切实的操作。在诸多情形下,顶层设计与企业的实际运作之间存在明显的脱节,导致战略目标无法在日常业务中得到有效贯彻。这通常是由于企业自身缺乏将目标细化为具体可执行步骤的机制,并且在实施过程中缺少必要的支持和资源:例如企业在执行过程中缺少明确的职责分工和协作机制,沟通不顺畅,导致项目推进频繁遇到阻碍。因此,企业需要确保顶层规划与实际执行紧密结合,明确各部门和团队的职责,并构建有效的标准体系及数据架构,以确保数据治理战略能够顺利落地并取得实效。(二)数据治理的实施方法不灵活在进行数据治理实施时,企业常常发现其实施方法难以维持长效。这主要是由于最初选定的数据治理模式和策略缺乏足够的灵活性,过度依赖特定的治理工具和技术,导致其无法适应业务环境和技术的快速变化。许多企业在推行数据治理时,还会采取一次性项目的治理方式,缺乏对于数据持续的维护和优化机制,导致治理成效随着时间推移而逐渐减弱,最终不了了之。这就要求企业建立一个动态调整和持续优化的数据治理实施路径,以确保治理方法能够随着企业发展和外部变化而不断演进。(三)数据治理的管理机制不完善在整个数据治理的推进过程中,企业普遍倾向于在数据本身的管理与控制上倾注更多时间与精力,诸如构建企业数据中台、数据管理平台等举措。然而,在这个过程中,由于缺乏明确的考核机制、权限分配以及统一管理的部门,而往往过度依赖特定的工具、技术或个人,忽略了建立系统化、规范化的管理机制与流程。当企业面临人员流动或组织结构调整时,数据治理可能会遭受冲击,导致企业在数据驱动能力和创新能力方面的减弱,进而对数据治理的整体成效产生深远的不利影响。11/100为有效应对此类风险与挑战,企业除强化数据管理外,还需着手构建完善的需求管理和知识管理体系,明确数据治理的考核指标与责任分配,设立专门的管理团队,确保数据、需求与知识之间形成紧密关联,为数据治理战略的顺利实施与成功落地提供坚实保障。12/100数据治理是释放数据价值的关键环节,其重要性已成为业界共识。无论是国际权威的DAMA车轮图模型,还是国内领先的DCMM评估体系,抑或是最新的国家标准,都反映出数据治理理念的持续演进与实践边界的不断拓宽。本白皮书在汲取数据治理领域先进理论与实践经验的基础上,提炼并构建了一套独具特色的数据治理框架,旨在为企业实施数据治理提供系统有效的参考与支持。《DAMA数据管理知识体系指南(DAMA-DMBOK2)》将数据治理定义为在数据资产管理过程中行使权力和管控的活动,并认为数据治理是数据管理十大知识领域的中心,是实现各个领域内部一致性和领域之间平衡的基石。DAMA从高层级视角出发,围绕数据决策、流程管控、战略规划、制度设计、架构标准、监管合规及资产估值等维度,系统描述数据治理活动。DAMA对数据管理的各项知识领域、关键活动及相关工具等进行了全面解释,为数据治理提供了框架性指导。然而,其指导偏于宏观,对于如何具体制定数据标准、建立数据制度、明确评估准则等实操层面事宜缺乏详尽描述,因此企业在实际应用中可能会遇到落地难题。图4:DAMA数据管理模型13/100DCMM是我国在数据管理领域首个正式发布的国家标准,通过评估企业在数据战略、数据治理、数据架构、数据应用、数据安全、数据质量、数据标准、数据生命周期8个能力域的成熟度,帮助建立和评价自身数据管理能力。并且该模型将企业数据管理能力成熟度划分为五个级别,自低向高依次为初始级、受管理级、稳健级、量化管理级和优化级。与国际通用的DAMA框架相比,DCMM体系更贴合中国数据治理的实际发展。通过DCMM评估,企业能深入洞察自身数据管理的优势与短板,识别关键问题与差距,从而明确改进方向。但需注意,DCMM侧重于数据管理能力的成熟度评估,虽然明确了应具备的能力,但在如何将这些能力转化为具体行动方案方面,所提供的直接指导相对有限。图5:DCMM数据管理成熟度模型(三)数据治理实施指南国家标准GB/T44109-2024《信息技术大数据数据治理实施指南》认为数据治理是对数据资源管理行使权力和控制的活动的集合。该标准借鉴了《信息技术服务—治理第5部分:数据治理规范》和DCMM模型相关内容,将数据治理的执行过程划分为规划、执行、评价和改进,并且明确了执行过程中需要展开的各个能力域的实施过程和内容。该标准通过规范数据治理的流程与核心内容,提升了企业数据管理的可操作性和系统性,为数据驱动的业务决策奠定了坚实基础。尽管如此,该指南在数据模型构建、质量管理等方面的阐述仍偏于宏观和抽象,企业在具体实践中若理解和应用不当,仍可能面临诸如数据库表结构设计不合理、质量评价机制不够精准等挑战。14/100图6:《信息技术大数据数据治理实施指南》数据治理实施过程综上所述,DAMA、DCMM及《信息技术大数据数据治理实施指南》分别从治理领域、能力评估和实施内容三个维度,为企业数据治理提供了宝贵的参考框架。企业在借鉴这些理论时,务必紧密结合自身的业务特点、技术基础及长远发展目标等具体情况,灵活运用并加以调整,才能制定出真正适合自身的数据治理方案。企业在推进数据治理时,常遭遇诸多挑战,例如顶层规划与具体实施脱节、数据质量难以实现持续有效的监控,以及管理流程机制不健全等。这些问题若得不到妥善解决,不仅会削弱数据治理的整体成效,更会制约企业数据资产化的深入发展。为有效应对上述挑战,本白皮书提出“三域十三项”数据治理体系。该体系聚焦数据治理的“规划、实施、管理”三大核心域,并将其进一步细化为十三项关键治理活动。它既融合了国际主流治理框架的精髓,又紧密结合了中国数据治理的最佳实践以及企业数据业务所呈现的海量、多维、高实时性等特点。通过精心设计的闭环流程,“三域十三项”体系致力于持续提升数据质量、深度挖掘数据价值、全面保障数据安全,从而为企业提供一套兼具系统性与实用性的数据治理解决方案。15/100图7:“三域十三项”数据治理体系规划域:旨在“做正确的事”。此领域通过顶层设计与策略规划,明确企业应治理哪些数据、如何治理以及由谁来执行。其主要内容包括:标准体系规划、数据架构搭建、数据建模设计,以及组织架构的优化完善。这些共同为数据治理工作奠定坚实的理论框架与行动指南,确保整体方向的正确性。实施域:旨在“正确地做事”,将规划域的成果转化为具体路径,确保数据治理的实施落地。这一过程不仅涵盖了数据获取、数据加工、质量管理、资源编目以及数据服务环节,更强调在各环节严格遵循安全合规要求,以促进数据价值最大化,确保实施精准执行。管理域:旨在“降本增效”,通过整合平台管理、需求管理和知识管理三个方面,利用有效的管理策略、先进的平台工具以及丰富的知识共享机制,确保数据治理能够持续得到优化和改进,全面提升组织的数据管理能力和员工的数据文化素养。以这“三域十三项”作为数据治理体系支撑,从数据获取到赋能应用,该体系不仅强调技术实现,更重视组织文化的变革和管理流程的优化,确保数据治理能有效落地,为企业创造持续、稳定的价值。16/100在明确了整体框架之后,我们首先聚焦于规划域,这是确保做正确事情的基础。规划域主要包含四个方面:标准体系、数据架构、数据建模以及组织架构。这四个方面共同构成了数据治理工作的顶层设计,为后续的具体实施提供了清晰的方向。本章节,我们将详细解析这四个方面的具体内容,以展示如何通过顶层设计来引领数据治理工作的高效开展。图8:“三域十三项”数据治理体系——规划域3.1.1定义和目标数据标准最初主要关注数据的命名、定义、结构和取值的规则,以确保数据的一致性和准确性。随着数据治理应用的不断拓展,数据标准逐渐涵盖了数据质量、数据安全、数据隐私等多个方面,形成了更为全面和系统的数据标准体系。对于企业而言,标准体系旨在引领企业如何规范和使用数据,其核心目标聚焦于构建一套通用的数据标准框架,以全面提升数据质量与治理效率。具体目标细化如下:实现数据规范统一:建立一套打通上层业务规则与系统具体数据规范的标准,实现数据在组织内部的一致性,包含命名、定义、格式、口径、来源的统一。促进数据使用流通:对数据获取、加工、质量、服务提供及安全保障等关键环节实施标准化管理,简化内外部数据转换与集成,提升数据的使用效率和流通性。17/1003.1.2标准体系方法在构建企业数据标准体系的过程中,一个常见的误区是过分关注技术层面的约束,如制定详细的数据字典和技术规范,而忽视了与业务部门进行深度对话和共识构建的重要性。这种技术导向的方法导致了“两张皮”现象——即虽然存在看似完善的数据标准体系,但这些标准难以真正服务于业务需求,无法被业务人员有效理解和应用,甚至可能引发业务人员形成自己的、与官方标准相悖的数据使用和管理习惯,从而造成数据混乱和冲突。因此,数据标准体系的构建,必须超越单纯的技术层面要求,同时更要深入融合实际业务需求,实现数据治理与业务发展的紧密融合和相互促进,其具体过程方法如下:图9:构建数据标准体系的方法标准规划:通过标准应用场景或需求明确标准的领域和范围,并对这些标准进行科学分类,主要涵盖数据采集、处理等各个环节。同时,根据业务重要性和紧迫性制定的优先顺序。标准制定:通常需要包含收集资料(如外部标准和行业最佳实践案例拟定数据标准草案,同步对草案进行广泛的调研和评估,收集各方的意见和建议,并完成修订和完善。标准发布:邀请行业专家以及业务人员对标准草案进行评审,确定标准发布的具体时间和步骤。包括制定发布时间表、发布渠道、宣传方式等,确保标准的顺利发布和传播。标准应用:组织需制定详细的实施计划,通过培训、指导、监督等方式,推动标准在业务中的广泛应用和落地,收集标准执行过程中的反馈,为后续标准的优化和完善提供依据。标准维护:建立标准的变更管理和版本更新机制,定期回顾和评估现有标准的适用性和有效性,通过持续改进和优化,不断提升标准的质量和水平,推动数据治理与业务发展的紧密融合和相互促进。由此可见,构建一个有效的数据标准体系不仅需要科学的规划、严谨的制定、有序的发布、广泛的应用和持续的维护,还需要将这些环节与业务需求紧密结合,确保数据治理与业务发展相互促进。通过这样的方法,才能确保数据标准体系不仅仅是一纸空文,而是能够真正服务于企业运营,提高数据的可用性和价值。3.1.3标准体系实践18/100(一)国家数据标准体系针对数据治理要求,相应的治理规范标准陆续出台。2024年9月国家发展改革委、国家数据局、中央网信办、工业和信息化部等六个部门联合印发的《国家数据标准体系建设指南》(下文简称“标准体系指南”),提供了一个全面的数据标准体系框架,该框架以数据“供得出、流得动、用得好、保安全”为指引,构建了基础通用、数据基础设施、数据资源、数据技术、数据流通、融合应用和安全保障七个部分的数据标准体系框架。图10:《国家数据标准体系建设指南》-数据标准体系框架基础通用:包括术语、参考架构、管理、服务和产业等,为数据标准体系提供支撑。数据基础设施:关注存算设施、网络设施和流通利用设施,确保数据资源、数据技术、数据流通和融合应用的互联互通和算力保障。数据资源:聚焦于基础资源、开发利用、数据主体、数据治理和训练数据集,为数据资源的高质量供给提供标准支撑。数据技术:覆盖数据汇聚、处理、流通、应用、运营和销毁等技术,为数据生命周期提供技术标准支撑。数据流通:关注数据产品、确权、资源定价和流通交易等环节,为数据有序流通提供标准支撑。19/100融合应用:位于体系顶端,聚焦于重点行业领域的数据管理和应用,为行业数字化转型提供标准支撑。安全保障:包括数据基础设施安全、数据要素市场安全和数据流通安全等,为整个标准体系提供合规保障。标准体系指南的发布,标志着我国在数据标准体系化领域迈出了坚实的一步。这一指南不仅提供了一个全面的框架,而且强调了数据的供给、流通、使用和安全的重要性,为数据治理提供了明确的行动指南。在国家数据标准体系的引领下,企业也必须构建自身相适应的数据标准体系。企业标准体系的建立,不仅要遵循国家的指导原则,还要结合企业自身的业务特点和需求,以实现数据治理与业务发展的深度融合。(二)标准体系建设图11:数据治理标准体系框架结合标准体系指南的基本框架和企业的具体实践情况,可以将数据标准体系分为架构类数据标准、基础类数据标准以及实施类数据标准,其中:架构类数据标准:主要关注数据的整体架构和结构设计标准,包括数据模型、数据架构等。这些标准确保数据在系统中的组织和管理方式能够支持企业的业务需求和技术发展。基础类数据标准:涉及不同层级数据的基本定义、结构、属性及规则,分为基础层的数据标准和挖掘层的数据标准,为数据加工、实施使用提供了基础,提升数据的一致性理解。实施类数据标准:关注数据标准在实际业务中的应用和执行,确保了数据在获取、加工、质量管理、资源编目和服务等全生命周期过程中的标准化和规范化。值得注意的是,企业存在数据多源、数据结构多样、数据口径多变等治理特性,因而需要优先聚焦基础层的数据标准化工作——《基础数据标准》。接下来,我们将详细介绍基础数据标准建设的具20/100体内容,展示如何通过该标准提升数据质量和效率。这包括但不限于业务术语、数据元、主数据及参考数据标准等。图12:标准分类及属性说明业务术语是企业在业务操作中使用的专业术语和概念,是企业内部沟通的基础。为了确保这些术语的一致性和准确性,企业应首先深入分析其业务流程和数据使用场景,然后定义一系列清晰、准确的业务术语。这至少包括确定术语名称、详细定义及其分类,以确保所有员工在日常工作中使用一致的术语,避免歧义。企业还应定期更新这些术语,以适应业务发展和技术变化,从而促进内部沟通的顺畅和高效,提升数据的质量和可用性,支持更精准的业务决策。2)数据元数据元是通过定义、标识、表示以及允许值一系列属性描述的数据单位,在特定语义环境中是不可再分的最小数据结构单位,用于描述数据的属性和格式。数据元一般由对象类、特性和表示组成。图13:数据元的结构模型关于数据元属性,是通过描述数据元的一系列属性来实现的,通常可以分为业务属性、技术属性和管理属性。21/100图14:数据元属性在数据元建设过程中,企业需要注重对数据格式、类型、长度及单位的统一定义。例如,对于“企业法人”这一数据元,规定其为字符串类型,长度限制为100位,以确保数据输入的一致性和准确性。“张三”表2:数据元模型示例3)主数据主数据是企业核心业务实体的数据,这些数据在企业内部多个系统和业务流程中被共享和使用。通过整合和分析企业的核心业务数据,并进行标准化处理,企业可以建立有效的主数据管理机制,确保主数据的准确性和完整性,消除数据冗余和不一致性。通过集中管理和维护主数据,企业能够更好地实现数据共享,优化运营效率,并为战略规划提供可靠的数据支持。4)参考数据参考数据用于为数据元素分配统一的表示符号,以提高数据的可读性和使用效率。企业在构建《基础数据标准》的过程中,首先要参考GB/T36073-2018《数据管理能力成熟度评估模型》、GB/T18391.1-2009《信息技术元数据注册系统(MDR)第1部分:框架》等国家标准,并需要广泛收集公司标准实践案例;其次,根据行业特点和自身实际业务需求,应制定详细的企业基础标准,输22/100出统一的数据定义、分类、格式和编码等,确保所制定的标准既符合行业规范又能满足企业的具体需求。图15:参考数据标准示例用于标识不同类型企业的分类代码,如私营企用于对企业所属行业进行分类的代码,如制造业用于标识企业注册地或经营地的行政区划代码,如省份用于对企业员工职业进行分类的代码,如管理人员用于描述企业主要经济活动的代码,与国家经济活动表3:参考代码标准本白皮书认为构建完善的数据标准体系是不可或缺,这一体系不仅是数据治理的基石,更是推进企业数据高效流通的必经之路。通过深入探索与总结,我们汲取了宝贵的实践经验,形成了以下关于数据标准体系构建的关键洞察:业务导向是数据标准体系构建的核心:脱离业务实际的数据标准如同无源之水,难以发挥实效。因此,在构建数据标准体系时,始终紧密围绕企业业务需求,确保每一项标准都具备高度的可操作性和实用性,能够真正服务于业务决策与流程优化。强化沟通与培训是数据标准体系有效执行的关键:为了确保数据标准能够被广泛认知并准确执行,需要注重加强内部沟通,确保治理人员充分理解标准的重要性及其对企业发展的积极影响。同时,还要定期组织培训活动,提升治理人员的专业素养,确保能够熟练掌握并严格执行数据标准。持续改进机制是保持数据标准有效性的重要保障:随着业务的发展和技术的演进,数据标准也需要不断迭代与优化。因此,企业需要建立完善的持续改进机制,定期评估标准的适用性与有效性,并根据业务和技术变化及时调整标准内容,确保其始终与业务发展保持同步。23/1003.2.1定义和目标在国际标准中,架构被界定为系统的基本结构,涵盖组件、组件间的相互关系及其设计与演变的指导原则。这一概念同样适用于数据治理领域,其中数据架构特指企业内部数据的结构、存储和流程的规划与设计过程。在企业中,数据架构的构建是基于特定业务主题,旨在形成一套系统性的数据框架。该框架包含数据主题域划分、数据存储分布规划、数据流向设计三个部分,用以指导数据治理管理实施的相关活动。数据架构旨在构建业务目标与技术实现之间的“桥梁”,通过规划企业整体数据层级结构、存储分布与数据流向,实现以下两大核心目标:l优化数据资源管理和利用:通过绘制层次分明、边界清晰的数据资源规划视图,精准描绘数据资源的层次、主题、维度及其关联关系,为数据建模、加工、管理等活动提供资源支撑,确保数据资产得以最大化利用。l构建高效稳定的技术支撑:通过搭建高效、稳定的技术基础设施框架,集成数据存储工具、中间件、API及数据服务等关键组件,从而实现跨系统、跨应用的数据集设计,支持数据的高效采集、处理与存储,确保业务对数据服务的需求得到满足。3.2.2数据架构方法图16:数据架构的设计方法和过程数据,作为企业资产的重要组成部分,广泛分布于企业的各个部门,并在不同的业务流程或系统间流动,同时不断产生新的数据。然而,许多企业在利用这一资产时,常面临找数难、用数难、数据24/100不准等挑战。这些问题的根源在于缺乏系统化的数据管理,使得企业难以准确把握客户、产品或服务的实际情况。而数据架构的建立,正是为了解决企业在使用数据时可能遇到的这些问题。在接下来的数据架构设计方法与实践中,将深入探讨如何通过数据架构规划,克服上述挑战,以帮助企业实现数据的高效整合与利用,提升企业的数据洞察能力与决策效率。该方法参考了GB/T44109-2024标准中的数据架构设计活动,并结合了企业实际治理过程中的丰富经验,形成了一套系统的数据架构方法与实践。该方法主要涵盖三个阶段:数据架构实施准备、数据架构设计流程以及数据架构方案输出。(一)数据架构实施准备在正式实施数据架构设计之前,需要充分了解企业目前数据的现状,同时进行系统性的识别和盘点,数据现状梳理包括但不限于以下内容:数据资产识别与盘点:列出所有数据来源,包括内部自有数据和外部采购或采集数据,盘点整理企业内部所有数据资产,全面了解现有的数据情况。数据存储现状与分布:审查现有的数据存储设施,包括数据库、数据仓库、大数据平台和云存储服务等。确定数据的物理和逻辑存储位置,评估现有基础设施对数据架构设计的支持程度,以及当前使用的数据处理成熟度和性能。数据需求与流程分析:了解各部门和用户对数据的使用需求,分析数据如何从一个系统流向另一个系统,包括数据传输的方式、频率和格式,理解数据在不同部门或团队间的共享模式,确定数据架构治理方面的改进方向。(二)数据架构设计流程具体的数据架构的实施应当遵循以下三个核心步骤:数据主题域划分:主题域规划是基于当前企业数据治理现状,参考组织架构和业务架构信息,将企业数据按照一定的业务逻辑或规则进行分组归类,如基于业务功能(销售、市场、财务)、业务对象(客户,产品,订单)等。数据主题域的划分有助于更好地组织和管理数据,同时也便于后续的数据集成和分析工作。数据分布规划:数据分布规划涉及确定数据在企业内的存储位置和方式,明确哪些数据应该集中存储,哪些数据可以分散存储,并定义数据仓库、数据湖等不同存储设施角色。通过数据分布关系的梳理,企业可以优化数据存储结构,降低存储成本。数据流向设计:数据流向设计专注于定义数据在不同系统、应用或部门间移动的具体路径,包含数据起源于哪里,在哪里存储和使用,具体涉及识别数据的输入输出点、传输方式(如批量加载或实25/100时流)以及任何必要的转换或清洗等数据处理流程,确保数据在不同系统间的顺畅流动,支持高效的数据集成与分析。(三)数据架构方案输出总的来看,数据架构的设计产出主要包含了数据资源架构和数据技术架构。l数据资源架构:面向业务对象进行设计,通过围绕业务对象数据主题域进行精细化分类,明确数据资源的主题、分类及其关联关系,输出数据资源架构。l数据技术架构:面向业务流程进行设计,涵盖了支持数据资源架构实现的技术手段,包括但不限于数据库管理系统(DBMS)、数据仓库、数据湖、ETL(提取、转换、加载)工具、数据集成平台、API管理等,针对不同类型数据流转的特点,设计不同的技术解决方案,最终输出数据技术架构。3.2.3数据架构实践(一)数据资源架构在设计数据资源架构时,关键在于通过数据主题域的划分,构建出层次分明、边界清晰的数据资源规划视图。我们在具体的数据架构实施过程中,可优先开展评估认证工作如DCMM。这有助于深入掌握企业内部数据资产的现状以及数据管理能力,从而精准识别并全面盘点数据资产家底。进一步而言,企业可以结合自身业务架构的特性以及DIKI(数据-信息-知识-智能)框架,从原始数据到信息、知识,最终到智能应用,依据这一数据资产分层框架模型,对数据实施分层管理。具体的数据分层结构建议涵盖原始层、基础层以及挖掘层。l原始层:这一层包含了最原始的数据,通常是直接从源头获取的未经过任何处理的数据。基于数据来源渠道可以划分为商业采购数据,开源采集数据以及内部自有数据,如此划分不仅确保了原始数据的可追踪性,也为后续的数据处理提供了丰富的信息原材料l基础层:在原始层的基础上,基础层进行了初步的数据清洗、整合和标准化工作。这一层的主要目标是形成较为规范的基础数据集,为后续的数据分析和应用提供可靠的数据支持。基础层数据通常会围绕企业的关键业务主体和事件进行拆分,形成统一的标准数据格式。l挖掘层:基于业务逻辑或规则,将基础层数据进行分组归类形成的特定主题的数据集合。这一层的主要目标是满足公司不同业务部门的数据需求,挖掘数据之间的内在联系和特征,为业务决策提供更加全面的支持。常见的数据集合类型包括关系图谱、标签数据、指标数据和产业数据等。26/100图17:数据资源架构(二)数据技术架构企业需要对数据的分布存储结构和集成处理流程进行优化,这不仅能够确保数据在整个企业生态系统中的高效流动与使用,也可以使得设计与实施过程能够紧密贴合业务需求,有效支撑企业的战略目标。对此,我们可以建立如下的数据技术架构体系,该体系具有高度灵活性和可扩展性,能够确保企业在快速适应业务需求变化、集成新技术的同时,实现业务目标与技术的紧密对齐,并保障数据安全与合规性。图18:数据技术架构l灵活可扩展的架构设计:与传统数据治理架构相比,该数据架构具有高度的灵活性和可扩展性。通过模块化和分层设计,能够快速适应需求的变化,并集成新技术和功能。该设计使企业能够在不影响现有系统的情况下,进行架构的扩展和优化,从而确保持续的技术领先性和业务创新能力。27/100l业务应用与技术融合:该数据架构可以帮助企业实现业务目标与技术实现的紧密对齐。这种对齐不仅可以保证业务需求和技术能力之间的相互支持与促进,还使得数据架构能够有效应对当前的业务需求,同时展现出足够的灵活性,为迎接未来新技术变革带来的挑战做好准备。l数据安全与合规保障:该数据架构运用了严密的数据加密及访问控制机制,有力保障敏感数据在传输和存储环节的安全性。并且,该体系严格遵循相关的数据保护法规与标准,助力企业应对数据合规性难题。另外,企业可以构建完备的数据备份和恢复机制,用以应对潜在的数据丢失或损坏状况,保证业务的连贯与稳定。3.3.1定义和目标数据建模是发现、分析和确定数据需求的过程,其核心在于通过构建精准的数据模型来清晰表述并有效传达这些需求。数据建模的核心在于打造既贴合真实世界情境,又与企业数据资产通用架构相契合的数据表结构。对于尚处于数据建设探索期的企业而言,建模可能还是一个相对陌生的领域。在这个阶段,企业的首要诉求往往是确保数据能够顺利存储,因而对于建表这一环节,所投入的资源和关注往往相对有一个规范的建模可以为企业的数字化转型和智能化升级提供强有力的支撑。具体而言,规范的建模能够带来以下显著优势:l精确传递数据需求:通过构建细致的数据模型,将数据需求以精确、清晰的方式表示并有效传递给相关方,确保数据的一致性和准确性。l优化存储和查询性能:通过设计和构建数据库表,优化数据的存储结构和加工流程,提高数据的存储与查询效率,减少不必要的数据冗余。l降低理解和使用成本:通过明确企业级的数据建模规范并不断执行,强化数据使用方对于建模的理解,减少业务在数据使用中的培训和沟通成本。3.3.2数据建模方法数据建模作为数据资产管理的核心枢纽,其流程从需求洞察分析延伸至设计实现,涵盖了概念建模与数据模型设计两大核心阶段。(一)概念建模阶段28/100在此阶段,主要进行数据要素的识别和分析,包括确定实体的属性和实体间的关系。这涉及到对业务需求的深入理解,以及将这些需求转化为数据模型的初步抽象,从而规划数据资产的高层结构。此阶段的产出通常包括业务流程图和数据关系图,为后续具体的设计奠定基础。(二)数据模型设计阶段在概念模型的基础上,此阶段进一步细化和设计具体的数据结构。该阶段重点关注数据模型的逻辑结构,确定数据的组织方式和关系,并设计具体的数据表结构和字段。尽管这一过程与传统理论中的逻辑模型和物理模型有部分重叠,但不会涉及具体的数据库物理实现细节。该阶段主要集中在两个层面的问题:库表模型和字段模型。库表模型主要聚焦在库表名、主键、索引等表整体设计层面的内容,而字段模型则需要关注具体的数据情况来对具体的字段做出设计约束。数据建模的目的不仅是设计出符合业务需求的数据结构,还包括确保数据的一致性、完整性、可维护性和使用高效性。此外,数据建模是一个迭代和协作的过程,涉及数据库管理员、数据架构师、业务分析师和开发人员的紧密合作,确保数据模型能够满足当前和未来的业务及技术需求。通过使用各种工具和方法,如ER图、UML图、数据字典等,数据建模帮助组织精确地定义和实现数据资产,以支持有效的数据管理和分析。3.3.3数据建模实践在企业实际数据业务场景中,数据建模扮演着举足轻重的角色。它不仅仅局限于理论层面的探讨,更是深入到实践操作的每一个环节。企业应通过数据规范提供前期的理论指导,利用数据模板建立中期的执行框架,并通过需求审核进行最终的设计确认,从而提高建模输出结果的规范性和一致性。这样可以确保从理论到实践的每个阶段都有清晰的指引和标准,保证整个数据治理过程的连贯性和高效性。图19:数据建模的方法和过程(一)概念建模29/100完整的数据资产通常由多个数据资源相互交织而成,这些数据资源因业务逻辑的依赖关系而紧密相连。为确保数据资产的高效与合理性,事先明确并简化这些资源间的联系至关重要。借助深入的业务洞察与丰富的数据样本,可以抽取出数据资源内部的隐含关系,并依据实际情况进行必要的简化与整合,从而精简复杂的业务数据,同时保留数据实体间的核心关联,为后续的数据资产建设奠定坚实基础。概念建模的主要步骤包含业务流程归纳、数据结构抽象、数据表确定三个阶段:1)业务流程归纳数据资源是对客观现象的记录,因而设计数据模型离不开对其反映的客观现象的理解。在企业的场景中,这些客观现象往往是指各种具体的业务流程,因而在正式设计数据模型之前,首先就需要整理对应的业务流,将其以流程图的形式表达和记录下来。2)数据结构抽象在明确业务流程后,需基于这些流程提炼数据结构。实际业务中,并非所有环节都会做数据记录,而是往往对关键业务环节进行数据留存。通过分析现有数据资源,确定其反映的业务流程环节,删除无数据记录的节点,整合相似性质的子流程,从而提炼出基于数据资源的核心业务流程。3)数据表结构设计在数据结构提炼的基础上,需根据业务流程简化后的结果确定数据表结构。通过梳理节点间的关系类型,并考虑当前数据资源与已有资源的整合点,确定需要建模的数据表。最终,以清晰、规范的形式输出数据结构,为后续数据库设计与开发提供明确的指导。数据设计需要将数据资源的具体建表逻辑细化,是一个繁琐且需高度细节化的步骤。在实践中,企业需要通过数据建设模板对建模过程进行约束:图20:数据建设模板范例该步骤主要关注两个层面的问题:库表模型和字段模型。层级属性名层级属性名30/100表4:数据建模关注要点1)库表模型库表模型是定义数据库表基本属性的过程,涉及表的基础要素设计。这些要素根据业务实际情况确定,常见的包括库表名、主键、索引等,设计时应遵循以下原则:库表名:采用业务数据库允许的英文命名,清晰表达业务含义,避免模糊或混淆词汇,确保无重名表。对于复杂数据资产,制定命名规范。同时,为每个库表指定简洁清晰的中文名称,便于数据使用方识别。主键:主键是数据库表的核心,由表中一个或多个列组合而成,唯一标识每行数据,确保实体完整性。主键分为物理主键和业务主键两种。l物理主键:如流水ID(通常为一个自增的整数自增且唯一,便于生成和管理,同时能优化存储和访问性能,因其简单性和高效性而被广泛采用。l业务主键:基于业务逻辑的字段来唯一标识表中的记录,这类主键直接反映了业务规则和数据含义,有助于理解和维护数据模型。在制定主键时应优先考虑那些非空且不易变动的字段,以确保数据的一致性和完整性。例如订单号、身份证号等。索引:索引在数据库中是一种特殊的数据结构,存储了数据库表中一列或多列的值,以及这些值对应的物理行号或指针。其设计目的是加快数据检索的速度,帮助快速定位到特定信息。创建索引时需要考虑以下原则:l高频优先:在数据库表设计中,应优先考虑业务需求来规划索引。识别查询、排序和分组操作中常用的列,并针对这些列创建索引,以加快查询速度。高选择性列(含有大量唯一值)是索引的理想选择,因为它们能高效地筛选数据。避免在频繁更新的列上建立索引,以减少维护开l避免过度:索引虽然能提高查询性能,但过多的索引会占用额外的磁盘空间,并增加数据插入、删除和更新的开销。因此,需要根据实际需求和系统性能来合理设计索引。同时在设计索引时,应尽量避免包含大量NULL值的字段,NULL值的存在会影响索引的使用效率。31/100定期评估:根据业务需求和数据特性的变化来调整索引策略,对于不再需要的索引,应及时删除以释放资源。2)字段模型字段模型是数据库表中字段的具体规范,它构成了元数据管理的一部分。这些规范应根据业务需求定制,如字段模型涵盖字段的基本属性、来源和处理规则。字段基本属性通常包含英文名、中文含义、字段类型、值域约束、键值类型等。英文名和中文含义:字段命名应遵循数据库规则,避开SQL保留字和系统函数名,直接反映数据内容,实现“见名知义”。在不同表中,相同概念的字段应统一命名,以提高数据一致性和可读性。命名规范可采用大小驼峰或下划线分隔。字段类型:定义字段的数据类型,如整数、字符串、日期等,以适应不同的数据存储需求。选择字段类型时,需结合数据库特性和业务实际进行评估。值域约束:约束字段值范围,首先考虑字段是否为空。索引字段应设置为NOTNULL以提高查询效率和索引有效性。业务字段的空值设置需根据实际需求决定,避免滥用NULL值引发数据一致性和查询性能问题。常见的值域规则包括无规则、区间和枚举。键值类型:字段的唯一键、索引等数据库层面的键值属性,在库表模型层面应提前约束,只在字段模型层面做记录。3.4.1定义和目标数据治理的组织架构是指企业或组织内部关于数据管理实施的权责结构和关系模式。它包括了与数据相关的各种角色、职责和协作机制,旨在确保数据治理能够有效执行。数据治理组织架构的目标主要包括以下几点:l明确责任:确保数据治理中的每一项职责都有明确的责任主体,避免任务重叠或真空地带。l提高效率:通过清晰的职责划分和协作机制设计,提高数据治理工作的效率和效果。l促进合作:建立起跨部门、跨职能团队之间的有效沟通和协作,确保数据治理策略的一致性和连贯性。3.4.2组织架构方法32/100参考GB/T36073-2018中数据治理组织要求,企业在建立组织架构的时候可以从不同视角来综合考虑,主要涵盖组织治理模式、治理层级和岗位职责。(一)确定治理模式组织架构的设计应符合企业自身的业务战略,包括集中式、分布式和联邦式等方式,结合业务和文化背景选择最佳的治理组织模式,参考以下模式特点:集中式:适用于需要统一管理和集中决策的企业,便于在高层集中进行数据治理的策略制定和资源分配。分布式:适用于不同部门或业务单元拥有较大自主权的企业,各部门可以根据自身需求进行数据治联邦式:是集中与分布的结合,适用于在整体统一标准下,允许业务单元保留一定自主权的企业。图21:数据治理组织模式(二)划分治理层级在明确治理模式后,企业应合理划分治理层级。通常,这些层级包括决策层、管理层和执行层。决策层负责制定战略方向和重大决策;管理层负责监督和支持数据治理活动的实施;执行层则负责具体的操作和执行。每个层级都有其核心目标,以确保不同级别的问题得到有效解决,并促进数据治理活动的高效开展。(三)定义组织职责在明确层级结构后,为每个层级和角色分配具体的职责是关键。企业应为决策层、管理层和执行层中的每个角色设定清晰的职责和权限,确保每个层级的成员都了解自己的核心目标和职责边界。这包括建立明确的责任矩阵,避免职责重叠或模糊,确保所有数据治理活动都有明确的负责人,并能有效协调和执行。33/100图22:数据治理组织层级及角色在建立数据治理的组织架构时,通过明确治理模式、合理划分治理层级以及清晰定义组织职责,企业可以奠定坚实的基础。为了进一步优化和完善组织架构,企业可以遵循以下通用的设计原则来设计组织架构:l灵活性与可扩展性:设计组织架构时要考虑未来的业务扩展和技术发展,确保数据治理能灵活适应变化。这包括能够快速整合新的数据源、调整治理策略,以及在技术进步时进行升级优化。这一原则要求组织架构在保持一定集中度的同时,能够为不同的业务需求提供支持。l分层管理与高效执行:通过实施分层决策、管理与执行,各层级能够精准聚焦于数据治理的不同关键环节,共同推动治理战略目标的实现。决策专注制定策略方向,管理负责监督实施标准质量,执行承担具体治理任务,企业能够实现从战略规划到具体执行的无缝对接,提高数据治理的效率和效果,从而在数据驱动的决策中保持企业的竞争力。l协同合作与职责明确:数据治理需要不同部门和团队之间的紧密合作,因此组织架构应促进跨部门的协作和有效的沟通。建立透明的沟通渠道和协作平台,可以帮助团队之间分享信息和最佳实践,增强整体的协同效应。同时,定期的跨部门会议和工作坊也有助于加强团队之间的联通过遵循这些通用的架构设计原则,组织可以更有效地应对数据治理带来的各种变化和挑战,实现持续的优化,并为下一步治理实施奠定基础。3.4.3组织架构实践34/100图23:数据治理的组织架构基于上述原则和治理组织架构构建方法,企业在数据治理组织中可以设立决策层、管理层和执行层,采用一种高效且灵活的管理模式。通过这种三层架构的划分以及明确的角色和职责分配,企业能够构建一个完善的治理框架:决策层由CIO/CDO负责领导,负责确保数据治理战略与企业整体业务目标保持一致。这体现了分层决策原则,确保最高管理层可以从企业的全局战略视角出发来指导数据治理,避免局部决策与整体战略的脱节。管理层通过数据治理办公室的设立,负责各项活动的总体管理和协调。这一层级整合了业务部门和技术部门的负责人,通过集中化管理和监督,确保数据治理活动的统一性和高效性,符合组织协同合作的原则。执行层由业务部门和技术部门组成的数据治理团队通力合作。业务部门设置了数据采购、规划、支撑、管理和质检等工作,覆盖了数据治理生命周期的各个关键环节,确保数据从获取到规划顺利进行;技术部门设置了数据采集、算法、清洗和挖掘等工作,代表了技术实现的核心环节,涵盖了从数据的初始采集到后续的处理、清洗和深入分析的整个过程,通过技术手段保障数据为业务决策提供可靠的支持。业务与技术团队紧密合作,解决数据治理过程中遇到的各类挑战,确保数据的高质量管理和使用,体现了灵活性与可扩展性的原则。这样的组织架构不仅强化了数据治理的执行力,还促进了跨部门的协作和创新。其优势在于明确了各级别的职责分工,同时充分发挥现有人员的能力与经验,快速组建起一支高效的数据治理队伍,35/100为企业的数据管理体系提供了有力的支持。此外,联邦式三层模式强调跨部门的合作,促进了业务部门和技术部门之间的沟通与协作,为整个数据治理体系“三域十三项”提供高效的组织保障。36/100在构建数据治理体系的过程中,如何将理论转化为实践以确保数据治理的有效落地是数据治理实施的关键。本章节将围绕数据获取、数据加工、质量管理、资源编目以及数据服务展开探讨,用顶层设计先行来指导具体实施结构与层次,深入实践和探索持续迭代治理方法路径,同时辅以管理的视角来看如何保障治理进程的可持续性和稳定性。图24:“三域十三项”数据治理体系——实施域4.1.1定义和目标数据获取指的是通过合法合规的方式,从商业渠道、公开资源以及企业内部等多种来源收集和整合所需数据的过程。这一过程为数据治理的实施提供了基础的“原材料”,同时为后续数据加工与使用奠定了坚实的基础。数据获取的总体目标是确保企业能够获得高质量的数据资源,以支持数据治理框架下的各类实施活动,具体需要实现以下两个核心目标:l满足业务需求:根据企业项目的具体需求,精准收集符合业务场景和数据质量标准的数据资源,同时通过合理的采购策略来控制获取成本。37/100l数据安全合规:确保数据源符合相关法律法规以及企业内部的安全与隐私规定,防范数据泄露风险,保障数据的安全性与合规性。4.1.2数据获取方法根据数据来源的不同,数据获取的方式可以分为三类:商业数据采购、开源数据采集及内部自有数据。在这里,我们主要讨论商业数据采购和开源数据获取。完整的数据获取流程通常包括以下步骤:图25:数据获取流程数据获取与管理流程主要包括五个核心步骤:首先进行需求收集,明确企业业务对数据的具体需求;接着进行需求评估,判断数据的获取方式与成本效益;然后根据评估结果,选择商业数据采购或开源数据采集,并进行持续监控,对已采购或采集的数据进行持续的跟踪和管理。以下是对于两种数据获取方式在不同维度上的对比,企业可根据实际场景或需求进行综合评估:时38/100表5:数据获取方式对比4.1.3数据获取实践在具体实施过程中,企业需要特别重视数据获取的需求评估和获取方式的判断,因为这直接影响到整个数据治理的有效性和合规性。此外,企业不仅要关注数据的获取,还要确保数据能够持续地为业务提供价值,结合企业重点关注的维度,主要分为四个要素进行考量:表6:数据获取考量要素基于上述四个因素,企业在具体实施前应综合评估数据的可建设性,选定合适的数据获取方法,之后则需详细规划具体的实施流程和方案。下文将阐述商业数据采购和开源数据采集方面具体的处理流程,以供参考。(一)商业数据采购商业数据采购流程包含供应商评估、供应商对接以及数据接入验收三个主要阶段。图26:商业数据采购流程39/1001)供应商评估在确定需要采购数据后,企业应根据数据需求进行市场调研,明确寻源渠道,并制定筛选策略以选择合适的数据供应商。具体步骤包括:供应商搜寻:基于市场情况和公司采购流程,初步选定符合资质的预备供应商。通过与候选供应商接洽,确定有合作意向的候选名单。供应商评估:在确定供应商候选人后,业务部门可根据需要对将要引入的数据进行验证测试。为确保测试的有效性和系统性,数据测试部门会牵头制定数据验证测试方案,详细描述测试标准、流程、方法及测试结果说明。供应商确定:综合考虑测试结果和报价,通过公司内部流程,最终确定供应商。2)供应商对接在正式接入外部数据之前,企业需要进行全面的前期准备工作。首先,应获取详尽的数据字典,以详细了解数据的性质,并确认供应商提供的数据合法合规。其次,需对数据的规模和质量进行评估,确保现有基础设施能够支持和处理这些数据带来的挑战。此外,还需明确数据的交付方式,无论是实时查询还是批量传输,都要与内部团队紧密配合,确保技术实施的可行性。图27:供应商对接流程3)数据接入验收在完成外部数据的正式接入后,企业要进行严格的数据测试与验收,确保数据能够满足既定目标和业务需求。此接入验收流程包括以下几个关键环节:接入性能测试:通过模拟不同负载条件下的场景,评估系统在数据接入过程中的性能表现。数据安全测试:对数据接入过程进行全面的安全性检查,以识别和修复潜在的安全漏洞。数据质量测试:对数据进行质量评估,以确保数据的准确性、完整性、一致性和及时性。40/100编制验收报告:总结问题和改进建议,向相关部门汇报并规划持续改进措施。这一完整的测试验收流程能够确保接入数据的质量、合法性和可靠性,为数据加工实施提供高质量的数据源。(二)开源数据采集开源数据采集是获取和利用开放数据资源的重要手段,企业在实施过程通常包括三个关键步骤:数据源探知、获取方案设计、方案实施及验收。图28:开源数据采集步骤1)数据源探知在确定了数据采集需求后,需要开始数据源探知与评估,其主要流程如下:图29:数据源探知与评估的主要流程41/100基于上述流程评估,可以形成一张数据源分布清单,清晰记录各个数据源的类型、特征和可用性,以及现有数据源之间的关系和层次,为后续的数据采集工作提供了重要的参考依据。整个流程的核心在于对源的分级分类,这直接决定了源的可获取性和优先级。这一过程要求全面了解数据源的各项特征,主要从以下几个方面进行考量:l源性质评估:了解数据源的基础情况。对于直接源(原始数据要评估其地域分布、层级关系等特征;对于次级源(衍生或处理过的数据则需评估其覆盖范围和及时性。l质量评估:包括数据源的完整性、时效性、可访问性及可信性等方面。同时,还需评估数据源的稳定性,以确保数据的稳定获取。l颗粒度评估:主要指数据的结构化颗粒度,即数据细化的程度。评估业务需求颗粒度和实际数据源颗粒度之间的差异,这会影响数据的获取方式和采集策略。l合规性评估:在数据采集前,必须确保数据源符合相关法律法规和伦理要求,特别是关于数据隐私、数据版权、数据保护和个人信息安全的规定。2)获取方案设计获取方案设计阶段旨在基于所了解的数据资源状况,分析数据源清单中的可达数据源,并设计出实现数据获取路径的具体方案。可达性分析:对于数据源清单中的每个数据源,需要评估现有技术手段是否支持从目标数据源中提取数据。这包括确保拥有合法的访问权;评估是否有反爬机制、访问频率限制等;分析数据源的技术复杂度,确定是否需要特殊技术或工具等。通过可达性分析,确保设计出的方案能在实际操作中有效回应这些限制。同时,对可达数据源进行优先级排序,以便优化资源调配并提高数据获取效率。获取路径规划:基于可达性分析的结果,进行获取路径的规划。在开源数据采集场景中,获取方式主要分为自动化获取和人工采集。自动化获取是利用工具或系统(如自动化采集、API抓取、数据同步服务)自动从网络平台、数据库、API接口等收集数据,这种方式适用于具有固定结构和明确获取规则的大规模数据集。人工采集适用于自动化手段难以获取或者需要根据复杂业务规则筛选和加工的数据,该方法通常用于非结构化数据、质量要求极高的数据或小规模的特定数据集。通过综合考虑以上因素并进行详细规划,确保数据获取路径设计能够高效、准确地实现数据采集目标。42/1003)方案实施及验收在方案实施阶段,根据设计的方案执行数据的自动化获取与人工采集,配置并部署必要的数据采集工具和系统,确保其稳定运行。针对人工采集部分,提供必要的培训和指导,确保数据收集人员熟悉采集流程和质量标准。对采集到的原始数据进行清洗和预处理,如去除无用信息、纠正错误数据以及统一数据格式,以确保数据的准确性和一致性,从而为后续的数据加工处理和分析奠定基础。最后是对采集的数据进行全面复核,类似于商业数据采购中的质量控制,主要检查三个方面,分别是:确认数据采集过程无异常的流程正常性检查,验证数据是否达到预期的质量标准的质量符合性检查,和确保所有数据内容均符合法律规范和伦理要求的合法合规性检查。通过以上步骤,可以有效提高开源数据采集的效率和质量,确保所获数据准确可靠,满足业务需求的同时也符合法律法规的要求。4.2.1定义和目标数据加工是对原始数据进行深度分析、系统处理和有效转换的过程,其根本目的在于生成能够精准满足各类业务需求的高质量数据资源。这一过程通常涉及数据清洗、转换、挖掘、建模等多个关键步骤,旨在确保最终产出的数据资源在质量、可用性及业务价值上均达到预期标准。数据加工的核心目标,是通过高效、规范的处理流程,系统化地产出兼具高质量与高业务价值的数据资源。随着企业数据业务的持续发展和数字化转型的不断深入,仅仅存储原始数据已远不能满足日益复杂的应用场景。为此,企业必须对数据进行精细化分类,并针对不同类别设计定制化的加工流程,从而满足多样化的数据需求。这既是提升数据资源生产效率的关键路径,更是有力支持企业战略决策与提升运营灵活性的核心保障。4.2.2数据加工方法(一)数据资源类型数据资源是一个庞大而复杂的领域,主要由结构化数据、半结构化数据以及非结构化数据三种类型构成:结构化数据:指的是那些能够存储于关系型数据库中,且具有固定格式和模式的数据。结构化数据的特点是高度组织化和标准化,使得它们易于进行搜索、查询和分析。43/100半结构化数据:此类型数据介于结构化和非结构化数据之间,它具有一定的组织或元数据,但允许更灵活的模式。通常以JSON、XML等格式存储,这些格式允许嵌套结构和灵活的模式,能够表示复杂和层次化的数据,在日志系统、电子商务、社交媒体和物联网等领域有广泛的应用,它们提供了更高的灵活性和可扩展性。非结构化数据:非结构化资源则是指那些不遵循固定格式或模式的数据,它们通常以文本、图像、视频和音频等形式存在。非结构化数据的特点是形式多样、内容丰富,但处理起来相对复杂,因为它们缺乏统一的结构。经过有效的加工与处理,原始数据能够转化为多种具有直接应用价值的数据产品形态。在本白皮书中,我们将这些核心的数据加工产出归纳为以下五大关键类型:标准化数据、多维分析数据、图谱数据、标签数据和指标数据。后续将详细阐述各类数据的特征及加工实践。图30:五大数据类型划分标准化数据:指对原始数据进行标准化处理后的数据,将数据按照统一标准进行格式化存储。这类数据既可供业务场景直接使用,也是进一步数据挖掘和衍生分析的基础。多维分析数据:是一种面向特定主题的多视角、多维度分析型数据资源,其核心在于围绕事实和分析维度(如不同视角)进行组织、关联建立相互间联接关系,从而实现对数据的深度查询与分析。图谱数据:表示实体间复杂关系的数据结构,由节点(顶点)和连接这些节点的边(连接)组成。图数据用于展示实体间的连接关系,特别适用于需要快速查找关联节点的业务场景。44/100标签数据:用于描述和分类数据内容的元数据,通常是一个关键词或短语,帮助用户快速识别和检索数据。指标数据:用于衡量和评估业务性能的具体量度而从数据中提取的数值,用于监控和反映业务目标的进程和成果。例如,网站流量、销售额、客户满意度等业务指标,以及服务于特定研究目标的年度注册企业数、年度注销企业数等研究指标。4.2.3数据加工实践在实际操作中,我们要对整个数据处理活动实施严格的流程管控与工具优化,以确保各环节的高效执行与高质量产出。同时,针对不同类型的数据应当制定不同的加工与设计原则。(一)标准化数据标准化数据是构建高质量数据资产的基石,为后续的深度分析与衍生应用提供坚实的基础。它不仅要满足业务场景的直接数据调用需求,更是其他复杂数据类型加工的起点。因此,标准化数据的加工过程,核心在于兼顾数据的即时可用性与信息的完整保留。通常,标准化数据的加工过程主要包含以下四个关键步骤:确立建设目标、设计数据模型、执行规范化清洗以及实施标准化加工。图31:标准化数据的加工步骤1)建设目标确立首先,我们需精准定位数据的服务场景及所需的数据精细度,这涉及识别核心业务需求及预期的数据应用模式。明确的建设目标是数据加工的起点,指引后续模型设计与处理的方向。2)数据模型设计45/100在遵循数据建模标准流程(如实体关系抽象、数据表构建、数据字典编制)的基础上,企业可以特别关注业务场景需求的融入。标准化数据主要用于常规信息查询与展示,因此数据的格式、精度需遵循通用的展示标准。3)规范化清洗此步骤旨在从结构与内容上提升数据质量,包括去除重复记录、纠正数据不一致、消除冗余,以及格式化数据(如清洗错误内容、统一日期与数字格式)。清洗过程严格遵循“仅处理数据错误,不干预业务信息”的原则,聚焦于数据集自身的错误与通用字段的格式问题。4)标准化加工此阶段旨在提升数据可用性,通过编码转换(如文本转数值代码)实现数据的统一格式与标准。标准化加工是一个基于数据特性制定统一标准的过程,对于具有可枚举性或内在规律性的数据,我们设计了相应的标准代码体系,以释放其应用潜力。图32:数据标准化加工流程多维分析数据是一种面向特定业务主题的多视角、多维度分析型数据资源,它通过从多个业务视角(如时间、区域、行业等维度)对数据进行观察和分析,以揭示洞察。其核心在于围绕业务事实(如企业变更、风险事件等)和分析维度(如不同视角)建立清晰的相互间联接关系,这通常涉及到事实表与维度表的组织与关联,从而实现对数据的深度查询与分析。例如,启信宝可以利用其积累的企业大数据构建多维分析模型。用户可以从时间维度(如企业成立年份、财报报告期、风险事件发生月份)、空间维度(如企业注册地省份、城市、园区)、行业维度(如国民经济行业分类)、企业属性维度(如企业类型、注册资本区间、人员规模、风险等级)等多个角度,对特定关注的企业群体(例如:某一区域内的高新技术企业、过去一年新增的科技型46/100中小企业或存在特定经营风险的企业)的数量分布、发展态势、财务健康度、风险关联强度等进行交叉查询和深入分析。通过这样的多维钻取和切片分析,启信宝能够高效洞察区域经济活力、行业发展趋势、企业潜在风险或商业机会,为用户提供更具价值的商业智能服务。图33:数据仓库分层模型构建这类数据通常依托数据仓库的体系。如图(数据仓库分层模型)所示,数据仓库通过分层架构对数据进行有序的组织与整合:原始数据首先汇集于数据源层(ODS)。公共模型层(CMD)中,通过定义和构建维度表(DIM,提供分析视角)、事实明细数据(DWD,记录具体业务事件)以及汇总数据(DWS,按维度预先聚合的度量),形成结构化的多维模型,这一层是实现多视角、多维度分析的基础。最终,数据应用层(ADS)利用这些模型化的多维数据,直接支持报表展示、即席查询、统计分析和智能决策等上层应用。图谱数据,专为高效存储和查询复杂网络结构中实体间关系而生,广泛应用于知识图谱构建、关联分析等业务场景。它由节点和边构成,节点代表实体或概念,边则体现属性或关系。47/100图34:图谱数据示例实体,作为图模型的基本元素,是具有可区别性且独立存在的事物,如个人、城市、植物、商品等。概念,则是对特征组合形成的知识单元,涵盖集合、类别、对象类型及事物种类,如人物、地理等。而属性,则用于描述实体或概念的特征,如人员的国籍、生日等。图谱数据的建设包含以下几个关键步骤:1)明确业务场景图数据的存储服务于特定业务,需明确数据应用场景,了解需查询的数据主体和关系,从而决定存储的节点和边。例如,查询与企业有间接股权关系的其他企业时,节点仅需包含企业;而查询这些企业的招标信息时,则需同时包含企业和招标信息节点。2)建模设计图数据存储设计需遵循数据建模原则,但模型更抽象。为满足业务需求,需设计合适的图模型,包括实体、关系和属性的定义。同时,根据常用查询路径和时效性要求,设计合理索引,以提高查询效率。3)数据加工业务数据需转换为图数据库要求的节点和边形式,进行ETL处理。根据业务时效性要求,加工过程可分为实时和离线两种方式。4)数据入库48/100利用图数据库提供的API或工具,将节点和边数据导入图数据库,构建相关数据索引。针对常用查询,测试图数据库的响应速度和吞吐量。5)数据挖
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 记号笔制造工班组考核水平考核试卷含答案
- 中高频炉工安全文化竞赛考核试卷含答案
- 齿轮制造工安全知识宣贯能力考核试卷含答案
- 全向信标、测距仪机务员岗前班组建设考核试卷含答案
- 护理学基础第三版讲义
- 感染性疾病患儿的静脉输液护理
- 莞邑童音之路:东莞市小学生音乐素质教育的现状剖析与提升策略
- 药灸结合疗法对气滞血瘀型输卵管炎性不孕的疗效探究
- 荧光原位杂交技术在尿路上皮癌及前列腺癌中的临床价值与前景探究
- 草根NGO社会公信力提升路径探究
- 23秋国家开放大学《品牌传播与策划》形考任务1-5参考答案
- 银行保安服务投标方案(完整技术标)
- 拒绝文身主题班会课件
- 项目部人员绩效考核表实用文档
- 汽车行走的艺术学习通课后章节答案期末考试题库2023年
- 食品检验工(高级)5
- JJF 1941-2021 光学仪器检具校准规范 高清晰版
- 张爱玲《金锁记》教学课件
- GB/Z 26209-2010光辐射探测器光谱响应的确定方法
- 室分交维评估报告-tjd
- 中考语文非连续性文本阅读10篇专项练习及答案
评论
0/150
提交评论