2025十五五时期数据资源高效流通利用研究报告_第1页
2025十五五时期数据资源高效流通利用研究报告_第2页
2025十五五时期数据资源高效流通利用研究报告_第3页
2025十五五时期数据资源高效流通利用研究报告_第4页
2025十五五时期数据资源高效流通利用研究报告_第5页
已阅读5页,还剩47页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

“十五五”

时期数据资源高效流通利用研究报告——加速分布式存储全闪化,

构建高质量AI数据基础设施中国计算机行业协会数据流通利用专业委员会中国电子工业标准化技术协会数据存储专业委员会下一代互联网关键技术和评测国家地方联合工程研究中心中国软件评测中心北京赛迪认证中心有限公司2025

11

月版权声明本报告版权属于中国计算机行业协会数据流通利用专业委员会(简称“数利委”)、

中国电子工业标准化技术协会数据存储专业委员会(简称“数据存储专委会”)、

下一代互联网关键技术和评测国家地方联合工程研究中心(简称“

下一代互联网国家工程中心

”)

中国软件评测中心(简称“

中国评测

”)

北京赛迪认证中心有限公司(简称“赛迪认证

”),

并受法律保护。

转载

、摘编或利用其它方式使用本报告文字或者观点的,

应注明“来源:

数利委

数据存储专委会

下一代互联网国家工程中心

中国评测

、赛迪认证”

违反上述声明者编者将追究其相关法律责任。引

言数据已成为关键生产要素

。在数字经济时代

数据作为与传统生产要素(土地

劳动力

资本

技术)

并列的新型要素

其价值本质在于通过汇聚

、加工和应用

优化资源配置

提升生产效率并创造经济价值

。这一地位的确立源于数据在经济社会发展中的核心驱动作用

它不仅是信息社会的基础资源

更是推动新质生产力发展的核心引擎。习近平总书记指出

数据是数字经济时代的基础性资源、重要生产力和关键生产要素

。近年来大模型技术不断取得突破

大规模高质量训练数据的投入在其中起到了关键作用,也进一步将“

以数据为中心的人工智能

”推向一个新阶段。在国家层面

《中共中央国务院关于构建数据基础制度更好发挥数据要素作用的意见》(

“数据二十条

”)为核心框架的数据基础制度体系已经构建

。该体系围绕数据产权、流通交易

、收益分配、安全治理四大支柱深化制度建设

,旨在激活数据要素潜能并规范市场秩序

这一

四梁八柱

”式的制度设计

正从政策框架向实操落地转化

为数字中国建设筑牢制度根基。“十五五

”时期(2026—2030年)

,推动数据资源高效流通利用具有显著紧迫性

。一要突破经济增长瓶颈

。通过数据流通优化资源配置

提升全要素生产率

显著降低传统要素(资本

劳动力)

错配成本

二要满足新质生产力培育的

迫切需求

。人工智能

生物育种等战略新兴产业依赖高质量

数据融合;

数据流通滞后将直接阻碍大模型训练

、新材料研

发等关键创新进程

削弱国际竞争力

。三要破解数据要素市

场化改革的深层次梗阻。权属界定模糊导致企业“不敢流通

”等制度性堵点亟待疏通;

数据跨境流动

隐私保护等风险尚

未建立系统化治理框架;

安全与效率的平衡面临挑战

四要

抓住全球竞争格局重构的战略窗口期

。加速应对以美国为首

的数据跨境流动规则体系

提升我国数据跨境流通能力与数

字贸易规则话语权

因此

十五五

”时期需以流通效率跃

升为核心突破口

系统破解制度

技术

安全三重约束。AI大模型爆发对数据流通利用提出新挑战

。AI

时代对

数据处理的规模与速度要求实现了数量级的跃升

且数据呈

现出巨量小文件

单一目录海量文件等独特特征;

CPU

络的新发展也需要全新软件的匹配

这都对面向AI

时代的

分布式文件系统提出了新挑战

。伴随千行百业的数字化转型

迈向深水区

AI

、HPC

大数据等新型关键应用正加速融入

企业生产决策系统

其对业务体验和底座支撑的要求也水涨

船高

既有的存储产品及解决方案难免捉襟见肘

。尤值一提

的是

生成式AI浪潮打开了“

潘多拉魔盒

激活了视频

、语音

、文本

图片等海量非结构化数据的潜能

。很多企业数据中心汇聚了不同应用的多种类

多格式

多协议数据

这对实时分析

、智能决策

节能减碳提出前所未有的挑战

以存力变革推动数据服务跃迁势在必行。本报告着眼于健全AI领域数据资源高效流通利用的政策措施

提出适应AI应用的数据资源高效流通利用技术路径

打造高性能分布式存储全闪化数据基础设施底座

健全精准高效的数据管理体系

构建智能化

一体化的数据流通利用平台

深化AI领域数据资源高效流通利用场景

促进数据高质量供给

高效流通利用

降低社会用数成本和用数门槛

赋能实体经济

促进社会高质量发展

打造国际竞争新优势,构建“

数据要素×人工智能

”双向赋能的发展格局。目

录一、

AI

领域数据资源高效流通利用概述

.....................................................................................1

(一)

数据资源高效流通利用的基本概念

..........................................................................

1

二)高质量数据集的基本概念

..........................................................................................

7

三)适应人工智能(

AI)应用数据基础设施概述

..........................................................8

(四)“

十五五”

时期数据资源流通利用趋势研判

..........................................................

12二、我国

AI

领域数据资源高效流通利用面临三大挑战

..........................................................

15

(一)

数据资源高效流通利用的社会环境仍需改善

........................................................

15

(二)

数据资源高效流通利用的技术体系有待优化

........................................................

17

(三)

数据资源高效流通利用的安全风险依然存在

........................................................20三、AI

领域数据资源高效流通利用可行技术路径

...................................................................

21

(一)

打造适应AI应用的“

1+2+3+N”

高效智能数据基础设施

....................................21

(二)

突破传统数据基础设施限制,

通过先进存储技术构建统一数据空间,

加快AI数据湖建设

..............................................................................................................................23

(三)

构建智慧化

一体化数据管理与流通平台,

提高“全局可视可管可用”

数据服务能力

......................................................................................................................................24

(四)

打造可信AI数据空间,

加快数据资源规模化流通利用

......................................26

(五)

促进AI驱动数据资源高效流通利用,

深化场景赋能

..........................................27四、

AI

领域数据资源高效流通利用最佳实践

...........................................................................

27

(一)

AI赋能医疗行业:

瑞金和华西医院AI数据湖及智能存储方案助力精准医疗28

(二)

AI赋能科技产业:

东风岚图自动驾驶HPDA存储集群方案助推自动驾驶技术持续迭代

......................................................................................................................................

32

(三)

AI赋能金融行业:中原银行升级票据影像和数据湖平台显著提升商业价值

..35 (四)

AI赋能动画产业:

《哪吒2》

火爆出圈得益于强大的数据存储底座能力

.......36

(五)AI赋能农业行业:

崖州湾国家实验室“

繁-未来农业智能枢纽

”,

赋能育种科研新模式

..................................................................................................................................37五、AI

领域数据资源高效流通利用发展建议

...........................................................................

39

(一)

制度为基:

在国家层面建立健全数据资源高效流通利用政策措施

...................39

(二)技术为径:规模化布局全闪分布式存储设施,加快AI数据湖建设,打造高效智能数据基础设施

......................................................................................................................40

(三)

场景为核:

深化适应AI应用的数据资源开发利用场景,

拓展AI应用的广度和深度

...........................................................................................................................................42一、AI领域数据资源高效流通利用概述(一

)数据资源高效流通利用的基本概念1.数据资源的内涵特征随着信息技术的飞速发展和数字化转型进程的深入推进,

数据已经成为国家基础性战略资源,

数据资源已成为推动经济社会发展的重要力量。根据《全国数据资源调查报告(2024

年)》,

截至2024

年年底,

我国数据生产总量已超过41.06

泽字节(

ZB

)1。早在我国《

十三五”规划纲要》

中,

就已有“

大数据作为基础性战略资源”的提法。2中共中央、国务院发布的《关于构建更加完善的要素市场化配置体制机制的意见》(以下简称

“《意见》

”)中,

提到“提升社会数据资源价值”

“加强数据资源整合和安全保护”等内容。3数据资源概念虽在政府文件

法律法规中多有提及,

但至今未有官方文件对其做出定义,

对于其概念的讨论散见于各类报告

专家学者论述和著作中

如2023

年5

月发布的《中华人民共和国数字经济促进法(专家建议稿)

》提到“

数据资源指以电子化形式记录和保存的具备原始性

可机器读取

可供社会化再1

全国数据资源调查工作组《全国数据资源调查报告(2024年)[EB/OL].

[2024-11-28].

/sjj/ywpd/sjzy/0429/20250429190723758925417_pc.html.2

新华社.

中华人民共和国国民经济和社会发展第十三个五年规划纲要[EB/OL].

[2024-11-28]./xinwen/2016-03/17/content_5054992.htm.3

新华社.

中共中央国务院关于构建更加完善的要素市场化配置体制机制的意见[EB/OL].[2024-11-28]./zhengce/2020-04/09/content_5500622.htm.1利用的数据集合。

”42022

10

15日

由CCF

中国数字经济50

人论坛发布的《数据资源体系构建白皮书》

提到

数据资源指的是经归纳、整理和验证的、有价值的数字化数据。数据资源作为要素具有非定量约束特性,

与土地

劳动力、技术

资本等经济发展要素紧密依存并具有放大或加速作用,其交换流转具有跨域互操作的特点。”52024年

10

月21日

,国家数据局发布了《数据领域名词解释》征求意见的公告,其中对数据资源作出定义“数据资源,

是指具有使用价值的数据,

是可供人类利用的新型资源”。数据资源展现出多模态

多层次且复杂的特性

有专家学者归纳提出了数据资源的一些特征,

如:

非消耗性,

数据资源可以为相同主体跨时间重复使用,

这意味着数据在使用过程中不会被消耗掉;

非排他性,

数据资源可以为不同主体同时使用,

这使得数据具有共享的特性;

易复制性,

数据资源具有极易复制的特性,

这使得数据可以在多个地方同时存在而不影响其完整性;

难追溯性,

由于数据的复制和分发特性,

数据资源的来源和使用过程可能难以追溯;

稀缺性和高价值,

数据资源可能因其独特性和重要性而具有较高的价值;安全敏感性,

数据中的敏感信息多,

一些数据资源可能涉及个人隐私和商业机密,

因此需要特别的保护措施。4

中国计量大学质量发展法治保障研究中心.

中华人民共和国数字经济促进法(专家建议稿)

[EB/OL].

[2024-11-28].https://www.cjlu.ed/info/1101/31632.htm.5

CCF

中国数字经济50

人论坛.数据资源体系构建白皮书[EB/OL].

[2024-11-28]./upload/resources/file/2023/04/20/74d76264a02de9995b46f05f9c30c

c59.pdf22.高质量供给和高效利用内涵特征(1)数据资源高质量供给内涵特征数据资源高质量供给是供给侧视角的概念

,是涉及数据全生命周期的动态过程,

这里的高质量不仅涉及数据资源本身的质量,

也涉及到供给的机制

技术和路径等,

即供给过程的高质量

在数据资源本身的质量方面,

我们重点考查广度和深度,即资源准备的全面性和质量(与需求的匹配程度);在数据资源供给过程方面,

我们重点考查机制和能力,

即供给机制的完善度和技术能力的完备度。1

资源准备完善资源准备度重点考查广度。

我们认为国家应掌握国家数据资源底账,

对于各行业

、各领域数据生产方所产生的数据资源类型

更新周期

访问形式等有基本了解,

形成覆盖全面

动态更新的数据资源目录体系,

从而为经济社会发展的各类数据资源需求提供支撑,

实现按需供给。基于资源准备度的要求,

国家数据资源体系应该形成数据资源勘探和登记制度,

建设全国一体化的数据资源目录。2需求高度匹配需求匹配度重点考查深度。

我们认为数据资源的质量评价标准应源于应用需求

,包括数据资源供给的范围和技术方式,

以及相应数据的准确度

、及时性等要求,

都源于应用场景的实际需求,

而高质量数据资源的供给也需要大量前置治3理成本,

构建供需协同的数据资源质量评价体系是核心

。基于需求匹配度的要求,

国家数据资源体系应该建立供需协同的数据资源质量评价体系,

结合不同行业和领域应用场景对数据资源供给质量进行分类分级评价。3

机制完善健全机制完善度重点考查数据资源流通利用机制。

我们认为机制正常运转的核心是动力,

除少量公益类数据应用场景外,数据资源供给的核心动力都是商业利益,

如何有效平衡权责利的关系是数据资源流通利用机制的关键。基于机制完善度的要求,

国家数据资源体系应建立完善的数据流通利用机制,特别是具有权威背书的供需衔接机制,

在确保供需双方合作的合规性同时,

有效确保各方权益。4

技术支撑完备技术完备度重点考查数据资源基础设施的技术支撑情况。

我们认为数据流通利用应该是完全数字化的过程,

需要较大的网络

算力

、存储等资源,

也需要专业化的技术平台支撑,

如基于智能合约的自动化结算

、基于隐私计算的数据融合计算等,

这样才能真正实现数据的价值,

实现生产力跃升。基于技术完备度的要求,

国家数据资源体系应建设数据基础设施,

提供公共环节的技术支撑环境,

数据运营及供需各方应建设符合数据应用需求的技术能力。(2)数据资源高效利用内涵特征4数据资源高效利用是需求侧视角的概念

,是数据价值实现的成效展现部分,

这里的高效既涵盖数据资源流通利用的过程,

又涉及数据资源价值赋能的成效等,

也是新质生产力的突出展现

在数据资源流通利用本身的高效方面,

我们重点考查普惠度和便捷度,

即资源获得的低门槛和低成本;

在数据资源价值赋能的成效方面,

我们重点考查社会效益和经济效益的实现程度。1普惠公平普惠公平重点考查数据资源获得的公平公正性。

要确保各应用方公平合理地获得数据资源,

降低用数成本,

防止数据资源的垄断,

建立包容性的数据生态系统,

使所有合法的数据使用者无论其规模大小或市场地位,

均有机会获取所需的数据资源,

实现数据资源的广泛普及和公平分配。基于普惠公平的要求,

国家数据资源体系应加快开展公共数据资源的开放共享和授权运营,

推动企业数据资源有序流通。2

便捷高效便捷高效重点考查数据资源获得的便利性和效率。

要简化用数流程和门槛,

精简相关行政审批程序,

提供更加透明的数据获取流程,

通过优化数据供给方式与应用需求的匹配,提高数据资源利用过程的运转效率,

确保数据应用的高效运转。基于便捷高效的要求,

国家数据资源体系应开展数据资源登记工作,

建立一体化数据资源目录系统,

实现数据资源5的清单化管理,

优化数据资源共享协调机制,

形成数据资源供需衔接机制和需求驱动机制。3

社会效益显著社会效益重点考察数据资源对社会发展的价值实现情况。

数据资源场景应构建形成完整的数据价值链和市场化配置机制

,促进数据要素在社会各领域的自由流通和优化配置,同时确保数据安全,

激发全社会用数活力,

推动数据驱动的经济社会高质量发展,

实现数据资源社会效益的最大化,

并让全体人民共享数字经济发展成果。基于社会效益维度的要求,

国家数据资源体系应持续探索数据资源典型应用场景,依托应用场景释放数据要素价值,

加快培育数据产业生态体系,

建立健全数据要素市场化配置机制。4

经济效益突出经济效益重点考察数据资源在经济层面的价值实现情况。要依托一体化的数据资源体系,逐步优化数据冗余现象

,减少无效的数据资源存储

、流通

计算等,

降低数据运维成本。

通过数据资源的开发利用,

驱动组织智能决策,

实现动态优化与资源协同,

推动全产业链降本增效。基于经济效益维度的要求,

国家数据资源体系应统筹规划数据基础设施建设,

推动国家数据标准化工作,

实现不同来源和格式的数据资源快速整合,

在整体上降低数据运维成本,

推进数据要素市场发展,

释放数据要素价值。6(

二)高质量数据集的基本概念《高质量数据集建设指南(征求意见稿)

明确

高质量数据集是指经过采集

、加工等数据处理

可直接用于开发和训练人工智能模型

能有效提升模型性能的数据的集合

。高质量数据集类型主要包含文本数据集

图像数据集

、语音数据集

时序数据集

思维链数据集

多模态数据集等。高质量数据集主要分为三类

一类为“

通识数据集

”,包含面向社会公众

、无需专业背景即可理解的通用知识

主要用于支撑通用模型落地应用;

一类为“

行业通识数据集

”,包含面向行业从业人员

需要一定专业背景才能理解的行业领域通用知识

主要用于支撑行业模型落地应用;

一类为“

行业专识数据集

包含面向特定业务场景相关人员

需要较深的专业背景才能理解的行业领域专业知识

主要用于支撑业务场景模型落地应用。国家全面加速高质量数据集建设和应用落地

国家先后出台《国家数据标准体系建设指南》

《关于促进数据标注产业高质量发展的实施意见》

《关于促进数据产业高质量发展的指导意见》等政策文件,明确提出建设高质量数据集。2025年2

19

,国家数据局召开高质量数据集建设工作启动会

积极推进落实

人工智能+

”行动

合肥

成都等7个城市建设数据标注基地,截至2025年上半年,7个数据标注基地建设数据集524个

服务大模型

163个

第八届数字中7国建设峰会上

,国务院国资委发布首批

10余个行业

30项央企人工智能行业高质量数据集

涵盖了电网调度AI负荷预测数据集

、核电SPV设备健康诊断

运行异常及故障预测数据集

金融大模型数据集等。高质量数据集是人工智能发展的关键要素

数据集的质效提升是人工智能赋能实体经济的“催化剂

”。2024年

,数据技术企业积极推动数据集建设

高质量数据集数量增速达27.4%

利用大模型的数据技术企业数量同比增长57.21%

,数据应用企业增长37.14%。(

三)适应人工智能(

AI)应用数据基础设施概述新型基础设施建设(简称“

新基建

”)是中国为推动经济高质量发展

、培育新动能而提出的战略性工程

。人工智能(AI)

是新型基础设施建设的重要组成部分。适应AI应用的数据基础设施应体现高性能存力算力底座

高效流通利用的数据资源

、智能化一体化的算法模型与平台

、高速网络与通信以及高可靠性的安全与治理体系等特征

其中

高效流通利用的数据资源是适应AI应用的数据基础设施的“

关键生产资料

”。适应AI应用的数据基础设施是建设网络强国的

大动脉

”。

随着人工智能时代到来

人工智能成为网络大国迈向网络强国的新引擎

第一

适应AI应用的数据基础设施建8设是AI

时代数据资源高效流通利用的必然要求

。建设AI数据基础设施

畅通数据资源高效流通利用“

大动脉

推动数据资源价值快速释放

为网络强国建设提供数据支撑

第二

建设AI数据基础设施

超前建设智能化基础设施

加快传统基础设施智能化改造

打造可靠安全的网络体系

可以加强经济社会链接能力

为现代化产业化体系发展提供基础支撑

。第三,AI数据基础设施提供智慧化的治理手段与智能化的生活方式

,赋能社会治理和民生应用

。第四,AI数据基础设施包含先进的安全防护机制和隐私保护技术

为网络强国建设提供安全保障。适应AI应用的数据基础设施是推动数据资源高效流通利用的“

新引擎

。AI数据基础设施并非单一技术或产品

,而是一个复杂且多层级的综合性系统。如同数字世界的“水、电

为AI模型的设计

训练

部署及运行提供不可或缺的物理与逻辑基础。9令特征框',”的规模存储AI

训图1

适应AI应用的数据基础设施架AI数据基础设施核心组成要括:(1)

高性能存力算力底

。存力算力是AI运行的“

邮箱

”和“

发动机

”。AI模其是参数规模庞大的深度学习模型

需要消耗大量存储资源和天文数字般的计算资源

。具有代表性的大数据中心与智算中心

集中部署了海量计算资源

、设备和网络连接

通过云服务或私有部署模式

练和推理提供强大的计算支持。)高效流通利用的数据资源

。数据是AI智能的“

燃料。高质量

、多样化

、持续更新的数据集是训练和优化AI模型的关键

这要求对多模态(文本

图像

语音

视频

、传感器数据等)

数据源进行高效

合规的数据采集与处理

,构建TB

、PB级甚至EB级的AI数据湖或数据仓库

并实施高效的数据治理

索引与检索机制

以及对原始数据进行结型尤

(2素包座10构化

去噪

、标准化及人工标注

以提升数据质量和模型训练效果等等。(3)

智能化

一体化的算法模型与平台

算法模型是AI

的“

大脑

”,而平台则是算法模型高效开发

、管理和部署

的“工具集

”。基础AI框架与库(例如TensorFlow、PyTorch等)

提供了构建和训练神经网络的编程接口和核心算法组件。预训练大模型与模型库(如大型语言模型(LLM)

和多模态大模型等)

通过海量数据预训练获得通用能力

可进行微调以适应特定任务

极大降低了AI应用的开发门槛

。AI开发

与运营平台提供模型开发

训练

评估

、部署

监控和迭代的全生命周期管理工具链(MLOps)

提高开发效率和模型性能。(4)高速网络与通信

。网络是AI系统的“

神经系统

”,保障数据的高效流动和实时交互

。数据中心内部网络:

高带宽

、低延迟等互联技术

确保计算节点与存储系统之间的数

据传输效率

。广域网络连接:

5G

、光纤骨干网等

为云端AI服务与边缘设备

、用户终端之间提供稳定

高速的连接

尤其对于自动驾驶

、工业互联网等实时性要求高的场景至关重要。(5)

高可靠性安全与治理

随着AI

的深度应用

其安全性和伦理合规性日益成为焦点

。数据安全与隐私保护

保数据在采集

传输

存储

使用过程中的机密性

完整性11和可用性

,并严格遵守GDPR

、《数据安全法》

等国内外相关法规

模型可解释性与鲁棒性

研究和实现AI决策过程的透明化

并增强模型抵御对抗性攻击的能力

。伦理与合规框架

建立AI应用的伦理准则

规避算法偏见

、歧视等风险,推动AI技术的负责任发展。(

四)“

十五五”

时期数据资源流通利用趋势研判国际上数据资源流通呈现多极化治理格局

,主要经济体通过差异化政策框架与技术手段推动数据跨境流动,

同时强化主权管控与安全治理

。联合国发布《全球数字契约》

。从“

智能普惠

出发

提出

13项数字治理基本原则

呼吁各国弥合数字鸿沟

、扩大数字经济覆盖面

、加强人工智能全球治理以造福人类

标志着联合国在人工智能治理领域的最新进展

。欧美数据政策存在分歧,

美国特朗普政府关注人工智能

欧盟以GDPR

为核心

要求数据接收国达到

同等保护水平

”;

美国通过《云法案》

实施长臂管辖

同时联合盟友建立“数据流通联盟

”,

同时

今年7

特朗普政府发布了《赢得人工智能竞赛:

美国人工智能行动计划》

以“赢得AI竞赛

”为核心目标

围绕人工智能创新

、AI基础设施建设以及引领国际AI外交与安全三大支柱

制定了多项联邦政策举措

。其内容不仅延续美国对“

技术霸权

”的追逐

更展现了其在国家安全与全球竞争方面的战略考量;

2025年1212

11

美国总统特朗普又签署了一项名为《确立国家人工智能政策框架》

的行政命令

通过“诉讼威慑

资金杠杆

、标准统一

、立法优先

”四类措施

系统性地限制州在AI领域的监管空间;

新兴市场倡导协作

东盟推动《东盟数据管理框架》

允许医疗

、教育等领域数据跨境试点;

非洲则通过《非洲数据宪章》

强制数据本地化以促进数字经济发展。同时,还有部分国家以“

数据本地化

”为核心强化主权管控

,另一些国家推行“

负面清单

”模式

在安全评估基础上推动数据流动便利化

国际层面

通过区域性协定探索全球化与本土化平衡点

但企业合规成本高企与监管碎片化问题并存。技术层面

,隐私计算与区块链融合实现数据“

可用不可见

”,已在医疗联合研究

、跨境金融风控等领域形成典型应用

。人工智能深度渗透降低跨境支付误判率

,自然语言处理技术缩短合规审查周期

。这些技术迭代正加速推动数据从资源向资产形态转变。我国正加快构建以可信数据空间为技术底座的数据资源高效流通利用新型数据基础设施

,推动高质量数据集建设,加快实施“

人工智能+

”行动。一方面,

数据流通利用政策体系持续夯实,

多层次政策

体系不断深化

党中央

国务院

国家数据局及相关部委聚焦“

促进数据流通开发利用、提升数据流通安全治理能力

”,持续强化政策供给

。在开发利用方面

整体上形成了“

以场13景建设为牵引

基础设施为支撑

产业集聚为目标

公共数据为主

、企业数据和个人数据为辅

”的数据资源开发利用格

局。在安全治理方面

以《网络安全法》《数据安全法》《个人信息保护法》

为基础

重点完善了数据流通层面的安全管理规范

并强化了可信数据空间

隐私计算等流通安全技术和服务的支撑体系

国家实施可信数据空间培育推广行动

,旨在通过企业

行业

城市可信数据空间优先试点

形成一批成效显著的可信数据空间。2025年2

19日

高质量数据集建设工作启动会在北京组织召开

,国家发展改革委

、教育部

、科技部

工业和信息化部等27个部门参会

,预示着高质量数据集建设工作将积极推进落实

人工智能+

”行动

加快推动形成一批标志性成果

赋能行业高质量发展。另一方面,

人工智能领域政策体系逐步完善

。人工智能

产业发展政策加速推进

。2017年

国务院印发《新一代人工智能发展规划》

为人工智能领域描绘了清晰的产业发展蓝

。之后

发改委

工信部

科技部等部委陆续出台相关指

导意见、行动计划

,涉及场景创新、数实融合

、人形机器人

、标准体系等

为人工智能的发展和应用提供了政策依据

。2017-2025年

我国连续九年将人工智能发展政策写入两会政府工作报告

。整体上

,目前我国在人工智能领域形成了从

战略布局到深度应用的渐进式政策体系

演进脉络较为清晰。14人工智能安全治理制度不断完善

。人工智能的技术内生风险和系统衍生风险交织叠加

对现行法律规范

、伦理原则与治理机制提出了新的挑战

目前

安全发展

、算法治理

内容管理

伦理规范已成为人工智能安全治理制度的考量重点

。近年来

国家网信办牵头制定《互联网信息服务算法推荐管理规定》《生成式人工智能服务管理暂行办法》等部门规章,对算法和人工智能的数据安全

内容合规

、知识产权等方面提出了相应规定

国家新一代人工智能治理专业委员会在中办

国办发布的《关于加强科技伦理治理的意见》

基础上

,进一步对人工智能伦理做出规范。二、我国AI领域数据资源高效流通利用面临三大挑战(一

)数据资源高效流通利用的社会环境仍需改善数据资源有效供给不足。

一是基础不牢:

数据资源目录体系不完善甚至缺失,

导致数据底数不清,

难以实现全量归集与及时汇聚。

二是能力薄弱:

地区及行业间数字化基础差异显著,

造成数据采集能力不平衡

、供给方式参差不齐,

且数据质量普遍不高

三是动力欠缺:

受制于数据权责界定不清

安全合规顾虑普遍存在等因素,

供给主体的积极性严重不足。合规可信流通环境尚未形成

数据权属边界模糊不清,15导致权益分配与责任界定存在困难;

支撑数据可信流通的隐私计算等关键技术,

成熟度还不足;

参与数据流通的各方之间缺乏有效的信任机制;

支撑可信流通的互操作技术标准体系亟需健全与统一

更为关键的是,

数据安全和隐私保护受到现有技术能力的限制。开发利用生态体系尚待完善

我国数据资源开发利用市场建设发展时间尚短,

技术型数商

应用型数商

服务型数商的总体数量和能力都低于预期

不同行业产业

不同区域地方和不同类型主体之间,

缺少有效的组织引导和开放协作机制,

无法构建创新的合作模式,

难以形成合力。配套数据流通利用制度仍需完善。数据作为新型生产要素,从现实情况来看,仍有准入政策、产权制度

、交易规则、收益分配

安全监管体系一系列基础问题,

数据资源高效流通利用配套制度建设还有待完善。高质量数据集的系统化建设路径尚未明晰。一是开源数据集规模有限

、数据处理能力不足以及版权问题等基础条件制约了建设进度。

二是部分数据集建设目标与实际业务场景需求脱节,

导致数据集难以有效提升模型性能或应用效果。三是缺乏可执行落地的建设标准规范,

进一步增加了建设难度。

四是“

重建设轻运营”

的现象普遍存在,

数据集的持续优化与维护机制较为欠缺,

影响了其长期价值释放。16(二

)数据资源高效流通利用的技术体系有待优化传统数据基础设施无法满足数据资源高效流通利用和AI发展需要。传统数据基础设施在数据资源高效流通利用和AI发展的浪潮中暴露出一系列结构性问题

。首先,传统系统的架构僵化难以适应数据资源高效流通利用和AI工作负载的动态变化

例如深度学习训练需要海量数据和弹性计算资源

但本地数据中心通常缺乏灵活的扩展能力

服务器配置固定导致资源浪费或不足;

其次

存储瓶颈尤为突出

HDD存储系统的低吞吐量和高功耗无法满足数据资源高效流通利用和AI对高效数据处理的要求

而SSD虽初始成本较高,但凭借高密度和低能耗特性

在长期TCO(总拥有成本)

上已逐步与HDD持平

并能显著降低碳排放

推动了分布式存储的全闪化趋势

。此外,AI对算力

网络和数据的指数级需求加剧了传统设施的不足

。大规模模型训练和推理要求高性能计算能力(如GPU/TPU加速)

和低延迟网络

但集中式数据中心在可扩展性上表现不佳

难以处理指数增长的数据量(预计2027年全球数据量将达到

175ZB)。数据资源高效流通利用和AI应用还依赖高效的数据管理

传统数据结构灵活性不足

导致数据清洗和预处理效率低下

严重影响数据资源高效流通利用。存储性能瓶颈制约数据流通效率

。一方面

数据规模与复杂度爆发式增长

对数据存储能力构成严峻挑战

。数据规17模爆炸式

多元化增长已成为人工智能时代的显著特征

自动驾驶

医疗影像

工业互联网

科学计算等场景数据量持续突破

数据类型从结构化向非结构化及多模态融合急速演进

这对存储系统的异构兼容性与处理能力构成严峻考验。另一方面

人工智能与实时分析场景对存储性能提出高要求。大模型训练数据归集耗时长

数据预处理资源消耗巨大

练启动要求千万级IOPS

能力,频繁的断点续训(Checkpoint)操作需数百GB/s级读写带宽要求

金融高频交易

在线推荐

工业实时控制

交互式科研等场景也对存储延迟和吞吐

提出极致要求

。此外

传统存储架构难以应对新型负载

面临性能天花板、纵向扩展性不足、协议兼容性差等固有缺陷

。依赖HDD等传统介质则受限于高延迟、低IOPS

,完全无法满足人工智能与实时分析场景的性能需求

。磁带

光盘等归档介质更不适用于热/温数据访问

此外

数据介质持续供应能力面临重大风险

。关键领域自主可控需求升级

。我国数据

安全战略持续深化

政府

、金融

能源

电信等关键领域对数据基础设施自主可控的要求持续提升

。然而

数据基础设施建设的硬件设施和软件平台的核心技术获取具有高投入、高风险

垄断性等特征

目前核心存储介质及控制器芯片长期依赖国外厂商

存储产业链关键环节受制于人

。全球以机械硬盘为主的存储市场呈现寡头垄断格局

我国产业链安全

存在系统性隐患

。HDD(机械硬盘)

市场被美国希捷

美国18西部数据和日本东芝三家公司垄断;

DRAM(内存)

市场由韩国三星

、美国美光

、韩国海力士三家公司主导

,2023年

它们共同占据了全球95%的市场份额;

NAND

Flash(闪存)

市场主要被韩国三星

、日本铠侠

美国西部数据

美国美光

、韩国海力士五家公司瓜分

2023年

它们占据了全球93%的市场份额;

在存储整机市场

戴尔

惠普等美国厂商长期占据全球60%以上的份额

因此

存储介质自主化成为国家战略基石

高性能

高可靠性闪存介质的自主研发能力

、规模化生产能力及可持续供应保障

已成为国家人工智能战略和数字经济安全的“

根技术

”之一。数据开发利用能力不足,“

全局可视可管可用

”数据服务能力亟待提升

海量

多源

异构

动态的数据环境

对存储设施

、数据管理能力都提出了新的要求

数据供给规模和质量不能满足高质量开发利用和AI发展需要

数据质量参差不齐

数据不准确

不完整

不一致

不及时现象普遍存在

基于低质量数据的流通利用不仅无效

甚至有害

严重降低数据产品和服务的质量

。数据标准与规范不一

大多数企业缺乏统一的元数据标准

、数据格式

编码规范

接口标准等

导致不同来源

不同系统间的数据难以理解

互操作和整合

形成“

数据孤岛

”,

阻碍数据的高效流通利用和数据资产化的实现

。缺乏有效的全生命周期管理

大多数企业对数据的采集

存储

处理

使用

销毁等环节缺乏统一19的管理策略和工具

数据冗余

无效数据堆积

不仅浪费资源

还增加管理复杂度和安全风险

。如大模型升级迭代需要构建以高质量数据集为基础

并配套数据标注

、数据处理的高效的数据管理平台

以生成和管理海量数据

。数据安全和隐私保护受能力亟待加强。(三

)数据资源高效流通利用的安全风险依然存在数据流通范围显著扩大、频率急剧增加、参与方多元化,使得数据泄露

滥用

、篡改

跨境安全等风险显著提升

同时

国际形势波谲云诡

数据存储介质持续供应能力面临重大风险

。一方面,

数据流通过程风险高

。传统的数据安全聚焦静态存储和数据库边界防护

而人工智能时代要求数据全生命周期的安全

强调数据流转过程的持续安全

这大幅增加了保护的复杂性和实现难度

。数据在采集

存储

处理、传输等各个环节均面临泄露风险

个人敏感信息如身份信息、交易记录等极易成为不法分子觊觎的对象

。另一方面,

跨境流动监管态势严峻

。数据已成为连接全球经济的新纽带

各国加快在数据主权

、数据本土化

、个人信息保护等方面的政策制定

《通用数据保护条例》(GDPR)

和《加州消费者隐私法案》(CCPA)

等国际法规及国内日趋严格的监管

对合规性提出更高要求

。此外,

传统存储设施在可靠性

安全性和可管理性方面存在明显不足

。传统存储架构缺乏硬件级防20护、安全策略难统一,无法应对当下大规模数据流通的场景,且传统存储介质容易受到物理损坏

电磁干扰和黑客攻击的影响

数据的安全性和可靠性难以得到保障。三、AI领域数据资源高效流通利用可行技术路径(一)打造适应AI应用的“

1+2+3+N”高效智能数据基础设施构建具备高性能、高可控性及智能化管理能力的适应AI应用的

1+2+3+N

”高效智能数据基础设施体系

有效支撑数据资源高效流通利用和人工智能应用

。通过技术架构创新,确保数据流

、算力资源与模型资产的高效协同

赋能全行业快速部署和迭代AI能力,打造基于分布式存储的AI新基建

,构建数据资源高效流通利用与AI双向赋能可行技术路径。21图2

适应AI应用的“

1+2+3+N”高效智能数据基础设施框架适应AI应用的“1+2+3+N

”高效智能数据基础设施框架,其中:“

1

”是指在国家数据基础设施基础上

打造

1个高性能全闪存分布式存储的AI数据基础设施底座;“2

”是指在有效落实国家现有制度基础上

继续完善数据流通利用配套标准规范

健全数据管理

、数据安全2个管控体系;“3

”是指为提高“

全局可视可管可用

”数据服务能力,促进数据高质量供给

高效流通利用

降低社会用数成本和用数门槛

搭建智能化

一体化的AI数据湖

、AI工具链和AI可信数据空间3个平台;“N

”是指为赋能实体经济

促进社会高质量发展

打造国际竞争新优势

持续深化AI领域数据资源高效流通利22用“N个场景。(二)突破传统数据基础设施限制,通过先进存储技术构建统一数据空间,

加快AI数据湖建设打造全国产化

高性能的

、适应AI应用的新型AI数据湖数据基础设施底座

需融合硬件自主

、软件生态

、数据调度及绿色节能四大核心能力

构建覆盖算力

存储

网络的协同体系

新型AI数据湖是专为人工智能应用设计的数据存储与管理平台

能够统一存储

处理多模态数据(文本

、图像

、语音等)

并支持大规模数据处理与智能分析

。通过先进存储技术构建统一数据空间

全闪分布式存储以极低单位能耗支撑EB级数据存储

满足医疗影像

科研等场景的海量需求。实践表明,

AI时代SSD全面替代HDD

的转折点已经到来

。面向AI设施

,SSD大盘时代到来,TCO5

年持平HDD,

2+倍性能

。SSD借助技术创新

避短扬长

”在降低成本与节能减耗两个维度都取得了丰硕成果

。通过重删压缩等新技术的应用

SSD

的数据缩减比例可达3

:1甚至更高

显著缩小单位数据存储成本与HDD

之间的差距

预计到2027

年SSD单位价格即可低于HDD;同时

,SSD单盘容量的提升速度大幅超越

HDD,

预计到

2026

年其单盘容量可达

300TB,

远超HDD42TB

的水平

有助于节省空间和功耗。23在AI基础设施加速落地的驱动下

,已商用的业界先进全闪分布式存储

,已经支持高达61.44TB

的大容量SSD

使得SSD相对HDD单盘容量超过2-3倍

,同时在气象

卫星

、自动驾驶、AI语料库等数据湖场景提供了2-3:

1

的数据缩减率和配套的可得容量保障服务

从而将SSD

的单位容量成本逼近到IDD

的1.2-1.3倍

而根据基于典型数据中心空间

、功耗费用的评估

5

年的总体运营支出(OPEX)可以降低70-80%

使得SSD相对HDD在5

年的总体TCO

上实现持平

,而性能得到3-4倍的提升。AI数据湖与先进存储介质正在重构AI基础设施范式—

—从“算力优先

”转向“数据驱动

”,

存储系统已从辅助载体升级为决定AI模型性能的战略性支柱。(三

)构建智慧化

一体化数据管理与流通平台,

提高“全局可视可管可用”

数据服务能力构建智慧化

一体化数据管理与流通平台

,旨在通过技术融合与流程优化

实现数据资源的全生命周期管理

并显著提升“

全局可视可管可用

”的数据服务能力

。这一过程不仅涉及技术架构的革新

更强调组织协同与价值创造

为决策支持

业务创新和公共服务注入新动能。智慧化一体化平台的核心在于集成先进技术

打通数据壁垒

形成统一的数据治理体系

。在数据采集层

通过物联24网

传感器和API接口

实现多源异构数据的实时汇聚

确保数据全面性和时效性;

在数据处理层

运用大数据分析

、人工智能和机器学习技术

对原始数据进行清洗

、整合和特征提取,转化为结构化、可分析的信息资产;在数据管理层,建立标准化数据目录和元数据管理机制

支持数据分类

、分级和权限控制

保障数据安全与合规性;

在数据应用层

提供可视化工具和API服务

赋能业务场景

如智能决策

风险预警和个性化服务等;

智慧化特征体现在平台的自主优化能力上

例如通过算法模型动态调整数据处理流程

或利用预测分析预判数据需求

减少人工干预

提升响应效率。“

全局可视可管可用”

能力是平台价值的集中体现

全局可视

需构建统一的数据视图

通过Omni-Dataverse统一数据空间

增量元数据实时同步和地理信息系统(GIS)

等技术

实现跨部门

跨系统的数据全景展示;

可管可控

需强化数据治理框架

实施全流程监控

包括设立数据质量评估指标确保准确性

通过加密和访问控制技术防范数据泄露风险

并建立审计追踪机制

明确数据责任主体等;

可用易用

优化数据服务接口

降低使用门槛

支持灵活的数据查询

分析和共享功能

例如通过自然语言处理技术

让非技术人员也能便捷获取所需信息

从而加速业务创新和公共服务优化。25(

)打造可信AI数据空间,

加快数据资源规模化流通利用落实国家数据局《可信数据空间发展行动计划(2024—2028年)

的有关要求

构建可信AI数据空间

确保数据提供方

、数据使用方

、数据服务方

空间运营方等可信数据空间参与各方在可信环境中实现数据资源共享共用

实现“

泛在入湖

数据可信

、AI可用

提升AI数据集高质量供给

打造多方主体价值共创模式

构建数据资源高效流通机制和可持续运营模式

推动可信数据空间与大模型融合创新。围绕数据“

供得出

、流得动

、用得好

保安全

”实现以下基础措施:在智融数据供得出方面

可提供工程化语料清洗

、智能化语料标注和一体化数据供给等多项创新技术

保障高质量语料的供给;

在智驱数据流得动方面

可遵循国际数据空间标准架构

通过“4W2H

”(Where

、Who

、When

、Do

What、Howto、HowMany)模型的数据管控策略、基于OSUCON的操作系统内核级应用控制和机密计算技术

破解数据要素流通中的“流通不可控

”“

传输不安全

”的关键挑战;

在智联数据用得好方面

可提供数据模型化

、数据智能化和数据向量化三类AI技术

加速数据价值变现

赋能业务向智能化创新演进;

在智护数据保安全方面

应在环境安全

、数据安全

、模型安全

内容安全和安全运营上提供全链路的安26全防护能力。(五

)促进AI驱动数据资源高效流通利用,

深化场景赋能构建“

汇数-治数-用数

”一体化体系

通过技术底座、机制创新

、场景适配三维联动

驱动数据从资源化向资产化跨越

在强化数据基础底座方面

应构建AI-Ready存力枢纽

打造存力中心破除行业数据壁垒

通过规模汇聚释放高价值行业数据

支撑AI

从通用智能向专业智能跃迁

在创新流通机制方面

应建立分层可控数据空间

建立企业/行业/城市三级可信数据空间

通过数据视图

环境

服务标准化交易形态

推动场内场外交易双循环

。在深化场景赋能方面

聚焦医疗

工业

政务等重点领域领域

促进AI驱动数据资源高效流通利用。如在医疗领域,AI模型蒸馏技术将32B参数专家模型部署至县级医院

诊断精度逼近三甲水平

降低跨省就医成本

;如在工业领域,AI

能耗优化算法动态调度生产负载

工业场景节能效率提升20%-30%;

再如在政务领域

政务数据平台整合跨部门跨层级政务数据

支持“

高效办成一件事

”跨域协同

决策响应提速40%以上。四、AI领域数据资源高效流通利用最佳实践在数字经济时代

数据资源高效流通与利用直接关系到行业创新

、服务优化和产业升级

然而

传统数据管理方案27普遍面临存储架构僵化

、数据孤岛林立

、算力资源不足

分析效率低下等挑战

严重制约了数据价值的深度挖掘与应用创新

。构建高性能的数据流通基础设施和智能数据治理方案,打破数据壁垒

、优化算力供给

提升分析效率

已成为各行业数字化转型的必由之路

。当前

医疗

、科技

、金融

、动画

、农业等领域的众多机构已通过存储设备升级、AI数据湖构建以及数据治理方案优化

打通了数据资源高效流通利用的“

高速公路

”。(一

)AI赋能医疗行业:

瑞金和华西医院AI数据湖及智能存储方案助力精准医疗1.瑞金医院打造医疗行业多模态病理大模型。上海交通大学医学院附属瑞金医院(

以下简称"瑞金医院

")作为国家医学中心和国家区域医疗中心,

在推进医院数字化转型过程中面临着医疗数据资源流通利用不畅的关键挑战。

随着医院信息化建设的深入,

瑞金医院已积累了包括影像数据

、基因测序数据

电子病历等在内的海量医疗数据资源,

年数据增长量达PB级

然而,

这些宝贵的数据资源分散在不同的业务系统中,

存在"数据孤岛"现象,

导致跨科室

跨院区的数据共享与协同分析效率低下

特别是在精准医疗

临床科研等创新应用场景中,

传统存储架构无法满足高并发访问

实时数据分析等需求,

严重制约了医疗数据28图3

瑞金医院打造医疗行业多模态病理大模型框架瑞金医院医疗AI数据湖及智能存储解决方案基于全闪存分布式存储架构,

构建了集数据汇聚

治理

训练于一体的全场景医疗AI基础设施

。该方案采用"三层一平台"架构,通过EB级可扩展的分布式存储系统实现多模态数据统一管理,

支持病理切片

、基因组数据和电子病历等医疗数据的标准化存储与高效流通。该方案采用多协议互通架构,

支持文件

对象和大数据三种接口协议,

实现影像数据

、基因测序数据和电子病历等异构数据的统一存储与管理

系统通过智能分级存储技术,

将热数据存放在高性能NVMe

SSD层,

温价值的深度挖掘与应用创新。

为此,

瑞金医院基于分布式存储系统,

构建新一代医疗大数据平台,旨在打通数据流通壁垒,

实现医疗数据资源的高效整合与智能应用,

为医院数字化转型提供坚实的数据基础设施支撑。29数据存储在容量型硬盘层,

冷数据自动归档至大容量硬盘层,在保证数据访问性能的同时优化存储成本。

方案特别集成了面向AI训练的数据治理工具链,

提供百万级病理切片的秒级检索

数据标注批处理及质量管控能力,

并内置数据流动引擎实现训练数据的自动化供给,

为医疗大模型的开发提供从数据准备到模型训练的全流程支撑。该医疗大数据平台为瑞金医院创造了显著的临床与科研价值:

在临床诊疗方面,

通过实现跨科室数据的实时共享与秒级调阅,

将影像检查结果的调取时间从分钟级缩短至秒级

,急诊抢救响应效率提升40%,大幅提高了临床决策效率;在科研创新层面,

平台整合了全院PB

级的多模态医疗数据

,使基因组学分析与临床数据的关联研究效率提升5倍,

支撑了

30余项国家级重点科研项目,

助力医院在精准医疗领域取得突破性进展;

在运营管理方面,

系统通过智能数据分层和压缩技术,

使存储成本降低60%,

IT运维效率提升70%

,年节省电力消耗达

30万千瓦时

同时,

统一的数据治理体系的搭建,

实现了医疗数据全生命周期的规范化管理。2.华西医院推进人类全基因分析进入分钟时代四川大学华西临床医学院(华西医院)作为中国顶尖的医学研究机构,

在基因测序和大数据分析领域面临严峻挑战。随着高通量测序技术的普及,

单台测序仪每年可产生约1PB原始数据,

加上分析过程中5倍规模的中间文件,

一个研究30图4

华西医院打造的基因大数据分析平台基于全闪分布式存储系统华西医院打造的基因大数据分析平台基于全闪分布式存储系统,通过创新的架构设计解决了海量数据存储与混合负载挑战。

针对测序仪产生的单线程顺序写数据流,

系统采用分布式并行写入技术,

4节点即可提供25GB/s(千兆字节每秒)写带宽,

同时通过智能分层将原始数据实时存入NVMeSSD(高性能固态硬盘)

层确保低延迟

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论