“十五五”时期数据资源高效流通利用研究报告-加速分布式存储全闪化构建高质量AI数据基础设施-_第1页
“十五五”时期数据资源高效流通利用研究报告-加速分布式存储全闪化构建高质量AI数据基础设施-_第2页
“十五五”时期数据资源高效流通利用研究报告-加速分布式存储全闪化构建高质量AI数据基础设施-_第3页
“十五五”时期数据资源高效流通利用研究报告-加速分布式存储全闪化构建高质量AI数据基础设施-_第4页
“十五五”时期数据资源高效流通利用研究报告-加速分布式存储全闪化构建高质量AI数据基础设施-_第5页
已阅读5页,还剩58页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

——加速分布式存储全闪化,构建高质量AI数据基础设施数据已成为关键生产要素。在数字经济时代,数据作为与传统生产要素(土地、劳动力、资本、技术)并列的新型要素,其价值本质在于通过汇聚、加工和应用,优化资源配置、提升生产效率并创造经济价值。这一地位的确立源于数据在经济社会发展中的核心驱动作用,它不仅是信息社会的基础资源,更是推动新质生产力发展的核心引擎。习近平总书记指出,数据是数字经济时代的基础性资源、重要生产力和关键生产要素。近年来大模型技术不断取得突破,大规模高质量训练数据的投入在其中起到了关键作用,也进一步将“以数据为中心的人工智能”推向一个新阶段。在国家层面,以《中共中央国务院关于构建数据基础制度更好发挥数据要素作用的意见》(“数据二十条”)为核心框架的数据基础制度体系已经构建。该体系围绕数据产权、流通交易、收益分配、安全治理四大支柱深化制度建设,旨在激活数据要素潜能并规范市场秩序。这一“四梁八柱”式的制度设计,正从政策框架向实操落地转化,为数字中国建设筑牢制度根基。“十五五”时期(2026—2030年),推动数据资源高效流通利用具有显著紧迫性。一要突破经济增长瓶颈。通过数据流通优化资源配置,提升全要素生产率,显著降低传统要素(资本、劳动力)错配成本。二要满足新质生产力培育的迫切需求。人工智能、生物育种等战略新兴产业依赖高质量数据融合;数据流通滞后将直接阻碍大模型训练、新材料研发等关键创新进程,削弱国际竞争力。三要破解数据要素市场化改革的深层次梗阻。权属界定模糊导致企业“不敢流通”等制度性堵点亟待疏通;数据跨境流动、隐私保护等风险尚未建立系统化治理框架;安全与效率的平衡面临挑战。四要抓住全球竞争格局重构的战略窗口期。加速应对以美国为首的数据跨境流动规则体系,提升我国数据跨境流通能力与数字贸易规则话语权。因此,“十五五”时期需以流通效率跃升为核心突破口,系统破解制度、技术、安全三重约束。AI大模型爆发对数据流通利用提出新挑战。AI时代对数据处理的规模与速度要求实现了数量级的跃升,且数据呈现出巨量小文件、单一目录海量文件等独特特征;CPU、网络的新发展也需要全新软件的匹配,这都对面向AI时代的分布式文件系统提出了新挑战。伴随千行百业的数字化转型迈向深水区,AI、HPC、大数据等新型关键应用正加速融入企业生产决策系统,其对业务体验和底座支撑的要求也水涨船高,既有的存储产品及解决方案难免捉襟见肘。尤值一提的是,生成式AI浪潮打开了“潘多拉魔盒”,激活了视频、语音、文本、图片等海量非结构化数据的潜能。很多企业数据中心汇聚了不同应用的多种类、多格式、多协议数据,这对实时分析、智能决策、节能减碳提出前所未有的挑战,以存力变革推动数据服务跃迁势在必行。在这样的背景下,建立健全AI领域数据资源高效流通利用的政策体系,规划“十五五”时期AI领域数据资源高效流通利用技术发展路径,打造全国产化、高性能AI基础设施底座,构建智能化、一体化的数据管理与流通平台,深化AI驱动数据资源高效流通利用,助推数据新基建,构建数据与AI双向赋能的重要性愈发突出。5一、AI领域数据资源高效流通利用概述 1 (一)数据资源高效流通利用的基本概念 1 7 8 二、我国AI领域数据资源高效流通利用面临挑战 (一)数据资源高效流通利用的社会环境仍需改善 (二)数据资源高效流通利用的技术体系尚不健全 (三)数据资源高效流通利用的安全风险仍然较高 三、AI领域数据资源高效流通利用可行技术路径 (一)打造全国产化、高性能“1+2+3+N”AI基础设施 20 (二)突破传统数据基础设施限制,通过先进存储技术构建统一数据空间,加快AI数据湖建设 21 (三)构建智慧化、一体化数据管理与流通平台,提高“全局可视可管可用”数据服务能力 23 (四)打造可信AI数据空间,加快数据资源规模化流通利用 24 (五)促进AI驱动数据资源高效流通利用,深化场景赋能 25四、AI领域数据资源高效流通利用最佳实践 (一)AI赋能医疗行业:瑞金和华西医院AI数据湖及智能存储方案助力精准医疗26 (二)AI赋能科技产业:东风岚图自动驾驶HPDA存储集群方案助推自动驾驶技术持续迭代 31 (三)AI赋能金融行业:中原银行升级票据影像和数据湖平台显著提升商业价值 (四)AI赋能动画产业:《哪吒2》火爆出圈得益于强大的数据存储底座能力 (五)AI赋能农业行业:崖州湾国家实验室“繁-未来农业智能枢纽”,赋能育种科研新模式 36五、AI领域数据资源高效流通利用发展建议 (一)制度为基:在国家战略层面建立健全数据资源高效流通利用政策措施 (二)技术为翼:规模化布局全闪分布式存储设施,加快AI数据湖建设,打造国产全栈AI基础设施 39 (三)场景为引:拓展深化基于AI的数据资源开发利用场景,提升AI基础设施应用广度和深度 401一、AI领域数据资源高效流通利用概述(一)数据资源高效流通利用的基本概念1.数据资源的内涵特征随着信息技术的飞速发展和数字化转型进程的深入推进,数据已经成为国家基础性战略资源,数据资源已成为推动经济社会发展的重要力量。根据《全国数据资源调查报告(2024年)》,截至2024年年底,我国数据生产总量已超过41.06泽字节(ZB)1。早在我国《“十三五”规划纲要》中,就已有“大数据于构建更加完善的要素市场化配置体制机制的意见》(以下简称“《意见》”)中,提到“提升社会数据资源价值”、“加强数据资源整合和安全保护”等内容。3数据资源概念虽在政府文件、法律法规中多有提及,但至今未有官方文件对其做出定义,对于其概念的讨论散见于各类报告、专家学者论述和著作中。如2023年5月发布的《中华人民共和国数字经济促进法(专家建议稿)》提到“数据资源指以电子化形式记录和保存的具备原始性、可机器读取、可供社会化再.2济50人论坛发布的《数据资源体系构建白皮书》提到“数据资源指的是经归纳、整理和验证的、有价值的数字化数据。数据资源作为要素具有非定量约束特性,与土地、劳动力、技术、资本等经济发展要素紧密依存并具有放大或加速作用,其交换流转具有跨域互操作的特点。”52024年10月21日,国家数据局发布了《数据领域名词解释》征求意见的公告,其中对数据资源作出定义“数据资源,是指具有使用价值的数据,是可供人类利用的新型资源”。数据资源展现出多模态、多层次且复杂的特性。有专家学者归纳提出了数据资源的一些特征,如:非消耗性,数据资源可以为相同主体跨时间重复使用,这意味着数据在使用过程中不会被消耗掉;非排他性,数据资源可以为不同主体同时使用,这使得数据具有共享的特性;易复制性,数据资源具有极易复制的特性,这使得数据可以在多个地方同时存在而不影响其完整性;难追溯性,由于数据的复制和分发特性,数据资源的来源和使用过程可能难以追溯;稀缺性和高价值,数据资源可能因其独特性和重要性而具有较高的价值;安全敏感性,数据中的敏感信息多,一些数据资源可能涉及个人隐私和商业机密,因此需要特别的保护措施。[EB/OL].[2024-11-28][EB/OL].[2024-11-28]..c32.高质量供给和高效利用内涵特征(1)数据资源高质量供给内涵特征数据资源高质量供给是供给侧视角的概念,是涉及数据全生命周期的动态过程,这里的高质量不仅涉及数据资源本身的质量,也涉及到供给的机制、技术和路径等,即供给过程的高质量。在数据资源本身的质量方面,我们重点考查广度和深度,即资源准备的全面性和质量(与需求的匹配程度在数据资源供给过程方面,我们重点考查机制和能力,即供给机制的完善度和技术能力的完备度。资源准备度重点考查广度。我们认为国家应掌握国家数据资源底账,对于各行业、各领域数据生产方所产生的数据资源类型、更新周期、访问形式等有基本了解,形成覆盖全面、动态更新的数据资源目录体系,从而为经济社会发展的各类数据资源需求提供支撑,实现按需供给。基于资源准备度的要求,国家数据资源体系应该形成数据资源勘探和登记制度,建设全国一体化的数据资源目录。需求匹配度重点考查深度。我们认为数据资源的质量评价标准应源于应用需求,包括数据资源供给的范围和技术方式,以及相应数据的准确度、及时性等要求,都源于应用场景的实际需求,而高质量数据资源的供给也需要大量前置治4理成本,构建供需协同的数据资源质量评价体系是核心。基于需求匹配度的要求,国家数据资源体系应该建立供需协同的数据资源质量评价体系,结合不同行业和领域应用场景对数据资源供给质量进行分类分级评价。3机制完善健全机制完善度重点考查数据资源流通利用机制。我们认为机制正常运转的核心是动力,除少量公益类数据应用场景外,数据资源供给的核心动力都是商业利益,如何有效平衡权责利的关系是数据资源流通利用机制的关键。基于机制完善度的要求,国家数据资源体系应建立完善的数据流通利用机制,特别是具有权威背书的供需衔接机制,在确保供需双方合作的合规性同时,有效确保各方权益。4技术支撑完备技术完备度重点考查数据资源基础设施的技术支撑情况。我们认为数据流通利用应该是完全数字化的过程,需要较大的网络、算力、存储等资源,也需要专业化的技术平台支撑,如基于智能合约的自动化结算、基于隐私计算的数据融合计算等,这样才能真正实现数据的价值,实现生产力跃升。基于技术完备度的要求,国家数据资源体系应建设数据基础设施,提供公共环节的技术支撑环境,数据运营及供需各方应建设符合数据应用需求的技术能力。(2)数据资源高效利用内涵特征5数据资源高效利用是需求侧视角的概念,是数据价值实现的成效展现部分,这里的高效既涵盖数据资源流通利用的过程,又涉及数据资源价值赋能的成效等,也是新质生产力的突出展现。在数据资源流通利用本身的高效方面,我们重点考查普惠度和便捷度,即资源获得的低门槛和低成本;在数据资源价值赋能的成效方面,我们重点考查社会效益和经济效益的实现程度。普惠公平重点考查数据资源获得的公平公正性。要确保各应用方公平合理地获得数据资源,降低用数成本,防止数据资源的垄断,建立包容性的数据生态系统,使所有合法的数据使用者无论其规模大小或市场地位,均有机会获取所需的数据资源,实现数据资源的广泛普及和公平分配。基于普惠公平的要求,国家数据资源体系应加快开展公共数据资源的开放共享和授权运营,推动企业数据资源有序流通。2便捷高效便捷高效重点考查数据资源获得的便利性和效率。要简化用数流程和门槛,精简相关行政审批程序,提供更加透明的数据获取流程,通过优化数据供给方式与应用需求的匹配,提高数据资源利用过程的运转效率,确保数据应用的高效运转。基于便捷高效的要求,国家数据资源体系应开展数据资源登记工作,建立一体化数据资源目录系统,实现数据资源6的清单化管理,优化数据资源共享协调机制,形成数据资源供需衔接机制和需求驱动机制。社会效益重点考察数据资源对社会发展的价值实现情况。数据资源场景应构建形成完整的数据价值链和市场化配置机制,促进数据要素在社会各领域的自由流通和优化配置,同时确保数据安全,激发全社会用数活力,推动数据驱动的经济社会高质量发展,实现数据资源社会效益的最大化,并让全体人民共享数字经济发展成果。基于社会效益维度的要求,国家数据资源体系应持续探索数据资源典型应用场景,依托应用场景释放数据要素价值,加快培育数据产业生态体系,建立健全数据要素市场化配置机制。4经济效益突出经济效益重点考察数据资源在经济层面的价值实现情况。要依托一体化的数据资源体系,逐步优化数据冗余现象,减少无效的数据资源存储、流通、计算等,降低数据运维成本。通过数据资源的开发利用,驱动组织智能决策,实现动态优化与资源协同,推动全产业链降本增效。基于经济效益维度的要求,国家数据资源体系应统筹规划数据基础设施建设,推动国家数据标准化工作,实现不同来源和格式的数据资源快速整合,在整体上降低数据运维成本,推进数据要素市场发展,释放数据要素价值。7《高质量数据集建设指南(征求意见稿)》明确,高质量数据集是指经过采集、加工等数据处理,可直接用于开发和训练人工智能模型,能有效提升模型性能的数据的集合。高质量数据集类型主要包含文本数据集、图像数据集、语音数据集、时序数据集、思维链数据集、多模态数据集等。高质量数据集主要分为三类。一类为“通识数据集”,包含面向社会公众、无需专业背景即可理解的通用知识,主要用于支撑通用模型落地应用;一类为“行业通识数据集”,包含面向行业从业人员、需要一定专业背景才能理解的行业领域通用知识,主要用于支撑行业模型落地应用;一类为“行业专识数据集”,包含面向特定业务场景相关人员、需要较深的专业背景才能理解的行业领域专业知识,主要用于支撑业务场景模型落地应用。国家全面加速高质量数据集建设和应用落地。国家先后出台《国家数据标准体系建设指南》《关于促进数据标注产业高质量发展的实施意见》《关于促进数据产业高质量发展年2月19日,国家数据局召开高质量数据集建设工作启动会,积极推进落实“人工智能+”行动。合肥、成都等7个城市建设数据标注基地,截至2025年上半年,7个数据标注基地建设数据集524个,服务大模型163个。第八届数字中8国建设峰会上,国务院国资委发布首批10余个行业、30项央企人工智能行业高质量数据集,涵盖了电网调度AI负荷预测数据集、核电SPV设备健康诊断、运行异常及故障预测数据集、金融大模型数据集等。高质量数据集是人工智能发展的关键要素,数据集的质效提升是人工智能赋能实体经济的“催化剂”。2024年,数据技术企业积极推动数据集建设,高质量数据集数量增速达27.4%,利用大模型的数据技术企业数量同比增长57.21%,数据应用企业增长37.14%。(三)AI基础设施的基本概念新型基础设施建设(简称“新基建”)是中国为推动经济高质量发展、培育新动能而提出的战略性工程。人工智能(AI)是新型基础设施建设的重要组成部分。AI基础设施主要包括支持算法开发的人工智能算法框架、面向应用的人工智能算法平台及公共服务平台、算法模型训练所需的公共数据集等。这类设施通过提供算力、数据和算法支持,促进AI技术普及应用。AI基础设施是建设网络强国的“大动脉”。随着人工智能时代到来,人工智能成为网络大国迈向网络强国的新引擎,第一,AI基础设施建设是AI时代数据资源高效流通利用的必然要求。建设AI基础设施,畅通数据资源高效流通利用9“大动脉”,推动数据资源价值快速释放,为网络强国建设提供数据支撑。第二,建设AI基础设施,超前建设智能化基础设施、加快传统基础设施智能化改造,打造可靠安全的网络体系,可以加强经济社会链接能力,为现代化产业化体系发展提供基础支撑。第三,AI基础设施提供智慧化的治理手段与智能化的生活方式,赋能社会治理和民生应用。第四,AI基础设施包含先进的安全防护机制和隐私保护技术,为网络强国建设提供安全保障。AI基础设施并非单一技术或产品,而是一个复杂且多层级的综合性系统。如同数字世界的“水、电、路”,为AI模型的设计、训练、部署及运行提供不可或缺的物理与逻辑基础。图1AI基础设施核心组成要素AI基础设施核心组成要素包括:(1)存力算力底座。存力算力是AI运行的“邮箱”和“发动机”。AI模型尤其是参数规模庞大的深度学习模型,需要消耗大量的存储资源和天文数字般的计算资源。具有代表性的大规模数据中心与智算中心,集中部署了海量计算资源、存储设备和网络连接,通过云服务或私有部署模式,为AI训练和推理提供强大的计算支持。(2)高效流通利用的数据资源。数据是AI智能的“燃料”。高质量、多样化、持续更新的数据集是训练和优化AI模型的关键。这要求对多模态(文本、图像、语音、视频、传感器数据等)数据源进行高效、合规的数据采集与处理,构建TB、PB级甚至EB级的AI数据湖或数据仓库,并实施高效的数据治理、索引与检索机制,以及对原始数据进行结构化、去噪、标准化及人工标注,以提升数据质量和模型训练效果等等。(3)算法模型与平台。算法模型是AI的“大脑”,而平台则是算法模型高效开发、管理和部署的“工具集”。基础AI框架与库(例如TensorFlow、PyTorch等)提供了构建和训练神经网络的编程接口和核心算法组件。预训练大模型与模型库(如大型语言模型(LLM)和多模态大模型等)通过海量数据预训练获得通用能力,可进行微调以适应特定任务,极大降低了AI应用的开发门槛。AI开发与运营平台提供模型开发、训练、评估、部署、监控和迭代的全生命周期管理工具链(MLOps),提高开发效率和模型性能。保障数据的高效流动和实时交互。数据中心内部网络:高带宽、低延迟等互联技术,确保计算节点与存储系统之间的数据传输效率。广域网络连接:5G、光纤骨干网等,为云端AI服务与边缘设备、用户终端之间提供稳定、高速的连接,尤其对于自动驾驶、工业互联网等实时性要求高的场景至关重(5)安全与治理体系。随着AI的深度应用,其安全性和伦理合规性日益成为焦点。数据安全与隐私保护,确保数据在采集、传输、存储、使用过程中的机密性、完整性和可模型可解释性与鲁棒性,研究和实现AI决策过程的透明化,并增强模型抵御对抗性攻击的能力。伦理与合规框架,建立AI应用的伦理准则,规避算法偏见、歧视等风险,推动AI技术的负责任发展。国际上正致力于构建安全、开放、协同的治理框架与技术体系。全球数据跨境流动治理体系正处于重构期,主要经济体通过差异化法规构建数据流动框架。部分国家以“数据本地化”为核心强化主权管控,另一些国家推行“负面清单”模式,在安全评估基础上推动数据流动便利化。国际层面,通过区域性协定探索全球化与本土化平衡点,但企业合规成本高企与监管碎片化问题并存。技术层面,隐私计算与区块链融合实现数据“可用不可见”,已在医疗联合研究、跨境金融风控等领域形成典型应用。人工智能深度渗透降低跨境支付误判率,自然语言处理技术缩短合规审查周期。这些技术迭代正加速推动数据从资源向资产形态转变。我国正加快构建以可信数据空间为技术底座的数据资源高效流通利用新型数据基础设施,推动高质量数据集建设,加快实施“人工智能+”行动。一方面,数据流通利用政策体系持续夯实,多层次政策体系不断深化。党中央、国务院、国家数据局及相关部委聚持续强化政策供给。在开发利用方面,整体上形成了“以场景建设为牵引,基础设施为支撑,产业集聚为目标,公共数据为主、企业数据和个人数据为辅”的数据资源开发利用格人信息保护法》为基础,重点完善了数据流通层面的安全管理规范,并强化了可信数据空间、隐私计算等流通安全技术和服务的支撑体系。国家实施可信数据空间培育推广行动,旨在通过企业、行业、城市可信数据空间优先试点,形成一批成效显著的可信数据空间。2025年2月19日,高质量数据集建设工作启动会在北京组织召开,国家发展改革委、教育部、科技部、工业和信息化部等27个部门参会,预示着高质量数据集建设工作将积极推进落实“人工智能+”行动,加快推动形成一批标志性成果,赋能行业高质量发展。另一方面,人工智能领域政策体系逐步完善。人工智能产业发展政策加速推进。2017年,国务院印发《新一代人工智能发展规划》,为人工智能领域描绘了清晰的产业发展蓝图。之后,发改委、工信部、科技部等部委陆续出台相关指导意见、行动计划,涉及场景创新、数实融合、人形机器人、标准体系等,为人工智能的发展和应用提供了政策依据。2017-2025年,我国连续九年将人工智能发展政策写入两会政府工作报告。整体上,目前我国在人工智能领域形成了从战略布局到深度应用的渐进式政策体系,演进脉络较为清晰。人工智能安全治理制度不断完善。人工智能的技术内生风险和系统衍生风险交织叠加,对现行法律规范、伦理原则与治理机制提出了新的挑战。目前,安全发展、算法治理、内容管理、伦理规范已成为人工智能安全治理制度的考量重点。近年来,国家网信办牵头制定《互联网信息服务算法推荐管理规定》《生成式人工智能服务管理暂行办法》等部门规章,对算法和人工智能的数据安全、内容合规、知识产权等方面提出了相应规定。国家新一代人工智能治理专业委员会在中办、国办发布的《关于加强科技伦理治理的意见》基础上,进一步对人工智能伦理做出规范。二、我国AI领域数据资源高效流通利用面临挑战(一)数据资源高效流通利用的社会环境仍需改善数据资源有效供给不足。一是基础不牢:数据资源目录体系不完善甚至缺失,导致数据底数不清,难以实现全量归集与及时汇聚。二是能力薄弱:地区及行业间数字化基础差异显著,造成数据采集能力不平衡、供给方式参差不齐,且数据质量普遍不高。三是动力欠缺:受制于数据权责界定不清、安全合规顾虑普遍存在等因素,供给主体的积极性严重不足。合规可信流通环境尚未形成。数据权属边界模糊不清,导致权益分配与责任界定存在困难;支撑数据可信流通的隐私计算等关键技术,成熟度还不足;参与数据流通的各方之间缺乏有效的信任机制;支撑可信流通的互操作技术标准体系亟需健全与统一。更为关键的是,数据安全和隐私保护受到现有技术能力的限制。开发利用生态体系尚待完善。我国数据资源开发利用市场建设发展时间尚短,技术型数商、应用型数商、服务型数商的总体数量和能力都低于预期。不同行业产业、不同区域地方和不同类型主体之间,缺少有效的组织引导和开放协作机制,无法构建创新的合作模式,难以形成合力。配套数据流通利用制度仍需完善。数据作为新型生产要素,从现实情况来看,仍有准入政策、产权制度、交易规则、收益分配、安全监管体系一系列基础问题,数据资源高效流通利用配套制度建设还有待完善。高质量数据集的系统化建设路径尚未明晰。一是开源数据集规模有限、数据处理能力不足以及版权问题等基础条件制约了建设进度。二是部分数据集建设目标与实际业务场景需求脱节,导致数据集难以有效提升模型性能或应用效果。三是缺乏可执行落地的建设标准规范,进一步增加了建设难度。四是“重建设轻运营”的现象普遍存在,数据集的持续优化与维护机制较为欠缺,影响了其长期价值释放。(二)数据资源高效流通利用的技术体系尚不健全传统数据基础设施无法满足数据资源高效流通利用和AI发展需要。传统数据基础设施在数据资源高效流通利用和AI发展的浪潮中暴露出一系列结构性问题。首先,传统系统的架构僵化难以适应数据资源高效流通利用和AI工作负载的动态变化,例如深度学习训练需要海量数据和弹性计算资源,但本地数据中心通常缺乏灵活的扩展能力,服务器配置固定导致资源浪费或不足;其次,存储瓶颈尤为突出,HDD存储系统的低吞吐量和高功耗无法满足数据资源高效流通利用和AI对高效数据处理的要求,而SSD虽初始成本较高,但凭借高密度和低能耗特性,在长期TCO(总拥有成本)上已逐步与HDD持平,并能显著降低碳排放,推动了分布式存储的全闪化趋势。此外,AI对算力、网络和数据的指数级需求加剧了传统设施的不足。大规模模型训练和推理要求高性能计算能力(如GPU/TPU加速)和低延迟网络,但集中式数据中心在可扩展性上表现不佳,难以处理指数增长的数据量(预计2027年全球数据量将达到175ZB)。数据资源高效流通利用和AI应用还依赖高效的数据管理,传统数据结构灵活性不足,导致数据清洗和预处理效率低下,严重影响数据资源高效流通利用。存储性能瓶颈制约数据流通效率。一方面,数据规模与复杂度爆发式增长,对数据存储能力构成严峻挑战。数据规模爆炸式、多元化增长已成为人工智能时代的显著特征。自动驾驶、医疗影像、工业互联网、科学计算等场景数据量持续突破,数据类型从结构化向非结构化及多模态融合急速演进,这对存储系统的异构兼容性与处理能力构成严峻考验。另一方面,人工智能与实时分析场景对存储性能提出高要求。大模型训练数据归集耗时长,数据预处理资源消耗巨大,训操作需数百GB/s级读写带宽要求。金融高频交易、在线推荐、工业实时控制、交互式科研等场景也对存储延迟和吞吐提出极致要求。此外,传统存储架构难以应对新型负载,面临性能天花板、纵向扩展性不足、协议兼容性差等固有缺陷。依赖HDD等传统介质则受限于高延迟、低IOPS,完全无法满足人工智能与实时分析场景的性能需求。磁带、光盘等归档介质更不适用于热/温数据访问。此外,数据介质持续供应能力面临重大风险。关键领域自主可控需求升级。我国数据安全战略持续深化,政府、金融、能源、电信等关键领域对数据基础设施自主可控的要求持续提升。然而,数据基础设施建设的硬件设施和软件平台的核心技术获取具有高投入、高风险、垄断性等特征。目前核心存储介质及控制器芯片长期依赖国外厂商,存储产业链关键环节受制于人。全球以机械硬盘为主的存储市场呈现寡头垄断格局,我国产业链安全存在系统性隐患。HDD(机械硬盘)市场被美国希捷、美国西部数据和日本东芝三家公司垄断;DRAM(内存)市场由韩国三星、美国美光、韩国海力士三家公司主导,2023年,它们共同占据了全球95%的市场份额;NANDFlash(闪存)市场主要被韩国三星、日本铠侠、美国西部数据、美国美光、韩国海力士五家公司瓜分,2023年,它们占据了全球93%的市场份额;在存储整机市场,戴尔、惠普等美国厂商长期占据全球60%以上的份额。因此,存储介质自主化成为国家战略基石。高性能、高可靠性闪存介质的自主研发能力、规模化生产能力及可持续供应保障,已成为国家人工智能战略和数字经济安全的“根技术”之一。数据开发利用能力不足,“全局可视可管可用”数据服务能力亟待提升。海量、多源、异构、动态的数据环境,对存储设施、数据管理能力都提出了新的要求,数据供给规模和质量不能满足高质量开发利用和AI发展需要。数据质量参差不齐,数据不准确、不完整、不一致、不及时现象普遍存在,基于低质量数据的流通利用不仅无效,甚至有害,严重降低数据产品和服务的质量。数据标准与规范不一,大多数企业缺乏统一的元数据标准、数据格式、编码规范、接口标准等,导致不同来源、不同系统间的数据难以理解、互操作和整合,形成“数据孤岛”,阻碍数据的高效流通利用和数据资产化的实现。缺乏有效的全生命周期管理,大多数企业对数据的采集、存储、处理、使用、销毁等环节缺乏统一的管理策略和工具,数据冗余、无效数据堆积,不仅浪费资源,还增加管理复杂度和安全风险。如大模型升级迭代需要构建以高质量数据集为基础,并配套数据标注、数据处理的高效的数据管理平台,以生成和管理海量数据。数据安全和隐私保护受能力亟待加强。(三)数据资源高效流通利用的安全风险仍然较高使得数据泄露、滥用、篡改、跨境安全等风险显著提升。同时,国际形势波谲云诡,数据存储介质持续供应能力面临重大风险。一方面,数据流通过程风险高。传统的数据安全聚焦静态存储和数据库边界防护,而人工智能时代要求数据全生命周期的安全,强调数据流转过程的持续安全,这大幅增加了保护的复杂性和实现难度。数据在采集、存储、处理、传输等各个环节均面临泄露风险,个人敏感信息如身份信息、交易记录等极易成为不法分子觊觎的对象。另一方面,跨境流动监管态势严峻。数据已成为连接全球经济的新纽带,各国加快在数据主权、数据本土化、个人信息保护等方面的政策制定,《通用数据保护条例》(GDPR)和《加州消费者隐私法案》(CCPA)等国际法规及国内日趋严格的监管,对合规性提出更高要求。此外,传统存储设施在可靠性、安全性和可管理性方面存在明显不足。传统存储架构缺乏硬件级防护、安全策略难统一,无法应对当下大规模数据流通的场景,且传统存储介质容易受到物理损坏、电磁干扰和黑客攻击的影响,数据的安全性和可靠性难以得到保障。三、AI领域数据资源高效流通利用可行技术路径(一)打造全国产化、高性能“1+2+3+N”AI基础“1+2+3+N”AI基础设施体系,有效支撑数据资源高效流通利用和人工智能应用。通过技术架构创新,确保数据流、算力资源与模型资产的高效协同,赋能全行业快速部署和迭代AI能力,打造基于分布式存储的AI新基建,构建数据资源高效流通利用与AI双向赋能可行技术路径。“1+2+3+N”技术架构图“1+2+3+N”AI基础设施技术架构组成:1个技术基座:主要由计算资源、网络资源、全闪存储底座和人工智能大模型技术底座构成。2套管理体系:主要由数据管理政策体系和数据安全体3个基础平台:主要由智能化、一体化数据管理与流通平台(AI数据湖)、AI工具链、可信AI数据空间构成。N个应用场景:面向生命科学、医疗健康、农业科学、材料科学、气象海洋等领域实现AI赋能。(二)突破传统数据基础设施限制,通过先进存储技术构建统一数据空间,加快AI数据湖建设打造全国产化、高性能的新型AI数据湖数据基础设施底座,需融合硬件自主、软件生态、数据调度及绿色节能四大核心能力,构建覆盖算力、存储、网络的协同体系。新型AI数据湖是专为人工智能应用设计的数据存储与管理平台,能够统一存储、处理多模态数据(文本、图像、语音等),并支持大规模数据处理与智能分析。通过先进存储技术构建统一数据空间,全闪分布式存储以极低单位能耗支撑EB级数据存储,满足医疗影像、科研等场景的海量需求。新型AI存储核心能力对比如下表所示:表1传统存储能力和新型AI存储能力对照表新型AI存储能力实践表明,AI时代SSD全面替代HDD的转折点已经2+倍性能。SSD借助技术创新“避短扬长”在降低成本与节能减耗两个维度都取得了丰硕成果。通过重删压缩等新技术的应用,SSD的数据缩减比例可达3:1甚至更高,显著缩小单位数据存储成本与HDD之间的差距,预计到2027年SSD单位价格即可低于HDD;同时,SSD单盘容量的提升速度大幅超越HDD,预计到2026年其单盘容量可达300TB,远超HDD42TB的水平,有助于节省空间和功耗。在AI基础设施加速落地的驱动下,已商用的业界先进全闪分布式存储,已经支持高达61.44TB的大容量SSD,使得SSD相对HDD单盘容量超过2-3倍,同时在气象、卫星、自动驾驶、AI语料库等数据湖场景提供了2-3:1的数据缩减率和配套的可得容量保障服务,从而将SSD的单位容量成本逼近到IDD的1.2-1.3倍,而根据基于典型数据中心空间、功耗费用的评估,5年的总体运营支出(OPEX)可以降低70-80%,使得SSD相对HDD在5年的总体TCO上实现持平,而性能得到3-4倍的提升。AI数据湖与先进存储介质正在重构AI基础设施范式——从“算力优先”转向“数据驱动”,存储系统已从辅助载体升级为决定AI模型性能的战略性支柱。(三)构建智慧化、一体化数据管理与流通平台,提高“全局可视可管可用”数据服务能力构建智慧化、一体化数据管理与流通平台,旨在通过技术融合与流程优化,实现数据资源的全生命周期管理,并显著提升“全局可视可管可用”的数据服务能力。这一过程不仅涉及技术架构的革新,更强调组织协同与价值创造,为决策支持、业务创新和公共服务注入新动能。智慧化一体化平台的核心在于集成先进技术,打通数据壁垒,形成统一的数据治理体系。在数据采集层,通过物联网、传感器和API接口,实现多源异构数据的实时汇聚,确保数据全面性和时效性;在数据处理层,运用大数据分析、人工智能和机器学习技术,对原始数据进行清洗、整合和特征提取,转化为结构化、可分析的信息资产;在数据管理层,建立标准化数据目录和元数据管理机制,支持数据分类、分级和权限控制,保障数据安全与合规性;在数据应用层,提供可视化工具和API服务,赋能业务场景,如智能决策、风险预警和个性化服务等;智慧化特征体现在平台的自主优化能力上,例如通过算法模型动态调整数据处理流程,或利用预测分析预判数据需求,减少人工干预,提升响应效率。“全局可视可管可用”能力是平台价值的集中体现。全局可视,需构建统一的数据视图,通过Omni-Dataverse统一数据空间、增量元数据实时同步和地理信息系统(GIS)等技术,实现跨部门、跨系统的数据全景展示;可管可控,需强化数据治理框架,实施全流程监控,包括设立数据质量评估指标确保准确性,通过加密和访问控制技术防范数据泄露风险,并建立审计追踪机制,明确数据责任主体等;可用易用,优化数据服务接口,降低使用门槛,支持灵活的数据查询、分析和共享功能,例如通过自然语言处理技术,让非技术人员也能便捷获取所需信息,从而加速业务创新和公共服务优化。(四)打造可信AI数据空间,加快数据资源规模化流通利落实国家数据局《可信数据空间发展行动计划(2024—2028年)》的有关要求,构建可信AI数据空间,确保数据提供方、数据使用方、数据服务方、空间运营方等可信数据空间参与各方在可信环境中实现数据资源共享共用,实现“泛在入湖、数据可信、AI可用”,提升AI数据集高质量供给,打造多方主体价值共创模式,构建数据资源高效流通机制和可持续运营模式,推动可信数据空间与大模型融合创新。围绕数据“供得出、流得动、用得好、保安全”实现以下基础措施:在智融数据供得出方面,可提供工程化语料清洗、智能化语料标注和一体化数据供给等多项创新技术,保障高质量语料的供给;在智驱数据流得动方面,可遵循国际数据空间标准架构,通过“4W2H”(Where、Who、When、Do的操作系统内核级应用控制和机密计算技术,,破解数据要素流通中的“流通不可控”“传输不安全”的关键挑战;在智联数据用得好方面,可提供数据模型化、数据智能化和数据向量化三类AI技术,加速数据价值变现,赋能业务向智能化创新演进;在智护数据保安全方面,应在环境安全、数据安全、模型安全、内容安全和安全运营上提供全链路的安全防护能力。(五)促进AI驱动数据资源高效流通利用,深化场景赋能构建“汇数-治数-用数”一体化体系,通过技术底座、机制创新、场景适配三维联动,驱动数据从资源化向资产化跨越。在强化数据基础底座方面,应构建AI-Ready存力枢纽,打造存力中心破除行业数据壁垒,通过规模汇聚释放高价值行业数据,支撑AI从通用智能向专业智能跃迁。在创新流通机制方面,应建立分层可控数据空间,建立企业/行业/城市三级可信数据空间,通过数据视图、环境、服务标准化交易形态,推动场内场外交易双循环。在深化场景赋能方面,聚焦医疗、工业、政务等重点领域领域,促进AI驱动数据资源高效流通利用。如在医疗领域,AI模型蒸馏技术将32B参数专家模型部署至县级医院,诊断精度逼近三甲水平,降低跨省就医成本;如在工业领域,AI能耗优化算法动态调度生产负载,工业场景节能效率提升20%-30%;再如在政务领域,政务数据平台整合跨部门跨层级政务数据,支持“高效办成一件事”跨域协同,决策响应提速40%以上。四、AI领域数据资源高效流通利用最佳实践在数字经济时代,数据资源高效流通与利用直接关系到行业创新、服务优化和产业升级。然而,传统数据管理方案普遍面临存储架构僵化、数据孤岛林立、算力资源不足、分析效率低下等挑战,严重制约了数据价值的深度挖掘与应用创新。构建高性能的数据流通基础设施和智能数据治理方案,打破数据壁垒、优化算力供给、提升分析效率,已成为各行业数字化转型的必由之路。当前,医疗、科技、金融、动画、农业等领域的众多机构已通过存储设备升级、AI数据湖构建以及数据治理方案优化,打通了数据资源高效流通利用的“高速公路”。(一)AI赋能医疗行业:瑞金和华西医院AI数据湖及智能存储方案助力精准医疗1.瑞金医院打造医疗行业多模态病理大模型。上海交通大学医学院附属瑞金医院(以下简称"瑞金医院")作为国家医学中心和国家区域医疗中心,在推进医院数字化转型过程中面临着医疗数据资源流通利用不畅的关键挑战。随着医院信息化建设的深入,瑞金医院已积累了包括影像数据、基因测序数据、电子病历等在内的海量医疗数据资源,年数据增长量达PB级。然而,这些宝贵的数据资源分散在不同的业务系统中,存在"数据孤岛"现象,导致跨科室、跨院区的数据共享与协同分析效率低下。特别是在精准医疗、临床科研等创新应用场景中,传统存储架构无法满足高并发访问、实时数据分析等需求,严重制约了医疗数据价值的深度挖掘与应用创新。为此,瑞金医院基于分布式存储系统,构建新一代医疗大数据平台,旨在打通数据流通壁垒,实现医疗数据资源的高效整合与智能应用,为医院数字化转型提供坚实的数据基础设施支撑。瑞金医院医疗AI数据湖及智能存储解决方案基于全闪存分布式存储架构,构建了集数据汇聚、治理、训练于一体的全场景医疗AI基础设施。该方案采用"三层一平台"架构,通过EB级可扩展的分布式存储系统实现多模态数据统一管理,支持病理切片、基因组数据和电子病历等医疗数据的标准化存储与高效流通。该方案采用多协议互通架构,支持文件、对象和大数据三种接口协议,实现影像数据、基因测序数据和电子病历等异构数据的统一存储与管理。系统通过智能分级存储技术,将热数据存放在高性能NVMeSSD层,温数据存储在容量型硬盘层,冷数据自动归档至大容量硬盘层,在保证数据访问性能的同时优化存储成本。方案特别集成了面向AI训练的数据治理工具链,提供百万级病理切片的秒级检索、数据标注批处理及质量管控能力,并内置数据流动引擎实现训练数据的自动化供给,为医疗大模型的开发提供从数据准备到模型训练的全流程支撑。该医疗大数据平台为瑞金医院创造了显著的临床与科研价值:在临床诊疗方面,通过实现跨科室数据的实时共享与秒级调阅,将影像检查结果的调取时间从分钟级缩短至秒级,急诊抢救响应效率提升40%,大幅提高了临床决策效率;在科研创新层面,平台整合了全院PB级的多模态医疗数据,使基因组学分析与临床数据的关联研究效率提升5倍,支撑了30余项国家级重点科研项目,助力医院在精准医疗领域取得突破性进展;在运营管理方面,系统通过智能数据分层和压缩技术,使存储成本降低60%,IT运维效率提升70%,年节省电力消耗达30万千瓦时。同时,统一的数据治理体系的搭建,实现了医疗数据全生命周期的规范化管理。2.华西医院推进人类全基因分析进入分钟时代四川大学华西临床医学院(华西医院)作为中国顶尖的医学研究机构,在基因测序和大数据分析领域面临严峻挑战。随着高通量测序技术的普及,单台测序仪每年可产生约1PB原始数据,加上分析过程中5倍规模的中间文件,一个研究中心的年数据量可能突破10PB。数据流通环节也存在显著瓶颈,即海量数据的集群导入会挤占网络带宽,而分析过程中的实时数据共享需要存储系统提供30GB/s以上的持续吞吐能力,任何延迟都可能导致分析结果不完整或时效性丧失,这些挑战严重制约了基因研究的效率。华西医院打造的基因大数据分析平台基于全闪分布式存储系统,通过创新的架构设计解决了海量数据存储与混合负载挑战。针对测序仪产生的单线程顺序写数据流,系统采用分布式并行写入技术,4节点即可提供25GB/s(千兆字节每秒)写带宽,同时通过智能分层将原始数据实时存入NVMeSSD(高性能固态硬盘)层确保低延迟访问。面对基因分析流程中Mapping阶段(基因序列比对阶段)的单线程顺序读需求,系统提供30GB/s读带宽;针对基因变异检测阶段的单线程随机写和顺序读需求,采用元数据优化和全局缓存技术,将随机写合并为大块顺序写并预载高频数据至计算节点本地固态硬盘,实现10倍每秒输入输出操作数的提升。系统通过NVMeSSD(四级单元闪存)混合存储、智能缓存,统一管理原始数据、中间文件和结果数据,支持EB级线性扩经过多方基于架构、计算、存储的多维创新,联创平台在全球首次将全基因组分析流程缩短到7分钟,相比现有平台提速3.5倍,相比传统方案更是提升180倍。在第六届生物医学大数据·智能技术应用峰会上,华西生物医学大数据中心数据科学家发布了“WHS-IMOAP”高性能基因组分析联合解决方案,全球首次将人类全基因组分析推进分钟级时代。此项研究成果的发布,将加速精准医疗大数据在医学上的广泛应用。(二)AI赋能科技产业:东风岚图自动驾驶HPDA存储集群方案助推自动驾驶技术持续迭代岚图汽车为进一步提升智能驾驶领域的竞争力,启动智能驾驶云平台建设项目,支撑岚图智能驾驶功能的开发与迭代。其在海量路采数据的存储和高效使用方面主要面临着三项挑战:一是自动驾驶升级,路采数据量大:相比L3,L4路采数据量增加3-5倍,每天数百TB数据需导入存储,预处理后产生15%场景库数据需存储、PB级数据+)。二是一套业务,多种协议并存:测试数据传输导入、预处理、训练、仿真、结果分析各个环节要求协议不同(对象/NAS/HDFS等),数据孤岛严重,数据拷贝时间比处理分析时间长,导致效率低。三是业务模型复杂,性路采传感器种类多,业务IO模型复杂,要求在车型算法训练、功能仿真阶段均提供极致性能。岚图汽车采用基于全闪分布式存储架构的自动驾驶高性能数据分析(HPDA)存储集群,实现了数据处理能力的全面飞跃。借助全闪存高速存储池,数据注入速度提升4倍,100TB路采数据仅需2小时即可实现“导入-脱敏-上传”全流程。统一资源池支持全流程多种存储协议需求,实现数据零拷贝并简化IO流,使数据处理效率提升50%。AI算力支撑强劲,单框即可支持15w张图/s调阅,并能同时支撑30台8卡GPU服务器进行模型训练,推动模型发布速度提升2突破管理瓶颈,实现了千亿级场景片段的秒级检索。其数据生命周期管理高度自动化,存储层实现自动分级,数据按需流动,无需业务调度,显著优化TCO达60%。得益于高密硬件设计内置归档能力,整体投资节约50%。该平台全面支持云原生,无缝对接私有云平台,实现存储服务云化,可在容器环境中自动分发存储资源,并提供多租户管理能力以有效支持异构云平台对接。在可靠性与安全方面,存储层异步复制技术实现秒级RPO,无需额外投资容灾备份软件,并通过防勒索、加密与WORM功能严守合规底线。岚图方案的核心技术支撑原生无损多协议互通、热温冷数据智能分级及硬件高密设计,直接助力岚图自动驾驶开发效率整体提升20%。全闪分布式存储提供的高性能、大带宽传输及横向扩容能力,为岚图构建起一个庞大、高效且安全的数据池,为自动驾驶技术的持续迭代提供了充足的“数据燃料”。用户体验也同步提升,直观的存储管理控制台界面与后端强大工具使操作与维护更加便捷高效。(三)AI赋能金融行业:中原银行升级票据影像和数据湖平台显著提升商业价值中原银行作为资产规模突破1.3万亿的省级法人银行,在数字化转型中面临严峻的数据流通利用挑战。随着业务线上化快速发展,全行数据总量三年激增2倍,非结构化票据影像数据年增长达300TB,传统存储架构已无法满足需求。主要存在三大痛点:一是60余个应用系统形成数据孤岛,影像平台与核心系统数据割裂;二是存算一体架构导致资源利用率低下,AI特征提取延迟高达小时级;三是数据仓库与数据湖分离,跨域分析效率低下。这些问题严重制约了银行在风险管控、客户服务等领域的数字化创新能力。中原银行基于分布式存储构建了新一代AI数据湖平台,采用"湖仓一体"架构实现数据智能与业务价值的深度融合。中原银行构建了20PB级智能数据湖底座,支持S3/HDFS多协议互通,实现票据影像、交易流水等非结构化数据与结构化数据的统一纳管。该方案首先采用存算分离架构,将贴源数据及历史数据下沉至分布式存储池,结合弹性EC编码技术,支持多协议(S3/HDFS)互通访问,并采用智能分层策略将数据按访问频率分别存储在不同介质层。其次,通过高IOPS性能支撑和跨湖仓联邦查询技术,实现数据仓库与数据湖的无缝协同,同时通过统一元数据管理和分布式缓存机制,确保在百亿级对象规模下仍能维持稳定的高吞吐性能(3.6GBps),并内置远程复制和快速重建功能,保障数据资源高效流通利用。中原银行通过部署分布式存储系统构建的"湖仓一体"数据平台,实现了显著的商业价值和技术突破。该方案使全行数据存储效率提升175%,综合TCO降低20%以上,同时将关键业务系统的故障恢复时间从小时级缩短至分钟级。平台支撑百亿级对象访问并保持3.6GBps的稳定吞吐性能,使柜台业务等待时间减少30%,数据处理效率提升30%。(四)AI赋能动画产业:《哪吒2》火爆出圈得益于强大的数据存储底座能力万多个特效元素,不乏壮观的天宫、海底龙宫等宏大场景,打造出登峰造极的银幕体验,视觉效果超越想象。从栩栩如生的角色建模到逼真的材质贴图,从精心构建的场景到引人入胜的特效渲染,每一步都离不开对数以亿计的几何体和纹理数据的实时处理。这些渲染处理需要极为强大的算力支持和多轮优化调整,渲染过程对硬件资源要求也极高,租赁和维护高性能GPU集群、大容量内存、高效渲染引擎等硬件设施成本,强大的数据处理和存储能力是不可或缺的。据可可豆动画技术总监介绍,该片的配角精细度甚至超越了前作的主角,这无疑增加了制作的数据量。每帧画面需要处理高达10GB的数据量,没有强大的存储底座支持,这样的挑战几乎无法完成。而这一切,都得益于华为OceanStorPacific分布式存储提供的强大支撑。“每秒巨量的数据读写需求”在华为OceanStorPacifi

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论