版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、深度学习平台发展报告(2022年)全面开启产业赋能的黄金十年目录 HYPERLINK l _TOC_250008 一、 开启产业赋能黄金十年 2(一)人工智能处于工程化应用历史性机遇期 2(二) 深挖深度学习技术潜力是发展主旋律,规模化应用面临多元挑战 3(三) 平台化生态布局成为业界共识 4(四) 深度学习平台展现驱动产业赋能升级的巨大潜力 5 HYPERLINK l _TOC_250007 二、 深度学习平台体系架构 6(一) 深度学习平台三要素体系 6(二) 深度学习平台核心作用 7 HYPERLINK l _TOC_250006 三、 深度学习平台的技术创新重点 8(一)开源开发框架,
2、深度学习平台的基础核心 8 HYPERLINK l _TOC_250005 动静统一的编程范式大幅提升算法开发效率 8 HYPERLINK l _TOC_250004 大规模分布式训练技术有效提升巨型模型研发的承载能力 9 HYPERLINK l _TOC_250003 统一的高速推理引擎满足端边云多场景大规模部署应用 9 HYPERLINK l _TOC_250002 标准化的软硬件协同适配技术是打造国产化应用赋能的关键 10(二)模型库建设,算法创新、沉淀与集成管理是快速赋能关键 11(三)工具平台完善,覆盖数据处理、模型训练和推理部署全周期 12(四)专业领域延伸,围绕科学发现与量子智能
3、持续探索 13四、 深度学习平台的产业生态与应用路径 14(一)我国开发框架在市场与生态方面持续发力 14(二)多类生态建设共同促进深度学习平台繁荣发展 16 HYPERLINK l _TOC_250001 研究创新生态是平台保持可持续竞争力的关键 17 HYPERLINK l _TOC_250000 算力与算法协同的开发者生态是平台发展基础 17(三)多类平台化模式形态显现,大幅降低开发难度与创新成本 18(四)平台应用广泛开展,价值规律初步体现 19五、 总结与展望 23一、开启产业赋能黄金十年(一)人工智能处于工程化应用历史性机遇期人工智能浪潮汹涌澎湃,对生产生活、公共服务、社会治理乃至
4、全球竞争格局等领域产生广泛而深刻影响。人工智能已成为最为活跃的创新领域,对经济社会发展影响深远。在技术进步与市场需求双重驱动下,人工智能应用开始全面覆盖日常生活、科学研究、社会治理、商业创新和国家安全等经济社会的关键领域,以空前的广度和深度推动社会发展,为助力行业数字化转型、促进后疫情时代经济增长提供新动能。据测算,人工智能可显著提高整体经济生产力,即使考虑到转型成本和竞争效应,到 2030年也可能使全球总产量增长约13 万亿美元,并推动全球GDP每年增长约1 .2 %, 其作用堪比19世纪蒸汽动力、20世纪工业制造和21世纪初信息技术对世界经济的影响,人工智能将成为数字智能时代的全新生产要素
5、,加速助力全行业转型升级。人工智能进入规模工程应用与行业价值释放阶段, 推动产业赋能进入黄金十年。 Gartner 发布 2022 年重要战略科技趋势中,“AI Engineering( 人工智能工程化 )” 连续两年成为关键词之一,预计到 2025 年,落实 AI 工程化最佳实践的企业会比未落实类似实践的企业创造至少三倍的价值。在人工智能工程化浪潮中, 技术能力提升、应用成本下降、场景覆盖增强和治理规则完善成为主要动力支柱, 推动“ 人工智能 +产业赋能” 进入黄金十年: 一是技术能力加速迭代提升, 图像识别、机器翻译等技术的理论准确率不断逼近极限, 较高难度场景的语言理解、图文生成、知识问
6、答等任务也在逐步接近或超越人类水平,如谷歌 ST-MoE 模型在语言理解 SuperGLUE 上的得分达到 91.2,超越人类水平;斯坦福问答数据集 SQuAD 中,AI 最新得分为 95.7 ,同样超过人类表现。随着推理理解等高阶认知任务逐步成熟, 将带来更佳应用体验、更多赋能场景。二是 AI 技术的应用成本快速下降,以图像分类为例,自 2018 年以来, 训练图像分类系统的成本降低了 63.6%,而训练时间加速了 94.4%,业内不断涌现出更加贴近场景需求、低应用成本的服务平台形态, 带动工程应用的普及渗透。三是人工智能开始逐步深入解决细分领域长尾场景, 借助领域知识图谱、行业研发平台等技
7、术和工具创新,AI 行业渗透更加注重融合深度,致力于解决专业细分领域应用痛点问工程应用前提构建工具平台视觉、语音、语义.人脸自然语语音识别言处理识别目标检测.聚焦基础技术突破建立平台化赋能工具产业赋能黄金十年自动 交通 交通驾驶 辅助 调度驾驶.产品 工业 设备药物 医疗 医疗质检 仓储 检修研发 健康 影像物流管理环保政务金融规模应用与价值释放行业应用走深拓广深度学习平台涌现前沿探索与技术能力积累题, 赋能呈现全局化、精细化、深层次特点, 以科学计算领域为例, 飞桨框架在编程接口方面提供了傅里叶变换、线性代数计算等相关 50 多个 API, 可以更好支持量子计算、生命科学、计算流体力学、分子
8、动力学等学术应用。四是人工智能治理体系加速完善,斯坦福大学对全球 25 个主要国家的 AI 立法监测显示,AI 领域通过的法案数量从 2016 年的 1 项增长到 2021 年的 18 项,创下历史新高,人工智能治理体系的加速健全为 AI 技术大规模应用推广奠定坚实基础。伴随着技术、产业、政策等各方环境逐步成熟, 人工智能已跨过技术理论积累和工具平台构建的发力储备期, 开始步入以规模应用与价值释放为目标的产业赋能黄金十年。图1 人工智能进入产业赋能黄金十年(一)人工智能处于工程化应用历史性机遇期(二)深挖深度学习技术潜力是发展主旋律,规模化应用面临多元挑战深度学习仍是本轮人工智能发展的主导路线
9、,深挖技术潜力成为主旋律。深度学习技术及背后蕴藏的思维方式,已成为人工智能技术从业者、项目管理者、战略规划决策者必备的基础能力和认知方式。深度学习作为本轮人工智能兴起和繁荣的引擎, 无论从AI技术发展还是产业应用来说,都处于核心位置。近期新算法聚焦提升数据的质量与模型参数规模,深挖现有技术路径发展潜力,通过大规模预训练模型、自主生成数据、依托知识图谱常识关系、利用多源数据等方式弥补深度学习在通用泛化性、小数据、可解释性、自主学习能力等方面局限性,不断提升解决问题的水平和深度, 引领产业创新发展和结构升级。如谷歌提出基于预训练模型微调的方法M o de l Soup,将ImageNet准确度刷新
10、到90.94%的新高度;百度联合鹏城实验室推出的知识增强模型“鹏城-百度文心”,已在60余项任务上取得业界最好效果。深度学习技术红利向生产能力实质性转化成为关键,规模化应用仍面临多方挑战。随着技术水平的不断成熟,人工智能正在向更多的行业领域渗透,技术能力的行业价值变现成为主旋律。制造、物流、农业、医疗等传统行业集群开始享受人工智能(一)人工智能处于工程化应用历史性机遇期(三)平台化生态布局成为业界共识发展带来的技术红利,纷纷提出AI时代的行业转型升级目标和路径。然而,行业数字化、智能化转型作为一项基础性、系统性、持续性工程,是一个循序渐进、不断摸索的过程,人工智能在行业的规模化应用仍面临知识、
11、工具、数据等多方挑战:知识层面,诸多传统行业在数十年发展过程中沉淀形成的经验知识,是企业核心价值的载体,但难以通过格式化、规范化数据表征,进而无法训练出契合场景需求的算法模型,构筑行业知识壁垒;工具层面,目前市场上的方案多是通用型解决方案,无法满足企业、行业的专业化、个性化、一体化需求,缺少成熟、可信赖的集约式转型赋能工具平台;数据层面,受限于数据的规模、种类以及质量,目前多数企业对数据的应用还处于起步阶段,主要集中在精准营销、舆情感知和风险控制等有限场景,未能从核心业务转型角度开展应用融合,难以更好挖掘数据资产的潜在价值。以科技巨头引领的平台化生态布局不断加速,对AI底层基础设施提出更高要求
12、。当前,人工智能领域头部厂商纷纷从自身优势能力出发,围绕行业应用探索部署一系列软硬件工具,整合形成平台化生态布局,巩固其在人工智能时代的领导地位,典型代表如谷歌、百度等互联网头部厂商基于先进算法和技术优势布局开源框架,并以此为基础上下延伸构建智能生态平台体系。平台化生态布局战略能够壮大开发者社区及产业合作伙伴规模,但也对AI底层基础设施提出新挑战、新要求: 一是框架、算法、数据、算力的技术生产全栈布局是平台化生态布局的核心。 “高效算力支撑+成熟开发框架+行业平台工具”是绝大多数需求侧企业智能化升级的标配和技术选型依据,并已成为业界共识,驱使AI能力供给侧企业进一步整合框架、算法、数据、算力资
13、源,旨在提供便捷易用的整体解决方案。二是框架核心枢纽作用愈发凸显,与上层应用和底层硬件进行双向整合。人工智能时代,深度学习框架有着对应用接口和硬件适配的双向主导权,起到承上启下的作用,地位类比“人工智能时代的操作系统”,向上承接海量应用场景,使各类算法高效研发迭代和大规模应用部署成为可能,奠定了行业规模赋能的基础;向下适配各类芯片,满足不同算力架构、不同部署环境下的应用需求,是一体化生态布局的重要切入点。三是基于框架和平台构建的产业生态持续迭代演进是关键。以框架和平台为核心构建的产业生态,在为千(一)人工智能处于工程化应用历史性机遇期(四)深度学习平台展现驱动产业赋能升级的巨大潜力行百业转型升
14、级提供低门槛平台工具的同时,也需要行业用户以及社区开发者源源不断地反馈改进建议、倾听一线真实诉求,从而进一步完善自身产品能力,提高场景契合度,是一个不断优化迭代的往复过程,形成良性生态正循环。从赋能产业升级到推动人类进步,深度学习平台致力于更深层次、更大范围突破。当前,深度学习技术红利正在加速释放,深度学习平台通过与产业诉求深度融合,在赋能广度和赋能深度两方面展现出巨大潜力:从赋能广度上看,就覆盖范畴而言,深度学习平台正在向更多行业更多领域拓展,通过提供端到端代码实现方案降低行业创新门槛,如百度飞桨产业实践范例库已覆盖10大行业,47个产业高频场景,覆盖任务解析、算法选择、模型训练及优化、推理
15、部署及结果可视化等产业落地全流程;就具体行业而言,深度学习助力环节更加全面化,从单点提升向全流程赋能转变,打通企业核心业务流程,形成体系化解决方案,如英伟达在芯片设计过程中,能够利用深度学习绘制电压下降图、预测寄生元件、优化线路布局、自动化设计芯片标准单元、结果测试等多个关键环节,全面提升芯片设计效率和质量。从赋能深度上看,深度学习平台渗透更加注重融合深度,由边缘场景向核心任务挺进,不断挖掘专业细分领域创新应用场景,强调解决特定应用场景实际问题、兑现商业价值能力,如谷歌新发布的TensorFlow 3D工具框架,弥补了在高难度的3D场景理解方面能力不足(如运动3D目标检测、透明物体检测等),帮
16、助机器人和自动驾驶厂商更好优化完善现有解决方案。值得注意的趋势是,深度学习平台在人类进步领域的技术红利已开始释放,蛋白质折叠预测、核聚变装置控制、天体探测等各类重大科学问题陆续迎来基于AI工程化的解决方案,为人类攻克NP-har d级别的科学发展史里程碑问题带来新曙光。二、深度学习平台体系架构(一)深度学习平台三要素体系面向多样的产业应用需求,以开源开发框架为核心的深度学习平台构建基于从模型研发至部署的服务体系,包含开发框架、算法模型、开发工具及能力平台三大核心层级。在AI工业大生产时代, 深度学习技术的通用性越来越强, 深度学习平台的标准基础训练技术工具前沿技术研发工具开发套件和工具组件深度
17、学习开发平台化、自动化和模块化特征越来越显著,成为人工智能技术大规模、低成本融合赋能的基础。平台以成熟算法技术直接调用、个性化场景定制开发的形式为产业界提供各类创新应用,最终形成资源富集、多方参与、协同演进的人工智能赋能生态。在深度学习平台发展演进过程中,逐步形成“框架-算法-工具”三大核心层级。套件工具及能力平台算法模型基础算法预训练模型特定场景应用模型开源开发框架开发训练推理部署图2 深度学习平台层次架构底层是开源开发框架, 开源开发框架作为深度学习平台的核心枢纽, 下接GPU、ASIC 等智能计算芯片,上承计算机视觉、自然语言处理、语音等各类应用, 打通模型开发、训练、压缩、部署全流程能
18、力,使各类算法高效研发迭代和大规模应用部署成为可能。一是通过提供编程接口API、编码语言等方式为开发者搭建模型编程开发能力;二是依托并行训练、动静转化、内存优化等功能,实现模型编译及训练优化; 三是提供硬件接入能力,通过简化底层硬件技术细节,构建模型与算力连接通道,解决模型适配部署难的问题。中间层是算法模型, 深度学习平台面向开发者开放产业级模型能力,借助预训练方式可减少数据采集、标注时间及人力成本,缩短模型训练流程,从而实现模型的快速部署,加速AI技术能力向应用价值变现的过程。按技术路线和应用价值划分,主要可分为三类算法模型:一是经过产业实践的基础算法,如VGGNet、ResNet等主流 S
19、OTA模型; 二是提供自然语言处理、计算机视觉、多模态等领域的预训练模型,针对小样本的细分场景任务快速实现算法能力迁移;三是面向特定行业场景的应用模型(如工业质检、安防识别等),根据用户真实的产业落地诉求,推荐合适应用落地的模型与硬件组合,并提供相关实践范例。上层是套件工具及能力平台, 支持不同层级的模型研发与部署,满足开发者的各(二)深度学习平台核心作用阶段需求。主要作用体现在以下方面,一是降低技术应用门槛,通过提供集成化、标准化的基础训练技术工具组件,支持可视化分析、预训练模型应用、云上任务提交等能力,降低模型训练开发门槛;二是提供前沿技术研发工具,支持联邦学习、自动机器学习、生物计算、图
20、神经网络等技术能力,为模型创新提供支撑;三是针对产业实际需求,提供面向图像分类、目标检测、图像分割等具体业务场景的端到端开发套件,覆盖数据增强、模块化设计、分布式训练、模型调优、跨平台部署等流程,实现 AI能力的快速应用; 四是提供全生命周期管理, 搭建一体化的深度学习模型开发平台,提供从数据处理、模型训练、模型管理到模型推理的全周期服务,加速AI应用落地的技术开发与部署全流程,实现模型灵活管理与应用。一是驱动核心技术迭代升级。随着深度学习技术的逐步成熟和日益普及,模块化、标准化的流程工具成为开发者普遍诉求,深度学习平台应运而生。平台通过提供卷积、池化、全连接、二分类、多分类、反向传播等多种基
21、础功能组合的算法库,避免“重复造轮子”带来的资源浪费,帮助开发者将有限精力专注于更高层级创新突破,实现“巨人肩膀上”的创新,加速推动人工智能技术迭代升级。二是推动产业链上下游协同创新。操作系统作为PC和移动互联网时代连接底层硬件架构、上层软件系统与用户交互界面的控制中枢,是微软、诺基亚、苹果、谷歌等企业掌控产业生态主导权的核心抓手。在人工智能时代,深度学习平台同样起到承上(上层应用)启下(底层芯片) 的腰部连接作用,类比“人工智能时代的操作系 统”。深度学习平台的出现,使基于现有硬件体系的各类算法高效研发迭代和大规模应用部署成为可能,奠定了深度学习持续发展的基础。三是缩短千行百业智能化升级路径
22、。当前,人工智能工程化应用落地已迎来快速发展窗口期,如何缩短人工智能算法模型创建到实际投产的周期并提升应用效率成为各行业关注的核心问题。深度学习平台通过提供覆盖AI能力生产、运用、管理等全流程的工程化实践方案,从创建到工具、技术、机制等多方面解决企业智能化升级中面临的专业人才稀缺、数据成本高、模型开发难、资源效率低等问题,满足企业AI能力建设的迫切需求,打造智能化升级的基础底座。四是承载产业生态繁荣动能。深度学习是一个典型的共创型技术领域,只有构建健全完善产业生态才能实现持续繁荣发展。以深度学习平台为牵引,搭建起连接产业界和学术界的沟通桥梁,通过开发者社区、大赛峰会、培训课程等形式载体,聚合起
23、人才、技术、市场等产业生态资源要素。在输出技术能力、赋能产业升级的同时,不断培养起各行业利用AI技术解决痛点难点的惯性思维模式,进一步刺激下游需求,形成产业生态正循环。三、深度学习平台的技术创新重点(一)开源开发框架,深度学习平台的基础核心开源开发框架作为深度学习平台的基础核心,通过打造易用、高效、可拓展的框架引擎,解决产业级应用的一系列问题,涉及编程范式、大规模分布式训练、软硬件适配等关键技术,聚焦提升人工智能产品和软硬件解决方案的开发效率与易用程度。动静统一的编程范式大幅提升算法开发效率动静统一的编程范式大幅提升算法开发效率。框架编程范式是开发人员用于编写程序时把复杂问题抽象成程序代码的不
24、同方式,主要分为命令式编程(动态图)和声明式编程(静态图)两种编程范式,其中动态图编程具备开发便捷性的特点,开发者可在调整局部代码时,即时获得执行结果,易于调试、减少时间成本,但由于缺乏全局的计算图Pass、显存等优化,如算子间融合、显存inplace等,在性能、显存等使用方面有所不足。而静态图则将用户可事先定义的全部程序代码进行全局编译优化, 在功耗、性能等方面优势显著。目前,谷歌TensorFlow、飞桨等业内主流框架纷纷布局动静统一的编程范式,同时兼容支持动态图、静态图两种编程范式,即在支持动态图高效开发训练的同时,也支持开发后一行代码转静态图训练加速和部署,大幅提升开发者算法研发准确率
25、和生产部署效果。大规模分布式训练技术有效提升巨型模型研发的承载能力大规模分布式训练技术有效提升超大规模模型研发的承载能力。当前,算法模型的体积呈现指数级增长,以ERNIE3.0大模型为例,模型参数量2600亿,需要存储空间3TB,计算量6.2E11 Tera FLOPs。单台服务器,以英伟达V100为例,单卡显存 32GB,算力125 Tera FLOPS,难以满足千亿级参数模型的训练需求,在数据/ 模型读写、存储、训练等方面存在巨大压力。布局大规模分布式训练架构,承载千卡算力(相当于国家级超算中心算力)的调度和计算,正成为主流框架企业的共同做法,结合算力平台特性和模型特性的端到端自适应分布式
26、训练技术正在成为重要的创新方向。例如,和算力平台结合的弹性资源调度管理技术,全自动选择最优并行策略技术、高效计算及通信技术等。统一的高速推理引擎满足端边云多场景大规模部署应用面对多样化的部署环境,具备端边云推理能力成为开源开发框架作为行业普惠工具的重要标志。在万物互联智能时代,开发框架应具备端边云全面支持的推理引擎架构、与训练框架一体的内部表达和算子库,可以实现即训即用和最全面的模型支持。推理部署能力需覆盖服务器端、移动端、网页前端等,同时借助模型压缩工具,可以帮助开发者获得更小体积的模型和更高的性能。在部署环节,开发框架也应提供全流程、全场景推理部署工具链,实现在硬件受限环境下的快捷部署,如
27、飞桨开发训练得到的模型可以通过配套模型压缩工具PaddleSlim的剪枝、量化或蒸馏技术来进一步优化,支持服务器、移动端/边缘端、网页端等不同硬件场景的推理引擎进行部署。从生态来看,飞桨还支持其它框架模型在飞桨平台部署,也支持将飞桨模型转换为 ONNX格式部署,为开发者提供了多样化、个性化选择。标准化的软硬件协同适配技术是打造国产化应用赋能的关键业内领先的框架平台企业试图提供可满足多硬件接入的统一适配方案,包括统一硬件接口、算子开发映射、图引擎接入、神经网络编译器这几方面。一是构建统一硬件接入接口,完成不同硬件抽象层接口的标准化访问管理。如飞桨框架支持插件式硬件接入功能,实现框架和硬件的解耦,
28、开发者只需实现标准接口,即可在框架中注册新的硬件后端。二是提供算子开发映射方式,通过芯片提供的编程语言编写算子Kernel或算子映射方式接入硬件。具体可通过算子复用技术,减少算子数量;通过提供硬件Pri mi- tive开发接口,实现算子在不同硬件上复用;对于现有算子无法满足运算逻辑和性能需求的问题,开发者可以自定义算子,无需重新编译安装飞桨框架。三是提供图引擎接入方式,通过框架计算图和硬件图引擎之间的适配,实现硬件接入。为了更高效适配深度学习框架,硬件厂商通常会提供图引擎,如英伟达的 TensorRT、Intel的OpenVINO等,框架仅需实现模型中间表示向厂商模型中间表示的转换即可适配。
29、四是打造神经网络编译器,实现自动优化的编译技术,利用基础算子自动融合优化实现复杂算子功能,降低适配成本的同时, 优化性能。如百度神经网络编译器 CINN具有方便接入硬件,提升计算速度的特点。对比业内的TVM ,CINN额外支持了训练功能;对比谷歌的XLA,CINN提供自动调优技术,可更好实现软硬协同,发挥硬件性能。(二)模型库建设,算法创新、沉淀与集成管理是快速赋能关键能力模型库是深度学习平台推动AI普惠化,实现快速产业赋能的关键能力。为解决人工智能算法工程化落地过程中面临的研发门槛高、周期长等问题,深度学习平台将模型库作为平台的核心能力进行建设,开发者依托模型库,无需从头编写代码即可实现算法
30、能力,实现应用模型的不断复用,从而促进人工智能应用多样化和规模化发展。当前,深度学习平台均基于自身开发框架构建算法模型库,提供快速搭建人工智能应用能力, 如Meta推出 PyTorch Hub ,提供算法模型库以及简易API和工作流程;百度飞桨构建产业级模型库并提供面向场景应用的模型开发套件,实现模型直接调用及二次开发的能力,提升算法研发应用效率。深度学习平台在前沿技术领域持续创新,沉淀先进算法能力,推动SOTA模型应用落地。一方面, 深度学习平台已成为先进算法模型的重要承载体, 全球来看, AI领域创新算法的提出六成以上使用国际主流开发开源框架进行验证;另一方面,学术界、产业界对先进算法的使
31、用需求反推深度学习平台加强对SOTA模型库的能力建设,促进原创算法持续产生。当前,国际主流深度学习平台模型库不断加强对前沿算法模型的积累,将算法能力沉淀至深度学习平台模型库,为开发者提供前沿技术能力支撑,如百度飞桨模型库支持多个国际竞赛中夺冠的算法模型,并将知识增强跨语言大模型ERNIE 3.0加入到模型库中,促进前沿算法技术的产业转化。模型库通过应用场景实践加速完善, 产业赋能能力不断强化。为满足产业多样化场景需求,切实推动AI算法应用落地,模型库主要通过两个方面提升平台产业赋能能力。一是通过细化应用场景,丰富算法覆盖方向,拓展模型库能力边界。模型库基于计算机视觉、自然语言处理等基础算法,依
32、据实际产业需求对能力应用场景进行细化,面向图像分割、车辆检测、个性化推荐等细分任务提供经过产业实践的模型。此外,通过引入预训练模型,为开发者提供灵活、可拓展的算法能力,可实现在小样本任务中的快速应用,如飞桨目前支持产业级开源算法模型超500个,已在金融、能源、交通等各行各业广泛应用。二是从实际产业应用场景出发,聚焦AI工程化落地问题,通过提供轻量级、低能耗的产业级部署模型,解决实际应用场景中模型的精度与性能平衡问题。如,IBM开放的预训练深度模型库,针对模型产业落地应用场景,提供可部署类模型;百度飞桨推出了23个精度与性能平衡的产业级PP系列模型,这些模型已经在经过大量应用的打磨验证,在金融、
33、能源、交通等各行各业取得广泛应用,确保成熟稳定。(三)工具及平台完善,覆盖数据处理、模型训练和推理部署全周期深度学习平台围绕前沿技术开发部署新范式、数据模型全流程可视化分析管理、企业级高精度应用构建以及全平台部署来布局相关工具组件及平台。一是打造面向新型学习范式的系统化工具, 深度学习平台面对强化学习、联邦学习、图学习、量子计算、生物计算等前沿学习范式,提供所需编译运行机制和解决方案,实现广泛的模型应用场景。如飞桨打造图学习框架PGL(Paddle Graph Learn- ing ),提供异构图数据采样和存储能力,以及图卷积神经网络、图注意网络、基于图卷积的无监督学习网络等模型,并结合分布式
34、嵌入存储能力实现大规模分布式训练。飞桨联邦学习框架Paddle FL提供数据加密和分发解决方案以保证数据安全,并在训练和推理中支持用户选择多方安全计算(MPC)协议以自定义训练策略,训练结果可以以加密工具完成安全共享和重构。二是开发覆盖数据管理、模型开发和推理部署的全流程研发工具集, 实际应用落地作为深度学习平台的出发点和落脚点,平台通过提供开发套件和工具组件,端到端打通数据准备、模型训练与优化、多端部署能力,助力产业实践工程化高效部署。如飞桨全流程开发工具PaddleX集成智能视觉领域的图像分类、目标检测、语义分割、实例分割任务能力, 提供统一任务API接口, 助力开发者无需分别安装不同套件
35、以低代码的形成完成模型全流程开发,基于Paddl e X发布的轻量级分类模型PPLCNet超越ResNet152效果;飞桨目标检测开发套件Paddle Detection,模块化地实现了多种主流目标检测算法,提供多种数据增强策略、网络模块组件,并集成了模型压缩和跨平台高性能部署能力,目前已广泛在智慧交通、安防监控和商品检索上落地应用。三是提供企业级高精度应用构建和全平台部署能力, 企业开发服务平台作为深度学习平台的重要出口,整合底层核心开源框架以及上层数据处理、模型开发构建、模型训练管理及端侧部署能力,辅助企业实现一站式模型定制能力。如百度深度学习平(四)专业领域延伸,围绕科学发现与量子智能持
36、续探索台面向不同开发能力的企业打造零门槛AI开发平台EasyDL和全功能A I开发平台 BML,其中EasyDL内置文心大模型,可结合网络结构搜索和迁移学习等技术完成语言理解、语言生成、图像分类、物体检测、图文生成等任务,支持企业实现在公有云、本地服务器、移动设备的多侧灵活安全部署;BML提供NoteBook建模、代码建模、可视化建模、模型产线建模、Pipeline建模等多种开发方式,以适应不同建模水平,并提供多种调参选择,实现多自由度优化。同时支持模型测评,输出可视化建模评估结果。在实际应用效果上,某银行基于百度开发平台建立智能风控模型,可结合少量用户数据进行优化收敛,模型中区分度评估指标K
37、S相对提升约6.3 5%,实现了 21.5%的用户排序优化。领先的深度学习框架及平台企业围绕更为前瞻性的生物医药、量子智能等垂直专业领域加速布局,降低前沿科学研发领域门槛,提升应用开发效率。当前,前沿学术研究进入多学科融合、技术工具升级发展的新阶段,人工智能技术已成为推动前沿科学发展的重要路径之一,在如科学计算、生物医药、量子智能等领域实现多点突破与创新的同时,也对深度学习平台工具能力提出新的挑战。头部企业聚焦以下几个方向,完善平台在专业领域的研发能力。一是围绕量子智能,布局量子计算,挖掘人工智能算法应用潜力。量子计算具有传统计算无法比拟的信息携带量和并行计算处理能力,有望打破人工智能模型参数
38、量激增带来的计算瓶颈问题。头部企业基于深度学习平台提供量子计算工具套件,推动量子技术与人工智能融合发展,如谷歌开源 TensorFlow Quantum ( T F Q ) 框架, 将人工智能与量子计算结合,可用于构建量子数据集、混合量子模型和经典机器学习模型、支持量子电路模拟器、训练判别和生成量子模型等能力;百度基于飞桨国产开源框架能力构建量子机器学习开发工具“量桨Paddle Quantum”, 通过前沿的量子神经网络、LOCCNet、量子核方法、含噪量子电路模拟等模块,为开发者提供人工智能、组合优化、量子化学方面的量子应用研发工具,提升运行效率,降低量子应用研发门槛。二是聚焦蛋白质结构预
39、测、化合物性质预测等生物医药领域重点方向,构建生物计算及模型研发工具集。人工智能技术与生物医药相结合,可极大提升任务准确性及效率,成为产业布局的重要方向。DeepMind、华盛顿大学相继开源蛋白质结构预测四、深度学习平台的产业生态与应用路径工具Alpha Fold 2、Rose TTAFold, 入选科学杂志评为2021年度十大突破; 百度生物计算平台Paddle Helix基于飞桨框架面向开发者提供包含RNA二级结构预测、大规模分子预训练、ADMET预测等在内的开源工具集,并构建生物计算和服务平台,可应用于药物研发、疫苗设计等领域,基于螺旋桨打造的“ADMET成药性预测模型”已经在Biote
40、ch公司实际业务管线中完成商业化落地。(一)我国开发框架在市场与生态方面持续发力深度学习平台市场正处于快速发展期。面向各类行业赋能主体、差异化水平开发者的应用需求,头部企业通过整合算力、研发、部署、行业应用等AI服务能力,实现全栈化的深度学习大平台体系,布局硬件芯片、框架工具、研发平台及行业应用方向,完善系统化平台能力,构建产业融合生态。整体来看,国外开发框架主要以谷歌TensorFlow、META PyTorch为主。从社区生态构建、平台服务规模、技术应用能力等维度综合来看,国际上TensorFlow和 PyTorch在谷歌、Meta支持下,技术功能不断丰富完善,是产业界、学术界研究创新和工
41、程应用的主要依托框架。近年来国内涌现了一批如百度飞桨、华为昇思、旷视天元、之江天枢等开发框架,已逐步进入行业渗透和融合应用阶段,支撑构建一批更加符合本地产业特色和场景需求的解决方案。其中,百度是国内最早布局开发框架的企业,已基于飞桨框架构建了体系化、专业化、低门槛的深度学习平台。百度飞桨基于我国产业实践与应用创新需求,在社区生态构建上持续发力、优势渐显,在平台服务规模和技术应用能力方面更已具备领先优势,超越TensorFlow 和PyTorch跃居成为我国市场应用规模第一的深度学习框架和赋能平台。此外,我国华为昇思、旷视天元、之江天枢等其他框架也在同步快速发展,在科学计算、城市治理、公共服务等
42、不同方面有力推动了行业领域的转型进步。卓越技术应用能力深度学习专利数量位居全球第一针对国内需求特点提供高精度模型库,强调对中文情境和国产硬件支持社区生态构建全球生态发展最快的主流开发框架活跃度、关注度等指标超国内其余框架总和平台服务规模服务18万企事业单位全国规模最大的开发者群体广泛完善图3 深度学习框架和赋能平台评价维度(中国市场)社区生态构建方面,我国已成为全球开发框架生态发展最快的国家。相较于国际主流框架,我国以飞桨为代表的开发框架在近一年半中的项目贡献人数(Contribu- tors)增速为TensorFlow、PyTorch的5.2倍、1.6倍,关注度(Star)增速为3.8 倍、
43、1.3倍。我国飞桨、昇思等不断加大生态构建力度支持,生态规模快速增长,其中飞桨在活跃度(Fork)、关注度(Star)、贡献人数(Contributors)指标上均位于榜首(见表1),超过其余国产框架总和,呈现较高活跃度和关注度。整体来看,目前飞桨社区生态仅次于PyTorch,位居国内市场次席。TensorFlowPyTorchPaddlePaddle图4 Github中主流深度学习框架生态指标变化情况 (2020.112022.05)排名名称活跃度关注度贡献人数1PaddlePaddle4500183005582MindSpore54229003033MegEngine4824100344O
44、neFlow40734001105Jittor244240035表1 Github中我国深度学习框架情况 (截止2022.05)平台服务规模方面,基于国产框架的行业解决方案正在向垂直领域快速渗透。随着人工智能进入大规模工程落地阶段,国产深度学习框架迎来新一轮发展机遇,向行业融合渗透不断加强。如百度飞桨已凝聚国内规模最大的开发者群体(477万)、服务18万企事业单位,相比一年前均增长约50%,基于飞桨平台创造出56万个模型,超越Tensor Flow和PyTorch成为国内服务规模最为广泛的框架工具,不断夯实AI工业大生产的基础,有力推动了我国实体经济的高质量发展。技术应用能力方面,以飞桨为代表
45、的国产开发框架在创新发展中占据一席之地。从全球范围看,TensorFlow和PyTorch是引领AI技术创新潮流的核心框架。但从 2016年至今,国内深度学习框架在经历多年积累、沉淀、探索后,创新成果已经逐步涌现。如飞桨PaddleClas、PaddleDetection、PaddleGAN、PaddleOCR、Pad- dleSpeech等开发套件发布后多次登顶Papers with Code和Github趋势榜单,引起业界高度关注;专利方面,百度深度学习专利数量已位居全球第一,在自然语言处理任务、知识增强模型、生物计算等诸多领域开始逐步引领创新潮流。此外,针对国内市场需求特点,飞桨提供了大
46、量经过真实应用场景有效验证的高精度、便捷部署的官方模型库, 相关算法及API更加强调对中文情境的支持优化, 能够广泛支持国产硬件平台,技术能力优势逐步凸显,相较于TensorFlow和PyTorch成为更满足国内技术应用需求的开发框架。(二)多类生态建设共同促进深度学习平台繁荣发展研究创新生态是平台保持可持续竞争力的关键深度学习平台与高校及科研机构共建研究创新生态,加快平台技术创新步伐。当前人工智能技术已成为重要的科研工具,服务高校及研究机构研究工作,同时,平台围绕研究需求进行能力升级,沉淀前沿创新技术,保持可持续竞争力,形成创新共创生态。当前主要有两大模式,一是深度学习平台通过深入探索人工智
47、能与科学计算、生物医药等前沿技术方向的应用场景,推出模型及工具套件,降低人工智能技术应用于研究创新的门槛,服务高校及研究机构的创新研究,如飞桨推出科学计算平台赛桨 PaddleScience、量子计算平台量桨Paddle Quantum及生物计算平台螺旋桨Pad- dleHelix支撑前沿领域研究工作。二是深度学习平台企业与高校及研究机构共建研究中心、实验室,联合攻关人工智能关键核心技术,探索创新联合体模式,如百度联合清华大学、北京航空航天大学、中国信息通信研究院、中国电子技术标准化研究院共建深度学习技术及应用国家工程研究中心,以深度学习技术为核心,推动加速科技成果工程化、产业化。算力与算法协
48、同的开发者生态是平台发展基础深度学习的快速发展带来对算力的巨大需求,软硬件协同生态的构建成为深度学习平台加速人工智能产业落地的关键发力点。算法是人工智能赋能行业的核心要素, 深度学习平台通过与开发者共建算法协同生态,促进算法繁荣,扩展人工智能产业赋能广度与深度。一是与芯片企业共同围绕软硬协同进行联合优化,是深度学习平台提升对差异化的硬件芯片的适配能力的主要方向,如百度飞桨与包括英特尔、英伟达、ARM 、华为、寒武纪、瑞芯微等硬件厂商合作,通过提供适配方案,双方联合测试互认证的方法,实现对市场主流芯片的适配能力,目前已与超过20个厂家,30种以上的芯片完成适配工作,实现生态繁荣共赢。二是深度学习
49、平台通过组织培训、技术指导、赛事等活动等方式,与开发者共建社区生态。平台通过构建分层次、分梯队的技术培训、指导活动,为不同基础的开发者提供支持,逐步构建面向产业的技术赋能开发者社区生态,为开发者提供项目分享和实践机会。同时,通过组织人工智能赛事活动,推动在前沿研究、产业应用中的AI 技术难点攻关,共建繁荣技术创新生态。如百度飞桨推出产业人才培训课程体系,覆盖计算机视觉、自然语言处理、个性化推荐、推理部署等20 余个子方向, 累计沉淀 300+小时课程、40+ 场次城市巡回,指导并赋能10000+企业AI工程师及开发者实现即学即用的能力。(三)多类平台化模式形态显现,大幅降低开发难度与创新成本深
50、度学习平台构建两类平台化服务模式,推动新的商业模式和业务形态升级。实际应用场景中,由于需求方技术、场景复杂度均存在较大差异,对深度学习平台的服务模式提出多样化需求。一是零门槛开发模式, 主要以传统行业、应用开发商等类型的主体为主,该类主体在信息技术研发、算法能力方面基础薄弱的情况下,希望AI能力能够快速应用至实际生产环境中。零门槛开发模式具有易上手、部署快等特点,通过内置包括数据处理、模型训练、参数调节、模型调优、应用部署等在内的自动化能力,实现快速实现人工智能在业务场景的部署与应用, 如飞桨推出企业版Easy DL, 平台后端预置大规模预训练模型,结合自动机器学习算法及自动化场景适配和算法调
51、优技术,使得用户只需要完成数据标注,平台即可自动化完成算法选择和训练调优,训练好的模型可直接发布为API服务或者适配到不同芯片和硬件平台的SDK。二是企业级专家开发模式, 多样化业务场景带来算法建模方式、硬件平台、预测服务、流程管理等定制化需求,支持企业实现结合自身业务场景及现有开发环境的算法模型研发能力。因此,深度学习平台需支持预置模型调参、交互式建模、作业建模、可视化建模、自动化建模等高级建模方式,并提供开发管理、模型管理、部署管理等能力,实现企业级灵活开发及管理。此外,平台需满足企业对算力的使用要求, 支持如多机多卡分布式训练、硬件选型等能力。如,飞桨企业版BML面向企业开发者场景扩展了
52、多人协同、资源接入、资产管理、服务部署及运维管理等相关能力,支持公有云、边缘计算等多种部署方案,在预测服务方面,支持弹性伸缩、自动启停、流量切分、服务编排等能力,降低预测成本,更好的支撑大规模产业应用需求。三是专业领域的定制化开发模式, 如生物医药、量子智能等专业领域需要深度学习平台支持基础业务逻辑及计算方式,通过预置专业领域预训练模型、提供全流程(四)平台应用广泛开展,价值规律初步体现pipeline、完善算子功能等方法,提供专业领域定制化模型开发能力。如PyTorch在 1.9版本中增加支持线性代数的算子,可用于科学计算;飞桨量子计算平台量桨 Paddle Quantum构建量子机器学习工
53、具集,提供组合优化、量子化学能力,常用量子电路模型,以及丰富的量子机器学习案例,帮助开发者便捷地搭建量子神经网络, 开发量子人工智能应用;在生物计算领域,飞桨发布了PaddleHelix螺旋桨生物计算平台,提供基于大规模数据预训练的分子表征和蛋白表征模型,助力分子生成、药物筛选、化合物合成等任务,同时提供从分子生成到药物筛选到全流程pipeline,加速生物医药研发。深度学习平台三级赋能价值体系初步确立,分层次支撑千行百业数字化转型。人工智能进入大规模工程化应用落地关键时期,综合场景特点、市场规模、技术难度等因素,深度学习平台赋能价值体系可划分为基础能力服务、智能分析决策、前沿创新探索三大层级
54、,在不同环节、不同程度上促进人工智能与城市、制造、能源、金融、交通、医疗、企业服务、科学计算等领域深度融合,重塑创新链、价值链、产业链。其中计算机视觉、语音语言等基础能力服务占现有平台应用的六成左右,目前应用最为广泛,典型应用包括工业质检、巡检、文本识别等;智能分析决策占三成左右,主要以金融风控、用户推荐为主;前沿创新探索获得初步应用,占一成左右,成为近期赋能热点。启迪探索辅助决策机械替代图5 深度学习平台三级赋能价值体系(1)平台赋能价值第一层级:基础能力服务面向众多行业领域中的底层通用场景,深度学习平台可提供各类基于计算机视觉、语音语言等基础AI能力的解决方案,最大限度发挥和推广深度学习技
55、术价值。基于语音语言、视觉等基础AI能力的应用场景,如人脸识别、工业巡检、制造质检、城市管理、语音助手等,具备应用技术成熟、导入成本较低、场景需求相对标准、市场空间广阔等特点,而传统解决方案大多依赖人力完成,“机械替代”成为现阶段众多行业企业的主要诉求。针对上述场景,谷歌TensorFlow、Meta PyTorch、百度飞桨等深度学习平台纷纷开放目标检测、图像识别、自然语言处理等基础算法模型能力,提供完整训练推理和部署工具,帮助企业大幅降低人力资源成本,提高生产运转效率。具体来看,基础能力服务又可细分为三大价值场景。一是基于视觉能力场景。通过平台提供的高精度图像识别、目标检测模型以及完整的训
56、练推理开发部署套件,辅助企业完成工业质检、通道巡检等工作,解放人力资源。例如大恒图像为解决电池隔膜种类缺陷多、毫米级缺陷像素少、检测速度要求高等挑战,将工业相机采集的电池隔膜图像作为飞桨框架数据输入,利用语义分割模型 Paddle Seg进行精细分割以实现快速分类, 产线升级后分割准确度和缺陷分类精度分别达到82%、98%,精度提升30%,质检时间缩短至2毫秒;国网山东电力公司采用飞桨YOLOv 3模型实现对吊车、塔吊、挖掘机等施工器械以及导线导物、烟火的多目标检测,并进行模型剪裁与蒸馏,最后通过Paddle Lite实现端侧部署,将识别时间缩短至0 . 5秒, 吊车准确率、塔吊准确率、施工机
57、械准确率均超过95% ; 华夏天信(北京)机器人有限公司基于飞桨视觉工具套件研发的“输煤胶带智能巡检机器 人”,解决了之前难以检测或检测速度慢、容易漏报和误报等难题,识别准确率大幅提高,开发时间缩短 70以上。二是基于语音语言能力场景。深度学习平台可针对多语种、多目标、多任务、远近场的语音场景完成精准识别翻译,实现生活服务与工业制造等场景下的智能应用。例如飞桨推出语音模型库PaddleSpeech,开源业界首个声纹识别和音频检索系统, 实现语音识别、语音合成、声音分类的一键开发部署;海尔洗衣机采用讯飞开放平台声纹诊断技术,实现洗衣机噪音质检标准化、无人化,识别效率从人工的90%提升至 98%。
58、三是人机融合场景。在实际应用场景中,人工智能除直接利用视觉、语音等基础AI技术外,更多需要结合工业机器人、无人机、AGV小车等先进设备,实现人机高效协同工作。例如京东物流将飞桨图像分类、检测、分割套件部署在从库房下单、分拣中心到运输全流程,并采用PaddleSlim模型压缩技术实现边缘侧服务器的模型轻量化部署, 整体工作效率可提升65%; 国控广州采用旷视河图智慧物流平台, 实现单据纸箱信息的智能识别与运输路径仿真规划, 将仓库存储密度提升15% 、整体效率提升 25%,作业完成时间提前2小时。(2)平台赋能价值第二层级:智能分析决策借助专家级行业知识图谱,深度学习平台能够深入企业核心业务场景
59、,结合领域知识提供智能分析预测和辅助决策能力。在智能时代,众多企业已将数据的定位由 “资源”升级为“资产”。知识源自于数据的提炼萃取,在人工智能助力下具有更高的应用价值,帮助企业沉淀业务逻辑,支持核心能力创新迭代。借助行业知识图谱为企业机构提供进一步分析决策能力成为发展重点,当前谷歌、百度等深度学习平台发布的金融、医疗等多个行业模型已超过专家水平,可满足在极短时间内完成海量数据处理,分析预测行为变化或对企业关键决策提供辅助建议。一是行为数据分析。深度学习平台通过分析时空序列数据,可对产业生产、供应链、企业利润进行分析预测,提前告知预警潜在风险,辅助经济平稳运行。例如网易严选为解决预测周期长、销售渠道多、促销波动大、数据不连续、需求类型多等问题,采用TensorFlow完成从数据清洗、特征工程、商品分类、模型训练、评估校验到模型输出的全流程优化管理,并借助平台概率网络模型对销售量、区间分布在不同事件和季节等因素影响下进行预测,准确率达到国内领先水平;某发动机制造企业借助飞桨平台的时序大数据建模能力,助力构建发动机故障诊断能力,基于故障的知识图谱可预测未来一段时间内发动机系统发生故障的概率,诊断准确率达到85%以上。二是辅助决策管理。深度学习平台对数据样本高精度、大批量、低时延的识别处理能力,能够快速挖掘并提炼海量数据资源中潜在的业务知识,可以为企
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论