人工智能大模型市场分析_第1页
人工智能大模型市场分析_第2页
人工智能大模型市场分析_第3页
人工智能大模型市场分析_第4页
人工智能大模型市场分析_第5页
已阅读5页,还剩34页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

人工智能大模型市场分析AI趋势明确,大模型为关键环节全球AI产业发展趋势明确,波动中前行。自1956年约翰·麦卡锡首次提出“人工智能”的概念以来,全球人工智能产业逐渐进入学术研究和产业实操并进的阶段。尽管在算力性能、数据量、硬件成本等多重因素影响下,人工智能产业经历了“三起两落”的螺旋式发展,但全球人工智能发展的趋势仍然明确,通用人工智能(AGI)仍然是人工智能行业发展的主线。ChatGPT加速推进AI产业发展,需求爆发倒逼供给创新。ChatGPT在全球范围内快速传播,在短时间内完成了对企业和用户的市场教育,需求端的爆发驱动着供给端加速创新,加快推动全球AI产业发展进程。IDC预测,2026年全球AI市场规模有望达3082.8亿美元,2023-2026年CAGR约26.7%。而AI作为下一代全球科技竞速的重要领域,我国从顶层设计到科技企业均积极参与,有望进一步带动国内AI产业发展。IDC预测,2026年,我国AI市场规模有望达264.4亿美元,2023-2026年CAGR约21.5%。政策重点支持,人工智能有望维持高景气。人工智能作为展现大国国际竞争力的重要领域,我国在顶层设计方面始终重视对人工智能产业发展的鼓励和引导,在关键技术投入、人才培养、人工智能赋能实体经济、基本伦理要求等方面均推出相关政策。政策积极支持下,我国人工智能行业有望维持高景气。9月1日,网信办发布第二批境内深度合成服务算法备案信息,百度文心大模型、抖音云雀大模型、京东言犀大模型、腾讯混元助手大模型等110款深度合成服务算法通过备案。随着国产大模型陆续向公众开放服务,有望加速产品落地进程及模型迭代飞轮,并驱动AI的商业化变现。产业结构:大模型是重要一环,AI时代的入口之争。从AI产业结构来看,大模型是连接底层算力和上层应用的重要一环,成熟的大模型能力和生态是真正实现通用人工智能和未来应用端繁荣的基础,拥有更强计算和推理能力、更高通用性的大模型企业有望把握AI时代的流量入口和话语权。竞争态势:格局明晰尚需时间,看好互联网巨头领先优势发展阶段:国内大模型百家争鸣,格局明晰尚需时间全球:中美领先发展,但行业格局或将相对独立。从全球范围来看,中美在大模型领域引领全球发展。其中,基于在算法模型研发上的领先优势,美国大模型数量居全球首位,根据中国科学技术信息研究所、科技部新一代人工智能发展研究中心联合发布的《中国人工智能大模型地图研究报告》,截至2023年5月,美国已发布100个参数规模10亿以上的大模型。中国亦积极跟进全球大模型发展趋势,自2021年以来加速产出,如2021年6月北京智源人工智能研究院发布1.75万亿参数量的悟道2.0、2021年11月阿里M6大模型参数量达10万亿等。截至2023年5月,我国已发布79个大模型,在全球范围占据先发优势。但考虑到数据安全、隐私合规以及科技监管等因素,我们认为中美的大模型市场有望形成相对独立的行业格局。海外:OpenAI及谷歌双龙头+Meta开源追赶+垂类特色厂商的格局已较为清晰。从海外大模型格局来看,目前已经形成较为清晰的双龙头领先+Meta开源追赶+垂类繁荣的格局。同时,基于通用大模型能力已相对成熟可用,其上的应用生态已逐渐繁荣。得益于对先进算法模型的集成以及较早的产品化,OpenAI不仅展现了GPT在人机对话中的超预期表现,同时基于GPT的应用生态也已逐渐繁荣,微软数款产品(Bing、Windows操作系统、Office、浏览器、PowerPlatform等)、代码托管平台GitHub、AI营销创意公司Jasper等均已接入GPT。谷歌在人工智能领域持续投入,其提出的IeNet卷积神经网络模型、Transformer语言架构、BERT大语言模型等均对全球人工智能产业产生重要推动。但由于公司团队变动及更谨慎的产品化落地的态度,谷歌前期尚未大规模推出面向C端的AI产品。在ChatGPT快速流行的带动下,谷歌亦推出聊天机器人Bard及PaLM2,并将接入谷歌的协作与生产力工具Workspace以及与Spotify、沃尔玛、UberEats等外部应用融合。Meta通过开源方式快速追赶,7月发布最新开源大模型LLaMA2,使用2万亿tokens训练,上下文长度翻倍,实现了更强大的表现能力和更广泛的应用场景。此外,Anthropic、Cohere、HuggingFace等基于各自的垂类特色和定制化服务也在海外AI市场中扮演着重要角色。国内:大模型投入如火如荼,格局明晰仍需时间。ChatGPT获得良好用户反响并在全球范围引发关注以来,中国头部科技企业(阿里、百度、腾讯、华为、字节等)、新兴创业公司(百川智能、MiniMax等)、传统AI企业(科大讯飞、商汤科技等)以及高校研究院(复旦大学、中科院等)亦加速大模型领域投入。当前国内大模型仍处研发和迭代的早期阶段,各个大模型的性能差异及易用性仍在市场检验的过程当中,我们预计国内大模型领域竞争格局的明晰仍需一定时间。竞争要素:技术投入、核心人才和应用场景构成核心壁垒技术投入、核心人才和应用场景构成核心壁垒。我们认为,大模型是一个重资源禀赋、高进入门槛的赛道,其对算法模型的有效性、高质量的数据、算力的支撑能力均有极高要求,模型的优化迭代亦有赖于资金和人才的持续投入。此外,大模型的实际落地和行业应用能力也是市场检验的重要标准。模型架构:理论创新与工程实践有效分离,加速AI技术创新效率。2017年transformer模型的出现,以及引入的自注意力机制,推动AI在语言类问题(NLP等)上取得快速进展的同时,亦先后扩展至图像生成、音视频生成、计算机视觉等领域,并逐步成为众多AI算法的底层基础。各类算法输入数据规模、模型参数的指数级增长,以及模型scale带来更优的计算精度、问题泛化求解能力等,推动大模型快速普及,据PercyLiang、RishiBommasani、李飞飞等人在2021年论文《OntheOpportunitiesandRiskofFoundationModels》中提及,具有“表达能力、可扩展性、多模态性、记忆容量和组合性”特征的大模型将成为学术研究的核心方向,并成为AI产业的底层基础模型(foundationmodel)。ChatGPT的成功表明,算法架构+工程实践的有效结合,经过fine-tuning之后的基础模型部署于各类应用场景,将能显著改善AI技术研发效率、产业化门槛。我们判断,基础模型理论创新将逐步回归至科研机构、科技巨头等,而众多算法企业的差异化能力将进一步向工程实践领域迁移,并成为下游应用场景厂商紧密的合作伙伴。大模型训练对算力及资金均提出极高要求。我们对ChatGPT单次训练成本进行测算,假定预训练单次,且训练过程中没有出现错误时的成本。实际情形中,考虑到训练过程中出现工程类错误的可能性,实际成本会高于我们计算的理想情况成本。假设参数量为175B、训练数据500BTokens的情况下,根据《ScalingLawsforNeuralLanguageModels》(JaredKaplan,SamMcCandlish,TomHenighan等)的分析,在使用256个英伟达HGXA100服务器(包含2048个A100GPU卡)的情况下,模型FLOPsUtilization(MFU)假设为Megatron-LM的51.04%,我们推测单次训练时长约为30.7天,对应约151万GPU小时。假设训练使用成本价约为1美元/GPU小时的情况下,耗费服务器端成本约为151万美元。数据:高质量的数据,能够为模型自身的学习、迭代,以及对推理能力的训练带来正向影响。按照当前LLM的技术范式,数据集主要应用于预训练和模型调优阶段。预训练阶段需要大规模、多类别、高质量的训练数据,在模型调优阶段,垂类小数据集、提示词工程同样重要。近年来全球数据量呈现爆发式增长,据IDC统计,2019年全球产生的数据量为41ZB,过去十年的CAGR接近50%,IDC预计到2025年全球数据量或高达175ZB,2019-2025年仍将维持近30%的复合增速,其中超过80%的数据都将是处理难度较大的文本、图像、音视频等非结构化数据。从Bert开始到GPT-3再到谷歌的PALM,网络中的公开语言数据源已经在被尽可能地利用(论坛、新闻、维基百科等),但模型优化仍需更多数据,这要求模型开发商有能力接触到优质私有数据来源,从而才能在模型的数据底层取得差异性优势。场景:应用落地时检验模型能力的重要标准。一方面,通用大模型与行业场景结合,在带来生产力和效率的实质性提升后才能真正实现普及。另一方面,大模型结合行业应用落地后,更多的真实用户反馈也有望加速大模型的优化迭代,从而不断强化模型能力。格局推演:有望形成互联网巨头主导+垂类厂商共存的格局历史积累:互联网巨头具备先发优势,芯片层、模型层、应用层布局完备。互联网巨头在AI领域投入已久,百度2014年即成立人工智能实验室,阿里、腾讯、字节跳动也于2016年成立人工智能实验室,此后各家在芯片层、模型层及应用层持续探索,不断完善布局,在研发、模型、数据、应用等方面已积累显著的先发优势。算法模型:追随海外技术进展,研发突破是竞争关键。从技术路线来看,国内大模型主要追随海外进展。基于谷歌在人工智能领域更高的影响力以及BERT开源代码,前期我国企业在大模型领域的探索更多参考BERT路线。随着ChatGPT在人机对话领域的超预期表现验证了高质量数据+反馈激励(大模型预训练+小数据微调)的有效性,国内大模型技术路线也逐渐向GPT方向收敛。我们认为,尽管模型架构设计的不同对特定任务上的表现有一定影响,但国内大模型厂商在技术上基本同源,从而导致了现阶段较为相似的模型能力,而下一阶段对于GPT方向的研发突破将是竞争关键。算力:互联网厂商在算力资源上具备优势。随着模型参数和复杂度的提升,大模型对算力的需求也在加速增长。当前国内已发布的大模型中,参数规模达到千亿及以上的厂商仅为10个左右,一定程度上体现出各厂商之间算力能力的差异。我们认为,互联网厂商在算力资源上具备相对优势,主要原因系:1)互联网企业业务布局多元,用户基数庞大,海量数据高频更新,使得互联网企业自身对算力有大量需求,阿里、字节、百度、腾讯等头部互联网企业是全球芯片及服务器领域的重要客户。2)阿里云、百度云、腾讯云等为国内头部云厂商,在云计算中心、AI算力平台、超算中心等新型高性能计算基础设施上布局领先,如阿里云推出PAI灵骏智算服务,提供覆盖AI开发全流程的平台和分布式异构计算优化能力;腾讯云发布新一代HCC(High-PerformanceComputingCluster)高性能计算集群,算力性能较前代提升高达3倍。数据:优质开源中文数据集稀缺,自有数据及处理能力构成模型训练壁垒。得益于开源共创的互联网生态,海外已有大量优质、结构化的开源数据库,文本来源既包含严谨的学术写作、百科知识,也包含文学作品、新闻媒体、社交网站、流行内容等,更加丰富的语料数据能够提高模型在不同情景下的对话能力。而受制于搭建数据集较高的成本以及尚未成熟的开源生态,国内开源数据集在数据规模和语料质量上相比海外仍有较大差距,数据来源较为单一,且更新频率较低,从而导致模型的训练效果受限。因此,大模型厂商的自有数据和处理能力构成模型训练效果差异化的核心。受益于移动互联网时代积累的海量用户、应用和数据,互联网企业在自有数据上更具特色化和独占性,叠加更强大的数据处理能力,从而能够通过数据优势带来模型训练成果的差异。例如,阿里在研发M6时,构建了最大的中文多模态预训练数据集M6-Corpus,包含超过1.9TB图像和292GB文本,涵盖百科全书、网页爬虫、问答、论坛、产品说明等数据来源,并设计了完善的清洁程序以确保数据质量。百度ERNIE模型的训练数据集中也运用了大量百度百科、百度搜索以及百度知识图谱等生态内数据,通过更高质量的数据保障了模型的训练效果。资源投入:互联网厂商重研发投入,资金及人才实力领先。大模型的训练需要较高且可持续的研发投入,头部互联网企业兼具高资本密度和高人才密度优势。资金方面,2022年,腾讯/阿里/百度研发费用达614/567/233亿元,明显领先于行业相关公司。人才方面,根据脉脉人才库,在计算机视觉、深度学习、语音识别、自然语言处理4个人工智能重要的技术方向上,互联网大厂是人才储备最丰富的企业。持续的高研发投入以及极高的人才密度有望驱动头部互联网企业保持在AI及大模型领域的领先优势。场景:业务丰富多元,互联网厂商天然具备落地实践场景。考虑到数据隐私和安全合规,初期通用大模型在行业落地时可能会面临一定的信任问题,从而导致较高的获客成本。而头部互联网平台基于自身在电商、搜索、游戏、金融等领域丰富的业务积累,天然具备落地实践场景。在提高产品效率的同时,也有望率先形成示范效应,从而有助于外部客户和应用的拓展。格局推演:互联网巨头有望保持领先地位,中小厂商或将面临路径选择。综合上述分析,结合行业竞争要素,并参考海外当前竞争格局,我们认为,国内大模型赛道有望形成与海外相似的产业趋势,兼具技术、资金、人才和场景优势的头部互联网企业有望成为大模型领域的重要玩家,而中小厂商或将面临路径选择。一方面,中小厂商可以利用自身在垂类场景和数据层面积累的优势,成为聚焦垂类的核心特色玩家;另一方面,基于训练和用户调用带来的算力需求的激增,考虑到资源优势和经济性,中小厂商或将寻求云厂商的支持和合作。互联网大模型对比:短看技术突破,长看生态壁垒历史积累:百度、阿里技术积累深厚,大模型已实现良好性能本章节,我们对国内头部互联网企业在AI领域的发展现状、自研布局以及对外投资进行了梳理。从时间线上看,国内头部互联网企业阿里、百度、腾讯、字节均在2014-2016年间成立人工智能实验室,但此后在发展思路和框架布局上各有侧重。我们认为,阿里、百度更偏重对底层技术的投入,兼具先发优势和完备自研布局,目前推出的大模型产品已实现良好的中文对话能力。腾讯在AI领域亦积极跟进,并于2022年12月公布万亿中文NLP预训练模型混元的最新进展;同时,腾讯在大模型领域也保持了开放的投资风格,与企业共同成长。字节此前在AI领域的投入更多与自身业务相关,如音视频识别、内容创作、AR/VR等,算法能力突出,但在大模型领域的积累则相对薄弱,推出火山方舟,通过MaaS的方式积极参与行业竞争。阿里巴巴:AI自研投入已久,数据、算法及算力积累上已占据领先身位。作为国内头部科技企业,阿里在人工智能等前沿科技方向上早有投入,2014年即成立了数据科学与技术研究院,2016年成立人工智能实验室,2017年成立达摩院,后续成立AI芯片自研团队作为算力支持,并陆续发布了中文社区最大规模预训练语言模型PLUG和多模态大模型M6。同时,阿里在电商、智慧城市等业务中积极运用深度学习等智能化技术,通过技术进步提升业务效率。我们认为,基于在数据、算法和算力上的沉淀,阿里在国内人工智能和大模型竞速中已占据领先身位。对外投资:广泛布局,打造AI生态圈实现共赢。除自研投入外,阿里也在AI核心产业环节积极进行对外投资,在芯片领域投资寒武纪、深鉴科技等,机器视觉和深度学习领域投资商汤科技、旷视科技等,应用领域投资小鹏、小i机器人等。通过AI领域的广泛布局,阿里巴巴有望与相关企业形成协同效应和战略合作,进一步实现效率提升和业务拓展,通过打造AI生态圈的方式实现共赢。技术架构:IaaS+PaaS+MaaS重新定义AI架构。面向新的AI时代,阿里云重新定义了IaaS+PaaS+MaaS的三层技术体系。IaaS层,阿里云专门为AI设计了云基础设施,包括异构计算、高效高速的网络存储等。同时,在训练方面提供灵骏计算集群,在推理方面提供弹性计算ECS集群,通过更加稳定高效的基础设施为AI发展提供坚实的基础。PaaS层,阿里云基于长期的技术和软件能力积累提供了丰富的大数据及机器学习产品,从数据清洗、特征工程训练等方面助力模型训练。此外,阿里云于2022年11月推出魔搭社区,提出MaaS(modelasaservice),通过打造大模型开源社区和生态共建的方式加速模型发展及迭代。百度:深耕十年,全栈自研构筑核心壁垒。基于自身业务需求和浓厚的工程师文化,百度始终重视对AI的投入,2011年在硅谷开设办公室,并在2017年提出“AllinAI”的公司战略。从AI技术体系来看,百度是国内少数在AI领域全栈自研布局的公司之一,在芯片层、框架层、模型层和应用层均有自研投入,已形成一定的产业生态和影响力。对外投资:长期投入,加速布局大模型领域。百度长期关注人工智能赛道,坚持布局前沿科技领域,在芯片、大模型、AI+制药、应用等领域均有投资。2023年以来,随着ChatGPT引发新一轮AI产业热潮,百度亦加速在AIGC及多模态大模型领域的布局,先后投资text-to-video生成技术与社区的初创企业MorphStudio、人工智能公司西湖心辰及多模态大模型公司生数科技,有望进一步完善公司的AI生态布局并加快协同发展。芯片+框架+模型+应用全栈自研布局,强化内部反馈迭代。百度在AI领域全栈自研布局,芯片层,百度已有两代自研昆仑芯实现量产,预计第三代昆仑芯将于2024年初实现规模上市;框架层,百度飞桨经过6年开发并逐渐成熟后,成为中国首个开源开放、功能完备的端到端深度学习平台,截至2022年11月,百度飞桨已有535万开发者,服务了20万家企事业单位,创建了67万个模型;模型层,百度最早于2019年推出文心大模型并不断迭代,并于2021年发布百亿级大模型文心ERNIE3.0和千亿级大模型文心ERNIE3.0Titan;应用层,百度推出生成式AI对话产品文心一言以及面向企业客户的文心千帆大模型平台,积极通过实践场景验证大模型能力。我们认为,百度全栈自研布局的优势在于各层之间的反馈有望进一步驱动技术能力的优化,提升迭代效率。腾讯:重视AI发展,内生+外延双轮并驱。腾讯2016年成立AILab,并在2017年提出“makeAIeverywhere”的战略愿景,2018年建立以人工智能与前沿科技为基础的两大实验室矩阵。根据腾讯RoboticsX实验室微信公众号,截至2022年底,腾讯AILab已累计在AAAI、CVPR、ACL、ICML、NeurIPS等国际顶级AI学术会议或期刊发表超780篇文章,并持续推动AI与机器人、数字内容生成、生命科学、医疗医药、游戏等行业应用的结合。对外投资方面,根据IT桔子,截至2022年底,腾讯共投资53家国内AI公司,多次投资AI算力芯片公司燧原科技、企业级认知智能服务平台明略科技等,并在2023年投资深言科技、MiniMax、光年之外等大模型企业。在大模型领域,腾讯仍然保持以投资见长的风格,有望与企业共享成长果实。腾讯:从MaaS切入大模型赛道,算力支持及应用工具完备。6月19日,腾讯云首次正式公布行业大模型研发进展,并发布面向B端客户的腾讯云MaaS服务解决方案。有别于阿里、百度等直接发布大模型产品,腾讯率先以MaaS的方式切入大模型赛道,在金融、文旅、政务、传媒、教育等10大行业提供超50个解决方案,以更懂行业、更易落地的方式满足企业需求。同时,腾讯TI平台提供数据标注、训练、测试、评估、部署等全套工具,技术底座提供HCC高性能计算集群、向量数据库等算力支撑,以保障行业大模型的运行效果。字节跳动:2023年成立大模型团队,搜索、智创两部门牵头。字节跳动于2016年成立人工智能实验室,将其定位为公司内部的研究所和技术服务商,为平台输出的海量内容提供AI技术支持。此前公司AI研究成果主要与业务相结合,研发重点集中在机器翻译、智能语音、视频图像和多模态等领域,而大模型相关积累相对薄弱。根据36氪,字节跳动语言大模型团队在今年组建,由搜索部门牵头;图片大模型团队则由产品研发与工程架构部下属的智能创作团队牵头。字节跳动:从MaaS切入,应用先行丰富行业经验。6月28日,火山引擎发布大模型服务平台火山方舟,面向企业提供模型精调、评测、推理等全方位平台服务,已接入百川智能、复旦大学MOSS、澜舟科技、MiniMax、智谱AI等多家AI科技公司及科研院所的大模型,并已对外启动邀测。我们认为,由于前期在大模型领域的积累相对薄弱,通过MaaS的方式切入大模型赛道是更具可行性的方式。一方面,通过MaaS模式为需求方提供丰富多元、灵活选择、具有性价比的大模型使用方式;另一方面,行业应用的落地和行业经验的积累也有望反哺字节自身在大模型领域的积累和迭代。核心人才:关注人才密度与粘性,兼顾基础研发与业务落地在人才方面,我们认为,互联网大厂的差异化竞争主要体现在两方面:1)人才密度和人才质量;2)人才粘性,而保障人才粘性的关键在于组织架构与激励机制的设置。由于人工智能的研发工作具有一定的前瞻研究和学术影响力的属性,而在互联网行业整体提质增效背景下,对于研发产出和业务落地也有一定需求,因此如何平衡基础研究和业务落地之间的关系、通过合理的组织体系保障人才粘性是互联网大厂在架构设置的关键。阿里巴巴:达摩院坚持前沿探索,高密度AI人才引领发展。组织架构上,阿里在人工智能领域的研究主要由达摩院主导。达摩院于2017年成立,致力于探索科技未知,以人类愿景为驱动力,开展基础科学和创新性技术研究。达摩院主要覆盖机器智能、数据计算、机器人、金融科技、X实验室(量子计算)5大领域,其中机器智能布局最为突出,下辖语音实验室、视觉实验室、语言技术实验室、决策智能实验室、城市大脑实验室5大实验室。人员构成上,阿里大模型研发由阿里云智能CTO周靖人带队,其在大数据平台及人工智能领域经验丰富,并在M6系列模型研发中发挥了重要作用。黄非和赵德丽分别担任语言技术实验室和基础视觉实验室负责人,分别领导NLP和CV领域的研究,黄非曾在自然语言处理和人工智能顶级会议和期刊发表文章40多篇,获得美国专利10多项,并在IBM和Facebook从事自然语言处理的研发和技术管理等职位;赵德丽曾在微软亚洲研究院的视觉计算组和香港中文大学的多媒体实验室工作六年,从事机器视觉和机器学习的算法研究工作。此外,阿里达摩院团队广纳贤才,原贝壳技术副总裁兼首席科学家叶杰平、前京东数科AI实验室首席科学家薄列峰等相继于2022年加入阿里,有望进一步推动阿里在大模型及AI领域的探索。百度:技术攻坚与产品承接并重,CTO王海峰统领AI研发。根据36氪,百度目前文心一言团队主要由TPG(技术中台事业群)和MEG(移动生态事业群)两大部门协同,前者负责技术攻坚,后者进行搜索、内容产品承接。团队人员上,百度CTO王海峰自2018年底开始统领TG和AIG,总体负责百度人工智能技术和算法、算力、数据、安全等基础技术的研发,并担任文心一言项目总指挥。腾讯:多团队并行,基础研究与业务应用并重。腾讯内部多个团队均从事人工智能相关研发工作,其中,AILab和RoboticsX实验室作为双基础研究部门,均隶属于技术工程事业部。AILab专注计算机视觉、语音识别、自然语言处理和机器学习等方向的基础研究,和内容、社交、游戏等方向的应用探索,截至2022年底,已有100多位顶尖研究科学家及300多位应用工程师。同时,云与智慧产业事业群设立腾讯优图实验室,专注于图像技术的深入研究及应用探索;微信事业部内部孵化微信AI团队。2023年2月,针对类ChatGPT对话式产品,腾讯成立混元助手项目组,腾讯首席科学家张正友担任项目owner,俞栋、王迪、刘田分别担任PM,并已有至少7位组长和7位Sponsor。字节跳动:年初快速集结团队,多部门协作开发。根据36氪,字节跳动语言大模型团队在今年组建,由搜索部门牵头;图片大模型团队则由产品研发与工程架构部下属的智能创作团队牵头。朱文佳是字节大模型的第一负责人,其在算法和搜索业务上经验深厚。此外,Data-AML负责人项亮、人工智能实验室总监李航、前阿里M6核心技术人员杨红霞等也均为团队重要成员。技术投入:百度、阿里暂居第一梯队,腾讯、字节加速追赶,关注迭代效率本章节,我们从技术角度对国内头部互联网大模型进行对比研究。前期基于相似的算法路线、架构设计和训练语料,互联网大模型尚未展现出显著的能力差异。根据IDC,阿里的通义千问和百度的文心一言在算法模型、通用能力、创新能力等方面取得相近评分。展望后续,我们认为,互联网大模型在技术上的竞争要点在于:1)对GPT关键技术的研发突破;2)相似性能下的成本和效率优势;3)大规模、高质量训练预料的搭建。算法模型:此前各家大模型架构及路线主要参考BERT、LLaMA等开源模型,技术路线基本同源,但在模型设计和训练方式上各有侧重,如阿里更强调多模态任务能力及效率,百度聚焦在NLP能力上的提升,腾讯兼顾模型规模增长与效率提升。随着ChatGPT验证了GPT路线及高质量数据+反馈激励的有效性,正驱动着大模型的技术路线向GPT方向收敛。我们认为,后续互联网大厂在算法模型上差异化竞争的核心在于:1)对GPT关键技术的研发突破;2)若在模型研发上较难取得突破,则通过模型设计和训练方法的优化实现相似性能下更优的成本和效率的厂商有望具备更大的竞争优势。算力:随着大模型参数和数据量的飙升带来对算力需求的快速增长,互联网大厂均加速在AI算力平台、超算中心等新型计算基础设施上的建设。基于互联网大厂充足的算力储备及在新型计算基础设施上的积极建设,我们认为短期算力或将不会成为限制互联网大模型发展的瓶颈,中长期具备芯片自研能力的公司有望具备更强的竞争优势。数据:高质量数据源及数据处理能力是差异化竞争的核心。阿里在训练M6、百度在训练ERNIE3.0时,均自行搭建了TB级别的大规模数据库,数据来源中包含了大量生态内独有数据,并设计了完善的清洁程序以确保数据质量,有效提升了模型的训练效果和中文语境的对话表现。算法模型:底层路线逐渐向GPT方向收敛,模型设计和训练方式各有侧重阿里巴巴:统一学习范式+模块化设计,通义打造多模态统一底座。达摩院认为一个全能模型应当具备三重属性:①任务无关(Task-Agnostic):不针对具体下游任务,而是更具通用性的模型。②模态无关(Modality-Agnostic):对所有任务建立统一的输入和输出形式,从而实现不同模态的处理能力。③任务足够丰富(TaskComprehensiveness):需要设计足够丰富的任务种类,以确保模型的稳健性。为了打造多模态全任务的通用性大模型,达摩院通过统一学习范式和模块化设计的方式,使M6-OFA可处理超30种跨模态任务,同时能够灵活调用模块从而实现高效率和高性能。M6-OFA实现架构、模态和任务统一。①架构统一:M6-OFA使用统一的TransformerEncoder-Decoder+ResNetBlocks的架构进行预训练和微调,从而不需要针对不同任务设计特定的模型层。②模态统一:M6-OFA将NLP、CV和多模态任务统一到同一个框架和训练范式,从而可以完成对不同任务的输出。③任务统一:M6-OFA将涉及多模态和单模态的所有任务都统一建模成序列到序列(seq2seq)任务,模型可以同时学习多任务,从而让模型通过一次预训练即可获得文本生成、图像生成、跨模态理解等多种能力。借鉴人脑运行机制,模块化设计提升多模态任务能力及效率。模块化设计借鉴人脑的运行机制,即人类大脑中拥有储备各种知识和处理不同模态信息的能力模块,人类思考时只调用与特定任务相关的模块,从而保证了人脑的高速运行。模块化大模型采用模块化TransformerEncoder-Decoder结构来统一多模态的理解和生成,同时切分出不同的独立模块,包括基础层、通用层(如不同模态)、任务层到功能性模块(如推理),每个模块间相互解耦,各司其职,从而通过灵活拆拨不同模块进行微调或者预训练实现大模型的轻量化和任务水平的提升。通义-M6:模型快速迭代,2年投入推出全球最大预训练模型。达摩院于2020年1月正式启动中文多模态预训练模型M6项目,此后模型快速迭代升级,2021年3月/5月模型参数规模达千亿/万亿。2021年11月模型参数规模达10万亿,成为全球最大预训练模型,通过阿里云PAI自研Whale框架上搭建MoE模型,叠加更细粒度的CPUoffload技术实现仅利用512张GPU即完成10万亿规模参数的训练;同时,M6团队设计了Pseudo-to-Real(共享解除)机制,大幅提升训练速度。2022年9月,达摩院发布通义大模型系列,打造业界首个AI统一底座,并宣布相关核心模型向全球开发者开源开放。通义-AliceMind:深度语言模型体系持续丰富,NLP(自然语言处理)能力突出。历经三年研发,目前深度语言模型体系AliceMind已包含通用语言模型StructBERT、多语言VECO、生成式PALM、多模态StructVBERT、结构化StructuralLM、知识驱动LatticeBERT、机器阅读理解UED、超大模型PLUG等。AliceMind先后登顶GLUE、CLUE、XTREME、VQAChallenge、DocVQA、MSMARCO等自然语言处理领域权威榜单,在多语言、生成式、多模态、结构化、知识驱动等领域能力突出。通义-视觉大模型:专注CV(计算机视觉)领域的应用落地。通义视觉大模型基于文本到视觉生成和特征到视觉生成两个基础模型,通过视频处理、视觉问答、视觉算术、知识抽取等中层通用算法的支持,实现在电商、城市大脑、工业视觉等领域的产业应用。例如,通义-视觉大模型可以在电商行业实现图像搜索和万物识别等场景应用,并在文生图以及交通和自动驾驶领域发挥作用。模型生态:MaaS先行者,魔搭社区快速迭代。阿里云于2022年11月提出MaaS,并推出开源社区魔搭,一方面,通过提供以模型为核心要素的一站式使用平台,降低AI使用门槛;另一方面,通过开源方式吸引更多开发者共创共建,加速模型开发迭代。魔搭社区经过数月时间快速发展,根据阿里巴巴财报,截至2023年7月,魔搭社区模型总数已超1000个,累计模型下载量超4500万次。同时,通义大模型系列中语言大模型AliceMind-PLUG、多模态理解与生成统一模型AliceMind-mPLUG、多模态统一底座模型M6-OFA和超大模型落地关键技术S4框架等核心模型及能力也已在魔搭社区中面向全球开发者开源。我们认为,魔搭作为国内MaaS的先行者,开源社区带来的更快的迭代速度和更丰富的应用反馈有望使得魔搭在中长期模型生态建设中占得先机。百度:ERNIE系列模型不断迭代,持续突破NLP任务表现ERNIE1.0:加入短语和实体掩码策略,强化模型知识推理能力。基于BERT模型,ERNIE1.0主要在掩码策略上进行了改进。有别于BERT采用基础mask类型,ERNIE1.0新增了短语mask和实体mask类型,从而使得模型表现出更强的语法学习和知识推理能力。在五类自然语言处理任务(自然语言推理、语义相似性、命名实体识别、情感分析和检索问答)上,ERNIE表现优于基准模型BERT。同时,语料库方面,预训练除使用中文维基百科外,还使用了大量百度百科、百度新闻和百度贴吧的数据,更丰富的训练数据提升了模型对中文语意的理解能力。此外,ERNIE在DLM(对话语言模型)任务上对查询-响应对话结构进行建模,通过多回合对话帮助ERNIE学习对话中的隐式关系,从而增强了模型学习的语义表示能力。ERNIE2.0:改进多任务学习方式,实现多个NLP下游任务SOTA表现。多任务学习通常有同时学习和顺序学习两种方式,同时学习模式无法确保任务的不断增加能够带来模型效果的持续提升,而顺序学习模式下随着不同任务的学习、模型参数的递进,可能会使得模型陷入遗忘。ERNIE2.0采用了交替式的多任务学习方式,当出现新任务时,使用先前学习的参数来初始化模型,并同时训练新引入的任务和原始任务,从而有效缓解了遗忘现象并提高了模型训练的有效性。在多任务学习方式的优化下,ERNIE2.0在多个NLP下游任务上取得了中英文SOTA(stateofthearts)表现。ERNIE3.0:引入大规模知识图谱,提升模型的知识记忆和推理能力。由于已有大模型使用纯文本进行训练,而没有引入知识,且传统的自回归微调方式在解决下游语言理解任务时表现出相对较弱的性能。因此,ERNIE3.0提出了用于大规模知识增强模型预训练的统一框架,通过引入4TB语料和10B参数的大规模知识图谱,在大规模无监督语料库上对模型进行预训练。同时,ERNIE3.0采用了单词感知、结构感知和知识感知等多种预训练任务,从而使得模型能够更有效地学习不同层次的知识。上述改进下,ERNIE3.0在情感分析、观点抽取、阅读理解、文本摘要、对话生成、数字运算等54个中文NLP任务中实现SOTA表现。ERNIE3.0Titan:强化可控及可信,实现中文预训练最强表现。ERNIE3.0Titan在保留了ERNIE3.0海量无监督文本与大规模知识图谱的平行预训练算法的基础上,进一步设计了可控和可信学习算法,通过自监督的对抗损失和可控的语言建模损失,达到不同类型的零样本生成能力并显著提升了生成结果的可信度,并实现文本分类、信息抽取、阅读理解等68个NLP任务的SOTA表现。多模态大模型布局完善,文心系列模型满足多元需求。百度除了在NLP领域持续升级ERNIE系列模型外,在视觉、跨模态和生物计算领域也积极布局。视觉领域,基于领先的视觉技术,利用海量图像、视频等数据,提供视觉基础模型以及视觉任务定制与应用能力;跨模态领域,基于知识增强的跨模态语义理解关键技术,实现跨模态检索、图文生成、图片文档的信息抽取等应用的快速搭建;生物计算领域,将生物领域研究对象的特性融入模型,构建面向化合物分子、蛋白分子的生物计算领域预训练模型。基于多模态大模型的完善布局,使得文心系列模型能够满足各行业在不同领域的多元需求。腾讯:关注效率提升,混元成为国内首个低成本、可落地的NLP万亿大模型。混元AI大模型集CV、NLP和多模态理解能力于一体,2022年4月首次对外发布研发进展,在MSR-VTT、MSVD等五大权威数据集榜单中登顶。2022年12月,混元在热启动和课程学习、MoE路由算法、模型结构、训练加速等方面研究优化,大幅降低了万亿大模型的训练成本,成为国内首个低成本、可落地的NLP万亿大模型,并再次登顶自然语言理解任务榜单CLUE。热启动和课程学习:混元首先在小规模模型上训练收敛,然后将小模型的知识迁移到大模型,逐步增加模型的规模,从而使得当模型规模指数型增长时,只需要较少的迭代即可达到较好的水平。MoE路由算法:有别于Dense模型在训练过程中激活所有FFN和SA层的参数,从而导致较高的训练成本,MoE通过引入路由,只激活部分FFN的参数参与计算,从而能够实现训练成本的节约。同时,在规模相同的情况下,使用MoE的大模型能够具有更高的训练和推理效率。注意力权重复制:混元研究团队发现注意力权重在不同层之间的差异不大,因此改进了注意力权重设置方式。在每一层随机有p的概率重新计算注意力权重,1-p的概率复用上一层的注意力权重。通过实验发现,当p设置为50%,模型效果无损,注意力权重总的时间复杂度降低50%,大模型预训练提速约20%。词向量路由机制:引入额外的词向量用于专家的路由,把路由和注意力层输出解耦,相同词的路由向量相同,在保证路由稳定性的同时加速了收敛。算力:积极布局新型高性能计算基础设施,保障算力支撑阿里巴巴:PAI×灵骏智算支持10万亿参数大模型研发。基于灵骏智算,阿里云推出了PAI×灵骏智算服务,提供覆盖AI开发全流程的平台和分布式异构计算优化能力,能够支撑10万亿参数规模的大型模型训练,单个训练任务可达到万卡级别规模,训练性能提高近10倍,千卡规模的线性扩展效率达92%,能够深度支持通用大型模型的研发。百度:百度百舸构建AI原生的智能计算基础设施,同等配置下实现性能领先。2022年9月,百度云升级发布百度百舸2.0,在AI计算、AI存储、AI容器等模块上进行了能力增强和功能丰富,并全新发布AI加速套件。①AI计算:发布了弹性RDMA网卡,其和VPC网络进行了融合,使得用户的使用成本更低,且通信延时相比传统TCP网络降低了2-3倍。②AI存储:发布并行文件存储PFS的裸金属版本,支持IB网络,可将计算对数据的访问延迟降低至百us级别。同时,对象存储BOS新增了原生层级namespace,可以将元数据访问速度提升4倍以上。③AI容器:在业界率先推出双引擎GPU容器虚拟化方案,可以满足各类场景的要求,提升GPU资源利用率。④AI加速套件:通过存训推一体化的方式,对数据的读取和查询、训练、推理进行加速,进一步提升AI作业速度。在MLPerfTrainningv2.0的榜单中,百度百舸2.0和百度飞桨联合提交的BERTLarge模型GPU训练性能结果在同等GPU配置下排名第一,比其他结果快5%-11%。腾讯:最新HCC高性能计算集群算力提升3倍,4天完成万亿大模型训练。2023年4月,腾讯云推出全新HCC高性能计算集群,采用最新一代腾讯云星星海自研服务器,搭载了NVIDIAH800TensorCoreGPU,可提供业界目前最高的3.2T超高互联带宽。相较1.6T网络,集群整体算力提升20%,将万亿参数的混元NLP大模型的训练时间缩短至4天,大幅提升了大模型的训练效率。字节跳动:自研DPU等系列云产品,提高大模型训练效率。4月18日,火山引擎发布自研DPU等系列云产品,并推出智能推荐-高速训练引擎,采取软硬一体、细粒度算子优化以及分布式训练和推理,以实现更快的训练速度和更低的训练成本。根据火山引擎微信公众号:软硬一体化:针对关键场景的超大模型,火山引擎智能推荐-高速训练引擎提供全GPU方案,可以支持100GB-10TB的超大模型的高速训练,综合ROI是CPU的5倍;覆盖更多场景的模型,提供了GPU+CPU混训方案,综合ROI是CPU的2倍。细粒度算子优化:针对搜索、推荐和营销场景,优化细粒度算子,使得在模型推理的过程中有更好的性能表现。在训练时,通过算子融合并精细调优,性能提升20%;在推理时,通过算子优化,性能提升40%。分布式训练和推理:智能推荐-高速训练引擎为了保障系统的稳定性,支持训练和推理的全方位容错,当某一个节点故障时,可以快速恢复;支持分布式推理,包括多分片、多副本,从而保证线上服务的高可用。抖音、今日头条等基于火山引擎高速训练引擎的业务,模型训练时间的速度相较以往快10倍-25倍,综合成本降低25%-67%。数据:高质量数据源及数据处理能力是差异化竞争核心。由于优质中文开源数据库较少、数据规模较小,因此高质量数据源及数据处理能力是竞争差异化的核心。阿里在训练M6、百度在ERNIE3.0时,均自行搭建了TB级别的大规模数据库,数据来源中包含了大量生态内独有数据,并设计了完善的清洁程序以确保数据质量,有效提升了模型的训练效果和中文语境的对话表现。资金:互联网大厂均重视研发投入,百度10年投入AI超千亿元。互联网大厂均具备稳健的现金流并重视研发投入,在资金实力上不存在显著差异,但在行业整体降本增效趋势下,或将更加注重研发的投入效率及产出。2022年,腾讯/阿里/百度研发费用分别为614/567/233亿元,研发费用率分别为11.1%/6.5%/18.9%,并多次强调在人工智能领域的研发投入。根据阿里财报,FY2022,阿里巴巴技术投入超过1200亿元人民币;近三年,阿里巴巴专利投入中超60%集中于云计算、人工智能、芯片等硬核科技领域。根据李彦宏在2022年世界人工智能大会上的发言,百度在人工智能领域10年间累计投入超过1000亿元,其中核心研发投入在核心收入占比连续多个季度超过20%。同时,百度也持续在免费算力开放、AI人才培养等方面提供资金和资源。应用场景:内部核心业务率先落地,积极探索行业场景自身核心业务及B端率先应用,关注实际落地进展。从场景上看,各公司均率先将大模型能力用于自身核心业务,在提升业务效率的同时,也打造了行业应用的标杆案例。外部应用上,由于大模型提质增效的能力天然契合B端需求,因此目前B端落地进展相对较快。我们认为,AI在数字化程度较高或人力密集型行业有望形成更大的应用空间。根据IDC数据,我国专业服务、政府、制造业、银行、通信有望成为AI应用市场规模最大的行业,2026年市场规模有望达77.4/36.9/28.0/20.6/18.5亿美元。行业覆盖上,各公司展现出较强的自身业务属性及此前产业互联网领域的资源积累。参考各公司在云计算市场的客户构成,我们认为随着行业应用-数据-模型的不断迭代反馈,各公司在大模型领域也有望形成特定行业赛道的相对优势。C端,尽管目前尚未有爆款应用的出现,但参考移动互联网时代应用类公司实现了更高的市值增长,我们认为未来AI对C端应用的颠覆式创新也有望带来产业价值的爆发。阿里巴巴:产品全系接入,有望率先形成示范效应。AI带来生产效率的显著提升,目前在文字归纳与生成、创意性内容生成、代码开发等领域已得到广泛应用。同时,大模型结合行业应用落地后,更多的真实用户反馈也有望加速大模型的优化迭代,从而强化良性循环。根据2023阿里云峰会,阿里所有产品未来都将接入大模型全面升级,在提高产品效率的同时,也有望率先形成示范效应,从而有助于外部客户和应用的拓展。办公:钉钉全面接入通义千问,实现生产智能化。4月,钉钉总裁叶军在2023春季钉峰会宣布,钉钉全面接入阿里巴巴通义千问大模型。用户在使用钉钉时,可以通过斜杠“/”调用通义大模型能力,实现对群聊工作讨论、推文创建、视频会议、活动策划、资料管理等场景协作效率的大幅提升。我们认为,办公场景中较多的文本工作及内容创意天然适合通过AI的方式进行生产力改造。办公:通义听悟全新上线,全面提升音视频向图文转化效率。6月1日,阿里云发布聚焦音视频的AI新品通义听悟,成为国内首个开放公测的大模型应用产品。通义听悟接入了通义千问大模型的理解与摘要能力,帮助用户在工作学习中完成对音视频内容的转写、检索、摘要和整理。同时,通义听悟也可嵌入各类音视频平台,形成实时字幕、智能摘要等,如钉钉的“钉闪记”便集成了通义听悟,未来通义听悟也有望接入夸克APP、阿里云盘等端口提供服务。电商:用户端优化购物体验,商家端提升经营效率。由于电商链路中存在大量人机交互、内容生成等场景,因此适合与AI结合实现早期应用落地。阿里电商业务与AI能力结合后,用户端,将通过智能推荐、辅助决策等方式优化消费者购物体验,降低决策成本;商家端,既能通过AI辅助创意生成降低营销成本,也能通过智能客服等方式降低运营成本,同时AI带来更精准的用户洞察也有望提升商家的经营产出,从而打开未来潜在的货币化空间;平台端,消费者及商家更好的使用体验及经营成果有望提升用户及商家对平台的心智和粘性,从而进一步保障平台的市场份额。智能终端:通义千问赋能天猫精灵,有望成为一站式家庭生活服务入口。2023阿里云峰会展示了通义千问在智能居家方面带来的体验提升,接入通义千问的天猫精灵Demo版本也展现了其理解用户需求成功下单外卖以及语言能力和推理能力的增强。我们认为,未来天猫精灵在通义千问赋能下,并接入淘宝、天猫、饿了么、飞猪等应用后,有望优化交互体验,成为一站式家庭生活服务入口。通义千问积极与企业展开合作,共创企业专属大模型满足个性化需求。除阿里系内部应用将全面接入大模型外,通义千问也将与各行业合作生成行业专属和企业专属大模型,满足企业个性化需求并提升业务效率。目前,阿里云已和多家企业在大模型相关场景展开技术合作探索和共创,首批合作企业包括OPPO安迪斯智能云、太平洋保险、吉利汽车、奇瑞新能源、波司登等。根据2023阿里云峰会,阿里发布通义千问两周后,超20万家企业申请接入。百度:内部广泛应用,有望重塑主业搜索体验。目前,文心大模型已大规模应用于搜索、信息流、小度智能屏、百度地图等百度内部的各类产品,显著提升了产品智能化体验。尤其对于百度的搜索主业来讲,传统搜索模式下存在信息冗余繁杂、用户筛选成本较高等痛点,结合AI能力后,百度搜索以对话方式生成回答,并列示资料来源,有望大幅优化用户搜索体验,从而进一步带来用户规模及使用频率的提升。行业应用:深入实体经济,行业生态不断丰富。在通用文心大模型的基础之上,结合行业数据和知识图谱,文心已累计发布电力、燃气、金融、航天、传媒、城市、影视、制造、社科等领域的11个行业大模型,不断通过大模型赋能千行百业的数字化和智能化进程。文心一言发布首日,即与5家企业完成首批签约,与650家企业启动签约,超6.5万企业申请调用,产业化进程领先。文心一格:AI辅助艺术和创意生成,有望释放AIGC生产力。文心一格是百度基于文心大模型技术推出的AI艺术和创意辅助平台,可以根据用户输入的文本描述,自动生成画作,同时可以根据用户需求进行编辑和二次创作。截至2023年5月底,文心一格官网的注册用户数已超600万,参与文心一格测试的生态伙伴超过900家。随着文心一格模型能力的不断优化和迭代,有望大幅提升游戏原画、广告营销素材、工业设计及建筑设计等领域的生产效率,在实现内容创作能力突破的同时,也能促进公司的降本增效。腾讯:多核心业务落地,行业大模型推动生态共建游戏:降低制作成本,丰富玩家体验。AI技术在游戏全链路中均可充分运用,一方面,AI可以辅助游戏制作、运用及周边生态开发,降低游戏创造门槛和成本,同时提升游戏品质;另一方面,AI也能拓展更加多元的游戏品类,如围棋、麻将等棋牌类,足球等体育类,以及多人在线战术竞技(MOBA)、第一人称射击(FPS)等复杂策略类游戏,不断丰富玩家体验。广告:提升理解和运算能力,兼顾起量、成本和稳定性。混元AI大模型帮助腾讯广告系统实现升级,在广告内容理解、广告智能创作、广告智能审核和广告指纹系统4个方面分别打造解决方案,大幅提升了系统在广告内容理解、行业特征挖掘、文案创意生成等方面的能力,在助力广告主达成起量、成本和稳定性三大效果指标、实现生意增字节跳动:8月发布大模型对话产品“豆包”,加速研发进展。8月,字节发布大模型对话类产品豆包、超爱聊天的小宁、英语学习助手、英文写作润色、全能写作助手,已具备基本的问答对话、智能创作等能力。根据SuperCLUE测评,目前豆包在不同维度的能力上差异较大,在逻辑推理及计算方面具有较强表现,而在代码、上下文对话等方面仍存在一定短

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论