2023年微软Copilot专题分析 GPT模型在多模态、可靠性等方面持续迭代_第1页
2023年微软Copilot专题分析 GPT模型在多模态、可靠性等方面持续迭代_第2页
2023年微软Copilot专题分析 GPT模型在多模态、可靠性等方面持续迭代_第3页
2023年微软Copilot专题分析 GPT模型在多模态、可靠性等方面持续迭代_第4页
2023年微软Copilot专题分析 GPT模型在多模态、可靠性等方面持续迭代_第5页
已阅读5页,还剩12页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2023年微软Copilot专题分析GPT模型在多模态、可靠性等方面持续迭代报告缘起:微软发布365Copilot,重构办公软件3月16日,微软公司宣布将通过Microsoft365Copilot将下一代AI的强大功能引入其工作场所生产力工具。Copilot目前正在与选定的商业客户进行测试,它将大型语言模型(LLM)的强大功能与业务数据和Microsoft365应用相结合,以释放创造力、释放生产力和提升技能。在此次发布中,Copilot将以两种方式与Microsoft365客户合作:1)嵌入到Word、Excel、PowerPoint、Outlook、Teams等。2)提供聊天功能。商务聊天功能覆盖LLM、Microsoft365应用和客户的日历、电子邮件、聊天、文档、会议和联系人工作等,通过自然语言提示(如“告诉我的团队我们如何更新产品策略”),商务聊天将根据上午的会议、电子邮件和聊天线程生成状态更新。产品的发布再次引发市场关注,AI自身的iPhone时刻正加速到来。我们认为,微软此次发布的Copilot体现了:1)微软&OpenAI自身在大语言模型能力升级上的能力,包括多模态、安全性等。2)微软自身在成本优化、产品层面的实力。在本篇报告中,我们将从微软自身大语言模型的实力、产品化能力、商业化等维度出发,探讨微软自身的产业优势以及中长期对公式软件业务的弹性。GPT模型:在多模态、可靠性等方面持续迭代随着GPT系列模型的持续迭代,以及一级市场初创公司的持续探索,市场对AI大模型的能力上限、成本控制、商业化前景等领域进行了充分探讨。对AI而言,此前由于算力以及数据等的限制,模型的能力并未得到明显提升。而随着大模型的推广,模型在数百亿到千亿参数量级上的能力持续凸显。我们亦将围绕微软自身的布局,探讨其模型能力。微软与OpenAI:共享研发资源,微软使用OpenAI研发成果。从微软自身的模型布局来看,自投资OpenAI后,将大量的研发资源投入到了OpenAI。在2019年-2020年间,微软投资了数亿美元与OpenAI共同打造了一台AI超级计算机,Bloomberg估算使用了超过一万块英伟达A100显卡。而在此之后微软在AI上面的进展主要是使用OpenAI的研发成果,从实际效果看OpenAI目前是微软真正的“AI研发部门”。OpenAI的技术路线:坚持自回归+prompting,随着chatGPT爆火成为公认的主流路线。OpenAI团队在最初GPT-1发布时就选择了一条与谷歌的Bert模型不同的技术路线:尽管都是Transformer模型,Bert模型采用双向使用Mask的方法进行训练;而GPT则是采用了自回归+prompting的方式。这两者的区别根据谷歌资深AI科学家JeffDean在2020年的文章回答,Bert路线在NLU(自然语言理解)的能力以及准确度会更好,而GPT路线在NLG(自然语言生成)的表现会更突出。随着ChatGPT在2022年底爆火,学术界与产业界发现了大众对自然语言生成的需求远高于自然语言理解,这也确立了GPT技术路线在中短期的主流地位。微软逐步在软件套件中融合GPT模型。微软通过与OpenAI的深度合作,在实际落地上,通过将模型参数的持续放大以及精调,植入到微软的各产品线中。随着GPT-4的发布,模型处理复杂问题的能力进一步提升,同时解决了部分对于办公软件最重要的多模态输入问题。因此,我们开始看到微软开始将大模型更广泛应用到应用软件以及其他相关的场景当中。GPT-4面对复杂问题能力时大幅提升,对AP考试、GRE考试等表现优异。OpenAI在官网表示,GPT-4虽然在大多数现实场景中的能力不如人类,但在一些专业问题和学术基准上表现已经和人类持平。根据OpenAI在其技术文档所公布的数据,GPT-4在60%的AP考试科目中取得了5分(满分)的成绩,并较前一代GPT-3.5取得了30%以上的提升,而对于研究生入门考试的GRE,GPT-4取得了339+4的成绩,超越95%的应试者。GPT-4基本框架:猜测沿用了GPT-3.5与ChatGPT的思路,并加入了更多人类生成数据以及专家数据。根据OpenAI本次发布的技术报告,GPT-4的训练以及迭代的耗时长达6个月以上,是之前发布的ChatGPT的两倍以上,尽管OpenAI不公布具体的技术细节,但我们通过其在技术文档中的侧面描述可以得出一些基本结论。GPT-4在技术路径上沿用了自回归的Transformer模型加上人类反馈强化学习,并在数据源中加入了更多的人类生成数据。最后OpenAI还提到他们邀请了一个50人的专家团队与模型进行对抗训练,进一步帮助模型对齐(align)并提高其安全性。多模态能力成为GPT-4加入的新亮点。GPT-4在模型能力方面最大的提升在于引入了多模态的处理能力。除了此前ChatGPT就支持的文字外,GPT-4还可以接受图片输入,根据OpenAI在技术文档内给出的实例来看,GPT-4可以理解图中的各类含义甚至包括人类的幽默能力。不过在当前阶段,图片输入的功能暂时还没有开放给用户使用。安全性提升与编造内容的减少是GPT-4能力上的另一大进步。在我们之前测试ChatGPT的过程中,我们发现了大量GPT-3.5模型针对事实类问题回答胡编乱造的情况以及通过种种语言诱导可以绕开GPT模型的安全限制。GPT这类大语言模型作为基于概率统计的数学模型,并不具有真正意义上的理解能力,因此这一情况无法完全避免。但GPT-4通过加入额外的奖励模型以及更多的对齐工作将准确率增加了约10%。模型成本:GPT-3.5成本距此前我们测算的理论最高成本下降90%,预计GPT-4在后续亦有望复刻。算力成本目前仍然是大模型产业化需要攻克的重要问题。从OpenAI的经验来看,模型层面的微调、压缩以及算力设备的优化是主要的方向。当前GPT-4虽然在多模态等领域展现了强大实力,但当前单次调用成本依旧较为昂贵。但我们认为,通过模型优化以及算力设备,GPT-4的成本有望进一步压缩。模型压缩:主要通过“蒸馏”提取小模型方式实现模型参数减少、计算复杂度降低等。从OpenAI对ChatGPTAPI的定价调整来看,ChatGPT在训练过程中所使用得RewardModel(奖励模型,记录了人类偏好)应为千亿参数级别的模型,这也意味着OpenAI将其在千亿参数模型中所学习到的能力通过类似于蒸馏(distillation)的方式浓缩进了百亿参数的模型中。根据截至目前ChatGPTAPI用户在推特等社交媒体的反馈结果看,这个百亿参数模型的能力以及追平甚至超越了先前的大尺寸模型。通过这种蒸馏提炼的方法,OpenAI有效降低了模型在推理端的成本,找到可以盈利的商业化途径。微软的算力储备:提供基于GPU的超算设备。对于大语言模型,其训练所需的硬件大约在千张英伟达A100显卡以上,大量的GPU的集群以及性能优化是成本下降的重要保证。微软为满足训练需求,为OpenAI定制超级计算机,保证算力以及性能。展望后续,随着英伟达新架构显卡的推出,单算力成本将进一步优化。根据英伟达在2023年GTC大会中的表述,OpenAI也是全球第一家收到DGXH100的企业,我们预计今年年内OpenAI将取得更多英伟达H系列的产品,而这一新系列相比安培有2-3倍针对AI训练与AI推理的提升。参考GPT3.5的优化过程,我们预计GPT-4的调用成本有望在近1-2年内大幅优化。产品化:微软目前整体领先。诚然模型、算力等是一家公司AI实力的集中体现,单从模型到产品,亦须经过大量微调、安全性与可靠性保证以及用户需求的把握。全球范围内,微软目前是产品化进程最快、覆盖业务线最广的厂商。虽然copilot目前并未完全投入使用,但从微软的演示来看,承载copilot的GPT-4模型已经在搜索、Azure等领域开始使用,微软通过产品化实现了对业界的领跑。Copilot:显著提升办公软件生产力,并通过Grounding提高实际场景准确性MicrosoftCopilot定位:基于语言模型进行生产力的全面提升,企业级服务的AI产品。Copilot是微软生成式的AI助手,此前已被应用在类似于Github等代码开发场景。根据微软在其技术文档中的表示,Copilot采用了OpenAI推出的GPT-4模型,并且进一步优化了输出内容的可靠性以及使用数据的隐私问题,为企业级的应用做好了准备。AI功能被直接集成到Word、Excel、PowerPoint、Outlook和Teams等应用中,用户可以提出问题并提示AI撰写草稿、制作演示文稿、编辑电子邮件、制作演示文稿、总结会议等。Copilot将以两种方式与Microsoft365客户合作:1)嵌入到Word、Excel、PowerPoint、Outlook、Teams等。2)提供聊天功能。商务聊天功能覆盖LLM、Microsoft365应用和客户的日历、电子邮件、聊天、文档、会议和联系人工作等,通过自然语言提示(如“告诉我的团队我们如何更新产品策略”),商务聊天将根据上午的会议、电子邮件和聊天线程生成状态更新。业务逻辑:实现应用、数据、模型的业务闭环。在Copilot的业务逻辑中,从用户的输入到最终模型完成并自我迭代大约有以下流程:1)由用户给出实际需求的prompt,微软根据已经授权获取的用户数据图谱(graph)当中,提取所需数据。2)将数据以及识别后的prompt输入至语言模型。3)由语言模型处理,并进行多模态的关联落地(grounding),返回至用户的数据图谱。4)基于用户的数据图谱,返回至应用,完成输出以及命令的执行。关联落地(Grounding)是Copilot在用户级别对于指令的微调,是确保大语言模型生成的内容可靠的关键步骤。Copilot将会通过Grounding这一过程来提高其接收提示的质量,以确保模型最大程度上准确执行用户的指令。如果用户要求Word根据相应的数据创建文档,Copilot会将该提示发送到MicrosoftGraph以检索上下文和数据,然后修改并优化用户的提示(例如加入用户真实业务场景的数据的示例以提高准确性)并将其发送到GPT-4大语言模型。响应结果然后被发送到MicrosoftGraph进行额外的Grounding、安全性和合规性检查,最后将响应和命令发送回Microsoft365应用程序。通过Grounding这一过程,Copilot本质上将人类语言的表述根据实际的数据情况更换成更符合大语言模型理解的Prompting(提示),然后以此完成多模态之间的转换并提升指令的准确性。具体形式:Microsoft365Copilot无缝集成到不同应用中。根据微软的演示,未来copilot能够无缝植入到Microsoft365当中,并在多个场景发挥作用,具体包括:Word中的Copilot在人们工作时能够进行编写、编辑、总结和创建。例如,发出“创建一个关于销售数据的报告”的指令,Copilot就会根据指令,并基于可使用的数据文件,生成一个文档的初稿。然后,可以根据需要编辑生成的文本,选择接受或拒绝AI的修改。用户可以通过点击工具栏中的“Copilot”图标来激活Copilot在Word中的功能。微软的演示展示了:1)根据文档的数据,起草初稿;2)调整文档段落语气;3)根据大纲输出文档。PowerPoint中的Copilot通过自然语言命令将想法转化为设计的演示文稿。Copilot会利用MicrosoftGraph和大型语言模型的信息和能力,生成包含相关内容、图片和动画的演示文稿。Copilot还可以帮助优化和调整演示文稿,让它更符合用户的偏好和风格。目前能够支持创建、新增素材、文字文档与备注的切换、格式与布局的优化、数据可视化等能力。Excel中的Copilot有助于在很短的时间内给出结论、识别趋势或创建具有专业外观的数据可视化效果。微软的演示,包括:1)按类型和渠道分解销售数据,并插入表格;2)预测变量变化,生成可视化图表;3)模拟数据变化对计算结果的影响。Outlook中的Copilot可以帮助合成和管理收件箱,以便将更多时间花在实际通信上,包括回顾过去邮件的内容并标记要点、根据收到的邮件起草回复、撰写新邮件草稿等能力,降低阅读和撰写邮件的实际时间成本。Teams中的Copilot通过直接在对话上下文中的实时摘要和操作项使会议更高效。Copilot能够组织关键讨论点,并总结关键行动。根据聊天记录创建会议议程、确定正确的人员进行后续跟进,并安排下一次检查。PowerPlatform中的Copilot将在PowerApps和PowerVirtualAgent中引入两项新功能,帮助所有技能水平的开发人员使用低代码工具加速和简化开发。GitHub数据显示,使用GitHubCopilot的开发人员中,有88%的人表示他们更加高效,77%的人表示该工具帮助他们减少了搜索信息的时间,74%的人表示他们可以将自己的精力集中在更令人满意的工作上。商务聊天汇集了来自文档、演示文稿、电子邮件、日历、便笺和联系人的数据,以帮助汇总聊天、编写电子邮件、查找关键日期,甚至根据其他项目文件编写计划,让整个团队保持在同一页面,并共同推动工作,花更少的时间关注工具,更多的时间关注最重要的工作。后续方向:可靠性、安全性、数据隐私等继续改进。虽然Microsoftcopilot能够通过语言模型大幅提升工作效率,但从实际来看,内容输出的可靠性以及数据问题仍需改进。在可靠性维度上,除了目前的Grounding方法,大语言模型还可以通过引入新的人类强化奖励函数、新增标注、新增数据等方法,降低内容的有害性,并通过知识图谱等辅助工具,加强内容输出的准确性。在隐私维度,Copilot目前提供了双因素身份验证、合规边界等隐私保护措施。目前微软在提供copilot相关服务时,在协议中明确表示使用的是公开数据+无版权数据以及微软的自有数据,一定程度降低了数据隐私性的问题。CopilotLLM不会根据用户的自有数据以及用户的提示上进行训练。在企业用户组内部,微软应用了相应的权限模型确保数据不会在用户组之间泄露。对个人层面用户,Copilot只展示用户可以访问的数据。不过目前一系列的隐私问题的解决方法,仅来自于微软的单方面保证,而微软在构建用户数据图谱时,必然会获取用户更为隐私的数据,后续可能需要第三方监管机构的监督。业绩弹性:中短期新增收入贡献预计在百亿美元量级AI能力的融入有助于显著提升软件产品的生产效率,节约用户操作时间,目前微软已经从产品层面将GPT-4的能力融入GitHubCopilot、Microsoft365、PowerApps等业务中,后续仍需关注其放开进度以及商业化版本的定价。随着商业版的正式推出,相关产品用户基数、ARPU有望获得显著增长,考虑到微软旗下软件产品庞大的用户基数,假定AI能力在软件中的订阅费用为10美元/月,我们测算,若用户AI订阅率为10%,则AI为微软软件业务每年带来的新增收入约为105亿美元。会议产品-Teamspremium:微软于2023年2月1日宣布了MicrosoftTeamsPremium的普遍可用(GA),TeamsPremium定价为10美元/User,在2023年7月前提供30%的折扣。相较于基础版本产品,TeamsPremium最大的亮点就是对于ChatGPT能力的融入。微软表示:ChatGPT能够基于视频会议自动生成笔记并标注个性化的亮点,且能够为每个用户提供个性化时间轴标记;同时,ChatGPT还将在会议纪要中自动生成章节,并为每个章节生成标题和描述。我们认为,ChatGPT能力的融入将成为Teams产品转化的有力手段。代码托管&编写-GitHub:2022年6月,GitHub宣布了GitHubCopilot的普遍可用。GitHubCopilot与代码编辑器集成,当开发者键入代码或者注释时,Copilot会生成与项目上下文和风格相匹配的代码建议。GitHubCopilot背后由OpenAICodex模型进行赋能,Codex是GPT-3120亿参数的一个版本,基于GitHu

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论