计算机行业深度分析报告:大语言模型的前世、今生与未来 20230906 -财通证券_第1页
计算机行业深度分析报告:大语言模型的前世、今生与未来 20230906 -财通证券_第2页
计算机行业深度分析报告:大语言模型的前世、今生与未来 20230906 -财通证券_第3页
计算机行业深度分析报告:大语言模型的前世、今生与未来 20230906 -财通证券_第4页
计算机行业深度分析报告:大语言模型的前世、今生与未来 20230906 -财通证券_第5页
已阅读5页,还剩29页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

计算机/计算机/行业深度分析报告/2023.08.31投资评级投资评级:看好(维持)分析师杨烨yangye01@2023-08-23核心观点核心观点列进行概率建模,用一个高维向量来表示一个token的全部特征。我们将深度学习应用于NLP领域的范式转移总结为"有监督的机器学习->预训练+微调->预训练+提示"。其中,ChatGPT的横空出世开启了“预训练+提示”的新范式,这主要得益于OpenAI对生成类模型(GPT)和算法规模化(Scalability)这两个基础技术路线的成功押注,大语言模型“涌现”出了解决复杂问题的通用能力,催生了本轮全球范围内的生成式AI浪潮。大模型应用:数据感知与代理能力。如何将个人的个性化私有数据和企业多年积累的行业专有知识嫁接到大模型的通用能力上,是大模型在垂直领域商业化落地的核心技术问题。我们在报告中详细列举了三种目前业内主流的能力(Agent让大语言模型具备自主理解、规划、执行复杂任务的能力,同时与计算机内部环境,甚至物理世界进行交互,这也将显著打开大模型应用的想象空间。此外,我们认为提升模型支持的上下文长度是应用创新的关键靶点,模型小型化也将助力大模型应用的商业化落地。在基座模型的通用能力上,叠加一些其他的可实现的外部能力,这就包括上述的数据感知(可连接其他外部数据源)和代理能力(允许大模型与环境互动)。根据这一范式,我们可以将现阶段大模型的应用边界归纳为通用认知能力与上述两种外部能力的排列组合。基于此,展望未来大模型新应用的靶点可总结为:①通用能力的增强(上下文长度、复杂推理、数学、代码、多模态等)、②外部能力的扩充(处理非结构化数据、使用更复杂的工具、与物理世界的交互等)业红利,重点公司包括金山办公、万兴科技、同花顺、科大讯飞、福昕软件等。AI在B端加速落地,具备细分行业数据与客户资源卡位的企业有望优先受益,重点公司包括恒生电子、拓尔思、税友股份等。算力是AI大模型产业化落地的必备环节,建议关注AI服务器相关厂商以及国产AI芯片厂商:浪潮信息、中科曙光、优刻得、紫光股份、海光信息、寒武纪、拓维信息、神州数码以及在向量数据库及垂直大模型领域有技术优势的星环科技等。风险提示:AI技术迭代不及预期的风险,商业化落地不及支持不及预期风险,全球宏观经济风险。谨请参阅尾页重要声明及财通证券股票和行业评级标准2 41.1技术探索:深度学习加速推进数据的无损压缩 41.2技术应用:预训练语言模型成 51.3技术跃迁:大语言模型可能打开通往AG 5 6 6 72.3模型智能的“涌现”是生成式AI浪 8 3.1外部数据:三条融合垂域数据打造大模型的技术路径 3.2代理(Agent为大模型加上四肢,强化复杂任务处理能力 3.3上下文长度:应用创新的关键靶点 4应用分析框架:通用能力与外部能力的组合 4 5 6 7 8 9 9 谨请参阅尾页重要声明及财通证券股票和行业评级标准3 谨请参阅尾页重要声明及财通证券股票和行业评级标准41.1技术探索:深度学习加速推进数据的无损压缩的智能,一直是全球人工智能学者毕生追求的1950年提出了“机器能思考吗”这一跨型,再到如今拥有千亿级参数的超大规模预训练模型,深度学习因其能够实现非线性空间的有效变换,并能利用GPU等硬件实现加速计算,因研究领域的核心主线。无论是早期的RNN网络去实现数据的无损压缩,而数据的压缩能力计算机科学家罗森布拉特提出了由两层神经元构成的神经网络,这种网络被),ConvolutionalNeuralNetworks被广泛应用于计算机视觉的精确提出了一种采用Attention机制的全新模型——Trans谨请参阅尾页重要声明及财通证券股票和行业评级标准51.2技术应用:预训练语言模型成为NLP主流开始尝试用更多的数据去训练一个能力更强的模型——预训练模型过迁移学习的方法使其适用于下游特定的任务。这就是GTransformer,基于Transformer1.3技术跃迁:大语言模型可能打开通往AGI之路谨请参阅尾页重要声明及财通证券股票和行业评级标准6也有待进一步探索。因此,我们认为提升模型可靠性和提升模型性能共同构成了2OpenAI与GPT:算法、工程、商业的融合的强化学习(RLHF,ReinforcementLearningfromHuma谨请参阅尾页重要声明及财通证券股票和行业评级标准7牺牲部分性能以提升其内容输出的可靠性。商”Model)是经过海量数据预训练(Pre-train)所得到,它具备一定的通用能力,过指令微调,才能具备与人类流畅对话的能力(其中数据集需要包含各种与人类行为、情感相关的指令和任务使得基座模型在预训练阶段获得的能力被进一型微调不可避免将带来某些性能上的取舍,例如OpenAI在中称其为“对齐税”(alignment谨请参阅尾页重要声明及财通证券股票和行业评级标准8的规模之间服从PowerLaw,即随着模思维链提示(ChainofThoughZero-shot-CoT:在prompt提问的结尾只需附加“Let'sthinkst谨请参阅尾页重要声明及财通证券股票和行业评级标准9谨请参阅尾页重要声明及财通证券股票和行业评级标准103大模型应用:数据感知与代理(Agent)能力3.1外部数据:三条融合垂域数据打造大模型的技术路径在垂直领域商业化落地的核心技术问题。目前开发者主要采用三种思路:););方案①实现难度最大,模型对垂域知识的零样本学习能力最强(Zero-shot谨请参阅尾页重要声明及财通证券股票和行业评级标准11耗集中在微调和推理。方案②本质是借鉴了Bert做下游任务改造的思路。然调后的模型通用能力上限依然受制于基座模型本身。因此,方案②适合方案③实现难度最低,模型不具备垂域知识的零样本学习能力,算力消耗集中Delta-Tuning是对大模型参数高效的微调范式。当大模型高效(Parameter-efficient)的新范ComprehensiveStudyofParameterEfficientMethodsforPre-trainedLanguModels》论文中对解决上述问题的方法进行了总结,这些方法本质上都是在尽量不改变原有模型参数的情况下引入一个增量参数(DeltaParemters)谨请参阅尾页重要声明及财通证券股票和行业评级标准12大模型应用开发框架,集成了模型I/0、数据连功能。因此,使用LangChain将大模型与企业的垂域知识库连接(回的内容和输入的prompt本身一起成为输入给谨请参阅尾页重要声明及财通证券股票和行业评级标准13探讨的另一个热门方向。目前大模型的代理能力可以体现在两方面:1)允许单个大模型使用工具、2)允许多个大模型协作竞争。OpenAI安全系统负责人数据、调用公司或个人资料库、执行订机票等操作。插件功能的本质是在输入的产品,我们认为这代表了大模型应用未来发展的底层范式,即应用开发将是一谨请参阅尾页重要声明及财通证券股票和行业评级标准14谨请参阅尾页重要声明及财通证券股票和行业评级标准15以认为上下文长度的拓展可能是推动应用落地的关键靶点:更长的上下文长度->更大的提示工程潜力->功能更强大的大模型应用谨请参阅尾页重要声明及财通证券股票和行业评级标准16模型名称AnthropicGPT-3.5-Turbo-16K模型小型化技术主要包括压缩参数和压缩结构。大模型应用落地的另一个关键堵外,我们也可以对模型本身进行压缩以降低推理成本。模型够在边缘端或其他资源受限环境中运行的精简小型模型。根据《深度学习模型压缩与加速综述》中的分类,压缩参数的主要方法包括:参数剪枝、参数秩分解和参数共享等;压缩结构的主要方法包括紧凑网络和知识蒸馏等。压缩压缩设计关于参数重要性的评价准则,基于该准则判断网络参数的重要程将网络参数从32位全精度浮点数量化到更低位数将高维参数向量降维分解为稀疏的低维向量压缩压缩将较大的教师模型的信息提炼到较小的学生模型谨请参阅尾页重要声明及财通证券股票和行业评级标准17参数量化是目前降低模型推理成本的主流技术路径。计算量(FLOPs)对应的是时(Params)对应的是空间复杂度,主要关注显存占用量,即衡量网络模练的参数总数。当前,参数量化是目前降低模型推理成本的主流技术路径,心思想是通过将浮点计算转成低比特定点计算以降低数据精度,有效降低4应用分析框架:通用能力与外部能力的组合式,我们可以将现阶段大模型的应用边界归纳为通用认知能力与上述两种外通用能力的增强(上下文长度、复杂推理、数学、代码、多模态等)外部能力的扩充(处理非结构化数据、使用更复杂的工具、与物理世界的谨请参阅尾页重要声明及财通证券股票和行业评级标准181.通用能力+数据感知=信息检索、汇总、再生成b.数据特征挖掘器i.2C->基础数据分析、个性化营销、智能问诊...ii.2B->商业分析、网安攻击关联分析.c.特定内容生成器ii.2B->金融报表、法律文件、研究报告、病例.i.2C->第三方Plugins、代码解释器、办公场景(Excel).5投资建议产AI芯片厂商:浪潮信息、中科曙光、优刻得、紫光股份、海光信息、纪、拓维信息、神州数码以及在向量数据库及垂直大模型领域有技

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论