CN119398173A 一种基于蒙特卡洛树搜索的代码大模型自我进化方法 (北京理工大学)_第1页
CN119398173A 一种基于蒙特卡洛树搜索的代码大模型自我进化方法 (北京理工大学)_第2页
CN119398173A 一种基于蒙特卡洛树搜索的代码大模型自我进化方法 (北京理工大学)_第3页
CN119398173A 一种基于蒙特卡洛树搜索的代码大模型自我进化方法 (北京理工大学)_第4页
CN119398173A 一种基于蒙特卡洛树搜索的代码大模型自我进化方法 (北京理工大学)_第5页
已阅读5页,还剩16页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

号一种基于蒙特卡洛树搜索的代码大模型自本发明提供一种基于蒙特卡洛树搜索的代2解决方案。理模型会尝试通过不同的推理路径生成更高效的方案;3将推理路径作为输入,训练推理模型,以学习能够生成逻辑严谨,4编程语言之间的代码转换或者不同编程语言[0008][1]Vaswani,A.,etal."AttentionIsAllYouNeed."AdvancesinNeuralInformationProcessingSystems,2017.[0009][2]Radford,A.,etal."LanguageModelsareFew_ShotLearners."arXivpreprintarXiv:2005.14165,2020.5[0029]6生成任务:“编写一个函数来计算给定数字的阶乘。”这个任务将被输入到推理模型7整数是否是质因数",而叶子节点则是最骤S1到Sn,生成的对下一步Sn+1的一个简短描述,因为如果直接让大模型针对前面的步骤S1到Sn后面,作为上文进而生成Sn+1。在MCTS中加入反思是本发明对蒙特卡洛树搜索算法的改进之一。8分若新步骤yi+1中不存在错误,但历史前文步骤中存在错误,可能导致后续也走入错误[0079]再训练的过程通常采用监督学习的方式,将推理路径作为输入,训练推理模型9。体步骤如下:65.5277.4453.60Mistral_7B_V0.3_Instr39.737.8041.60Meta_Llama_3.1_8B_Instr62.0264.6359.4066.8479.2754.40能自主改进,最终得到了一个能解决复杂问题的代码大模型,在多个下游任务上优于

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论