XTuner 微调 LLM 1.8B、多模态和 Agent_第1页
XTuner 微调 LLM 1.8B、多模态和 Agent_第2页
XTuner 微调 LLM 1.8B、多模态和 Agent_第3页
XTuner 微调 LLM 1.8B、多模态和 Agent_第4页
XTuner 微调 LLM 1.8B、多模态和 Agent_第5页
已阅读5页,还剩124页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

制作:李剑锋、汪周谦、王群讲者:汪周谦4InternLM21.8B模型5多模态LLM微调•两种Finetune范式•一条数据的一生第一期实战营优秀作品LLM的下游应用中,增量预训练和指令跟随是经常会用到两种的微调模式增量预训练微调使用场景:让基座模型学习到一些新知识,如某个垂类领域的常识训练数据:文章、书籍、代码等指令跟随微调使用场景:让模型学会对话模板,根据人类指令进行对话训练数据:高质量的对话、问答数据56778899 比如“世界第一高峰是?”做出回答,比如“珠穆朗玛峰”在使用对话模型时,通常是不会感知到这三种角色的什么是对话模板?对话模板对话模板 Output:世界第一高峰是珠穆朗玛峰<s>世界第一高峰是珠穆朗玛峰</s>世界第一高峰是珠穆朗玛峰世界第一高峰是珠穆朗玛峰 Input:世界第一高峰是?Output:珠穆朗玛峰世界第一高峰是?珠穆朗玛峰珠穆朗玛峰LoRA:LOW-RANKADAPTATIONOFLARGELANGUAGEMODELSXTuner技术架构图功能亮点适配多种生态s,"适配多种硬件MaximumtrainingspeedLlama270BTrainingSpeed2.挑选配置模板3.一键训练xtunertraininternlm_20bConfig命名规则1.拷贝配置模板1.拷贝配置模板2.修改配置模板viinternlm_20b_qlora_3.启动训练xtunertraininternlm_20b_qlora_oa高数便Float16模型对话4bit模型对话xtunerchatinternlm/inter加载Adapter模型对话xtunerchatinternlm/internlm-chat-20联网搜索解方程联网搜索解方程XTuner还支持工具类模型的对话,更多详见HuggingFaceHub(xtuner/Llama-2-7b-qlora-moss-003-sft)使用计算器2.格式化问答对可训练语料2.格式化问答对可训练语料1.原始问答对格式化问答对开发者可以专注于数据内容不必花费精力处理复杂的数据格式!开发者可以专注于数据内容不必花费精力处理复杂的数据格式!3条原始1条训练样本增强并行性,充分利用GPU资源!1.拷贝配置模板2.修改配置模板viviinternlm_20b_qlor3.启动训练xtunertraininternlm_20b_qlora_FlashAttentionFlashAttentionDeepSpeedZeROxtunertraininternlm_20b_q显存/GB显存/GB080为了响应社区用户极其强烈的呼声,InternLM2-1.8B于近日正式开源!要说这呼声多强烈,有issue截图为证。InternLM2-1.8B提供了三个版本的开源模型,大家可以按需选择。•InternLM2-1.8B:具有高质量和高适应灵活性的基础模型,为下游深度适应提供了•InternLM2-Chat-1.8B-SFT:在InternLM2-1.8B上进行监督微调(SFT)后得到的•InternLM2-Chat-1.8B:通过在线RLHF在InternLM2-Chat-1.8B-SFT之上进在FP16精度模式下,InternLM2-1.8B仅需4GB显存的笔记本显卡即可顺畅运行。•给LLM装上电子眼:多模态LLM原理简介•什么型号的电子眼:LLaVA方案简介•快速上手:InternLM2_Chat_1.8B+LLaVA多模态理解:读图识图LLaVA多模态生成:图像生成Midjourney文本单模态文本+图像多模态•HaotianLiu等使用GPT对图像数据生成描述,以此构建出大量<questiontext><image>--<answertext>的数据对。•利用这些数据对,配合文本单模态LLM,训练出一个ImageProjector。•所使用的文本单模型LLM和训练出来的ImageProjector,统称为LLaVA模型。LLaVA训练阶段示意图LLaVA训练阶段示意图ImageProjector的训练和测试,有点类似之前我们讲过的LoRA微调方案。二者都是在已有LLM的基础上,用新的数据训练一个新的小文件。只不过,LLM套上LoRA之后,有了新的灵魂(角色);而LLM套上ImageProjector之后,才有了眼睛。••LLaVA方案中,给LLM增加视觉能力的过程,即是训练ImageProjector文件的过程。Pretrain和Finetune。在本节中,我们将自己构造<questiontext><image>--<answertext>数据对,基于InternLM2_Chat_1.8B这个文本单模态模型,使用LLaVA方案,训练一个给InternLM2_Chat_1.8B使用的ImageProjector文件。••LLaVA方案中,给LLM增加视觉能力的过程,即是训练ImageProjector文件的过程。Pretrain和Finetune。在本节中,我们将自己构造<questiontext><image>--<answertext>数据对,基于InternLM2_Chat_1.8B这个文本单模态模型,使用LLaVA方案,训练一个给InternLM2_Chat_1.8B使用的ImageProjector文件。在Pretrain阶段,我们会使用大量的图片+简单文本(caption,即图片标题)数据对,使LLM理解图像中的普遍特征。即,对大的模型已经有视觉能力了!但是由于训练数据中都是图片+图片标题,所以此时的模型虽然有视觉能力,但无论用户问它什么,它都只会回答输入图片的标题。即,此时的模型只会给输入图像在Pretrain阶段,我们会使用大量的图片+简单文本(caption,即图片标题)数据对,使LLM理解图像中的普遍特征。即,对大的模型已经有视觉能力了!但是由于训练数据中都是图片+图片标题,所以此时的模型虽然有视觉能力,但无论用户问它什么,它都只会回答输入图片的标题。即,此时的模型只会给输入图像在Pretrain阶段,我们会使用大量的图片+简单文本(caption,即图片标题)数据对,使LLM理解图像中的普遍特征。即,对大的模型已经有视觉能力了!但是由于训练数据中都是图片+图片标题,所以此时的模型虽然有视觉能力,但无论用户问它什么,它都只会回答输入图片的标题。即,此时的模型只会给输

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论