




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大语言模型通识微课
大模型的微调有监督微调,又称指令微调,是指在已经训练好的语言模型的基础上,通过使用有标注的特定任务数据做进一步的微调,使模型具备遵循指令的能力。通常,要对大模型进行微调,有以下一些原因:(1)因为大模型的参数量非常大,训练成本非常高,每家公司都去从头训练一个自己的大模型,这个事情的性价比非常低;(2)提示工程是一种相对来说比较容易上手的使用大模型的方式,通常大模型的实现都会对输入序列长度有限制,而提示工程会把提示搞得很长。提示越长,大模型的推理成本就越高。相对来说微调是更优方案。微课8.2大模型的微调(3)提示工程的效果如果达不到要求,企业又有比较好的自有数据,能够更好的提升大模型在特定领域的能力。这时候微调就非常适用。(4)要在个性化的服务中使用大模型的能力,这时候针对每个用户的数据,训练一个轻量级的微调模型是个不错的方案。(5)数据安全。如果数据不能传递给第三方大模型服务,那么搭建自己的大模型就非常必要。通常这些开源的大模型都需要用自有数据进行微调,才能够满足自身业务的需求。微课8.2大模型的微调微调的最终目的,是在可控成本的前提下,尽可能地提升大模型在特定领域的能力。从成本和效果的角度综合考虑,PEFT(参数高效微调)是比较流行的微调方案。8.2.1微调技术路线从参数规模的角度,大模型的微调技术路线分成两条。(1)对全量参数进行训练,这条路径叫全量微调(FFT),是用特定的数据对大模型进行训练,这在特定数据领域的表现会好很多。但FFT训练成本高;另外存在灾难性遗忘,用特定训练数据进行微调可能会表现变好,但也可能会把原来表现好的别的领域的能力变差。(2)只对部分参数进行训练,这条路径叫参数高效微调(PEFT)。PEFT主要想解决的是FFT存在的两个主要问题,是比较主流的微调方案。8.2.1微调技术路线从训练数据来源以及训练方法看,大模型微调有以下几条技术路线:(1)监督式微调,用人工标注的数据,通过传统机器学习中监督学习的方法,对大模型进行微调;(2)基于人类反馈的强化学习微调,把人类反馈通过强化学习方式引入对大模型的微调中去,让大模型生成的结果更符合人类的期望;(3)基于人工智能反馈的强化学习微调,这是想解决反馈系统的效率问题,因为收集人类反馈相对来说成本会比较高、效率比较低。不同的分类角度只是侧重点不一样,可以多个方案并举。8.2.1微调技术路线提示微调的出发点是基础模型的参数不变,为每个特定任务,训练一个少量参数的小模型,在具体执行特定任务的时候按需调用。其基本原理是在输入序列X之前,增加一些特定长度的特殊词元,以增大生成期望序列的概率。具体是在Transformer模型的嵌入环节。将大模型比做一个函数,提示微调是在保证函数本身不变的前提下,在X前面加上一些特定的内容,而这些内容可以影响X生成期望中Y的概率。8.2.2提示微调前缀微调的灵感来源是提示工程的实践,在不改变大模型的前提下,在提示的上下文中添加适当的条件,引导大模型有更加出色的表现。前缀微调的出发点跟提示微调是类似的,只不过在具体实现上有一些差异。提示微调是在嵌入环节,而前缀微调是在Transformer的编码器和解码器网络中都加了一些特定的前缀,它也保证基座模型本身没有变,只是在推理过程中,按需要在前面拼接一些参数。8.2.3前缀微调LoRA方法走了另一条技术路线,可以媲美全量微调的效果。LoRA有一个假设:现在看到的这些大模型都是被过度参数化的,其背后有一个低维的本质模型。通俗地说,大模型参数很多,但并不是所有的参数都发挥同样作用。大模型的部分参数是影响生成结果的关键,这就是低维的本质模型。LoRA的基本思路是:首先,适配特定的下游任务,训练一个特定的模型,里面主要是微调要得到的结果;其次进行低维分解;接着用特定训练数据训练。用LoRA适配不同的场景切换也非常方便,做简单的矩阵加法即可。8.2.3LoRA方法量化是一种在保证模型效果基本不降低的前提下,通过降低参数的精度,来减少模型对于计算资源的需求的方法,其核心目标是降成本,降训练成本,特别是降后期的推理成本。QLoRA就是量化版的LoRA,它是在LoRA的基础上进
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024-2025公司项目部管理人员安全培训考试试题(新)
- 2025企业安全培训考试试题考题
- 2024-2025工厂职工安全培训考试试题【能力提升】
- 2025合作伙伴关系确立合同书范本
- 2025电子产品赠送的合同范本
- 2025年大型无菌包装机合作协议书
- 2025健康管理中心连锁加盟合同书
- 2025标准办公室租赁合同
- 2025年兼职翻译服务合同范本
- 2025年兼职多职未签订合同男子失业又面临法律诉讼管理资料纠纷
- (人教版)初中地理八下-期中测试02
- 2024年军事理论知识竞赛考试题库及答案(360题)
- 国有企业采购管理规范 T/CFLP 0027-2020
- 厦门市外国语学校海沧附校教育集团2022-2023学年七年级下学期期中地理试题【带答案】
- 2024年NOC初赛-Scratch(小学高年级组)试题及答案
- 食品安全与日常饮食智慧树知到期末考试答案章节答案2024年中国农业大学
- 化学品MRSL培训教材
- 循证护理个案
- T-CRHA 028-2023 成人住院患者静脉血栓栓塞症风险评估技术
- 冬季车辆安全驾驶培训课件
- 健康指南腰椎管狭窄如何诊断腰椎管狭窄
评论
0/150
提交评论