自然语言处理(微课版)课件 第三章 语言模型预训练_第1页
自然语言处理(微课版)课件 第三章 语言模型预训练_第2页
自然语言处理(微课版)课件 第三章 语言模型预训练_第3页
自然语言处理(微课版)课件 第三章 语言模型预训练_第4页
自然语言处理(微课版)课件 第三章 语言模型预训练_第5页
已阅读5页,还剩44页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

语言模型预训练简介/BERT/GPT/预训练语言模型优化2026/6/11第三章:语言模型预训练预训练简介任务/基本结构/应用实例BERT:掩码预训练模型网络结构/输入表示/训练GPT:生成式预训练模型GPT1/GPT2/GPT3模型优化与压缩模型压缩/微调适配/CANN2026/6/123.1简介语言模型预训练目的:学习通用的文本嵌入表达,提升下游任务的性能学习语言特征:语义特征、句法特征等学习语言现象:一词多义、指代等2026/6/133.1简介

2026/6/143.1简介语言模型预训练具体任务带掩码机制的语言模型:将文本中的部分token进行遮盖,通过使用其余的token预测被遮盖的token进行模型训练2026/6/153.1简介

2026/6/163.1简介预训练模型基础结构自注意模块2026/6/173.1简介预训练模型基础结构编解码器模块2026/6/183.2华为全栈全场景解决方案介绍2026/6/193.2华为全栈全场景解决方案介绍组成部分昇腾系列AI处理器MindStudio一站式开发环境和工具集MindX软件开发套件(SDK)开源自研AI框架MindSpore2026/6/1103.2掩码预训练模型BERTBERT网络结构Bert:基于Transformer的双向表示编码器2026/6/1113.2掩码预训练模型BERTBERT网络结构[CLS]是句子的开始标记,通常用于分类任务[SEP]是句子结束标记,用于分割不同的句子或句子片段注意力机制是双向的,这意味着每个词不仅关注其左侧的词,还关注其右侧的词顶部不同的注意力头关注句子中不同的部分2026/6/1123.2掩码预训练模型BERTBERT网络输入词向量:每个词都有一个对应的词向量,用于捕捉词的语义信息段向量:段向量用于区分不同的句子片段位置向量:位置向量用于捕捉词在句子中的位置信息2026/6/1133.2掩码预训练模型BERTBERT网络输入2026/6/1143.2掩码预训练模型BERTBERT网络输入:词向量词向量:基于深度神经网络的自然语言处理模型通常会将文本中的字和词用一个一维向量进行表示目标:具有相似语义的字或词所对应的嵌入表达,在特征空间上的距离也比较接近2026/6/1153.2掩码预训练模型BERTBERT网络输入:段向量与位置向量段向量:在NLP相关任务例如下一句预测中,模型的输入可能涉及两个句子,段向量的作用就是对这两个句子进行区分位置向量:描述每个词在句子中的相对位置2026/6/1163.2掩码预训练模型BERTBERT网络输入2026/6/1173.2掩码预训练模型BERTBERT网络训练掩码大语言模型:将输入序列的部分token随机遮挡起来,然后预测这些被遮挡起来的token替换方法80%被选中的token使用[Mask]代替:mydogis[Mask]10%被选中的token使用随机token代替:mydogisapple10%被选中的token保持不变:mydogiscute2026/6/1183.2掩码预训练模型BERTBERT网络训练2026/6/1193.2掩码预训练模型BERTBERT网络训练后续句预测:随机选择一对目标语句A和B,在这对目标语句中,A和B有50%的概率组成真实的前后句关系,模型需要将句子B分为IsNext或NotNext两类输入=[CLS]我喜欢玩[Mask]联盟[SEP]我最擅长的[Mask]是亚索[SEP]输出:IsNext输入=[CLS]我喜欢玩[Mask]联盟[SEP]今天天气很[Mask][SEP]输出:NotNext2026/6/1203.2掩码预训练模型BERTBERT网络训练2026/6/1213.2掩码预训练模型BERTBERT网络训练微调训练下游任务2026/6/1223.2掩码预训练模型BERTBERT网络训练句子对分类任务示例QNLI:用于判断文本是否包含问题的答案STS-B:预测两个句子的相似性,包括5个级别MRPC:也是判断两个句子是否是等价的单句分类任务示例SST-2:电影评价的情感分析CoLA:句子语义判断,是否是可接受的(Acceptable)2026/6/1233.2掩码预训练模型BERTBERT网络训练微调训练下游任务2026/6/1243.2掩码预训练模型BERTBERT网络训练问答任务示例SQuADv1.1:给定一个句子(通常是一个问题)和一段描述文本,输出这个问题的答案序列标注任务示例CoNLL-2003NER:判断一个句子中的单词是不是Person,Organization,Location,Miscellaneous或者other(无命名实体)2026/6/1253.3生成式预训练模型GPTGPT网络架构2026/6/1263.3生成式预训练模型GPTGPT系列2026/6/1273.3生成式预训练模型GPTGPT-1网络架构:特征抽取器采用12层Transformer解码器只使用了Transformer的Decoder结构2026/6/1283.3生成式预训练模型GPT

2026/6/1293.3生成式预训练模型GPTGPT-1有监督微调2026/6/1303.3生成式预训练模型GPTGPT-2网络架构:将其中的层归一化提前至各子模块之前,并在最后一个自注意力计算层后再增加了一次归一化2026/6/1313.3生成式预训练模型GPTGPT-2网络架构:解码器层数增加2026/6/1323.3生成式预训练模型GPTGPT-2多任务与零提示:不定义模型的具体任务,而是希望模型自动识别出来需要做什么任务2026/6/1333.3生成式预训练模型GPTGPT-3模型结构:更宽的表示向量、更多的网络层数、更大的语料库等2026/6/1343.3生成式预训练模型GPTGPT-3少样本与提示:通过对模型进行“提示”完成任务2026/6/1353.3生成式预训练模型GPTGPT-3学习范式转变:2026/6/1363.4预训练语言模型优化模型压缩知识蒸馏:用一个小模型去拟合一个庞大模型的输出分布2026/6/1373.4预训练语言模型优化模型压缩:知识蒸馏2026/6/1383.4预训练语言模型优化模型压缩剪枝:在保证模型性能不会受过大影响的同时,剪掉网络中不重要的链接参数或神经元2026/6/1393.4预训练语言模型优化模型压缩量化:尽可能不影响模型精度的同时减少参数的储存位数2026/6/1403.4预训练语言模型优化大语言模型的微调适配指令微调:指令设计通过语义解析器设计指令:使用语义解析将指令转换为形式语言(逻辑公式)根据已有的指令对模型进行微调:直接将自然语言指令编码到模型的词向量中基于超网络的方法:将任务指令和任务输入分开编码,将指令转换为特定于任务的模型参数2026/6/1413.4预训练语言模型优化大语言模型的微调适配指令微调2026/6/1423.4预训练语言模型优化大语言模型的微调适配对齐微调:与指令微调的标准不同,对齐微调更侧重于模型的实用性、诚实性和无害性有用性:模型能简明扼要且高效的回答或解决用户所提出的问题或者任务诚实性:模型能向用户提供准确的内容而不是由参数凭空捏造虚假信息无害性:模型不会生成具有歧视性或者具有冒犯性的回复2026/6/1433.4预训练语言模型优化大语言模型的微调适配提示微调:不是让大模型去适应下游任务,而是让下游任务的输入输出去适配大模型2026/6/1443.4预训练语言模型优化2026/6/1453.4预训练语言模型优化CANN介绍CANN是昇腾针对AI场景推出的异构计算架构2026/6/1463.4预训练语言模型优化CANN介绍CANN

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论