版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
语言模型预训练简介/BERT/GPT/预训练语言模型优化2026/6/11第三章:语言模型预训练预训练简介任务/基本结构/应用实例BERT:掩码预训练模型网络结构/输入表示/训练GPT:生成式预训练模型GPT1/GPT2/GPT3模型优化与压缩模型压缩/微调适配/CANN2026/6/123.1简介语言模型预训练目的:学习通用的文本嵌入表达,提升下游任务的性能学习语言特征:语义特征、句法特征等学习语言现象:一词多义、指代等2026/6/133.1简介
2026/6/143.1简介语言模型预训练具体任务带掩码机制的语言模型:将文本中的部分token进行遮盖,通过使用其余的token预测被遮盖的token进行模型训练2026/6/153.1简介
2026/6/163.1简介预训练模型基础结构自注意模块2026/6/173.1简介预训练模型基础结构编解码器模块2026/6/183.2华为全栈全场景解决方案介绍2026/6/193.2华为全栈全场景解决方案介绍组成部分昇腾系列AI处理器MindStudio一站式开发环境和工具集MindX软件开发套件(SDK)开源自研AI框架MindSpore2026/6/1103.2掩码预训练模型BERTBERT网络结构Bert:基于Transformer的双向表示编码器2026/6/1113.2掩码预训练模型BERTBERT网络结构[CLS]是句子的开始标记,通常用于分类任务[SEP]是句子结束标记,用于分割不同的句子或句子片段注意力机制是双向的,这意味着每个词不仅关注其左侧的词,还关注其右侧的词顶部不同的注意力头关注句子中不同的部分2026/6/1123.2掩码预训练模型BERTBERT网络输入词向量:每个词都有一个对应的词向量,用于捕捉词的语义信息段向量:段向量用于区分不同的句子片段位置向量:位置向量用于捕捉词在句子中的位置信息2026/6/1133.2掩码预训练模型BERTBERT网络输入2026/6/1143.2掩码预训练模型BERTBERT网络输入:词向量词向量:基于深度神经网络的自然语言处理模型通常会将文本中的字和词用一个一维向量进行表示目标:具有相似语义的字或词所对应的嵌入表达,在特征空间上的距离也比较接近2026/6/1153.2掩码预训练模型BERTBERT网络输入:段向量与位置向量段向量:在NLP相关任务例如下一句预测中,模型的输入可能涉及两个句子,段向量的作用就是对这两个句子进行区分位置向量:描述每个词在句子中的相对位置2026/6/1163.2掩码预训练模型BERTBERT网络输入2026/6/1173.2掩码预训练模型BERTBERT网络训练掩码大语言模型:将输入序列的部分token随机遮挡起来,然后预测这些被遮挡起来的token替换方法80%被选中的token使用[Mask]代替:mydogis[Mask]10%被选中的token使用随机token代替:mydogisapple10%被选中的token保持不变:mydogiscute2026/6/1183.2掩码预训练模型BERTBERT网络训练2026/6/1193.2掩码预训练模型BERTBERT网络训练后续句预测:随机选择一对目标语句A和B,在这对目标语句中,A和B有50%的概率组成真实的前后句关系,模型需要将句子B分为IsNext或NotNext两类输入=[CLS]我喜欢玩[Mask]联盟[SEP]我最擅长的[Mask]是亚索[SEP]输出:IsNext输入=[CLS]我喜欢玩[Mask]联盟[SEP]今天天气很[Mask][SEP]输出:NotNext2026/6/1203.2掩码预训练模型BERTBERT网络训练2026/6/1213.2掩码预训练模型BERTBERT网络训练微调训练下游任务2026/6/1223.2掩码预训练模型BERTBERT网络训练句子对分类任务示例QNLI:用于判断文本是否包含问题的答案STS-B:预测两个句子的相似性,包括5个级别MRPC:也是判断两个句子是否是等价的单句分类任务示例SST-2:电影评价的情感分析CoLA:句子语义判断,是否是可接受的(Acceptable)2026/6/1233.2掩码预训练模型BERTBERT网络训练微调训练下游任务2026/6/1243.2掩码预训练模型BERTBERT网络训练问答任务示例SQuADv1.1:给定一个句子(通常是一个问题)和一段描述文本,输出这个问题的答案序列标注任务示例CoNLL-2003NER:判断一个句子中的单词是不是Person,Organization,Location,Miscellaneous或者other(无命名实体)2026/6/1253.3生成式预训练模型GPTGPT网络架构2026/6/1263.3生成式预训练模型GPTGPT系列2026/6/1273.3生成式预训练模型GPTGPT-1网络架构:特征抽取器采用12层Transformer解码器只使用了Transformer的Decoder结构2026/6/1283.3生成式预训练模型GPT
2026/6/1293.3生成式预训练模型GPTGPT-1有监督微调2026/6/1303.3生成式预训练模型GPTGPT-2网络架构:将其中的层归一化提前至各子模块之前,并在最后一个自注意力计算层后再增加了一次归一化2026/6/1313.3生成式预训练模型GPTGPT-2网络架构:解码器层数增加2026/6/1323.3生成式预训练模型GPTGPT-2多任务与零提示:不定义模型的具体任务,而是希望模型自动识别出来需要做什么任务2026/6/1333.3生成式预训练模型GPTGPT-3模型结构:更宽的表示向量、更多的网络层数、更大的语料库等2026/6/1343.3生成式预训练模型GPTGPT-3少样本与提示:通过对模型进行“提示”完成任务2026/6/1353.3生成式预训练模型GPTGPT-3学习范式转变:2026/6/1363.4预训练语言模型优化模型压缩知识蒸馏:用一个小模型去拟合一个庞大模型的输出分布2026/6/1373.4预训练语言模型优化模型压缩:知识蒸馏2026/6/1383.4预训练语言模型优化模型压缩剪枝:在保证模型性能不会受过大影响的同时,剪掉网络中不重要的链接参数或神经元2026/6/1393.4预训练语言模型优化模型压缩量化:尽可能不影响模型精度的同时减少参数的储存位数2026/6/1403.4预训练语言模型优化大语言模型的微调适配指令微调:指令设计通过语义解析器设计指令:使用语义解析将指令转换为形式语言(逻辑公式)根据已有的指令对模型进行微调:直接将自然语言指令编码到模型的词向量中基于超网络的方法:将任务指令和任务输入分开编码,将指令转换为特定于任务的模型参数2026/6/1413.4预训练语言模型优化大语言模型的微调适配指令微调2026/6/1423.4预训练语言模型优化大语言模型的微调适配对齐微调:与指令微调的标准不同,对齐微调更侧重于模型的实用性、诚实性和无害性有用性:模型能简明扼要且高效的回答或解决用户所提出的问题或者任务诚实性:模型能向用户提供准确的内容而不是由参数凭空捏造虚假信息无害性:模型不会生成具有歧视性或者具有冒犯性的回复2026/6/1433.4预训练语言模型优化大语言模型的微调适配提示微调:不是让大模型去适应下游任务,而是让下游任务的输入输出去适配大模型2026/6/1443.4预训练语言模型优化2026/6/1453.4预训练语言模型优化CANN介绍CANN是昇腾针对AI场景推出的异构计算架构2026/6/1463.4预训练语言模型优化CANN介绍CANN:最大化昇腾系列AI处理器的性能统一编程接口:AscendCL,一套用于在昇腾平台上开发深度神经网络推理应用的C语言API库AscendC算子:构建深度学习模型的基本构件2026/6/1473.4预训练语言模型优化CANN开放生态:社区与样例2026/6/1483.4预训练语言模型优化CANN开放生态:社区与样例2026/6/149生成式文本摘要引言/长期依赖问题/长文本编码/基于双向LSTM/基于预训练语言模型2026/6/150第四章生成式文本摘要引言文本摘要任务、抽取式摘要、生成式摘要、Seq2seq架构文本输入的长期依赖问题长期依赖问题、LSTM架构、GRU架构、梯度裁剪与正则化复杂的长文本编码方案双向RNN、层级式RNN基于双向RNN的文本摘要基于预训练语言模型的文本摘要2026/6/1514.1引言文本摘要任务任务目标:将长文本或文本集合转换为包含关键信息的简短摘要分类:按输入类型分类:单文档摘要、多文档摘要按输出类型分类:抽取式摘要、生成式摘要2026/6/1524.1引言
抽取式摘要:从原文中选取关键词句组成摘要。2026/6/1534.1引言抽取式摘要方法使用图、聚类等无监督方法提取词、句特征(例如句子的长度、位置等),然后利用机器学习算法抽取关键句子基于神经网络。这种方法将问题建模为序列标注或句子排序任务2026/6/1544.1引言抽取式摘要在语法、句法上有一定的保证,但存在一些问题,如:内容选择错误、连贯性差、灵活性差等生成式摘要允许摘要中包含新的词语或短语,灵活性更高2026/6/1554.1引言生成式摘要特点:允许摘要中包含新的词语或短语,灵活性高主要方法:Seq2Seq模型——encoder-decoder架构Encoder(编码器):将输入的文本编码成一个向量C(context)Decoder(解码器):从向量C提取重要信息、加工,生成文本摘要2026/6/1564.1引言Sequence-To-Sequence(Seq2seq)架构2026/6/1574.1引言Seq2seq→基于RNN的架构2026/6/1584.1引言
2026/6/1594.1引言
2026/6/1604.2文本输入的长期依赖问题长期依赖问题当计算图变得极深时,变深的结构使模型丧失了学习到先前信息的能力,也让优化变得非常困难。循环网络要在长时间序列的各个时刻重复应用相同操作来构建非常深的计算图,并且模型参数共享,这使问题更加凸显。2026/6/1614.2文本输入的长期依赖问题
2026/6/1624.2文本输入的长期依赖问题传统RNN改进:长短期记忆网络(LongShort-TermMemory,LSTM)特点:引入记忆元(memorycell)来记录和维护附加的信息,有效地保留过去重要的信息,忽略不再需要的信息,解决长期依赖问题2026/6/1634.2文本输入的长期依赖问题LSTM架构:2026/6/164
4.2文本输入的长期依赖问题LSTM架构:2026/6/165
4.2文本输入的长期依赖问题LSTM架构:2026/6/166
4.2文本输入的长期依赖问题LSTM架构:2026/6/167
4.2文本输入的长期依赖问题LSTM架构:2026/6/168
4.2文本输入的长期依赖问题LSTM架构:2026/6/169
4.2文本输入的长期依赖问题LSTM架构:2026/6/170
4.2文本输入的长期依赖问题长短期记忆网络(LSTM)2026/6/1714.2文本输入的长期依赖问题传统RNN改进:门控循环单元(GatedRecurrentUnit,GRU)特点:GRU引入了门控机制选择性地保留或丢弃过去的信息,能有效解决梯度消失问题。2026/6/1724.2文本输入的长期依赖问题GRU架构2026/6/173
4.2文本输入的长期依赖问题GRU架构2026/6/174
4.2文本输入的长期依赖问题GRU架构:2026/6/175
4.2文本输入的长期依赖问题GRU架构:2026/6/176
4.2文本输入的长期依赖问题GRU架构:2026/6/177
4.2文本输入的长期依赖问题梯度裁剪与正则化梯度裁剪:神经网络一般通过梯度下降法学习,当网络太深时会造成梯度爆炸或者梯度消失的问题。梯度裁剪能一定程度上缓解以上问题。2026/6/1784.2文本输入的长期依赖问题梯度裁剪与正则化梯度裁剪解决梯度爆炸:对每个参数的梯度值进行限制,使其不超过一个预先设定的最大值解决梯度消失:也可以通过梯度裁剪一定程度缓解梯度消失问题,但还需要其他的技术,例如使用更合适的激活函数、残差连接、归一化等2026/6/1794.2文本输入的长期依赖问题梯度裁剪与正则化正则化:正则化是一种为了减小测试误差(注意:是针对于测试误差,对于训练误差可能是增加)的行为,当使用复杂的模型拟合数据时,很容易出现过拟合现象,从而导致模型的泛化能力下降。此时我们就需要使用正则化来降低模型的复杂度,从而防止过拟合。2026/6/1804.2文本输入的长期依赖问题
2026/6/1814.3复杂的长文本编码方案
2026/6/1824.3复杂的长文本编码方案双向卷积神经网络(RNN)在许多应用场景中,要输出的预测结果可能依赖于整个输入序列。例如,在语音识别中,由于存在协同发音,当前语音信号的正确解释可能需要考虑之前出现的词以及未来可能出现的词,因为单词之间存在语义上的依赖关系。2026/6/1834.3复杂的长文本编码方案双向卷积神经网络(RNN)双向RNN:由一个从时间序列起点开始移动的RNN和另一个从时间序列末尾开始移动的RNN组成。这种结构允许输出单元的计算同时依赖过去和未来时刻的输入信息。2026/6/1844.3复杂的长文本编码方案双向卷积神经网络(RNN)2026/6/1854.3复杂的长文本编码方案双向卷积神经网络(RNN)优点:对于预测结果依赖于整个输入序列的任务表现良好,同时能综合考虑所有输入信息,从而缓解遗忘早期的输入信息。任务场景:手写识别、语音识别2026/6/1864.3复杂的长文本编码方案层级式卷积神经网络(RNN)特点:类似于将多层全连接神经网络叠在一起形成多层感知机(MLP),同样也可以将多个循环神经网络(RNN)层堆叠在一起,形成一个多层RNN网络。2026/6/1874.3复杂的长文本编码方案层级式卷积神经网络(RNN)架构:第一层RNN输出的T个状态向量作为第二层RNN的输入第二层RNN拥有独立的参数,依次读取T个来自第一层RNN的输出向量,产生T个新的输出第二层RNN的输出又作为第三层RNN的输入,以此类推到第n层2026/6/1884.3复杂的长文本编码方案层级式卷积神经网络(RNN)2026/6/1894.4基于双向RNN的文本摘要案例:Words-lvt2k(AbstractiveTextSummarizationusingSequence-to-sequenceRNNsandBeyond,ACL2016)该模型以一个包含双向GRU-RNN的编码器和单向GRU-RNN的解码器的模型作为基准模型,并将注意力模型应用在编码器的hiddenstate上,将一个softmax分类器应用在解码器的生成器上。2026/6/1904.4基于双向RNN的文本摘要案例:Words-lvt2k(ACL2016)Feature-richEncoder:融合wordfeature包括单词的词性标注(part-of-speech),命名实体标签(named-entitytags)以及TF(词频)和IDF(逆文本频率),对Encoder的输入构建了具有多个维度的词嵌入(wordembedding),这些维度上的意义对于摘要的生成至关重要。2026/6/1914.4基于双向RNN的文本摘要案例:Words-lvt2k(ACL2016)SwitchGenerator/Pointer:文摘中会遇到一些低频但很重要或者OOV(Outofvocabulary)的词,这个开关解决了这类问题。根据上下文计算开关打开Generator的概率,然后根据概率改变开关状态,如果是Generator就产生一个单词,如果是Pointer就生成一个指向原文单词位置的指针,然后复制到摘要中。2026/6/1924.4基于双向RNN的文本摘要案例:Words-lvt2k(ACL2016)Hierarchicalencoderwithhierarchicalattention:这里实际上是对Attention机制的改进,分了两个等级:word-level和sentence-level,既考虑了Encoder中每个单词对于Decoder的重要性,又考虑了这个单词所在句子对Decoder的重要性,从而在两个等级层次上重新定义Attention机制中的权重。2026/6/1934.5基于预训练语言模型的文本摘要2026/6/194目前,基于Transformer的预训练语言模型在各种下游任务上取得了良好的结果。预训练的上下文语言模型,比如BERT,在众多自然语言处理任务中表现出了卓越的性能,包括文本摘要任务本节以一种基于BERT的文本摘要模型为例,探讨如何充分利用这些强大的预训练模型来改进文本摘要的质量4.5基于预训练语言模型的文本摘要2026/6/195两阶段解码器:草稿生成+摘要精炼草稿生成:由基于BERT的编码器提取输入文档的上下文表示嵌入(Documentembedding)。再将文档的嵌入表示输入一个单向的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 690MW抗低温风电项目可行性研究报告
- 各知识域论文范围管理
- 2026年蛙泳踩水说课稿图片app
- 小学运动安全“规则”2025说课稿
- 2026年规律拼音游戏说课稿
- 第5课 池塘里的小蝌蚪说课稿-2025-2026学年小学信息技术(信息科技)第一册(供三年级使用)浙教版(广西)
- 高中社交礼仪说课稿2025
- 生产进度管控制度
- 初中科技创新2025专题探究说课稿
- 2026年湖北省咸宁市中(初)级职称水平能力测试(科技信息图书资料+图书资料)模拟试题
- DB42∕T 2523-2026 党政机关办公用房面积核定工作规范
- 2026统编版三年级语文下册全册知识点
- 企业档案归档制度
- 2025年7月新汉语水平考试HSK六级真题(附答案)
- 人教版语文八年级下册《第五单元》大单元整体教学设计
- 提高职场情商课件
- 广东省广州市2025年中考道德与法治真题(含答案)
- 2025高中英语3500词汇必背手册乱序版
- 2025福建厦漳泉城际铁路有限责任公司筹备组社会招聘10人考试模拟试题及答案解析
- 紧固件基础知识培训课件
- GB/T 45616.2-2025自动化系统与集成面向制造的数字孪生框架第2部分:参考架构
评论
0/150
提交评论