自然语言处理(第3章)教案 语言模型预训练_第1页
自然语言处理(第3章)教案 语言模型预训练_第2页
自然语言处理(第3章)教案 语言模型预训练_第3页
自然语言处理(第3章)教案 语言模型预训练_第4页
自然语言处理(第3章)教案 语言模型预训练_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

语言模型预训练参考学时2学时(90分钟)。教学目标(能力要求)系统梳理语言模型预训练的基本概念、演变过程及“预训练+微调”与“预训练+提示”范式的基本内容;学生能深入理解Transformer中自注意力机制(Self-Attention)的查询(Q)、键(K)、值(V)矩阵的作用以及整体的计算过程;学生能理解BERT与GPT模型的网络结构差异(编码器vs解码器)、训练任务(掩码语言模型vs文本预测)及下游任务应用场景;学生能基本阐述模型压缩的主要方法,包括知识蒸馏、剪枝、量化的基本内容;学生能基本阐述大语言模型的指令微调与对齐微调的主要策略;学生能简单了解华为昇腾AI全栈解决方案(Ascend处理器、MindSpore框架、CANN架构),培养学生对国产自主可控AI软硬件生态的认知与信心。教学重点和难点教学重点:Transformer自注意力机制的数学原理、BERT和GPT的模型架构与区别教学难点:理解BERT与GPT的预训练任务的本质区别、理解NLP任务处理范式的演进教学主要内容语言模型预训练概述与基础(15分钟)预训练的目的,从非上下文嵌入到上下文嵌入的演变语言模型预训练任务Transformer模型的基本架构、Attention机制的计算原理华为全栈全场景AI解决方案简介(5分钟)全栈架构(昇腾AI处理器、CANN异构计算架构、MindSpore框架等技术栈)生态工具(MindStudio开发环境、ModelArts平台)掩码预训练模型BERT(25分钟)模型结构:基于Transformer的双向编码器(Encoder),强调双向注意力机制输入表示:词向量(TokenEmbedding)、段向量(SegmentEmbedding)与位置向量(PositionEmbedding)的叠加机制预训练任务:掩码语言建模(MaskedLM)和下一句预测(NextSentencePrediction)微调与应用:举例说明句子对分类、单句分类、问答及序列标注的微调方法生成式预训练模型GPT(25分钟)模型结构:基于Transformer的解码器(Decoder),强调单向预测特性GPT系列演进:GPT-1、GPT-2、GPT-3范式转变:传统深度学习预训练+微调预训练+提示模型压缩与微调、CANN开发体系介绍(20分钟)模型压缩技术:知识蒸馏、剪枝与量化微调策略:指令微调、对齐微调、提示微调CANN开发体系、社区样例资源教学过程与方法语言模型预训练概述与基础(15分钟)预训练的目的,从非上下文嵌入到上下文嵌入的演变从非上下文嵌入(Non-contextualEmbeddings)到上下文嵌入(ContextualEmbeddings)的技术演变。说明上下文编码器如何根据输入序列动态生成包含语境信息的隐藏层表示,从而解决一词多义等复杂的语言特征问题。语言模型预训练任务定义语言概率模型的基本公式,即序列概率由各位置词汇的条件概率累积而成。同时指出传统单向预测模型仅利用上文信息的局限性。为克服此缺陷,引入了带掩码机制的语言模型,通过遮盖文本中的部分Token并利用其余部分进行预测,从而实现双向信息的利用。Transformer模型的基本架构、Attention机制的计算原理重点解析自注意模块(Self-Attention)。该机制通过Query、Key、Value三个矩阵的运算,计算句子中单词间的相关程度。由该图展示Transformer的宏观结构,包含左侧的编码器堆叠和右侧的解码器堆叠。编码器负责处理输入序列提取特征,解码器则依据编码特征逐步生成目标序列。华为全栈全场景AI解决方案简介(5分钟)全栈架构(昇腾AI处理器、CANN异构计算架构、MindSpore框架等技术栈)生态工具(MindStudio开发环境、ModelArts平台)介绍华为全栈全场景AI解决方案的层次架构。底层为Atlas系列硬件和昇腾AI处理器,中间层为CANN异构计算架构和MindSporeAI框架,上层包括MindX应用使能和ModelArts开发平台。该架构旨在通过软硬协同,为从边缘计算到云端训练提供统一且高效的算力支持。掩码预训练模型BERT(25分钟)模型结构:基于Transformer的双向编码器(Encoder),强调双向注意力机制BERT是基于Transformer的双向表示编码器。模型由多层TransformerEncoder堆叠而成。特别强调其注意力的双向性,即每个词在处理时能同时关注到其左侧和右侧的上下文信息,这与单向语言模型形成鲜明对比。输入表示:词向量(TokenEmbedding)、段向量(SegmentEmbedding)与位置向量(PositionEmbedding)的叠加机制BERT的输入由三部分叠加而成:捕捉词义的词向量(TokenEmbeddings)、区分不同句子的段向量(SegmentEmbeddings)以及标记词汇顺序的位置向量(PositionEmbeddings)。词向量将离散的字词映射为特征空间中距离相近的连续向量;段向量主要服务于句子对任务(如下一句预测),帮助模型区分输入中的SentenceA和SentenceB;位置向量则弥补了自注意力机制无法捕捉序列顺序的缺陷。预训练任务:掩码语言建模(MaskedLM)和下一句预测(NextSentencePrediction)BERT的核心预训练任务之一:掩码语言模型。训练时随机遮挡输入序列中15%的Token,要求模型预测被遮挡词。为缓解预训练与微调的差异,采用80%替换为[MASK]、10%随机替换、10%保持不变的策略。BERT的另一预训练任务:下一句预测。模型需判断输入的两个句子(A和B)是否具有连续的上下文关系。该任务通过特殊标记[CLS]和[SEP]辅助训练,旨在增强模型对句子间逻辑关系的理解能力。微调与应用:举例说明句子对分类、单句分类、问答及序列标注的微调方法对于句子对分类(如QNLI、STS-B)和单句分类(如SST-2),通常取[CLS]标记对应的输出向量连接分类层。对于问答任务(如SQuAD),微调目标是预测答案在文本中的起始和结束位置;对于序列标注任务(如NER),则需对每个Token的输出进行分类,判断其是否属于人名、地名等实体类别。生成式预训练模型GPT(25分钟)模型结构:基于Transformer的解码器(Decoder),强调单向预测特性GPT模型架构采用Transformer的解码器(Decoder)部分,是一种单向生成式模型。其特征抽取器由解码器堆叠而成,通过掩码多头自注意力机制确保预测当前词时仅利用上文信息,适用于文本生成任务。GPT系列演进:GPT-1、GPT-2、GPT-3表格对比了GPT-1至ChatGPT的演进。模型规模、语料库大小及上下文长度不断增长,模型的各项性能指标也不断提升。GPT-1确立了“无监督预训练+有监督微调”的模式。首先在无标记语料上优化语言模型目标,然后针对分类、蕴含、相似度等任务,通过添加起始符、分隔符和抽取符等特殊标记来转换输入格式,进行有监督微调。GPT-2在结构上调整了层归一化(LayerNorm)的位置,并大幅增加了层数和参数量。其核心理念转向“多任务与零样本提示(Zero-shot)”,即不显式定义任务,而是期望模型能根据输入自动识别并执行任务,无需针对特定任务进行微调。GPT-3使用了更宽更深的网络和海量数据。范式转变:传统深度学习预训练+微调预训练+提示从传统的面向每个下游任务训练各自模型,到基于预训练模型只微调部分新加入的任务模块参数,再到不进行模型微调,直接依赖文本提示词和预训练模型自身的能力解决任务。模型压缩与微调、CANN开发体系介绍(20分钟)模型压缩技术:知识蒸馏、剪枝与量化知识蒸馏技术,旨在用轻量级的学生模型(StudentModel)拟合庞大的教师模型(TeacherModel)。学生模型不仅学习标准标签,还通过最小化交叉熵来学习教师模型输出的软目标(概率分布),从而继承大模型的泛化能力。剪枝通过移除网络中不重要的连接或神经元来精简模型结构。量化在尽可能保持精度的前提下,减少参数存储位数(如32位浮点转为8位整数)。微调策略:指令微调、对齐微调

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论