《自然语言处理:基于预训练模型的方法》 课件 第6-9章 动态词向量预训练模型-多模态融合的预训练模型_第1页
《自然语言处理:基于预训练模型的方法》 课件 第6-9章 动态词向量预训练模型-多模态融合的预训练模型_第2页
《自然语言处理:基于预训练模型的方法》 课件 第6-9章 动态词向量预训练模型-多模态融合的预训练模型_第3页
《自然语言处理:基于预训练模型的方法》 课件 第6-9章 动态词向量预训练模型-多模态融合的预训练模型_第4页
《自然语言处理:基于预训练模型的方法》 课件 第6-9章 动态词向量预训练模型-多模态融合的预训练模型_第5页
已阅读5页,还剩131页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

动态词向量预训练模型词向量——从静态到动态1基于语言模型的动态词向量预训练2词向量——从静态到动态1基于语言模型的动态词向量预训练24HARBININSTITUTEOFTECHNOLOGY词向量——从静态到动态静态词向量的问题很多词包含多种语义信息,静态词向量无法解决“一词多义”的表示问题Appletheappleofmyeye…0.10.20.80.30.10.20.80.30.10.20.80.3相同!5HARBININSTITUTEOFTECHNOLOGY词向量——从静态到动态静态词向量的问题词向量应根据其所处的上下文的不同而发生改变Appletheappleofmyeye…0.10.20.80.30.10.20.80.50.90.20.80.36HARBININSTITUTEOFTECHNOLOGY词向量——从静态到动态

CoVe

(Contextualized

Word

Vectors)首次提出使用上下文相关的文本表示,即每个token的向量表示不唯一主要思想:将神经机器翻译(NMT)的表示迁移到通用NLP任务上7HARBININSTITUTEOFTECHNOLOGY词向量——从静态到动态

8HARBININSTITUTEOFTECHNOLOGY词向量——从静态到动态

词向量——从静态到动态1基于语言模型的动态词向量预训练210HARBININSTITUTEOFTECHNOLOGY

CoVe存在的问题训练依赖于双语平行语料训练神经机器翻译模型需要双语平行语料,获取难度较高相比单语语料,覆盖的领域也相对优先,通用性一般单独使用效果一般,性价比不高实验结果表明单独使用CoVe的效果一般需要搭配传统静态词向量才能获得较为显著的性能提升基于语言模型的动态词向量预训练11HARBININSTITUTEOFTECHNOLOGY基于语言模型的动态词向量预训练双向语言模型BiLM双向语言模型从前向(从左到右)和后向(从右到左)两个方向同时建立语言模型12HARBININSTITUTEOFTECHNOLOGY基于语言模型的动态词向量预训练双向语言模型BiLM输入表示层前向语言模型后向语言模型13HARBININSTITUTEOFTECHNOLOGY基于语言模型的动态词向量预训练ELMo词向量14HARBININSTITUTEOFTECHNOLOGY基于语言模型的动态词向量预训练ELMo词向量ELMo采取对不同层次的向量表示进行加权平均的机制,为不同的下游任务提供更多的组合自由度ELMo特点动态(上下文相关):词的ELMo向量表示由其当前上下文决定;鲁棒(Robust):ELMo向量表示使用字符级输入,对于未登录词具有强鲁棒性;层次:ELMo词向量由深度预训练模型中各个层次的向量表示进行组合,为下游任务提供了较大的使用自由度。15HARBININSTITUTEOFTECHNOLOGY基于语言模型的动态词向量预训练模型实现数据准备使用清洗后并经过分词等预处理的语料需要同时构建词级别与字符级别的训练语料,并建立相应的词表双向语言模型ELMo模型的核心是双向语言模型编码器部分主要包括基于字符的输入表示层以及前向、后向LSTM层训练在数据、模型组件构建完成后,使用实际数据对模型进行训练训练过程将输出每一次迭代后的前向语言模型的困惑度值训练完成后,便可以利用双向语言模型的编码器编码输入文本并获取动态词向量16HARBININSTITUTEOFTECHNOLOGY基于语言模型的动态词向量预训练模型实现使用AllenNLP调用ELMo17HARBININSTITUTEOFTECHNOLOGY基于语言模型的动态词向量预训练应用与评价作为下游任务特征即插即用,可以与静态词向量进行拼接也可以与隐层输出进行拼接右侧给出了利用ELMo实现文本分类的示例代码18HARBININSTITUTEOFTECHNOLOGY基于语言模型的动态词向量预训练应用与评价上下文相关的词义相似性检索ELMo相比GloVe(静态词向量)在词义消歧和近邻分析任务上都有比较好的表现谢谢!预训练语言模型概述1自回归预训练模型代表:GPT2自编码预训练模型代表:BERT3预训练语言模型的应用4深入理解BERT5概述1自回归预训练模型代表:GPT2自编码预训练模型代表:BERT3预训练语言模型的应用4深入理解BERT523HARBININSTITUTEOFTECHNOLOGY动态词向量模型的问题数据训练数据相对比较局限,例如CoVe要求使用双语平行句对模型表示模型的参数量相对较小(相比预训练语言模型),模型深度不够用法通常使用这类模型时,表示模型本身是不参与训练的(权重无更新)表示模型本身不参与训练,一定程度上限制了表示模型在下游任务上的泛化能力24HARBININSTITUTEOFTECHNOLOGY预训练模型三要素25HARBININSTITUTEOFTECHNOLOGY常见计算设备张量运算单元(TPU)图形运算单元(GPU)概述1自回归预训练模型代表:GPT2自编码预训练模型代表:BERT3预训练语言模型的应用4深入理解BERT527HARBININSTITUTEOFTECHNOLOGYGPTGPT:GenerativePre-TrainingOpenAI提出了“生成式预训练+判别式精调”框架正式开启了自然语言处理领域“预训练+精调”的新时代生成式预训练在大规模文本数据上训练一个高容量的语言模型,从而学习更加丰富的上下文信息判别式任务精调将预训练好的模型适配到下游任务中,并使用有标注数据学习判别式任务28HARBININSTITUTEOFTECHNOLOGYGPT:模型结构29HARBININSTITUTEOFTECHNOLOGYGPT:无监督预训练从左至右对输入文本进行建模给定文本序列计算最大似然估计GPT使用了多层Transformer作为模型的基本结构30HARBININSTITUTEOFTECHNOLOGYGPT:有监督任务精调利用下游任务的有标注数据,对GPT模型进行精调利用GPT最后一层的表示来完成相关预测任务某些情况下,添加额外的预训练损失可以进一步提升性能31HARBININSTITUTEOFTECHNOLOGYGPT:适配不同的下游任务根据任务特点,设置不同的输入输出形式概述1自回归预训练模型代表:GPT2自编码预训练模型代表:BERT3预训练语言模型的应用4深入理解BERT533HARBININSTITUTEOFTECHNOLOGYBERTBERT:BidirectionalEncoderRepresentationsfromTransformers(NAACL2019BestPaper)提出了一种双向预训练语言模型方法利用大规模自由文本训练两个无监督预训练任务BERT在众多NLP任务中获得了显著性能提升进一步强调了使用通用预训练取代繁杂的任务特定的模型设计34HARBININSTITUTEOFTECHNOLOGYBERTGPT/BERT/ELMo之间的对比GPT:单向从左至右的Transformer语言模型ELMo:将独立的前向和后向的LSTM语言模型拼接所得BERT:双向

Transformer语言模型35HARBININSTITUTEOFTECHNOLOGYBERT:模型结构整体结构由深层Transformer模型构成base:12层,参数量110Mlarge:24层,参数量330M预训练任务掩码语言模型(MaskedLanguageModel,MLM)下一个句子预测(Next

SentencePrediction,NSP)36HARBININSTITUTEOFTECHNOLOGYBERT:输入表示BERT的输入表示由三部分组成词向量:通过词向量矩阵将输入文本转换为实值向量表示块向量:编码当前词属于哪一个块位置向量:编码当前词的绝对位置37HARBININSTITUTEOFTECHNOLOGYBERT:基本预训练任务预训练任务1:MaskedLanguageModel(MLM)将输入序列中的部分token进行掩码,并且要求模型将它们进行还原在BERT中,会将15%的输入文本进行mask以80%的概率替换为[MASK]标记;以10%的概率替换为词表中的任意一个随机词;以10%的概率保持原词不变,即不替换。38HARBININSTITUTEOFTECHNOLOGYBERT:基本预训练任务预训练任务1:MaskedLanguageModel(MLM)输入层BERT编码层输出层39HARBININSTITUTEOFTECHNOLOGYBERT:基本预训练任务预训练任务2:NextSentencePrediction(NSP)学习两段文本之间的关系(上下文信息)预测SentenceB是否是SentenceA的下一个句子正样本:文本中相邻的两个句子“句子A”和“句子B”,构成“下一个句子”关系负样本:将“句子B”替换为语料库中任意一个句子,构成“非下一个句子”关系40HARBININSTITUTEOFTECHNOLOGYBERT:基本预训练任务预训练任务2:NextSentencePrediction(NSP)输入层BERT编码层输出层41HARBININSTITUTEOFTECHNOLOGYBERT:更多预训练任务整词掩码(Whole

Word

Masking)MLM:随机选取一定比例的WordPiece子词WWM:随机选取一定比例的整词,属于同一个整词的WordPiece子词均被掩码总掩码数量不变,变动的是掩码位置的选取42HARBININSTITUTEOFTECHNOLOGYBERT:更多预训练任务N-gram掩码(N-gram

Masking)对一个连续的N-gram单元进行掩码,进一步增加MLM任务的难度难度:N-gramMasking>WholeWordMasking>MLM43HARBININSTITUTEOFTECHNOLOGYBERT:更多预训练任务三种掩码策略的联系与区别概述1自回归预训练模型代表:GPT2自编码预训练模型代表:BERT3预训练语言模型的应用4深入理解BERT545HARBININSTITUTEOFTECHNOLOGY预训练语言模型应用特征提取和模型精调特征提取仅利用BERT提取输入文本特征,生成对应的上下文语义表示BERT本身不参与目标任务的训练,即BERT部分只进行解码(无梯度回传)模型精调利用BERT作为下游任务模型基底,生成文本对应的上下文语义表示参与下游任务的训练,即在下游任务学习过程中,BERT对自身参数进行更新通常使用“模型精调”的方法,因其效果更佳46HARBININSTITUTEOFTECHNOLOGY预训练语言模型应用单句文本分类(Single

Sentence

Classification)最常见的自然语言处理任务,需要将输入文本分成不同类别例如:将影评文本输入到分类模型中,将其分成“褒义”和“贬义”类别47HARBININSTITUTEOFTECHNOLOGY预训练语言模型应用单句文本分类(Single

Sentence

Classification)输入层BERT编码层分类输出层48HARBININSTITUTEOFTECHNOLOGY预训练语言模型应用句对文本分类(Sentence

Pair

Classification)与单句文本分类任务类似,需要将一对文本分成不同类别例如:文本蕴含任务中,将句对分成“蕴含”或者“冲突”类别

49HARBININSTITUTEOFTECHNOLOGY预训练语言模型应用句对文本分类(Sentence

Pair

Classification)输入层BERT编码层分类输出层50HARBININSTITUTEOFTECHNOLOGY预训练语言模型应用阅读理解(Reading

Comprehension)以抽取式阅读理解为例进行说明,要求机器在阅读篇章和问题后给出相应的答案,而答案要求是从篇章中抽取出的一个文本片段(Span)51HARBININSTITUTEOFTECHNOLOGY预训练语言模型应用阅读理解(Reading

Comprehension)输入层BERT编码层答案输出层52HARBININSTITUTEOFTECHNOLOGY预训练语言模型应用序列标注(Sequence

Tagging)以命名实体识别任务(NER)为例,对给定输入文本的每个词输出一个标签,以此指定某个命名实体的边界信息53HARBININSTITUTEOFTECHNOLOGY预训练语言模型应用序列标注(Sequence

Tagging)输入层BERT编码层序列标注层概述1自回归预训练模型代表:GPT2自编码预训练模型代表:BERT3预训练语言模型的应用4深入理解BERT555HARBININSTITUTEOFTECHNOLOGY深入理解BERT可解释性自解释:在模型构建之初针对性地设计其结构,使其具备可解释性事后解释:对于BERT等大规模预训练模型的解释性研究,集中在此类两个角度自注意力机制表示学习两种方法可视化(Visualization)探针实验(Probing)56HARBININSTITUTEOFTECHNOLOGY深入理解BERT自注意力可视化分析自注意力的分析将有助于理解BERT模型对于关系(relational)特征的学习能力57HARBININSTITUTEOFTECHNOLOGY深入理解BERT自注意力可视化分析计算各层注意力分布的信息熵浅层阶段熵值较大,中间阶段熵值减小,深层阶段熵值再次增大一定程度上可以反映BERT模型中信息聚合(或语义组合)的过程58HARBININSTITUTEOFTECHNOLOGY深入理解BERT探针实验设计特定的探针,对于待分析对象(如自注意力或隐含层表示)进行特定行为分析探针通常是一个非参或者非常轻量的参数模型(如线性分类器),它接受待分析对象作为输入,并对特定行为预测预测的准确度可以作为待分析对象是否具有该行为的衡量指标59HARBININSTITUTEOFTECHNOLOGY深入理解BERT探针实验为了检验某个自注意力头对直接宾语(Direct

object,dobj)关系的表达能力,可以设计一个探针对该自注意力头在dobj句法关系预测上的表现进行分析在BERT第8层第10个自注意力头(记为8-10号)的注意力分布中,其中红色高亮部分即为dobj关系结果表明在BERT模型中,确实存在一部分自注意力头较好地捕捉到特定的句法关系60HARBININSTITUTEOFTECHNOLOGY深入理解BERT探针实验自注意力反映了预训练模型内部信息的聚合过程,而模型的各层隐含层表示是聚合的结果对预训练编码器的隐含层表示直接进行探针实验,更好地理解其特性探针可以是一个简单的线性分类器,该分类器利用模型的隐含层表示作为特征在目标任务(如词性标注)上训练,从而根据该任务的表现对预训练模型隐含层表示中蕴含的语言学特征评估谢谢!预训练语言模型进阶模型优化1长文本处理2模型蒸馏与压缩3生成模型4模型优化1长文本处理2模型蒸馏与压缩3生成模型465HARBININSTITUTEOFTECHNOLOGY模型优化XLNet:Transformer-XLNet提出了一种可以捕获双向上下文的基于自回归的语言建模方法解决了BERT中存在的“预训练-精调”不一致的问题排列语言模型(PermutationLanguageModel)从所有可能的排列当中均匀采样一种排列顺序(factorizationorder)最大化对数似然函数66HARBININSTITUTEOFTECHNOLOGY模型优化XLNet:Transformer-XLNet改变建模顺序:3→2→4→1句子建模67HARBININSTITUTEOFTECHNOLOGY模型优化XLNet:Transformer-XLNet双流自注意力机制68HARBININSTITUTEOFTECHNOLOGY模型优化RoBERTa探究BERT的各个设计环节,包括掩码策略、NSP的有效性、训练步数等提出CC-News数据集,证明使用更多数据可以进一步提升预训练模型效果静态掩码vs.动态掩码

目的:增加掩码语言模型中的随机性,提高文本的利用度静态掩码:模型训练之前(数据预处理)阶段决定哪些词被mask,即BERT使用的方法动态掩码:模型训练的过程中决定哪些词被mask69HARBININSTITUTEOFTECHNOLOGY模型优化RoBERTaNSP预训练任务是否是必要的?实验结果表明,舍弃NSP任务可以获得微弱性能提升70HARBININSTITUTEOFTECHNOLOGY模型优化RoBERTa使用更大的批次大小以及更多数据适当增加预训练步数,可以进一步提升预训练效果目前广泛被认可的实证结论:训练预训练模型的关键之一是选用大的批次大小71HARBININSTITUTEOFTECHNOLOGY模型优化RoBERTa最终RoBERTa采用了以上所有优点预训练任务动态掩码技术(DynamicMasking)使用整句输入,舍弃NSP损失(Full-SentenceswithoutNSPloss)预训练实验设置使用更大的批次大小:256→8192更大的byte-levelBPE词表(sentencepiece):30k→50K72HARBININSTITUTEOFTECHNOLOGY模型优化ALBERT提出一种更加小巧(从参数量的角度)的预训练两种主要技术:词向量因式分解、跨层参数共享词向量因式分解(FactorizedEmbeddingParameterization)在BERT中,embedding_size==hidden_size在ALBERT中,embedding_size<hidden_size73HARBININSTITUTEOFTECHNOLOGY模型优化ALBERT利用词向量因式分解后举例:

V=30000,

H=2014,

E=12874HARBININSTITUTEOFTECHNOLOGY模型优化ALBERT跨层参数共享Transformer每层的参数是共享的,即只需要存一份参数,与层数无关训练时:虽然参数共享,但每层的梯度是不同的,仍然需要额外空间存储推断时:前向计算过程仍然要一层层展开,并不能节省推断时间75HARBININSTITUTEOFTECHNOLOGY模型优化ALBERT句子顺序预测(SentenceOrderPrediction,SOP)NSP任务实际隐含了“连贯性”和“主题”预测然而,判断两段文本的主题是否一致是比较容易的ALBERT提出句子顺序预测任务正样本:与BERT相同,由两个连续的文本段组成负样本:交换两个连续文本段的顺序76HARBININSTITUTEOFTECHNOLOGY模型优化ELECTRA提出了一种全新基于生成器-判别器框架的预训练语言模型相比传统预训练模型的训练效率更高整体结构生成器-判别器框架,与GAN(Goodfellowetal.,2014)类似Generator:将输入中的缺失信息还原为原单词Discriminator:判断输入的单词是否被替换过77HARBININSTITUTEOFTECHNOLOGY模型优化ELECTRA生成器:一个小的MLM第一步:随机选取输入序列中的一部分进行遮蔽,通常比例选取15%第二步:利用MLM任务,将缺失信息还原为原单词判别器:常规的BERT结构第一步:将缺失信息替换为生成器预测出来的单词第二步:判别器学习判断输入句子中哪些单词被生成器替换过78HARBININSTITUTEOFTECHNOLOGY模型优化MacBERT在可比条件下,评测了主流预训练模型在中文下的表现提出一种新的预训练模型MacBERT,解决“预训练-精调”不一致的问题文中涉及到的所有中文预训练模型已开源至整个研究社区79HARBININSTITUTEOFTECHNOLOGY模型优化MacBERT预训练算法描述使用了整词掩码和N-gram掩码,其中unigram至4-gram的概率分别为40%、30%、20%和10%;为了解决掩码标记[MASK]在下游任务中不会出现的问题,在预训练阶段,MacBERT使用相似词替换[MASK]标记。实际操作时,使用同义词词典获取待掩码单词的相似词。当N-gram掩码时,对N-gram中的每个词均进行相似词替换与原版BERT类似,MacBERT对输入序列总长度15%的标记进行掩码,在80%的情况下会替换为相似词,在10%的情况下会替换为随机词,在10%的情况下则不进行任何替换(负样本)。模型优化1长文本处理2模型蒸馏与压缩3生成模型481HARBININSTITUTEOFTECHNOLOGY长文本处理Transformer-XLTransformer中处理长文本的传统策略是将文本切分成固定长度的块,并单独编码每个块,块与块之间没有信息交互右图是一个块长度为4的一个示例训练阶段:Transformer分别对第一块中的序列x1、x2、x3、x4与第二块中的序列x5、x6、x7、x8进行建模测试阶段:由于每次处理的最大长度为4,当模型在处理序列x2、x3、x4、x5时,无法构建与历史x1的关系另外,由于需要以滑动窗口的方式处理整个序列,这种方法的效率也非常低82HARBININSTITUTEOFTECHNOLOGY长文本处理Transformer-XLTransformer-XL提出两种改进策略状态复用的块级别循环相对位置编码基于内容的相关度(a)内容相关的位置偏置(b)全局内容偏置(c)全局位置偏置(d)83HARBININSTITUTEOFTECHNOLOGY长文本处理Reformer引入了局部敏感哈希注意力和可逆Transformer技术,有助于减少模型的内存占用,进一步提升了模型对长文本的处理能力问题①:单独计算查询和键的必要性作者通过实验证实,查询和键相同的Transformer与传统的Transformer相比并没有太大的性能差异在Reformer中采用了QK共享的Transformer,减少了注意力机制中的一部分计算问题②:全局注意力计算的必要性通过Softmax函数得到的结果主要取决于数值较大的若干元素,因此并不需要将所有的词都参与到注意力的计算中如果只计算那些与当前查询关联度最高的n个词,就可以极大地降低注意力计算量84HARBININSTITUTEOFTECHNOLOGY长文本处理Reformer通过局部敏感哈希算法(LSH)高效地计算与每个词关联度最高的n个词85HARBININSTITUTEOFTECHNOLOGY长文本处理Reformer局部敏感哈希注意力的计算86HARBININSTITUTEOFTECHNOLOGY长文本处理Longformer模型基于稀疏注意力机制,最大可处理长度扩展至4096三种稀疏注意力模式滑动窗口注意力扩张滑动窗口注意力全局+滑动窗口注意力87HARBININSTITUTEOFTECHNOLOGY长文本处理BigBird模型同样借鉴了稀疏注意力的方法BigBird结合了以下三种不同注意力模式随机注意力:针对每一个词,随机选取r个词参与注意力的计算;滑动窗口注意力:与Longformer相同,即只利用当前词周围的k个词计算注意力;全局注意力:与Longformer基本相同内部Transformer组建模式:从输入序列中选择g个词,使其能够见到所有词,反之亦然。外部Transformer组建模式:在输入序列中插入额外的全局标记,使其能够见到所有词,反之亦然。模型优化1长文本处理2模型蒸馏与压缩3生成模型489HARBININSTITUTEOFTECHNOLOGY模型蒸馏与压缩预训练模型参数量趋势90HARBININSTITUTEOFTECHNOLOGY模型蒸馏与压缩为什么需要模型压缩与知识蒸馏技术?预训练模型通常需要占用很大的空间,并且训练和推断时间也很慢直接在实际产品或应用中使用预训练模型难以满足时间和空间需求知识蒸馏技术可以在不损失或少量损失性能的情况下,将大模型的知识迁移到小模型,从而提升推断速度知识蒸馏过程:“老师教学生”91HARBININSTITUTEOFTECHNOLOGY模型蒸馏与压缩DistilBERT通用、任务无关的6层BERT相比BERT-base,小40%、快60%、在NLU任务上可达到原模型的97%使用MLM预训练任务进行知识蒸馏(无NSP)训练目标由以下三部分组成由数据集自带的硬标签(hard-labels)计算的有监督MLM损失由教师模型提供的软标签(soft-labels)计算的蒸馏MLM损失教师模型和学生模型隐层输出之间的余弦相似度损失92HARBININSTITUTEOFTECHNOLOGY模型蒸馏与压缩DistilBERT总损失函数有监督MLM损失蒸馏MLM损失词向量余弦损失93HARBININSTITUTEOFTECHNOLOGY模型蒸馏与压缩TinyBERT提出了一种对BERT不同层进行匹配的蒸馏策略提出了两阶段蒸馏策略,在预训练和精调阶段均进行知识蒸馏TinyBERT能达到教师模型BERT-base的96%的效果(GLUE),大小只有教师的13.3%蒸馏损失由3部分组成词向量损失中间层损失预测层损失94HARBININSTITUTEOFTECHNOLOGY模型蒸馏与压缩TinyBERT总损失函数词向量层损失中间层损失预测层损失95HARBININSTITUTEOFTECHNOLOGY模型蒸馏与压缩TinyBERT:两段式蒸馏通用蒸馏:利用原始BERT作为教师,并使用大规模文本训练MLM任务特定任务蒸馏:使用精调过的BERT作为教师,使用数据增广后的任务数据进行蒸馏96HARBININSTITUTEOFTECHNOLOGY模型蒸馏与压缩MobileBERTMobileBERT与BERT-large深度相同但更“苗条”在自注意力和前馈神经网络的设计上也有一定的改进能够达到教师模型(BERT-base)99.2%的性能效果(以GLUE为测试基准),推理速度快5.5倍,参数量降低至23.2%蒸馏损失由3部分组成MLM损失隐含层匹配损失注意力匹配损失(KL散度)97HARBININSTITUTEOFTECHNOLOGY模型蒸馏与压缩MobileBERT渐进式知识迁移(ProgressiveKnowledgeTransfer)词向量层和最终分类输出层的权重是直接从教师模型拷贝至学生模型的,始终不参与参数更新对于中间的Transformer层,采用了渐进的方式逐步训练当学生模型学习教师模型的第

层时,学生模型中所有小于

层的权重均不参与更新98HARBININSTITUTEOFTECHNOLOGY模型蒸馏与压缩TextBrewer:AnOpen-SourceKnowledgeDistillationToolkit推出了首个面向自然语言处理领域的基于Pytorch的知识蒸馏工具包提供了方便、快捷、易用的知识蒸馏框架,少量性能损失换取大幅速度提升/

或通过pipinstalltextbrewer

安装模型无关:适用于多种模型结构(主要面向Transfomer结构)方便灵活:可自由组合多种蒸馏方法,支持增加自定义损失等模块非侵入式:无需对教师与学生模型本身结构进行修改适用面广:支持典型NLP任务,如文本分类、阅读理解、序列标注等99HARBININSTITUTEOFTECHNOLOGY模型蒸馏与压缩TextBrewer:整体架构Distillers:用于执行实际的知识蒸馏工作Configurations:为Distillers提供必要的配置Utilities:包含一些辅助的功能,如模型参数统计等100HARBININSTITUTEOFTECHNOLOGY模型蒸馏与压缩TextBrewer:工作流程第一步:开始蒸馏之前的准备工作训练教师模型,定义并初始化学生模型构造蒸馏用数据集的DataLoader第二步:知识蒸馏初始化Distiller,构造训练配置和蒸馏配置定义adaptors和callback,分别用于适配模型输入输出和训练过程中的回调调用Distiller的train方法开始蒸馏一共只需20行左右的代码!101HARBININSTITUTEOFTECHNOLOGY模型蒸馏与压缩TextBrewer:实验效果教师模型:BERT-base(110M)学生模型:T6(60%),T3(41%),T3-small(16%),T4-tiny(与TinyBERT相同大小,13%)单教师知识蒸馏T6结构可以达到教师模型效果的99%,且模型体积缩小至60%T4-tiny知识蒸馏结果优于TinyBERT多教师知识蒸馏所有模型使用同样的结构,即BERT-base蒸馏后的学生模型获得最优效果,且超过简单的模型融合(ensemble)模型优化1长文本处理2模型蒸馏与压缩3生成模型4103HARBININSTITUTEOFTECHNOLOGY生成模型BART采用了经过细微调整的基于Transformer的序列到序列结构结合双向的Transformer编码器与单向的自回归Transformer解码器,通过对含有噪声的输入文本去噪重构进行预训练,是一种典型的去噪自编码器(Denoisingautoencoder)训练过程:双向编码器编码带噪音的文本,用单向自回归编码器重构文本104HARBININSTITUTEOFTECHNOLOGY生成模型BART:预训练任务单词掩码与BERT类似,在输入文本中随机采样一部分单词,并替换为掩码标记(如[MASK]);单词删除随机采样一部分单词并删除。要处理这类噪声,模型不仅需要预测缺失的单词,还需要确定缺失单词的位置;句子排列变换将打乱顺序的句子还原,模型需要对整段输入文本的语义具备一定理解;文档旋转变换随机选择输入文本中的一个单词,并旋转文档,使其以该单词作为开始。为了重构原始文本,模型需要从扰乱文本中找到原始文本的开头;文本填充随机采样多个文本片段,片段长度根据泊松分布(λ=3)进行采样得到。用单个掩码标记替换每个文本片段。当片段长度为0时,意味着插入一个掩码标记。要去除这类噪声,要求模型具有预测缺失文本片段长度的能力。105HARBININSTITUTEOFTECHNOLOGY生成模型BART:模型精调序列分类编码器解码器使用相同输入,使用解码器最终时刻隐含层状态进行分类序列标注编码器解码器使用相同输入,使用解码器每个时刻的隐含层状态进行分类(标注)文本生成编码器的输入是作为条件的输入文本,解码器则以自回归的方式生成对应的目标文本机器翻译将BART模型编码器的输入表示层替换为一个小型Transformer编码器,用来将源语言中的词汇映射至目标语言的输入表示空间,从而适配BART模型的预训练环境106HARBININSTITUTEOFTECHNOLOGY生成模型UniLM只用一个Transformer就可以同时完成语言表示和文本生成的预训练可同时应用于语言理解任务和文本生成任务核心思想:使用不同的自注意力掩码矩阵,控制每个词的注意力范围,从而实现不同语言模型对于信息流的控制107HARBININSTITUTEOFTECHNOLOGY生成模型UniLM可以利用双向语言模型、单向语言模型和序列到序列语言模型进行预训练108HARBININSTITUTEOFTECHNOLOGY生成模型T5:Text-to-TextTransferTransformer提出一种适用于各种类型NLP任务的Encoder-Decoder框架提供了非常细致的模型设计决策过程提出了C4数据集,包含750G高质量英文数据109HARBININSTITUTEOFTECHNOLOGY生成模型T5:Text-to-TextTransferTransformer提出了一种基于span-corruption的无监督训练任务输入:对句子中的若干文本片段进行mask输出:预测被mask的文本片段110HARBININSTITUTEOFTECHNOLOGY生成模型GPT-3:LanguageModelsareFew-ShotLearners展示了超大规模语言模型在小样本学习(few-shotlearning)上的能力模型参数量进一步扩展至175B,预示着预训练模型进入到超大规模时代111HARBININSTITUTEOFTECHNOLOGY生成模型GPT-3:LanguageModelsareFew-ShotLearners传统预训练模型:直接在下游任务数据上精调GPT-3类超大规模模型:zero-shot,one-shot,few-shot例如,对于机器翻译任务,在小样本的情况下,为了获得“cheese”的法语翻译,可以构建以下输入112HARBININSTITUTEOFTECHNOLOGY生成模型可控文本生成:CTRL可以根据指定的领域、风格、主题、实体和实体关系等属性生成相应文本从结构上仍然是一个基于Transformer的自回归语言模型核心思想是从海量无标注数据中定位文章所在的领域或其他属性,并作为控制代码(Controlcodes)放在输入文本的头部,以指导后续文本的生成例如,需要生成一段关于“刀”(Knife)且具有有“恐怖”(Horror)色彩的文本,只需要以“HorrorAknife”作为提示(Prompt)113HARBININSTITUTEOFTECHNOLOGY生成模型可控文本生成:PPLM提供了一种无须重新训练,且即插即用的方法实现可控的文本生成核心思想是,对于预训练语言模型(GPT-2)以及目标属性a(例如情感、主题等),利用当前的生成结果是否满足属性a(即条件概率P(a|x))对生成进行修正,使其朝着满足该属性的方向变化具体修正过程可分为以下三个步骤:前向过程:包括语言模型以及属性判别(即P(a|x)的计算);反向过程:利用属性判别模型回传的梯度,更新语言模型内部的历史状态,使得实际预测更接近目标属性;重采样:根据新的概率分布,重新采样下一个生成的词。谢谢!多模态融合的预训练模型多语言融合1多媒体融合2异构知识融合3多语言融合1多媒体融合2异构知识融合3118HARBININSTITUTEOFTECHNOLOGY背景超过6,500种语言119HARBININSTITUTEOFTECHNOLOGY背景数据分布的长尾现象(Long

Tail

Distribution)Figurecredit:GrahamNeubig源语言(Rich-Resource)目标语言(Low-Resource)迁移120HARBININSTITUTEOFTECHNOLOGY多语言BERTMultilingual

BERT/google-research/bert/blob/master/multilingual.md统一的多语言表示空间(104种语言)为什么有效?语言的混合使用(Code-Switch现象)共享子词121HARBININSTITUTEOFTECHNOLOGY跨语言预训练语言模型XLM(Lample

and

Conneau,

NeurIPS,

2019)翻译语言模型(Translation

Language

Modeling,

TLM)依赖双语平行句对大规模平行句对获取难度较高受限于句子级上下文(篇章/文档级平行数据更为稀少)122HARBININSTITUTEOFTECHNOLOGY应用零样本迁移(Zero-shot

Transfer)将源语言(资源丰富,如英语)上训练得到的模型直接应用于目标语言(通常为资源稀缺语言)XTREME基准测试集(Hu

et

al.,

ICML

2020)多语言融合1多媒体融合2异构知识融合3124HARBININSTITUTEOFTECHNOLOGY背景多媒体数据语言图像视频跨媒体应用图像描述生成(Image

Captioning)跨媒体检索(如:以文搜图/视频)辅助单模态任务……图片来源:/blog/dall-e/125HARBININSTITUTEOFTECHNOLOGYVideoBERTVideobert:Ajointmodelforvideoandlanguagerepresentationlearning.

(Sun

et

al.,

ICCV

2019)“

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论