机器学习方法与实践课件 bert

上传人：h*** IP属地：山东上传时间：2026-03-05 格式：PPTX 页数：22 大小：51.67MB 积分：12 举报 版权申诉

已阅读5页，还剩17页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

BertPre-trainingofDeepBidirectionalTransformersforLanguageUnderstandingBeijingJiaotong

University自然语言处理自然语言处理（NaturalLanguageProcessing,NLP）是人工智能的一个分支，它能够使计算机理解、生成和处理人类语言。BERT（BidirectionalEncoderRepresentationsFromTransformers）该模型的“荣耀时刻”是2018年：称霸机器理解测试SQuAD，横扫其他10项NLP测试，达成“全面超过人类”成就。词向量的引入如何让计算机处理自然语言传统计算机系统会将一个个汉字转换为特殊的字符串编码，如：utf-8等要让计算机能够存储，计算自然语言同样需要将词向量转化为数字、向量、张量等，例如将词转化字典序。但是对于机器学习尤其是深度学习来说，光将文本转换为字典序是不够的。在字典序的条件下，数学运算的只会得到无意义的信息。难以进行实际语境下的表达。词向量的引入one-hot编码为了解决字典序所带来的问题，我们可以使用one-hot编码；构建一个由n个0组成的序列(n是字典总数)，其中将第i个字典序0换成1，例如：word2vecBeijingJiaotongUniversityBeijingJiaotongUniversity

每一个词都转化为了one-hot向量，但是这些向量之间没有具体的计算关系，即向量之间没有建立相关关系。One-hot编码词向量的引入Word2vec词嵌入与one-hot向量衡量one-hot向量，也可以使用这样的方法描述one-hot使得词语之间的距离可以被重新定义，这个使用dim1至dim5描述每一个词的过程就是embedding。peopletrait1trait2trait3trait4trait5Person1-0.40.80.5-0.20.3Person2-0.30.20.3-0.40.9Person3-0.5-0.4-0.20.7-0.1One-hotdim1dim2dim3dim4Dim5Word1-0.40.80.5-0.20.3Word2-0.30.20.3-0.40.9Word3-0.5-0.4-0.20.7-0.1例如，衡量一个人可以从他的多个特质表述，例如身高，体重等

Cosine_similarity(Word1,word2)=0.66Cosine_similarity(Word1,word3)=-0.37Word1，word2更接近注意力机制《AttentionisAllYouNeed》InputOutputEncoder和Decoder都包含6个block。Transformer由Encoder和Decoder两个部分组成，Input：词与所在位置进行Embedding注意力机制基本结构左侧为Encoderblock，右侧为Decoderblock。红色圈中的部分为

Multi-HeadAttention，可以看到Encoderblock包含一个Multi-HeadAttention，

Decoderblock包含两个Multi-HeadAttention(其中有一个用到Masked)。Multi-HeadAttention上方还包括一个Add&Norm层Add表示残差连接(ResidualConnection)用于防止网络退化，Norm表示LayerNormalization，用于对每一层的激活值进行归一化。注意力机制Attention结构Self-Attention的结构，在计算的时候需要用到矩阵Q(查询),K(键值),V(值)。在实际中，Self-Attention接收的是输入(单词的表示向量组成的矩阵X)或者上一个Encoderblock的输出。而Q,K,V正是通过Self-Attention的输入进行线性变换得到的。注意力机制输入用矩阵X进行表示，使用线性变阵矩阵WQ,WK,WV计算得到Q,K,V。Self-Attention的具体计算Attention矩阵使用Q,K,V进行前向运算：

注意力机制Multi-HeadAttentionMulti-HeadAttention包含多个Self-Attention层，首先将输入X分别传递到h个不同的Self-Attention中，计算得到h个输出矩阵Z。下图是h=8时候的情况，此时会得到8个输出矩阵Z。BERT的结构Bert是基于Transformer实现的，主要是Transformer的Encoder部分。Bert主体结构将多个transformer的Encoder层堆叠形成Bert的主体结构。Bert的主体结构Transformer的Encoder部分BERT的结构输入的时候需要分别对每个单词和句子进行EmbeddingTokenEmbeddings字向量：用来表征不同的词，以及特殊的tokensSegmentEmbeddings文本向量：用来区别两个句子，来表征这个词是属于哪一个句子Bert的输入BERT预训练预训练是通过大量无标注的语言文本进行语言模型的训练，得到一套模型参数，利用这套参数对模型进行初始化，再根据具体任务在现有语言模型的基础上进行精调。BERT是一个多任务模型，它的预训练（Pre-training）任务是由两个自监督任务组成，即MLM和NSP什么是预训练模型MaskedLanguageModel（MLM）是指在训练的时候随即从输入语料上mask掉一些单词，然后通过的上下文预测该单词。NextSentencePrediction（NSP）的任务是判断句子B是否是句子A的下文。BERT预训练MLMMLM是指在训练的时候随即从输入语料上mask掉一些单词，然后通过的上下文预测该单词。在BERT的实验中，15%的WordPieceToken会被随机Mask掉。在训练模型时，一个句子会被多次喂到模型中用于参数学习，但是并没有在每次都mask掉这些单词，而是在确定要Mask掉的单词之后，做以下处理。80%的时候会直接替换为[Mask]，eg.1"mydogiscute"转换为句子"mydogis[Mask]"。10%的时候将其替换为其它任意单词，eg2.将单词"cute"替换成另一个随机词，例如"apple"。将句子"mydogiscute"转换为句子"mydogisapple"。10%的时候会保留原始Token，eg.保持句子为"mydogiscute"不变。BERT预训练NSPNextSentencePrediction（NSP）的任务是判断句子B是否是句子A的下文。如果是的话输出’IsNext‘，否则输出’NotNext‘。训练数据的生成方式是从平行语料中随机抽取的连续两句话，其中50%保留抽取的两句话，它们符合IsNext关系，另外50%的第二句话是随机从预料中提取的，它们的关系是NotNext的。BERT的下游任务以及微调在海量的语料上训练完BERT之后，便可以将其应用到NLP的各个任务中了。微调(Fine-Tuning)的任务包括：基于句子对的分类任务，基于单个句子的分类任务，问答任务，命名实体识别等。BERT的下游任务以及微调基于句子对的分类任务：MNLI：给定一个前提(Premise)，根据这个前提去推断假设(Hypothesis)与前提的关系。该任务的关系分为三种，蕴含关系(Entailment)、矛盾关系(Contradiction)以及中立关系(Neutral)。所以这个问题本质上是一个分类问题，我们需要做的是去发掘前提和假设这两个句子对之间的交互信息。QQP：基于Quora，判断Quora上的两个问题句是否表示的是一样的意思。QNLI：用于判断文本是否包含问题的答案，类似于我们做阅读理解定位问题所在的段落。STS-B：预测两个句子的相似性，包括5个级别。MRPC：也是判断两个句子是否是等价的。RTE：类似于MNLI，但是只是对蕴含关系的二分类判断，而且数据集更小。SWAG：从四个句子中选择可能为前句下文的那个。BERT的下游任务以及微调基于单个句子的分类任务SST-2：电影评价的情感分析。CoLA：句子语义判断，是否是可接受的（Acceptable）。问答任务SQuADv1.1：给定一个句子（通常是一个问题）和一段描述文本，输出这个问题的答案，类似于做阅读理解的简答题。命名实体识别CoNLL-2003NER：判断一个句子中的单词是不是Person，Organization，Location，Miscellaneous或者other（无命名实体）。BERT优缺点优点BERT相较于原来的RNN、LSTM可以做到并发执行，同时提取词在句子中的关系特征，并且能在多个不同层次提取关系特征，进而更全面反映句子语义。相较于word2vec，其又能根据句子上下文获取词义，从而避免歧义出现。缺点模型参数太多，而且模型太大，少量数据训练时，容易过拟合。BERT的NSP任务效果不明显，MLM存在和下游任务mismathch的情况。BERT对生成式任务和长序列建模支持不好。扩展阅读Devlin,J.,Chang,M.W.,Lee,K.,&Toutanova,K.(2018).Bert:Pre-trainingofdeepbidirectionaltransformersforlanguageunderstanding.arXivpreprintarXiv:1810.04805.Mikolov,T.,Chen,K.,Corrado,G.,&Dean,J.(2013).Efficientestimationofwordrepresentationsinvectorspace.arXivpreprintarXiv:1301.

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

机器学习方法与实践课件 bert

文档简介

温馨提示

最新文档

评论

机器学习方法与实践 课件 bert

文档简介

温馨提示

最新文档

评论

相关文档

机器学习方法与实践课件 bert