《自然语言处理：基于预训练模型的方法》课件第1-5章绪论-静态词向量预训练模型

上传人：q*** IP属地：山东上传时间：2026-03-02 格式：PPTX 页数：117 大小：15.34MB 积分：39 举报 版权申诉

《自然语言处理：基于预训练模型的方法》课件第1-5章绪论-静态词向量预训练模型_第2页

《自然语言处理：基于预训练模型的方法》课件第1-5章绪论-静态词向量预训练模型_第3页

《自然语言处理：基于预训练模型的方法》课件第1-5章绪论-静态词向量预训练模型_第4页

《自然语言处理：基于预训练模型的方法》课件第1-5章绪论-静态词向量预训练模型_第5页

已阅读5页，还剩112页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

绪论2HARBININSTITUTEOFTECHNOLOGY什么是自然语言处理？语言是思维的载体，是人类交流思想、表达情感最自然、最方便的工具人类历史上大部分知识是以语言文字形式记载和流传的自然语言指的是人类语言，特指文本符号，而非语音信号自然语言处理（NaturalLanguageProcessing，NLP）用计算机来理解和生成自然语言的各种理论和方法3HARBININSTITUTEOFTECHNOLOGY自然语言处理的代表性应用机器翻译智能助手文本校对舆情分析智能教育知识图谱4HARBININSTITUTEOFTECHNOLOGY自然语言处理属于认知智能任务认知智能是人类和动物的主要区别之一需要更强的抽象和推理能力5HARBININSTITUTEOFTECHNOLOGY自然语言处理的难点与特点语言歧义性抽象性组合性进化性非规范性主观性知识性难迁移性领导：“你这是什么意思？”阿呆：“没什么意思，意思意思。”领导：“你这就不够意思了。”阿呆：“小意思，小意思。”领导：“你这人真有意思。”阿呆：“其实也没有别的意思。”领导：“那我就不好意思了。”阿呆：“是我不好意思。”6HARBININSTITUTEOFTECHNOLOGY“人工智能皇冠上的明珠”自然语言处理成为制约人工智能取得更大突破和更广泛应用的瓶颈MichaelI.Jordan美国双院院士、世界知名机器学习专家“如果给我10亿美金，我会用这10亿美金建造一个NASA级别的自然语言处理研究项目”沈向洋美国工程院院士、微软前全球执行副总裁“下一个十年，懂语言者得天下”“深度学习的下一个大的进展应该是让神经网络真正理解文档的内容”Geoffrey

Hinton图灵奖得主、深度学习之父YannLeCun图灵奖得主、Facebook

负责人“深度学习的下一个前沿课题是自然语言理解”图灵测试7HARBININSTITUTEOFTECHNOLOGY自然语言处理任务层级应用系统(NLP+)教育，医疗，司法，金融，机器人等应用任务信息抽取，情感分析，机器翻译，对话系统等基础任务分词，词性标注，句法分析，语义分析等资源建设语言学知识库建设，语料库资源建设等8HARBININSTITUTEOFTECHNOLOGY归结为四个基本问题结构预测问题文本匹配问题文本分类问题序列到序列问题9HARBININSTITUTEOFTECHNOLOGY自然语言处理研究对象与层次境知名实形式语义推理语用(1)(3)(4)(2)形式：名语义：名+实推理：名+实+知语用：名+实+知+境名：语言符号实：客观事实、主观意见知：知识境：语言所处环境10HARBININSTITUTEOFTECHNOLOGY“层次

x任务”二维表分类解析匹配生成形式文本分类词性标注句法分析搜索机械式文摘语义情感分析命名实体识别语义角色标注问答机器翻译推理隐式情感分析文本蕴含写故事结尾语境反语聊天11HARBININSTITUTEOFTECHNOLOGY语言模型

12HARBININSTITUTEOFTECHNOLOGY中文分词词（Word）最小的能独立使用的音义结合体以汉语为代表的汉藏语系，以阿拉伯语为代表的闪-含语系中不包含明显的词之间的分隔符中文分词是将中文字序列切分成一个个单独的词分词的歧义如：严守一把手机关了严守一/把/手机/关/了严守/一把手/机关/了严守/一把/手机/关/了严守一/

把手/

机关/了……13HARBININSTITUTEOFTECHNOLOGY子词切分（Subword）以英语为代表的印欧语系语言，是否需要进行分词？这些语言词形变化复杂如：computer、computers、computing等仅用空格切分的问题数据稀疏词表过大，降低处理速度子词切分将一个单词切分为若干连续的片段（子词）方法众多，基本原理相似使用尽量长且频次高的子词对单词进行切分14句法分析分析句子的句法成分，如主谓宾定状补等将词序列表示的句子转换成树状结构http://ltp.ai/demo.html

HARBININSTITUTEOFTECHNOLOGY15HARBININSTITUTEOFTECHNOLOGY语义分析词义消歧（WordSenseDisambiguation，WSD）语义角色标注（SemanticRoleLabeling，SRL）也称谓词论元结构（Predicate-ArgumentStructure）语义依存图（SemanticDependencyGraph）16HARBININSTITUTEOFTECHNOLOGY信息抽取信息抽取（InformationExtraction，IE）从非结构化的文本中自动提取结构化信息输入10月28日，AMD宣布斥资350亿美元收购FPGA芯片巨头赛灵思。这两家传了多年绯闻的芯片公司终于走到了一起。17HARBININSTITUTEOFTECHNOLOGY情感分析情感分析（Sentiment

Analysis）个体对外界事物的态度、观点或倾向性，如正面、负面等人自身的情绪（Emotion），如喜怒哀惧等输入这款手机的屏幕很不错，性能也还可以。18HARBININSTITUTEOFTECHNOLOGY问答系统问答系统（QuestionAnswering，QA）用户以自然语言形式描述问题，从异构数据中获得答案根据数据来源的不同，问答系统可以分为4种主要的类型检索式问答系统答案来源于固定的文本语料库或互联网，系统通过查找相关文档并抽取答案完成问答知识库问答系统回答问题所需的知识以数据库等结构化形式存储，问答系统首先将问题解析为结构化的查询语句，通过查询相关知识点，并结合知识推理获取答案常问问题集问答系统通过对历史积累的常问问题集合进行检索，回答用户提出的类似问题阅读理解式问答系统通过抽取给定文档中的文本片段或生成一段答案来回答用户提出的问题19HARBININSTITUTEOFTECHNOLOGY更多任务机器翻译（MachineTranslation，MT）对话系统（DialogueSystem）任务型Task聊天Chat知识问答Knowledge推荐Recommen-dation目的完成任务或动作闲聊知识获取信息推荐领域特定域（垂类）开放域开放域特定域以话轮数评价越少越好话轮越多越好越少越好越少越好应用虚拟个人助理娱乐、情感陪护客服、教育个性化推荐典型系统Siri、Cortana、Google

Assistant、度秘小冰、笨笨Watson、WolframAlpha阿里小蜜20HARBININSTITUTEOFTECHNOLOGY自然语言处理技术发展历史语义在计算机内部是如何表示的？根据表示方法的不同，自然语言处理技术经历了四次范式变迁小规模专家知识1950~1990语料库统计模型1990~2010深度学习模型2010~2017大规模预训练模型2018~至今21HARBININSTITUTEOFTECHNOLOGY基于符号（字符串）表示的专家知识“土豆非常好吃。”的情感倾向性？如果：出现褒义词“好”“喜欢”等那么：结果为褒义如果：出现“不”那么：结果倾向性取反优点符合人类的直觉可解释、可干预性好缺点知识完备性不足需要专家构建和维护不便于计算小规模专家知识1950~1990语料库统计模型1990~2010深度学习模型2010~2017大规模预训练模型2018~至今22HARBININSTITUTEOFTECHNOLOGY基于向量表示的统计模型使用高维、离散、稀疏的向量表示词维度为词表大小，其中只有一位为1，其余为0土豆：[0,0,0,0,0,0,0,0,1,0,0,0,0,…]马铃薯：[0,0,0,0,0,0,0,1,0,0,0,0,0,…]缺点无法处理“多词一义”的现象小规模专家知识1950~1990语料库统计模型1990~2010深度学习模型2010~2017大规模预训练模型2018~至今…非常土豆马铃薯吃好……11011…?土豆非常好吃。语料库特征提取0.10.2-0.10.90.2词嵌入表示的赋值方法通过优化在下游任务上的表现自动学习23HARBININSTITUTEOFTECHNOLOGY基于嵌入表示的深度学习模型词嵌入（Word

Embedding）直接使用一个低维、连续、稠密的向量表示词（Bengio等2003）马铃薯计算机电脑土豆

土豆

非常

好

吃

。深度学习模型贬义小规模专家知识1950~1990语料库统计模型1990~2010深度学习模型2010~2017大规模预训练模型2018~至今24HARBININSTITUTEOFTECHNOLOGY预训练模型获得更好的表示小规模专家知识1950~1990语料库统计模型1990~2010深度学习模型2010~2017大规模预训练模型2018~至今未标注文本语料库模型训练数据标注模型预训练模型精调Fine-tune预训练Pre-train预训练+精调=自然语言处理新范式参考书《自然语言处理：基于预训练模型的方法》出版社：电子工业出版社作者：车万翔，郭江，崔一鸣著；刘挺主审书号：ISBN978-7-121-41512-8出版时间：2021.7网购链接/13344628.html

书中代码/HIT-SCIR/plm-nlp-code

HARBININSTITUTEOFTECHNOLOGY25谢谢！自然语言处理基础文本的表示1自然语言处理任务2自然语言处理的基本问题3自然语言处理的评价指标4文本的表示1自然语言处理任务2自然语言处理的基本问题3自然语言处理的评价指标430HARBININSTITUTEOFTECHNOLOGY自然语言处理技术发展历史语义在计算机内部是如何表示的？根据表示方法的不同，自然语言处理技术经历了四次范式变迁小规模专家知识1950~1990语料库统计模型1990~2010深度学习模型2010~2017大规模预训练模型2018~至今31HARBININSTITUTEOFTECHNOLOGY基于符号（字符串）表示的专家知识“土豆非常好吃。”的情感倾向性？如果：出现褒义词“好”“喜欢”等那么：结果为褒义如果：出现“不”那么：结果倾向性取反优点符合人类的直觉可解释、可干预性好缺点知识完备性不足需要专家构建和维护不便于计算小规模专家知识1950~1990语料库统计模型1990~2010深度学习模型2010~2017大规模预训练模型2018~至今32HARBININSTITUTEOFTECHNOLOGY基于向量表示的统计模型使用高维、离散、稀疏的向量表示词维度为词表大小，其中只有一位为1，其余为0土豆：[0,0,0,0,0,0,0,0,1,0,0,0,0,…]马铃薯：[0,0,0,0,0,0,0,1,0,0,0,0,0,…]缺点严重的数据稀疏问题无法处理“多词一义”的现象小规模专家知识1950~1990语料库统计模型1990~2010深度学习模型2010~2017大规模预训练模型2018~至今…非常土豆马铃薯吃好……11011…?土豆非常好吃。语料库特征提取0.10.2-0.10.90.233传统解决方案增加额外的特征词性特征：名词、动词、形容词前后缀特征：re-、-tion、-er语义词典WordNet、HowNet等如词的上位信息表示语义类别需要解决一词多义问题收录的词不全且更新慢词聚类特征如Brown

Clustering

(Brown

al.,

1992)HARBININSTITUTEOFTECHNOLOGY34词的分布语义假设分布语义假设（Distributionalsemantic

hypothesis）词的含义可由其上下文词的分布进行表示Youshallknowawordbythecompanyitkeeps

--FirthJ.R.1957HARBININSTITUTEOFTECHNOLOGY35词的分布（Distributional）表示分布词向量语义相似度通过计算向量相似度获得仍然存在高维、稀疏、离散的问题shinningbrighttreesdarklookmoon384522712cucumbermoonstarHARBININSTITUTEOFTECHNOLOGY36分布表示的加权降低高频词的权重点互信息（PointwiseMutualInformation，PMI）我喜欢自然语言处理。我爱深度学习。我喜欢机器学习。HARBININSTITUTEOFTECHNOLOGY37分布表示的降维避免稀疏性，反映高阶共现关系奇异值分解（SingularValueDecomposition，SVD）HARBININSTITUTEOFTECHNOLOGY38分布式（Distributed）词表示分布表示的缺点训练速度慢，增加新语料库困难不易扩展到短语、句子表示分布式表示直接使用低维、稠密、连续的向量表示词通过“自监督”的方法直接学习词向量也称词嵌入（Word

Embedding）发展历程（第5章将详细介绍）LSA(Deerwester

etal.,

1990)LDA(Blei

etal.,

2003)NNLM(Bengio

etal.,

2003)HLBL(Minh

and

Hinton,

2009)SENNA(Collobert

etal.,

2011)RNNLM(Mikolov

etal.,

2010)Word2vec(Mikolov

etal.,

2013)GloVe(Pennington

etal.,

2014)HARBININSTITUTEOFTECHNOLOGY文本的表示1自然语言处理任务2自然语言处理的基本问题3自然语言处理的评价指标440HARBININSTITUTEOFTECHNOLOGY语言模型

41HARBININSTITUTEOFTECHNOLOGY中文分词词（Word）最小的能独立使用的音义结合体以汉语为代表的汉藏语系，以阿拉伯语为代表的闪-含语系中不包含明显的词之间的分隔符中文分词是将中文字序列切分成一个个单独的词分词的歧义如：严守一把手机关了严守一/把/手机/关/了严守/一把手/机关/了严守/一把/手机/关/了严守一/

把手/

机关/了……42HARBININSTITUTEOFTECHNOLOGY子词切分（Subword）以英语为代表的印欧语系语言，是否需要进行分词？这些语言词形变化复杂如：computer、computers、computing等仅用空格切分的问题数据稀疏词表过大，降低处理速度子词切分将一个单词切分为若干连续的片段（子词）方法众多，基本原理相似使用尽量长且频次高的子词对单词进行切分43HARBININSTITUTEOFTECHNOLOGY字节对编码字节对编码（BytePairEncoding，BPE）子词词表构造示例44HARBININSTITUTEOFTECHNOLOGY字节对编码BPE子词切分算法将子词词表按照子词的长度由大到小进行排序从前向后遍历子词词表，依次判断一个子词是否为单词的子串如果是则将该单词进行切分，然后继续向后遍历子词词表如果子词词表全部遍历结束，单词中仍然有子串没有被切分，那么这些子串一定为低频串，则使用统一的标记，如'<UNK>'进行替换更多子词切分算法WordPieceUnigramLanguageModel（ULM）SentencePiece/google/sentencepiece

45句法分析分析句子的句法成分，如主谓宾定状补等将词序列表示的句子转换成树状结构http://ltp.ai/demo.html

HARBININSTITUTEOFTECHNOLOGY46HARBININSTITUTEOFTECHNOLOGY语义分析词义消歧（WordSenseDisambiguation，WSD）语义角色标注（SemanticRoleLabeling，SRL）也称谓词论元结构（Predicate-ArgumentStructure）语义依存图（SemanticDependencyGraph）47HARBININSTITUTEOFTECHNOLOGY信息抽取信息抽取（InformationExtraction，IE）从非结构化的文本中自动提取结构化信息输入10月28日，AMD宣布斥资350亿美元收购FPGA芯片巨头赛灵思。这两家传了多年绯闻的芯片公司终于走到了一起。48HARBININSTITUTEOFTECHNOLOGY情感分析情感分析（Sentiment

Analysis）个体对外界事物的态度、观点或倾向性，如正面、负面等人自身的情绪（Emotion），如喜怒哀惧等输入这款手机的屏幕很不错，性能也还可以。49HARBININSTITUTEOFTECHNOLOGY问答系统问答系统（QuestionAnswering，QA）用户以自然语言形式描述问题，从异构数据中获得答案根据数据来源的不同，问答系统可以分为4种主要的类型检索式问答系统答案来源于固定的文本语料库或互联网，系统通过查找相关文档并抽取答案完成问答知识库问答系统回答问题所需的知识以数据库等结构化形式存储，问答系统首先将问题解析为结构化的查询语句，通过查询相关知识点，并结合知识推理获取答案常问问题集问答系统通过对历史积累的常问问题集合进行检索，回答用户提出的类似问题阅读理解式问答系统通过抽取给定文档中的文本片段或生成一段答案来回答用户提出的问题50HARBININSTITUTEOFTECHNOLOGY更多任务机器翻译（MachineTranslation，MT）对话系统（DialogueSystem）任务型Task聊天Chat知识问答Knowledge推荐Recommen-dation目的完成任务或动作闲聊知识获取信息推荐领域特定域（垂类）开放域开放域特定域以话轮数评价越少越好话轮越多越好越少越好越少越好应用虚拟个人助理娱乐、情感陪护客服、教育个性化推荐典型系统Siri、Cortana、Google

Assistant、度秘小冰、笨笨Watson、WolframAlpha阿里小蜜文本的表示1自然语言处理任务2自然语言处理的基本问题3自然语言处理的评价指标452HARBININSTITUTEOFTECHNOLOGY归结为四个基本问题结构预测问题文本匹配问题文本分类问题序列到序列问题53HARBININSTITUTEOFTECHNOLOGY文本分类问题将输入文本映射为所属类别（预定义的封闭集合）最简单最基本的自然语言处理问题应用场景垃圾邮件过滤、情感分类等很多问题可以转化为文本分类问题

我

喜欢

打

篮球词表示文本表示计算（编码器）文本表示分类器输出概率54HARBININSTITUTEOFTECHNOLOGY文本匹配问题判断两段文本之间的匹配关系如复述关系、蕴含关系等解决方案双塔结构两段文本分别通过两个模型映射为向量，然后判断两个向量之间的匹配关系单塔结构将两段文本直接拼接，然后进行匹配关系分类

我

喜欢

打

篮球词表示文本表示计算（编码器）文本表示分类器输出概率

我

喜欢

做

运动文本表示计算（编码器）双塔结构示意图55HARBININSTITUTEOFTECHNOLOGY结构预测问题输出类别之间具有较强的相互关联性自然语言处理的本质问题三种典型的结构预测问题序列标注为输入文本序列中的每个词标注相应的标签如词性标注：他/PN喜欢/VV下/VV象棋/NN序列分割在文本序列中切分出子序列可以转化为序列标注问题图结构生成输入自然语言，输出以图表示的结构JuliaHirschbergandChristopherD.Manning.

AdvancesinNaturalLanguageProcessing.

Science201556HARBININSTITUTEOFTECHNOLOGY结构预测问题：序列标注经典的序列标注模型条件随机场（ConditionalRandomField，CRF）维特比（Viterbi）解码算法

ytyt+1yt-1xtxt+1xt-1CRFSTARTVNPDTimeVNPDfliesVNPDlikeVNPDanVNPDarrow10.70.20.30.11.71.21.31.10.80.20.20.51.91.31.22.515.910.312.211.257HARBININSTITUTEOFTECHNOLOGY结构预测问题：图结构生成基于图的算法计算图中任意两个节点之间连边的分数（类别）根据解码算法生成图（树）结构基于转移的算法将图结构的构建过程转化为状态转移序列如标准弧转移算法转移状态由一个栈和一个队列构成三种转移动作移进（SH）、左弧（RL）和右弧（RR）对旧状态执行一个移动作转换为新状态转移动作的选择本质上也是分类问题…分类面向依存句法分析的标准弧转移算法示例58HARBININSTITUTEOFTECHNOLOGY序列到序列问题将输入序列转换为输出序列输入和输出的序列不要求等长，也不要求词表一致泛化为“编码器—解码器”模型（Encoder-Decoder）本质上也是分类问题典型任务任务输入输出机器翻译源语言目标语言文本摘要原文摘要回复生成用户语句机器回复图片描述生成图片文本描述语音识别语音转写文本“编码器—解码器”模型示例文本的表示1自然语言处理任务2自然语言处理的基本问题3自然语言处理的评价指标460HARBININSTITUTEOFTECHNOLOGY自然语言处理的评价

61HARBININSTITUTEOFTECHNOLOGY自然语言处理的评价依存分析的评价UAS（UnlabeledAttachmentScore）词的父节点被正确识别的准确率LAS（LabeledAttachmentScore）词的父节点以及与父节点的句法关系都被正确识别的准确率机器翻译的评价BLEU（BiLingualEvaluationUnderstudy）值统计机器译文与参考译文（可以不只一个）中N-gram匹配的数目占机器译文中所有N-gram总数的比率对话系统的评价由于回复的开放性，没有标准答案，很难自动评价由于对话的交互性，不能简单地通过一轮人机对话就对系统进行评价目前往往采用人工评价（流畅度、相关度、准确性等等）谢谢！基础工具集与常用数据集64HARBININSTITUTEOFTECHNOLOGY基础工具集与常用数据基础工具集NLTKLTPPyTorch常用数据集WikipediaCommonCrawl65HARBININSTITUTEOFTECHNOLOGYNLTKNaturalLanguageToolkit/多种语料库和词典资源生文本、PennTreebank样例WordNet基本的自然语言处理工具集分句标记解析词性标注句法分析更多英文自然语言处理工具集CoreNLP、spaCy等https://data-flair.training/blogs/nltk-python-tutorial/

66HARBININSTITUTEOFTECHNOLOGYLTP语言技术平台（Language

Technology

Platform，LTP）http://ltp.ai

高效、高精度中文自然语言处理基础平台中文词法、句法、语义分析等6项自然语言处理核心技术2020年7月发布4.0版本基于预训练模型多任务学习机制安装$

pip

install

ltp67HARBININSTITUTEOFTECHNOLOGYLTP调用示例68HARBININSTITUTEOFTECHNOLOGYPyTorchFacebook开发的开源深度学习库/基于张量（Tensor）的数学运算工具包GPU加速的张量计算自动进行微分计算PyTorch的优势框架简洁入门简单，容易上手支持动态神经网络构建与Python语言无缝结合Debug方便/neural-network-zoo/

69HARBININSTITUTEOFTECHNOLOGYPyTorch的三要素张量（Tensor）数据存储支持GPU表达式（Expression）数据运算自动微分计算模块（Module）神经网络层支持自定义70HARBININSTITUTEOFTECHNOLOGY张量（Tensor）又称为多维数组与Python列表的区别可表示现实世界中的各种数据表格、时间序列（彩色）图像batch=torch.zeros(100,3,256,256,dtype=torch.uint8)71HARBININSTITUTEOFTECHNOLOGYPyTorch作为张量库支持各种张量操作（类似NumPy）创建张量索引、切片支持GPU快！NumpyPyTorch

72HARBININSTITUTEOFTECHNOLOGY表达式（Expession）通过计算图描述表达式如：e

b)*(b

2)计算图中每个节点执行一个运算前向运算（Forward）：根据输入获得输出>>>a=torch.tensor([2.])>>>b=torch.tensor([3.])>>>c=a+b>>>d=b-2>>>e=c*d>>>print(c,d,e)tensor([5.],grad_fn=<AddBackward0>)tensor([1.],grad_fn=<SubBackward0>)tensor([5.],grad_fn=<MulBackward0>)aa

2bb

3c=a+bc

5d=b-2d

1e=c*de

573HARBININSTITUTEOFTECHNOLOGY表达式（Expession）

2bb

3c=a+bc

5d=b-2d

1e=c*de

574HARBININSTITUTEOFTECHNOLOGY静态图与动态图75HARBININSTITUTEOFTECHNOLOGY模块（Module）包名功能描述torchTesnor

Expression类似NumPy的张量库，支持GPU以及自动微分torch.nnModule灵活的神经网络库，提供多种神经网络层torch.optimModule多种优化算法torch.utilsModule数据集、数据加载等辅助工具76HARBININSTITUTEOFTECHNOLOGY大规模预训练数据集维基百科（Wikipedia）快照（2020年10月23日）/

处理流程纯文本抽取

中文繁简转换

数据清洗CommonCrawl数据（/）大规模网络爬虫数据集使用Facebook的CC-Net工具下载和处理/facebookresearch/cc_net

谢谢！神经网络基础79HARBININSTITUTEOFTECHNOLOGY感知器模型

x4x1x2x380HARBININSTITUTEOFTECHNOLOGYLogistic回归模型

Sigmoid函数示意图81HARBININSTITUTEOFTECHNOLOGYSoftmax回归

82HARBININSTITUTEOFTECHNOLOGY多层感知器多层感知器（Multi-layerPerceptron，MLP）堆叠多层感知器（线性回归+非线性激活函数）可解决线性不可分问题使用MLP解决异或（XOR）问题83HARBININSTITUTEOFTECHNOLOGY多层感知器PyTorch实现引入PyTorch模块>>>fromtorchimportnn线性层激活函数>>>fromtorch.nnimportfunctionalasF84HARBININSTITUTEOFTECHNOLOGY多层感知器PyTorch实现自定义神经网络实现/drive/1EMJJffsmlSlqO3KwuG5WlP-IxyNVXTrK?usp=sharing

85HARBININSTITUTEOFTECHNOLOGY卷积神经网络全连接的多层感知器无法处理输入的偏移情况图像分类情感分类我喜欢自然语言处理。

vs.

我非常喜欢自然语言处理。解决方案使用小的全连接层抽取局部特征（又称卷积核或滤波器）如遍历文本中的N-gram等使用多个卷积核提取不同种类的特征使用池化层将特征进行聚合（最大、平均、求和等）/drive/1HaPOfEj8wrLkqeUDuirtS-cNKGxeRdY5?usp=sharing

86HARBININSTITUTEOFTECHNOLOGY循环神经网络卷积神经网络无法处理长距离的依赖循环神经网络的解决方案每个时刻的隐状态依赖于当前时刻的输入以及上一时刻的隐状态每个时刻的参数共享（“循环”的由来）每个时刻也可以有相应的输出（序列标注）87HARBININSTITUTEOFTECHNOLOGY长短时记忆网络（LSTM）

long

termshort

term88HARBININSTITUTEOFTECHNOLOGY循环神经网络的应用双向循环神经网络堆叠循环神经网络序列到序列模型也称“编码器—解码器”模型机器翻译等多种应用RayMooneyYoucan’tcramthemeaningofawhole%&!$ingsentenceintoasingle$&!*ingvector!89HARBININSTITUTEOFTECHNOLOGY注意力机制（AttentionMechanism）当前状态除和前一个状态及输入相关外，还应关注原序列的状态打分公式90HARBININSTITUTEOFTECHNOLOGY自注意力模型

91HARBININSTITUTEOFTECHNOLOGYTransformer

92HARBININSTITUTEOFTECHNOLOGY融入位置信息位置嵌入（PositionEmbeddings）类似词嵌入，每个绝对位置赋予一个连续、低维、稠密的向量表示向量参数参与模型学习位置编码（PositionEncodings）直接将一个整数（位置索引值）映射为一个向量输入向量=词向量+位置嵌入/编码93HARBININSTITUTEOFTECHNOLOGY赋予输入向量角色信息

KeyQueryValue94HARBININSTITUTEOFTECHNOLOGY多层自注意力原始自注意力模型仅考虑了任意两个向量之间的关系如何建模高阶关系？直接建模高阶关系导致模型复杂度过高堆叠多层自注意力模型（消息传播机制）增强模型的表示能力——增加非线性增加非线性的多层感知器模型（MLP）使模型更容易学习层归一化（LayerNormalization）残差连接（ResidualConnections）由于Softmax函数的性质，无法使得多个自注意力分数趋近于1使用多组自注意力模型产生多组不同的注意力结果设置多组输入映射矩阵类似使用多个卷积核提取不同的特征95HARBININSTITUTEOFTECHNOLOGY多头自注意力thecatwalksonthestreetx

1196HARBININSTITUTEOFTECHNOLOGYTransformer的优缺点优点直接建模更长距离的依赖关系更快的训练速度（与RNN相比）缺点参数量过大导致模型不容易训练需要基于大规模数据预训练97HARBININSTITUTEOFTECHNOLOGY神经网络模型的训练寻找一组优化的模型参数又叫做模型训练或学习损失函数（LossFunction）评估参数好坏的准则为什么不直接使用准确率等指标进行评估？两种常用的损失函数均方误差（MeanSquaredError，MSE）交叉熵（Cross-Entropy，CE）负对数似然损失NegativeLogLikelihood，NLL98HARBININSTITUTEOFTECHNOLOGY梯度下降梯度（Gradient）以向量的形式写出的对多元函数各个参数求得的偏导数是函数值增加最快的方向沿着梯度相反的方向，更加容易找到函数的极小值梯度下降算法（GradientDescent，GD）小批次梯度下降法（Mini-batchGradientDescent）每次随机采样小规模的训练数据来估计梯度提高算法的运行速度99HARBININSTITUTEOFTECHNOLOGYPyTorch代码示例/drive/1v-4G7WgiEhV_wOuOC_2IoSIVNzRHQlnP?usp=sharing

谢谢！静态词向量预训练模型神经网络语言模型1Word2vec词向量2GloVe词向量3静态词向量的评价与应用4神经网络语言模型1Word2vec词向量2GloVe词向量3静态词向量的评价与应用4104分布式（Distributed）词表示分布表示的缺点训练速度慢，增加新语料库困难不易扩展到短语、句子表示分布式表示直接使用低维、稠密、连续的向量表示词通过“自监督”的方法直接学习词向量也称词嵌入（Word

Embedding）发展历程LSA(Deerwester

etal.,

1990)LDA(Blei

etal.,

2003)NNLM(Bengio

etal.,

2003)HLBL(Minh

and

Hinton,

2009)SENNA(Collobert

etal.,

2011)RNNLM(Mikolov

etal.,

2010)Word2vec(Mikolov

etal.,

2013)GloVe(Pennington

etal.,

2014)105前馈神经网络语言模型（FF-NNLM）NeuralNetworkLanguageModels(Bengioetal.,JMLR

2003)根据前n-1个词（历史）预测当前词，即马尔可夫假设模型结构为前馈神经网络通过查找表（Look-up

Table），获得词的向量表示词向量（或词嵌入，Word

Embedding）支撑图灵奖的重要工作通过

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

《自然语言处理：基于预训练模型的方法》课件第1-5章绪论-静态词向量预训练模型

文档简介

温馨提示

最新文档

评论

《自然语言处理：基于预训练模型的方法》 课件 第1-5章 绪论-静态词向量预训练模型

文档简介

温馨提示

最新文档

评论

相关文档

《自然语言处理：基于预训练模型的方法》课件第1-5章绪论-静态词向量预训练模型