自然语言处理(微课版)课件 第四章 生成式文本摘要_第1页
自然语言处理(微课版)课件 第四章 生成式文本摘要_第2页
自然语言处理(微课版)课件 第四章 生成式文本摘要_第3页
自然语言处理(微课版)课件 第四章 生成式文本摘要_第4页
自然语言处理(微课版)课件 第四章 生成式文本摘要_第5页
已阅读5页,还剩46页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

生成式文本摘要引言/长期依赖问题/长文本编码/基于双向LSTM/基于预训练语言模型2026/6/11第四章生成式文本摘要引言文本摘要任务、抽取式摘要、生成式摘要、Seq2seq架构文本输入的长期依赖问题长期依赖问题、LSTM架构、GRU架构、梯度裁剪与正则化复杂的长文本编码方案双向RNN、层级式RNN基于双向RNN的文本摘要基于预训练语言模型的文本摘要2026/6/124.1引言文本摘要任务任务目标:将长文本或文本集合转换为包含关键信息的简短摘要分类:按输入类型分类:单文档摘要、多文档摘要按输出类型分类:抽取式摘要、生成式摘要2026/6/134.1引言

抽取式摘要:从原文中选取关键词句组成摘要。2026/6/144.1引言抽取式摘要方法使用图、聚类等无监督方法提取词、句特征(例如句子的长度、位置等),然后利用机器学习算法抽取关键句子基于神经网络。这种方法将问题建模为序列标注或句子排序任务2026/6/154.1引言抽取式摘要在语法、句法上有一定的保证,但存在一些问题,如:内容选择错误、连贯性差、灵活性差等生成式摘要允许摘要中包含新的词语或短语,灵活性更高2026/6/164.1引言生成式摘要特点:允许摘要中包含新的词语或短语,灵活性高主要方法:Seq2Seq模型——encoder-decoder架构Encoder(编码器):将输入的文本编码成一个向量C(context)Decoder(解码器):从向量C提取重要信息、加工,生成文本摘要2026/6/174.1引言Sequence-To-Sequence(Seq2seq)架构2026/6/184.1引言Seq2seq→基于RNN的架构2026/6/194.1引言

2026/6/1104.1引言

2026/6/1114.2文本输入的长期依赖问题长期依赖问题当计算图变得极深时,变深的结构使模型丧失了学习到先前信息的能力,也让优化变得非常困难。循环网络要在长时间序列的各个时刻重复应用相同操作来构建非常深的计算图,并且模型参数共享,这使问题更加凸显。2026/6/1124.2文本输入的长期依赖问题

2026/6/1134.2文本输入的长期依赖问题传统RNN改进:长短期记忆网络(LongShort-TermMemory,LSTM)特点:引入记忆元(memorycell)来记录和维护附加的信息,有效地保留过去重要的信息,忽略不再需要的信息,解决长期依赖问题2026/6/1144.2文本输入的长期依赖问题LSTM架构:2026/6/115

4.2文本输入的长期依赖问题LSTM架构:2026/6/116

4.2文本输入的长期依赖问题LSTM架构:2026/6/117

4.2文本输入的长期依赖问题LSTM架构:2026/6/118

4.2文本输入的长期依赖问题LSTM架构:2026/6/119

4.2文本输入的长期依赖问题LSTM架构:2026/6/120

4.2文本输入的长期依赖问题LSTM架构:2026/6/121

4.2文本输入的长期依赖问题长短期记忆网络(LSTM)2026/6/1224.2文本输入的长期依赖问题传统RNN改进:门控循环单元(GatedRecurrentUnit,GRU)特点:GRU引入了门控机制选择性地保留或丢弃过去的信息,能有效解决梯度消失问题。2026/6/1234.2文本输入的长期依赖问题GRU架构2026/6/124

4.2文本输入的长期依赖问题GRU架构2026/6/125

4.2文本输入的长期依赖问题GRU架构:2026/6/126

4.2文本输入的长期依赖问题GRU架构:2026/6/127

4.2文本输入的长期依赖问题GRU架构:2026/6/128

4.2文本输入的长期依赖问题梯度裁剪与正则化梯度裁剪:神经网络一般通过梯度下降法学习,当网络太深时会造成梯度爆炸或者梯度消失的问题。梯度裁剪能一定程度上缓解以上问题。2026/6/1294.2文本输入的长期依赖问题梯度裁剪与正则化梯度裁剪解决梯度爆炸:对每个参数的梯度值进行限制,使其不超过一个预先设定的最大值解决梯度消失:也可以通过梯度裁剪一定程度缓解梯度消失问题,但还需要其他的技术,例如使用更合适的激活函数、残差连接、归一化等2026/6/1304.2文本输入的长期依赖问题梯度裁剪与正则化正则化:正则化是一种为了减小测试误差(注意:是针对于测试误差,对于训练误差可能是增加)的行为,当使用复杂的模型拟合数据时,很容易出现过拟合现象,从而导致模型的泛化能力下降。此时我们就需要使用正则化来降低模型的复杂度,从而防止过拟合。2026/6/1314.2文本输入的长期依赖问题

2026/6/1324.3复杂的长文本编码方案

2026/6/1334.3复杂的长文本编码方案双向卷积神经网络(RNN)在许多应用场景中,要输出的预测结果可能依赖于整个输入序列。例如,在语音识别中,由于存在协同发音,当前语音信号的正确解释可能需要考虑之前出现的词以及未来可能出现的词,因为单词之间存在语义上的依赖关系。2026/6/1344.3复杂的长文本编码方案双向卷积神经网络(RNN)双向RNN:由一个从时间序列起点开始移动的RNN和另一个从时间序列末尾开始移动的RNN组成。这种结构允许输出单元的计算同时依赖过去和未来时刻的输入信息。2026/6/1354.3复杂的长文本编码方案双向卷积神经网络(RNN)2026/6/1364.3复杂的长文本编码方案双向卷积神经网络(RNN)优点:对于预测结果依赖于整个输入序列的任务表现良好,同时能综合考虑所有输入信息,从而缓解遗忘早期的输入信息。任务场景:手写识别、语音识别2026/6/1374.3复杂的长文本编码方案层级式卷积神经网络(RNN)特点:类似于将多层全连接神经网络叠在一起形成多层感知机(MLP),同样也可以将多个循环神经网络(RNN)层堆叠在一起,形成一个多层RNN网络。2026/6/1384.3复杂的长文本编码方案层级式卷积神经网络(RNN)架构:第一层RNN输出的T个状态向量作为第二层RNN的输入第二层RNN拥有独立的参数,依次读取T个来自第一层RNN的输出向量,产生T个新的输出第二层RNN的输出又作为第三层RNN的输入,以此类推到第n层2026/6/1394.3复杂的长文本编码方案层级式卷积神经网络(RNN)2026/6/1404.4基于双向RNN的文本摘要案例:Words-lvt2k(AbstractiveTextSummarizationusingSequence-to-sequenceRNNsandBeyond,ACL2016)该模型以一个包含双向GRU-RNN的编码器和单向GRU-RNN的解码器的模型作为基准模型,并将注意力模型应用在编码器的hiddenstate上,将一个softmax分类器应用在解码器的生成器上。2026/6/1414.4基于双向RNN的文本摘要案例:Words-lvt2k(ACL2016)Feature-richEncoder:融合wordfeature包括单词的词性标注(part-of-speech),命名实体标签(named-entitytags)以及TF(词频)和IDF(逆文本频率),对Encoder的输入构建了具有多个维度的词嵌入(wordembedding),这些维度上的意义对于摘要的生成至关重要。2026/6/1424.4基于双向RNN的文本摘要案例:Words-lvt2k(ACL2016)SwitchGenerator/Pointer:文摘中会遇到一些低频但很重要或者OOV(Outofvocabulary)的词,这个开关解决了这类问题。根据上下文计算开关打开Generator的概率,然后根据概率改变开关状态,如果是Generator就产生一个单词,如果是Pointer就生成一个指向原文单词位置的指针,然后复制到摘要中。2026/6/1434.4基于双向RNN的文本摘要案例:Words-lvt2k(ACL2016)Hierarchicalencoderwithhierarchicalattention:这里实际上是对Attention机制的改进,分了两个等级:word-level和sentence-level,既考虑了Encoder中每个单词对于Decoder的重要性,又考虑了这个单词所在句子对Decoder的重要性,从而在两个等级层次上重新定义Attention机制中的权重。2026/6/1444.5基于预训练语言模型的文本摘要2026/6/145目前,基于Transformer的预训练语言模型在各种下游任务上取得了良好的结果。预训练的上下文语言模型,比如BERT,在众多自然语言处理任务中表现出了卓越的性能,包括文本摘要任务本节以一种基于BERT的文本摘要模型为例,探讨如何充分利用这些强大的预训练模型来改进文本摘要的质量4.5基于预训练语言模型的文本摘要2026/6/146两阶段解码器:草稿生成+摘要精炼草稿生成:由基于BERT的编码器提取输入文档的上下文表示嵌入(Documentembedding)。再将文档的嵌入表示输入一个单向的N层Transformer解码器,解码生成文档的“草稿摘要”(SummaryDraft)草稿生成摘要精炼4.5基于预训练语言模型的文本摘要2026/6/147两阶段解码器:草稿生成+摘要精炼摘要精炼:该阶段接受上一阶段输出的草稿摘要,通过BERT编码,获取草稿摘要的上下文嵌入;同时,该解码器还接受原始的文档上下文嵌入。草稿生成摘要精炼4.5基于预训练语言模型的文本摘要2026/6/148预训练模型与长文本摘要挑战:信息处理量大:包括长句子、大量段落、详细的内容需要模型具有较高的信息压缩能力更丰富的领域知识需求模型输入长度限制以及时间复杂度4.5基于预训练语言模型的文本摘要2026/6/149处理方法简化encoder注意力:旨在高效利用注意力机制。与全注意力机制相比,这极大地减少了计算复杂度和内存消耗,但不可避免地带来性能损失简化encoder端注意力LongFormerLongT5层次化模型HAT-BARTTop

Down

Transformer重要词句建模GRETEL4.5基于预训练语言模型的文本摘要2026/6/150处理方法层次化模型:一个文档通常可以划分为多个层级,不同层级之间存在不同级别的信息,例如一个段落中的句子的主题通常比较相近。因此,考虑使用层次化模型,通常有利于捕获多个层级的语义信息简化encoder端注意力LongFormerLongT5

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论