自然语言处理(微课版)课件 第八章 机器翻译_第1页
自然语言处理(微课版)课件 第八章 机器翻译_第2页
自然语言处理(微课版)课件 第八章 机器翻译_第3页
自然语言处理(微课版)课件 第八章 机器翻译_第4页
自然语言处理(微课版)课件 第八章 机器翻译_第5页
已阅读5页,还剩46页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

机器翻译简介/神经翻译模型/机器翻译中的搜索问题/机器翻译的领域适应问题/预训练的机器翻译模型2026/6/11第八章机器翻译简介机器翻译任务、机器翻译模型架构神经翻译模型基于循环神经网络的机器翻译、基于卷积神经网络的机器翻译、基于自注意力机制的机器翻译机器翻译中的搜索问题机器翻译中的搜索问题、贪婪搜索和束搜索机器翻译的领域适应问题领域适应问题、跨语言预训练的迁移学习预训练的机器翻译模型机器翻译的单语预训练、机器翻译的多语预训练2026/6/128.1简介任务目标:机器翻译(Machinetranslation)是一种利用计算机将一种自然语言文本自动翻译成另一种自然语言文本的技术。机器翻译旨在模拟人类的翻译能力,因此也是人工智能的重要分支之一2026/6/138.1.1机器翻译任务机器翻译早期发展:始于1950年代,需要巨大的数据处理能力和存储能力,远远超出早期机器的能力,直到2000年代初,软件、数据和所需的硬件才能够进行基本的机器翻译。主要优点快速翻译广泛翻译降低成本2026/6/148.1.2机器翻译模型架构机器翻译模型架构Seq2Seq模型架构:一个编码器(Encoder)和一个解码器(Decoder)编码器:将句子编码成一个固定长度的向量,这个向量能够大致映射出句子的内容。解码器:将由编码器生成的向量还原成相应的序列数据,通常情况下,解码器采用与编码器相同的结构,也是一个RNN类的网络。2026/6/158.1.2机器翻译模型架构机器翻译模型架构Seq2Seq模型架构:一个编码器(Encoder)和一个解码(Decoder)2026/6/16SequencetoSequence模型8.1.2机器翻译模型架构机器翻译模型架构Seq2Seq模型架构:一个编码器(Encoder)和一个解码(Decoder)2026/6/17encoder-decoder模型细节8.1.2机器翻译模型架构机器翻译模型方法分类基于规则的机器翻译(RBMT):基于一种语言规则,允许将单词放在不同位置并可以根据上下文而具有不同的含义统计机器翻译(SMT):通过分析双语文本语料库来进行翻译学习神经机器翻译:一种端到端学习形式,可用于自动翻译2026/6/188.2神经翻译模型统计翻译模型的不足:基于统计的翻译模型需要估计单词或短语对的转移概率(即通过对单词/短语的共现频次来估计翻译词的概率),然而,这种估计方法容易导致稀疏性以及对稀少词/未见词的泛化性较差的问题神经翻译模型的优势:利用连续表示(Continuousrepresentations)来表征词汇/短语的语义,从而可以更好地捕捉词汇之间的语义相关性2026/6/198.2.1基于循环神经网络的机器翻译

2026/6/110

2026/6/1118.2.1基于循环神经网络的机器翻译8.2.2基于卷积神经网络的机器翻译基于卷积神经网络的机器翻译RCTM的缺点:难以并行化生成源文本表示表征维度固定,难以更好地利用源文本更多的信息ByteNet模型:使用了掩码来防止网络在训练时看到目标序列中未解码出的部分运行时间与句子长度呈线性关系,效率相对较高2026/6/112基于卷积神经网络的机器翻译ByteNet模型特点:解码器堆叠在编码器之上:“增加表示带宽”动态展开(Dynamicunfolding)空洞卷积(Dilatedconvolution):扩展对输入源文本编码的感受野2026/6/1138.2.2基于卷积神经网络的机器翻译基于卷积神经网络的机器翻译ByteNet网络结构图:2026/6/1148.2.2基于卷积神经网络的机器翻译8.2.3基于自注意力机制的机器翻译Transformer与自注意力机制:《Attentionisallyouneed》论文首次提出了Transformer和自注意力机制,该模型最初应用于机器翻译任务,并在当时达到了SOTA的效果,Transformer通过利用self-attention机制实现了快速并行,与传统Seq2Seqattention机制相比,Transformer模型的self-attention机制是一种新的attention机制,其query和massage两个序列是相等的。2026/6/1158.2.3基于自注意力机制的机器翻译Transformer与神经机器翻译:由编码组件、解码组件和组件之间的连接组成。2026/6/116encoder-decoder8.2.3基于自注意力机制的机器翻译Transformer与神经机器翻译编码组件:由一堆编码器(Encoder)构成,所有的编码器在结构上都是相同的,但没有共享参数。每个编码器都可以分解成两个子层。自注意力层(Self-attention):有助于编码器在对每个单词进行编码时,关注输入句子的其他单词前馈(Feed-forward)神经网络:自注意力层的输出将传递到前馈神经网络中,每个位置上的单词都对应着完全相同的前馈神经网络2026/6/1178.2.3基于自注意力机制的机器翻译Transformer与神经机器翻译编码组件:由一堆编码器(Encoder)构成,所有的编码器在结构上都是相同的,但没有共享参数。每个编码器都可以分解成两个子层。2026/6/118encoder8.2.3基于自注意力机制的机器翻译Transformer与神经机器翻译解码组件:由相同数量(与编码器对应)的解码器(Decoder)组成,解码器中也包含编码器的自注意力(Self-attention)层和前馈层(Feed-forward)。此外,这两个层之间还有一个注意力层,用于关注输入句子中的相关部分2026/6/1198.2.3基于自注意力机制的机器翻译Transformer与神经机器翻译解码组件:由相同数量(与编码器对应)的解码器(Decoder)组成2026/6/120decoder8.2.3基于自注意力机制的机器翻译Transformer与神经机器翻译自注意力计算第一步:每个编码器的输入向量中生成三个向量,即查询向量、键向量和值向量,对于每个单词都需要创造这三个向量2026/6/1218.2.3基于自注意力机制的机器翻译Transformer与神经机器翻译自注意力计算第二步:计算得分,以计算第一个单词“Thinking”的自注意力向量为例,我们需要对输入序列中的每个单词对其进行打分。这些分数决定了在编码单词“Thinking”的过程中,句子中其他部分的重要性有多大。2026/6/1228.2.3基于自注意力机制的机器翻译Transformer与神经机器翻译自注意力计算第二步:计算得分2026/6/1238.2.3基于自注意力机制的机器翻译Transformer与神经机器翻译自注意力计算第三、四步:将分数除以8,然后通过softmax传递结果。softmax的作用是使所有单词的分数归一化,得到的分数都是正值且和为12026/6/1248.2.3基于自注意力机制的机器翻译Transformer与神经机器翻译自注意力计算第五步:将每个值向量乘以softmax分数第六步:对加权值向量进行求和,从而得到该位置的自注意力层输出(在我们的例子中是对于第一个单词)2026/6/1258.2.3基于自注意力机制的机器翻译归一化操作与解码器输出:将自注意力的输出结果归一化处理后传到前馈层,完成编码的输出,解码器的工作与编码器类似,解码组件最后会输出一个实数向量,解码组件之后就是线性变换层和Softmax层。2026/6/1268.3机器翻译中的搜索问题机器翻译中的搜索问题目标:利用某种算法,随机抽样得到多种翻译,找出句子概率最大的一个,即最合适的翻译结果。分类:贪婪搜索集束搜索2026/6/1278.3.1机器翻译中的搜索问题机器翻译中的搜索问题目标:利用某种算法,随机抽样得到多种翻译,找出句子概率最大的一个,即最合适的翻译结果。2026/6/128机器翻译模型8.3.2贪婪搜索和束搜索

2026/6/1298.3.2贪婪搜索和束搜索贪婪搜索2026/6/1308.3.2贪婪搜索和束搜索束搜索选择出最有可能的k个单词,并在扩展的过程中,始终保证序列是最有可能的k个序列较大的束宽度会使得模型性能提高,k值增大也会导致解码速度降低将概率的自然对数相乘,这样使得到的数字更大,避免浮点数的下溢问题2026/6/1318.3.2贪婪搜索和束搜索束搜索2026/6/1328.4机器翻译的领域适应问题领域迁移领域自适应机器翻译中的领域自适应2026/6/1338.4.1领域适应问题

2026/6/1348.4.1领域适应问题领域自适应:不同迁移学习的一种方法,将不同领域的数据特征映射到同一个特征空间中,利用信息丰富的源域样本来提升目标域模型的性能源域(Sourcedomain):代表与测试样本不同的领域,但具有丰富的监督信息目标域(Targetdomain):代表测试样本所在的领域,通常缺乏标签信息或只有少量标签信息2026/6/1358.4.1领域适应问题机器翻译中的领域自适应:推理时呈现的句子领域可能与任何训练领域数据不同,主要关注两个问题“灾难性遗忘”:一个在领域A上表现出色的模型在领域B上进行了微调,那么模型往往会在领域B上提供强大的翻译性能,而在领域A上则会出现极端的性能下降过拟合或“暴露偏差”:模型可能能够在精确的适应域B上实现出色的性能,但适应领域B上任何微小的变化都可能会造成困难2026/6/1368.4.2跨语言预训练的迁移学习跨语言预训练的迁移学习问题:源语言和目标语言没有大量的成对语料进行预训练,需要迁移学习来实现只有少量文本对数据的情况下的机器翻译任务定义:零样本场景任务,即给定大量的<source,pivot>和<pivot,target>的翻译文本对语料,但是不存在<source,target>的平行语料,零样本机器翻译希望能够得到模型,实现从source语言到target语言的翻译任务方法分类:Pivot-basedMethod;TransferLearning;MultilingualNMT(MNMT);UnsupervisedNMT(UNMT)2026/6/1378.4.2跨语言预训练的迁移学习Pivot-basedMethod:训练了两个翻译模型,即source

pivot和pivot

target的模型,然后给定source文本,先使用source

pivot模型将source文本翻译成pivot语言,然后在利用pivot

target模型翻译到target语言。TransferLearning:使用具有高资源预训练的模型参数来初始化低资源子模型,从而实现知识的迁移2026/6/1388.4.2跨语言预训练的迁移学习MultilingualNMT(MNMT):训练一个通用的翻译模型,支持从多种源语言翻译成多种目标语言,甚至是那些从未见过的语言对UnsupervisedNMT(UNMT):考虑了只有大规模的单语语料库可用于训练这一更困难的设定2026/6/1398.4.2跨语言预训练的迁移学习BridgeLanguageModeling(BRLM)核心思想:训练一个通用的编码器Encoder,将source和pivot语言映射到相同的语义空间中变体一:HardAlignment(BRLM-HA),模型首先在<source,pivot>并行数据上使用外部对齐工具来提取句子对的对齐信息。变体二:SoftAlignment(BRLM-SA),没有使用外部对齐工具,而是引入了一个额外的注意力层来学习对齐信息以及模型训练。2026/6/1408.4.2跨语言预训练的迁移学习BridgeLanguageModeling(BRLM)2026/6/141pretrain-bert模型结构8.5预训练的机器翻译模型预训练的机器翻译模型:随着预训练大模型技术的发展,自我监督预训练和特定任务微调技术与机器翻译任务的结合也逐渐受到人们的关注,为机器翻译领域注入了新的活力2026/6/1428.5预训练的机器翻译模型挑战大多预训练方法的目标和下游的机器翻译任务目标不同,使得在机器翻译领域应用预训练大模型得可行度受到一定影响机器翻译自然是一个多语言问题,但一般的自然语言处理预训练方法主要针对英语语料库主流方法机器翻译的单语预训练机器翻译的双语预训练2026/6/1438.5.1机器翻译的单语预训练机器翻译的单语预训练特点:单语数据量远远大于双语数据挑战:利用预训练技术把大量单语数据中的信息融合到翻译的过程当中是一个重要的问题方法BERT融合模型APT框架2026/6/1448.5.1机器翻译的单语预训练BERT融合模型:将BERT得到的表征输入到模型所有层,并使用注意力机制控制不同层与表征之间的交互添加BERT-encoder注意力和BERT-decoder注意力2026/6/145BERT融合模型示意图8.5.1机器翻译的单语预训练新的APT框架:从预训练模型中获取单语知识并融合到机器翻译模型,该框架有两个模块动态融合机制模块:采用两种基于不同粒度的控制方法将特定任务表征动态融合到机器翻译模型当中,更好地对句子进行建模从而为机器翻译模型提供丰富的上下文信息知识提取范式模块:将预训练模型中的知识连续提取到机器翻译模型当中,在训练过程中学习如何从并行数据中把源句翻译成目标句2026/6/1468.5.2机器翻译的双语预训练机器翻译的双语预训练特点:侧重点更多集中于知识迁移

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论