AI概论及应用 课件 第10章 机器翻译_第1页
AI概论及应用 课件 第10章 机器翻译_第2页
AI概论及应用 课件 第10章 机器翻译_第3页
AI概论及应用 课件 第10章 机器翻译_第4页
AI概论及应用 课件 第10章 机器翻译_第5页
已阅读5页,还剩71页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第十章机器翻译

10.1

定义与概述目

CONTENTS01

机器翻译是什么02

语言学基础03

计算机科学04

数学机器翻译是什么机器翻译是什么机器翻译是一种利用计算机技术实现自然语言之间自动转换的技术。它旨在让计算机程序能够理解源语言(输入语言)的文本内容,并将其转换为目标语言(输出语

言)的文本,尽可能地保持语义和语法的准确性。例如,把一段英文文字“Automatedmachinetranslationsystemsarebecomingmoreandmoreadvanced.”通过机器翻译软件,转换为中文“自动化机器翻译系统正变得越来越先进

。”(如图1所示)。这里强调的是文本内容从一种语言到另一种语言的自动化转换

过程,主要关注的是语言的词汇、语法等层面的转换。Automatedmachinetranslationsystems

are

×becomingmore

and

more

advanced.Q

74/5,000中文(简体)

英语

日语自动机器翻译系统变得越来越先进。Zidòng

jiqi

fanyìxitǒng

biàn

déyuè

lái

yuèxianjin.图1

机器翻译示例☆系统分析与转换系统利用语言学知识和计

算机算法对源语言文本进

行分析,理解其结构和语

义,然后根据目标语言的

规则进行转换。输入源语言文本用户将需要翻译的文本输入到机器翻译系统中,系

统接收并准备进行分析与

。输出目标语言文本经过转换后,系统生成目标语言的文本并输出,完

成整个翻译过程。机器翻译的完整流程示意语言学基础词汇:语言的基本单位1.

词汇的形态:不同语言的词汇形态变化差异显著。英语通过词尾变化表达单复数、时态等,如名词的单复数(book-books)、动词的时态(run

-ran-running)。而汉语则依赖词序或虚词来表达语法关系。2.词汇的语义:许多词汇在不同语境下有不同含义。例如英语单词'bank',

在不同语境下可译为‘银行’或‘河岸’

(如图2所示)。机器翻译需要结

合上下文来确定其准确的翻译。我需要在午餐时间去银行。Wo

xūyào

zài

wůcān

shijiān

qùyínháng.这些花通常生长在河岸和溪流附近。

☆检测语言英语

中文(简体)

德语These

flowers

generally

grow

on

river

banksand

near

streams.图2

bank词汇的语义对应关系I

need

to

go

to

the

banklat

lunchtime.句法:结构差异与转换1.不同语言的句法结构不同语言的句子结构存在差异。例如,英语句子通常是主谓宾(SVO)结构,而日语句子结构是

主宾谓(SOV)

。机器翻译需要识别源语言的句法结构,并按照目标语言的规则进行转换。名词修饰介司

并列连词听arebecomingmoreandmore

advanced◀名词主语一状语-从句补语-《状语

标点符号》ADAD自动化机器

系统正变得越来越

进状语一未定义-标点符号-标点符号PU

NN

一标点符号PU翻訳システムはますます進化

しています。2.句法转换的重要性准确的句法转换有助于生成自然流畅

的目标语言句子。例如,将英语句子'Automated

machine

translation

systems

are

becoming

more

and

more

advanced.

'翻译为中文时,需要根据中文

的句法结构进行调整(如图3所示)。四

NN

复合名词

《复合名词Automated

machine

translation

systems图3英、汉、日的句法分析结果对比形容一《复合名词

《复合名词自

械复合名词标点符号-形容-语义与语用:歧义与语境语义语义理解是机器翻译的关键,句子可能因词汇多义或结构模糊而产生歧义。例如‘Thelamb

is

too

cold

to

eat.',主

语'lamb’可指‘小羊羔’或‘羊肉',导致句子有两种不

同的含义(如图4所示)。检测语言英语中文(简体)德语中文(简体)英语日语语用机器翻译需要考虑语言的使用场景和说话

者的意图。同一句话在不同语境下可能有不同

的翻译。例如,根据语境,‘The

lamb

is

too

coldto

eat.'可译为‘这只小羊羔冷得吃不下东西’或

‘羊肉太凉了不能吃’(如图5所示)。检测语言英语

中文(简体)德语中文(简体)

英语

日语这只小羊羔冷得吃不下东西。

×Zhe

zhixiáoyángao

léngdchibikil

dōngi.1

3

/

5

,

0

0

0

·检

语中

文(

)德

语The

lambwas

too

cold

to

eat.

☆回

<中文(简体)英语日

语V这只小羊羔冷得吃不下东西。

×Zhè

zhixiǎo

yánggāo

léng

chibuxià

dōngxi.Q

)

1

3

/

5

0

0

0

拼The

lambwas

too

cold

to

eat.

☆回

q<The

lamb

is

too

cold

to

eat.

×28/5,000羊肉太冷,不能吃。

☆Yángrou

tǎilěng.bunéng

chi.回

<图4语义理解示例图5语用示例计算机科学编程语言和软件开发环境

编程语言选择Python

是开发机器翻译系统的热门语言,因其简洁性与丰富的库。例如,

NLTK

用于自然语言处理,TensorFlow

和PyTorch

用于深度学习模型开发。软件开发环境软件开发环境包括编译器、调试工具等,帮助开发人员编写、测试和优化机器

翻译程序。Visual

Studio

Code是常用的代码编辑器,支持多种编程语言。开发工具的重要性合适的编程语言和开发环境可以提高开发效率,减少开发成本,同时便于后续的维护和优化。算法的关键作用算法在机器翻译中起着关键作用

。例如,在统计机器翻译中,动态规

划算法用于寻找最优的翻译路径;在

神经机器翻译中,梯度下降算法用于

训练神经网络模型。数据结构的作用数据结构用于存储和组织机器翻译过程中的各种数据,如词汇表

可以用哈希表或树状结构来存储,

以提高词汇查找和处理的效率。数据结构和算法

计算资源机器翻译模型的训练和运行需要大量的计算资源,包括

CPU、GPU

等。高效的计算资源管理对于机器翻译系统的开发和应用至关重要。例如,在训练机器翻译模型时,需要使用

GPU来加速计算过程,因为GPU

具有强大的并行计算能力,可以大幅缩短训练时间。同时,云计算技术

也为机器翻译提供了可扩展的计算资源,开发人员可以根据需要租用云端的

计算资源来进行模型开发和部署。数学概率论的应用在统计机器翻译中,概率论和数理统计是基础。在统计机器翻译中,概率论用于

计算源语言单词翻译为目标语言单词的概率。通过对双语平行文本的统计

分析,利用条件概率的知识来估计这

些概率。评估指标概率统计方法也用于评估机器翻译质量。例如,

BLEU

等评估指标通过计算翻译句子和参考译文之间

的单词匹配概率等因素来衡量翻译

质量。概率论和数理统计线性代数词向量表示线性代数在机器翻译中用于词向量表示。例如,在Word2Vec

模型中,单词通过线性代数运算被表示为向量形式,从而捕捉单词的语义信息。神经网络中的矩阵运算在神经网络模型中,矩阵乘法等线性代数运算用于计算神经元之间的连接权重。例如,在神经机器翻译的编码器-解码器架构中,编码器和解码器通过线性变换完成句

子的编码和解码。模型训练过程在神经机器翻译模型训练中,每次迭代时,根据损失函数对模型参数的梯度,使用

优化算法来更新参数,使得模型在训练数据上的翻译错误率逐渐降低。优化算法优化算法如随机梯度下降、Adam等基于优化理论,通过不断调整模型的参数来使损失函数达到最小值。损失函数的作用在训练机器翻译模型时,损失函数用于衡量模型的翻译质量。通过最小化损失函数,可以优化模型的参数,提高翻译的准确性。优化理论10.2发展历程发展历程机器翻译思想最早提出者是美国的瓦伦·

韦弗(WarrenWeaver)于1947年提出机器翻译概念并于1949年7月正式记录于名为《翻译》的

备忘录。自彼时起直至当下,机器翻译研究已然走过了一段充满波折起伏的漫长发展历程,其间经历了诸多变革、挑战与突破,在不断探

索与试错中逐步演进,发展经历根据所使用的翻译方法不同,可总结

为四个阶段:词典翻译阶段、规则翻译阶段、统计翻译阶段和神经网

络翻译阶段。

发展历程1.词典翻译阶段词典翻译阶段是机器翻译发展历程中的早期阶段。在计算机技术刚刚兴起,人们开始尝试利用计算机来处理自然语言翻译任务时,词典翻译是一种较为

直观的探索方向。这一时期主要受到传统词典编纂思想的影响,试图通过构建电子化的双语词典来实现简单的单词或短语翻译。例如,在20世

5

0

-

6

0

年代,研究人员开始收集和整理不同语言的词汇对应关系,将其存储在计算机

系统中,希望借此实现源语言到目标语言的自动转换,但是由于句法结构复杂

、语义多义性等问题,这种方法在实际应用中存在着很大的局限性。

发展历程2.规则翻译阶段规则翻译阶段是在词典翻译基础上发展而来的。这个阶段的机器翻译系统主要依靠语言学家和专家人工编写的大量语言规则。这些规则涵盖了语法、词汇搭配、句子结构等诸多方面。例如,对于英语和汉语之间的翻译,语言学家会详细分析两种语言的语法规则差异。如英语句子一般是主谓宾

(SVO)

结构

,而汉语句子结构较为灵活,可能是主谓宾、主宾谓等多种形式,于是会编写

规则来处理这种句子结构的转换。该阶段的机器翻译虽然可以处理一些复杂的

句子结构,但需要耗费大量的人力和时间编写规则,并且无法涵盖所有的语言现

发展历程3.统计翻译阶段统计机器翻译阶段的核心是基于概率统计模型,利用大量的双语平行文本(即源语言和目标语言相互对应的文本)来计算各种翻译概率,寻找最优翻译

结果。这种方法最大的优势在于它可以利用大量的文本数据自动学习语言之间的翻译规律,能够较好地处理一些规则难以涵盖的复杂语言现象,能够生成比规则翻译更自然、更符合语言习惯的翻译句子;不足之处在于对数据的质量和数量要求很高,对于语义的深入理解仍然有限。

发展历程4.神经网络翻译阶段神经网络翻译阶段是近年来翻译所采用的新兴方法,主要基于编码器-解码器(Encoder-Decoder)架构。编码器将源语言句子的每个单词转换为向量表示,这些向

量能够捕捉单词的语义和语法信息。例如,对于一个英语句子

"The

cat

chasedthe

mouse.”,

编码器会把每个单词(如“cat”“chased”"mouse”等)映射

为一个高维向量。然后,解码器利用这些向量来生成目标语言句子。在这个过程中

,解码器会根据编码器提供的向量信息以及之前生成的目标语言单词,逐步生成完整的句子,如对应的汉语句子

“猫追老鼠”。

发展历程4.神经网络翻译阶段这种方法的优点是能够更好地处理句子的语义信息,生成的翻译句子更加流畅自然,可以自动学习语言的复杂结构和语义关系,对于长句子和复杂句子的翻译效

果较好;缺点是模型训练需要大量的计算资源和时间,并且需要大量的高质量数据

。模型的可解释性较差,很难理解模型是如何做出翻译决策的。第十章机器翻译

10.3主流模型CONTENTS目录02卷积神经网络

模型01循环神经网络

模型04模型选型指南03自注意力崛起循环神经网络

模型RNN

核心思想R

NN的核心在于循环连接,它像人一样边读

边记,每一步都把前面

的语义压缩进隐藏状态

,再与当前词结合,实

现前文影响后文的效果示例说明例如在处理句子‘

追猫'时

,读到‘追’时,隐

态已携带‘狗’这

主语信息,帮助模型预

判后续宾语,从而理解

句子含义。变长输入适应性R

NN对变长输入有很强的适应性,无论句子

多长,都能通过循环连

接逐步处理,为后续编

码器-解码器结构奠定

基础。RNN

为何适合处理序列O编码器工作原理编码器像速记员,把整句中文逐字读入R

NN,每读一个词,R

NN的隐藏状态就更新一

次,最终得到一个固定长度的语义向量,这个向量包含了句子的全部语义信息。解码器工作原理Y1

Y2

Y3Encoder语义编码c

DecoderX1

X2

X3

X4图1编码器-解码器框架解码器像翻译员,从编码器得到的语义向量出发,逐词生成目标语言句子。它根据当前生成的词和语义向量,预测下一个词,直到生成完整的句子。编码器-解码器工作流程注意力机制模型注意力机制作用注意力机制让解码器在生成每个词时,都能动态地关注编码器的所有隐藏状态,通过加权平均的方式,生成与上下文相关的可变语义向量,从而更精准地生成目标语言句子。Y1

Y2Y3DecoderEncoderX1

X2

X3

X4图2注意力机制模型卷积神经网络模型并行处理优势多

个卷积核并行工作,像多把梳

子同时梳理句子,提取不同粒度的

局部模式,大大提高了编码效率,与RNN

的顺序依赖形成鲜明对比。卷积核提取特征一

维卷积核可以扫描词序列,通

过局部感受野,捕捉n-gra

m级特征

,如‘动词短语”名词短语’,从而提

取句子的局部特征表示。卷积也能做翻译1.编码阶段编码阶段,CNN

通过多层卷积和池化操作,把源句压缩成语义图,提取句子的高层语义表示。2.解码阶段解码阶段,

CNN

同样用卷积操作,根据已生成的部分目标语言序列和源语言编码信息,预测下一个目标语言词汇。3.注意力机制辅助为了更好地处理长距离依赖关系,

一些基于卷积神经网络的机器翻译模型还引入了注意力机制,让模型在解码过程中动态地

关注源语言句子中的不同部分。CNN翻译三步走图3

卷积神经网络基本结构CNN

与RNN

优劣对比CNN

在并行处理上具有优势,可一次性处理全句,而R

NN必须逐词处理;在长依赖上,CNN

需深层堆叠或注意力弥

,R

NN天然按顺序

传递但易梯度消失;在参数量上,

CNN

共享卷积核更省内存。自注意力崛起自注意力机制简介自注意力原理自注意力机制中,每个词生成查询、键、值三把钥匙,用查询去所有键里找相关度,加权求和得到该词的新表示,无需循环即可捕获任意

距离依赖。示例说明:例如在句子‘猫追狗’中,‘追’可以同时关联‘猫”和‘狗’,体现全局视野,解决R

NN的长程遗忘与CNN

的堆叠深度问题。残差连接与位置编码Transformer

采用残差连接和位置编码,残差连接帮助信

息流动,位置编码让模型能

区分词的顺序,即使没有循

环结构也能保持语序。编码器架构Transformer

的编码器端有多层自注意力和前馈网络,

把源句编码成上下文向量序

列,每一层都对语义进行更

深入的加工。解码器架构解码器端在自注意力外再加一层对编码输出的交叉注意

力,逐词生成目标句,确保

生成的每个词都能充分考虑

源句的语义信息。Transformer整体架构并行训练与推理速度速度优势Transformer

的自注意力矩阵运算可高度并行,训练时间相比R

NN大幅缩短;推理阶段虽仍需自回归,但矩阵批量计算仍优于

R

NN逐步展开,同等规模模型在GPU

上每秒可处理的token

数是

R

NN的3-5倍。模型选型指南场景驱动的模型选择

CNN

适用场景如果句子较短、资源受限、需要快速上线,

CNN

是一个不错的选择,它能快速处理

短句,适合对实时性要求较高的场景。

RNN+

注意力适用场景如果句子较长、需要精细对齐、可以接受较长的训练时间,R

NN+注意力机制是更

好的选择,它能更好地处理长句中的语义关系。Transformer适用场景如果追求最高性能、有充足的算力支持,Transformer

是最佳选择,它在翻译质量

和效率上都表现出色,适合对翻译质量要求极高的场景。模型轻量化未来,模型轻量化是一个重要趋势,通过剪枝、量化等技术

,让Transformer

等大型模型能够在移动端等资源受限的设

备上实时运行,拓展其应用场

。多模态融合多模态融合也是未来的发展方向,将图像、语音等信息引入

翻译模型,提升模型对上下文的理解能力,使翻译更加准确

和自然。未来趋势展望要点回顾与答疑要点回顾回顾本次讲解的核心要点:

RNN

用记忆链传递语义,适合处理长序列;CNN

用并行卷积提取特征,适合短句快

速翻译;Transformer

用自注意力看全局,适合高质量翻

译。第十章机器翻译

10.4评价标准目

CONTENTS01

评价标准总览02

BLEU03

METEOR04

ROUGE05

TER评价标准总览

为何需要量化评价量化评价的必要性在机器翻译领域,仅凭肉眼难以准确判断译文的优劣。不同译文可能在表面上看似相似,但语义上却存在巨大差异。因此,需要统一、可复现的量化指标来客观评估翻译质量量化指标的作用量化指标不仅是机器翻译系统迭代优化的重要标尺,也是不同模型之间公平竞争的跑道

。通过量化指标,可以快速比较不同系统的性能,为系统改进提供依据。评价指标的多样性为了全面评估机器翻译的质量,需要多种量化指标。这些指标从不同角度衡量

翻译的准确性、流畅性和语义一致性,帮助我们更全面地了解系统的优缺点。BLEUBLEU

核心思想BLEU

的定义BLEU

是一种基于n-gram

重叠的机器翻译评估指标。它通过比较机器翻译输出与参考译文之间的n-gram

匹配度来衡量翻译质量。

n-gram

是指文本中连续的n个单词的序列。BLEU

的计算方式BLEU计算翻译结果中与参考译文匹配的n-gram

的比例,并通过几何平均的方式将不同长度的n-gram

匹配比例综合起来,得到一个0到1之间的分数。分数越高,表示翻

译质量越好。

BLEU优势与局限1.BLEU

的优势BLEU

计算相对简单、直观,能够快速比较不同机器翻译系统的性能。它不依赖于语言的语法和语义规则,具有一定的通用性,适用于多种语言对的翻译评

估。2.BLEU

的局限性BLEU只考虑了翻译结果与参考译文的表面匹配情况,没有考虑语义是

否正确。它对翻译的流畅性评估不足,可能会高估一些翻译结果。METEORMETEOR

改进思路

METEOR的核心改进METEOR

在BLEU的基础上加入了同义词、词干和词序的柔性匹配,构建对齐图并计算

调和平均分数。它不仅考虑了精确匹配,还考虑了语义和语序的相似性。

同义词匹配的重要性通过引入同义词匹配,

METEOR

能够更好地评估翻译的语义准确性。例如,'happy'和

'glad'虽然不是精确匹配,但在语义上是等价的。

词序匹配的作用METEOR

还考虑了单词的顺序,这对于评估翻译的连贯性和流畅性至关重要。通过综合考虑这些因素,METEOR

能够更贴近人类对翻译质量的判断。METEOR

的局限性METEOR的计算相对复杂,因为它需要考虑同义词匹配、词干提取

等操作。对于一些语言中复杂的语

义和语法现象,如隐喻和习语,METEOR

的评估效果可能有限。METEOR的优势METEOR

兼顾了语义和语序,与人工评分更为一致。它能够更好地

评估翻译的质量,对翻译的流畅性

和语义准确性有一定的考量。METEOR

优缺点ROUGEROUGE

的变体R

OUGE有多种变体,如R

OUGE-N

、ROUGE-L和ROUGE-S

。ROUGE-N基于n-gram的召回率,R

OUGE-L基于最长公共子序列的召回率,ROUGE-S

基于跳过-n-gram

的召回率OROUGE

的计算方式R

OUGE通过计算机器翻译结果中与参考译文匹配的n-gram

数量占参考译文n-gram

总数的

比例来衡量翻译质量。它的多种

变体可以从不同角度评估翻译质

。ROUGE

的起源R

OUGE最初是用于评估文本摘要系统的指标,但后来也

被广泛应用于机器翻译评估

。它通过计算机器翻译结果

与参考译文之间的重叠部分

来衡量翻译质量。ROUGE家族概览ROUGE

适用场景与不足ROUGE

的适用场景:ROUGE

适合评估译文对参考译文的覆盖程度,尤其在长句信息完整性和连贯性方面表现良

好。它能够有效地衡量翻译结果对参

考译文的覆盖程度。ROUGE

的局限性:ROUGE

主要关注翻译结果与参考译文的重叠部分,对语义准确性的评估不够全面。它可能会受到参考译文质量和长度的影响,

导致评估结果的偏差。TERTER的计算示例假设参考译文为'he

went

to

school',机器翻译结果为'he

goes

to

theschool'。需要进行1次替换操作('went

'替换为'goes')

和1次插入操作

(插入'the'),总共2次编辑操作。TER

分数为240

.5。TER

的定义TER

通过计算将机器翻译结果转换为参考译文所需的编辑操作数量来评估

翻译质量。编辑操作包括插入、删除

、替换单词以及移动单词块等。TER

直观度量TER优势与边界TER

的优势:TER

能够直观地反映出机器翻译结果与参考译文之间的差异程度,并且

考虑了多种编辑操作,更全面地评估了翻译的准确性。TER

的局限性:TER

的计算依赖于定义明确的编辑操作,对于一些复杂的语言现象,如

词序的灵活调整在不同语言中的含义变化等,可能无法准确评估。机器翻译全景:场景、挑战与未来01020304应用场景

挑战

趋势

总结与展望CONTENTS目录应用场景旅游行业在旅游行业,机器翻译为游客提供实时的语言

翻译服务,如翻译路标

和菜单,让游客在异国

他乡也能轻松获取信息

,

受更加便捷的旅行

。互联网领域在互联网领域,机器翻译能够对网页内容和社

交媒体评论进行翻译,

让不同语言的用户能够轻松交流,打破了语言

障碍,拓展了全球网络

社区的边界。跨国企业在跨国企业中,机器翻译帮助处理商务文件和

邮件,快速准确地将重

要文件从一种语言转换

为另一种语言,极大提

高了工作效率,促进了

国际业务的顺利开展。机器翻译无处不在提升阅读效率通过即时翻译,用户可以快速获取网页信息,无需等待翻译完成即可

开始阅读,大

节省了时间,提高了

获取信息的速度。保留原网页布局页面即时翻译功能保留原网页的布局,使原文与译文相互对照,用户无需跳转页面,即可轻松对比阅读,

有效提升了阅读效率与浏览体验。页面即时翻译体验助力语言学习双语字幕搭配外语语音,从视、听、说三个维度助力语言学习,

用户可以在观看视频的同时学习外

语,提高语言能力。实时字幕翻译在视频网

站上,机器翻译能够实时将视频字幕翻译成用户选择的

语言,精准流畅的双语字幕显示,

让用户更好地理解视频内容。视频字幕实时翻译快速精准转换:文档翻译服务能够快速、

精准地将各类文档在不同

语言间进行转换,无论是

商务报告、学术论文还是

技术手册,都能确保原文

的语义、风格与逻辑在译

文中得以完美呈现。打破语言壁垒:文档翻译有效打破了语言壁垒,促进了全球范围内

的信息交流与知识共享,为跨国业务、学术研究或

国际合作提供了强有力的

语言支持。保持格式一致

:文档翻译不仅关注内容的准确性,还注重保持原文

的格式和排版,使译文与

原文在视觉上保持一致,

方便用户

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论