人工智能翻译的发展_第1页
人工智能翻译的发展_第2页
人工智能翻译的发展_第3页
人工智能翻译的发展_第4页
人工智能翻译的发展_第5页
已阅读5页,还剩14页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

,人工智能翻译,付文青,14S101053,HIT,目录,机器翻译概述,1,机器翻译的原理及方法,2,理解语言,机器翻译的根本瓶颈,3,机器翻译,机器翻译的定义,机器翻译(MachineTranslation),是使用电子计算机把一种自然语言(源语言,SourceLanguage)翻译成另外一种自然语言(目标语言,TargetLanguage)的一种学科。这门新学科同时也是一门新技术,它涉及到语言学,计算机科学,数学等许多部门,是非常典型的多边缘交叉学科。在语言学中,机器翻译是计算语言学的研究领域在计算机科学中,机器翻译是人工智能的研究领域在数学中,机器翻译是数理逻辑和形式化方法的研究领域,机器翻译的方法,按转换层面划分直接翻译方法句法转换方法语义转换方法中间语言方法按知识表示形式划分基于规则的方法基于实例的方法统计的方法,基于句法的统计机器翻译方法,基于统计的翻译方法是IBM的学者提出,可以归纳为三个重要部分,分别为语言模型的建模、翻译模型的建模以及解码三个子部分。语言模型的建模问题是统计估计中的一个经典问题,即根据当前词预测下一个词。它是语音识别或光学字符识别的基础,同时也被用来进行拼写纠错、手写体识别以及统计机器翻译。,基于句法的统计机器翻译方法,基于短语的统计翻译方法的问题泛化能力差中国大使馆、美国大使馆月球大使馆?产生的句子不符合语法短语的简单组合,没有句法结构无法表示不连续的短语搭配的翻译召开了一次关于的会议holdameetingon无法进行长距离的语序调整解决办法:引入句法结构!,基于句法的统计机器翻译方法,形式上基于句法的模型不使用任何语言学知识所有句法结构直接从未标注的语料库中自动学习得到语言学上基于句法的模型使用语言学知识语言通常要从句法树库训练得到树到串模型:只在源语言端使用语言知识串到树模型:只在目标语言端使用语言知识树到树模型:在源语言端和目标语言端都使用语言知识,基于句法的统计机器翻译方法,基于树到串对齐模板的翻译模型基于树到串对齐模板(简称TAT)的统计翻译模型是一种在源语言进行句法分析的基于语言学句法结构的统计翻译模型树到串对齐模板既可以生成终结符也可以生成非终结符既可以执行局部重排序也可以执行全局重排序从经过词语对齐和源语言句法分析的双语语料库上自底向上自动抽取TAT,基于句法的统计机器翻译方法,解码解码问题最重要的是如何设计合适的搜索策略来获得最佳翻译效果,以及如何解决空间爆炸问题,为尽可能在有限的时间内找到最优解,必须采用启发式算法。最常用的有柱搜索算法、A*算法以及堆栈搜索算法。,基于句法的统计机器翻译方法,解码自底向上柱搜索(BeamSearch)对于每一棵子树,找到所有与其根节点匹配的TAT,计算其候选译文(Candidate)候选译文(Candidate)的数据结构:TAT序列部分翻译结果累积的特征值累积的概率值,基于句法的统计机器翻译方法,柱搜索算法采用宽度优先的方式构建搜索树,在搜索树的每层采用启发式函数对扩展的状态进行评分,通过剪枝选取N个最优的状态进行扩展,基于句法的统计机器翻译方法,剪枝策略*假设合并汉语词位置相同最后两个英语词相同上一次翻译的汉语短语的最后一个词的位置相同*柱状图剪枝若假设栈中假设的数目超过设定的最大值,将假设栈中评分低的剪去*阈值剪枝设置栈中假设的最低概率值,当新假设小于阈值的时候进行剪枝,基于句法的统计机器翻译方法,机器翻译的瓶颈,之前进行的机器翻译的有益的探索中,凡是取得了结果的研究,大都努力避开理解语言这一过程。因为这一过程本身涉及到了AI的终极目标,机器的智能化。然而,这又是一个无法回避的问题,不能理解语言就不可能进行真正意义上的翻译。,机器翻译的瓶颈,burningPassionissweetLovemakesweakYousaidyoucherishedfreedomsoYourefusetoletitgo,原文译文:强烈的感情是甜蜜的而爱使我们脆弱你说你珍惜你的自由所以你拒绝丢失它,机器译文:激情是甜的爱使弱你说你珍惜的自由,以便你不让它去,机器翻译的瓶颈,上文已经进行过论述过,要实现真正的机器翻译,必须依赖于机器智能的实现,而这在短期内是不可能实现的,那么如何能在可以预见的未来实现初步的机器翻译呢?机器翻译分为四个层次:“词汇,语法,语义,语用。”前三个阶段现在都已经各有发展,但是语用的机器实现却一直停滞不前,因为语用知识包罗万象,在不同的语言,不同的背景中,不同的文章中语用知识千差万别,在不同的对话中上下文背景可能截然不同,面对这样的现状,我们唯有面向翻译对象本身,才可能获得有效的信息,我认为有一种可能的途径解决语用问题:,机器翻译的瓶颈,对语句结构进行明确的分类,形成一系列“句型公式”,直到每一类中都可以只通过变换相同类型的单词就可以实现句意的转化,通过分类,将每个句子的翻译都递归变化到单词的翻译。并同时对词语进行分类,先按照词义进行种类分类,得到每个词语的具体分类库,这个过程类似于自然界对生物的分类,界-门-纲-目-科-属-种,再根据词汇可充当的句子成分,(依赖于句型公式的需要)进

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论