人工智能-27. 基于语料库的机器翻译技术_第1页
人工智能-27. 基于语料库的机器翻译技术_第2页
人工智能-27. 基于语料库的机器翻译技术_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

27:基于语料库的机器翻译技术教师姓名授课名称人工智能及机器学习基础知识授课形式授课班级授课地点授课日期章节名称基于语料库的机器翻译方法教学目的掌握基于语料库的机器翻译方法。了解基于语料库机器翻译的主要技术。重点难点重点:基于语料库的机器翻译方法。难点:机器翻译的主要方法。主要内容一、课程引入自然语言处理(NLP)通常是指用计算机对人类自然语言进行的有意义的分析与操作。本节我们主要介绍机器翻译。课程内容20世纪80年代中后期,基于语料库的机器翻译技术得到越来越多的关注。这种方法,试图避开知识库建设的困难,同时回避对源语言进行深层语言分析。翻译知识主要来自双语平行语料库(翻译语料库)。基于实例的翻译方法:通过模仿实例库中已有的翻译,使用类比的策略进行翻译。基于统计的翻译方法:通过建立和训练统计翻译模型,并基于统计模型进行翻译。基于实例的翻译方法1984年,由日本著名机器翻译专家长尾真提出。由于建立在转换基础上的机器翻译系统,在差异较大的语种间进行互译时,效果不好;人在翻译时不做深层次语言学分析;人在学外语的时候,首先要作大量的对照记忆,在遇到新的句子时,会和记忆中的句子类比。主要思想:主要知识库是双语对照的实例库当需要翻译一个新句子时,通过检索的办法在实例库中寻找和该句类似的翻译实例。新句子的翻译可通过模拟最类似实例的译文的方式获得。基于统计的研究方法Statistic-BasedMachineTranslation,SBMT。1950年代初曾有提及,但是遭到以Chomsky为代表的语言学家们的反对。1990年代初期,IBM的PeterF.Brown等人提了基于信源信道思想的统计机器翻译模型,并在实验中获得了初步的成功,引起了研究者广泛的关注和争议。同时,以下一些情况也促进了统计机器翻译模型的发展:统计机器学习技术在语音识别领域获得了成功;目前计算机性能已能胜任大规模的科学计算任务;目前互联网上也有大量双语电子文本。统计翻译模型源语言句子S,目标语言句子T,则源语言翻译成目标语言的概率为:P(T|S)。于是翻译问题变成了求解P(T|S)的最大值。根据贝叶斯定理:源语言句子S是已知的,P(S)是一个常数。公式中,P(T)称为语言T的语言模型,P(S|T)称为语言S到语言T的翻译模型。argmaxp(T|S)=argmaxp(T)×p(S|T)T实际上就是使分子最大统计机器翻译的基本问题建立合理的可计算的语言模型并估计参数,主要是n元语法模型(n-gram);建立合理的可计算的翻译模型并估计参数;设计可靠有效的算法搜索最好的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论