(计算机软件与理论专业论文)基于造句法的英汉机器翻译关键技术研究.pdf_第1页
(计算机软件与理论专业论文)基于造句法的英汉机器翻译关键技术研究.pdf_第2页
(计算机软件与理论专业论文)基于造句法的英汉机器翻译关键技术研究.pdf_第3页
(计算机软件与理论专业论文)基于造句法的英汉机器翻译关键技术研究.pdf_第4页
(计算机软件与理论专业论文)基于造句法的英汉机器翻译关键技术研究.pdf_第5页
已阅读5页,还剩69页未读 继续免费阅读

(计算机软件与理论专业论文)基于造句法的英汉机器翻译关键技术研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中文摘要 中文摘要 大规模语料库的出现和计算机处理能力的提高,使得数据驱动的方法在某 些自然语言处理的子领域里,如中文分词,词性标注,语言建模等取得了巨大 的成功。但在语言建模,机器翻译等领域,随着数据规模的急剧增大,纯粹基 于统计的语言学知识贫乏路线已经逐渐走向极限,效果提升不再显著。如何将 语言的先验知识和内在规则,在不损害统计方法的优势前提下,在统一的数学 框架规范下有效融入到模型中来,以达到改善的效果,成为人们越来越关注的 一个研究课题。 本文的研究目标是机器翻译中的忠实、通顺。其语言理论来源是由曹青老 师提出的英语造句法,该理论从思维和语言的对应关系入手,揭示英语语句的 生成过程。受该理论中的层次语言单位结构的启发,我们重新定义了一组语言 单位,结合已有的统计理论和方法,建立了话、充当者和词的切分与标注模型, 设计和实现了标注工具与标注规范,并将其应用于大规模的语料库上。在这些 自动获取的数据上,我们利用语言单位的内在生成过程,结合机器学习的方法, 对英语建立了基于话、充当者和词的层次语言模型,并与传统的基于词的n 元 语法模型做对比,检验其对语句合法性的区分能力。根据语言单位的排序规则, 我们设计实现了框式排序模型和缀根缀式排序模型,该模型从对齐文本中自动 获得训练数据,并利用最大似然估计和回退模型进行训练。在机器翻译中,我 们将该模型应用于输入文本,进行预排序,使之与目标语言语序接近,然后用 主流的基于词组的统计机器翻译系统进行训练和解码。 合理的语言单位划分能够更准确地描述语言的生成过程与经验分布,细化 的排序模型则有助于机器译文的通顺流畅,我们在本文的给出的对比实验结果 也说明了这一点。 关键字 英语造句法语言单位标注语言建模机器翻译排序 a b s t r a c t a b s t r a c t t h i sp a p e ru t i l i z e san e w s e q u e n c eo fl a n g u a g eu n i t sp r o p o s e df r o mal i n g u i s t i c p e r s p e c t i v e t oa p p l yi tt on a t u r a ll a n g u a g ep r o c e s s i n gt a s k s a tf i r s tw em a k eas u r v e y o nt h el a n g u a g eu n i ta n dr e o r d e r i n gm e c h a n i s mi nc u r r e n tt r a n s l a t i o ns y s t e m s t h e t r a d i t i o n a ll a n g u a g eu n i t ,i e w o r d s ,p h r a s e s ,e x p r e s s i o n s ,c a nn o tg r a s pt h ec o m p l e x l i n g u i s t i cp h e n o m e n o n , w h i c hi n e v i t a b l y l e a d st os e v e r ea m b i g u i t yr e s o l u t i o n p r o b l e m sa n dd i s f l u e n c yi nm a c h i n et r a n s l a t i o n b yc o m p a r i n gt h er e l a t i o n s h i p sb e t w e e nt h i n k i n ga n dl a n g u a g ef o r m s ,w e d e c o m p o s et h el a n g u a g ei n t oh i e r a r c h i c a ll e v e l so nw h i c hw ed e f i n es e v e r a ln o v e l c o n c e p t sa n dt h e i rc o r r e s p o n d i n gr e o r d e r i n gr u l e s t h e nw eu s ed e e pp a r s i n gm e t h o d t oe x t r a c te a c hl e v e lo fl a n g u a g eu n i t sa n dt h e i rr e o r d e r i n gr u l e si nt a r g e tl a n g u a g e l e a r n e da u t o m a t i c a l l yf r o mb i - t e x tw o r da l i g n m e n tf i l e w ed e s i g nah i e r a r c h i c a l g e n e r a t i o nl a n g u a g em o d e la n dc o m p a r ei tw i t ht r a d i t i o n a ln - g r a mm o d e l ,w h i c hh a s as t r o n ga b i l i t yt od i s c e r n g r a m m a t i c a l s e n t e n c e s b yp r e p r o c e s s i n gt h ei n p u t l a n g u a g ea c c o r d i n gt or e o r d e r i n gm o d e l ,w ee s t a b l i s ha ne n g l i s h c h i n e s ep r o t o t y p e t r a n s l a t i o ns y s t e mw i t hp a r a l l e lt e x ta c q u k e df r o me l e c t r i c a ld i c t i o n a r i e s t h er e s u l t s h o w st h a to r rr e o r d e r i n gm o d e li se f f e c t i v et oi m p r o v et h ef l u e n c yo ft a r g e tl a n g u a g e a sw e l la so t h e re v a l u a t i o nm e t r i c s t h i sm o d e lm a ya l s op r o v i d eah e l p f u lr e f e r e n c e f o ro t h e ra p p l i c a t i o n si nn a t u r a ll a n g u a g ep r o c e s s i n gf i e l d w i t hap u r p o s ef o re x p l o i t a t i o no nd e e p e rs t r u c t u r ea n dr i c h e ri n f o r m a t i o nf r o m e n g l i s hs e n t e n c e s ,w ep r o p o s eat a g g i n gs c h e m et os t o r el a n g u a g eu n i t se x t r a c t e d f r o mc o r p u s a tl a s tw ec o n c l u d eo u rr e s e a r c ha n dg i v es o m ef u t u r ed i r e c t i o n s k e y w o r d m e t h o d o l o g yo fe n g l i s hg e n e r a t i o n ,t a g g i n g ,l a n g u a g em o d e l i n g ,m a c h i n e t r a n s l a t i o n ,r e o r d e r i n g i i 图目录 图目录 图1 1 语言单位层次图。6 图1 2 英语句子生成流程示意图7 图2 1 语言单位切分与识别流程1 5 图2 2c h u n k 结果示意图。1 9 图2 3 训练数据格式2 0 图2 4 特征与标记示意图2 2 图2 5 话的切分示意图2 3 图2 6 深层句法剖析结果。2 4 图2 7 充当者识别后的结果2 5 图2 8 提取m o o d 之前的句法树。2 6 图2 9 提取m o o d 之后的句法树2 6 图2 1 0 基于造句法系统的机器翻译系统模型。3 2 图2 1 l 基于单词的三元语法模型概率分解示意图3 4 图2 1 2 语句的可能性与合法性。3 4 图2 1 3 基于词性的概率分解示意图。3 5 图目录 图2 1 4 基于c h u n k 块、词性的概率分解示意图3 6 图2 1 5 基于英语造句法语言单位的概率分解。3 7 图2 16n o u n 框式排序图3 7 图2 17d e g r e e 的排序3 8 图2 18a p r e b 重排序第一种规则。3 9 图2 1 9a p r e b 重排序第二种规则3 9 图2 2 0a p r e b 重排序第三种规则。4 0 图2 2 1a p r e b 重排序右结合示意图4 1 图3 1 词对齐关系示意图4 5 图4 1 文本资源获取5 2 表目录 表目录 表1 1 机器翻译方法对比3 表1 2 语言单位序列表4 表1 3 词术语对照表。5 表2 1 缩略式示意表。1 6 表2 2 紧缩式还原表1 7 表2 3 词性标注器列表1 8 表2 4b i o 格式。1 9 表2 5c h u n k 标记符1 9 表2 6 训练特征模板2 1 表2 7 宾州树库定义的从句类型2 3 表2 8 话的五种标准结构2 3 表2 9 命名实体实例表。2 7 表2 1 0 命名实体识别的训练数据格式2 8 表2 1 1 词的识别规则表3 0 表2 1 2n o u n 的框式序重排序规则3 8 v i i 表目录 表2 13d m 框式排序重排规则3 8 表2 14a p r e b 的重排序规则3 9 表4 1 英汉平行文本5 3 表4 2 单语文本。5 3 表4 3 浅层句法分析的识别结果5 4 表4 4c o n l l 共享任务系统评测5 4 表4 5 基于单词与基于词性的困惑度对比。5 5 表4 6 基准系统词对齐的困惑度5 6 表4 7 词合并后词对齐困惑度。5 6 表4 8 训练集与测试集规模5 7 表4 9 系统翻译结果对比5 7 表4 1 0 基准系统的累积n g r a m 分值。5 7 表4 1 1 基于重排序系统的累积n g r a m 分值5 7 表4 1 2 重排序+ 词合并系统的累积n g r a m 分值5 8 南开大学学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师指导下,进行 研究工作所取得的成果。除文中已经注明引用的内容外,本学位论文 的研究成果不包含任何他人创作的、已公开发表或者没有公开发表的 作品的内容。对本论文所涉及的研究工作做出贡献的其他个人和集 体,均已在文中以明确方式标明。本学位论文原创性声明的法律责任 由本人承担。 学位论文作者签名:雩艮叶鸩 1 年多胄3 日 南开大学学位论文版权使用授权书 本人完全了解南开大学关于收集、保存、使用学位论文的规定, 同意如下各项内容:按照学校要求提交学位论文的印刷本和电子版 本;学校有权保存学位论文的印刷本和电子版,并采用影印、缩印、 扫描、数字化或其它手段保存论文;学校有权提供目录检索以及提供 本学位论文全文或者部分的阅览服务;学校有权按有关规定向国家有 关部门或者机构送交论文的复印件和电子版;在不以赢利为目的的前 提下,学校可以适当复制论文的部分或全部内容用于学术活动。 学位论文作者签名:阪呻j 妈 砷年多月乡日 经指导教师同意,本学位论文属于保密,在年解密后适用 本授权书。 指导教师签名:学位论文作者签名: 解密时间:年月 日 各密级的最长保密年限及书写格式规定如下: 第一章概述 第一章概述 第一节研究背景 1 1 1 自然语言与机器翻译简介 1 1 1 1 自然语言及其处理 自然语言是人类行为的一个基本方面,也是我们生活的一个重要组成部分。 书面语言的形式记录了人类长期积累下来的知识,而口语则是日常生活中与其 他人沟通协调的方法。全球化加强了人类之间的交流,而信息化则使得人们所 能获取的信息量呈爆炸式增长。如何方便快捷地处理这些信息,方便人们之间 的沟通便成了一个急需解决的问题。 自然语言处理( n a t u r a ll a n g u a g ep r o c e s s i n g ,简称n l p ) 就是对人类特有的 书面形式和口头形式的自然语言的信息进行各种类型处理和加工的技术。随着 电子计算机的出现和处理能力的提高,以计算机为工具,以计算为手段对自然 语言进行分析处理而兴起了- - f - j 新的学科,称为“计算语言学 ( c o m p u t a t i o n a l l i n g u i s t i c s ) 。它涉及到语言学、计算机科学、数学等许多领域,是- - f - j 多边缘, 复合型的交叉学科。 自然语言处理有着极为广泛的应用,从处理对象上来说,主要可以分为两 大类:基于文本的应用和基于对话的应用。基于文本的具体的应用涉及对书面 文本的处理,如网页、书籍、报纸、报告、手册、电子邮件等。一些常见应用 领域包括信息检索、文本分类、机器翻译、自动摘要、故事理解等等。基于对 话的应用涉及到人机之间的通信。典型的应用包括语音识别、问答系统、自动 服务系统、教学系统等。在当今互联网高度发达的时代,自然语言处理水平的 高低直接关系着人们获取、处理和反馈信息的效率。 1 1 1 2 机器翻译简介 机器翻译,即用计算机系统自动实现不同自然语言之间的翻译。这一概念 的提出,可以追溯到上个世纪计算机诞生之时。英国工程师布斯( a d b o o t h ) 和美国洛克菲勒基金会副总裁韦弗( w w e a v e r ) 在讨论电子计算机的应用范围 第1 页 第一章概述 时,就提出了利用计算机进行语言自动翻译的想法。1 9 4 9 年,韦弗发表了一份 以翻译为题的备忘录,正式提出了机器翻译问题。 全文高质量的自动机器翻译是一个世界公认的难题,它甚至可以代表人工 智能领域发展的水平。在过去的半个多世纪里,机器翻译界几经沉浮,但总体 来说,取得了许多成果和长足进步。从最初的基于双语词典和模式的简单匹配, 到中间的形式化文法分析与转换,再到后来的统计方法和技术的广泛应用,这 不仅提高了机器翻译的水平,同时也极大地推动了自然语言处理领域里其他相 关课题的研究。尤其是在最后的这二十年来,互联网开始普及,大规模语料库 变为可用,计算机的处理能力更是一日千里,从而使得基于计算的语言处理发 展繁荣起来,具有实用化的辅助机器翻译系统开始逐渐发挥作用,越来越多的 国家、公司、大学和其它研究机构也纷纷关注和进入该领域。 从流派上看,机器翻译可主要分为理性主义学派和经验主义学派。前者在 方法上认为语言是内省的,即语言内在本身具有客观的规则,通过这些规则, 搭配一定数量的词汇,语言可以通过推导生成。而经验主义学派则主张从语言 现象入手,以实际的语言材料中获取的属性和信息( 文本、对话等) 来作为语言处 理的指导和根据。具体方法上来看,机器翻译可以分为先验规则驱动型,经验 数据驱动型。前者依靠语言学和翻译学领域的专家建立翻译所需的词汇和规则, 再由程序设计人员转换为机器可用的方式,类似于专家系统。后者则通过建立 适当的数学模型,让计算机以自动的方式在经验数据中去学习模型所包含的各 项参数。也有一部分研究人员致力于将两者结合起来,称为混合模型,但本质 上与前两者类似。 目前来看,数据驱动的统计机器翻译已经成为当前学术领域的方法范型, 牢牢占据了研究的主流。原因有两方面,其一,在翻译过程,机器需要做出许 多的选择,如结构分析,词义选取,词序排列等,这些选择数量繁多,依赖关 系复杂,需要有一个定量的标准来指导计算机做出决策,而基于统计的机器翻 译则提供了一个规范的数学框架来对每个步骤建模。另一方面,大规模的可用 训练数据( 此处为平行双语文本) 和计算机处理能力的提升使得统计机器翻译模 型可以在合理的时间内训练得到空间巨大的参数集合,如翻译概率,排序概率, 语言概率等,在计算上使数据驱动的方法变为了可能。 最后,机器翻译不仅是一个学术研究的热门课题,同时也是一项具有巨大 的市场潜力和应用需求的产业。欧洲委员会翻译总司司长卡尔约翰略逻思在 第2 页 第一苹概述 2 0 0 8 年第十八届世界翻译大会1 上发言时指出:5 0 年前,欧盟前身一欧洲委员会 的服务部门只有4 种语言,员工仅仅只有2 4 名;现在不论是在人员数量,还是 在翻译页数上面都增长了1 0 0 倍,目前页数大概2 0 0 万页,而且每年增长5 , 其所有欧洲语言服务的总费用高达1 1 亿欧元。随着全球化进程的加快,不同国 家的语言和文化的多样性,将导致翻译需求长久持续下去。 1 1 1 3 机器翻译面临的问题与发展方向 尽管机器翻译在研究上取得了显著的进步,并涌现出了一批商品化的机器 翻译系统。但从最终结果来看,其与人工翻译水平仍存在相当的差距,这种差 距在语言本身差异大的语对( 如亚洲语系与欧洲语系的语对) 来说体现的更为明 显,用户预期落差较大,全文高质量自动翻译的目标仍任重道远。 人工翻译的目标是“信、达、雅 ,机器翻译的目标是“忠实、通顺。其 中词义的选取关系到“忠实,而语序的排列则切乎“通顺,后者在语序差异 大的语对翻译中尤其重要。 通过在下表中机器翻译中的两大流派的各自优势和不足的对比,我们看到, 目前机器翻译的发展方向是在数学框架规范下,在不损害统计模型已有的优势 的前提下,融入更多的有帮助的先验知识,这些知识可以包括语言单位的定义, 语序的规则制定等。 表1 1 机器翻译方法对比 先验知识驱动型经验数据驱动型 规则符合人类理解语言的习惯,直观性 语言弱相关,部署快,机器自动学习, 人工工作量小,细化能力强,客观,定 强,具有一定的概括能力。 量。 语言相关,人工工作量大,专家知识的方差与偏差问题的权衡:即描述能力强 构建代价昂贵,规则制定繁琐,主观性的模型需要大量的参数,导致数据稀疏 强,各种语言规则和其他语言学知识缺问题,计算代价高昂,甚至不可解;而 乏个定量的框架以指导机器翻译,细 可解的模型内在描述能力弱,无法对问 化能力弱。题有效建模。 第3 页 第一章概述 1 1 2 英语造句法的理论简介 英语造句法是在中国人学英语人数多和学英语难度大的背景下,最初以帮 助母语为汉语的中国人较为容易地学会英语为目的,作为一种外语教学理论由 天津工业大学曹青老师提出来的,后更名为英语造句法,详参考( 曹青,2 0 0 8 ) 。 经过长期的教学实践探索和反复的理论重构之后逐渐稳定,形成了一套完整的 解释英语内在规律和生成过程的理论体系。在2 0 0 4 年与南开大学机器智能所合 作,开始应用于英汉机器翻译原型系统的搭建之中。 英语造句法认为,思维以语言为存在形式,思维的最小语言单位是句。思 维的基本要素是概念。概念是反映对象本质属性的思维形式。对象的本质属性 是唯一的,因此,概念是单一的。以句为单位的思维过程是先用若干相关单一 概念形成复合概念、再用复合概念进行述说判断推理的过程。语言经由人脑输 出,成为人类交际的工具。根据思维与语言的对应关系,造句法中定义了与思 维过程一一对应的单一概念语言单位,复合概念语言单位和述说判断推理语言 单位,来解释语言的内在生成过程。 从使用属性上,英语造句法将语言单位化分为材料单位,思维工具单位和 交际单位,并对每一类中分别定义了细化的、结构化的语言单位序列,其从小 到大依次排列为: 表1 2 语言单位序列表 音素语音中不可再分解的最小语音单元。 音节音节是表达单一概念、由音素构成的材料单位。 字 字是表达单一概念、由若干音节按照约定俗成的排序规 材料单位 则造出的材料单位。 词是表达单一概念、由若干字按照约定俗成的排序规则 词 造出的材料单位。 充当者由音节和词构成的表达复合概念的材料单位。 思维工具 话由充当者排序组成的具有思维属性的语言单位。 单位 脑内句 若干个标准话、话变形按排序规则造成的具有思维属性 句的语言单位。 交际单位脑外句脑内句经隐含输出的外在显现形式,是交际的工具。 第4 页 第一章概述 字,作为最底层的语言单位,也是自然语言中最大的天然切分单位。天然 切分指切分边界在语句中固有,如汉语中的汉字,英语中的字母,单词等,均 无需手工或借助其他工具进行切割。按照该定义,汉语中每一个汉字为一个字, 英语中每个单词为一个字。因而我们机器翻译中的输入和输出是不同语言的字 组成的序列。 字的约定俗成组成了词,词是表达特定的单一概念字序列。根据词包含的 字的个数,可以分为单字词和多字词。 单词这一概念常和词的概念混为一谈。 由于英语中存在着相当数量的单字词, 我们这里明确的加以区分,单词是字而 不是词。英语中多字词在传统语法中的对应物是短语和表达法,比如l o o kf o r , l o o kf o r w a r dt o ,b ei na p o s i t i o nt o 都属于多字词的范畴。词是机器翻译系统中最 小翻译单元。 尽管英语造句法不同于英语语法,前者是关于语言生成过程的理论,后者 是关于语言现象的理论,但两者之间在词的术语上存在着对应关系: 表1 3 词术语对照表 概念作用英语造句法术语英语语法术语 构成充当者nn 前缀词冠词 a r t i c l e 名称根名词名词 n o u n 动作根动词动词 v e r b 性质形容词 a d j e c t i v e 根级词 状态副词 a d v e r b 代替名称 通用充当者 代词p r o n o u n 数数词 n u m e r a l 描述相对关系根介词 介词p r e p o s i t i o n 描述逻辑关系根联词连词 c o n j u n c t i o n 感叹叹词叹词 i n t e r j e c t i o n 成分充当者( 以下简称充当者) ,作为一个新术语,顾名思义,即在句中担 当话中成分,行使特定功能,表达某种相对逻辑关系的语言单位。充当者是能 够表达复合概念的语言单位。充当者或以约定俗成的方式形成,或按照语言特 定的规则造出。 第5 页 第一章概述 充当者,根据是否包含了话,分为话型充当者和非话型充当者;根据是否 需要造出,可以分为通用充当者和专用充当者。通用充当者对应于英语语法中 的代词和数词( 见表1 3 ) ,专用非话型充当者包括四种: n o u n :根词表达名称单一概念的缀根缀结构。 d e g r e e :根词表达性质、状态、特征等单一概念的缀根缀结构。 m o o d :将动作单一概念和与之相关的其他概念复合成谓语的语言单位。 a p r e b :表达时间、空间或方面间的某种相对关系的缀根缀结构。 我们将在2 1 4 节给出充当者的识别规则,在2 3 2 节中介绍充当者的框式 排序和a p r e b 排序规则。 话是由至少一个类型为m o o d 的充当者构成的能够表达思维概念的语言单 位。造话用的材料包括通用充当者和专用充当者。同时话可以通过变形与其他 词造出话型充当者。在2 1 3 节给出了话的五种标准结构和相应的识别规则。 句是由若干话和话的变形以及逻辑联结词组成的,用于述说判断推理的语 言单位。句包括脑内句和脑外句,其构成材料包括话,话的变形、叹词和根联 词。句的标准结构和排序规则详见2 3 2 节。旬是我们翻译系统中的最大翻译单 元。 图1 1 语言单位层次图 图1 1 给出了语言单位的层次示意图,它表明了以句为单位的思维过程就 是先用若干相关单一概念形成复合概念、再用复合概念进行述说判断推理的过 第6 页 第一章概述 程。下图给出了一个实际的英语句子的生成过程示例: 图1 2 英语句子生成流程示意图 第二节相关研究工作 本小节主要介绍目前机器翻译领域中的范型统计机器翻译的建模的数 学原理,训练方法以及评测方法。 1 2 1 统计机器翻译原理 统计机器翻译将自然语言翻译的过程作为一个机器学习模型来对待。给定 若干对人工翻译语句的训练集合,统计机器翻译的学习算法可以自动学习如何 翻译。一个最近的关于统计机器翻译的综述性介绍是( l o p e z ,2 0 0 8 ) 口j 。 对于一个给定的英语字符串e ,它可以不同的方式翻译为中文字符串f o 我 们可以把e 看做是信源f 在一个噪声信道传输后的结果,或是明文被加密后的密 文;而翻译的过程则是一个反向解密恢复原文的过程。为了对翻译的过程建模, 我们需要建立一个概率函数p r ( f l e ) 来描述将译入语字符串e 翻译为译出语字符 串f 的翻译概率。机器翻译的目标,即是寻找一个f ,使得p r ( f e ) 的概率最大。 ( b r o w n ,1 9 9 0 ) 3 】首次用贝叶斯定理分解了该模型并指出模型参数可以从大规模 第7 页 第一章概述 的平行文本中获得,其公式如下: p r f i l e ) = 卑掣 ( 1 1 ) 这里的分母p r ( e ) 独立于f 所以只需找到使分子最大的f 即可: f = a r g n a x r p r f i ) p r ( e l 力 ( 1 2 ) 上面公式又称为统计机器翻译的基本式,它描述了一个机器翻译中的三个 组成部分:对p r ( f ) 建模并估计参数,对p r ( e l f ) 建模并估计参数,以及设计有效的 搜索算法寻找使上述乘积最大( 或较大) 的e 。这三部分分别称为语言模型,翻 译模型和解码器。后来的基于短语的统计机器翻译系统和其它变种也一般会包 含这三部分。 语言模型和翻译模型为翻译中的每一个可能的翻译假设指派分值,而解码 则是在众多的候选假设中选取分值尽可能大的那一个( 或多个) ,以该假设产生的 翻译结果作为最终翻译结果。 1 2 1 1 语言模型 语言模型是一个函数,其定义域为一个语言片段2 ,输出为一个实数值( 通常 介于0 到1 之间) ,这个分值实际应用中代表了不同的意义。比如在语音识别中, 该分值指示了该语言片段在口语中出现的可能性;在光学字符识别中,该分值 说明了语言片段在印刷体文本中出现的可能性;在机器翻译中,该分值代表了 语言片段作为译文出现的流畅性或通顺度;在拼写检查中,该分值则可以反映 语言片段是否合乎文法或表达习惯。 一般来讲,一个较好的语言模型能够指示语言的经验分布。自上世纪8 0 年 代以来,语音识别中基于统计方法的语言建模获取了巨大成功,并迅速应用于 其他语言技术和工程中,如机器翻译,文本分类,信息检索,拼写检查以及手 写印刷字符识别等。( r o s e n f e l d ,2 0 0 0 ) 4 1 对上个世纪语言模型的发展过程作了概 括性的论述。 不失一般性,我们假定语言模型的输入是一个句子,则几乎所有的语言模 型都会将该句子的概率分解为一些条件概率的乘积: 2 通常语言片段不一定是一个合法的或有语言学意义的语言单位,而只是一个字符串。一个更为泛化的定 义对语言模型的输入串不做任何假设,这也使得语言建模在生物信息学等非语言学领域取得了广泛应用。 第8 页 第一章概述 l r ( s ) = p r ( w 1 w 2 w n ) = lip r ( w ,慨) 扣1 ( 1 3 ) w i 为句子s 中的第i 个词,z ,2t w l w z w n j 称为历史。 目前在语言模型使用最为广泛的模型是n 元语法,它将语言作为一个r 1 1 阶 的马尔科夫模型,当前词出现的概率只依赖于前n 1 个单词: p r ( w ii h f ) = p r ( w i1 w h + 1 “w n 1 ) ( 1 4 ) 由于语言词汇量数目较大,即使当1 1 较小时,数据稀疏已比较严重,需要 足够的训练数据以及合理的平滑方法。( c h e r t ,1 9 9 8 ) e 5 】对主流的平滑算法做了简 要论述并给出了经验性的效果对比。( s t o l c k e ,2 0 0 2 ) e 6 】介绍了目前最流行的语言建 模工具s r i l m 的实现和使用方式。 将词汇进行聚类是另一种缓解数据稀疏的方法,它可以有效地减少参数空 间。记w i 的类别为l i ,则一个三元的语言模型可以有如下几种建模形式: p r ( w 3l w i w 2 ) = p r ( w 3i c 3 ) p r ( c 3i w l w 2 ) p r ( w 3i w l w 2 ) = p r ( w 3i c 3 ) p r ( c 31 w l c 2 ) p r ( w 3j w l w 2 ) = p r ( w ai c a ) p “gc 1 c 2 ) ( 1 5 ) ( 1 6 ) ( 1 7 ) 对词语聚类,( b r o w n ,1 9 9 2 ) e 7 】用信息论的熵减作为训练目标,以自动的方法 对词语进行聚类。( o c h ,1 9 9 9 ) t 8 】用最大似然估计的方法来得到双语的词汇聚类, 并应用于机器翻译。 由于n g r a m 方法的局限为历史长度n 一1 的窗口,为了获取更大的上下文空 间,许多n g r a m 变种模型被提出来,主要有: 缓存模型( k u h n ,1 9 9 0 ) 9 】:对于最近出现的词赋予一个较高的概率,能够有 效刻画短距离内重复出现的词。该模型通常与一个标准n g r a m 模型进行插值。 跳跃模型:在历史中按照一定的概率选取部分单词,从而能够捕捉更长的 历史上下文。每个单词的选取概率通过期望最大化算法进行选取。 n g r a m 模型缺乏对语言的深层信息,如语法结构的挖掘,下面给出了几种 从语言学角度出发的基于文法的生成模型: 上下文无关文法生成模型:句子概率对应于一组产生式生成终结字符串的 概率,模型为每一个产生式指派相应的权重,这个概率通常在已标注的树库上 训练得到。 第9 页 第一章概述 链式文法模型:单词之间通过链接相连,( l a f f e r t y , 1 9 9 2 ) 1 0 1 给出了一个概率 形式的基于链式文法的语言模型。类似的还有依存文法模型。除此之外,还有 一些其他的模型,可以对语言中的各种有用信息以特征的形式融入,如: 最大熵模型:将语言的信息以特征函数的形式做对数线性插值。这些特征 可以包含句子的人称与数的一致,远距离依存,甚至是句子的长度。 p r i h ) 2 赤e x p ; 埘,w ) ( 1 8 ) 其中z ( 办) 为归一化因子,2 i 为参数,f ( h ,w ) 可以是关于历史上下文和当前 单词的任意特征函数。 全句最大熵模型:该模型直接对句子中的任意特征进行对数线性插值,并 在模型的应用中免除了归一化的计算。 p r ( s ) = i 1 咒( s ) e x p ) - 1 丑,( s ) 】 ( 1 9 ) o j 其中r ( s ) 可以使其他模型,如三元语法模型。 一个最近的工作是( k i r c h o f f , 2 0 0 7 ) d u 提出的多因子语言模型将n 元组的元 素由一个单词扩展为一个向量,该向量可以包含词根和各种形态学信息,并详 细讨论了各种可能的回退方式。 1 2 1 2 翻译模型 语言模型为目标语言片段指派分值来衡量译文的“流畅性”,而翻译模型则 为双语翻译片段指派分值来指示翻译的“忠实性。( b r o w n ,1 9 9 3 ) 1 2 1 用机器学习 的方法从平行文本中建立翻译模型并给出了参数估计的方法,提出了 i b m l i b m 5 五个依次改进的模型,用于自动获取平行文本之间的词对应关系和 词的翻译概率与对齐概率,后来的基于词组的统计机器翻译多是在该族模型上 进行改进。( v o g e l ,1 9 9 6 ) 1 3 1 用一阶隐马尔可夫模型来实现词对齐,多被用来作为 i b m 2 的替代。( o c h ,2 0 0 3 ) 1 4 1 对d i c e 系数模型、i b m l 5 和h m m 模型以及相关 的平滑技术做了系统的比较,并提出了一个基于i b m 4 和h m m 的对数线性插值 模型。 ( k o h e n ,2 0 0 3 ) 1 5 ( o c h ,19 9 9 ) 1 6 ( m a r c u ,2 0 0 2 ) 1 7 ( o c h ,2 0 0 4 ) t 1 8 1 等人在词对齐 的基础上,提出了基于短语短语模板的翻译模型,将翻译的语言单位从单词扩 第1 0 页 第一章概述 展到连续的单词串,由于考虑了更大的上下文,基于短语的系统极大的提升了 统计机器翻译的性能。其翻译过程主要分为三步: 1 将源语言句子切分为短语。 2 将短语按照模型的概率翻译为目标语言短语。 3 将目标语的短语按照排序模型的概率和语言模型进行排列,生成最终的 目标语言句子。 与( b r o w n ,1 9 9 0 ) t 3 1 最初提出的贝叶斯模型相比,基于短语的统计机器翻译系 统融入了新的排序模型以及词汇模型,为了衡量不同的子模型所占的权重, ( o c h ,2 0 0 2 ) t 1 9 1 提出了用对数线性的方式建立判别模型,即直接对翻译模型建模: p r ( 厂i d= 鼽扩i 力 一e x p 醛1 厶死纠 ( 1 1 0 ) e x p 匠厶扩,纠 此处目标是找到是使上式翻译概率最大的f ,分母作为归一化常量可以忽略, 故: j = a r g m a x i p r 纩l e ) = a r 舯吁吼m 嘞 1 1 1 ) 对数线性模型的优势在于通过定义特征函数,可以融合任意的信息源。特 征函数可以依赖于源语言串,目标语言串以及隐含的变量。训练时,它在保证 模型的特征函数期望与实际训练样本的特征函数期望相一致的前提下,选取具 有最大熵的概率分布作为模型。这样可以保证除了满足特征函数所要求约束之 外,模型的偏见性最小。 d a v i dc h i a n g e 2 0 】【2 1 1 用形式化的上下文无关的同步文法对平行文本自动提取 具有层次结构的短语对。这种层次化的短语对包含了单词和子短语。比如,对 于下面的平行句对: 澳洲是与北韩有邦交的少数国家之一 a u s t r a l i ai sw i t hn o r t h k o r e ah a v e d i p l r e l s t h a t f e wc o u n t r i e so n eo f 一个层次平行短语对可以反映汉语和英语之间介词短语与动词短语的排放 顺序的差异,如: 第1 1 页 第一章概述 在解码时,使用一个c y k 剖析器来寻找能够派生出目标语言的概率最大的 文法集合。( y a m a d a ,2 0 0 1 ) t 2 2 f f f l ( q u i r k ,2 0 0 5 ) t 2 3 1 等更多地利用语言结构信息,通 过对源语言进行句法分析,然后对句法树的结点通过一系列的旋转和变换操作 来生成目标语言串( 又称为树到串模型) 。类似地一些工作还包括树到树模型, 串到树模型等,缺点是剖析的准确度直接影响了翻译的质量。我们的工作与基 于语法树模型对译入语预排序再训练和解码的方法有一定的相似性,区别在于 基于的语言理论不同。 1 2 1 3 解码器 解码器的工作就是搜索,即在众多候选的翻译假设选取一组子集,使其在 某一翻译模型下该假设的概率最高。一个好的解码算法对于统计机器翻译是至 关重要的。为了找到使指定翻译模型的输出概率为最高的目标语句,解码器的 要在极大的空间内进行搜索。在允许翻译单位自由排序的前提下,( k n i g h t , 1 9 9 9 ) 2 4 】证明搜索问题是一个n p 完全问题。为了使搜索能在合理的时间内计算 完成,解码器通常需要做出许多假设和约束,从而在一个较小的子空间中进行 搜索。 为了权衡计算量和翻译的质量,人们提出了许多方法,包括近似算法,施 加排序约束,定向束剪枝,状态合并,动态规划等。( w u1 9 9 6 ) 2 5 】用b t g ( b r a c k e t i n gt r a n s d u c t i o ng r f l l q r n a r ) 对排序加以约束,从而使搜索可以在多项式 时间内计算完成。( w a n g ,1 9 9 7 ) 1 2 6 使用基于单栈解码算法( 又称为a 木算法) 对 i b m 2 模型进行搜索。( n i e s s e n ,1 9 9 8 ) 口7 j 使用了动态规划的方法。 ( g e r m a n n ,2 0 0 1 ) 2 8 对多栈解码算法,贪心解码算法和整数规划解码算法之间速度 与质量做了对比。( g e r m a n n ,2 0 0 3 ) 2 9 将贪心解码算法降低到准线性的时间复杂 度。( k o h e n ,2 0 0 4 ) 3 0 】所介绍的p h a r a o h 解码器使用了定向束搜索和假设合并来降 低搜索的空间,目前主流的解码器m o s e s ( k o h e ne t c ,2 0 0 7 ) 3 1 】也使用了与 p h a r a o h 类似的解码算法。 第1 2 页 第一章概述 1 2 2 机器翻译的评测 机器翻译的评测技术对机器翻译的研究和发展具有重要的意义,通过评测, 可以定量地评价各种机器翻译方法和翻译系统性能的优劣,并且为机器翻译方 法的改进上提供指导。作为机器翻译研究领域的一个重要课题,机器翻译的评 测方式主要包括人工评测和自动评测两种。 人工评测包括译文用词准确性、忠实性、是否合乎语法语义、译全率、流 利度等等。它具有评测比较精准的优点。( 俞士汶,1 9 9 0 ) e 3 2 】提出了一种基于测试 点的机器翻译自动评测方法,采用一种类似标准化考试的办法,对机器翻译的 各个主要指标设计一定数量的试题进行测试,以达到对机器翻译性能的总体评 价。人工评测的缺点是人力成本和时间成本较高,且不易于自动、重复进行。 目前机器翻译的自动评测标准主要有错词率( w o r de r r o rr a t e ) 、位置无关的 错词率( p o s i t i o ni n d e p e n d e me r r o rr a t e ) 、i b m 的b l e u ( b i l i n g u a le v a l u a t i o n u n d e r s t u d y ) 标准【3 3 】和n i s t 提出的n i s t 标准【3 4 1 。b l e u 方法的着眼点在于:当 机器翻译的结果越接近于专业翻译人员的结果时,则分数越高,效果越好。它 通过计算候选译句的n g r a m 的精确率,即与参考译句匹配的( 位置无关) n g r a m 的个数占候选译句总n g r a m 数的比例,然后对不同的n 做几何加权平均,并引 入简短惩罚因子,避免为简短的译句打过高的分。实验说明b l e u 的评测效果 和人工评测效果比较一致。 n i s t 评测技术是b l e u 评测技术的一个改进,采用信息收益率而不是 n g r a m 精确率,每个n 元词被赋予权重,一个n 元词在参考译文中出现的次数 越多,则这个n 元词包含了更多的信息量,权重更高。同时n i s t 采用算术平均 而不是几何平均,一元词的共现结果对评分结果影响更大,使得评价更能反映 忠实度。n i s t 还改进了长度惩罚因子,减少了译文句子长度对评分结果的影响。 我们的机器翻译系统采用了n i s t 和b l e u 两种评测方法。 第三节

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论