一个基于格语法和转换策略的日汉机器翻译系统.doc_第1页
一个基于格语法和转换策略的日汉机器翻译系统.doc_第2页
一个基于格语法和转换策略的日汉机器翻译系统.doc_第3页
一个基于格语法和转换策略的日汉机器翻译系统.doc_第4页
一个基于格语法和转换策略的日汉机器翻译系统.doc_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

一个基于格语法和转换策略的日汉机器翻译系统摘 要本文介绍一个基于规则和转换翻译策略的日汉机器翻译系统的设计和实现。该系统的日语分析采用了基于短语结构文法和格语法的句法、语义分析技术。在句法分析中识别出动词短语时,利用动词格框架进行格短语的格角色识别。分析规则采用了复杂特征集和合一运算,并按层次进行设计。日语分析结果为带格角色标记的日语分析树。基于得到的日语分析树,系统采用了转换/生成一体化的汉语生成策略,按深度优先遍历分析树转换/生成汉语。另外,该翻译系统在基于规则的主框架之上,还辅助以翻译记忆的方法。本文的系统参加了863组织的三次机器翻译评测,其中,在2005年的评测中,自动评测的结果(NIST)为:6.3052(对话)和6.7836(篇章)。关键词:机器翻译,日语,汉语,转换,规则,格语法中图分类号:TP391.2A Japanese-to-Chinese Machine Translation System Based on Case Grammar and Transformation StrategyAbstractThis paper describes the design and implementation of a Japanese-to-Chinese machine translation system. In the system, rule-based transformation is adopted as the main translation strategy. In the Japanese syntactic and semantic analysis, phrase structure grammar and case grammar are used. As soon as verb phrases are recognized during Japanese analysis, the determinations of semantic role of each case phrase are carried out based on verb case frames. Analysis rules consist of features sets and unification operations, and are arranged in several levels. The analysis results are syntactic trees with semantic roles attached to each case phrase. By traversing the analysis trees on depth-first, transformation and generation are performed as a single procedure to produce corresponding Chinese translations. Translation memory techniques are also adopted in this system. The system took part three times in the MT evaluations organized by national 863 high-tech projects. The evaluation results (NIST) in 2005 are 6.3052(dialog) and 6.7836(essay).Keywords: Machine Translation, Japanese, Chinese, Transformation, Rules, Case Grammar一、 概述从基本策略上,机器翻译可分为:直译、转换翻译和中间语言三种体系结构。直译适合于语言结构比较相近的语言之间的翻译;转换则适合于语言结构有一定差距的语言之间的翻译;而中间语言则适合于统一框架下的多语翻译。从实现方式上,机器翻译可以分为基于规则的和基于语料库(基于统计和基于实例)的两种途径。规则方法具有语言学理论基础好、精确以及效率高等优点,缺点是知识获取困难、适应性(鲁棒性)差以及知识难以扩充(规则的一致性难以保证)。基于语料库方法的优点是知识获取相对容易、适应性好和易扩充(一致性容易保证),缺点是缺乏对语言学知识的深入利用、过于机械和简单、理论基础差以及效率低1,3,4,5。鉴于上述的考虑以及我们的研究历史,再加上缺乏大规模的日汉双语语料库,因此,本文的日汉翻译系统核心采用了基于规则的转换翻译框架。在日语分析方面,我们采用了基于短语结构文法2,6,8和格语法7的句法/语义一体化的日语分析技术,分析结果为带格角色标记的日语句法树。基于这样的分析结果,我们采用了转换生成一体化的策略实施汉语的生成。本文首先介绍该日汉翻译系统的总体框架;然后介绍系统中的日语分词方法、日语分析策略以及汉语的转换生成;最后对系统的评测结果进行分析并给出系统存在的问题。二、 系统的总体架构本文的日汉机器翻译系统采用了基于规则的转换翻译和翻译记忆两种翻译策略(如图2.1所示)。翻译记忆根据翻译过的双语句对库,进行精确匹配得出翻译结果;转换翻译则是根据“分析转换生成”策略进行翻译。在转换翻译策略之前,首先在记忆库中查找,如果检索成功,则直接得到翻译结果;否则,由转换翻译进行分析、转换翻译。翻译记忆转换翻译日语汉语汉语图2.1 翻译系统的基本策略转换翻译模块构成了整个系统的核心,它由三个基本子模块构成:日语分词、日语句法/语义分析和汉语转换/生成(如图2.2所示)。日语分词模块对输入的日语句子进行自动分词,结果为带词性及语义信息的词/固定短语串;日语句法/语义分析模块基于分词结果对日语句子进行句法/语义分析,分析结果为带格角色标记的日语句法树;汉语转换/生成模块基于分析结果实现汉语的转换生成。 日语句子词性邻接表分词词典动词格框架词典通用格框架分词规则日语句法/语义分析句法规则日语分词转换/生成规则生成词典转换/生成汉语 汉语句子图2.2 转换翻译的基本构成下面将详细介绍系统转换翻译中各模块的实现技术。三、 系统的实现技术3.1 日语分词本文的日语分词采用的是基于日语“句节”和分词词典的正向匹配方法,匹配的基本策略是:(1) 分词规则优先(2) 频度高的词优先(3) 附属词优先(4) 长度优先消歧策略是根据词性邻接表来进行。词性邻接表描述了各种词性的词在日语句子中的邻接可能性。分词词典中包含各个词的假名、汉字、活用变化、词性、频度、词性邻接表的索引以及语义分类等信息。词典中的“词”可以是一般意义下的词,也可以是难以分析的短语和句子片断。分词结果为带语法和语义信息的“词”串。语法信息主要包括词性及活用型;语义信息主要是词的语义分类。目前,分词词典的规模是:(1) 基本词典:6万余词(2) 领域词典(电子、经贸、体育等):9万6千余词(3) 人名词典(日本):3万5千余词(4) 地名词典(日本北京):7万余词3.2 日语句法/语义分析本文的日语分析是基于日语“句节”的短语结构文法和格语法来进行的,在进行日语句法分析的同时实施语义分析,分析结果为带格角色标记的日语句法树。句法分析采用了自底向上的无回溯规约技术。分析规则由条件和动作两部分构成。条件中的每一项是一个复杂特征集,用于与待规约的词/句法单位串进行匹配。动作给出了规约和合一操作。由于规则的条件中可以包含向前察看的操作,因此,从文法的角度看,我们的规则属于上下文有关文法。为提高分析系统的鲁棒性,对规则没有覆盖或不规范的句子,规约过程中自动掠过无法规约的成分。因此,我们的分析结果可能是“森林”。句法分析规则基于的句法单位包含:(1) np:名词短语(2) pp:格短语(由一个np和若干助词构成)(3) vp:动词短语(由一个或多个用言加若干助动词构成)(4) cvp:复合动词短语(由一系列pp和一个vp构成)(5) s:句子(由若干个cvp构成)为了便于设计和管理,分析规则系统按层次进行组织,其中的np识别规则分层如下:(1) 名词、代词、数词(数量、时间、年份等)、名词名词,等(2) 形容词np,等(3) npnp,等(4) npnp,等(5) cvpnp,等当识别出句法单位vp时,进行时、体态和格角色分析,同时也进行cvp识别。时、体态分析是根据vp中的助动词或动词的活用型来进行。格角色分析是根据vp中动词的格框架来实现,如果没有相应动词的格框架,则按照通用格框架来确定相应pp的格角色。句法单位cvp的识别是根据动词格框架中格的属性(自由格、必需格以及禁止格)来实现。目前,句法规则的规模是1000余条;动词格框架1800余条;通用格框架60余条。3.3 汉语转换与生成对句法/语义分析得到的带格角色标记的分析树,系统采用“转换/生成”一体化的方案实施汉语生成。“转换/生成”算法按深度优先遍历分析树实现汉语生成。在此过程中,首先根据生成词典获得叶子(词)结点的初始译词,然后逐步往上生成父结点的译文,直到句子结点s为止,最后的译文(汉语)就是句子结点s的译文。在遍历树结点时,将会去查看相应结点的生成规则来决定译词选择、添加以及次序调整等操作。译词选择操作主要出现在叶子结点;译词添加操作主要出现在pp和vp结点;次序调整主要在np、cvp等结点。所有生成规则采用了统一的框架,即由条件和动作两部分构成。条件项由复杂特征集构成,用于与分析树结点进行匹配;动作项可以是译词选择、添加以及次序调整等操作。目前,生成词典的规模与分词词典相当,转换/生成规则大约有800余条。3.4 实现语言和平台本文的日汉翻译引擎用C+语言实现,开发工具为Visual C+ 6.0/eMbedded Visual C+ 4.0。引擎以Windows DLL形式提供,运行的软件平台为Windows 98/2000/XP/CE,硬件平台为桌面电脑(Desktop PC)和掌上电脑(Pocket PC)。由于该翻译引擎的代码基本没有用到平台相关的成分,可以说是与平台无关的,因此,可以很容易移植到其它的非Windows平台,如:UNIX/LINUX等。目前,翻译引擎在桌面电脑上的可执行代码大小为:450KB;在掌上电脑上的可执行代码大小为100KB。翻译引擎所需数据文件的大小为:14.3MB,其中,核心数据(翻译规则+基本词典+动词格框架词典)为:3.48MB。翻译速度为:4000日文字符/秒(cpu为PM1.8G)。四、 实验结果分析本文的日汉机器翻译系统参加了863组织的3轮机器翻译评测,评测结果如表4.1所示。从评测结果看,2005年的结果比2003年相对有了明显的提高。其中,2004年我们加强了分析算法对复杂句和不规范句的适应性,因此,篇章的结果比2003年相对有了提高;2005年我们加强了对细粒度的语言现象的描述,扩充了领域相关的词汇量,因此,对话的结果比2004年相对有了提高。2003年的系统调试基于的是领域无关的语料,面向的是基本句型和基本词汇;2004年增加了领域相关的语料,特别是对2003年的测试语料进行了调试;2005年进一步加强了调试力度,并且把2004年的测试语料考虑进来。表4.1 20032005本文日汉机器翻译系统的评测结果2003年2004年2005年对话篇章对话篇章对话篇章人工(可理解率)48.6%38.5%47.35%48.75%58.44%/56.88%43.84%/37.00%自动(NIST)5.68836.34205.52026.77816.30526.7836五、 结束语本文描述了一个基于转换策略的日汉翻译系统,该系统的日语分析采用了基于短语结构文法和格语法的句法、语义分析技术。基于得到的日语分析树,系统采用了转换/生成一体化的策略进行汉语生成。另外,系统在基于规则的主框架之上,还辅助以翻译记忆的方法。目前,该系统的主要问题在于格角色的识别不是太准,造成翻译的精度不高。这主要是由于该系统在词汇语义分类信息的准确性及动词格框架的完整性方面还存在不足。另外,系统的词汇量、细粒度的规则以及记忆库的规模方面也存在不足。这些都有待于在今后的工作中进行进一步研究和改善。参考文献1 赵铁军. 机器翻译原理M. 哈尔滨: 哈尔滨工业大学出版社,2000.2 姚天顺, 朱靖波, 张琍等. 自然语言理解一种让机器懂得人类语言的研究M. 北京: 清华大学出版社, 2002.3 Arturo Trujillo, Translation Engines: Techniques for Machine TranslationM, Springer-Verlag London Limited 19994 B. J. Dorr, P. W. Jordan and J. W. Benoit, A Survey of Current Paradigms in Machine TranslationEB, Technique Report:CS-TR-3961, 1998.5 Christopher D. Manning, Hinrich Schtze. Foundations of Statistical Natural Language ProcessingM. The MIT Press, Cambridge, Massachusetts, London, England, 2002.6 Daniel Jurafsky & James H. Martin, Speech and L

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论