一个基于格语法和转换策略的日汉机器翻译系统.pdf_第1页
一个基于格语法和转换策略的日汉机器翻译系统.pdf_第2页
一个基于格语法和转换策略的日汉机器翻译系统.pdf_第3页
一个基于格语法和转换策略的日汉机器翻译系统.pdf_第4页
一个基于格语法和转换策略的日汉机器翻译系统.pdf_第5页
已阅读5页,还剩1页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

一个基于格语法和转换策略的日汉机器翻译系统一个基于格语法和转换策略的日汉机器翻译系统1 陈家骏 戴新宇 尹存燕 王启祥 南京大学计算机软件新技术国家重点实验室 南京大学计算机科学与技术系 南京 210093 E mail chenjj 摘摘 要要 本文介绍一个基于规则和转换翻译策略的日汉机器翻译系统的设计和实现 该系统的日 语分析采用了基于短语结构文法和格语法的句法 语义分析技术 在句法分析中识别出动词 短语时 利用动词格框架进行格短语的格角色识别 分析规则采用了复杂特征集和合一运算 并按层次进行设计 日语分析结果为带格角色标记的日语分析树 基于得到的日语分析树 系统采用了转换 生成一体化的汉语生成策略 按深度优先遍历分析树转换 生成汉语 另外 该翻译系统在基于规则的主框架之上 还辅助以翻译记忆的方法 本文的系统参加了 863 组织的三次机器翻译评测 其中 在 2005 年的评测中 自动评测的结果 NIST 为 6 3052 对话 和 6 7836 篇章 关键词关键词 机器翻译 日语 汉语 转换 规则 格语法 中图分类号中图分类号 TP391 2 A Japanese to Chinese Machine Translation System Based on Case Grammar and Transformation Strategy Chen Jia Jun Dai Xin Yu Yin Cun Yan Wang Qi Xiang State Key Laboratory for Novel Software Technology Department of Computer Science Technology Nanjing University Nanjing 210093 E mail chenjj Abstract This paper describes the design and implementation of a Japanese to Chinese machine translation system In the system rule based transformation is adopted as the main translation strategy In the Japanese syntactic and semantic analysis phrase structure grammar and case grammar are used As soon as verb phrases are recognized during Japanese analysis the determinations of semantic role of each case phrase are carried out based on verb case frames Analysis rules consist of features sets and unification operations and are arranged in several levels The analysis results are syntactic trees with semantic roles attached to each case phrase By traversing the analysis trees on depth first transformation and generation are performed as a 1 本文的工作得到 863 项目 编号 2004AA117010 5 资金的资助 陈家骏 1963 年生 男 博士 教授 自然语言处理 软件工程 戴新宇 1979 年生 男 博士 自然语言处理 尹存燕 1976 年生 女 硕士 讲师 在职博士生 自然语言处理 王启祥 1937 年生 男 教授 机器翻译 single procedure to produce corresponding Chinese translations Translation memory techniques are also adopted in this system The system took part three times in the MT evaluations organized by national 863 high tech projects The evaluation results NIST in 2005 are 6 3052 dialog and 6 7836 essay Keywords Machine Translation Japanese Chinese Transformation Rules Case Grammar 一 概述 从基本策略上 机器翻译可分为 直译 转换翻译和中间语言三种体系结构 直译适合 于语言结构比较相近的语言之间的翻译 转换则适合于语言结构有一定差距的语言之间的翻 译 而中间语言则适合于统一框架下的多语翻译 从实现方式上 机器翻译可以分为基于规 则的和基于语料库 基于统计和基于实例 的两种途径 规则方法具有语言学理论基础好 精确以及效率高等优点 缺点是知识获取困难 适应性 鲁棒性 差以及知识难以扩充 规 则的一致性难以保证 基于语料库方法的优点是知识获取相对容易 适应性好和易扩充 一 致性容易保证 缺点是缺乏对语言学知识的深入利用 过于机械和简单 理论基础差以及 效率低 1 3 4 5 鉴于上述的考虑以及我们的研究历史 再加上缺乏大规模的日汉双语语料库 因此 本 文的日汉翻译系统核心采用了基于规则的转换翻译框架 在日语分析方面 我们采用了基于 短语结构文法 2 6 8 和格语法 7 的句法 语义一体化的日语分析技术 分析结果为带格角色标记 的日语句法树 基于这样的分析结果 我们采用了转换 生成一体化的策略实施汉语的生成 本文首先介绍该日汉翻译系统的总体框架 然后介绍系统中的日语分词方法 日语分析 策略以及汉语的转换生成 最后对系统的评测结果进行分析并给出系统存在的问题 二 系统的总体架构 本文的日汉机器翻译系统采用了基于规则的转换翻译和翻译记忆两种翻译策略 如图 2 1 所示 翻译记忆根据翻译过的双语句对库 进行精确匹配得出翻译结果 转换翻译则是 根据 分析 转换 生成 策略进行翻译 在转换翻译策略之前 首先在记忆库中查找 如 果检索成功 则直接得到翻译结果 否则 由转换翻译进行分析 转换翻译 图 2 1 翻译系统的基本策略 转换翻译模块构成了整个系统的核心 它由三个基本子模块构成 日语分词 日语句法 语义分析和汉语转换 生成 如图 2 2 所示 日语分词模块对输入的日语句子进行自动分词 结果为带词性及语义信息的词 固定短语串 日语句法 语义分析模块基于分词结果对日语句 子进行句法 语义分析 分析结果为带格角色标记的日语句法树 汉语转换 生成模块基于分 析结果实现汉语的转换生成 翻译记忆转换翻译日语 汉语 汉语 日语句子 汉语句子 图 2 2 转换翻译的基本构成 下面将详细介绍系统转换翻译中各模块的实现技术 三 系统的实现技术 3 1 日语分词 本文的日语分词采用的是基于日语 句节 和分词词典的正向匹配方法 匹配的基本策 略是 1 分词规则优先 2 频度高的词优先 3 附属词优先 4 长度优先 消歧策略是根据词性邻接表来进行 词性邻接表描述了各种词性的词在日语句子中的邻 接可能性 分词词典中包含各个词的假名 汉字 活用变化 词性 频度 词性邻接表的索 引以及语义分类等信息 词典中的 词 可以是一般意义下的词 也可以是难以分析的短语 和句子片断 分词结果为带语法和语义信息的 词 串 语法信息主要包括词性及活用型 语义信息 主要是词的语义分类 目前 分词词典的规模是 1 基本词典 6 万余词 2 领域词典 电子 经贸 体育等 9 万 6 千余词 3 人名词典 日本 3 万 5 千余词 日语分词 日语句法 语义分析 词性邻接表 分词词典 句法规则 动词格框架词典 通用格框架 转换 生成规则 生成词典 分词规则 转换 生成 汉语 4 地名词典 日本 北京 7 万余词 3 2 日语句法 语义分析 本文的日语分析是基于日语 句节 的短语结构文法和格语法来进行的 在进行日语句 法分析的同时实施语义分析 分析结果为带格角色标记的日语句法树 句法分析采用了自底向上的无回溯规约技术 分析规则由条件和动作两部分构成 条件 中的每一项是一个复杂特征集 用于与待规约的词 句法单位串进行匹配 动作给出了规约 和合一操作 由于规则的条件中可以包含向前察看的操作 因此 从文法的角度看 我们的 规则属于上下文有关文法 为提高分析系统的鲁棒性 对规则没有覆盖或不规范的句子 规约过程中自动掠过无法 规约的成分 因此 我们的分析结果可能是 森林 句法分析规则基于的句法单位包含 1 np 名词短语 2 pp 格短语 由一个 np 和若干助词构成 3 vp 动词短语 由一个或多个用言加若干助动词构成 4 cvp 复合动词短语 由一系列 pp 和一个 vp 构成 5 s 句子 由若干个 cvp 构成 为了便于设计和管理 分析规则系统按层次进行组织 其中的 np 识别规则分层如下 1 名词 代词 数词 数量 时间 年份等 名词 名词 等 2 形容词 np 等 3 np np 等 4 np np 等 5 cvp np 等 当识别出句法单位 vp 时 进行时 体态和格角色分析 同时也进行 cvp 识别 时 体 态分析是根据 vp 中的助动词或动词的活用型来进行 格角色分析是根据 vp 中动词的格框架 来实现 如果没有相应动词的格框架 则按照通用格框架来确定相应 pp 的格角色 句法单 位 cvp 的识别是根据动词格框架中格的属性 自由格 必需格以及禁止格 来实现 目前 句法规则的规模是 1000 余条 动词格框架 1800 余条 通用格框架 60 余条 3 3 汉语转换与生成 对句法 语义分析得到的带格角色标记的分析树 系统采用 转换 生成 一体化的方案 实施汉语生成 转换 生成 算法按深度优先遍历分析树实现汉语生成 在此过程中 首先根据生成词 典获得叶子 词 结点的初始译词 然后逐步往上生成父结点的译文 直到句子结点 s 为止 最后的译文 汉语 就是句子结点 s 的译文 在遍历树结点时 将会去查看相应结点的生成规则来决定译词选择 添加以及次序调整 等操作 译词选择操作主要出现在叶子结点 译词添加操作主要出现在 pp 和 vp 结点 次序 调整主要在 np cvp 等结点 所有生成规则采用了统一的框架 即由条件和动作两部分构成 条件项由复杂特征集构 成 用于与分析树结点进行匹配 动作项可以是译词选择 添加以及次序调整等操作 目前 生成词典的规模与分词词典相当 转换 生成规则大约有 800 余条 3 4 实现语言和平台 本文的日汉翻译引擎用 C 语言实现 开发工具为 Visual C 6 0 eMbedded Visual C 4 0 引擎以 Windows DLL 形式提供 运行的软件平台为 Windows 98 2000 XP CE 硬件平 台为桌面电脑 Desktop PC 和掌上电脑 Pocket PC 由于该翻译引擎的代码基本没有用 到平台相关的成分 可以说是与平台无关的 因此 可以很容易移植到其它的非 Windows 平台 如 UNIX LINUX 等 目前 翻译引擎在桌面电脑上的可执行代码大小为 450KB 在掌上电脑上的可执行代 码大小为 100KB 翻译引擎所需数据文件的大小为 14 3MB 其中 核心数据 翻译规则 基本词典 动词格框架词典 为 3 48MB 翻译速度为 4000 日文字符 秒 cpu 为 PM1 8G 四 实验结果分析 本文的日汉机器翻译系统参加了 863 组织的 3 轮机器翻译评测 评测结果如表 4 1 所 示 从评测结果看 2005 年的结果比 2003 年相对有了明显的提高 其中 2004 年我们加强 了分析算法对复杂句和不规范句的适应性 因此 篇章的结果比 2003 年相对有了提高 2005 年我们加强了对细粒度的语言现象的描述 扩充了领域相关的词汇量 因此 对话的结果比 2004 年相对有了提高 2003 年的系统调试基于的是领域无关的语料 面向的是基本句型和基本词汇 2004 年增加了领域相关的语料 特别是对 2003 年的测试语料进行了调试 2005 年进一步加强了 调试力度 并且把 2004 年的测试语料考虑进来 表 4 1 2003 2005 本文日汉机器翻译系统的评测结果 2003 年 2004 年 2005 年 对话 篇章 对话 篇章 对话 篇章 人工 可理解率 48 6 38 5 47 35 48 75 58 44 56 88 43 84 37 00 自动 NIST 5 6883 6 34205 5202 6 7781 6 3052 6 7836 五 结束语 本文描述了一个基于转换策略的日汉翻译系统 该系统的日语分析采用了基于短语结 构文法和格语法的句法 语义分析技术 基于得到的日语分析树 系统采用了转换 生成一 体化的策略进行汉语生成 另外 系统在基于规则的主框架之上 还辅助以翻译记忆的方法 目前 该系统的主要问题在于格角色的识别不是太准 造成翻译的精度不高 这主要 是由于该系统在词汇语义分类信息的准确性及动词格框架的完整性方面还存在不足 另外 系统的词汇量 细粒度的规则以及记忆库的规模方面也存在不足 这些都有待于在今后的工 作中进行进一步研究和改善 参考文献 1 赵铁军 机器翻译原理 M 哈尔滨 哈尔滨工业大学出版社 2000 2 姚天顺 朱靖波 张琍等 自然语言理解 一种让机器懂得人类语言的研究 M 北 京 清华大学出版社 2002 3 Arturo Trujillo Translation Engines Techniques for Machine Trans

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论