班智达汉藏公文翻译系统中基于二分法的句法分析方法研....pdf_第1页
班智达汉藏公文翻译系统中基于二分法的句法分析方法研....pdf_第2页
班智达汉藏公文翻译系统中基于二分法的句法分析方法研....pdf_第3页
班智达汉藏公文翻译系统中基于二分法的句法分析方法研....pdf_第4页
免费预览已结束,剩余1页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

班智达汉藏公文翻译系统中基于二分法的句法分析方法研究 才藏太 李延福 青海师范大学藏文智能信息处理中心 中国 青海 西宁 810008 caizangt 摘摘 要要 机器翻译系统是一种典型的自然语言处理系统 语言技术是机器翻译系统中居于核心地位的技术 实用化的机器翻译系统一般是采用自然限制的受限语言的翻译 且以基于规则的方法为主流方法 本文结 合 863 项目 班智达汉藏公文机器翻译系统 的研制实践 论述了词项信息同语法规则相结合的原则 提 出了以动词为中心的句法分析二分法 从而在受限语言的范围内 为建立有较大适应性的机器翻译规则系 统 有效地提高机器翻译语法分析的效率提供了有益的方法 关键词关键词 机器翻译 二分法 语句结构 句法分析 1 引 引 言言 随着计算机技术的不断普及 如何将大量的汉语和外语的科技信息 教材 参考读物 科普读物等及 时地翻译成藏语 进而为广大藏区科技 教育 文化事业服务已成为制约广大藏区社会经济发展的关键问 题 在汉藏科技翻译人员极端缺乏的今日 班智达汉藏机器翻译系统的研制和推广应用必将有助于促进这 一问题的尽快解决 在机器翻译系统中 语言技术是居于核心地位的技术 因而讨论机器翻译系统的句法 分析问题便是一个重要的问题 机器翻译的方法有多种 但基于规则和词典的方法仍然是到目前为止的一直采用的主流方法 我们研 制的 863 项目班智达汉藏公文机器翻译系统是采用基于规则的翻译系统 机器翻译进行的是两个语言无限 集之间的转换 在现有的科学水平之下 计算机科学还不能从理论上证明 用一个有限的机器翻译规则系 统来进行原语和译语的无限集之间的转换的可能性 因此实践上比较可行的办法是采用自然限制的受限语 言 我们研制的班智达汉藏公文机器翻译系统就是一种受限语言的机器翻译系统 2 系统结构 系统结构 班智达汉藏机器翻译系统由科技系统 公文系统和电子词典三部分组成 采用 C 语言在 Windows 环 境下实现 考虑到实际应用中用户的需要 系统设有译前和译后编辑功能 系统所带的汉藏英三语对照的 电子词典达到 18 6 万条 科技系统的翻译规则达到 1500 余条 公文系统的翻译规则达到 1300 余条 科技系统对约 30 万词条 5 万多个句子的实际语料的实验测试表明 译文的可读性总体达到 80 以 上 翻译速度为 1050 字 分 DELL PII300 微机 公文系统对约 1800 多个句子的实验测试表明 译文的 可读性总体达到 78 翻译速度为 1100 字 分 同上 下面对班智达汉藏公文机器翻译系统的系统结构作 一介绍 2 1 模块划分 2 1 模块划分 班智达汉藏公文机器翻译系统总体上可分为词典知识库维护 规则知识库维护 自动分词 汉藏翻译 系统设置等五部分组成 见图 1 图中各模块的主要功能如下 词典维护模块 负责管理用于汉语词切分 汉藏双语的词典 主要功能有词典的排序 词条的添加 删除 修改 同 时具备动态查询汉藏词汇的功能 规则维护模块 负责管理规则知识库 主要功能有规则库的排序 规则的添加 删除 修改 同时按规则号或驱动词 具备动态查询规则的功能 为便于管理和减少规则冲突 提高规则的有效性 将所有规则分为短语规则 句型规则两大类实行分级管理及维护 分词标注模块 采用最大匹配算法并辅之于切分规则 对汉语文本进行自动分词 对分词结果进行词性标注时根据实 际语料分为三类进行标注 一是对词典中存在的二字或二字以上词按词典提供的词性标注 二是对各类汉 语标点符号 非汉语字符串 数字串 标为数词类 以及 ASCII 串分类进行标注 三是对判定为未登录词 的汉字串进行标注 一般标为名词 汉藏翻译模块 规则消歧包括语法规则消歧和语义规则消歧两部分 语法规则消歧又分为个性规则和通用规则两级 统计消歧是系统的辅助消歧手段 是根据不同的词在不同学科领域内使用的概率不等 同形异词在不同学 科领域内所指的意义的概率也不等这一特点 采用 高频先见 的原则以提高系统的相对正确性 短语合 并的过程是将句子中的词按一定顺序合并构成短语 每个短语的句法功能和语义信息都和它的中心词相 同 系统采用 孤立中心动词 的短语合并法 句型匹配规则也分个性规则和共性规则 执行顺序是先个 性后共性 系统采用边分析边转换边生成的策略 最后对译文统一扫描一遍 生成藏译文 系统设置模块 系统设置模块向用户提供系统参数 词典 规则目录 的修改和设置功能 图 1 班智达汉藏公文机器翻译系统结构 2 2 工作流程 2 2 工作流程 系统工作流程如图 2 所示 图中各部分的主要功能如下 词典库 词典采用数据库文件格式 在信息表示上采用了框架多值表示法 词条数据结构的一般形式如下 词典数据结构 汉语原词 控制信息 语法语义信息 藏语译文 其中 汉语原词包括汉语常用词 成语 习用语和科技常用短语 控制信息用来控制词处理的流程 主要 在处理词的搭配关系 动态词组的插入等操作时起制导作用 语法语义信息主要包括汉语词类信息 子类 信息 语义信息 藏语词类 语义及格助词添接信息等 这些信息在规则合并过程中将会动态地发生变化 特别是动词时态信息只有在规则中动态地体现 藏语译文为汉语原词对应的藏译词 规则库 规则的数据结构如下 规则 其中 头部包括关键驱动词 规则左部和右部 主要供汉语分析使用 动态信息域纪录合并前后的词 词组或短语的语法 语义及时态信息 转换域供汉藏结构转换使用 生成域主要供格助词添接使用 类别 域用于区分不同属性的规则类别 维护域仅供在维护规则时使用 图 2 班智达汉藏公文机器翻译系统工作流程 原文的输入可采用文本文件 键盘输入以及扫描输入 建立切分文本 并完成词性标注 利用规则库的消歧规则排除兼类歧义 若无消歧规则则默认第一词性 依次调用短语四级规则完成短语合并 逐次扫描句型规则完成句型匹配 对复句利用标点符号进行合成 逐句扫描译文 添接藏文格助词 输出汉藏对照译文 3 句法分析 3 句法分析 正如在引言中所谈到的 在机器翻译系统中 语言技术是居于核心地位的技术 下面就班智达汉藏 公文机器翻译系统的句法分析的一些问题作一讨论 3 1 词项信息同语法规则相结合 3 1 词项信息同语法规则相结合 随着技术的发展 词典在自然语言处理系统中的地位越来越重要 电子词典已成为自然语言处理实用 系统开发的基础 词典作为语法的一个重要的有机组成部分 在实用系统中 词典中每个词项所附加的信 息需要同语法规则相结合 以实现由词项驱动规则 这是因为机器翻译的核心技术之一就是在两种不同语 言的内部结构之间实现转换 要实现两种语言的内部结构的转换 就得了解两种语言的语句结构的特点 将现代汉语同现代藏语的语句结构进行比较 从大的方面说 差别主要有三条 1 语序不同 汉语的语序通常是 SVO S 是主语 V 是谓语 O 是宾语 藏语的语序是 SOV 例如 汉语句子 汉语结构 藏语句子 藏语结构 a 我 是 教师 S V O S O V b 我 看了 书 S V O S 格助词 O 格助词 V c 学生 在 教室 里 S V O S O 格助词 V 语序不同的另一个表现是 形容词 数词 代词作定语时 汉语中它们都在中心词的前面 而藏语 中它们一般在中心词的后面 如 汉语句子 汉语结构 藏语句子 藏语结构 d 新 兵 形容词 中心词 中心词 形容词 e 三 国 数词 中心词 中心词 数词 f 那个人 代词 中心词 中心词 代词 语序不同还表现在介词与名词的关系上 如 我 用 钢笔 写 字 S 介 名 V O S 格助词 名 介 O V 2 形态变化不同 汉语缺少形态变化 而藏语有形态变化 动词的时态形式就是一个突出表现 藏 语动词有时态形式 如 吃 有 现在式 过去式 和 未来式 三种时态形式 而汉语动词没有时态形式 如 吃 汉语中只有一种形式 时态是用特定词汇表示的 若表示过去式加 了 表示未来式加 将 3 表达方式不同 汉语句子主要靠词序来表达 而藏语句子主要借助格助词来表达 藏语句子中格助 词的添接直接关乎句子所表达意思的正确与否 这里就将汉语动词和藏语动词进一步比较一下 汉语的动词有及物和不及物之分 藏语动词同样有及物和不及物之分 但又有明显区别 在汉语中及 物动词与主语 宾语的关系一般地只有一种形式 即 SVO 但在藏语中 及物动词同主语 宾语的关系有 多种形式 需要加不同的格助词 还有 汉语的及物动词没有自动和他动之区分 在藏语中及物动词有自 动和他动之分 自动词的动作是可以由主观决定的 他动词的动作是不能由主观决定的 自动及物动词 和他动及物动词同主语 宾语的搭配关系有不同的结构 这样一来 词典中动词所附加的信息就要反映出 藏语动词的这个特点 才能做到同语法规则的结合 现举例说明之 若以 t 和 i 分别表示及物和不及物 以 z t 和 l 分别表示及物动词的藏语自动 藏语他动和藏语领属 关系 以 x l 和 k 表示藏语及物动词的三种动词与主语 宾词的搭配关系 以 X 表示施动格用字 以 L 表示示宾词 在藏语中 宾语表示谓语动作的对象 宾语还可以表示动作的地点 动作的结果和动作的工 具 L 还表示做 领有 的主语的格助词 则可将动词的词性标注的词项信息同藏语语法结构的信息联系 起来 如下面的示例 动词 词项信息 汉语句子 汉语结构 藏语句子 藏语结构 a 来到 vvttl 我们 来到 北京 S V O S O L V b 保持 vvttx 我们 保持 联系 S V O S X O V c 研究 vvttk 我们 研究 问题 S V O S X O L V d 有 vvtl 我 有 书 S V O S L O V e 来自 vvtz 我 来自 青海 S V O S O L V f 得出结论 vvitl 我 得出结论 S V S L O g 讲课 vvitx 老师 讲课 S V S X V 上述例子表明 词项信息同语法规则相结合 就能在受限语言的范围内 建立有较大适应性的机器翻 译规则系统 3 2 以动词为中心的句法分析二分法 3 2 以动词为中心的句法分析二分法 任何一个机器翻译系统都是要经过长期的调试和不断优化后才可能建成 这是因为词典中每增加一个 常用词 就有可能增加新的规则 或者要修改原有的规则 而新规则的增加又往往导致整个系统中的规则 重新组合和调整 因此 在机器翻译系统的研制中 尽量减少调整的工作量或缩短调整的时间 则是一个 重要的问题 这里 结合班智达汉藏公文机器翻译系统的研制介绍一种句子分析生成的方法 应用它可有 效地减少规则数量 从而减少规则重组和调整的工作量 现有的机器翻译系统一般都是以句子为单位进行翻译的 语法分析算法也是得到句子作为分析的结果 的 由于汉语和藏语 都有主语 谓语和宾语 因而也会很自然地采用三分法 即把句子按主 谓 宾三 部分进行合成和转换 我们在班智达汉藏公文翻译系统的研制中 采用了句法分析二分法 同样达到三分 法的效果 但语法规则数量却大大减少了 这里分以下两点加以说明 1 句法分析二分法的基本作法 我们从前面 词项信息同语法规则相结合 的讨论中可看到 汉语句子的基本结构是 SVO 且基本上 都是这一种语序结构 但藏语则不同 基本结构虽是 SOV 但具体结构却有多种形式 如 SOLV SXOV SXOLV SOV SLOV 等 分别生成谓宾和主谓两种短语结构 便于藏语主 谓 宾的具体搭配 这对汉 语也是可以的 即主谓宾的合成可由谓宾短语和主谓短语来合成 在合成时又要注意两点 一是从动词是 句子结构的轴心和关键的认识出发 将动宾短语的集成词性定为动词 主谓短语的集成词性也定为动词 二是动宾短语的生成优先于主谓短语的生成 这样一来 一个句子的主谓宾合成便可由主谓短语体现出来 这是因为一个完整的句子 只要包含主 谓语就行 如 我是学生 这个句子 汉语的结构是 SVO 即 SVO S VO 而 V O V SV 就包含了 SVO 三个成分 对藏语来说 其句子结构是 SOV 即 SOV S OV 而 O V V 同样 SV 就包含了 SOV 三个成分 又如 我有书 这个句子 对汉语来说 是 SVO 结构 可由动宾短语 V 有 O 书 V 有 和主谓短语 S 我 V 有 表述出来 对藏语来说 是 SLOV 结构 同样可由动宾短语 O V V 和主谓短语 SLV 表达出来 SLOV S L V S L O V 2 采用句法分析二分法的优越性 我们在前面说过 新规则的增加往往会导致整个系统中的规则重新组合和调整 因此减少新规则的增 加数量很有利于机译系统的调整 而采用以动词为中心的句法分析二分法又非常有利于整体减少规则数 量 如下例所显示的那样 仅从 我学习物理学 这一句来说 三分法用一条语法规则 而二分法则要用 两条语法规则 但从与此句相关的十句来看 二分法所需规则数大大减少 学习 一词的词项信息为 vvttk 因此主谓宾的藏语关系采用 S X O L V 的结构 汉语句子 汉语结构 藏语句子 藏语结构 a 我学习物理学 S V O S X O L V b 我学习 S V S X V c 学习物理学 V O O L V d 要学习物理学 U V O O L V U e 一定要学习物理学 D U V O D O L V U f 我要学习物理学 S U V O S X O L V U g 我一定要学习物理学 S D U V O S X D O L V U h 要 学习 U V V U i 我 要 学习 S U V S X V U j 我 一定 要 学习 S D U V S X D V U 上述 10 个汉语句子 一般需要 10 条语法规则 采用句法分析二分法后 仅用 V O U V D V 和 S V 等四条规则

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论