机器翻译技术的探讨.pdf_第1页
机器翻译技术的探讨.pdf_第2页
机器翻译技术的探讨.pdf_第3页
机器翻译技术的探讨.pdf_第4页
机器翻译技术的探讨.pdf_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

机器翻译技术机器翻译技术的探讨的探讨 六院五队六院五队 徐允鹏徐允鹏 12060143 摘要摘要 随着国际交流的日益增多 在计算机 互联网等相关技术日新 月异的基础上 机器翻译的技术与应用得到了蓬勃发展 本文详细探 讨了基于规则的机器翻译方法 基于语料库的机器翻译方法和混合式 机器翻译方法 并讲述了机器翻译的评估方法 最后介绍了机器翻译 技术的最新进展 关键词 关键词 机器翻译 基于规则 语料库 评估方法 1 机器翻译概述机器翻译概述 随着国际化交流的普遍性 信息通信的日益膨胀 高效的处理不 同领域各种语言之间的互译已成为当代人们的普遍需求 翻译是解决 自然语言之间通信障碍最直接最有效的方法 传统的翻译工作都是通 过专业翻译人员完成 利用语言学知识进行自然语言之间的互译 帮 助人们实现信息通信 伴随着计算机技术的成熟与自然语言处理技术 的不断进步 利用机器翻译系统帮助人们快速获取外文信息代替人工 翻译已成为一种必然的趋势 机器翻译 machine translation 又称为自动翻译 是利用计算 机把一种自然源语言转变为另一种自然目标语言的过程 一般指自然 语言之间句子和全文的翻译 它是自然语言处理 Natural Language Processing 的一个分支 与计算语言学 Computational Linguistics 自然语言理解 Natural Language Understanding 之间存在着密不 可分的关系 1 机器翻译是 21 世纪要解决的科技难题之一 主要困难是自然语 言在各个层次上的歧义性 研究机器翻译具有重要的实践意义和理论 意义 国际间的合作与交流 语言的差异是一个非常重要的障碍 各 行各业的人们面对大量他们不熟悉的语言的文档资料 如果单纯的依 靠人工翻译 这些日益的待翻译材料将是一种非常沉重的负担 而机 器翻译可大幅度减轻这种负担 同时 机器翻译对于了解人类语言和 思维的基本机制 探讨人工智能技术有着重要的意义 2 机器翻译方法机器翻译方法 人们一直在寻求更好的解决机器翻译问题的方法 目前机器翻译 方法主要有基于规则的机器翻译 基于语料库的机器翻译和混合式机 器翻译方法 2 1 基于规则的机器翻译方法基于规则的机器翻译方法 2 1 1 基基于于分析和转换的机器翻译方法分析和转换的机器翻译方法 人作翻译时 把一个源语言句子译成目标语言句子 设计到四个 基本操作 目标语言单词的检索 调序 删词 增词 机器翻译系统 的过程包括检索 分析 转换和生成主要四个阶段 这被称为基于分 析和转换的机器翻译系统 也被认为是模拟人类翻译活动最恰当的机 制 2 该方法有三个阶段 为分析 转换 生成 一般情况下 分析以 句法为主 语义为辅 正确的句法结构转换加正确的词汇译文可以从 源语言向目标语言传递完整的正确信息 以句法结构转换附加一定的 语义信息 能够构成转换的基本层次 3 标准机器翻译系统中句子和 短语层次的结构转换是核心 产生式方式的转换规则形式为 S S1 S2 Si T1 T2 Tj T S 是源语言的某个待翻译单位 句子 短语等等 S1 Si 是 S 中的下一级组成单位对于 S 如果满足条件 则目标 语言中有 T1 Tj 译文构成了相应的等价物 T 上述方法称为基于句法的转换方法 因为 S1 S2 Si 一般来 说就是源语言的的句法结构表示 也可以称为直接转换方法 因为对 于每个源语言的翻译组块 都马上给出一个目标语言组块与之对应 应该说 这种转换方法符合人的直觉认识 也能够实现 3 2 1 2 基于中间语言的基于中间语言的机器机器翻译方法翻译方法 基于中间语言的翻译方法是对源语言进行分析以后产生一种称 为中间语言的表示形式 然后直接由这种中间语言的表示形式生成目 标语言 所谓中间语言就是自然语言的计算机表示形式的系统化 它 试图创造出一种独立于各种自然语言 同时又能表示各种自然语言的 人工语言 基于中间语言的机器翻译方法的优势是无需一种语言到另一种 语言的一一转换 对于多语种的翻译系统可以节约大量的转换知识的 手工获取工作量 假如有 N 种语对需要相互翻译 只要有 2N 个分析 和生成模块就够了 其中一半是源语言分析模块 输入为原文 输出 以 1L 表示 另一半是目标语言生成模块 输入为 1L 表示 输出为目 标语言译文 然而 中间语言的机器翻译方法也常遭到怀疑 因为是 否能够构造出表示各种不同的自然语言语法 语义的中间语言至少目 前还是未知数 此外 中间语言能不能把各种语言的所有特征保留下 来 又能很好生成对应的各种语言也是问题 所以 构造中间语言是 一个巨大 复杂的工程 还包含许多理论研究 迄今为止的探索还没 有好的答案 3 基于转换的方法采取了一系列转换生成层次 各种分析多 如词 法 句法 语义和语境等 而且在分析的过程中 会出现许多歧义 结构 显然 如果没有好的算法 效率就会低 此外 对于那些不符 合语法规则的句子 这种方法难于给出正确的翻译结果 2 2 基于语料库的机器翻译方法基于语料库的机器翻译方法 2 2 1 基于统计的机器翻译方法基于统计的机器翻译方法 基于统计的机器翻译方法 一般不要任何语言学知识 它的基本 原理是实现源语言词汇到目标语言词汇的映射 其思路受到语音识别 研究的启发 因而应用了类似的方法来实现 研究者用大规模的双语 语料库作为基础 对源语言和目标语言词汇的对应关系进行统计 根 据统计规律输出译文 这种方法没有使用语言知识 主要特征是概率 统计与随机过程的方法成为了分析和生成过程的唯一方法 它的主要 内容是双语句对的对齐 通过词汇同现的可能性来计算一种语言的一 个词映射到另一种语言的一个词 或两个 零个词 的概率 应该说 基于统计的机器翻译方法的出现改变了机器翻译研究的面貌 从而 开始了机器翻译研究的新阶段 统计方法最先在语音识别领域取得了成功 机器翻译的噪声通道 模型可以视作最早的机器翻译思想 其思路可以这样理解 目标语言句子 源语言句子 假设说话者已经用目标语想好了一句话 T 但是说出的却是源语 言句子 S 这样一个过程可以看成为编码过程 而统计的机器翻译就 是要从 S 回推 T 可以看成解码过程 这样 统计的机器翻译任务分 为两个部分 一是建模 即建立翻译的计算方法以及从双语语料库中 估计模型的参数 二是解码 即寻求一种高效搜索算法取有关概率计 算的最大值 基于统计的方法以大规模的双语语料库为基础 需要训练 一般 翻译速度比较慢 而且它还有被怀疑之处 这种方法会不会由于本 身的固有属性 不可能有很高的译文正确率 但基于统计的机器翻译 方法还是具有很多优势 如开发速度快 周期短 无需人工干预等 在特定领域训练数据充分的情况下翻译性能基本可以达到实用水平 2 2 2 基于实例的机器翻译方法基于实例的机器翻译方法 基于实例的机器翻译方法通过结构化的翻译例子直接把源语言 噪声信道 的短语和句子与目标语言的短语和句子对应起来 方法的不同使得处 理步骤或多或少 但都必须实现源语言到目标语言的转换 其映射关 系或者是词到词 或者是短语或句子到与之相应的等价物 或者是一 棵句法树到另一棵句法树 4 基于实例的机器翻译 EBMT 的实现过程简单概述如下 给定 源语言输入句子 S 在双语语料库 C 中匹配查找一个最相近的句子 S 则 S 的译文就被接受为 S 的译文 翻译的过程一般就是查找和复现相 似的例子 发现和记起特定的源语言表达或相似的表达在以前是如何 翻译的 把以前的翻译实例作为主要知识源 5 2 3 混合式机器翻译方法混合式机器翻译方法 基于混合式的机器翻译方法能够很好的利用两种方法的优点 目 前非常盛行 混合式机器翻译方法是将基于规则的翻译方法和基于统 计的翻译方法结合 在基于规则的技术中引入语料库方法 其中有基 于实例的方法 统计方法 通过对语料库的预处理使其转化为自然语 言知识库的方法 Rules post processed by statistics统计方法做后处理 翻译使用规则方法 Statistics guided by rules 使用规则方法做前后处 理 翻译使用统计方法 混合式机器翻译方法是效果最好的 但目前混合方法中各种模型 的耦合方式还比较松散 进行多翻译模型的深度融合可能是未来研究 的一个热点 3 机器翻译评测机器翻译评测 在机器翻译系统中 系统质量评测问题已经成为整个领域研究的 重要内容之一 它直接推动着机器翻译技术的研究 机器翻译评测起 源于 1964 年美国国家科学院成立的语言自动处理咨询委员会 ALPAC 当时的评测是通过人工的方式对译文的忠实度和流畅性进 行的评测 1992 年至 1994 年 美国国防部高级研究计划署 DARPA 专门组织了一批专家从译文的充分性 adequacy 流畅性 fluency 和信息量 comprehension 三个角度进行了大量评测 国内较早的 评测系统为北京大学计算语言学研究所的俞士汶教授与二十世纪九 十年代初研发的 MTE 系统 该系统使用分类评估法 常用的评测标准有 一种是主观评测 subjective evaluation 标 准 即由人工通过主观评测对系统的输出译文进行打分 另一处是客 观的自动评测 automatic evaluation 标准 即依据建立一定的数据 模型对系统的输出译文进行机器自动计算打分 对于主观评测方法 评测的准确率较高 但是评测人员将候选译文的含义与原文含义对比 得出评分 评分人员要全面考虑候选译文的含义与原文含义的异同程 度 其需要耗费大量的人力成本和时间代价 性能较低 与人工评测 相比 客观的自动评测方法成本低 速度快 可重用性高 但是准确 性比较低 因此目前对于机器翻译的自动评测研究主要是如何提高翻 译的准确率 6 4 机器翻译新进展机器翻译新进展 尽管机器翻译已经为人们的学习和工作提供了很多便利 但目前 的机器翻译技术并不成熟 还存在着很多缺陷 如基于规则的翻译协 调依赖于专家制定的规则 规则的维护与更新非常困难 而基于统计 的翻译方法则需要大规模的双语平行语料库 并且领域适应能力较差 等等 总体来说 无论是翻译系统的译文质量 运行速度 还是系统 的可操作性 人机交互能力 自学习能力 以及对各种非规范语言现 象的处理能力等 都有待于进一步提高 目前机器翻译的研究者们正努力从两个方向改进机器翻译的性 能 其中一个方向专注于进一步提高现有机器翻译模型的性能 尽量 获得令人满意的自动翻译结果 另一个方向则聚焦在已有机器翻译技 术的基础上实现机器辅助翻译 前一个方向中 一部分研究者则在寻 求利用更为深入的语言学知识 如语义 对翻译过程进行统计建模 另一部分研究者则在探索统计方法与其他方法的有机结合 5 结束语结束语 机器翻译走过了几十年的发展历程 尽管目前的译文质量仍不尽 人意 若干理论问题一直没有从根本上解决 许多方法和技术有待于 进一步研究和探索 但我们也欣喜地看到 机器翻译已经在某些特定 的领域为人们提供了快捷 方便的翻译服务 机器翻译既是一门学问 又是一门技术 它既不像有些人批评的 那么一无是处 也不像有些人吹捧的那么完美无缺 它像一颗成长中 的树苗 需要我们共同的浇灌 补养和呵护 总有一天它会长成参天 大树 参考文献参考文献 1 赵铁军 机器翻译原理 M 哈尔滨 哈尔滨

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论