Chapter_09机器翻译.pdf_第1页
Chapter_09机器翻译.pdf_第2页
Chapter_09机器翻译.pdf_第3页
Chapter_09机器翻译.pdf_第4页
Chapter_09机器翻译.pdf_第5页
已阅读5页,还剩34页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第九章机器翻译 詹卫东 2002 6 2 提纲 1 什么是机器翻译 2 机器翻译的基本方法与技术策略 3 基于规则的机器翻译 4 基于实例的机器翻译 5 基于统计的机器翻译 6 机器翻译的困难与机器翻译评测 7 小结 3 1 什么是机器翻译 Machine Translation MT 机器翻译 用计算机实现从一种自然语言 源语言 source language 到 另一种自然语言 目标语言 target language 文本的翻译 Human Assisted Machine Translation HAMT 人助机译 Computer Aided Translation CAT 机助人译 Fully Automatic Machine Translation FAMT 全自动机器翻译 4 机器翻译发展小史 MT应用需求呈上升趋势 技术日益靠拢实用目标 与 语音技术 互联网应用的结合趋势日渐明显 1990 基于规则的系统日益成熟 与此同时 人们开始探索更多其他的MT方法 1980 1990 反思 计算语言学理论的发展 人工智能的发展1970 1980 ALPAC报告 MT陷入低谷1966 第1个MT系统在美国Georgetown大学问世 6条规则 250个词 俄语 英语 50个句子 化学文本 1946 1954 赵铁军 2000 第1章 冯志伟 1995 第1 3章 5 机器翻译的需求类型及应用领域 传播信息 dissemination 浏览信息 assimliation 交流信息 interchange 查询信息 information access 出版 信息发布 网页 题录翻译 实时 多语聊天室 跨语言信息检索 Note 对于不同的需求 机器翻译系统的设计应该有针对性 同时对系统的要求也会有所不同 Hutchins 1999 The Development and use of Machine Translation system and computer based translation tools In Proceeding of International Conference on MT Computer Language Information Processing 1999 6 26 28 Beijing 6 2 MT的基本方法与技术策略 直接翻译法 转换法 中间语言法 理性主义 传统 MT路线 基于规 则的MT方法 RBMT EBMT Translation Memory Pattern based MT Statistical approach to MT 经验主义MT路线 基于语料库 基 于统计的MT方法 7 技术策略 受限语言 受限领域 人助机译 机助人译 FAHQMT fully automatic high quality machine translation 是个遥不可及的梦 Xerox Boeing 等大公司都使用受限英语 或simplified English 来撰写技术文 档 以及进行技术手册的机器翻译 俞士汶 1995 关于受限的规则汉语的设想 载王均主编 语言现代化 论丛 山东教育出版社 1995年 pp193 205 张伟 1998 受限汉语辅助写作系统的构想 载 计算机世界报 1998 年4月13日 第13期D版技术专题 8 中间语言法 Interlingua 语言1语言2 语言4语言3 中间 语言 语言1语言2 语言4语言3 1 2 中间语言的例子 世界语 人工定义的语言等 9 转换法 Transfer 10 RBMT的一般图示 中间语言 知识表示 源语言词串 词汇 转换 源语言句 法结构 源语言语 义结构 目标语言 语义结构 目标语言 句法结构 目标语言词串 语义 转换 句法 转换 生成部分分析部分 11 综合型机器翻译系统 multi engine MT 规则引擎 实例引擎 词汇直译引擎 源语言 片段重组 总体评分 目标语言 Christopher Hogan Robert E Frederking 1998 An Evaluation of Multi engine MT Architecture In Machine Translation and the Information Soup pages 113 123 Third Conference of the Association for Machine Translation in Americas AMTA 98 Langhorne PA USA October http www 2 cs cmu edu afs cs cmu edu user chogan Web Publications html 12 3 基于规则的MT She put a bunch of flowers on the table 她把一束花放在桌上 她 r 把 p q v n 一 m d 束 q 花 n v a 放 v 在 p d v 桌 n 上 f v w Segmenter POS tagger filter 她 r 把 p 一 m d 束 q 花 n 放 v 在 p v 桌 n 上 f v w 13 对源语言进行句法分析 她 r 把 p 一 m d 束 q 花 n 放 v 在 p v 桌 n 上 f v w parserRule BaseLexicon 她把一束花放在桌上 np mp np sp pp pp vp vp dj zj np 14 从源语言结构树到目标语言结构树 p rv 她把一束花放 在桌上 np mp np sp pp pp vp vp dj zj np R 她 NP np CS dj VP vp VP vp NP pp PP pp V 放 pPP sp P 上 N 桌 pNP np NP mp P NP np T 一 N 束 of N 花 SS zj W 15 对目标语言结构树进行语序调整 SS zj N 她 NP np CS dj VP vp VP vp NP pp PP pp V 放 pPP sp P 上 N 桌 pNP np NP mp P NP np T 一 N 束 of N 花W N 她 NP np CS dj VP vp VP vp V 放 NP pp pNP np NP mp P NP np T 一 N 束 of N 花 PP pp pPP sp P 上 N 桌 SS zj W 16 对目标语言词语进行变形调整 SS zj CS dj NP np N 她 VP vp VP vp NP pp pNP np NP mp P NP np T 一 N 束ofN 花 PP pp p PP sp P 上N 桌 V 放 W She puts a bunch of flowers on table 17 4 基于实例的MT Makoto Nagao 1984 源语言实例目标语言实例 对齐 匹 配 命中句子S 对应句子T 实 例 库 源语言句子S译文句子T 18 EBMT示例 酸腐蚀金属Acid eats metal 他吃蔬菜He eats vegetable 汉语实例英语实例 输入 输出 I eat potatoes 我吃土豆 19 EBMT示例 续 4c5c6c4e5e6e 1c3c2c1e2e3e 汉语实例英语实例 输出 输入 He put on the table flower 他把花放在桌上 1e Replace 2e 5e 6e 3e 1c 3c Replace 2c 5c 6c 20 EBMT需要解决的问题 相似度计算技术 如何构建实例库 双语对齐 句子级 短语级 亚句子级 词汇级 如何查找翻译实例 匹配精度 句子级匹配 亚句子级匹配 如何生成好的译文 21 词汇对齐 word alignment 互为翻译的一对单词要比相互不为翻译的一对单词更有可能 出现在同一个对齐的句子对中 假设 检验方法 假设阶段 生成所有侯选的对译词对儿 translation equivalent 检验阶段 根据统计关联度量选择出统计意义上较为可靠的对译词对儿 Gale 1991 22 词汇对齐可能性的度量方法 检验 联立表 contingency table 2 dc s bas tt 是候选对译词对儿 a 语料中同时出现s和t的句对数 b 语料中出现s不出现t的句对数 c 语料中不出现s出现t的句对数 d 语料中s t同时不出现的句对数 2 2 dcdbcaba cbda ts 2 ts 值越高 越可能是 对译词对儿 23 词汇对齐示例 848 330 4 793 house 12 004 31 950 house 房子房子 852 682 441 house 38 980 4 974 house 家庭家庭 8483304793 84833012004 479331950 1200431950 47931200484833031950 2 2 房子house 0 62 852682441 85268238980 4414974 389804974 441389808526824974 2 2 家庭house 0 098 24 Word type Word token alignment 双语平行 对齐语料库 双语翻译词典 word type alignment extraction 双语平行语料库 Bilingual parallel corpora 双语词汇对齐语料库 word token alignment alignment 25 EBMT在两个方向上的发展 Pattern based MT Translation Memory 翻译重用思想 术语翻译 汉语模板 那里 有 np 英语模板 There is NP np over there 26 5 基于统计的MT IBM公司Brown et al 1990 1993 目标语言 句子 T 源语言句 子 S 噪音信道 argmax STPT T argmax TSPTPT T SP TSPTP STP 27 汉英翻译的噪音信道模型 我 爱 你 What did she say L O E V I Y O U speaker hearer 信道方向 目标语言 英语 句子 I love you 源语言 汉语 句子 我爱你 向方译翻 P T1 S T1 How are you S 我爱你 T2 I love you T3 I promise you P T2 S Which one is the best P Ti S Ti 28 统计机器翻译模型面对的问题 P T P S T T SSBMT Model 语言模型翻译模型 解决三个问题 1 语言模型P T 的参数估计 2 翻译模型P S T 的参数估计 3 译文快速搜索 如何快速找到 T 建模问题 解码问题 29 语言模型P T 的参数估计 N gram 21 TTTTPTTPTPTTTPTP 121121 nnn 1121 nn TTPTTPTP 1 1 1 n nn nn TNumber TTNumber TTP 30 翻译模型P S T 的参数估计 考虑翻译的三种可能性 约翰 爱 玛丽 John loves Mary 直译 direct translation 繁殖 fertility 变形 distortion She put a bunch of flowers on the table 她 把 一 束 花 放 在 桌 上 变形繁殖 31 翻译模型P S T 的参数估计 续 m sssS 21 2121nm tttsssPTSP n tttT 21 m j n i f j ijii mijPtsPtfPTSP i 111 繁殖概率繁殖概率 即一 个目标语单词 ti 翻译成 fi个源语 言单词的概率 变形概率变形概率 即第 i个 目标语单词 ti 对 译为第 j 个源语言 单词 sj 的概率 直译概率直译概率 即一 个目标语单词 ti 翻译成一个或若 干个源语言单词 sj 的概率 32 P S T 计算示例 She put a bunch of flowers on the table 她 把 一 束 花 放 在 桌 上 源语言 目标语言 1 2 3 4 5 6 7 8 9 1 1 2 0 3 3 4 4 5 6 6 2 7 7 8 9 9 7 9 7 9 9 9 8 9 7 7 9 2 6 9 6 5 9 4 4 9 3 3 9 0 2 9 1 1 1 0 2 1 0 1 1 1 1 PPPP PPPPP tablePtablePthePonPonPonP flowersPflowersPofPbunchPbunchP aPaPputPputPshePsheP TSP 桌上在 花束 一放她 源语言词语位置 序号 对译目标 语词语位置序号 table 翻译为 桌子 的概率 a 对译1个汉语词的概率 对于长度为9的汉语句子 英 语句子中第7个词翻译为汉语 句子中第9个词的概率 33 T 快速搜索 Stack Search 栈搜索 技术 P 约翰 爱 玛丽 P 约翰 爱 玛丽 James 1 P 约翰 爱 玛丽 John 1 P 约翰 爱 玛丽 John 1 loves 2 P 约翰 爱 玛丽 John 1 loves 2 Marian 3 P 约翰 爱 玛丽 John 1 loves 2 Mary 3 S Nie en et al 1998 A DP based Search Algorithm for Statistical Machine Translation EuTrans Workshop Aachen June 4 5 1998 http www zeres de Zeres Eutrans private Aachen html 34 6 机器翻译的困难与机器翻译评测 The spirit is willing but the flesh is weak 心有余而力不足 酒是 好的 但肉是 馊的 翻译是个创造性的过程 翻译过程需要调用诸多知识储备 刘群 俞士汶 1998 汉英机器翻译的难点分析 载黄昌宁主编 1998中文信息处理国际会议论文集 清华大学出版社 pp507 514 35 机器翻译的评测 基于翻译知识点的MT自动评测系统 机译译文质量测试描述语言 TDL Yu Shiwen 1993 Automatic evaluation of output quality for machine translation systems Machine Translation Vol 8 Kluwer Academic Publisher pp117 126 可懂度 忠实度 速度 软件平台 可扩展性 赵铁军 等 2000 第11章 36 7 小结 1 古老圣经故事的现代演绎 用0和1重建的巴比塔传奇 2 机器翻译是NLP CL 的练兵场 37 进一步阅读文献 冯志伟 1995 自然语言机器翻译新论 语文出版社1995年版 赵铁军 2000 机器翻译原理 第10章 哈尔滨工业大学出版社 翁富良 王野翊 1998 计算语言学导论 第8章 中国社会科学出版社 M Nagao 1984 A framework of a mechanical translation between Japanese and English by Analogy Principle In Artificial and Human Intelligence A Elithorn et al e

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论