机器翻译IIMachineTranslationII.ppt_第1页
机器翻译IIMachineTranslationII.ppt_第2页
机器翻译IIMachineTranslationII.ppt_第3页
机器翻译IIMachineTranslationII.ppt_第4页
机器翻译IIMachineTranslationII.ppt_第5页
已阅读5页,还剩59页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

机器翻译iimachinetranslationii 2020年3月1日8时25分 语言信息处理 机器翻译ii 2 大纲 基于翻译记忆的机器翻译方法基于模板 模式 的机器翻译方法双语语料库对齐技术句子对齐词语对齐机器翻译的评价 2020年3月1日8时25分 语言信息处理 机器翻译ii 3 翻译记忆方法1 翻译记忆方法 translationmemory 是基于实例方法的特例 也可以把基于实例的方法理解为广义的翻译记忆方法 翻译记忆的基本思想 把已经翻译过的句子保存起来翻译新句子时 直接到语料库中去查找如果发现相同的句子 直接输出译文否则交给人去翻译 但可以提供相似的句子的参考译文 2020年3月1日8时25分 语言信息处理 机器翻译ii 4 翻译记忆方法2 翻译记忆方法主要被应用于计算机辅助翻译 cat 软件中翻译记忆方法的优缺点翻译质量有保证随着使用时间匹配成功率逐步提高特别适用于重复率高的文本翻译 例如公司的产品说明书的新版本翻译与语言无关 适用于各种语言对缺点是匹配成功率不高 特别是刚开始使用时 2020年3月1日8时25分 语言信息处理 机器翻译ii 5 翻译记忆方法3 计算机辅助翻译 cat 软件已经形成了比较成熟的产业trados号称占有国际cat市场的70 microsoft siemens sap等国际大公司和一些著名的国际组织都是其用户雅信cat适合中国人的习惯产品已比较成熟国际组织 lisa localisationindustrystandardsassociation 面向用户 专业翻译人员数据交换 lisa制定了tmx translationmemoryexchange 标准 2020年3月1日8时25分 语言信息处理 机器翻译ii 6 翻译记忆方法4 完整的计算机辅助翻译软件除了包括翻译记忆功能以外 还应该包括以下功能多种文件格式的分解与合成术语库管理功能语料库的句子对齐 历史资料的重复利用 项目管理 翻译任务的分解与合并翻译工作量的估计数据共享和数据交换 2020年3月1日8时25分 语言信息处理 机器翻译ii 7 翻译记忆方法5 2020年3月1日8时25分 语言信息处理 机器翻译ii 8 基于模板 模式 的机器翻译方法1 基于模板 template 或者模式 pattern 的机器翻译方法通常也被看做基于实例的机器翻译方法的一种延伸所谓 翻译模板 或者 翻译模式 可以认为是一种颗粒度介于 翻译规则 和 翻译实例 之间的翻译知识表示形式翻译规则 颗粒度大 匹配可能性大 但过于抽象 容易出错翻译实例 颗粒度小 不易出错 但过于具体 匹配可能性小翻译模板 模式 介于二者之间 是一种比较合适的知识表示形式一般而言 单语模板 或模式 是一个常量和变量组成的字符串 翻译模板 或模式 是两个对应的单语模板 或模式 两个模板之间的变量存在意义对应关系 2020年3月1日8时25分 语言信息处理 机器翻译ii 9 基于模板 模式 的机器翻译方法2 模板举例 这个x比y更z thexismorezthany 模板方法的主要问题对模板中变量的约束模板抽取模板的冲突消解 2020年3月1日8时25分 语言信息处理 机器翻译ii 10 pattern basedcfgformt1 koichitakeda pattern basedcontext freegrammarsformachinetranslation proc of34thacl pp 144 151 june1996给出了翻译模式的一种形式化定义 并给出了相应的翻译算法以及算法复杂性的理论证明 2020年3月1日8时25分 语言信息处理 机器翻译ii 11 pattern basedcfgformt2 每个翻译模板由一个源语言上下文无关规则和一个目标语言上下文无关规则 这两个规则称为翻译模板的骨架 以及对这两个规则的中心词约束和链接约束构成 中心词约束 对于上下文无关语法规则中右部 子结点 的每个非终结符 可以指定其中心词 对于规则左部 父结点 的非终结符 可以直接指定其中心词 也可以通过使用相同的序号规定其中心词等于其右部的某个非终结符的中心词 链接约束 源语言骨架和目标语言骨架的非终结符子结点通过使用相同的序号建立对应关系 具有对应关系的非终结符互为翻译 2020年3月1日8时25分 语言信息处理 机器翻译ii 12 pattern basedcfgformt3 2020年3月1日8时25分 语言信息处理 机器翻译ii 13 pattern basedcfgformt3 翻译的过程分为三步 使用源语言cfg骨架分析输入句子s应用源语言到目标语言的cfg骨架的链接约束 生成一个译文cfg推导序列根据译文cfg推导序列产生译文模板排序的启发式原则 对于源文cfg骨架相同的模板 有中心词约束的模板优先于没有中心词约束的模板 对于同一跨度上的两个结点 比较其对应的模板的源文cfg骨架 非终结符少的模板优先于非终结符多的模板 中心词约束被满足的结点优先于中心词约束不被满足的结点 对于一个输入串而言 分析步骤越短 推导序列越短 越优先 2020年3月1日8时25分 语言信息处理 机器翻译ii 14 pattern basedcfgformt4 模板库的获取 假设t是一组翻译模板 b是双语语料库 是一对互为翻译的句子如果t能够翻译句子s为t 那么donothing 如果t将s译为t 不等于t 那么 如果t中存在的推导q 但这个推导不是最优解 那么给q中的模板进行实例化 如果不存在这种推导 那么加入适当的模板 使得推导成立 如果根本无法翻译s 分析失败 那么将直接加入到模板库中 2020年3月1日8时25分 语言信息处理 机器翻译ii 15 模板的自动提取 利用一对实例进行泛化jaimeg carbonell ralfd brown generalizedexample basedmachinetranslationhttp www lti cs cmu edu research gebmt 利用两对实例进行比较h altayguvenir ilyascicekli learningtranslationtemplatesfromexamplesinformationsystems 1998张健 基于实例的机器翻译的泛化方法研究 中科院计算所硕士论文 2001 2020年3月1日8时25分 语言信息处理 机器翻译ii 16 通过泛化实例得到翻译模板 已有实例 karlmarxwasbornintrier germanyinmay5 1818 卡尔 马克思于1818年5月5日出生在德国特里尔城 泛化 wasborninin于出生在对齐 2020年3月1日8时25分 语言信息处理 机器翻译ii 17 通过比较实例得到翻译模板 已有两对翻译实例 我给玛丽一支笔 igavemaryapen 我给汤姆一本书 igavetomabook 双侧单语句子分别比较 得到 我给 x一 y z igive wa u 查找变量的对应关系 x w y z u 2020年3月1日8时25分 语言信息处理 机器翻译ii 18 实例库的匹配1 实例匹配的目的是将输入句子分解成语料库中实例片断的组合 这是基于实例的机器翻译的关键问题之一 实例匹配的各种方法有很大的差异 还没有那种做法显示出明显的优势 实例库匹配的效率问题 由于实例库规模较大 通常需要建立倒排索引 实例库匹配的其他问题 实例片断的分解 实例片断的组合 2020年3月1日8时25分 语言信息处理 机器翻译ii 19 实例库的匹配2 实例片断的分解实例库中的句子往往太长 直接匹配成功率太低 为了提高实例的重用性 需要将实例库中的句子分解为片断几种通常的做法 按标点符号分解任意分解通过组块分析进行分解 2020年3月1日8时25分 语言信息处理 机器翻译ii 20 实例库的匹配3 实例片断的组合一个被翻译的句子 往往可以通过各种不同的实例片断进行组合 如何选择一个最好的组合 简单的做法 最大匹配最大概率法 选择概率乘积最大的片断组合有点像汉语词语切分问题 2020年3月1日8时25分 语言信息处理 机器翻译ii 21 片断译文的选择 由于语料库中一个片断可能有多种翻译方法 因此存在片断译文的选择问题 常用的方法 根据片断上下文进行排歧 根据译文的语言模型选择概率最大的译文片断组合 2020年3月1日8时25分 语言信息处理 机器翻译ii 22 实例库的对齐 实例库又称双语语料库 bilingualcorpus 或平行语料库 parallelcorpus 双语语料库对齐的级别篇章对齐段落对齐句子对齐词语对齐短语块对齐句法结构对齐基于实例的机器翻译中实例库必须至少做到句子级别的对齐 2020年3月1日8时25分 语言信息处理 机器翻译ii 23 不同对齐级别的差异 段落对齐和句子对齐要求保持顺序 允许局部顺序的调整 只有一个层次词语对齐和短语块对齐不要求保持顺序只有一个层次句法结构对齐不要求保持顺序多层次对齐 2020年3月1日8时25分 语言信息处理 机器翻译ii 24 句子对齐1 2020年3月1日8时25分 语言信息处理 机器翻译ii 25 句子对齐2 2020年3月1日8时25分 语言信息处理 机器翻译ii 26 基于长度的句子对齐1 基本思想 源语言和目标语言的句子长度存在一定的比例关系用两个因素来估计一个句珠的概率源语言和目标语言中句子的长度源语言和目标语言中的句子数 对齐模式 2020年3月1日8时25分 语言信息处理 机器翻译ii 27 基于长度的句子对齐2 根据统计 随机变量x lti lsi服从正态分布 2020年3月1日8时25分 语言信息处理 机器翻译ii 28 基于长度的句子对齐3 设通过语料库统计得到x的期望为c 方差为v2 那么随机变量 将服从 0 1 正态分布 根据正态分布公式可以计算出 直接查表 2020年3月1日8时25分 语言信息处理 机器翻译ii 29 基于长度的句子对齐4 对齐模式的概率p ms mt 可以通过对语料库的统计得到 下面是gale church根据ubs语料库的统计结果 2020年3月1日8时25分 语言信息处理 机器翻译ii 30 基于长度的句子对齐5 最优路径的搜索 采用动态规划算法定义p i j p s1 si t1 tj 最优对齐为p m n 所对应的路径 2020年3月1日8时25分 语言信息处理 机器翻译ii 31 基于长度的句子对齐6 优点不依赖于具体的语言 速度快 效果好缺点由于没有考虑词语信息 有时会产生一些明显的错误讨论长度计算可以采用词数或者字节数 没有明显的优劣之分 2020年3月1日8时25分 语言信息处理 机器翻译ii 32 基于词的句子对齐1 基本思想 互为翻译的句子对中 含有互为翻译的词语对的概率 大大高于随机的句子对用两个因素来估计一个句珠的概率源语言和目标语言中互译词语的个数源语言和目标语言中的句子数 对齐模式 2020年3月1日8时25分 语言信息处理 机器翻译ii 33 基于词的句子对齐2 优点可以充分利用词语互译信息 提高正确率缺点单独使用时 正确率有时低于基于长度的方法 取决于词典的规模质量等 时空开销大讨论对于同源的语言 英语和法语 汉语和日语 可以利用词语同源信息而不使用词典 2020年3月1日8时25分 语言信息处理 机器翻译ii 34 句子对齐小结 句子对齐的语料库是基于语料库的机器翻译的基础 综合采用基于长度的方法和基于词汇的方法可以取得较好的效果 句子对齐可以取得很高的正确率 已经达到实用水平 2020年3月1日8时25分 语言信息处理 机器翻译ii 35 词语对齐1 特点 保序性不再满足对齐模式复杂 一对多 多对一 多对多都非常普遍 2020年3月1日8时25分 语言信息处理 机器翻译ii 36 词语对齐2 困难 翻译歧义 一个词出现两个以上的译词双语词典覆盖率有限 非常普遍的现象位置歧义 出现两个以上相同的词汉语词语切分问题虚词问题 虚词的翻译非常灵活 或没有对译词意译问题 根本找不到对译的词 2020年3月1日8时25分 语言信息处理 机器翻译ii 37 词语对齐3 一般而言 一个单词对齐的模型可以表述为两个模型的乘积 词语相似度模型 wordsimilaritymodel 位置扭曲模型 worddistortionmodel 用公式表示如下 2020年3月1日8时25分 语言信息处理 机器翻译ii 38 词语相似度模型1 翻译概率 ibmmodel1t score nc 语料库中单词c出现的词数ne 语料库中单词e出现的词数nec 语料库中单词e和单词c互译的词数 2020年3月1日8时25分 语言信息处理 机器翻译ii 39 词语相似度模型2 戴斯系数 dicecoefficient 设s1和s2分别是两个集合 则这两个集合的戴斯系数可以通过如下公式计算把汉语词理解为汉字的集合 戴斯系数就是两个词中相同的汉字占两个词汉字总数的比例 考虑到汉字表意性 这种方法在计算汉语词相似度时有较好的效果计算汉语词c和英语词e的相似度 先用英语词e查英汉词典 得到所有的汉语对译词 计算所有对译词和c的戴斯系数 取其中的最大值 2020年3月1日8时25分 语言信息处理 机器翻译ii 40 词语相似度模型3 互信息 mutualinformation 通过两个事件x和y各自出现的概率为p x 和p y 他们联合出现的概率为p x y 这两个事件之间共同的互信息量定义为 当两个事件相互独立时 互信息量为0 当两个事件倾向于同时出现时 互信息量为正 当两个事件倾向于互相排斥时 互信息量为负 利用互信息作词语相似度计算效果较差 2020年3月1日8时25分 语言信息处理 机器翻译ii 41 词语相似度模型4 2方法 利用联立表 contingencytable 2方法的效果比较好 2020年3月1日8时25分 语言信息处理 机器翻译ii 42 词语相似度模型5 对数似然比 loglikelihoodratio llr 对数似然比在使用中比较有效 在训练语料库规模较小时尤为明显 2020年3月1日8时25分 语言信息处理 机器翻译ii 43 词语相似度模型6 概念相似度利用某种形式的义类词典 thesaurus 计算两个词语对应的概念之间的相似度其中d是概念p1 p2之间的距离 一般用概念层次体系中两个结点之间的距离来计算 是一个可条件的参数 2020年3月1日8时25分 语言信息处理 机器翻译ii 44 词语相似度模型7 同义词词林 的概念层次体系虚线用于标识某上层结点到下层结点的路径 2020年3月1日8时25分 语言信息处理 机器翻译ii 45 位置扭曲模型1 绝对扭曲模型 ibmmodel2l 源语言句子长度m 目标语言句子长度i 源语言词语位置j 目标语言词语位置 2020年3月1日8时25分 语言信息处理 机器翻译ii 46 位置扭曲模型2 相对偏移模型 2020年3月1日8时25分 语言信息处理 机器翻译ii 47 位置扭曲模型3 基于hmm的扭曲模型将每个对齐看作状态 对齐位置之间的转移是状态的转移 该对齐处的单词对作为输出 这样就可以将对齐问题映射到hmm上 2020年3月1日8时25分 语言信息处理 机器翻译ii 48 词语对齐小结 词语对齐比句子对齐困难得多 词语对齐主要使用一个词语相似度模型和一个位置扭曲模型 词语对齐的副产品 双语词典抽取贪心算法 每次抽取可能性最高的词对 词语抽取和词语对齐反复迭代可以抽取多词单元 n元组 2020年3月1日8时25分 语言信息处理 机器翻译ii 49 机器翻译评价1 最早的机器翻译评价 alpac报告机器翻译评价的常用指标忠实度 adequacy 译文在多大程度上传递了源文的内容 流利度 fluency 译文是否符合目标语言的语法和表达习惯 信息度 informative 用户可以从译文中获得信息的程度 通过选择题评分 绝对评价和相对评价 2020年3月1日8时25分 语言信息处理 机器翻译ii 50 机器翻译评价2 人工评价准确成本极高不能反复使用自动评价准确率低成本低可以反复使用 2020年3月1日8时25分 语言信息处理 机器翻译ii 51 机器翻译评价3 机器翻译的评价一直是机器翻译研究领域中一个备受关注的问题 机器翻译的自动评价越来越引起重视 评测驱动 成为自然语言处理研究的一个主要动力大规模语料库的出现 各种机器翻译算法的提出 使得开发过程中频繁的评测成为必需开发过程中频繁的评测只能通过采用自动评测方法 2020年3月1日8时25分 语言信息处理 机器翻译ii 52 机器翻译的自动评测 完全匹配方法与参考译文完全相同的译文才被认为是正确的显然该标准过于严格 不适用编辑距离方法基于测试点的方法基于n元语法的方法 2020年3月1日8时25分 语言信息处理 机器翻译ii 53 基于编辑距离的机器翻译评测1 编辑距离定义 从候选译文到参考译文 所需要进行的插入 删除 替换操作的次数举例说明 源文 sheisastarwiththetheatrecompany 机器译文 她是与剧院公司的一颗星 参考译文 她是剧团的明星 编辑距离 6插入 与公司一颗替换 剧团 剧院明星 星 2020年3月1日8时25分 语言信息处理 机器翻译ii 54 基于编辑距离的机器翻译评测2 单词错误率 编辑距离除以参考译文中单词数这个指标是从语音识别中借鉴过来的 由于语音识别的结果语序是不可变的 而机器翻译的结果语序是可变的 显然这个指标存在一定的缺陷 与位置无关的单词错误率 计算编辑距离时 不考虑插入 删除 替换操作的顺序也就是说 候选译文与参考译文相比 多出或不够的词进行删除或插入操作 其余不同的词进行替换操作 这个指标与单词错误率相比 允许语序的变化 不过又过于灵活 2020年3月1日8时25分 语言信息处理 机器翻译ii 55 基于测试点的机器翻译评测1 俞士汶等 机器翻译译文质量自动评估系统 中国中文信息学会1991年论文集 pp 314 319基本思想对于每一个句子 孤立测试点 简化测试目标 模拟人类标准化考试的办法 对于每一个句子 采用一种tdl语言描述的bnf去与译文匹配 匹配成功则正确 否则错误大批量出题 全面评价机器翻译译文质量 2020年3月1日8时25分 语言信息处理 机器翻译ii 56 基于测试点的机器翻译评测2 测试点分组 单词 词组 词法 语法 初 中 高级 测试点示例 源文 iamastudent 测试 译文中出现 学生 大学生 为正确源文 iboughtatablewiththreedollars 测试 买 出现在 美元 之后为正确源文 iboughtatablewiththreelegs 测试 买 出现在 腿 之前为正确 2020年3月1日8时25分 语言信息处理 机器翻译ii 57 基于测试点的机器翻译评测3 优点 全自动实验证明 评价结果是可信的可以按照人类专家的要求进行单项评测缺点题库的构造需要具有专门知识的专家 并且成本较高 2020年3月1日8时25分 语言信息处理 机器翻译ii 58 基于n元语法的机器翻译评测1 kishorepapineni salimroukos toddward wei jingzhu bleu amethodforautomaticevaluationofmachinetranslation ibmresearch rc22176 w0109 022 september17 2001基本思想用译文中出现的n元组和参考译文中出现的n元组相比 计算匹配的n元组个数与候选译文的n元组总个数的比例允许一个源文有多个参考译文 综合评分 2020年3月1日8时25分 语言信息处理 机器翻译ii 59 基于n元语法的机器翻译评测2 源文 党指挥枪是我党的行动指南 候选译文 itisaguidetoactionwhichensuresthatthemilitaryalwaysobeysthecommandofthepartyitistoinsurethetroopsforeverhearingtheactivityguidebookthatpartydirect参考译文 itisag

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论