基于词语对齐融合提高统计机器翻译质量.ppt_第1页
基于词语对齐融合提高统计机器翻译质量.ppt_第2页
基于词语对齐融合提高统计机器翻译质量.ppt_第3页
基于词语对齐融合提高统计机器翻译质量.ppt_第4页
基于词语对齐融合提高统计机器翻译质量.ppt_第5页
已阅读5页,还剩16页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于词语对齐融合提高统计机器翻译质量 张春越哈尔滨工业大学机器智能与翻译研究室 提纲 研究动机两种词对齐结果分析词对齐结果融合策略实验设置与结果分析结论与未来工作 研究动机 词对齐是当前主流机器翻译技术的基础目前广泛使用的是Giza 实现的IBMModel4对齐模型近年来 研究者也相继提出不少其他的词对齐方法不同的词对齐工具并没有绝对意义上的优劣之分目前学术界对词对齐质量和机器翻译性能之间的关系还没有一个明确的共识 本文切入点 给定两种差异较大的词对齐工具 在同一语料上进行词对齐获取利用这两组不同词对齐的语料共同训练机器翻译模型 是否可以提高机器翻译性能 提纲 研究动机两种词对齐结果分析词对齐结果融合策略实验设置与结果分析结论与未来工作 两种词对齐工具 IBM词对齐模型GIZA 两个方向 grow diag final 合并为n to m对齐HIT MITLAB词对齐模型统计和词典相结合贪心算法实现 SSMT07语料上对齐结果差异度分析 Step1 分别进行GIZA 词对齐 GIZA 双向一对多词对齐 然后采用 grow diag final 启发式策略获得双向词对齐 下文用 G 代称 和HIT MITLAB词对齐 下文用 H 代称 Step2 对两组词对齐结果计算其并集 H G 交集 H G 差集 H G G H Step3 合并两组词对齐语料成为合并语料 Step4 基于合并语料获取词汇概率表 lex f2n lex n2f Step5 根据词汇概率表lex f2n lex n2f 计算各个集合的词对齐关系的平均翻译分值 Step6 统计各种数据 分析两种词对齐信息是否具有明显差异 H G词对齐集合统计 GIZA 获取了超过1千万的词对齐个数而HIT MITLAB只获得7百多万词对齐个数H和G相同的词对齐数只占G本身的44 8 占H本身67 其他数据同样显示出 两者的差异非常明显 各个集合的词对齐翻译平均分数 1 假设S为一个词对齐集合 f e 为任意一个词对齐 Plex f2n和Plex n2f为词汇翻译概率表 则有 各个集合的词对齐翻译平均分数 2 两个均分都满足 H G H G H G G H H G融合两者有希望获得性能上的改善 H G词对齐平均词翻译概率统计 提纲 研究动机两种词对齐结果分析词对齐结果融合策略实验设置与结果分析结论与未来工作 词对齐结果融合策略 IBM词对齐模型实验 G HIT MITLAB词对齐模型实验 H 数据融合实验 HGdc 训练语料 将H与G两个训练语料直接合并模型融合实验 HGmc 将在H和G两组数据上分别训练得到的模型直接合并 提纲 研究动机两种词对齐结果分析词对齐结果融合策略实验设置与结果分析结论与未来工作 实验设置 实验平台Moses训练语料SSMT07 811812句开发集SSMT07汉英开发集测试集SSMT07汉英测试集 对比实验结果 HGdc比G提高了近0 7个BLEU值减少了未登录词 UNK 的数目 注 表中的PP代表后处理 PostProcessing 包括去掉UNK 以及一些标点的前向粘结 如It s it s end end H G HGdc HGmc实验结果 不同源语言短语数统计 这个短语数和UNK的个数直接相关HGdc比G多出2 240个这些短语使得HGdc的UNK个数比G的下降了114个 各组实验

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论