已阅读5页,还剩16页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于词语对齐融合提高统计机器翻译质量 张春越哈尔滨工业大学机器智能与翻译研究室 提纲 研究动机两种词对齐结果分析词对齐结果融合策略实验设置与结果分析结论与未来工作 研究动机 词对齐是当前主流机器翻译技术的基础目前广泛使用的是Giza 实现的IBMModel4对齐模型近年来 研究者也相继提出不少其他的词对齐方法不同的词对齐工具并没有绝对意义上的优劣之分目前学术界对词对齐质量和机器翻译性能之间的关系还没有一个明确的共识 本文切入点 给定两种差异较大的词对齐工具 在同一语料上进行词对齐获取利用这两组不同词对齐的语料共同训练机器翻译模型 是否可以提高机器翻译性能 提纲 研究动机两种词对齐结果分析词对齐结果融合策略实验设置与结果分析结论与未来工作 两种词对齐工具 IBM词对齐模型GIZA 两个方向 grow diag final 合并为n to m对齐HIT MITLAB词对齐模型统计和词典相结合贪心算法实现 SSMT07语料上对齐结果差异度分析 Step1 分别进行GIZA 词对齐 GIZA 双向一对多词对齐 然后采用 grow diag final 启发式策略获得双向词对齐 下文用 G 代称 和HIT MITLAB词对齐 下文用 H 代称 Step2 对两组词对齐结果计算其并集 H G 交集 H G 差集 H G G H Step3 合并两组词对齐语料成为合并语料 Step4 基于合并语料获取词汇概率表 lex f2n lex n2f Step5 根据词汇概率表lex f2n lex n2f 计算各个集合的词对齐关系的平均翻译分值 Step6 统计各种数据 分析两种词对齐信息是否具有明显差异 H G词对齐集合统计 GIZA 获取了超过1千万的词对齐个数而HIT MITLAB只获得7百多万词对齐个数H和G相同的词对齐数只占G本身的44 8 占H本身67 其他数据同样显示出 两者的差异非常明显 各个集合的词对齐翻译平均分数 1 假设S为一个词对齐集合 f e 为任意一个词对齐 Plex f2n和Plex n2f为词汇翻译概率表 则有 各个集合的词对齐翻译平均分数 2 两个均分都满足 H G H G H G G H H G融合两者有希望获得性能上的改善 H G词对齐平均词翻译概率统计 提纲 研究动机两种词对齐结果分析词对齐结果融合策略实验设置与结果分析结论与未来工作 词对齐结果融合策略 IBM词对齐模型实验 G HIT MITLAB词对齐模型实验 H 数据融合实验 HGdc 训练语料 将H与G两个训练语料直接合并模型融合实验 HGmc 将在H和G两组数据上分别训练得到的模型直接合并 提纲 研究动机两种词对齐结果分析词对齐结果融合策略实验设置与结果分析结论与未来工作 实验设置 实验平台Moses训练语料SSMT07 811812句开发集SSMT07汉英开发集测试集SSMT07汉英测试集 对比实验结果 HGdc比G提高了近0 7个BLEU值减少了未登录词 UNK 的数目 注 表中的PP代表后处理 PostProcessing 包括去掉UNK 以及一些标点的前向粘结 如It s it s end end H G HGdc HGmc实验结果 不同源语言短语数统计 这个短语数和UNK的个数直接相关HGdc比G多出2 240个这些短语使得HGdc的UNK个数比G的下降了114个 各组实验
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年度团队目标完成情况汇报
- 2025贵州省中考物理试题(解析版)
- 2026年一次性医用耗材管理制度
- 2026年失智老人照护者技能培训计划
- AI在戏曲表演中的应用
- AI在物流管理中的应用
- 2026年高考地理等值线图判读技巧与实践
- 2026年幼儿意外伤害预防与处理
- 上海立达学院《安全系统工程学》2025-2026学年第一学期期末试卷(A卷)
- 2026年某公司监事会工作实施细则
- 2026-2030中国摩卡咖啡壶行业市场发展趋势与前景展望战略分析研究报告
- 2026年民法典宣传月专题知识竞答
- 2025年西部计划高频考点公基训练题库(附解析)
- 2026辽宁报刊传媒集团(辽宁日报社)面向社会招聘高层次人才10人备考题库附答案详解(突破训练)
- 2026小升初语文专项冲刺辅导
- 2026年医师定期考核业务水平测评理论(人文医学)考试卷含答案
- 交通运输工程全流程工作手册
- 2024年江苏省徐州市中考英语真题(含答案)
- 2025年江苏省苏州市姑苏区小升初数学试卷
- 剪映+Premiere视频剪辑-AI辅助设计 课件 第1部分 基础入门
- 山东博政投资发展(集团)有限公司招聘笔试题库2026
评论
0/150
提交评论