




已阅读5页,还剩12页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中科院自动化所评测技术报告(SYSTEMII),魏玮于东王韦华宗成庆徐波,InstituteofAutomation,ChineseAcademyofSciences,中国科学院自动化所,内容概要,技术说明与参评系统短语系统分层短语系统基于依存树到串系统前后处理系统融合CASIA_SYSTEMII英中翻译系统评测环境概要数据总结,InstituteofAutomation,ChineseAcademyofSciences,中国科学院自动化所,技术说明-短语系统,典型的短语系统2非单调解码,任意跳转对数线性模型10个特征双向短语翻译概率p(e/f)和p(f/e)双向词汇化概率l(e/f)和l(f/e)4gram语言模型扭曲概率句子长度惩罚短语惩罚方向概率3IBM扭曲模型4,InstituteofAutomation,ChineseAcademyofSciences,中国科学院自动化所,技术说明-分层短语系统,主要借鉴了Wei5的基本思想,引入分层短语的概念有效地结合了短语模型和同步上下文无关文法分层短语模型将语序信息包含在模型之中,克服了传统短语翻译的调序问题沿用了统计线性对数方法进行概率计算,使用了如下6个特征:双向短语翻译概率p(e/f)和p(f/e)双向词汇化概率l(e/f)和l(f/e)4gram语言模型句子长度惩罚,InstituteofAutomation,ChineseAcademyofSciences,中国科学院自动化所,技术说明-依存树到串系统,在源语言端运用依存结构进行统计翻译的新模型:Dependency-StringStructureModel(DSS模型)由于计算资源和时间的限制,参加本次评测的系统仍然沿用和分层短语相同的文法DSS解码算法的输入是一棵树,而不是一个串,所以线图是按照树节点来索引的,而不是按照串中的跨距(span)来建立索引的解码时使用了8个特征,最后两个为依存子树的惩罚双向短语翻译概率p(e/f)和p(f/e)双向词汇化概率l(e/f)和l(f/e)4gram语言模型句子长度惩罚符合依存子树惩罚不符合依存子树惩罚,InstituteofAutomation,ChineseAcademyofSciences,中国科学院自动化所,技术说明-前后处理,前处理时间,数字处理模块地名,人名,机构名处理模块英文转化为小写预处理乱码过滤(中文中的乱码、英文中的乱码以及包含中文词的句子)标点符号及数字变换(中文中的部分标点符号、英文中的双字节符号及数字)英文缩写处理中文分词、英文Tokenization后处理大小写转换:未翻译词保留其原始格式格式转换:去除中文中的空格未登录词,InstituteofAutomation,ChineseAcademyofSciences,中国科学院自动化所,技术说明-系统融合67,InstituteofAutomation,ChineseAcademyofSciences,中国科学院自动化所,技术说明-外部技术,汉语分词工具:计算所开发的ICTCLAS3.0双语词对齐工具:GIZA+语言模型训练工具:SRILM工具包英文词性标注工具:StanfordLog-linearPart-Of-SpeechTagger英文依存树分析工具:Minimum-SpanningTreeParser(MSTparser),InstituteofAutomation,ChineseAcademyofSciences,中国科学院自动化所,参评系统-CASIA_SYSTEMII,InstituteofAutomation,ChineseAcademyofSciences,中国科学院自动化所,评测环境概要,软硬件环境运行时间(约4000句测试集),InstituteofAutomation,ChineseAcademyofSciences,中国科学院自动化所,数据,开发数据:新闻-2007SSMT英中翻译测试集科技-CWMT08提供的Special语料中随机挑选200句翻译模型训练数据:新闻-CWMT08提供的Common,约85万句对和;NISTMT08评测提供语料,大约670万句对科技-CWMT08提供的Special部分语料,约52万句对;NISTMT08评测提供语料,大约670万句对语言模型训练数据:LDC2007T38提供的ChineseGigawordThirdEdition,约3900万句,InstituteofAutomation,ChineseAcademyofSciences,中国科学院自动化所,数据过滤,过滤的原则:根据LDC语料中的当前句对中的所有词汇是否在发布的训练语料词汇集合中(周玉)新闻领域将NIST语料根据新闻任务发布的训练语料进行过滤翻译模型最后使用的语料为538万句对科技领域将NIST语料根据科技任务发布的训练语料进行过滤的翻译模型最后使用的语料为468万句对语言模型也同样使用了过滤技术,最后过滤剩余1000万句,InstituteofAutomation,ChineseAcademyofSciences,中国科学院自动化所,测试结果,新闻领域采用基于MBR解码和混淆网络解码的多系统融合策略,融合6个结果3个来自于基于分层短语的翻译系统(HPB)3个来自于基于依存树到串的翻译系统(DHPB),InstituteofAutomation,ChineseAcademyofSciences,中国科学院自动化所,测试结果,科技领域采用基于MBR解码和混淆网络解码的多系统融合策略,融合6个结果2个来自于基于分层短语的翻译系统(HPB)2个来自于基于依存树到串的翻译系统(DHPB)2个来自于基于短语的系统(PB),InstituteofAutomation,ChineseAcademyofSciences,中国科学院自动化所,总结,新闻领域借鉴了汉英评测的经验,加入了英文命名实体翻译及前后处理模块;并且针对英文的特点,在解码中融入句法分析树,在不增加时空复杂度的前提下提高了翻译质量科技领域由于缺乏这方面的语料资源,我们只能借用新闻领域的语料,利用数据过滤技术得到相关资源但由于在选取开发集时,其规模和相关性受到制约,所以最后的参数训练并不能有效得收敛到最优如何能够充分利用有限的资源,开发出更加鲁棒的训练及解码算法,是我们下一步要思考的问题,InstituteofAutomation,ChineseAcademyofSciences,中国科学院自动化所,参考文献,1中科院自动化所评测技术报告(SYSTEMII),第四届机器翻译研讨会,20082WeiWei,WeiPang,ZhendongYang,ZhenbiaoChen,ChengqingZong,BoXu.CASIASMTSystemforTC-STAREvaluationCampaign2006.In:TC-STARworkshop,2006.3YaserAl-Onaizan,KishorePapineni.Proceedingsofthe21stInternationalConferenceonComputationalLinguisticsandthe44thannualmeetingoftheACLACL064PhilippKoehn,etal.EdinburghSystemDescriptionforthe2005IWSLTSpeechTranslationEvaluation,InternationalWorkshoponSpokenLanguageTranslation2005.5魏玮,杜金华,徐波,基于组块分析的分层短语系统,第九届计算语言学年会,20076K.C.Sim,W.Byrne
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 商业银行金融科技人才普惠金融能力培养策略报告2025
- 2025年公众参与视角下环境影响评价公众满意度调查报告
- 电梯委托监督检验协议书
- 江苏国际货运代理协议书
- 珠宝厂出租转让合同范本
- 电梯井道施工安全协议书
- 防火隔热服采购合同范本
- 混凝土合同三方协议模板
- 领取小区大门钥匙协议书
- 私人仓库房屋租赁协议书
- 仁爱版英语九年级上下册单词(含音标)
- 人教版(2024)第三单元-汉语拼音《yw》教学课件
- 初中语文九级上册第三单元大单元整体教学设计 人教版
- 2024年便携式储能行业分析报告
- 2023年全国职业院校技能大赛-中药传统技能赛项规程
- 滦州事业单位笔试真题及答案2024
- 了解DSA-200型受电弓结构及作用讲解
- 煤矿开掘技术操作规程
- 《光伏组件功率衰减检验技术规范(征求意见稿)》
- 威图电柜空调SK3304500使用说书
- 客运驾驶员汛期安全培训
评论
0/150
提交评论