已阅读5页,还剩12页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中科院自动化所评测技术报告 SYSTEMII 魏玮于东王韦华宗成庆徐波 InstituteofAutomation ChineseAcademyofSciences 中国科学院自动化所 内容概要 技术说明与参评系统短语系统分层短语系统基于依存树到串系统前后处理系统融合CASIA SYSTEMII英中翻译系统评测环境概要数据总结 InstituteofAutomation ChineseAcademyofSciences 中国科学院自动化所 技术说明 短语系统 典型的短语系统 2 非单调解码 任意跳转对数线性模型10个特征双向短语翻译概率p e f 和p f e 双向词汇化概率l e f 和l f e 4gram语言模型扭曲概率句子长度惩罚短语惩罚方向概率 3 IBM扭曲模型 4 InstituteofAutomation ChineseAcademyofSciences 中国科学院自动化所 技术说明 分层短语系统 主要借鉴了Wei 5 的基本思想 引入分层短语的概念有效地结合了短语模型和同步上下文无关文法分层短语模型将语序信息包含在模型之中 克服了传统短语翻译的调序问题沿用了统计线性对数方法进行概率计算 使用了如下6个特征 双向短语翻译概率p e f 和p f e 双向词汇化概率l e f 和l f e 4gram语言模型句子长度惩罚 InstituteofAutomation ChineseAcademyofSciences 中国科学院自动化所 技术说明 依存树到串系统 在源语言端运用依存结构进行统计翻译的新模型 Dependency StringStructureModel DSS模型 由于计算资源和时间的限制 参加本次评测的系统仍然沿用和分层短语相同的文法DSS解码算法的输入是一棵树 而不是一个串 所以线图是按照树节点来索引的 而不是按照串中的跨距 span 来建立索引的解码时使用了8个特征 最后两个为依存子树的惩罚双向短语翻译概率p e f 和p f e 双向词汇化概率l e f 和l f e 4gram语言模型句子长度惩罚符合依存子树惩罚不符合依存子树惩罚 InstituteofAutomation ChineseAcademyofSciences 中国科学院自动化所 技术说明 前后处理 前处理时间 数字处理模块地名 人名 机构名处理模块英文转化为小写预处理乱码过滤 中文中的乱码 英文中的乱码以及包含中文词的句子 标点符号及数字变换 中文中的部分标点符号 英文中的双字节符号及数字 英文缩写处理中文分词 英文Tokenization后处理大小写转换 未翻译词保留其原始格式格式转换 去除中文中的空格未登录词 InstituteofAutomation ChineseAcademyofSciences 中国科学院自动化所 技术说明 系统融合 6 7 InstituteofAutomation ChineseAcademyofSciences 中国科学院自动化所 技术说明 外部技术 汉语分词工具 计算所开发的ICTCLAS3 0双语词对齐工具 GIZA 语言模型训练工具 SRILM工具包英文词性标注工具 StanfordLog linearPart Of SpeechTagger英文依存树分析工具 Minimum SpanningTreeParser MSTparser InstituteofAutomation ChineseAcademyofSciences 中国科学院自动化所 参评系统 CASIA SYSTEMII InstituteofAutomation ChineseAcademyofSciences 中国科学院自动化所 评测环境概要 软硬件环境运行时间 约4000句测试集 InstituteofAutomation ChineseAcademyofSciences 中国科学院自动化所 数据 开发数据 新闻 2007SSMT英中翻译测试集科技 CWMT08提供的Special语料中随机挑选200句翻译模型训练数据 新闻 CWMT08提供的Common 约85万句对和 NISTMT08评测提供语料 大约670万句对科技 CWMT08提供的Special部分语料 约52万句对 NISTMT08评测提供语料 大约670万句对语言模型训练数据 LDC2007T38提供的ChineseGigawordThirdEdition 约3900万句 InstituteofAutomation ChineseAcademyofSciences 中国科学院自动化所 数据过滤 过滤的原则 根据LDC语料中的当前句对中的所有词汇是否在发布的训练语料词汇集合中 周玉 新闻领域将NIST语料根据新闻任务发布的训练语料进行过滤翻译模型最后使用的语料为538万句对科技领域将NIST语料根据科技任务发布的训练语料进行过滤的翻译模型最后使用的语料为468万句对语言模型也同样使用了过滤技术 最后过滤剩余1000万句 InstituteofAutomation ChineseAcademyofSciences 中国科学院自动化所 测试结果 新闻领域采用基于MBR解码和混淆网络解码的多系统融合策略 融合6个结果3个来自于基于分层短语的翻译系统 HPB 3个来自于基于依存树到串的翻译系统 DHPB InstituteofAutomation ChineseAcademyofSciences 中国科学院自动化所 测试结果 科技领域采用基于MBR解码和混淆网络解码的多系统融合策略 融合6个结果2个来自于基于分层短语的翻译系统 HPB 2个来自于基于依存树到串的翻译系统 DHPB 2个来自于基于短语的系统 PB InstituteofAutomation ChineseAcademyofSciences 中国科学院自动化所 总结 新闻领域借鉴了汉英评测的经验 加入了英文命名实体翻译及前后处理模块 并且针对英文的特点 在解码中融入句法分析树 在不增加时空复杂度的前提下提高了翻译质量科技领域由于缺乏这方面的语料资源 我们只能借用新闻领域的语料 利用数据过滤技术得到相关资源但由于在选取开发集时 其规模和相关性受到制约 所以最后的参数训练并不能有效得收敛到最优如何能够充分利用有限的资源 开发出更加鲁棒的训练及解码算法 是我们下一步要思考的问题 InstituteofAutomation ChineseAcademyofSciences 中国科学院自动化所 参考文献 1 中科院自动化所评测技术报告 SYSTEMII 第四届机器翻译研讨会 2008 2 WeiWei WeiPang ZhendongYang ZhenbiaoChen ChengqingZong BoXu CASIASMTSystemforTC STAREvaluationCampaign2006 In TC STARworkshop 2006 3 YaserAl Onaizan KishorePapineni Proceedingsofthe21stInternationalConferenceonComputationalLinguisticsandthe44thannualmeetingoftheACLACL 06 4 PhilippKoehn etal EdinburghSystemDescriptionforthe2005IWSLTSpeechTranslationEvaluation InternationalWorkshoponSpokenLanguageTranslation2005 5 魏玮 杜金华 徐波 基于组块分析的分层短语系统 第九届计算语言学年会 2007 6 K C Sim W Byrne
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 法人聘用协议书模板
- 小车出租驾驶协议书
- 工友房子出售协议书
- 工程设备定金协议书
- 工程承包施工协议书
- 扬尘措施费合同范本
- 扶贫合作协议书样本
- 扶贫模式协议书模板
- 批灰施工合同协议书
- 找砖渣采购合同范本
- (2026年)中国老年肌少症诊疗专家共识解读课件
- 2026年中国电商业发展展望及投资策略报告
- 2025年广州市初中信息技术学业水平测试真题及答案
- 2025初中英语词汇表1600词分类记忆
- 2025版煤矿安全规程学习培训课件
- 孕产妇心理健康课件
- 国家开放大学《初级经济学》形考任务1-3参考答案
- GB/T 711-1988优质碳素结构钢热轧厚钢板和宽钢带
- 无菌物品的管理培训课件
- 中小学家长会-九年级第一次家长会课件-1课件
- 一代雄狮拿破仑
评论
0/150
提交评论