机器翻译系统评测规范.pdf

上传人：m*** IP属地：河南上传时间：2020-01-11 格式：PDF 页数：10 大小：175.85KB 积分：20 举报 版权申诉

已阅读5页，还剩5页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

语言文字规范 GF 2006 机器翻译系统评测规范 Assessment Specifications of Machine Translation Systems 2006 发布 2006 试行中华人民共和国教育部国家语言文字工作委员会发布目录前言 1 适用范围 5 2 规范性引用文件 5 3 术语和定义 5 4 评测的一般原则和方法 6 5 机器翻译系统的用户类型 6 6 机器翻译评测题目的编制原则 6 7 机器翻译的评测标准 8 8 机器翻译评测的其他内容 10 前言本标准规定了机器翻译系统的评测规范本标准由教育部语言文字信息管理司提出立项负责解释本标准由教育部语言文字信息管理司归口本标准由国家语言文字工作委员会语言文字规范标准审定委员会审定本标准起草单位教育部语言文字应用研究所本标准主要起草人冯志伟肖航富丽章云帆 1 中华人民共和国教育部国家语言文字工作委员会语言文字规范 GF2006 机器翻译系统评测规范 Assessment Specifications of Machine Translation Systems 1 适用范围适用范围本标准规定了机器翻译系统的评测规范本标准适用于机器翻译系统的评测以及有关的管理工作 2 规范性引用文件规范性引用文件下列文件中的条款通过本标准的引用而成为本标准中的条款 ISO11179 3 信息技术数据元的规范与标准化第 3 部分数据元的基本属性 GB T 12200 1 汉语信息处理词汇 01 部分基本术语 GB T 13725 信息处理用现代汉语分词规范 GB3259 92 中文书刊名称汉语拼音拼写法 GB T 15834 1995 标点符号用法 GB T 15835 1995 出版物上数字用法的规定 GB T 16159 1996 汉语拼音正词法基本规则第一批异形词整理表第一批异体字整理表部分计量单位名称统一用字表中国人名汉语拼音字母拼写法中国地名汉语拼音字母拼写规则普通话异读词审音表 3 术语和定义术语和定义下列术语和定义适用于本规范 3 1 信息处理系统 information Processing systems 基于计算机技术网络互联技术现代通讯技术和各种软件技术集各种理论和方法于一体提供信息服务的人机系统是由人和计算机等共同组成的能进行信息的收集传输分析加工处理存储更新和维护的系统 3 2 评测规范 assessment specifications 用于评测的规范包括评测的一般原则评测内容评价指标评测方法和文件格式等 3 3 自然语言 natural language 规则是根据当前用法而不是用显式的方式规定的语言如汉语英语德语等 3 5 中文信息处理 Chinese information processing CIP 用计算机对汉语的语音语法词汇语义语用等信息进行处理又称汉语信息处理 2 3 6 语言文字评测 language norms based assessment 依据语言文字的技术指标体系和有关规范采用一定的方法和程序对于自然语言信息处理系统及其组成要素中与语言文字相关的部分进行评价和检测语言文字评测是系统评测的重要组成部分 3 7 机器翻译 machine translation MT 利用计算机把源语言翻译成目标语言 3 8 机器翻译系统 machine translation system 利用计算机把源语言转变成目标语言的软件系统 4 评测的一般原则和方法评测的一般原则和方法本标准参照使用文语转换与语音识别系统语言文字评测标准中规定的自然语言信息处理系统评测的一般原则和方法 4 1 评测的原则机器翻译系统的评测应当遵守自然语言信息处理系统评测的一般原则即公平公正的原则遵循标准的原则人机结合的原则区别对待的原则灵活柔性的原则可操作性的原则 4 2 评测的方法机器翻译系统的语言文字评测基本上只涉及系统的外在的总体性能因此主要采用黑箱评测的方法以人工评测为主自动评测为辅 5 机器翻译系统的用户类型机器翻译系统的用户类型机器翻译的译文质量评测与用户的类型有密切关系不同类型的用户对译文有不同的要求根据用户需求的不同机器翻译系统一般可以分为如下类型 a 为浏览者研制的机器翻译 MT for the Watcher 简称 MT W 其目的是帮助浏览者查阅外文资料对于译文质量要求不高浏览者可以接受粗糙的译文 b 为修订者研制的机器翻译 MT for the Reviser 简称 MT R 其目的是帮助用户修订粗糙的译文粗糙的译文经过修订之后质量应该比为浏览者研制的机器翻译的译文有所提高 c 为翻译者研制的机器翻译 MT for the Translator 简称 MT T 其目的是帮助用户进行在线机器翻译用户在翻译时可以使用在线机器词典翻译实例库等因此对于译文质量的要求比较高 d 为写作者研制的机器翻译 MT for the Author 简称 MT A 其目的在于帮助用户进行翻译或写作要尽量避免翻译中的歧义因此对于译文质量要求更高根据上述分类可以有针对性地对机器翻译系统进行评测根据用户类型的不同评测时考虑不同的评测重点 6 机器翻译评测题目的编制原则机器翻译评测题目的编制原则评测题目是用于机器翻译评测的数据这些评测题目是从评测题库中抽取的评测题目的选取应该遵循以下的基本原则 a 为了测试机译系统的质量在外汉机器翻译系统中对作为源语言的英语日语或法语基本上应该以相应外语的大学教学大纲作为测试题目选取的主要依据在汉外机器翻译系统中对作为源语言的汉语应该以汉语常用句型作为测试题目选取的主要依据 b 对于通用机器翻译系统的测试测试题目中的词汇应该选自一般领域侧重在社会生活政治经济常识等方面不出冷僻的词也不出专业性很强的术语对于专业机器翻译系统的测试测试题目中的词汇和语法结构应该体现出不同专业领域的特点 3 c 测试题目中可以包含少量的固定词组但是这些固定词组应该是常用的不选罕用的俗语和谚语 d 测试题目应该注意区别兼类词兼类词是具有不同词类的词在机器翻译中应该加以区分使得一个单词只有一个词类标记区别兼类词是词性标注的基本问题例如在英语中 face use 是动词名词兼类词 V N 兼类词 may can will 是助动词名词兼类词 AUX N 兼类词机器翻译系统应该加以区别 face The houses face the park V She pulled a long face N attack The enemy could attack at night V The city came under attack during the night N May May I help you AUX May Day is first day of May N can She can speak German AUX He opened a can of beans N will It will rain tomorrow AUX Have you made your will yet N e 测试题目应该注意区别多义词或同音词多义词是具有多个意义的同一个词在机器翻译中应该注意区分例如英语的 doctor 是多义词可以翻译为医生也可以翻译为博士机器翻译系统应该加以区别 John is a medical doctor doctor 应翻译为医生 John is a doctor of philosophy doctor 应翻译为博士同音词是指词形相同而意义不同的两个或两个以上的词在词源学中多义词和同音词的区分是重要的同音词往往有不同的来源而多义词则只有同一个来源往往是由于词义的引申而形成的但是在机器翻译中多义词和同音词在语言学上的这种差异是不重要的关键是要把不同的意义区别开来例如英语的 bank 是同音词其意义可以是河岸也可以是银行机器翻译系统应该加以区别 He looked at the river bank bank 应翻译为河岸 He looked at the money bank bank 应翻译为银行 f 测试题目应该有一定数量的用于区别结构歧义的句子以便测试机器翻译系统分析结构歧义的能力如果一个语法可以把一个以上的剖析指派给同一个句子那么就说这个句子具有结构歧义 structure ambiguity 例如英语句子 They made a decision on the boat 中的介词短语 on the boat 既可以修饰名词 decision 也可以修饰动词 made 从而形成结构歧义对于这样的具有结构歧义的句子机器翻译系统应该根据有关语言学知识给出一个正确的翻译结果以显示系统处理歧义结构的能力例如英语句子 He bought a car with 4 doors 介词短语 with 4 doors 是修饰名词词组 a car 的因此机器翻译系统只可出一个结果结构歧义是机器翻译研究的一个难点为了推动机器翻译的进一步发展有必要适当地测试系统处理结构歧义的能力 g 测试题目的句子应该选取现代书面语中的规范句子句子中的单词和语法应该严格遵循所测试语言的规范标准 4 7 机器翻译的评测标准机器翻译的评测标准机器翻译的评测可以分为人工评测和自动评测两种在目前的技术下以人工评测为主 7 1 人工评测的标准人工评测的标准人工评测时可以分别就忠实度和可懂度制定评测标准也可以不区分忠实度和可懂度综合地采用可理解度进行评测评测时应当注意系统应遵循有关语言文字标准 7 1 1 分别就忠实度和可懂度进行评测的标准 a 忠实度 fidelity 评测译文是否忠实地表达了原文的内容按 0 5 分打分打分可含一位小数最后的得分是所有打分的算术平均值分数得分标准 0 完全没有译出来 1 译文中只有个别单词与原文相符 2 译文中有少数内容与原文相符 3 译文基本表达了原文的信息 4 译文表达了原文的绝大部分信息 5 译文准确完整地表达了原文信息表1 人工评测的忠实度打分标准 b 可懂度 comprehensibility 评测译文是否流畅和地道按0 5分打分打分可含一位小数最后的得分是所有打分的算术平均值分数得分标准 0 完全不可理解 1 译文晦涩难懂 2 译文很不流畅 3 译文基本流畅 4 译文流畅但不够地道 5 译文流畅而且地道表2 人工评测的流利度打分标准 7 1 2 综合地采用可理解度 intelligibility 进行评测分数得分标准译文可理解度 0 完全没有译出来 0 1 看了译文不知所云或者意思完全不对只有小部分词语翻译正确 20 2 译文有一部分与原文的部分意思相符或者全句没有翻译对但是关键的词都孤立地翻译出来了对人工编辑有点用处 40 3 译文大致表达了原文的意思只与原文有局部的出入一般情况下需要参照原文才能改正译文的错误有时即使无需参照原文也能猜到译文的意思但译文的不妥明显是由于翻译程序的缺陷造成的 60 4 译文传达了原文的信息不用参照原文就能明白译文的意思但是部分译文在词形变化词序多义词选择得体性等方面存在问题 80 5 需要进行修改不过这种修改无需参照原文也能有把握地进行修改起来比较容易 5 译文准确流畅地传达了原文的信息语法结构正确除个别错别字小品词单复数地道性等小问题外不存在很大的问题这些问题只需进行很小的修改或者译文完全正确无需修改 100 表3 人工评测可理解度打分评测时按0 0 5 0分打分可含一位小数最后采用百分制换算评测结果总的可理解度所有句子得分之和总句数 100 7 1 3 对于机器翻译系统中的外译汉系统汉语译文除了忠实度可懂度可理解度之外还应符合国家有关语言文字规范包括字形异形词标点符号术语人名等的规范具体要求如下 a 字形经过外译汉机器翻译系统输出的汉语译文在字形方面应符合第一批异体字整理表简化字总表部分计量单位名称统一用字表规定的字形 b 异形词汉语译文对异形词的处理应注意词形规范 c 标点符号汉语译文中的标点符号应注意使用规范应符合 GB T15834 1995 标点符号用法的规定 d 术语外译汉机器翻译系统应注意术语的翻译问题各学科术语的翻译应使用全国科学技术名词审定委员会已公布的术语例如计算机术语 backup 有备制后备备用备份几种译法应选用备份 menu 有菜单选单两种译法应选用选单又如物理学术语 charm quark 有魅夸克粲夸克两种译法应选用粲夸克 diffraction 有绕射衍射两种译法应选用衍射 e 人名外国人名的翻译应遵循名从主人约定俗成的原则例如法国数学家 Galois 是法国人其中文译名应遵照名从主人的原则按法语读音规则译为伽罗华而不能按英语读音规则译为伽罗依斯对于早已熟知的外国人名由于他们的中文译名已经相沿成俗可以按照约定俗成的原则继续沿用旧译名不宜改动例如笛卡儿 R Descartes 伽利略 G Galilei 牛顿 I Newton 英美人名应当以新华社编写的英语姓名译名手册或全国科学技术名词审定委员会已公布的译名为准例如诺贝尔文学奖获得者 William Faulkner 有威廉福克纳和威廉姆弗格纳等不同的译法应根据英语姓名译名手册译为威廉福克纳除此之外机器翻译系统还应注意不同风格不同语体文章的翻译问题例如小说对话的译文应使用口语词汇而正式文体的译文则应使用书面语词汇对于汉译外机器翻译系统汉语原文应遵循我国已经发布的有关语言文字标准使用第一批异体字整理表简化字总表中的规范字形 7 2 自动评测的方法自动评测的方法 a BLEU 评测方法这是一种基于 N 元语法 N gram 的自动评测方法它通过对译文跟参考译文进行 N gram 的比较综合而得出译文的好坏的评价分数这种基于 N 元语法共现的统计方法中一元词的共现代表了翻译的忠实度它表征了原文里面有多少单词被翻译了过来而二元以上的共现词汇代表了目标语言的可懂度阶数高的 N 元词的匹配度越高系统译文的可懂度就越好其基本计算公式为 logexp 1 N n nn pwBPScore 6 1exp 1min Lsys Lref BP 其中 Pn 被测译文中与参考答案匹配的 N gram 总数被测译文中 N gram 总数 BP 长度惩罚因子 Lref 与被测句子长度最接近的答案长度 Lsys 被评测句子的长度 N 最大 N gram 长度 Wn N gram 的权重 exp x 表示 e x 即以自然对数 e 为底的指数函数 BLEU 是根据 N gram 准确率的几何平均值来计算的得分越高越好 b NIST 评测方法 NIST 在 BLEU 标准基础上提出的一个改进方案称为 NIST 评测标准 NIST 方法采用各阶 N gram 的算术平均值而不是几何平均值使得总体评价结果更偏重于忠实度而且也不至于因为某一阶 N gram 的匹配率为零而导致总体评价为零另外 NIST 考虑到每一个 N gram 在多个参考译文中出现的次数不同能够表现出该词的重要性因此根据其在多个参考译文中出现的次数而给每一个 N gram 赋予一个权值实验证明 NIST 在敏感性对被测系统的区分程度方面高于 BLEU 下面是 NIST 的基本公式 1 minlogexp 1 2 1 occur cothat w wall output sysin wall 1 11 ref sys N nw n L L wwInfoscorce nn wof soccurrence of the wof soccurrence of the log 1 11 21 n n n w w wwInfo 是一个常数是一个经验阈值使得在 Lsys Lref 2 3 时使得长度罚分率为 0 5 refL 是参考答案的平均长度其余参数意义与 BLEU 相同 NIST 是根据根据 N gram 准确率的算术平均值来计算的得分越高越好 BLEU 和 NIST 的自动评测结果有助于减少人工评测的主观性对于人工评测有一定参考价值在机器翻译评测中建议以人工评测为主以 BLEU 和 NIST 的评测结果作为参考

人人文库> 全部分类> 应用文书 > 技术指导

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

机器翻译系统评测规范.pdf

文档简介

温馨提示

最新文档

评论

机器翻译系统评测规范.pdf

文档简介

温馨提示

最新文档

评论

相关文档