




已阅读5页,还剩49页未读, 继续免费阅读
(计算机应用技术专业论文)英汉机器翻译系统自动评测方法的研究与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
璃要 机器翻译豹评测对垭器翻译技术的硪究以及市场的推广具有重要的推动 乍 用。评测的方法可以分为人工评测和自动评测,其中人工评测是指参照一定的标 准秘燕范由入j f 孝极器熬译系绞给整熬候选译文进行谬分;自动谔测则楚裂耀执器 来完成这一打分过程,但要求打分的结果尽可能与人的评分相一致。本文的主瑟 工俸愁对英汉税器酾译系统豹蠡动译溺方法避行鬃致豹分橱弱磷究。 传统的机器翻译自动评测方法有很多,其中主要包括三种:b l e u 、n i s t 、w e r 。 b l e u 的基本恿悲是通过统计翻译系统给宙的候选译文和参考译文中共琥疗元词 的个数和糖度来计算评价分数。n i s t 在b l e u 方法的慕础上,提出了另外一种基 于共现门元词的统计方法,它认为如果个门元词在参考译文中出现的次数越少, 那么该n 元词毽窘豹馁息量藏越大,麓应该赋予更嘉躯权重。疆疆方法敦实竣是 通过对候选译文到参考译文之间的编辑距离进行某种归一化处理来对翻译系统 豹整麓透毒亍彝溯谤溯。尽管这兰耱方法绘窭熬浮溺缭聚常豢畿够这到令人渍意瓣 相关性水平,而且b l 删和n i s t 方法融经被接受为国际标准,但是它们的评测结 果在数僮上与人工评灞分数还有较大差剐。正因帮诧,本文键密了n 嚣s 庸翳方 法试图解决这问题。n e d n e s 也怒以编辑距离为基础,但是在理论上它的归 一化处理比w e r 方法照台理,而且在实际应用中也比w e r 方法更接近人工评测的 分数,嗣时与人工评测豹相关性也不驻于其锻方法。 旗于上面四种评测方法,本文设计并实现了一个英汉机器翻译自动评测系统 一麓& a l u 鑫t i o n ,该系统胃遥撂大缨法襄遽掇法生戏测试集,恧显可以分嬲 从基于字和基于词两个角度对测试集的译文进行评测,同时提供了可视化界面使 用产受直鬣静了解评测细节佰怠。遥进对露个黼译系统静评灏结栗分辑表骥,该 系统不仅达到了与“8 6 3 评测系统”可比的水平和性能,而且酋所包含的n e d n e s 与人工评测凝有很好的相关憾。 关键调极嚣皴译评测:b l e u - s t ;w e r :n e d 烈e s a b 髓f a c t a b s tr a c t m a c l l i n 。t r a n s l a t i o n e v 8 1 u a t i o n ( m t e )p l a y s a n i m p o r t a n t r o l et om e d e v e l o p m e n to f a e 珏l 藏e 囊撼s l a 蛀髓t o 穗l o 料a n d 主姆m a 瘫o t 鼬带积醚聪 m e t l l o d 8c a f lb od i v i d e di n t ot w oc 黜g o r i e s :h u f n a na s s e s s m e n t sa n da u t o m 撕c e v a l u a 娃濉,w h c r eh u m a na s s e s s m e n t si st oe v 8 l 珏& t e 氆ec 托d 诺稚e sp r o d 鞋c 醯b y 醚彳 s y s f e m s w i n l 出eh e l po fh u m a n s r e 触e n c j n gt os o m ec r i t e r 沁w h i l ea m o m a t i ce v a l u a t i o ni s t oe v a l u a t ei tb yc o m p u t e r ,r e q u 赫n g 协a ti t se v a j u a t i o nr e s u l t sa c c o r d 嘶mh 雌l a n 建s s e s s 掇e n 拓a s 壬缸a sp o s s 南王e t h e 珏l a 融w o r ko f 嫩i sp a p e ri st oa n a l y z e 氇u t o m 碱g e i 】9 1 i s h c h i n e s em t e v a l u a 廿0 nm e m o d si nd e t a i l s - 罩瓤e 托a r 。m a n yt 箍趱鞋o b 鑫l 魁e 氆o d sf 殛t 鑫越o m 戳至ce v 蠢u 躐i , 量臻e e 擞a 主珏o f w h i c hi n c l u d e :b l e u 、n i s t 、w e r n eb a s i ci d e ao f b l 州i st oc o m p u t ce v a l u a t i o n s e o r e s 毋c o u n t i r 培镪en 嘲n b 雠o fn g f 硅l ne o o e 秘黜eb e 氟v o c 珏r e f e f 蠛l c e sa 箍畦 c a n d i d a t e sg i v c nb ym t s y s t c m s n i s ti sa 1 1 0 m e rs 诅t i s n c a lm e m o dc o u n t i n gn g r 黼 c o o c u r r e n c eb a s e do nb l e u ,w 嫩c ha s 8 蟾n sah i g h e r 、蛾g 辩t oam o r ei n f o r m a t i v e n 嘿f a mc o o c u r r e n c ew 主搬al e s sn i 强b e ro c c u r r i n gm r e f e 揩n c e s ;t h ee s s e n c eo fw e r i st oa u t o m a t i c a l l ye v a i u a t et h ep e r f b 蝴a 1 1 c eo fm t 科s t e m sb yat e c h n i q u eo f 娃。掰l 蠢i 囊建g 凌oe d i t 基s 锻矬c o sb o l w e 。珏c a 臻d i d 最t e s 鞠d | h 或fe 。f e s p o 芤d i 珏g 端凳f 羲e e s 。 a 1 t h o u g ht 1 1 et h r e em e t h o d s ,b l e ua n dn i s to fw h i c hh a v eb e e na c c e p t e d a s i n t e m a t i o n a ls t 箍n d 瘫s ,e a 琏g i v e 躺缸弧a t i ee v a l h 撞t i o n sw i 魄as a 眭s f a e t e 搿c o “e l 鑫鼍i 雠 t oh 瞰a na s s e s s m e 玎t s ,u l es c o r e so fm e mh a v e8 0 m el a r g ed i f f 色r 烈y tv d i u e sf r o mm a t o f h u r n a i la s s e s 8 m e n 谯。t h u st h en e 渊e sm e t h o di sp r o p o s e dt os o l v et h i sp r o b l e m n e d 烈e si sa l s ob a s 嚣do n 吐l c n c e p to f 耐i td i s t a n c ew i t hn ol e s sc o 髓l a t i o nt o h u m a i la s s e s s m e n t s 血a ns o m eo t l e rm o t h o d s ,b u tt h en o m l a l i z i n gt e c h n i q u eu s e db y i t i s 毪撼挖瑶a s o n 痨l e 也黼氆雏努砸r 汪氆e o 弛强d 龇s e o 辩sc o 珏l p u t o d 努建i s c l o s e rt om a ta s s e s s e db yh u m a ni n 印p l i c a t i o n b 撞s e d 瓣落ea b o v ef o 聪rm e 疆o d s ,融糙薛照- e 撼珏e s e 鹾硅! s y 髓e m 一 e c e v a l u a t i o nh a sb e e nd e s i g n e d 锄di m p l e m e n t c d i n 也es y s t e m ,恤r ea r e 柳o m o d e si n c l u d i n g o u t l i n e ”a n d “s t o c h a s t i c ”w h i c hc a nb ec h o s e nt op r o d u c et e s ts e t s a l s o ,m ec a l l d i d a t o sp r o d u e e db yn f rs y s t 。mf o r 程摊把s ts e t sc a nb ee v a l u a t e d 蠹o m t c h 删a c t e r ”o r “w o r d ”p o i n to fv i e w ,p r o v i d i n gm o r ei 幽r n l a t i o na b o mc v a l u a 娃o n f o ru s e r si n 协ev i 8 u 甜i m r f a c e b ye x p 商m e n t se v a l u a t i n gf 0 1 l rm 了s y s t e m s ,i th a s b o e ns h o 黼畦l 贰赶l e 垂e v a l u 8 蛀o ns y s 挺me a nr e a c hae o m p 甜a b l el e v 。lo f p e r f o r m a n c e 州m “8 6 3e v a l u a t i o ns y s t e m ”,a i l dt h en e d n e sm e t l l o di ti n t e f a t e d o 撇。叠e ng i v ea 黩o s e fs c o 羚协酝攥越黯s e s s 越e 啦攮a 芏ls o 礅eo 凌e f 懿e 也。鑫s f ( e y 们r d sm t e ;b l e u ;n i s t ;磁n e d ,n e s - r v 独剖性声明 本入声麓所量交的论文麓我个人在等筛措等下遗行的研究工 乍敷敬褥的研 究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含箕他 人已经发表或撰写过黝研究成累,也不包含为获褥北京工业大学或其它教育砉l l 构 豹学位域 正书酒使用过的材料。与我一同工 乍的同志对本研究所做的任何贡献均 已在论文中俸了疆确熬滋羁并表示了谢意。 签名:超叠叁嚣瓤熬堑:- 窖 关于论文使用授权的说睽 本人完众了解北京工业大学有关保留、使用学僚论文的斌窥,即:学校有权 媒餐送交论文的复印件,允许论文被查阕和借阕;学校可以公布论文的全部或部 分内容,可以采用影印、缩印或其他复制手段保存论文。 绦密的论文在躲密嚣疫遵守_ 拨援定) 签名:,姬叁导师签名:焘至丝日期:趟:蒸:2 第1 章绪论 1 1 课题背景 随着近年来机器翻译发展,研究人员认识到机器翻译评测对机器翻译的关键 技术及市场推广的重要推动作用。人们对机器翻译的译文质量要求也越来越高, 过就要求翻译软件的翻译水平应该随着人们的需求不断的提高,可是不同需求的 人们对翻译软件的需求是不同的,有的用户更注重译文的流利度,而有的用户更 注重译文的忠实度等等,所以这就要求我们应该从根据用户的小同需要,从不同 的角度来改进翻译软件水平。 许多人对于机器翻译的译文质量存在误解。他们误以为,既然计算机能够自 动地进行翻译,那么,无论何种原文材料,机器翻译系统都能顺利地百分之百正 确地把它们翻译出来。抱着这种误解,人们对泽文质量往往要求很高,当人们读 到机译系统类似下述译文时, 原文:h e rf a c eg o tr e d ( 译文:她的面部得到了红。) 或 原文:他实现了当医生的理想。( 译文:h er e a l i z e d t h e i d e a l w h e n d o c t o r ) 不禁哑然失笑,觉得机器翻译的太愚笨了,对译文的质量失去了信心。事实上, 六十年代美国自动语言处理顾问委员会著名的a l p a c 报告【1 1 就是由于对机译系 统译文质量过于苛求,从而采用了错误的标准对机器翻译做出了否定的评价。但 是,这利错误却给机器翻译的发展带来了灾难,机器翻译研究因此在世界范围内 跌入低估而出现空前萧条。因此,如何客观、公正地评价一个机译系统本身就是 一个研究课题。 机器翻译评价,简单地说,就是为了能够正确客观地反映机器翻译的成就和 作用而对机器翻译的各个方面进行的评价活动。机器翻译评价的意义在于通过评 估机器翻泽的性能和发展水平,及时发现机器翻译系统研究和开发中存在的问 题,明确努力目标,找到解决办法,为现有机译系统的改进提供方向,不断提高 机译系统的译文质量。即是说,把评测作为一种手段,及时检测机译系统的质量, 引导机译系统研发人员对系统做进一步的研究和开发,使系统得以不断完善,最 终达到实用化的屋标。同时,客观公正的机译系统评价不仅可以为开发新型机译 终达到实用化的目标。同时,客观公正的桃译系统评价不仅可以为开发新型机译 系统的技术路线的选择提供决策依据,还可咀引导用户恰当选择合适的机译系 统,键迸辊译系统发撂卒主会效麓帮经济效益。 1 。2 本课题的研究现状 近年来,纛自然语言研究领域中,详溺翔鼷越来越受至l 广泛豹重稷。露舔上 为了推动自然语言研究的评测,在过去的几年中,进行了若干次有影响的评测活 动,如m u c 评测专名识别问题,h 魄c 评测信怠检索的发展,还有许多机器翻 译积疆酱技术的评测溺动,所考这些弹馋活动都有力媳促进了相关学科的发展。 国内对机器翻译评测的研究主要是由北京大学计算语言学研究所俞士汶教 授在粥年代蓊爱舔究并开发豹凇e 系统弘】。该系统搜翅分类湾 盍法,并建立了 机器翻译测试大纲。另外,国家8 6 3 计划也在9 0 年代组织了几次专窳评测,对 当对匏汉英秘獒汉蘸译系统逶行了疆场评溺,洋溺结巢反浃磁了我蓍程9 0 霉代 机器翻译的发展水平。 八十年代肖人提出机译评估系统威是适用范围广、客观的、应该能用来比较 各令瓿译系绞嚣不是攀缝毙较人王蘩译与辍嚣瓤译。缎遗撼瓣是,实践- i 蒌爨,剿 目前为止,要开发这样一个理想的评估系统还是困难篷重: 善宠,对予秘译,无论是械泽还慧久译,没有骨么“是”藏“不怒”一类翡 绝对昝案,只肖“好”、“较麓”、“羧”的质量等级之分。而对于“好”与“潍” 的标准,仁者觅仁,籍者觅警,所以酾译评依往往难黻摆脱主观性。 其次,对予机器翻译,不阉的用户有不同灼要求。一些人要求译文的质量要 高,翁些人疆求只要译文能读懂即可。人们黉求机译评估的原因也备自有所侧 重,拳晁器熬译麓户急予知道各系统戆爨曩以及王痒效率,蘑望壤译评铵帮助热稍 决定联哪一个系统;系统开发者想了解系统的不足之处;研究人员希耀通过机译 评话了解菜释灌论酶液麓渣魏潋及有镑蒗遂黪逮方;套基金缝缓瑙稀要综合评 测,以便决定支持哪一个项目。所以说,很难制定出统一的评估标准。 弼外,梳译评估的难点还在于它通常需要把体系结构完全不闻的各系统稠撬 并论,进行比较。现在的机译系统一般采用直接、转换、中间语言和基于实例的 翻译遮四种体系结构,它们备有所长,各有所短,或者翻译质量高但速度慢,或 者速魔快却震量差,绞难 莞哪零孛方法邈具优势。鼙健怒体系缝擒超圜豹系统,有 籍l 攀鳍谂 时为了满足用户的需要,可能会把系统局限于不同的予语言,因此,比较各种机 译系统紫鬻露一定熬毽难。 掇握评镰酝采用的技术,枧译谨钴珂分为巍动谤憾与非爨动评估。近年来, 国舞的研究税稳已经开始了梳器舔译窝动浮测静磷究王佟,并取褥了喜人麴成 果。在l b m 搀匿它静鑫劾评价系统转毯灌蒸,n i 鼹在葵基磁上又添翔了片段信 息氮计算方法。w e r 方法是翳外一种自动评i 燹! | 方法,它的评价分数实际上稻警予 计算候选译文与参考译文之间的某荦中错误率。 1 3 本文讲究内饔 本文的主要工作跫辩自韵评测方法中的b ,e u ,n 醛t ,w 嚣r 方法傲了翼体的 介绍,并且分析了它们各自的优缺点,同时我们在编辑距离的基础上提出了 n e d 烈e s 掰的浮测方法,黉旦对遮静方法进孝亍了详细的介缓釉证明。基于上面 蹬秘谔溅方法,我们设计劳实现了一个英汉机器翻译自动评测系统。利用这个测 试集我们对鬻秭舔译静译文避行了洋灞,势对溺试数攥遂嚣了分摄,逶过浮测泛 胡,n 髓i 黼毪s 方法矮有很好懿可翥蛙,露嚣雩写人工浮溺具露貔好浆糨关蛙。 。碡论文安排 本论文主装势必六章,总体安撵熬下: 第一章是绪论,主要介绍了课题背景和本谍题的研究现状,并慧体土论遴本 文躺研究内容。 第二章主凄对茨汉机器翻译自动评测的概述,酋先对机器翻译进行了简单的 介缨,按下来介绍了机器翻译评测技术出现的原因,最后对机器魏译评测的橛念、 分炎秘援关的评测机构进行了简单的介绍。 第三章怒基动评测方法鹩奔缨,饕先对大王评测巍捉器评测豹拣准进行了分 绍,然磊分裂瓣b 嚣跚、熊s t 、w 嚣r 三耱传统熬塑动评测方法进霉亍了详纲的奔 绍分析,之后提出了新的评溺方法n 糙潲e s ,并辩爻进行了淫论分税稻灾铡分 析。 第四章主要对e c e v 咖撕o n 菠汉机器翻译自渤评测系统的功能及操作进行 了介绍,同时对测试平台接建过程中鼯到的关键技术做了详细的介绍。 北京工业大学工学硕士学位论文 第五章是机器译文的评测和实验数据的分析,本章首先简单介绍了译文质量 评测的步骤,接着详细分析了对四种翻译系统的译文进行评测的结果,最后把评 测结果跟8 6 3 的评测结果做了对比。 第六章是结束语,首先对英汉机器翻译自动评测的工作进行了总结,然后对 未来的工作进行了展望。 1 5 本章小结 本章是绪论,主要先介绍了机器翻译自动评测系统在国内外的发展历程及研 究背景,接着对机器翻译自动评测系统的研究现状作了简单的介绍和分析,然后 又总体上讲述了本论文的研究内容,最后是对论文写作的总体安排。 4 第2 章机器翻译评测概述 机器翻译评测是评测在机器翻译领域中的一个应用特例,因此它同时具备评 测与机器翻译的特点,有了机器翻译自然就会有对机器翻译系统的评价。机器翻 译评价无论对于机译系统开发人员,还是对机器翻译技术的用户都有着重要作用 可。机器翻译与机器翻译评价总是相辅相成的,机器翻译的发展决定了机译系统 评价的进展,而对机器翻译及机译系统译文质量的评价又会反过来直接影响着机 器。本章所要讲述的就是机器翻译评测的发展历程及其研究现状。 2 1 机器翻译简介 在对机器翻译评测进行介绍之前,我们先来简要介绍一下机器翻译。机器翻 译的总任务可以描述为:将一种语言( 源语言) 的文本送入计算机,通过计算机程 序生成另一种语言( 目标语言) 的文本,且源语言文本与目标语言文本具有相同的 含义机器翻译系统的类型很多,采取的策略和技术也有差别,但它们的基本工作 过程大体上是一致的。机器翻译的第一步是在不同层次上分析源文本,而后是目 标语文本的生成。这两个步骤是机器翻译系统基本实现过程中的两个主要组成部 分。 2 1 1 源语分析 源语分析是所有现代机器翻译系统的基础,翻译的质量本质上依赖于分析的 质量和深度。所谓源语分析争”,就是遵循一定的语言学基础,寻求源语文本的 表示形式与其对应内容之间所存在的映射关系的过程。文本内容可以由句法结构 表达式、文本命题含义表达式、综合的中间语言文本描述。典型的源语分析手段 为:依据与源语文本所表达含义相关的词汇、句法结构、单词和句子的顺序,灵 活地找出目标语译文。源语分析的深度不同,是造成各机译系统之间存在差异的 主要因素。 源语分析涉及多个不同层次,分析过程按照复杂度递增顺序可划分为以下几 北京工业大学工学硕士学位论文 个阶段: ( 1 ) 形态分析:用于获取源语言词汇原形。在机译系统的研制中,两层分析 法是普遍采用的形态分析理论,而有时也采用不太通用但更适合于特定语言、特 定任务的方法。 ( 2 ) 句法分析:用于摘取源语文本短语结构、句法结构的依存性,即确定输 入文本中词汇的词性、短语边界及短语的内部结构。 ( 3 ) 语义分析:利用文本含义描述语言建立知识结构,反映源语文本的词汇、 词义及相互之间所存在的语义依存关系,可消除词义歧义、介词短语修饰歧义、 复合词分解歧义等等。 ( 4 ) 语用分析:根据源语文本元素之间所存在的各种面向应用领域和修辞的 关系,建立源语文本语义结构。语用分析主要解决指代歧义问题、通过语义各角 色约束的确定、比喻和换喻的理解、坏结构输入所引起的问题以及省略情形等等。 2 1 2 目标语生成 通常,目标语生成被看作源语分析的逆过程,但也具有自身特点,主要完成 以下两项任务: ( 1 ) 文本规划:对各种表达方式进行选择,确定欲实现的目标语文本的有关 内容、修辞方式等信息。 ( 2 ) 表层实现:根据目标语语法,将由词汇组成的句法表达式映射为表层字符 串。 2 2 机器翻译的发展历程 世界上许多国家长期以来都一直在从事机器翻译睁9 1 这项研究。事实上自本 世纪4 0 年代电子计算机诞生之日起就开始了将计算机应用于语言翻译的探索( 事 实上,在电子计算机发明之前就有人提出过机器翻译的想法) 。5 0 年代初,人们 便发现电子计算机适合于进行机器翻译,因为这种新机器可以存储大量的信息, 并且能够方便地对存储和输入的信息进行各种操作;而且,由于当时美国和苏联 对抗,美国需要把大量的俄文技术材料和情报翻译为英文。因此,当时很多大学 和公司从事机器翻译的研究和开发。计算机的出现和适量的需求,促成了机器翻 一6 爨2 章机器秘译评测概述 译历史上的第一次高潮。 到6 0 年代裙,这次高潮逐步结束。从6 年代中期到8 0 年代初,梳嚣翻译 处于一个低落期。主要是受了焚国曾专门组织的一个机构于1 9 6 6 年发表的机译 界无人不晓的剐已p a c 报告的影响,各圈纷纷停止了对机器翻译研究的经费支撩。 a l p a e 摄告主鼹说豹蹩:经过调查,枫器翻译速度慢,准确攀差,毖人工翻译 的费用高得多,在近期成可以预见的未来,开发出实用的机器翻译系统是没有指 望熬。这个掇惫爱寒虽曾受妥诲多严肃懿魏译,谈羹它建带毒严重镶撼貔,毽它 还是对机器翻译研究造成了很大的损臀。 在这个时髑,语言学,特澍是计算语言学删,获得长是遗步,入们对自然 语言理解有了鹱好的认识,在利用计算机处理巍然语言方面有了很大进步。同时, 那些真芷喜爱机器翻译的科学寐进行了不懈的探索,并于7 0 年代建遗出一些实 用豹耄| i 器翻译累统,如美国的s y s 豫州系统,麴拿大的t a 涮一髓丁e o 系统,爨 本日立公司的a t l a s 系统,法国编织研究所的t 工t u s i v 系统簿。这个时期在计 算语言学方露鹣理论稷累窝建造实矮系统麓经骏积累,为下一令葛灞麓静到寒奠 定了基础。 7 0 年代中期祝器翻译开始在世赛范闺内复苏并酲趋走向兴箍。在8 0 年代裙, 人们预艨到信息时代的到来,销能性的信息处理是信息时代所迫切需要的。机器 翻译怒智能信息处理j ( 1 2 1 的一个重要领域,再加上己建成的几个机器翻译系统 靛鼓舞,机器熬译重毅受到各濑躲重援,许多发达国家提继投入了巨额资金研究 和开发机器翻译,形成机器翻译的第二次高潮。欧共体的e u r o r a 计划和d l t 系统, 巨本熬装u 系绞秘a 诗矧,敬及美国e 磋u 浆税嚣熬译磅究等,都楚这个融期著名豹 机器翻译研究项目。广阔的应用前景和前一时期的理论和技术积累是促成这次机 器舔译离潮的主要因素。在这个时期,诺言翔谈的表示梳裁,脊了穰大发展。隽 外,人们开始蹩视对机器翻译策略的研究,除了传统的基于规则的翻译方法,还 研究了基于实例的机器翻译、基于统计的机器翻译等新的机器翻译方法。 2 3 枫器翻译的分类 人类的翻译过程愚一个非常复杂的智能活动,由1 畦:不难推断,机器翻译也楚 一项极其挑战蠼躲硬究课题郾l f l 4 j ,因强其中几乎涉及了叁然港言处璜疆究中豹 各个方面。在机器翻译研究领域,研究者们已经糖出了备种理论和方法,解决了 缀多闯憨,僵仍然存在蓑大量静匿难。桃器蘸译主要分为下面凡类8 ” : 1 ) 壹菝豹程器翻译 直接的机器翻译方法是为特定的源语言和目标语言对丽设计的。其主要的思 想是对源语言进行简单的分析,通过一个简单的词典查找来找到源语言革词的对 疆调,势按照基拣语言的规则采藏毅组织这些对译词,从恧生成强标语蠢。这秘 方法需要个很完备的词典、词法分析和文本处理,而不是语言学理论和句法结 构。2 0 毽纪5 0 年代移6 0 零代懿辊辑秘译蓉绞采矮麴餐是遮秘技术。 ( 2 ) 基予转换懿凝器熬译 由于直接翻译舆有很多的不足之处,所以研究者提出了基于转换的机器翻译。 在基于转换的枫器翻译系统中,有3 个綦本的步骤: 第一步,分攒。通过调素处理、分词和词性栎注、句法分析,语义分析等将 源语言转化为预先定义好的内在的抽象表示。 第二多,转换。将漯谗言熬送穆内在结棱在谣汇和终桶上转化为摆痰的强搽 语言表示或目标谣言抽魏的内在的结构,不同的目标语言有不同的目标语言表示 残嚣标谣言籀象豹内在黪结梅。 第三步,生成或合成。遵守必需的句法,语义和实用限制,从目标语言的内 在结构产生出蟊标语言。这个过程可以认为是第个步骤的饲转,其实在本质一k 是不一样的。 ( 3 ) 基于中间谮言的机器翻译 中问语言的方法,根据一种假设将源语言转化为一种对多种语言都拱用的内 农结兹。缀蔻这个基标露激逶遘遴嚣一令滚爱分爨寒实魏,爱潋从源语言到嚣撅 谱言的转化不用进行。 ( 4 ) 基于知识的机器翻译( k b m t ) 基予知识酌税器翻译是基予中阉语言的祗器黼译静释典黧派生。簇予知谈 的机器翻译在功能性上骚求完全地理解源语言的意思来实现一个成功的、高质爨 - 8 - 算2 章# 器翻译评铡橇述 的翻译。一个基于规则的机器翻译系统中有大量的语义和注重实效的知识和所存 在的领域的概念推理。因诧,在基予知识的祝嚣翻译中,领域模登的开发是一个 很重要的问题。这个领域模型的主要任务是支持文档的全面消歧。为了实现这个 目标,需要域中的每一个事件概念强调把什么限制加在对象概念的论点要素上, 或萁表示豹撞土。在枫器熟译豹发展的月对,巍器翻译浮测也逐澎豹形戏了一 j 比较完善的学科。每隔段时间,一些研究机构就组织机器翻译的评测比赛。比 较著名瓣蕴织蠢激r 熬,矗湃轰,瓣 豁等。篷缮一提戆是这些评溅凌嚣帮是耗资嚣 大的。评测项翻本身的耗费并不亚于一个机器翻译的项目,有时甚至会更大。但 是人稍为什么鼗花大力气去遗行棍器翻译静评溯弦? 下一节我钌裁来分绍遂行 评测的原因。 2 。4 为什么要进行机器翻译的评测 其实进行机器翻译评测的原因不止一个,难是这些不同种类的原因产生的不 同种类的评测以及不同的评测方法。下面列出了一些避行评测的原因邺。l : ( 1 ) 与人工翻译迸彳亍院较 这令暴困英实是瓿器翻译瓣最终礤究窭搽。对于个毒于葵凝程序寒说,翻译 的结果能够与人工翻译的结果相比较逐有很长的路要难。但是进行这样一项评测 还是努簧耱。 2 ) 决定是孬购买一个辊器熬译产燕 所有机器翻译用户都希望在他们购买一个机器翻译系统之前得到该系统的 各项性能指标。此时要考虑的因素就不只是髓译质量,还要考虑到翻译系统的价 格以及速度等城素。如果一个潮译系缆,它的使用耗费大于个人翻译的耗费,那 么用户就没有必要去购买这个翻译系统。许多组织是基于这个原因去衡量翻译系 统懿磷发送凄,懿a r 欺。还囊胃钱裁楚援户在多令系统之阉选择适合塑己嚣式 的翻译系统。 ( 3 ) 跟踪技术的发展 为了验证个酾译系统最否在菜顼性能上得甄了罐升,我稍有必瑟在系统的 母* 北京工业大学工学硕士学位论文 每一个开发阶段进行一下阶段性的评测。这种评测的结果往往是其它机器翻译研 究人员所关心的地方,并且这种评测并不只是关心性能的提高而是关心性能提高 的原因。同时这种评测也加强了研究人员之间的技术交流。 ( 4 ) 提高特定翻译系统盼陛能 有时候为了分析系统到底哪个地方性能好,哪个地方性能差,我们要具体的 了解系统某一模块的性能,尤其是在出错的地方,系统工程师和语言学家要仔细 的分析到底为什么出错,只有解决了这些暴露出来的问题才有可能进一步提升系 统的性能。 上面列出的是一些机器翻译评测的主要原因,可以看出不同的群体对评测的 出发点和要求是不同的。既然许多的群体都需要对机器翻译系统进行评测,那么 进行什么样的评测才能满足特定群体的需求昵? 下面我们就来介绍机器翻译系 统评测的概念与分类。 2 5 机器翻译评测的概念与分类 2 5 1 机器翻译评测的概念 在进行机器翻译评测的讨论前,我们先来看看机器翻译评测的定义- 2 ”。机 器翻译评测就是以机器翻译软件为测试对象来进行的评测。 e a g l e s ( e x p e r ta d v i s o r yg r o u po nl a n g u a g ee n g i n e c r i n gs t a n d a r d s 语言工程 标准专家顾问组) 给出了机器翻译评测的函数形式定义: 评测其实是一个函数( o ,u ) 一) v 。这个函数由三个部分构成: o 是对象的集合 u 是用户的集合 v 是值的集合 o :代表了评测的对象,在机器翻译评测中指的是机器翻译计算机程序。评 测的对象可以看成是由一些可被单独评测的功能实体模块组成的。例如:翻译工 作台可能包括了诸如编辑器,在线术语库以及翻译记忆等模块,而且各个部件还 可进一步被细分。 u :代表用户。它指那些对o 感兴趣的人们或组织。一个用户就是一个期望 第2 蕈机器翻译评测概述 某种服务的人,并且用户是分种类的。它可被看成是对被测试系统的某些期望和 约束。不同种类的用户对程序的各个方面的关心程度是不同的。u 并非直接包含 了用户所有的期望和约束,与之等价的是它包括了用户对被测试系统的各子部件 的期望和约束。u 应该还可被看作环境的函数。 v :代表实用性。它可以定义成线性有序的,这时我们能将不同的“对象 用户”二元组映像到v 中去。 从上面的定义中我们可以看出,要想进行一次评测,我们首先要提供三个集 合:o ,u ,v ,以及从o ,u 到v 的映像机制。我们还可以看出,同样的o 而不同 的u 我们可以得到不同的v ,这说明对于不同的用户需求评测的种类也不同。 2 5 2 机器翻译评测的分类 下面我们就来讨论一下评测的分类【2 6 一】,从不同的角度来看,评测可以以不 同的方式分类。单就评估方法而言,机译评估大致可分为三类: 第一类为操作性评估( o p e r a t i o n a le v a l u a t i o n ) ,有时也称作经济评估( e c o n o m i c e v a l u a t i o n ) 。这种评估所关心的是机译系统的经济价值。其具体操作方法是比较 机译与人译每字或每页的花费以及所耗的时间。这种评估方法的优势在于它为用 户提供直观的评估结果,因此它是很好的购物指南。但遗憾的是这种评估方法没 有涉及译文质量而且其针对性太强,不适于e e 较不同的系统。 第二类为说明性评估( d e c l a r a t i v ee v a l u a t i o n ) ,又称质量评估( q u a l i t a t i v e e v a l u a 廿o n ) 。这种评估侧重通过评测译文质量评价各机译系统的性能。因此,说 明性评估的关键在于制定质量标准。目前,大家公认的标准包括译文的可理解性 ( i c e l l i g i b i l i t y ) 与忠实度( f i d e l i t y ) ,有时也包括语体风格及语法。a l p a c 报告中采 用了说明性评估方法,我国的专家评测也通常使用这种方法。说明性评估通常聘 请专家或懂源语言与目标语的人参加,有时也请母语为目标语的人加入。评测时, 由专家出题,让各机译系统翻译,评测人人手一份评分标准,评分标准通常是一 个等级量表,把翻译按忠实度与可理解性划分成几个等级,评测人按此标准为每 一个机译的句子评分。每个系统的最后得分情况可以用所有句子的平均分表示 ( 如我国8 6 3 智能接口评测中的机译评估) ,也可以用折线图表示各个等级的句子 的频率( 如a l p a c 报告) ,如果质量高的句子出现的频率高,则代表机译的译文 北京工业大学工学硕士学位论文 质量高。说明性评估有一个明显优势,它能直接表明译文质量。但是,说明性评 估也有致命的弱点,即评估过程带有强烈的主观性。首先,制定评分标准时就含 有主观性,有的评分标准把译文质量分成十个等级,有的分成四个等级,诚然, 十个等级的等级量表对质量划分更细致,但何时采用十个等级何时采用四个等级 都是由人主观决定的,而且即使对同一评分标准,评测者各自理解也有所不同, 因而,常常是对同一个翻译,不同评测者把它划入不同等级。 第三种常用的评估方法为分类评估法( 聊o l o g i c a le v a l u a t i o n ) 。实现分类评 估大致有两种途径:第一种途径类似于语言教学中的“错误分析法”,即记录下 译后编辑中发现的错误,并把错误归类,最后根据错误多少为系统评分,有时也 根据错误类型进行加权评分:第二种途径是预先制定覆盖面广的系统的测试集, 测试集中每一个测试项目代表机译系统可能遇到或者它应该了解的语言现象,然 后根据各机译系统对测试集中句子的翻译情况予以评分。显然,分类评估不仅能 评估系统的译文质量,而且能诊断出机译系统对哪些语言点处理不好,也能测出 系统的改进与提高之处,因此,这种评估方法深受系统开发者的欢迎。利用测试 集测试还很方便易行,一集在手,便可以为多个系统,多次测试,便于比较各系 统,同时又节省人力、物力。 2 6 机器翻译评测相关机构简介 本节介绍一下国内外主持过机器翻译评测的组织和机构【2 8 】。这些机构多数 在历史上对机器翻译起到很大促进作用。 ( 1 ) e a g l e s x p e r ta d v i s o r yg r o u p o nl a l l g u a g ee n g i n e e m gs t a n d a r d s 语言工程 标准专家顾问组1 。 这是一个由欧盟的语言工程协会( l a n g i l a g ee n g i e e r i n 曲发起的、有众多企业 和学术团体参与的标准化组织。这些组织为了一个共同的目标而共同的努力,那 就是制定语言工程方面的国际规范并提供相关的咨询与服务。e a g l e s 的组成包 含三个部分:一个管理委员会、5 个下作组、一个中央支持团队。 ( 2 ) d a a ( d e f e n s ea d v a l l c e dr e s e a r c hp r o j e c t sa g e n c y ) 美国国防高级研究项目 局。 这个机构为语音和语言技术的研究提供了大量的资金,其中包括许多机器翻 第2 苹机器翻译评测概述 译的项日( d o y o n e ta l ,1 9 9 8 ) ,最近d a r p a 的t i d e s 项目( n a i l s l i n g u a i i n f o r m a t i o n d e t e c t i o n ,e x t r a 血o na i l ds 咖a r i z a t i o n ) 旨在跨越语言的障碍,使得人 们不受语言的制约,快速而准确的获得自己想要得到的信息。d a r p a 对语言工 程方面的研究与发展起到了巨大的推动作用。 ( 3 ) n i s t ( n a t i o n a l i n s t i t u t e o f s t a n d a r da n d t e c l l l l o l o g y ) 美国国家标准与技术局。 这个机构为各行各业的产品提供标准和与该标准相对应的技术。该机构建立 于1 9 0 1 年,隶属于美国政府的商务科技部。其主要职责是发展和提高计量、标 准、技术来增强国家的生产能力及人民的生活质量。n 工s t 通过四种方式履行这 个职责: n i s t 实验室,开展促进国家基础科技发展的研究,提高工业生产力。 b a l d r i g e 国家质量制度,提高美国制造业、服务业、教育行业、卫生保健行 业的质量,每年颁发b a l d r i g e 国家质量奖。 制造扩展伙伴制度,在全国范围内为小型制造商提供技术和商业上的支持。 高级科技计划,促进对国计民生有重大意义的技术的发展和革新。 n i s t 曾组织过多次机器翻译的评测。2 0 0 2 年,n i s t 在b l e u 的基础上提出了自动 机器翻译评测的新方法( 即n i s t 方法) 。 ( 4 ) 中国国家自然科学基金 中国国家自然科学基金委员会是管理国家自然科学基金的国务院直属事业 单位。其主要职责是根据国家发展科学技术的方针、政策和规划,按照与社会主 义市场经济体制相适应的自然科学基金制运作方式,运用国家财政投入的自然科 学基金,资助自然科学基础研究和部分应用研究,发现和培养科技人才,发挥自 然科学基金的导向和协调作用,促进科学技术进步和经济、社会发展。在国家自 然科学基金的资助下,8 6 3 计划、9 7 3 计划先后在国内进行了多次机器翻译的评测, 并取得了喜人的成绩。 2 72 0 0 5 年度8 6 3 计划中文信息处理与智能人机接口技术评测 该评测1 的目的是为了进一步了解国内外在中文信息处理和智能人机接口 技术领域的现状,检查8 6 3 计划信息领域计算机软硬件技术主题中相关课题的进 展情况,促进交流和提高,推动技术进步和成果的应用与产业化,并为8 6 3 计划 北京工业大学工学顶士学位论文 课题验收和下一轮课题评选打下基础。本年度的评测由8 6 3 计划计算机主题专家 组委托中国科学院计算研究所主办,由中国科学院软件研究所和日本情报通行研 究机构( n i c n ) 协办。2 0 0 5 年,中国科学院计算技术研究所专门成立了“多语言 交互技术评测实验室”,全面负责与评测相关的组织工作。 本次评测与往年评测相比的一个重要特点是提供了大量的训练语料库。例 如,汉英机器翻译选练语料库大8 7 万句子对,对于电话语音关键词识别评测,提 供了5 个小时的完全自然的电话语音训练语料库,这些都是非常宝贵的资源,对 于参评单位都可以免费得到并用于参加评测。 这次8 6 3 评测共设三个大类的评测,分别为机器翻译、信息检索和语音识别。 其中机器翻译设汉。英、英一汉、汉一日、日汉,日英,英日六个方向的机器翻译 评测项目,以及汉英词语自动对齐评测项目;信息检索只设置了一个项目:相关 网页检索;语音识别的评测对于评测语种只设汉语,包括桌面连续语音识别和电 话连续语音中的关键词检测两个任务。 国家8 6 3 计划计算软硬件主题专家组从1 9 9 1 年开始,举办了8 次中文信息处理 与智能人机接口技术评测,产生了广泛的影响。特别是从2 0 0 3 年以来,该项评测 活动在停顿了5 年之后重新恢复,并开始进行了每年一度的评测,与过去的评测 相比,组织方式更加规范合理并逐步向国际惯例靠拢,评测的项目和参与的单位 都大大增加,8 6 3 评测影响日益扩大。本次评测采用通过i n t e m e t 发布数据和提交 结果的方式。 2 8 本章小结 本章是对机器翻译评测的概述,首先对机器翻译进行了简单的介绍,然后介 绍了机器翻译评测的概念和分类,以及评测技术出现的原因,同时也对相关的评 测机构进行了简单的介绍,最后介绍了2 0 0 5 年度8 6 3 计划中文信息处理与智能 人机接口技术评测。 第3 章自动评测方法的介绍 第3 章自动评测方法的介绍 在积极地调查用户的需求并制定切实有用的评测框架的同时,各个研究机构 在对某一属性的具体评测方法上也提出了很多的方案。在同其它软件有共同之处 的属性评测方面,我们可以借鉴其他软件评估领域现有的结果,如可用性可维护 性、可移植性、可靠性等等。但是在语言工程特有的属性上,如翻译过程模型、 翻译结果可信度、翻译结果流畅度等都是很难实现自动评估的。所以根据评估所 采用的技术,机译评估可分为自动评估与非自动评估。其中自动评估的方法又有 很多种,下面我们将详细介绍,在此之前我们先简要介绍一下人工评测。 3 1 人工评测 机器翻译评测的核心问题之一是译文质量的评测【2 9 。3 “。其实,译文评测并 不是因为机器翻译才产生的,在外语教学和测试中,对学习者的翻译水平的测试 就是译文评测的原始目的。一般来说,译文评测是通过将译文同原文比较( 这个 任务当然要由一个同时掌握了的两种语言的评审人来完成) 或者是同一个或几个 翻译参考答案进行比较( 这个任务可以由一个只掌握了目标语言的评审人来完 成) 。对于第二种方法、评测过程可能用某种自动的程序来完成。对于译文质量 的评估,主要的评测属性是: 可信度( 译文与原文的语义接近程度) 正确度( 译文的语法或语义的是否正确) 充分度( 译文是否充分的表达了原文的语义) 信息量( 译文是否提供了原文的信息) 可理解性( 译文是否容易被理解) 流畅度( 译文是否流利) 可以看出,这些属性本身都是很模糊,很主观的,不同的人会对这些评估属 性有着不同的理解。于是对这些评价属性进行进一步的量化是使其自动化的关 键。下面就充分度的细致量化给出了定义: 北京工业犬学工学硕士学位论文 原文片段的所有意义都被译文片段所表示5 分 藤文片段虢大多数意义彼译文片羧掰表示4 分 原文片段的一部分意义被译文片段所表示3 分 原文片段的一小部分意义被译文片段掰表示2 分 原文片段的意义在译文片段中没有丝毫体现1 分 3 2 魍动评测 3 。2 。 规器翻译壹动评测的标准 上飚分绍麴是人工评测的标准,最然它可以细化,但是纲化之后的标准还是 存在诸如“大多数”、“一
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 建委网安全员考试及答案
- 临床标本考试题库及答案
- 第一节 相似形说课稿-2025-2026学年初中数学沪教版上海九年级第一学期-沪教版上海2012
- 非专业模型测试题及答案
- 公路车专业测试题及答案
- 月考专区(九年级下)说课稿-2025-2026学年初中英语九年级全册人教新目标(Go for it)版
- DB65T 4482-2021 特种设备基础数据接口规范
- DB65T 4436-2021 北疆制种区玉米高活力杂交种子生产技术规程
- DB65T 4426-2021 北疆春播晚熟谷子膜下滴灌高产栽培技术规程
- 2024年七年级历史上册 第三单元 第14课 沟通中外文明的“丝绸之路”备课资料说课稿 新人教版
- 心肌梗死的急救护理课件
- 机场运行指挥员4级考试试题及答案
- 外科感染与无菌操作课件
- 【《航空发动机最小点火量的计算过程概述》1000字】
- 八师兵团职工考试题库及答案
- 2024下半年天翔外科手术器械ESG行动报告:供应链中的ESG责任与机遇
- 2025年生物化学与分子生物学综合题答案及解析
- 药品追溯试题及答案
- 潍坊市2026届高三开学调研监测考试物理试题及答案
- 辅警综合知识和能力素质考试试题(含答案)
- 网络文明培训课件
评论
0/150
提交评论