




已阅读5页,还剩59页未读, 继续免费阅读
(计算机应用技术专业论文)ebmt系统中翻译模板的抽取与匹配.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大连理工大学硕士学位论文 摘要 传统的e b m t ( e x a m p l e b a s e dm a c h i n et r a n s l a t i o n ,基于实例的机器翻译) 方法是建 立在大规模的实例库基础之上的,存在着精确匹配率不高,模糊匹配时产生译文质量较 差等缺点。利用翻译模板可以有效的解决翻译实例的数据稀疏问题、简化实例库的规模 并提高实例匹配的精确率。本文研究了如何利用实例语料库自动获取翻译模板并在其基 础之上进行模板匹配的方法。 本文所定义的翻译模板是基于汉语浅层句法分析的,具体包括谓语中心词识别,介 词短语识别眺及组块识别。浅层句法分析的优点是可以识别出确定性高的部分分析结 果,减少句法分析中的歧义,从而降低句法分析的难度。 基于模板的翻译方法的核心问题是模板的抽取与匹配算法。本文在模板抽取过程中 首先对翻译实例进行潜层句法分析,根据分析结果得到实例主架模板、介词短语模板以 及组块模板。然后为每类模板确定一个中心词,利用中心词索引方式进行各类别模板的 独立存储、索引关联,并进行系统模板库的构建。在模板匹配过程中首先对输入句进行 模板抽取,然后在系统模板库中检索匹配模板。检索过程中兼顾模板的结构信息及语义 信息,在保证模板主架结构相似的情况下再进行语义信息的匹配。匹配时分别以模板中 心词作为静态阈值,模板距离及相似度得分作为动态阈值判断模板是否相似。 在对由2 3 8 6 个实例构建的模板库分别进行句子级的封闭测试及组块级的开放测试, 准确率分别在9 4 9 8 及9 4 8 5 以上。实验结果表明,本文提出翻译模板抽取与匹配算 法应用于e b m t 系统中是可行的。 最后,本文尝试在n i h a o 中日翻译系统中引入e b m t 翻译引擎,对该引擎所使用 的翻译模板规范、翻译工作流程进行了详细定义,取得了较好的实验结果。 关键词:自然语言处理;机器翻译;e b u t ;翻译模板 大连理工大学硕士学位论文 e x t r a c t i o na n dm a t c h i n go ft r a n s l a t i o nt e m p l a t ei ne b m t s y s t e m a b s t r a c t e b m t ( e x a m p l e - b a s e dm a c h i n et r a n s l a t i o n ) s y s t e m sa r eb a s e do nl a r g es c a l ee x a m p l e c o r p u si nt r a d i t i o n a lh a v i n gt h ed e f e c to fl o wp r e c i s i o no fm a t c h i n g t r a n s l a t i o nt e m p l a t ec a n s o l v et h ep r o b l e mo fd a t as p a r s i t y ,l a r g es t o r a g es p a c ea n dl o wm a t c h i n gp r e c i s i o no fe x a m p l e s t h er e s e a r c hi nt h i sp a p e rf o c u s e so i lt h ea u t o m a t i ct r a n s l a t i o nt e m p l a t ee x t r a c t i o na n dm a t c h i n g b a s e do i lt h ee x a m p l ec o r p u s t h et r a n s l a t i o n t e m p l a t ed e f i n e di nt h i sp a p e ri sb a s e do nt h er e s u l to ft h es h a l l o wp a r s i n g i n c l u d i n gt h em a i nv e r bi d e n t i f i c a t i o n ,p r e p o s i t i o n a lp h r a s ei d e n t i f i c a t i o na n dc h u n kp a r s i n 昏 s h a l l o wp a r s i n gc a nr e c o g n m em o r er e l i a b l et u s u l tt h a nf u l lp a r s i n g a n dm a k e sf u l ls y n t a xp a r s i n g e a s i e r e x t r a c t i o na n dm a t c h i n go ft e m p l a t e sa l et h em o s ti m p o r t a n tp r o b l e m so ft e m p l a t e b a s e d m a c h i n et r a n s l a t i o n t h ee x t r a c t i o nm o d u l ee x t r a c t st h es e n t e n c ef r a m e ,p r e p o s i t i o n a lp h r a s ea n d c h u n kt e m p l a t e sf i r o mt h er e s u l to fs h a l l o wp a r s i n g t h et e m p l a t e sa r es t o r a g e di n d e p e n d t l ya n d l i n k e db yk e y w o r d - l n d e x i n gi nd a t a b a s e t h em a t c h i n gm o d u l es e a r c h e st h em o s ts i m i l a rt e m p l a t e f o ri n p u ts e n t c l l c ei nd a t a b a s e , w i t ht h ei n f o r m a t i o no fs y n t a c t i cs t r u c t u r ea n dl e x i c a lm e a n i n go f t h es 口| ;i a 【k 宅t h et e m p l a t e sm a t c h i n ga l g o r i t h mg e t st h es e a r c h i n gr e s u l tb yu s i n gk e yw o r da st h e s t a t i ct h r e s h o l d , d i s t a n c ea n ds i m i l a r i t ys c o r ea st h ed y n a m i ct h r e s h o l d t h ec l o s et e s to ns e n t e n c el e v e la n do p e nt e s to nc h u n kl e v e lb a s e do nt h et e m p l a t e sd a t a b a s e b u i l d e do n2 3 8 6s e n t e n c e ss h o wp r o m i s i n gr e s u l t s :t h ep r e c i s i o u sa r ea b o v e9 4 9 8 a n d9 4 8 5 t h er e s u l t si n d i c a t et h a ti t sf e a s i b l et ou s et h et r a n s l a t i o nt e m p l a t ea p p l i e di nt h i sp a p e ri ne b m t s y s t e m s a ne b m tt r a n s l a t i o ne n g i n ef o rn i h a oc h i n e s e - j a p a n e s et r a n s l a t i o ns y s t e mi sa p p l i e di nt h i s p a p e r t h et e m p l a t ed e f i n i t i o na n dw o r k i n gf l o wo ft h ee n g i n ea r ed e t a i l e d l yd e s i g n e da n dt h e p r e p a r a t o r ye x p e r i m e n th a sg o tag o o dt e s t i n gr e s u l t k e yw o r d s :n a t u r a ll a n g u a g ep l 睫s s i n g ;m a c h i n et r a n s i a f i o n ;e b m t :t r a n s l a t i o n t e m p l a t e 独创性说明 作者郑重声明:本硕士学位论文是我个人在导师指导下进行的研究工作及 取得研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不 包含其他人已经发表或撰写的研究成果,也不包含为获得大连理工大学或者其 他单位的学位或证书所使用过的材料。与我一同工作的同志对本研究所做的贡 献均已在论文中做了明确的说明并表示了谢意。 作者签名: 跏6 | 舀 大连理工人学硕士学位论文 大连理工大学学位论文版权使用授权书 本学位论文作者及指导教师完全了解“大连理工大学硕士、博士学位论文版权使用规 定”,同意大连理工大学保留并向国家有关部门或机构送交学位论文的复印件和电子版, 允许论文被查阅和借阅。本人授权大连理工大学可以将本学位论文的全部或部分内容编入 有关数据库进行检索,也可采用影印、缩印或扫描等复制手段保存和汇编学位论文。 作者签名: 导师签名 苎。球一 垃耻月日 大连理工大学硕士学位论文 1 绪论 1 1 机器翻译方法简介 机器翻译领域内主要有三种机器翻译方法,分别是基于规则的方法,基于统计的方法 和基于实例的方法。 基于规则的方法,也就是模拟人类语言的形成规则,在系统中生成一个定量的规则库, 在进行翻译的时候,完全依赖于这些规则,是到目前为止最成熟,应用最广的技术。在翻 译过程中使用人工智能的理论建立系统的推理机,模仿人脑翻译的过程。它通常采用采取 下面的手段:通过语言现象的综合和认识,不断总结其规律,形成自己的语法和语义规则 体系。系统利用这些规则来分析输入的语言,形成一种内部表示。然后,根据这种内部表 示转换成目标语言结构,并形成译文。 基于统计的方法,也就是所谓的“经验主义”,利用已有的翻译知识统计出特征值和阈值, 来指导以后的翻译工作。基于统计的方法需要大规模的双语语料,其翻译模型,语言模型 参数的准确性直接依赖于语料的多少,其翻译质量主要取决于概率模型的好坏和语料库的 覆盖能力。同时翻译模型、语言模型在简化的过程中也带来了一些缺陷,在简化和可行之 间存在一个权衡问题。 基于实例的方法,是由日语著名学者长尾于1 9 8 4 年提出【1 】,利用现有语料库进行翻译 的方法。这一方法的原理是在翻译的过程中,从实例库中搜索一个同输入句最相似的例句, 并依据实例库中例句的翻译进行输入句的翻译。 事实证明,基于规则的方法中存在着如下问题: n ) 规则无法处理特例; ( 2 ) 规则之间易发生碰撞; ( 规则库的形成需要大量人力物力的困难。 而基于统计的方法需要建立大规模双语语料,其翻译模型,语言模型参数的准确性直 接依赖于语料的多少,其翻译质量主要取决概率模型的好坏和语料库的覆盖能力。 大规模获取语言知识的代价非常大,且规则的收集难以全面,如何利用有效的手段自 动获取翻译知识成为人们关注的重点。基于实例的方法就是利用已存在的双语语料库资源 为新的翻译需求提供经验,是目前提高机器翻译系统译文质量的重要途径之一。 11 1 泛化的e b m t 方法 泛化是指通过对实际例句中的部分词语或片断进行一定的概括、归纳、使结果能够使 用于更多的情况,是提高e b m t 性能的有效方法。 张学:e b m t 系统中翻译模板的抽取与匹配 泛化的e b m t 的基本思想是通过对自然语句中的词语或者片断进行抽象和概括来降低 输入维数,得到翻译实例的翻译模板,从而提高语句的匹配率。 泛化的e b m t 方法使计算机具有人的类比能力,符合人们在学习语言时的规律,利用 已有句型模板来翻译相似语句。在计算机本身能力迅猛发展的今天,更多的使用计算机代 替人来获得翻译知识并模仿人的语言翻译过程正是泛化的e b m t 方法要达到的研究目的。 1 1 2 翻译模板的提出及其意义 e b m t 具有译文精确,翻译速度快,获取翻译知识简单的优点,但也存在匹配率比 较低,需要大规模语料库支持等缺点。事实上,传统的e b m t 系统的匹配率和其翻译质 量是一对矛盾体,当匹配率限制严格时,旦匹配成功则得到的译文质量非常高;反之, 如果匹配率限制不严格时,则匹配成功时得到的译文质量并不高。 泛化的e b m t 的基本思想是通过对自然语句中的词语或者片断进行抽象和概括来 降低输入维数,得到翻译实例的翻译模板,从而提高语句的匹配率。一方面,该方法减 少了对语料库规模的依赖;另一方面,由于被抽象和概括的词语或者是片断具有普遍性, 一般该部分的变化不会影响翻译的结构或框架,这样可以保证翻译译文的质量同泛化前 相当。 通过将e b m t 系统的实例进行泛化,即可得到该实例的翻译模板。 翻译模板一般来说具有以下的共同点: ( 1 ) 一个翻译模板是一个双语对齐的字符串; 佗) 对齐的语言单位可以是单词,短语或者句子: 仍) 翻译模板由固定部分和可变部分组成,固定部分是源句子信息,可变部分通常 使用自定义的变量名来替换; 模板的可变部分可以通过约束条件进行约束。 翻译模板是在基于实例的翻译方法基础之上发展起来的,它可以将实例翻译知识进 一步抽象,将多个相似的实例归为一个翻译模板,大大减小实例库的规模。 翻译模板的研究具有以下意义: ( 1 ) 可以有效的解决实例不够的问题。只要找到实例对应的翻译模板,也就找到了一 类语言现象,即使有的具体例子没有出现在实例库,也可以被模板覆盖; ( 2 ) 可以大大简化实例库。如果一个模板覆盖了实例库中的若干实例,这些实例原则上 都成为了冗余,可以消减; ( 3 ) 提供能保证较高精确率的相似度计算算法,对于实例模板的匹配以及最终的翻译结 果有着直接的影响; 大连理工大学硕士学位论文 ( 4 ) 同模板抽取同时应用的相似度计算算法可以最终被应用在汉语语句相似度计算中t 综上所述,作为自然语言处理以及基于实例的机器翻译方法中的重要环节,翻译模板 的抽取与相似度计算研究具有重要理论和实践意义。它的研究成果直接影响了基于基于实 例的机器翻译方法的高效性及正确率。 1 2 国内外的研究现状 1 2 1k a j i 的方法 日立公司的k a j i 等人提出了一种从平行语料库中自动学习翻译模板的方法【2 】。其结构 如图1 1 所示。 i j 删n g ( 协= ) 韭哥7 t r a n s i a t i o “ 。r c m l a t c s a 。t i o 。n 、) 毒 图1 1 两阶段的基于实例机器翻译 f i g 1 1t w o - p h a s ee x a m p l e - b a s e d m a c h i n el r a n s l a f i o n 一个翻译模板是一个通过单元( 司或者是短语) 对齐及变量替换所产生的双语句子对。单 元对齐通过双语词典以及句子的句法结构分析完成。所有从双语语料库中产生的翻译模板 通过源语言分组,然后通过训练来解决那些源语部分相同而目标语部分不同的模板。通过 这种方法,不仅可以从双语中高效的提取出翻译规则,还可以提取出词性选择的知识。 翻译模板的例子如下: a d v p 僻【n p 】它省略寸5e ) a d v p ( i fx n p i so m i i l c d ) 它是从下面的句子对中得到的: , 工名它省略寸5 巴力。二, 张学:e b m t 系统中翻译模板的抽取与匹配 i f t h ep a t hn a l n ci so m i t t e d 可以看出,该系统中的翻译模板可以对应句子的片断,片断的翻译模板通过嵌套在其 他翻译模板之中便可以获得整个句子的翻译。 1 2 2e 刚的方法 c m u 很早就开展了关于e b m t 的研究。p a n g l o s s 是一个由c m u 和其他多所大学联合 开发的机器翻译系统,这个系统中采用了多引擎的方式,一共采用了三个机器翻译引擎, 其中一个便是使用e b m t 引擎,其设计方法在文献刚中作了详细说明。 他们认为一个e b m t 系统的最大问题在于它需要个庞大的例句库。为了能有效的利 用已有的例句,他们提出了对例句进行泛化的方法。实例的匹配完全采用字符匹配,不使 用任何句法分析,只匹配尽可能长的单词序列。 例如如下所示的英语和德语: j o h nh a n c o c kw a si np h i l a d e l p h i ao nj u l y4 m j o h nh a n c o c kw a ra l l l4 j u l ii np h i l a d e l p h i a 如果能知道 j o h n h a n c o c k 是一个人, p h i l a d e l p h i a ”是一个城市, j u l y 4 t h 是一个日期 的话,就可以讲上面的语句泛讫为: w a si n o n w a ra m i n 其中的拙s o n , , 代表了一些特殊的词语类。系统通过查找它的 知识库来判断 j o h nh a n c o c k ”是一个人以及其他的特殊词语类。当例旬输入到例句库的时 候,系统通过一系列的查找和替换将类似的词语替换成为这些特殊的符号”。被替换的词语 和其对应的翻译仍然被保存,用于翻译工作。 1 2 3f i u v e n ir 的方法 土耳其的b i l k e n t 大学研制了一个从土耳其语一英语双语语料库中并用启发式学习来自 动获得翻译模板的系统,该系统可以利用获得的翻译模板来进行后续的翻译工作,其详细 设计可见文献 s l 。从本质上讲,他们的翻译系统也是对传统的e b m t 的一种泛化。在他们 的系统中,翻译模板是从两对双语语句中学习得到的。 如:ig a v et h eb o o kt om a r r y ig a v et h ep e n c i lt om a n y 词法分析 ig i v e + p a s tt h eb o o kt om a r r ig i v e + p a s tt h ep e n c i lt om a r r y 。 大连理工大学硕士学位论文 相同部分 i g i v e + p a s t t h e x t o m a r r y 其中x 就是该翻译模板中的变量部分。 类似的,英语所对应的土耳其语也经过了上述处理,得到土耳其语模板,晟后利用已 经存在的翻译知识和模板将英语同土耳其语的翻译模板的变量之间建立关联。该系统在建 立两种语言模板的变量之间的关系时采用如下的方法: 假设英语和土耳其语的模板各有n 个变量( 不考虑有不同变量的情况) ,系统检查以往库 中的模板,尝试匹配其中的n j 对变量,然后可以学习得到剩下的对变量作为新的模板, 同时也获得了当前的模板。 1 2 4 东北大学的方法 东大杨二宝等人提出了自动提取翻译模板的方法 6 1 ,该方法通过设定模板变量的提取条 件为句子中出现的名词或者名词短语,在模板中使用继承结构的语义分类来作为变量名, 并通过不断对模板中变量信息的学习以确定当前变量的名称。其语义分类体系使用同义 词词林的前四层。 模板变量只用来约束名词或基本名词短语,所有的名词都是提取变量的候选单元,可 以被它所在的语义类或上位语义类所代替。每个实例句子可以通过不同的搭配形成很多模 板,模板的自动学习通过形成每个模板的抽象度以及覆盖度计算。 模板的抽象度口如= ,盟! m ( 1 1 ) 其中,a b s 模板的抽象程度,n 为变量的个数,m 是模板的长度,v i 为用来限制模板变 量的每个语义类的抽象系数。 模板的覆盖率v :一个模板在给定的语料中覆盖的句子的个数( 1 2 ) 评分原则s c o r e = a b s + r 2 x c o v ( 1 3 ) 其中a b s 为模板的抽象度,c o v 是模板的覆盖度,r l ,r 2 分别是两个因素的权重,r l = 0 1 r 2 = 0 9 。 选取分数最高的模板作为这个实例最终生成的模板。 一个翻译模板的例子: 【人】明天要去,【处所】【人h j l lg ot o f 处所 t o m o r r o w 张学:e b m t 系统中翻译模板的抽取与匹配 1 3 翻译模板研究中的难点 1 3 1 翻译模板的定义 根据翻译模板的对应的语言单位层次不同,大致可将它们分为以下几种: ( 1 ) 翻译模板定义在组块级 o c h 所研究的工作是将句子中组块内的词语自动聚类得到类别n 并用这些类别实现对 词语的划分以得到翻译模板。句子级模板的变量可以用一个组块级模板进行替换,也就是 说,模板之间可以进行一层嵌套。 ( 2 ) 翻译模板定义在短语级 k a j i 的基于实例的机器翻译方法就是通过对双语的句法树进行短语对齐,然后抽取翻 译模板,作为机器翻译的实例库来使用。刘群则提出了通过双语短语结构对齐语料来自动 抽取词语及短语模板的方法,并且短语级模板之间可以嵌套。 ( 3 ) 翻译模板定义在句子级 c m u 的泛化的基于实例的机器翻译方法,就是对双语例旬的一种简单抽象。东大杨二 宝等人提出的汉英模板于出取方法也是句子级的翻译模板。土耳其b i l k e n t 大学的g i i v c a i r 提 出的通过对两对互译实侈畦互相比较来获得翻译模板的方法最终得到的也是对应的句子级翻 译模板。中科院计算研究所的张健也用了类似的方法进行了汉英实例翻译系统的泛化工作。 在基于实侈哇机器翻译的方法中翻译模板应用越来越广泛,它所包含的一些子问题都成 为了一些研究的重点对象,比如信息抽取,词义消歧,双语对齐,语句相似度计算等,都可 以作为独立的研究课题。 1 3 2 翻译模板的匹配 如何通过模板的组合得到被翻译的句子有很多种方法,如基于字符的匹配阳】,基于短 语结构的匹酉己1 2 】,基于句法分析结果的匹配 8 - 1 0 1 。 ( 1 ) 基于字符的匹配 基于字符的匹配根据语句的字符特征来计算,不进行深层次的分柝,处理能力有限。 但是对于语句之间相差不大,通过简单的词语替换可以匹配的情况,具有简单高效的特点。 ( 2 1 基于短语结构的匹配 基于短语结构的匹配需要识别出语句的短语结构,短语结构一个独立的短语模板,在 语句中,它表示为一个句法单元。语句模板的匹配不需要直接引入短语结构的详细信息, 从而简化了匹配的复杂性。 ( 3 ) 基于句法分析结果的匹配 大连理工大学硕士学位论文 基于句法分析结果的匹配需要对语句进行句法分析,从理论上讲更能反映语句之间的 内在联系;但由于该方法严重依赖于语法分析器的分析质量,有悖于e b m t 的初衷。 1 4 本文的工作 在现有的e b m t 中,模板的抽取大多是将翻译实例抽象化,没有考虑到语句的句法结 构信息:而在实例( 模板) 的相似度计算中,已经提出了如何利用语句的表层句法结构信息及 单词语义的信息来进行计算。模板的抽取与相似度计算研究大多是独立进行的,这使得 e b m t 仍无法在机器翻译中得到广泛应用。因此,本文将翻译模板的抽取与相似度计算相 结合,提出利用语句的表层句法结构信息以及单词语义信息从翻译实例中抽取多级翻译模 板,并在此之上进行模板匹配的方法。 1 4 1 研究背景和目标 ( 1 ) 本文的研究背景: 传统机器翻译的知识获取需要耗费大量的人力和物力,并且维护这些知识也是非常 困难的,很难保证知识的一致性和客观性。 信息共事的范围越来越广,其中也包括大规模的双语语科库。 随着计算机运行速度及存储容量的提高,使用计算机从大规模的双语语料库中自动 获取翻译知识是提高翻译质量很好的途径。 ( 2 ) 本文的研究希望达到以下目的: 充分利用现有的可靠的自然语言处理技术完成翻译模板的定义。 在双语实例库中自动抽取翻译模板,并在此基础之上形成有效的模板匹配算法,从 而使翻译模板能够真正应用于机器翻译之中。 改善和扩充系统翻译模板库,为机器翻译系统提供e b m t 翻译引擎,以进行实际的 翻译工作。 1 4 2 本文的工作及论文的组织 本文的目的是要设计一个以翻译模板为基础的机器翻译系统,并检查其效果。为了达 到这样的目的,本文做了以下工作: ( 1 1 中日双语语料库的准备 中文语料的预处理 ( 3 ) 中文语料的模板抽取 ( 中文语料的模板匹配 ( 5 ) 相似模板的差异计算 张学:e b m t 系统中翻译模板的抽取与匹配 中文模板到日文模板的变量映射 在进行中文语料的预处理时,本文采用了课题组的分词、词性标注、组块识别、介词 短语识别、谓语中心词识别等技术,均在“致谢”中进行了说明。 本文的组织如下: 第一章介绍了翻译模板的提出及其研究意义,前人的工作以及本文的研究方法。 第二章讨论了本文在模板抽取方面的工作,包括中文语句的预处理,翻译模板的定义、 算法,多级翻译模板的实现工作。 第三章讨论了在模板匹配时采用的相似度计算算法。包括中文词语、句子相似度研究 的介绍,本文所采用的模板相似度计算算法,目标模板与输入模板之间的差异计算算法。 第四章讨论了如何应用模板抽取及匹配算法自动构造多级翻译模板库,翻译模板库的 组织结构以及应用于模板库的检索算法。 第五章给出了实验数据,并对其进行了分析。 第六章讨论如何在机器翻译系统中使用翻译模板,包括n i h a o 中日翻译软件的介绍, n i h a o 中使用翻译模板的详细设计及应用流程。 结论中给出了本文方法自鲁优点及不足,以及后续的工作。 附录中给出了多级翻译模板模板库以及应用于n i h a o 翻译系统的翻译模板库中的部分 结果以及同义词词林语义词典的部分数据。 大连理工大学硕士学位论文 2 翻译模板的抽取模型 2 1 浅层句法分析 由于自然语言的灵活性和复杂性,使得完全句法分析成为自然语言处理中一项十分艰 难的工作【1 ”。按照自然语言语法对语言结构进行划分,分为词、短语和句子3 个不同层次 的语法单位。以前,从词到短语、从短语到句子均由一个算法来分析。前一层的分析错误 会影响后面的分析,错误层层叠加,导致句法分析正确率低。因此,有必要将短语分析与 句子分析分开处理,使基本的短语分析能像词性标注一样取得较好的正确率,从而为后续 的句法分析打下坚实的基础【l “。这个基本的短语分析过程就是浅层句法分析,它识别出确 定性强的部分分析结果,降低了完全句法分析的难度。 对翻译实例进行浅层句法分析,其中包括组块识别,介词短语识别和谓语中心词识别。 通过分析结果,可以得到实例的谓语中心词,介词短语,名词组块,动词组块,形容词组 块,副词组块,方位词组块以及数词组块。 2 1 。1 组块识别 组块识别相当于自然语言处理研究领域中旬法分析的一个分支,除了被称作组块分析 之外,通常它还被称为部分句蝴( p a r t i a lp a r s i n g ) ,它的任务是在不需要深层次语言知识 的前提下,识别句子中的某些特定组块,如基本名词短语、动词短语等。组块识别和完全 句法分析是相对的,完全句法分析要求通过一系列分析过程之后最终得到句子的完整句法 树;而组块识别则相当于是完整句法树的一棵子树,其识别可简化整棵语法树的构造过程。 本文使用文献【1 3 l 中的组块识别程序,其组块定义如表2 1 所示。 表2 1 组块识别程序中的组块定义 t a b 2 1 c h u n k d e f i n i t i o n i n c h u n k i d e n t i f i c a t i o n p r o g r a m 张学:e b m t 系统中翻译模板的抽取与匹配 其中,n c 、v c 、a c 和d c 是四类最常见的基本组块类别,l c 和m c 都可以看成 是n c 的子类,这里的l c 由处所组块和时间组块两类来共同构成。 2 1 2 介词短语识别 介词短语识别就是在进行了切分和词性标注后的句子中的找出介词短语,而不对其内 部结构和修饰关系作判断,本文使用文献【1 4 】中实现的介词短语识别系统。在翻译模板中, 介词短语的识别有助于模板匹配。文献【1 5 l 指出“句法分析在介词短语的识别上存在一定的问 题,并不是所有的该合并的介词短语均进行了合并,这就给模板匹配带来了一定的困难”。 如: 用, 短短,5 年 西l c 时间i 使, 濒临倒闭玲 的, 乡镇,粕厂丹 经彤侈年) 的实践使 改革开放n v d 韵观甜 这是两个完成了组块分析的句子,它们的结构并不匹配。对它们做介词短语识别,识 别后的结果如下。 用短矧5 ,年时间) 使 濒l 临倒闭毋 v d 的 乡谢,j 、v 经逝多年的实跋毋 p p ) 使 改革开放 ,w 句法单元分别为: 数词组块:短短z5 m 年q 动词组块:濒临,v 倒闭v 名词组块:乡镇妇+ a 厂n 介词短语:用p 短短z5 m i z q 时间n 谓语中心词:使加 2 2 单词的语义信息 单词的语义信息代表了一类具有共性的词语,在翻译模板中,他们可以相互替换又不 改变模板的语法结构。 在词语的相似度计算中,利用世界知识或者分类体系进行计算时,也需要一部同义词 词典。本文使用同义词词林作为语义赋值的依据。 2 2 1 同义词词林简介 同义词词林1 1 7 1 是自然语言处理中的一部机器可读词典。同义词词林的编撰者 根据汉语的特点和适用原则,确立了词的语义分类原则:以词义为主,兼顾词类,并充分 注意题材的集中。全书把词义分为大、中、小类三级,共分为1 2 个大类,9 4 个中类,1 4 2 8 个小类。在小类下面再以原则划分词群,每个词群以一标题立目,共3 9 2 5 个标题词,将小 类下的词群用两位阿拉伯数字表示。与此分类体系相对应的是一个词义的编码体系,其描 述如表2 2 所示。 表2 2 同义词词林分类体系表 t a b 2 2c l a s s i f y i n go f ( t o n gy ic i c il i n ) ) ( 词义编码) : ( 大类) : ( 中类) : ( 小类) : 大类)( 中类) ( 小类) = ( 大写英文字母) = ( 小写英文字母) = ( 数字) ( 数字) 如:词“总结”的词义编码为“d k l 3 ”,义类代码“d k l 3 在同义词词林中表示为 d k l 3 建议结论决定 张学:e b m t 系统中翻译模板的抽取与匹配 建议提议动议f 紧急。提案 结论定论断案短语小姐总结 决定决议定案 在d k l 3 ”中有三个词群,他们的语义分类分别为“建议”、“结论、“决定”,而相对应的, 这三个词群的语义编码分别可以扩展为“d k l 3 0 1 ”、“d k l 3 0 2 ”、“d k l 3 0 3 ”。 同义词词林的语义体系可以从图2 1 中看出。 o t 、 0 1 0 20 1 0 1 iil 。1 0 1 | 图2 1 同义词词林语义分类体系图 f 培2 1s e m a a t i cc a t e g o r i z a t i o no f ( t o n y y iaa 2 2 2 对同义词词林中未登录词的处理 真实语料中有些词没有收录到同义词词林中,称为未登录词。据统计:1 9 9 0 年全 年人民日报中常用词1 1 7 3 0 条,其中只有7 4 8 2 条在同义词词林中出现( 占6 3 8 ) 。 因此同义词词林中未登录词的处理,是能否更好使用同义词词林这部机器可用义 类词典,帮助汉语自然语言处理研究的关键。 本文在无法得到词语的语义信息时,采用单词词性的细分类作为模板变量的赋值依据。 2 3 多级翻译模板的定义 一个实例经过浅层句法分析后,其谓语中心词、介词短语、组块等句法单元均已被识 别。多级翻译模板就是利用这个分析结果,将组块信息、介词短语信息从一个实例中抽取 出来,形成组块模板及介词短语模板,而句子则对应了实例主架模板。这样,就可以从一 个实例中得到实例主架模板,介词短语模板以及组块模板三层模板,这三层模扳是独立存 , 尹a。刀 j j h 。吡毗吡叭 吡m 八旺m 大连理工人学硕士学位论文 储并逻辑相关的。从一个实例中得到多级翻译模板,针对不同的翻译任务使用不同的模板 库,为翻译系统带来了一定的灵活性。 多级翻译模板的嵌套结构如下所示: 句子级模板: 介词短语模板i 组块模板i 单词 介词短语模板: 组块模板i 单词 组块模板: 单词) + 2 3 1 中心词索引关联 多级翻译模板将一个实例中的组块、介词短语抽取形成了单独的翻译模板。在抽取的 过程中根据实例语句在实例库中的位置以及同类另模板抽取的数量,形成一个索引信息, 实例模板中仅提供这些独立模板的类别信息及索引位置,形成实例主架模板。 对于模板匹配过程,只有索引信息会产生大量的模板库检索操作,从而影响翻译模板 匹配的效率,因此本文为每类独立模板确定一个中心词,并设计一个固定的替换信息“模板 类别,索引号中心词信息”来表示翻译模板中的下层翻译模板。 各个模板的中心词确定规则如下: n ) 组块模板以组块中首词或尾词的词性来判定中心词的位置。具体定义如表2 3 所示。 表2 3 组块模板中心词定义表 t a b 2 3k e y w o r dd e f i n i t i o no f c h u n k t e m p l a t e ( 2 ) 介词短语以介词及短语中与介词搭配的词作为中心词对。 介词短语在本文中以( p p 表示。 如:“在学校早”,中心词对:“在、里”。 “把桌子上的书”,中心词对:“把、书”。 张学:e b m t 系统中翻译模板的抽取与匹配 ( 3 ) 实例主架模板以谓语中心词作为中心词。 谓语中心词在本文中以“m v p ”表示。 如:“用短短5 年时间使一个濒临倒闭的乡镇小厂。” 中心词:“使”。 2 3 2 翻译模板的形式定义 以下给出多级翻译模板中组块模板,介词短语模板以及实例主架模板的形式定义。 组块模板: 【 】+ 组块中心词信息: 介词短语模板: 【 i 】+ ( 介词宾语语义i 介词宾语) 词性) i 介词中心词对信息: ( 介词语义| 介词炯性( 介词宾语语义| 介词涧性 实例主架模板: 【 i i r m v p ( m v pf i t 块心词卿单词语义卿单词) 闹性) 【 的位置n e n d ,设置n p o s 为n b e g i n ,否则, 转; 得到该识别结果的表示s t r t y p e ,如果符合p p ,转。否则,转: 张学:e b m t 系统中翻译模板的抽取与匹配 将该介词短语信息s t r p p 抽取出,得到该介词短语模板s t r p p t e m 及其中心词对 s t r p r e p 和s t r p w o r d ,判断该介词短语模板库中是否含有相同的模板,如果有,贝q 将n p p i d 置为相同模板的号,转,否则,根据模板库中记录的个数得到其n p p i d ,转; 将s t r p p t e m 加入到系统模板库中; 根据得到的n t e m l d ,n p p i d 填写索引文件,并根据得到的n p p i d 和s t r p r e p 、s t r p w o r d 得到该介词短语模板的中心词索引s t r l n f o ,将s t r t e m 中的 和)
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 气管插管的护理及其注意事项
- 《诗经》中的《氓》课件
- 网上书城系统的设计与实现需求分析
- 亲子互动安全培训课件
- 骨折合并DVT患者的护理
- 景区管理情况汇报
- 公司级安全培训感悟课件
- 事故事件安全培训课件
- 事务所函证培训课件
- 青年突击队特色活动汇报
- 航空技术革新与发展趋势
- 口腔科国庆节活动方案
- 2025四川成都广播影视集团有限责任公司招聘22人笔试参考题库附带答案详解
- 北师大版三年级数学上册第二单元 测量(二)素养达标(A卷)(含答案)
- 2025年(高级)政工师理论考试题库及答案
- 弹性工作制激励机制设计-洞察及研究
- 骨软骨瘤恶变信号:识别、诊断与临床管理
- 安全生产盲区
- 社区居民健康档案建立
- 非公企业党建培训课件
- 2025发展对象考试试题库及参考答案(完整版)
评论
0/150
提交评论