(模式识别与智能系统专业论文)汉蒙词法分析及其在统计机器翻译中的应用.pdf_第1页
(模式识别与智能系统专业论文)汉蒙词法分析及其在统计机器翻译中的应用.pdf_第2页
(模式识别与智能系统专业论文)汉蒙词法分析及其在统计机器翻译中的应用.pdf_第3页
(模式识别与智能系统专业论文)汉蒙词法分析及其在统计机器翻译中的应用.pdf_第4页
(模式识别与智能系统专业论文)汉蒙词法分析及其在统计机器翻译中的应用.pdf_第5页
已阅读5页,还剩58页未读 继续免费阅读

(模式识别与智能系统专业论文)汉蒙词法分析及其在统计机器翻译中的应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 词法分析是自然语言处理的一个基础性研究,词法分析的正确率将直接影响 到后续自然语言处理( 如:机器翻译) 的性能。本文构建了统计模型,对汉语和 蒙古语进行了切词和词性标注处理,并在人工切分和标注的语料库上进行了实 验,取得了较高的词法分析性能。在此基础上,将汉蒙词法形态信息融入到了汉 蒙统计机器翻译系统,改善了译文的质量,验证了词法分析对于汉蒙机器翻译的 重要性。 本文系统地介绍了条件随机场模型的定义、图结构、势函数、模型训练及解 码算法;并简化了条件随机场模型的图结构、设计了特征函数、改进了解码算法: 将改进后的模型应用到了汉语和蒙古语的词法分析工作中。 本文提出了一种局部歧义词网格与条件随机场相结合的汉语分词模型。首 先,在低层使用局部歧义词网格对文本粗切分,并将切分结果作为一项特征提供 给高层的c r f s 模型;然后,在高层使用条件随机场对文本进行字标注。在s i g h a n 一 2 0 0 5 提供的p k u 和m s r a 分词语料上进行了测试,封闭测试的结果高达9 7 1 和 9 5 1 。本文还构建了能够融合更多上下文信息的汉语词性标注模型。 本文针对蒙古语通过词干后缀接不同词尾来实现形态变化的语言特点,首先 构建了基于最小描述长度的统计模型,用于蒙古语词形切分;并在此基础上建立 了一个双层的蒙古语词性标注模型,该模型把低层的切分结果作为一项特征提供 给高层的条件随机场模型去学习。在内蒙古大学提供的语料和本实验室开发的语 料上分别进行了封闭测试和开放测试,标注准确率分别高达9 6 8 和9 6 7 。 本文将汉语和蒙古语的词法信息作为因子融合到统计机器翻译系统中,建立 了源语言因子到目标语言因子的多个翻译路径;使用了多个基于词法因子的语言 模型评价翻译结果;建立了从目标语言翻译因子到表面词形的生成模型。弥补了 统计模型对汉语、蒙古语词法信息利用与表达能力不足的问题;提高了统计机器 翻译的译文质量。 关键词:词法分析条件随机场局部歧义词网格最小描述长度统计机器翻译 a b s t r a c t a b s t r a c t l e x i c a la n a l y s i si saf u n d a m e n t a lr e s e a r c ho fn a t u r a ll a n g u a g ep r o c e s s i n g ( n l p ) i t sa c c u r a c yh a sad i r e c te f f e c to nn a t u r a ll a n g u a g ep r o c e s s i n g ( s u c ha s m a c h i n et r a n s l a t i o n ) t h i sd i s s e r t a t i o np r e s e n t sat w o l e v e ls t a t i s t i c a lm o d e lf o r c h i n e s el e x i c a la n a l y s i sa n dm o n g o l i a nm o r p h o l o g i c a la n a l y s i s t h em o d e li s e v a l u a t e di nt h et r a i n i n ga n dt e s t i n gs e t sw h i c hw e r es e g m e n t e da n dt a g g e db y l a n g u a g ee x p e r t s t h er e s u l t ss h o wt h a tt h em o d e ls i g h i f i c a n t l yo u p e r f o r m sp r e v i o u s m e t h o d s m o r e o v e r , t h el e x i c a la n dm o r p h o l o g i c a li n f o r m a t i o ni sa d d e di n c h i n e s e - m o n g o l i a ns t a t i s t i c a lm a c h i n et r a n s l a t i o ns y s t e m ,w h i c h i st e s t e do n a l i g n e db i l i n g u a lc o r p u s t h ee v a l u a t i o nr e s u l t ss h o wt h a tt h ea d d i t i o no fl e x i c a la n d m o r p h o l o g i c a li n f o r m a t i o ni m p r o v e st h eq u a l i t yo ft h et r a n s l a t i o n t h i sd i s s e r t a t i o n s y s t e m a t i c a l l y i n t r o d u c e st h ed e f i n i t i o no fc o n d i t i o n a l r a n d o mf i e l d s ( e r r s ) ,g r a p h i c a ls t r u c t u r eo fc r f sm o d e l ,t h ep o t e n t i a lf u n c t i o n , f e a t u r ef u n c t i o n s ,t r a i n i n ga n dd e c o d i n ga l g o r i t h m s t h ef u r t h e ri m p r o v e m e n t so f c r f sa r eg i v e na sf o l l o w s :s i m p l i f y i n gt h eg r a p h i c a ls t r u c t u r eo fc r f s ,d e s i g n i n g f e a t u r ef u n c t i o n ,i m p r o v i n gd e c o d i n ga l g o r i t h m ;a n da p p l y i n gc r f st oc h i n e s e l e x i c a la n a l y s i sa n dm o n g o l i a nm o r p h o l o g i c a la n a l y s i s t h i sd i s s e r t a t i o np r e s e n t sam o d e lo fc h i n e s ew o r ds e g m e n t a t i o nb a s e do n l o c a la m b i g u i t yw o r dg r i da n dc o n d i t i o n a lr a n d o mf i e l d s f i r s t ,t h em o d e lu s e s l o c a la m b i g u i t yw o r dg r i da l g o r i t h mt og e n e r a t er o u g hs e g m e n t a t i o nr e s u l t si nt h e l o w e rl e v e l t h e n ,i ts e g m e n t st h et e x ta g a i nb a s e do nc r f s ,a n ds e t st h er o u g h r e s u l t sa so n ef e a t u r e t h es y s t e mi st e s t e di nt h em s r aa n dp k ut e s t i n gs e t sw h i c h a r e p r o v i d e db y t h es i g h a n 2 0 0 5c h i n e s e l a n g u a g ep r o c e s s i n g b a k e o f f f - m e a s u r e so ft h es y s t e mi nt h ec l o s e dt e s ta r e9 7 1 a n d9 5 1 r e s p e c t i v e l y m o r e o v e r , t h ed i s s e r t a t i o nc o n s t r u c t sas t a t i s t i c a lm o d e lf o rc h i n e s ep o st a g g i n g , w h i c hc o u l du s em o r ec o n t e x ti n f o r m a t i o n b e c a u s eo fm o n g o l i a nl a n g u a g ef e a t u r et h a ta c h i e v e sm o r p h o l o g i c a lc h a n g e s t h r o u g hc o n n e c t i n gd i f f e r e n ts u f f i x e st os t e m s ,t h i sd i s s e r t a t i o nu s e sm i n i m u m d e s c r i p t i o nl e n g t ha l g o r i t h mf o rs e g m e n t a t i o no fm o n g o l i a ns u r f a c ef o r m s i tt a g s m o n g o l i a np a r to fs p e e c hb a s e do nc r f s ,a n ds e t st h es e g m e n t a t i o no fs u r f a c ef o r m s r e s u l t sa so n ef e a t u r e t h es y s t e mi st e s t e di nt h em o n g o l i a nt e s t i n gs e t st h a ta r e p r o v i d e db yi n n e rm o n g o l i au n i v e r s i t ya n di n s t i t u t eo fi n t e l l i g e n tm a c h i n e t h e i i a c c u r a c l e so fc l o s e da n do p e nt e s t sa c h i e v e 9 6 8 a n d9 6 7 r e s p e c t i v e l v b ye n r i c h i n gt h el e x i c a la n dm o r p h o l o g i c a li n f o r m a t i o ng o t t e n 舶m t h el e x i c a l a n a l y s l s t o f a c t o r e dt r a n s l a t i o n m o d e l ,t h i sd i s s e r t a t i o nc o n s 仃u c t s s e v e r a l t r a n s l a t l o np a t h sf r o ms o u r c ef a c t o r t ot a r g e tf a c t o r , a n du s e ss e v e r a l l a i l g u a g e m o d e i sb a s e do nf a c t o rt o e v a l u a t et h eq u a l i t yo ft h et r a j l s l a t i o n f i n a l l v t h e d l s s e r t a t i o na l s ob u i l d s ag e n e r a t i o nm o d e lf r o m s e v e r a ll a n g u a g ef a c t o r st 0 m o n g o l i a ns u r f a c ef o r m s b yi n c o r p o r a t i n gm o r el e x i c a lk n o w l e d g eo ft h es o u r c e a n d 拓昭e tl a l l g u a g e ,t h et r a n s l a t i o ns y s t e mc a n s i g n i f i c a n t l yi m p r o v et h eq u a l i t yo f t h et r a n s l a t i o n k e yw o r d s :l e x i c a la n a l y s i s i s ,c o n d i t i o n a lr a n d o mf i e l d s ,l o c a la m b i g l l i t y w o r dg r i d ,m i n i m u m d e s c r i p t i o nl e n g t h ,s t a t i s t i c a lm a c h i n et r a n s l a t i o n i l l 中国科学技术大学学位论文原创性声明 本人声明所呈交的学位论文,是本人在导师指导下进行研究工作所取得的 成果。除已特别加以标注和致谢的地方外,论文中不包含任何他人已经发表或 撰写过的研究成果。与我一同工作的同志对本研究所做的贡献均已在论文中作 了明确的说明。 作者签名:缸益岔 签字日期:趋! 笸17 中国科学技术大学学位论文授权使用声明 作为申请学位的条件之一,学位论文著作权拥有者授权中国科学技术大学 拥有学位论文的部分使用权,即:学校有权按有关规定向国家有关部门或机构 送交论文的复印件和电子版,允许论文被查阅和借阅,可以将学位论文编入有 关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论 文。本人提交的电子文档的内容和纸质论文的内容相一致。 保密的学位论文在解密后也遵守此规定。 口公开口保密( 年) 作者签名:氢圣 签字日期:劢丞l 4 导师签名: 签字日期:垒叟z 2 :笪:z 第l 章绪论 1 1 本文研究背景及意义 第一章绪论 自然语言词法分析的研究主要包括自然语言的切词、未登录词识别和词性标 注,是自然语言处理的基础。词法分析的精度将直接影响到一系列后续语言信息 处理的效果,如自然语言的智能输入、语言情感分析、文本校对、自动索引、自 动分类、信息检索、信息抽取、自动摘要、文章风格研究、机器翻译等等n 1 。但 是由于自然语言自身的复杂性,词法分析问题一直是自然语言信息处理的难题。 不同种类的自然语言,对应词法分析的研究内容也有所不同。对于词与词之 间已经有标记隔开的语言,例如 蒙古语、英语等形态丰富的语言都用空格隔开 句子的词语,该类语言的词法分析任务主要包括:需要对词的内部进行深层次的 词形分析,切分还原得到每个词语的词干和词缀信息;还需要进一步分析切分出 来的词素,得到表示词的语法属性的词性标注信息,为进一步的自然语言结构分 析和机器翻译提供前提条件。 与之对应,对于词与词之间没有界限的语言,例如:汉语、日语等语言的语 句是由字序列构成,词与词之间没有明显的标记,其词法分析的内容基本为:分 析识别出语言句子中的词语:并得到对应的词性标注信息。其中分词是该类语言 词法分析的主要问题。词法分析涉及到的技术难点有未登录词识别和词性标注。 早在1 9 4 9 年,w a r r e nw e a v e r 写下了著名的有关启动机器翻译研究的备忘 录,正式提出了机器翻译问题诬1 。尤其是,近年来全球化进程步伐进一步加快, 国际社会的交流更加频繁,不同语言人员之间的交流障碍也显得越来越突出,机 器翻译研究( m a c h i n et r a n s l a t i o n ) 更加引起了人们的关注。而几十年来,研究 人员在不断地探索提高机器翻译性能的研究过程中,越来越深刻的认识到,高质 量的机器翻译结果需要高准确率的自然语言词法信息的支持,自然语言词法分析 的研究就显得愈加重要了。 中科院合肥智能机械研究所从2 0 0 5 年在国内较早的开展了汉语到少数民族 语言机器翻译的研究,先后开发研制了基于模板的机器翻译系统b 1 、基于短语的 统计机器翻译系统h 】【6 1 。我国少数民族语言大多属形态丰富语言,而汉语几乎没 有形态变化。汉民机器翻译中,由于语言形态不对称,译文词形错误问题比较 突出。主要原因是没有在机器翻译的前端分析与提取语言的词法信息。 本文的研究成果将作为机器翻译系统的前端自然语言词法分析模块,应用于 本实验室正在开发的融入形态信息的汉蒙机器翻译系统中。同时本文的研究成果 第1 章绪论 还可以应用于本实验室进行的民族语言语料库的建设和切分标注工作中,也将应 用于实验室进行的网页搜索、网络信息抽取、自动文摘等相关的自然语言处理研 究中。 本文通过对汉语和蒙古语词法分析中的词形切分和词性标注的研究,处理在 其中存在的切分歧义、未登录词识别、词语的词性兼类现象等。这些问题是词法 分析处理的难点,也是整个汉蒙机器翻译系统的基础环节,其结果将直接影响到 机器翻译系统的翻译性能。本文将以基于语料库的统计方法为主,针对汉语和蒙 古语的语言特点,充分利用语言的上下文信息,研究实现汉语和蒙古语的词形切 分和词性标注,为在汉蒙翻译模型中融入互译语言的词法形态信息,提高汉蒙机 器翻译的译文质量打下坚实的基础。 1 2 词法分析概述 词法分析是自然语言处理的一个基本问题,词法分析的准确度直接影响到后 续自然语言处理的正确性,如机器翻译、自动分类、自动索引、信息检索、信息 抽取等n 1 旧。 1 2 1 词法分析的主要研究内容 自然语言词法分析处理过程主要包括词形切分和词性标注两个阶段。不同种 类的语言,其词法分析的任务有所不同。对于词语之间有界限的自然语言,如: 蒙古语,其词法分析中的词形切分研究,主要是分析和切分表面词形的内部词素; 而对于词语之间没有界限的自然语言,如汉语,其词法分析中的词形切分研究, 主要是分析和识别语句中的词语。 书面蒙古语是词语之间有界限的语言,词与词之间都有空格来表示词的边 界,不需要处理词语的识别问题。但是,蒙古语通过在词干后缀接不同的词缀来 实现其语法功能,词法分析中如果对蒙古语的整词进行处理,则会丢失大量的语 法和词类属性的信息;因此,蒙古语的词法分析中需要对蒙古语的表面词形进行 深层次的分析,切分出每个词语的词素( 包括词干和词缀) 信息,在此基础上再 对切分出来的词素进行词性标注口1 。汉语是词语之间没有界限的语言,没有形态 的变化,其自然语言处理都必须首先识别出语句中的词语;因此,汉语词法分析 中的词形切分处理任务主要是在语言文本中词与词之间自动加上界限标志,识别 出语句中的词语随瑚1 。并且,还需要对这些识别出来的词语进行词性标注,为句 子中每一个词赋予正确的词法标记。 2 第1 章绪论 1 2 2 词形切分 在自然语言的词法分析研究中,词形切分是一个必不可少的阶段;无论是词 语界限明显的语言,还是缺乏自然分隔的语言,词法分析中都需要进行切分的研 究。词形切分是整个自然语言信息处理的基础环节,将影响后续自然语言处理系 统的性能。 早在2 0 世纪8 0 年代初,国内外学者就在词形切分方面开展了采用基于有限 状态机、规则、统计等不同方法的研究。k e n n e t hr b e e s l e y ( 1 9 9 6 ) 等利用有限 状态转换机的方法( f i n i t es t a t et r a n s d u c e r ,f s t ) 实现了阿拉伯语的形态分析 过程n 们,可以切分出阿拉伯语的词根和词缀,并可以推导出词性信息;p o r t e r 开展了基于规则的词干提取研究,提出了一种词干提取算法,研制了词干提取工 具s n o w b a l l n ;e z r ad a y a n 2 1 等利用机器学习( m a c h i n el e a r n i n g ,m l ) 方法,解 决了希伯来语( h e b r e w ) 的词干( 或词根) 抽取问题;c r e u t z & l a g u s 提出利用无监 督方法提取词素( m o r p h s ) 信息的方法,研制了词素分析工具m o r p h e r n 3 m 1 钔;2 0 0 5 年以来,隐马尔科夫模型( h m m ) 、最大熵马尔科夫模型( m e m m ) 、条件随机场( c r f s ) 等统计方法也相继应用到了词形切分和词性标注处理等方面n 司n 6 瑚1 ;内蒙古大学 ( 2 0 0 5 ) 开展了基于规则方法和基于h m m 的蒙古语的形态分析方面的研究,研制了 蒙古语词语自动切分与标注系统d a r h a n n 引。词形切分的方法主要可以分为两种: 基于规则的方法和基于统计的方法。 基于规则的方法按一定的策略将待切分的词串或字符串与一定规模的词典 进行匹配,一般都以足够大的人工建立好切分规则库和词典为依据u 9 1 。对于词语 有界限语言的词形切分,需要人工建立词素切分规则库和词干词缀词典;匹配过 程中,若表面词形字符串中的某个子串能够与词干词缀词典中的某个词素匹配成 功,则识别出这个词干或词缀。涉及到的切分方法有基于词缀的词形切分方法、 基于词缀的词形切分方法以及基于词干词缀的混合词形切分方法。对于词语之间 没有界限标志的自然语言的词形切分,需要人工建立词语切分规则库和词典;匹 配过程中,若句子中的子串能够与词典中的一个词条匹配成功,则识别出这个词。 涉及到的切分方法主要包括正向最大匹配法、逆向最大匹配法、双向匹配法等。 基于规则的词形切分算法有较多的缺点:一般具有比较高的复杂度;单纯的 使用该方法,并不能解决未登录词和分词歧义的问题,在未登录词比较多的时候, 该方法的性能将大幅度的下降;在切分歧义问题的处理上,也很难达到较好的切 分效果。若建立的词典规模较小,词语的覆盖范围有限,也将影响切分的正确率。 基于统计的词形切分方法一般结合特定的机器学习模型,根据一定规模的语 料库统计词语的上下文信息、自动学习切分规则,选择概率最大的切分路径作为 切分结果。对于有词语界限的语言的词形切分,统计模型主要考虑本词的词干、 第1 章绪论 词缀统计概率和前后表面词形的词干词缀统计概率;对于词语无自然界限的语言 的词形切分,主要根据词是稳定的字的组合,统计模型考虑相邻字同时出现的次 数。基于统计的词形切分方法不需要切分词典,而只需对语料中的词形频率进行 统计,因而也称为无词典词形切分方法,所使用到的统计模型主要包括神经网络 模型、互信息、隐马尔可夫模型、最大熵模型、n 元文法模型和条件随机场等。 基于统计的词形切分方法具有很多优点:能够很容易使用大规模语料库为模 型提供足够的实例模型化知识:在训练语料足够大的情况下,模型能够覆盖的范 围较大,能够更客观地反映语言学的规律;统计模型的鲁棒性、一致性好,在有 错误的数据和新数据中仍然能取得较好的性能。但这种方法也有其局限性:对自 然语言的处理和表示比较肤浅,需要大规模的标注语料库。 上述几种方法的研究均取得了不同程度的进展,但是也存在着一些不足。规 则方法需要大量的人工编写的规则,存在着规则冗余、规则冲突等问题;f s t 的 方法和m l 的方法可以从大规模的语料中自动学习规则,避免了人工参与的成分, 但是对形态丰富语言结构的描述能力有限:h m m 方法由于其输出独立性假设( 而 大多数序列数据都不能被表示成一系列独立的元素) ,缺乏对上下文信息的关注, 限制了语言信息的充分应用;m e m m 可以任意的选择语言信息作为特征,弥补了 h 埘的一些不足,但由于其在每一节点都要进行归一化处理,所以只能找到局部 的最优值,由此也带来了标记偏离( 1 a b e lb i a s ) 、长度偏离( 1 e n g t hb i a s ) 等问 题;c r f s 是一种概率图模型,允许观测序列的任意依赖,而且不必要为每个状 态和观察值指定特征,并不在每一个节点进行归一化,而是所有特征进行全局归 一化,可以求得全局的最优值,该方法可以弥补h m m 和m e m m 的缺陷,能够较好 地处理形态丰富语言的形态信息的分析与提取。c r f s 也有一定的缺点,相比h m m 和m e 删模型,该模型通过统计计算更多的特征信息提高序列标注的准确率,也 增加了模型的空间和时间复杂度;需要更多的存储空间存储特征信息,模型的训 练和解码也需要更多的时间。 1 2 3 词性标注 词性是词的句法功能类别,反映词汇的语法位置;在自然语言句子中,有些 词仅有一种词性;而有一些词根据在语句中位置不同,则具有不同的词性,即词 性歧义。只有在一定的上下文语境关系中,才能确定词的词性特征。在很多的自 然语言处理工作中,都有一个词性标注的阶段。词性标注的精确程度将对自然语 言的后续分析处理( 例如:句法分析、语义分析、文本分类、文档校对、机器翻 译、自动文摘、信息抽取等) 产生直接的影响。由此可以看出,汉语词性标注对 汉语处理的重要性。根据对兼类词的处理方法不同,词性标注的技术大致可以分 4 第1 章绪论 为三类:基于规则的方法、基于转换的方法、基于统计的方法。 ( 1 ) 基于规则的方法,是较早被采用的词性标注方法,其需要人工编写复杂 的语法词典、语义词典和规则系统。早在1 9 7 1 年,美国研究人员g r e e n e 和r u b i n 就开发了一个基于规则的词性标注系统t a g g i t ,系统主要使用了8 6 个词性标注 集、含标注信息的词典、以及3 0 0 0 多条标注规则。其词性标注过程主要有两个 阶段:第一阶段是,直接根据含标注信息的词典,标注测试语料( 可能含有歧义) ; 并且,对一些专有词语进行特殊处理,例如时间词、机构名、特殊符号等。第二 阶段是排除兼类词歧义,使用了3 0 0 0 多条标注规则。该系统在大规模语料上进 行了测试,词性标注准确率达到了7 7 。 但是,该方法需要耗费很大的人力和物力,而且人工制定的规则具有较大的 主观性,规则的覆盖率和正确率难以得到保证。最主要的问题是在遇到长难句、 不规范的语句、未登录词时,该方法的处理能力不强,导致词性标注准确率不高。 ( 2 ) 基于转换的方法倥,最初用于英语的词性标注,其基本流程是:先根 据带有标注词性信息的语料库计算得到每个词最大概率的词性标记,并用于标注 训练语料库,称为初始标注;然后使用机器学习获取新的标注规则。使用该方法 进行词性标注时,首先进行初始标注,然后按照获取的次序使用规则进行标注。 该方法主要问题是学习规则的时间过长。 ( 3 ) 基于统计的方法儿别是目前应用最广泛的词性标注方法。一般而言,统 计的方法都需要大量的语料训练获得统计参数。对于词性标注中存在的两个难题 ( 兼类词和未登录词的标注) ,基于统计的方法可以通过计算当前词的上下文信 息,得到很好标注效果。本文设计的双层条件随机场蒙古语词性标注模型,首先 在低层对表面词形进行切分,得到词素( 词干和词缀) 信息;高层的条件随机场 模型再对蒙古语的词素进行标注,融入了词素的上下文信息,并把低层切分的词 干信息做为特征引入,提高了兼类词和未登录词的标注准确率。 1 3 本文的研究工作 我国少数民族语言蒙古语属形态丰富语言,而汉语几乎没有形态变化。汉蒙 机器翻译中,由于语言形态不对称,译文词形错误问题比较突出。主要原因是没 有在机器翻译的前端分析与提取互译语言的词法形态信息。本文通过对汉语和蒙 古语词法分析中的词形切分和词性标注的研究解决在其中存在的切分歧义、未登 录词识别、词语的词性兼类现象等。这些问题是词法分析处理的难点,也是整个 汉蒙机器翻译系统的基础环节,其结果将直接影响到机器翻译系统的翻译性能。 我们将以基于语料库的统计方法为主,针对汉语和蒙古语的语言特点,充分利用 第l 章绪论 语言的上下文信息,研究实现汉语和蒙古语的词形切分和词性标注。并将词法分 析结果应用于本实验室正在开发的融入形态信息的汉蒙机器翻译系统中,为提高 汉蒙机器翻译的译文质量打下坚实的基础。 蒙古语属于形态变化非常丰富的黏着语,一个词干之后可以层层缀接不同的 词缀构成不同的词形,通过词缀实现语法功能。所以只有正确切分词根、词干和 词尾才能揭示其词类属性和语法关系。因而词干与词缀的切分是蒙古语词法分析 的重要内容。蒙古语词性标注过程中,我们不但要对蒙古语的词干进行词性标注, 还要对蒙古语的各个附加成分进行属性的标注。 而汉语属于孤立语,是非形态语言,通过独立的虚词和固定的词序来表达语 法意义。汉语句子中词与词之间没有边界标志,所以区分出词( 即添加明显词语 边界标志) 是理解自然语言的第一步,是汉语信息处理的前提。但由于汉语自身 的复杂性,分词问题一直是汉语自然语言处理的难题。而且,汉语句子中有一些 词根据在语句中位置不同,则具有不同的词性,即词性歧义,这是影响汉语词性 标注准确率的主要问题。 本文主要针对以上这些问题,从蒙古语和汉语的语言学特点入手,结合改进 的条件随机场模型,构建基于统计的蒙古语和汉语词法分析模型,模型的性能在 大规模语料库上得到了验证( 汉语分词语料库使用b a k e o f f 2 0 0 5 国际评测的北大 和微软语料库,蒙古语语料库使用内蒙古大学切分语料库和本实验室开发的蒙古 语语料) ;并将词法信息融入基于短语的汉蒙统计机器翻译模型中,改进了翻译 系统的译文质量,译文的b l e u 值提高了将近1 4 。本文具体从以下几个方面进 行了研究: 1 、本文构建了基于条件随机场的双层词法分析模型,该模型能够更好地结 合蒙古语和汉语的语言特点,在实验中取得了更准确的结果;并改进了条件随机 场模型的解码算法,引入了简单的规则来删除在解码过程中产生的无效的边,既 提高了最后标记结果的质量,又减少了搜索空间、加快了解码速度。 2 、本文针对汉语词法分析中的切分歧义问题,构建了基于局部歧义词网格 的切分模型;并将低层的切分结果作为特征,提供给高层的条件随机场模型学习 训练,构建了双层的汉语分词模型,能够平衡的解决未登录词和分词歧义问题; 取得了高质量的分词结果。针对影响汉语词性标注准确率较大的兼类词问题,建 立能够更好的融合上下文信息、以解决兼类词问题的汉语词性标注方法。 3 、针对蒙古语通过词干后缀接不同词尾来实现形态变化的语言特点,本文 构建了基于最小描述长度的蒙古语词形切分模型;并将切分结果作为一项特征提 供给高层的条件随机场模型去学习,构建双层的蒙古语词性标注模型,其实验结 果高于以往的蒙古语词法分析结果,该模型的有效性得到了验证。 6 第1 章绪论 4 、在汉蒙短语翻译模型构建过程中,在源语言端引入词性信息,目标语言 端加入形态信息,建立了融入词法知识的翻译模型、语言模型、生成模型,弥补 了统计模型对汉语、蒙古语词法信息利用与表达能力不足的问题;提高了统计机 器翻译的译文质量。 1 4 论文结构框架 全文共分为6 章,安排如下: 第1 章引言 本章首先介绍了本文的研究背景和意义,重点介绍了词法分析及其对于自然 语言处理的重要性,详细介绍了基于规则、基于统计的词法分析方法。最后总结 了本论文的主要研究工作,并概括了本文的结构框架。 第2 章基于条件随机场的词法分析模型 本章主要介绍了条件随机场模型,及相关的图结构、势函数、参数训练算法、 解码算法。本章根据汉语和蒙古语词法分析中序列标记任务的特点,把条件随机 场简化成了链式的结构,并根据语言特点设计了特征函数。 第3 章汉语词法分析 本章提出了一种局部歧义词网格与c r f s 相结合的汉语分词模型,两种方法 的结合能够较好地解决分词中的分词歧义和未登录词问题。在s i g h a n 2 0 0 5 提供 的p k u 和m s r a 分词语料上得到了验证。并进行了汉语词性标注的工作。 第4 章蒙古语词法分析 本章使用了最小描述长度的算法对蒙古语表面词形进行切分。并将切分出的 词干信息作为一项特征提供给高层的条件随机场模型进行蒙古语词性标注;进而 构建了一个双层的蒙古语词性标注模型。 第5 章融入词法信息的汉蒙统计机器翻译 本章主要根据前面几章的汉语和蒙古语词法分析工作,针对汉蒙形态差异较 大引起译文词形错误突出的问题,将词法形态信息作为因子融合到汉蒙统计机器 翻译中,在双语对齐的汉蒙平行语料上进行了测试,提高了译文质量,对比实验 中译文的b l e u 值最多提高了将近1 4 。 第6 章结论与展望 本章总结了本文的工作,并讨论了未来的进一步研究工作。 7 第2 章基于条件随机场的词法分析模型 第二章基于条件随机场的词法分析模型 2 1 条件随机场 条件随机场【2 4 l ( c o n d i t i o n a lr a n d o mf i e l d s ,c r f s ) 是一种优秀的条件概率模 型,在给定观察序列的条件下,计算得到输出状态序列的条件概率,可以很好的 解决序列标注问题。该模型于2 0 0 1 年由美国研究人员l a w n y ,m c c a l l u m 和p e r e i r a 提出,并被应用于英语自然语言处理研究中【1 6 1 。 该模型克服了隐马尔可夫模型( h m m ) 苛刻的独立性假设,可以融合任意的 特征信息。而且,不存在最大熵模型的标记偏见问题,其求解的是当前观察序列 的全局最优输出状态的条件概率。因此,c r f s 能够更好地对现实世界的问题进 行数学建模。 2 1 1 条件随机场的图结构 c r f s 是一种无向图结构的数学模型,假设g = ( v ,e ) 是一个无向图,其中, 矿是无向图的节点,代表一组随机变量,e 表示图中节点之间的无向边。设 y = ( e ) 讪,y 按照g 中的节点分布。在以给定观察序列x 作为条件的前提下, 如果随机变量e 关于图g 具有马尔可夫属性( 如下式) ,则称( z ,y ) 为一个条件随 机场。 p ( klx ,匕,w 1 ,) = p ( klx ,匕,w 口v ) ( 2 1 ) 其中,w 口v 表示w 与v 在图g 中有边连接。 在图结构随机场模型中,已知观察序列x 的条件下,标注序列】,的联合概率 分布如下: p a ( 少ix ) o ce x p ( 以以( p ,yi p ,x ) ) ( 2 2 ) e e e ,k 其中,x 为需要标注的字符序列,y 为标注序列,y l 。表示与图g 中的边e 相 关的标记,以为模型定义的特征函数。 c r f s 中状态之间的转移都有一个非归一化权值,权值的这一特性反映了在 条件随机场模型中的状态转移是有区分的。所以,当前状态的任何概率分配都会 不同程度的传递给后续的状态,而所有可能的状态标记序列的权值都可以通过全 局归一化因子计算出来。从而c r f s 也就避免了标记偏置问题的发生。 8 第2 章基于条件随机场的词法分析模型 2 1 。2 条件随机场势函数 无向图结构的数学模型中随机变量的联合分布可以被分解成一个归化的 势函数的乘积。c r f s 中势函数是一个取值为非负的实值函数。 在已知观察序列x 的条件下,l a f f e r t y 等学者把标注序列j ,的条件概率定义 成了势函数相乘的一个归一化形式【16 1 ,并且每个因子的形式如下式。 e x p ( ;t j ( r , 小r ,x ,f ) + u k s k ( r , ,x ,功 ( 2 3 ) 其中,( z 书z ,x ,i ) 为转移特征函数,是对当前观察序列x 、i 一1 和i 之间 的状态转换的一个全面的衡量。& ( r ,x ,f ) 为状态特征函数,是对当前观察序列 和位置,对应标记的状态特征度量。兄,和段是前面两种函数对应的权重,是在参 数训练的时候,条件随机场模型从训练语料中迭代学习得到的。 在为模型定义特征函数的时候,可以通过构造观察序列的实值特征集合 b ( x ,f ) 来描述训练数据的经验分布特征,这些特征与模型具有相同的分布。以蒙 古语词素序列标注为例。 ) = 三推蚤栅艴嚣酮“队0 8 r ( 2 - 4 ) 一个特征函数描述一个实数值的观察特征b ( x ,f ) ,若当前状态或前一个状态 与当前状态( 转移函数) 具有特定的值,则所有的特征函数都是实数值的。例如下 面的转移函数。 懈小删冲蜾囊1 翥驴 协5 , 状态特征函数:( z ,x ,f ) = s k ( r , - p z ,x ,i ) 并且,f j ( r ,x ) = 乃( 托- ,z ,z ,f ) 1 特征函数f j ( r ,小r ,x ,f ) 可以是转移特征函数t j ( r , - l ,z ,f ) 或者状态特征函 数s k ( r , ,x ,f ) 。在给定观察序列x 的条件下,相应标注序列的概率计算公式如下: p ( rlx , ;t ) 5 赤e x p ( 莓乃c ( 】,堋) ( 2 - 6 ) 其中z ( x ) 为归一化因子,z ( x ) 5 e “;f,jfj(fxptl ,x ”。训练好的模型中名其中z ( x ) 为归一化因子,二l 以,5 乙e, 。训练好的模型中名 是已知的,因此,就得到了p ( f l x ) 。求解观察序列对应的标记序列,就是搜索 一个标记序列】,使得p ( y lx ) 概率最大。 9 第2 章基于条件随机场的词法分析模型 2 1 3 模型训练 条件随机场模型训练的主要任务是通过在训练语料上的迭代训练,学习获取 特征权重名。比较常见的方法有最大似然估计( m a x i m u ml i k e l i h o o de s t i m a t i o n , m l e ) 。在训练集合t = x k ) 】,) 中,最大似然估计首先设p ( rx ,五) 是以免为变 量的函数,使得p ( ri 彳,五) 的对数值最大的五即为所求的估计值,如下式: 厶= l o g p ( r i x k , 名) 。莩1 0 9 夏南腻p ( 莩乃c ( y k , x k ) ) ( 2 - 7 ) = ( 乃乞( p ,x ) - l o g ( z ( x ) ) ) 隶帚女信如下人=m a x a r g m a x l o g p ( 矿lx ,五) 求最大值如下:人2,二l o g p ( 】,l 爿,五) 厶是凸函数,因此,函数在导数为0 的点取得最大值。对五求导,如下式: 瓦o l a 。莩悸巧( y k , x k ) - - 姐m ) ) ( 2 - 8 ) 可以使用动态规划的方法进行求解,如前向一后向算法。模型训练学习过程 中,若直接使用最大似然估计,可能会出现过度学习的问题,可以通过引入惩罚 因子的方法来解决。 y 五; 例如引入惩罚因子77 ,则原问题转变成为下式: 2 盯2 v 彳。2 o :一鼻+ c o 凇f ( 2 - 9 ) 三 = 厶一 丁+ c o 凇 u 哆7 蚪1 斗士色妊e 徊别a l 一钇 乃 对上式求导数以后,得到:蒜2 嚣一土0 - 2 o a :o a 。 那么,模型五的参数估计问题可以用最优化的方法解决,如g i s ,i i s 等迭 代方法。 2 2 条件随机场的改进 条件随机场模型是图结构的模型,可以根据实际问题建立数学模型,能够融 合任意的特征知识,求得当前观察序列条件下标记序列的全局最优解。但是图结 构的条件随机场的参数训练和解码求解都非常复杂,模型的时间和空间复杂度都 非常高,难以用于词法分析。本文结合蒙古语和汉语词法分析的实际情况,对条 件随机场模型的多个方面进行了相应的改进,改进后的条件随机场模型在蒙古语 l o 第2 章基于条件随机场的词法分析模型 和汉语的词法分析实验中取得了较高的测试结果。 2 2 1 条件随机场结构的改进 蒙古语词法分析的一个重要方面就是对蒙古语词语的词素进行词性标注,由 于蒙古语句子是由若干个蒙古语词汇按照一定的顺序组成的线性字符串序列,因 此蒙古语的词性标注就是一个线性的序列标注过程。但是,蒙古语词的词性可能 存在多种,受词本身和上下文中词语的影响,需要在标注模型中融入语言知识和 上下文信息。 汉语词法分析中,词的切分是一个重要的研究内容,由于每个字在构造一个 特定的词语时都占据着一个确定的构词位置( 即词位) ,因此可以将切词的过程转 换成句子中每个汉字的字位信息的标注过程,即,汉字序列的标注过程。汉语词 法分析的另一个重要内容就是汉语词性标注,由于汉语句子也是由若干词语按照 一定的顺序组成的字串序列,因此汉语的词性标注就是序列标注的过程。 针对词法分析中的序列标注问题,本文把图结构的c r f s 简化为一阶马尔科 夫过程的线性链模型。不但能够降低c r f s 的参数训练和解码过程的复杂度,而 且能够更好地根据序列标注问题进行数学建模、充分拟合上下文词的统计数据, 取得了更好的标注结果。 在该一阶线性链式条件随机场模型中,x 为需要被标注的观察序列( 对应蒙 古语词素序列,或汉语字序列) ,】,的元素对应的每个节点形成了一个简单的一 阶链( 对应一个随机变量对应的标记序列) ,如下图所示: y 1 y 2 y 3y n 一1 一一一n ( )uu u( j x lx 2x 3x n 一1 图2 1c r f s 链式结构图 图中,为了定义一个条件概率分布p ( y l 彳) ,本文把代表】,元素的节点序列 作为整个图结构的一部分。并且,我们把观察序列x 作为条件,没有对x 序列 节点作任何的独立性假设,z 序列

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论