




已阅读5页,还剩42页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
内蒙古大学硕士学位论文 层次化蒙古语语言模型的构建研究 摘要 语言模型是描述自然语言内在规律的数学模型,它广泛地应用 于机器翻译、语音识别和文本校对等领域。近几年,基于语料库的统 计语言模型的构造技术成为新的研究热点,统计语言模型也已逐渐成 为自然语言处理的主流技术之一。我国蒙古语语言模型技术还缺少很 多相关的研究,这也间接影响少数民族地区信息化建设的进程。 本文对统计语言模型的相关技术进行了探讨,并对蒙古语的特点 进行了分析。根据蒙古语典型的构形词缀的特点,通过深入挖掘蒙古 语词干和词缀之间的依赖关系来提高语言模型对蒙古语描述的准确 性。具体方法是将蒙古语语言模型分为三个层次,分别是词干和词干 的依赖、词干和词缀的依赖、词缀和词缀的依赖。在这三个层次上分 别构造合适的语言模型,然后再把它们结合起来成为一个完整的适合 于蒙古语的语言模型。 本文最后把这种层次化的蒙古语语言模型方案应用到了一个基 于实例的汉蒙机器翻译系统中,实验证明本文所构造的层次化的蒙古 语语言模型能够有效地提高汉蒙机器翻译的效果。 关键词:蒙古语统计语言模型数据平滑词干词缀 层次化蒙古语语言模型的构建研究 t h er e s e a r c ho nc o n s t r u c t i n gl a y e r e d m o n g o l i a nl a g u a g em o d e l a bs t r a c t l a n g u a g em o d e l ( l v 0i s am a t h e m a t i c sm o d e lt h a td e s c r i b e s i n h e r e n td i s c i p l i n e so fn a t u r a ll a n g u a g e i ti sa p p l i e di nt h ef i e l do fn a t u r a l l a n g u a g ep r o c e s s i n g t h a tc o n t a i n sm a c h i n et r a n s l a t i o n ,s p e e c h r e c o g n i t i o na n dt e x tc o l l a t i o n n o w a d a y s ,t h ec o n s t r u c t i o no f s t a t i s t i c a l l a n g u a g em o d e li sb e c o m i n g an e wh o t p o i n tt or e s e a r c h ,a n dt h e s t a t i s t i c a ll a n g u a g em o d e li sb e c o m i n gap r e v a i l i n gt e c h n o l o g yo f n a t u r a ll a n g u a g ep r o c e s s i n gg r a d u a l l y a tp r e s e n t ,al a c ko fr e s e a r c h i n g o n m o n g o l i a nl a n g u a g e m o d e lh a sr e s t r i c t e dt h ec o u r s eo f i n f o r m a t i o n i z a t i o n t h i sp a p e rh a sd i s c u s s e dt h ec o r r e l a t i v et e c h n i co fs t a t i s t i c a l l a n g u a g em o d e l ,a n dh a sa n a l y z e dt h ec h a r a c t e r i s t i c so fm o n g o l i a n a c c o r d i n g t ot h ec h a r a c t e r i s t i c so fm o n g o l i a n ,t r yt oi m p r o v et h ev e r a c i t y o fl a n g u a g em o d e lb yr e a s e a r c h i n gd e p e n d e n tr e l a t i o nb e t w e e ne t y m a a n da f f i x t h em e t h o di s d i v i d i n gl a n g u a g e m o d e li n t ot h r e e a d m i n i s t r a t i v el e v e l s ,t h e ya r ee t y m aa n de t y m a ,e t y m aa n da f f i x ,a f f i x a n da f f i x c o n s t r u c tl a n g u a g em o d e lo nt h e s ea d m i n i s t r a t i v el e v e l s s e p a r a t e l y , a n dt h e nb a n d t h e mt o g e t h e r s ot h i sl a n g u a g em o d e l i sa d a p t t om o n g o l i a n t h i sl a n g u a g em o d e lh a sb e e na p p l i e do nac h i n e s e - m o n g o l i a n m a c h i n et r a n s l a t i o ns y s t e mt h a ti sb a s e do ne x a m p l e t h ee x p e r i m e n t p r o v e st h a tt h el a n g u a g em o d e lc o u l di m p r o v e t h et r a n s l a t i o nr e s u l t k e y w o r d s :m o n g o l i a n ,s t a t i s t i c a ll a n g u a g em o d e l ,d a t as m o o t h i n g , e t y m a ,i f l e c t i n a la f f i x n 内蒙古大学硕士学位论文 图表目录 图1 1 二元模型和s k i p - n 语言模型4 图2 1 “m a r ye a t sc h e e e s 的句法树8 图3 1 层次化语言模型总体构架1 2 图3 2 方案一的词干和词缀的依赖关系1 4 图3 3 方案二的词干和词缀的依赖关系1 4 图3 4 方案三的词干和词缀的依赖关系1 5 图3 5 方案四的词干和词缀的依赖关系1 6 图3 6 词缀对词干的依赖关系1 9 图3 7 词干对词缀的依赖关系2 0 图3 8 四种方案计算复杂度比较2 1 图3 9 层次化模型的最终方案2 2 图5 1m o n g s m t 系统的短语表3 5 表3 1 一元词出现的次数1 8 表3 2 二元词出现的次数1 8 表3 3 三元词出现的次数1 8 表3 4 词干的二元条件概率1 8 表3 5 词干的三元条件概率1 8 表3 6 词缀的二元条件概率1 9 表3 7 词缀的三元条件概率1 9 表3 8 一个词干和一个词缀的二元条件概率1 9 表3 9 两个词干和一个词缀的三元条件概率2 0 表3 1 0 两个词缀和一个词干的三元条件概率2 0 表3 1 1 四种方法的效果比较2 l 表5 1 层次化模型在不同测试集上的结果3 7 v 原创性声明 本人声明:所呈交的论文是本人在导师指导下进行的研究工作及取得的研究 成果。除了文中特别加以标注和致谢中所罗列的内容以外,论文中不包含其他人 己经发表或撰写过的研究成果,也不包含为获得内蒙古大学及其他教育机构的学 位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均己在 论文中作了明确的说明并表示了谢意。 学位论文作者签名: 日 指导教师签名: 期: 在学期间研究成果使用说明书 本学位论文作者完全了解内蒙古大学有关保留和使用学位论文的规定,即: 内蒙古大学研究生在校攻读学位期间论文工作的知识产权单位属内蒙古大学。学 校有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被 查阅和借阅;学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩 印或其它复制手段保存、汇编学位论文。作者今后使用涉及在学期间主要研究内 容或研究成果,须征得内蒙古大学就读期间导师的同意;若用于发表论文,版权 单位必须署名为内蒙古大学方可投稿或公开发表。 学位论文作者签名: 日 指导教师签名: 内蒙古大学硕士学位论文 1 1 引言 第一章绪论 语言作为人类最重要最自然的交流工具,是人类获得信息的最重要的渠道之 一,也是文字信息处理领域最重要的方向:随着计算机技术的迅猛发展,人们越 来越渴望能通过自然语言的方式与计算机进行信息交流,让计算机能够理解自然 语言一直是人类的梦想:计算语言学就是在这一背景下产生的新兴的边缘学科, 用于研究自然语言的信息处理技术u 3 。 语言模型是描述自然语言内在规律的数学模型,它主要描述自然语言的统计 和结构方面的内在规律。计算机主要依据语言模型对自然语言进行理解。人类自 然语言具有模糊性,人们经常接受模糊语言与模糊信息,并能做出正确的识别和 判断。为了实现用自然语言跟计算机进行直接对话,就必须把人类的语言和思维 过程提炼成数学模型,才能给计算机输入指令。构造语言模型是为了归纳、发现 和获取自然语言的统计和结构方面的内在规律j 语言模型作为自然语言处理中最重要的技术之一,有着非常广泛的应用。比 如,在语音识别中,为了真正实现从声音到文字的转换,计算机除了需要“听 出是哪个音外,还需要确定该音映射到哪个( 些) 文字,这就需要依靠语言模型对 所有的候选进行打分瞄。在文字输入领域,为了提高输入效率,可以使用语言模 型开发出好用的整句输入法。在实践当中,语言模型还广泛地应用于手写体文字 识别、机器翻译、和文本校对等自然语言处理领域。 1 2 本文研究的背景 1 2 1 语言模型研究的概况 语言模型就其研究方面而言,一般分为两类。一类是基于语言学知识的规则 文法的语言模型,另一类是基于统计的语言模型。 传统的文法型语言模型是人工编制的语言学文法,文法规则来源于语言学家 掌握的语言学知识和领域知识。对于一个输入的文字串,计算机借助于文法规则 可以推导出该文字串的语法结构,从而可以判断出该文字串是否符合文法。这种 语言模型一般仅能分析特定领域内的句子,无法处理大规模真实文本。随着语料 层次化蒙古语语言模型的构建研究 库语言学的崛起,基于语料库的统计语言模型的构造技术成为新的研究热点。这 种语言模型通常是概率模型,计算机借助于统计语言模型的概率参数,可以估计 出自然语言中每个句子出现的可能性,而不是简单地判断该句子是否符合文法: 统计语言模型采用语料库语言学的方法,强调语料库是语言知识的源泉,通过对 语料库进行深层加工、统计和学习,获取自然语言文本中的语言知识,从而可以 客观地描述大规模真实文本中细微的语言现象,具有处理大规模真实文本的能 力。 研究发现,单纯依靠规则的语言模型几乎不可能完成对大规模真实文本的处 理,只能处理受限文本。目前,以语料库为基础的统计语言建模方法成为潮流, 它通过对语料库进行深层加工、统计和学习,获取大规模真实语料中的语言知识 。目前比较成功的语言模型通常是采用统计语法的语言模型与基于规则的语法 结构命令语言模型。语法结构可以限定不同词之间的相互连接关系,减少了识别 系统的搜索空间,有利于提高系统的性能。 尽管语言模型受到了广泛的重视,国内外进行了相应的研究。但是由于复杂 多变的自然语言中存在着大量的灵活的、不确定的语言现象,语言模型对于自然 语言的描述能力在深度和广度上均有待于提高,深入系统地研究语言模型的构造 方法是十分必要的h 1 。 根据问题的不同,可以选择不同模型,所以模型的构造包括几个方面的意 思:一是利用现有的模型,根据具体的问题,利用统计方法对模型中的参数进 行学习训练,得到适合你的具体问题的模型:二是利用现有的各种模型进行组 合、嫁接,形成新的适合你的具体问题的模型:第三是利用概率统计方法或新的 数学方法,开辟这些方法在自然语言处理中的应用,建立新的模型,甚至提出 新的数学方法,基于新的数学方法建立新的语言描述模型当然,目前在自然语 言处理中的模型建立基本上采用第一种方法和第二种方法根据具体的用途选 择相应的模型。2 4 3 当前主要的语言模型有n - g r a m 模型、决策树模型、指数模型( 最大熵模型) 、 整句模型、文法模型、和自适应模型等。 1 2 2 蒙古语语言的特点 一个蒙古语的单词往往由三部分构成,词干、构词附加成分和构形词缀。其 2 内蒙古大学硕士学位论文 中,词干决定了词的基本意思,构词附加成分和构形词缀决定了词的态、体、时 态等信息。一个词干和构词附加成分也可构成另一个新的词干。而在本文中,我 们只把一个蒙古语单词分成两部分来研究,即词干部分和词缀部分,其中我们把 构词附加成分和构形词缀统称为词缀或后缀。 例如蒙古文词“洲吖中间存在一个空白,这个空白并不是通常意义上 的空格,这两个部分其实是同一个词。因此在拉丁转写这个词的时候,我们记作 “j a s a g v n ”,其中“- v n 前面的减号表示,这是一个词的后缀形式,即和前 面的内容形成一个词。又如“惭 ,这是一个单词,但是,这个单词又是由 两个部分组成的,拉丁转写为“i l a + d a g ,其中“+ d a g 表示词的后缀形式, 和前面的内容形成一个词,两者之间不用空白分隔。 综合上面的讨论,对于蒙古语语言模型的研究,一方面希望解决n - g r a m 语 言模型只能描述连续词的依赖关系的缺点,又要利用蒙古语词干、词缀的特点。 1 2 3 蒙古语语言模型的研究现状 目前,蒙古语语言模型的研究主要存在以下两个问题晦6 。: 1 ) 大规模的蒙古语语料库 由于蒙古语信息化建设的相对滞后,在大规模的蒙古语语料库方面的建设也 滞后。从上世纪8 0 年代中期,i m u i 蒙古文编辑软件诞生至今,蒙古文的字符 编码一直处在种类繁多,不一致的现象。虽然现在蒙古文国际编码已经制定,但 是早期文献的蒙古文编码多用的是形码,两者之间的转换还是尚未解决的问题。 因此能够收集到的蒙古文语料比较有限,大量的基础语料还需要人工校对才能使 用。 2 ) 词干词缀信息的利用 蒙古文单词大多情况下,用空格来分隔词。但是,实际上蒙古文中出现的空 格未必就不是一个单词,例如蒙古文词“神州吖 中间存在一个空白,这个空 白并不是通常意义上的空格,这两个部分其实是同一个词。因此在拉丁转写这个 词的时候,我们记作“j a s a g v n ”,其中“一v n 前面的减号表示这部分是一个 词的后缀形式,即这部分要和前面的内容形成一个词。又如“删一,这是一 个单词,但是,这个单词又是由两个部分组成的,拉丁转写为“i l a + d a g ,其 中“+ d a g 前面的加号表示该部分是词的后缀形式,要和前面的内容形成一个词, 3 层次化蒙古语语言模型的构建研究 且两者之间不用空白分隔。 由于上述原因,对于蒙古语语言模型的研究工作还不是很多。目前,使用最 广泛的语言模型是n - g r a m 模型,对于蒙古语语言模型的研究工作大多都是基于 统计语言模型的n - g r a m 模型,即在普通n g r a m 模型的基础上加入一些针对于蒙 古语特点而产生的新的依赖关系,使得新的语言模型在n - g r a m 模型的基础上更 适合于蒙古语。 目前已有的研究有基于长距离依赖的s k i p - n 蒙古语语言模型。在这个语言 模型方案中,由两个部分组成,一个是普通的n 元模型,另一个就是s k i p n 模 型,后者最为前者的补充。在s k i p n 模型中,是以二元模型为基础,添加了远 距离的依赖关系川。如图l 所示。 w l 卜一w 2 卜一一w 3 卜一w 4 图1 1 二元模型和s k i p n 语言模型 f i g u r e1 1t h eb i g r a mm o d e la n dt h es k i p - nl a n g u a g em o d e l 图中给出的就是二元模型和s k i p - n 模型的依赖关系图。我们看到,在二元 语言模型中,每个词只依赖于前一个词。而在s k i p n 模型中,依赖关系添加了 跨越n 个单词的依赖关系。用公式表示如下: k 尸( 嵋1 w ,w 2 w i 一。) = 兀尸( 嵋l 一,) ( 卜1 ) = l 在这个公式中,为了减少计算量,最大的依赖距离取k ,在实验中k 取9 。 结合传统的n g r a m 模型的公式,在s k i p n 模型中,句子的困惑度计算公式如下: 一七 p ( w w 2 ) = 兀兀p ( iw i - j ) ( 1 2 ) i = 1 j = i 通过实验可以证明,由于s k i p n 语言模型本身包含二元语言模型,所以翻 译结果的得分要比二元语言模型高1 个百分点左右( b l e u ) i s 。同样,在3 元语 言模型的基础上加上s k i p - n 模型也能对翻译结果有所提高,但是,提高的幅度 比较有限。 1 3 本论文的研究概况 4 内蒙古大学硕上学位论文 1 3 1 研究内容 本论文研究的内容是在统计语言模型的基础上,构建一个新的适合于蒙古语 的语言模型。 由于蒙古语有其独特的构形词缀的特点,传统的n g r a m 模型不能够合理有 效的利用这一特点,所以对于蒙古语来说,n g r a m 模型并不是最好的。在目前 对于蒙古语语言模型的研究中,都把蒙古语单词的词干和词缀平等地对待,即都 把它们看成是一个“词 。一个蒙古语单词可能是由一个词干加若干个词缀构成, 如果我们利用常规的n g r a m 模型进行分析,那么这个n 的值就不能仅限于3 以 内的数值,但是如果让n 取比3 大的数值,又会大大增加计算的复杂度。 统计语言模型对于这个问题可以有几种不同的解决方案:一是加入对长距离 依赖关系的统计模型,例如上文中提到的s k i p - n 模型;二是把词干和词缀区别 对待,建立不同层次的统计语言模型。 根据蒙古语的语言特点,我们不能把统计语言模型的构建纯粹建立在词与词 的关系上。事实上,蒙古语词缀与词缀、词干与词缀之间都有相互的依赖关系, 这些关系是需要语言学知识和统计计算语言学知识来挖掘整理的。我们的目的就 是构建在这样的一个基础上的统计语言模型。 本论文的研究内容就是在充分利用蒙古语构形词缀特点的前提下,分别挖掘 出蒙古语词干和词干、词干和词缀、词缀和词缀这三种不同的依赖关系。通过采 用多层次的语言模型来构造更适合于蒙古语的语言模型。我们把语言模型分为三 层,第一层为词干和词干,第二层为词干和词缀,第三层为词缀和词缀。分别在 这三个层次上去寻找或构建合适的语言模型以研究其各自的搭配关系。 词干和词干,词缀和词缀这两个层次的研究比较简单,用普通的n 元模型 即可。对于词干和词缀这一层次可以有多种依赖方法有待于我们去研究。用不同 的公式去计算整个句子的语言模型概率值。我们最后用实验来确定采用什么样的 依赖方法效果是最好的。具体的实验方法是利用现有的一个汉蒙机器翻译系统, 用新的语言模型去替代系统中的语言模型,通过对系统翻译结果的评价来比较和 确定语言模型的性能好坏。在把语言模型方案应用到实际的机器翻译系统中之 前,需要给出一个公式去计算蒙古语句子的语言模型概率值,这个公式由三部分 组成,分别是词干和词干的依赖、词干和词缀的依赖、词缀和词缀的依赖。汉蒙 机器翻译系统m o n g s m t 系统的实现是用语言模型、翻译模型、句长模型和扭曲 层次化蒙古语语言模型的构建研究 模型综合起来给一个蒙古语句子进行打分的,我们只是替换掉其中的语言模型而 其它模型不变。 1 3 2 研究意义和章节安排 本论文的研究意义是通过建立词干和词干、词干和词缀、词缀和词缀三个层 次的语言模型,- 可以挖掘出蒙古语中词干间、词缀间以及词干词缀间的统计依赖 关系,充分利用了蒙古语的特点。上文提到普通的n 元模型只能反应近距离的 关联,对于更远序的语词之间的联接关系无法在此种模型中得到反映。而蒙古语 的一个单词往往又是由词干和词缀构成的,如果把它们分开考虑,三元模型是不 够的,因为蒙古语的一个单词往往就有三部分组成。所以把蒙古语语言模型按照 词干和词缀进行分层考虑。经过这样的改造之后产生出一个更加适合描述蒙古语 的语言模型。 论文的章节安排如下:第一章介绍了该论文研究的背景情况:第二章介绍了 语言模型的理论基础;第三章讨论蒙古语语言模型层次化的构建方法;第四章介 绍平滑方法;第五章对语言模型进行了评价和分析;第六章是总结和展望。 6 内蒙古大学硕士学位论文 第二章语言模型的理论基础 2 1 基于知识的语言模型 基于知识的语言模型研究遵循的是传统a i 语言知识的表示方法。自然语言 句法、语义分析的最基础的理论是c h o m s k y 的形式语法理论引。在形式语言理论 中,句子、语言和语法的形式化定义分别如下:一个句子是一个符号串,这个串 由选自某种语言词汇表中的一个或多个符号组成。一种语言是一个句集,它包含 了属于这种语言的全部句子。一部语法是对一个句集的一种有限的形式化描述。 一部短语结构语法g 可以用如下的四元组来定义: s 是初始符号; n 为非终结符集合,它代表语法范畴内的所有语言单元; e 是终结符号集合,是指被定义的那个语言的词或符号; r 是一个产生式规则集。 乔姆斯基的体系将形式语言的文法归结为四类: 0 型文法:又称为无限制文法。其重写规则r 有形式a - 1 3 ,q v 聿,b v + 。 它对重写规则形式没有任何限制。 i 型文法:又称为上下文敏感文法。其重写规则r 有q 。aq 。一。1 3c 1 。形式 的产生式,其中q 。,q :v 聿,b v + ,a e n 。 i i 型文法:又称为上下文无关文法。其重写规则r 有a 一形式的产生式。 其中a n ,1 3 v + 。 i i i 型文法:又称为正则文法或有限状态文法。其重写规则形式为a - qb 或 a 一- q 。 例如,一个上下文无关文法的规则的实例如下所示: := := j o h n m a r y := v e r b :e a t s l d r i n k s :- - - w i n e c h e e s e 按上述规则可以推导出句子“m a r ye a t sc h e e e s 的句法树如图2 1 所示。 7 层次化蒙古语语言模型的构建研究 o b 厄c t | c h e e s e 图2 1 “m a r ye a t sc h e e e s ”的句法树 f i g u r e 2 1 t h es y n t a xt r e eo f “j l a r ye a t s c h e e e s ” 2 2 统计语言模型 2 2 1统计语言模型的基本思想 统计语言模型以一种完全不同的方式对语言建模。对统计语言模型的认识可 以从几个不同的角度出发。从b y a e s 原则的观点出发,自然语言被看作是一个随 机序列n 0 1 。文本中的每一个句子或一段文本都是一个具有一定分布的随机变量。 例如具体到语音识别中,就是在己知声学特征的条件下求概率最大的文本串。根 据b a y e s 准则,可得: w = a r g m w a x p ( w i 彳) = a r g m w a x p ( a 形) 宰p ( 肜)( 2 - 1 ) w 表示文本字串,a 表示声学特征。而 p ( 形) = 兀p ( w jw 0一。)(2-2) f = i 统计语言模型的主要作用就是研究p ( wlw o w f 一。) 的估计方法。 统计语言模型中使用的最多的是n - g r a m 模型。计算这个概率就是统计预测, 即已知前面若干个词,预测下一个词可能是什么。为了使这种预测能够实现,通 常需要一个假设,即某一个词出现的概率只依赖于它之前出现的f 一1 个词语,这 个假设即为马尔可夫假设。满足这个假设的模型成为f 一1 阶马尔可夫模型:而在 语言模型里,称之为,元模型。 2 2 2 n - g r a m 模型 统计语言模型是关于某种语言所有语句或者其他语言单位的分布概率。也可 8 b r l l vt ee y 射i钕 眦i 脚 内蒙古大学硕士学位论文 以将统计语言模型看作是生成某种语言文本的统计模型。 如果用变量w 代表一个文本中顺序排列的n 个词,即w = 川,w 2 ,w 3 ,统 计语言模型的任务是给出任意词序列w 在文中出现的概率尸( 形) 。利用概率的乘 积公式, 尸( ) 可展开为: 尸( 形) = 尸( m ,w 2 ,) = p ( w 1 ) p ( w 21w 1 ) p ( w 3i w 2 ) ”,( iw l w n 1 ) ( 2 3 ) 不难看出,为了预测词w n 的出现概率,必须已知它前面所有词的出现概率。 从计算上来看,这太复杂了。如果任意一个词w i 的出现概率只同它前面一的n 一1 个词有关,问题就可以得到很大的简化。这时的语言模型叫做n 元模型, 即: 尸( 形) = p ( w i ,w 2 ,) = p ( w 1 ) p ( w 2w 1 ) p ( 嵋1w ,一+ 1 嵋一1 ) 尸( i 一+ l 一1 ) ( 2 4 ) 在这个公式中我们只需要计算最大规模为n 的连续元组的概率即可,这要比 前面的公式的计算量减少了很多。在实际应用中一般令n 为3 ,即通常所说的三元 模型。在三元模型中,一个单词出现的概率只和它前两个单词有关。 2 3 统计语言模型的优缺点 统计语言模型有许多的优点。 1 更直观、有效和松弛的语言自然表述捕获机制。统计语言模型的概率信息 比仅仅回答“y e s n o 在实际求解中更为有效。 2 语言信息收集方法简捷。统计语言方法语言信息及语言知识的收集是一 个基于大规模真实语料的无监督学习过程,能够避免语法知识和规则的人工编辑 与整理所带来的人员、资源及时间耗费。 3 求解方式自然灵活。统计语言模型对语句模式的模糊识别实际上是一个 动态规划与概率求解的过程。因而比基于知识的规则匹配求解更灵活。 4 模型对语言的适应具有较高的鲁棒性。与基于知识的语言模型相比,统计 模型能够适应更灵活的语言表述,覆盖更广泛的语言现象。 5 有良好的可计算性和可集成性。统计模型的概率计算比基于知识的规则 匹配要耗费更少的求解运行时间,因而更易于实时。 最成功的统计语言建模技术很少使用真实的语言知识,而目前完全通过统计 的方法得到的语言模型还不能够很好的满足应用的需要,而且时空开销大,数据 9 层次化蒙古语语言模型的构建研究 稀疏问题严重,对语料库依赖性强,跨领域的适应能力也比较差。 除此之外统计语言模型有如下一些缺点: 1 统计模型并不能理解文本或语句的实际意义。因此,一些存在严重语义错 误的语句可能被求解为似乎合理的结果。 2 n - g r a m 模型只能反应近距离的关联,对于更远序的语词之间的联接关系无 法在此种模型中得到反映。统计模型只能实现语言时序上的联接概率求解。因此, 并不能俘获全局远邻的语词关联信息。 3 不能显式的利用一些语言或领域知识。某些特殊的知识对求解可能是非常 有用的。u u 由于上述的不足,人们还在不断探索一些其它的构造语言模型的方法。根据 问题的不同,可以利用现有的模型,根据具体的问题,利用统计方法对模型中的 参数进行学习训练,得到适合具体问题的模型。 目前,统计语言模型还不能有效处理长距离语言约束,而且为保证可行性, 所有现有的语言模型都在文本的不同部分之间作了独立假设。对于我们要研究的 蒙古语来说,目前的统计语言模型不能够很好的利用蒙古语语言独特的构词特 点。 1 0 内蒙古大学硕士学位论文 第三章层次化蒙古语语言模型的构建 3 1 n 元模型在蒙古语上的应用 对于蒙古语的研究,目前主要是用普通的n 元语言模型进行处理。上文中提 到统计语言模型有跨领域的适应能力比较差的缺点,这一缺点在对蒙古语的描述 中也有体现,主要体现在两点( 1 ) 常规的语言模型是在蒙古语“词 的基础上 做的,而蒙古语具有丰富的词缀,导致数据的稀疏性大:( 2 ) 词缀和词干的信息 得不到利用。 蒙古语单词可能是由一个词干加若干个词缀构成,因此把n 元模型应用于蒙 古语时可以选择两个不同的范畴:一是在单词范畴上应用n 元模型,即在对一个 蒙古语句子进行处理的时候以蒙古语的单词为基本单位,而不把单词进一步切分 成词干和词缀。把语言模型应用到单词这一级别上的优点是比较容易处理,不需 要对蒙古语做词干词缀的切分,但是同时也丢失了蒙古语词干词缀间的特征信 息;二是在词干词缀的范畴上应用n 元模型,即在对一个蒙古语句子进行处理的 时候以蒙古语单词的词干和词缀为基本单位。在词干和词缀这一范畴上应用n 元 模型可以兼顾到词干和词缀之间的依赖关系,但是在实际效果并没有得到提高。 这是因为,如果我们利用常规的n g r a m 模型对蒙古语句子在词干词缀的范畴上 进行分析,那么这个n 的值就不能仅限于3 以内的数值,因为一个单词的组成 成分往往就会有三个。但是如果进一步提高语言模型的元数,又会大大增加计算 的复杂度,在实现起来比较困难。 3 2 蒙古语语言模型的总体构架 因为蒙古语有其独特的构词特点,为了不丢失词干和词缀之间的信息,我们 希望在词干词缀的范畴上构造语言模型。但是常用的n 元模型不能解决蒙古语中 长距离依赖的问题,所以就不能够准确地描述蒙古语。如果我们在构造语言模型 的时候能充份地考虑到特定语言的特点,那么语言模型的性能将会得到一定程度 的提高。我们要构造一个适合于蒙古语的语言模型就势必要考虑到蒙古语的特 点。综合上面的讨论,对于蒙古语语言模型的研究,一方面希望解决n - g r a m 语 层次化蒙古语语言模型的构建研究 言模型只能描述连续词的依赖关系的缺点,又要利用蒙古语词干、词缀的特点。 由于一个蒙古语单词往往是由词干和词缀两个部分组成,为了更精确地描述 蒙古语,我们试图把蒙古语单词的词干和词缀区别开来对待,建立词干和词干、 词干和词缀、词缀和词缀三个层次的语言模型,以挖掘出蒙古语中词干间、词缀 间以及词干词缀间的统计依赖关系,如图所示。 图3 1 层次化语言模型总体构架 f i g u r e 3 1 t h es t r u c t u r eo f l a y e r e dm o n g o l i a nl a g u a g em o d e l 在这个图中,w 。,w z ,w 。,w 4 是词干,s ms 协s :。分别是前两个词的词缀部分。通 过图示可以看出,现在能够得到的不仅是词干与词干间的关联关系,而且还包含 词干和词缀、词缀和词缀之间的关系。这样,我们就能够更精确的描述蒙古语词 内部的关系,提高准确率。 对于每一个层次,我们都可以有多种选择:普通的n 元模型、n s k i p 模型 以及其它的长距离依赖模型。 对于词干和词干这一层次,我们只需要考虑词干和词干之间的依赖关系,可 以用普通的二元或三元模型。经过实验我们发现,词干和词干的关系如果用三元 模型,数据稀疏的情况比较严重,而使用二元模型的话虽然计算的复杂度大大减 少,但准确率可能又会受到影响。经过实验比较,用三元模型加上合适的平滑技 术所得到的效果是比较好的。所以最终我们还是选用了三元模型来计算词干和词 干之间的关系。 对于词缀和词缀这一层次,我们同样可以用二元或三元模型来研究词缀和词 缀之间的关系。经过统计和实验我们发现,在这一层次上即使用三元模型数据稀 疏的情况也很少,在测试的过程中需要平滑的情况特别少。所以也选用三元模型 来计算词缀之间的依赖关系。 1 2 内蒙古大学硕士学位论文 对于词干和词缀这一层次,我们也可以有多种选择,普通的n 元模型、 n s k i p 模型以及其它的长距离依赖模型。但是如果在词干和词缀这一层次上使 用普通的n 元模型是行不通的,因为一个蒙古语单词往往由一个词干和若干个 词缀组合而成,这就有可能使得一个单词的长度就达到2 或者3 ,这就自然要求 把n 的值取的较大一些,2 或者3 是不能够满足要求的。而事实上对于n 元模 型,如果n 的取值超过3 ,计算机处理的复杂度会大大增加,是成指数型增加的。 在这一层,我们只研究词干和词缀的关系,而不去研究词干之间或词缀之间 的关系。也就是去统计在一定的范围之内在两个( 或者是一个) 词干的出现的前 提下某一个词缀出现的概率,或者是在两个词缀出现的前提下某个词干出现的概 率。也就是我们不仅要研究一个词干和它的词缀之间的关系,还要研究一个词干 和与它相邻的下一个单词的词缀之间的关系等等,目标是找到最合理的词干词缀 之间的关系。 最后我们把三个层次上的语言模型结合起来,以此试图构造出一个新的适合 于蒙古语的语言模型。 3 3 语句生成概率计算的不同方案及比较分析 3 3 1 词干一词干层和词缀一词缀层的构建方案 上文我们提到了,对于一个句子,可以用公式 p ( r v ) = 尸( 嵋,w 2 ,) = p ( w 1 ) p ( w 2w 1 ) p ( w 3i 嵋) p ( i 嵋一1 ) ( 3 1 ) 来计算其生成概率,通常我们采用的语言模型是n 元语言模型,经过简化后 其计算公式如下: l o gp ( w 1 1 4 2 ) = l o gp ( w ,l - + 1 w f 1 ) ( 3 2 ) t = l 对于词干一词干和词缀一词缀这两个层次上的语言模型的构建方法相对比较 简单,采用普通的n 元模型即可。 3 3 2 词千一词缀层的构建方案 给定一个蒙古语句子,我们可以用一个概率值来定量分析其合法性,而这个 概率值的计算可以有不同的方法。最简单的用n 元模型的公式即可。为了更准确 地描述句子的相对合法性,我们试图在尽量不增加计算复杂度的前提下用相对复 层次化蒙古语语言模型的构建研究 杂一点的方法来计算蒙古语句子的概率值。 对于词干和词干、词干和词缀这两个层次,用三元模型的通用计算公式。对 于词干和词缀这一层次,则应稍做改动。令p = p l p 2 * p 3 ,其中朋为词干和词 干之间关系的概率值;仍为词干和词缀之间关系的概率值;p 3 为词缀和词缀之 间的概率值。p z 租岛的计算用普通的三元模型的公式即可。而对于仍的计算则 要考虑不同的方法,下面介绍不同的方法 方案一、把词干和词缀同等对待,都认为是一个词,用n 元模型的公式计算。 例如一个蒙古语句子m 西l _ 2w 2s 2 1w 3w 4 。我们用如下方法计算其概率: p 2 = p ( w o p ( s l llw o p ( s 1 2w i s i i ) p ( iq i s l 2 ) p ( s 2 li 一2 w 2 ) p ( w 3i 是1 ) p ( w 4i 是l 鸭) ( 3 3 ) 这就是我们常用的三元模型。如图: b 曰卜卧b 口b 卧” 图3 2 方案一的词干和词缀的依赖关系 f i g u r e 3 2t h ef i r s td e p e n d e n c er e l a t i o n s h i po fe t y m aa n da f f i x 通过上面的介绍可知这个方案实际上就是在词干词缀范畴上的普通的n 元 模型,它把蒙古语的词干和词缀等同对待。 方案二、计算在两个( 或一个) 词干出现的情况下,某一个词缀出现的概率。 即在研究词干和词缀的关系时,一个词缀的出现只和与它最近的前两个词干有 关。依赖关系如下图所示: 口口 图3 3 方案二的词干和词缀的依赖关系 f i g u r e 3 3t h es e c o n dd e p e n d e n c er e l a t i o n s h i po fe t y m aa n da f f i x 用公式表示为: 仍= p ( 置iw o p ( s 1 21w 1 ) p ( s 2 lw 2 ) p ( s 2 lw l w 2 ) ( 3 4 ) 第二层采用这种方案的话,对于整个语言模型,一个词干出现的概率只 1 4 内蒙古大学硕士学位论文 和与它相邻的前两个词干嵋一:一,相关,一个词缀j :。出现的概率既和它的前两个 词干一:一。有关又和它的前两个词缀焉。墨:有关。 方案三:不仅考虑在两个词干出现的前提下一个词缀出现的概率,同时还考 虑两个词缀出现的前提下一个词干出现的概率。即在研究词干和词缀的关系时, 一个词缀的出现只和与它最近的前两个词干有关;同时一个词干的出现只和与它 最近的前两个词缀有关。如下图: 厂 匕j 图3 4 方案三的词干和词缀的依赖关系 f i g u r e 3 4t h et h i r dd e p e n d e n c er e l a t i o n s h i po fe t y m aa n da f f i x 用公式表示为: p 2 = p ( 焉llw 1 ) p ( s 1 2 w 1 ) p ( s 2 lw 2 ) p ( s 2 liw l w 2 ) p ( w 2is l l s i 2 ) p ( w 3lj 1 2 是1 ) ( 3 - 5 ) 第二层采用这种方案的话,那么对于整个语言模型,一个词干w n 的出现的 可能性既要看与它相邻的前两个词干一:一。又要看与它相邻的前两个词缀 岛。:;一个词缀s :。出现的可能性同样既要看与它相邻的前两个词干一:一, 又要看与它相邻的前两个词缀而。而:。 方案四:考虑所有的近距离的词干词缀间的关系。不仅考虑在两个词干出现 的前提下一个词缀出现的概率,同时还考虑两个词缀出现的前提下一个词干出现 的概率,还要考虑一个词干和一个词缀之后出现另一个词缀的概率。比方法三又 多增加了a 和b 两个依赖关系,如下图: 层次化蒙古语语言模型的构建研究 图3 5 方案四的词干和词缀的依赖关系 f i g u r e 3 5t h ef o u r t hd e p e n d e n c er e l a t i o n s h i po fe t y m aa n da f f i x 用公式表示为: 2 = p ( 毛。i1 嵋) p ( & :1w 3 p ( s :。1w 2 ) p ( s :。1w , w 2 ) p ( w 2s l , j 。:) p ( w 3s , :s :,) p ( 而:1w l _ 。) p ( w 3w 2 s :。) ( 3 - 6 ) 3 4 模型参数的训练 3 4 1 词干一词干和词缀一词缀层的参数训练 对于我们所构建的语言模型,一个句子出现的概率可以用一个简单的公式表 述: 尸( 形) = p ( 川,w 2 ,) ( 3 7 ) 这里的是一个目标语言的句子,例如汉语、英语、蒙古语的句子。 w 。,w :,则是这个句子中的基本单位,对于汉语来说,这个基本单位可以 是词或者字;对于蒙古语来说可能是词、词串或者词干词缀。p ( 形) 就是对形合 法性的一个描述。通常,我们用一个概率来表示这个合法性的描述,即,概率越 大,说明这个句子越“像一个合法的目标语言句子,反之则“不像,n 刳。 目前,使用最广泛的语言模型是n - g r a m 模型,而我们所构建的层次化蒙古 语语言模型是基于三元模型的。 下面用最大似然估计的方法来求三元模型中的每个参数的概率。有条件概率 的计算公式: p ( 1 一2 一1 ) = p ( 一2 一1 w n ) p ( w n 一2 一1 ) ( 3 - 8 ) 此时我们并不知道p ( 一:一) 和p ( 一:一。) 的概率。假设有一个很大的 语料,可以统计出一:一。和( 一2 一,) 出现的次数,分别记为c ( 一:一。) 和 1 6 内蒙古大学硕士学位论文 c ( 一:w 一。) ,根据最大似然估计法则有: p ( 一2 一1 ) = c ( 一2 一1 ) c ( 一:一。比) , ( 3 - 9 ) 即c ( 一2 一l 比) 除以所有t r i g r a m 的个数。类似的有: 砒帕) 2 黼( 3 - 1 0 ) 也即c ( 一2 一1 ) 除以所有b ig r a m 的个数。 设语料的长度为l ,易知所有的t r i g r a m 的个数为l 一2 个,而所有的b i g r a m 的 个数为l 一1 个。当l 足够大时,有l 一2 l 一1 ,即t r i g r a m 的个数近似等于b i g r a m 的 个数。所以就有: p ( i 一2 一1 ) =丛堡= 2 丝= ! 丝! :! ! 监= 2 丝= ! 丝! 丛墨二垄:! ! 当= 2 堡= ! 丝! ( 3 1 1 )
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 人工智能教育培训手册
- 工作总结:提升专业能力业务水平
- 2025新疆克拉玛依市面向高校应届毕业生招聘事业编制高中教师48人笔试备考试题及答案解析
- 农学中的农业科技示范园规划设计
- 2025年天津安全工程师安全生产法事故直接原因的分析考试试题
- 2025年唐山市市直事业单位招聘277人笔试备考题库及参考答案详解一套
- 2025年事业单位笔试-江苏-江苏审计学(医疗招聘)历年参考题库含答案解析
- 2025年有色金属行业资源循环利用产业链产业链金融创新报告
- 2025四川达州宣汉县养老服务中心招聘临时工作人员10人笔试备考试题及答案解析
- 2025年医学遗传学病例诊断与咨询考核试卷答案及解析
- 风险管控制度
- 品质客诉培训
- 一年级道法集体教研记录
- 两癌筛查工作总结
- 溶液及其应用教学设计-2024-2025学年九年级化学人教版(2024)下册
- 《公路运输网络规划》课件
- 大一竞选班长演讲稿
- 2025年机关事业单位工人招聘《机动车驾驶员》技师 考试题库与参考答案
- 2025年长江陆水枢纽工程局有限公司招聘笔试参考题库含答案解析
- 四川大学SCI期刊分级方案
- 医疗机构患者信息管理制度
评论
0/150
提交评论