(电路与系统专业论文)基于统计方法与依存特征的汉语语言模型建模方法[电路与系统专业优秀论文].pdf_第1页
(电路与系统专业论文)基于统计方法与依存特征的汉语语言模型建模方法[电路与系统专业优秀论文].pdf_第2页
(电路与系统专业论文)基于统计方法与依存特征的汉语语言模型建模方法[电路与系统专业优秀论文].pdf_第3页
(电路与系统专业论文)基于统计方法与依存特征的汉语语言模型建模方法[电路与系统专业优秀论文].pdf_第4页
(电路与系统专业论文)基于统计方法与依存特征的汉语语言模型建模方法[电路与系统专业优秀论文].pdf_第5页
已阅读5页,还剩58页未读 继续免费阅读

(电路与系统专业论文)基于统计方法与依存特征的汉语语言模型建模方法[电路与系统专业优秀论文].pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

圭鲞銮望奎堂堡主兰垡笙苎 摘要 基于统计方法与依存特征的汉语语言模型建模方法 摘要 自然语言的数学模型试图反映、记录并使用自然语言中存在的规 律。在人机交互过程中,计算机主要依据语言模型对自然语言进行处理 和理解。目前,语言模型已广泛应用于语音识别、机器翻译等自然语言 处理的多个领域。 语言模型就其研究方法而言,一般分为两类:一类是基于规则的语 言模型;另一类是基于统计的语言模型。前者的特点是对封闭语料处理 准确,能够反映语言的远距离依存关系和递归现象,但却无法适应开放 语料,鲁棒性差,知识表达的一致性和可维护性不好。而后者把语言看 成一个m a r k o v 信源,语句则是由此信源产生的文字序列,其特点是数 据准备一致性好,鲁棒性强,适合处理大规模真实语料,但其只能反映 语言的紧邻约束关系,对语言的远距离依存关系无能为力。随着人机交 互过程中对实时性要求的不断提高,统计语言模型的研究己成为主流d , 本论文采用统计的方法,对如何提取远距离依存特征,建立特征依 存模型,以及如何将基本统计语言模型和依存模型结合建立联合模型等 问题进行了研究。 首先,在基本模型框架的选择上,我们选择了统计语言模型中最具 有代表性的n - g r a m 模型,它以其有效性和易于计算的特点在不同领域 中的到了广泛应用,并取得了显著成功。为了克服由于数据稀疏带来的 零概率现象,采取了k a t z 平滑技术对模型进行了平滑。 接着,由于汉语中有一些词具有明显的主题相关特性,这些词在一 些题材中出现的概率比在另外一些题材中出现的概率大的多。这些词可 看作为主题相关词。我们将i d f 特征处理后,用其提取主题相关词。 然后根据m l e 准则对这些主题相关词建立了相应的依存模型。 上海交通大学硕士学位论文摘要 基于上述两种模型,我们建立了联合模型。结合两个模型有不同的 方法,可以用最大熵方法,也可以用线性插入法。由于最大熵方法在用 于语言建模时存在计算量过大和系统内存要求过高的问题,我们用线性 插入法建立了联合模型。利用自建的语料数据库,对不同的模型进行了 实验测试。( 实验中采用最长用的语言模型性能评价尺度一分支度对语言 模型性能进行评价。将n - g r a m 语言模型与联合语言模型的性能比对的 结果表明,我们提出的结合语言依存特征建立联合模型的方法,弥补了 n - g r a m 语言模型不能提取远距离语言特征的不足,改善了语言模型的 性能,降低语言模型的分支度d 关键词:统计语言模型;依存模型9 分支度 l i 上海交通大学硕士学位论文a e s t r a c t as t u d yo fm a n d a r i nl a n g u a g em o d e l i n g i n t e g r a t i n g n - g r a m a n dd e p e n d e n c yf e a t u r e s b a s e do ns t a t i s t i c a la p p r o a c h a b s t r a c t l a n g u a g em o d e li s t h em a t h e m a t i c a lm o d e lo ft h en a t u r a l l a n g u a g e w h i c hi s a t t e m p t e dt oc h a r a c t e r i z e ,c a p t u r e a n de x p l o i t r e g u l a r i t i e s i n n a t u r a ll a n g u a g e d u r i n gt h eh u m a n m a c h i n ei n t e r a c t i o n t h ec o m p u t e r p r o c e s s e s a n du n d e r s t a n d st h en a t u r a l l a n g u a g em a i n l y b a s e do nt h e l a n g u a g em o d e l n o w a d a y s ,l a n g u a g em o d e l i n gh a sb e e na p p l i e dt om a n y d o m a i n ss u c ha ss p e e c hr e c o g n i t i o n 、m a c h i n et r a n s l a t i o na n do t h e rn a t u r a l l a n g u a g ep r o c e s s i n gf i e l d sa sw e l l g e n e r a l l ys p e a k i n g ,t h e r e a r et w om e t h o d st or e s e a r c h l a n g u a g e m o d e l i n gt e c h n o l o g y o n ei s r u l e b a s e dl a n g u a g em o d e l i n g t h i sw a yc a n p r o c e s s t h ec l o s e dc o r p u sc o r r e c t l ya n dc a nr e f l e c tg l o b a ld e p e n d e n c ya n d r e c u r s i v ep h e n o m e n o nw e l l b u ti tc a nn o ta d a p tw e l lt ot h eo p e nc o r p u s a n dh a sp o o rr o b u s t n e s sa n dc o h e r e n c e t h eo t h e ri ss t a t i s t i c a ll a n g u a g e m o d e l i n g i tr e g a r d st h el a n g u a g ea st h em a r k o vi n f o r m a t i o ns o u r c e ,t h e s e n t e n c ei sas e r i e sc h a r a c t e r s s e q u e n c e sg e n e r a t e db yt h i s i n f o r m a t i o n s o u r c e t h i sm e t h o dh a sg o o dr o b u s t n e s sa n da d a p t a b i l i t yt or e a lc o r p u s b u ti tc a ni u s tr e f l e c tt h ei m m e d i a t e l yb o r d e r i n gc o n s t r a i n t sw i t h o u tt h e c a p a b i l i t y t or e f l e c tt h eg l o b a ld e p e n d e n c yo fl a n g u a g e w i t i lt h ei n c r e a s i n g r e q u i r e m e n to f t h er e a lt i m ep r o c e s s i n go ft h eh u m a n m a c h i n ei n t e r a c t i o n , t h es t a t i s t i c a ll a n g u a g em o d e l i n gm e t h o dh a sb e c o m et h es t a p l eo f t h et w o m e t h o d s t h i st h e s i ss t u d i e so nh o wt oe x t r a c tg l o b a ld e p e n d e n c yf e a t u r e s ,h o w t ob u i l dd e p e n d e n c yl a n g u a g em o d e lb a s e do nt h e ma n dh o wt o b u i l d u n i f i e d l a n g u a g e m o d e lo ft r a d i t i o n a ls t a t i s t i c a l l a n g u a g e m o d e la n d d e p e n d e n c yl a n g u a g e m o d e l f i r s to f a l l ,w es e l e c tt h en g r a ml a n g u a g e m o d e la st h eb a s e l i n e ,w h i c h h a sb e e n s u c c e s s f u l l ya p p l i e d t od i f f e r e n tf i e l d s f o ri t s v a l i d i t y a n d 1 1 1 c o m p u t a b i l i t y w ea p p l yt h ek a t zs m o o t h i n gt e c h n o l o g yt os m o o t ht h e m o d e lt oo v e r c o m et h ez e r op r o b a b i l i t yp h e n o m e n o n b r o u g h to u tb yt h e d a t as p a r s e n e s s n e x t ,b e c a u s es o m ew o r d si nm a n d a r i na r et o p i c - r e l a t e d ,w h i c hm e a n s t h a tw h e t h e r t h e ya p p e a ri na r t i c l e so rn o td e p e n d sg r e a t l yo nt h et o p i co f t h ea r t i c l e w er e g a r d st h e s ew o r d sa st o p i c r e l a t e dw o r d s u s i n gt h ei d f f e a t u r e ,w ee x t r a c tt h e s ew o r d sa n db u i l dt h ed e p e n d e n c yl a n g u a g em o d e l f o rt h e s ew o r d sb a s e do nt h em l er u l e b a s e do nt h o s et h e s em o d e l sw eh a v eb u i l t ,w eb u i l dau n i f i e dl a n g u a g e m o d e l t h e r ea r et w om e t h o d st o u n i f y t h em o d e l s :t h em a x i m u m e n t r o p y ( m e ) m e t h o d a n dt h e i n t e r p o l a t i o n m e t h o d w eu s et h el a t e r b e c a u s eo ft h ee x p e n s i v el o a do f c o m p u t a t i o na n ds t o r a g eo fm ea p p r o a c h w ec o n d u c tas e r i e so f t e s t i n ge x p e r i m e n t su s i n gs e l f - e s t a b l i s h e dc o r p u s w eu s et h em o s tc o m m o nm e t r i cf o r e v a l u a t i n g a l a n g u a g e m o d e l - p e r p l e x i t yt o e v a l u a t em o d e l t h ec o m p a r i n gr e s u l t sb e t w e e nt h e b a s e l i n em o d e la n dt h eu n i f i e dm o d e ls h o wt h a tt h em e t h o dw e p r e s e n tc a n c o m p l e m e n t t h ed e f i c i e n c yo ff e a t u r e se x t r a c t i o no f n g r a me f f e c t i v e l ya n d r e d u c e st h e p e r p l e x i t y o f l a n g u a g e m o d e l b ye x t r a c t i n g t h e g l o b a l d e p e n d e n c y f e a t u r e s k e y w o r d s :s t a t i s t i c a ll a n g u a g em o d e l ,d e p e n d e n c yl a n g u a g em o d e l , p e r p l e x i t y i v 圭生銮望丕兰堡圭堂垡堡塞 一 第一章绪论 第一章绪论 1 1 计算语言学的研究方法 计算语言学是一门新兴的交叉学科,而发展到今天在方法上有了很大的变 化。几乎是在计算机诞生的同时,人们就开始利用计算机处理自然语言。并且, 在几十年的发展中,取得了很大的进展,而发展到今天又遇到了巨大的困难。 计算语言学作为一门交叉学科,其研究有各自的研究目的,研究内容往往 差别很大“1 。对语言学家来说,他们是以计算机为工具,在计算机技术的支持下 对语言文字进行定量化、精密化的研究,从而获得精确的而在人工条件下很难 获得甚至无法获得的第一手资料或语言知识。对计算机科学或工程人员来说, 是利用语言知识,让计算机能够处理自然语言。无论是面向语言学的,还是面 向计算机自然语言处理的目标,都需要对语言事实进行调查,从中获得有用的 语言知识。从这个角度看,两者是相辅相成的,前者为后者提供语言学知识和 理论依据,后者为前者提供更为有力的工具并开辟新的研究方向。 自然语言处理一开始便和人工智能紧密地结合在一起。“。为了方便计算机 能处理自然语言,我们必须把语言知识和世界知识装入计算机,计算机才能凭 借这些知识去分析处理自然语言。在过去的几十年中,人们曾把这些知识用规 则的形式描述出来,编入计算机中,开发出了一些自然语言处理系统,我们把 这种方法称为基于规则( r u l eb a s e d ) 的自然语言处理系统。然而,多年的实 践表明,基于规则的自然语言处理系统难于应付现实世界中自然语言的复杂多 变的现象,其主要缺陷表现在以下几个方面”1 : ( 1 ) 规则所刻画的知识颗粒度太大,无法用有限的规则来刻画自然语言复杂多 变的现象; ( 2 ) 不能保证语言学规则之间相容。也就是在自然语言处理系统中随着规则数 量的增加,规则之间长发生矛盾和冲突; ( 3 ) 很难处理自然语言的不确定性; ( 4 ) 获取语言学和世界知识是件非常困难的事,同时不是所有的自然语言都有 成熟的语法、语义体系; 上海交通大学硕士学位论文第一章绪论 ( 5 ) 过强地受到应用领域的限制: 同时,计算语言学的重点许多年来较多地集中到语言学理论体系和算法的 功能和效率上,而对支持大规模真实文本处理的方法和知识的获取重视程度没 有放到应有的位置上,也受到计算机本身处理能力的限制。所以,这样也就形 成了一个单纯的研究理论体系的怪圈,对如何建立大规模真实文本的处理系统 的起步的方法没有得到高度的重视。 正是基于上述原因,人们开始转向大规模语料库,试图从中获得颗粒度较 小的语言知识,来支持大规模真实文本的自然语言处理系统。这就是基于语料 库的方法( c o r p u sb a s e da p p r o a c h ) “1 。随之产生了计算语言学的一个新的分 支,即语料库语言学( c o r p u sl i n g u i s t ic s ) 。 1 2 问题的提出 自然语言和各种符号语言,是人进行推理和交流的桥梁。由于语言在智能活 动中具有举足轻重的作用,当计算机在不同领域逐步替代人完成各项工作时, 人们也期待着计算机在自然语言的处理上能够接近甚至达到人的智能水平。作 为人工智能的一个分支,自然语言的处理就是这样的领域,目前在这方面的研 究工作包括自然语言人机界面、问答系统、机器翻译和情报检索等等。 语言模型是自然语言的数学模型,它主要描述自然语言的统计和结构方面的 内在规律o3 。计算机主要依据语言模型对自然语言进行理解。研究和开发具有强 大语言描述能力的语言模型对自然语言理解的各个应用领域,如文字识别、语 音识别”1 、机器翻译。3 、中文键盘输入法、文字校对和全文检索“”等领域具有重 要的指导意义和实用价值。 语言模型就其研究方法而言,一般分为两类“1 。一类是基于语言学知识的规 则文法;另一类是基于统计的语言模型。前者是根据语言学家总结的语言学知 识,包括词法、句法、语义和语用知识,建立语言的规则文法。但如前文所述, 这种方法几乎不可能完成对大规模真实文本的处理,只能处理受限域文本。目 前以语料库为基础的统计语言建模方法成为主流,它通过对语料库进行深层加 工、统计和学习,获取大规模真实语料中的语言知识。其中最具代表性的n - g r a m 模型以其有效性和易于计算性在语音识别、机器翻译和信息检索等领域得到广 泛的应用,并取得了很大的成功。 在本论文中,主要针对以语料库为基础的统计语言建模技术中的一些问题 圭海銮i i :盔堂堡主堂垡堡垄王第章绪论 进行了讨论。 1 3 历史的回顾 自从在1 9 8 0 年提出第一个统计语言模型以来,统计语言建模技术已取得了 较大的发展。3 。在这些技术中,语言模型都将一个句子出现的概率分解为许多条 件概率的乘积: p ( s ) = p ( w 。 w 。) :f i p ( w i i h ;) i = l 这里w 是句子中的第i 个词,h i 称为历史,定义为 h 。= w l ,w 2 ,w ,一i ) ( 1 2 ) 根据对上下文历史空间不同的划分方法,可对现有的主要统计语言建模技术进 行分析讨论。 1 3 1 n - g r a m 语言模型 在自然语言中,存在着后一个词的出现条件地依赖于前面的词的出现的现 象。如果把一个词的上下文定义为该词的前面的某些词,尽管这一定义仅仅包 含了上下文的极少的一部分,却对下一个词的出现具有较强的约束力。语料库 语言学研究表明,许多词的前面词的出现对于该词的出现具有很强的预测能力, 能够反映这种约束关系的语言模型在实际应用中非常有效。 如果假定,在一个语句中第i 个词的出现概率,条件地依赖于它前面的j 1 个 词,即将一个词的上下文定义为该词前面出现的i 一1 个词,这样的语言模型就是 n - g r a m 统计语言模型。n - g r a m 模型的优点在于它包含了前i 一1 个词所能提供的 全部信息,这些信息对于当前词的出现具有很强的约束力。它的缺陷在于需要 相当规模的训练文本来确定模型的参数。当i 较大时,模型的参数空间过大,实 现困难。自从十几年前在大词表语言识别系统中首次使用t r i g r a m 以来,直到 现在,在训练语料充足的情况下,t r i g r a m 统计模型仍旧是在实际应用中表现最 佳的语言模型,并且成为许多其它的语言模型的组成部分。 i 3 2 n - p o s 模型“ 上海交通大学硕士学位论文 第一章绪论 由于在实际句子中,许多词的出现条件地依赖它前面的词的语法功能。于是 人们设想,将词按照其语法功能进行分类,由这些词类决定下一个词出现的概 率。这样的词类称为词性( p a r t o f s p e e c h ,简写为p o s ) ,而相应的语言模型 称为n - p o s 模型。在n - p o s 模型中,一个词出现的概率条件地依赖于前n 一1 个 词的词类,因而上下文定义为该词前面n 一1 个词的词类。 n - p o s 模型与n - g r a m 模型有着密切的关系。考虑n - p o s 模型的极端情况, 即当整个模型只有一个词类,与每一个词都有一个词类的情况。如果n - p o s 模 型只有一个词类,那么前n 1 个词类没有提供任何上下文信息,于是n - p o s 模 型退化为u n i g r a m 模型:如果每一个词都有一个各不相同的词类,这样的n - p o s 模型等价于n - g r a m 模型。因此,n - g r a m 模型与n - p o s 模型可由词类数量的不 同相互转化。 n - p o s 模型的优点在于它只需要比n - g r a m 模型少得多的训练数据,并且模 型的参数空间也要少得多。它的缺点在于词的概率分布依赖于词性而非词本身, 显然按照词类划分词的概率分布不如词本身的划分更加精细。因此在实际应用 ( 如语音识别) 中,这类语言模型般难以达到n - g r a m 模型的精度。 1 3 3 基于决策树的语言模型“2 1 近年来,统计决策树成功地运用在统计计算语言处理技术的许多领域。b a h l 等人于1 9 8 9 年首次将统计决策树用于构造统计语言模型“”。在构造统计计算语 言模型的应用中,一棵统计决策树包括所有的概率分布以及根据当前上下文查 询其分布的机制。在这样的统计决策树中,通常包括两种类型的节点:中间节 点和叶节点。每一个节点包括唯一的概率分布,而每一个中间节点包括关于上 下文的一个提问。对于当前词的上下文,查询从根节点开始,由对根节点的提 问的不同回答进入子节点,直至叶节点。从而得到当前词上下文的分布信息。 为构造一棵统计决策树,必须预先定义个关于上下文信息的问题集和一个 评价问题优劣的函数。例如,可以参考统计决策树高度最小( 查询所经过的中 间节点最少,查询速度最快) 等因素来构造这样的函数。首先,选取评价函数 为最优的问题,构造一个根节点。然后递归地构造它的子节点,知道满足某种 约束条件使构造过程终止。 由以上的分析可以看出,从理论上讲,n - g r a m 和n - p o s 语言模型归根结底 都可以用统计决策树的形式表示出来。因此,统计决策树是一种更加通用的语 言模型。它的优点在于,分布数不是预先固定好的,而是根据在训练语料库中 上海交通大学硕士学位论文第一章绪论 的实际情况确定的,具有较好的完备性。但是这种完备性是以昂贵的计算量为 代价的,在构造统计决策树时,时空消耗非常大。这一缺点成为这种技术在实 际应用中的最大障碍。 i 3 4 动态、自适应、基于缓存的语言模型 在前述的所有语言模型中,概率分布都是预先从训练语料库中估算好的, 在语言模型的应用过程中,并不改变这些数据。因此,这样的语言模型可以称 做静态语言模型。但是,在自然语言中,经常出现这样的现象。某些在文本中 通常出现很少的词,在某一局部文本中突然大量的出现。能够根据词在局部文 本中的出现情况动态地调整语言模型中的概率分布数据的语言模型称为动态、 自适应的或者基于缓存的语言模型。 动态语言模型这一概念首先由k u h n 提出的,它的基本思想是这样的:n 个 最近出现过的词存于一个缓存中,作为独立的训练数据。基于这些数据,可以 估算出独立的u n i g r a m 、b i g r a m 和t r i g r a m 等频度数据。通过某种平滑算法将 这些频度数据结合几来,可以估算出一个单独的动态t r i g r a m 数据。对于缓存 中出现过的所有词,都计算出一个动态的t r i g r a m 数据。它们与静态语言模型 中的频度分布数据通过线性插值而结合在一起,形成一个混合的动态自适应模 型。 通常并不单独使用动态语言模型,而是将动态模型与静态模型结合起来建 立混合模型。这种混合模型可以有效地避免数据稀疏问题,同时可以提高原静 态模型的表现能力。 1 3 5 基于最大熵方法的指数语言模型“3 3 最大熵原理最初是由e t j a y n e s s 在1 9 5 0 年提出的,d e l l ap i e t r a 等人 于1 9 9 2 年首次将它应用于自然语言处理的语言模型建立中“”。最大熵原理的基 本思想是:给定训练数据即训练样本,选择一个与所有的训练数据一致的模型。 比如在英语中,对于一个具有词性歧异的词条,如果发现一个名词前为冠词的 概率为5 0 ,而在名词之前为一个形容词的概率为3 0 ,则最大熵模型应选择与 这些观察一致的概率分布。除此之外,模型赋予的概率分布为均匀分布。 近几年在自然语言处理的研究中发现,最大熵方法是一种建立统计语言模 型的有效方法,用该方法构造的语言模型可以用含有归一化常量的指数形式描 述。在建模过程中可以将不同的知识源均看成模型的约束,用最大熵方法统一 圭海奎望盔学巫主堂垡迨奎 一一 一 第一章绪论 在一个模型中,因此这种模型具有较强的知识表达能力。举例来讲,一个词出 现的概率分布情况可能除了与该词的n - g r a m 约束有关以外,还与n - p o s 约束、 语法结构以及语义特征有关,如果在个模型中能够将这些约束都表现出来, 显然能够提高模型的预测能力。最大熵语言模型为我们提供了一种结合不同知 识源的方法。 最大熵方法的基本思想很好,但目前对于大规模语料的处理能力不足。主 要原因在于这种方法目前所使用的训i 练算法在对语料的训练过程中,对硬件的 存储能力和运算能力的要求很高,目前的主流硬件水平不能满足这种方法的要 求。 1 4 目前存在的问题 通过以上的介绍可以看到,统计语言建模技术在2 0 年来取得了较大的进展。 不同方法的提出进一步拓宽了该领域的研究思路,同时向研究人员展现了许多 值得深入研究的方向。但是我们也很明显的看到,至今为止,没有一种技术已 经发展成熟,有些方法仍处于实验阶段,有些技术虽然已经在不同领域取得了 成功,但要继续提高效率,仍需要其它技术加以补充。综合看来,目前的统计 语言建模技术存在以下一些问题o 3 : ( 1 ) 模型的适应性差。目前的统计语言模型对训练语料的题材、体裁以及主题 的变化非常敏感。如果要对轻松的电话谈话语言建模,实验结果表明,用 二百万相应领域的词训练出的模型的性能,远远优予用一亿四千万从电视 广播新闻中取出的词训练的模型的性能。 ( 2 ) 模型中存在错误的独立假设。为了使模型可以得到控制,现存的统计语言 建模技术假设一个文档中的不同部分具有独立性。例如,广泛使用的 n - g r a m 模型,假设句子中第i 个词出现的概率仅和与它紧紧相邻的前面的 i 一1 个词相关,而与其它前面的词是相互独立的。很显然,经验告诉我们 这种假设是错误的。这种错误的假设在统计方法建模中往往会导致出现概 率的锐分布,即某个词的出现概率可能为1 ,而其它词出现的概率都为0 , 这种概率分布显然偏离了实际情况。 ( 3 ) 模型对大规模语料训练过程中,现存算法效率不高。在上一节已经提到近 来提出的决策树语言模型和最大熵方法,从理论上讲都是很理想的方法。 制约它们广泛使用的最大瓶颈就是在模型训练过程中的昂贵的时空消耗 6 上海交通大学硕士学位论文 第一章绪论 和计算量。因此,如果研究出高效的训练算法,可以预期这两种方法有广 泛应用前景。 ( 4 ) 模型平滑算法的研究需继续深入。由于统计建模方法的研究是基于大规模 真实语料的,在训练模型过程中,由于语料不足而产生数据稀疏现象,导 致零概率和锐分布现象的产生,这都会影响模型的后处理能力,削弱模型 的预测能力。通过采用不同的平滑技术可以较好地解决这个问题。 ( 5 ) 目前最常用的n - g r a m 语言模型,在建模过程中忽略了语言的语法和语义 等结构化特征,无法解决语言中存在的深度递归现象和远距离约束问题。 总之,在统计语言建模技术的研究中,还有许多问题需要深入研究和探讨。 对这些难题的解决,无疑会提高语言模型的性能质量,从而更好地促进语言模 型在实际系统中的应用。 1 5 本文的研究工作和组织结构 本文主要集中于对n - g r a m 模型中存在的问题提出了一些想法,做了初步研 究。作者的主要研究工作为: 首先,在分析了n g r a m 模型的优点与不足的基础上,提出了改进的方法。 由于语言模型的训练语料不可能无限大,合理的词之间的搭配关系在语料库中 没有出现,必然出现数据稀疏现象。数据平滑技术通过对采用最大似然规则的 概率估计进行调整,可以用来解决由数据稀疏带来的零概率问题。我们通过对 目前使用的最广泛的平滑技术进行比较和性能分析,采取合适的平滑算法建立 了语言模型。 其次,由于n g r a m 模型只能反映语言的紧邻约束关系,而对语言的远距离 依存约束无能为力。针对这个问题,我们从语言的语法语义结构出发,首先讨 论了可用来建立依存语言模型的远距离特征的种类,接着讨论了提取不同远距 离特征的方法,在此基础上建立了依存语言模型。 最后,在前面工作的基础上,我们讨论了建立n g r a m 语言模型和依存语言 模型相结合的混合模型的方法,建立了混合模型。并且,我们在自建语料数据 库的基础上,对所建立的不同语言模型进行了测试,比较了模型的性能,给出 了实验结果。 上海交通大学硕士学位论文第一章绪论 论文的安排如下: 论文的第二章首先讨论了建立n g r a m 语言模型的原理;接着给出了目前用 于评价语言模型性能的评价指标:最后我们对不同的语言模型平滑技术的性能 进行了比较,并进行了详细的讨论。 第三章分别从语言的语法语义结构出发,讨论了语言中远距离约束特征的种 类。从语言的结构角度出发,我们对语言的语法依存做了讨论;从语言的语义 角度出发,对语言的主题依存进行了探讨。在这一章中,我们还对如何提取这 些特征进行了初步讨论。 基于第二和第三章中的语言模型建模方法,我们在第四章中建立了两者结 合的混合模型。并在自建语料数据库的基础上,对不同的语言模型进行了实验 测试。在每一种模型中,我们以分支度作为模型的评价指标,比较了不同模型 的性能,分析了实验过程,给出了性能的比较实验结果。实验结果显示了本文 方法的优越性,降低了语言模型的分支度,提高了语言模型的搜索效率和性能。 最后,在第五章总结全文,并指出了进一步的研究方向。 一燮i 里盔i 墅士学位论文 第二章n - g r a m 语言模型及其数据平滑技术 第二章n - g r a m 语言模型及其数据平滑技术 2 1 概述 一个基于统计的计算语言模型以概率分布的形式描述了任意语句( 字符串) s 属于某种语言集合的可能性。例如,p ( 他,认真,学习) = 0 0 2 ,p ( 他,认真读书) = 0 0 3 , 等等。这里并不要求语句s 在语法上是完备的,该模型需对任意的语句s 都给出一个 概率值。 假定词是个句子的最小的结构单位,并假设一个语句s 由词w 1 ,w 2 ,w 。组 成,那么,不失一般性,p ( s ) “”可由下式计算: p ( s ) = p ( w ,b ( w :1 w ,) p ( w 。1 w ,w :w 。一,) w i 1 ) ( 2 - 1 ) 也就是说,第i 个词w i 出现的概率与整个的上下文w i ,w 2 ,w i i 即所谓的历史 ( h i s t o r y ) 有关。即使在i 不大的情况下,我们都很难用统计的方法去估算条件概率 ,、 、 p 卜i l w l ,w 2 ,w i 一1 ) 的大小,因为这种历史( w l ,w 2 ,w i 一1j 可以有非常多的组合形 式,而几乎每一种组合又都是十分特殊的,即使在大量的训练语料中,同种历史重 复出现的次数都十分有限,甚至可能在训练语料中从未出现过。事实上,当i 3 后, 假设汉语常用词汇表的大小为v ,则在v ”1 个历史组合( w l ,w 2 ,w i - i ) 中,绝大部 分的词序列在汉语里可能从来没有出现过。这样必然会出现数据稀疏现象,称之为零 概率问题“”,这是目前统计语言模型技术面对的主要问题之一。 9 ww p 。n m = 圭童銮望盔堂堡主堂垡丝奎 一 第二章n g r a m 语言模型及其数据平滑技术 2 2 汉语语言的n g r a m 统计模型 自然语言可以假设成是由一个m a r k o v 信源产生,该信源的符号集就是语言 的最小单位词,信源向外源源不断地发出符号,这些符号串形成句子,然后由 句成文”“1 。假设由词串w :w l ,w 2 ,一,w n 构成句子,它的概率可由条件概率公式 p ( w ) = p ( w 1 ,w 2 ,w 。) z p ( w ,妒( w 2 1 w 1 ) p ( w 。1 w 。n w 。一n “w 。一,) ( 2 - 2 ) 得到,p ( w 。r w 。一n w 。一n “,w n - ) 称为n 元文法m 1 ,计算式( 2 2 ) 在于计算 p ( w 。1 w 。一n w 。一n “w 。1 ) 的值,它的精确值是不可知的,只能采用估计按频率 逼近,即下式: p ( w 。1 w 。一n w 。一n + 。w 。一,) z ( 2 3 ) 其中f ( w n n w n n “w n ) 和f ( w n n w n n + l w n 一1 ) 是词串w n n w n n + 1 w n 和w n n w n n + 1 w n 一1 在训练语言模型时出现在训练语料中的次数,假定大数 定理成立,只要训练语料库的容量足够大,频率趋近于概率。用于估算基于统 计计算语言模型的概率分布的训练语料库文本称为训练数据( t r a i n i n gd a t a ) 。 根据训练数据估算条件概率分布的过程称为训l 练( t r a i n i n g ) 。 汉语n g r a m 模型基于这样一个假设:设n 1 阶m a r k o v 过程产生的词串, 第i 个词w i 的概率是由前n 1 个词的条件概率给出的: p ( w ;f w 。w :w h ) = p ( w ;w ;一( n - 1 ) w m w 。一,) ( 2 4 ) n g r a m 模型的参数数量是r n ,其中r 是词条数,参数是由统计语料文本来得 到。在这一假设下,每一个词出现的概率不再与前面的全部历史有关,而只与 前面n 1 个最近的词有关。由此可以看出,n g r a m 模型只反映了连续n 个词之 1 0 一一兰查窒望盔学硕士学位论文 第二章n g r a m 语言模型及其数据平滑技术 间的相关信息。综上所述,词类模型的参数空间的规模为r n ( r 为词条数) , 因此对于大词表的应用领域而言,只有当n 较小时,这个模型才具有实用价值。 n 称为n - g r a m 模型的阶“( r a n k ) 。 当n = i 时,我们称之为u n i g r a m 语言模型“,这时 p ( w ) = f i r l w , ) i = 1 ( 2 5 ) 即认为词与词之间互相独立,建模时只考虑当前词本身的概率,而不考虑 该词所对应的上下文环境,这是种最为简单,易于实现的模型。但单独使用 时,实际应用价值不大,往往要与更高阶的n g r a m 语言模型结合使用。 当n = 2 时,我们称之为b i g r a m 语言模型“”。当读者看到一个句子的片段 “他正在认真”时,显然这并不是一个完整的句子。那么,什么样的词可以接 续在该片段的后面构成一个完整的句子呢? 一种方法是通过查看“认真”一词, 来确定下一个词,可以是“学习,工作,思考”等等,而不能是“美丽,我, 中国”等等。由此可知,在自然语言中,存在着后一个词的出现条件地依赖于 前一个词的出现的现象。因此,如果把一个词的上下文定义为该词的前一个词, 尽管这一定义仅仅包含了上下文的极少一部分,却对下一个词的出现具有较强 的约束力。 在b i g r a m 中 p ( w ) = f l p ( w i l w h ) 1 = 1 ( 2 6 ) 为了估计p ( w i l w i 1 ) ,可以使用许多方法估算。目前,通常采用最大似然度估计 ( m a x i m u ml i k e l i h o o de s t i m a t i o n ,简缩为m l e ) 法“1 进行估计,通过统计大量 训练文本中词对w j - l ,w i 的出现次数c ( w j 1 ,w i ) ,来估计条件概率: p ( w 扣- t ) 袁高一 7 ( 2 7 ) 上海交通大学硕士学位论文 第二章n g r a m 语言模型及其数据平滑技术 当n = 3 时,称之为t r i g r a m 模型”“,这时 p ( w ) - - 兀p ( w i 卜z ,w i 一,) ( 2 8 ) i = l 其统计计算办法与b i g r a m 类似。 n g r a m 模型的最大问题是训练语料不足,严重稀疏,即使在n 为2 、3 这 样小的值时也十分突出”1 。以b i g r a m 为例,假设词汇表大小为5 0 0 0 ( 在自然语 言中这是一个中等偏小的词汇规模) ,则我们需要对5 0 0 0 5 0 0 0 = 2 5 0 0 0 0 0 0 ( 2 5 0 0 万) 个词对的出现频率做出统计。这样,即使上千万词的语料也难以保 证每个有实际意义的词对都有机会出现。对于t r i g r a m 模型,要估计的是o ( v 3 j 数 量级的词对,那么数据稀疏的问题将更为严重“”。f j e l i n e k 对此给出过一个实 验说明:取大约1 5 0 万词的英语文本做语料统计t r i g r a m ,然后另外取一个3 0 万词的文本做测试语料,结果发现在这3 0 万词的语料中出现的t r i g r a m 有2 3 从未在那1 5 0 万词的语料中出现过“1 。因此,在n - g r a m 模型中必须引入某种技 术来解决训练语料不足的问题。这一点将在本章的后续内容中详细讨论。 2 3n - g r a m 语言模型性能的评价方法 对任何一种类型的语言模型,它的最终评价标准都应该是这个模型在它的 实际应用系统内,对改善这个系统的性能起到了多大的作用“”。比如,在一个 语音识别系统中,我们将通过比较该识别系统在使用不同语言模型前后,系统 误识率的改变情况评价不同语言模型的性能。但实际应用中,这种方法并不总 是很容易操作“3 。一方面,对系统误识率变化的测试必须处理大量的实时数据, 这造成了系统时间上的很大消耗;更重要的是,系统的误识率是许多因素互相 作用的结果,这些因素往往很复杂,而且彼此之间的相互作用并不表现为线性。 因此,我们不可能在误识率和语言模型参数之间建立量化的分析表达式。这样 一来,以最小误识率为目标自动地训练一个语言模型几乎是不可能的。 目前一种常用的替代方法是通过评价语言模型对未知文本的预测能力,来 ,、 比较不同语言模型的性能优劣”“。若随机变量( w l w 2 w n j 表示长度为n 的自然 上海交通大学硕士学位论文 第二章n g r a m 语言模型及其数据平滑技术 语言序列,其中每个随机变量w i ( i = 1 ,2 ,n ) 代表自然语言序列上的一个汉语语 言单位词。w i 可在其所代表的词集w 中取值。由于自然语言序列可被视为离散 的平稳有记忆信源,可用长度为n 的平均信息熵的极限值近似描述语言信源的 联合熵“1 : h ( w ) = 一l i m z p ( w l w 2 w 。) l o g p ( w l w 2 w 。) ( 2 - 9 n - b o o 若信源是各态遍历的,根据s h a n n o 定理,式( 2 - 9 ) 可由 h = - l i m l l o g p ( w i w 2 w n ) n + n ( 2 - 1 0 ) 求出,w ;w ,式( 2 - 1 0 ) 可由统计语料库语料近似求出。假设语料库的容量 为r ,信息熵的近似值定义为“” l p = 一) 1 0 9 p ( w l w 2 w r ) ( 2 - 1 1 ) 语言模型的分支度定义为“3 : p p = 2 b - p ( w l w 2 w r 彤( 2 - 1 2 ) 2 “= p ( w l w 2 w 。) 一 分支度p p 值反映了信源熵的大小,表示对该信源不可知的程度,即2 “s p p 蔓r 。 说明在建立语言模型后,语言序列中语言单元的求解不必在词汇表的全部r 个 侯选中匹配,而只对一个小于r 的词集中进行。因此语言模型的利用等效于缩 小了侯选的词汇表,降低了求解难度。 从另外一个角度来说,分支度可以看做一种语言对一个具体的语言模型的 分支成分的几何平均“1 。比如,如果说一种语言对某个语言模型的分支度是x , 那么就意味着这种语言在该语言模型框架下,每一个词都允许x 个不同的词以 等概率的机会出现其后。因此,可以看出,分支度是语言和语言模型两者的函 数。当把它当作语言模型的函数时,能够衡量该模型的预测能力,表示模型的 性能优劣;当把它看作为某种语言的函数时,它能够估计这种语言的熵,表示 语言的复杂程度。比如,c e s h a n n o n 的统计表明,书面英语的h 值约为5 5 上海交通大学硕士学位论文第二章n

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论