已阅读5页,还剩53页未读, 继续免费阅读
(计算机应用技术专业论文)规则与统计相结合的英语词性标注系统的研究与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
人b s t r a c t ab s t r a c t p a r t o f s p e e c h ( p o s ) t a g g i n g i s t h e k e y p o i n t i n t h e m a c h i n e t r a n s l a t i o n p r o c e s s , a n d i t s ma i n r o l e i s t o d e t e r mi n e a n d l a b e l t h e p os o f t h e w o r d s i n t h e s e n t e n c e . t h e f o c u s o f p o s t a g g i n g i s t h a t h o w t o d e t e r m in e t h e a m b i g u o u s w o r d s c a t e g o ry . p o s t a g g i n g t e c h n o l o g y p l a y s a n i m p o r ta n t r o l e i n a u t o m a t ic t e x t r e t r ie v a l , t e x t c a t e g o r i z a t i o n , t e x t r e c o g n i t i o n a n d s p e e c h r e c o g n i t io n a p p l i c a t i o n . f i r s t , t h e p a p e r a n a l y z e d t h e r u le - b a s e d a n d s t a t i s t i c s - b a s e d p o s t a g g i n g m e t h o 氏 a n d m a d e a r e l a t i v e c o m p r e h e n s i v e c o m p a r i s o n b e t w e e n t h e c h a r a c t e r i s ti c s o f t h e t w o a p p r o a c h e s . t h e n , i t i n tr o d u c e d p o s t a g g i n g b a s e d o n t h e n - g r a m p r o b a b i l i t y m o d e l a n d h i d d e n m a r k o v m o d e l ( h mm ) s y s t e m a ti c a l l y . f i n a l l y , a n e n g l i s h p o s t a g g i n g s y s t e m w a s c o m p l e t e d b a s e d o n h mm t h i s p a p e r i n t r o d u c e d a r u l e - b a s e d a n d s t a t i s t i c a l c o m b in a t i o n o f m e c h a n i s m t o r e s o lv e t h e p r o b l e m o f u n k n o w n w o r d s b e i n g h a r d t o a c c e s s d ir e c t ; r a i s e d a p r i o r it y p h r a s e d e a l i n g m e t h o d t o d e t e r m i n e t h e p h r a s e w o r d p o s a c c u r a t e l y a n d re s o l v e t h e p r o b l e m o f a m b i g u o u s w o r d s c a t e g o ry . w e h a v e g o t a g o o d re s u l t t h r o u g h t h e i n t e g r a t i o n o f t h e a b o v e t w o a p p r o a c h e s . k e y wo r d s : p a rt o f s p e e c h t a g g i n g r u l e - b a s e d s t a t i s ti c s - b a s e d a m b i g u o u s w o r d wo r d 南开大学学位论文版权使用授权书 本人完全了解南开大学关于收集、保存、使用学位论文的规定,同意如下 各项内容:按照学校要求提交学位论文的印刷本和电子版本;学校有权保存学 位论文的印刷本和电子版,并采用影印、缩印、扫描、数字化或其它手段保存 论文;学校有权提供目录检索以及提供本学位论文全文或者部分的阅览服务; 学校有权按有关规定向国 家有关部门 或者机构送交论文的复印 件和电 子版; 在 不以赢利为目的的前提下,学校可以适当复制论文的部分或全部内容用于学术 活动。 学位论文作者签名: y n 蜘杰 k ilo, 年少月z 8 日 第一章绪论 第一章绪论 随着科学技术日新月异的发展, 尤其是以i n t e rn e t 技术为代表的信息技术在 全球范围内的流行普及,不同语种之间的相互交流越来越迫切,机器翻译成为 计算机领域的热点问 题。词性标注作为机器翻译过程中 词法分析阶段的重要步 骤,对提高机器翻译效果发挥着举足轻重的作用。 第一节问题的提出 2 0 世纪5 0 年代, 伴随着机器翻译热潮的兴起, 人们就开始研究词性标注问 题,出现了许多词性标注方法,并取得了 较大的进展.大体上分为基于统计的 方法和基于规则的方法。基于规则的方法从理性主义角度出发,在语言学家对 自 然语言规律进行充分总结的基础上,生成语言模型,构造词性标注规则; 基 于统计的方法则在构造大规模语料库的基础上,运用统计的方法解决词性标注 问题,该方法是运用经验主义思想的集中体现。 自 然语言中存在着大量的单词兼类现象,以英语为例,在对 b r o w n语料库 的统计中,接近 5 5 %的词次兼类。但是在具体的语境中,兼类词所具有的词性 却是唯一的。如何使得计算机能够自 动准确的识别出具体语境中的单词词性, 是词性标注试图解决的问题。 第二节 词性标注理论介绍 1 . 2 . 1 词性标注概念 自 然语言中,能够自由运用的最小语言单位叫单词。根据单词的形式、意 义及其在句中的 作用所作的分类称为词类( p a rt s o f s p e e c h ) 。 词类是若干数量的 词性标记的集合,词与词性并不是以一一对应的形式存在的。正是由于单词本 身与词性间的复杂联系,才使得对词性标注的深入研究成为必要。 词性标注 ( p a rt o f s p e e c h t a g g in g ) 就是使计算机能依据一定的策略尽可能 第一章绪论 准确的识别单词词性,所以也有文章称该标注过程为自 动词性标注。对于单词 性单词的处理只需与电子词典进行机械配对即可;兼类词的处理是词性标注的 重点和难点问题。 1 . 2 .2 词性标注意义 词性标注作为浅层次的自 然语言处理,是机器翻译过程的基础处理阶段, 在机器翻译系统中占据着重要的地位。错误的标注结果会严重影响将来的语言 处理过程,导致机器翻译系统输出错误的甚至古怪的翻译结果, 所以词性标注 的结果优劣直接关系到译文的生成质量。 自 然语言的运用过程中,单词具有的不同的词性使得它们可以在句子中作 为不同的句子成分,正确的词性标注结果不仅可以为后续句法分析及其它处理 工作提供准确词性素材,从而大大缩小词义消歧的范围;还可以为语言学的研 究提供详实的资料。词性标注技术同样在文本自 动检索与分类、文本识别、语 音识别等现实应用中占 有着重要的位置。 按照f r a n c i s 和k u c e m的观点, 标注是 一个比 完整句法更有用、 更容易控制的中间 层表达 ( f r a n c i s 和k u c e r a 1 9 8 2 ) . 例1 : a l l r o a d s l e a d t o r o m e ,单词l e a d 具有以下释义: v 领导,引导,致使,通向,导致 n . 领导,领先,导线,铅,铅笔芯 从上面可以看出,若对单词实现正确的词性标注后,就可以排除掉相当数 量的汉语意思,大大减轻了后续词义消歧的难度,提高了机器翻译的准确率。 例2 : 单词在不同的词性下表现出不同的发音, 单词re c o r d 的英语名词词性 时发音为 r e k a r d ,英语动词词性的发音为 r i k 3 r d ,只有正 确的标注结果才可以 使语音系统实现正确的发音。类似词还有: c o n t e n t o b j e c t a b d 3 i k t / n k a n t e n t /n a b d 3 e k t / n 第一章绪论 图1 . 1 机器翻译过程示意图 1 .2 .3 英语兼类词分析 单词隶属于两个或更多的词类,我们称这样的单词为兼类词 ( a m b i g u o u s w o r d s ) ,即存在词类歧义。兼类词大量出现在英语文本中,兼类词的存在使得 词性标注变成一个相当复杂的问 题, 对于兼类词的 特点应从以 下方面认识d l 1 .兼类词只占词汇的很小一部分; 2 、 常用词兼类现象严重. 越是高频使用的词汇, 用法越多, 其兼类越严重; 3 .兼类现象纷繁复杂,覆盖面很广,涉及了大部分词类; 4 、兼类现象的分布很不一致。 表1 . 1 为英语中单词兼类情况简要分析, 当然这是在确定标记集的基础上进 行划分的,由于机器翻译后续处理流程的需要,我们需要对标记集的分类更加 细化, 这样会呈现出 更加复杂的兼类现象。 表1 .2 为b r o w n 语料库的单词兼类情 况分析表。 第一章绪论 表 1英语兼类现象分布表 兼类类型具体类别举 例兼类类型个数 兼 属 两 类 名词 . 选取部分语料进行人工标注; . 利用统计理论对标注后的 语料库进行参数统计, 依据统计参数建立词性 标注的统计模型; . 依据统计模型,编写程序实现词性标注过程。 1 .2 .4 . 3 两种标注方法的分析对比 基于规则的词性标注方法是一个归纳推理的过程,可以很好的对自然语料 进行定性分析描述,并且经过长期的应用实践,现在已 经拥有了 相当规模的规 则库。但是事实上由于自 然语言是无限集合,显然有限的规则并不能够完整地 描述无限的自 然语言集合,尤其在处理一些特殊的语言现象时,这种方法的局 限性就会表现得更加突出,而且在增加规则数量的同时,规则冲突问题也成为 制约标注准确率的重要因素,所以基于规则的词性标注方法不可能具有很强的 鲁 棒 性 f;1 基于统计的标注方法从量的角度反映了词性之间的搭配规律;而且参数可 以随着语料库的规模和选材而不断进行优化,更加符合动态语言的本质特征, 适用性很强,可以很容易实现向其他自 然语言词性标注系统的转化。该方法的 局限性体现在以下方面:首先是对语料库的 依赖性极强, 语料库选材的不当或 者过小规模的语料库会导致统计参数的片面性:其次基于统计的方法的词性选 择标准是词串概率最大化,所以在面对小概率事件时难以得出正确的结果:另 外数据稀疏问题也是基于统计的标注方法必须面对的难点问题. 第一章绪论 随着对两种标注方法认识的不断深入,人们越来越意识到两种方法都不能 独立 构建高性能的词性标注系统。合理发挥各自 优长,将两种方法结合起来才 是真正实现高效词性标注系统的必由之路。例如:统计模型适用于大规模的知 识获取,可以和规则方法相互补充。 表 1 .3 不同机制的标注系统性能对比 规则方法 统计方法 规则与统计 结合 定性日规则库 一般一般 定里i i统计模型 较商较高 定性干 定t规则库 统计模型 第三节本文的工作及论文组织 本文对词性标注的方法进行了总结, 较为全面地介绍了基于h mm的词性标 注模型的原理;采取了规则和统计相结合的处理机制解决未登录词的词性标注 问题,并且运用相似度测量方法,挖掘未登录词自 身信息,为规则排岐提供支 持;提出了基于短语实例优先的词性标注策略:在此基础上实现了一个基于二 元隐马尔科夫模型的英语词性标注系统。 本文主要分为如下六部分: 第一章, 介绍了词性标注的概念、意义,以及标注方法;并且对基于规则和 基于统计的方法做了对比分析; 第二章, 介绍了隐马尔科夫模型基本原理,以 及在词性标注中的 应用, 分析 了常用的词性标注算法; 第三章, 分析了未登录词标注问题和数据稀疏问 题, 给出了 相应的对策; 提 出了 基于短语实例优先的词性标注策略; 第四 章, 介绍英语词性标注系统的各组成模块, 对具体词性标注流程进行分 析说明; 第一章绪论 第五章,对标注系统进行了评价,给出了标注的实例结果; 第六章,对本文所作的工作进行总结,并对未来的发展进行展望。 第二章h mm词性标注应用分析 第二章h mm词性标注应用分析 第一节马尔科夫理论介绍 2 . 1 . 1 马尔科夫链的概念 过程在时 刻tk 所处的 状态为己 知的条件下, 过程在时刻t t k 所处状态只与过 程在t k 时刻的状态有关,而与在时刻 tk之前所处的状态无关的特性称为马尔可 夫性。具有马尔可夫性的随机过程称为马尔可夫过程。 设 x ( t ) ,t (-= o , - ) ) 为 一 随 机过程, 如 果 对 任意 的n , o - t4 t i t 2 . . . 0 , 则下式成立: p ( x ( n + l ) = i n + , ix ( 0 ) = i u ,x ( 1 ) = i i . . . x ( n ) = i n = p x ( n + l ) = i n + , ix ( n ) = i n ( 2 - 2 ) 图2 . 1 马尔科夫链示意图 第二章 h mm词性标注应用分析 2 . 1 .2 隐马尔科夫模型基本原理 隐马尔科夫过程即h i d e ma r k o v p r o c e s s , 它是在马尔科夫链的基础上构造的 一个二重马尔科夫随机过程,即具有状态转移概率的状态序列和观察值序列. 观察值序列与状态值序列之间的关系并不是一一对应的, 而是对应许多可能的 状态序列。观察者只能看到与每一状态序列对应的观察值序列,对于状态序列 来说则是隐含的,所以我们称它为隐马尔科夫模型。“ 隐”就是指对于某个特 定的 观察 值序列, 并 不 清楚 马 尔科夫 模型中 对应的状 态 l 。 它提 供了 一种基于 训 练数据提供的概率自 动构造识别系统的技术。 隐马尔可夫模型是一个五元组 ( s , o , a, b ,: ) ,各参数意义如下: s = q . , .q n : 状态的有限集合。 0 = ( v , ,v m ): 观察 值的有限集合. a= ( a y ) , a ;j = p ( x , , , = g ijx t = q +):状态转移概率矩阵. b 二 ( b ik ) , b . 解码问 题:在以 上模型参数己知的条件下,并且给出某一确定的观察 值序列,如何来推测它对应的最大可能状态序列,这就是词性标注的求解过程; 即如何根据已知的观察值序列去确定隐藏在后面的可能性最大的状态序列,可 运用v i t e r b i 算法解决; . 学习问题: 对于给定的观察值序列,调整参数人 ,使得观察值出现的 概率p ( o l x ) 最大, 可以 用于评估模型参数。 第二章h mm词性标注应用分析 第二节词性标注模型分析 2 .2 . 1 n 一 元模型 n 元模型是生成h m m 标注模型的基础。为了 减少参数空间规模, 模型对同 现概率问题进行了合理的简化, 得到了可计算的概率模型。 n 元模型实质上是一 个( n - i ) 阶马尔科夫过程. 在自 然语言处理中, n 元模型不仅可以 应用在单词层 面, 还 可以 应 用 在 词 性 甚 至 概 念 层面 中 。 以 单 词 序 列 w = w t w 2 , 。 出 现 概 率 为例: p ( w iw 2 : 叼= 1 1 f. i p ( 义 .。 气 _j(2 .4 ) 为了减少参数空间的规模, 我们可以假定单词w ; 出现的概率只与其前面的 n - 1 个单词有关,则有 ” ( w , w 2 二 叼、 n :. : p ( 火 _。 内 _卜 。 一,f _j(2. 5) 一元语法:n = 1 ,对应词频表,给出所有词出现的频率。 二元语法: n = 2 , 对应一个转移矩阵, 给出每一个词后面出现另一个词的概 率。 概率 三元语法: n = 3 , 对应三维转移矩阵, 给出每一个词对后面出现另一个词的 n 元模型同样可以应用在词性标注中, 但是由于此时没有将单词的生成概率 p 1 , ) 参 数 考 虑 进 来 , 而 是 单 纯 地 提 取 了 待 标 注 文 本 中 的 词 性 序 列 , 选 取 了 具 有最大转移概率乘积的词性序列作为词性标注结果。由于忽略了单词本身与词 性标记之间的联系, 所以 运用n 元模型进行标注的准确率相对于隐马尔科夫模型 标注来说是较差的。 2 . 2 .2 h mm词性标注模型 设 w为 单词 集 合, c 为 词性标记集集 合, 表示为( c i c 2 . . . cn ) , 给定词串 w, 表 示为:毛 w i w 2 . - o ,则词性标注任务可视为在已 知词序列w的情况下,计算取 得如下条件概率极大值对应的词性序列 t . 第二章 记 作 : t = a r g m a x p ( c ic 2 h mm词性标注应用分析 c / w o w , 一( 2 . 6 ) 依据b a y e s 公式: t = a r g m a x p ( c ,c 2二 c . w i w 2 p ( w iw 2 w . , c ic z “ w p ( c j p ( c ic 2 , , ) w lw 2 , 。 ) . wiw2.wj ( 2 . 7 ) 由 于 此 时 分 母 p ( w , w 2 . . . w ) 的 大 小 为 定 值 , 显 然 对 最 终 结 果 不 会 产 生 影响,可以予以忽略,转化为: t = a r g m a x p ( w iw 2 w n / c ic 2 c ) p ( c c 2 c . ( 2 . 8 ) 此时我们为便于计算作如下假设,以 期简化: . 独立性假设: 假定w i作为e i 出现与其前后的单词相互独立, 可近似估计为每个词作为某个特定词性出现概率的乘积: (2 .8 ) 式 中 第 一 个 概 率 转 化 为 :n :. : p ( 义 ) 第一个概率 ( 2 . 9 ) . 局部上下文假设:假定c 的出现只与相邻的第i 个词的前面 ( n - 1 ) 个单 词相关我们通常取 ( n - 1 )为很小的整数数值。 ( 1 ) 当 n = 2 时 , 第 二 个 概 率 为 : np ( 义:) ( 2 . 1 0 ) (2 ) 当 n = , 时 , 第 二 个 概 率 为 : n 几 , p ( 火 1 1-2) ( 2 . 1 1 ) 以 n = 2 举 例: 1 . s e c r e t a r i a t / n n p i s / v b z e x p e c t e d / v b n t o / t o 2 . t h e / d t r a c e / n n f o r / i n o u t e r / j j s p a c e / n n 决定ra c e 词性的分别为 “ / p o r a c e / v b ”和 “/ d t r a c e / ,我们假定其他因 素不对词性产生影响。 经过如上假定,( 2 . ( 1 ) 二元h m m模型 8 ) 式最后转化为: : t 一 a r g m a x n几 , p ( 2 . 1 2 ) ( 2 ) 三 元 f ii v 1iv 1模 型 : t 一 ar g m a x n.= , p ( x ) v-,) ( 义 为 ( 火 _内 _, ) ( 2 . 1 3 ) 此时h am词性标注模型表示为( c , w, a , b ,二) , 在此我们以二元h mm 橙型为例介绍,假设词性标记集t 由 n t 个标记组成,词汇集w共有n w 个词汇, 第二章 h m m词性标注应用分析 与 ( 2 - 3 )式中参数相对应,参数解释如下: c :表示所有词性标记集合,对应状态序列; w:表示每个词性所包含的单词的集合,对应观察值序列; a :表示词性转移概率矩阵,为n t - n t 的二维矩阵,其中 任一矩阵元素表示 单 词 词 性 标 记 由 c ;_, 转 移 到 c ;的 概 率 , 即 p ( c , / c ,一 1 ) , 对 应 状 态 转 移 矩 阵 ; b : 表示词性生成概率矩阵,为一个n 丁 召w 的二维矩阵, 其中任一矩阵元素 表 示 在 出 现 词 性 标 记 c ;条 件 下 , 产 生 单 词 w ;的 概 率 p ( w ; / c ; ) , 与 观 察 值 概 率 分 布矩阵相对应; 7 表 示 词 性c , 出 现 在 句 首 的 概 率 , 对 应 初 始 状 态 概 率 分 布 词性标注的过程就是根据给定的模型人 ( a,b,:)和观察值序列 w = w ,w 2 . . .w i 选出 一 个与 观 察 值 序列 相 对 应的 最 佳 状 态 序 列c = c , c 2 0 . c. 。 此 时我们可以将词性标注问题转化为求解有向图的最优路径问题。 : p r o m i s e d t o b a c k t h e b i l l 图 2 .2 兼类词标注有向路径图 2 . 2 . 3 词性标注参数的求取 h m m参数的求取是基于h m m词性标注系统实施标注的重要步骤, 直接影 响 着词性标注的效果。参数求取即通过一定的算法训练语料库获取词性转移概 率和单词生成概率。 针对语料库的类型选择不同,可以分为无指导类型训练、 有指导类型训练. 第二章 h m m词性标注应用分析 今 无指导类型训练 ( u n s u p e r v is e d t r a in in g ) 无指导类型训练以 生语料库和一部标注了 单词所有可能词性的电 子词典 作 为训练要素,摆脱了由于语料库覆盖领域不全面引起的参数量化片面的局限 性, 可以实现跨领域大规模语料的训练。 由于生语料库中的单词词性未知,所以在训练时,要首先给词性转移概率 和单词生成概率进行初始化。实验证明:词性转移概率初值的选取对于训练结 果影响不大,通常情况下赋予一个均值即可:而单词的生成概率对训练结果产 生较大的 影响, 所以 会 通过较复杂的 方法进行 选取/6 。 具体 步骤描述如 下: i 、初始化参数; 2 、用vt e r b i 算法求取句子对应的词性序列,评估词性转移概率; 3 、根据词性序列,评估单词生成概率; 4 .判断结果是否收敛, 达到收敛,则认为得到参数; 5 、若不收敛,则将评估出的参数作为初始值转至步骤2 继续评估。 . 有指导类型训练( s u p e r v is e d tr a in in g ) 有指导类型训练相对于前者要简单,它需要熟语料库作为知识来源支持。 通过有指导类型训练得出的参数质量要优于无指导训练,因此在现实中得到更 加广泛地运用。训练时从语料库中可以统计出以下数据并作为参数求取的基础 数据: 词性的出 现频率f ( c i) , 词对的出 现频率f ( c ;_ , , c ;) , 单词的出 现频率f(-;). 有指导类型训练的不足之处主要体现在由于参数的获取均来源于语料库, 因此必然会出现参数概率为零的情况。而且由于标注系统的标记集趋向细粒度 表示和标注模型中引入更多的上下文信息,数据稀疏问题成指数级增加. 加大 语料库规模和恰当运用参数平滑算法是解决数据稀疏问题的途径。 第二章 h m m词性标注应用分析 第三节 基于统计的词性标注常用算法 2 . 3 . 1 c l a ws 算法 c l a ws 算法是1 9 8 3 年由 ma s h a l l 提出, 并运用在基于l o b 语料库的可能成分 自 动词性标注系统中 ( c o n s t i t u e n t - l i k e l y h o o d a u t o m a t i c wo r d - t a g g i n g s y s t e m ) 。 实验证明,采用 c l a ws算法能有效提高词性标注正确率。 具体步骤是: 1 、首先选取部分英文语料作为训练集,并对其进行手工标注词性标记,该 步骤需要相当大的工作量; 2 、然后对标注好的语料进行统计,得到标记与标记同现的频率,最终产生 词性转移概率矩阵; 3 、在词性标注时,系统依据首词与尾词都为单性词原则,从处理文本中截 取有限 长度的句段 ( s p a n ) ,也有文章称s p a n 为跨段。记为汪 w o r w l rw n , w . - i 4 、 在s p a n中,词串对应的词性标记的组合可以被视为多条可能路径。 根 据词性转移概率矩阵计算每条路径的概率积,并选择概率最大的路径对应的词 性序列作为标注结果,从而实现了 对兼类词的标注. c l a ws算法的缺陷主要体现在随着兼类词词性种类数的增加和句段长度 的 增加, 计算机的 工作量呈指数倍增长, 从而造成计算机超负荷运作阴 。 2 . 3 .2 vt e r b i 算法 v t e r b i 于1 9 6 7 年提出vt e r b i 概率译码算法。 最初主要应用于通信领域。 该 算法同样在词性标注中得到了成功的应用. 该算法解决词性标注时, 并没有像c l a ws 算法那样枚举所有可能的词性序 列,从而求出 最大概率对应的序列作为输出。 而是从动态规划的角度出 发, 化 大整体为小单元,在求得子问题最优的基础上逐步扩大求解范围来谋求整体的 最优目 标。 假定词性标记个数为n , 词串长度为t , 在最坏情况下, 对整个词串 的计算次数为扩x t o 第二章 h m m词性标注应用分析 给定模型参数人 = ( a , b ,,t ) ,任意单词串,一 卜 w 2 w r f , 其 中w 1 , w t 为词 性确定的 单词或者单词 性 单词, 即s p a n 边界 词。 子问 题的最佳函 数可以 表示为下面式子: 8 1 ( ) =m a x区 s 工 s 2 二s , , w i w 2 气 、. . . 气_ . . w s , 一 丫 ,(2 .14 ) 8 ( 1 ) 表 示 在, 时 刻 沿 一 条 路 径si, w , 的最大概率。 s 2 . . . b ; ( w ,) , 1_ i 0 2 0 5 , 5 1 61 4 , 4 9 4 ,2 1 7 7 5 , 3 4 9 , 8 8 8 0 2 6 0 ,7 4 1 6 , 7 9 9 x 1 0 0 1 , 7 7 3 x 1 0 1 6 显而易见,通过语料库规模的扩大,可以在一定程度上缓解数据稀疏问题. 但扩 大语料库 规模需 要 很高的 代价, 并且z ip f 定 律证明 扩大语 料库规 模并不能 够根本解决数据稀疏问 题。通过参数有效平滑是解决稀疏问题的有效途径。 3 .3 .2 平滑算法在数据稀疏问题中的应用 对基于统计的词性标注系统所得出的数据进行有效的修补和优化,使其能 够更真实的反映自 然语言中的词性词汇之间的联系,可以 提高词性标注的效果。 依据统计数据的范围进行分类,可分为整体参数平滑和局部参数平滑两种算法。 第三章词性标注难点问题的处理 整体参数平滑主要以下几种:加法平滑:为消除统计数据中的零概率事件, 将所有统计的数据数值加上一个特定常量5 ,常量的大小为经验值,通常取 1 或。 .5 。 该算法的平滑效果不尽人意; g o o d - t u r i n g 平滑: 将统计参数出现的次数 聚类,用出现次数加一的类来估计当前类;线形插值平滑:利用低元参数的线 性组合来评估高元参数, 应用范围广泛;基于扣留估计的参数平滑算法:又分 为扣留估计参数平滑和交叉检验参数平滑,基本思想是给语料库分块, 利用语 料块间的差异平滑参数空间。 局部参数平滑包括给定最小值平滑和 k a t z s 式平滑算法。给定最小值平滑 主要是针对概率值为零的参数赋予一平滑常量数值,数值大小依经验而定。 k a t z 、 式算法在进行平滑时, 分三种情况进行处理, 保留了部分极大似然估计的 概率值; 利用g o o d - t u r i n g 修改出 现次数较少的概率 值; 对于零概率参数采用回 退的方法估计。表3 .2 针对p e n t r e e b a n k语料库给出了不同平滑算法在英文 词性标注中的效果分析。下面我们将对线性插值平滑进行分析,该标注系统运 用了 插值平滑算法解决数据稀疏问题。 表3 .2 不同平 滑算法 效果分 析表 10 1 训练语料封闭测试 ( 2 0 0 0 句) %开放测试 句子单词不平滑c0 od交叉线性k 别 比 s不平滑go o d 交叉线性k s 比、 1 1 a刃2 6 0 3 0 59 6 . 0 69 4 . 6 89 5 . 6 39 6 .2 29 6 . 2 09 1 . 6 98 9 . 9 59 1 . 5 49 3 .6 2 9 3 . 8 1 2 2 0 0 05 2 0 0 3 89 5 .%9 4 . 6 19 6 . 0 49 6 . 1 99 6 .2 19 2 . 7 29 0 . 2 19 1 . 5 59 4 .3 99 4 . 1 5 3 3 0 0 07 7 8 0 2 09 5 . 9 09 4 . 5 79 5 . 9 39 6 1,% 1 39 3 . 5 79 1 . 1 19 2 .2 69 5 . 1 1 9 5 .0 3 4 4 0 0 01 0 3 7 7 2 49 5 . 8 49 4 . 6 99 5 . 9 09 6 . 1 39 6 . 1 19 4 . 0 19 2 . 5 49 3 .6 89 5 . 2 39 5 . 1 2 3 . 3 .3 线性插值平滑算法原理 线性插值平滑算法的实质就是对异阶参数的线性加权组合,也有文章常称 其为 混合模型 ( m i x t u r e m o d e l ) 。 通过把高阶模型参数和低阶模型参数组合到高 阶模型中,从而得到新的概率参数,以 在一定程度上弥补高阶参数的数据稀疏 问 题,以b i g r a m模型和t r i g r a m模型的 插值平滑作介绍。 第二章 词性标注难点问题的处理 词性概率的平滑: p ( c , / c ,- r c,_2) 二a p ( c , / c ;- , ) + ( 1 一 a ) p ( c i / c ,- , , c , - s ) ( 3 . 1 0 ) = a n (, .,- n / n , + ( 1 一 a ) n (0 - ij - z ) / n u - ij - z ) ( 3 . 1 1 ) 生成概率的平滑: 证 , , / c , , c ,- , ) = a p ( w , / c , ) + ( 1 一 a ) p ( w , / c , , c ,- , ) ( 3 . 1 2 ) = a n (. .) / n u b + ( 一 a .) n (. ,ij - ; / n u j - q ( 3 . 1 3 ) 简单的 平滑算法的权值可以 通过经验来进行确定; 也可以 采用b a u m - w e lc h 算法进行估计,从语料库中选取较小的一部分用来估计插值系数,使用经过数 据平滑的模型, 计算一个测试集h的对数似然概率l o g p ( h ) , 取最大值时对应的 兄即为最优值。 第四章系统设计与实现 第四章系统设计及实现 第一节标注系统的设计 4 . 1 . 1 数据库模块 电子词典是词性标注系统的重要组成部分。本系统设计实现了单词库,短 语库和规则库。前两个库可以为系统提供必需的词性信息支持,规则库用来在 未登录词标注阶段提供知识支持。 如何设计词典结构使得可以将英语单词的词性信息有效而准确的抽取,是 词典设计的最终目标。词典的形式并不是确定的,它的结构随着词性标注系统 的不同策略而发生改变,我们在 a c c e s s数据库中设计实现电子词典,词典的 设计只是针对词性标注系统应用的,所以并没有将词义和其它内容包含到数据 库中来。 . 单词库分为两种表格,分别为单词频率信息表和单词词性信息表。其 中p h a b l e 记录项表示该单词能否组成与短语库中相对应的短语, 存储的记录内 容大小代表了可以组成短语的长度,决定了应当查询的短语库中的表格。 例: 若p h es a b l e 记录内 容为3 2 , 表示该单词可以 组成以 该单词开头的、 短语 长度为2 和长度为3 的短语; t a g n u m表示该单词兼类的个数, 通过该记录内 容查看该单词是否为兼类词, 若为1 , 则表示为单词性单词。 表格的具体结构如 下表所示: 第四章系统设计与实现 表4 . 1 单词词性信息表 字 段 名 称字 段 类 型字 段 说 明 l o n g i n t单词 i d c s t r i n g 单 词词 性 o n g i n t 词 性 个 数 po s f l o n g i 吐单 词对于具有远程搭配结构的短语, 具 有相 类 似的内 部 结 构 模式 , 对 数 据 格 式 做如 下 处 理 【12 1 . “ # ” :表示插入成分可以为一个单词; “ . ” :表示插入成分可以为任意个数单词; 此时 “ # ” 、 “ *, 对应的结果可能为多种侯选词性,侯选词性为可以在句中 担当相同句法成分的集合,在记录中逐一给出。 以phrase-3为例介绍,具体结构如下表: 第四章系统设计与实现 表 4 . 3 短语表 字段类 型字 段 说 明 l o n g i n t 短 语 i d 短 语 短 语 类 型 c s t r i n g短语第一个单词词性 c s t r i n g短语第二个单词词性 c s t r i n g短语第三个单词词性 .规则库主要存储未登录词处理规则。对a类规则和b类规则分表存 储。 均形式化为:条件字段一结果字段。针对预处理规则
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 传动轴数控加工课程设计
- 儿科病房护理质量监控
- 传染病护理与预防措施分析
- 课程设计信息捕捉
- 临床护理带教技巧与方法
- 医疗机器人辅助手术技术
- 医疗市场细分与竞争策略
- 商标保护和反不正当竞争的法律伦理思考
- 职业体验类研学课程设计
- 医疗服务流程优化与提升
- 儿童呼吸系统药物应用与管理
- 国开2025年人文英语4写作形考答案
- 脐灸课件教学课件
- 2025年全面解析供销社财务人员招聘考试要点及模拟题集锦
- 微通道液冷技术-洞察及研究
- 供应室无菌消毒课件
- 造船行业工期保证措施
- 2024部编版七年级道德与法治上册背记知识清单
- 基于数据挖掘的PC平台热 门游戏销售量影响因素分析
- 数学思维训练在初中课程中的教学应用研究
- NK细胞免疫疗法
评论
0/150
提交评论