




已阅读5页,还剩48页未读, 继续免费阅读
(控制理论与控制工程专业论文)基于错误驱动的汉语词性标注研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
北京邮电大学硕士论文 基于错误驱动的汉语词性标注研究 基于错误驱动的汉语词性标注研究 摘要 随着互联网文化和经济的飞速发展和信息爆炸时代的到来,能够 在短时间内处理大规模文本且从中挖掘和抽取语言信息的计算语言 学快速地成长起来。语料库的规模扩大和切分标注水平的提高成为迫 切的需要,以计算语言学为主的多语言语料库切分和标注技术越来越 受到语言学专家的重视。要使语料库真正为提高自然语言处理的水平 服务,就必须对语料库进行深度挖掘和精细加工。词性是对语言进行 语法、语义、语用分析的基础和必要前提,如何解决语料库的词性标 注问题仍是当今的一项重要的基础工作。 汉语词性标注的成果包括基于统计和规则两种处理方法。语言学 工作者们常用的统计算法模型,如最大熵模型、隐马尔可夫模型和决 策树分析等进行大规模的词性切分和标注,再结合规则模板或者手工 编制的排歧词典对经过统计算法训练的模型进行择优、排歧,从而达 到较为理想的结果。 本文在介绍了提出的汉语词性标注方案也是规则和统计结合的 方法,首先在极大熵标注模型的基础上给出了一个汉语词性标注方 案,并提出基于兼类词错误学习的思想。该方案有别于以往单纯依靠 算法和规则模板的常规方法,从原标注系统的标注错误样本中获取上 下文,利用上下文信息形成的概率特征函数计算出容易出错的词的特 征概率。另外,提出在统计的基础上加入外部知识库和分类器的联合 修正算法,较好地完成了针对兼类词复杂类项的标注任务,缩短了模 型运行占用的时间。 关键词:汉语词性标注兼类词错误驱动最大熵 北京邮电大学硕十论文 基丁错误驱动的汉语词性标注研究 e r r o r d r i v e nc h i n e s ep a r t - o f s p e e c h a n n o t i a i o nr e a r c h i nt h er e c e n ty e a r s ,w i t ht h er a p i dd e v e l o p m e n ta n d 即l a 唱e m e n t0 f t h ec h i n e s ec 0 巾u sa n d锄o t a t i o nt e c l l l l o l o 百e s ,a l a 唱e s c a l eo f 1 a n g i l a g cb l o c kb a s e d a t n a t i o n a l i t y1 a n g u a g e 加dd i 疏r e n tt y p e s o f t a g g i n gf c a t i l r em u s t e r sa p p e a r e d t h er e s e a r c h e so ft h ed e e p - p f o c e s s i i l g m e t h o d s 柚dr e l e v a n ta 1 9 0 r i t h m sa r ei nn e e df o rt h ea d v a n c e m e n to f n a t i l r el a n g u a g ep r o c e s s i n g j u s tl i l 【et h co t h e rl 柚g u a g e ,t h ef i r s ts t e pt o a p p r o a c h ( i h i n e s ec 0 叩l l sl 【i l o w l e d g c i s p a r t o f - s p e e c ht a g g i l l g a n n o t a t i o ns y s t e m sw h i c hc a nm no nt h e m p u t e r ss u p p o r t s t h e c o m p u t a t i 伽a ll i n g u i s t i c sw h i c hh a v ea t t r a c t e dw i d ec o n c e m sf r o mt h e r e l a t e df i e l d ss u c ha sa n i f i c i a l i n t e l l e g e n c e t h e r e 盯es e v e r a l 锄o t a t i n gs o l u t i o n sw h i c hm o s t l yb a s es t a t i s t i c a l a l g o r i t h ma n dm l e sw h i c hw a sw r i t t e dm a n u a i l y s u c h 勰t h em a x e n t e n t r o p y m o d e la n dh i d d e nm a r k o vm o d e l r u l e ,w h i c h i n t e g r a t e d d i 此r e n tm l e s t e m p l a t e sc a np r o v i d et a g g i n gt 0 i o l sf o rn a t u a ll a g u a g e b u tt h et a g g i n gr e s u l t sa r en o tg o o de n o u g ht oa p p l yt ot h ed e e pl e v e l a n n o t a t i o ni i lt h ef e a lt e x t a c c o r d i n gt o t h es t a t i s c a l e x a m p l e sw h i c ha r ec o l l e c t e d 舶m m u l t i w o r d sa n n o t a t i o ne r r o rr e s u l t si i l s y s t e m ,t h i se s s a yw i l li i l t r o d u c e t h r e ep a n so fa p p e n d i n gm o d e l sf o rp a r t - o f - s p e e c ht a s kb a s e da tm a x e n t e n t r o p ym o d e l an e we r r o 卜b a s e d m e t h o dc o m p o s e do fe v e n t sw i t h f c a t u r ep r o b a b i l i t yw h i c hw a sc a l c u l a t e di na d v a n c e dw a sh e l do u tt o c h o o s ef e a t u r e st e m d l a t e sf o rm u l t i w o r d 北京邮电人学硕士论文基丁错误驱动的汉语词性标注研究 l 【e y w o i me n o r d r i v e n p a n - o f 二s p e e c h a n n o t a t i o nm a x e n t e n t r o p y 独创性( 或创新性) 声明 本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究成 果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不包 含其他人已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他教 育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何 贡献均已在论文中作了明确的说明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切相关责任。 本人签名:垂耋 日期:2 翌2 :至 关于论文使用授权的说明 学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定, 即:研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校 有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被 查阅和借阅;学校可以公布学位论文的全部或部分内容,可以允许采用影印、 缩印或其它复制手段保存、汇编学位论文( 保密的学位论文在解密后遵守此 规定) 保密论文注释:本学位论文属于保密在年解密后适用本授权书。非保密论 文注释:本学位论文不属于保密范围,适用本授权书。 本人签名: 导师签名: 日期:趔2 :墨 日期: 型z :童 北京邮电大学硕十论文基丁错误驱动的汉语词性标注研究 1 1 论文安排 第一章绪论 论文将描述一个我们已经实现的基于错误规则模型的词性标注系统。 第一章交代了论文背景和论文的设计初衷,然后简单介绍了国内外现有的知 名语料库和目前用途较广、比较成熟的标注方法。 第二章首先描述了最大熵算法模型,随之给出了一个基于统计的特征选择方 案,描述了如何选择有效特征进行标注,并引入了专门针对兼类词的概率特征函 数和外部知识的伪事件。 第三章是对词性标注错误的定性和定量分析,通过分析,我们得到了一些有 效的改善统计标注系统性能的规则集。 第四章描述我们的测试实验,我们比较了采用统计标注系统和修正规则集相 结合前后的实验结果,实验结果表明统计方法和规则技术结合给标注方案的性能 带来了显著的提高。 最后一章是结论和未来工作的展望。 1 2 论文背景 本论文得到教育部语信司科研项目“民文资源库建设工具软件”( 课题编号: m z l l 5 0 2 2 ) 的支持。 由于语料库语言学的发展,语料库的容量不断扩大,现在,数千万词甚至于 数亿词的语料库已经不算少见。但是要使大规模语料库真正能为自然语言处理服 务,必须对语料库进行加工。而其中,词性标注是一项重要的基础工作,对于进 一步研究语法处理具有重要的价值。本节首先介绍一些语料库,然后介绍基于语 料库的词性标注研究的发展状况。 为了更高速有效地存取和加工语料库所拥的信息,人们利用计算机的快速运 算能力和强大的存储能力开发了大量专用软件,使计算机语料库迅速成为语言研 究的一种普遍资源。 语料库和语料库语言学在当今语言研究由高度抽象转向语言的实际应用之 过渡中起着十分重要的作用:一是提供真实语料:二是提供统计数据;三是验证 现行的理论;四是构建新的理论。这些可以说是语料库和语料库语言学的实用价 值。提供真实语料可以说是词典编纂的生命线。现在流行的英语词典几乎全部是 第l 页 北京邮电人学硕士论文基丁错误驱动的汉语词性标注研究 基于大规模语料库编纂而成的。基于大规模语料库的英语语法书也已经问世。通 过大规模语料库建立统计模型成为语言信息处理和加工的主流模式。先前基于规 则的机器翻译、语音合成与识别、文语转换等如没有大规模语料库的数据支持, 要取得好成果是不可的。语料库为应用语言学的研究提供了丰富的语言材料。语 料库语言学使得在语言理论、语言史研究和句法、词法分析及自动语法分析方面 得到了充分的应用。 在对语料库信息的加工处理过程中,词类标注是一项很重要的工作。它的任 务就是给语料库中的每个词赋一个合适的词类标记。由于英语、汉语等许多自然 语言中都存在着大量的词的兼类现象,因此给语料库的自动词类标注带来了很大 困难。词类歧义消解( g m m m a t i c a lc a t e g o r yd i s 锄b i g i l a t j o n ) 已成为自动词类标注 研究的主要课题。 国外对英语语料库的自动词类标注研究可以分为以下几个阶段: 七十年代初,主要采用了基于规则的处理方法。其代表是1 a g g r r 系统, 它主要利用了3 3 0 0 条上下文框架规则( c o n t e x tf f 棚er u l e s ) 对1 0 0 万词次的 b r o w n 语料库进行了自动词类标注,处理正确率达到了7 7 。 七十年代末到八十年代初,随着经验主义方法在计算语言学研究中的不断流 行,基于统计的词类排歧方法开始得到应用。 1 9 8 3 年的语料库标注系统c l 州s 最先采用了香农( s h a 加o n ) 的噪声信道 模型思想进行词类自动标注。通过利用b r o w n l l 】语料库的正确标注语料训练参 数,达到了9 6 的正确率。从此以后,随着正确标注语料数量的不断增长和统 计处理技术的不断完善,基于统计的方法在英语语料库的自动词类标注系统设计 中占有了主导地位。 国内对汉语语料库的词类标注研究则起步较晚。从9 2 年初开始,北大计算 语言学研究所开始进行汉语语料库的多级加工处理研究,提出了一种切分和标注 相融合的汉语语料库多级加工方法,其中的重要内容是规则和统计相结合的处理 思想。 1 1 1 国外主要语料库简介 国外对语料应用研究开展比较早,语料库数量和种类皆较丰富,比较有代表 性的主要有以下几个f 2 】: l 0 n d o n l u n d 口语语料库:收篇目8 7 篇,每篇5 0 0 0 词,共为4 3 4 万词,有 详细的韵律标注( p r o s o d i cm a r k i n 曲。 a h l 语料库:美国h e r j t a g c 出版社为编纂h e r i t a g e 词典而建立,有4 0 0 万词。 第2 页 北京邮电大学硕士论文基丁错误驱动的汉语词性标注研究 叽a 牛津文本档案库( o x f o r dt c x l a r c b j v c ) :英国牛津大学计算中心建立, 有1 0 亿字节。 b n c 英国国家语料库( b r i t i s hn a t i o n a lc 0 r p u s ) :1 9 9 5 年正式发布,使用t e i 编码f r c x te n c o d i n gi n i t i a t i v e ) 和s g m l 通用标准置标语言的国际标准( n e s t 卸d a r dg e n e m l i z c dm a r ku pl a n g i l a g e ,i s o8 8 7 9 ,1 9 8 6 年公布) a c c l 美国计算语言学学会数据采集计划:美国计算语言学学会m e 勰s o c i a t i o nf b r c o m p u t a t i o n a lu n g i i i s t i c s ,a c l ) 倡议的数据采集计划( d a 协 c o l l e d j 彻i n i t i a t i v e ,d c i ) ,其宗旨是向非赢利的学术团体提供语料,以免除费用 和版权的困扰,用标准通用置标语言s g m l 统一置标,以便于数据交换。 l d c 语言数据联合会( l j i l g l l i s t i cd a t ac 帆r t i u m ) :设在美国宾州大学,实 行会员制,有1 6 3 个语料库( 包括t e x t 的以及s p c e c h 的) ,共享语言资源。 r w c 日语语料库:日本新情报处理开发机构r w c p 研制,包括每日新闻 4 年的全文语料,语素标注量达1 亿条。 亚洲各语种对译作文语料库:日本国立国语研究所研制,中野洋主持,北京 外国语大学参加。 为了推进语料库研究的发展,欧洲成立了t e u u 和e u 认等专门学会。 跨欧洲语言资源基础建设学会t e u u ( t r a 璐e 啪p e 柚l a n g u a g cr c u r c c s h f 协t m c t u r c ) 目的在于建立欧洲诸语言的语料库,现已经建成柏拉图( p l a t o ) 的 理想国( p o l i t e i a ) 多语语料库,建立了计算工具和资源的研究文档1 1 认c 】帕r 皿e s e a r c ha r c h i v e o fc o m p u t a t i o n a l1 b o l s 柚dr e s 伽d c c s ) ,并在语料库的基础上建 立欧洲语言词库e u r o v 0 c a 。t e l r i 每年召开一次s e m i n 缸。最近的一次s e m i n 盯 在h b l j 卸a ( s l o v e n i a ) 召开( 2 2 s e p t 铀b c r 一2 6 s e p t e m b c r 2 0 0 0 ) ,主题是从语料库 中自动抽取知识( a u t o m a t i cl 【n o w l e d g ee x t r a c t i o n ) 。 欧洲语言资源学会e u 认( e u r o p e 姐l 丑l l g i 】a g er e s 叩r c e s 舡s o d a t i o n i ) 负责搜 集、传播语言资源并使之商品化,对于语言资源的使用提供法律支持。e u 认建 立了欧洲语言资源分布服务处e u 埴但u r o p c 柚l _ 加g i l a g c u f sd i s t 曲u t i a g e n c y ) ,负责研制并推行e u 认的战略和计划,还组织语言资源和评价国际会 议u 也c ( l a n g u a g cr e s o u r c c s & e v a l u a t i o nc o n 伊e s s ) ,每两年一次。 1 1 2 国内主要语料库简介 近几年国内在汉语句法标注语料库开发、自动句法分析和语言知识获取方面 主要有以下研究和进展:提出了包括基本短语、功能语块、复杂句子等句法单元 的汉语句法标记集;分阶段进行了建立汉语句法标注语料库的实验,开发了2 0 0 第3 页 北京邮电人学硕十论文基丁错误驱动的汉语词性标注研究 万字规模的功能语块库和1 0 0 万词规模的句法树库;对汉语句法规则和词语搭配 知识获取以及句法分析器进行了探索。 1 9 9 1 年,国家语言文字工作委员会开始建立国家级的大型汉语语料库p j ,以 推进汉语的词法、句法、语义和语用的研究,同时也为中文信息处理的研究提供 语言资源,计划其规模将达7 0 0 0 万汉字。其语料要经过精心的选材,语料的选 材受到如下限制: 时间的限制:语料描述具有历时特征,着重描述共时特征。选取从1 9 1 9 年 到当代的语料( 分为5 个时期) ,以1 9 7 7 年以后的语料为主。 文化的限制:主要选取受过中等文化教育的普通人能理解的语料。 使用领域的限制:语料由人文与社会科学类、自然科学类和综合类3 大部分, 人文和社会科学再分为8 大类2 9 小类,自然科学再分为6 大类,综合类再分为 2 大类。主要选取通用的语料,优先选取社会科学和人文科学的语料。 从1 9 7 9 年以来,中国就开始进行机器可读语料库的建设,早期建立的主要 的机器可读语料库有: 汉语现代文学作品语料库( 1 9 7 9 年) ,5 2 7 万字,武汉大学。 现代汉语语料库( 1 9 8 3 年) ,2 0 0 0 万字,北京航天航空大学。 中学语文教材语料库( 1 9 8 3 年) ,1 0 6 万8 千字,北京师范大学。 现代汉语词频统计语料库( 1 9 8 3 年) ,1 8 2 万字,北京语言学院。 北大计算语言所大规模的双语语料库,约1 1 万双语对齐句子,北京大学。 大规模汉语标注语料库( 1 9 9 9 年) ,约1 ,3 0 0 万汉字,富士通与北大计算语 言所合作。 大型藏文语料库,1 亿3 千万字节,用于藏文词汇频度和通用度的统计。西 北民族大学。 1 1 3 词性标注方法研究现状 在对语料库信息的加工处理过程中,词类( 性) 标注是一项很重要的工作。它 的任务就是给语料库中的每个词赋一个合适的词类标记。由于英语、汉语等许多 自然语言中都存在着大量的词的兼类现象,因此给语料库的自动词类标注带来了 很大困难。词类歧义消解( g r a m m a t i c a lc a t e g o r yd j s 锄b i g u a t i o n ) 己成为自动词类 标注研究的主要课题。 自从上世纪六十年代b r o 帅语料库建立以来,机器自动词性标注技术1 4 】在 过去的四十多年罩发展迅速。迄今为止已经出现了众多的计算机自动词性标注技 术,这些技术所依赖的理论方法大致可分为三类:第一类是基于规则的方法;第 二类是基于统计的方法;第三类是规则与统计相结合的方法。 第4 页 北京邮电大学硕士论文基丁错误驱动的汉语词性标注研究 1 ) 基于规则的方法 基于规则的自动词性标注方法最早出现在上世纪六十年代。随着语料库的建 立,一些学者开始尝试对英语语料库进行机器自动词性标注,并逐渐形成了一系 列基于规则的方法,其中最具代表性的是1 9 7 1 年开发的1 a a g g i t 标注系统。 该系统采用8 6 种词性标记,利用3 3 0 0 条上下文框架规则对1 0 0 万词的现代美国 英语b r o w n 语料库进行自动词性标注【5 1 ,标注正确率达到了7 7 。这类基于规则 方法的核心思想是计算机根据具体的上下文结构框架,套用语言学家总结的语言 学规律来判定兼类词词性。以计算机对“研究”一词进行词性判断过程为例进行说 明。 处理对象文本:“研究理论”v s “理论研究”。 步骤1 :“理论”根据电子词典判定为单性词名词: 步骤2 :“研究”根据电子词典判定为兼类词名词、动词; 步骤3 :依据预设语言学规则a :名词之前为动词,判断“研究理论”中的“研 究”为动词: 步骤4 :依据预设语言学规则b :名词之后跟名词,判断“理论研究”中的“研 究”为名词。 可以看出,这类方法的基本工作原理是在计算机内预先设置电子词典和规则 库,计算机先利用电子词典对语料进行静态词性标注( 即列出对象词可能具有的 所有词性) ,然后依据上下文信息,结合规则库规则进行词性消歧,最终保留唯 一合适的词性。当然,所有规则都是以特殊的计算机语言编写而成的,如: | ;觉划d , 4 卜a ) 正4 工e f | 澌b a 阻 f 的1 1 正nn 。 基于规则的方法是归纳推理的过程,可以很好地对某一自然语料进行定性描 述。但是这种方法所依赖的规则库是一个封闭的系统,所含的规则是有限的。值 得注意的是,有限的规则无法对无限的不断变化着的自然语言进行一一描述,特 别是在处理新词生词和特殊语言现象时,这种方法的局限性就十分突出了。这就 决定了这种方法在自然语言处理中不可能具有很强的鲁捧性,其词性标注的正确 率还不能满足实用性的要求。 2 ) 基于统计的方法 8 0 年代在经验主义的影响下,统计方法逐步被应用于语料库词性标注中, 并占据领域的主导地位。1 9 9 3 年,对l o b 语料库的标注算法c l w s 首先将概 率统计模型应用于自动词性标注技术上,这种做法大大提高了机器词性标注的正 确率,对英语语料词性标注的j 下确率可达到9 7 。 第5 页 北京邮电大学硕十论文 基丁错误驱动的汉语词性标注研究 随后的v o l s u n g a ( 基于转换错误驱动的学习型词性标注算法) 算法更使 英语语料库的词性标注技术趋近于实用性标准。 这类基于统计的方法的基本思想是,制定词性标志集,选取部分自然语料进 行人工词性标注,再利用统计理论( 如b a y 髓公式) 进行运算得出统计规律,然 后依据统计规律建立统计模型,机器根据统计模型进行词性标注。它与基于规则 方法的最大的区别在于:在规则的方法中计算机依据的是人工制定的语言学规 则,而在统计的方法中计算机是依据大量自然语料的统计数据自行生成规则。 c l a w s 算法原名为“成分似然性自动词性标注系统”1 6 l ,其主要工作原理是 先对语料库中部分语料进行人工词性标注形成训练集,计算机对训练集中的任意 两个相邻词性标志的同现概率进行统计,计算相邻词性标志的同现概率矩阵。机 器进行词性标注时,先依据首词与尾词都为单性词的原则,从处理对象文本中截 取有限长度的词串( 即跨段) ,然后在同现概率矩阵中查找跨段中各相邻词的词 性同现概率,求出同现概率笛卡儿积,所得概率积最大的为该跨段的最佳词性组 合,这些词性作为最终标注结果输出。实验证明,采用a a w s 算法能提高词 性标注正确率,但是不难看出c l 删s 算法存在一些缺陷。第一,这种多途径 的算法使计算机运作复杂,工作量大,工作时间长,而结果只采用一种词性组合; 在某种程度上来说,计算机大部分工作是无效的,这造成计算机工作效率低下。 第二,兼类词词性种类数的增加和跨段长度的增加都会使计算机的工作量呈指数 倍增长,可能造成计算机超负荷运作。 1 9 8 8 年,针对这两点缺陷,德罗斯( s e t “皿d e r e ) 对c l 州s 算法进行了 改进,提出了v 0 l s u n g a 算法。在v o l s u n g a 算法中,计算机不再求笛卡 儿概率积,而是运用“步步为营”的策略,即只对跨段中当前词具有最佳同现概率 的词性组合作进一步处理,放弃其它同现概率较小的词性组成。这种方法缩短了 工作时间,大大提高了计算机的工作效率。同时,在这种算法中,计算机还统计 出每个词的相对标注概率,用它来辅助选择最终结果;这种做法进一步提高了自 动词性标注的正确率。 综合上述两种具体的统计算法,可以看出基于统计的自动词性标注方法侧重 语料的定量描写。这种方法的优点在于:第一,提供的数据是客观的,受非语言 因素影响小,可信度、真实度较高;第二,这是一种开放式的描述方法,符合自 然语言动态变化的本质特征;第三,计算机不断记录和统计真实语言现象,可以 不断生成新的规则,对新词生词和特殊语言现象的处理能力很强;第四,这是一 种随机总结规律的方法,适用性强,可以应用于各种语言和语言现象的处理。 但是,这类方法也存在着一定的局限性。首先它对于自然语占的理解不直观, 无法对各种语言现象进行明确地、定性地归纳总结。它所形成的规律只是基于数 第6 页 北京邮电大学硕士论文 基丁错误驱动的汉语词性标注研究 据的统计,因此是一种浮动的、似然的规律。其次,这种规律对语料的依赖性极 强,规律稳定性较弱,不可避免地会带有片面性。 再次,这种方法在进行词性判断时,只选择最佳概率的词性组合,排除其他 选择;但是最佳概率并不是唯一的选择,也不一定就是最合适的选择。这种最佳 概率实际上与当前处理的语料无任何关系,只是基于以往经验的判断,所以不可 避免会出现错误标注,制约了正确率进一步提高。此外,这种方法对各种自然语 言现象不加区分地使用单一复杂的概率算法,忽略了这样的现实情况: 一些简单语言现象只需要进行只字片语的规则说明就可以使机器迅速地做 出正确判断,但是用统计方法却需要十几步甚至几十步的计算。所以采用单一的 统计手段可能会造成计算机资源和时间的浪费。 另一方面,以自然语言为主要训练内容的情况下,将会产生训练样本的数据 稀疏的问题,统计算法可能造成过度拟合,反而不如基于规则的方法好。 3 ) 规则与统计相结合的方法 从前文的分析可以看到,基于规则的方法和基于统计的方法各有利弊,都不 能很好地满足实际应用的需要。于是人们开始思考采用一种折中的方式,即把基 于统计和规则的方法结合起来,取长补短,在利用大规模语料库建立统计模型的 同时,使用一定的语言学规则。大规模的实验验证了这种折中的方法的确提高了 机器自动词性标注的正确率和工作效率。目前很多专家、学者对此正进行大量的 研究,并形成了一些行之有效的方法。 人工集成、建造兼类词的鉴别规则库方法就是这类方法中的一种,它的核心 思想是对统计算法得到的同现概率矩阵、兼类词词典和非兼类词词典进行再处 理,并在处理过程中辅助以语言学规则。 具体操作步骤可表示为: 1 计算机自动生成的兼类词词典。 2 对兼类词词典进行人工处理,整理生成人工处理后的兼类词词典。这种人工 处理的结果是,词典中每个词都被注明所有可能的词性标记,并依据词性出 现的概率从大到小进行排序,同时每个词性后还附带经典例句。 3 利用统计方法生成的词性同现概率矩阵和标注实例的验证结果,对词类搭配 组合进行定性描述,生成句法规则。 4 依据语料中自然语法现象获取词汇结构规则,进一步扩充完善规则库内容。 5 计算机依据最新的规则库( 包括语言学规则和统计模型) ,进行词性标注。 这种统计与规则并举的词性标注方法,融合了两者的优点,用语料库来获取 各类知识( 包括句法规则、词汇搭配规则) 和统计数据,在计算机上同时建立起 规则库和统计模型。当计算机进行词性标注时,对简单的语言现象直接调用语言 学规则来保持机器较高的工作效率,节约资源;对于语言学规则难以处理的现象, 第7 页 北京邮电入学硕士论文基丁错误驱动的汉语词性标注研究 则借助统计模型来解决。与纯粹的统计方法相比,计算机的工作效率有了明显的 提高;而比起纯粹的规则方法,这种方法利用统计模型弥补了规则方法规则有限 性的缺陷,其处理自然语言的能力大大增强了,鲁棒性也提高了。 1 1 4 统计标注算法列举 现有的统计标注算法模型主要有以下列举的几种算法: 1 决策树 1 ) 基于贝叶斯推理的决策树模型【7 】 针对决策树( d ,r ) 模型缺乏概率背景这一问题,将贝叶斯推理引入d t 模型,提 出了一种基于贝叶斯推理的决策树( b d t ) 模型在假定所含待定参量的先验与似 然的前提下,借助贝叶斯推理获得参量的后验,然后运用逆跳马尔科夫链蒙特卡洛 算法对后验抽样,最终求出样本属于某一类别的置信度,从而避免了武断判 决b d t 模型以抽样代替拆分与剪枝操作,既直观又灵活,同时在抽样时考虑了不 同的树结构与递归分割方案,使得分类准确率得以提高。 改进的决策树归纳学习i d 3 算法p j 算法核心是在决策树中各级结点上选择特征,用信息增益率作为特征选择标 准,使得在每一非叶结点进行测试后,能获得关于被测试例子最大的类别信息, 使用该特征将例子集分成子集后,系统的熵值最小。 3 算法的基本原理 设e = d 1 x d 2 x 。d n 是n 维有穷向量空间,其中d i 是有穷离散符 号集,e 中的元素e = ,叫做例子,其中特征域, i = 1 ,2 。n 。设p e 和n e 是e 的两个例子集,分别叫做j 下例集和反 例集。假设向量空间e 中的正例集p e 和反例集n e 的大小分别为p 和n ,则 一棵决策树能对一例子作出正确类别判断所需的期望信息比特为: i o ,n ) = p ( p + n ) l o gp ( p + n ) n ( p + n ) l o gi i ( p + n ) ( 1 - 1 ) i d 3 算法的特点是分类和测试速度快,适用于数据库的学习问题,在基于大 规模语料库的汉英机器翻译中使用较多。但i d 3 的知识表示没有规则好,所生 成的分类树的意义往往令人费解。 提供正反例描述的a q 算法 在a q 算法在归纳过程中使用“种子”和“星”,种子就是一个正例,“星”是覆 盖“种子”排除所有反例的概念描述。星算法是a q 算法的核心,其定义如下: 己知j 下例集p e = e 1 + ,e k + ) 及反例集n e = e 1 e m 一 ,其 中e j 3 = ,而3 + ,- ) 。一个正例e i + 在反例c j 一背景下的星记为g ( e i + ic j 一) 是所有覆盖e i + 而排斥c j 一的极大复合的集合。这里一个极大复合是除覆盖 c j + 排斥c j - 之外覆盖最多数目的其他正例的复合。在星g ( c i + 1 日) 中,正例 e i + 叫做种子。正例e i + 在反例集n e 背景下的星记为g ( c i + i n e ) ,是一切覆 盖种子e i + 且排斥n e 的所有反例的极大复合的集合。 a q 算法的特点是分类精度高,知识表达能力强,适合于知识自动获取,但 训练速度慢。 m 3 算法和a q 算法相结合 采用i d 3 与a q 相结合的方法对兼类词进行词性标注有如下优点: 1 ) 改进的m 3 算法从语料库中获取知识,速度快,解决了知识获取的颈项 约束。并使系统更为灵活和强壮。 2 ) a q 算法的使用,使得系统具有了再学习的能力,将消歧知识表示成规 则形式,有助于更好地理解并简化标注系统。 3 ) 利用机器学习的方法不仅能从真实语料中获得传统的语法知识规律,而 且可以得到语法书上所没有的新的语言规律。 2 隐马尔科夫模型( h m m ) 该模型以输入输出的信息序列作为状态,通过观察状态转移序列计算出转移 概率,绘制出该转移概率的n 阶矩阵或者有向图,然后构造有限状态转移机, 将词性的标注问题转化为在n 元模型中求词汇发射概率。对于大规模的训练样 本,有人提出给观察标以特征,构造特征转移概率矩阵,使概率矩阵占用较少 的存储空间。 1 ) 基于层叠的隐马模型( h h m m ) 汉语词法分析1 9 1 通过构造汉语词法分析构架,旨在将汉语分词、词性标注、切分排歧和未登 录词识别集成到一个完整的理论框架中。在分词方面,采取的是基于类的隐马模 型,在这层隐马模型中,未登录词和词典中收录的普通词一样处理1 未登录词识 别引入了角色h m m :t e r b i 算法标注出全局最优的角色序列,然后在角色序列的 基础上,识别出未登录词,并计算出真实的可信度1 在切分排歧方面,提出了一种 基于n 2 最短路径的策略,即:在早期阶段召回n 个最佳结果作为候选集,目的是覆 盖尽可能多的歧义字段,最终的结果会在未登录词识别和词性标注之后,从n 个 最有潜力的候选结果中选优得到。 2 ) 基于完全二阶隐马尔可夫模型的汉语词性标注1 1 0 j 在该统计模型中,算法的状态转移不仅和前一个状态有关,而且和前二个状 态有关,以此获取更多的上下文信息。 3 向量空间模型( v s m ) i l l j 第9 页 北京邮电人学硕十论文基丁错误驱动的汉语词性标注研究 向量空间模型的基本思想是把文档看成一个根据其中字词出现频率权重的 向量。作为一种信息检索技术,向量空间模型经常被作为文本聚类、分类方法的 基础和准备。在词性标注的应用中,向量空间模型常被使用于为从训练语料中抽 取出的各种特征词构建特征空间,为后续的与义消歧工作作准备。 索引算法i ( l s c 和辅助主题词表法1 1 2 j 在词性标注中,该模型通过借助扩展的潜在语义来消除模型很难处理一词多 义、一义多词的现象。 无导词义消歧i ”j 在仅需义项词语知识库的支持下,将待消歧多义词与义项词语映射到向量空 间中,基于k n n ( k = 1 ) 方法,计算二者相似度来实现词义消歧任务 4 基于条件随机场( c r f s ) 的词性标注1 1 4 j c r f s 通过建立概率模型来进行序列数据的标注。与最大熵模型样,c r f s 是指数形式的模型,具有很强的推理能力,并且能够使用复杂、有重叠性和非独立 的特征进行训练和推理。目前c r f s 在信息抽取、命名实体识别、词组识别、语 音句子边界识别等领域都表现出很好的性能。 5 基于神经网络的标注尝试【1 4 】 基于r o u g i ls e t s 和模糊神经网络的标注方法 r o u 曲s e t s 理论的出发点在于,根据目前已有的知识将论域进行划分,然后 对划分后的每一个组成部分确定其对某一概念的支持程度,即:肯定支持概念, 肯定不支持概念和可能支持概念。以上三种情况分别用三个近似集合来表示:上 近似、下近似和边界。对于任何概念,由它的下近似引出的规则称为相容规则。 该方法构建了5 层模糊神经网络,以二元模型的第一次标注结果进行二次标 注。对训练集分类后建立决策信息表提供决策信息。 1 2 论文意义 兼类词标注准确程度对词性标注的准确率影响非常大,直接关系到后面的句 型划分、机器翻译等工作效率,因此在汉语词性标注过程中重点需要解决的是兼 类诃的歧义问题。短语标注,依存关系标注,句法功能标注,句型标注,义项标 注等等。但这些深加工都必须在词语切分和词性标注的基础上进行。可见,兼类 词的词性标注成为任何个汉英机器翻译系统都要优先解决的问题。 近年来,在汉语的词性标注上,开发了基于概率统计模型的词性标注系统和 基于规则的词性标注系统,这两种类型的词性标注系统虽然总体的词性标注j 下确 率较高,但对兼类词的词性标注j 下确率却较低,至使其正确率难以进一步提高。 第1 0 页 北京邮电大学硕士论文基丁错误驱动的汉语词性标注研究 对于一个词词性的判断涉及到人类的高级的智能活动,人类在判断词性的时候往 往要根据整个句子的意思及头脑中原有的一些背景知识。在这种情况下,基于统 计的方法难以模拟这种智能性的活动,而基于规则的方法虽然可将一些语法规律 和知识表示成规则提供给计算机使用,但规则库的建立面临人工智能中知识获取 的瓶颈约束,并且系统在实际使用中又难有较强的鲁棒性。因此,结合机器学习 的方法从语料库中直接自动获取知识成为一种比校理想的方法。 作为教育部语信司科研项目“民文资源库建设工具软件”( 课题编号: m z l l 5 0 2 2 ) 的一部分,作者对网上可供下载的人民日报一九九八年一月各 版新闻内容( 约1 0 0 万词次) 进行了统计,发现在该语料库中,兼类词占的比例 很低,而其词性几乎涵盖了材料中所有出现词性。兼类词多种多样,每个词的词 性2 5 个不等,把它根据模型的统计结果定量地划分到一个固定的词性类中较 为困难。本文提出的兼类词标注方案就是针对这种情况提出了一种从易出错的词 性特征和规则出发,有别于单纯依靠算法的常规方法,加入特征概率模型和外部 知识库修正,能够高质量地完成针对兼类词的标注任务。 第1 1 页 北京邮电人学硕十论文 基丁错误驱动的汉语词性标注研究 2 1 最大熵原理 第二章基于极大熵的词性标注 在信息论,用熵来描述事件的不确定性。信息熵表征了信源整体的统计特征, 是总体的平均不确定性的量度。 设随机变量亭有a 1 ,a 2 ,m 共n 个可能的状态,每个状态出现的机率 分别为p 1 ,p 2 ,p n ,则亭的不确定程度,即信息熵为:【1 6 l 三 h 亭一善a 1 0 聃 式 自然界的事物总是在约束条件下争取最大的自由权。在无外力作用下,事物 总是朝着最混乱的方向发展,熵增意味着无序状态增强。因此,在已知约束条件 下,熵最大的事物,最可能接近它的真实状态。 统计建模时,通常根据己知信息,构造统计模型对随机事件进行模拟,来预 测其未知行为。满足已知信息要求的模型可能有多个,基于最大熵理论来选择模 型就是将已知事件作为制约条件,求得使熵值最大的概率分布作为正确的概率分 布。 2 2 最大熵建模 若用t 表示所有类的集合,x 表示所有上下文的集合,而p 表示利用最大 熵模型估计出的随机事件的发生概率p ,则p 应满足以下两点要求【1 7 l : p 要使熵最大化: 尸- 8 r g n 日( p ) 式但2 ) p 要服从样本数据中已知的统计证据,通常要求p 尽量和数据集的先验分布 p 相吻合。 但是如果一味的追求使两者的值相同,会出现训练过适应的问题,因此只要 求它的重要条件信息在p 上的期望值和在先验概率p 上期望值相等,这些重要的 条件信息称为样本特征,通常用二值特征函数f 来描述。 特征函数用来表示已知样本的特征,特征 对p 的约束可以表示为: e ,正。乞正 式( 2 3 ) p丑z 第1 2 页 北京邮屯大学硕十论文基丁错误驱动的汉语词性标注研究 即:在概率p 的情况下,特征的期望值应该和从样本数据得到的特征的经验 值相等。也即: p ) 正o ) 一p o ) 正o ) 式( 2 4 ) 根据最大熵原则,就是要在所有满足特征约束条件的分布p 中,选择一个能 使熵最大的概率分布: p 。p er f t - e ;f | 、 p 3 4 ;5 h ( p ) 式( 2 5 ) 在标注任务中,约束表示为: p ( f ,z ) 一( f ,上) 一p ( f ,工) 五( f ,工) ,f 一1 上 接r 靠h 式( 2 6 ) 其中,k 表示特征函数的个数。 熵表示为: ( 尸。善p o i 工) 1 。g p ( f l 引 式( 2 7 ) 最大熵用于标注,即是要求约束条件下h ( p ) 的最大值,为每一个特征六引 入一个参数 ,利用拉格朗日求解法,得: 尸o l 工) - l e x p ( 了! 正( f ,工) ) 2 箭 式( 2 8 ) 其中,毛为归一化因子, z a 。;。x p ( 罩 五o ,工) ) 式( 2 9 ) 式( 2 8 ) 中,尸具有g j b b s 分布,和特征函数及其参数( 特征值) 有关。最 大熵方法就是找出一个合适的特征集合,并计算得到每条特征的重要程度,即特 征值。 第1 3 页 北京邮电人学硕+ 论文 基丁错误驱动的汉语词性标注研究 2 2 1 样本特征描述 最大熵模型一般使用的训练特征是二值的,非零即一,这种特征选取方法对 句子层面的应用来说也许是足够的,但是对于文本分类这种基于文档层面应用, 很难捕获充足的信息。因为,文档分类中不能仅仅通过词的存在与否来判断它对 某一篇文档语义的贡献,更准确的方法是使用词频i l ”。 关于特征的选择工作最后都归结于特征分类集合的选择。如何通过训练和学 习对特征分类过程进行必要的指导,是大部分特征函数在设计过程中需要解决的 主要问题。本论文经过大量的实验比较,设计的标注系统采用自行选取的固定数 量的特征类别集合。 假设特征选择的分类属性值构成随机过程p 的所有输出值y 。对于每一个y y ,其出现均受与之相关的决策属性值x 的影响。已知与y 相关的所有决策属 性值组成的集合为x ,则模型的目标是:对给定的所有决策属性 x x ) ,计算 输出为 y y ) 的条件概率,即对“y 恤) 进行估计,其中y y 且x x 。因此,特 征选择的目的就是从众多决策属性中选择出对分类属性具有明显表征作用,从而 对熵值起明显决定作用的特征。1 1 9 j 特征分为原子特征和复合特征: 设x x 且x = w l w 2 w n ,设c 是x 的子串( 长度= 1 ) ,若c 对y y 具有表征 作用,则称( c ,y ) 为模型的一个特征。 若串c 的长度为1 ,则称( c ,y ) 为原子特征,否则,称( c ,y ) 为复合特征。 2 2 2 数据训练 最大熵原理的基本思想是:给定训练数据即训练样本,选择一个与所有的训 练数据一致的模型。比如在英语中,对于一个具有词性
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 人生需要努力作文800字(13篇)
- 我爱秋季作文范文初二14篇
- 《三角形全等的判定条件:初中几何教学教案》
- 车辆租赁终止及车辆租赁行业法律法规解读协议
- 跨国车辆抵押融资协议
- 出口贸易中的知识产权保护与侵权责任合同
- 专业食品加工车间租赁合同范本
- 人文关怀视角下高校思政教学革新:以淮北师范大学为样本的深度剖析
- 人教版初中化学与高中必修化学教材内容衔接的深度剖析与优化策略研究
- 人工全髋关节置换术治疗类风湿性髋关节炎:多维度疗效与临床观察
- 2025年新疆乌鲁木齐市天山区新疆生产建设兵团第一中学中考模拟预测数学试题
- 【MOOC期末】《中国文化传承与科技创新》(北京邮电大学)中国慕课期末网课答案
- 15J403-1-楼梯栏杆栏板(一)
- HG-T 2006-2022 热固性和热塑性粉末涂料
- 互联网金融(同济大学)智慧树知到期末考试答案2024年
- 10以内序数(课堂)课件
- 2021年安徽省农业信贷融资担保有限公司招聘笔试试题及答案解析
- 精选芭蕾舞男女演员之间的潜规则汇总
- Q∕SY 1770.6-2014 连续管常规修井作业规程 第6部分:速度管柱作业
- 大型污泥脱水离心机机组安装及调试工法
- 国家重点保护野生植物(Ⅱ级)采集申请表
评论
0/150
提交评论