




已阅读5页,还剩62页未读, 继续免费阅读
(计算机应用技术专业论文)基于平行语料库的无监督中文词性标注研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1,if i llj 苏州大学学位论文使用授权声明 本人完全了解苏州大学关于收集、保存和使用学位论文的规定, 即:学位论文著作权归属苏州大学。本学位论文电子文档的内容和纸 质论文的内容相一致。苏州大学有权向国家图书馆、中国社科院文献 信息情报中心、中国科学技术信息研究所( 含万方数据电子出版社) 、 中国学术期刊( 光盘版) 电子杂志社送交本学位论文的复印件和电子 文档,允许论文被查阅和借阅,可以采用影印、缩印或其他复制手段 保存和汇编学位论文,可以将学位论文的全部或部分内容编入有关数 据库进行检索。 涉密论文口 本学位论文属在年月解密后适用本规定。 非涉密论文口 论文作者签名:叠蛰 日 期: 导师签名:闫! 丞坠日期: 基于甲行语料库的无监督中文词性标注研究摘要 基于平行语料库的无监督中文词性标注研究 摘要 伴随着计算机综合能力的同益强大和互联网的迅猛发展,自然语言处理已经成为 信息处理领域一个引人注目的研究热点。词性标注是自然语言处理的重要内容,也是 自然语言处理工作的一个非常有用的预处理过程,它的准确程度将直接影响到后续的 一系列分析处理任务的效果。 本文首先探索了基于单语料库的无监督中文词性标注。本文提出了一种基于条件 随机场( c r f s ) 模型的无监督的中文词性标注方法,主要思路为:( 1 ) 利用词典对获得的 已分好词的生文本进行词性标注;( 2 ) 采用已定义的规则对未登录词进行标注,获得 初始标注语料;( 3 ) n 用c r f s 对语料进行迭代标注,逐步优化标注结果。关于特征的 选择,本文在探索了适用于无监督词性标注的上下文特征的基础上,提出了词语类别 的特征,用于特征模板。本文以宾州中文树库为实验语料,考查了不同规模的标注数 据对模型性能的影响,实验结果表明,本文提出的无监督词性标注方法提高了中文词 性标注的性能。 在此基础上,考虑到在词性标注过程中,往往很难根据词( 其是兼类词) 的上下 文信息判断其词性,从而产生歧义,本文提出了基于平行语料库的中文无监督词性标 注。主要思路为:( 1 ) 半自动构造了一个中英平行双语语料库;( 2 ) 使用g i z 6 卅工具对 词语进行双向对齐,并进行修订;( 3 ) 对英文语料库进行词性标注,以获得中文词语 对应的英文单词的词性,并将其作为一个特征加入到特征模板。本文在多个语料上分 别进行了实验,实验结果表明,通过获取句子对应的英文词性,能够进一步提高中文 词性标注的性能,说明了本文提出的无监督方法对平行语料库进行词性标注的有效 性。 关键词:自然语言处理;词性标注;平行语料;条件随机场;无监督学习 作者:孙静 指导老师:周国栋 a b s t r a c tr e s e a r c ho np a r a l l e lc o r p o r a - b a s e du n s u p e r v i s e dp a r t - o f - s p e e c ht a g g i n gf o rc h i n e s e r e s e a r c ho np a r a l l e lc o r p o r a b a s e du n s u p e r v i s e d p a r t - - o f - s p e e c ht a g g i n g f o rc h i n e s e a b s t r a c t 、m t ht h er a p i dd e v e l o p m e n to ft h ei n t e m e ta n dt h e e x p l o s i v eg r o w t ho ft h e i n f o r m a t i o no nt h ei n t e m e t ,t h en a t u r a ll a n g u a g ep r o c e s s i n g ( n l p ) h a sb e e nd r a w i n gm o r e a n dm o r ea t t e n t i o ni nr e c e n ty e a r sd u et oi t si m p o r t a n c ei ni n f o r m a t i o np r o c e s s i n g a sa l l i n f r a s t r u c t u r ei nn l p , p a r t - o f - s p e e c h ( p o s ) t a g g i n gi sf r e q u e n t l yu s e di na l ln l pt a s k s , s u c ha ss y n t a c t i cp a r s i n g ,m a c h i n et r a n s l a t i o n , i n f o r m a t i o ne x t r a c t i o n t h ep e r f o r m a n c eo f p o s t a g g i n gw i l lh a v eag r e a ti n f l u e n c et o w a r d st h ep e r f o r m a n c eo f i t sf o l l o w u pt a s k s t h i sp a p e rf n s t e x p l o r e su n s u p e r v i s e dp a r t - o f - s p e e c ht a g g i n g f o rc h i n e s ev i a m o n o l i n g u a lc o r p u s i tp r o p o s e san e wu n s u p e r v i s e da p p r o a c hf o rc h i n e s ep o st a g g i n gb y u s i n gc o n d i t i o n a lr a n d o mf i e l d s ( c i 疆s ) f i r s t l y , i tt a g st h ep r e - s e g m e n t e dt e x t sw i t ha d i r e c t o r y t h e ni th o l d so u tu n k n o w nw o r d sa n dt a g s t h e m 、i t h s p e c i a l l yd e s i g n e d h e u r i s t i cr u l e s f i n a l l yt h ec r f sm o d e li st r a i n e dr e c u r s i v e l yt oo p t i m i z et h et a g g i n g r e s u l t s i nt e r m so ff e a t u r es e l e c t i o nw h i c hp l a y sac r i t i c a lr o l ei np o st a g g i n g ,t h i sp a p e r f o c u s e so nh o wt og e n e r a t ef e a t u r e sf r o mc o n t e x t u a li n f o r m a t i o n e x p e r i m e n t so nc h i n e s e t r e e b a n kf r o md i f f e r e n tt r a i n i n gs e ts i z ea r em a d e i ts h o w st h a to u ra p p r o a c hi m p r o v e s t h ea c c u r a c yo fp o s t a g g i n go v e rt h ef o u rt r a i n i n gs e t s 、i t l ld i f f e r e n ts i z e s w ea l s ol e a r n e dt h a tt h e r ee x i s tm a n yc a s e sw h e r ei ti sh a r dt od e t e r m i n et h e i rp o s s d u et oi n s u f f i c i e n ti n f o r m a t i o nf r o mc o n t e x t u a lt e x t s t ot h i se n d ,t h i sp a p e rp r o p o s e sa n o v e lm e t h o do fp a r a l l e lc o r p o r a - b a s e du n s u p e r v i s e dp o st a g g i n gf o rc h i n e s et e x t s t h i s i sd o n eb yt h ef o l l o w i n gs t e p s :1 ) s e m i - a u t o m a t i c a l l yc o n s t r u c t i n gap a r a l l e lc o r p o r a ;2 ) a d o p t i n gg i z a + + t og e ta l i g n m e n tb e t w e e nc h i n e s ea n de n g l i s hw o r d s ;3 ) p o st a g g i n g t h ee n g l i s ht e x t sa n di n c o r p o r a t i n gt h ef e a t u r e sd r i v e nf r o mt h ee n g l i s hp o sr e s u l t si n t o p o st a g g i n gm o d e lf o rc h i n e s e e x p e r i m e n t so nf o u rt r a i n i n gs e t s 、i 血d i f f e r e n ts i z e s s h o wt h a to u rm e t h o df u r t h e ri m p r o v e st h ea c c u r a c yo fp o st a g g i n gf o rc h i n e s e t h i s s u g g e s t st h ee f f e c t i v e n e s so fo u rp a r a l l e lc o r p o r a - b a s e da p p r o a c ho fu n s u p e r v i s e dp o s t a g g i n gf o rc h i n e s e k e yw o r d s :n a t u r a ll a n g u a g ep r o c e s s i n g ;p a r t o f - s p e e c ht a g g i n g ;p a r a l l e lc o r p o r a ; c o n d i t i o n a lr a n d o mf i e l d s ;u n s u p e r v i s e dl e a r n i n g w r i t t e nb ys u n j i n g s u p e r v i s e db yz h o ug u o d o n g l l 目录 第1 章绪论1 1 1 课题的背景与意义1 1 2 国内外研究现状2 1 3 本文的研究内容4 1 4 本文的组织结构4 第2 章相关知识介绍6 2 1 词性标注的主要方法6 2 1 1 基于规则的方法6 2 1 2 基于统计的方法7 2 1 3 规则和统计相结合的方法9 2 1 4 基于转换的方法1 0 2 2 条件随机场1 0 2 2 1 序列标记问题1 1 2 2 2 有向图模型1 1 2 2 3 无向图模型1 6 2 2 4 条件随机场模型1 8 2 3 本章小结2 3 第3 章基于单语料库的无监督中文词性标注2 4 3 1 语料库介绍2 4 3 2 词的分类2 5 3 2 1 词性2 5 3 2 2 词性标注集2 5 3 2 3 兼类词2 7 3 3 词性标注模型框架2 8 3 3 1 词性标注处理流程2 8 3 3 2 词性标注算法及工作机制2 9 3 4 模型实现3 0 3 4 1 基于两级索引的词典机制3 0 3 4 2 未登录词词性标注3 3 3 4 3 文本的预处理3 4 3 4 4 特征选择3 6 3 5 实验结果与分析3 7 3 5 1 实验设置3 7 3 5 2 实验结果3 8 3 6 本章小结4 2 第4 章基于平行语料库的无监督中文词性标注4 3 4 1 模型框架4 3 4 2 模型实现4 4 4 2 1 平行语料库的构建4 4 4 2 2 语料库的预处理4 5 4 2 3 词对齐4 5 4 2 4 英语语料库词性标注4 7 4 2 5 特征的选择4 8 4 3 实验结果4 8 4 3 1 实验设置4 8 4 - 3 2 实验结果4 9 4 4 本章小结5 2 第5 章总结与展望5 3 5 1 总结5 3 5 2 展望5 4 参考文献5 5 攻读硕士学位期间公开发表的论文5 9 致谢6 0 基于平行语料库的无监督中文词性标注研究 第l 章绪论 1 1 课题的背景与意义 第1 章绪论 词性标注是实现自然语言处理目标分析和理解语言的一个中间环节,其任务 是为给定句子中的每个词赋予正确的词法标记口1 ,即确定每个词的词性,包括名词、 动词、形容词等等。词性标注错误,会影响后续的句法分析和语义分析等任务的性能, 甚至导致自然语言理解的严重错误。因此,词性标注对句法和语义分析、机器翻译和 大规模文本的信息检索等都有重要的意义。 随着信息时代的到来,人们对自然语言处理的要求日益迫切,并且对处理精度的 要求也越来越高,这样对词性标注的研究就更具现实意义。自然语言是人类进行推理 和交流的桥梁。语言在人类智能活动中具有举足轻重的作用,是人类思维与智慧的载 体,伴随着计算机在各个领域逐渐取代人力完成各项工作,人们也盼望着计算机在自 然语言处理方面能接近或达到人类的智能水平。作为人工智能的一个重要分支,计算 机自然语言处理就是用计算机理解和处理自然语言。在人类对语言处理过程中,词性 标注也是一个不可避免的问题,对词性标注的研究成果也必将推动自然语言其他处理 领域的相关研究。 迄今为止,在词性标注中,对于语料库的训练主要有两种方式:( 1 ) 有监督方式: 利用已经标注过的语料库作为训练语料进行学习,从中统计出相关的参数,尽可能正 确的对训练集之外的数据进行标记,这种方式简便易操作,能够保证较高的正确率, 但也存在一些不足,如:统计训练后得到的概率参数和训练语料的相关性较大,很 难保证通过某一训练集上的统计训练得到的参数,在不同类型的语料上进行标注时都 能得到满意的结果;为了得到大规模的已标注语料,必须花大量的人力物力对语料 进行手工标注,这一点比较困难,代价大,效率低。( 2 ) 无监督方式:利用未标注的 语料来进行训练学习,以发现训练集中隐藏的结构性知识。与有监督方式不同,在采 用无监督方式进行模型训练时,不需要对语料预先进行手工词性标注。在现实生活中, 已标记的语料库数量和规模都是有限的,而未被标记的文本则占主要地位,容易获取。 平行语料库相较于单语料库有如下一些优势:( 1 ) 平行语料库提供比单一语料库 第l 章绪论 基于平行语料库的无监督中文词性标注研究 更多的信息,便于从语言对比中深入了解两门语言之间的共异性,而这种了解往往在 研究单语种语料库时容易被忽略;( 2 ) 通过一系列比较,平行语料库能够揭示语言的 共性以及某语种所特有的、语言类型的与文化上的差异;( 3 ) 平行语料库可以揭示原 文与译文、母语与非母语之间的差异。在一种语言中具有歧义的词语,可能在对应的 另种语言中没有歧义,通过两种语言的联合,可以更好地进行词性标注,因此,如 何利用平行语料库进行无监督的词性标注也是亟待解决的问题。 鉴于以上分析,本文首先探索了基于单语料的无监督词性标注,然后在此基础上, 通过半自动获取中文的英文译文及其词性标注信息,探索了基于平行语料的无监督词 性标注。 1 2 国内外研究现状 9 0 年代后,统计方法在自然语言处理技术中得到了迅速发展,并且被成功地应 用到了词性标注中。常见的统计方法有很多种,比如:隐马尔科夫模型( h i d d e nm a r k o v m o d e l ,h m m ) 、条件随机场( c o n d i t i o n a lr a n d o mf i e l d s ,c r f s ) 、支持向量机( s u p p o a v e c t o rm a c h i n e ,s v m ) 、最大熵( m a x i m u me n t r o p y , m e ) 模型、基于记忆的学习法等。 基于h m m 的词性标注研究主要涉及以下两方面:( 1 ) 在英语方面:1 9 9 4 年 s e h v t z e 和s i n g e r 提出了可变记忆马尔科夫模型1 2 ;1 9 9 9 年s c o t t 和m a r y 提出了 完全二阶隐马尔科夫模型【3 】;( 查) s a n g - z o o 和j u n i c h i 提出了基于词汇信息的隐马尔科 夫模型【4 ,5 】;b a n k om 和m o o r e r1 6 】提出了加大了上下文联系的隐马尔科夫词性标 注模型。( 2 ) 在中文方面:文献【7 】介绍了传统隐马尔科夫模型用于汉语词性标注的具 体分析与改进;文献f 8 】提出了层次隐马尔科夫模型用于汉语词性标注;文献t 9 】提 出了完全二阶隐马尔科夫模型用于汉语词性标注;文献【lo 】介绍了双重状态隐马尔科 夫模型用于汉语词性标注等等;文献1 介绍了在传统隐马尔科夫模型基础上进行双 向汉语词性标注的方法。虽然h m m 简单有效,但是m c c a l l u m 却指出了该模型的两 个缺点:( 1 ) h m m 不恰当地运用产生式复合模型来解决给出一个观察序列下的条件 概率;( 2 ) h m m 不能利用多样化的长距离信息和重叠特征【l 引。 m e 在自然语言处理领域的应用,主要涉及机器翻译、语言建模及文本分类等几 个方面。使用m e 模型时需要提供特征模板,模板中给出了需要使用的语言特征,该 2 基于平行语料库的无监督中文词性标注研究第l 章绪论 模型根据这些特征来选择使用的语言信息【1 3 】。在绝大多数的应用中,语言信息使用的 是词形及词性。x i a oj i n t 曲u i 等在词性标注中加入了词语在句子中的位置信息,把这 一信息也作为特征加入到算法中,构造了一个新颖的最大熵马尔可夫模型( m a x i m u m e n t r o p ym a r k o vm o d e l s ,m e m m ) 1 4 j ,词语在句子中的位置信息用词语在句子中所处 的部位来表示,如首部、中部、中前部、尾部等等,在算法中对这种信息有更加具体 的量化表示,加入新特征后,对9 8 版的人民同报语料进行了测试,精确率超过了9 5 。 还有其他一些研究方法如:( 1 ) n a k a g a w a i l 5 】等人提出了应用s v m 进行词性标注 的方法,s v m 一般只能解决二值分类问题,而一个词通常具有多个词性。因此,在 应用s v m 进行词性标注的时候,首先要把多分类问题转换为二值分类问题,然后, 将信任度最大的词性作为输出标注结果。( 2 ) 白栓虎【1 6 1 用二元文法统计模型进行了封 闭测试,获得了9 7 的正确率;周强【1 。7 j 采用统计与规则相结合的方法进行了开放测 试,取得了9 5 的正确率;高山【l8 1 等提出了一种基于三元模型的分词及词性标注方 法,有效的提高了分词和标注的正确率。( 3 ) 石晶等【1 9 】提出了基于组块及记忆的模型, 以统计的方法从单个词汇的角度考虑词性的自动标注,引入了更为丰富的上下文信 息,并通过方差调整词性分布,封闭测试准确率接近9 9 ,开放测试准确率达到了 9 5 以上。 由于c r f s 在序列标注中应用效果很好,所以被用到了词性标注中。c r f s 有着先 进的算法理论基础,它解决了h m m 的独立性问题和m e m m 的“标记偏置 问题。洪 铭材等【2 0 l 介绍了基于c r f s 的中文词性标注方法,该方法利用c r f s 模型能够添加任意 特征的优点,在使用词的上下文信息的同时,针对兼类词和未登录词添加了新的统计 特征,通过对人民日报1 月份语料库进行的封闭测试和开放测试,该方法的标注 准确率分别达到了9 8 5 6 和9 6 6 0 。姜维【2 l 】等介绍了基于c r f s 的词性标注模型,该 方法引入了长距离特征有效地标注复杂兼类词,并且应用后缀词与命名实体识别等方 法来提高未知词的标注精度,在c r f s 模型的框架下,进一步探讨了融合模型的方法 及性能,在词性标注开放实验结果中,该模型获得了9 6 1 0 的标注精度。阴晋岭【2 2 】 等介绍了结合c r f s 和基于转换学习的方法进行词性标注的方法,通过对基于统计的 词性标注方法和基于规则的词性标注方法特点的结合,提出了c r f s 与错误驱动相结 合进行词性标注的方法,并通过实验取得了实际的效果。 考虑到无监督方法相较于有监督方法的一些优势,因此有较大的发展前景。魏欧 第1 章绪论基于平行语料库的无监督中文词性标注研究 等【2 3 】介绍了一种基于无监督训练的中文词性标注方法,该方法借助了h m m ,并利用 未标注的语料进行训练获取概率参数,实现了一个无监督的训练标注模式 h m mb a s i c 。s h a r o ng o l d w a t e r 2 4 】等人提出了一种对无监督词性标注的完全贝叶斯 方法,与只估计一组单一参数不同,该方法整合了所有可能的参数值,用贝叶斯方法 进行词性标注可以取得比应用最大似然估计更好的性能。b e n j a m i ns n y d e r 2 5 】等人提出 了基于无监督的多语言学习的词性标注的方法,该方法用分等级的贝叶斯模型预测双 语言的词性标注序列,在英语、保加利亚语、塞尔维亚语和斯洛文尼亚语四种语言所 形成的六种平行语料上进行了实验,结果验证了多语言学习的有效性。 1 3 本文的研究内容 本文的研究主要基于以下三点的考虑:( 1 ) 通过对有监督和无监督方法优缺点的 分析,本文选择了无监督方式进行词性标注;( 2 ) 为了获取更多的信息以及加深对语 言的理解,本文用平行语料库替代了单语料库进行词性标注;( 3 ) 针对目前词性标注 研究主要集中在基于统计方法的应用上,提出了应用条件随机场来进行词性标注分 析。 本文的研究内容通过对上述三点的展开,主要集中在如下两个方面: ( 1 ) 基于单语料库的无监督中文词性标注:将c r f s 与无监督方法相结合,提出了 一个新的模型,并将其用于中文词性标注,在对模型进行构建和设计的基础上,通过 实验对其进行了验证。 ( 2 ) 基于平行语料库的无监督中文词性标注:考虑到单语料库对语言的了解不够 深入而且易产生歧义,本文在对单语料库进行无监督中文词性标的基础上,将无监督 中文词性标用在了平行语料库上,对相关模型进行了构建和设计,并通过实验对其进 行了验证。 1 4 本文的组织结构 第一章绪论 论述论文的课题背景和意义,国内外研究现状以及论文的主要内容。 第二章相关知识介绍 4 基于平行语料库的无监督中文词性标注研究第1 章绪论 该章介绍了汉语词性标注的主要方法,其中,以基于统计的词性标注方法占主要 地位。在基于统计方法建立的统计模型中,以h m m 、最大熵马尔科夫模型和c r f s 模型最具代表性,本章则着重描述了与本文研究相关的c r f s 模型,为研究的展开做 准备。 第三章基于单语料库的无监督中文词性标 该章首先对所用语料库、词性分类进行了介绍。然后介绍了基于c r f s 的无监督 中文词性标注方法,给出了完整的处理流程,阐述了标注算法和工作机制,并详细描 述了模型的设计思路。最后通过实验验证了所选特征的有效性。 第四章基于平行语料库的无监督中文词性标注 该章首先通过模型的框架介绍了模型的处理流程。然后通过平行语料库的构造、 g i z a + + 进行词对齐、英文文本进行词性标注对模型的设计思路进行了详细的描述。 最后通过实验验证了该模型的有效性。 第五章总结与展望 该章是对全文研究工作的总结,并对今后进一步的研究工作进行了探讨和展望。 第2 章相关知识介绍 基于平行语料库的无监督中文词性标注研究 第2 章相关知识介绍 2 1 词性标注的主要方法 词性标注作为自然语言处理的一个基本任务,一直以来都是自然语言处理研究的 重要内容。自从上世纪6 0 年代b r o w n 语料库建立以来,机器自动词性标注技术在过去 的四十多年里发展迅速。迄今为止已经出现了众多的计算机自动词性标注技术,这些 技术所依赖的理论方法大致可分为四类:第一类是基于规则的方法;第二类是基于统 计的方法;第三类是规则与统计相结合的方法;第四类是基于转换的方法。下面对这 几种方法进行详细描述。 2 1 1 基于规则的方法 基于规则的方法需要手工编制包含繁杂语法和或语义信息的词典和规则系统。 这种方法在规则编写过程中带有很大的主观性,很难做到规则的一致,而且规则的语 言覆盖面有限,编写和维护工作繁重,适应性较差,再加上处理歧义长句、生词、不 规范句子的能力较弱,因此词性标注正确率不高。7 0 年代初,采用基于规则的处理 方法。最具代表性的是美国布朗大学的g r e e n e 和r u b i n 于1 9 7 1 年建立的t a g g i t 系统【2 6 1 。它采用了8 6 个词类标记,用来标注b r o w n 语料库,其标注过程分为两部 分:( 1 ) 利用3 0 0 0 个词条左右的词典,对语料库进行静态标注( 可能含有歧义) ,还 对一些特殊词进行处理,并且使用4 5 0 个串的后缀对词进行分析;( 2 ) 歧义消除。整 个系统使用了3 3 0 0 条上下文框架规贝j j ( c o n t e x tf r a m er u l e s ) 。规则左部由首尾两个词类 唯一的词定界,中间是由一到三个兼类词组成的模式,右部是在左部模式限制下可能 产生的标记串集。t a g g i t 利用这种方法对百万词次的语料进行标注,正确率大约为 7 7 。 基于规则的词性标注模型的基本思想是:根据从真实语料中总结出来的规则构建 规则库,在进行词性标注的时,当遇到兼类词,就去规则库中查找,如果在规则库中 存在着以此兼类词为关键字的规则,就取出相应的规则,并根据上下文进行匹配。如 果匹配成功,而且没有产生规则冲突,则排歧成功,反之,规则方法失败。 6 基于平行语料库的无监督中文词性标注研究 第2 章相关知识介绍 基于规则的标注方法首先要获取能表达一定语言上下文关系( c o n t e x tr e l a t i o n ) 及 其相关语境的规则库。规则知识库是基于规则处理的基础,它的构造需要考虑两个基 本的问题:覆盖率和正确率。一般而言,对于一条规则,这两种性能往往呈现出反比 关系。由于自然语言本身的复杂性,所需要的规则数量往往非常庞大。人工总结这些 规则时,无论规则的数量有多大,规则的组成有多复杂,也难以满足实际的需要,主 要表现在: ( 1 ) 规则刻画的信息颗粒度太大,数量有限的规则难以覆盖复杂多变的语言现象; ( 2 ) 随着规则数量的增加,规则之间常常发生矛盾和冲突: ( 3 ) $ 1 j 定有效的规则系统非常困难。 2 1 2 基于统计的方法 基于统计的方法是目前应用最广泛的词性标注方法。它从宏观上考虑了词性之间 的依存关系,可以覆盖大部分的语言现象,整体上具有较高的正确率和稳定性。 基于统计的方法需要利用数学知识收集训练语料中的语言信息,再将这些信息应 用于测试语料以获取正确的词性标注。使用基于统计的方法首先需要准备大量的训练 语料,再利用统计理论( 如b a y e s 公式) 进行运算得出统计规律,然后依据统计规律 建立统计模型,机器根据统计模型进行词性标注。训练语料的规模越大,语言信息就 越接近实际情况。基于统计的方法与基于规则的方法的最大的区别在于:在规则的方 法中计算机依据的是人工制定的语言学规则,而在统计的方法中计算机是依据大量自 然语料的统计数据自行生成规则。 8 0 年代初期,l o b 语料库的研究人员利用统计方法设计了一个词性标注系统 ( c l a w s ) 2 7 】。在此系统中,采用了1 3 0 个标记的标记集,标注词典的7 0 0 0 多个词条是 从b r o w n 语料库中提取的,另外还建立了有7 0 0 多个词缀的词缀表。其主要工作原 理是:首先对部分语料进行手工标注,然后对标注的语料进行统计,得到标记与标记 同现的频率,产生一个标记同现的同现频率矩阵。机器进行词性标注时,先依据首词 与尾词都为单性词的原则,从处理对象文本中截取有限长度的词串( 即跨段) ,然后 在同现概率矩阵中查找跨段中各相邻词的词性同现概率,求出同现概率笛卡儿积,所 得概率积最大的即为该跨段的最佳词性组合,这些词性作为最终标注结果输出。实验 7 第2 章相关知识介绍 基于平行语料库的无监督中文词性标注研究 证明,采用c l a w s 算法能提高词性标注正确率,但是不难看出c l a w s 算法存在一些 缺陷:( 1 ) 这种多途径的算法使计算机运作复杂,工作量大,工作时间长,而结果却 只采用一种词性组合,在某种程度上来说,计算机大部分工作是无效的,这造成计算 机工作效率低下;( 2 ) 兼类词词性种类的增加和跨段长度的增加都会使计算机的工作 量呈指数倍增长,可能造成计算机超负荷运作。 针对这两点缺陷,s e t e v e nd e r o s e 对c l a w s 算法进行了改进,提出了v o l s u n g a 算法【2 7 1 。在该算法中,主要是在标记选择过程中利用了动态规划算法,并考虑了语料 库中词和词性之间存在的统计关系,在没有使用任何规则的情况下总的正确率也达到 9 6 以上,它的时间空间复杂度是线性的。这些统计方法的共同特点是利用词性与词 性之间的同现概率和马尔科夫语言模型来消除歧义。 综合上述两种具体的统计算法,可以看出基于统计的自动词性标注方法侧重于语 料的定量描写。这种方法的优点在于: ( 1 ) 提供了客观的的数据,受非语言因素影响小,可信度、真实度较高。 ( 2 ) 这是一种开放式的描述方法,符合自然语言动态变化的本质特征。 ( 3 ) 计算机不断记录和统计真实语言现象,可以不断生成新的规则,提高对新词 生词和特殊语言现象的处理能力。 ( 4 ) 这是一种随机总结规律的方法,适用性强,可以应用予各种语言和语言现象 的处理。 这类方法也存在着定的局限性: ( 1 ) 对于自然语言的理解不直观,无法对各种语言现象进行明确地、定性地归纳 总结。它所形成的规律只是基于数据的统计,因此是一种浮动的、似然的规律。 ( 2 ) 这种规律对语料的依赖性极强,规律稳定性较弱,不可避免地会带有片面性。 ( 3 ) 这种方法在进行词性判断时,只选择最佳概率的词性组合,排除其他选择; 但是最佳概率并不是唯一的选择,也不一定就是最合适的选择。这种最佳概率实际上 与当前处理的语料无任何关系,只是基于以往的经验判断,所以不可避免会出现错误 标注,制约了正确率进一步提高。 ( 4 ) 这种方法对各种自然语言现象不加区分地使用单复杂的概率算法,忽略了 这样的现实情况:一些简单语言现象只需要进行只字片语的规则说明就可以使机器迅 速地做出正确判断,但是用统计方法却需要十几步甚至几十步的计算。所以采用单一 8 基于甲行语料库的无监督中文词性标注研究 第2 章相关知识介绍 的统计手段可能会造成计算机资源和时间的浪费。 2 1 3 规则和统计相结合的方法 从前面两节的分析可以看出,基于规则和基于统计的方法各有优缺点,两者都不 能很好地满足实际应用的需要。因此人们开始考虑采用一种折中的方式,即把基于统 计和规则的方法结合起来,取长补短,在利用大规模语料库建立统计模型的同时,使 用一定的语言学规则。实验表明这种折中的方法的确提高了机器自动词性标注的正确 率和工作效率。现在很多专家、学者正对此进行大量的研究,并且形成了一些行之有 效的方法。 下面我们来详细介绍一类这种方法人工集成、建造兼类词的鉴别规则库方法, 它的核心思想是对用统计算法得到的同现概率矩阵、兼类词词典和非兼类词词典进行 再处理,并在处理过程中辅助以语言学规则。具体操作步骤如下所示: ( 1 ) 计算机自动生成兼类词词典。 ( 2 ) 对兼类词词典进行人工处理,整理成人工处理后的兼类词词典。这种人工处 理的结果是,词典中每个词都被注明所有可能的词性标记,并根据词性出现的概率从 大到小进行排序,同时每个词性后还附带经典例句。 ( 3 ) 利用统计方法生成的词性同现概率矩阵和标注实例的验证结果,对词类搭配 组合进行定性描述,生成句法规则。 ( 4 ) 根据语料中自然语法现象获取词汇结构规则,进一步扩充完善规则库内容。 ( 5 ) 计算机依据最新的规则库( 包括语言学规则和统计模型) ,进行词性标注。 这种统计与规则并举的词性标注方法,融合了两者的优点,用语料库来获取各类 知识( 包括句法规则、词汇搭配规则) 和统计数据,在计算机上同时建立起规则库和统 计模型。这种融合模型的优点是: ( 1 ) 比之“纯统计”的方法,该模型效率更高,这是因为对于那些简明的语言现 象,如果用统计的方法,其表达是隐含在统计数字里的,既不直观,又不方便,效率 更低。相反,如用规则方法,表达直观,保持机器较高的工作效率,节约资源。对于 语言学规则难以处理的现象,则借助统计模型来解决。 ( 2 ) 比之“纯规则”的方法,处理能力大大增强,鲁棒性提高,弥补了规则方法 9 第2 章相关知识介绍 基于平行语料库的无监督中文词性标注研究 中规则有限的缺陷。 2 1 4 基于转换的方法 基于转换的方法是由e r i cb i l l f 2 8 】提出的,用于标注英文的词性。该方法的核心是 利用训练语料自动获取转换规则,代替了人工制定繁杂的规则,并且使规则刻画的语 言信息更加真实细致。它的基本思想是:( 1 ) 从词性标注语料库中,统计每个词最可 能的词性标记;( 2 ) 用该标记标注每个句子,称为初始标注;( 3 ) 将这些句子与训练语 料中带有正确词性标注的句子进行比较,这个过程中可以通过自动学习获得一系列转 换规则。标注时,首先为待标注语料赋予初始词性,然后再将训练时获取的规则按次 序作用于待标注语料,通过这些规则的转换作用,词语的初始词性会转换为更加合适 的词性,逐步得到正确的词性标注。实验结果显示,此方法可以用较小的训练集达到 较高的准确度。 基于转换的错误驱动方法也可以看做是一种基于规则的方法,但是规则的制定是 从语料中自动学习得到的。因此这种方法获取的语言信息颗粒度较小,可以获得比人 工制定规则更好的标注效果;但是在较大的训练语料中,转换规则的学习过程却很漫 长。后来针对这一问题,周明等提出一种快速学习算法,使训练速度大大提耐2 9 】。 2 2 条件随机场 条件随机场( c r f s ) 是由j o h nl a f f e r t y 、a n d r e wm c c a l l u m 和f e m a n d op e r e i r a 于 2 0 0 1 年首次提出的一种基于统计的序列标记识别模型f 3 0 】,其思想主要来源于最大熵 模型。c r f s 是一个在给定输入节点的条件下计算输出节点的条件概率的无向图模型。 c r f s 没有h m m 那样严格的独立假设,因而可以容纳任意的上下文信息。同时,c r f s 可以计算全局最优输出节点的条件概率,克服了m e m m 的长度偏置和标签偏置的缺 点。c r f s 是在给定需要标记的观察序列的条件下,计算整个标记序列的联合概率分 布,而不是在给定当前状态条件下,定义下一个状态的状态分布,标记序列的分布条 件属性,这让c r f s 可以很好的拟合真实世界的数据。在这些数据中,标记序列的条 件概率依赖于观察序列中非独立的、相互作用的特征,并通过赋与这些特征不同的权 值来表示该特征的重要程度。目前,c r f s 在解决英语浅层分析、英文命名实体识别 l o 基于平行语料库的无监督中文词性标注研究第2 章相关知识介绍 3 1 , 3 2 , 3 3 1 、中文浅层语法分析等自然语言处理任务时,已经取得了良好的效果。 2 2 1 序列标记问题 序列标记( s e q u e n t i a ll a b e l i n g ) i n - 题是自然语言处理领域的一个非常常见的任务, 从浅层的分词、词性标注,到较深层的组块分析以至更为深层的完全句法分析、语义 角色标注等任务,都可以看作是典型的序列标记问题。序列标记是指为某一观测序列 x = x 1 ,x 2 , 二标出隐藏变量序列y = 巧,圪:虼k 的技术的总称。图2 1 是序列 标记任务的一般形式。 图2 1 序列标记问题 在自然语言处理领域中,x 可以对应为单词或单个字符,x 则可对应一个单词串 的序列。使用序列标记的自然语言任务有很多,例如:( 1 ) 汉语等亚洲语言的分词问 题也常转化为序列标记任务,x 对应为汉字的序列,】,则对应为汉字在词中的位置; ( 2 ) 组块识别任务,x 表示单词序列,】,包含四种标签一8 表示组块开始位置,j 表 示组块内部,0 表示组块外部,s 表示单独组块。使用这种序列标记的方法,就可以 把组块从单词序列中识别出来;( 3 ) 词性标注任务,x 对应为单词序列,】,对应为词性 标签。 使用统计方法解决序列标记任务是一种比较常见的方法。其一般过程为:( 1 ) 建 立统计模型p o q x ) ,即在己知x 条件下,标记为标签】,的概率;( 2 ) 应用该模型解决 序列标记任务,对于观测序列z 计算y = a r gm a xp ( r x ) 从而求得最优的标签序列 l 统计模型尸佣的建立有很多种方法,常见的有h m m ,m e m m 以及线性链c r f s 等。下面将对这几种统计模型分别进行介绍。 2 2 2 有向图模型 有向图模型是一个非循环有向图g = 形习,这里y 是g 中的一组节点,e 是这 第2 章相关知识介绍基于平行语料库的无监督中文词性标注研究 组节点矿间的有向边。y 中的每个节点k 对应一个随机变量。这种对应关系使得每 个有向图模型可以通过定义在v 上的随机变量的联合概率分布来表示。 图的有向属性意味着每个节点k 都有一组父节点屹,其中7 。是形父节点的索引。 在整个图中,所有节点所表示的随机变量的联合分布可以表示为一组局部函数的乘 积,这样,g 中每个节点对应于关于该节点及其父节点的分布函数z ( h ,k ) : p ( h ,v 29o 9 屹) = 1 - i z ( m ,) ( 2 1 ) j = l 为了得到z v ,k ) 的概率表示,需要定义g 中节点v 的一个拓扑结构,如此, 对于所有的k 有:在给定心的条件下,节点形条件独立于除1 , 父节点以外的并且在 k 之前的节点集。每一个z ( 哆,) 实际上就是在给定条件下,巧的条件概率: z ( _ 屹) = ( v 吃。) ( 2 2 ) 这使得联合分布可以表示为: p ( h ,吃,) = 兀( v k ) ( 2 3 ) i = 1 以下我们将分别介绍两个比较典型的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年滨州邹平怀远学校教师考前自测高频考点模拟试题带答案详解
- 【中考专题】2026年中考数学专项提优复习:方程与方程组【附答案】
- 2025汽车融资租赁合同范例
- 2025昆仑数智科技有限责任公司春季高校毕业生招聘15人模拟试卷及完整答案详解1套
- 2025湖南怀化国际陆港辰溪港区发展有限责任公司招聘工作人员拟聘用人员考前自测高频考点模拟试题及答案详解(考点梳理)
- 2025年河北廊坊市农林科学院公开选聘博士研究生1名考前自测高频考点模拟试题及参考答案详解1套
- 2025第二季度贵州安顺市平坝区美农科技有限公司招聘9人考前自测高频考点模拟试题及答案详解(必刷)
- 2025北京首都师范大学实验小学招聘2人模拟试卷附答案详解
- 2025杭州市钱塘区教育局所属事业单位高层次人才引进15人模拟试卷及参考答案详解一套
- 2025福建厦门市集美区实验小学顶岗教师招聘1人考前自测高频考点模拟试题及答案详解(易错题)
- 光伏土建培训课件
- 爱心义卖班会课课件
- 化验员职业技能培训考试题库及答案(含各题型)
- 2025年广东省中考历史试题卷(含答案详解)
- 大米直播促销活动方案
- 阴挺的中医护理
- 2025-2030中国便携式卫星通信终端行业前景动态与投资战略研究报告
- 过敏反应的防治与治疗讲课件
- 2025至2030年中国石油石化装备制造行业市场现状分析及投资前景研判报告
- 物流运输规章管理制度
- 中药熏洗法试题及答案
评论
0/150
提交评论