(计算机应用技术专业论文)面向句法分析的语块划分体系的研究.pdf_第1页
(计算机应用技术专业论文)面向句法分析的语块划分体系的研究.pdf_第2页
(计算机应用技术专业论文)面向句法分析的语块划分体系的研究.pdf_第3页
(计算机应用技术专业论文)面向句法分析的语块划分体系的研究.pdf_第4页
(计算机应用技术专业论文)面向句法分析的语块划分体系的研究.pdf_第5页
已阅读5页,还剩45页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

承诺书 本人郑重声髓:所呈交的学穰论文, 是在导师j 錾导下独立完成的,学位论文的 知识产权属于山西大学。如果今后以其他 单位名义发表与在读期间学位论文相关的 内容,将承担法律责任。除文中已经注聩 引用均文献资料外,本学位论文不包据任 何其他个人或集体已经发表或撰写过的成 果a 学位论文作者r 签章j :曼青争 2 0 0 岁孝岁月弓。日 摘要 句法分析是自然语言处理研究中的重点和难点。汉语句子的形式复 杂多样,缺乏一定的形态标记。每一个英语句子都有唯一的一个限定形式 的谓语中心成分,汉语句子则随意得多。简单的汉语句子可以只有一个 词或一个短语,复杂的汉语句子可以是一个很长的段落。汉语文章的句 子之间没有明确的界限。因此完全的句法分析需要耗费大量的人力物力, 并且不能取得令人满意的结果。 基于浅层句法分析的思想,本文引入了种介于线性词序列和完整 句法树表示之间的浅层句法知识描述体系:语块分析体系。语块分析的 思想是s c e v ea b n e y 在1 9 9 1 年首先提出的。这种句法分析的思想以语块 ( c h u n k ) 作为句法分析的基础,将句法分析划分为语块的识别和语块的连 接两个部分。不仅大大降低了进一步进行短语划分和短语分析处理的复 杂度,而且具有许多其它的优点,例如可以在一定程度上避免短语切分的 岐义等。 语块分析体系的另一个重要的特点是其具有广泛的应用领域。其语 块识别的理论和方法在信息抽取,命名实体识别,名词短语( n p ) 的识别 方面都有重要的应用。更为重要的是,依照语块分析的思想国内外的语言 研究工作者已经建立大规模的语料库或正在研究建立大规模语料库的方 法,为汉语的进一步研究提供了宝贵的资源。 语块分析体系中首先需要进行的一个重要的步骤是谓语中心词的识 别。在识别出了谓语中心词后,再在谓语中心词前划分主语和状语语块, 在其后划分宾语和补语语块。本文提出了一种新的谓语中心词识别的方 法,这种方法相对于以前的识别方法有几个显著的优点: 1 谓语中心词识别是在一个较高的句法层次上进行的,利用了以 前识别方法中所忽视的谓语中心词同语块之间的关系,更加符 合句法分析的原理,具有较高的识别正确率。 2 谓语中心词的识别是一种“互动”的过程。所谓互动是指谓语 中心词对于主语语块的出现具有一定的限制作用,同样主语语 块对于谓语中心词也具有反作用。这种限制作用与反作用在识 别谓语中心词的过程中对于主语语块也进行了一定程度的筛选 较以前的识别方法更加深入。 在识别了谓语中心词后,本文介绍了目前国内外的几种比较流行的 语块分析体系并介绍了语块分析体系的几种不同的应用领域,在以后的 工作中,我们要研究的重点是:如何根据特定的需要确定相应的语块体系 不仅能大大提高划分的效率,而且正确率也有保障,使语块识别的结果能 真正应用到实践中去。 关键字:语块;句法分析;谓语中心词;树库: a b s i 。r a c i s e n t e i l c e p a r s i n gi s t h ec d t i c a la n d d i 伍c u l t po i n t i n n 抛1 la i l g u a g e p r o c e s s i n g t h ec o m p l e xp a 仕e m so f c h i n e s es e n t e n c e sa 1 1 dl a c k i n go ft a g so f s e n t e n c e sf o n n s1 e a du st oad i l e 衄m e a c he n 蛳s hs e n t e n c eh a sa 吼i q u e p r e d i c a t eh e a di nad e f i n i t ef 0 衄w h i l ec h j l l e s es e n t e n c eh a sm o r ef l e x i b l e f 0 h n s as i i n p l ec k n e s em a yc o n l l 炳s eo fo n l yaw o r do rap h r a s e ,w h i l e 1 0 n g e rs e n t e l l c e 埘g h tb eb u i l du pw i 血ap a r a g r a p h ha d d i t i 衄t ot h i s , c h i n e s eh a sn o e x p l i c i tb o u l l d a r yb e 铆e e ns e n t e n c e s ,、巾i c h 衄止e 向1 1 p a r s i i l go fs e n t e n c e s m c he x h a u s 曲l ea 1 1 dr e s u l t l e s s a c c o r d i n gt o t h em o u g h to fs h a l l o wp a r s i n g ,t 1 1 i sp a p e ri m p o n sa s h a l i o wsy r i c a x d e s c r i p t i o ns y s 把mw h i c h b e “代e n l i n e a r w o r d l i s t a n d f u l l p a r s i n gt r e e s :c h u i 血p a r s i n g s t e v ea b n e yp i o n e e r e dt l l ec h u n kt h o u g h ti n 19 91 c h u i l kp a r s i n gd e 丘n e ss e l l t e n c ep a r s i n gi i lt w os t a g e s :c h l i r l l ( e ra i l d a n a c h e r t h ec h u m 【e rc o n v e n sas 订e a mo fw o r d si n t oas 仃e a mo fc h u n k s a n d t l l ea t t a c h e rc o n v e r t sm es 打e a mo fc h 皿k si n t oas 仃e 锄o fs e n t e n c e s c h u n k p a r i n gb e a r sm a n yv i r c u e ss u c ha s1 0 wc o m p l e x i t yi np h r a s ep a n i t i o n 砸di t c a i la v o i dt 1 1 ed i s a “1 b i g u 时i n p h r a s ep a n i t i o nt os o m ee x t e n d a n o t h e ri n l p o r t a i l tc h a r a c t e r i s t i co fc h u n kp a r s i n gi si tc a nb eu s e di n m a n yf i e l d s c h u l l k e rm e o 巧t a l ( e sac 州c a lr o l ei n 印p l i c a t i o ni 1 1i n f o 册a t i o n e x 仃a c t i o n ,n a m ee n t i t yr e c o g l l i t i o na 1 1 dn o u np h r a s er e c o 印i t o n i ti s m c h m o r ei n l p o r t a n tm a ts o m er e s e a r c h e r so fl a i l g u a g e p r o c e s s i i l gh a v eb u i l t 1 a 玛e s c a l e dc o r p u sb a n ko rd e v o f em e m s e l v e si l l t 0f i i l d i n g t 1 1 ew a y so f b u i l d i n gl a 玛ec o r p u sw b i c hc o u l dc o n 廿i b u t et o 胁h e rr e s e a r c h 皿1 ef i r s ts t e pi nc h m l l ( p a r s i n gi st or e c o g n i z em ep r e d i c a t eh e a do fm e s e n t e n c e a r e rm es t 印w ew o u l df i n do u t 憾c hi ss u b j e c tc h u n ka i l d a d v e r b i a lc h u n kb e f o r em ep r e d i c a t eh e a da i l dw 1 1 i c hi st h ed b j e c tc h u n ka n d c o i n p l e m e n tc h u n ka r e rt h ep r e d i c a t eh e a d w ep u tf o n a r dan e wm e t h o dt o r e c o g n i z et h ep r e d i c a t eh e a dw h i c hh a ss o m ep r o m i n e n t 访r m e sa sf o l l o w s : p r o c e s so fr e c o g n i z i l l gt h ep r e d i c a t eh e a di sc 枷e do ni nau p p e rs ) m t a x l a y e r ,t h em e t h o dw ea d 叩tm a k e su s eo fr e l a t i o n s h i pb e t w e e nt h ep r e d i c a t e h e a da n dc h u n k so fs e n t e n c ea n d ,o fc o u r s e ,i sm o r ea d h e r et ot h ep r i n c i p l eo f s e n t e n c ep a r s i n ga n dt 1 1 u sr e a c h e sam u c hm g h e rr e c o g n i t i o nr a t em a nb e f o r e r e c o g n i z i n gt h ep r e d i c a t eh e a di sa i l “i n t e r a c t p r o c e s s t h ew o r d “i n t e r - a c t h e r em e a n st h e r ei sar e l a t i o n s h i pb e t w e e nt h ep r e d i c a t eh e a da n d c h u l l l ( so ft h es e m e n c e ,t h er e l a t i o n s h i p1 i l n i tm ep r e d i c a t eh e a da 1 1 dc h u n k s i nm a n yw a y sd u et os y n t a x t h i s1 i m i t a t i o nn o to n l yh e l p s6 n dt h ep r e d i c a t e h e a d ,b u ta l s oh e l p st oc u to f fs o m eu n q u a l i f i e dc h u n k s ( m a i n l ys u b j e c t c h u n k s ) t h u st h em e m o dw ea d o p ct h i sp 印e ri sm u c hd e 印e ri ns y 眦a xw a y s a f t e ri n t r o d u c t i o no fo u rm e t h o do fr e c o g n i z i n gt h ep r e d i c a t eh e a d ,w e i n 仃o d u c es o h l ep r e v a l e n ts y s t e m so fc h u n kp a r s i n ga n dm a n ya p p l i c a t i o n 6 e l d so fc h u n kp a r s i n g w eh a v ep l a n e dw o r ki nt h e 矗n u r ea n dw ed e c i d et o p u te m p h a s i so nm et h i n g sa sf 0 1 1 0 w i n g :h o wt o s e tu pc h u n ks y s t e m a c c o r d i n gt os o m es p e c i a l 印p l i c a t i o n s ,t h u sw ec o u l dp r o m o t ee 踊c i e n c y 铲e a t l ya j l dc o r r e c tr a t ea n dw ec o u l dp u tw h a tw eg e ti n t ou s e k e y w o r d s :c h u l l l ( ;s y n t a ) ( p a r s i n g ;p r e d i c a t eh e a d ;t r e eb a l l k ; 山西人学1 0 0 5 届硕士研究主学位论文 第一章引言 汉语句法分析在自然语言处理中起着极其重要的作用。但是,当面对大量真实文 本的分析时,同时又由于汉语句子的复杂性和灵活性等特点,对汉语句子的完全分析 无论在空间上还是时间上都受到了极大的挑战。为了降低句法分析的难度,许多研 究人员开始尝试着把一个完整的句法分析问题分解为几个易于处理的子问题,以逐 步降低完整句法分析的难度,提高分析效率。这其中一个很成功的例子是将词性标 注( p a n - o f s p e e c h t a g g i l l g ) 从句法分析中分离出来。通过利用局部语境信息进行基 于规则或基于统计的词类排歧,目前的大部分词性标注工具对真实文本的标注正确 率都达到了9 6 以上,为在此基础上进一步进行句法分析打下了很好的基础。 以上属于浅层句法分析的思想: 1 1 知识背景一:浅层句法分析 1 1 1 、浅层句法分析( s h a l l o w p a r s i n g ) 简介 浅层句法分析,也叫部分句法分析( p a n i a lp a r s i n g ) 或语块分析( c h u n kp a r s i n g ) , 是近年来自然语言处理领域出现的一种新的语言处理策略。它是与完全句法分析相 对的,完全句法分析要求通过一系列分析过程,最终得到句子的完整的句法树。而 浅层句法分析则不要求得到完全的句法分析树,它只要求识别其中的某些结构相对 简单的成分,如非递归的名词短语、动词短语等。这些i = 别出来的结构通常被称作 语块( c h u l l k ) ,语块和短语这两个概念通常可以换用。 浅层句法分析的结果并不是一棵完整的句法树,但各个语块是完整句法讨的一 个子图( s u b 盯a 口h ) ,只要加上语块之恻的依附关系( a t t a c h m e n t ) ,就可以构成完整的 句法树。所以浅层句法分析将句法分析分解为两个子任务:( 1 ) 语块的识别和分析; ( 2 ) 语块之间的依附关系分析。浅层句法分析的主要任务是语块的识别和分析。这 样就使句法分析的任务在某种程度上得到简化,同时也利于句法分析技术在大规模 真实文本处理系统中迅速得到利用。 9 0 年代以来,国外在英语的浅层句法方面做了不少工作,国内也有一些学者采 用英语中的方法探索汉语的浅层句法分析。本文主要就在英语浅层句法分析中所应 用的一些技术进行简要的介绍,并简单介绍汉语的有关研究。其中有些方法虽然是 面向完全句法分析的,但由于其对完全句法分析的任务进行了分解,所以其技术也 可以归入浅层分析的范畴。概括起来,句法分析的方法基本上可以分成两类:基于 统计的方法和基于规则的方法。当然也可以采用规则和统计相结合的混合方法。下 面第二节介绍基于统计的方法,第三节介绍基于规则的方法,第四节介绍a b n e y 的组 块分析体系,最后是汉语的相关研究。 1 1 2 、基于统计的方法 随着语料库技术的发展,近l o 年来许多统计方法被用在短语识别和分析方面。 这些方法的理论主要来自概率统计和信息论。以下将介绍其中具有代表性的几种方 法:( 1 ) 基于隐马尔科夫模型的方法;( 2 ) 互信息方法:( 3 ) 旷统计方法;( 4 ) 基于 中心词依存概率的方法。 蠡珏丈学2 泓疆番士磷究生学稼沦文 1 1 2 1 基干隐马尔科夫模裂( h 删) 的方法 隐马尔葶耳夫攘羹( h i d d e 觳m a 矗e vm o l s ,h m m s ) 是扶语裔识弱中发震窭寨豹一 种统计技术( r a b i n e “1 9 8 9 ) ,它提供了一种基于训练数据提供的概率自动构造识别系 绕驰技术。一令隐霹尔辩夫模型包含两瑟:一个可鼹察屡翻一个隐藏层,这个隐藏 层鼹一个马尔科夫过程,即燕一个有限状态机,其中每个状态转移都带有转移概率。 在语音识别中,可观察层是声音片段的序列,隐藏层是用音索序列表示的词的发音 赘蠢陵妖态模型。躅口语录潦片段及箕转霉( 拄3 珏s e 蠢p t i o 终必溺练数据湄练l 澎,宅 就可以用作识别器,用于识别未训练过的声蒲片段,从而生成口语的转写形式。 谤莫谮言学家鼗旱把 l 燃技末应蹋于荚谗瓣弱瞧标注著墩褥了投大豹成功,援蒎 靠简单的统计方法就可以达到9 i 左右的正确率。在词性标注中,可观察层是词的序 列,隐藏层是词类标记的序列,训练数据是标注好词性的文本语料,经过训练的h 姗 就戚为裔韵标注器,它可以给只龟含溺痔囊静文本中静每个溺标注上词类标记。 c h u r c h ( 1 9 8 8 ) 避一步把 心用于识别英语中简单的非递归的名词短语,蚀把短语 边器识翻纯为令在滔类标记对之阚矮灭豫滟左边癸( ” ”) 鞫择夔右迭奏( 4 】9 ) 懿楚 题。如果不考虑空短语( 即”( ) 和短语的嵌套( 如” ”,” ”,” ”等) ,那么在一 对词类标记之间只誊四釉博况:( 1 ) ;( 2 ) :( 3 ) ;( 4 ) 空( 即无n p 边界) 。 迸一步可以把最君一种分为两种情况:( a ) 茏n p 边界讴在n p 之内( i ) ;( b ) 无n p 边界 但猩n p 之外( o ) 。这样任意一对词类标记之间就只存在5 种可能的状态:( 1 ) : ( 2 ) 】;( 3 ) 】 ;融) ;( i ) 0 。c h u r c h 的方法是:黄先,在蠡注逶性麴罨糕中人 工或半自动标注n p 边界,以此作为训练数据,然后统计出任意一对词类标记之间出 现以上5 种状态的概枣。统计得到的概率就成为短语边界标注的根据。这实际上把短 语途赛筑谈嗣交盛了一个与溺经梅注类毫冀豹滴题。熟: 输入:$t h ep r o s e c u t o rs a i di nc l o s i n gt h a t 彝ln n¥sl 、鞋慕e s 列) 输出: 对) 】 o 【】 ( 词序列) ( 满整痔 ( 谪性标记 p ( x ) p ( y ) ,即m i ( x ,y ) o ;如果x 和y 是随机分稚的,则p ( x ,y ) 。p ( x ) x p ( y ) ,即m i ( x ,y ) 。o ;如栗x 和y 燕簋补分布酌,刚p ( x ,y ) p ( x ) p ( y ) ,却鞴i ( x ,y ) o 。甄信息 值趟高,x 和y 组成短语的可能性越大,互信息值越低,x 和y 之间存在短语边界 懿霹憝瞧越大。 山西大学2 0 0 5 届硕士研究生学位论文 为了确定句子中短语的边界,不能局限于b i g r a i l l ( 两个符号的组合) 内部的互 信息,需要看更多的上下文,即把二元互信息扩展为n g r 锄( n 个符号的组合) 内 部的互信息。m a g e r m n m a r c u s ( 1 9 9 0 ) 提出了广义互信息( g e n e r a l i z e d 舢t u a l i n f o r m a t i o n ) 的概念,它根据两个相邻的词类标记的上下文( 在一个观察窗口内) 来决定它们之间是否是一个短语边界所在。在下面的公式中,m i 表示二元互信息, m i n 是一个向量,它表示n g r a m ( x 。x 。) 中任意两个部分之间的互信息,m i 。表示这 个向量中的第k 个分量( 1 k n ) ,它表示x l x k 和x k + 1 - x n 之间的二元互信息。 一个n g r a i n ( x x 。) 内部有n 一1 个二分切分点每一个切分点的二元互信息为: m i 。“( j ,而) :矗玎( 凰m + ,而) ( 2 ) 。 烈五 x j 刮0 8 瓦忑赢蓑面p l x i 溉) p 【j “+ 1 x ) ( 3 ) 在公式( 3 ) 中,对于每个m i n k ( k = 1 ,2 ,n 1 ) ,分子都相同,当分母最大 时,互信息值最小。 基于互信息的短语边界划分的理论基础是:在n g r 锄中,局部广义互信息值最 小的一对标记之间就是短语边界所在的位置。理论推导参见m 鲫e r 眦n m a r c u s ( 1 9 9 0 ) 。 在n g r a m ( x 1 x i ,y 1 y j ) ( 1 i n ,l j n ,i + j :n ) 内部,以两个相邻的词类 标记x i 和y 1 之间为界,共有i j 个二元组合( b i g r a m ) ,要计算其问的互信息,应 当综合考虑每一个b i g r a m 之间的二元互信息,因此产生了广义互信息的概念。广义 互信息的计算公式是: g m 】lx lh i y i y i ) 这里,g m i n ( i + j ) ( x 1 x i ,y l y j ) 表示在一个n g r a m 中两个相邻的元素x i 和y l 之 间的广义互信息,x 表示n g r a m 中以x i 结束的词类标记串,y 表示n g r a m 中以y l 开始的词类标记串。o x y 是x y 中m 。( x y i = i + j ,o k i + j ) 的标准差。 1 1 2 3m 2 统计方法 g a l e c h u r c h ( 1 9 9 1 ) 用m 2 统计方法来度量两个词之间的关联度。c h e n l e e ( 1 9 9 5 ) 用这种方法来确定短语的边晃。 对于两个词w 和w :,可以建立如下的联立表( c o n t i n g e n c yt a b l e ) : 在上表中,a 表示串w :w :出现的次数,b 表示不在w 。w :中的w 。的出现次数,c 表示不在w 。w 。中的w :的出现次数,d 表示既不是w 。又不是w :的词的次数。a + b 是w t “ 似榭 古艨措 虹 = y 山西大学2 i ) 0 5 届硕士研究生学位论文 的出现次数,a + c 是w 二的出现次数,c + d 是非w 。的总词次,b 。d 是非w ! 的总词次 n = a 岫+ c + d 表示语料库中的总词次。根据上面的联立表,十:统计量定义如下: 而! : 坠垡二! 型 驴5 西丽商雨两丽 当a = o 时,妒近于o ,即当w 。和w :从不共现时,扩取极小值。当b = c :o 时,m 2 = l , 即当w ,和w ! 总是共现时,4 j 取极大值。值越大,说明w 和w :共现的机会越多, 相反,m ! 值越小,则说明w 和w i 共现的机会越少。 如果把上面的两个词换成两个词类标记,则可以进行标记对之间的妒统计。进 一步推广则可以在一个词类序列的两个子序列之间进行十:统计。 1 1 2 4 基于中心词依存概率的方法 c o l l i n s ( 1 9 9 6 ) 提出了一种基于分析树中中心词之间依存概率的统计分析算法, 该方法的要点是:把分析树归结为一个非递归的基本名词短语( b a s en o u np h r a s e , 简称b a s en p ) 集合及依存关系的集合。在这些依存关系中,b a s en p 中除了中心词 其他词都被忽略,所以依存关系就是b a s en p 的中心词和其他词之间的依存关系, 依存概率可以通过树库中的统计得到。分析算法是一个自底向上的线图分析器,利 用动态规划来查找训练数据中所有的依存关系空间。 例如,由( a ) 中句子的分析树( b ) 可以得到b a s en p 的集合b 及中心词之间的 依存关系集合d ( c ) 。 ( a ) 丁o h n n n ps m i t h n p ,t h e j d tp r e s i d e n t n no f i ni b m 、n p ,a n n o u 兀c e d v b d h i s p r p $ r e s i g n a t i o n n ny e s t e r d a y n ( b )( s( n p( n pj o h n n n p s m it h n n p ) ,( n p( pt h e d t d r e sid e n t n n ) ( p p o f i ni b m 洲p ) ) ,) ( v pa n n o u n c e d v b d ( n ph is p r p $ r e s i g n a t i o n n n )y e s t e r d a y n ) ( c )n ps v pv b dv pn p n r 可- 酉可百丽下雨硐可可r 而 。,。! 矗l :i 蕊。,; , i 5 二。i 。i 。i 。, y e s t e r d a y b = j 。h ns m i t h :, t h ep r e s i d e n t , i b m , h i sr e s i g n a t i o n , y e s t e r d a y n ps v p n pn pn pn p n pp p i np pn p d - 嘶氐孤删,s m 。曝叭。羼,厢, v b dv p n p 厂 a n n o u n c e dr e s i g n a t i o n v b dv pn p 。j 忑,。, 审、 a n n o u n c ev e s e r o a y, 4 山西大学2 0 0 5 届硕士研究生学位论文 基于以上模型的分析器的分析过程可以描述如下:对于一个输入句,首先分析 出其中的b a s en p ,然后根据训练数据中得到的依存概率计算各个依存关系集合的可 能性,可能性最大的依存关系集合就成为句子成分结构的最佳估计。由于依存关系 表示为一个三元组,因此依存关系集合和b a s e n p 集合就可以映射为句子的短语结 构树。 c o l l i n s 的算法是以大规模树库为基础的,而且以完全句法分析为目标。但这种 方法以基本名词短语识别为前提,而且其利用具体词之间依存概率的思想和把短语 归结为其中心词的思想对于部分句法分析也是很有借鉴意义的。 1 1 3 、基于规贝0 的方法 规则方法就是根据人工书写的或( 半) 自动获取的语法规则标注出短语的边界 和短语的类型。根据标注策略的不同可以把规则方法分为两种:( 1 ) 增加句法标记 法( i n c r e m e n t a l c o n s t r u c t i v ea p p r o a c h ) ,即在词串中插入短语边界和短语类型 等句法标记。( 2 ) 删除句法标记法( r e d u c t i o n is ta p p r o a c h ) ,即从多个候选的句法 标记中删除不合法的标记。 1 1 3 1 增加句法标记法 增加句法标记的句法分析包括一个状态转换器( t r a n s d u c e r s ) 序列,转换器由正 则式( r e g u l a re x p r e s s i o n ) 构成,即语法规则是有限状态语法的形式。大部分的规 则系统都采用这种方法,如a b n e y 的语块分析系统c a s s ( a b n e y ,1 9 9 l ,1 9 9 6 b ) 。 1 1 3 2 删除句法标记法 这种方法的思想来自词性标注。在词性标注中,首先从词典中查出每个词可能 具有的所有词性,然后根据上下文来消歧,从中选择一个正确的词性。这种思想用 到句法标注上就是首先标注出每个词可能的句法功能,然后根据上下文来消歧,从 中选择出一个正确的句法功能标记。也就是说,句法分析包括两个主要步骤: ( 1 ) 给出输入词可能的句法功能标记( 与上下文无关,可能有多个候选) : ( 2 ) 删去在上下文中不可接受的句法标记,或从几个候选中选出一个最合理的 句法标记( 即同时排除其他标记) 。 这样,句法分析实际上成了一个删除在上下文中不合法的句法标记过程。 1 1 3 3 语法规则的自动学习 在基于规则的方法中,主要的困难在于语法规则的获取以及语法规则之间的优 先顺序排列。e r i cb r i l l ( 1 9 9 5 ) 提出了一种基于转换的错误驱动的学习方法,这种 方法首先被用于词性标注,得到的结果可以和统计方法相媲美。r a m s h a w m a r c u s ( 1 9 9 5 ) 把这种自学习方法用于识别英语中的基本名词短语( b a s en p ) 。这种方 法通过学习得到一组有序的识别基本名词短语的规则。另一种语法规则自动获取的 方法是采用机器学习中基于实例的方法( i n s t a n c e b a s e dl e a r n i n g ) 或基于记忆的 方法( m e m o r y b a s e dl e a r n i n g ) ,立c a r d i e p i e r c e ( 1 9 9 8 ) 币口a r g a m o ne ta 1 ( 1 9 9 8 ) 。 下面首先介绍基于转换的学习方法,然后介绍基于实例的方法。 1 1 3 4 基于转换的规则学习方法 基于转换的学习方法以下列三部分资源为基础:( 1 ) 带标注的训练语料库。对 于b a s en p 识别任务来说,训练语料要标注出其中所有正确的b a s en p ( 在此之前当 生堕查兰! ! 鉴垦堡! :堕壅兰兰箜堕, 然要先标注词性) 。( 2 ) 规则模扳集合。规则模板集合用于确定可能的转换规则空间。 ( 3 ) 一个初始标注程序。 基于转换的错误驰动的学习算法是: ( 1 ) 初始标注。把训练语料中所有的b a s en p 标记去掉,用一个简单的初始标 注程序标注出训练集中可能的b a s e p 。把这个结果作为系统的底线( b a s e l i n e ) 。 ( 2 ) 生成候选规则集。在每个初始标注错误的地方,规则模板便用来生成候选 觇则,规则的条件就是词的上下文环境,动作就是改正错误标记所要做的动作。 ( 3 ) 获耿规则。把候选规则集中的每条规则分别运用于初始标注的结果,选出 得分最高的规则( 得分为正确的修改数减去错误的修改数得到的结果) 。把这条规则 运用于初始标注的结果作为下一轮循环的基础,并把这条规则作为规则序列中的第 一条规则输出。重复以下过程直到得分最高的规则的得分为o 或低于某个闽值为止: 获取候选规则集,给其中每条规则打分,选择得分最高的规则输出到规则集中,并 把这条规则作用于当前语料库。 通过以上的自动学习过程就可以得到一个有序的觇则集口b a s e p 识别的过程是: 首先运用初始标注程序标注出输入句中可能的b a s e p ,然后顺序运用规则集中的觇 则对初始标注的结果进行转换操作。 11 3 5 基于实例的规则学习方法 前面所介绍的基于转换的学习方法在学习过程之后得到的是识别短语的规则, 这样的规则描述在什么条件下一个序列是一个基本名词短语,在什么条件下不是一 个基本名词短语。而基于实例的学习方法是通过学习得到一组短语的组成模式,分 析的时候利用这样的模式去和文本中的词类序列进行匹配。 c a r d i e p i e r c e ( 1 9 9 8 ) 把标注好短语信息的语料库分为两个部分,一部分用于 训练,另一部分用于剪枝。首先从训练的语科中得到一组名词短语的组成模式规则, 然后把得到的这些规则应用到剪技的语料中,对这些规则进行打分。比如,如果一 个规则识别出一个正确的短语得1 分,识别出一个错误的短语得一1 分,这样根据每 条规则的总的得分情况对觇则进行删减,去掉那些得分低的规则。最后得到的一组 规则能保证得到较高的正确率。应用这些规则来识别文本中的名词短语的方法很简 单,就是简单的模式匹配方法,在遇到规则冲突时,采用最长匹配原则。 a r g a m o ne ta 1 ( 1 9 9 8 ) 并不是通过学习过程显性地得到一组短语的组成模式( 词 类序列及其上下文环境) ,这些模式隐含在标注好短语的实例中。在训练阶段,把标 注好词性和短语边界的语料用一种可以快捷检索的数据结构存储起来,在识别阶段, 拿文本中的词类序列和训练语料中的实例进行匹配:把句子中的每个子串作为候选, 对于每个候选,通过查找实例库计算它的概率分数,对分数高于某个闻值的候选予 以保留。这一技术的关键在于候选子串和实例的匹配,因为子串可能是若干词的序 列,而且还要考虑上下文,如果拿整个子串去和实例匹配的话就有严重的数据稀疏 问题,这是基于事例的方法中普遍存在的一个问题。他们提出的一种覆盖( c o v e r ) 技 术较好地解决了这一问题。覆盖技术的基本思想是对待分析的串( 包括上下文) 进 行分解,把它分解成若干更小的子串,利用这些子串去匹配。最后找到一个覆盖原 串的子串集合,这些子串的总的概率分数最高。这种基于实例的方法把语法规则隐 含在标注好的实例之中,跟前两种学习方法相比,它并没有套显性的用于识别的 山两大学二0 0 j 届硕l 研宄生学位论上 语法规则,所以这种方法似乎更像基于统计的方法。 依据浅层句法分析的研究思路,s t e v ea b n e y 提出了块分析( c h u n kp a r s i n g ) 的策略: 1 1 4 、a b e y 的组块分析体系 1 1 4 1 简介 s t e v ea b n e y 在他的著作p a r s i n gb yt r u n k s ( 1 9 9 1 ) 中率先提出了组块分析 ( t r u n kp a r s i n g ) 的援念。他认为他所定义的块( t r u n k ) 在某些方面是与人们读 英语句子时所采用的音律模式( p r o s o d i cp a t t e r n s ) 所对应的。他认为在读一个句 子( s e n t e n c e ) 的时候,每一次读取的都是一个语块( t r u n k ) ,举个简单的例子来 说: 例1 : ib e g i n w i t ha ni n t u i t i o n i t at r u n k : a tat i m e “ ,中就是a b n e v 所认为的语块( t r u n k ) 。基于这种观点,句子中的重音会分 布于句子的语块( t r u n k ) 中,而语音中的停顿则会出现在语块( t r u n k ) 之恻。涪 块( t r u n k ) 不仅与音律摸式( p r o s o d j cp a t t e r n s ) 有关系,而且对于句子还具有 语法上的切分作用。“个典型的语块包含有一个实义词( c o n t e n tw o r d ) ,这个头 义词被一些功能词( f u n c t i o nw o r d s ) 所定义和修饰,形成与相应模扳匹配的语块。” 上面的那句话可以看作块( t n l n k ) 的形式定义。一个简单的上下文无关文法就足够 描述块的结构。楣t e 较而言语块( c h u n k ) 之问的关系受其中所包含词汇的影响要 远大于固定的块模扳对其产生的影响虽然每个块都对应与某个响应的模扳。句中 块的共现( c 。一。c c u r r e n c e ) 关系不汉取决于块所属的语法范畴,而且还取决语块中 的中心词( t h ew o r d sh e a dt h 鲫) 。块( c h u n k s ) 在句中的出现的顺序要比块中词 的排列顺序更加灵活,也就是说,语法对于块的影响主要体现在块内词语出现的顺 序上。 1 1 ,4 2 相关研究 g e e 和g r 。s j e a n 在1 9 8 3 年验证了他们称之为“语言应用结构”( p e r f o r m a n c e s t r u c t u r e s ) 的语法成分。这些结构实际上是从不同的试验数据数据中提取的词汇 串,相关的试验数据包含了阅读中停顿的持续时间以及些原始的句子语法图cg e e 和g r o s j e a n 论证了他们定义的“语言应用结构”( p e r f o r m n c es tr u c t u r e s ) 。j 以 被一砷脚p 所预测出来。一p m ”的是把输入句中以实义词( c o n t e n tw o r d ) 作 为“语法头( s y n t a c t i ch e a d ) 的字串后切分产生的。例旬l 中的语块( c h u n k ) 就是一面阳5 p 。 但是为了达到利用一p 瑚p 分析句子的目的,g e e 和g r o s j e a n 不得不做些句 法上的假设。举例来说,他们假设名词前的形容词不能成为“句法头”,否则的话, 短语“ab i gd o g ”就不会只构成一个块,而是两个,因为短语中出现了两个实义词 b i g 和“d o g ”,会产生两个一p ,- 船8 。此外,g e e 和g r 。s j e a n 对于块( t r u n k ) 内的语法结构也没有进行分析。 1 1 4 3a b n e y 的组块分析体系 为了弥补这些缺陷, b n e y 认为块( c h u n k ) 内部也存在语法结构,块( c h u n k ) 内部的语法机构是整个句子语法分析树的一个子图,所有块( c h u n k ) 所形成的子图 山西大学2 0 0 5 届硕j ! 研究生学位论史 按照一定的层次结构关系构成这个句子的语法分析树。a b n e y 用“主头部”( m a j o r h e a d s ) 来描述块( c h u n k ) 的构成。“主头部”主要是实义词,但不包含受功能词f 影响的实义词。这种影响主要体现在实义词出现在功能词f 以及f 所限定的词之问。 举例说明,“p r o u d ”在短语“am a np r o u do fh iss o n 中是一个“主头部”( 眦j o r h e a d ) 但是在短语“t h ep r o u d 眦n ”中就不是“主头部”( m a j o rh e a d ) ,因为“p r o u d ” 出现在功能词“t h e ”和功能词“t h e ”所限定的实义词“m a n ”之间。 依据以上的研究思路,a b n e y 在1 9 9 1 年提出的组块分析( c h u n kp a r s i n g ) 策略, 他将句法分析问题分为三个阶段: 1 ) 块识别:利用基于有限状态分析机制的块识别器( c h u n k e r ) 识别出句子中所 有的块。 2 ) 块内结构分析:对每个块内部的成分赋予合适的句法结构。 3 ) 块间关系分析:利用块连接器( a t t a c k e r ) 将各个不同的块组合成完整的句 法结构树。 这样,一方面由于对不同的子问题的准确功能定位,可以独立地选用不同的语 言模型和搜索策略加以分析处理:另一方面,通过在块层次上进行自底向上的块间 关系分析和自顶向下的块内结构分析,可以大大提高整体分析效率,达到降低句子 分析难度的目的。 块分析策略的精髓在于寻找到合适的切入点,将完整的句法分析问题分解为句 法拓朴结构分析和句法关系分析两个子问题。s t e v e na b n e y 在研究英语分析过程中 发现了这样一个现象:本来可以很自然地期望短语结构( p h r a s es t r u c t u r e ) 在音律 结构( p r o s o d i cs t r u c t u r e ) 边界预测中发挥重要作用,但事实上,传统的短语结构 描述与音律结构以及一些心理语言学家提出的语言应用结构( p e r f o r m a n c e s t r u c t u r e ) 之间存在着许多不一致现象。为解决这个问题,他提出可以将标准的短 语结构描述分解成两大部分:l ) 一组直接成分块,即c h u n k ,2 ) 成分块之间的句法 依存( d e p e n d e n c e ) 关系,从而在直接成分块和音律结构的中一短语之间

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论