(计算机系统结构专业论文)基于生成性概率模型的句法分析和多文档自动文摘研究.pdf_第1页
(计算机系统结构专业论文)基于生成性概率模型的句法分析和多文档自动文摘研究.pdf_第2页
(计算机系统结构专业论文)基于生成性概率模型的句法分析和多文档自动文摘研究.pdf_第3页
(计算机系统结构专业论文)基于生成性概率模型的句法分析和多文档自动文摘研究.pdf_第4页
(计算机系统结构专业论文)基于生成性概率模型的句法分析和多文档自动文摘研究.pdf_第5页
已阅读5页,还剩125页未读 继续免费阅读

(计算机系统结构专业论文)基于生成性概率模型的句法分析和多文档自动文摘研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

山东大学博士学位论文 摘要 由于万维网上文本信息的快速增长,自然语言处理作为使计算机得以应 用文本形式信息的关键,已成为目前的一个研究热点。本文的工作主要讨论 自然语言处理理论研究中的句法分析和应用研究中的多文档自动文摘这两个 方面的内容。其中,句法分析是自然语言处理中的关键技术,多文档自动文 摘、机器翻译和信息检索等许多自然语言处理的应用研究需要依赖句法分析 的结果作为支持;对句法分析的研究也有助于补充对人类语言的认知,因此 句法分析的研究具有重要的理论意义和实用价值。多文档自动文摘可以给用 户提供简明扼要的概述,帮助用户快速处理文本信息,随着网络上文档数量 的飞速增长,多文档自动文摘越来越受到人们的重视。 句法分析的关键问题是对单句对应的多个句法结构进行优选的问题,而 自动文摘中的关键问题则是对文档中的多个句子进行优选的问题。本文针对 句法结构和句子的优选问题,在国家自然基金和山东省自然基金的资助下, 使用生成性的概率模型,分别为句法结构和句子建模,进行句法分析和多文 档自动文摘问题的研究。主要包括句法分析中的语法体系、分析算法和分析 模型三个方面的研究和多文档自动文摘中旬子表示形式和排序方法的研究, 并通过实验对研究结果进行了验证和分析。 在句法分析的研究中,提出了一种新的语法体系,研究了该语法体系的 分析算法和剪枝规则,并在概率分析模型中融合了新的结构信息。在自动文 摘的研究中,提出了一种基于概率主题模型的句子建模方法来挖掘文档集潜 在的主题结构,在该主题模型的基础上,进一步研究了句子权重的计算方法 和文摘的冗余消除方法。 本文的主要研究内容和创新点包括以下四个方面: 1 提出了一种以词汇组合关系描述语法的二元组合语法体系 由于依存语法可以方便地表达中心词与修饰词之间的依赖关系,比短语 结构语法更适于信息检索领域的应用,是当前自然语言处理中语法体系的一 个研究热点。但依存语法缺乏内部结构表示,不能显式地表达复杂的句法结 构,对语法结构的识别造成一定的障碍。针对语法体系中缺乏短语搭配强度 和依存语法研究中缺乏内部结构表示形式造成的复杂结构难以表达的问题, 山东大学博士学位论文 提出了一种通过相邻短语中心词的两两组合来表达句法结构的二元组合语 法。在组合关系中引入局部优先级来描述结构之间相对的搭配强度,限制组 合次序。二元组合语法中引入的内部节点有利于句法结构的表达和识别,局 部优先级表示的短语搭配强度可以限制句法分析中非法结构的生成。 2 提出了一种基于局部优先级的句法分析算法 句法分析算法是句法分析的重要组成部分,它直接影响句法分析的准确 性和效率。针对本文提出的二元组合语法,结合语法中定义的局部优先级的 限制,提出了一种基于局部优先级的句法分析算法。局部优先级的限制信息 融入n - 元组合语法的分析算法中后,可以作为分析过程中剪枝的规则。本 文对传统的c y k ( c o c k e ,y o u n g e r , k a s a m i ) 图算法进行改进,提出了一种基 于局部优先级的二元组合语法分析图算法,并在人工归纳的语法体系上进行 了句法分析实验。结果表明,改进后的c y k 图算法在产生树结构的数量和 花费的时间上都明显低于传统的c y k 算法。 3 提出了一种基于嵌套层次限制的句法分析模型 在概率模型的构建中,如何应用句法结构信息是句法分析建模中需考虑 的主要问题。目前考察的信息主要有词汇支配度的信息、依存长度的信息等。 修饰词的嵌套层数越多语言越难理解,本文将这种修饰词嵌套层次的信息引 入到生成性的概率分析模型中,增强对句法结构的识别能力。在建立了基于 局部优先的c y k 图算法的基础上,提出了一种融合嵌套层次限制的二元组 合语法分析模型。句法分析实验中,将依存格式的树库转换为二元组合语法 的形式来构建二元组合语法树库,然后基于该树库自动获取句法关系和优先 级信息,并估计嵌套层次模型的参数。在二元组合语法树库上进行汉语句法 分析的实验,结果表明,与词汇支配度模型相比,利用嵌套层次限制构造的 汉语句法分析模型可以获得更高的分析正确率。实验中也考察了局部优先级 限制对分析正确率的影响,结果表明局部优先级和嵌套层次的限制可以有效 的避免非法结构的生成。 4 提出了一种基于生成性概率主题模型的多文档自动文摘方法 使用潜狄利克雷分配( l a t e n td i r i c h l e ta l l o c a t i o n ,l d a ) 模型为句子建模, 以捕捉深层次的主题信息。基于模型中主题在词汇上的概率分布p ( w l z ) 和句 子在主题上的概率分布p ( z l s ) ,提出了概率生成模型和句子生成模型两种句子 t i 山东大学博士学位论文 权重的计算方法,文摘中选择权重较大、且与前面选择的句子主题不重复的 句子作为文摘句。实验在d u c 2 0 0 2 会议中提供的通用型多文档文摘测试集 上进行,以r o u g e 自动评测工具作为评测标准。结果表明,与基于词频的 文摘模型和其它基于l d a 模型的文摘模型相比,本文提出的模型可以获得 更好的文摘效果,其中概率生成模型在所有评价标准上均优于其他模型。 本文迸一步的工作包括:将组合关系的标签作为上下文纳入到分析算法 中,以便于更精确的描述分析算法;在句法分析模型中添加其他有用的结构 信息和主题信息的约束,提高句法分析的正确率;在多文档自动文摘方面使 用句法主题模型为句子建模,以便同时考虑句法和主题信息,改善文摘效果。 关键词:局部优先级;嵌套层次;主题模型;句法分析;多文档自动文摘 i i i 山东大学博士学位论文 a b s t r a c t a st h er a p i dg r o w t ho ft e x ti n f o r m a t i o no nt h ew o r l dw i d ew e b ,n a t u r a l l a n g u a g ep r o c e s s i n gh a sb e c o m ear e s e a r c hh o t s p o ts i n c ei ti sak e yt e c h n i q u ef o r c o m p u t e rt oe x p l o i tt h et e x ti n f o r m a t i o n t h i st h e s i sf o c u s e so nt h es y n t a c t i c p a r s i n g ,w h i c h i sap r o b l e mo nt h et h e o r e t i c a l a s p e c ta n dt h e a u t o m a t i c m u l t i d o c u m e n ts u m m a r i z a t i o n ,w h i c hi sap r o b l e mo nt h ea p p l i e da s p e c ti nt h e n a t u r a ll a n g u a g ep r o c e s s i n g i nw h i c h ,s y n t a c t i cp a r s i n gi sak e yt e c h n i q u ef o r n a t u r a l l a n g u a g ep r o c e s s i n g ,a n dm a n ya p p l i c a t i o n s ,s u c h a sa u t o m a t i c s u m m a r i z a t i o n ,m a c h i n et r a n s l a t i o na n di n f o r m a t i o nr e t r i e v a lr e l yo nt h ep a r s i n g r e s u l ta st h e i rs u p p o r t o nt h eo t h e rh a n d ,r e s e a r c h e so np a r s i n gc a ns u p p le m e n t t h eu n d e r s t a n d i n go fh u m a nl a n g u a g e ,s 0t h ep a r s i n gh a si m p o r t a n ts i g n i f i c a n c e o nb o t ht h e o r e t i c a la n dp r a c t i c a la s p e c t s m u l t i d o c u m e n ts u m m a r i z a t i o nc a n p r o v i d eu s e r sw i t hac l e a ra n dc o n c i s eo v e r v i e w , s oi tc a nh e l pu s e r s t od e a lw i t h t h ed o c u m e n t sq u i c k l y a u t o m a t i cm u l t i - d o c u m e n ts u m m a r i z a t i o nr e c e i v e sm o r e a n dm o r ea t t e n t i o na st h en u m b e ro fd o c u m e n t si n c r e a s e sd r a m a t i c a l l yo nt h e 腑b t h ek e yp r o b l e mo fn a t u r a ll a n g u a g ep a r s i n gi st os e l e c tt h eo p t i m a lp a r s e t r e ec o r r e s p o n d i n gt oas i n g l es e n t e n c e i na d d i t i o n ,t h ek e yp r o b l e mo fa u t o m a t i c m u l t i d o c u m e n ts u m m a r i z a t i o ni st os e l e c tan u m b e ro fo p t i m a la b s t r a c t s e n t e n c e s a i m i n ga tt h ep r o b l e mo fp a r s et r e ea n da b s t r a c ts e n t e n c es e l e c t i o n , t h eg e n e r a t i v ep r o b a b i l i s t i cm o d e l sa r eu s e df o rb o t hs y n t a c t i cp a r s i n ga n d m u l t i d o c u m e n ts u m m a r i z a t i o nm o d e l i n gt os t u d yb o t ho fp a r s i n ga n da u t o m a t i c s u m m a r i z a t i o np r o b l e m s t h i st h e s i sf o c u s e so nt h eg r a m m a rs y s t e m ,p a r s i n g a l g o r i t h ma n dp a r s i n gm o d e li nt h en a t u r a ll a n g u a g ep a r s i n gp r o b l e m ,a n dt h e s e n t e n c e so r d e r i n gi nt h ea u t o m a t i cm u l t i d o c u m e n ts u m m a r i z a t i o np r o b l e m e x p e r i m e n t sa r ed o n et ov a l i d a t ea n da n a l y z et h ee f f e c t so ft h em o d e l s t h ew o r k w a sm a i n l ys u p p o r t e db yt h eg r a n to fn a t i o n a ln a t u r a ls c i e n c ef o u n d a t i o na n d n a t u r a ls c i e n c ef o u n d a t i o no fs h a n o d o n gp r o v i n c e an e wg r a m m a rs y s t e ma n dap a r s i n ga l g o r i t h mf o rt h i sg r a m m a ra r e i v 山东大学博士学位论文 p r o p o s e d ,a n dt h e nt h ep r u n i n gr u l ea n dt h en e w s t r u c t u r ei n f o r m a t i o ni n t e g r a t e d i n t ot h ep a r s i n gm o d e lf o rt h i sg r a m m a ra r es t u d i e d f o rt h ee x t r a c t i v ea u t o m a t i c s u m m a r i z a t i o n ,as e n t e n c em o d e l i n gm e t h o db a s e do np r o b a b i l i s t i ct o p i cm o d e li s g i v e nt of i n dt h el a t e n tt o p i c su n d e r l y i n gt h ec o r p u s b a s e do nt h et o p i cm o d e l , s e n t e n c es c o r i n ga n dr e d u n d a n c yr e d u c i n ga r ea l s os t u d i e di nt h i st h e s i s m a jo rr e s e a r c hc o n t e n t sa n di n n o v a t i o n so ft h i sd i s s e r t a t i o ni n c l u d et h e f o l l o w i n gf o u ra s p e c t s 1ab i n a r yc o m b i n a t o r i a lg r a m m a rw h i c hd e s c r i b e s y n t a xv i aw o r d c o m b i n a t i o ni sp r o p o s e d d e p e n d e n c yg r a m m a rh a sb e c o m ear e s e a r c hh o t s p o ti ng r a m m a re x p r e s s i o n o fn a t u r a ll a n g u a g ep r o c e s s i n g ,s i n c ei ti sm o r es u i t a b l ef o ri n f o r m a t i o nr e t r i e v a l t h a nt h ep h r a s es t r u c t u r eg r a m m a ra st h ed e p e n d e n c yg r a m m a rc a ne a s i l ye x p r e s s t h er e l a t i o n sb e t w e e nt h eh e a d w o r da n di t sm o d i f i e r s h o w e v e r , f o rt h el a c ko f i n t e r n a ls t r u c t u r e ,d e p e n d e n c yg r a m m a rc a nn o te x p l i c i t l ye x p r e s st h ec o m p l e x s y n t a c t i cs t r u c t u r e ,s ob r i n gac e r t a i no b s t a c l et ot h ei d e n t i f i c a t i o no fg r a m m a t i c a l s t r u c t u r e a i m i n ga tt h el a c ko fr e l a t i v ec o l l o c a t i o ns t r e n g t hb e t w e e np h r a s e sa n dt h e l a c ko fi n t e r n a ls t r u c t u r er e p r e s e n t a t i o ni nt h ed e p e n d e n c yg r a m m a r , ab i n a r y c o m b i n a t o r i a lg r a m m a r ( b c g ) ,w h i c hr e p r e s e n t ss y n t a c t i cs t r u c t u r et h r o u g ht h e c o m b i n a t i o no fa d ja c e n th e a d w o r d s ,i sp r o p o s e di nt h i st h e s i s a c c o r d i n gt ot h e c o m b i n a t o r i a lc h a r a c t e r i s t i c so ft h ew o r d si nt h eb c g g r a m m a r , t h el o c a lp r i o r i t y b e t w e e na d ja c e n tb i n a r yr e l a t i o n si si n t r o d u c e dt ot h eg r a m m a rt od e s c r i b et h e r e l a t i v ec o l l o c a t i o ns t r e n g t hb e t w e e np h r a s e sa n dt or e s t r ic tt h eo r d e ro f c o m b i n a t i o n i n t r o d u c i n gt h ei n t e r n a ln o d e sc a nh e l pt oe x p r e s sa n dr e c o g n i z e s y n t a c t i cs t r u c t u r e ,a n di n t r o d u c i n gt h el o c a lp r i o r i t i e st oe x p r e s st h er e l a t i v e c o l l o c a t i o ns t r e n g t hc a nh e l pt or e s t r i c tt h eg e n e r a t i o no fi l l e g a ls t r u c t u r e s 2as y n t a c t i cp a r s i n ga l g o r i t h mb a s e do nl o c a lp r i o r i t yi sp r o p o s e d p a r s i n ga l g o r i t h mi sa ni m p o r t a n tc o m p o n e n ti ns y n t a c t i cp a r s i n g ,w h i c h d i r e c t l ya f f e c t st h ea c c u r a c ya n de f f i c i e n c yo fs y n t a c t i cp a r s i n g a i m i n ga tt h e b i n a r yc o m b i n a t o r i a lg r a m m a rp r o p o s e di nt h i st h e s i s ,l o c a lp r i o r i t yd e f i n e di n v 山东大学博士学位论文 t h eb c g g r a m m a ri si n t e g r a t e dt ot h eb c gp a r s i n ga l g o r i t h ma st h ep r u n i n gr u l e ab c g p a r s i n ga l g o r i t h mb a s e do nl o c a lp r i o r i t yi sg i v e nb yi m p r o v i n gt h e t r a d i t i o n a lc y k ( c o c k e ,y o u n g e r , a n dk a s a m i ) c h a r t - p a r s i n ga l g o r i t h m p a r s i n g e x p e r i m e n tw a sd o n eo nt h em a n u a lc o l l e c t e dg r a m m a rr u l e sa n dt h ep a r s i n g r e s u l t ss h o wt h a tb o t ho ft h en u m b e ro fr e s u l tp a r s et r e e sa n dt h es p e n tt i m eo f t h ei m p r o v e dc y k a l g o r i t h ma r es i g n i f i c a n t l yl o w e rt h a nt h a to ft r a d i t i o n a lc y k a l g o r i t h m 3a p a r s i n gm o d e lb a s e do nr e s t r i c t i o no fn e s t e dl e v e li sp r o p o s e d i nt h ec o n s t r u c t i o no fap r o b a b i l i s t i cm o d e l ,h o wt ou s et h ei n f o r m a t i o no f s y n t a c t i cs t r u c t u r eo ft h es e n t e n c ei nt h ep a r s i n gm o d e l i n gi sam a j o rp r o b l e m i n f o r m a t i o nc o n s i d e r e di s m a i n l yd e g r e eo fd o m i n a n c ea n dt h el e n g t h o f d e p e n d e n c yc h a i ni nt h ec u r r e n ts t u d i e s f o rt h el a n g u a g ei sh a r d e rt ou n d e r s t a n d w h e nt h e r ea r em o r en e s t e dm o d i f i e r s ,t h eg e n e r a t i o no fp a r s et r e e si sr e s t r i c t e d b yi n t r o d u c i n gt h e c o n s t r a i n ti n f o r m a t i o no fm o d i f i e r sn e s t e dl e v e li n t ot h e g e n e r a t i v ep r o b a b i l i s t i cp a r s i n gm o d e l t h ea b i l i t y o f s y n t a c t i c s t r u c t u r e i d e n t i f i c a t i o ni se n h a n c e d ,a n dt h eg e n e r a t i o no fi l l e g a ls t r u c t u r e si sp a r t i a l l y a v o i d e d a f t e rb u i l d i n gt h ec y kc h a r ta l g o r i t h mb a s e do nt h ep r i o r i t y ,ab c g p a r s i n gm o d e li n t e g r a t i n gt h er e s t r i c t i o no fn e s t e dl e v e li sg i v e n i nt h ep a r s i n g e x p e r i m e n t ,t h eb c g f o r mt r e e b a n kw a sb u i l tt h r o u g hc o n v e r t i n gt h ed e p e n d e n c y t r e e b a n kt ot h eb c gf o r m ,a n dt h es y n t a c t i cr e l a t i o n sb e t w e e nw o r d sa n dt h e p r i o r i t yi n f o r m a t i o nb e t w e e nr e l a t i o n sw e r ea c q u i r e d ,a n dt h e nt h ep a r a m e t e r so f t h ep r o b a b i l i s t i cm o d e lw e r ee s t i m a t e db a s e do nt h et r e e b a n k c h i n e s ep a r s i n g e x p e r i m e n tw a sd o n eo nt h eb c gt r e e b a n k ,a n dt h er e s u l t ss h o wt h a tt h e s y n t a c t i cp a r s i n gm o d e lu t i l i z i n gt h er e s t r i c t i o no fn e s t e dl e v e lc o u l da c h i e v e h i g h e ra c c u r a c yo nb c gp a r s i n gc o m p a r e dt ot h ep a r s i n gm o d e lb a s e do nt h e d e g r e eo fd o m i n a n c e t h ei n f l u e n c eo f l o c a lp r i o r i t yw a sa l s oi n v e s t i g a t e di nt h e e x p e r i m e n t t h er e s u l t ss h o wt h a tt h er e s t r i c t i o no fl o c a lp r i o r i t i e sa n dn e s t e d l e v e lc a ne f f e c t i v e l ya v o i dt h eg e n e r a t i o no fi l l e g a ls t r u c t u r e s 4a na u t o m a t i cm u l t i d o c u m e n ts u m m a r i z a t i o nb a s e do nt h eg e n e r a t i v e 山东大学博士学位论文 t h el a t e n td i r i c h l e ta l l o c a t i o n ( l d a ) i su s e df o rs e n t e n c em o d e l i n gt o c a p t u r et h el a t e n tt o p i ci n f o r m a t i o n t w os e n t e n c e s c o r i n gm e t h o d sa r ep r o p o s e d b a s e do nt h ew o r dd i s t r i b u t i o n sp ( w l z ) o fe a c ht o p i ca n dt h et o p i cd i s t r i b u t i o n s p ( z l s ) o fe a c hs e n t e n c e ,w h i c ha r ea c q u i r e df r o mt h el d a m o d e l t h es e n t e n c e s w i t hh i g hs c o r ea n dh a v i n gl i t t l et o p i co v e r l a p 、访t hs e l e c t e ds e n t e n c e sa r ec h o s e n 嬲t h ea b s t r a c ts e n t e n c e s i nt h es u m m a r i z a t i o ne x p e r i m e n tf o re n g l i s h ,t h e g e n e r i cm u l t i d o c u m e n ts u m m a r i z a t i o nd a t ap r o v i d e db yd u c2 0 0 2c o n f e r e n c e w a su s e da st e s td a t a ,a n dt h er o u g em e t r i c sw e r eu s e da st h ea u t o m a t i cm e t r i c s e v a l u a t e db yt h er o u g e ,r e s u l t ss h o wt h a tb o t ho ft h et w op r o p o s e dm e t h o d s s u r p a s s e dt h ew o r d f r e q u e n c yb a s e da n do t h e rl d ab a s e ds u m m a r i z a t i o n s y s t e m sf o ra l lt h er o u g es c o r e s ,i nw h i c hp r o b a b i l i s t i cg e n e r a t i v em o d e li s b e t t e rt h a na l lt h eo t h e rm o d e l si na l lr o u g em e t r i c s t h ef u r t h e rw o r ki n c l u d e st h ef o l l o w i n ga s p e c t s :i no r d e rt of a c i l i t a t eam o r e a c c u r a t ed e s c r i p t i o no fp a r s i n ga l g o r i t h m ,t h el a b e l so fb i n a r yr e l a t i o n sa r et ob e i n t e g r a t e di n t op a r s i n ga l g o r i t h ma st h ep a r s i n gc o n t e x t i nt h es y n t a c t i cp a r s i n g m o d e l ,o t h e ru s e f u ls t r u c t u r a li n f o r m a t i o na n dt o p i ci n f o r m a t i o na r et ob ea d d e d i nt h ep a r s i n gm o d e lt oi m p r o v et h ec o r r e c tp a r s i n gr a t e i nt h em u l t i d o c u m e n t s u m m a r i z a t i o n ,t h es y n t a c t i ct o p i cm o d e lw i l lb eu s e da ss e n t e n c e sm o d e l i n g ,s o b o t ho ft h es y n t a c t i ca n dt h e m a t i ci n f o r m a t i o nw i l lb et a k e ni n t oa c c o u n tt o i m p r o v et h es u m m a r i z a t i o nr e s u l t s k e y w o r d s :l o c a lp r i o r i t y ;n e s t e dl e v e l ;s y n t a c t i cp a r s i n g ;t o p i cm o d e l ; m u l t i d o c u m e n ta u t o m a t i cs u m m a r i z a t i o n i 原创性声明和关于论文使用授权的说明 原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下, 独立进行研究所取得的成果。除文中已经注明引用的内容外,本 论文不包含任何其他个人或集体已经发表或撰写过的科研成果。 对本文的研究作出重要贡献的个人和集体,均已在文中以明确方 式标明。本声明的法律责任由本人承担。 论文作者签名:扬姿 一 日期| 型仝竺:! 里 关于学位论文使用授权的声明 本人完全了解山东大学有关保留、使用学位论文的规定,同意学 校保留或向国家有关部门或机构送交论文的复印件和电子版,允许论 文被查阅和借阅;本人授权山东大学可以将本学位论文的全部或部分 内容编入有关数据库进行检索,可以采用影印、缩印或其他复制手段 保存论文和汇编本学位论文。 ( 保密论文在解密后应遵守此规定) 论文作者签名:茎塾叠导师签 山东大学博士学位论文 1 1 研究背景及意义 第1 章绪论 自然语言处理是一种对自然语言各个方面建立计算模型、以及开发各类 应用系统的研究领域【1 1 ,它分为理论研究和应用研究两个层面。理论研究包 括词法层面的自动分词、词性标注,句法层面的句法分析、组块分析,文档 层面的篇章分析和语义层面的角色标注等研究范畴;而应用研究主要有语音 识别、语音合成、文本分类、文字校对、自然语言生成、问答系统、机器翻 译和自动摘要等研究范畴。以自然语言形式存在的信息资源的处理是实现机 器翻译、信息检索等软件技术发展的核心,因此目前自然语言处理已经成为 各大科研单位和公司中的研究热点。本文讨论自然语言处理中理论层面的句 法分析问题和应用层面的多文档自动文摘问题。其中,句法分析问题的关键 是从单句对应的多个句法结构中选择最优分析树的问题,而自动文摘问题的 关键则是从文档中的句子中选择多个最优句子的问题,这两个问题的求解都 可以转化为排序问题,使用生成性的概率模型来描述。 1 1 1 句法分析 句法分析根据给定的语法体系,分析句子所包含的语法单元和这些语法 单元之间的关系,并为输入的线性句子自动推导出满足该语法规则的树形句 法结构。句法分析是自然语言处理的关键技术之一,是进行更深层次语言理 解的基石,该问题的解决具有理论和实践两个方面的意义。 从理论角度来看,自然语言是人类智能的重要标志,让计算机理解自然 语言是人工智能研究的根本任务之一。句法分析的研究可以补充对人类语言 的认知,充实相应的语言学知识;同时句法分析还可以通过实践检验相应语 法体系的正确性和有效性,从而促进语法理论的研究和发展,为人类掌握语 言的规律提供实践性的检验【2 l 。从应用系统的角度来看,句法分析是保证各 种应用系统能够深层次的理解自然语言的核心技术。句法分析作为机器翻译 预处理的步骤,可以提供不同语言的句法结构中间形式,m e l a m e d 【3 1 、熊德 山东大学博士学位论文 意4 1 等研究了基于句法结构的机器翻译:句法分析应用于语音识别时可以加 入长距离的结构信息,避免刀元模型中短距离词汇过度拟合的现象,j t l l c h e l b a 等【5 1 提出的结构化语言模型就使用句法分析器作为长距离关系发现的部件; 在基于语言模型的信息检索中,可以使用句法结构来表达长距离的词项依存 关系,改进计算给定文档时生成查询的概率值的方法【6 】;句法分析的结果可 以帮助信息抽取更准确地获取知识7 1 ; 均需对句子进行深入的理解和分析【8 】; 问答系统中的查询扩展及答案匹配也 本体构建中可以使用依存关系发现词 项的上、下位词【9 】;句法分析作为语法检查的支持时,则可以直接指出句子 是否符合语法结构。 句法分析方法一般分为基于规则的方法和基于统计的方法,这两种方法 可以相互作为支持。基于规则的句法分析方法需要语言学家手工建立能够概 括自然语言中所包含的语法现象的规则集,然后在此规则集上构建分析算法。 其优点是可以最大限度地接近自然语言的语法习惯,并可以被语言学家快速 掌握;缺点是对于一个面向大规模真实文本的系统,获取能够覆盖各种纷繁 复杂的语言现象的语法规则是非常困难的。这类系统开发周期一般都很长, 规则数量多、规则之间的冗余和冲突使得系统维护起来也非常困难。统计方 法不假设大脑中存在细化的规则集,而认为大脑具有联想、模式识别和概括 的一般能力,通过丰富的感官输入学习到自然语言的详细结构。统计方法更 强调从真实的句子中获取知识,更适应于大规模真实文本的处理。目前绝大 多数的句法分析都是基于统计方法的。 基于统计的句法分析方法主要包括以下三个方面的内容:( 1 ) 语法体 系( s y n t a x ) ,即句法结构的描述部分;( 2 ) 分析算法( p a r s i n ga l g o r i t h m ) , 即根据语法规则构造分析树的部分;和( 3 ) 分析模型( p a r s i n gm o d e l ) ,即 根据一定的策略选择最优分析树的部分。本文的句法分析基于统计方法。 语法体系是自然语言中合法句子结构的形式化表示,它是句法分析的前 提。语法体系的目标是为了揭示语言的规律,但不同语法理论的出发点不同, 其描述语言的角度不同,表达的信息也不同,因此语法体系的不同将直接影 响到句法分析方法的应用范围和性能【2 1 。詹卫东【1 0 】曾指出,自然语言的形式 化表示或语言学的研究是自然语言处理的基石和核心,没有它,任何实质性 的进展都是不可能的,只能成为计算机科学家手中的玩具。 2 山东大学博士学位论文 句法分析算法根据特定的语法规则自动地构建待分析句子所有可能的 候选分析树,是实现句法分析目标的基础。由于在没有语义和概率信息限制 的情况下,对于二元的语法结构会产生与c a t a l a n 数相关的指数级个分析树。 句法分析算法的任务是在一定的时间内,找到满足语法条件的所有可能的分 析结果。因此,算法中应尽可能的对分析空间进行剪枝,以提高时间效率、 减少空间花费。 句法分析模型根据一定的评价方法从候选分析树中选择最优的分析树。 常用的句法分析策略主要是利用标注了句法结构的语料库获得句法知识和它 们的统计信息,使用分析算法构建句法结构树,然后通过机器学习或生成性 的概率模型来选择最有可能的句法树结构。句法分析模型是进行句法分析的 关键,它决定着最终分析结果的正确率。 近年来,构建了大规模的英语、汉语、法语、德语等语言的语料库,作 为开放训练和测试的平台。在大规模树库的支持下,句法分析方法得到了长 足的发展,出现了许多性能良好的句法分析器,如r m c d o n a l d t l l l 开发的非 投影性依存分析器m s t p a r s e r 、斯坦福大学的d a nk l e i n t l 2 1 开发的概率上下文无 关语法和依存语法分析器s t a n f o r d p a r s e r 、e u g e n ec h a r n i a k t l 3 1 开发的n l p a r s e r 分析器、j o a k i mn i v r e t l 4 】提供的m a l t p a r s e r 依存分析器等都取得了良好的分析 效果。但由于自然语言的复杂性,句法分析的正确性与实际应用需求之间仍 有很大差距。位于句法分析底层的词法分析等技术已经基本成熟,而之后的 语义分析技术又是建立在句法分析的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论