(计算机应用技术专业论文)现代汉语句型自动识别的研究.pdf_第1页
(计算机应用技术专业论文)现代汉语句型自动识别的研究.pdf_第2页
(计算机应用技术专业论文)现代汉语句型自动识别的研究.pdf_第3页
(计算机应用技术专业论文)现代汉语句型自动识别的研究.pdf_第4页
(计算机应用技术专业论文)现代汉语句型自动识别的研究.pdf_第5页
已阅读5页,还剩73页未读 继续免费阅读

(计算机应用技术专业论文)现代汉语句型自动识别的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 每一种语言都有自身的特点,一种语言区别另一种语言,句型上的差异起着 重要作用。汉语句型复杂多样,是汉语句法理论中一个重要的研究单位。但是, 在中文信息处理中,以句型为目标的研究并不多。本文以汉语句型的自动识别为 研究对象,强调结合自然语言处理要求和汉语语法规律,构建统一的句型系统框 架,并在该框架下,尝试进行句型分析、研究句型识别策略。 在汉语句型的语言理论研究中,本文结合句模理论,提出“阶 的概念,构 建了将谓词的句法特性与语义特征结合的谓词知识库,为计算机识别句型提供帮 助。 在汉语句型识别的策略研究中,本文给出了汉语句型自动识别系统的流程框 架。该框架中包含预处理模块和句型识别模块两个部分。预处理模块以去除句子 的非句型成分为目的,抽象出句子的句干,填充包括定中结构、状中结构和补中 结构的句法关系槽。句型识别模块以判定句干的句型类别为主要目的,并填充包 含主谓关系、谓宾关系的句法关系槽。 在预处理模块中,本文提出“语片 的概念,将预处理过程分为粘合语片、 填充句法关系槽两个流程,并提出基于滑动窗口机制的粘合算法,以及基于上下 文无关文法的填充器c f i l l e r 。在句型识别模块中,本文提出了“基于规则匹配 和“基于函数模型的两种可选策略。“基于规则匹配”的策略中,利用扩充的 上下文无关文法,设计了句型识别器r e c o g n i z e r ;“基于函数模型的策略中, 本文首次提出,利用转化函数,将句子转化到坐标空间中,使用函数模型研究句 子的句法特征,并通过函数计算获得句子的特征向量用于机器学习,最终利用机 器学习得到的决策函数识别句型。“基于函数模型 的策略是一种“引用数学方 法研究句子一的新思路。 作为策略评估,在句型系统的子集上构建了实验模型,对预处理策略和两种 句型识别策略分别进行了评估,实验结果证明了三种策略的可行性。 最后,论文从应用角度,在机器翻译、语法错误自动检查、统计汉语句型分 布等几个方面,对汉语句型自动识别的应用前景作了简介。 关键词:汉语句型;谓词知识库;语片;基于规则匹配的识别;基于函数模型的 识别 a b s t r a c t e a c hl a n g u a g eh a si t so w nc h a r a c t e r i s t i c s ,w h i c ha r ed i f f e r e n tf r o m o n el a n g u a g et oa n o t h e ro n e d u r i n gt h e s ed i f f e r e n c e s ,t h ed i f f e r e n c eo n s e n t e n c ep a t t e r n sisa ni m p o r t a n to n e c h i n e s es e n t e n c e p a t t e r n sa r e c o m p l e xa n dd i v e r s e ,w h i c hc o n s t i t u t et h em o s ti m p o r t a n tp a r t so fc h i n e s e s y n t a c t i ct h e o r y h o w e v e r ,i nt h ec h i n e s ei n f o r m a t i o np r o c e s s i n g ,t h e s t u d yo ns e n t e n c ep a t t e r n sisn o tt o om u c h t h i sp a p e rf o c u s e so na u t o m a tic r e c o g n i t i o no f s e n t e n c e p a t t e r n so fm o d e r nc h i n e s e a n de m p h a s i z e s b u i l d i n gau n i f i e ds y s t e mf r a m e w o r ko ns e n t e n c ep a t t e r n s ,w i t hc o m b i n i n g t h er u l e so fc h i n e s eg r a m m a ra n dt h er e q u i r e m e n t so fn a t u r a ll a n g u a g e p r o c e s s i n g ( n l p ) i nt h e u n i f i e ds y s t e mf r a m e w o r k ,w et r yt oa n a l y z et h e s e n t e n c e p a t t e r n sa n dd or e s e a r c ho nt h es t r a t e g i e so fr e c o g n i t i o no f s e n t e n c ep a t t e r n s i nt h et h e o r e t i c a ls t u d yo fc h i n e s es e n t e n c ep a t t e r n s ,t h i sp a p e r p r e s e n t san e wc o n c e p t b a n d s ,l e a r n i n gf r o m t h et h e o r yo fc h i n e s e s e n t e n c em o d ew h i c hs a y ss e m a n t i cf e a t u r e so fs e n t e n c e ,a n dc o n s t r u c t s p r e d i c a t ek n o w l e d g eb a s ew h i c hd e s c r i b e sb o t h t h es y n t a c t i ca n d t h e s e m a n t i cf e a t u r e so fp r e d i c a t e s t h i sp r e d i c a t ek n o w l e d g eb a s ep r o v i d e s c o n v e n i e n c ef o rc o m p u t e rt or e c o g n i z et h es e n t e n c ep a t t e r n s i nt h es t r a t e g ys t u d yo ft h er e c o g n i t i o no fc h i n e s es e n t e n c ep a t t e r n s , t h i sp a p e rp r e s e n t st h ef r a m e w o r ko fa u t o m a t i cr e c o g n i t i o ns y s t e m t h i s f r a m e w o r ki n c l u d e st w o p a r t s ,t h ep r e p r o c e s s i n g m o d u l ea n dt h e r e c o g n i t i o nm o d u l e t h ep r e p r o c e s s i n gm o d u l ea b s t r a c t st h es e n t e n c e s s t e m s ,f il l st h et r o u g h so fs y n t a c t i cr e l a t i o n s ,f o rt h ep u r p o s eo f r e m o v i n gt h en o n s e n t e n c ep a t t e r n si n g r e d i e n t s t h er e c o g n i t i o nm o d u l e m a i n l ya i m sa td e t e r m i n i n gw h i c hs e n t e n c ep a t t e r n s t h es t e m sb e l o n g i nt h ep r e p r o c e s s i n gm o d u l e ,ac o n c e p t ”f r a g m e n t i sp r e s e n t e d t h i s p a p e rd i v i d e st h i sm o d u l ei n t ot w os t e p s ,a g g l u t i n a t i n gf r a g m e n t sa n d f i l l i n gt h et r o u g h so fs y n t a c t i cr e l a t i o n s ,p r o p o s e sa g g l u t i n a t i o n a l g o r i t h mb a s e do nt h em e c h a n i s mo ft h es l i d i n gw i n d o w ,a n dd e s i g n st h e a l g o r i t h m ”c - f i l l e r ”b a s e do nt h ec o n t e x t f r e eg r a m m a r ( c f g ) i nt h e r e c o g n i t i o nm o d u l e ,t h i sp a p e r p r e s e n t st w oo p t i o n a ls t r a t e g i e s , r u l e b a s e ds t r a t e g y ( r b s ) a n df u n c ti o n b a s e ds t r a t e g y ( f b s ) i nt h er b s , b a s e do nt h ee n h a n c e dc f g ,a l g o r i t h m 。r e c o g n i z e r ”f o rr e c o g n i z i n gt h e s e n t e n c ep a t t e r n si sd e s i g n e d i nt h ef b s ,i ti sp r o p o s e df o rt h ef i r s t t i m et h a tt r a n s f o r m st h es e n t e n c e s t e mi n t oas e r i e s o f d a t ai nt h e c o o r d i n a t es p a c eb yt r a n s f o r mf u n c t i o n ,g e t se i g e n v e c t o rb yf u n c t i o n f i t t i n g ,a n df i n a l l yg a i n st h ed e c i s i o nf u n c t i o n sb ym a c h i n el e a n i n g f b s i san e wi d e ao nh o wt oa n a l y z es e n t e n c e sw i t hm a t h e m a t i cm e t h o d s t oe v a l u a t et h es t r a t e g i e sp r o p o s e d ,a ne x p e r i m e n t a lm o d e li sb u i l t p r e p r o c e s s i n gs t r a t e g y ,r b ss t r a t e g y ,a n df b ss t r a t e g ya r ee v a l u a t e da n d t h er e s u l t sp r o v et h ef e a s i b ili t yo ft h e s et h r e es t r a t e g i e s f i n a l l y ,s e v e r a la p p l i c a t i o n so fa u t o m a t i cr e c o g n i t i o ns y s t e mo f s e n t e n c ep a t t e r n s ,i n c l u d i n gm a c h i n et r a n s l a t i o n ,g r a m m a t i c a lm i s t a k e s a u t o m a t e dc h e c k s ,a n da n a l y z i n gd i s t r i b u t i o no fc h i n e s es e n t e n c ep a t t e r n s , a r ein t r o d u c e d k e y w o r d s :c h i n e s es e n t e n c ep a t t e r n s :p r e d i c a t ek n o w l e d g eb a s e :f r a g m e n t : r u l eb a s e ds t r a t e g y ( r b s ) :f u n c t i o nb a s e ds t r a t e g y ( f b s ) 厦门大学学位论文原创性声明 兹呈交的学位论文,是本人在导师指导下独立完成的研究成果。 本人在论文写作中参考的其他个人或集体的研究成果,均在文中以明 确方式标明。本人依法享有和承担由此论文产生的权利和责任。 声明人( 签名) :居弗 加7 年岁月g 日 厦门大学学位论文著作权使用声明 本人完全了解厦门大学有关保留、使用学位论文的规定。厦门大 学有权保留并向国家主管部门或其指定机构送交论文的纸质版和电 子版,有权将学位论文用于非赢利目的的少量复制并允许论文进入学 校图书馆被查阅,有权将学位论文的内容编入有关数据库进行检索, 有权将学位论文的标题和摘要汇编出版。保密的学位论文在解密后适 用本规定。 本学位论文属于 1 、保密() ,在年解密后适用本授权书。 2 、不保密( 4 ) ( 请在以上相应括号内打“4 ) 作者签名:苍冲 导师签名: 嘭参哞 咿彬 日期:刀哆年岁月肪日 日期:砷年岁f l t8e t 第一章绪论 1 1 引言 第一章绪论 句型,指句子的句法结构类型,确定和区别句型就是在句法平面上对具体的 句子进行抽象的句法分类n 1 。每种语言中的句子是无限的,但抽象的句型却是有 限的。只有认识、了解了抽象的、有限的句型,才可以在话语中根据句型生成或 创造出无限的、具体的、个别的句子。 汉语句型纷繁复杂,对句型划分标准,语言学界也存不同意见。但是,始终 明确的是,句型是客观存在的,并且每一种语言都有自身的特点,一种语言区别 另一种语言,句型上的差异起着重要作用。 目前,在中文信息处理中,以句型为对象的研究还很少。由于国内的句法分 析和研究基本上都是借鉴国外的研究成果,而如英语等西方语言文法结构严谨, 句型较少( 有说7 种,有说5 种) ,句法自动分析也很少涉及句型研究。因此, 国内的汉语句法分析很少用到句型知识,也就很少以句型为研究对象。 汉语句型自动识别的研究从自然语言处理角度出发,强调构建统一的句型系 统的重要性;探讨结合语言学理论,设计理想的句型系统,并在该系统下研究有 效实现汉语句型自动分析的策路。 1 2 课题研究的意义 课题选择汉语句型自动识别作为研究方向,其意义在于: ( 1 ) 在自然语言处理中,汉语经历过字频统计、词频统计,而句型作为句 法研究中的一个单位,查清汉语句型基本分布状况将又是一个重要的基础性研究 课题。但汉语句型纷繁复杂,语言学界的句型分类标准林林总总。课题不囿于任 何一种已有的理论框架,强调建立结合自然语言处理要求和汉语语言规律的句型 系统,研究统一框架下的句型识别策略和思路,为计算机分析句型铺垫理论道路。 ( 2 ) 自然语言处理在进行句法分析时,往往通过一定的文法和算法直接将 句子归结为“句法树”的形式,没有走“句型道路,与面向教学和研究的语言 现代汉语句型自动识别的研究 学理论“脱节 ,这有一定的优点,可以摈弃语言理论中“各家各派 学说争论 的烦扰,直接面向计算机处理句子。但是,从另一个角度考虑,自然语言处理只 有真正和贴近语言的语言学理论结合,才能从根本上获得理解一种语言的“能 力 。因此,汉语句型自动识别尝试从句型角度进行句法分析,这是对自然语言 处理、尤其是对自动句法分析进一步发展的思考。 1 3 课题的研究角度与范围 课题研究以理论和策略研究为主,并辅以几种具体句型对课题提出的理论和 策略加以说明和论证。 由于课题研究角度的关系,论文关注点在思路和策略的提出与分析上。 1 4 论文的主要研究工作和结构安排 论文在分析已有汉语句型识别技术以及句法自动分析方法的基础上,从语言 理论、实现策略、应用前景三个方面对汉语句型识别作分析、研究。 全文分为六章,结构安排如下: 第一章:介绍课题的知识背景与研究意义,说明课题的研究范围与研究角度。 第二章:综述了汉语句型自动识别的研究现状及句法自动分析的发展趋势。 第三章:从语言理论研究出发,强调结合自然语言处理要求和汉语语法规律, 设计一个统一的句型系统框架;并在该框架内,结合句模理论,提出“阶的概 念,构建了将谓词的句法特性与语义特征结合的谓词知识库,为计算机识别句型 提供帮助。 第四章:从策略研究出发,提出汉语句型自动识别系统的总体框架。在预处 理模块中,提出粘合语片算法、句法关系槽的填充器来处理句子中的非句型成分; 在句型识别模块中,针对由句型成分构成的“句干”,提出两种句型识别策略: “基于规则匹配 的传统策略和“基于函数模型 的新策略。实验评估了两个模 块中三个策略的可行性。 第五章:从应用研究出发,展望了汉语句型自动识别的几个应用方向。 第六章:总结并提出了今后进一步的工作。 2 第二章汉语句型识别与自动句法分析的研究现状 第二章汉语句型识别与自动句法分析的研究现状 2 1 汉语句型识别的研究现状 明确以汉语句型识别为对象的研究,国内比较详细的文献是清华大学罗振声 等学者于1 9 9 3 年在中文信息学报发表的文章位1 。该文建立的实验模型确立 以主语、谓语为质成分( 对句型基本结构有决定性影响的句型成分称为质成分) 的句型系统,提出以谓语为中心的句型成分分析与句型匹配相结合的分析算法和 策略。 以谓语为中心的句型成分分析的基本思想是:首先识别与确定句子的中心谓 语及其相应的短语边界。然后,以谓语为中心将句子的线性结构分为前后两个部 分。对谓语之前的词语部分分析主语和状语;对谓语后的词语部分分析宾语和补 语。若句子中出现多个谓词( 假设有n 个) ,并且组成连谓式,则这n 个谓词会 将句子结构分成n + 1 个部分。其分析策略是:对第一部分,分析主语和状语,对 第n + l 部分分析宾语和补语,而对其余n - 1 部分则分析状语、宾语和补语。若句 子中出现兼语式或小句宾语,则采用递归的方法分析与处理。 该思想的核心问题是如何分析上述提及的五种句型成分( 主语、谓语、宾语、 状语及补语) 并判定其相应的短语边界。其解决方法是根据这五种句型成分的不 同语法特点,分别采用规则的形式描述,存放于规则库中。 以主语和状语分析为例,该研究依据“主语和状语一般都在谓语之前”的原 则,首先识别状语成分,主要是分析可用作状语的不同词类的词和词组及其作状 语时的特点、约束条件,并将它们转化成规则形式,提供给分析器。识别完状语 成分后,谓语前的其余部分都当作主语处理。 该研究采用句型匹配决策的方法,对语料的汉语句型类属进行判定。句子完 成句型成分分析后进入句型匹配阶段。所谓句型匹配,就是将待测句子的结构模 式与标准句型库中的句型匹配规则、句型模式集相比较,从而最终完成句子的句 型识别。 该研究的特点在于进行了大量细致的统计分析工作,建立了标准句型库、五 种句型成分的判定规则、句型匹配规则,缺点在于系统中对语料的分析太依赖规 现代汉语句型自动识别的研究 则,系统分析过程缺乏足够的灵活性。以谓语为中心的句型成分分析方法对句型 语法形式的分析比较僵硬,其对谓语、主语、状语等成分的位置的认定也缺乏充 足的理论依据,在研究双宾句、兼语句、小句宾语句等特殊句型上缺乏足够的分 析识别能力。 2 2 自动句法分析的发展和研究现状 句法分析是自然语言理解的关键一步,也是计算语言学研究的重点和难点。 用计算机进行汉语句法分析是一个全新的研究课题。本文对汉语句型识别的认识 是,汉语句型识别本质上是一种特殊的句法分析,只不过其研究的范围不囿于“就 句子论句子 ,而是把句子放入汉语句型的框架下,可以用句法分析的策略来识 别出其隶属句型并能够依据语言知识分析出该句子的句法结构特征。 广义的句法分析可分为完全句法分析和浅层句法分析。 完全句法分析,是自动句法分析研究较早开始的领域,通常所说的“句法分 析,在不特别强调的情况下,都是指完全句法分析,它是狭义上的句法分析。 它主要应用句法规则和其它知识,将句子中的词的线性次序变换成类似语法树的 数据结构。 浅层句法分析( s h a l l o wp a r s i n g ) 3 ,也叫部分句法分析( p a r t i a lp a r s i n g ) 或语块分析( c h u n kp a r s i n g ) 。它是近年来自然语言处理领域出现的一种新的语 言处理策略。与完全句法分析相比较,完全句法分析要求通过一系列分析过程, 最终得到句子的完整的句法树,而浅层句法分析则不要求得到完全的句法分析 树,它只要求识别句子中的短距离依存关系,如非递归的名词短语、动词短语等, 这些识别出来的结构通常被称作“语块 。 2 2 1 完全句法分析的几种策略 目前汉语的句法分析基本上都是借鉴国外的研究成果,将国外的研究成果用 于汉语的句法分析和研究。另一方面,很多应用领域的研究,以机器翻译为代表, 也在推动着汉语句法分析的发展。 ( 一) 基于上下文无关语法的自动句法分析 上下文无关语法( c o n t e x t f r e eg r a m m a r ,c f g ) ,是短语结构语法( p h r a s e 4 第二章汉语句型识别与自动句法分析的研究现状 s t r u c t u r eg r a m m a r ,p s g ) 中的一种。美国语言学家乔姆斯基( n c h o m s k y ) 在 2 0 世纪5 0 年代提出了一套形式语言理论。p s g 是形式语言理论的主要内容,它将 自然语言和各种符号语言分成四种不同层级的形式语法:无约束短语结构语法( o 型语法) 、上下文有关语法( 1 型语法) 、上下文无关语法( 2 型语法) 、正则语法 ( 3 型语法) ,统称为乔姆斯基层级( c h o m s k yh i e r a r c h y ) 。从0 型语法到3 型语法, 对于规则的限制越来越严格,生成能力则越来越弱。 一般地,基于规则的自然语言句法分析系统必须建立在某种形式语法基础 上,短语结构语法是自然句法分析最常用的语法理论。上下文无关语法则是使用 最广的一种短语结构语法。 下面以一个汉语简单句子为例,用上下文无关语法来分析。把上下文无关语 法定义为: g = ,s ,p ) 其中,n 是非终结符号的集合;是终结符号的集合,与n 不相交;s 是初始符 号;p 是产生式( 或者重写规则) 的集合,每一个产生式的形式为:么寸a 。这 里,么是单独的非终结符号,口是由( u n ) 中的符号所构成的符号串,也就是 说,符号串a 中的符号是由非终结符号或终结符号所构成的符号串。 如果有口l _ 口2 ,a 2 - - h a 3 ,口州_ ,那么,记作口l 。这样,可以把由 语法g 从初始符号s 推导出的符号串叫做语言l ( g ) ,定义如下: 三( g ) = w l w 在中,并r s w ) 下面来讨论面向汉语的上下文无关语法,为简单起见,把上下文无关语法中 的产生式p 定义为如下形式: ( 1 ) s n pv p ( 2 ) n p p r o n o u nip r o p e r - n o u nln o m i n a lln o m i n a ln o u n ( 3 ) n o m i n a l n o u nn o m i n a lin o u n ( 4 ) v p v e r blv e r bn pip pv e r bn plp pv e r b ( 5 ) p p p r e p o s i t i o nn p ( 6 ) n o u n 一飞机i 太阳l 阳台i 早晨1 日出 ( 7 ) v e r b 一喜欢i 需要i 热爱l 是l 欣赏 ( 8 ) a d j e c t i v e 一快i 便宜i 美丽l 高 现代汉语句型自动识别的研究 ( n 一2 ) p r o n o u n 一我l 你i 她i 它们 ( n 一1 ) p r o p e r n o u n 一中国l 美国l 北京i 石家庄l 江苏 ( n ) p r e p o s i t i o n 一从i 被l 在i 以 则,句子“我在餐厅吃饭 的推导分析树如图2 1 。 l p r o n o u n p p v p 我p r e p o s i t i o n n p v e r bn p 是 n 上u n 之n 占u n f 餐厅饭 图2 1 句法分析树 同样,可以使用括号把这个分析树记为如下形式: s n p p r o n o u n 我 v p p p p r e p o s i t i o n 在 n p n o u n 餐厅 v p v e r b 吃 n p n o u n 饭 。 用上下文无关语法处理自然语言的优点在于其描述能力强,足以描述自然 语言中的大部分结构,同时又是可递归的,可以构造有效的句法分析器来进行句 子的分析。它的缺点在于生成能力过强,使用它进行句法分析容易产生多种有歧 义的分析结果,这些结果在句法层面上可能合法,但却不符合语义约束。因此, 如何正确、高效地进行句法分析是基于上下文无关语法的各类句法分析算法的关 注焦点。 在上下文无关语法基础上提出的句法分析算法主要有:自底向上剖析法、自 顶向下剖析法、左角分析法、j e a r l e y l 9 7 0 年提出的厄尔利算法、c y k 算法、m t o m i t a l 9 8 5 年提出的富田胜算法( 也称广义l r 算法,g l r ) 4 - 9 。 ( 二) 基于转移网络的自动句法分析 1 有限状态转移图( f i n i t es t a t et r a n s i t i o nd i a g r a m ,f s t d ) 。应用转 移网络来分析自然语言,最早是从有限状态转移图开始。f s t d 由若干有限的状态 以及从一个状态到另一个状态的弧组成: 6 第二章汉语句型识别与自动句法分析的研究现状 ( 1 ) 其中的一个状态被指定为起始状态; ( 2 ) 弧上只能标以终结符号( 即具体的词,如“我 ) 和词类符号( 如 名词、动词、形容词等) ; ( 3 ) 状态中的一个子集叫做结束状态。 f s t d 的工作过程为:输入某一个句子( 句子定义为终结符连接成的串,比自 然语言中的“句子一外延要宽) ,则分析从起始状态出发,按f s t d 中的箭头所指 方向,一个状态接一个状态地扫描输入词,观察所输入词与相应状态弧上的标志 是否匹配,匹配的话则通过该弧。如果扫描到句子的终点,f s t d 进入结束状态, 那么就说,这个f s t d 接受了该句子,否则拒绝该句子。f s t d 实质上可以看成是有 限状态自动机的一个特例,它只能识别正则语言,所以用于自然语言显然是不足 的。 2 递归转移网络( r e c u r s i v et r a n s i t i o nn e t w o r k ,r t n ) 。自然语言中经 常存在一些嵌套结构,而在数学上已经证明f s t d 是不适合描述这些嵌套结构的。 于是,一个扩充后的f s t d 产生了递归转移网络r t n 。r t n 对f s t d 最主要的扩充 是,弧上的标志不仅可以为终结符,而且可以为指明另一个r t n 网络的非终结符。 r t n 的操作也与f s t d 类似,只不过当弧上标志为非终结符时,应将控制转到与该 非终结符相关联的r t n 网络上去,分析结束后( 成功或失败) ,控制重新交回原r t n 网络。 r t n 可以看成是下推自动机的一个特例,它具有识别上下文无关语言的能力。 但r t n 网络也明显存在着局限性。首先,它只是个识别器,而不是一个分析器, 只能指出输入的句子是否合法,而不能进一步产生对句子的结构分析;其次,不 能充分揭示句子成分之间的关系。 3 扩充转移网络( a u g m e n t e dt r a n s i t i o nn e t w o r k ,a t n ) 。鉴于r t n 的缺陷, 2 0 世纪8 0 年代,伍兹( w w o o d s ) 提出a t n 对r t n 进行扩充,它使用一系列寄存器 组( r e g i s t e r s ) 来存储在网络遍历过程中的信息( 如分析过程中产生的、关于 句子或成分的结构信息) ,从而使其具有记忆功能。a t n 的生成能力相当于图灵机 ( o 型语法) ,具有转换生成语法的生成能力。另外,除了用于生成,它还可以用 于分析。但其弱点也是明显的,a t n 是过程性的,而非描述性的。静态的数据与 动态的分析混淆在一起,不尽符合计算意义下知识组织的一般原则,随着结点的 7 现代汉语句型自动识别的研究 增多,计算的复杂性就会急剧地增长,修改时非常困难,修改一个很大的a t n , 往往会引起很多意想不到的副作用。这正是a t n 饱受争议的地方。同时,它对句 法的过分依赖限制了它处理某些符合语义但不完全符合语法的话语的能力“一训。 ( 三) 基于复杂特征结构的自动句法分析 根据乔姆斯基的短语结构语法,产生式具有a _ a 的形式,其中,a 是单独 的非终结符号,a 的标记只有一个。标记是句子中旬法特征的记录者。表示句子 结构的树形图中的每一个结点只有一个相应的标记,结点与标记之间的这种对应 关系,如果用单值标志函数l 来表示,可写成: l ( 硇= y 其中,x 表示结点,y 表示结点x 相应的标记。对应于结点x 的每一个值,标记y 只 有一个相应的值。这种单值标记函数表示的语言特征是十分有限的,因此分析能 力较弱,生成能力过强,常常会产生一些不合语法规律的句子或有歧义的句子, 这是短语结构语法的一个致命的缺点。 为了提高短语结构语法有限的分析能力,限制其过强的生成能力,2 0 世纪8 0 年代以来,出现了各种增强的短语结构语法。如“词汇功能语法”( l e x i c a l f u n c t i o ng r a m m a r ,l f g ) 、“功能合一语法 ( f u n c t i o n a lu n i f i c a t i o ng r a m m a r , f u g ) 、“广义短语结构语法( g e n e r a l i z e dp h r a s es t r u c t u r eg r a m m a r ,g p s g ) 、 “中心词驱动的短语结构语法 等嘲。这些语法都采用了复杂特征结构来改进短 语结构语法单一的特征,采用合一运算( “合一 是对复杂特征进行运算的方法) 来改进传统的集合运算,从而有效地克服了短语结构语法的缺点,保持了短语结 构语法的优点。 在汉语句子自动分析中,由于汉语句子中的词组类型( 或词类) 与句法功能 之间不存在简单的一一对应关系,如果仅仅使用词组类型( 或词类) 这样的单一 特征更是远远不够的。例如,一个n p 加上一个v p ,可以构成主谓结构( 如“小李 看书 ) ,但也可以构成偏正结构,如“程序设计 。中国学者很早就发现了这 个问题,冯志伟1 9 8 4 年提出了“多叉多标记树模型 ( m u l t i p l e b r a n c h e da n d m u l t i p l e 一1 a b e l e dt r e e ,姗t ) 1 ,使用多值标记函数来改进短语结构语法的局 限,所谓“多值标记 也就是“复杂特征 的概念。 在汉语句子的描述中,除了采用词类或词组类型这样的简单特征,还必须加 3 第二章汉语句型识别与自动句法分析的研究现状 入句法功能特征和语义关系特征,甚至还要加上词固有的语法和语义特征,才可 能比较全面地表达汉语句子中包含的语言信息。国内多特征融入的研究也不断有 人尝试,杨开城的基于句法语义特征的汉语句法分析器n 习、苑春法的基于语义知 识的汉语句法结构排歧n 3 1 等研究都很有价值。 ( 四) 基于依存语法的自动句法分析 依存语法又称从属关系语法,最早由法国语言学家特尼耶尔提出。其主要思 想反映在他1 9 5 9 年的出版的 :结构句法基础书中。依存语法认为,一切结构句 法现象可以概括为关联、组合和转位三大核心,其中,关联是句子的生命线。句 法关联建立起词与词之间的从属关系,这种从属关系是由支配词和从属词联结而 成的。动词是句子的中心,它支配着别的成分,而它本身不受其它任何成分支配。 直接受动词支配的有名词词组和副词词组,名词词组形成“行动元,副词词组 形成“状态元一。一个动词如果不支配任何的行动元,则为零价动词,如果支配 一个行动元,则为一价动词,如果支配两个行动元,则为二价动词,如果支配三 个行动元,则为三价动词。 依存语法提出后,产生了很大影响,受到了从事自然语言处理的语言学家们 的推崇。2 0 世纪7 0 年代,美国计算语言学家罗宾孙( j r o b i n s o n ) 提出了依存 语法中关于依存关系的四条公理: ( 1 ) 一个句子中只有一个成分是独立的。 ,。 ( 2 ) 其它成分直接依存于某一成分。 ( 3 ) 任何一个成分都不能依存于两个或两个以上的成分。 ( 4 ) 如果a 成分直接依存于b 成分,而c 成分在句中位于a 和b 之间,那么c 或 者直接依存于a ,或者直接依存于b ,或者直接依存于a 和b 之间的某一 成分。 2 0 世纪8 0 年代,舒贝尔特( k s c h u b e r t ) 在研制多语言机器翻译系统d l t 的 工作中,从计算语言学的角度出发,提出了用于计算语言学的依存语法1 2 条原则, 详细参见文献【1 9 】中的第八章节。9 0 年代后,我国中文信息处理研究者了解到依 存语法,才开始利用依存语法来进行汉语的自动化处理,并结合实践,提出了依 存关系第五公理h 1 劓: ( 5 ) 中心成分左右两边的其它成分互相不发生依存关系。 9 现代汉语句型自动识别的研究 与短语结构语法比较起来,依存语法没有词组这个层次,每一个结点都与句 子中的词相对应,它能直接处理句子中词与词之间的关系,而结点数目大大减少 了,便于直接标注词性,具有简明清晰的长处。同时,表示短语结构的树形图和 表示依存关系的树形图之间存在明显的对应关系,通过有穷的步骤,可以实现两 者问的转化,依存语法与短语结构语法具有等价性。h 1 ( 五) 基于概率的自动句法分析 无论是基于采用复杂结构特征的几种句法分析,还是基于上下文无关语法的 句法分析,都是基于规则的理性主义方法。当前,自然语言处理和机器翻译的新 趋势是将基于规则的方法与基于统计的经验主义方法结合起来,基于概率的句法 分析就是其中的一种。 概率上下文无关语法( p r o b a b i l i s t i cc o n t e x t - f r e eg r a m m a r ,p c f g ) ,又 叫随机上下文无关语法,这种语法是由布斯( b o o t h ) 1 9 6 9 年提出来的。 上下文无关语法可以定义为四元组 ,p ,s ) 。而概率上下文语法则在每一 个产生式彳专上增加一个条件概率p : a _ 历纠 这样,概率上下文无关语法就可以定义为一个五元组g = ,尸s ,研,其中d 是 给每一个规则指派概率p 的函数。这个函数表示对于某个非终结符号a 重写为符 号串时的概率。这个规则可写为: p ( a 专历 从一个非终结符号a 重写为时应该考虑一切可能的情况,并且其概率之和 应该等于1 。 一般存在两种途径可以给语法指派概率。最简单的途径是使用句子已经得到 分析的语料库,这样的语料库叫做“树库 ( t r e e b a n k ) 。如果已经加工并且建立 了一个树库,语料库中的每一句子都被剖析成相应的树形图,由于树形图中的每 一个终极结点及其所管辖的字符串所构成的子树相当于一条上下文无关语法中 的产生式,因此,可以对树库中的所有树形图中所体现出来的这些上下文无关规 则进行统计,就能得出一个概率上下文无关语法。树库质量越高,得到的概率上 l o 第二章汉语句型识别与自动句法分析的研究现状 下文语法越好。 一般上下文无关语法在识别句子时,只能给出“合法 和“不合法”两种回 答。这样的办法在分析真实语料时几乎寸步难行,因为在真实语料中,很多句子 的合法性很难判定,亦此亦彼。采用概率上下文无关语法就不仅可以处理合法的 句子,也能处理不合法的句子,对于那些在一般的上下文无关语法看来是例外的 语言现象,概率上下文语法赋予它们比较小的概率,但仍然承认它们存在的合理 性,这样的容错处理能力对于实用的自然语言处理系统十分必要h “毛1 6 1 。 2 2 2 浅层句法分析的几种策略 浅层句法分析的结果并不是一棵完整的句法树,但各个语块是完整句法树的 一个子图,只要加上语块之间的依附关系,就可以构成完整的句法树。所以浅层 句法分析将完全句法分析分解成了两个子任务:( 1 ) 语块的识别和分析;( 2 ) 语块 之间的依附关系分析。自然语言处理领域的研究一直在自觉或不自觉地尝试将完 全句法分析分解为几个易处理的子问题,逐步降低完全句法分析的难度,提高分 析效率。浅层句法分析使得完全句法分析的任务在某种层面上得到简化。 ( 一) 基于隐马尔可夫模型的浅层句法分析 隐马尔可夫模型( h i d d e nm a r k o vm o d e l s ,h m m s ) 是从语音识别中发展出来 的一种统计技术,它提供了一种基于训练数据提供的概率自动构造识别系统的技 术。一个隐马尔可夫模型包括两层:一个可观察层和一个隐藏层,这个隐藏层是 一个马尔可夫过程,即是一个有限状态机,其中每个状态转移都带有转移概率。 计算语言学家最早把隐马尔可夫模型技术应用于英语的词性标注并取得了 极大的成功,仅依靠简单的统计方法就可以达到9 5 左右的正确率。在词性标注 中,可观察层是词的序列,隐藏层是词类标记的序列,训练数据是标注好词性的 文本语料,经过训练的隐马尔可夫模型就成为自动标注器,它可以给包含词序列 的文本中的每个词标注上词类标记。 1 9 8 8 年,c h u r c h 进一步把删用于识别英语中简单的非递归的名词短语,他 把短语边界识别转化为一个在词类标记对之间插入n p 的左边界( ” ”) 和n p 的右边 界( ) 的问题。如果不考虑空短语( 即 ) 和短语的嵌套( 如” ”, ,” 等) ,那么在一对词类标志之间只有四种情况:( 1 ) ;( 2 ) ;( 3 ) ;( 4 ) 空( 即 现代汉语句型自动识别的研究 无n p 边界) 。进一步可以把最后一种分为两种情况:( a ) 无n p 边界但在n p 之内;( b ) 无n p 边界但在n p 之外。这样任意一对词类标记之间就只存在5 种可能的状态。 c h u r c h 的方法是:首先,在标注词性的语料中人工或半自动标注n p 边界,以此作 为训练数据,然后统计出任意一对词类标记之间出现以上5 种状态的概率。统计 得到的概率就成为短语边界标注的根据。这实际上把短语边界的识别变成了一个 与词性标注类似的问题h 1 。 国内,很多学者把该方法引进用来研究汉语短语识别,如奚建清等n 刀基于h m m 的汉语介词短语自动识别、徐建等n 钔利用改进h m m 模型进行短语识别、李荣n 们基 于h m m 的汉语非嵌套名词短语识别。 ( 二) 基于互信息、2 统计方法的浅层句法分析 互信息( m u t u a li n f o r m a t i o n ) 是信息论中的一个概念,它用来度量一个消 息中两个信号之间的相互依赖程度。二元互信息是两个事件的概率的函数: 尥( 硼= l o g :器 把词类序列看成随机事件,这样就可以计算一对词类标记之间的互信息。如 果x 和y 在一起出现的机会多于它们随机出现的机会,则p ( x ,y ) p ( x ) p ( y ) ,即 m i ( x ,y ) o ;如果x 和y 是随机分布的,贝j j p ( x ,y ) p ( x ) p ( y ) ,f f p m i ( x ,y ) o ;如 果x 和y 是互补分布的,则p ( x ,y ) p ( x ) p ( y ) ,即m i ( x ,y ) 完全分析和部分分析交叉研究 由于汉语直接进行完全句法分析难度太大,目前的大部分研究都从部分句法 分析( 语块分析、短语分析) 入手逐步构建完整的句法分析树。在研究方法上, 两者互相借鉴已有的成果。如,刘伟权等研究者提出逐步建立从短语到旬群的依 存关

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论