




已阅读5页,还剩61页未读, 继续免费阅读
(计算机软件与理论专业论文)利用短语抽取系统建设基于语义理解的知识库.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
东北大学硕士学位论文 摘要 利用短语抽取系统建设基于语义理解的知识库 摘要 汉语分析技术是中文信息处理的基础。目前,汉语词法分析技术已比较成 熟,但在词法分析之上的短语分析及句法分析仍然很不成熟。 究其原因,主要在于汉语是一种意合语言,语言表达上缺乏相应的语义结 构信息,在句法层面上难以得到比较合适的规律,从而很难进行深入的分析。 但是,汉语的短语本位语法理论认为:词组和句子的构造原则基本一致。 词组被包含在句子里时是词组,独立时就是句子。 因此,在句法分析领域,采用分而制之的处理思路,比较而言,更加符合 汉语语法语义的基本结构特征。进而,针对汉语短语结构的组块分析技术得到 了越来越广泛的应用。 在汉语的范畴内,不加严格限制的说,组块就是短语或者词组。所谓组块 分析,其基本思想是将完整的句法分析分为两个过程: 首先是组块的识别:从句子中识别出组块; 其次是组块之间关系的判断;将组块结合成句子。 本文介绍了一种基于层叠有限状态自动机的组块分析方法,理论上可以按 层次分析出句法结构树,或者句法结构森林。 在组块的识别过程中,主要依靠对于汉语短语的主观语言经验,定义分析 规则,同时利用分析预处理阶段得到的统计信息计算出局部互信息,用以验证 规则匹配后得到的结果。此外,这种组块分析方法还把判断组块之间关系的工 作融合在组块的识别过程中,当较高层次的组块被抽取出来以后,其内部较低 层次组块之间的关系就确定了。 对于本分析系统而言,最重要的子系统是定义规则和确定规则运行序列的 语言知识加工模块。本文设计了一些算法策略,用来考察和筛选运行效果较好 的规则,同时优化规则运行的序列。这对提高分析器的分析质量有很大的帮助。 本文另一个重要内容是定义了一种二元结构处理不同条件下的短语标注, 这种处理方法在实践上大大减少了规则的数量,使得对于规则以及规则作用序 列的优化成为可能。 最后,本文还设计了一种以上述分析器为核心,基于语义理解的知识库系 统,它定义了一系列数据结构,用来模拟真实世界的概念表达形式以及概念之 间的关系。并以此来记录加入了句法结构标记的中文文本中的语义信息。这必 将为自然语言处理的语义研究做出一定的贡献。 关键词:句法分析短语抽取组块分析互信息知识库语义理解 东北大学硕士学位论文 a b s t r a c t b u i l tak b sb a s e do ns e m a n t i c s b y c h i n e s ep h r a s e e x t r a c t i o ns y s t e m a b s t r a c t c h i n e s e a n a l y s i s i st h eb a s eo fc h i n e s ei n f o r m a t i o nt e c h n i q u e n o w , i ti s b e c o m i n g s u c c e e di nc h i n e s ea c c i d e n c ea n a l y z i n g ,b u tt h ep h r a s ea n ds y n t a xa n a l y s i s b u i l to ni th a v eb e e nf 盯t om a t u r ef o r 叩p l i c a t i o n t h er e a s o ni st h a tt h ec h i n e s ei sal a n g u a g eo f n os t r u c t u r e t h e r ea r ef e ws i g n a l s f o rt h es y n t a xs t r u c t u r ei nac h i n e s es e n t e n c e ,a n dt h e r e f o r et h e r ea r ef e w p r o p e rr u l e s f o rt h es y n t a xi nac o l r l r n o ns i t u a t i o n i ti sv e r yd i f f i c u l tf o rad e e p l ya n a l y s i s b u tt h e r ei sat h e o r yt h a tl o o k st h ec h i n e s ep h r a s e 嬲as t a n d a r df o rt h es y n t a x a n a l y s i s i th a ss a i dt h a tt h ep h r a s ea n ds e n t e n c ea r es a m ei nt h es t r u c t u r ep r i n c i p l e a n di ti sc a l l e dap h r a s ew h e ni ti sac o m p o n e n to f as e n t e n c e ,o ri ti s j u s tas e n t e n c e s oi tm o r ea n s w e rf o rt h em o s te s s e m i a lc h a r a c t e r so fc h i n e s es t r u c t u r et h a t a n a l y z e st h ec h i n e s es e n t e n c eb yd i v i d i n ga n dr u l i n g t h ec h u n kp a r s i n gt e c h n i q u e f o rc h i n e s es e n t e n c eh a sb e c o m eam a i n s t r e a m 1 1 i eb a s ei d e a lo f c h u n k p a r s i n g i st h a td i v i d eas y n t a xa n a l y z i n gf o rt w os t e p s : t h ef i r s ti sc h u n k i d e n t i f y i n g w h i c hd i s t i n g u i s h e dt h ec h u n k f r o mas e n t e n c e ; t h es e c o n di sd e f i n i n gt h er e l a t i o nb e t w e e nt h ec h u n k s i nc h i n e s e ,u s u a l l yt h ec h u n ki s j u s tap h r a s ei f t h e r ei sn o s t r i c tl i m i t i n gh e r ew e h a v e e n l a r g e d t h e d e f i n i n gf i e l do f c h u n k i n t h i sp a p e r , w e g e tam e t h o d o f f i n i t es t a t e c a s c a d ef o rc h u n kp a r s i n go nc h i n e s et e x t i tc a l lg e tt h et r e eo rf o r e s to fs y n t a x s t r u c t u r ei nt h e o r y f o rt h ec h u n ki d e n t i f l y i n g ,w em u s td e f i n et h er u l e sf o rp a r s i n gb a s e do no u r s u b j e c t i v ee x p e r i e n c ea n dp r a c t i c eo f c h i n e s e a n d a tt h es a m et i m ew eh a v et oc h e c k o u tt h em i s t a k e sb yu s i n gt h em u t u a li n f o r m a t i o nc o m p u t e df r o mt h es t a t i s t i cd a t a c o l l i ef r o mt h eo b j e c t i v ec h i n e s et e x tm a t e r i a l f o rt h ec h u n kr e l a t i o n , w ed e f i n et h er e l a t i o no fc h u n k sw h e n t h e ya r ei d e n t i f i e d i nf a c t ,w h e nau p p e rl e v e lp h r a s ew a si d e n t i f i e d ,t h er e l a t i o n sb e t w e e nt h el o w e r p h r a s e s i n s i d ei tm u s th a v eb e e nc l e a r t oo u ra n a l y z i n gs y s t e m , t h em o s ti m p o r t a n ts u b s y s t e mi st h ec h i n e s el e a r n i n g m a c h i n i n gm o d u l et h a t d e f i n e st h er u l e sf o rp a r s i n ga n dg e t st h ep r o p e ro r d e rf o r 东北大学硕士学位论文a b s t r a c t r u n n i n gi nt h i sm o d u l e ,w ed e s i g n e daa l g o r i t h ms t r a t e g yt os e l e c tt h ep r o p e rr u l e si n i t sp r o p e rr u n n i n go r d e r t h i sw i l lh e l pt h ea n a l y z e rg r e a t l y t h en e x ti m p o r t a n tc o n t e n ti nt h i sp a p e ri sw eh a v ed e f i n e dt h ed u a l i s t i cs t r u c t u r e a st l l ep h r a s e1 a b e ls e tw h e ni tu s e di nt h ed i 髓rc o n d i t i o nt h i sd i s p o s a lc a nd e c r e a s e t h ea m o u n to ft h ee x p r e s s i o nf o rr u l e s g r e a t l ya n dt h i s w i l lm a k ei t p o s s i b l et h a t o p t i m i z i n gt h er u l e sa n d t h e i rr u n n i n go r d e r s a tl a s t ,w ed e s i g n e da k b s ,w h i c hi sar e p o s i t o r ys y s t e mb a s e do n t h ea n a l y z e ri n p r a c t i c e a n ds e m a n t i c si na r c h i t e c ti d e ai th a sd e f i n e ds o m ed a t a s t r u c t u r ef o r s i m u l a t i n gt h ec o n c e p te x p r e s s i o nf r o mt h er e a lw o r l da n d t h er e l a t i o n sb e t w e e nt h e s e c o n c e p t s a n d i tc a nr e c o r dt h es e m a n t i ci n f o r m a t i o nf r o mt h o s ec h i n e s et e x t sh a v i n g b e e nl a b e l e dt h es y n t a xi n f o r m a t i o nt h i sw i l lc o n t r i b u t et h es e m a n t i cr e s e a r c hi n m p k e yw o r d s :s y n t a x a n a l y z i n g m u t u a li n f o r m a t i o n d r a wo u t p h r a s e c h u n k p a r s i n g k b ss e m a n t i c s i v 东北大学硕士学位论文 声明 声明 本人声明所呈交的学位论文是在导师的指导下完成的。论文中取得的研究 成果除加以标注和致谢的地方外,不包含其它人己发表或撰写过的研究成果, 也不包括本人为获得其它学位而使用过的材料。与我一同工作的同志对本研究 所做的任何贡献均已在论文中作了明确的说明并表示谢意。 本人签名: 日期: 东北大学硕士学位论文 第一章绪论 1 1 课题的研究目标 第一章绪论 本课题的主要研究目标是:在已经进行分词和词性标注的语料上,按照主观 目的要求进行短语抽取,获取尽可能多的短语结构模式和其上的全部短语实例。 为建立短语信息库、短语聚类库甚至知识库积累材料。或者为汉语研究专家提供 一个处理平台,使他们可阻把自己感兴趣的语言现象或语言规律( 在一定程度上 可以进行形式化描述) 从语料库中提取出来。 此外,在获取语料库中短语资源的同时,可以尽可能的对语料进行句法分析, 当句法分析进行到较高程度的时候,可以在原先只有词性标注的语料上加入大量 短语句法标记,为把语料改造成大型树库打下良好的基础,这一目标可以看作是 短语抽取工作的一个副产品。 1 2 课题的提出背景 随着由新技术,特别是信息技术带来的全球化浪潮的进一步升级,信息交 流在时间和空间上已经不存在很多问题,但对于交流的媒介语言,却难以有 较大的突破。中文信息处理相对于其它语言来说更是困难重重。到目前为止,仍 处于打基础的阶段。本课题的工作就是尝试着为中文信息处理的基本建设做一些 探索。 本文所探索的汉语分析方法处于汉语分析技术的句法分析层面,它是中文信 息处理的基础之一。 1 2 1 汉语分析的基本概念和发展现状 所谓语言的分析,就是将一个句子分解成一些小的组成部分( 词、短语等等) 并了解这些部分之间的关系,从而帮助我们把握这个句子的意义。 语言的研究,一般而言存在四个层面:词法层、句法层、语义层和语用层。 同样,语言的分析也存在四个层面:词法分析、句法分析、语义分析和语用分析。 目前,汉语词法分析技术已比较成熟,汉语分词与词语标注都可以达到9 0 以上的准确率,但在词法分析之上的短语分析及句法分析仍然很难进入成熟应用 阶段。而语义分析和语用分析更是处于起步的探索阶段。 东北大学硕士学位论文第一章绪论 1 2 2 汉语与其它语言的比较 汉语分析难度很大,究其原因,概括地说,主要在于汉语是一种意合语言, 语言表达上缺乏相应的语义结构信息,大多数表达只是词或短语的直接搭配连 接,在句法层面上难以得到可以指导实践的规律,从而难以进行深入的分析。更 具体地说,汉语是一种孤立语( 又称分析语) ,与作为曲折语和黏着语的其它一 些语言相比,汉语在语法上有一些特点,仅仅从形式上看,这种特点主要体现在 以下几个方面: l 汉语的基本构成单位是汉字而不是字母。常用汉字就有3 0 0 0 多个 ( g b 2 3 1 2 一级汉字) ,全部汉字达数万之多( u n i c o d e 编码收录汉字 2 0 0 0 0 多) ; 2 汉语的词与词之间没有空格分开,也可以说,从形式上看,汉语中没有“词” 这个单位; 3 汉语词没有形态上的变化( 或者说形态变化非常弱) ,同一个词在句子中 充当不同语法功能时,形式是完全相同的; 4 汉语句子没有形式上唯一的谓语中心词。 这些特点对汉语的分析造成了一定的影响,使得汉语分析呈现出和英语( 以 及其它一些语言) 不同的特点。 1 2 3 短语结构在汉语的结构特征中占有重要地位 虽然汉语分析与其它语言有很大的不同,但是,汉语的分析也不必完全另起 炉灶,很多语言学家( 短语本位语法体系的学者) 认为,在汉语里,词、词组和 句子的各种特征虽然比较特殊,结构也比较复杂,但其中短语和句子的构造原则 基本一致。短语在汉语的实践上起到承上启下的作用。下面引用几条相关的论述: “在汉语里,词组和句子的构造原则是一致的。词组被包含在句子里时是词 组,独立时就是句子。所有的句子都看成是由词组形成的。” 引自朱德熙语法答问6 8 页,商务印书馆1 9 8 5 。 “由于汉语的句子的构造原则跟词组的构造原则基本一致,我们就有可能在 词组的基础上来描述句法。这就是说,我们可以把各类词组( 主谓、动宾、动补、 偏正、连动等等) 作为抽象的型来研究它们的内部结构以及作为一个整体在更大 的词组里的分布状况,而不急于把它们跟具体的句子联系起来。特别是不把它们 钉死在句子的某个成分上。如果我们把各类词组的结构都足够详细地描述清楚 了,那么句子的结构实际上也就描述清楚了,因为句子不过是独立的词组而已。” 引自朱德熙( 语法分析和语法体系) ,语法丛稿1 5 9 页,上海教育 出版社1 9 9 0 。 “朱德熙先生关于汉语是以词组( 即短语) 为本的论点已得到广泛的赞同。尽 管由于语序的变化及虚词的取舍,汉语句子干变万化,但短语结构却是相对稳定 2 查! ! 查堂堡主堂焦笙奎苎二兰竺堡 的。在建立汉语句子分析与生成的语法模型的目标确立之后,又有了语法电子词 典的坚实基础,汉语短语结构的研究可以说是到达彼岸的桥和船。” 现代汉语短语本位语法体系在机器翻译中的应用及其问题,詹卫东, 常宝宝,俞士汶。 由上面的介绍,短语结构的分析研究在汉语分析中有着特殊的重要作用。 1 2 4 对汉语短语的研究与现代汉语短语信息的抽取 综上所述,在句法分析领域,采用分而制之的处理思路,比较而言,更加符 合汉语语法语义的基本结构特征。随着语料库语言学的迅速崛起和发展,许多学 者开始关注面向自然语言处理的现代汉语短语信息库的建设以及短语结构方面 的研究。这方面,主要的思想如下所述: 按照乔姆斯基的理论模式,人的语言知识的基础部分包括语法规则和词典两 个部分。但是,在自然语言中普遍存在着一些大于词的单位( 词的组合) 不能用 语法规则来处理。而且近年来,计算语言学家逐渐认识到,不能把语言知识严格 地分为词典和语法规则两部分。在词语和句子之间,短语的结构研究处于十分重 要的地位。 词的组合是一个连续体,其两极分别是固定短语和自由短语,中间有一段模 糊地带,可以称为半固定短语。在汉语中,固定短语包括成语和惯用语,它们已 经在传统的词典中占有一席之地,尽管其范围还不是十分清楚。自由短语就是可 以用规则加以简单描述的,如“一个人、买东西、去上海”等。处于模糊地带的 半固定短语,有人称之为词语搭配,有人称之为词汇化短语,如“收信人、经济 效益、规章制度、基本工资、打电话、办丧事、挖掘潜力”等,这些组合有自己 的语法结构,也可以用规则加以描述。但是,这些短语具有一定的凝固性。例如: “踢足球”,“弹钢琴”,“敲键盘”等,其动词与动词所带的宾语有较强的关联, 使用者稍不留意就会出错,比如说成“敲钢琴”或者“弹键盘”,而且其错误的 定义往往是“没有这样说的”。 这种现象经常体现在人们通过主观努力把客观事物映像成语言的过程,即语 言习得的过程中。在这个过程中,不论是第一语言习得还是第二语言习得,都经 历了一个不断修正,不断积累的演变阶段。甚至在语言习得基本结束后,还会经 常犯“没有这样说的”错误。 在此基础上考虑属于人工智能领域的基于自然语言理解的知识获取、机器学 习、知识表达等技术,也必然要经历一个把客观世界知识( 自然语言) 转化为机 器主观知识( 机器语言) 的过程。在这个“机器习得”的过程中,对语言中短语 知识的学习起到了重要的承上启下作用。 由此可见,词语搭配或词汇化短语应该是除了词和语法规则之外的另一类重 要的语言知识,无论是对语言教学还是对计算机的自然语言处理,词语搭配或词 东北大学硕士学位论文第一章绪论 汇化短语的知识都是十分重要的资源。为了提高中文信息处理的水平,建立大规 模的汉语短语信息库的工作是十分必要的。 在短语信息库的建设方法上,有一个基本的共识:就是要通过知识获取和 机器学习等技术,结合现有的已标注语料库,自动或半自动的抽取出大量的短语 信息。这是短语信息库的重要资料来源。 本课题就是在这一背景下,试图用基于层叠有限状态自动机的组块分析方 法,结合己进行过分词和词性标注的语料的统计信息,有目的的对些语料中出 现的短语进行抽取,同时在原语料上加入短语边界标记和标准的短语信息标记, 在一定程度上实现部分的句法结构分析。 1 3 关于句法分析与组块分析算法的基本概念 词法分析的作用是在字符串中划分出词,而句法分析的作用是了解这些词 之间的关系。所以,句法分析的输入是一个词串( 可能含词性等属性) ,输出是 句子的句法结构。 1 3 1 句法分析与句法结构树 为了形式化的描述句法分析的过程,我们举例如下: 他哥哥的同学昨天在书店买到一本新出版的好辞典a 他哥哥的同学b 他哥哥的同学 0 昨天在书店买到一本新出版的好辞典c ,f 昨天在书店买到d本新出版的好辞典e 、 昨天在书店买到f一本g 新出版的好辞典h 、以、 在书店i买到一本新出版的好辞典j f 、 在书店好辞典 图1 1 句法分析树 可以看到,箭头的方向体现了通常分析句子的思路,自顶向下,先确定主 语和谓语结构,然后对每种结构再进一步细分,直到句子中每个词都出现在确定 的位置上,词与词之问的关系也全部体现出来。 显然,分析的过程就是一棵分析树,整个句子共递归分解成用a j 标注的 1 0 个词组的非叶节点。结构逐渐简单: 4 东北大学硕士学位论文 第一章绪论 b ,e ,h ,j 为名词性词组n p ; i 为介词词组p p ; g 为数量短语m p ; c ,d ,f 为动词词组v p : a 为整句2 j ; 而叶子节点则可以看作词。中序遍历所有的叶子节点,可以复合成原来的 句子。 语言学家通常对于词和词组能否这样处理和区分,仍然有不同的争论,但 对于计算语言学而言,上面例子所呈现的结构可以带来许多处理上的便利,是常 见的分析模型。即通常句法分析所得到的结果是一棵树( 对应于单句) 或者树的集 合森林( 对应于复句或句群) 。 至于句法分析到底采用哪种形式语法体系结构和标注符号集合,不同的系 统有不同的处理。这个例子里,只是定义了各种短语,其中笼统地把以名词为中 心的短语定义成名词性短语n p ,把以动词为中心的短语定义为动词性短语、,p 。 严格来说这个例子只是简单的抽取出句子中蕴含的短语结构和句子的简单结构 信息,并没有分析出完整的句子语义和语法信息。 但是,对于汉语短语抽取的任务而言,显然我们更关心的是句法拓补结构 的分析。下面我们以另一种形式描述句法分析树。 具体来说,对于句法拓补结构的分析实际上就是通常所说的句子结构分析, 即把句子的结构信息以树形结构表示出来。 例如,对于例句( 1 ) 中给出的汉语句子: 我的弟弟给了他一本书。( 1 ) 利用语言分析中常用的直接成分分析法进行分析,可以得到这样的分析结 果: 【我的弟弟】【 给了】他【一本】书珈。】( 2 ) 这里中括号的嵌套关系清楚地体现出句子的树形层次关系。 显然,如果输入句子没有句法歧义,即存在一棵唯一的分析树。则句中每个词 所处的边界位置应是唯一确定的。但当输入句子存在句法歧义时,旬中某些词所 处的成分边界位置则包含多种可能性。例如下面这个著名的例子: 咬死了猎人的狗( 3 ) 【咬死了】【猎人的狗】( 3 a ) 【咬死了】猎人】的狗】( 3 b ) 对于例句( 4 ) 中所示的句子片段,由于存在着两种合理的分析结果:例句( 5 a 1 和( 5 b ) ,从而使名词“猎人”具有两种可能的成分边界位置换言之,例旬( 4 ) 可以被分析为两种句法结构树看一个句子是否出现了分析歧义,只要看是否有 某一个词具有两种可能的成分边界 东北大学硕士学位论文第一章绪论 1 3 2 乔姆斯基层次语法体系 所谓乔姆斯基层次体系,指的是乔姆斯基定义的四种形式语法,这四种语法 所产生的语言依据包含关系构成了严格的层次体系。 在乔姆斯基的语法层次体系中,一共定义了四种层次的形式语法,这四种语 法可统称为短语结构语法( p s g ) 。 乔姆斯基语法层次体系中的四种语法形式具体说明如下: 层级语法识别自动机 i 0 型不受限短语结构语法图灵机 1 1 型l 上下文敏感语法 线性有界自动机 2 型:上下文无关语法1 下推自动机 1 3 型正规语法有限状态机 表1 1 乔姆斯基语法层次体系 乔姆斯基四种形式语法所导出的语言具有以下的包含关系: 正规语法的语法形式最严格,生成的语言晟简单,分析起来也最容易( 时间 复杂度是线性的) ,可以用有限状态自动机进行分析。 上下文无关语法虽然不足以刻划自然语言的复杂性,但由于其形式简单,分 析效率高( 多项式时间复杂度) ,实际上是句法分析中使用最广泛的一种语言形 式。后面将要介绍的本课题所讨论的句法分析算法就是基于上下文无关语法的。 上下文敏感语法分析的时间复杂度是非多项式的( n p 问题) ,而0 型文法的 分析甚至不是一个可判定性问题( 实际上是一个半可判定问题) ,所以这两种语 法形式在实际中都无法得到应用。 0 型语法 1 型语法 2 型语法 3 型语法 图1 2 乔姆斯基语法层次体系 6 东北大学硕士学位论文第一章绪论 1 ,3 3 组块分析算法 由于从词直接到句子的句法分析的效果总是不理想,于是有人开始考虑用 “分而制之”的方法来解决句法分析的问题。其基本思想是将完整的句法分析分 为两个过程; ( 1 ) 组块的识别:从句子中识别出组块并进行块内结构的分析; ( 2 ) 组块之间关系的判断:将组块结合成句子。 现在一般所说的组块分析、语块分析、浅层句法分析、部分句法分析等等, 都是指的前一个阶段,也就是组块的识别的工作。是近年来自然语言处理领域中 出现的新的语言处理策略,是相对于完全句法分析的,即不要求得到完整的句法 分析树,只要识别出一些结构相对简单的语块。 组块( c h u n k ) 实际上也就是一种短语。组块的定义,具体到每一种语言都 不尽相同。a b n e y ,把英语的组块定义为“从句范围内的一个非递归的核心成分”。 这种成分包含中心成分的前置修饰成分,而不包含后置附属结构。由于短语按照 上面所引用的论述,是介于词与句子之间的一类自由结构,我们可以从概念上把 握,定义三个集合,分别是词集合w s 、短语集合p s 和通常意义下的句子s s 集 合。则存在下面的关系( 符号“ ”和“主”分别表示真子集和子集) : w s p s 堇s s 按照周强的提法,a b n e y 定义的c h u n k ( 组块) 以及通常意义上的短语( p h r a s e ) 具有以下关系: c h u n k tw 对于l 1 层来说,对其作用的转换模式集合为:( t + t = t :t p ;) ,冒号左边的t 针对下面的词性标注信息,冒号右边的t p 针对语料原文的标注。 观察l 1 层的处理结果,已经抽取出两个时间短语,但是对于抽取全部可能 的时间短语的任务来说,并没有实现完全抽取。 l 2 :明天 气象预报 n p ( 5 月1 日 t p20 时 t p 一 5 月2 日 t p 20 时 t p ) d l c t 1 1 _ wtwtw 这样,在l 2 层,转换模式集合为:( n + v n = n :n p :t + t = t :t p ) ,实现了 时间短语进一步的抽取。 下面类似在前两层的处理,如果在l 3 层,我们设定转换模式集合 ( t + w ( 一) + t = t :t p ) ,其中“w ( 一) ”表示短划线标点符号,则可以实现这个例子 中独立成分内部的完全递归分析。对于这部分内容来说,就形成了这样一颗完整 的句法结构分析树,标注如下: ( 5 月1 日 t p20 时 t p 一 5 月2 日 t p20 时 t p t p ) d l c 从抽取短语的角度考察,共抽取了5 个时间短语: “ 5 月1 日 t p 5 月2 日 t p 5 月1 日 t p 2 0 时】t p 5 月2 日】t p 20 时】t p 5 月1 日 t p 20 时】t p 一 5 月2 日 t p20 时 t p t p ” 这五条短语,体现出三种时间短语结构,分别描述如下: “t + t = t p t p + t = t p t p + w ( 一) + t p = t p ” 显然,对于所抽取出来的短语的结构,可以方便的从负责抽取他们的转换模 式里得到。 从上面的介绍可以看到,考察最普通的情况,利用层叠有限状态自动机的分 析方法,在有目的指导和有效的主观经验指导情况下,对于短语抽取和句法分析, 都可以比较出色的完成任务。 这样,理论上通过在不同的分析层次上,灵活的分配最恰当的转换模式集合, 就可以实现完整的句法拓补结构分析,以及抽取出句子所蕴含的全部短语结构。 2 1 1 2 句法关系分析 对于句法关系的定义,主要看分析算法所采用的具体的形式语法体系。但对 于组块分析而言其本质上是要定义组块之间的语义关系。 1 3 东北大学硕士学位论文第二章构造分析器 按上一章介绍组块分析的基本概念时所提到的,组块分析实质是把整个句法 分析过程分为两个阶段,一是组块的识别,这在句法拓补结构分析时已经实现; 二是组块关系的判断,也就是现在所讨论的句法关系分析。 它包含两方面关系的判断处理: 1 组块内部关系的分析。重新考察在层叠有限自动机分析器中组块的识别 过程,显然,组块内部关系就体现在识别组块的转换模式中。 2 组块之间关系的分析。具体来看,考虑到这里的组块分析过程是递归实 现的,则几个组块之间的关系主要体现在他们以怎样的形式组成上一级 的组块。这样,在抽取和标注好底层的短语以后,底层短语之间的关系 就体现在他们上一级短语的内部结构之中。 由上面的介绍,我们可以看出,整个句法关系分析在句法拓补结构的分析过 程中已经有了体现,在这里需要做的,就是尽可能的把句子分析成完整的句法结 构树,同时在组块( 短语) 的抽取过程中,要保存他们所适用的转换模式。 2 1 2 对转换状态模式的深入分析 从上面对于组块策略的阐述来看,分析过程之所以能够顺利完成,主要在于 分析过程中的转换模式。 对于转换模式,从宏观上看,实质是对于中文语言现象的高度概括和形式化 描述。考虑到在分析过程中,在必要的时候不仅需要匹配词性的标注信息,还有 可能用到其它的语料信息,例如上例中的“t 押卜) + t = t ;
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年浙江宁波市鄞州人民医院医共体东柳分院招聘编外人员1人模拟试卷及一套参考答案详解
- 2025年芜湖市第三城市医疗集团成员单位招聘15人模拟试卷带答案详解
- 2025年济宁市市直卫生健康系统“校园双选会”笔试考前自测高频考点模拟试题及1套参考答案详解
- 2025年福建省漳州市医院招聘若干人模拟试卷附答案详解(突破训练)
- 2025内蒙古镶黄旗蒙金矿业开发有限公司招聘25人考前自测高频考点模拟试题及答案详解1套
- 2025福建亿力集团有限公司所属单位招聘98人考前自测高频考点模拟试题及完整答案详解
- 2025海南琼中黎族苗族自治县消防救援大队补录政府专职消防员2人模拟试卷及答案详解(名师系列)
- 2025年台州湾新区卫生事业单位公开招聘卫技人员2人模拟试卷及1套参考答案详解
- 2025广东中山市中山翠亨新区翠雅学校初中教师招聘17人考前自测高频考点模拟试题及答案详解1套
- 2025届东风物流集团股份有限公司校园招聘笔试题库历年考点版附带答案详解
- 统计诚信培训课件
- 大学语文知到智慧树章节测试课后答案2024年秋南昌大学
- 凉菜岗位职责
- DB11-T 344-2024 陶瓷砖胶粘剂施工技术规程
- 《《中央企业合规管理办法》解读》课件
- 药学本科毕业论文范文
- 锅炉节能器施工方案
- 《食品厂员工绩效方案》
- 工程人员驻场服务方案
- 汽车智能技术与应用 教案全套 朱升高 项目1-10 智能网联汽车技术介绍- 车载嵌入式操作系统应用
- 产品方案设计模板
评论
0/150
提交评论