




已阅读5页,还剩46页未读, 继续免费阅读
(计算机应用技术专业论文)汉语中基于短语结构的语义提取.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 在自然语言处理中,关于任何一门语言的语法分析问题都是一个难题和研究 热点。目前,针对一些西方语言的语法分析取得了很大成就,并且,人们总结出 了一种适用范围比较广的方法:建立句法树分析方法。由于汉语的语法结构比较 松散,而且汉语的语义理解对句法的依赖不强,因此,与西方语言相比,建立句 法树的方法在汉语中适用范围不广。 针对汉语的语法特点和现实运用中的需求,本文提出一种基于短语的解决模 型和一个实现此模型的系统。在本文中,我们将指出,提出短语的方法有强有力 的理论支持。短语在汉语结构中是可扩展的结构,通过它,能更容易地得到句子 进一步的语法结构。在提取短语这一层次上,将短语的语义进行合理的组合,这 样就能够获得对文本足够充分的语义,这将能满足我们对大规模文本处理的需 要。 与经典的建立句法树的方法相比,提取短语具有可选择性。这样,能根据需 求,只提出与我们工作目的相关的短语。从而,提取短语的方法能减少系统工作 量。 本方法有较广的适用前景。它可以作为更进一步语法分析的前期工作,在后 期的工作中,我们将直接使用短语分析时得到的语法信息。此外,它的语义信息 也能够直接被利用。在许多情况下,如功能更强大的搜索工具、自动问答系统等, 短语的语义对它们已经足够了。 本论文阐述的重点是,我们把短语分析作为汉语自然语言处理的一个独立的 层,它位于分词及标注之上,语法分析之前。它能够提供语法及语义信息。 关键词:自然语言处理语法分析短语结构语义提取 a b s t r a c t i nt h er e a l mo f n l p , t h es y n t a c t i ca n a l y s i so fa n yl a n g u a g ei sad i f f i c u l ta n dh o t p r o b l e m w eh a v ed i s c o v e r e ds o m es t r a t e g i e st od e a lw i t ht h i sp r o b l e m i nw e s t e r n l a n g u a g e s ,s u c ha st h eg e n e r a l l ya p p l i c a b l em e t h o d :t oe s t a b l i s hr e s p e c t i v es y n t a c t i c a l t r e ef o re a c hs e n t e n c e h o w e v e r , c h i n e s el a n g u a g ei ss e tu po nal o o s e l yc o n s t r u c t e d g r a m m a t i c a la r c h i t e c t u r e ,a n d ,i t ss e m a n t i ci n f o r m a t i o ni sm o r ei n d e p e n d e n t o ft h e g r a m m a t i c a ls t r u c t u r e a sar e s u l t ,t h es y n t a c t i ct r e eo fc h i n e s el a n g u a g eo f f e r sl e s s a c c u r a t ea n dl e s su s e f u li n f o r m a t i o nt h a nw e s t e r nl a n g u a g e s c o n c e r n i n gt h ec h a r a c t e r i s t i co f c h i n e s el a n g u a g ea n dn e e do fi t sa p p l i c a t i o n s , w e p r o p o s e i nt h i sp a p e ra l la p p r o a c ha n das y s t e mw h i c hi m p l e m e n t si tb a s e do nt h e m e t h o do fe x t r a c t i n gp h r a s e sf r o mt e x t i ti sa l s os h o w ni nt h i sp a p e r t h a tt h i s a p p r o a c hi ss u p p o r t e db yr o b u s tt h e o r i e s t h ep h r a s es t r u c t u r eo f c h i n e s el a n g u a g ei s a ne x t e n s i b l eo r g a n i z a t i o n ,t h r o u g hw h i c hw ec a nm o r ee a s i l yo b t a i nt h es t r u c t u r eo f a s e n t e n c e w ea l s oc a l lo b t a i ns u f f i c i e n ts e m a n t i ci n f o r m a t i o nf r o mt h et e x t ,w h i c hw i l l s a t i s f yt h el a r g e s c a l a rp r o c e s s i n go ft e x t , a f t e rw e c o m b i n et h ei n f o r m a t i o no b t a i n e d f r o mt h ep h r a s e so fap i e c eo ft e x t c o m p a r e dw i t ht h ec l a s s i cm e t h o d ,w h i c hn a m e l yi s e s t a b l i s h i n gs y n t a c t i c a l t r e e ”,t h ee x t r a c t i o no fp h r a s ei sc o n f i g u r a b l ew i t ha r g u m e n t ss oa s t oa d j u s ti tt od o n om o r e w o r kt h a ng e t t i n gg r a m m a t i c a la n ds e m a n t i ci n f o r m a t i o nt h a tw en e e d b y m e a n so fi t ,w ec a nd e c r e a s et h eq u a n t i t yo fw o r kt h a tw em u s td o t h i sm e t h o di sa p p l i c a b l ei nb r o a da r e a i tc a nb eu s e da sf o r m e rs t a g ef o r c o n c r e t es y n t a c t i ca n a l y s i sw h i l ew eu s ea f t e r w a r d st h i sg r a m m a t i c a li n f o r m a t i o n d i r e c t l y t h es e m a n t i ci n f o r m a t i o nw h i c hi sg e n e r a t e db yt h em e a n t i m ec a na l s ob e u s e d i nm a n yc i r c u m s t a n c e ,t h i ss e m a n t i ci n f o r m a t i o ng e n e r a t e di nt h el e v e lo f p h r a s es t r u c t u r ei ss u f f i c i e n tw h e nt h es y s t e m s a r eu s e df o ra u t o m a t e da n s w e r i n g s y s t e m ,s o p h i s t i c a t e ds e a r c h i n ge n g i n e ,e t c k e yw o r d s :n l p , s y n t a c t i c a la n a l y s i s ,p h r a s es t r u c t u r e ,s e m a n t i ce x t r a c t i o n 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的 研究成果,除了文中特别加以标注和致谢之处外,论文中不包含其他人已经发表 或撰写过的研究成果,也不包含为获得叁注盘堂一或其他教育机构的学位或证 书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中 作了明确的说明并表示了谢意。 学位论文作者签名:刁纫i 丐防 签字日期: z 护。7 年月2 f 日 学位论文版权使用授权书 本学位论文作者完全了解苤鲞盘堂有关保留、使用学位论文的规定。 特授权丕鲞盘鲎可以将学位论文的全部或部分内容编入有关数据库进行检 索,并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学校 向国家有关部门或机构送交论文的复印件和磁盘。 ( 保密的学位论文在解密后适用本授权说明) 学位论文作者签名: 杨瞒 签字日期: 加d 7 年 月27 日 导师签名蟓巨皮 签字脯:砷年月刁同 第一章当前发展状况及运用范围 第一章当前发展状况及运用范围 1 1 本文讨论的工作 对文本做自然语言处理的经典模型,从底层往上看,大致涉及到:词汇表的 建立、词语的识别、语法分析、词语的合成处理、语义解释等等【l j 。迄今的大量 研究和成果都集中在自然语言处理的底层上,包括:建立完善有效的词汇表、识 别词的变格变位( 主要是西方语言) 、词语的切分( 主要是东方语言) 、词语层次 上的歧义消除、词语的词性标注等等。同时,在自然语言处理的许多子领域和用 到自然语言处理的其它学科中,对文本做处理时,几乎都要涉及到底层的这两步: 词汇表的建立和词语的识别。在此之上的处理,不同的系统常会结合自己的需求 设计自己的算法。 以针对汉语的自然语言处理的研究为例,其重点工作集中于以下方面:语言 最小单位识别,句子界定,词语切分,词性标注,句子的语序确定等【2 】。前四项 都属于词汇表的建立和词语的识别这两个领域。受益于这些成就,高一个层次上 的工作,即语法分析,正是现在的热点p j 。在这方面,迄今还没形成像前两个层 次上那种广泛的,很有效的,几乎是所有与之相关的工作都会用到的方法,建立 句法树的方法 4 1 是诸多方法中最经典的一种,但实际中,对它的运用有限。本文 试图指出,单独的短语分析和提取在汉语的句法分析中有重要地位;将它提升为 句法分析中的一个层,它能成为一个有用的工具,能扩大句法分析,特别是基于 短语的语法分析,在诸多文本处理领域的运用范围。 1 2 短语提取方法所涉及的工作 短语提取方法是在“句法分析这一层次上的,因此,在它之前,必须完成 的工作有:词汇表的建立和分词这两大部分工作。 由于本方法在处理过程中,不仅会涉及到文本中词语的语法信息,如,词语 的词性,它们的配价可能性等,这些将在通过语法解释提出短语时用到。此外, 还要用到其语义信息。在短语提取的过程中,我们将短语视作一个“语义上合乎 逻辑的组合 来处理。通过语义来提出短语是文中重点强调的方法。因此,有必 要用到词语的语法及语义信息。在设计词汇表时,我们要选择包括此二者信息的 第一章当前发展状况及运用范围 词汇系统。 分词是下一层次的工作。在对文本分词结束后,将从词汇表中获取相关信息, 从而标注出文本的语法属性( 如它的词性等) ,建立它与其语义间的联系。此时, 还将处理文本中出现的未录入词。为了下一步工作的需要,要为每一个词语建立 一个集合,集合的范围是与此词相关的语义在知识体系中所覆盖的实体。这样, 借助它,能判断它与别的词语之间的语义关系,例如判断:“汽车是一种“交 通工具 。通过词语的“语义集 ,我们进而确定短语的语义,从而判断一个短语 是否“合理”。进行文本的相似度计算就是在此时完成的。 接下来,对文本多趟地扫描,提出文本的短语。提出短语的方法主要分为两 大类:基于语法结构的方法以及基于语义的方法。实际中,有些方法是既要用到 语法信息又要用到语义信息的,如文中提到的“配价法 提出动词短语。 在短语信息提出后;我们将所提出的短语的信息进行存贮,此外还将建立对 短语间的语义信息的关联。 1 3 本论文的结构 在论文的第二章中,介绍将要使用的词汇表的情况,在这一章中,我们说明 我们方法对词汇的要求。在第三章中,讨论了分词的方法。对文本的标注,未录 入词的处理也在这一章说明。第四章从理论上说明以短语为手段对文本进行语法 分析是可行的,这章中,还将指出它的优缺点,对提出短语要使用到的方法进 行讨论。在第五章里,就系统的实现进行阐述,最后,在第六章中,指出相关的 后期工作。 第二章词汇表的实现 2 1 词汇表的特点 第二章词汇表的实现 它是所有与自然语言处理相关的工作的基础。建立词汇表从计算机技术角度 上看,这很简单,通常是以数据库表格的形式存放。根据实际需要,它的词汇量 可大可小,从数万条到上百万条不等。从它的语言知识含量的角度上看,建立实 用的词汇表很困难。每一门自然语言的词汇量都相当大,并且词汇是语言中最活 跃的一部分。 以新词语的识别为例,实际使用语言中,新的词语不断出现。许多新词语在 一门语言中出现时,它通常是经历这么一个过程:某个新事物、新概念出现于生 活中,然后一部分人给它命名,如果大众认可它,它则可以作为一个新词加入词 汇中。也就是说,个新的词语被认可时,它必须有一定的社会认同基础,在这 一时期内,它往往会被人们经常且广泛地提及,此时,它在语言中的使用频率也 是比较高的。同时,在某个新事物出现的初期,人们对它的认识、看法也是多样 的,不同的人群对它的命名不同,对它的理解,对此词的外延的认识也不同。这 样,当一个词语伴随某个新的概念出现时,由于词汇表的滞后性,必须由计算机 的智能系统完成对它的识别过程,此时,其难度往往很大。 计算机自然语言处理的实际运用中,我们使用的词汇表常常是具有相当详细 的内容记录的。为了进_ 步工作的方便,现在一般使用带有详细语义、讲法信息 的语汇表。除非是专用的词汇表,现在词汇表的发展趋势是记录越来越详细,尽 量满足下一层次处理的需要。 2 2 本系统对词汇表的要求 对于本系统而言,词汇表是一个信息库,它存贮以后可能会用到的信息。当 然,对于信息量,我们的要求是越详尽越好,同时,越精确越好。如前文所述, 本系统试图建立一个短语结构模型,它既有语法处理的功能,还能够一定程度上 理解语义。 在本文讨论的短语提取中,许多步骤,如分词,识别短语类型等,它们都是 与语义相关的。为了保证下一步的功能及效率,必须建立能够快速计算,存贮清 第二章词汇表的实现 晰的含有语义信息的词汇表的数据结构【2 8 】。 汉语是弱语法语言,例如一个具有相同形式的词语在不同的场合,可以具有 不同的词性。判断汉语中一个词的语法属性比别的语言要难一些,但是,一个词 可能的语法范畴仍然是进行分词,进行语义处理的重要参考。在这里,我们记录 它的语法属性供以后使用。 我们参考现有的词汇表模型,定义词汇表的数据结构。将分析的词汇表有两 个,它们是迄今为止比较完善的包括语义信息的词汇表。 2 3 词汇表 概念是人类对客观世界认识的结果,在本质上都是符号化的实体,它表示的 是客观世界中的事物及其含义。在知网中,概念是由词表示的概念标识符,一个 词有多种语义,就对应有多个不同的概念。知网( 英文名称h o w n e 7 】是一个以汉 语和英语的词语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具 有的属性之间的关系为基本内容的常识知识库。 计算机化是知网的重要特色。知网是面向计算机的是借助于计算机建立的, 将来可能是计算机的智能构件尽管被我们称为知识词典的常识性知识库是知网 的最基本的数据库但知网仍是一个网状的知识系统,而不仅仅是一部语义词典, 这是它与其他的树状的词汇数据库本质不同。 2 3 1 知网的结构 在知网中描述词汇语义的概念被分解成各种义原即最基本的不易于再分割 的意义的最小单位通过有限的义原组合来表达无限的概念,每个词可以具有多个 概念即一词多义。此外知网还定义了上下位关系同义关系反义关系部件整体关系 等1 6 种关系这些关系描述了概念间的相互联系从而使知网形成了一个网状的知 识系统。 董振东先生反复强调,知网并不是一个在线的词汇数据库,知网不是 一部语义词典。在介绍知网的结构之前,我们首先要理解知网中两个主 要的概念:“概念与“义原 。 “概念”是对词汇语义的一种描述。每一个词可以表达为几个概念。 “概念 是用一种“知识表示语言”来描述的,这种“知识表示语言所用 的“词汇”叫做“义原”。“义原”是用于描述一个“概念”的最小意义单位。 与一般的语义词典( 如同义词词林,或w o r d n e t ) 不同,知网并不是 简单的将所有的“概念”归结到一个树状的概念层次体系中,而是试图用一系列 4 第二章词汇表的实现 的“义原”来对每一个“概念进行描述。 知网一共采用了1 5 0 0 义原,这些义原分为以下几个大类: e v e n t l 事件 e n t i t y l 实体 a t t r i b u t e l 属性值 a v a l u e l 属性值 q u a n t i t y i 数量 q v a l u e 数量值 s e c o n d a r y f e a t u r e l 次要特征 s y n t a x l 语法 e v e n t r o l e l 动态角色 e v e n t f e a t u r e s l 动态属性 对于这些义原,我们把它们归为三组:第一组,包括第1 到7 类的义原,称 之为“基本义原”,用来描述单个概念的语义特征;第二组,只包括第8 类义原, 称之为“语法义原”,用于描述词语的语法特征,主要是词性( p a r to f s p e e c h ) ; 第三组,包括第9 和第1 0 类的义原,称之为“关系义原”,用于描述概念和概念 之间的关系( 类似于格语法中的格关系) 。 除了义元以外,知网中还用了一些符号来对概念的语义进行描述,如表 2 2 所示: 表2 1 知网知识描述语言中的符号及其含义 + 对v 类,它表示它所标记的角色是一种隐性的,几乎在实际语言 中不会出现 第二章词汇表的实现 ) ( 1 ) 对于v 类,置于【】中的是该类v 所有的“必备角色”。如对 于“购买”类,一旦它发生了,必然会在实际上有如下角色参与:施事, 占有物,来源,工具。尽管在多数情况下,一个句子并不把全部的角 色都交代出来 ( 2 ) 表示动态角色,如介词的定义 a 表示不存在,或没有,或不能 我们把这些符号又分为几类,一类是用来表示语义描述式之间的逻辑关系, 包括以下几个符号:, ,另一类用来表示概念之间的关系,包括以下几个符 号:群$ 木+ & ? ! ,第三类包括几个无法归入以上两类的特殊符号: ) o 口。 我们看到,概念之间的关系有两种表示方式:一种是用“关系义元”来表示, 一种是用表示概念关系的符号来表示。按照我们的理解,前者类似于一种格关系, 后者大部分是一种格关系的“反关系”,例如“$ ”我们就可以理解为“施事、对象、 领有、内容”的反关系,也就是说,该词可以充当另一个词的“施事、对象、领有、 内容”。 义元一方面作为描述概念的最基本单位,另一方面,义元之间又存在复杂的 关系。在知网中,一共描述了义元之间的8 种关系:上下位关系、同义关系、 反义关系、对义关系、属性宿主关系、部件整体关系、材料成品关系、事件 角色关系。可以看出,义元之间组成的是一个复杂的网状结构,而不是一个单纯 的树状结构。不过,义元关系中最重要的还是的上下位关系。根据义元的上下位 关系,所有的“基本义元”组成了一个义元层次体系( 如图2 2 ) 。这个义元层次体 系是一个树状结构,这也是我们进行语义相似度计算的基础。 董振东先生在给出知网语言描述的同时,给出了义原关系的树状结构表示, 同时用知识描述语言“解释”了h o w n e t 汉语词典。由于这些文件均为文本文件, 且具有规定的格式和语法特征,根据构建义原树所需的信息,我们建立了义原及 知网词典中词条的记录结构,并通过程序将其导入了数据库。 知网中相关信息的存储及对数据库的操作与建立问题库基本相同,因此,在 6 第二章词汇表的实现 这里我们仅给出存储于数据库中表的结构。在数据库中,义原结构的描述如下: s t r u c td a t a r e c o r d l o n gi d ; c s t r i n gn a m e ; c s t r i n gp r o p e r t y ; l o n gl a y e r ; l o n gp a r e n t ; l o n gs o n ; l o n gb r o t h e r ; ) ; 义原编号 义原名称 义原属性 义原在义原层次树中的层号 义原在义原树中的父义原编号 第一个子义原的编号 兄弟义原编号 知网词典中词条结构的描述如下: s t r u c tw b r d d i c t i o n _ r e c o r d l o n gn o ;词条在词典中的编号 c s t r i n g 虻o c s t r i n gg ; c s t r i n g zc ; c s t r i n gwe ; c s t r i n gg - 上; c s t r i n ge ; c s t r i n gd e f ; c s t r i n gf i r s t _ s e m ; l ; 词条中文项 词条的词性标注 词条的中文使用例子 词条英文项 词条在英文中的词性标注 词条在英文中的使用例子 词条的义原解释 i i - i 五q 条义原解释的第一部分 从上面的介绍我们看到,与传统的语义词典不同,在知网中,并不是将 每一个概念对应于一个树状概念层次体系中的一个结点,而是通过用一系列的义 原,利用某种知识描述语言来描述一个概念。根据义原的上下位关系,所有的“基 本义原”组成了一个义原层次体系,这个义原层次体系是一个树状结构,这也是 我们进行语义相似度计算的基础。 - e n t i t y l 实体 卜t h i n g l 万物 - p h y s i c a l 物质 卜a n i m a t e l 生物 卜a n i m a l h u m a n l 动物 卜h u m a n l 人 第二章词汇表的实现 i l h u m a n i z e d l 拟人 la n i m a l l 兽 卜b e a s t l 走兽 图2 - 1树状的义原层次结构 2 3 2 知网定义格式及其数据结构 知识词典是知网系统的基础文件。在这个文件中每一个词语的概念及其描述 形成一个记录,每一种语言的每一个记录都主要包含4 项内容。其中每一项都由 两部分组成,中间以“二”分隔,每一个“= 的左侧是数据的域名,右侧是数 据的值。每一个记录都有唯一的一个记录号n o 与其对应,它们排列如下: n o = 词或短语序号 w x = 词语 e x = 词语例子 g x = 词语词性 d e f - 概念定义 其中的w - x ,e x ,g - x 构成每种语言的记录,x 用以描述记录所代表语种,x 为c 则为汉语,为e 则为英语。每个词语由d e f 来描述其概念定义,d e f 的值 由若干个义原及它们与主干词之间的语义关系描述组成。义原是知网中最基本 的、不易于再分割的惫义的最小单位。知网通过对约六千个汉字进行考察和分析 来抽取了8 0 0 多个义原,并总结了如部分、主体、客体、从属、时空、材料等若 干种义原间的语义关系,这些关系在知网中用义原前附加如“,”、“ 、“$ ”等 相对应符号来表示。 下面是动词“打作“打球”解的义项在词典中的定义: n o = 0 1 7 1 4 0 w - e = p l a y w - c = 打 g - e = v g - c = v e - e = e c 一网球,牌,秋千,太极,球得很棒 d e f = e x e r c i s e l 锻炼,s p o r t l 体育 上例中e c 项的“ 代表w - c 项的词。通过d e f 的定义我们可以知道在 “打球”中“打”和“体育”与“锻炼”有关。 第二章词汇表的实现 2 4w o r l d n e t 的介绍 关于w o r d n e t 的想法是1 9 8 5 年后才开始的。从8 5 年开始,w o r d n e t 作为一 个知识工程全面展开。现在的w o r d n e t 工程的有三个前提,它们是:可分离性 假设( s e p a r a b i l i t yh y p o t h e s i s ) ,模式假设( p a t t e m i n gh y p o t h e s i s ) 和广泛性假设 ( c o m p r e h e n s i v e n e s sh y p o t h e s i s ) 。 第一个前提“可分离性假设 ( s e p a r a b i l i t yh y p o t h e s i s ) ,是指,语言的词汇成 分可以被离析出来并专门针对它加以研究。词汇编纂学的历史明确地告诉我们, 在词语水平上可以得到有用的研究成果。词库( 词典,l e x i c o n ) 当然不是完全独 立于其他语言成分的,但它的确是可以从其他成分中分离出来的。例如,尽管语 音和语法知识在一个人的早年生活中就成型了,但词汇量却可以随着智力活动的 不断积累而增加。这表明语言的不同成分涉及不同的认知过程。 w o r d n e t 的另一个前提是“模式假设 ( p a t t e r n i n gh y p o t h e s i s ) :一个人不可 能掌握他运用一种语言所需的所有词汇,除非他能够利用词义中存在的系统的模 式和词义之间的关系。这种系统化的心智模式至少从柏拉图时代就成为一种进行 推测的学问,现代语言学研究开始在自然语言的语义结构中识别这样的模式。但 许多遵循这类路线的出色的研究工作在这一问题上碰到了困难。一个作者可能提 出一种语义理论,并以2 0 到5 0 个英语单词为例来展示他的理论,而留下另外 1 0 万个单词让读者去做练习。 第三个前提就是所谓的“广泛性假设 ( c o m p r e h e n s i v e n e s sh y p o t h e s i s ) :计算 语言学如果希望能像人那样处理自然语言,就需要像人那样储存尽可能多的词汇 知识。 2 4 1w o r d n e t 的内容 w o r d n e t 的描述对象包含c o m p o u n d ( 复合词) 、p h r a s a lv e r b ( 短语 动词) 、c o l l o c a t i o n ( 搭配词) 、i d i o m a t i cp h r a s e ( 成语) 、w o r d ( 单词) ,其中 w o r d 是最基本的单位。 w o r d n e t 并不把词语分解成更小的有意义的单位( 这是义素分析法 c o m p o n e n t i a la n a l y s e s 的方法) ;w o r d n e t 也不包含比词更大的组织单位( 如脚本、 框架之类的单位) ;由于w o r d n e t 把4 个开放词类区分为不同文件加以处理,因 而w o r d n e t 中也不包含词语的句法信息内容;w o r d n e t 包含紧凑短语,如b a d p e r s o n ,这样的语言成分不能被作为单个词来加以解释。 也就是说,w o r l d n e t 试图建立的是在“词汇”级与“概念”级之间的词典, 但不是百科全书级的。 9 第二章词汇表的实现 2 4 2w o r d n e t 的设计 w o r l d n e t 通过词语的分类及词语间的语义联系把它们联系到一起。以动词为 例,它把动词分为诸多类别: 1 身体动作动词( v e r b so f b o d i l yf u n c t i o n sa n dc a r e ) ;2 7 5 个同义词集合 2 变化动词( v e r b so f c h a n g e ) ;约7 5 0 个同义词集合 3 通信动词( v e r b so f c o m m u n i c a t i o n ) ;7 1 0 个以上的同义词集合 4 竞争动词( c o m p e t i t i o nv e r b s ) ;2 0 0 个以上的同义词集合 5 消费动词( c o n s u m p t i o nv e r b s ) ;1 3 0 个同义词集合 6 接触动词( c o n t a c tv e r b s ) ;8 2 0 个同义词集合 7 认知心理动词( c o g n i t i o nv e r b s ) ; 8 创造动词( c r e a t i o nv e r b s ) ;2 5 0 个同义词集合 9 运动动词( m o t i o nv e r b s ) ;5 0 0 个同义词集合 10 情感心理动词( e m o t i o no rp s y c hv e r b s ) ; 1 1 状态动词( s t a t i v ev e r b s ) ;约2 0 0 个同义词集合 1 2 感知动词( p e r c e p t i o nv e r b s ) ;约2 0 0 个同义词集合 1 3 领属动词( v e r b so f p o s s e s s i o n ) ;约3 0 0 个同义词集合 1 4 社会交互( v e r b so fs o c i a li n t e r a c t i o n ) ;约4 0 0 个同义词集合 1 5 气象动词( w e a t h e rv e r b s ) ;约6 6 个同义词集合。 1 0 第三章词语识别及分词 第三章词语识别及分词 西方语言中,这个问题集中于找出屈折变化后的词的词典形式。它的难度不 很大。而在东方语言中,特别是汉语中,难点是对文本分词,在不严格的情况下, 我们也把汉语的词语识别和汉语的分词同等起来看。对于汉语自然语言处理而 言,这是第一道难关。在我国深入研究这项课题已经持续了二十多年,由于其难 度大,分词的效果一直未能达到人们的期望。它的进展也一直影响着后续工作。 词语识别的做法常为,基于词汇表,使用一定的算法确定各个词语间的分界。概 括地说,分词算法有三类:基于字符串匹配的分词算法、基于理解的分词算法和 基于统计的分词算法。 分词过程中的一个难点在于识别词汇表中没有的词,即“未登录词”。实际运 用中,此问题相当明显。近年的研究中,通常使用基于规则的方法和基于统计及 机器学习的方法来解决。前者适用范围不广且准确率不高而后者存在滞后性且实 现成本高。实际的文本中,未登录词的出现概率不小。 3 1 汉语对分词的需求 书面汉语不同于西方语言:在汉语书写时,文本是按句连写的,句子的词与 词之间没有分隔符( 空格) ,并且汉语的单词基本上没有形态变化,而词是信息 表达的最小单位,因此,在汉语的自然语言处理中,首要任务是把连续的汉字串 分割成为词的序列,即自动分词。 中文自动分词是中文信息处理的一项重要的基础性工作,许多中文信息处理 系统中都涉及到分词问题【8 j 。汉语文本输入、汉字的简繁体转换、信息检索和摘 录、自然语言理解、文本分类和自动文摘、语音合成、机器翻译、文本校对等中 文信息处理系统都首先需要将分词作为其最基本的模块。 3 1 1 中文分词关键问题 1 ) 汉语词的通用词表 汉语自动分词的首要困难是词的概念不清楚,汉语的语素和单字词,合成词 和短语之间没有清晰的界限。语言学界虽然对于词在概念上有一个十分清晰的定 义,即,“词是最小的能够独立活动的有意义的语言成分。”但从一些词典的编撰 第三章词语识别及分词 中,我们仍然可看出一些上述界限难以区分的问题,使得词的界定缺乏自然标准, 而分词结果是否正确需要有一个通用、权威的分词标准来衡量。分词需要有一个 核心( 通用、与领域无关的) 词表,凡在该词表中的词,分词时就应该切分出来。 在建立分词系统词表时,对于哪些词应当收进核心词表,已提出各种收词条件, 但这些条件本身难以操作,使得收词的标准难以把握,至今为止,分词系统仍然 没有一个统一的具有权威性的分词词表作为分词依据,这不能不说是分词系统所 面临的首要问题。 2 ) 汉语词的切分规范 除了分词词表,还有一个概念值得注意,即“分词单位”。从计算机进行分词 的过程来看,其输出的词串称之为“切分单位”或“分词单位”。信息处理用现代 汉语分词规范中对于“分词单位”定义如下:“汉语信息处理使用的、具有确定 的语义或语法功能的基本单位。包括本规范的规则限定的词和词组。”分词系统 可以面向解决实际问题的需求和真实语料中使用的频繁程度来规定“分词单位”。 分词单位可以是同词表中词完全一致,也可以是包含未登录词识别以及一些词法 分析的切分单位。因此,对于一个分词系统而言,制定一个一致性的分词单位切 分规范无疑也是一个重要的问题。 3 ) 分词算法涉及的问题 分词并不是一个简单的从输入串中发现合法词的过程。一个句子经常会对应 几个合法的词系列,即会产生歧义,因此,汉语分词算法编写过程中的一个重要 问题就是:排除歧义,选择出正确的词串。切分歧义字段:歧义字段在中文文本 中是普遍存在的,歧义切分是自动分词中不可避免的现象,是自动分词中一个比 较棘手的问题。未登录词识别:随着语言不断的发展和变化,新词和衍生词会不 断的出现,而这些词不可能被全部被囊括到核心词表中,因此,在分词的过程中, 会出现词表中没有但又必须切分出的词语,即未登陆词识别的问题。如果自动分 词中对未登录词识别不对,统计到的信息就会有很大误差,会直接影响到中文自 动分词甚至整个句法分析的正确性。而且由于未登录词引入的分词错误往往比单 纯的词表切分歧义还要严重。这就要求分词系统具有一定的未登录词识别能力, 从而提高分词的正确性。 3 1 2 汉语分词的方法 1 ) 基于机械切分的分词方法 传统的汉语分词方法是在机械切分的基础上加上一定的歧义识别处理实现 的,其处理过程为:机械切分+ 歧义识别。机械切分依据字典得到可能的切分形 式,歧义识别采用一定的标准对得到的初步切分形式进行评测,最终选择正确的 第三章词语识别及分词 分词结果。因而,机械切分的处理效果主要取决于两个因素:首先,采取的机械 切分必须能够得到符合规则的切分结果;其次,对切分结果的评测必须全面合理。 机械分词又称为形式分词,是基于字符串匹配的原理进行的,它按照基本的 切分规则将待切分的汉字串与分词词典进行匹配,若在词典中找到某个字符串, 则匹配成功,即可以切分出一个词。其主要的分类方法有以下几种:分词时按照 扫描方向的不同,机械分词法可以分为正向匹配法和逆向匹配法;分词时按照不 同长度优先匹配的情况,可以分为最大匹配法和最小匹配法;匹配不成功时按照 重新切取的策略不同,可以分为增字法和减字法。对于机械分词方法,可以建立 一个结构模型,其函数形式表示为a s m ( d ,钆m ) ,即自动分词模型( a u t o m a t i c s e g m e n t a t i o nm o d e l ) 。其中, d d ( + 1 ,一1 ) :表示匹配方向,+ 1 表示正向,1 表示逆向; a e a _ _ f 1 2 _ f 1 3 _ _ f 1 4 o 其意义在于,主要部分的相似度值对于次要部分的相似度值起到制约作用,也就 是说,如果主要部分相似度比较低,那么次要部分的相似度对于整体相似度所起 到的作用也要降低。 第一独立义元描述式的计算比较简单,只需按照公式( 1 ) 进行计算即可;其它 独立义元描述式不止一个,所以计算较为复杂:我们先把两个表达式的所有独立 义元( 第一个除外) 任意配对,构造最大相似度矩阵,计算出所有可能的配对的义 第三章词语识别及分词 元相似度,取相似度最大的一对,并将它们归为一组,在剩下的独立义元的配对 相似度中,取最大的一对,并归为一组,如此反复,直到所有独立义元都完成分 组。当义元的某一部分的对应物为空时,定义其相似度为一个比较小的常数6 , 该值需要通过试验得到;关系义元描述式和符号义元描述式都可以通过对相应的 义元配对,构造最大相似度矩阵,分组来计算出相似度值【3 0 】。 3 2 3 词语相似度计算 对于两个汉语词语所和,如果它们有相同的词性,现有”个义项( 概念) : & j ,母2 ,岛月,w 2 有m 个义项( 概念) :s 2 ,勋,我们规定, w 1 和w 2 的相似度各个概念的相似度之最大值,也就是说: s i m ( w z ,) = m m 片a x ,s i m ( s 1 ,蔓,) r 气气、 i = 1 h ,= 上。m ,2 1 、 、- ,m j , 在这里约定:不同词性的词语没有可比的价值,相似度为零。这样,就利用 分词时的词性标注,先进行了词义排歧 3 1 j ,对同类词语的义项进行了相似度计算。 第四章短语提取的理论分析 第四章短语提取的理论分析 4 1 汉语语法特点对语法分析的影响 汉语在许多方面与别的语言,特别是西方语言,有很大不同,如:其发音独 特;它的最小语素单位是具有一定语义的“字”,而不是“词”;它没有严整的语 法结构。我们将通过对汉语特点的分析指出,把“短语 视为一个单独的结构, 我们能做到对汉语的语法处理,另外,由于短语还具有更强的语义,它可以进行 一定程度的语义处理,在此之上的进步工作将能实现更完善的语义处理功能。 4 1 1 汉语词的结构 根据语言类型分类法,从词的结构上看,汉语是词根语,有以下两个重要特 点:词内没有专门表示语法意义的附加成分;缺少形态变化,词与词的语法关系 依靠词序和虚词来表示。 欧洲语言几乎都属于印欧语系,多数是屈折语。有的语言渐渐向词根语转变, 但都带有明显的屈折特征。屈折语有以下特点:词内有专门表示语法意义的附加 成分;一个附加成分可以表示多种语法意义;词根与词干的结合非常紧密。 一些对屈折依赖度高的语言,如果不分析清楚句子的句法结构就无法确定词 和句子意义。一个具体表现就是,绝大多数屈折语中存在着词的屈折的融合 ( s y n c r e t i s m ) 现象。屈折的融合指的是:同一种形式的表征语法含义的词的附加成 分负担着多种语法意义。由于这种屈折的融合趋势( s y n c r e t i ct r e n d s ) ,当两个承担 不同的语法角色的词的词根和附加成分都相同时,在没有更进一步的语法背景 下,它们的含义含糊不清。而且,一般来说,语法含义对屈折依赖程度越高的语 言,屈折的分类越细,融合现象越明显,孤立地理解词义的困难越大。 例如:在拉丁语的五类名词变格规则中,每一类都有共享词尾的现象,特别 是在第四类,第一类和第五类中相当明显。另外,中性名词的主格和宾格的词尾 形式是相同的( 单数和复数都是) ;名词复数中,所有的与格与夺格的词尾形式相 同。 又如:在德语的名词变格中也相当突出。考虑到德语的名词与冠词的结合非 常紧密,我们将冠词与名词合为一体考虑,尽管如此,融合现象依然严重。在单 数中性和阴性名词,以及所有的复数名词中,主格与宾格一致;单数阴性名词的 第四章短语提取的理论分析 属格与与格也一致。 再以动词变位为例。将人称代词和动词起来考虑,德语动词的第一和第二虚 拟式仍存在严重的融合现象;另外,在法语动词的现在时的虚拟式与陈述式变位 中同样存在。 因此,屈折化程度越高的语言,句法分析对词义的确定起重要作用就越大。 4 1 2 汉语语法分类的特点 依语言类型分类法,从表达语法意义的方式上看,汉语是分析语。分析语的 语法关系依靠词序和虚词表示。欧洲语言多属于综合语。综合语的语法关系靠词 的形态变化来表示。 综合语中,由于词的附加成分反映了它在句子中的语法意义,因此,综合语 的语法体现对语序依赖弱,词序的摆放灵活。有的时候,一个关系紧密的短语中 可以插入其它不相关的词语,这种现象在分析语中很少见。这样一来,分析综合 语的语义时至少要以句子为最小单位。 例如:拉丁语的一个短语,m a g n ac u r a ,它的英文意思是m u c hc a r g ,它可以 写作m a g n ac u r a ,也可以写作c u r am a g n a 。表示w i t hm u c hc a r e 这一意思时,它 可以写作c u mm a g n ac u r a ,也可以是c u mc u r am a g n a 。甚至,可以把c u m 放到这 个短语的中间,写作m a g n ac u mc u r a 。这样,修饰语和被修饰语就被分割开来了。 在长的句子中,短语中间可能插入很多别的词。 由此可见,在语法分析方面,屈折型语言对句法结构的依赖远远高于分析型 语言【9 】。对于西文语言,人们往往以句子为单位,基于较完整准确的句法结构来 理解句子的意思,这也是因为句法对表达有重大影响。 下面看看汉语的特点。从词的结构上看,汉语的词语没有词形变化,不考虑 分词错误和词的歧义,词语的含义是所见即所得的。虽然,汉语中一词多义现象 很多,特别是由单个字组成的词,但是,汉语中的一词多义现象与屈折语中的屈 折融合现象不同,后者强烈依附于句子的语法结构,而前者依附性不强。虽然, 在汉语词语的消歧时,词语的语法结构对此也有所帮助,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 拼多多果园农场智能化农场建设与代运营合同
- 社区团购与社区环保组织合作协议
- 社交平台中介合同
- 购房法律责任协议
- 2025-2030饮料包装行业市场发展分析及发展前景与投资机会研究报告
- 2025-2030童车市场现状供需分析及投资评估规划分析研究报告
- 2025-2030改装车行业市场深度调研及供需格局与投资前景研究报告
- 2025-2030中国炸八块鸡行业市场现状供需分析及投资评估规划分析研究报告
- 咨询公司前期介入服务合同协议书范文
- 学前教育校长家园共育计划
- 2024年中国家具电商行业市场竞争格局及投资方向研究报告(智研咨询)
- 导数(30题)-2024年考前15天高考数学冲刺大题训练(新高考)含答案
- 高层建筑一栋一册消防安全档案
- 创造性思维与创新方法智慧树知到期末考试答案章节答案2024年大连理工大学
- 外科围手术期营养支持疗法
- 广东省深圳市南山区2023-2024学年四年级下学期期末科学试题
- 2024年江苏省高考化学试卷(含答案)
- 2024年安徽省初中(八年级)学业水平考试初二会考地理试卷真题
- 小学二年级数学100以内三数加减混合运算综合测验试题大全附答案
- 中国特色社会主义期中测试题-2023-2024学年中职高教版
- 学习康复科常见物理治疗法课件
评论
0/150
提交评论