(计算机应用技术专业论文)基于概念图和语义角色的多领域信息抽取系统研究.pdf_第1页
(计算机应用技术专业论文)基于概念图和语义角色的多领域信息抽取系统研究.pdf_第2页
(计算机应用技术专业论文)基于概念图和语义角色的多领域信息抽取系统研究.pdf_第3页
(计算机应用技术专业论文)基于概念图和语义角色的多领域信息抽取系统研究.pdf_第4页
(计算机应用技术专业论文)基于概念图和语义角色的多领域信息抽取系统研究.pdf_第5页
已阅读5页,还剩54页未读 继续免费阅读

(计算机应用技术专业论文)基于概念图和语义角色的多领域信息抽取系统研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 信息抽取作为在海量数据中,快速有效的寻找有价值信息的重要手段,是自 然语言处理领域的热点课题。国外在上世纪末开始了相关方面的研究,发展到现 在已经取得了很多成果。由于中文信息自身的特点,目前的研究还处在探索阶段。 现有的中文抽取方法基本上是基于统计的抽取方法,单纯的统计方法缺少对抽取 信息语义的分析和使用,由于缺乏语义信息支持,使得在抽取信息点时失去了词 与词之间的内在的语义联系,只是单纯依靠语法匹配来完成信息的抽取,这造成 了抽取的准确率下降,抽取的信息质量不高。为了解决由于语义缺失造成的种种 不足,本文利用语义角色分析和知网的语义资源,在前人研究的基础上提出 并实现了一个基于语义信息的多领域抽取模型系统。 本文提出的抽取模型以语义角色和概念图为基础,通过对待抽取语句进行语 义角色标注后,再进行预处理,过滤掉虚词和叹词,为后面的处理减少不必要的 计算,按照本文提出的算法,将句子的意思按照概念图的形式表示出来。然后将 生成的概念图通过与图库中的领域概念图进行相似度计算,以此来判别信息的领 域所属。抽取模板方面我们采用了分类自动生成的方法,其主要思想原型来自于 b o o t s t r a p p i n g 。抽取规则获取方面,我们将语义信息和抽取规则结合,通过使用语 义角色获取抽取规则,以提高抽取的准确率。最后按照抽取规则匹配完成信息的 抽取。其中领域场景的划分,模板的生成以及抽取规则的获取是本文研究的重点 内容。 文章的最后给出了系统的评测结果。纵向比较中,我们对同一领域的信息按 照不同的方法进行了实验抽取,做了比对。此外,横向比较方面,我们针对领域 场景的判别,以及跨领域抽取做了详细的实验检测,其中跨领域抽取实验中,亦 采用了不同的抽取技术并做了详细的比对,实验结果表明,本文所提出的抽取方 法是可行有效的,提高了信息抽取系统的准确率和召回率。 关键词:信息抽取,语义角色,概念图相似度计算,语义计算,知网 r e s e a r c ho ns y s t e mo fm u l t i - - f i e l di n f o r m a t i o ne x t r a c t i o n b a s e do ns e m a n t i cr o l ea n dc o n c e p tg r a p h s a b s t r a c t i n f o r m a t i o ne x t r a c t i o ni sah o tr e s e a r c hi nt h ef i e l do fn a t u r a ll a n g u a g ep r o c e s s i n g i n a b r o a d ,t h er e s e a r c hw o r kb e g a ni nt h el a s tc e n t u r ya n dh a sa c h i e v e dm a n yr e s u l t s a b o u tt h er e s e a r c ho fc h i n e s ei n f o r m a t i o ne x t r a c t i o ni ss t i l la tt h ei n i t i a ls t a g e o t h e r e x i s t i n gm e t h o d so fe x t r a c t i o na l eb a s i c a l l yb a s e do ns t a t i s t i c s t h i sm e t h o di sl a c ko f s e m a n t i ci n f o r m a t i o nt os u p p o r t u s i n gs t a t i s t i cm e t h o dt oe x t r a c ti n f o r m a t i o ni sl o w e f f i c i e n ta n di m p r e c i s e ,b e c a u s et h ea p p r o a c hi g n o r e st h es e m a n t i cl i n k sa m o n gt h e w o r d si ns e n t e n c e b e s i d e s ,t h i sa s i m p l ep r o b a b i l i t ym o d e lc a nn o tu n d e r s t a n dt h e s e m a n t i c sa b o u tt h es e n t e n c ea ta l l ,s ot h ee x t r a c t i o nr e s u l t si si nl o wq u a l i t y , a n dc o u l d n o ts a t i s f yt h ei n t e l l i g e n td e m a n d i no r d e rt os o l v et h ed e f i c i e n c yo ft r a d i t i o n a l e x t r a c t i o nm e t h o d ,t h i sa r t i c l et h a tb a s e do nt h e p r e v i o u ss t u d i e sp r e s e n t san e w a p p r o a c hu s i n gs e m a n t i cr o l ea n dt h es e m a n t i cr e s o u r c e si nt h e “h o w n e t t oe x t r a c t i n f o r m a t i o n t h i sn e wm o d e li sam u l t i f i e l di n f o r m a t i o ne x t r a c t i o ns y s t e mw h i c hb a s e d o ns e m a n t i ci n f o r m a t i o n i nt h i sp a p e r , o u rr e s e a r c hm o d e li sb a s e do ns e m a n t i cr o l e sa n dt h ec o n c e p t u a l g r a p h t h er e l e v a n tp r o c e s s e sa r ea sf o l l o w s :f i r s t ,l a b e l i n gt h es e m a n t i cr o l eo f s e n t e n c e l a t e r , g o i n gt ot h em o d u l eo fp r e t r e a t m e n ta n df i l t e r i n go u te m p t yw o r da n d i n t e r j e c t i o n s e c o n d l y , a c c o r d i n gt ot h es e m a n t i ci n f o r m a t i o n ,u s i n gr e l e v a n ta l g o r i t h m w h i c hp a p e rp r e s e n t e dt og e n e r a t ec o n c e p t u a lg r a p h s t h i r d l y , t h er e l e v a n tm o d u l e c a l c u l a t e st h es i m i l a r i t i e so fc o n c e p t u a lg r a p h ss o 嬲t oi d e n t i f ya r e a so ft h es c e n e w e h a v ea d o p t e daa u t o m a t i cc l a s s i f i c a t i o nm e t h o dt og e n e r a t ee x t r a c t i o nt e m p l a t e s ,t h i s m a i ni d e ac o m ef r o mp r o t o t y p eo fb o o t s t r a p p i n g a tl a s t , w es h o u l dc o n s t r u c tt h er u l e s o fe x t r a c t i o n i nt h i sm o d u l e ,w et a k ea d v a n t a g eo fs e m a n t i cr o l et og e n e r a t et h er u l e si n o r d e rt oi m p r o v et h ea c c u r a c yo fe x t r a c t i o n a m o n gt h e m ,t h ef i e l dd i v i s i o no f t h es c e n e , t e m p l a t eg e n e r a t i o na n d e x t r a c t i o nr u l e sa r et h em a i nc o n t e n to ft h i sa r t i c l es t u d y i nt h ef i n a lp a r to fp a p e r , w eg i v et h ee v a l u a t i o nr e s u l t so fs y s t e m t h er e s u l t s c o n t a i nt w oa s p e c t s :v e r t i c a lc o m p a r i s o nh o r i z o n t a lc o m p a r i s o n i nt h es e c t i o no f v e r t i c a lc o m p a r i s o n ,w ee x t r a c tt h e f o r m a t i o no fs a m ed o m a i nb u ti nd i f f e r e n t t e c h n o l o g y i nt h eh o r i z o n t a lc o m p a r i s o n , w ed i dt h et w oe x p e r i m e n t s o n ei st h es c e n e d i v i s i o n , a n o t h e ri st h ec r o s s c u t t i n gi n f o r m a t i o ne x t r a c t i o n w eu s et h r e 圮d i f f e r e n t a p p r o a c h e st oe x t r a c tt h em u l t i d i s c i p l i n a r ym e s s a g e e x p e r i m e n t a lr e s u l t ss h o wt h a to u r m e t h o do fe x t r a c t i o ni sf e a s i b l ea n de f f e c t i v e b e s i d e s ,t h i sa p p r o a c hi m p r o v e st h e a c c u r a c yo fi n f o r m a t i o ne x t r a c t i o ns y s t e ma n dt h er e c a l lr a t e k e y w o r d s :i n f o r m a t i o ne x t r a c t i o n ;s e m a n t i cr o l e s ;s i m i l a r i t yc a l c u l a t i n go fc o n c e p t u a lg r a p h s ; s e m a n t i cc o m p u t a t i o n ;h o w n e t m 西北大学学位论文知识产权声明书 本人完全了解学校有关保护知识产权的规定,即:研究生在校攻 读学位期间论文工作的知识产权单位属于西北大学。学校有权保留并 向国家有关部门或机构送交论文的复印件和电子版。本人允许论文被 查阅和借阅。学校可以将本学位论文的全部或部分内容编入有关数据 库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学 位论文。同时,本人保证,毕业后结合学位论文研究课题再撰写的文 章一律注明作者单位为西北大学。 保密论文待解密后适用本声明。 学位论文作者签名:槛达监指导教师签名:猛 钿匆年乡月吖日伽胗年6 月列日 西北大学学位论文独创性声明 本人声明:所呈交的学位论文是本人在导师指导下进行的研究 工作及取得的研究成果。据我所知,除了文中特别加以标注和致谢 的地方外,本论文不包含其他人已经发表或撰写过的研究成果,也 不包含为获得西北大学或其它教育机构的学位或证书而使用过的 材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中 作了明确的说明并表示谢意。 学位论文作者签名:枷丝出, - z , o 伽年舌月刁日 西北大学硕士学位论文 第一章绪论 1 1 研究背景 近年来,随着计算机科学的不断发展,电子计算机已经广泛应用于各个领域, 加之互联网的迅速发展和个人电脑的普及,使得人们获取信息的方式也发生了很 大的变化:从原来单一的报纸、杂志、电视和收音机等传统的媒介发展到现在以 网络等为主的新兴媒介。在这种新的环境下,社会的信息总量呈现出指数级的迅 猛增长态势,其中绝大多数信息都是以电子文档的形式出现。为了能够有效的处 理这些信息,迫切的需要一些自动化的技术来帮助人们从海量的信息中快速的找 到对用户有价值的信息,信息抽取( i n f o r m a t i o ne x t r a c t i o n ) 技术便在这样的情况 下应运而生了。 信息抽取( i n f o r m a t i o ne x t r a c t i n g ) 是处理海量电子文本信息的一项重要技术, 它的主要目标是使得人们在大量的文本字信息中快速和有效的获取他们感兴趣的 信息点,以减轻人工阅读大量文本信息所带来的沉重负担。在国外,自上个世纪 六七十年代起,关于文本信息抽取理论以及相关方法的研究已经广泛展开,并取 得了一定的成果,目前已经成为自然语言处理领域研究的一个重要课题。 学术界对于信息抽取( i n f o r m a t i o ne x t r a c t i n g ) 的定义是以自然语言文档作为 输入,产生固定格式,无歧义的输出数据的过程【l 】。与自然语言处理的的深层语义 理解不同,信息抽取一般不要求对文本做深入全面的语义分析,它的一般功能是 根据预先设定好的任务,抽取特定类型或用户感兴趣的信息。比如在以招聘为主 题的领域信息中,我们要抽取的信息一般包括用人单位、岗位、应聘者条件、薪 资等;在天气预报中需要抽取地点、天气状况、温度、湿度等信息点。 目前已有的信息抽取技术中,主要分为两类【2 】:一种是基于规则的方法,一种 是基于统计的方法,基于统计的方法需要较大的语料库作为支撑,用以获得相关 抽取经验从而完成信息采集。 基于规则的抽取方法主要是依靠手工制定相关的抽取规则,领域依赖性非常 强,而且要求规则制定者有丰富的领域背景知识,信息抽取时根据抽取规则,判 断句子中的信息点。从以往的研究工作来看,这种抽取规则的获取难度很大,而 且应用范围非常狭窄,系统的可扩展性和移植性都比较差,目前单纯的手工制定 规则的方法已经很少使用。 基于统计的抽取方法是在基于规则的抽取方法无法自动获得抽取规则的情况 第一章绪论 下提出来的。基于统计的方法在生成抽取规则时不需要艰深难懂的领域知识以及 深层语法知识,而是根据一定的统计学知识完成相关工作,系统可移植性较好, 信息抽取时根据大量数据统计所得到的统计规律进行信息点的采集。但是由于缺 少语义信息的知识,抽取的质量不高。 对于目前信息抽取技术上存在的一些缺点,本文在前人研究工作的基础上提 出了一种基于递进的两层语义的抽取方法,首先使用语义角色作为第一层语义, 将抽取信息进行语义角色标注,进而使用知网【3 】作为第二层的语义资源基础, 通过概念图的转换将待抽取信息表达的语义形式化以计算待抽取信息的主题领 域,精确的划分待抽取信息的领域主题。另一方面,利用语义角色和词法特征通 过统计学习的方法获得抽取规则,从而精确的抽取信息中的信息点,提高信息抽 取的准确率。 1 2 信息抽取研究现状 对于信息抽取的相关研究发轫于美国纽约大学,研究的内容包括英语语法方 面的大规模计算以及与之相关的应用,其应用内容是抽取医疗领域的检查报告和 出院记录的相关抽取模板和信息点。后来美国耶鲁大学r o g e rc s c h a n k 等人开展 的对文本理解的研究【4 】,推动了信息抽取的发展。r o g e rs c h a n k 的学生g e r a l dd e j o n e 根据脚本理论建立了一个关于新闻报道的抽取系统f r u m p 。f r u m p 抽取系 统主要采用了数据驱动和期望驱动相结合的抽取方法,取得了一定的效果,这两 种技术直到现在仍旧有学者在使用和研究。 到上世纪8 0 年代左右,消息理解系列会议m u c ( m e s s a g eu n d e r s t a n d i n g c o n f e r e n c e ) 的召开有力的推动了信息抽取技术的发展。从历届会议召开的内容看, 每次会议评测抽取的内容和任务都不相同,从1 9 8 7 召开的第一界m u c 会议并没 有确定明确的抽取任务以及评定标准,到后来要求的抽取模板,规则,以及实体 信息等的研究逐步深入。m u c 系列会议一共举办了七次,于1 9 9 8 年停办。随后, n i s t ( 美国国家标准技术研究所) 发起并组织的自动内容抽取( a c ea u t o m a t i c c o n t e n te x t r a c t i o n ) 会议一直推动着这一领域的发展。a c e 会议研究的主要对象是 新闻领域的文本信息,自动抽取新闻语料中的主要信息点,比如:关系、实体、 事件等内容。 抽取规则是信息抽取技术的重要组成部分。在目前常用的两类信息抽取方法 中,基于规则的方法在获取抽取规则时,制定的规则集应当包含两种情况,首先, 2 西北大学硕士学位论文 应当尽可能的覆盖绝大多数的正例,其次,在这个基础之上尽可能的排除反例。 由于手工制定规则的弊端,研究者们提出了使用机器学习的方法制定相关的抽取 规则,具体的算法如:r a p i e r 5 1 ,此算法是种自底向上的学习算法,它使用成 对的样本文件以及填充的模板诱导得出相关的模式匹配规则,用以进行信息抽取。 另外还有b w i 6 】等。在基于统计的信息抽取研究中,主要是通过学习过程构造合 理的统计模型完成信息抽取工作,其经典算法是隐马尔科夫统计模型( h m m s ) 【7 】, 它在信息抽取中取得了一定的效果,但是由于抽取时,缺乏语义信息的支持所造 成的信息抽取时的冗余问题哺】没有得到较好的解决。另外,t o m o h i r om i t s u m o r i 等 人【9 】采用的支持向量机( s v m ) 进行抽取规则的自动获取,抽取生物医学方面的 文本,取得了较好的效果。 有关中文信息抽取方面的研究起步较晚,并且由于汉语本身的特点,构建中 文信息抽取系统远比其他英文抽取系统复杂得多,所以中文方面的信息抽取研究, 现在仍处于探索阶段,但是也取得了一些令人振奋的成绩。比如:国立台湾大学 ( n a t i o n a lt a i w a nu n i v e r s i t y ) 参加了m u c 7 中文命名实体识别任务的评测。北京 大学会议新闻抽取系统,上海交通大学多语种投资信息抽取系统等。在抽取方法 的研究中,很多学者都提出了很有借鉴价值的方法,何召卫等人提出的基于本体 关系匹配的信息抽取【l 们,李朝、彭宏等人提出的基于d o m 树的可适应性信息抽取 方法【1 1 】。尽管如此,目前大多数的信息抽取都是针对某一类特定的文本信息,系 统的移植性比较差。抽取系统工作在抽取其他领域场景的信息时,基本上处于不 能使用的状态。为了解决此类问题,需要抽取系统可以针对不同的领域信息,进 行灵活的转换以适应不同领域下抽取工作的完成。多领域的信息抽取由于其较好 的扩展性和可移植性,已经渐渐成为研究的热点。 1 3 本文的研究思路和工作 本文提出的多领域信息抽取模型的主要流程包括几个部分,首先是对抽取文 本进行预处理,包括分词、词性标注、停用词的识别和处理等;然后是领域场景 的判别,区分所抽取信息的领域场景;接下来是相关领域的规则获取,最后根据 相关抽取规则抽取信息点并生成抽取结果。其中,领域场景的划分和抽取规则获 取是信息抽取系统的关键所在,也是难点。 信息抽取首先应当对抽取文本有一定程度的“理解,要对文本表达的语义有 一个整体的把握,这样在抽取信息点时就会比较精确,抽取的质量也比较高。比 3 第一章绪论 如说一段文本信息的主题是什么,表达的基本信息点有哪些等等。举个简单的例 子:“2 0 0 8 年下半年,由于美国经济的衰退,从而引发了世界范围的金融危机。 这个句子讲的是关于经济方面的信息,有时间“2 0 0 8 年下半年一,信息点“美国经 济衰退 和“世界性的金融危机,前者是原因,后者是结果。这些信息的组合构 成了句子的基本语义脉络,我们可以按照语义表达的信息和相关的抽取规则完成 信息点的采集。 按照上面的思路,我们在对消息文本进行信息抽取时,首先要划分文本的领 域场景,看它属于哪一种领域的信息,因为在不同的领域主题下,相同信息所表 达的语义是不一样的,只有在领域主题确定的前提下信息抽取才有意义,它是多 领域信息抽取中不可回避的问题。本文在领域场景识别时,做了如下几个方面的 工作:首先对待抽取信息进行语义角色标注【1 2 】,梳理抽取句子的语义信息,然后 通过形式化的表示方法将语义信息准确的表示出来,以便于准确的进行语义相似 度计算。本文中采用了将句子语义转化为概念图”1 的方法并结合知网,通过与 领域概念图库中的概念图进行匹配和相似度计算来确定待抽取信息表达的领域主 题。 领域场景确定以后,需要获得针对这一领域的抽取规则,为了能够在抽取时 体现句中的语义信息,我们通过使用语义角色来获取映射规则,获取规则时首先 需要构建一定的训练数据,它包括两个部分:( 1 ) 领域相关的文本信息;( 2 ) 填充好 的信息模板,槽中的指示器( p o i n t ) ,它指向与资源文本对应的语义角色。最后本 文提出的规则获取算法计算获得相关领域的抽取规则。 1 4 文章组织结构 本文在内容上包括五个章节。 第一章绪论主要介绍了本文论题的研究背景和国内外的研究现状,在分析了 具体的技术方法以及这些方法所存在的不足之后,确定了使用语义信息完成信息 抽取任务,并采用概念图来表示语句的语义信息。 第二章主要包括三方面的内容:知识表示、浅层语义分析以及概念图的相关 理论。知识表示是信息处理的基础部分,后面介绍了浅层语义分析的相关概念以 及其特点。有了这两方面的内容后,引出了概念图,总结了概念图在知识表示方 面独特的优越性。 第三章提出了在跨领域信息抽取模型中的领域场景如何区分的解决方案,通 4 西北大学硕士学位论文 过对知网中的资源以及概念图的相似度计算,来确定领域场景。其中概念图 的生成方法以及具体的领域场景划分算法在相应的小节中都有详细描述。 第四章分析了抽取模板和抽取规则之间微妙的关系,提出了自动获取抽取模 板的方法。并借鉴国外抽取规则获取的相关技术,结合中文处理的特点,提出使 用语义进行规则获取的方法,并给出了相关算法。 第五章分析了系统的实现过程,给出了基于语义角色和概念图的信息抽取模 型。并实现了主要模块,最后是对系统进行了实验评测并对实验结果进行了分析。 5 第二章语义分析与形式化表示 第二章语义分析与形式化表示 在自然语言处理模型中,首先应该通过一定的方式将信息表示为计算机可以 理解的形式,以此为基础进行下一步的处理。信息抽取过程亦是如此,我们需要 对抽取的信息做相应的处理。本文中处理的对象是文本信息,但其本质是人类使 用的语言,所以应当根据语言的特点,运用一定的知识表示方法将其形式化为计 算机可以处理的结构。语言信息的本质是语义,所以本文认为:语言的形式化应 当将语言信息的语义反映出来,在理解语义的基础上抽取相关的信息点。语义层 面,文章根据信息抽取的特点,使用浅层语义分析的方法抽象句子的意思,并采 用概念图将语义形式化。后面的内容将分别讨论浅层语义分析和概念图表示。 2 1 形式化语言处理模型 自然语言是人类创造的一种特有的思维工具和交流工具,它和人的思维有密 切的联系,是思维的载体和物质外壳形式,是人类保存知识经验和认识成果的重 要载体。它的出现极大的推动了人类文明的发展和社会的进步。现实中,人类将 实践中产生的知识经验以书面语言文字的形式存储和保留下来,积累了大量 的精神财富和宝贵的文化知识。语言中的口语则用于我们人类日常交流,它也是 语言发展时期最初的形式,无论怎样,语言是我们人类大脑可以处理的信息载体, 我们可以用它来记载知识和互相交流。对这一点进行延伸,我们不难看出,在计 算机世界里以及在计算机发展的过程中,用何种方式来表示计算机要处理的信息 是一个非常重要的问题,在计算机发展的萌芽阶段,许多学者对这一问题做了深 入的研究。先前计算机构架体系研究中,著名科学家约翰冯诺依曼提出了采用二 进制形式来表示信息,其中的计算机指令亦采用二进制进行表示。随着相关研究 的深入,二进制表示形式在计算机中得到了广泛应用,极大的推动了计算机研究 的发展。这些都说明了信息处理单元载体在计算机世界中占有重要地位。后来, 计算机高级语言的出现以及使用进一步推动了信息科学的发展。 从上面的内容中我们可以得出一个结论,用适当的方式或者形式表示被处理 的事物和对象对于计算机的处理是非常必要的。亦如人类使用自然语言的过程一 样,不管是在口语交流中还是在文字记载中,整个过程都是我们的大脑对自然语 言的处理,其中自然语言又反映了外部客观世界。所以在使用计算机对自然语言 进行处理时,第一个要解决的问题就是使用计算机可以理解的形式表示和存储自 6 西北大学硕士学位论文 然语言,亦即知识的表示。这就需要我们在处理的过程中为自然语言构造一个合 理的计算模型,通过这个模型使得计算机虮瞳得人类的语言或者文字,以便由 计算机高效的处理人类自然语言的任务。 从计算机的角度出发,对于自然语言的处理应当分为三个步骤,首先是自然 语言表示的形式化;其次根据形式化的表示抽象出解决问题的模型;最后按照计 算机技术的观点将解决模型形式化表示并实现。这就要求我们在进行自然语言处 理研究时,不仅要懂得相应的语言学知识,而且应当研究如何根据自然语言的处 理任务抽象出解决问题模型的方法。 自然语言理解一般会涉及自然语言的形态学、语法学、语义学和语用学等几 个层次【1 4 】。其中形态学研究词的内部特征结构,包括曲折变化和构词法两个部分。 语法学研究句子构成成分之间的相互关系和组成句子序列的规则。语义学研究的 是语言各级单位的意义,包括词、词组、句子等。语用学是现代语言学用来研究 在特点语境和世界知识背景下对语义的影响。 然而在计算机处理自然语言的过程中,如何合理准确的将语言形式化【1 5 】,是 计算机理解语言所面临的第一步工作,它是进行语言整句语义理解和语义推理的 基础。所谓的语言形式化,就是要将所研究的对象用一种计算机可处理的数学形 式或模型严密准确的表示出来。在本文所做的研究工作中,我们尝试采用概念图 表示的方法描述句子所包含的语义,这一过程是通过概念图相关理论抽象句子的 语义并将自然语言形式化,转变为计算机可操作的处理模型。 2 2 浅层语义分析 在自然语言处理过程中,由于语言本身存在的歧义性问题,一词多义和多词 同义的现象等,一个词语,一句话可能存在多种不同的释义,那么如何分析和确 定句子的语义以及通过何种方式表示句子的语义对于减少不必要的语言歧义和便 于计算机处理有着重要意义。目前,在自然语言处理领域,语义分析的方法大体 上包括深层语义分析【1 q 和浅层语义分析【1 7 1 8 】两种方法。知识表示方法主要有语义 网络、一阶谓词逻辑、概念图、知识图等。 2 2 1 浅层语义分析的概念 所谓的语义分析是根据句子的语法结构和旬中实体词的意义按照某种逻辑 推导出整个语句所表达的语义的规范形式。比如说“王同学吃香蕉。 和“香蕉被 7 第二章语义分析与形式化表示 王同学吃了。 这两个句子虽然在表述形式上有所不同,但是他们想要表达的意思 却是一致的,这两句句子的意思都可以用一阶谓词逻辑抽象表示为:吃( 王同学, 香蕉) 。 如何让计算机正确的理解句子的意思是自然语言处理研究者们追求的目标, 但是由于实际环境中自然语言自身的的复杂性:使用语境,上下文,褒贬感情色 彩等等,使得深层语义分析在实际中可操作性较差,因而其发展比较缓慢,鲜有 可借鉴的成果。但在大多数的实际应用领域,其处理过程并不需要对文本信息有 特别深入和细致的理解,比如在信息抽取中,它只是要求对文本有一个大致了解, 并不需要对抽取信息有完全深入的语义理解。 对于深层语义分析研究本身所陷入的困境和僵局,近年来,一些学者提出浅 层语义分析的方法,其基本理论思想是基于一套非严格定义的标签体系【1 8 】,它只 关注语句中的核心成分( 如谓词) 以及对语义有影响的附属成分,附属成分一般 依附于语句的核心单位。这种做法和思想摒弃了深层语义分析中对句子深层关系 的挖掘和隐藏含义的模糊分析,增强了可操作性。所以浅层分析方法能够在满足 实用的基础上快速构建语义分析算法,取得比深层分析更高的正确率以及应用效 率。 语义角色标注就是g i l d e a 等人【1 9 1 提出的一种分析句子基本语义的方法,它是 浅层语义分析方法一种重要的实现方式。 2 2 2 语义角色 语义角色( s e m a n t i cr o l e s ) 是语句中的语言成分在表示某一事件或语义中所担 任的参与者角色。为了便于理解,我们可以将语义角色看做是句子语义的基本单 位,是相关语言载体结构成分间的意义关系的划分。对于这种语言意义划分粒度 的大小【2 0 】,可以由语言学家对于具体环境或应用对象的不同而有所区别:从整个 语句宏观的大体概念到语句中细微的语义细节,都可以将它们看成是语义角色, 它们的合集形成了语句所要表达的意思,这样便形成了不同层次的语义角色集合。 就目前的研究情况来看,并没有明确的划分界限,一般将语义角色粗略的分为三 个等级:微观级、中观级和宏观级。 微观级主要包括基于特定动词的语义角色和基于描述特定主题的语义角色。 基于动词的语义角色划分,主要是根据不同的动词来进行,依据其意思确定其语 义角色。比如: 8 西北大学硕士学位论文 打者( b e a t e r ) 被打( b e a t e n ) 所以,动词的个数决定语义角色的数量,有多少个动词就有多少个语义角色 与之对应。 基于领域的语义角色划分,主要是依据自然语言所表达的不同主题来划分不 同的语义角色,当然划分的过程中也需要有动词的相关信息。比如在体育比赛的 文本消息中,可以将文本消息分为以下角色: 参赛者( s p o r t _ p l a y e r s ) 参赛时f 司( s p o r t _ t i m e ) 参赛地点( s p o r t l o c a t i o n ) 比赛结果( s p o r tr e s u l t s ) 等 中观层的语义角色,比较著名的是大家比较熟悉的“格 ,这里的格不同于我 们以前接触语法时学习的“所属格、宾格、主格等 ,文中我们将“格 概念看做 是“语义格,它主要包括: 1 、施事( a _ a g e n t ) ,表示动词的动作发出者。 2 、经事( e ,表示受某一行为动作影响的实体。experieneer) 3 、受事与客体( 0 ,施事者发出动作影响的承接者和事物object) 4 、路径( pp a t h ) ,表示动作发生时多经过的路径,在起点和终点之间。 5 、起点( s s o u r c e ) 和终点( g _ _ g o l e ) ,表示运动变化时的开始和结束,可以 是时间或者地点。 宏观级在分法上主要将丰富的语义角色划分为对立的两种,比如“原型旋事 和“原型受事 。 尽管语义角色在精细程度划分上有不同的大小级别,但是它们所反映和表达 的意思都是对所处理句子的一个“浅层理解 ,表示了句子的基本语义。在自然语 言研究的实践中,这种浅层的语义分析方法取得了较好的语义分析正确率,并初 步运用到了自然语言理解领域。 2 2 3 语义角色参数 在实践中,自然语言处理的学者们是通过句子语义成分的标注来分析句中的 语义角色,进而达到分析和理解句子语义的目的。在分析句子语义时,不能凭空 的猜测其语义成分,而应该按照其一定的语法规则识别出语言单位的界限,并在 9 第二章语义分析与形式化表示 此基础上分析各个单独成分的语义,并进一步推理整句语义。因此在理解语义之 前需要对句子进行一定程度的语法分析,以此为起点揭示句子的意思。在目前的 语法分析方面,主要有短语结构文法分析和依存文法分析,后者在分析句子语法 时主要通过关注句子中出现的各个词语之间的内部次序和依赖关系,以此得出句 子的语法关系,此种方法着力刻画了句中词与词之间的结合关系,并取得了较好 的效果,因而在自然语言处理的语法分析中得到了较为广泛的使用。 谈到语义角色参数,不能不谈到依存文法分析,很多角色标注工具都是以依 存文法分析为基础的,这里我们简单的谈一谈依存文法的相关理论。上世纪七十 年代,r o b i n s o n 提出了著名的依存文法理论【2 l 】,该理论揭示了四个语言依存现象, 并有四条公理与之对应。我国学者根据汉语的特点,建设性的提出了第五条公理 【捌,分别如下: 第一条:句子中只存在一个独立成分; 第二条:句中的其余成分垂直依赖于句中某一成分; 第三条:句中不存在同时依赖于两个成分以上的语言成分; 第四条:在两个语言成分之间,如果后者依赖于前者,且存在第三成分位于 这两个成分之间,那么此成分直接依赖于后者,或者依赖于这两个成分之间的某 个成分; 第五条:核心成分两边的成分无交叉依赖关系; 依存语法强调动词中心说,注重句子成分之间的支配和被支配的关系,而不 重视句子结构层次。因此,在众多的语义成分中,谓词成分是句子的核心成分, 不论是在英语还是在汉语中,都具有重要地位,句中的基本语义单位依附于谓词, 它是整个语句的核心。这里在分析时主要针对待分析语句中的谓词以及谓词的相 关成分,所以语义角色又称为谓词参数。 比如:【中国足球队( a g e n t ) 】将要在 五月份( t e m p ) 】 参力i ( t a r g e t ) 】正式的 国际 比赛( p a t i e n t ) o 这句话中,“参加 是谓词,“中国足球队 和“国际比赛 分 别是其“施事者和“受事者 ,“五月份 表示其发生的时间。此句也可以表 示为: 五月份( t e m p ) 】 中国足球队( a g e n t ) 】将要 参加( t a r g 哟】正式的【国际比赛 ( p a t i e n t ) 】。这两句谓词“参加在各句中所扮演的语义角色相同,也就是说虽然 它们的表述形式不一样,但它们的意思相同。 “a g e n t ,t a r g e t 、p a t i e n t 、t e m p 表示了句中的语义角色,为了统一表示, 1 0 西北大学硕士学位论文 我们采用p r o p b a n k 中对谓词参数( 语义角色) 的定义。具体参数及其含义见表2 1 。 表2 1 语义角色类型 角色参数含义 a r g ( n ) 核心参数,其定义依赖于谓词本身 a r g m l o c表示谓词发生动作的场所 a r g m e x t 程度记号,表示动作所引起的变化 a r g m d 己 表示运动路径方向性修饰符 a i 沁m a d v一般表示副词成分 a r g m 二n e g 否定表示符 a i 沿m 1 m p表示动作发生的时间 a r g m d i s话题标记,通常将一个句子连接到另一个句子的开始部分 a r g m r e c 表示指代所指,包括反身代词 a l 沿m p r d二次谓词标记,表示谓词附属物包含谓词结构的能力 a r g m - p n c 表示动做的目的 a r g m m n r方式副词,表示动作如何被执行 a r g m c a u 表示动作发生的原因 2 3 概念图理论 在使用计算机处理人类语言时,我们需要用一种被严格定义的工具来将自然 语言语句的语义进行某种程度的量化。换句话说我们应当找出计算机可以理解的 形式来表示和处理自然语言的语义。前人的相关研究表明,这种知识表示工具需 要具备两个基本条件,一是有着严格数学定义,二是可以准确表示旬义,即它的 表示无二义性。目前相关领域研究中常用的表示方法有概念图、语义网络、一阶 谓词逻辑等。 2 3 1 概念图的定义与组织形式 概念图( c o n c v p t u a lo r a p h ) 【2 3 】是组以人工智能的语义网络为基础的一套逻 辑系统,它是由j o h ne s o w a 于上世纪8 0 年代中期提出的一种知识表征工具。概 念图不仅具有和其他知识表示工具一样的完备表达能力,而且其推理计算体系有 着严密的数学定义,可以准确的表示自然语言句子的语义,基本上可以实现与自、 第二章语义分析与形式化表示 然语义的相互映射。 概念图表示句子意思的时候,有三个基本特点:一是逻辑准确,二是可读性 强,三是计算操作严密,这使得概念图在处理语义时有着自身独特的优势。在自 然语言处理领域,概念图可以作为自然语言和计算机处理之间的桥梁,它是介于 计算机和人类自然语言之间的中间语言,为计算机进一步处理语句做好铺垫。 概念图一般由两个结点构成,用以说明事物或者表达某种意义。其中,一个 结点称作概念结点,另一个结点称作关系结点。关系结点表示概念结点之间的关 系,比如有表示时间的关系( p t m ) ,相关关系( i n s t ) 以及一些介词关系等。 图2 1 为句子“j i mk i c k e dt h eb a l lq u i c k l y ”的概念图示例。 图2 1 例句概念图形式 一般情况下,概念图中用矩形框来表示概念结点,它的内容可以是某种状态、 谓词或者实体。关系结点一般采用椭圆或圆角矩形表示,用以说明实体间的关系 亦或是实体之间相互作用的关系。图中的箭头弧表示依照某种次序将概念结点和 相应的关系结点连接起来。这里,需要说明的是关系结点只能有一个关系标签, 不能同时包括多个,即实体间不能既是a 关系,又是b 关系。比如上图中的 “a g e n t 或者“m a n r 。 矩形框表示的概念结点一般也是由两个部分构成:个体表示符和类型标识符。 图2 1 示例中,“k i c k e d 、“t h eb a l l ”为类型标识符,人的名字“j i m 可以看做是 概念的指代,可以理解为个体标识符。一个简单的概念图例子如图2 2 所示。 图2 2 概念图组成示例 上图中表示的概念结点“售货员和“卖通过关系结点a g e n t 连接,关系 结点r c p t 连接概念节点“卖 和“苹果 。 我们在实际应用中,为了表示的方便和输出,经常使用一种线性话的表示方 式来表述概念图,他们两者之间可以互换。比如图2 2 的概念图可以表示为如下形 式: 【卖】【a g e n t 】一【售货员】 1 2 西北大学硕士学位论文 【r c p t 】_ 【苹果】 2 3 2 概念图的匹配 自然语言处理中,因为语句表达方式的多样性,相同语义的句子可能会有不 同的概念图表示形式,因此,如何判断概念图间的关联关系对于语义的推理和计 算有着重要的意义。那么我们如何从数量众多的概念图中找到语义相同的概念图 呢? 概念图的匹配是解决这个问题的一个常用方法。 概念图图的匹配算法有多种【2 4 1 ,其中比较常用的一种是最大连接运算匹配。 假设有概念图a 和b 。 最大连接匹配算法:对于a 中的每一个关系k ,都与概念图b 中的关系进 行关系匹配,如果在b 图中不存在,则关系进入下一条,继续匹配。如果 a 图中概念c a l 和概念c a 2 的关系i k 对应于b 图中的概念c b l 和c b 2 ,若c 。l 和c b l 相容( 或者是存在公共的限制概念m l 和m 2 ) ,c , 2 和c 眈相容,则认为部分匹配加 入结果概念图中,并进行下一关系和概念的匹配。 如果上述条件满足,则可以认为概念图a 和b 能够匹配。 在知网中,概念是按照一定的层次和上下义组成的,我们可以利用这种组织 结构配合概念图的匹配算法进行概念图的匹配。比如知网中,在概念的层面,有 大概念和小概念,亦即上下位关系,上位词一般是下面词意义的概括和泛化,这 种形式也比较符合概念图概念结点存在公共限制的思想,有利于进行匹配运算。 但是,目前已有的匹配算法,包括上文中的方法都是基于不完全匹配的算法, 对于判断表示整个语句的概念图语义时能力非常有限。在使用上述方法进行匹配 时,如果有一个结点或者关系不匹配很有可能导致两个子图匹配失败,难以得到 他们的相似度,从而影响整个句子语义相似度的判断。可能会出现两个句子语义 相近,但是由于某个概念或者关系匹配的失败导致整句无法匹配。所以本文的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论