




已阅读5页,还剩79页未读, 继续免费阅读
(计算机应用技术专业论文)基于本体的信息抽取研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于本体的信息抽取研究 中文摘要 基于本体的信息抽取研究 中文摘要 信息抽取研究旨在为人们提供更有力的信息获取工具,以应对信息爆炸带来的严 重挑战。本体作为对领域知识的共同理解,能有效地解决现在信息抽取所面对的主要 挑战知识工程的瓶颈问题。 本文采用自项向下的方法,根据三层本体框架结构来构建本文的本体一大学教 授简历本体( p c v ) ,将本体中的概念分为事件概念和扩展概念两部分。在这个过程中, 通过手工收集和基于w o r d n e t 的语义相似度计算相结合的方法,获得本体内概念的 实例,构建了一个较完备的概念、关系和实例相结合的本体库。 本文提出了一种基于本体和分类的信息抽取方式,在具体的抽取过程中,利用到 本体中的概念、关系和实例,由本体中的元素确定待抽取的内容。首先在预处理过程 中引入本体中的特殊概念及其实例,将文档中的特殊实例标注出来。接着采用分层的 方法对文档进行抽取,根据待处理文本的特征,先对待抽取文档中的句子进行分类, 确定句子的事件类别,句子分类的类别标准来源于本体中的事件概念。结合已确定的 句子事件类别,可以得出与事件概念相关的扩展概念和属性,制定抽取模板,最后根 据预处理中标注的结果直接提取模板中的待抽取的实体。实验表明该方法有较好的抽 取性能。 本文根据本体中的概念和关系决定待抽取的对象,本体的引入既保证了结构的一 致性,又保证了数据的一致性。另外。本文将抽取问题转化为分类问题,能很大程度 减少用户标记训练数据集的工作量。实验表明该方法有较好的抽取性能。 关键字l信息抽取,本体,句子分类,r i p p e r 。g a t e ,a n n i e ,语义相似度 作者:陈静 导师:朱巧明 。墅墅壁墼竺熊! ! 业! 塑业些! 墅! ! 苎堕塑! 堕 r e s e a r c ho fo n t o l o g y - b a s e di n f o r m a t i o ne x t r a c t i o n a b s t r a c t t h er e s e a r c ho ni n f o r m a t i o ne x t r a c t i o na i m sa tp r o v i d i n gm o r ep o w e r f u li n f o r m a t i o n , c e s st o o l st oh e l pp e o p l eo v e r c o m et h ep r e b i e mo fi n f o r m a t i o no v e r l o a d i n g a st h e c o l l i l i l o nk n o w l e d g eo fas p e c i a ld o m a i n ,o n t o l o g yc o u l dd e a lw i t ht h ec h a l l e n g i n gt a s ki n i n f o r m a t i o ne x t r a c t i o n - - t h eb e t t l e n o c ko f k n o w l e d g ee n g i n e e r i n g t h i st h e s i se x p l o r e st o p - d o w na n dt h r e e - l e v e ro n t o l o g yf r a m e w o r ks n u c t i l r et o e s t a b l i s ht h eo n t o l o g yo ft h et h e s i s ,n a m e l yp r o f e s s o r sc vo n t o l o g y ( p c v ) ,w h e r ei t s c o n c e p t sa r cd i v i d e da se v e n tc o n c e p t sa n de x t e n d e dc 。删钠i nt h i sp r o c e s s ,t h e i n a t a l l so fc o n c 宅v ta r eg a i n e db yc a l c u l a t i n gs e m a n t i cs i m i l a r i t yb a s e do i lw o r d n e ta n d c o l l e c t i n gm a n g i l y , 8 0a st of u l f i l las o u n do n t o l o g yw i t hi n t e g r a t e dc o n c e p t s ,r e l a t i o n s a n di n s t a n c e s , 、 t h i st h e s i sp r o p o s e sa na p p r o a c ht op r o c e s si n f o r m a t i o ne x t r a c t i o nb a s e du p o n o n t o l o g ya n dc l a s s i f i c a t i o n , i nw h i c hc o n c e p t s ,r e l a t i o n sa n di n s t a n o c si nt h eo n t o l o g y a r c u l i i i d a n dt h ec o n t e n tu n d e r - e x t r a c t a dl i e so nt h ee l e m e n t so fo n t o l o g y w ef n 瞎t i n h o d u s p c d a lc o n c e p t sa n dt h e i r si n s t a n c e si n t h eo n t o l o g yi n t ot h ed o c u m e n t p r e p r o c e s s i n g ,a n dp i c ko u ts p e c i a li n s t a n c e si nd o c u m e n t s t h e nw ee x t r a c ti n f o r m a t i o n f r o md o c u m e n t si nah i e r a r c h i c a lw a y a c c o r d i n gt of e a t u r e so ft h ep r o c e s s i n gd o c u m e n t , t i l es e n t e n c e si ni ta r ec l a s s i f i e da n dt h e i re v e n tt y p e sa r ed e t e r m i n e di na d v a n c e t h e s t a n d a r do fs e n t e n c ee v e n tt y p er o o t si ne v e n tc o n c e p t si no n t o l o g y c o n s e q u e n t l yw ec a n o b t a i nc o r r e s p o n d i n ge x t e n d e dc o n c e p t sa n dp r o p e r t i e s ,b e t ho fw h i c hc o u l db eu s e dt o e s t a b l i s he x t r a c t i o nt e m p l a t e s a f t e r w a r d s ,i n s t a n c e sa r cg a i n st ob ee x t r a c t e dd i r e c t l yb y c o m b i n gl a b e lr e s u l t sa n dt e m p l a t e s t h ec o n t e n tu n d e r - e x t r a c t e dw i l lb ei d e n t i f i e db yc o n c e p t sa n dr e l a t i o n si no n t o l o g y , w h i c hp r o m i s e st h ec o n s i s t e n c yo fb o t hs t r u c t u r ea n dd a t ar e s p e c t i v e l y a n d ,i tw o u l d n r e d u c em a n u a lo p e r a t i o ng r e a t l yt ol a b e ln 毽m i n gd a t ab yc o n v e r t i n ge x t r a c t i o ni n t o c l a s s i f i c a t i o n t h ee x p e r i m e n t ss h o wt h a tt h en e wa p p r o a c hh a sag o o dp e r f o r m a n c eo n i n f o r m a t i o ne x t r a c t i o n k e yw o r d s si n f o r m a t i o ne x t r a c t i o n ,o n t o l o g y ,s e n t e n c ec a t e g o r i z a t i o n ,r i p p e r , g a t e ,a n n i e ,s e m a n t i cs i m i l a r i t y w r i t t e nb yc h e n j i n g s u p e r v i s e db yz h uq i a o m i n g m 苏州大学学位论文独创性声明及使用授权声明 学位论文独创性声明 本人郑重声明:所提交的学位论文是本人在导师的指导下,独立进行研究工作 所取得的成果。除文中已经注明引用的内容外,本论文不含其他个人或集体已 经发表或撰写过的研究成果,也不含为获得苏州大学或其它教育机构的学位证 书而使用过的材料。对本文的研究作出重要贡献的个人和集体,均已在文中以 明确方式标明。本人承担本声明的法律责任。 研究生签名:二雌日期: 塑墨兰7 学位论文使用授权声明 苏州大学、中国科学技术信息研究所、国家图书馆、清华大学论文合作部、中 国社科院文献信息情报中心有权保留本人所送交学位论文的复印件和电子文 档,可以采用影印、缩印或其他复制手段保存论文。本人电子文档的内容和纸 质论文的内容相一致。除在保密期内的保密论文外,允许论文被查阅和借阅, 可以公布( 包括刊登) 论文的全部或部分内容。论文的公布( 包括刊登) 授权 苏州大学学位办办理。 研究生签名 导师签名 期:型 期; 基于本体的信息抽取研究 第一章引言 1 1 课题提出 第一章引言 随着计算机在各个领域的广泛应用及i n t e m e t 的迅猛发展,越来越多的信息以电 子文档的形式在计算机中存储和处理。信息的过量增长带来一定负面影响:面对巨量 的信息,难以发现真正需要的信息。信息检索技术虽然能够从大量的文档集合中找到 用户感兴趣的相关文档,但是这些文档都是以自然文本的形式提供给用户,用户还需 要花费大量的时间来阅读这些文档,然后找到自己所需要的信息,同时这些文档也不 能直接被应用程序理解,后期的信息再利用就显得比较困难。 为了应对信息爆炸带来的挑战,迫切需要一些自动化的技术帮助人们在海量信息 中迅速找到自己真正需要的信息。信息抽取( i n f o r m a t i o ne x t r a c t i o n ) 技术应运而生,成 为自然语言处理领域重要的研究课题。 信息抽取的对象可以分为自由文本,结构化文本和半结构化文本。因为结构化文 本和半结构化文本其自身格式的特定,抽取技术相对简单,准确率也较高。目前的信 息抽取研究主要集中在自由文本的信息抽取 目前,自由文本信息抽取技术可分为三类【1 1 :基于n l p ( 自然语言处理) 的方式、 基于规则的方式和基于统计学习的方式。基于n i p 的方式是早期的信息抽取方法, 一般效率较低,现已较少使用。基于规则的方法是一种知识工程的方法。在早期,一 般以手工的方式设置抽取规则。随着应用范围的扩大,手工获取规则突兀成为知识工 程的瓶颈。近期大量语料库的涌现,为规则的自动学习和获取提供了可能,这使得机 器学习的方法在规则的( 半) 自动获取中得到广泛应用。基于统计学习的方式主要有基 于h m m ( 隐马尔可夫模型) 的方法等。 基于规则的方式和基于统计学习的方法都需要在前期进行大量的手工标注训练 文本,然后对训练文本进行学习但是训练文本不可能覆盖整个领域内出现的所有语 言习惯。同时,这些方法虽然能识别出实体,但是缺乏特定的领域知识来获取抽取实 体问的关系,没有关系的实体,抽取出来是没有意义的翻 第一章引言基于本体的信息抽取研究 o n t o l o g y ( 本体) 是知识工程和人工智能研究的一个重要问题口】,o n t o l o g y 的目标 是捕获相关的领域的知识,提供对该领域知识的共同理解,确定该领域内共同认可的 词汇,并从不同层次的形式化模式上给出这些词汇( 术语) 和词汇之间相互关系的明确 定义如果能在信息抽取任务中引入相应的领域知识领域o n t o l o g y 来指导抽取 过程,将能有效的提高信息抽取的性能。目前,已有一些基于o n t o l o g y 的信息抽取 研究,但是都没有完全发挥本体的潜能1 2 】。 1 2 研究现状 基于o n t o l o g y 的信息抽取技术是一种把o n t o l o g y 和信息处理技术结合起来实现 信息抽取的一种技术,它是现在信息抽取研究的一个热点,而且已经有了很多研究 嘲【4 1 1 5 】。与其它信息抽取方法相比,基于o n t o l o g y 的信息抽取有它的优点。由于它是 基于o n t o l o g y 的抽取,因此这种方法对文档的结构没有依赖性嘲,从理论上讲,只要 领域o n t o l o g y 足够强大,它就能在该领域的信息抽取中达到很高的抽取准确率和召 回率。 1 2 1 现有系统分析 基于o n t o l o g y 的信息抽取在目前已经有了很多研究,也有了不少的实验系统, 有的实验系统已经比较成熟下边介绍几个应用系统的简单情况: 1 2 1 1k e u o a 系统 k e u o a | 4 j ( k n o w l e d g ee x t r a c t i o nb yu s i n g a no n t o l o g y - b a s e da n n o t a t i o nt 0 0 1 ) ,是 一种通过使用简单的用户定义的知识抽取模式( k n o w l e d g ee x t r a c t i o np a t t e r n s ) 来从互 联网页上抽取知识结构的工具这个系统由三个组件组成: ( 1 ) 基于o n t o l o g y 的编辑( m a k e - u p ) 组件:它允许用户浏览本体和文档信息。并将 文档中相关信息按照相关本体概念标记信息 ( 2 ) 学习组件:用来从示例中学习信息规则 ( 3 ) 信息抽取组件:抽取实体之间的关系 2 基于本体的信息抽取研究第一章引言 系统使用机器学习组件( c r y s t a l ) 从文本中学习规则( m l e s ) ,开发了一个应用环境, 通过以下四个步骤来完抽取过程: ( 1 ) 浏览( b t o w s e ) :提供了一个用户可以浏览、编辑和维护本体的环境( 它采用 w e b o n t d 环境) ,方便用户使用。 ( 2 ) 标注( m a k e u p ) :使用事先在o n t o l o g y 上定义的标注集来标注文本。这里使用 k m i 的o n t o l o g y ( o n t o l o g yd e s c r i b i n gk n o w l e d g em e d i ai n s t i t u t e ) ,从定义的每个类的 槽( s l o t ) 中抽取可能的标注集。 ( 3 ) 学习( s t u d y ) :使用c r y s t a l 作为学习组件,从标注的文本中学习关系。c r y s t a l 使用倒置( b o t t o m - u p ) 方法,如果发现规则的特定实例,就归纳出这些规则。 ( 4 ) 信息抽取( i n f o r m a t i o ne x t r a c t i o n ) :从文本中抽取专门的( 指定的) 信息。比如 抽取k m i 项目的名字,k m i 的组织结构,及奖金,日期等等。 该系统把模板驱动的信息抽取引擎和一个o n m l o g y 引擎集成起来了用来支持必 要的语义内容并消除了抽取信息的二义性。 1 2 1 2a r t e q u a k t 系统 觚e q k 产】系统是从艺术家和绘画领域文档中抽取出艺术家的基本资料和他的 绘画作品,将其存放在知识库中,然后对知识库进行查询、检索,从而生成特定需求 的传记。 a r t e q u a k t 将o n t o l o g y 和知识抽取工具联合起来,利用o n t o l o g y 提供连续的知识 支持并引导信息抽取过程。该抽取工具能搜索在线的文档,并把其中符合事先定义好 结构的知识抽取出来。它将抽取的知识保存在知识库中,并用一种机器能够理解的格 式来提供知识另外,系统还提供了基于词典的术语扩展机制扩展o n t o l o g y 内的术 语,以此加强知识抽取过程。 a r t e q u a k t 的体系结构包括3 个主要模块。第一是知识抽取工具,从句子或者段 落中搜集信息条目,从网络上文档中手工挑选或者通过适当的搜索引擎技术自动获 得。这种工具把信息段落和从o n t o l o g y 词汇中产生的元数据传送到o n t o l o g y 服务器。 第二是o n t o l o g y 服务器,存储和强化信息,使得传记生成工具能够使用推理引擎来 查询k b 知识库。第三是a r t c q u a k t 服务器,通过简单的界面接口把用户需求生成描 第一章引育 叁于本体堕鱼皇塑! ! ! 堕 述。用户可以提出特殊的传记请求,例如:编年形式的传记,概要类型的传记,或者 专注于艺术家的风格和主要工作等特殊的方面服务器使用描述模板从k b 知识库翻 译描述。 1 2 1 3o f e e 系统 o f e e 【5 1 系统全称叫o n t o l o g y - b a s e df u z z ye v e n te x u a c t i o n ,是一个基于o n t o l o g y 的汉语新闻摘要的模糊事件抽取代理系统 o f e e 系统包括信息检索代理( r e t r i e v a la g e m ,r a ) ,文件处理代理( d o c u m e n t p r o c e s s i n g a g e n t ,d p a ) 和模糊推断代理口i i 艺可i n f e r e n c e a g e n t ,f i a ) 。事件o n t o l o g y 过滤器( e v e n to n t o l o g yf i l t e r ,e o f ) 通过提议算法产生事件抽取o n t o l o g y ( 将抽取的数 以d a m l + o i l 格式存放) 。摘要代理( s u m m a r i z a t i o na g e n t ,s a ) 基于事件抽取 o n t o l o g y 生成电子新闻的摘要。 o f e e 系统的体系结构如下:中文电子新闻o n t o l o g y 由领域专家预先构建,并且 运用在由f i a 和e o f 运行的事件o n t o l o g y 抽取中。o f e e 代理包含3 个子代理:r a , d p a ,f i a ,并且由这三个子代理来执行电子新闻摘要的抽取工作 首先,r a 周期性自动从i n t e m e t 获取电子新闻,将这些电子新闻存储到电子新 闻知识库中。同时,它也把电子新闻发送给d p a 和s a 。在d p a 中嵌入了一个由c k i p ( c h i n e s ek n o w l e d g ei n f o r m a t i o np r o c e s s i n gg r o u p ) 开发的中文分词工具,来对中文电子 新闻进行分词处理。而且d p a 还会对中文电子新阐进行术语过滤,发现其中非常重 要的中文术语,并且对这些术语进行标注,以便进行事件抽取。f i a 利用中文术语集 和中文电子新闻o n t o l o g y 推导出用于抽取电子新闻的事件o n t o l o g y ,e o f 得到中文 电子新闻o n t o l o g y 和f i a 推导出来事件抽取o n t o l o g y 。最后s a 将对这些基于事件 抽取o n t o l o g y 处理的中文电子新闻进行总结和摘要 除上面介绍的系统外,还有很多基于o n 幻l o g y 的信息抽取研究工作【6 】l 刀【。删 e m b l e y 等人 6 1 提出了一个基于应用领域o n t o l o g y 的非结构化文本信息抽取方法。根 据选定的训练集中的数据来确定本体中出现的概念和关系,建立本体;手工统计概念 和关系中出现的关键字,书写正则表达式作为抽取规则,然后根据规则进行抽取。文 献【7 】把语法分析和o n t o l o g y 结合起来,利用领域o n t o l o g y 里的概念、关系、统计的 基于本体的信息抽取研究第一章引言 关键字自动生产抽取规则,然后对文章、句子的语法结构进行分析,最后利用规则对 文档进行标注与抽取生成规则中的关键字等是由手工统计。 1 2 2 基于o n t o l o g y 的信息抽取系统分类与比较 基于o n t o l o g y 的信息抽取的方法已经有了不少研究,这里对这些方法作一些简 单的介绍。通常来说基于o n t o l o g y 的信息抽取方法可以分为两类: 1 知识工程方法:必须由领域专家来构建领域o n t o l o g y 知识库,该本体知识库 中除了包含概念和概念间的关系,还包含领域内有代表性的术语以及概念间关系的关 键字。由专家对o n t o l o g y 知识库进行分析、调整从而人工制定规则、模板。例如文 献【6 】通过手工统计概念之问关系的关键字,加入到本体库,然后根据本体中的概念, 关系及关键字形成抽取规则,最后抽取。 2 自动训练方法:按照本体中定义的概念和概念问的关系对训练文档进行标注, 然后通过机器学习来推导模板和模板的自动填充知识库和规则。例如文献【4 】先按照 本体内的相应概念和关系对文档进行标注,利用c r y s t a l 学习组件学习抽取规则,然 后利用规则进行抽取。 这两种方法各有优缺点。知识工程方法的优点是无需对o n t o l o g y 知识库进行经 常性的更改,通过o n t o l o g y 知识库转化而来的信息抽取规则比较固定,抽取效率比 较高。但是知识工程方法的缺点是由于信息抽取所依赖的o n t o l o g y 知识库很少更新, 所以一旦所抽取的文本中出现o n t o l o g y 知识库中未描述的概念、关系时,信息抽取 的召回率会降低。而且领域o n t o l o g y 知识库必须由本领域内的领域知识专家建立, 其非常的费时费力。 自动训练方法的优点是只需要确定领域内o n t o l o g y 内的概念和关系,可以无需 领域专家的参与,而且只要通过标注好的大量文档对信息抽取系统进行训练就能自动 填充好知识库和生成新的抽取规则。自动训练方法的缺点是需要手工标注大量的训练 文档,训练文件的多少将直接影响到信息抽取的效率。 1 2 3 基于o n t o l o g y 信息抽取的不足 虽然目前已经有很多利用本体进行信息抽取的系统,也取得了一些效果,但是这 第一章引言基于本体的信息抽取研究 些系统都没有能发挥领域本体的在信息抽取过程中的全部潜能1 2 这些系统的本体文 件多只包含概念和概念间的关系,因此在抽取过程中也只有利用到本体中的概念和概 念问的关系嘲川f s l 研文献【2 】除了使用了本体的概念和概念间的关系之外,还利用了 本体中的实例来消除抽取过程中的歧义,但是实例的利用仅仅在实体识别之后。用来 判断实体所属的本体概念 本体中的实例表示了颁域内的一些特殊的概念术语,如果能把实例用于实体的发 现也将大大提高抽取的性能另外,一个完备的本体应该还包含真理和函数,它能对 抽取数据进行有效的推理整合,根据现有知识推理出隐含的信息 1 3 课题内容及本文的工作 本文主要研究基于本体的信息抽取技术,处理的对象为自由文本,主要针对英文 的自由文本。 本文的主要工作如下; 1 对信息抽取和本体的相关知识进行介绍,然后对现有的基于本体的信息抽取 技术进行了总结,并指出其中的不足。 2 以一个特定本体( 大学教授简历) 为例,描述了采用自顶向下的方法,根据三 层本体框架结构来构建本文的本体大学教授简历本体( p c v ) 的过程。本文将本体 中的概念分为事件概念和扩展概念两部分,并且通过灵活利用基于w o r d n e t 的语义 相似度计算方法和手工收集的方式扩展本体概念的实例,获得了一个较完备的本体库 ( 概念、关系和实例的结合) 3 本文设计了一个基于本体和分类的信息抽取系统,并详细介绍了几个主要部 分的实现,对实验的结果进行了相应的分析和总结 4 仔细研究了g a t e 中的a n n i e 组件的设计原理和实现细节,学习了j a p e 语 法规范,并对a n n i e 组件进行了相应的扩展。添加了一些j a p e 规则来满足本文的 预处理要求。 5 。分析了本文句子分类的特点,利用r i p p e r 学习算法来学习分类规则。介绍 了r i p p e r 算法的实现细节、训练文件的格式要求,以及如何将r i p p e r 改造为一个 多类分类问题。详细描述了分类属性的选择过程,介绍了基于r i p p e r 分类的实现过 6 基于本体的信息抽取研究第一章引言 程,并对r i p p e r 的分类性能进行了分析 6 利用j a p e 语言及j a p e 规则的冲突解决机制,制定了一系列的j a p e 规则来 辅助抽取过程。 1 4 课题意义和创新性 信息抽取技术能有效的帮助人们从大量的信息中提取出感兴趣的内容,并按照一 定的格式存储,方便后续对信息的重复利用。目前文本信息抽取面临的主要问题是知 识工程的瓶颈问题,即信息抽取的适应性问题【l 】。本体是知识工程和人工智能研究的 一个重要问题1 3 】,将本体和信息抽取结合起来,利用本体所描述的领域知识来指导信 息抽取过程将能有效的突破信息抽取的瓶颈问题。 本文的创新之处在于: ( 1 ) 在构建本体的过程中,采用基于w o r d n e t 的语义相似度计算的方法来获得本 体相关概念的实例。在具体的计算过程中,将由词语计算相似度的方式进一步细化为 对同义词集合( s y n s e t ) 计算相似度的方式,有效提高了计算的准确性 ( 2 ) 目前大量的基于o n t o l o g y 的信息抽取中,仅利用到本体的概念和关系。本文 除了利用本体中的概念和关系外,还利用了本体中特殊概念的实例。将实例引入到文 档的预处理过程中,将实例以对应的本体概念标注出来,方便后续的分类和抽取工作。 ( 3 ) 本文根据o n t o l o g y 中的概念和关系决定待抽取的内容,o n t o l o g y 的引入既保 证了结构的一致性,又保证了数据的一致性,使不同来源的数据都能以统一的视图呈 现,方便了信息的继承和交换。 ( 4 ) 采用分层抽取的方式,将抽取问题转换为分类问题,很大程度减少用户标记 训练数据集的工作量。无论是采用基于规则自学习的方式还是基于统计的方式来进行 抽取,都需要对训练语料中每个句子中待抽取的实体进行标注转化为分类问题后, 对句子中实体标注简化为只需对句子类别的确定即可,能大大降低标记训练数据的工 作量。 1 5 本文组织结构 第一章对本课题做了整体的介绍,包括课题的提出、研究现状、意义,以及本 第一章引言 基于本体的信息抽取研究 人所做的工作 第二章主要总结了信息抽取和o n t o l o g y 的相关知识。 第三章详细描述了如何构建领域本体的过程。首先介绍了构建本体的相关技术 和准则;根据具体领域本体的特点,采用自顶向下的方法,根据三层本体框架结构来 构建具体的本体大学教授简历本体( p c v ) 。另外,提出通过手工收集和基于 w o r d n e t 的语义相似度计算相结合的方法,来获得本体内概念的实例,构建了一个较 完备的概念和实例相结合的本体库 第四章详细介绍了本文基于本体信息抽取系统的基本框架中的各个模块,并以 一个具体的抽取例子描述了抽取的整个过程。 第五章详细描述系统主要部分的实现细节,给出了相关的实验结果,并对实验 结果进行了分析。 第六章对本文所做的工作进行了总结,并指出其中不足之处,展望下一步的研 究方向。 l 基于本体的信息抽取研究 第二章相关工作基础 2 1 信息抽取概述 第二章相关工作基础 信息抽取是以一个以未知的自然语言文档作为输入,产生固定格式、无歧义的输 出数据的过程【l 】。即从文本中抽取用户感兴趣的事件、实体和关系,被抽取出来的信 息以结构化的形式描述,然后存放在数据库中,为情报分析和检测、比价购物、自动 文摘、文本分类等各种应用提供服务。 例如,从新闻报道中抽取出恐怖事件的详细情况:时间、地点、作案者、受害者、 袭击目标、使用的武器等;从经济新闻中抽取出公司发布新产品的情况:公司名、产 品名、发布时间、产品性能等;从病人的医疗记录中抽取出症状、诊断记录、检验结 果、处方等等或者直接提取文章中某句话或某段话的信息等等 一般来说,信息抽取系统处理的对象是自然语言文本,尤其是非结构化的文本。 但广义上讲,除了电子文本以为,信息抽取的处理对象还可以是语音、图像、视频等 其他媒体类型的数据。本文仅讨论狭义的信息抽取研究,即针对自然语言文本的信息 抽取。 信息抽取还可以看作是信息检索的迸一步深化,研究指定信息的查找、理解和抽 取,并将指定信息以适当的方式输出。信息抽取技术本身也是多种基本自然语言处理 技术的综合应用,因此应用领域十分广泛。 2 1 1 信息抽取的历史和现状【l o l 从自然语言文本中获取结构化信息的研究最早开始于2 0 世纪6 0 年代中期,它以 美国纽约大学的l i n g u i s t i cs t r i n g 项目和耶鲁大学r o g e rs e h a n k 及其同事在2 0 世纪 7 0 年代开展的有关故事理解的研究为代表 在2 0 世纪8 0 年代,出现了三个用于商业目的的信息抽取系统。第一个用于商业 目的的信息系统是用于自动处理银行转账信息的a t r a n s 。不久,卡内基集团为路 9 第二章相关工作基础 基于本件的信息抽取研究 透社开发了一个通过新闻分析公司收入和盈利的系统j a s p e r 。另外一个是通用公司 为了分析公司合并和盈利而开发的s c i s o r 系统。 从2 0 世纪8 0 年代末开始,信息抽取研究蓬勃发展起来,这主要得益于消息理解 系列会议( m u cm e s s a g eu n d e r s t a n d i n gc o 娟滩n 嘞的召开l “j 。m u c 定义的信息抽取 任务的各种规范以及确立的评价体系已成为信息抽取研究事实上的标准 目前,除了强烈的应用需求外,正在推动信息抽取进一步的动力主要来自美国标 准技术研究所i s l ) 组织的自动内容抽取( a c e ,a u t o m a t i cc o n t e n t e x t r a c t i o n ) 评测会 议。会议的主要内容是自动抽取新闻语料中出现的实体、关系、事件等内容会议有 两大任务,分别为实体识别与跟踪( e d t ,e n t i t yd e t e c t i o na n dt r a c k i n g ) 和关系识别与 描述( p o c ,r e l a t i o nd e t e c t i o na n dc h a r a c t e r i z a t i o n ) 。 2 1 2 信息抽取系统的评测 在m u c 中,衡量信息抽取系统的性能主要根据两个评价指标;召回率和准确率 召回率等于系统正确抽取的结果占所有可能正确结果的比例:准确率等于系统正确抽 取的结果占所有抽取结果的比侈j 为了综合评价系统的性能,通常还计算召回率( r ) 和准确率( p ) 的加权几何平均值,即f 指数,计算如公式2 1 所示: f ;笔掣公龆1 ) r,+ 口2 一、 其中,1 3 是召回率和准确率的相对权重。p 等于1 时,二者同样重要;p 大予1 时,准确率更重要一些;p 小于l 时,召回率更重要一些。在m u c 系列会议中,p 的值一般为1 、1 2 、2 2 1 3 信患抽取系统的结构 2 1 3 1 信息抽取系统的构建方法 一般信息系统的构建有两种方法【t 2 1 :知识工程方法缳n o w l e d g ee n g i n e e r a p p r o a c h ) 和自动训练方法( a u t o m a t i c a l l y t r a i n a b l es y s t e m ) 。 知识工程方法主要靠手工编制规则使系统能处理特定知识领域的信息抽取问题。 基于本体的信息抽取研究第二章相关工作基础 该方法要求编制规则的知识工程师对该知识领域有深入了解。这样的人才有时找不 到,且开发的过程可能非常耗时耗力,但是它具有性能好和易开发等优点。 自动训练方法不一定需要此专业的知识工程师。系统主要通过给出的已经标记好 的文档集,利用机器学习来推导模板和模板的自动填充规则,或者通过统计学的方法 来抽取。任何对该知识领域比较熟悉的人都可以根据事先约定的规范标记语料库。经 训练后的系统能处理没有见过的新文本。这种方法要比知识工程方法快,但需要足够 数量的训练数据,才能保证其处理质量。 2 1 3 2 信患抽取系统基本流程 文献【1 3 】描述了一个信息抽取系统的基本流程如图2 1 所示。 d o c u m e n t ( 文档) l 0 叫q “l y s i s l e x i c a la n a t y s i s ( 词法分析) i n a m er e c q g n “i o n ( 命名实体识别) 1 p a r t i a ls y n t a c t i ca n a l y s i s ( 句法分析) j s c e n a r i op a t t e r nm a t c h i n g ( 场景模式匹配) l l 肼”吨”邮讧 c o r e f e r e n c ea n a l y s i s ( 共指分析) i n f e r e n c e ( 推理) l e x t r a c t e dt e m p l a t e s ( 抽取模板) 图2 i 信息抽取系统结构流程图 第二章相关工作基础基于本体的信息抽取研究 图2 1 中的信息抽取系统有以下两个主要的步骤: ( 1 ) 在文本分析( l o c a lt e x ta n a l y s i s ) 阶段,根据场景模式匹配,抽取一系列的单个 事实( f a c 0 ( 2 ) 在演算分析( d i s c o u r s ea n a l y s i s ) 阶段,将上面抽取的单个事实进行整合,形成更 大的事实,或者推导出新的事实,最后将事实以特定输出格式进行格式化。 2 2o n t o l o g y 介绍 2 2 1o n t o l o g y 定义 o n t o l o g y 的概念最初起源于哲学领域,可以追溯到公元前古希腊哲学家亚里士多 德。它在哲学中的定义为“对世界上客观存在物的系统地描述,即“存在论”,是客观 存在的一个系统的解释或说明,关心的是客观现实的抽象本质f 1 4 1 。后来,人工智能等 学科将o n t o l o g y 的概念从哲学领域中借用过来,并赋予了一些新的含义,近年来广 泛用于知识表示、知识共享、知识集成、知识重用和知识管理等领域中。 在人工智能界,很多人对o n t o l o g y 的定义进行了归纳,但是都没有形成一个统 一定义,表2 1 对本体概念的发展过程做了一个归纳。 表2 1 本体概念的发展过程 范畴 提出时问提出人定义 哲学公元前亚里士多德客观存在的一个系统的解释和说明,客观现实的一个抽 象本质 计算机1 9 9 i n e c h e s t l 8 等给出构成相关领域词汇的基本术语和关系,以及利用这 些术语和关系构成的规定这些词汇外延的规则的定义 1 9 9 3 o m b e r t 。” 概念模型的明确的规范说明 1 9 9 7 b o r s t l 7 j 共享概念模型的形式化规范说明 1 9 9 8 s t u d e r l q 共享概念模型的明确的形式化规范说明 尽管大家对本体没有一个明确统一的定义,但是从内涵上来看,不同研究者对于 本体的认识是统一的,都把本体当作是领域( 可以是特定领域的,也可以是更广的范 围) 内部不同主体c 人、机器、软件系统等) 之间进行交流( 对话、互操作、共享等) 的一 种语义基础,即由本体提供一种明确定义的共识。 基于本体的信息抽取研究 第二章相关工作基础 2 2 2 本体的应用和作用 目前,本体已经是知识工程和人工智能研究的一个重要问题1 3 l ,而且在知识管理、 自然语言处理、电子商务、信息检索、数据库设计与集成、生物信息学等领域应用极 为广泛。其中,本体主要起到了如下作用; ( 1 ) 本体提供了一种结构化表示领域知识的手段。在本体中,不仅明确表示领域 概念,还明确说明概念之间的关系,如函数和公理等,并且支持对领域规则进行明确 的描述。 ( 2 ) 本体支持对知识的重用。本体提供了独立于应用的领域知识描述手段,这样 可以在不同的系统中进行重用,提高了知识重用层次。 ( 3 ) 本体是领域知识的形式化表示。现代本体表示语言一般具有严格的逻辑基 础,这样可支持对隐含知识进行推理。 ( 4 ) 本体支持将领域的静态知识和操作知识进行分离。这样可以使相同操作方面 的知识可以应用到不同的领域中 ( 5 ) 本体为人和主体之间的沟通和交流提供了共享之基础。也方便了不同领域的 系统开发人员和研究人员之间的沟通和交流。, 2 2 3 本体的分类 目前本体的分类还没有一个统一的标准,文献 1 9 1 根据本体的主题将本体大致分 为如下几种类型: ( 1 ) 领域本体o m a i no n t o l o g y ) :包含特定领域的相关知识,它提供特定领域的 概念定义和概念之间的关系,提供该领域中发生的活动及主要理论和基本原理等。如 企业本体、医学概念本体等。 ( 2 ) 通用本体( g e n e r i co n t o l o g y ) :通常覆盖多个领域。如c y c :中科院”常识知 识的实用研究”中结合的a g e n t 和本体的知识库等。 ( 3 ) 表示本体( r e p r e s e n t a t i o n a lo n t o l o g y ) :提供了用于描述事物的实体。 ( 4 ) 任务本体( t a s ko n t o l o g y ) :主要涉及动态知识,上述本体主要涉及静态知识, 任务本体包含了特定领域建模的全部知识( 一般包括方法) 。任务本体主要研究可共享 第二章相关工作基础基于本体的信息抽取研究 的问题求解方法,其实质是从推理和问题求解的角度刻画领域知识。任务本体有助于 解决领域知识不能以与其使用方式无关的形式表示问题,对知识库系统的重用和组件 化的开发十分重要 除了上述本体以外。还有语言学本体,语言学本体是关于语言、词汇等的本体。 为t x qo n t o l o g y 进行有效的分类,g i i a r i i l o 刚提出以详细程度和领域依赖度两个 维度作为对o n t o l o g y 划分的基础。详细程度是相对的、较模糊的一个概念,指描述 或刻画建模对象的程度。详细程度高的称作参考f c r e n c e ) o n t o l o g y ,详细程度低的称 为共享( s h a r e ) o n t o l o g y 。 依照领域的依赖程度,可以细分为顶级( t o p - l e v e l ) o n t o l o g y 、领域( d o m a i n ) o n t o l o g y 、任务懈k ) o n t o l o g y 和应用( a p p l i c a t i o n ) o n t o l o g y 等4 类。在这四类本体中, 顶级o n t o l o g y 描述的是最普通的概念及概念之间的关系,如空间、时问、事件、行 为等等,与具体的应用无关,其他种类o n t o l o g y 都是该类o n t o l o g y 的特例。领域 o n t o l o g y 描述的是特定领域( 医药、汽车等) 中的概念及概念之间的关系。任务o n t o l o g y 描述的是特定任务或行为中的概念及概念之问的关系。应用o n t o l o g y 描述的是依赖 于特定领域和任务的概念及概念之间的关系。 1 9 9 9 年,p e r e z 和b e n j a m i n s 等
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 安全教育讲师培训总结课件
- 安全教育网络培训学院课件
- 农业无人机租赁服务在2025年农村电商市场布局研究
- 狼王梦课件教学课件
- 安全教育日常培训表格课件
- 滴水工程助学方案(3篇)
- 安全教育平台的培训课件
- 粮油储检面试题库及答案
- 历史文化面试题库及答案
- 理科单招面试题库及答案
- 2025年新能源电动摆渡车景区运营绿色出行解决方案报告
- 2025股权转让合同签订股权认购协议书
- 环卫工人防暑课件教学
- 华为投资控股有限公司2025年半年度报告
- 认识温度计课件
- 2025年6月仓储管理员(初级)复习题与参考答案
- 集团十五五规划编制工作方案
- 《ABB工业机器人虚拟仿真技术》(1+X) 课件全套 项目1-7 工业机器人仿真软件基本操作 -双机协同关节装配工作站虚拟仿真
- 设备安装、维修、调试、验收管理制度
- 医院副主任护师职称竞聘报告
- 2025年人教版新教材数学三年级上册教学计划(含进度表)
评论
0/150
提交评论