基于本体的web信息抽取及本体的构建实现研究.doc_第1页
基于本体的web信息抽取及本体的构建实现研究.doc_第2页
基于本体的web信息抽取及本体的构建实现研究.doc_第3页
基于本体的web信息抽取及本体的构建实现研究.doc_第4页
基于本体的web信息抽取及本体的构建实现研究.doc_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于本体的web信息抽取及本体的构建实现研究贾赛1,乔鸿2(1山东师范大学 管理与经济学院 管理科学与工程系,山东 济南 250014;2山东师范大学 管理与经济学院 管理科学与工程系,山东 济南 250014)摘要:基于本体的web信息抽取技术是一种当前热门的信息技术,对比两种基于本体的web信息抽取模型,为用户和应用程序服务;之后从本体构建的角度对他们进行微博人物信息实例分析,本体的设计与实现都是对他们的权衡指标,指导信息抽取行为。关键字:web信息抽取;本体;抽取模型;微博中图分类号:TP393 Ontology-Based Information Extraction from Web Sources and Realization of Ontology ConstructionJIA Sai1,QIAO Hong2(1.School of Management and Economics, Shandong Normal University, Jinan Shandong 250014,China;2. School of Management and Economics, Shandong Normal University, Jinan Shandong 250014,China)Abstract: The technology of ontology-based information extraction is one of the current popular information technology to contrast the two models of ontology-based information extraction for the user and application service.Then from the angle of ontology construction we can use the instance analysis of microblog personal information to balance the design and realization of ontology method, direct activity of information extraction.Keywords: Web Information Extraction; Ontology; Extraction Model; MicroBlog可以看到,在信息时代的今天,信息的增长速度已经是让我们瞠目结舌,随着web的发展,在web上的各种各样的信息也以不同的形式分布,我们该如何在这些繁多的,无结构的web信息中找到我们真正需要的,就成了我们现在急需要解决的问题;web信息抽取就是为了这个目的而存在,把web中的信息变成结构化的,更有语义的模式结构。而在web信息抽取技术中,基于本体的web信息抽取是其中一个比较重要的方向,它的实现可以帮助用户更方便地在信息海洋中找到自己需要的信息,减少应用程序的资源浪费,适合人们的需求。1 相关概念11 本体本体(Ontology)的概念最初起源于哲学领域,20世纪70年代末John McCarthy将这个哲学术语引入到计算机领域,在人工智能界,最早给Ontology定义的是Neches等人。他们将Ontology定义为“给出构成相关领域词汇的基本术语和关系,以及利用这些术语和关系构成的规定这些词汇外延的规则定义”。1993年,Gruber给出了Ontology的一个最为流行的定义1-2,即“Ontology是概念模型的明确规范说明”。Ontology的目标是捕获相关领域的知识,提出供该领域知识的共同理解,确定该领域内共同认可的词汇,并从不同的层次的形式化模式上给出这些词汇(术语) 和词汇间相互关系的明确定义。12 领域本体领域本体(Domain Ontology),是专业性的本体,描述的是特定领域中的概念和概念之间的关系,提供了某个专业学科领域中概念的词表以及概念间的关系,或在该领域里占主导地位的理论,能够独立的存在和被使用。13 web信息抽取web信息抽取(Web Information Extraction)是将web作为信息源的一类信息抽取。简单的说,web信息抽取是指从web页面中抽取用户感兴趣的信息而过滤掉不相关的信息,具体的是指研究如何将分散在半结构化web页面中的信息提取出来,并以结构化、语义更为清晰的模式表示,它为用户在web中查询数据、应用程序直接利用web数据提供了便利3。输入信息抽取系统的是原始文本,输出的是固定格式的信息点。其主要功能就是把信息点从各种各样的文档中抽取出来,然后以统一的形式集成在一起。2 基于领域本体的web信息抽取这里我们研究的是基于领域本体的web信息抽取,这也是现在应用比较广泛,相对比较成熟的一种技术实现;基于领域本体的web信息抽取的一个重要特点是具有较强的针对性,被抽取的通常是某个特定的类型的文档,即包含了一些较为明确的有待抽取的信息。通过分析这些信息的特殊的词法词义, 就能相对准确地抽取出这些信息。该方法是基于领域本体的,正是由于这点,所以这种方法对web文档结构的依赖性相对较少,我们理想的状态下是领域本体足够丰富,以至于可以达到更好的查准率和查全率;除此之外,因为基于领域本体的web信息抽取是以某一领域为单位,采用分布式形式存在,这样就使得系统的扩展性得到更好的发挥,例如,对一个新的领域进行研究时,只需要给出新领域本体的地址,进行适当的本体学习,就可以对该领域进行抽取。21 策略架构我们可以把基于领域本体的web信息抽取流程框图如下表示:Web页面解析形式文本领域本体库用户接口标注抽取器抽取出的信息Ontology解析规则生成器规则库数据记录表图1 基于领域本体的web信息抽取框图22 模块描述从图中都可以清楚地看到,基于领域本体的web信息抽取的前提都是要有领域专家采用人工的方式编写领域本体,该策略的基础和核心就是本体的构建。目前还不能构建出通用型本体,只能对特定领域构建,并且还只能采用半自动的方式由人工参与,其要求高、工作量大。抽取流程简单表述:(1)领域本体库,根据本体构建规则,合理完善地建立我们所要抽取的该网页的信息所属的领域本体,作为信息抽取的基础。(2)ontology解析规则生成器,主要是根据领域本体库,解析生成对象的一系列概念和关系(可以是以关键字形式表示),并把结果存放到数据记录表中;同时还会产生抽取规则,把已产生的规则存储到规则库中,用于以后的实例抽取。(3)web页面上的信息大都是无结构、语义性差,通过预处理可以解析成为我们需要的形式化文本(也可为无结构文本),预处理阶段包括语义标注等环节,语义标注过程简单的说,可以化为本体实例的丰富化过程,这里不是我们研究重点,对此不做过多描述。(4)图中的虚线表示在本体解析和数据记录表、用户之间可以有类似于关键字管理器的设备,进行对操作结果的管理,用户可以自主的添加、删除、更新这些关键字,已达到对管理结果的补充。(5)这样在抽取器中,我们就可以去匹配预处理之后的文本与数据记录表的数据,从而得到我们想要抽取的信息,返回给用户。我们必须说明,构建本体的目的就是让计算机能够理解自然语义。通过我们的表述,选取合适的本体构建工具进行领域本体的建立,采用最新的OWL语言进行本体设计,将领域本体内的类及他们之间的关系合理表示,之后运用基于本体产生的抽取规则,当然要用较好的语法来编写规则,完成对web信息的抽取4。3 基于页面信息本体的web信息抽取上述策略是基于领域本体的web信息抽取,当然还可以结合DOM等技术进行进一步的改进,随之系统框图也会有所改变,我们提供的是最底层架构,在此基础上可以为了提高查全率和查准率,而结合其他的一些先进技术。又由于基于上述策略的方法实现都是以领域本体的建立为基础,而将本体与其他方法结合的研究还较少。并且此类本体的构建中,领域特性表现得极其明显。建立领域本体的过程需要领域专家参与,过程复杂、周期较长5-6。因此,简化本体建模过程,缩短建模周期,对基于本体的web信息抽取技术有着重要的意义7。31 策略架构这种建立本体的方法简单,降低了建模复杂度,缩短了建模周期,为基于本体的Web信息抽取提供了一种新的思考方法。HTML样本文档HTML Parser规则生成器页面解析本体页面信息本体用户抽取信息需求提取规则库图2 基于页面信息本体的web信息抽取框图32 模块描述一般情况下,这种web信息抽取策略的研究都是基于这样一种假设:每一个生成的规则只针对web 数据源中的某一类web 页面。通常,所要处理的文档都是成批的,并且这些文档都是按某一种或几种结构出现。对于相同结构的文档,只需要构造出其中一些样本的抽取规则,其余的就可使用这些规则进行抽取8。抽取流程简单介绍:(1)这里的HTML样本文档就是基于我们上面假设的一类文档集,我们研究的就是通过我们这种简单的本体构造来完成对其的抽取。(2)页面信息本体,这也是我们重点的本体构建模块,页面信息本体给出了我们抽取的目标信息的形式规范,按照这种形式规范我们可以对页面解析本体进行约束;同时我们对要抽取的信息加以本体定义,可以在以后的抽取过程中,过滤掉那些我们并不需要的干扰信息项,从而提高我们信息抽取的效率。文献8给出了一种构建页面信息本体的方法,就是在样本页面中对用户感兴趣的信息项构建本体,描述了要抽取信息项的概念、类型和实例中的值,那么就可以按照构建的本体进行匹配完成信息抽取;还具体给出了本体定义的形式,供大家参考。 (3)页面解析本体,页面解析本体的形式是根据页面信息本体来进行规范的,我们要抽取的HTML文档集经过HTML解析器解析,会对页面信息的源码进行分析,统一按照一种规定好的形式表示出来。(4)规则生成器,在页面信息本体和页面解析本体都构建完成之后,会把他们都“送”到这里,在规则生成器内会对他们进行匹配,归纳学习,产生抽取规则,这些规则会存入到规则库中,方便以后的信息抽取,用来指导以后的抽取行为。这种建立本体的方法简单,降低了建模复杂度,缩短了建模周期,为基于本体的Web信息抽取提供了一种新的思考方法。4 模型对比分析目前国内研究比较热门的就是这两类基于本体的web信息抽取,他们思考的角度不同,其他的基于本体的抽取方法基本上都采用了他们的思想,或源自他们的构思,但是本体的构建都是重中之重,我们可以通过对比分析来看看他们在本体构建的特点和优劣,对我们以后选择策略提供不同的方向,结合这两种方法。本体的构建:这也是我们制定基于本体的web信息抽取策略非常重要的一点,本体构建的质量和“性价比”对于一个好的系统来说都是基础和前提。我们可以结合现在热门的微博人物信息为实例来对两种本体的构建作实例对比。(1) 领域本体的构建:在这里我们选取斯坦福大学开发的开源的本体构建工具protege3.3.1作为Ontology 扩展工具,此软件是斯坦福大学基于Java语言开发的本体编辑和知识获取软件,属于开放源代码软件,提供了大量的知识模型架构与动作,用于创建、可视化、操纵各种表现形式的本体,主要用于语义网中本体的构建,是语义网中本体构建的核心开发工具,由于其优秀的设计和众多的插件,其已经成为目前最广泛的本体论编辑器之一。目前已有更新的版本。我们根据按照科学分类法把微博里面的人物信息这个领域本体分为基本信息(Essential_ Information),从事领域(Field_of_work),成就(Achievement),最新动态(Latest _development),事件(Events),理所当然这些类还包括了子类,例如基本信息当然会有姓名,年龄,教育背景等,教育背景里又包含了专业,毕业院校,学术经历这三个子类;同样的其他类也会有各自的子类。图3给出了采用protege3.3.1构建的微博人物信息领域本体部分层次结构图。图3 微博人物信息本体层次结构图下面给出了采用OWL描述该领域本体的部分代码: (2) 页面信息本体的构建根据文献8中给出的页面信息本体的构建方法,我们可以用这种页面信息本体的方法来刻画下面给出的微博实例,这为网易微博网站上关于个人信息的源代码。MSN:QQ:根据给出的网页源码和我们已知的页面信息本体的构建方法,我们可以得到形如下面的本体模型关于Msn信息项的本体描述:Concept MsnSuper : Msn :Suffix : Null ;Type : String ;Value : Null ;End Msn而对应的“伪”本体中就可能有这样的描述:Concept Msn :Super : Null ;Suffix : Null ;Type : String ;Value :body : div : pEnd Msn :对信息项进行完描述就可以通过匹配信息本体与“伪”本体来完成对信息的定位,这样通过合理的抽取规则就可以形成抽取规则库,指导相似网页的抽取行为。我们这里的页面信息本体中对数据项的描述可以根据要求添加或删除默写说明,这里的结束符Suffix 就是我们这里根据网易微博的结构特征添加的,从而更好的定位信息,增强语义性。必须看到,只有我们所构建本体是完不成信息抽取的,这些信息本体只是对领域信息或是页面信息与结构抽取关系的一种表示,我们还需要抽取规则,并据此来抽取信息;取算法的提出必须是基于较强的适应性和扩展性,能够实现对不同页面抽取的规则才是一种好的抽取处理方式。5 总结通过对比这两种信息抽取模型,我们可以看到:基于领域本体的信息抽取,由于其领域本体的相对完善性,可以对这一领域的抽取达到比较满意的查全率和查准率,利用本体技术使得领域内概念及关系得到比较科学地表示,而且对新的应用领域进行抽取时,只需要改变相应的本体即可,有一定的可扩展性;基于页面信息本体的信息抽取,针对每类web页面,只需要输入该类页面的样本页面的本体定义,就可以实现对其中信息项的抽取,而不需要另外编写抽取过程,对于需要抽取的信息项,在抽取前只需要输入该信息项的类型、前导符及其实例值,就可以完成信息抽取的准备工作,这项工作简单易操作,相对前种模型来说不需要专业技巧,适用性强。可以看到,这两种模型各有优点,但是,如前种模型有着构建本体工作量大,不易更新等缺点,而后者也有适用性较低,对信息项结构变化较大的情况很难处理等劣势,我们在此对他们进行探索的目的就是为了以后的研究能够更好的结合他们的技术优势,希望能够提出一种改进的基于本体web信息抽取方法,能够对现在日益发展的web网页进行更好地抽取,应对各种复杂的情况,而且还要尽量减少建模工作量。想要在满足用户操作需求的前提下,达到更好的抽取查全率和查准率。参考文献1 T.R.Gruber. A translation approach to portable ontologies J. Knowledge Acquisition, 1993, 5 (2) : 199- 220.2 T.R.Gruber. Toward principles for the design of ontologies used for knowledge sharing. Presented at the Padua workshop on Formal Ontology, March 1993,la

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论