基于本体的语义搜索引擎的概念体系结构研究_第1页
基于本体的语义搜索引擎的概念体系结构研究_第2页
基于本体的语义搜索引擎的概念体系结构研究_第3页
基于本体的语义搜索引擎的概念体系结构研究_第4页
基于本体的语义搜索引擎的概念体系结构研究_第5页
已阅读5页,还剩6页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于本体的语义搜索引擎的概念体系结构研究摘 要:未来的www搜索引擎将不只用于文字搜索,它应该能够理解web页面的内容,在其上执行逻辑推理,实现复杂的搜索查询并反馈准确结果。创建了一个用于语义搜索引擎的概念体系结构,讨论了其中的构件以及它们之间的交互过程,并证明了此概念体系结构的优越性。现今推理引擎的问题是它们不支持健全的知识库,所以功能限制在了代码验证上。这里提出的概念体系结构不存在这个问题,该体系结构中的推理引擎具有一个完整的知识库。此外,通过使用w3c推荐的owl语言,语言标准化的问题也得到了很好解决。关键词:本体; 推理引擎; 语义搜索引擎; 构件中图分类号:tn911-34; tp391 文献标识码:a 文章编号:1004-373x(2011)24-0090-03concept architecture of semantic search engine based on ontologyhuang hai(yancheng health vocational & technical college, yancheng 224005, china)abstract: the future www search engine will not only be used to search text, but also can understand the web content, carry out logical reasoning, and achieve the complex search query and feed back correct results. a concept architecture used for semantic search engine was established. the constructional elements in the concept architecture and their interaction process are discussed in this paper. the superiority of the concept architecture is demonstrated by comparing with traditional semantic search engines. the current problem of the inference engine is that they do not support a sound knowledge base, so its function is limited in the code verification. the concept architecture mentioned in this paper has no such a problem, because the architecture of the inference engine has a complete knowledge base. by using owl language recommended by w3c, the language standardization is achieved.keywords: ontology; inference engine; semantic search engine; architecture0 引 言本体是一种形式化工具,通过声明概念及概念之间的关系以一种无歧义的方式来定义所有事物,促进知识共享,是语义web的主要工具。各个领域中具有严格词义内涵的概念及其相互关系都可以通过本体语言的本体构词定义出来。资源描述框架(rdf)是关于数据的数据,即元数据,它是一种描述和使用数据的方法。rdf提供了web上应用程序间交换信息的互操作性。rdf的主要目标是为了解决互联网中信息的语义化和机器的可理解性及可处理性,它支持对元数据语义的描述以及元数据之间的互操作性,也支持基于推理的知识发现1-3。本体描述语言owl是w3c在rdf(s)和daml+oil的基础上提出的web本体描述语言,其中心思想是向下兼容rdf(s)的语义,扩展了形式化描述逻辑,是基于一阶语义的框架描述逻辑系统,提供了比rdf(s)更加丰富的属性和类的描述机制4。自从www被创建以来,它的覆盖面就飞速增长。因为规模庞大,所以对于普通用户来说,很难找到他们需要的信息,因而依赖于搜索引擎。然而,支持文字搜索的搜索引擎可以做到帮助用户找到相关的检索词,但实际上,它们仍然不太明确检索词的含义以及它们之间的关系。随着自然语言中一词多义和多词一义现象的递增,这个问题变得更为严峻。例如,当我们给出检索词“通道 计算机科学”,查询计算机科学领域中“通道”的概念,然而,最常用的搜索引擎google却不清楚“通道”的含义,它可以理解为任意类型的管子,吸烟的设备等等。只有当google明白这两个检索词的之间的关系时,它才能准确的检索出需要的页面5。这就是“语义搜索引擎”的作用。语义搜索引擎(semantic search engine,sse)是语义网时代的搜索引擎,是语义技术最直接的应用,它从词语所表达的语义层次上来认识和处理用户的检索请求,通过对网络中的资源对象进行语义上的标注,以及对用户的查询表达进行语义处理,使得自然语言具备语义上的逻辑关系,能够在网络环境下进行广泛有效的语义推理,从而更加准确、全面地实现用户的检索。传统上有些检索也可以通过选择不同的搜索字符串的方法来改进,但稍复杂一点就无能为力了。考虑一个稍微复杂的例子。假设某人想要检索“去年在网上发表过文章的所有中文教师的姓名”,这样简单的查询对于传统的搜索引擎是无法解决的。语义web则可以成功地执行上述查询条件或更为复杂的查询。语义web依赖于把形式与内容联系起来的能力。从国内外关于语义搜索引擎的研究来看,研究呈现两个重点:一个是关注对机器翻译、语义理解、人机会话等自然语言处理技术的研究,以支持实现人机之间自然语言通信的搜索;另一个是关注本体在语义搜索中的应用研究2-7。自然语言处理与本体技术不是完全决裂的关系,本体是一种语义描述工具,它可以为搜索引擎提供概念归一、概念关联分析等支撑,在基于本体的语义搜索引擎中,本体充当了底层概念集的角色,在很多语义搜索引擎中自然语言理解和本体技术是同时存在的,本文重点讨论以本体作为支撑的语义搜索引擎。1 语义互操作性语义是一个或一系列标志符号的含义以及它们之间的相互关系。它为软件构件间的信息传送提供解释性的框架,为用户和计算机程序之间的交流提供桥梁。uschold为语义的层次分类提供了方便框架,之后又定义了关于分布式软件体系结构中构件间信息交换的形式化语义。定义了3种语义如下:真实世界语义 自然语言的语义,例如通过本文传送的语义,或通过口述传递的语义。理论模型语义 基于关系结构模型中元素之间的关系,例如父类与子类之间的关系。它提供了从属性到数值集映射的形式化约束。公理语义 基于一系列公理或其他形式规则,包括一系列术语以及它们的含义和关系,以形式化逻辑理论表示出来。从另一角度来讲,语义也可以分为模糊语义和明确语义。明确语义可以形式化或非形式化地表示出来,为人类或机器处理信息提供服务6-7。具体分类如图1所示。2 语义搜索引擎的概念体系结构2.1 研究现状现今,对于语义搜索引擎的概念体系结构的研究较少,提出的概念体系结构也在初级阶段,需要投入应用。在该体系结构中,最重要的构件是推理引擎,它担负着搜索查询的主要工作。目前,两个最重要的推理引擎是cwm和euler。前者由tim berners lee和dan connolly创建,后者由jos de roo创建。两个引擎都是以实验为目的创建的,因而缺乏性能指标。它们的目的只是运行代码,因此没有在商业上得到大规模应用。cwm在python语言中执行,使用了rdf。euler可以运行java语言,具有路径监测功能,在性能上比cwm强一些。但是,cwm和euler都不支持知识库6。图1 语义层次分类另一个值得一提的工程是shoe(simple html ontology extension),由美国马里兰大学于2001年创建。它是基于本体的,主要应用于在两个领域,即计算机科学与食品安全。但是,它具有如下缺点:(1) shoe不是一个标准。w3c一直致力于把语义web语言标准化。这些本体语言已被领域人员所接受,是基于xml的,而shoe恰恰相反,是基于html的。(2) 它只能在xsb和parka系统中执行,xsb是一个单用户系统,不适合应用于web中。(3) parka知识库不能分割,适用于系统中只有一个本体的情况,这对于需要执行搜索推理的语义搜索引擎来说是不可能应用的8。现今推理引擎的问题是它们不支持健全的知识库,所以功能限制在了代码验证上。本文提出的概念体系结构不存在这个问题,因为此体系结构中的推理引擎具有一个完整的知识库。此外,通过使用w3c推荐的owl语言,语言标准化的问题也得到了解决。2.2 语义搜索引擎的概念体系结构的描述概念体系结构设计阶段在软件体系结构的设计中占有非常重要的地位,是因为这一阶段的决策在整个软件开发周期中对软件的成本和系统性能影响较大,它是完善软件最大视角和估算软件开发成本所进行的最重要的决策,决定了软件开发的方法和约束关系。分析各种需求后,本文提出了一个语义搜索引擎的概念体系结构,如图2所示。该概念体系结构是基于构件的。其中,每一个矩形框表示一个构件,黑色方块表示构件的服务端口,白色方块表示请求端口,箭头表明了各个构件间的交互。主要有以下几个要点:(1) 本体以一种纯文本格式(.owl或.daml)被创建。本体翻译器将其翻译成相关的数据库表格。(2) 用户使用本体解释器来解释带有本体的web页,并将其显示出来。(3) web搜索程序寻找用本体解释过的web页,添加到本体知识库中,并建立这些本体实例的知识库。(4) 用户通过查询建立器进行搜索查询,查询结果在预处理之后由查询预处理器送至推理引擎。(5) 通过使用本体数据库和知识库, 推理引擎进行逻辑推理,并把最终查询结果显示在web页面上。图2 语义搜索引擎的概念体系结构各个构件的作用:(1) 本体解释器。一旦本体被建立,需要用元数据解释web页。本体解释器从数据库或纯文本文件中读取本体,允许用户解释它们的web页。这个过程在新建网页时非常简单,然而在解释已经存在的web页时就变得异常复杂。这是因为web页是只读的,而对于他人创建的web页不能进行正确的访问。惟一可能的解决方法就是让web页的创建者自己解释。(2) web搜索程序。web搜索程序的目的是寻找被解释过的web页。正如传统的搜索引擎在web页中寻找关键词一样,语义web搜索程序在解释过的web页中寻找相关概念并建立知识库。新建的知识库应当具有较高的性能,可以动态改变,而且不限制本体数量。性能是多用户环境中最重要的元素,允许上千用户同时访问数据库。除此之外,知识库支持增加、修改、删除、合并等操作。(3) 查询建立器。用户不可能用本体语言来查询,需要提供直观的工具进行搜索查询,搜索引擎的文本框能够通俗易懂地为用户提供查询环境并进行语义搜索。此外,查询建立器能够从知识库中装载本体,并且允许用户输入复杂的查询条件。(4) 查询预处理器。查询预处理器的作用是把查询条件转化为推理引擎能够理解的表格。智能的查询建立器能够检查出拼写错误,并给予用户解决方案,以提高查询的准确度。如果推理引擎对于给定的查询没有返回任何结果,那么查询就被送至传统的搜索引擎。此外,用户可以通过添加“+”,“ ”等标志来提高查询的准确性。(5) 推理引擎。推理引擎是整个系统的核心,最根本的作用是通过逻辑推理,由已知的本体知识推导出新知识。例如,在第一部分讨论的例子:查询“去年在网上发表过文章的所有中国教师的姓名”。上述查询动作并不像表面那样简单。推理引擎首先会把查询条件分为若干个独立的概念,即姓名、中国、教师、发表、文章、网上和去年。假设本体知识库包含这些概念的所有相关知识。那么,推理引擎首先需要知道“姓名”是“人”的属性,而姓、名或全名都可以成为查询条件;“中国人”是指一个居住在中国的人,而“中国”是一个国家的名字。这样,所有具有“居住”的属性,并且属性值为“中国”的人都符合查询条件;所有种类的人员,教授,副教授,讲师,助教都符合“教师”这个查询条件;“文章”可以是会议记录,杂志或者书籍;“发表”是“教师”和“文章”之间的关系。语义web是一种web技术,而“年”是时间的度量单位。一旦推理引擎了解到所有术语的含义和关系时,就能更加准确地进行查询10。2.3 查询过程搜索查询条件从查询预处理器进入推理引擎。之后,它访问知识库来寻找本体数据库中的概念解释。一旦它理解了概念的明确解释和检索词之间的关系,就根据逻辑推理在知识库中寻找匹配项,查询结果最终被送到用户视图。如果推理引擎没有找到任何匹配项,这次查询被送到传统的搜索引擎,并把查询结果返回给用户。3 结 语本文为语义搜索引擎提出了一个完整的概念体系结构。讨论了一个语义搜索引擎所需的所有构件,讨论的重点是推理引擎。提出的概念体系结构可以战胜传统的推理引擎缺点,但有待实际应用。所以,下一步工作就是把该概念体系结构应用到实际的语义搜索引擎开发过程中进行验证。参 考 文 献1 zhuge h. socio-natural thought semantic link network c / proceedings of the 23th ieee international confe-renceon advanced information networking and applications. s. l. : ania, 2010: 20-23.2 chen f, zhang z, li j, et al. service identification via ontology mapping c / proceedings of the 33rd annual ieee international computer software and applications conference. seattle, usa: ieee, 2009: 486-491.3 李青山,陈平语义化互联网的关键技术j计算机科学,2002(6):86-894 甘健侯基于语义web的常用软件领域知识发现系统研究j计算机应用与软件,2007(4):67-695 youseff l, b

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论