(计算机应用技术专业论文)基于本体的语义信息检索研究.pdf_第1页
(计算机应用技术专业论文)基于本体的语义信息检索研究.pdf_第2页
(计算机应用技术专业论文)基于本体的语义信息检索研究.pdf_第3页
(计算机应用技术专业论文)基于本体的语义信息检索研究.pdf_第4页
(计算机应用技术专业论文)基于本体的语义信息检索研究.pdf_第5页
已阅读5页,还剩118页未读 继续免费阅读

(计算机应用技术专业论文)基于本体的语义信息检索研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中国科学技术大学博二【:学位论文摘要 摘要 随着i n t e r n e t 的爆炸性增长,w w w 已经发展成为包含多种信息资源、站点 遍布全球的巨大动态信息服务网络,为用户提供了一个极具价值的信息源。而传 统的信息检索技术不能对这些信息提供语义级的组织、理解以及处理等更能满足 用j i 需求的服务,寻找新的方法成为目自,j 研究的热点。 在现有语义检索方法的基础上,本文针对基于本体的语义信息检索进行了深 入的研究,以本体为依据,提出了一种新的语义检索模型,并对该模型涉及的用 户查询、文档预处理、语义检索以及检索结果优化等方面,从系统的角度对其中 的主要问题进行了分析和研究,主要贡献有: 1 提出了一种基于本体的查询语义扩展方法。 针对现有查询扩展策略缺乏有效的语义处理机制问题,在深入分析现有基于 本体概念的查询扩展策略基础上,提出了三种用户查询的语义模式,以及相应的 用户查询扩展的方法。该方法利用本体概念连通图以及单词的概念扩展算法对用 户查询进行语义扩展,为基于语义的信息检索提供了新的思路。 2 提出了一种基于本体的文档语义标注和语义聚类方法。 针对语义检索中文档表示问题以及文档聚类的语义质心划分问题,提出了一 种对文档进行语义标注和向量化处理,以及利用概念连通图中的节点权重进行语 义聚类质心划分的方法。该方法在对文档进行语义预处理,并利用文档的实例抽 取分析进行语义标注的基础上,为文档建立语义特征向量,并以此为依据对文档 进行语义聚类,为文档的组织提供了有效的语义级管理手段。 3 提出了一种基于本体的语义信息检索模型。 针对传统向量空间模型在语义处理方面的缺陷,提出了一种基于本体的语义 信息检索模型,从语义项权重的设计、不同关键字之间的语义关系体现,以及语 义特征向量间的相似度计算策略等方面进行了研究。在模型中,通过概念连通图 对不同语义项之间的关系进行了重新考量,并将语义相似度的计算分为概念相似 度和属性相似度两个方面,综合考虑了二者在语义检索中的作用,改善了检索效 果。 4 设计了一种基于频繁语义序列模式挖掘的检索结果优化方法。 中国科学技术大学博= e 学位论文摘要 本文针对语义检索的结果,采用了一种面向语义序列的频繁模式挖掘算法, 将检索结果中的文档转化为语义序列,挖掘其中的频繁模式,并设计了一种基于 用户焦点的检索结果优化算法,通过对检索结果的过滤提高局部查准率,得到更 好的检索效果。 语义信息检索的研究不仅具有重要的理论价值,而且还具有广阔的应用前 景,本文针对其中的一一些问题展丌了研究和讨论,如何进一步把基于语义的信息 检索研究推向实际的应用,并为每个普通的用户提供个性化的语义推荐,是我们 今后工作的目标和期望。 关键词:本体;语义信息检索;查询语义扩展;语义聚类;频繁语义序列; 中田利学技术人掌瞎i 。学位论义 a b s t r a c t w i t ht h ee x p l o s i v eg r o w l ho fi n t e m e t ,w o r l dw i d ew e b ( w w w ) h a sb e c o m ea n e n o r l r l o u s ,d y n a m i ci n f o r m a t i o ns e r v i c en e t w o r kw i t hm u l t i p l ei n f o r m a t i o nr e s o u r c e s a n dw o r l d w i d es i t e s t r a d i t i o n a li n f o r m a t i o nr e t r i e v a lt e c h n o l o g i e sc a r ln o tm e e tt h e n e e d sf o rb e t t e ro r g a n i z a t i o n s ,u n d e r s t a n d i n ga n dp r o c e s s i n gs e r v i c e si nt h es e m a n t i c l e v e l ;t h e r e f o r e ,t of i n dn e ww a y sh a sa l s ob e c o m eah o t s p o to f c u r r e n tr e s e a r c h b a s e d0 1 1t h ee x i s t i n gs e m a n t i cr e t r i e v a lm e t h o d s w em a k ei n d e p t hs t u d i e so n t h eo n t o l o g y b a s e di n f o r m a t i o nr e t r i e v a l ,a n dp r o p o s ean o v e li n f o r m a t i o nr e t r i e v a l m o d e l ;t h e nw ea n a l y z ea n ds t u d yt h em a i np r o b l e m si nu s e rq u e r i e s ,d o c u m e n t s p r o c e s s i n g ,s e m a n t i cr e t r i e v a la n dr e s u l t so p t i m i z a t i o ni n t h em o d e l t h em a i n c o n t r i b u t i o n sa r ea sf o l l o w s : 1 p r o p o s ea no n t o l o g y b a s e dq u e r ym e t h o d w ea n a l y z et h el i m i t a t i o no f t h e t r a d i t i o n a lq u e r ye x p a n s i o nm e t h o d so nd e a l i n gw i t hs e m a n t i c ,a n dp r e s e n t3s e m a n t i c p a t t e m so fu s e rq u e r ya n dr e l e v a n tm e t h o d st oe x p a n dt h eo n t o l o g yc o n c e p t sa n d p r o p e r t i e si n t o u s e rq u e r i e s ,w h i c hi sd i f f e r e n tf r o mt h en o r m a lo n t o l o g y - b a s e d e x p a n s i o n t h em e t h o du s ed i f f e r e n tt e c h n i q u e s ,s u c ha sc o n c e p t c o n n e c t e dg r a p ha n d c o n c e p th i e r a r c h yo fo n t o l o g y ,t oe x p a n dd i f f e r e n tp a r t si nq u e r y ,a n da n n o t a t et h e i s s u ef r o ms e m a n t i cv i e w 2 p r o p o s eam o t h e do no n t o l o g y b a s e ds e m a n t i ca n n o t a t i o na n dc l u s t e r i n go n d o c u m e n t s ,w h i c hd e a l sw i t ht h er e p r e s e n t a t i o no fd o c u m e n t si ns e m a n t i cr e t r i e v a l a n dt h ed i v i s i o nf o rt h ec e n t e r so ft h es e m a n t i cc l u s t e r s b a s e do nt h es e m a n t i c p r e p r o c e s s i n g o ft h ed o c u m e n t s ,w ee x t r a c ti n s t a n c e st oa n n o t a t e d o c u m e n t s ; f u r t h e r m o r e ,u t i l i z i n gt h ec o n c e p t c o n n e c t e dg r a p h ,w ep l o tt h ec e n t e r so ft h e s e m a n t i cc l u s t e r s w i t hs e m a n t i cc l u s t e r i n gb a s e do i la b o v ep r o c e d u r e ,w ec a i lf i n d t h er i g h tc l u s t e ro fu s e rq u e r yq u i c k l y - i tp r o v i d e se f f e c t i v ed o c u m e n tm a n a g e m e n ti n s e m a n t i cl e v e l 3 p r o p o s ea n di m p l e m e n t ea no n t o l o g y b a s e ds e m a n t i cr e t r i e v a lm o d e l i n o r d e rt oo v e r c o m et h es h o r t c o m i n g so ft r a d i t i o n a lv e c t o rs p a c em o d e li nd e a l i n gw i t h s e m a n t i c ,w es t u d yt h ep r o b l e m si n c l u d i n gs t a t i s t i c a lm e t h o di nw e i g h to fs e m a n t i c 1 1 1 p 陶科学披术人学博i j 学位论义a b s t r a c t i t e m s ,m a t e r i a l i z a t i o no fs e m a n t i cr e l a t i o n sb e t w e e nk e y w o r d s ,a n dt h es i m i l a r i t y b e t w e e ns e m a n t i cv e c t o r s ,a n ds oo n i nt h em o d e l ,t h er e l a t i o n sb e t w e e nd i f f e r e n t s e m a n t i ci t e m sa r ec o m p u t e d ,a n dt h ec a l c u l a t i o no fs e m a n t i c s i m i l a r i t yi sc o m p o s e d o ft w op a r t si n c l u d i n gc o n c e p t s i m i l a r i t ya n dp r o p e i r t y s i m i l a r i t y t h i sm e t h o d i m p r o v e st h ep e r f o r m a n c eo ft h ei rs y s t e m 4 d e s i g nar e s u l t so p t i m i z a t i o nm e t h o db a s e do nf r e q u e n ts e m a n t i cs e q u e n c e p a t t e r nm i n i n g w ea p p l yar e t r i e v a lr e s u l t s o r i e n t e d 仔e q u e n ts e q u e n c ep a t t e r nm i n i n g a l g o r i t h mt ot r a n s l a t et h er e s u l t so fr e t r i e v a lt oo n t o l o g yb a s e ds e m a n t i cs e q u e n c e s f r o mw h i c hf r e q u e n tp a t t e r n sc a nb em i n e d i nt h ee n d ,ar e s u l t s o p t i m i z a t i o n a l g o r i t h mi n t e g r a t i n gt h eu s e rf o c u s e si su s e dt of i l t e rt h er e s u l t s ,a n dt h u st oi m p r o v e r e t r i e v a lp e r f o r m a n c e t os u mu p ,r e s e a r c ho ns e m a n t i ci n f o r m a t i o nr e t r i e v a li so fi m p o r t a n tt h e o r e t i c a l v a l u ea n dw i d e l yu s e di ns e a r c he n g i n ea r e a t h i sd i s s e r t a t i o nh a sd o n es o m er e s e a r c h o ni t sm o d e l i n ga n da p p l i c a t i o n t h ee m p h a s i so fo u rf u r t h e rr e s e a r c hw i l lb eo nt h e a p p l i c a t i o n ,e v a l u a t i o n ,a n de m p l o y m e n to ft h es e m a n t i ci n f o r m a t i o nr e t r i e v a lm e t h o d t ot h ew e bs e a r c he n g i n e k e y w o r d s :o n t o l o g y ;s e m a n t i ci n f o r m a t i o nr e t r i e v a l ;s e m a n t i cq u e r ye x p a n s i o n ; s e m a n t i cc l u s t e r i n g ;f r e q u e n ts e m a n t i cs e q u e n c e ; i v 中国科学技术大学博二e 学位论文第一章前言 第一章前言 近年来,w e b 丰富的信息内容和易访问性,使得互联网已经融入到人们的日 常生活当中,从最初仅用于获得各种信息到现在的e b u s i n e s s 、e g o v e r n m e n t 、 l e a r n i n g 、e - s c i e n c e ,网络己经成为了能自动地处理各种信息,具有良好的用 户浏览界面以及显示各种动态数据的多功能性平台。而互联网的功能也从最初的 仅仅被动发布数据,然后是交互地获取所需数据,发展到现在的根据用户提出的 需求来获得信息,并进行智能检索。互联网的检索查询手段也在不断地发展。 上个世纪9 0 年代,人们需要知道u r l 才能访问对方的网页,后来使用简单的查 询工具如y a h o o 来搜索网页。现在的搜索工具,如g o o g l e ,已经把检索范围和 搜索速度扩大和提高到前所未有的程度。 与此同时,网络数据的表达方式也发生了巨大变化。早期的h t m l 语言,仅 仅用以表示数据显示的布局,h t m l 所表达的页面信息和组织方式,主要面向用 户直接阅读,没有将信息的表现形式、内在结构和表达内容相分离,因而非常不 利于计算机直接阅读和处理。到了9 0 年代中期,尤其是x m l 的出现,将数据 的内容和布局区分开来,为语义更丰富、更自然的网上内容表达打开了新的局面。 但是,w e b 是如此巨大和未知,并且先天缺乏良好定义的基础数学模型,虽 然现在有很多的w e b 搜索引擎,然而在这种无边际的w e b 中,如何找到有用的 信息? 如何真正找到用户感兴趣的信息,而不是把有价值的信息淹没在大堆应 答文档中? 如何把信息检索与浏览和数据库查询结合起来,为w e b 信息环境提 供一种综合的信息存取手段? 等等。这些问题成为信息检索的新热点,因此信息 检索及其技术成为现在信息技术的核心之( ij 。 针对目前因特网在信息表达、检索等方面存在的缺陷,w w w 的缔造者t i m b e r n e r s l e e 于2 0 0 0 年1 2 月在x m l2 0 0 0 会议上,提出了下一代互联网的概 念一语义网( s e m a n t i cw e b ) ,为人们勾勒出一幅未来语义网的美好前景。语义 网概念的提出,为有效解决上述瓶颈问题提供了新的技术思路,同时也为语义信 息检索的研究开辟了新的方向吐 中国利学技术= = 学博七学位论文 第一章前言 1 1信息检索概述 人们在信息检索领域的研究由来已久,自人类文明出现时起,知识便开始积 岽,人们必须考虑蜘i 何有效地检索和使用这些长期积累下来的丰富知识。计算机 诞生以后,数据的管理、组织和利用逐渐从文件系统阶段发展到数据库系统阶段。 及至当前,互联网技术迅猛发展,网络信息与知识不断膨胀,数据仓库、数据挖 掘等技术方兴未艾。这些趋势无不昭示:信息资源愈来愈丰富,信息量越来越大, 并且仍将持续地爆炸性增长,所以,对信息检索技术的研究日显重要一一信息检 索日益成为信息社会中不可或缺的一种工具手段。但目前能够普遍或大规模使用 的信息检索工具,其应对海量信息的能力却还很差,用户对其检索质量远不能满 意,因而改善检索质量、推出令人满意的检索工具是信息检索研究的重点。 1 7 1 前,依据不同的划分标准,可将信息检索划分为几大类,例如,依据检索 对象划分可分为文本检索和多媒体检索:依据检索范围划分可分为全文检索和字 段检索:依据匹配方式划分可分为模糊匹配和精确匹配两种:依据截词方式划分 可分为左截词、右截词和中间截词三种方式;此外,还有布尔逻辑检索、限制检 索、嵌套检索、二次检索、相似检索和邻接检索等【1 1 。 如果从检索思想的本质入手分析上述各种检索方式,可以看出他们基本上是 基于串匹配手段,即都是属于“关键词检索”的范畴。关键词检索的弊端显而易 见,可以假设这样一个极端的情况:一篇以“计算机”为主题的文档通篇没有出 现“电脑”这个词,根据关键词基于字面匹配的方法,当用户输入“电脑”这个 检索词时,该文档是无法命中的,虽然大家都知道“计算机”和“电脑”在很多 情况下表达相同的意思。由此可见,在查全率和查准率这两项指标上,基于“串 匹配”的关键词检索,其检索质量已经很难再有质的飞跃。 既然如此,如何能够解决上述的问题,让计算机能够理解用户的查询意图, 并从文档中找到合适的目标? 如果计算机能够知道“电脑”就是“计算机”,即 “电脑”和“计算机”是同义词,那么就不会出现上面的问题。如果计算机的这 种“知识”是全面的,那么构建于此基础上的检索方法和工具就有了质的飞跃。 中国科学技术大学博:l 学位论文第一章前言 1 1 1传统信息检索基本原理 “检索”一词源自英文“r e t r i e v a l ”,其涵义是“查找”。将大量相关信息按 定的方式和规律组织和存储起来,形成某种信息集合,并能根据用户特定需求 快述高设地蠢找所得信息的过程称为信息检索。从广义上讲,信息检索包括存储 过程和检索过程;对信息用户来说,往往仅指查找所需信息的检索过程。信息检 索实质就是把表达用户信息需求的提问特征,同检索系统中的信息特征表式进行 类比,从中找出相一致的信息。 信息的存储主要包括对在一定专业范围内的信息选择基础上进行信息特征 描述、加工并使其有序化,即建立数据库。检索是借助一定的设备与工具,采用 一系列方法与策略从数据库中查找出所需信息。存储是检索的基础,检索是存储 的逆过程。在现代信息技术环境下,信息检索从本质上讲,是指人们希望从一切 信息系统中迅速、准确地查找到自己感兴趣的有用信息,而不论它的出现形式或 媒体介质f 3 】。 传统的信息检索,主要是根据文献的内、外部特征,用手工方式实现。现代 以计算机为核心的信息检索技术,开辟了信息处理与信息检索的新时代。从计算 机处理数字信息发展到处理字符信息,又到能够处理静、动态图像( 形) 信息乃 至声音信息等。这一过程不断地拓展信息检索的领域,丰富着信息检索的内容, 提高了信息检索的速度。 在信息检索中,文档( d o c u m e n t ) 表示一个数据单元,文本是它的一种典型的 形式,但是文档也可以包含其它的媒体,例如图像、视频和音频。文档可以是一 个完整的逻辑单元,例如一篇研究论文、一本书或一本手册。它也可以是其中的 部分,例如一个自然段或多个自然段、字典中的个条目、一个汽车零件的描 述等。通常把文档看成是一个内容的载体或容器,在信息检索过程中,把文档看 成是一个检索单元。 然而,信息检索涉及到用户的信息需求和提交的查询并不总是结构化的,而 且具有语义模糊性,而且检索到的对象可以不太精确,允许有一些小的不明显的 偏差。为了满足用户的信息需求,信息检索系统必须以某种方式“解释”文档中 数据单元的内容,并把检索结果按照与用户查询的相关程度来排序。因此,信息 检索的一种规范定义为:从大量收集的数据或文档集d 中,找到与给定的查询 中国科学披术大学博二卜学位论文第一章前言 请求q 相关的恰当数目的数据或文档子集a 。 1 1 2 信息检索模型 信息检索的基本原理和机制是系统对信息集合与需求集合的匹配与选择。要 更准确、更严密地表述、论证这原理,要有效地实现这一机制,就要依靠数学 工具,即需要建立信息检索的数学模型,运用数学的语言和工具,对信息检索系 统中的信息及其处理过程加以翻译和抽象,表述为某种数学公式。它被演绎、推 理、解释和实际检验,反过来指导信息检索实践。 经典的信息检索模型使用一组具有代表性的关键词( 索引词) 来描述数据库 中的每一篇文档。关键词由文档中的一些能反映主题的简单单词构成,通过它们 可以与数据库中的文档相联系。大部分关键词都是名词,因为名词的语义易识别, 而形容词、副词和连接词经常以补语形式出现,因此很少被用作关键词。在一组 关键词中,并不是所有的关键词都能用来描述文档的内容,通常需要根据关键词 的重要程度来摘要文档。要说明的是用来描述文档内容的关键词必须是适当的, 可以通过为每篇文档中的关键词分配一个数组权重,来确定关键词的重要性。 经典信息检索模型主要包括布尔检索模型、向量检索模型及概率模型1 ,3 1 。 1 布尔检索模型 布尔检索模型是基于集合论和布尔代数的一种简单检索模型,运用布尔代数 的方法,用布尔表达式表示用户提问,通过对文献标识与提问式的逻辑比较来检 索文献。布尔模型中,每个文献用一组标引词来表示,例如,对于某一特定文献 i ,可表示为: b = ( t l ,t 2 ,t 3 ,t m ) 每个提问则表示为标引词的布尔组配。例如,对于特定提问i 可表示为: q2 ( t i a n d l 2 ) o r ( t 3 a n d ( n o t t 4 ) ) 系统对提问的响应是输出一个包含有该提问式的组配元且符合组配条件的 文献集合。例如,对上述提问q j 来说,系统的响应必须是这样一组文献:它们 都含有t l 和t 2 ,或者包含有标引词t 3 ,但不含有标引词t 4 。 布尔检索模型提供了个信息检索系统用户容易掌握的框架,具有简单、易 理解且能处理结构化提问等优点,所以在信息检索系统中得到了广泛的实际应 中国科学技术大学博二卜学位论文 第一章前言 用。目前多数检索系统都支持这一检索形式。但由于布尔检索模型采取过于僵硬 的检索策略,没考虑那些大体能满足提问需要的文献,所以常使检索结果不能令 人满意。 2 向量模型 检索系统的向量模型又称代数模型,是检索系统所有数学模型中最有创造 性,最能揭示文献之恻的关系,使用最复杂,要求条件最高的模型。2 0 世纪7 0 年代中期,杰拉尔德索顿提出了检索系统的代数模型,定义了文献向量、提问 向量、文献提问相关系数以及属性文献相关矩阵、属性相关矩阵、文献相关矩 阵等概念。 假设系统有n 个记录的文献集合d = ( d l ,d 2 ,d 3 ,d n ) ,用来描述文献集 合的m 个属性形成集合a = ( a l ,a 2 ,a 3 ,a m ) 定义。 用属性向量把一篇特定的文献向量d 。表示为d i = ( a i l ,a i 2 ,a i 。) ,其中8 表示文献d i 中有集合a 中属性的程度,这种程度用数值形式表现出来,就是常 说的加权。若d i 具有属性a j ,则a i j = 1 ;否则a i j = 0 。用属性向量表示特定提问式, q = ( q 1 ,q 2 ,q 3 ,) ,其中q j ( j = 1 ,2 ,m ) 表示提问中含有集合a 中属性的 程度,规定q 包含属性a j ,则q i 一1 ;否则o o = 0 。在检索系统中,每篇文献和每 个提问均采用了等长的向量表示。 文献向量和提问向量的最后形式都变成了属性向量形式,它们在向量空间中 就产生了相对距离,把这个距离称之为文献提问相关系数,用c 表示。一般来 说,c 越大,d 与q 的匹配性就越强,d 就越能作为q 的命中文献而输出。 索顿最初模型中,c 的计算公式为: c ( 谚,= 吩x q 。 = 1 这种方法的实质就是计算文献与提问式之间所共有的标引词数量。较常用的 方法是用余弦函数,表示如下: q 。 c ( 4 ,q ) = f = = 兰= = = 一 j 黔) 2 。融) 2 这种方法的实质是计算1 t i 维空间中文献向量与提问向量之间的夹角余弦。 第一章前言 当两个向量完全一致时,则夹角为0 ,表示在该空间中它们相互重叠,相关系数 最大。当全部文献向量与某个提问向量相关系数全部计算完毕后,系统就把相关 系数超过某一规定闽值的文献按相关系数大小降序排列输出。 3 概率模型 概率检索模型基于概率排序原理,即文献应该根据自身与提问的相关概率来 排序输出。概率检索理论认为给定检索文献与给定提问之间存在某种相关概率。 概率检索模型就是利用概率论的原理,通过赋予标引词概率值来表示这些词在相 关文献集合或无关文献集合中的出现概率,然后计算某一给定文献与某给定提问 相关的概率,最后系统据此作出检索决策。这种模型基本上是一种基于贝叶斯决 策理论的白适应模型,与前两种模型相比,其提问式是由系统通过相关反馈来构 造一个决策函数来表示信息提问。概率标引理论的基础是对标引词加权并利用权 值来计算文献的相关值,即满足给定提问的概率值。 概率模型的一般表达形式为:给定提问q ,则文献d 的相关概率为p ( r e l l d ) 。 根据贝叶斯定理,可用下式求值: n 、p ( dr e l ) p ( r e l ) p ( r e l l d 、= 1 j p ( d ) 其中,p ( d ) = p ( d i r e l ) p ( r e l ) + p ( d n r e l ) p ( n r e l ) ,表示文献d 作为相关文献或无 关文献出现的概率;p ( r e l ) 干1 p ( n r e l ) 分别代表某一给定文献相关或不相关的先验 概率:p ( d l r e l ) ; np ( d l n r e l ) , 1 表示文献d 属于相关文献集合或无关文献集合的概 率。 近年来,人们提出概率推理网络检索模型,由文本网络和查询网络两部分构 成。文本网络由文本节点、文本表达节点和文档概念节点组成,分别对应于抽象 文本、某一实体文本、文本特征表示。查询网络由查询节点和查询概念节点组成, 查询节点表示某一用户查询,是对查询概念节点的相关性描述,而查询概念节点 包含了查询概念对查询概念节点概率相关性描述。检索过程是给定文本节点的先 验概率和中间节点的条件概率,以此计算出查询结点的后验概率。概率推理网络 在概率沦相关理论的基础上进行推理,具有较坚实的理论基础,但是文本节点的 先验概率较难以确定。 第一章前言 1 1 3 信息检索系统 随着传统信息检索系统模式的改进和网络系统资源的丰富,出现了越来越多 的全文本数据、事实数据、数值、图像和其他多媒体信息资源。全文检索、多媒 体检索、超媒体及超文本检索、光盘技术、联机检索、网络检索等先进的信息检 索技术逐渐地发展成熟。通常情况下,信息检索系统包括如下几个部分: 史耥集 图1 1 信息检索的一般系统结构 最早的全文检索系统是1 9 5 9 年美国匹兹堡大学卫生法律中心研制的。全文 检索系统地出现为人们获取文献原文而非文献线索信息提供了一条有效途径。近 年来,全文检索的应用范围不断拓展,它与出版技术的结合,使各种科技期干u 、 专利文献、新闻报纸等全文数据库应运而生。国外许多著名的报纸的通讯稿都出 版了机读全文数据库且每天更新。 多媒体检索技术是把文字、声音、图像( 形) 等多种信息的传播载体通过计 算机进行数字化加工处理而形成的一种综合技术。多媒体技术的应用使信息检索 系统进一步满足了社会对多元化信息的需求。 传统文本都是线性的,用户必须顺序阅读。超媒体与此不同,它是一种非线 性的网状结构,用户要沿着交叉链接进行选择性阅读。早期的超文本以文字为主, 随着多媒体技术的发展,丌始容纳包括图像( 形) 、视频、声频等各种动、静态 信息,统称为超媒体系统或超级文本系统。超媒体系统主要提供基于浏览的检索 方式和基于提问的检索方式。 中闻科学技术人学博l 。学位论义 第一章前言 以人二 一智能为代表的信息检索自动化技术是网络信息检索工具的基本技术。 包括自动标引、自动文摘、自动分类等信息自动化技术极大地促进了检索效率的 提高,而网络信息检索工具在完善自身的基本检索功能的基础上,开始把人工智 能更多地引入网络信息的标引和检索中,在自然语言理解、机器翻译、模式识别、 专家系统等方面取得了相当的进展。 1 2信息的语义表示 当前的信息资源有多种表示方式,例如x m l 、h t m l 、w m l 等,仅h t m l 格式而击,文本的字体、大小、颜色等和图像的大小、位置等,以及整体布局等 设置的不同,也会造成信息表示的不同。这些给信息的获取、存储、传递、以及 使用带来了一系列的问题。于是人们开始探讨一种新的资源描述方式一一元数据 ( m e t a d a t a ) 。元数据是关于数据的数据,它是对w e b 信息的一种描述方式,是 机器可理解的信息。为了从w 曲中抽取有用的信息以便于自动化处理,人们必 须对元数据的获取、表示及其相关标准进行研究。 1 2 1 元数据和信息表示 元数据是关于数据的数据,它是对w e b 信息的一种描述方式,是机器可理 解的信息。元数据最基本的作用就是管理数据,从而实现查询、阅读、交换和共 享。 元数据记录由一系列属性或元素组成,这些在检索提问的资源描述中是必不 可少的。例如图书馆中一个普通元数据系统一图书馆目录一一包括一系列含有 描述书籍和书目的数据,如:作者,书名,出版日期,主题,分类排架号等元素 的元数据。 元数据对w 曲上的数据进行组织和管理,它的主要作用如下 4 1 : ( 1 ) 用来组织和管理网络信息,并挖掘信息资源,这正是信息的特点和优 点所在。通过元数据可以在w e b 上准确地识别、定位和访问信息。 ( 2 ) 帮助用户查询所需信息。比如它可以按照不同的地理区间、指定的语 言以及具体的时间段来查找信息资源。 ( 3 ) 组织和维护一个机构对数据的投资。 中国科学技术大学博士学位论文 第一章前言 ( 4 ) 用来建立信息的数掘目录和数掘交换中心。通过数掘目录和数据交换 中心等提供的元数据内容,用户可以共享信息、维护数据结果,以及对它们进行 优化等。 ( 5 ) 提供数据转换方面的信息,使用户在获取信息的同时便可以得到元数 据信息。通过元数据,人们可以接受并理解信息,与自己的信息集成在一起,进 行不同方面的科学分析和决策。 元数据的编写是有标准的,通常不同领域会根据不同的需求定义一个标准或 几个标准。标准的设定是为了实现领域中的数据信息交换和共享,为研究和生产 服务。重要的元数据标准包括m a r c ( m a c h i n e r e a d a b l ec a t a l o g i n g ,机器可读 编目) 和d u b l i nc o r e 等。x m l 和r d f 是元数据实现的技术手段。x m l 从数据 与文档的底层实现格式化,这就保证了从里到外、从处理到交换的一致性,因而 有利于在网络环境下采用通用的检索引擎等软件工具。这为实现广义的数字图书 馆,例如通过关键词可查到网上最终文献而不论文献的实际地址,展现了良好的 前景。采用x m l 解析器开发的工具,可以从网上w e b 服务器的h t m l 、x m l 和数据库中自动抽取并索引元数据,还可以比较容易地对不符合特定标准的 x m l 文档进行校验和解析,获取所需的元数据。 元数据包括内容元数据、管理元数据、负载信息元数据和参考信息元数据四 种。内容元数据描述对象内容的信息,例如一篇文章的标题、予标题、章节标题、 关键字、评论等,通过这些描述信息,用户可以迅速获悉文档内容。内容管理的 元数据用来描述和电子文档相关的信息,如作者、创建者、创建日期等,为用户 提供了要管理的对象的类别信息。负载信息元数据提供电子文档的物理属性,尤 其是那些承载了语义信息的元数据,例如文本中表示强调的粗体标识,电子邮件 中大小标识,以及电子文档的模板信息等。参考信息元数据源自电子文档中的超 链接,包括环境信息,以及文档的结构信息,例如经常出现在电子文档中指向各 章节的链接。 1 2 2 资源描述框架及模式r d f ( s 1 为了让w e b 信息可以被计算机自动处理,达到所谓的机器“可理解”的要 求,需要采用元数据来索引网络上的信息,然后是用r d f 资源描述框架( r e s o u r c e 中国科学技术大学博二卜学位论文 第一章前言 d e s c r i p t i o nf r a m e w o r k ) 来描述元数据以及元数据相互之间的关系。r d f 是处理 元数掘的基础,为在应用程序之间交换机器可理解的网络数据提供了互操作的可 能n r d f 定义了一个简单的数据模型,通过性质( p r o p e r t y ) 和值( v a l u e ) 来描 述资源以及资源之间的关系。在r d f 模型中,如果将资源描述框架的性质看作 是资源的属性,则资源描述框架模型也可以看作传统的 对模型。r d f 性质还可以用来表示资源之间的关系,因此r d f 模型类似于一个实体关系图, 通过给定的性质和性质的值来描述资源之间的联系。r d f 通过抽象的数据模型 为定义和使用元数据建立了一个框架,元数据可以看成其描述的资源的性质。 r d f 还定义了个简单的概念模型,旨在体现网络资源及其之间的概念结 构,然而其本身并不提供专门的机制来描述资源和资源之间的性质。r d f 没有 定义任何一个特定领域的语义,即没有假定某个论域,它只是提供了一个用于领 域无关的概念建模机制来描述网络资源,如元数据。为了描述领域相关的语义, 还需要在r d f 之上建立描述领域知识的其它工具,这就是r d f 词汇描述语言 r d f s ( r d fs c h e m a ) 所要实现的目标。r d f s 是对r d f 的有关性质描述的补充 和扩展,定义了类和性质,这些类和性质可以用来描述其他的类和性质,从而增 强了r d f 对资源的描述能力。r d f s 强调以性质为核心,通过类来描述性质, 为我们建立了一个表现语义层次的模型结构。 r d f s 的基本模型是c l a s s 定义和s u b c l a s s o f 语句声明,p r o p e r t y 定义和 s u b p r o p e r t y o f 语句,d o m a i n 和r a n g e 语句声明( 可以限制对上面的c l a s s 和p r o p e r t y 的组合) ,t y p e 语句( 用于声明c l a s s 的一个实例的资源类型) 。使用这些模型就 可以定义一个领域的知识。 在r d f s 中,资源可以被划分为各种类( c l a s s ) ,类的成员叫做类的实例 ( i n s t a n c e ) 。类( r d f s :c l a s s ) 本身也是资源( r d f s :r e s o u r c e ) ,通常用r d fu r j r e f e r e n c e s 来标识,可以利用r d f 的性质( r d f - p r o p e r t y ) 来描述。r d f - t y p e 性质可以用来声明一个资源是一个类的实例。 r d f s 可以区分类和它的实例集合。每一个类都关联着一个实例集合,叫做 这个类的扩展类。两个不同的类可以有同样的实例集合,例如税务局可以将居住 在同一地区的人定义为一个类,而邮局则是将居住地区邮政编码相同的人定义为 中国科学技术大学博士学位论文第一章前言 一个类,也许这两个类有完全相同的实例,但是性质却不同 4 1 。 r d f s 提出了抽象世界中的主要关系,并由此建立了类型系统,从而支持从 客观世界到抽象世界的映射也为知彭 共享打下了基础,基于r d f s 用户可以在 某个领域中定义自己的s c h e m a ,但是为了描述更具体和实用的内容,还需要依 靠更进一步、描述能力更为丰富的语言。 1 2 3 基于本体的信息表示 随着人们对知识表示、信息组织和复用以及为用户提供有效服务的需求越来 越强烈,本体( o n t o l o g y ) 作为一种能在语义和知识层次上描述信息系统的概念 模型建模工具,自提出以来就引起了国内外众多科研人员的关注,并在计算机的 许多领域得到了广泛应用,如知识工程、数字图书馆、软件复用、信息检索和 w e b 上异构信息的处理、语义网等。 从知识共享的角度看,本体可以被看作是一种概念化的显式说明,是对客观 存在的概念和关系的描述。它起源于哲学概念,被哲学家用来描述事物的本质, 后来被引入到人工智能的研究领域,在开发知识系统时用于领域知识的获取。 1 9 9 3 年g r u b e r l 5 】给出了本体的最流行的定义:“本体是概念模型的明确的规范说 明”,后来s t u d e r 等进行了深入的研究,认为本体是共享概念模型的明确的形式 化说明,包括概念化( c o n c e p t u a l i z a t i o n ) 、明确( e x p l i c i t ) 、形式化( f o r m a l ) 和共享( s h a r e ) 四层含义【4 j 。 对于本体的具体构造过程,可以用下面的公式形象地给出: 本体= 概念( c o n c e p t ) + 属性( p r o p e r t y ) + 公理( a x i o m ) + 取值( v a l u e ) + 名义( n o m i n a l ) 概念可分为“原始概念( p r i m i t i v ec o n c e p t s ) ”( 属性是必要条件,而非重要 条件的情况) 和“定义概念( d e f i n e dc o n c e p t s ) ”( 属性是充要条件的情况) 两种, 属性则是对概念特征或性质的描述。至于“公理”,即是定义在“概念”和“属 性”上的限定和规则。“取值”则是具体的赋值,“名义”是无实例( i n s t a n c e s ) 的概念或者是用在概念定义中的实例。它们符合以下的形式来对知识进行表达、 描述和诠释: ( 1 ) 概念的含义非常广泛,可以指任何事物,如描述、功能、行为、策略 中国科学技术大学博1 j 学位论文第一章前言 和推理过程等一一本体中的这些概念通常构成一个分类层次。 ( 2 ) 关系代表了在领域中概念之间的相互作用。形式上定义为n 维笛卡尔 乘积的子集:r :c 1 c 2 c 3 c 。如:子类关系( s u b c l a s s o f ) 。 ( 3 ) 函数是一类特殊的关系。在这种关系中前n 1 个元素可以唯一决定第n 个元素。形式化的定义如下:f :c l c 2 c 3 c 。一i c 。例如m o t h e r o f 关系就是一个函数,其中m o t h e r o f ( x ,y ) 表示y 是x 的母亲,显然x 可以唯 一确定他的母亲y 。 ( 4 ) 公理代表永真断言,是定义在“概念”和“属性”上的限定和规则, 比如概念乙属于概念甲的范围。 ( 5 ) 实例是指属于菜概念类的基本元素,即某概念类所指的具体实体。 k 7k ( aa 、 1 、一。“、二而 ,、9 、,一一 眇、j ( 竺! ! ! ) 、j p 1 。i 氏 ( 至多一卜一、 图1 2 本体实例 从语义上分析,实例表示的就是对象,而概念表示的则是对象的集合,关系 对应于对

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论