(计算机应用技术专业论文)基于语义的web信息查询技术的研究.pdf_第1页
(计算机应用技术专业论文)基于语义的web信息查询技术的研究.pdf_第2页
(计算机应用技术专业论文)基于语义的web信息查询技术的研究.pdf_第3页
(计算机应用技术专业论文)基于语义的web信息查询技术的研究.pdf_第4页
(计算机应用技术专业论文)基于语义的web信息查询技术的研究.pdf_第5页
已阅读5页,还剩54页未读 继续免费阅读

(计算机应用技术专业论文)基于语义的web信息查询技术的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

哈尔滨工程大学硕士学位论文 摘要 随着网络信息资源的急剧增长,人们越来越多地关注如何快速有效地 从海量的网络信息中,抽取出潜在的、有价值的信息,使之有效地在管理 和决策中发挥作用。搜索引擎技术解决了用户查询网络信息的困难,传统 信息查询方式下,由于信息资源缺少统一的语义描述,用户难以查找到与 需求相关的资源。如何根据信息资源所具有的领域知识,实现信息资源的 语义查询,提高数字化信息资源的利用率,这些问题是信息查询领域所面 临的挑战。 在对w e b 信息查询现有问题进行剖析后,总结了基于语义w e b 的信 息查询方案,描述了信息查询系统的设计思想和查询流程,并对系统模型 的合理性进行了论证。另外,对其中所涉及的领域本体构建、信息资源收 集、语义推理、查询结果排序和倒排文件索引等关键技术及解决方案进行 了研究,针对现有的语义w e b 的查询实验系统在查询速度上的不足,引 入了一种倒排文件分块组织方法,兼顾了文档编号序列和文档权值序列在 查询系统性能中的不同作用,为综合优化系统性能提供了一个可操作的框 架。最后,提出了一个减少缓存的改进算法,并在此基础上研究了分块组 织策略对性能的影响。 通过分析和研究表明,这一分块组织策略可以读取少量倒排表数据而 得到查询结果,减少查询算法的执行时间和内存空间,总体上提高了查询 系统的效率。 关键词:语义w e b :信息查询;领域本体;信息资源收集;语义查询 哈尔滨工程大学硕士学位论文 a b s t r a c t w i t ht h er a p i d l yg r o w t ho ft h en e t w o r ki n f o r m a t i o nr e s o u r c e s , p e o p l em o r ea n dm o r ec o n c e r nh o wp i c ku pq u i c k l y a n da v a i l a b l y i n f o r m a t i o ni nt h en e t w o r ki n f o r m a t i o n m a k ei tp r o d u c er e s u l ti nt h e m a n a g e m e n ta n dt h e d e c i s i o na v a i l a b l y t h et e c h n i q u eo fs e a r c ht h e e n g i n es o l v e dt h ed i f f i c u l t yo ft h ec u s t o m e ri n d e xn e t w o r ki n f o r m a t i o n , a c c o r d i n gt ot r a d i t i o n a li n f o r m a t i o nr e t r i e v a lp a t t e r n ,t h ei n f o r m a t i o n i a c k sa nu n i f o r ms e m a n t i cd e s c r i p t i o n i ti sh a r df o ru s e rt of i n dm o r e r e l e v a n ti n f o r m a t i o n h o wt or e a l i z et h es e m a n t i cs e a r c h i n gb ym e a n s o ft h ed o m a i nk n o w l e d g e ,a r ec h a l l e n g i n gt a s k sf o ri n f o r m a t i o n r e t r i e v a l b a s e do nt h ee x a m i n a t i o no fe x i s t i n gp r o b l e m s ,t h i sd i s s e r t a t i o n s u m su pai n f o r m a t i o nr e t r i e v a lp r o j e c tb a s e ds e m a n t i cw e b i ta l s o d e s c r i b e sd e s i g ni d e aa n dp r o c e s so ft h ei n f o r m a t i o nr e t r i e v a ls y s t e m , a n dp r o v e si nt h e o r yt h ev a l i d i t yo ft h ef r a m e w o r k m o r e o v e rk e y t e c h n i q u e s i n v o l v e da r e s t u d i e d , i n c l u d i n g d o m a i n o n t o l o g y c o n s t r u c t i o n ,i n f o r m a t i o nr e s o u r c ec o l l e c t i o n ,s e m a n t i ci n f e r e n c e , s o r to fr e t r i e v er e s u l ts e ta n di n v e r t e df i l ei n d e x a i m e da tt h es h o r t a g e o ft h es e a r c he x p e r i m e n ts y s t e mo fs e m a n t i cw e bi ns e a r c h i n gs e e d ,a b l o c ko r g a n i z a t i o no fi n v e r t e df i l ei si n d u c t e d i ti n t e g r a t e st h ee f f e c t s o ft h ed o c u m e n ti d e n t i f i e rd a t aa n dd o c u m e n tw e i g h td a t at oi m p r o v e t h ee f f i c i e n c yo fr e t r i e v i n gp r o c e s s f o rc o m p r e h e n s i v eo p t i m i z et h e s y s t e mf u n c t i o nt op r o v i d ea no p e r a b l ef r a m e a tl a s t ,p u tf o r w a r da i m p r o v e m e n tc a l c u l a t ew a yt od e c r e a s eb u f f e rm e m o r y t h r o u g ht h ea n a l y s i s a n dr e s e a r c ht o e n u n c i a t i o n ,t h eb l o c k o r g a n i z a t i o ns t r a t e g yc a nr e a dl i t t l ei n v e r t e dd a t ab u tg e tas e a r c hr e s u l t , r e d u c i n gp e r f o r m a n c et i m ea n dm e m o r ys p a c eo ft h ei n s p e c t i o n a l 哈尔滨工程大学硕士学位论文 c a l c u l a t ew a y ,i m p r o v ee x a l t a t i o ni n d e x s y s t e mo fe f f i c i e n c y a sa w h o l e k e y w o r d s :s e m a n t i cw e b ,i n f o r m a t i o nr e t r i e v e ,d o m a i no n t o l o g y , i n f o r m a t i o nr e s o u r c eg a t h e r ,s e m a n t i cr e t r i e v e 哈尔滨工程大学 学位论文原创性声明 本人郑重声明:本论文的所有工作,是在导师的指导 下,由作者本人独立完成的。有关观点、方法、数据和文 献的引用已在文中指出,并与参考文献相对应。除文中已 注明引用的内容外,本论文不包含任何其他个人或集体已 经公开发表的作品成果。对本文的研究做出重要贡献的个 人和集体,均已在文中以明确方式标明。本人完全意识到 本声明的法律结果由本人承担。 作者( 签字) :压茎旌 日期:纠年月加日 堕玺堡三堡查堂堡主堂堡堡茎 第1 章绪论 1 1 问题的提出及研究意义 1 1 1 问题的提出 随着科技的发展,i n t e m e t 已经发展成为当今世界上最大的信息库。它的 迅速发展和广泛使用,已使人们足不出户便能知天下大事。2 0 0 6 年5 月1 5 日, 百度董事长兼c e o 李彦宏指出:全球目前的网页超过2 0 亿,每天新增力f 1 7 3 0 万个网页。 面对浩瀚的信息海洋,用户试图在w e b 上找到自己所需要的信息非常困 难,往往花费了很多时间却收获甚少。与方便、快捷的w e b 信息发布技术相 比,信息查询技术相对滞后,已成为信息技术发展的一个“瓶颈”。因此,要 充分发挥万维网作为全球信息共享平台的巨大优势,就必须解决如何有效的 访问万维网上信息资源的问题。 1 1 2 研究意义 在当今信息时代,用户通过网络来获取信息的行为日益普遍,每个人都 希望能够快速、准确的在信息的海洋中找到自己需要的内容。搜索引擎正是 由这种需求的推动而得到快速发展的信息服务形式。根据统计,约8 5 的用 户使用搜索引擎去定位他们需要的信息,并且,几个著名的通用搜索引擎一 直都稳定的处于全球访问量最大的5 0 个网站之列m 众多的搜索引擎使用户在大量信息中筛选需要的信息成为可能,但是目 前多数万维网的搜索引擎是基于分类或关键字逻辑组配的查询方式,在纷繁 复杂的网络信息面前,搜索引擎不能对所有的信息进行分类和索引,而查询 结果又常常过于庞大,有用信息只是其中的- d , 部分,查询的准确率不能得 到保证。 信息查询作为信息学领域中最活跃的研究一支,它涉及到一些学科领域 的交叉合作,其中主要包括:信息的组织、信息的存储、查询索引、异质数 哈尔滨工程大学硕士学位论文 据源的集成和人工智能等技术,信息查询技术的研究与发展和这些相关领域 的发展是离不开的,而对新型信息查询技术的研究也同样能推动相关科研领 域的发展。因此,信息查询技术研究还具有较高的学术价值。 1 2 国内外研究现状及分析 1 2 1 信息查询研究现状 信息查询( i n f o r m a t i o nr e t r i e v a l ) 是指从大量文档集合中,自动地找到 与用户查询请求相关的各种信息。信息查询的处理对象是“文档资源”,可以 是文本的或多媒体的;信息查询的服务对象是“用户”,文档集合相对静止, 用户查询请求却是动态变化的;信息查询的处理目标是“发现相关信息”,要 求“部分匹配”或“最佳匹配”而不是“精确匹配”或“多多益善”。需要说 明的是,尽管与图像、音频和视频等多媒体信息相比,文本信息显得比较普 通,但文本仍然是记载和传播信息的最主要媒体;此外,对文本信息的研究 又相对容易取得技术突破,其中的许多成果也可以为研究多媒体信息所借鉴。 因此,在大多数情况下,信息查询主要是指对文本信息的查询,而对多媒体 信息的查询则相应地冠以“图像查询”、“音频查询”、“视频查询”等名称m 。 互联网技术给信息的传播方式带来了巨大的变化,也明显地促进了信息 查询技术的发展和应用,一大批搜索引擎产品也随之诞生。为网民提供了快 速信息获取和网络信息导航工具。从某种程度上可以说,网络信息查询代表 了当代信息查询的发展方向,所以,本文也将网络信息查询作为主要的研究 对象。 搜索引擎是先以一定的策略在互联网中搜集和发现信息,然后对信息进 行提取和处理,并将其存储到数据库中为用户提供查询服务,从而起到信息 导航的目的。 1 ) 搜索引擎的工作原理 主要包括如下三个过程:首先是在互联网中搜集网页信息。一般利用能 在互联网上收集网页的s p i d e r 系统程序,自动访问互联网,并沿着任何网页 中的所有u r l 链接行走,将爬过的所有网页资源收集起来,本阶段也可以通 过人手工收集来完成;接着是对所搜集的信息进行提取和组织,并建立信息 2 哈尔滨工程大学硕士学位论文 索引库。由索引器对收集回来的网页进行分析,按照一定的特征提取算法来 提取网页资源对象的特征信息,主要包括网页u r l 、编码类型、页面内容包 含的关键词、关键词位置、生成时间、大小和与其它网页的链接关系等元数 据信息,根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页 面文字中及超链中每一个关键词的相关度( 或重要性) ,然后用这些相关信息 建立网页索引数据库;最后是在索引数据库中搜索排序,当用户输入关键词 搜索后,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关 网页。因为所有相关网页针对该关键词的相关度早已算好,所以只需按照现 成的相关度数值排序,相关度越高,排名越靠前。最后,由页面生成系统将 搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户u “。 2 ) 搜索引擎的分类 按照信息搜集方法和服务提供方式的不同,搜索引擎系统可以分为三大 类:机器人搜索引擎、目录式搜索引擎和元搜索引擎”,。 ( 1 ) 机器人搜索引擎 该类搜索引擎由一个r o b o t 程序根据某种策略自动地在互联网中搜集和 发现信息,并将搜集到的信息加入到搜索数据库中,供用户查询。搜索引擎 主要由三个部分组成:r o b o t 程序、索引生成器和查询程序。r o b o t 程序会定 期访问互联网,对一定范围内的网站进行查询,一旦发现新的内容信息或新 的网站,它会自动提取这些信息,并添加到资源信息库中。索引生成器则为 所搜集的信息建立索引项,从而方便用户查询信息。周期性的访问以前搜集 过的网页,及时更新索引信息库,这是基于r o b o t 的搜索引擎的一个重要特征 i l l , j f l 口 。 r o b o t 搜索引擎的优点是获得的信息量大、更新及时、无需人工干预,缺 点是返回过多的无关信息,需要用户迸一步的筛选。这类搜索引擎的典型代 表有:g o o # e 、a l t a v i s t a 、n o r t h e m l i g h t 等,其q a n o r t h e r n l i g h t 和a l t av i s a 所 索引的w e b 页面都已经超过了1 0 0 0 0 0 ,0 0 0 。 ( 2 ) 目录式搜索引擎 耳录式搜索引擎是最早出现的基于w w w 的搜索引擎,主要通过人工发 现信息,其索引数据库是由编目人员通过手工方式建立起来的,该类搜索引 擎首先由分类专家建立一个目录分类标准和一个目录结构,编目人员在访问 哈尔滨工程大学硕士学位论文 了某个w e b 站点后给出该站点的相关描述,并根据站点的内容和性质将其归 至一个预定义好的目录中。目录式搜索引擎大多能提供目录浏览和直接查询 两种服务方式。该类搜索引擎由于在信息查询中加入了人的智能,所以信息 分类准确、导航质量高,缺点是需要投入大量的人力、获得的信息总量较少 和更新困难。这类搜索引擎的代表是:y a h o o 、l o o k s m a r t 、o p e nd i r e c t o r y 、 搜狐等“一。 ( 3 ) 元搜索引擎 元搜索与一般搜索引擎的最大不同在于它可以没有自己的资源库和机器 人,它充当一个中间代理的角色,接受用户的查询请求,将请求翻译成相应 搜索引擎的查询语法,再向各个搜索引擎发送查询请求并获得反馈信息,经 过综合相关度排序,然后将抽取之后的查询结果返回给用户。它的主要精力 放在提高查询速度、智能化处理查询结果、提供个性化的查询服务以及改善 用户查询界面等方面。和其它两种查询系统相比较,元搜索引擎查全率高、 搜索范围更多更大,查准率也并不低。缺点是不能够充分发挥所使用搜索引 擎的功能,也需要用户做更进一步的筛选。现行比较著名的元搜索引擎有 m e t a c r a w l e r ,s a v y s e a r e h 等,其中m e t a c r a w l e r 能同时查询y a h o o ,l o o k s m a r t , a l t a v i s t a 等九个主要的搜索引擎m ,。 1 2 2 问题分析 传统信息查询技术都是基于关键字的语法匹配和全文查询技术,主要借 助于目录、索引和关键词等方法来实现。此技术的优点是简单、快捷和容易 实现,但其存在五个较突出的问题n n 。 1 ) 不能对自然语言进行查询,只能实现基于字或词的查询。由于在大 多数情况下,用户很难通过简单的几个关键词来忠实的表达其查询需要,因 此表达困难也就导致了查询质量难近人意; 2 ) 数据库中数据更新远远跟不上万维网中信息的更新速度。例如,像 y a h o o 之类的搜索引擎,它们主要靠人工进行工作; ,3 ) 查询算法采用了词形匹配而不是词义匹配。因为一词多义现象导致在 查询结果中包含大量的无用信息,使得查准率难以满足,在西文中,还存在 有词形变化的问题( 如时态、单复数等) 。这些问题都是基于关键词匹配的查 4 哈尔滨工程大学硕士学位论文 询算法的不足之处; 4 ) 检索算法缺乏智能性。当前采用的相关度匹配策略具有一定局限性, 没能支持推理检索技术: 5 ) 片面追求查全率导致了查询结果的过于庞大,用户根本没有时间和精 力从中获得有用的信息。 总之,在信息快速增长的今天,传统信息查询因缺乏必要的智能机制, 已难以适应时代发展的需要。 1 3 研究的目的和研究内容 1 3 1 研究目的 由于传统信息查询算法采用的只是基于字、词的简单匹配,而缺乏对知 识的表示、处理和理解等能力,这是造成上述问题的实质原因。解决这些问 题的关键是把信息查询从基于关键字的语法匹配提升至基于知识层面的语义 匹配。因此,主要研究目的就是希望通过赋予待查询信息的具体语义内涵, 来解决传统信息查询所存在的问题,以提高查询的质量和效率。 1 3 2 研究内容 从上面的阐述可知,“语义推理查询”研究具有很高的学术理论意义和非 常广阔的应用前景。在前人的研究基础上,本文主要做了以下几个方面的工 作: 1 ) 分析了各种传统信息查询技术的优缺点: 2 ) 针对传统信息查询技术的缺点和不足,总结了将语义w e b 技术应用到 信息查询中的新思想,建立了语义推理查询的体系结构: 3 ) 研究了语义推理查询系统模型中所涉及的本体构建、语义推理、查询 结果排序和倒排文件索引等关键技术; 4 ) 引入了一种分块组织倒排文件的方法及其查询匹配操作算法。该方法 兼顾了文档编号序列和文档权值序列在查询系统性能中的不同作用,为综合 优化系统性能提供了一个可操作的框架。 5 堕玺堡三墨查堂堡主堂垡堡壅 1 4 论文组织结构 全文共由五章组成。第1 章为信息查询技术综述。其中阐述了信息查询的 概念、目的和意义,简要介绍了评价信息查询技术的性能参数,并着重分析 了目前国内外信息查询技术的研究现状,针对信息查询领域尚存的问题,提 出了研究的目的和研究内容; 第2 章介绍了语义w e b 的框架体系。着重研究了万维网的信息组织结构, 发展历程以及下一代万维网的相关概念、组成和体系结构,并简要阐述了构 建在语义w e b 之上的应用; 在前面两章的基础上,第3 章引出了基于语义w e b 的信息查询技术。研究 了s i i s s 的设计思想、体系结构、框架模型和信息查询的系统流程; 第4 章则主要针对语义推理信息查询体系结构中的若干关键技术及解决 方案进行了研究,为分块组织倒排文件的方法的顺利实现奠定了良好的基础, 这些关键技术主要包括:领域本体构建、信息资源收集、语义推理、查询结 果排序和倒排文件索引等技术: 第5 章阐述了倒排文件的一种分块组织技术。首先建立了查询系统性能模 型。通过分析,验证了这一方法下的查询算法可以有效的减少执行时间和内 存空间,从总体上提高了查询的效率。 最后是对全文工作的总结。其中指出并分析了基于语义w e b 的查询系统 中尚不完善的部分,对将来的工作进行了展望。 6 哈尔滨工程大学硕士学位论文 2 1 引言 第2 章语义w e b 技术 i a t e m e t 和万维网的快速发展,使人类可以更加快捷、广泛地获取信息。 但至今为止,万维网上的大部分信息都是服务予“人”这一智能体的,很难 被计算机直接理解。因此对当前网页信息组织结构进行规范化处理,将其扩 展成能为计算机使用和处理的文档,以便于把人类从纷繁复杂的信息查询、 处理和推理等劳动中解脱出来,这就成了时代的呼唤。 目前的万维网其进化、扩大和完善的空间还很大,可以说万维网还没有 走出婴儿期。为使万维网迈上一个新的台阶,从此摆脱幼稚,走向成熟和真 正的智能化,万维网创始人蒂姆伯纳斯李又在致力于开发新一代的万维 网。他将万维网的演化分为两个阶段“,在第一个阶段,万维网应该是一个 有利于人们进行信息交换和相互合作的强大工具。在最初十年的发展里,万 维网基本上实现了这个目标:它以h t m l 页面的方式向用户提供了大量可阅 读的信息;在第二个阶段,这种合作应该延伸到机器。也就是说,连接到万 维网上的机器也应该能够分析万维网上的所有数据龟括内容、链接以及 入与机器之间的交互。如何实现万维网的第二阶段正是目前学术界研究的热 点。实现这一目标的难点在于传统的h t m l 语言的标签集只是对内容的显示 格式做了标记,由于缺乏针对数据内容的标签,其数据的表现格式和数据内 容糅合在一起,使得万维网上的信息内容很难被机器所理解,从而制约了对 万维网上的海量数据进行自动化处理的开发。虽然近年来人们在自然语言处 理、机器学习等领域做出了大量的努力,提出了基于概率统计、向量空间等 多种方法来增强机器对文本信息的理解能力,但其最终的处理效果还不够理 想,因此为了充分发挥万维网海量数据存储的优势,就需要以一种机器可识 别和理解的规范化格式交换w 曲资源信息。 近年来出现的万维网新标准可扩展标记语言( e x t c n s i b l em a r k u p l a n g u a g e ,x m l ) 最大的特点在于用户可以根据需要制订能够反映数据内容 7 哈尔滨工程大学硕士学位论文 的标签,实现数据内容和数据表现方式的分离。x m l 及其相关的技术使传统 万维网上的信息内容,从面向人浏览转为面向计算机的自动处理迈出了非常 重要的一步。面向计算机自动处理的前提是机器可以理解数据的内容,在人 类的思维中,对某个事物的理解意味着能够将这个事物与其它所熟知的事物 联系起来,可以通过一些原子概念的组合来对新事物进行解释,而机器对概 念的理解是指机器能够执行一些相关的概念查询、概念细化和概念泛化等操 作。在蒂姆伯纳斯李对万维网的发展展望中指出:下一代万维网就是一 个由大量机器可以理解的数据所构成的一个分布式的体系结构,在这个体系 结构中,数据之间的关系通过各种术语来表达,这些术语之间又形成一种错 综复杂的网状联系,计算机能够通过这些术语获得数据的含义,并且可以在 形式化语义联系的基础上,实行逻辑推理操作,从而使得计算机能完成大量 的自动处理工作。 2 2 语义w - e b 的定义 为了改善当代万维网信息不利于计算机自动处理的现状,蒂姆伯纳 斯李于1 9 9 8 年提出了下一代万维网的构想“l 语义w e b ( s e m a n t i c w e b ) 。语义w e b 是一个梦想:期望w e b 上的数据通过另一种不同于现在方 式的描述和链接,使这些数据不仅能以各种灵活的方式展现出来,也能被不 同的应用程序所自动处理、综合、重用。在语义w e b 中,网页中所蕴含的语 义信息能使计算机完成大部分的自动化处理工作,例如:软件代理程序通过 网页中的语义可以为用户完成复杂的旅行计划制定等任务,即从当前“机器 可阅读”的w e b 扩展为“机器可理解”的语义w e b 。 蒂姆伯纳斯李并没有给出语义w e b 的严格数学定义,只是在和当代 万维网的对比中,给出了如下的描述:语义w e b 并不是一个从无到有、孤立 发展的万维网,而是对当前万维网的延伸和扩展,语义w e b 上的信息具有定 义良好的含义,计算机能根据概念的定义声明和逻辑推理规则发现资源对象 的含义,使得机机之间以及人机之间都能够更有效地合作处理;在语义w e b 中定义和链按的数据能被各种不同的应用以更为有效的方式查询、重用和集 成。 根据上面的描述,人们可以给语义w e b 下这样的定义:语义w e b 就是机器 8 哈尔滨工程大学硕士学位论文 可以理解数据含义的下一代万维网,其上的“语义”信息蕴含在各资源节点 的逻辑联系中。 从语义w e b 的发展起源来看,语义w e b 是人工智能领域和互联网技术 相互结合的产物。人工智能领域中的知识工程研究从孤立的知识库系统逐渐 发展到基于i n t r a n e t 、e x t r a n e t 的信息系统集成,最后扩展到整个i n t e m e t ,在 这个研究过程中,逐渐加深了对知识表示和推理的认识,并总结出了一些新 的描述和推理方法。另一方面,万维网经过十几年的发展,积累的海量数据 需要一种新的、机器可以自动完成的方式来处理和管理。因此,当两个领域 的积累都比较成熟,而且有了需求,就必然会走向结合。 2 3 语义w e b 的组成 2 3 1 语义w e b 结构 信息资源根据其所处层次的不同,可以被划分成不同的阶,其中现实世 界中未经加工处理的信息属于零阶,在整个信息层次结构中处于最底层;网 页资源信息处在第一阶;在对h t m l 页面经过初次加工之后,所获取的网页 标引或索引信息处在第二阶;有关信息资源对象的元数据或模式信息则是属 于第三阶的信息;而逻辑推理、真值证明等信息理应拥有更高的阶值。在信 息层次结构中,阶值越低的信息越具体详实,较适合于人为处理,阶值越高 的信息其抽象程度越高,则更适合于机器的自动化处理。当代万维网上的信 息是杂乱的、无序的,将数据内容和表现形式混在一起,其中不同“阶”的 信息没有被区别对待,这就导致了人们在信息使用上的困难。因此,语义 w e b 首要解决的问题就是建立起合理的信息层次结构,使其上面的信息是结 构良好且有序的。 蒂姆伯纳斯李在x m l 2 0 0 0 大会上描述了语义w e b 的基本体系结构, 如图2 1 所示。 9 哈尔滨工程大学硕士学位论文 r u l e r s t r u s t , p r o o f 壹 d a t a :垦 ls e l f - d a t a , l o g i c 们 id 。 , o n t o l o g yv o c a b u l a r y趸 1卢 菪 r d f + r d f s c h e m a i x m l + n s + x m l s c h e r n a l u r iu n i c o d e 图2 i 语义w e b 层次结构图 2 3 2 资源定位与编码 w e b 环境下的各应用之间不可避免地需要相互通信,直接或间接地以机 器可读的格式传递信息。这些信息中很大一部分是对w 曲上资源的描述,因 此,首先应该以明确的方式来标识这些资源对象。语义w e b 采用统一资源标 识符u r i ( u n i f o r mr e s o u r c ei d e n t i f i e r ) 来标识资源及其属性,它和万维网常 用的统一资源定位符u r l ( u n i f o r mr e s o u r c el o c a t o r ) 以及统一资源名称u r n ( u n i f o r mr e s o u r c e n a m e ) n ”的区别在于u 融能表示所有可以用字符串作为标 识符的资源信息,它既能表示网络可达的资源,又能描述网络不可达的资源, u r l 和u r n 都是u r i 的子集。另外,由于语义w e b 的最终目的是要构建一个 全球信息的网络,在这个网络上应能涵盖各种语言和文字的信息资源,所以 它采用u n i c o d e 作为字符的编码解决方案。这一层位于语义w e b 中的最底层, 是整个语义w e b 的基石,它成功地解决了万维网上资源的定位和跨地区字符 编码格式的问题。 2 3 3 语法表示 说起当代互联网的蓬勃发展,h t m l 的确立下了赫赫战功。可是,h t m l 在制定之初就蕴藏了许多危机,随着万维网的不断发展,这些危机不但没有 1 0 哈尔滨工程大学硕士学位论文 减弱,反而越来越突出,甚至已经成为制约h 刚l 继续发展的障碍。归纳起 来,h t m l 语言主要存在以下几个方面的问题: 1 ) 据内容和数据表示不分,这是m m l 最大的问题所在。 2 ) t m l 内部的结构性和条理性较差,这就使搜索引擎很难根据规范的 h t m l 语法来分析和提取网页信息; 3 ) h t m l 的标签固定僵化,用户不能自行扩展,导致很多的特殊信息无 法表示,这就使得h n 仉很难满足信息共享最大化的要求。 源于对h t m l 语言现存问题的分析,人们在语义w e b 发展之初,就决 定将x m l ( 可扩展标记语言e x t e n s i b l em a r k u pl a n g a u g e ) 作为其语法层。 和h t m l 一样,x m l 也是一种置标语言。但x m l 最大的特点在于它是种 可扩展的( e x t e n - s i b l e ) 置标语言,它并不像h t m l 那样,提供一组事先定 义好的标签,而只是提供了一个标准,根据这个标准,用户可以根据实际需 要定义自己的置标语言,并为你的这个置标语言规定它特有的一套标签。但 另一方面,由于x m l 标签可以由用户自行定制,这样就可能会造成标签命 名冲突的情况,为了解决这个问题,w 3 c 的x m l 小组制定了有关命名空间 n s ( n a m e s p a c e ) 的标准“。“。命名空间为x m l 文档中的结构化标记提供了 上下文环境,一方面为文档中的每一个标记都赋予了确定的含义,另一方面 将不同上下文环境中相同名称的标记区分开来,从而避免了语义上的歧义。 x m ls c h e m a 在标记的使用和文档结构上,为x m l 文档提供了明确的 语义限制,最终确保每一个x m l 文档都是语义合法、结构完整、内容有效 的。 x m l 是底层的数据交换格式,它只是解决了文档内容的次序、结构等语 法上的问题,并没有解决文档内容的语义、联系等问题。对标签具体含义的 定义和互操作需要交给语义w e b 的上层去解决。 2 3 4 元数据描述 x m l 提供了w e b 数据编码的语法依据,而r d f ( 资源描述框架r e s o u r c e d e s c f i p t i o nf r a m e - w o r k ) 定义了一种用以描述资源及其相互关系的简单模型。 正如其名,r d f 并不是一种新的语言,而是一个开放的元数据描述框架,它 属于语义w e b 中的元数据层。在r d f 资源描述框架中主要涉及到以下三个 哈尔滨工程大学硕士学位论文 概念n 。“: 1 ) 资源( r e s o l l r c e ) :资源泛指可通过u r i 标识的任何事物,包括:网 络可达资源( 如一份电子文档、个图片、一个w e b 服务等) 和网络不可达 资源,如具体的物理对象( 人、公司、在图书馆装订成册的书籍等) 和抽象 概念实体( 作者) 等; 2 ) 特性( p r o p e r t y ) :特性是描述某个资源的性质、特征、属性或关系; 3 ) 陈述( s t a t e m e n t ) :陈述是有关具体资源对象特性的具体描述,通常 可用形如 的三元组来描述,其中s 表示一个待描述的资源对象,f 表示该资源的特定方面或侧面,o 则表示该资源s 在特性p 上的取值,o 可 以是其它的资源对象也可以是平凡文字,如字符串等。 任何复杂的系统都可以通过合理的分解操作,简化成一组三元组( 或陈 述) 集合。r d f 是基于这一思想的:被描述的事物( r e s o u r c e ) 具有一些属 性( p r o p e r t i e s ) ,而这些属性各有其值( v a l u e s ) ,资源可以通过枚举该资源的 相关属性及属性取值来描述。r d f 通过特定的术语来区分陈述中的各个组成 部分,基于r d f 的资源描述是由若干条资源陈述( s t a t e m e n t ) 组成,并把这 些陈述用特定的语法( 如儿,n 3 等) 表示出来。 图2 2 关于资源的陈述 图2 2 中描述了一个u r i 为h t t p :w w w e x a m p l e o r g i n d e x h t n d 网页资源的 相关信息,图中的资源陈述通过三元组描述后德到: h t t p :w w w e x a m p l e o r g i n d e x h t m l ,d c :l a n g u a g e ,e i l 1 2 哈尔滨工程大学硕七学位论文 图2 3 中的每一段弧均对应于一个资源陈述( 即三元组描述) ,其中弧的 起始节点和终止节点分别对应于三元组中的主体和客体。为了描述的方便, 在上述三元组中采用了前缀表示法,其中各前缀具体含义如下: e x a m p l e :h t t p :w w w e x a m p l e o r g t e r m s d c :h t t p :w w w p u r l o r g d c e l e m e n t s 1 1 为了数据描述和程序处理的规范性,r d f 通常采用一种名为r d f x m l 的 x m l 语法来书写和交换r d f 陈述,与r d f 的简略记法三元组( t r i p l e s ) 所不同的是,r d f x m l 是书写r d f 的规范性语法( n o r m a t i v es y n t a x ) ,要求 严格符合x m l 书写规范。 虽然上例中声明了资源对象( h t t p :w w w e x a m p l e o r s i n d e x h t m l ) 的创作 曰期是“a u g u s t1 6 ,1 9 9 9 ”等信息,但计算机从中还是无法得出e x a m p l e : c r e a t i o n - d a t e 、d e :l a n g u a g e 和d c :c r e a t o r 的具体语义信息。和x m l 类似,r d f 描述模型只是提供了一种与领域无关的通用数据描述方式,有关特定域元数 据的定义和它们的语义信息描述还需要制定额外的标准或规范。 这个额外的措施就是r d fs c h e m a ,实际上r d f 通过属性和值描述了资 源及资源之问的关系,但并没有提供描述这些属性及属性间关系的机制。r d f s c h e m a 提供了这种表达机制。它描述了r d fp r o p e r t i e s 的使用规则,为r d f 定义了领域字典( d o m a i nv o c a b u l a r y ) ,并用类型层次结构来组织该字典,从 而构成完备的语义空间。 x m l 和r d f 是不同的形式化方法,在语义w e b 的实现中,它们的作用和 所处的地位也是各不相同。x m l 是为网络数据提供一种编码时所需的语法, 并可以通过x m ls c h e m a 来规定交互数据的数据结构。x i v l l 的特点就决定了 其在语义w e b 中所起的重要作用,从某种意义上看,x m l 是整个语义w e b 的 基石,现在许多技术都采用x m l 作为他们的底层编码语法。 由于x m l 并不能对所使用的标签提供语义解释,因此,它对机器语义理 解方面并没太大的帮助,而构建在x m l 之上的r d f 则提供了一种能有效描述 网络资源的标准化模型,在这种模型中,它以三元组的方式给出了关于资源 对象的具体解释。r d fs c h e m a 从某种程度上进一步拓展了这种资源描述的能 力,然而,和其它的完备的知识表示语言相比,r d fs c h e m a 显得过于简单, 哈尔滨工程大学硕士学位论文 它的语义表达能力还不够,因此,还需要语义w e b 的上层对其语义解释能力 作进一步的扩展。 2 3 5 本体描述 语义信息的交流必须以共同的理解为前提,否则双方就会发生误解或者 不理解。在语义互联网中,这一“共同的理解”,即共同的语义空间,是由本 体层( o n t o l o g y ) 建立和提供的。 o n t o l o g y 是共享概念的显示表述。它通过定义属性并建立一个分类层次 结构,将不同的概念区别和组织起来,同时也通过属性将概念相互联系起来, 从而建立起概念的语义空间,亦即对某一个领域内事物的共同理解。这些概 念和属性的名字( 即标识) 构成了o n t o l o g y 的词汇表( v o c a b u l a r y ) 。在语义 互联网的交流,通讯中,o n t o l o g y 担当着语义沟通的重要角色,是其实现的关 键技术之一。o n t o l o g y 需要用o n t o l o g y 语言描述和建构。 目前,在信息系统和知识系统等领域,越来越多的人在研究本体时,给 出了许多不同的定义。其中最著名并引用最广的定义是由c r r u b e r 提出的:“本 体是概念模型的明确的规范化说明,t 一- ,这个定义主要包含以下四层含义: 1 ) 概念化( c o n c e p t u a l i z a t i o n ) :客观世界中现象的抽象模型; 2 ) 明确( e x p l i c i t ) :概念及它们之间联系都被精确定义; 3 ) 形式化( f o r m a l ) :精确的数学描述,便于计算机的自动处理; 4 ) 共享( s h a r e ) :本体中所反映的知识是大部分使用者所共同认可的。 虽然不同研究者对本体的描述不同,但是从内涵上看,他们都是把本体 当作某个领域内( 可以是特定领域的,也可以是更广范围) 的不同主体( 人、 代理、机器等) 之间进行交流( 对话、互操作、共享等) 的一种基础设施, 即通过本体所提供的定义良好的领域概念结构,来描述概念以及领域中的各 种关系,以便在不同应用之间达成资源共享。目前,本体理论已被广泛应用 于知识工程、自然语言处理、数字图书馆、信息查询和w e b 异构信息的处理、 软件复用、面向对象技术和语义w e b 等领域。 o n t o l o g y 提供了语义交换的桥梁,能够在不同的智能体之间达成有关术 语概念的共识,而对概念共享和理解恰恰是构建语义w e b 的关键,因此,本 体层在语义w e b 体系结构中,处于核心支配地位,为其它各层提供基础服务。 1 4 堕玺堡三矍查兰堡主堂笪堡奎 2 3 6 顶层描述 逻辑( l o g i c ) 层、论证( p r o o f ) 层和信托( t r u s t ) 层这三层位于语义 w e b 体系结构的顶部,也是语义表达的高级要求,目前正处于研究的阶段, 也有一些简单的示范性应用系统正在建设中。其中,逻辑层提供了推理规则 的描述手段,论证层通过运用这些规则进行逻辑推理和求证,而信托层则负 责为应用程序提供一种机制以决定是否信任给出的论证。 到目前为止,利用r d f r d f s 以及对r d f s 进行扩展的一些o n t o l o g y 语 言可以对w e b 上的资源内容做出描述,但仅有这些描述还远远不够,基于语 义的w e b 应用还需要根据特定的规则从这些描述性的知识中进行推理。在语 义网络体系结构中,逻辑层的目标就是提供一种规则描述方法,逻辑主要通 过能由计算机自动推理的规则集来反映,这些规则集则通过各种机器所能识 别的逻辑描述语言表示出来。针对语义w e b 上的各种不同类型的应用,逻辑 层可能会采用多种逻辑语言的实现形式,这一点就和互联网中的t c p i p 协议 的模型中的每一层都会针对不同的硬件和软件系统采用不同的实现类似m 。 2 3 7 数字签名 数字签名( d i g i t a l ) 位于层次模型的右侧,并且贯穿于中间的四层。数 字签名是一种基于互联网的安全认证机制。当信息内容从一个层次传递到另 一个层次时,允许使用数字签名说明内容的来源和安全性。这样,接受方就 可以通过数字签名鉴别其来源和安全性以决定是否接受。数字签名对于语义 互联网及其他使用x m l 进行信息交换的系统非常重要。 2 4 本章小结 语义网虽然是一种更加美好的网络,计算机可以理解人的“语言”,每个 人都可以在上面方便快捷地获取知识、寻求帮助,就像询问值得信赖、知识 渊博的好朋友一样。但语义网实现起来却是一项复杂而浩大的工程。 语义网还处于初期发展阶段,还需要更多的时间完善整个体系,并构建 更多的应用。语义网所应用的技术涉及很多方面,是一种综合性的技术。构 哈尔滨工程大学硕士学位论文 建语义网及其之上的应用服务,需要更多的专业人士和技术人员的参与。 在w o r l dw i d ew e b2 0 0 6 会议上,蒂姆伯纳斯李表示:w e b 开发人 员和内容创作人员可以开始使用语义语言了。 1 6 哈尔滨工程大学硕士学位论文 第3 章语义推理信息查询 3 1 语义推理信息查询介绍 近几年来,信息查询一直是信息学领域和计算机领域研究的热点之一, 也是万维网在其发展过程中所必须解决的一个问题。传统信息查询技术大都 采用词条切分技术,根据文档中

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论