(计算机应用技术专业论文)基于领域本体的主题爬虫研究及实现.pdf_第1页
(计算机应用技术专业论文)基于领域本体的主题爬虫研究及实现.pdf_第2页
(计算机应用技术专业论文)基于领域本体的主题爬虫研究及实现.pdf_第3页
(计算机应用技术专业论文)基于领域本体的主题爬虫研究及实现.pdf_第4页
(计算机应用技术专业论文)基于领域本体的主题爬虫研究及实现.pdf_第5页
已阅读5页,还剩54页未读 继续免费阅读

(计算机应用技术专业论文)基于领域本体的主题爬虫研究及实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

西南交通大学硕士研究生学位论文 第1 页 摘要 随着w e b 上的信息猛速增长,基于关键词全文匹配的传统搜索引擎,已 不能满足用户在查全率、查准率方面的需求。同时随着科技的发展,人们对于 智能化、专业化的需求也一直在提高,如何让搜索引擎更加智能化、专业化是 一个挑战。 垂直搜索引擎正是在用户对专业化需求的环境下产生的,它通过主题爬虫 对w e b 上特定领域的网页进行抓取,保存成网页库,然后被垂直搜索所使用。 针对人们对于智能化的需求,人们发现了哲学的本体论可以被应用于信息检索 中。本体技术是语义网中的一种先进的知识表示技术。本体具有良好的概念层 次结构和对逻辑推理的支持能力,概念间关系概括语义的能力,能很好地为语 义检索提供知识基础的能力。所以研究将本体论技术应用于主题爬虫成为了当 今学术界热点。 本论文分析了主题爬虫的国内外研究现状,结合了本体论技术,进行主题 爬虫的研究与实现。本文的具体工作如下: ( 1 ) 给出基于领域本体的主题爬虫的框架及相关模块介绍。 ( 2 ) 提出了根据本体层次树迸行上下文主题描述,用于指导主题爬虫的 爬行; ( 3 ) 改进了本体层次树各概念的语义相似度及相关度计算方法,并给出 了本体层次树各概念的向量表示综合方法; ( 4 ) 根据本文的上下文主题描述,提出了网页内容与链接相关度的算法; ( 5 ) 根据领域本体的构建方法及p r o t 6 9 6 本体构建工具,构建了教育技术 领域的本体; ( 6 ) 基于开源b o t j a r 进行了扩展、实现基于领域本体的教育技术领域主 题爬虫。 实验表明,通过改进了本体层次树的概念相似度、相关度计算方法后,它 们的综合方法能更好地区分概念间关系;本文所提出的基于领域本体的上下文 主题描述,能有效指导爬虫,体现语义性;提出的基于领域本体的网页内容相 关度和链接相关度算法能较大幅度地提高爬行的查准率。 关键词:主题爬虫;领域本体;主题描述;语义相似度 西南交通大学硕士研究生学位论文 第1i 页 a b s t r a c t w i t ht h ei n f o r m a t i o ne x p l o s i o no nw e b ,t h et r a d i t i o n a lk e y w o r d - b a s e ds e a r c h e n g i n e sc a n n o tm e e tu s e r s d e m a n df o rr e c a l lr a t i oa n dp r e c i s i o na n ym o r e a tt h e s a m e t i m e ,f o l l o w i n g t h e t e c h n o l o g yd e v e l o p m e n t ,p e o p l e s n e e df o r i n t e l l e c t u a l i z a t i o na n dp r o f e s s i o n a l i z a t i o nh a sa l s oi n c r e a s e d t h e nh o wt oc r e a t e am o r ei n t e l l i g e n ta n dp r o f e s s i o n a ls e a r c he n g i n e sb e c o m e sar e a lc h a l l e n g e v e r t i c a ls e a r c he n g i n ei sg e n e r a t e dt of u l f i l lt h ep r o f e s s i b n a ln e e d so fu s e r s i tc r a w l ss p e c i f i ca r e ao nw e bp a g e st h r o u g ht h et o p i cc r a w l e r ,a n ds a v e st h e p a g e st of o r m aw e bd a t a b a s e ,w h i c hi su s e db yv e r t i c a ls e a r c h w h i l ef o r i n t e l l e c t u a l i z a t i o n ,r e s e a r c h e r sf o u n dt h a to n t o l o g ya p p l i c a t i o ni ni n f o r m a t i o n r e t r i e v a lc a nb eag o o dc h o i c et om e e tt h i sd e m a n d o n t o l o g yi sa na d v a n c e d k n o w l e d g er e p r e s e n t a t i o nt e c h n i q u e i t s h o w sg o o d c o n c e p t s t r u c t u r ea n d e x c e l l e n ta b i l i t i e si n l o g i c a lr e a s o n i n gs u p p o r t i n g ,s e m a n t i cg e n e r a l i z a t i o no f r e l a t i o n s h i p sa m o n gc o n c e p t sa n dp r o v i d i n gk n o w l e d g eb a s ef o rt h es e m a n t i c s e a r c h t h e r e f o r e ,t h ea p p l i c a t i o no fo n t o l o g yt e c h n o l o g yi nt h ec o r eo fv e r t i c a l s e a r c ht u r n si n t oah o ts p o ti ni n f o r m a t i o ns e a r c h i n gf i e l d t h i st h e s i sf i r s tp r e s e n t sat h o r o u g hr e v i e wo fr e s e a r c ho nt o p i cc r a w l e rb o t h a th o m ea n da b r o a d ,a n dt h e ns h o w st h es t u d i e sa n di m p l e m e n t a t i o no fat o p i c c r a w l e ro nt h eb a s i so fd o m a i n - o n t o l o g yt e c h n o l o g y t h em a i nr e v i e w sa n dw o r k s p r e s e n t e di nt h i st h e s i sa r ea sf o l l o w s : ( 1 ) i n t r o d u c e dt h ef r a m eo ft o p i cc r a w l e ro nt h eb a s i so fd o m a i n o n t o l o g ya n d r e l a t e dm o d u l e s ( 2 ) b a s e du p o nd o m a i n o n t o l o g y , p r o p o s e dac o n t e x t u a lt o p i cd e s c r i p t i o nm e t h o d w h i c hi su s e dt oi n s t r u c tt o p i cc r a w l e r ( 3 ) i m p r o v e dt h ea r i t h m e t i co fc o n c e p t s e m a n t i cs i m i l a r i t ya n dc o n c e p t s e m a n t i c r e l e v a n c e ,a n dg i v e nt h e i rc o m p r e h e n s i v em e t h o dt oc o u n tt h ev e c t o ro fc o n c e p t s i nt h ec o n c e p th i e r a r c h yt r e e ( 4 ) p r o p o s e dt h ea r i t h m e t i co fp a g ec o n t e n ta n dl i n kr e l e v a n c eb a s e do nt h i s c o n t e x t u a lt o p i cd e s c r i p t i o n ( 5 ) c r e a t e do n t o l o g y o ne d u c a t i o n a l t e c h n i q u eu s i n go n t o l o g y c o n s t r u c t i o n m e t h o da n dt h ep r o t 6 9 6t 0 0 1 ( 6 ) i m p l e m e n tt h et o p i cc r a w l e rb a s e do i le d u c a t i o n a lt e c h n i q u ed o m a i nu s i n gt h e b e t ja r 。 西南交通大学硕士研究生学位论文 第1 | i 页 w i t ht h ei m p r o v e m e n t so fc o n c e p t s e m a n t i cs i m i l a r i t ya n dc o n c e p t s e m a n t i c r e l e v a n c ei nt h ec o n c e p th i e r a r c h yt r e e ,o u rr e s u l t ss h o wt h a tt h ec o m p r e h e n s i v e m e t h o dc a nb e t t e rd i s t i n g u i s ht h er e l a t i o n s h i pb e t w e e nc o n c e p t s t h ep r o p o s e d m e t h o do fc o n t e x t u a lt o p i cd e s c r i p t i o nm e t h o db a s e do nd o m a i n o n t o l o g yc r e a t e d i no u rs t u d yc a ne f f e c t i v e l yg u i d e st h et o p i cc r a w l e ra n dr e f l e c t st h es e m a n t i c c r a w l e r t h ep r o p o s e da l g o r i t h m so fp a g ec o n t e n ta n dl i n kr e l e v a n c eb a s e do n d o m a i n o n t o l o g yc a ns i g n i f i c a n t l ye n h a n c ec r a w l i n ga c c u r a c yr a t i o k e yw o r d s :t o p i cc r a w l e r ;d o m a i no n t o l o g y ;t o p i cd e s c r i p t i o n ;s e m a n t i c s i m i l a r 西南交通大学 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向 国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权 西南交通大学可以将本论文的全部或部分内容编入有关数据库进行检索,可以采用影 印、缩印或扫描等复印手段保存和汇编本学位论文。 本学位论文属于 1 保密口,在 年解密后适用本授权书; 2 不保密d ,使用本授权书。 ( 请在以上方框内打、r ”) 学位论文储繇旃晚霞 日期:产6a 肛区 指导老师签名:字夕乙彳 日凝:珈t 。邑厶rl 园 西南交通大学硕士学位论文主要工作( 贡献) 声明 l 本人在学位论文中所做的主要工作或贡献如下: 第一,研究语义网、本体论相关知识,并对于本体论在搜索引擎、网络爬 虫的应用进行分析。就现有主题爬虫不能满足专业领域语义方面的需求,对基 于领域本体的主题爬虫进行研究。 第一,针对现有的特定领域主题描述的不足,根据本体层次树相关知识, 提出了基于领域本体的上下文主题描述。在上下文主题描述的基础上,改进了 本体层次树的概念语义相似度、相关度计算方法,并提出了相应的主题向量表 示方法。 第二,根据基于领域本体的上下文主题描述,提出了相应的网页内容相关 度、链接相关度计算方法。提高了网页内容的抽取,使该主题爬虫有效穿过“隧 道 到达主题团。 第三,针对教育技术领域相关概念、本体的构建方法进行学习研究,在 p r o t 6 9 64 0 2 版本构建了教育技术本体。 第四,利用本文的主题描述方法与相应的相关度计算方法,在开源的b o t j a r 包的基础上扩展了爬虫系统的功能,实现一个基于领域本体的主题爬虫系统, 利用该主题爬虫系统实现下载教育技术领域的网页。 本人郑重声明:所呈交的学位论文,是在导师指导下独立进行研究工作所 得的成果。除文中已经注明引用的内容外,本论文不包含任何其他个人或集体 已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体,均己在 文中作了明确说明。本人完全了解违反上述声明所引起的一切法律责任将由本 人承担。 学位论文作者签名:士b 建贸 日期:2 0 l 啤占i ,2 目 西南交通大学硕士研究生学位论文 第1 页 第1 章绪论 随着i n t e r n e t 上的网页爆炸性增长,w w w 已经发展成为包含多种信息资 源、站点遍布全球的巨大动态信息服务网络,为用户提供了一个极具价值的信 息源。据国外媒体报道,网站托管检测机构n e t c r a f t 的数据显示【l 】,截至于2 0 l0 年4 月,全球网站总量已达到2 0 5 3 7 亿个。互联网的快速发展,网页数量快速 增长,如何在浩瀚的互联网中找到用户需要的数据,成为当今互联网用户面临 的一大问题。全球最大网络调查公司c y b e r a t l a s 最近的一项调查表明:网站7 5 的访问量都来自于搜索引擎的推荐;另一家美国权威顾问公司i m ts t r a t e g i e s 最新调查“发现新网站的有效途径”结果表明搜索引擎占8 5 t2 1 。据2 0 0 9 年 中国搜索引擎用户行为研究报告调查数据显示,中国搜索引擎用户已达到 2 3 5 亿人,搜索引擎在全国网民中的使用率为6 9 4 ,比2 0 0 8 年底增长了1 4 个 百分点。所以事实证明搜索引擎技术正发挥着从互联网上找到用户需要的有效 信息的功能。搜索引擎的智能化、个性化发展、专业化已经显得尤为紧迫 3 】。 1 1 课题研究背景和意义 随着网络信息的急速增长,人们对搜索引擎的需求也快速增长。现在国内 外知名的搜索引擎公司比如g o o g l e 、b a i d u 、天网搜索等,能在一定的程度上 解决人们对信息检索的需求,但是目前现有的搜索引擎还是偏向于通用的搜索 引擎。通用搜索引擎就是用户可以通过它搜索到自己想要搜索的各领域、各方 面的信息,但是通用搜索引擎在查全率与查准率方面不尽人意。 现有搜索引擎技术主要基于关键词的全文匹配。通用搜索引擎一般工作流 程包括这几步:第一步,由爬虫程序采用一定的搜索策略将网页下载到网页数 据库;第二步,由分析程序对下载的网页分析建索引,存贮于索引数据库;第 三步,检索程序通过索引找到与用户查询请求相关的网页;第四步,通过用户 接口提供用户与搜索引擎交互界面。在这四个步骤中,网络爬虫程序是搜索引 擎的前提与核心模块。通用搜索引擎的爬虫爬行策略是采用广度搜索的原则, 即不考虑各网页的相关性与下载的优先级,而是尽可能得抓取更多的页面。这 也使索引库有较大地负担,而且保存着很多垃圾数据。同时,随着互联网更新 速度的加快,索引库里存在大量滞后与被淘汰的信息,而有些参考价值较高、 较重要的页面却没有被抓取、索引。 为了解决上面的问题,人们提出了一种能在互联网上针对于某个或某些特 定主题资源进行采集的网络蜘蛛,称为主题爬虫【4 】( t o p i cc r a w l e r ) ,主题爬虫 西南交通大学硕士研究生学位论文 第2 页 也叫主题网络蜘蛛。主题爬虫在爬行过程中,只抓取与给定主题相关的网页, 并对相关主题进行深入、集中地搜索,同时尽可能少地爬行与给定主题不相关 的页面。这种爬行策略能发现大量通用爬虫无法发现的页面,有效提高了查全 率与查准率,同时减少了在维护与存贮等方面的成本。 随着人工智能技术的发展,人们又提出智能搜索引擎。它是新一代的搜索 引擎技术,采用了基于自然语言的检索形式【5 】。语义网与本体论也是近年人工 智能领域研究的热点问题。本体具有良好的概念层次结构,作为一种人与机器、 机器与机器之间语义交流的渠道,并且支持逻辑推理。因而在信息检索,特别 是在基于知识的检索中得到了广泛的应用【3j 。对于w e b 搜索来说,通过本体的 定义,搜索程序可以进行基于语义的精确搜索而不是模糊的关键词匹配搜索。 可以使用本体把页面上的信息与某些知识结构和规则链接起来,搜索引擎就可 以进行语义级别的w e b 分析和信息抽取,从而提高系统的查全率与查准率。 社会的进步、人们知识水平的提高,人们已不满足于通用搜索引擎提供的 信息,而是对专业化、语义化的搜索需求更加迫切。本文就是研究基于领域本 体的垂直搜索引擎的主题爬虫,因为垂直搜索引擎已经确定了搜索的主题,主 题爬虫就有明确的主题目标,然后通过本体的语义表达,实现主题爬虫的语义 性,本文所确定的主题是教育技术。 1 2 主题网络爬虫国内外研究现状分析 9 0 年代初,互联网发展起来,紧接着19 9 3 年m a t t h e wg r a y 开发了世界上第 一个“网络爬虫 程序w o r l dw i d ew e bw a n d e r e r 。1 9 9 4 年y a h o o 成立,创建了 网页目录式的信息检索。随着互联网的发展,搜索引擎技术也迅速发展起来, 刚发展起来的搜索引擎是利用通用的网络爬虫。它主要是利用图论知识,把整 个网络看成一个连通图来处理,所用的遍历算法是广度优先或深度优先。互联 网的飞速发展,通用爬虫的采集速度、覆盖率、信息存贮、信息维护等瓶颈越 来越明显,所以已不能满足用户需求。在这背景下出现了垂直搜索引擎。 在垂直搜索引擎中,它的网络爬虫任务是通过给定的主题,抓取w e b 上主 题相关的页面,提取主题相关的链接,并决定链接的访问顺序,然后通过迭代 法尽可能多得抓取主题相关的页面与链接。 国外对主题爬虫的研究比较早,l9 9 4 年就出现最早的主题网络爬虫雏形 f i s h 系统( f i s hs e a r c h ) 7 1 ,它指出了主爬虫系统的一个主要研究方向,即如何使 用启发式策略来为u r l ( u n i f o r mr e s o u r c el o c a t o r ) 评分、预测u r l 的相关性 【6 1 。19 9 8 年出现了对f i s h 系统的改进s h a r k 搜索系统( s h a r ks e a r c h ) 【8 】。同 西南交通大学硕士研究生学位论文 第3 页 年s t a n f o r d 大学c h o 等提出了p a g e r a n k 算法【9 】,这个算法给搜索引擎领域带来新 的思路,并在后来的网络爬虫、主题爬虫中发挥了关键作用。在19 9 9 年,基于 分类器预测方法的主题搜索引擎模型【l0 1 由c h a k r a b a r t i 提出。它利用了通用搜索 引擎比如y a h o o 的分类层次目录里的子类节点包含的页面作为训练集,构造一 个分类器。 2 0 0 0 年,d l i g e n t i 等人提出了基于背景图( c o n t e x tg r a p h ) 的搜索策略】,这 个搜索策略是基于相同主题的页面具有相似的链接结构。它是通过页面的链接 关系构建c o n t e x tg r a p h ,最后通过新页面在c o n t e x tg r a p h 中的层次来判断这个页 面与主题的相关度。2 0 0 6 年h s u 等人在背景图的基础上又提出了相似背景图 【i 2 】 o 2 0 0 1 年m e n c z e 通过三种方法分别对几个搜索策略【l3 】在主题爬虫中进行评 估,这些搜索策略分别是:b e s t f i r s t ( 通过要抓取的u r l 所在的网页与主题的 相似度来进行优先级访问) 、p a g e r a n k 、i n f o s p i d e r s ( 利用查询向量与神经网 络的思想确定u r l 访问优先级) 。通过实验发现b e s t f i r s t 在性能方面是最优的, 而且在三个方法中都能够把搜索范围限定在主题周围。p a g e r a n k 最差,它在搜 索特定主题时,不能锁定在主题周围。c h a k r a b a r t i 等人将页面相关性判断和页 面重要性评价分开 14 1 ,并取得了很好的效果。这也为后面研究主题相关度提供 了借荐。 随着本体论应用于信息检索领域,e h r i g 在2 0 0 3 年发表了论文 15 ,将本体 的思想应用于主题爬虫中,提出了一个基于本体的算法来计算u r l 优先级,同 时在对抓取下来的页面进行预处理后,从网页中抽出本体中出现的词,最后利 用本体图计算网页主题相关度,与t c u r l s 优先级。c h a n gs u 等人在文献 16 中,提出了本体学习方法,通过学习来修正本体的概念权重,进而修正网页主 题相关度。陈竹敏在2 0 0 9 年发表的博士论文 17 中提出基于分类法的上下文主 题描述,并通过改进网页分块,提出了基于多粒度的u r l s 优先级计算与适应 主题爬行算法。 1 3 论文内容安排 本文由分析本体在信息检索领域的应用入手,并研究通用搜索引擎与垂直 搜索引擎、通用网络爬虫与主题爬虫的区别,利用现有的研究的成果,提出了 基于领域本体的主题上下文主题描述,将改进本体层次树内概念之间的语义相 似度与相关度的计算方法,综合两种方法计算上下文主题集合的向量。利用基 于本文的主题描述方法,向量空间模型( v s m ,v e c t o rs p a c em o d e l ) 【18 1 ,提 西南交通大学硕士研究生学位论文 第4 页 出了一种基于领域本体的网页、链接相关度算法,并在基于领域本体的主题爬 虫中实现。 本文的主要研究内容和组织结构安排如下: 第一章介绍本课题的研究背景与意义,搜索引擎、主题爬虫、本体的 国内外研究现状。 第二章介绍语义网、本体论相关概念与基础知识,本体的构建原则及 领域本体的构建方法,简要介绍网络爬虫与主题爬虫的模型区别,介绍页面主 题相关性的算法。 第三章分析利用领域本体进行主题爬虫设计的好处,对基于领域本体 的主题爬虫进行总体设计,给出主题爬虫的性能指标,并对相关模块功能进行 介绍。 第四章提出了基于领域本体的上下文主题描述、基于领域本体的网页 相关度、链接相关度算法,改进了本体层次树的概念相似度、相关度计算方法, 给出上下文主题描述集合的向量计算方法。 第五章根据领域本体的构建方法,构建了教育技术本体;根据第三章的 总体设计,本文的主题描述方法及相关度方法,利用开源包b o t j a r 具体实现 基于领域本体的主题爬虫,并对系统进行实验,给出相关的实验结果,评价本 系统的优缺点。 第六章对本文工作的总结与展望。 西南交通大学硕士研究生学位论文 第5 页 2 1 语义网 第2 章相关理论知识 现在i n t e r n e t 的飞速发展,使它的缺陷逐渐暴露了出来,如信息量急剧增 加,造成了严重的信息超载,网页功能单调,搜索引擎智能化程度低等。这是 因为大部分w e b 上的内容是设计给人阅读的,而不是让计算机程序按其意义 进行操作的。计算机能熟练地解析网页的版面,知道哪里是标题,哪里有与其 他页面的链接。但是,它分辨不出个人主页和天气预报的区别,因为没有可靠 的方法来处理其中的语义,没有办法智能地理解网页内容和相关操作。如何让 计算机理解这些用自然语言表达的信息呢? t i m 在1 9 9 9 年说过“如果说h t m l 和w e b 将整个在线文档变成了一本巨大的书,那么r d f 、s c h e m a 、i n f e r e n c e l a n g u a g e s 将会使世界上所有的数据变成一个巨大的数据库。”语义w e b 就是想 弥补这方面的不足,为网页扩展了计算机可处理的语义信息。 2 1 1 语义网的概念 语义w e b 并没有严格的定义,t i mb e r n e r s l e e 对语义w e b 做了这样的描 述:语义万维网并不是一个独立的万维网,而是对当前万维网的扩展。语义网 使得网络中的所有信息都具有语义,并能够被计算机理解和处理,使得人与计 算机之间能交互合作。因此语义网研究的侧重点就是如何把信息表示为计算机 能够理解和处理的形式,即带有语义。 2 1 2 语义网体系结构 语义网的知识表示具有分布性,同时又具有应用上的通用性,语义网需要 一个统一的框架满足分布性、安全性以及互操作性。t i mb e r n e r s l e e 于是又在 2 0 0 0 年提出了语义w e b 的体系结构【l9 1 ,如图2 1 所示。 在其体系结构中,第一层是u n i c o d e 和u r i ,它是整个语义w e b 的基础, u n i c o d e ( 统一编码) 处理资源的编码,u r i ( 统一资源定位器) 负责标识资源; 第二层是x m l + n s ( n a m es p a c e ) + x m ls c h e m a ,用于表示数据的内容和 结构;x m l ( e x t e n s i b l em a r k u pl a n g u a g e ) 是一种可扩展标记语言,允许用户自 定义标签对发布的内容进行标记,并在文档中加入任意的结构。因为定义的任 意性,x m l 交换的双方需运用文档类型定义( d t d ) 或x m ls c h e m a 来约束标签 的结构,保证使用上的一致性。为了避免标签同名冲突,w 3 c 采用了n a m e s p a c e 机制。 西南交通大学硕士研究生学位论文 第6 页 圉 图2 1 语义w e b 的体系结构【l 9 】 第三层是r d f + r d fs c h e m a ( 资源描述层) ,用于描述资源及其类型;r d f ( r e s o u r c ed e s c r i p t i o nf r a m e w o r k ,资源描述框架) ,是w 3 c 推荐的用来描述 w w w 上的信息资源及其之间关系的语言规范。r d f 的基本结构是资源 ( r e s o u r c e ) 属性( p r o p e r t y ) 值( s t a t e m e n t ) 三元组,也就相当于句子中的 主语、动词和宾语。这些三元组可以用x m l 语法来表示。r d fs c h e m a ( r d f s ) 是r d f 定义的一套用来描述资源类型及属性的词汇集,它增强了r d f 的资源 描述能力,是对r d f 的补充。 第四层是本体层,用于描述各种资源之间的联系;在语义范畴内,本体是 关于领域知识的概念化、形式化的明确规范。本体层在整个语义网体系结构中 起关键的作用。本文下面将重点介绍本体层。 第五层到第七层是逻辑层( l o g i c ) 、证明层( p r o o f ) 和信任层( t r u s t ) , 在语义网体系结构中,本体层以上的各层统称为规则层。在下面四层的基础上 进行逻辑推理和信息验证操作,构建可以信任的应用。 用这种结构描述由机器处理的大量数据,是非常自然的方法。r d f 模式是 一个描述r d f 资源的属性( p r o p e r t y ) 和类( c l a s s ) 的词汇表,提供了关于这 些属性和类的层次结构的语义。 2 2 本体( o n t o l o g y ) 2 2 1 本体的定义 本体( o n t o l o g y ) 最初被使用在哲学概念中,是关于存在及存在的性质等 的研究。在计算机界,明确本体的定义经历了一个过程,具体见表2 1 。 西南交通大学硕士研究生学位论文第7 页 1 9 9 1n e c h e s 19 9 3 19 9 5 g r u b e r n g u a r i n o 19 9 6m i c h a e lu s c h o l d 19 9 6 19 9 7 19 9 8 19 9 9 2 0 0 0 s w a r t o u t w n b o r s t s t u d e r w i l l i a ma n d a u s t i n f e n s e l 本体是给出构成相关领域词汇的基本术语和 关系,以及利用这些术语和关系构成的规定这些 词汇外延的规则【2 0 】 本体是一套得到大多数人认同的、关于概念 体系的明确的、形式化的规范说明【2 l 】 本体是概念化的、明确的、部分的说明或一 种逻辑语言的模型【2 2 】 本体是一套术语词表以及术语含义的规范说 明 2 3 1 本体是为描述某个领域而按继承关系组织起 来作为一个知识库的骨架的一系列术语【2 4 】 本体是共享概念模型的形式化规范说明【2 5 】 本体是共享概念模型的明确的形式化的规范 说明【2 6 】 本体是用于描述或表达某一领域知识的一组 概念或术语,可用以组织知识库较高层次的知识 抽象,也可用来描述特定领域的知识【2 7 】 本体是对一个特定领域中重要概念的共享的 形式化的描述口 在计算机科学和信息科学领域,本体用来指代一个特定领域的概念以及它 们之间关系的数据模型,它用于对该领域的对象进行推理。除了语义网之外, 本体目前被广泛运用在人工智能( a r t i f i c i a li n t e l l i g e n c e ) 、软件工程( s o f t w a r e e n g i n e e r i n g ) 、生物信息( b i o m e d i c a li n f o r m a t i o n ) 等领域来进建模,本体可 以描述领域中各种各样的个体对象( i n d i v i d u a l ) 、类型( c l a s s ) 、个体之间的各 种关系( r e l a t i o n ) 、个体的各种属性( a t t r i b u t e ) 等。 2 2 2 本体的构成 本体的体系结构应该包括3 个要素:核心元素集、元素间的交互作用以及 这些元素到规范语义间的映射关系。i s o7 0 4 标准和o k b c 模型是现有的有关 本体体系结构的规定。i s o7 0 4 认为本体的体系结构应含概念、定义和术语3 部分。i s o7 0 4 建议,一个概念应该用一个自然语言的术语得到理想的表达。 对于本体的具体构造过程,可以用公式( 2 1 ) 2 9 】形象地表示: 本体= 概念( c o n c e p t ) 十属性( p r o p e r t y ) + 公理( a x i o m ) + 取值( v a l u e ) + 名义( n o m i n a l ) ( 2 1 ) p e r e z 等人用分类法组织了o n t o l o g y ,并归纳出本体的五个基本构成元素 ( 建模元语) ,即:类( c l a s s e s ) 或概念( c o n c e p t s ) ;关系( r e l a t i o n s ) ; 西南交通大学硕士研究生学位论文 第8 页 函数( f u n c t i o n s ) ;公理( a x i o m s ) ;实例( i n s t a n c e s ) 。 从语义上讲,基本的关系共有4 种,如表2 2 所示。 表2 2 基本的关系种类3 8 1 关系名关系描述 p a r t o f k i n d o f i n s t a n c e o f 表达概念之间部分与整体的关系。 表达概念之间的继承关系,类似于面向对象中的父类与子 类之间的关系。给出两个概念c 和d ,记c7 = f xx 是c 的 实例) ,d = xx 是d 的实例) ,如果对任意的x 属于d7 , x 都属干c7 ,则称c 为d 的父概念,d 为c 的子概念 表达概念的实例与概念之间的关系,类似于面向对象中的 对象和类之间的关系。 a t t r i b u t e - o f 表达某个概念是另一个概念的属性。如概念“颜色”是概 念“玫瑰花”的一个属性。 在实际建模过程中,不一定要严格地按照上述5 类基本建模元语来创建 o n t o l o g y ,概念之间的关系不限于上面列出的4 种基本关系,可以根据领域的 具体情况定义相应的关系,以满足应用的需要,案例如图2 2 所示。 2 2 3 本体的分类法 图2 - 2 本体例子 随着互联网与本体的发展,本体被应用于计算机领域,使得本体的研究更 加广泛,尤其是在国外,许多研究机构、组织都研究建立了各种各样的本体。 针对目前出现的各种各样的本体,也出现了不同的分类方法,其中以按照本体 的主题、本体研究的层次、本体的形式化程度等这三种方法分类最为流行。 1 、按照本体的研究主题的不同,分为如下五种类型: 知识表示本体:研究重点是语言对知识的表达能力。典型的是知识交换格 西南交通大学硕士研究生学位论文第9 页 式k i f ( k n o w l e d g ei n t e r c h a n g ef o r m a t ) 的知识描述语言,它是由斯坦福大学 知识系统实验室提出的。 通用或常识本体:关注于常识知识的使用。主要研究著名的c y c 工程、 s u m o 等。 领域本体:在一个特定的领域中可重用,它们提供该领域特定的概念定义 和概念之间的关系,提供该领域中发生的活动以及该领域的主要理论和基本原 理等。 语言学本体:是关于语言、词汇等的本体。典型的实例有普林斯顿大学研 制的w o r d n e t 、g u m ( g e n e r a l i z e du p p e rm o d e l ) 和f r a m e n e t 等。 任务本体:主要研究可共享的问题求解方法,这里的推理方法与领域无关, 而且主要涉及动态知识,而不是静态知识。 2 、根据本体研究层次不同,分为以下4 类: 顶层本体:主要研究非常通用的概念。 领域本体:研究与一个特定领域相关的术语或词汇,如医学、企业模拟等。 任务本体:定义通用任务或推理活动,如诊断等。任务本体和领域本体处 于同一个研究和开发层次,都可以应用顶层本体中的词汇来描述自己的词汇。 应用本体:描述特定的应用,它既可以应用特定领域本体中的概念,也可 以引用出现在任务本体中的概念。 另外,根据本体形式化程度可以把本体分为完全非形式化、结构非形式化、 半形式化、形式化这4 种类型。 2 2 4 本体描述语言 本体描述语言主要是为领域模型编写清晰的、形式化的概念描述。目前已 经开发了六种本体语言,有直接基于x m l 语言的语法,如s h o e ( s i m p l eh t m l o n t o l o g ye x t e n s i o n ) 、o m l ( o n t o l o g ym a r k u pl a n g u a g e ) 、x o l ( x m l b a s e o n t o l o g y e x c h a n g el a n g u a g e ) ;也有建立于r d f ( s ) 之上的两种本体描述语言, 本体交互语言( o n t o l o g yi n t e r c h a n g el a n g u a g e ,o i l ) 和d a m l + o i l ( d a r p a a g e n tm a r k u pl a n g u a g ew i t ho n t o l o g yi n f e r e n c el a y e r ) 1 2 9 】:后来w 3c 又开发了 w e b 本体语言( w e bo n t o l o g yl a n g u a g e ,o w l ) ,它是以o i l 和d a m l + o i l 为起点的。如图2 3 是本体描述语言的层次化关系图。本文就对常用的本体描 述语言r d f ( s ) 与o w l 介绍一下。 西南交通大学硕士研究生学位论文 第1 0 页 o i ld a m l + o i l l ,一i s h o e | 10 m l x o l r d f ( s ) 图2 3 本体描述语言的层次化关系 ( 1 ) r d f ( 资源描述框架,r e s o u r c ed e s c r i p t i o nf r a m e w o r k ) t 3 1 】 r d f s ( r d fs c h e m a ) 是w 3 c 在x m l 的基础上推荐的一种标准,用于表示 任何的资源信息。r d f 提出了一个简单的模型用来表示任意类型的数据。r d f 这个数据采用三组来描述资源,每个三元组由资源、属性和陈述组成。在数据 模型图中,类型由节点和节点之间带有标记的连接弧组成。节点用来表示w e b 上的资源,弧用来表示这些资源的属性。因此,这个数据模型可以方便的描述 对象( 或者资源) 以及它们之间的关系r d fs c h e m a 为r d f 资源的属性和类型提 供定义良好的词汇表,w 3 c 推荐以r d f r d f s 标准来解决x m l 的语义局限。 ( 2 )o w l ( w e b 本体语言,w e bo n t o l o g yl a n g u a g e ) 3 1 】是w 3 c 推荐的本体 描述语言的标准,它是为了在w w w 上发布和共享本体而提供的语义标记语 言。o w l 提供大量的基于描述逻辑的语义原语来描述和构建各种本体,例如 类型之间的不相交性( d i s j o i n t n e s s ) ,基数( c a r d i n a l i t y ) ,等价性,属性特征( 如对 称性s y m m e t r y ) ,以及枚举类型( e n u m e r a t e dc l a s s e s ) 等。o w l 相对x m l 、r d f 和r d fs c h e m a 拥有更多的机制来表达语义,从而o w l 超越了x m l 、r d f 和r d fs c h e m a 仅仅能够表达网上机器可读的文档内容的能力。 o w l 提供了三种表达能力递增的子语言,以分别用于特定的实现者和用 户团体。o w ll i t e 用于提供给那些只需要一个分类层次和简单约束的用户; o w ld l 用于支持那些需要最强表达能力而需要保持计算完备性 ( c o m p u t a t i o n a lc o m p l e t e n e s s ,即所有的结论都能够确保被计算出来) 和可判 定性( d e c i d a b i l i t y ,即所有的计算都能在有限的时间内完成) ;o w lf u l l 支持 那些需要尽管没有可计算性保证,但有最强的表达能力和完全自由的r d f 语 法的用户。 2 3 本体的构建 2 3 1 本体构建的原则 目前已有的本体很多,出于对各类问题和具体工程的考虑,构造本体的过 西南交通大学硕士研究生学位论文 第11 页 程也各不相同。由于没有一个标准的构造方法,所以现在构建本体的方法是当 前本体研究中的一大热点问题。在构建本体的标准上也出现了各类标准,其中 最有影响的,被大家所公认的是g r u b e r 于l9 9 5 年提出的5 条准则【36 1 ,即: 清晰( c l a r i t y ) :本体必须有效地说明所定义术语的意思。定义应该是客观 的,与背景独立的。当定义可以用逻辑公理表达时,它应该是形式化的。定义 应该尽可能的完整。所有定义应该用自然语言加以说明。 一致( c o h e r e n c e ) :本体应该是一致的,它应该支持与其定义相一致的推理。 它所定义的公理以及用自然语言进行说明的文档都应该具有一致性。 可扩展性( e x t e n d i b i l i t y ) :本体应该为可预料到的任务提供概念基础。它应 该可以支持在已有的概念基础上定义新的术语,以满足特殊的需求,而无须修 改己有的概念定义。 最小编码( m i n i m a le n c o d i n gb i a s ) :概念的描述不应该依赖于某一种特殊的 符号层的表示方法。因为实际的系统可能采用不同的知识表示方法。 本体约定最小( m i n i m a lo n t o l o g i c a lc o m m i t m e n t ) :本体约定只要能够满足 特定的知识共享需求即可。这可以通过定义约束最弱的公理以及

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论