(计算机应用技术专业论文)基于本体的智能信息检索系统的研究.pdf_第1页
(计算机应用技术专业论文)基于本体的智能信息检索系统的研究.pdf_第2页
(计算机应用技术专业论文)基于本体的智能信息检索系统的研究.pdf_第3页
(计算机应用技术专业论文)基于本体的智能信息检索系统的研究.pdf_第4页
(计算机应用技术专业论文)基于本体的智能信息检索系统的研究.pdf_第5页
已阅读5页,还剩57页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中国农业大学硕士掌位论文 摘要 摘要 采州h t m l 表达的网络已经成为世界上最大的信息资源库。如何获取网络中对f 有州的 信息成为信息检索研究的重点。搜索引擎的使用大大简化了用户商找信息的过科。但是,伴 随着网络信息数据鼙急剧增加信息的类犁也越来越多元化,而传统的搜索引擎单纯依靠“关 键词”进行信息筛选的方式,已经不能满足用户的需要。而本体作为领域内不同主体之间进行 信息交流的语义基础,有助丁j 解决知识描述的语义问题。 在这种情况r ,本文提出了一个基于本体的智能信息检索系统,并给出了它的结构体系和 1 i 作流稀。系统的丁作分成信息获取及整理、信息查询两个t 作过程。在获取并糕理信息的过 程中,通过本体提供的知识信息,将获取的网页进行分类和排序,形成一种有序的知识结构体 系。在查询过程中,依靠本体支持的推理体系和用户的注册信息,实现对用户检索过程的导航, 并按照用户的背景知识对排序进行修正,使得检索结果尽可能符台用户的检索目的。 在系统结构的基础上,设计了一个系统原型l c o s l ,并实现了部分关键模块。在信息采集 模块中,针对u r l 性能瓶颁问题,提出了一个有限步长的搜索算法并进行了实验分忻。在本体 支持模块,研究了本体的设计和重用,并构建了一个描述中国农业大学部门的本体,同时讨论 了本体殴计的方法;在语义注释器部分,讨论了针对h t m l 的语义注释器的实现途径:在文档 摊序及归类部分,讨论了如何对网页进行归类整理,如何捧序网页韵l 本体文档:在推理机引擎 部分,分析了当前推理机引擎的现状,研究了用于检验可满足性问题的t a b l e a u 算法,并讨论 币“实现了一个适合丁本系统的推理机引擎。在w e bs e r v i c e 模块中,讨论并设计了系统的用户 界面及预处理过程。 实践表明,该系统具有良好的可应用性和可扩展性,且提高了信息检索的准确率。 关键词:智能信息检索,本体有限步长搜索。推理机 l c o s :l i a o s h a o b o sc a u ( c h m aa g r i c u l t u r a lu n i v e r s i t y ) o n t o l o g ys e a r c h 的向与 l 中国农业大学硕士学位论文 a b s t r a c t a b s t r a c t t h ew e be x p r e s s e dw i t ht h eh t m lh a sb e c o m et h el a r g e s tr e f o r m a t i o nr e s o u r c ei nt h ew o r l d h o wt og e tu s e f u li n f o r m a t i o nf o rt h eu s e r so nt h ew e b h a sb e c o m et h ee m p h a s e si nt h ei n f o r m a t i o n r e t r i e v a lr e s e a r c h t h ep r o c e s so ff i n d i n gt h ei n f o r m a t i o nh a sb e e ns i m p l i f i e dw i t ht h eu s eo fs e a r c h e n g i n e b u ta sa m o u n to ft h ew e b d a t ah a sb e e ni n c r e a s i n gg r e a t l y , t h et y p e so fi n f o r m a t i o nb e c o m e m o r ea n dm o r em u l t i p l e x u s e r s n e e dc a n tb ef u l f i l l e db yt h et r a d i t i o n a lw a y , s e a r c he n g i n e sg e t t i n g i n f o r m a t i o nb y “k e yw o r d s p u r e l y t h eo n t o l o g yc a nb es e e na st h es e m a n t i cb a s ef o rd i f f e r e n t i n d i v i d u a l si nd o m a i nt oe x c h a n g et h ei n f o r m a t i o n ,s o l v e st h es e m a n t i cp r o b l e mf o rt h ek n o w l e d g e d e s c r i p t i o n u n d e rt h ec i r c u m s t a n c e s a no n t o l o g y b a s e di n t e l l i g e n ti n f o r m a t i o nr e t r i e v a ls y s t e mh a sb e e np u t f o r w a r di nt h i st h e s i s ,w i t hi t ss t r u c t u r es y s t e ma n dw o r kf l o w t h er u n n i n go fs y s t e mc o n s i s t so ft w o p a r t s t h ei n f o r m a t i o nc o l l e c t i o na n dt o m ,t h ei n f o r m a t i o nr e t r i e v a l i nt h ep r o c e s so fi n f o r m a t i o n c o l l e c t i o na n dt r i m ,i tc l a s s i f i e se n dr a n k st h eo b t a i n e dw e bb yt h ek n o w l e d e ei n f o r m a t i o nw h i c ht h e o n t o l o g yp r o v i d e d ,t h e nf o r m sa no r d e r e dk n o w l e d g es l r u c t u r es y s t e m i nr e t r i e v a lp r o c e s s ,d e p e n d i n g o nt h er e a s o ns y s t e mw h i c ho n t o l o g ys u p p o r t sa n dt h eu s e r s r e g i s t e ri n f o r m a t i o n ,i tn a v i g a t e st h e p r o c e s so fu s e r s r e t r i e v a la n dm o d i f i e st h er a n k i n ga c c o r d i n gt ot h eu s e r sb a c k g r o u n dk n o w l e d g e , a i m st ok e e pt h er e t r i e v a lr e s u l t si na c c o r dw i t ht h eu s e r s r e t r i e v a la i mm o s tp r o b a b l y o nt h eb a s i so f t h es y s t e m ss t r u c t u r e ,w ea l s od e s i g nap r o t o t y p en a m e dl c o sa n dr e a l i z es o m e k e ym o d u l e s i ni n f o r m a t i o nc o l l e c t i o nm o d u l e ,af i n i t e - l e n g t hs e a r c ha r i t h m e t i cw h i c ha i m sa tt h e u p & p e r f o r m a n c eb o t t l e n e c kh a sb e e na d v a n c e da n da l l ,e x p e r i m e n ta n a l y s eh a sb e e ng i v e n i n o n t o l o g ys u p p o r t e dm o d u l e ,t h eo n t o l o g yd e s i g na n dr e o s eh a sb e e ns t u d i e df i r s t ,a l lo n t o l o g yw h i c h d e s c r i b e st h ec h i n aa g n c u l t u r a lu n i v e r s i t yd e p a r t m e n ta l s oh a sb e e nd e s i g n e de n dt h em e t h o do f o n t o l o g yd e s i g na l s oh a sb e e nd i s c u s s e d i ns e m a n t i ce n n o t a t i o np a r t ,t h ew a yw h i c ha i m sa tt h e h t m lh a sb e e nd i s c u s s e d h ar e a s o n e rp a r t ,t h ea c t u a l i t yh a sb e e na n a l y z e de n dt a b l e a ua r i t h m e t i c f o rc h e c k i n gs a t i s f yh a sb e e ns t u d i e de n dar e a s o n l l hf i t si nw i t ht h i ss y s t e mh a sb e e nr e a l i z e d i nw e b s e r v i c em o d u l e ,t h es y s t e mi n t e r f a c ee n dp r e t r e a t m e n th a sb e e nr e a l i z e da n dd i s c u s s e d t h er e s u l t ss u g g e s tt h a tl c o sh a sa9 0 0 da p p l i c a b i l i t ya n de x p a n s i b i l i t ye n de n h a n c e st h e c o r r e c t i n gr a t eo f i n f o r m a t i o nr e t r i e v a l k e y w o r d s :i n t e l l i g e n ti n f o r m a t i o nr e t r i e v a l ,o n t o l o g y , f i n i t e l e n g t hs e a r c h ,r e a s o n e r 独创性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成 果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发 表或撰写过的研究成果,也不包含为获得中国农业大学或其它教育机构的学位或证书 而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均己在论文中作了明 确的说明并表示了谢意。 研究生签名:谤r 矿披 时i 日j : 枷占年乒月加 关于论文使用授权的说明 本人完全了解中国农业大学有关保留、使用学位论文的规定,即:学校有权保留 送交论文的复印件和磁盘,允许论文被查阅和借阅,可以采用影印、缩印或扫描等复 制手段保存、汇编学位论文。同意中国农业大学可以用不同方式在不同媒体上发表、 传播学位论文的全部或部分内容。 ( 保密的学位论文在解密后应遵守此协议) 研究生签名:。酶方昶乙 刷憷辄锄 时间:扩占年易月阳 时间:却略年扩月f i ,f 1 中国农业大学硕士学位论文 第一章信忠检索概述 第一章信息检索概述 1 、1信息检索研究背景 白2 0 世纪6 0 年代以来,数据库平信息技术已经系统地从原始的文件处理演化剑复杂的、 功能强火的数据库系统。同时。由丁- 计算机硬件的快速进步导致了功能强人的计算机、数据收 集设备和存储介质的大量供应,特别是冈特网技术迅猛发展,网页的极人丰富雨1 网站的将遍应 用,网络数据量急剧膨胀,因特嗣已经成为世界上最大的信息资螈宝库。然而,住互联网上信 息鞋在不断增加、信息的种类也在不断增加的背景下,人们获取有效信息的需求却变得越来越 喇难有效信息往往铍一些不相关的信息所潭没。网此再也不可能采用以前逐个浏览网页的 方式来壹找信息。这一结果直接导致了搜索引擎的产生。 现代搜索引擎的思路源于w a n d e r e r ,它是世界上第一个利用h t m l 网页之间的链接关系来 监测w e b 发展规模的“机器人”程序。在这之后不断有更新、更强的搜索引擎系统推出,如 l y c o s 、o o o g l e 、b a i d u 等。与此同时,斯坦福大学的两名博十生共同创办的出现了y a h o o ! f j 户 网站,成功地使网络信息搜索的概念深入人心这是一种“基丁- 目录的信息服务”方式的搜索 引擎。从技术上讲这样的门户中提供的技术服务与前述搜索引擎是很不同的。这样的fj 户依 赖的是人上整理的网站分类目录,一方面,用户可以直接沿着目录导航,定位到他所关心的信 息:另一方面,用户也可以提交杏淘,止系统将他直接引导剑嗣i 该杏询词最匹配的网站。杠一 定场合下,我们可以将搜索引擎划分为“自动搜索引擎”和“目录援索引擎”。一般来讲,前面 的信息搜索会更全面些。后者则会准确些【i 】。 可以说,搜索引擎的出现,使得人类可以更好、更便捷地使圳w e b 上的海量信息,极人地 方便了人们的生活。但是,目前的搜索引擎采用的都是基丁关键字匹配的全文检索技术布 自j 返同的信息龉很大,可是有用的信息却很少,往往是检索不全、答1 f 所问口j ,主要有以r 儿个 力面的原因: ( 1 ) 计算机无法“理解”其所存储的网页信息。当前的网络采用的主要是h t m l 语高, 它有一个主要的弱点:它是一种不注重文档结构和内容的格式语言。它所表_ i 占的页面信息平组 纵方式主要是面向用户直接阅读,没有将信息的表现形式内在结构和表达内容相分离,闲 而l r 常不利丁计算机“阅读”和处理。 ( 2 ) 计算机无法准确“把握”用户查询语句中所包含的概念的语义。由于人类文化及语占 的莘异,同一种事物可能有多种不同的表达方式,同一种表达方式在不同的人看来可能具有不 同的含义,这就导致人们可能对某一概念产生不同的理解,或者是多个概念表达了同一个意思 这不利丁人和机器2 问进行交流。冈此需要我们构建一套相_ ) 乏领域的标准概念,并指出与标准 概念相关的概念以及它“j 之间的关系,从而将关键词的匹配转换成内容的匹配。 ( 3 ) 鸯海不够智能化;由r 搜索g 擎缺乏概念及概念之间关系的描述,因此对丁川户捡豢 的关键词,无法提供自动分类导航的功能,仅仅是进行关键浏的匹配。同时,也无法支持d 户 天键词的推理检索技术。 ( 4 ) 系统缺乏朋户信息记录。_ f j 户信息对于搜索引擎仃很人的指导作i 【f j ,比如h j 户的背景 f ,i 息可能提供7 用户冉勺爱好记录可以帮助搜索引擎缩小商找的范围,从而提高准确率;h 户 中国农业大学硕士学位论文 第一章信息检索概述 的历史信息使得用户每次检索可以不必部从头开始,而仅从原有的检索结果中作进一步的提烁, 从而缩短响应时间,提高检索的效率。 妇何克服搜索引擎的上述缺陷,从而改善检索质量、推出令人满意的网络信息检索f :l 是 信息检索的研究重点。语义网是一个为适应时代发展的产物。9 0 年代中媚,一种新的标记语言 x m l 韵出现,使得数据的内容和布局得以区分,从而为表达语义更丰富、更臼然的网上内 容打开了新的局面。1 9 9 8 年,w e b 创始人t i mb e m e r s l e e 首次提出了“语义w e b ”的概念及 其技术路线3 j 2 0 0 0 年1 2 月x m l2 0 0 0 会议上,t i mb e m e r s l e e 公开提出了r 代丽特网的 概念语义i n ( s e m a n t i c w e b ) ,并r2 0 0 1 年在s c i e n t i f i c a m e r i c a n ) 杂志上发表了名为( ( t h e s e m a n t i cw 曲的文章,为语义网的应削描绘了美妙的蓝图1 4 j 。语义阿的提出,为有效解决冈 特网上的语义表达和网络信息检索的智能化提供了新的技术思路。 作为语义网的研究核心之一,本体使得人们有可能从目前海鼋的网络信息中检索出有效信 息。本体可以看作是领域概念摸璋! 的显式表示,它们提供了描述数据语义的元信息,方便了知 识共享和重并 。同时。本体还可以提供人和计算机都能“理解”的语义信息,从而为人年计算 机之间的交流提供了更好的桥梁。在此基础上,人们有希望能找到一种用户可以和计算机可以 “沟通”的检索方式使得查询更加智能化,检索结果更能满足用户的要求,从而更好地利州 网络提供的信息为人类提供服务。 1 2 信息检索研究现状 目前信息检索技术可分为3 类:全文检索( t e x tr e t r i e v a l ) 、数据检索( d a t ar e t r i e v a l ) 希i 知识检 索( k n o w l e d g er e t r i e v a l ) 。全文检索的特点是把用户的奁询请求和全文中的每一个词进行比较,不 考虑查询请求与文件语义上的匹配,这种方式虽然可以保证有全率,但是态准率却大人地降低,。 数据检索的特点是查询要求和信息系统中的数据都遵循一定的格式,具有一定的结构允许对特 定的字段检索( 例如:作者;“王刚”1 。数据检索需要有标识字段的方法。数据检索的性能取决二 所使朋的标识字段的方法和用户对这种方法的理解因此具有很人的局限性。数据检索支持语义 匹配的能力也较差。知识检索强调的是基了知识的、语义上的匹配,冈此在查准率和奄全率f i 有 更好的保证。目前知识检索是信息检索研究的重点。特别是面向w e b 信息的知识检索。 常规的赢接基丁关键词的信息检索技术已不能满足用户在语义上和知识上的需求,寻找新的 方法也就成为目前研究的热点。o n t o l o g y 具有的良好的概念层次结构和对逻辑推理的支持,闪而 在信息检索,特另u 是在基于知识的检索中得到了广泛的应用1 2 5 1 1 ” 。由于o n t o l o g y 能通过概念之 问的芙系来表达概念语义的能力,所以能够提高检索的杏全率和查准率。 目前关于本体理论及其在智能信息检索中的应用方面硅方国家尤其是欧洲处于领先地化,比 较并名的本体项目有:( o n t o ) 2 a g e n t ( a no n t o l o g yb a s e dw w wb r o k e rt os e l e c to n t o l o g i e s ,基r 网络 理搜索本体的本体) 、o n t o b r o k e r ( o n t o l o g y b a s e da c c e s st od i s t r i b u t e da n ds e m is t r u c t u r e d i n f o r m a t i o n ,基于本体的分布式3 结构化信息获取) 和可升级知识合成( t h es c a l a b l ek n o w l e d g e c o m p o s i t i o np r o j e c t ,s k c ) 这3 个项目的研究各有侧重。( o n t o ) 2 a g e n t 的目的是帮助_ l | j 户检索网 r 已有的本体,主要采用了参照本体,利删它保存网上现有本体的元数据口”。而o n t o b r o k e rh 的 楚为州户检索到所需要的网页。o n t o b r o k e r 盛德国卡尔斯鲁厄人学庶腑信息学与形式描述方法学 2 中国农业大学硕士学位论文 第一章信息检索概述 i i 院( a i f b ) 的一个研究项目,该项目建立了一个用米处理h t m l 、x m l 和r d f 格式的信息源干信 息源语义描述的系统,其核心是形式化本体描述背景知识并明确网页的语义,以使综台利川 本体的表达能力和推理机制m 】。s k c 是斯坦福大学目前正在进行的一个项目,主要研究如何t i j 代数学方法爿合成不同领域的上体,解决信息系统语义异构的问题,实现异构的自治系统之间的 且操作。 其它在本体方面比较著名的项目还有:文献 5 】描述了一种获取本体的l :具s w o o g l e , 它通过收集g o o g l e 数据库及其它网站上的语义文本( 本体) 并通过对这些文本进行咎理及排 序以提供按照相关度排列的概念及实例查询。文献【6 介绍了一种麻用丁某一特定领域( 国际关 系领域) 的语义搜索引擎,它以能动态扩展( 组装) 的本体为核心,建立特定领域的语义模刑, 通过诰义标注信息及本体的推理能力来分析自然语言查询并能返回止确的答案准确率超过 6 0 。 国内对本体的研究多侧重于应刚研究。比如中科院计算所的武成岗等人提出的基丁本体论和 多主题的智能信息检索服务器【3 “,它集成了界面主体、预处理主体、管理主体、信息处理主体希l 具有移动性的信息搜集主体并利用o n t o l o g y 对文档进行领域分类,同时对用户的商询信息进行 规范。该系统能够比较及时地反映网络中信息的动态变化,并具有较好的信息导引能力。 本体止在逐渐成为智能信息检索系统的核心,但是要想像g o o g l e 、y a h o o ! 、b a i d u 等那样 实现商业化和人规模麻用尚有一段距离。不过,在本体的支持f ,利用本体对信息的描述检索 知识库,从而提高检索的效率和精确度,毫无疑问j e 在日盏成为智能信息检索系统研究的重中 之重。 1 ,3基于本体的信息检索研究内容、意义和本文结构 1 3 1基于本体的信息检索研究内容和意义 虽然以x m l 为基础的语义网是未来网络信息表达的一种趋势,但是目前的网络信息载体 采_ 【 的主要是h t m l 、d o c 以及p d f 等格式化的表达方式而且在很长一段时间内,采_ j 格 式化的方式表达的信息在网络信息表达中仍然起着相当重要的作用。因此,本文的研究1 作着 眼r 肖前网络信息资源,提出了一个基予本体的信息检索系统l c o s 。在设计过程中,力求将 系统的结构体系与信息实际表达方式相分开,以适应信息表达方式的变化。主要研究内容包括: 【1 ) 网络信息资源的采集与整理。肖前网络采用u r l 的方式进行链接,通过从某一个删 页集合出发,分析提取网页中的超链信息并访问就可以获取网页。如果将网络看成由网页为1 点、链接为边组成的图,网页的下载过群实际上就是一个图的遍历过程。传统的幽的遍历方法 t 要是深度优先遍历和广度优先遍历。这两种方法在应用过科中备有优缺点。综台这两种方法 的特点,给出了一种可控审4 步欧的遍历算法,井将这种算法戍_ j - 一个我# j 自主开发的网络爬 虫,取传统的遍历算法进行了分析用比较。 f 2 ) 本体设计与重崩。本体的l 计是一个十分繁琐而且复杂的过程。目前有许多支持本体 设汁的1 具,这里选用斯坦福人学开发的p r o t 6 9 6 设计了一个描述中国农业大学部fj 的本体 c a u o n t o ,浸计语言为o w ld l 。没计本体薄先要确定本体的目的及应用范甩,其难点是要确 3 中国农业大学硕士学位论文第一章信息检索概述 定本体中术语之间的关系。c a u o n t o 月予帮助检索用户迅速定何丁 其要奇找的部r j ,计描述出 部r j 的职能及部fj 之间的关系。由r 本体的设计较为繁琐,那么,重h j 网络中的其它本体就显 得尤其重要。本文对本体的获取及本体重要性的评价进行,简介。 ( 3 ) 语义注释器。语义注释器朋f 将实际的文档内容转换成语义应朋程序使州的语义内弈。 本文对语义注释器的作刚和实现方案进行了讨论,并综合其它语义注释器的实现过科给了 个实现结构图。 4 ) 推理枫g i 擎。推理机引擎是查询系统的核心。这里设计了一个针对o w l 的专剧的推 理机引擎。它采用t a b l e a u 算法来判断推理表达式的可满足性问题。在设计过程中,将本体文 档构造成以概念为顶点、属性为边的树,并结合预先定义的推理规则对用户表达式进行推理, 将推理的结果送给s q l 转换模块进行处理。 ( 5 ) 文档的闩类和排序。文档的归类有助于提高检索的精度,特别是有助丁解决多义词问 题。文档的排序分成两类:普通文档的排序和本体文档的排序。本文结合其它信息检索系统的 研究成果对这两类文档的排序进行了详细的讨论。 ( 6 ) w e b s e r v i c e 模块的设计。包括用户界面、注册登录、动态网页布局等。其 殳计要求 是尽可能简洁且符合并 户的使埘习惯。 针对以上研究内容l c o s 实现了其中一些模块,并为待实现的模块保留了接口。本体在 信息检索中的应用已经成为信息检索研究的一个热点,有望解决当前信息检索系统普遍存在的 一些问题。但是,其离大规模的应用尚有一段距离。本研究旨在推动本体在网络信息检索系统 中的麻h 。 1 3 2 本文结构安排 本文分为4 章: 第一章:阐述了本信息检索提出的背景、研究现状和意义。在当前基丁关键词的网络榆索 系统不能满足用户需求的情况下,语义检索成为一个突破点。本体具有描述数据语义的元信息, 方便了知识的共享和重用,同时本体描述语言提供了描述逻辑来支持推理判断。在此基础上, 通过对概念和概念之间关系的描述,本体提供了人和计算机都能“理解”的语义信息,从而实 现检索系统的智能化。 第- 二章:对本体理论进行了深入研究和分析。首先介圣f 了本体的概念及发展历程,在此基 础上,分析了已经被w 3 c 建议为国际标准的本体描述语言o w l 以及其理论基础描述逻辑, 重点以一个描述中国农业人学的本体为基础讨论了当前了o w l 构造符及其支持的逻辑推理削 断。 第二章:提出,f = 设计了基于本体的智能信息检索系统的原型,探讨了本体如何实现信息榆 豢的智能化,以及如储提高检索质鼙和性能的途径。该系统分成三个部分:信息采集模块、本 体支持模块、w e bs e r v i c e 模块,以本体支持模块为核心。信息采集模块将自动收集的中因农业 人学校尉网的部分数据作为原始数据痒。本体支持模块通过构建的本体对获取的网页文本进彳j : pl 类、排序;将w e bs e r v i c e 模块得到的关键词转换成相府的本体概念,推理机对本体概念进 行语义分析( 推理) ,将得剑的本体概念映射成归类后的刚页u r l 的集合,通过u r l 集合返川 4 中国农业大学硕士学位论文 第一章信息检索概述 商询结果。w e bs e r v i c e 接受用户布询语句井提取关键词送给本体支持模块处理,将夯询结果排 版后返同给埘户。在此基础上对系统进行了分析平评价。 第四章:对研究i :作进行了总结井指出了未来r 作的研究方向。 5 第二章本体及其描述语言与推理机制的研究 2 1本体概述 2 1 1 本体的哲学意义及起源 本体,义称为本体论。从西方哲学史来看3 i ,本体作为一fj 学问起源于对万物本原的追问。 本体这个词早在1 7 世纪就已诞生,其派生于希腊语的“o n t o ”( “存在”) 和“l o g i a ”( “箴言录”) , 是一个哲学术语。从哲学意义上看,本体关注的是“存在”,即世界在本质上有什么样的尔阳存 在,或者世界存在哪些类别的实体。所以哲学上的本体是对世界任何领域内的真实存在所做出的 客观描述而且这种描述不一定完全建立在已有的知识基础上,还包括“求真”的过样。汇如本 体的诞生与哲学早期的发展密切相关一样,在过去的数十年中,本体在计算机科学领域的发腰也 与人l 能和信息技术的起步和发展密不可分。 在人i :智能领域,经历t 2 0 世纪6 0 年代通刚问题求解方法研究的困境,学者们开始研究通 过专fj 领域的知识表达来支持自动推理。为了减少构建知识库的代价,避免每次都从头开始,越 来越有必要考虑知识的复用问题。通过复用系统开发者可以在已有知识基础上更加专注升 定 领域的知识掏建并且新系统可以利用所复用的知识与现存的其他系统进行交互。这样,描述性 的知识、问题解决方法以及推理服务都可在系统间实现共享,从而可以方便地构建出更人、更好 的知汉库。冈此,必须考虑在一个领域中哪些知识是可以复用的或共享的,以及怎样获取雨f 描述 一个领域中的一般性知识等问题。这首先需要对某个领域进行通用概念上的描述,阏此,必须同 答这样的问题:对丁某个领域,本质上有些什么样的对象、过程、属性和芙系? 什么是一项事务、 一个人以及一个组织? 它们之间的相互依赖关系如何? 这止是本体所研究的内容。 然而早; l l 的绝大多数人f :智能学者弗没有考虑到与之相重台的哲学概念中的本体,而直接 引入“本体”这个术语来表示他们在知识i :程中对领域世界的“存在”研究。这造成了人i :智能 和信息系统领域中对“本体”术语含义的误解,使其更倾向于逻辑理论,而与世界的“存在”离 得更远。这些学者认为,将“本体”看做是用来定义信息系统中的对象、属性、关系、事件平过 程的一种“逻辑理论”,似乎更适合人一 智能学科。然而,应该看到,信息系统上e 是因为缺乏对 系统外真实世界的理解和描述才造成了许多问题:如果本体不涉及信息系统外面的常识世界,而 只是系统内采用的一种逻辑理论,怎能使那些具有不同的概念模型但在实际语义上却相周的信息 系统协同i 。作? 冈此往信息科学领域,迫切需要对本体论的定义做进一步的辨析和规范,既要借鉴哲学本体 论思想的内涵义要考虑本体论在人丁智能年l | f 言息系统领域应用的具体特点。这项重要l :作土要 以t o mg r u b e r 和n i c o l ao u a r i n o 分刷在1 9 9 3 年神1 1 9 9 8 年的研究为代表,他们都以传统人i 智能 教材l o g i c a l f o u n d a t i o n so f a r t i f i c i a li n t e l l i g e n c e i i ”中所提的c o n c e p t u a l i z a t i o n 这一重要定义为基 础。 2 1 2 本体定义及建模元语 6 中国农业大学硕士学位论文第= 章本体及其描述语言与推理机制的研究 在人:智能界,最早给出o n t o l o g y 定义的是n e c h e s 等人,他 j 将o n t o l o g y 定义为“给出构成 相关领域词汇的基本术语和关系,以及利剧这些术语和关系构成的规定这些词t l ,l , 妊的规州的定 义州“】。n e c h e s 认为:“本体定义,组成主题领域的词汇表的基本术语及其关系,以及结合这些 术语和关系来定义词汇表外延的规! i ! i j 。” 1 9 9 3 年g r u b e r 给出y o n t o t o g y 的一个最为流行的定义【l ”,即“o n t o l o g y 是概念模刑的明 确的规范说明”。后来,b o r s t 在此基础上给出t o n t o l o g y 的另外一种定义9 】:“o n t o l o g y 足 共享概念模型的形式化规范说明”。s t u d e r g - 对上述两个定义进行了深入的研究,认为o n t o l o g y 是共享概念模型的明确的形式化规范说明。这包含4 层含义【”j :概念模型( c o n c e p t l l a l i z a t i o n ) 、明 确( e x p l i c i t ) 、形式化( f o r m a l ) 和共享( s h a m ) 。“概念模型”指通过抽象出客观世界中一些现豫 ( p h e 2 n o m e n o n ) 的相关概念而得到的模型。概念模型所表现的含义独立丁具体的环境状态。“明 确”指所使刑的概念及使用这些概念的约束都有盼确的定义。“形式化”$ 目o n t o l o g y 是汁锋机可 读的( 即能被计算机处理) 。“共享”指o n t o l o g y 中体现的是共同认可的知识,反映的是相关领域 中公认的概念集,l l o o n t o l o g y 针对的是团体而非个体的共识。o n t o l o g y 的目标足捕获相关领域 的知识,提供对该领域知识的共同理解,确定该领域内共同认可的词汇,并从不同层次的形式化 模式上给出这些词汇( 术语) 和词汇问相互关系的明确定义1 2 “。 1 9 9 8 年,n i c o l a g u a f i n o ”】试图说明本体论和概念化的区别,他把概念化定义为:c = ( d , w ,r ) 其中d 是一个领域,w 是该领域中相关的事务状态( s t a t eo f a f f a i r s ) 的集合,r 足领域空 间( d ,w ) 上概念关系( c o n c e p t u a lr e l a t i o n ) 的集合。而本体是采川某种语言对概念化的描述, 是个逻辑理论。因此本体是语言相关的,概念化则是语言无荧的。 p e r e z a g 等人进一步提出,本体包含矗个基本的建模元语,戏称为基本元素口w : ( 1 )类( 或概念) :是对事物的一种抽象,从语义上讲,也表示的是对象的集合。 ( 2 ) 实例:类中所包含的元素,也就是对象,在有些情况f 类也可以作为一种实例。 ( 3 ) 关系:描述领域中概念之间的交互作用,采用属性来表示二元关系,如子类荑系 ( r d f s :s u b c l a s s o f ) 。 ( 4 ) 函数:一类特殊的关系。改关系的前n 1 个元素可以唯一决定第n 个元素。形式化的 定义为映射f :c ix gx c 。一l 峥e 。如:函数m o t h e r 一矽( j ,) 表示y 是z 的母亲。 ( 5 ) 公理:代表永真断言,如概念的上f 位关系。 从1 面的讨论可以看出尽管本体的定义有很多不同的方式,但是从内涵上来看,不同研究者 对丁本体的认识是统一的,都把本体当作是领域( 可以是特定领域的,也可以是更广。的范嗣) 内 部不同主体( 人、机器、软件系统嚣) 之间进行交流( 对话、互操作、共享等) 的一种语义基础, 即由本体提供一种明确定义的共识。 进一步,本体提供的这种共识更主要的是为机器服务,机器井不能像人类一样理解白然语言 中表达的话义,目前的计算机也只能把文本看成字符串进行处理。闪此在计算机领域讨论本体, 就要讨论本体究竟是如何表达共识的? 也就是概念的形式化问题。这就涉及到本体的描述语言、 本体的垃计方法等具体研究内容。 2 1 3 本体与语义网 7 中国农业大学硕士学位论文第二章本体及其描述语言与推理机制的研究 住2 0 0 0 年的x m l 大会中,t i mb e m e r s l e e 止式提出了“语义网”( s e m a n t i cw e b ) 的概念,“ 号门阐述了“语义”和“w e b ”两个词的含义。“语义”是机器可处理,而怍自然语吉中的语义- 对i 数据,语义表达丁机器能对这些数据做什么,在“w e b ”背后是可导航的空间思想。州u r l ( 统一资源定 i :符) 映射到资源上1 2 4 1 。浯义网的目标是使网络上的信息具有计算机可以理解的皓 义,而本体是对现实世界的概念模型进行描述的逻辑公理。从这两个理论要实现的目标及发展历 史可以看出,语义网应该是在本体理论的基础上对现有w e b 所进行的扩展是本体在w e b 卜的应 用冈此可以将语义网可以看成是当前本体从学术研究走向实际应用的最重要的构想和研究计 划。 r u l e s m1 l s t d a t ap r o o f d i g i t a l d a t a l o g i s i g n a t u r e d e s c o n t o l o g yv o c a b u l a r y d o c r d f + r d fs c h e m a ix m l + n x + x m ls c h e m a u n i c o d eu r l 围t 语义b 体系结梅 2 0 0 1 年5 月,t i mb e m e r s l e e 等在科学美国人( s c i e n t i f i ca m e r i c a n ) 发表文章“t h es e m a n t i c w e b ”对语义网作了较为全面的阐述。并提出了具有语义的网络体系结构语义w e b 体系 结构,如幽1 i 4 j 。u n i c o d e 和u r i ( u n i v e r s a lr e s o u r c el o e a t o r ) 是整个语义w e b 的基础,为上层 x m l + n s + x m l s c h e m a 提供信息编码和资源标识的服务;x m l 具有命名空间m a n l es p a e e ) l l x m l s c h e m a 定义,为上层r d f + r d fs c h e m a 从语法上提供表示数据的结构和内容:r d f + r d f s c h e m a 川丁描述w e b 上的资源及其类型;o n t o l o g y v o c a b u l a r y 用于描述各种信息之间的联系, 揭示了信息本身和信息之间更为复杂和丰富的语义关系;l o g i c 层负责公理和推理原则,为智 能服务提供基础;p r o o f , t r u s t 负责认证和信任机制,使用户a g e n t 在网络上实现个性化服务彼 此之闻交互台作具有安全可靠性。其中的核心层为x m l ,r d f ,o n t o l o g y ,这三层 日丁表示 w e b 信息的语义。 从上面语义网的结构可以知道语义网和本体在信息组织和描述上的一个重要区别是:语义网 注重对信息语义的刻画和在此基础上的联系,而其中本体是组织、抽象的基本方式。在语义w e b 体系结构中,本体成为语义网的一种重要的表达语义的方式,目前被推荐为国际标准的j n 来描述 o n t o l o g yv o c a b u l a r y 的本体语言足o w l ,它t t , x m l 、r d f 和r d fs c h e m a 拥有更多的机制来表达 浩义。 8 中国农业大学硕士学位论文第二章本体及其描述语言与推理机制的研究 2 2本体描述语言 本体语言使得_ j 户为领域模型编下亏清晰的、形式化的概念描述,网此它应该满足以f5 个 斤面的要求: ( 1 ) 良好定义的语法( a w e l l - d e f i n e ds y n t a x ) ; ( 2 ) 髓好定义的语义( aw e l l - d e t m e ds e m a n t i c s ) ; ( 3 ) 有效的推理支持( e f f i c i e n tr e a s o n i n gs u p p o r t ) ; ( 4 ) 充分的表达能力( s u f f i c i e n te x p r e s s i v ep o w e r ) : ( 5 ) 表达的方便性( _ c o n v e n i e n c eo fe x p r e s s i o n ) 。 f 面我们分析了本体描述语言的发展,芹重点对已经成为国际标准的本体描述语言o w l 进行了介缨。 2 21 本体描述语言的发展 2 0 世纪8 0 年代以来,o n t o l o g y 的研究日益受到信息科学和计算机领域研究者的重视,本 体描述语言作为本体研究的一个重点,起源丁i 历史上人工智能领域对知识表示的研究,主要订 以f 语音或环境为代表:k i f ( k n o w l e d g ei n t e r c h a n g ef o r m a t ) ”1 ,o n t o l i n g u a 【8 ) ,o k b c ( o p e n k n o w l e d g eb a s ec o n n e c t i v i t y ) to c m l ( o p e r a t i o n a lc o n c e p t u a lm o d e l i n gl a n g u a g e ) o t f r a m e l 晒c j l 】l o o m 哆 近年来,w e b 技术为全球信息共享提供了便捷的手段,以共享为特征的本体论与w e b 技术 结台是必然的趋势。在此背景f ,基于w e b 标准的本体描述语言止成为本体论研究和应h j 的热 点”l ,最近几个主要的w e b 本体语言有:c k m l ”i ,o i l “1 ,d a m l + o i l l l 5 1 以及成为w 3 c 国 际标准的o w l ( o

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论