(计算机应用技术专业论文)基于ontology的语义检索应用研究.pdf_第1页
(计算机应用技术专业论文)基于ontology的语义检索应用研究.pdf_第2页
(计算机应用技术专业论文)基于ontology的语义检索应用研究.pdf_第3页
(计算机应用技术专业论文)基于ontology的语义检索应用研究.pdf_第4页
(计算机应用技术专业论文)基于ontology的语义检索应用研究.pdf_第5页
已阅读5页,还剩54页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

湖北工业大学硕士学位论文 摘要 语义检索作为一种新的信息检索技术,它可以在知识理解和知识推理的基础 上实现对信息资源的准确、全面的检索。对语义检索的研究不仅仅在信息管理领 域,还包括人工智能、互联网等研究领域以及农业、医学等专业应用领域。 来自于哲学并首先被人工智能领域借用的o n t o l o g y 在语义检索中具有非常重 要的作用,它为领域知识的创建和共享提供了一种灵活、全面的描述和存储机制。 在语义w e b 环境下研究基于o n t o l o g y 的语义检索是语义检索研究的一条新的途 径,语义w r e b 为信息资源、o n t o l o g y 的描述、存储以及知识推理和信息的安全性 提供了一整套的保障机制。 本文首先总结了语义检索研究的两条思路,选取了基于o n t o l o g y 的语义检索 作为本文的研究重点;然后介绍了语义w e b 的结构及其对语义检索的意义;接着对 语义w e b 涉及的o n t o l o g y 和描述语言进行深入的探讨和研究,为语义检索系统的 实现奠定基础;最后在充分研究语义w e b 应用程序开发包j e n a 的基础上探索了语义 检索系统的实现思路,为其中的关键问题提供了解决思路,并使用j a v a 语言基于 j 2 e e 平台开发出了语义检索推理模拟系统。 关键词:语义检索,本体,语义网,r d f ,o w l ,j e n a 湖北工业大学硕士学位论文 a b s t r a c t a san e w t e c h n o l o g yo fi n f o r m a t i o nr e t r i e v a l ,s e m a n t i cr e t r i e v a lc a l lr e t r i e v e i n f o r m a t i o nr e s o u r c ef u l l ya n dp r e c i s e l yb a s e do nt h ek n o w l e d g eu n d e r s t a n d i n ga n d k n o w l e d g er e a s o n i n g t h er e s e a r c ho ns e m a n t i cr e t r i e v a li sn o to n l yi nt h ed o m a i no f i n f o r m a t i o nm a n a g e m e n t ,b u ta l s oi nt h ed o m a i no fa r t i f i c i a li n t e l l i g e n c e ,w b r dw i d e w 曲e t c a n do t h e rp r o f e s s i o n a ld o m a i n ss u c ha sa g r i c u l t u r es c i e n c e ,m e d i c a ls c i e n c e , e t c o n t o l o g y , w h i c hc o m e sf r o mp h i l o s o p h ya n df i r s t l yu s e da so t h e rm e a n i n gi nt h e d o m a i no fa r t i f i c i a li n t e l l i g e n c e ,i sv e r yu s e f u li nt h es e m a n t i cr e t r i e v a l ,i tc a np r o v i d ea f l e x i b l ea n df u l l _ _ s c a l em e c h a n i s mo fd e s c r i p t i o na n ds t o r a g ef o rt h es h a r ea n d c r e a t i o no fd o m a i nk n o w l e d g e t or e s e a r c ht h es e m a n t i cr e t r i e v a lu n d e rt h e e n v i r o n m e n to fs e m a n t i cw e bb a s e do no n t o l o g yi san e ww a yt or e s e a r c hs e m a n t i c r e t r i e v a l t h es e m a n t i cw e b p r o v i d e sa w h o l em e c h a n i s mf o rt h ed e s c r i p t i o na n ds t o r a g e o fi n f o r m a t i o nr e s o u r c ea n do n t o l o g y , a n df o rk n o w l e d g er e a s o n i n ga n di n f o r m a t i o n s e c u r i t y t h i sp a p e rf i r s t l ys u m su pt h et w om e t h o d so fs e m a n t i cr e t r i e v a lr e s e a r c h ,a n d c h o o s e st h es e m a n t i cr e t r i e v a lr e s e a r c hu n d e rt h es e m a n t i cw e bb a s e do nt h eo n t o l o g y a sp i v o to ft h i sp a p e r ;a n dt h e nt h es t r u c t u r eo fs e m a n t i cw e ba n di t su s et os e m a n t i c r e t r i e v a li sd i s c u s s e d ;a f t e rt h a t ,t h eo n t o l o g ya n dd e s c r i p t i o nl a n g u a g er e l a t e dt o s e m a n t i cw e ba r ed i s c u s s e da n dr e s e a r c h e dd e e p l y , w h i c he s t a b l i s h e st h eb a s i cf o rt h e s e m a n t i cw e bs y s t e m ;a tl a s t b a s e d0 nt h ef u l l yr e s e a r c ho nt h es e m a n t i cw e b a p p l i c a t i o nd e v e l o p m e n tk i tj e n a , t h er e a l i z a t i o nm e t h o do fs e m a n t i cr e t r i e v a ls y s t e mi s d i s c u s s e d ,a n dt h em e t h o d so fr e s o l v i n gt h ek e yp r o b l e m sa l ep r o v i d e d ,a n das i m u l a t i v e s e m a n t i cr e t r i e v a lr e a s o n i n gs y s t e mi sd e v e l o p e d k e y w o r d s :s e m a n t i cr e t r i e v a l ,o n t o l o g y , s e m a n t i cw e b ,r e s o u r c ed e s c r i p t i o nf r a m e w o r k ,w e bo n t o l o g yl a n g u a g e ,j e n a n 湘办j 堂火謦 学位论文原创性声明和使用授权说明 原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师指导下,独立进行研究工作所取 得的研究成果。除文中已经标明引用的内容外,本论文不包含任何其他个人或集体已经 发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体,均已在文中以明确方 式标明。本声明的法律结果由本人承担。 靴敝旮岛磁帆沙譬月 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:学校有权保留 并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授 权湖北工业大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采 用影印、缩印或扫描等复制手段保存和汇编本学位论文。 学位敝储张兹 指导教:v 犬证 。l, 日期:沙年s 月了6 日 日期:) 尸绗s 月易日 湖北工业大学硕士学位论文 第1 章引言 1 1 相关领域的研究背景和现状 1 1 1 信息检索的研究概况 目前正在研究和使用的信息检索( 特指文本信息检索,下文未作特殊说明的与 此处意义相同) 技术可以分为三类n 1 :全文检索、数据检索和语义检索( 知识检索) 。 其中,全文检索是基于词语的机械匹配的,比较好地保证了检索的查全率,但是 查准率不能令人满意:数据检索是基于一定的格式和结构对特定字段的检索,这是 目前国内主要的期刊论文数据库所采用的主要检索方法,但是这种方法要求人工 基于特定的字段对信息资源进行标识,检索的效果取决于标识方法的优劣以及用 户对标识字段的理解:语义检索则是基于知识的、语义的匹配,在提高检索的查准 率和查全率方面都有很好的表现。 自然语言处理技术是信息检索中的关键技术之一,它一直是计算语言学、人 工智能、信息检索等领域研究的重点和难点。它在用户检索词的识别和提取、信 息资源的自动标注等方面有非常重要的作用。目前被广泛应用的词语切分、基于 规则的排歧等技术就是其研究成果,而基于统计学( 或其他数学方法) 的针对上下 文更准确、更实用的自然语言解析技术正被相关学者深入研究和探索。自然语言 处理技术同样对开发完善的语义检索系统具有非常重要的意义,但是鉴于相关领 域已经对其进行了比较充分和深入的研究,并考虑本文要解决的问题和研究重点, 下文不再对其进行更深入的研究和探讨。 本文重点研究的是语义检索,它是可以基于概念理解层面及联想检索的智能 检索。其特点在于检索过程中不是基于字面的机械匹配,也不是基于字段的匹配, 而是基于知识理解和推理的语义匹配。语义检索技术和方法特别是面向网络信息 资源的语义检索是信息检索和人工智能领域目前的研究重点和热点。语义检索不 是简单的词语扩展检索,它是建立在知识、语义的层次上的,其实现的关键在于 解决自然语言处理、知识的表达与推理、系统的构建和开发等方面的问题。 本文第二章将对语义检索进行更为系统和详细的研究和探讨。 1 1 2o n t oio g y 的研究概况 知识的表达和推理一直是实现语义检索的关键所在,它主要体现在概念、属 湖北工业大学硕士学位论文 性的定义,概念、属性之间的关系,推理规则和推理过程等方面。在具体的研究 和实现的过程中,人们越来越重视o n t o l o g y 的作用。 o n t o l o g y 起源于哲学,其名称可以追溯到1 6 1 3 年,最初的使用者可以追溯到 亚里士多德,哲学范畴的o n t o l o g y ( 表示抽象的概念) 是对自然存在的一种描述, 以及描述存在哪些种类的事物1 。后来随着人工智能的发展,o n t o l o g y 被赋予了 新的含义,现在信息、检索研究使用的概念是人工智能领域赋予的概念。随着研 究的进展,o n t o l o g y 定义也在不断发展。 s t u d e 在前人工作的基础上,为o n t o l o g y 提出了目前为止最完善的定义,它 体现了o n t o l o g y 的四层含义m 。: ( 1 ) 概念模型( c o n c e p t u a l i z a t i o n ) :通过抽象出客观世界中一些现象 ( p h e n o m e n o n ) 的相关概念而得到的模型,其表示的含义独立于具体的环境状态。 ( 2 ) 明确( e x p l i c i t ) :所使用的概念及使用这些概念的约束都有明确的定义。 ( 3 ) 形式化( f o r m a l ) :o n t o lo g y 是计算机可读的。 ( 4 ) 共享( s h a r e ) :o n t o l o g y 中体现的是共同认可的知识,反映的是相关领域 中公认的概念集,它所针对的是团体而不是个体。 o n t o l o g y 的目标是捕获相关领域的知识,提供对该领域知识的共同理解,确 定该领域内共同认可的词汇,并从不同层次的形式化模式上给出这些词汇( 术语) 和词汇之间相互关系的明确定义。 目前o n t o l o g y 已经在人工智能、计算语言学以及数据库理论中占有重要的地 位。并且在知识工程、知识表示、定性模型、语言工程、数据库设计、信息模型、 信息集成、基于对象的分析、信息检索和析取、知识管理和组织、基于智能代理 的系统设计等研究领域中得到认可和应用,并具体应用到企业集成、自然语言翻 译、医学、医学工程、产品信息标准化、电子商务、地理信息系统、法律信息系 统、生物信息系统等基于o n t o l o g y 的信息系统中阻1 。 o n t o l o g y 为语义检索提供了可共享、概念化的知识体系,它是语义检索中实 现知识理解和推理的基础。 本文第三章将对o n t o l o g y 进行详细的探讨和论述。 1 2 论文的研究内容和贡献 论文研究内容:语义w e b 的提出和发展为语义检索的实现开辟了一条崭新的思 路,本文在总结语义检索研究现状的基础上,首先研究了在语义w e b 环境下实现 2 湖北工业大学硕士学位论文 语义检索的机理:然后着重研究了语义。w e b 结构中的关键两层:o n t o l o g y 和语义 w e b 描述语言,特别探讨了o n t o l o g y 的内涵和外延及其在语义检索系统中所起到 的作用,详细介绍了语义w e b 描述语言的结构和语法:最后研究了惠普实验室开发 的语义w e b 应用系统开发工具包j e n a 在实现语义检索系统中的作用,并探讨了实 现语义检索的过程和方法,尝试开发了语义检索推理模拟系统。这些研究以语义 检索和语义w e b 为核心,以语义检索系统的实现为目标,对相关的理论、方法和 技术进行了充分的研究和探讨。 本文的贡献主要体现在以下几个方面: ( 1 ) 在信息检索研究领域,语义检索涉及到众多概念和实体,如o n t o l o g y 、 受控词表、语义w e b 等。本文在充分研究和比较的基础上,对这些概念和实体进 行了详细的论述和探讨,从而为更深入地研究语义检索奠定了基础和指明了方向。 ( 2 ) 基于o n t o l o g y 实现语义检索系统是研究语义检索的一条新的途径,本文 深入探讨和研究了语义w e b 和o n t o l o g y 的相关理论、方法和技术以及它们在实现 语义检索中的作用机理,研究成果在相关领域中具有重要的参考价值。 ( 3 ) 在实现语义检索的过程中会遇到一系列的问题,本文归纳总结了各个环节 的关键性问题,并结合惠普实验室的j e n a 开发工具包在理论和操作层面上给出了 相应的解决方案,在此基础上本文使用j a v a 语言基于j 2 e e 平台研究开发了语义 检索试验系统。尽管此试验系统仅仅模拟出语义检索系统中的语义推理过程,但 将j e n a 应用在语义检索系统开发中,对深入研究和开发语义检索系统具有重要的 参考价值。 1 3 论文的组织结构 本文在充分研究语义检索、语义w e b 以及o n t o l o g y 的基础上提出基于 o n t o l o g y 的语义检索的实现思路和关键问题的解决方案并研究开发语义检索试验 系统。按照这一思路本文的结构共分为六章,如图1 1 所示。 3 湖北工业大学硕士学位论文 图1 1 论文的组织结构 4 湖北工业大学硕士学位论文 i i i_ 第2 章语义检索与语义w e b 2 1 语义检索的意义和实现模型 面对日益膨胀的信息海洋,使用搜索引擎对信息进行检索已经成为现代人的 一种生活习惯。但是,传统的搜索引擎有一些自身难以克服的缺点:有的查全率 很高而查准率很低:有的查准率很高而查全率很低:对词语( 关键词) 太敏感: 检索结果太单调。 为了克服传统的搜索引擎的缺点,无论是是计算机科学( 含人工智能) 领域, 还是信息资源管理学界,甚至某些专业领域,诸多学者都不约而同地把目光投向了 语义检索。 语义起源于哲学家对“意义 的思考。对人类语言、文字、符号所包含语义 的本质研究则始于语言学家,但是他们偏重于面向人类理解的语义研究:数理逻辑 和计算机科学则更加侧重于面向机器( 应用程序) 理解的语义研究脚。而正是计算机 科学对语义的介入才使得对信息的语义检索的研究得以发展,语义检索系统得以 实现。 语义检索实际上就是基于概念匹配的检索n 羽,是针对基于关键词匹配的检索 而提出来的。它可被广泛应用于知识管理、信息集成、数字图书馆、电子商务等 具体应用领域。 语义检索对“语义”的体现是全方位的,包括对信息的标注过程和检索过程, 如图2 1 所示。 图2 1 基于概念匹配的语义检索模型图 5 湖北工业大学硕士学位论文 + 圄里 ii罔页下载l 用 户 接 口 初蚰查询 反馈董诲 检案绝果 按权捧序 概念提取 _ _ _ _ _ _ _ _ _ _ - _ _ _ - _ 一 1 1 l 一 查询扩展 自动文摘 自然语言处理 罔页处理 索引模块 索引数据库 图2 2 基于概念词表的语义检索系统模型 检索模块 ( 2 ) 语义w e b 环境下的语义检索。这种思路主要是在语义w e b 环境下基于面向 特定领域的o n t o l o g y 来实现语义检索。对o n t o l o g y 的创建也可以参考相关的词 表,但是o n t o l o g y 以及对信息资源标引结果一般以r d f ( r e s o u r c ed e s c r i p t i o n f r a m e ) 三元组的结构存储在基于x m l ( e x t e n s i b l em a r k u pl a n g u a g e ) 语法的r d f 文 6 湖北工业大学硕士学位论文 档中,在具体处理的过程中可以对r d f 文件进行解析从而创建r d f 模型。这种模 型可以存储在计算机的内存中间,也可以依照r d f 三元组的结构存储在关系数据 库中,语义检索实现过程中主要的处理对象就是r d f 模型。这个过程中的信息检 索不是使用关系数据库查询语言s q l ,而是使用类似于s q l 的面向r d f 模型的特定 检索语言r d q l ( r d fd a t aq u e r yl a r ! g u a g e ) 。这种思路起源于对互联网的研究, 针对的主要对象是网络信息资源,其典型的体系结构如图2 3 所示埔1 。 图2 3 基于领域知识的资源管理平台 此外,人工智能和计算语言学的研究成果对“语义检索 的研究和发展起到 非常重要的作用,其主要贡献在于对自然语言的智能化处理等方面。例如可以通 过“共享分析 等计算方法来自动创建概念空间( 即计算机自动生成的概念集合) , 可以通过人工智能技术来对海量信息进行自动语义索引等。这些是无论哪种研究 思路都必须面对和解决的问题。 本文的研究重点在于基于o n t o lo g y 的语义检索,所以下文首先对语义w e b 进 行系统而全面地论述。 2 2 语义w e b 的架构和研究意义 语义w e b ( s e m a n t i cw e b ) 是w w w 的发展和进化方向,它与语义网络( s e m a n t i c n e t w o r k ) 不同:语义w e b 是基于w e b 的一个完整的体系结构:而语义网络则主要是 词语之间的语义关系的表示和描述,类似于语义w e b 中的o n t o l o g y 及其描述。语 义w e b 的体系结构如图2 4 所示。 7 湖北工业大学硕士学位论文 、 、r u t e s 觚 、d a t a 二i 二爿 j 。s 。 l o n t o l o g yv o c a b u | a r y r d f + r d f s c h e r n a 一 。一。一口。、w i“ j c t o ;“誊警一“。n “,一i,i + ,rt i ;,:。! 豸鞲。 缪i 攀7 瓣豢籀唾渤s 篙萄磷酾赫鬻瀵 嚣雾壤 一“ _ 。o 。v” “。一 口一4 。- j 。弦 图2 4 语义w e b 的层次结构图 语义w e b 的体系结构包括七层,从底层到高层( 本文中涉及语义w e b 层次序号 的都按照从底层到高层的顺序) 依次为:u n i c o d e 与u r l ,x m l ,r d f ( s ) ,o n t o l o g y , p r o o f ,t r u s t ,此外跨越第三层至第四层的数字签名( d i g i t a ls i g n a t u r e ) 保证语 义w e b 应用的安全性。 ( 1 ) 第一层是u n i c o d e 与u r l ,是整个语义w e b 体系结构的基础,它着眼于解 决w w w 上资源的定位和跨地区字符编码的标准格式的问题。其中u n i c o d e 负责处 理资源的编码,它支持世界上所有主要语言文本字符。而负责标识资源的u r i ( u n i v e r s a lr e s o u r c ei n d i c a t o r ) 是u r l ( u n i v e r s a lr e s o u r c el o c a t o r ) 的超集, 作为i n t e r n e t 资源的一种标准的识别方法,u r i 可以更为精确地标识资源,使信 息的精确检索成为可能。 ( 2 ) 第二层是x m l + n s ( n a m e s p a c e ) + ) ( m ls c h e m a ,是x m l 及其相关技术层。 x 儿允许用户根据需要自定义一些“有意义的 标签,对所发布信息的内容进行标 记,并使用文档类型定义( d o c u m e n tt y p ed e f i n i t i o n ,d t d ) 或x m ls c h e m a 来约 束这些标签的结构。这种机制用于从语法上表示数据的内容和结构,可以通过使 用标准的格式化语言将w w w 上的信息资源的表现形式、数据结构和具体内容分离。 ( 3 ) 第三层是r d f + r d fs c h e m a ,其提供的语义模型用于描述w e b 上的资源及其 类型,为w w w 上资源描述提供了一种通用表示框架,实现数据集成的元数据解决 方案。r d f 本身并没有规定语义,但是它为每一个资源描述体系提供一个能够描述 其特定需求的语义结构的能力。从这个意义上来说,r d f 是一个开放的元数据框架。 这个元数据框架定义了一种数据模型,可以用来描述机器能理解的数据语义。r d f s c h e m a 规范用r d f 进一步定义了建模原语,提供了r d f 模型中使用的一个基本类 国 湖北工业大学硕士学位论文 型系统。这个类型系统有些类似于面向对象的编程语言,它可以反应出语义。 ( 4 ) 第四层为o n t o l o g y 词汇( v o c a b u l a r y ) 层,用来定义共享的知识,从而对 各种资源之间的语义关系进行描述,揭示资源本身以及资源之间更为复杂和丰富 的语义信息。r d fs c h e m a 可以定义类、子类、超类、属性、子属性以及它们的约 束,例如:定义域( d o m a i n ) 和值域( r a n g e ) 等。因此,从某种意义上说,r d fs c h e m a 本身就是一种简单的描述o n t o l o g y 的语言。只不过r d f r d f s ( r d fs c h e m a ) 对语 义的表达能力还比较有限,还需要迸一步的扩展。 ( 5 ) 第五层l o g i c ( 逻辑) 层主要提供公理和推理规则,为智能服务提供基础。 比如可利用分布在w e b 上的各种断言或公理推理出新的知识。 ( 6 ) 第六层p r o o f ( 证明) 层,用来在l o g i c ( 逻辑) 层之上进行更为复杂的证明 和推理。比如为了满足逻辑层的各种断言和公理的使用条件而进行的证明过程。 如果不设计一个跨系统的推理系统,而是用一种普遍性语言来表达证明,就实现 了第六层p r o o f ( 证明层) 。 ( 7 ) 第七层t r u s t ( 信任) 和跨越多层的数字签名( d i g i t a ls i g n a t u r e ) 则注重于 提供认证和信任机制,使用户代理a g e n t 在网络上实现个性化服务和彼此间交互 合作具有可靠性和安全性。虽然公钥密码技术已存在较长的时间了,但还没有真 正广泛应用,如果加上语义w e b 各层支持,使一个团体在一定范围内可信任,就 实现了t r u s t ( 信任) 层,这样一些诸如电子商务等重要应用就可以进入到语义w e b 的实用领域。 在以上七层中,目前的研究重点集中在第三层至第五层:对第三层主要研究语 义w e b 描述语言包括信息资源描述语言r d f 和o n t o l o g y 描述语言r d fs c h e m a ,o w l ( w e bo n t o l o g yl a n g u a g e ) 等:对第四层主要研究o n t o l o g y 的建立及其表示和使用: 对第五层主要研究语义推理规则及其结合o n t o l o g y 在实现语义检索系统过程中的 使用。这也是本文论述和研究的重点。 实际上,语义w e b 的目标就是要建立一个同时满足人类认知理解和计算机理 解和推理的知识网络,对网络信息资源实现语义化检索。这同时也是信息检索领 域对语义检索研究要达到的目标。所以对语义w e b 的研究不仅可以促进w w w 的进 化和发展,同时也是在探索语义检索的实现方案。当然,语义检索是信息检索的 高级形式,信息检索领域所涉及的自动分词、抽词,自动分类、聚类,自动文摘、 索引等自然语言处理技术对语义检索依然具有非常重要的作用。这些技术己经趋 于成熟并己经得到较大规模的实际应用,本文对此不再做深入探讨。 9 湖北工业大学硕士学位论文 2 3 语义w e b 在语义检索中的应用概述 2 3 1 语义w e b 和语义检索的关系 目前w e b 的发展主要体现在以下几个方面: ( 1 ) 信息检索:人们对w e b 上信息的查找从简单的基于自由文本和关键词的检 索发展到基于复杂的语义技术的检索和导航: ( 2 ) 用户:w e b 上的资源从单纯满足人类用户的需要发展到同时满足人类理解 和机器处理的需要: ( 3 ) w e b 的任务和服务:w e b 上除了可以查找信息还可以做许多其他的事情: ( 4 ) 语义:w e b 上的信息资源从不包含或者只包含一点语义发展到包含比较丰 富的语义。 w e b 的这些发展正是语义w e b 的体现,它使对w e b 信息的语义检索成为可能: 同时,在信息检索研究领域,语义w e b 在对语义检索研究和探索的过程中得到发 现和重视。实际上,语义w e b 所提供的正是语义检索所需要的,语义检索所要实 现的也正是语义w e b 所要达到的,二者的结合必将为彼此的发展带来新的机遇。 2 3 2 语义w e b 对实现语义检索的作用 如果要使信息检索系统能够理解网络信息资源中丰富的逻辑语义关系并进行 有效的推理检索,必须满足以下条件: ( 1 ) 具备一定的概念集合,其中包括对信息资源进行描述的概念词汇及其之间 的逻辑语义关系: ( 2 ) 具备一定的检索推理机制从而结合概念集合形成知识体系来实现语义推 理: ( 3 ) 具备一定的语言体系从而实现对信息资源和概念集合的描述和存储: ( 4 ) 具备一定的标记体系和方法从而实现利用元数据( 概念) 对信息资源进行 索引和存储。 2 3 3 语义w e b 环境下实现语义检索的相关条件 对语义w e b 的研究成果有助于我们在语义w e b 环境下实现语义检索,主要包 括: 1 0 湖北工业大学硕士学位论文 ( 1 ) 对o n t o l o g y 的研究。主要包括对o n t o l o g y 本身的研究,对o n t o l o g y 语 言r d fs c h e m a ,o w l 等的研究,以及对创建o n t o l o g y 的辅助工具的研究。 对o n t o l o g y 本身的研究包括明确o n t o l o g y 的内涵和外延,总结创建o n t o l o g y 的方法和步骤及其优劣的评判标准等:对o n t o l o g y 语言( 包括r d fs c h e m a ,凹l 等) 的语法、进化以及作用机理的研究:对创建o n t o l o g y 的辅助工具的研究包括对 p r o t 魄6 ,o n t e d i t 等辅助工具软件的结构和使用方法的研究。 ( 2 ) 对信息资源描述框架和相关语言的研究。主要包括对基于x m l 语法的r d f 的研究,对u r 工,u n i c o d e 等底层标识和编码的研究等。 对r d f 的研究主要包括对r d f 语法、r d f 结构及其实现的研究,其中也涉及 p r o t 诺等辅助工具的使用问题:对u r i ,u n ic o d e 的研究主要研究它们的应用价值 和使用方法,其实现机制已经很成熟,可以直接使用。 ( 3 ) 对语义w e b 应用程序开发包j e n a 的研究。主要研究j e n a 的各组成部分在 解决语义w e b 环境下语义检索实现的作用机理,以及结合j a v a 程序开发技术研究 各部分的具体使用方法。j e n a 包含的解析、推理以及检索功能是实现语义检索的 必需条件,所以对j e n a 的研究至关重要。 本文的第三章、第四章以及第五章将对上述的相关研究作详细的论述。 湖北工业大学硕士学位论文 ! i i i i = ;i : i i i i i i i 詈! 苎! ! ! 皇 第3 章o n t o l o g y 及其应用 3 1o n t oio g y 的内涵和分类 正如本文1 1 2 小节所述,o n t o l o g y 是人工智能研究领域率先从哲学领域借 鉴过来的,o n t o l o g y 的许多应用都是基于人工智能领域对o n t o l o g y 的理解和应用 的,所以对o n t o l o g y 内涵的理解要从这里开始。 既然t o mg r u b e r 将o n t o l o g y 定义为“概念模型( c o n c e p t u a l i z a ti o n ) 的明确 的规范说明”,而其本人又是人工智能领域的著名研究学者,同时这个定义也是被 广泛接受和采纳的。所以我们可以根据这个定义来认识和理解o n t o l o g y 定义中的概念模型( c o n c e p t u a l i z a t i o n ) 是指某领域中的所有可能状态包含 的所有元素涉及的概念及其之间的关系,它是一种与特定语言无关的抽象模型。 如果要使用某种语言和相应的词汇把这种概念模型描述出来,则可以被计算 机理解和处理,这种被形式化的模型被称为目标模型,它刻画了概念模型的基本 结构和意义。 在具体描述的过程中,只有语言和词汇还不够,必须有一定的描述结构和规 则,o n t o l o g y 就是要提供这种结构和规则,其本质作用在于定义特定领域所要用 到的词汇( 概念) 以及描述这些概念之间的关系。但是由于目标模型包含的结构和 意义是非常复杂和丰富的,不可能用语言将其完全地以形式化的方式描述出来, 所以o n t o l o g y 只能间接地对目标模型进行模拟,尽可能地接近目标模型。 概念模型、目标模型和o n t o l o g y 的关系如图3 1 t 4 0 1 所示。 图3 1o n t o l o g y 定义的理解 湖北工业大学硕士学位论文 图3 1 中的“c o m m i t m e n t 可以理解为是一种关于被描述领域和描述结构的 约定。于是,o n t o l o g y 可以理解为是使用特定的描述语言和词汇对特定领域的概 念模型所对应的目标模型的模拟和描述。 实际上,基于不同研究背景和研究目的的许多学者直到现在还对o n t o l o g y 的 内涵和外延有所争议。 一般认为,o n t o l o g y 是面向特定领域的,应该包括以下组成部分: ( 1 ) 本领域类的层级体系,以及通过这些层级关系而构成的整个领域的类体 系: ( 2 ) 类的属性及属性取值限制: ( 3 ) 语义关系体系,即类之间的逻辑关系( 可以理解为类之间的相互作用) : ( 4 ) 关于类及语义关系的推理规则。 如果按照这种理解和要求,那么一般的具有词语和词语之间关系的受控词表 等在严格意义上就不能算是一个o n t o l o g y ,所以有的学者认为w o r d n e t 本来不是 建立在特定领域上的,不能算是一个o n t o l o g y 实体,但可以作为开发o n t o l o g y 实体的一个非常有用的语言学资源。而从基于数据库的概念词表( 主题词表、同义 词表、w o r d n e t ,h o w n e t 等) 研究语义检索的学者们则认为主题词表( 或其他种类词 表) 具有o n t o l o g y 的基本属性:描述了对象( 是指词语) 以及对象之间联系( 层级关 系、同义关系、对象属性等) ,那么这样的词表就可以认为是一个o n t o l o g y 实体, 所以有的学者就明确提出如果按照g r u b e r 先生的定义,w o r d n e t 就是一个 o n t o l o g y 实体。 对o n t o l o g y 进行分类对研究和使用o n t o l o g y 都具有重要的意义,目前可以 依据两种不同的分类标准对o n t o l o g y 进行分类。 ( 1 ) 按照o n t o l o g y 的形式化程度的不同可以将o n t o l o g y 分为以下四类: 完全非形式化( h i g h l yi n f o r m a l ) 的o n t o l o g y :这种o n t o l o g y 完全使用 自然语言来描述,其机器可理解性最差,目的在于帮助人们阅读、理解形式化程 度更高的o n t o l o g y 形式化( s t r u c t u r ei n f o r m a l ) 的o n t o l o g y :采用受控的或者结构化的自 然语言( 如推荐术语) 表示的o n t o l o g y ,其可以在一定程度上减少概念的二义性。 半形式化( h a l f - i n f o r m a l ) 的o n t o l o g y :是一种采用人工定义的形式化 语言表示的o n t o l o g y 严格形式化( r i g o r o u s l y i n f o r m a l ) 的o n t o l o g y :这种o n t o l o g y 对所有 的概念术语、术语的关系、术语的一致性和完整性等等都进行了形式化的语义定 义。 湖北工业大学硕士学位论文 ( 2 ) 按照o n t o l o g y 描述对象的不同可以将o n t o l o g y 分为以下四类: 项层o n t o l o g y :定义最基本的概念类、属性及语义关系,例如时间、空 间、物质、对象、事件、行为等: 领域o n t o l o g y :利用顶层概念集来细化定义具体应用领域( 例如教育、医 学等) : 任务o n t o l o g y :指具体通用任务( 如交易、传输等) 的专用概念类、属性 及语义关系: 应用o n t o l o g y :$ 1 j 用领域和任务概念集来进一步定义针对某个具体应用 的概念集。 这四种o n t o l o g y 之间具有一定的层次关系,如图3 2 所示,o n t o l o g y 的这种 分类有利于o n t o l o g y 的创建、集成、共享和应用。 顶层o n t o l o g y ( t o p - l e v e lo r d o l o g y ) 领域o n l o l o g y ( d o m a i no m o l o g y ) t e g t o n t o l o g y ( t a s ko 憎o i o g y ) 应用o n t o l o g y ( a p p u c a l l o no n t o l o g y ) 图3 2o n t o l o g y 的分类和层次 3 2o n t oio g y 在语义检索中的应用 信息检索中的语义在客观上是存在的,只是可供表达和处理的方式不同,可 以将其分为连续的四个层次,如表3 1 所示。 1 4 湖北工业大学硕士学位论文 隐含的语义 语义的传递主 要靠人类的某 此共识 语义的传递通 明确的、非形式过术语表或者 化的语义说明文档的约 定 x m l 语言的标记, 例如:n a m e ,a d d r e s s 等 h t m l 中的标记, 建模语言f 例如 u m l ) 中的表达式, d o b l i nc o r e 中的术 语等 嘉磐不清的地方无形式化 很多 一 比较清晰,人类 理解个体间存在自然语言描述 较大差异 黔萎蓑琴融纛堞粼间群警 麟燃霎遴磊普黧器完全藉一致黧艳譬 对照本章3 1 节中关于o n t o l o g y 的理解和分类,实际上在表3 1 中的各个层 次都有o n t o l o g y 的存在,只是存在和表达的方式不同而已。对于第一层,实际上 人类的脑海中存在一个巨大的o n t o l o g y 雏形,但是这个“o n t o l o g y 的一致性很 差,也不能够被计算机处理,所以严格意义上讲还不能算作o n t o l o g y :第二层对应 于完全非形式化和结构非形式化的o n t o l o g y ,包含的语义必须通过人类的阅读和 理解,通过人脑来推理:第三层对应于半形式化的o n t o l o g y ,这种o n t o l o g y 主要 用于比较严谨的人类理解,人们可以硬性地将其反映到计算机应用系统中,从而 实现一定的计算机语义检索的效果:第四层对应于完全形式化的o n t o l o g y ,使用计 算机可以理解和处理的语言和结构来描述o n t o l o g y ,从而实现计算机完全自动化 的语义检索和推理。这四个层次也反映出基于语义的信息检索的四个层次。 本文主要研究语义检索的第四个层次,使用完全形式化的o n t o l o g y 表达明确 的语义,结合其他计算机的相关处理,从而实现语义检索。如图3 3 所示,如果 要通过语义检索系统检索某报社中所有与雇员相关的信息,检索系统在检索中发 现一篇文档中含有“拉广告的”这个词组,由于计算机没有对自然语言的直接理 解能力,所以“拉广告的 这个词对检索系统而言是一个完全陌生的词,但是由 于使用“营销人员一这个正式概念对其进行了标注,而在o n t o l o g y 中又有“营销 人员 和“雇员”这两个概念之间的关系,于是检索系统就可以基于o n t o l o g y 所 描述的语义关系以及对自然语言的概念标注推理出“拉广告的 就是报社的雇员 的一种,从而确定这篇文档的内容是与检索目的相关的。 湖北工业大学硕士学位论文 小张在我们报牡是枉广告酌) 每个月 7 。一一 至少奏完成3 万元鹋j # 豫了霸份他粒了 :i :! 得到4 千元的叫成呢2 概念标注 n e w s p a p e ro n t o l o g y 端:垮硎而磊蔽矿 聱 。篇舞辈珲 f r a n k 图4 5r d f x 眦描述的主谓宾三元组 为了使代码简洁,避免u r i r e f 标志符过于冗长,在图4 5 的描述中引入命名 空间机制,这是r d f ) ( m l 非常重要的机制之一,它将u r i r e f 二前面重复的部分( 一 般为u r i ) 事先声明作为“命名空间 并定义相应的前缀名,然后在用r d f ) ( m l 对 r d f 模型进行正式描述时,只要使用简前缀名即可。 以上图4 2 至4 5 所涉及的只是简单的一条“声明,而现实世界中对事物的 描述可能涉及非常复杂的结构。例如我们要描述湖北工业大学( h b u t ) 的地址,而 地址中有包括省( p r o v i n c e ) 、市( c i t y ) 、街道( s t r e e t ) 一直到门牌号( n u m b e r ) 以 及对应的邮政编码( p o s t a l c o d e ) 各个元素,像这样其中包含一定体系结构的属性 湖北工业大学硕士学位论文 被称作“结构属性”。如果不允许使用一个字符串来表示地址,而必须用这个地址 集合中的各个元素来表示,这就形成了一个1 3 元( 本例中n = 5 ) 结构,这是r d f 不能

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论