




已阅读5页,还剩53页未读, 继续免费阅读
(计算机应用技术专业论文)本体的构建及其在信息检索系统中的应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
硕士学位论文 m a s t e r 。st lt f s i s 摘要 随着网络的发展,信息呈几何级增长,而网络信息资源的载体多种多样,加上 所处的平台及其使用的语言和标准并不一致这就给各个领域信息资源的管理和使 用带来了诸多困难。人们面对庞大的信息资源感到无所适从。一方面网络信息资源 高速增长,数量庞大,一方面人们想要找到自己真正需要的信息反而变得越来越困 难。“信息过载 和“信息迷航”成为人们谈论最多的话题之一。要解决上述问题, 必须克服传统检索技术的不足。而目前网络在信息表达和检索存在上面的缺陷,主 要是因为设计目的是面向用户直接阅读与处理,而计算机是不能“理解的。因此 限制了计算机在信息检索中的自动分析与处理以及进一步智能化信息处理的能力。 语义网的出现就是为了充分发挥网络的“最大潜能”,语义网相关技术能够为网络 上的资源提供计算机可以理解的信息,给出计算机可以理解的表示资源的方法,最 终使得人们能够更加充分利用网络资源。而作为语义网的基础一一本体也是人们现 在研究的热点之一。 本文详细介绍了传统信息检索技术并指出它的缺陷与不足,在此基础上引入了 语义网的概念,介绍了作为语义网基础的本体的概念以及实现语义检索的原理与优 势,并对构建本体方法以及构建本体工具做了详细介绍。本文利用p r o 惦西,结合基 于软件生命周期的建模方法构建了一个大学领域本体u o ,并在此基础上设计了基 于大学本体的检索系统的三层体系结构,实现了查询生成与优化,同时给出了查询 的推理算法。本文最后利用j e n a a p i 实现了基于本体检索的系统原型。 关键词:本体;信息检索;语义网 一, 5 页士学位论文 m 人s t e r st i i f s i s a b s t r a c t w j t ht h ed e v e l o p m e n to ft h et e c l l o l o g yo fn e “v 0 r k ,t h ei n f o 肌a t i o nq u a l l t i t ) r s g r o 砒hi st h eg e o m e 蚵1 e v e l b u tt h en e t 、o r ki n f o 硼a t i o nr e s o u r c e sc 耐e ri sm a u l ya 1 1 d v a r i e d a d dt h ep l a t f o 咖a n dm el a n g l l a 喀ei si i l c o n s i s t e n t 州t ht h es t a i l d a r d s oe a c h d o m a i ni n f b 册a t i o nr e s o u r c e sm a i l a g e m e n ta n du s eh a v em a n yd i m c u l t i e s 1 1 1 ep e o p l e f e l tt h a ti sa tal o s sh o wt op m c e e d ,w h e nt h e yf a c i n gh u g ei n f 0 咖a t i o nr e s o u r c et 油e o n t h eo n eh a n dt h en e t w o r ki n f o 衄a t i o nr e s o u r c ef 酤tg r o w t l l ,q u a n t i t ) ,i se n o 砷o u s ,o nm e o t h e rh a n dt h ep e o p l ew a n t e dt of i n dt h et n l ei d e a li 1 1 f o n n a t i o nb e c o m em o r ea 1 1 dm o r e d i 所c u l t “t h ei n f o 加a t i o no v e r l o a d s ”a n d “t h ei n f o 衄a t i o nd i s o r i e n t a t i o n ,b e c o m eo n e o fh o ts p o t sw h i c ht h ep e o p l ed i s c u s s i fw a n t st os o l v et h ea b o v ep r o b l e m ,w em u s t o v e r c o m et h ei n s u 所c i e n to ft r a d i t i o nr e t r i e v a lt e c h i l i q u e a tp r e s e n tt h en e 锨,0 r kh a st h e a b o v en a w 协t l l ei n f o m a t i o ne x p r e s s i o na n dt 1 1 er e t r i e v a l ,i sm a i n l yb e c a u s et h ed e s i g n g o a lf 如e sm eu s e rr e a d i n ga 1 1 dp r o c e s s i n g ,a i l dt h ec o m p u t e rc a n n o t “u 1 1 d e r s 协d ,s oi t h a sl i m i t e dc o m p u t e r t sa b i l i 够i na u t o m a t e da n a l y s i sa i l dp r o c e s s i n gi nm ei i l f o 咖“o n r e 仃i e v a la n d 如n h e ri n t e l l e c t l l a l i z a t i o ni 响册a :t i o n p r o c e s s i n g n es e m a n t i cn e t a p p e a r a n c ei sf o rt h e 亿l ld i s p l a yn e 储o r k “t h eb i g g e s tp o t e n t i a l ”,n es e m a n t i cn e t s t e c l l i l o l o g yc a ns u p p l ym ei o n n a t i o nw h i c ht h ec o m p u t e rc a nu 1 1 d e r s 伽dt o t 1 1 e n e 觚o r k ,i tp r o v i d e sam e t h o dt o e x p r e s st 1 1 e r e s o u r c e sw 1 1 i c h c o m p u t e rc a n 吼d e r s t a l l d ,f i n a i l ym a k ep e o p l e c a i ls u m c i e n tu s en e 帆o r kr e s o u r c e b u ta st h e f o u l l d a t i o no ft h es e m a l l t i cn e t 一_ 0 n t o l o g yi sa l s oo n eo fh o ts p o t s 、h i c ht h ep e o p l e s t l l d y n o w i i lt h ep a p e r ,f i r s tt h et r a d i t i o ni 幽衄a t i o nr 耐e v a li nd e t a i l 、娜i n t r o d u c e da n d t h e np o i l l t so u ti t sn a wa n di n s u 珩c i e n c y s e c o n dt h es e m 肌t i cn e t c o n c e p tw a s i n t r i ) d u c e d ,s e q u e n t i a 】胁h e ri n t r o d u c e dt h ec o n c e p to fo n t 0 1 0 9 y 、 ,! m c hi sf o u n d a t i o no f t h es e m 锄t i cn e ta n dt h e ne x p l a i nt h es e m a n t i cr e t r i e v a l 州n c i p l ea n dt h es u p e r i o r i 够 c o n s t m c t i o no n t o l o g ym e t h o da n dc o n s t r u c t i o n0 n t o l o g ) ,t 0 0 li si n t r o d u c e di nd e t a i l a n d t h e nc o n s t r u c tt h eo n t o l o g yo fm ee s s e n t i a ji 1 1 f - o m a t i o ni nt h eu i l i v e r s i 够o n t o l o g yb y u s i n gp r o t 6 酌c o m b i i l e dw i t ht 1 1 em o d e l i n gm e t l l o db a s e do ns o 小a r el i f e c y c l e b a s e do n “sa n dh a sd e s i g l l e dt h r e ea r c l l i t e c t u r eo fr e t r i e v a ls y s t e mw 陆c hi sb a s e do nt h e u i l i v e r s i 够b a s i ci n f o 姗a t i o nm a mb o d y s i m u l t a n e o u s l yh a sg i v e n 也ei n q u i r yi n f e r e n c e a l g o r i t h n l f i n a l l yi m p l e m e n tt h ep r o t o t y p es y s t e mb a s e do no n t 0 1 0 9 yr e t r i e v a lb yu s i n g j e n aa p i k e yw o r d s : o n t o l o g y ; i n f b n n a t i o nr e t r i e v a l ;s e m a n t i cn e t 硕士学位论文 m a s t e r st t j e s i s 华中师范大学学位论文原创性声明和使用授权说明 原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师指导下,独立进行研究工作 所取得的研究成果。除文中已经标明引用的内容外,本论文不包含任何其他个人或 集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体,均已在 文中以明确方式标明。本声明的法律结果由本人承担。 作者签名: 话急哮 日期:z o 参莎年6 月3 日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:学校有权 保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借 阅。本人授权华中师范大学可以将本学位论文的全部或部分内容编入有关数据库进 行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。同时授权 中国科学技术信息研究所将本学位论文收录到中国学位论文全文数据库,并通 过网络向社会公众提供信息服务。 作者签名:p 撼伟 日期:z o o 署年6 月弓日 糊娩确举 日期黼占月二日 本人已经认真阅读“c a l i s 高校学位论文全文数据库发布章程”,同意将本人的 学位论文提交“c a l i s 高校学位论文全文数据库 中全文发布,并可按“章程”中的 规定享受相关权益。回重途塞握童卮进卮! 旦圭生;旦二生;旦三生筮查! 作者签名: 电0 幺佑 日期:乙o o 罗年6 月多日 抽签名:硼卯乞导师签名:嘲门布f 日期:狐g 年多月弓日 5 页士学位论文 m 人s 丁e r st i ,e s i s 1 1 信息检索 第一章绪论 1 1 1 信息检索的概述 通常指文本信息检索,包括信息的存储、组织、表现、查询、存取等各个方面, 其核心为文本信息的索引和检索,起源于图书管的参考咨询和文摘索引工作,从1 9 世纪下半叶首先开始发展,至2 0 世纪4 0 年代,索引和检索成己成为图书馆独立工 具和用户服务项目。从发展阶段上看,信息检索经历了手工检索、计算机检索到目 前的网络化、智能化检索等多个阶段。目前,信息检索已经发展到了网络化的阶段。 信息检索的对象从相对封闭、稳定一致、由独立数据集中管理的信息内容扩展到开 放、动态、更新快、分布广泛、管理松散的w e b 内容。信息检索的用户也有原来的 情报信息专业人员发展到商务人员、管理人员、教师学生、各专业人士在内的普通 大众。任何人都可以在互联网上方便的浏览、获取或者提供信息。 信息检索系统应该为用户提供一个非常简单的方法来访问他所关心的信息。但 是,如何表示用户的信息需求并不是一个容易的问题。为了查询到自己感兴趣的信 息,用户必须首先将信息需求转化成一个查询式,这个查询式是可以被信息检索系 统所识别的。在当前的大多数系统中,这个查询式是由一组关键字所组成。检索系 统根据这些关键词从大量的数据库中获取用户感兴趣的信息,并组织成便于用户使 用的方式返回给用户,这就是信息检索系统的工作原理。 理想的信息检索系统应该实现一旦用户提交查询式,就马上返回所有符合要求 的信息,并且不被那些不相关的内容所打扰,这引出了对信息检索系统n 1 的两个基 本评价标准:查全率和查准率。查全率是在当前数据库中所有符合检索要求的文档 之中被检出的文档所占的比例。查准率是检出文档之中真正符合检索要求的文档所 占的比例。必须综合考虑查全率和查准率,不可偏废。 根据不同的标准,信息检索有不同的分类。一般来说,信息检索按检索技术可以 分为三类n 1 :全文检索、数据检索和知识检索。 全文检索是指计算机索引程序通过扫描文章中的每一个词,来对其建立索引, 指明该词在文章中出现的次数和位置,当用户查询时,检索程序就根据事先建立的 索引进行查找,并将查找的结果反馈给用户的检索方式。全文检索主要分为按字检 硕士学位论文 m a s t f r s 丁i i f s i s 索和按词检索两种。按字检索是指对于文章中的每一个字都建立索引,检索时将词 分解为字的组合。按词检索指对文章中的词,即语义单位建立索引,检索时按词检索, 并且可以处理同义项等。英文等西方文字由于按照空白切分词,因此实现上与按字 处理类似,添加同义处理也很容易。中文等东方文字则需要切分字词,以达到按词索 引的目的。由于全文检索的特点是把用户的查询请求和全文中的每一个词进行比较, 不考虑查询请求和文本语义上的匹配,这种方法虽然可以保证查全率,但是查准率 大大降低了。 数据检索的特点是查询要求和信息系统中的数据都遵循一定的格式,具有一定 的结构,允许对特定字段进行检索。数据检索需要有标识字段的方法,其性能取决于 所使用的标识字段的方法和用户对这种方法的理解,因此具有很大的局限性。数据 检索支持语义匹配的能力也较差。 知识检索强调的是基于知识的、语义上的匹配,因此在查准率和查全率上有更 好的保证。目前知识检索是信息检索研究的重点,特别是面向w e b 信息的知识检索。 1 1 2 信息检索存在的问题 随着因特网的普及,信息检索发展到了网络检索阶段。i n t e r n e t 是海量信息资 源库,且信息量是以指数规律迅速地增长和扩展,其信息的组织是异构的,多元的 和分布的。 由于i n t e r n e t 的开放性,w e b 上信息是既多又广,可搜索的网页有十亿以上, 数据量则超过几十t b 。概括地说,与传统的信息资源相比,w e b 信息资源具有以下 显著的特点: 1 ) 动态性 数据和服务的种类每天都在大量增加、更新,w e b 上的数据时刻处于变化之中, 新的页面在不断出现,旧的页面在不断更新和删除。 2 ) 重复性 网络信息分布在几百万台服务器上,不仅数据量大,而且相互重复,不同的网 站之间存在大量相同的网页引用。 3 ) 半结构化或者无结构化 w e b 上的信息通常是无组织的,不具有关系数据库中数据的结构化特性,或者 只有有限的结构化特性,这就使得索引起来非常困难,更不用说要计算机理解其语 义信息了。 4 ) 非规范化 2 硕士学位论文 m a s t f r st i i e s i s 人人都可以在网上发布信息,信息杂乱无章,不仅有很多拼写错误和自定义用 词,而且信息的质量得不到保证,存在不稳定性和不可靠性。 5 ) 异构性 信息分布在不同的平台上,站点结构各异,通过不同的协议( 如t c p i p ,h t t p 等) 相互连接,信息结构形式也各不相同,多语种,多类型的信息交织在一起,杂 乱无序。 由于信息资源的载体多种多样,加之所处的平台及其使用的语言和标准并不一 致这就给各个领域信息资源的管理和使用带来了诸多困难:一方面,万维网为用户 提供了一个开放的信息共享资源平台,相对传统的封闭式信息系统而言,人们以更 快的速度在全球范围发布和共享信息资源;但另一方面,随着信息量的高速增长, 面对庞大的信息资源,人们感到无所适从,迷失在i n t e r n e t 这张巨大的信息网中, “信息过载”和“信息迷航”已经成为人们谈论最多的话题之一。很多时候,如何 迅速高效的检索和访问各个领域的信息资源以促进信息的交流与共享已经成为一 个重要的急需解决的问题乜1 。人们迫切需要高效,准确的信息查找工具,来快速定 位自己感兴趣的信息和知识。 传统检索技术的不足体现在以下几个方面: 传统信息检索技术都是基于关键字的匹配和全文检索技术,主要借助于目录, 检索,索引和关键词等方法来实现。此技术的优点是简单,快捷和容易实现,但是 其存在几个比较突出的问题”1 : 1 ) 大多数情况下用户很难通过几个简单的关键词准确、真实的表达他的检索需 求,因此表达困难也就导致了检索质量的难近人意; 2 ) 仅用题名、文摘或者全文中出现的关键词标识文献的内容,常常不能充分揭 示源信息的实质内涵; 3 ) 一义多词( 同义词) 现象的普遍存在,导致了传统信息检索的查全率难以保 证,而一词多义( 多义词) 现象则导致在检索结果中包含大量的无效信息,使得查 准率也难以满足,在外文中,还存在词形变化的情况( 如时态,单复数等) ,这些 都是在基于关键词匹配的检索算法中无所避免的问题。 4 ) 在人的大脑中,概念并不是孤立存在的,它总是与其它概念之间存在着各 种各样的联系,正是这种联系构造出现实世界。而在传统信息检索中这种概念之间 的语义联系是很难描述的。 5 ) 片面追求高的查全率导致了检索结果的数量过于庞大,用户根本没时间和精 力处理检索到的所有结果。 硕士学位论文 m a s 丁e r 。st h e s i s 总之,在信息快速增长的今天,传统信息检索机制由于缺乏必要的智能性,难 以适应时代发展的需要。 目前因特网在信息表达和检索方面存在的这些缺陷,是因其设计目的是面向用 户直接阅读与处理,而非是提供给计算机阅读的,因此限制了计算机在信息检索中 的自动分析处理以及进一步智能化信息处理的能力。而当前互联网搜索引擎的强大 功能是由其后台强大的硬件服务器群和适合的体系结构支撑的,而不是其本身采用 的检索技术先进。例如著名的网络搜索引擎g o 0 9 1 e 和b a i d u ,都是采用基于关键词 匹配的全文检索技术,这种单纯按照字面匹配的检索技术的弊端是显而易见的。假 设用户输入“牡丹 这个检索词,系统会把所有出现“牡丹”两个字的文章反馈给 用户,而不管这些文章是关于植物花卉的还是牡丹电器的或是和牡丹江地名有关 的。由此可见,基于关键词匹配的全文检索技术所采用的基于字符串匹配的标引缺 乏语义信息,这种先天不足导致了后期检索质量是很难有质的飞跃的。 为了解决上述问题,本体作为一种能在语义和知识层次上描述信息系统的概念 模型建模工具,自提出以来就引起了国内外众多科研人员的关注,并在计算机信息 检索领域取得了广泛的应用。形式化定义的本体不仅能够以面向对象的方式描述特 定领域的主要概念,而且能够描述概念之间的关系。借助本体,普通用户可以方便地 在概念上描述信息需求,构造复杂的信息查询检索系统,可以对信息源进行深层次 的语义标引,从而突破机械式字面匹配局限于表面形式的缺陷,实现概念检索。 1 2 基于本体的检索现状分析 1 2 1 基于领域本体检索的国内外相关研究 w e b 检索的主要服务对象定位于大众,因此检索结果泛而不精是其特点之一,而 对于特定领域的从业者来说,他们更多时候希望检索的结果全而精且局限于自己感 兴趣的领域之内,而普通大众也希望自己能得到自己真正感兴趣的信息,而不是在 大量的信息面前无所适从,因此专业的领域检索系统开发成为近年来信息检索领域 的研究热点。 近几年,国内外领域本体的构建以及在检索系统中的应用的相关研究主要有: 1 ) 哈尔滨工业大学,杨艳琴,对目前生物学领域最丰富的t a o 知识库进行研究和 分析,设计并开发了基于t a o 的生物领域信息检索系统4 1 。 2 ) 中国农业大学,赵庆龄,针对农业知识本体论基础性研究的特点,结合土壤与 农业化学专业知识,建立了土壤领域知识体系,并在此基础上开发了基于网络的农 4 硕士学位论文 m a s t e r st i j e s i s 业科技信息智能检索系统b 1 。 3 ) 浙江大学机械电子控制工程研究所,叶冰,陈鹰,设计了一个面向机械行业的 信息搜索系统的实现框架,探讨了行业信息的特征表示、特征匹配的实现这一前台 信息数据的主动获取过程,同时也讨论了集中式行业信息数据库的信息检索这一后 台信息检索问题。通过该系统,可以方便行业内的企业用户和技术人员快速、高效 地获取比较精确和技术性强的信息1 。 4 ) m e d i c a lm a t r i x ,由堪萨斯大学创建,现由美国m e d i c a lm a t r i xl l c 主持,是 目前最重要的医学专业搜索引擎。它是一个因特网上内容全、不受限的临床医学资 源的全方位列表,将站点根据性质、评估、内容、特色和临床内容水平分级,它是一 个可免费进入的临床医学数据库,提供了关键词搜索和分类目录搜索,最适合临床 医师使用。 5 ) e n t r e z 生物信息检索系统是由美国n l m 的生物技术信息中心建立的一个生物 医学专业的具有综合服务功能的免费数据库检索系统。e n t r e z 系统最大的优点是: 通过其任何一个数据库作为入口检索,便可在其他数据库中找到相关的检索提问信 息,利用该系统可方便地进行文献检索、生物化学物质及其结构信息的检索等。 1 2 2 基于领域本体检索现状分析 领域查询是一种利用国际信息资源的重要现代化手段,能够迅速高效地提供信 息服务。因此长期以来,如何很好地利用领域检索都是讨论的热点。但是随着当今 领域查询系统及数据库的数量迅速增长,查询技术也同新月异,挖掘领域检索的潜 力这一任务变得越来越困难,用户己被置于一个数据库的“迷宫 之中,即使对于专 业查询人员,能否合理地选择查询系统和数据库,也是一个非常棘手的问题。接下来 的两方面是对这种状况的典型分析: 1 ) 从查询方式来看 随着i n t e r n e t 的普及和发展,人们越来越依赖网络从事科研及商务活动,但是 利用现有领域查询系统来查询某一信息,得到的结果存在着大量冗余,很少有他们 想要的东西,其中的原因在于目前的领域检索系统查询的方式大多是基于关键词或 者内容分类目录进行查找的,很少有进一步的智能化处理。 2 ) 从数据源质量来看 人们对查询要求有很好的全面性和时效性,这就对数据库资源的质量提出了严 格的要求。无论是什么类型的联机检索系统,数据源都是其核心。即使再先进的领 域检索系统,如果没有高质量的数据库资源,那也没有什么价值。 5 页士学位论文 m 人s t e r st i t i s i s 特别是我们国家领域数据库的发展和建设起步比别人晚,目前总体水平还是比 较低,这表现在: ( 1 ) 领域数据库的容量较小,履盖年限短,时效性差: ( 2 ) 领域数据库规范性差,数据库服务能力差: ( 3 ) 领域数据库的开发缺乏市场意识: ( 4 ) 领域数据库建设中的小型、交叉、重复问题等较严重。 1 3 本文的主要内容和意义 1 3 1 本文研究的目的和内容 1 ) 本文研究的目标 本文研究目标是在深刻理解本体理论的基础上,利用基于生命周期方法构建大 学本体。然后在传统信息检索的基础上结合大学本体u 0 实现基于该本体的信息检 索系统原型,从而提高检索的质量与效率。 2 ) 本文研究的内容 本文研究的内容如下: 首先分析传统信息检索的缺陷,指出其不足,引入语义网以及本体概念,并详 细介绍了本体相关理论。 ( 1 ) 系统研究了本体建模的主要方法,针对己有本体建模方法的局限性,借鉴软件 工程学中基于软件生命周期的建模方法,用基于本体生命周期的方法来构建本体 u o 。构建了大学本体u 0 。 ( 2 ) 在对领域本体知识检索过程进行系统分析的基础上,根据检索系统灵活性、 高效性的要求,设计了领域智能信息检索模型的三层体系结构概念模型。在此体系 结构概念模型的基础上分别设计并实现了基于大学本体的信息检索系统。 1 3 2 本文研究的意义 在当前信息爆炸的时代,对信息检索的要求也正在向纵深方向发展,人们在进 行信息查询时,不仅希望能够查询出所有感兴趣的信息,过滤掉无关的信息,同时 希望获得最有参考价值的信息,以最快的速度解决问题。这就要求信息检索系统能 够正确的理解用户的信息需求,同时具备对数据源进行语义分析表述及推理的能 力。针对这一客观问题,本文在研究本体理论的基础上,构建了大学本体,并构建 了基于该本体的领域智能检索系统原型,该系统原型的检索结果更加贴近用户的需 6 硕士学位论文 m a s t e r st i j e s is 求,同时能够更加合理地组织现有的数据资源。 一般来说,数据源的质量是制约查询结果的关键性因素,我们在提高数据源质 量的同时,改进查询思想一一基于本体的语义检索,充分挖掘数据源内部的隐含的 语义关系,这在很大程度上弥补数据源质量的不足,能够有效的提高信息查询的质 量和效率。 本文的研究意义在于: ( 1 ) 本文详细介绍了利用基于生命周期的方法构建本体的过程,为构建领域 本体提供了方法,给出了如何增加领域概念问的语义关系。 ( 2 ) 通过研究开发基于本体的试验性领域应用模型,实现基于本体的智能检索, 从而揭示基于本体的知识体系在信息检索方面的实力和前景。 1 3 3 本文章节安捧 本文共分五章,其主要章节内容如下: 第一章“绪论”,介绍了整个课题的背景,提出研究内容和主要工作,对本文 的工作进行了整体介绍。 第二章“本体理论概述”,首先介绍了语义网技术,从而引出本体概念。然后 对本体相关的知识与技术做了详细的介绍与分析。并对本体构建工具也做了详细说 明。 第三章“领域本体构建的研究”,根据现有的本体建模方法,结合本体自身特 性以及软件工程学中基于软件生命周期的建模理论,来指导大学本体的构建。 第四章“基于本体的大学领域信息检索系统的设计及其原型实现”,详细介绍 了领域本体的智能检索的一般过程并设计了基于大学本体智能检索模型的三层体 系结构。最后在此体系结构上实现了基于大学本体智能检索系统原型。 第五章“结论与展望”,总结全文,提出了本文所作的研究并总结了工作中的 不足,对后期的工作研究方向做了说明。 石页士学位论文 m a s 丁e r 。st i i e s i s 第二章本体理论概述 本章先介绍语义网知识基础,再详细介绍本体的概念,分类,功能,构建原则 以及领域本体的构建方法,最后对本体的描述语言作了简要介绍,为后续建立领域 本体奠定了基础。 2 1 语义网基础 2 1 1 语义网的概念与目标 当前,万维网上的各种资源呈几何级剧增,但是这些资源往往缺乏好的内部组 织和整理,使得人们很难充分利用。语义网相关技术能够为网络上的资源提供计算 机可以理解的信息,给出计算机可以理解的表示资源的方法,最终使得人们能够更 加充分的利用网络资源。 w 3 c 组织面临的一个任务就是如何发挥万维网的“最大潜能”。根据其主席t i m b u r n e r s l e e 的观点:w e b 就是一个可以通过网络访问的信息空间,它的“全部潜 能”首先在于,w e b 中人与人之间可以相互交流;其次,在这个空间的软件代理可 以通过处理各种信息,成为人们同常工作的高效率工具硌1 。 现在的w e b 的问题就是它仅仅是一个为人类通信、阅读信息设计的空间。w e b 上的语言,比如h t m l ,c s s 等等仅仅规定了如何在屏幕上将内容显示出来,计算机 在其功能也就仅限于此,它实际上无法理解w e b 资源的含义,即使这些信息是从数 据库中提取出来的,结构良好的w e b 页面,结果也没什么不同。因为信息仍然只包 含在为显示格式而定义的h t m l 标识中,这种结构可以说是进一步发挥w e b 潜能的 一大障碍。 如果要解决这样的问题,就必须让机器理解并处理w e b 上的信息。直观的想法 是提高机器的智能,让机器通过自主学习来理解网络上的信息。这一方法实现困难 较大,因为人工智能的理论与技术尚未达到支持这一功能的实现水平。另一种方法 就是语义网的方法,这是个相对来说较为可行的方案。 语义网是由w 3 c 组织领导,多个研究机构参与的一个项目。根据l e e 的定义: “语义网是对当前的万维网的一个扩展,其中的信息都具有良好定义的语义,能够 很好地使计算机和人类合作完成工作。”田1 在使用传统的搜索引擎检索数据的时候,通常会附带大量与所需要材料毫不相 硕士学位论文 m 人s t e r st l ”? s i s 关的“副产品”,我们不得不花费大量时间,人工地在这些海量信息中进行二次检 索,这都是因为计算机不能理解信息的含义造成的。语义研究的主要目的就是扩展 当前万维网,使得网络中信息具有语义,以便于计算机理解和处理,从而便于人与 计算机,计算机与计算机之间的交互。 按照语义网的设想,如果计算机能够有效的理解存储在计算机或互联网上的资 源,那么我们就能实现查全率和查准率更高的检索系统。为了让计算机能够理解网 络上的信息,这就不得不依赖我们后面要提到的本体。 2 1 2 语义网技术架构 语义网的思想n 町就是利用元数据( m e t a d a t a ) 语言对w e b 信息资源的内容进行 语义上的描述,从而使计算机能够利用这些语义信息对信息资源的内容进行理解和 处理,并在此基础上实现更高级的、基于知识的智能应用。语义网中采用的知识表 示方法,是为了满足计算机能够理解w e b 上的内容,并对其进行判断和推理,满足智 能代理( a g e n t ) 对w e b 上异构分布信息有效访问和搜索的需要,而产生的基于本体 知识表示方法的新思想。因此,语义w e b 中的语义与对客观存在的概念化以及描述 认知结果的语言密切相关,而定义这种语义的核心就是在数据的相互关系中定义数 据的含义。 语义网的建设分三个步骤:通过标记语言( 如) ( m l ) 定义一套术语,用r d f 、 o w l 等本体描述语言对其进行基本的语义描述,形成某个领域的本体,这样不断地在 网络中建设很多本体:然后编制软件,能够根据本体之间的关系进行推理:最后基于 推理软件建设应用。 当今万维网上的信息杂乱的、无序的,将数据内容和显示形式混在一起,其中 不同“层次”的信息没有区别对待,这就导致了人们在信息的使用上的困难。因此, 语义万维网首要解决的问题就是建立起合理的信息层次结构,使信息资源是良好而 且有序的,那么信息的内容与显示也就自然分开,那么我们利用网络信息资源就方 便多了。 “万维网之父 t i mb e n n e r s l e e 认为n :语义网将会给网页有意义的内容带 来结构,从而为网络中代理了用户复杂需求的a g e n t 提供一个具有足够信息丰度的 环境。他为未来的网络发展提出了基于语义的体系结构一语义网体系结构n2 i 。如图 2 1 所示,从底层到高层分别为:u n i c o d e 与u r i 、) ( m l 、r d f ( s ) 、0 n t 0 1 0 9 y 、l o g i c 、 p r o o t 、t r i j s t 。 9 硕士学位论文 m a s t f r st i i f s i s 、 锯t f 凑 d e s 荔 d o c 。鬻 ;1 酾 飞;鼬淞:ll 骶缎 型一 d 茂t 覆溺辨:p 豹黪篱碧 縻繁齑耐 _ 。 图2 一l 语义网体系结构 1 ) u n i c o d e 和u r i 层 这是语义网的最底层。u n ic o d e 是一个字符编码系统标准,支持世界上所有主要 语言文本的混合,它可以保证我们使用国际化、通用化的字符集,避免不同类型字符 集之i 、日j 由于编码不同而造成的存储、传递和使用上的混乱,同时也可以实现多闰语 言的混合存储和使用。负责标识资源的u r i ( u n i v e r s a lr e s o u r c ei n d j c a t o r ) 是 u r l ( u n v e r s a lr e s o u r c ei o c a t o r ) 的超集。u r i 是i n t e r n e t 资源的一种识别方法, 在语义网中,任何可以被描述的事务都可以称为资源,每一个资源都由唯一一个u r i 所标识,不同的资源拥有不同的u r i ,通过指定的u r i 可以确定互联网中唯一一个资 源( 即定位的唯一性) 。 2 ) x m l + n s + x m i s c h e m a 层 这是语义网中首要的关键技术,也足整个体系结构的基础。用于从语法上表示 数据的内容和结构,通过使用标准的格式语言将网上资源和信息的表现形式、数据 结构j 内容分离。 x m l 是种允许白定义标记的通用、结构化的描述语言,己经成为描述w e b 文档 和数据的标准化语言。名称空问n s ( n a m c s p a c e ) 为) ( m l 文档中的结构化标记提供了 上下文环境,一方面为文档中的每一个标记都提供了确切的含义,另一方面将不同 上下文环境相同名称的标记区分开来,从而避免了语义上的歧义。x m l s c h e m a 在标记 的使用和文档机构卜,为x m l 文档提供了明确的语义限制,最终确保每一个) 【m l 文档 都是语义合法、结构完整、内容有效的。 3 ) r d f + r d fs c h e m a 层 其提供的语义模型用于描述w e b 上的资源及其类型,为网上资源描述提供了一 1 0 硕士学位论文 m a s t e r st i e s i s 种通用表示框架,以实现数据集成的元数据解决方案。 r d f ( r e s o u r s ed e s c r i p t i o nf r a m e w o r k 资源描述框架) 定义了一种用以描述资 源及其相互关系的简单模型,是语义网实现的关键技术之一,是语义信息描述的有 效手段。其基本数据模型包括三类对象:资源、属性和陈述。资源之间的关系通过 属性和值来描述。描述特定资源特定属性的值,就构成的r d f 一个陈述,通常可以用 三元式 描述。其中,被描述的资源称为s u b j e c t ,描述 资源的属性称为p r e d i c a t e ,o b j e c t 则是属性对应的值。r d f 建立在) ( m l 和u r i 的基 础上。 r d f 通过属性和值描述资源及资源之间的关系,但并没有提供描述这些属性和 属性之间关系的机制。r d fs c h e m a ( 简称r d f s ) 提供了这种表达机制,它描述了r d f p r o p e r t i e s 的使用规则,为r d f 提供了领域字典,并用类型层次结构来组织该字典, 从而构成完备的语义空间。r d f 和r d fs c h e m a 合称r d f ( s ) 。 ) ( m l 和r d f 都能为所描述的资源提供一定的语义。但是) ( m l 中的标签和r d f 中 的属性集都没有任何限制,) 【m l 和r d f 不能处理以下问题:同一概念有多种词汇表示: 同一词汇表示多种概念。这一问题需要在本体层得到解决。 4 ) 0 n t o lo g yv a c a b u l a r y 层 语义网的核心层,用来定义应用领域中的共享知识,从而对各种资源之间的语 义关系进行描述,揭示资源本身以及资源之间更为复杂和丰富的语义信息。语义信 息的交流必须以共同的理解为前提,否则双方就会发生误解和不理解。在语义网中, 这一共同的“理解”,即共同的语义空间,是由本体建立和提供的。关于本体理论的 详细讨论见后面章节,它是本文研究的基础所在。 5 ) 本体的上层:l o g i c 、p r o o f 和t r u s t 层 这三层位于语义网体系机构的顶部,也是语义表达的高级要求,目前正处于研 究的阶段,也有一些简单的示范性应用系统正在建设中。其中,逻辑层提供了推理规 则的描述手段,证明层通过运用这些规则进行逻辑推理和求证,而信任层则负责为 应用程序提供一种机制以决定是否信任给出的论证。 6 ) 数字签名( d i g i t a ls i g n a t u r e ) 在这个层次结构中,上层将下层的语言机制作为本层的支撑语言。通过分析器, 从合法有效的下层描述中抽取出本层所能理解的模型,实现更多的语义处理功能。 因此,语义网是向下兼容的,当用r d f ) ( m l 表达0 w l 时,如果只有r d f 分析器,可以部 分理解该本体内的类结构,只要忽略其中带“o w l :”前缀的元素即可,但能完全解释 该本体内的所有实例,因为这只是语法相关的。由于w e b 上的海量信息不可能在短 硕士学位论文 m a s t f r st h e s i s 时间内全部建立语义标记,而且语义的标记方法也将不断发展,这种向下的部分可 解释性为语义网的发展提供良好的基础。 语义网描述的是一副美好的蓝图,最终得到一个可信任的万维网,从而人们可 以方便快速的在万维网上得到自己想要的信息,快速获取知识。但是语义网的实现 是一个长期过程。从目前的情况来看,语义网的下面三层的研究已经开展了较长的 时间,研究成果相对较多,并推出了一系列的标准,可以说为语义网的实现奠定了 较坚实的物质基础。本体层和逻辑层成为语义网研究的热点也是难点。这也正是本 文所要研究的重点。 2 2 本体论 2 2 1 本体的概念 本体( 0 n t o l o g y ) n 3 1 又称为实体,源自于形而上学的哲学分支,它对客观世界的 事物进行分解,发现其基本的组成部分,进而研究客观事物的抽象本质。近年来,本 体的概念被越来越多的应用于计算机知识工程领域,用于对客观世界的存在进行系 统化描述,方便知识的重用和交互。人们己经从不同的角度和方面为本体论概念进 行了定义,其中比较著名的有“本体是概念模型的明确的规格说明”和“本体是共 享概念的一个形式化的规格说明”。 目前获得大部分研究者公认的本体定义是t o mg r u b e r n 羽于1 9 9 4 年在 s r k b ( s h a r e dr e u s a b l ek n o w l e d g eb a s e s ) 的邮件列表中提出的定义:“本体是关于 共享概念的协议。共享概念包括对领域知识建模的概念框架、可互操作的系统通信 协议和特定领域理论的表示协议。在知识共享环境中,本体以定义表达词汇的形式 来获得描述。 概括为“本体是概念模型的明确的规范说明 。f e n s e l n 2 1 对这个定义 进行分析后认为本体的概念包括四个主要方面: 1 ) 概念模型( c o n c e p t u a li z a ti o n ) :客观世界中现象的抽象模型; 2 ) 明确( e x p l i c t ) :概念及它们之间联系都被精确定义; 3 ) 形式化( f o r m a l ) :精确的数学描述; 4 ) 共享( s h a r e d ) :本体中反映的知识是其使用者共同认可的。 虽然不同研究者对本体有不同的描述,但是从内涵上来看,他们对本体的认识 是一致的,都是把本体当作某个领域内不同主体( 人、代理、机器等) 之间进行交流 的一种语义基础,即由本体提供明确定义的词汇表,描述概念和概念之间的关系,作 为使用者之间达成的共识。因此,本体的用途包括交流、共享、互操作、重用等。 1 2 硕士学位论文 m a s t e r 。st i i f s i s 2 2 2 本体的分类 目前关于本体的研究非常广泛,尤其是在国外,许多研究组织和机构都研究建 立了各种各具特色的本体。针对目前出现的各种各样的本体,也出现了不同的分类 方法,最为广泛的分类方法是根据本体应用主题,将这些为数众多的本体划分为五 种类型: 1 ) 领域本体:领域本体在一个特定的领域中可重用,它们提供该领域特定的概 念定义和概念之间的关系,提供该领域中发生的活动以及该领域的主要理论和基本 原理等。对特定领域的本体研究和丌发目前已涉及许多领域,包括企业本体、医学 概念本体、酶催化生物学本体、陶瓷材料机械属性本体等。 2 ) 通用或常识本体:关注于常识知识的使用。通用知识本体的研究包括著名 c y c 的公司的o p e n c y c 本体,最新版的0 p e n c y c 包括6 0 0 0 个概念和6 0 0 0 0 个关于这 些概念的声明( 包括概念间的关系、对概念的限制等) ,另外o p e n c y c 还包括一个基 于本体论的常识推理机。 3 )
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 创新技术面试题目及答案
- 文化娱乐行业线上线下融合发展趋势报告
- 邮储银行2025南平市半结构化面试15问及话术
- 工商银行2025黄南藏族自治州金融科技岗笔试题及答案
- 2025年3D打印技术的快速成型
- 邮储银行2025宣城市数据分析师笔试题及答案
- 2025年3D打印技术的产业变革潜力
- 中国银行2025岳阳市秋招面试典型题目及参考答案
- 农业银行2025巴彦淖尔市秋招英文面试题库及高分回答
- 建设银行2025白山市秋招无领导小组面试案例题库
- 社区安全知识培训资料课件
- 托盘运输知识培训内容课件
- 2024年春季云南省高中学业水平合格性考试化学试卷真题(含答案)
- 2025年不明原因肺炎应急演练预案范文
- 子宫腺肌病课件
- 2025年小学语文教师业务理论考试试题及答案教材过关题库
- 商标侵权认定培训课件
- 新版膳食指南2025电子版
- 卒中救治中心建设汇报
- 2025年放射工作人员培训考试试题(+答案)
- 公寓管家培训课件
评论
0/150
提交评论