(计算机软件与理论专业论文)模糊语义网及其演化研究.pdf_第1页
(计算机软件与理论专业论文)模糊语义网及其演化研究.pdf_第2页
(计算机软件与理论专业论文)模糊语义网及其演化研究.pdf_第3页
(计算机软件与理论专业论文)模糊语义网及其演化研究.pdf_第4页
(计算机软件与理论专业论文)模糊语义网及其演化研究.pdf_第5页
已阅读5页,还剩62页未读 继续免费阅读

(计算机软件与理论专业论文)模糊语义网及其演化研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

模糊语义网及其演化研究 学科:计算机软件与理论 研究生签字: 关邛够 指导教师签字:弛 摘要 语义网的概念是b e m e r s l e e 2 0 0 0 年提出的,目标是让w e b 上的信息能够被机器理解, 从而实现w e b 信息的自动处理,以适应w e b 资源的快速增长,更好地为人类服务。目前, 语义网的理论都是把资源的信息和资源间的关系看成是确定不变的。然而,信息的语义在 不同的领域、不同的文化、不同的社会环境中有所不同;同时,信息的语义还会随着外界 因素的变化而发生演变。所以就需要把语义网的理论进行扩充,引入描述资源的模糊性、 资源间关系的模糊性及其发展变化的成分。因此,本文在研究语义网的现有理论的基础上, 提出了模糊语义网的概念,并对其核心层模糊资源描述框架f r d f 进行了形式化描述, 同时,给出了模糊语义网的演化算法,并进行了模拟实验。 本文具体做了以下研究工作: 1 ) 研究了语义网的思想及发展现状,重点研究了语义网的七层架构,特别是r d f ( s ) 和本体两个层次,分析了它的不足。 2 ) 研究了认知图和神经网络原理,特别是模糊认知图与反馈神经网络的理论,为模 糊语义网的提出和演化提供理论依据。 3 ) 提出了模糊语义网的概念,将模糊认知图原理应用到资源描述框架r d f ( s ) 中,为 资源描述框架三元组中的属性添加了权值,用以表示模糊性,形成了模糊资源描述框架 f r d f ( f u z z yr e s o u r c ed e s c r i p t i o nf r a m e w o r k ) ,以提高复杂知识及语义的表示与处理能力。 4 ) 研究了模糊语义网的演化,把反馈神经网络的原理用于模糊语义网的演化,提出 了模糊语义网的演化算法。 本文在理论研究的基础上,初步构建了模糊语义网及其演化的模拟系统,以验证演化 的模糊语义网在提高信息检索智能化方面的应用前景。 关键词:语义网;模糊认知图;反馈神经网络;模糊资源描述框架;模糊语义网 r e s e a r c ho nt h ef u z z ys e m a n t i cw e ba n di t se v o l u t i o n d i s c i p l i n e :c o m p u t e rs o f t w a r ea n dt h e o r y s t u d e n t s i g n a t u r e : s u p e r v i s o rs i g n a t u r e : 忱侈锄 跏歹一 a b s t r a c t t h ec o n c e p to ft h es e m a n t i cw e bw a sa d v a n c e db yb e r n e r s - l e ei n2 0 0 0 t h et a r g e to ft h e s e m a n t i cw e bw a st h a ti n f o r m a t i o no nt h ew e bc a l lb ec o m p r e h e n db yc o m p u t e r a c c o r d i n g l y , i n f o r m a t i o no nt h ew e bc a l lb eh a n d l e ds p o n t a n e o u s l yt oa c c o m m o d a t et h eq u i c kg r o w t ho f r e s o u r c e so nt h ew e ba n dg a v eb e t t e rs e r v i c et oh u m a n a tp r e s e n t , t h et h e o r i e so f t h es e m a n t i c w e b p u ti n f o r m a t i o na n dr e l a t i o n so fr e s o u r c e s 嬲d e f i n i t i v e h o w e v e r , t h es e m a n t i cm e a n i n g o f i n f o r m a t i o ni sd i f f e r e n ta m o n gd i s t i n c td o m a i n , c u l t u r ea n ds o c i a le n v i r o n m e n t m e a n w h i l e ,t h e s e m a n t i cm e a n i n ga l s oe v o l u t e sa l o n gw i t ht h ec h a n g eo ft h ee x t e r n a lw o r l df a c t o r s o e x p a n d i n gt h et h e o r yo ft h es e m a n t i cw e ba n dp u l l i n gi na m b i g u i t yo fr e s o u r c ed e s c r i p t i o n , r e l a t i o n sa m o n gr e s o u r c e sa n dc h a n g e so ft h a tr l en e e d e d t h e r e f o r e ,t h et h e s i sr e s e a r c h e d e x i s t i n gt h e o r yo ft h es e m a n t i cw e b o nt h i sb a s i s ,p u tf o r w a r dt h ec o n c e p to f t h ef u z z y s e m a n t i cw e ba n dd e s c r i b e dt h ef u z z yr e s o u r c ed e s c r i p t i o nf r a m e w o r kf o r m a l l y a tt h e s a m et i m e ,t h et h e s i sg a v ee v o l u t i o n a r ya l g o r i t h mo ft h ef u z z ys e m a n t i cw e ba n dd i da n a l o g e x p e r i m e n t t h et h e s i sd i dt h ef o l l o w i n gr e s e a r c hw o r ks p e c i f i c a l l y : 1 1r e s e a r c h e dt h em i n da n dd e v e l o p m e n ts t a t u so ft h es e m a n t i cw e b ,s e v e na r c h i t e c t u r e o ft h es e m a n t i cw e be m p h a t i c a l l ya n dt w ol e v e l st h a tr d f ( s ) a n do n t o l o g ys p e c i f i c a l l y a n a l y z e dt h a tw e a kp o i n t 2 ) d i s c u s s e dt h et h e o r yo ft h ec o g n i t i v em a pa n dt h en e u r a ln e t w o r ks p e c i a l l yt h e t h e o r yo ft h ef u z z yc o g n i t i v em a pa n dt h ef e e d b a c kn e u r a ln e t w o r k p r o v i d e dt h e o r e t i c a l b a s i sf o ra d v a n c i n ga n dd e v e l o p m e n to ft h ef u z z ys e m a n t i cw e b 3 ) b r i n g e df o r w a r dt h ec o n c e p to ft h ef u z z ys e m a n t i cw e b a p p l e dt h et h e o r yo f t h e f u z z yc o g n i t i v em a pt or d f ( s ) a d d e dw e i g h tt op r o p e r t yo ft h er e s o u r c ed e s c r i p t i o n f r a m e w o r kt r i p l e st o e x p r e s sa m b i g u i t ya n df o r m e d t h ef u z z yr e s o u r c e d e s c r i p t i o n f r a m e w o r k s o 勰t oe n h a n c et h ea b i l i t yt oe x p r e s sa n dd e a lw i t hc o m p l e xk n o w l e d g ea n d s e m a n t i c 4 ) s t u d i e de v o l u t i o no ft h ef u z z ys e m a n t i cw e b a p p l e dt h et h e o r yo ft h ef e e d b a c k n e u r a ln e t w o r kt oe v o l u t i o no ft h ef u z z ys e m a n t i cw e ba n dp r o p o s e de v o l u t i o n a r yf l g o f i t h m o ft h ef u z z ys e m a n t i cw e b t h et h e s i sc o n s t r u c t e dt h ea n a l o gs y s t e mo ft h ef u z z ys e m a n t i cw e ba n de v o l u t i o n p r e l i m i n a r i l yo nt h eb a s i so ft h e o r e t i c a lr e s e a r c h i no r d e rt o t e s ta n dv e r i f ya p p l i c a t i o n p r o s p e c t so fg r o w i n gf u z z ys e m a n t i cw e bo ne n h a n c i n gi n t e l l i g e n to fi n f o r m a t i o ns e a r c h k e yw o r d s :s e m a n t i cw e b ;f u z z yc o g n i t i v em a p ;f e e d b a c kn e u r a ln e t w o r k ;f u z z y r e s o u r c ed e s c r i p t i o nf r a m e w o r k ;f u z z ys e m a n t i cw e b 学位论文知识产权声明 本人完全了解西安工业大学的有关保护知识产权的规定,即:研究生在校攻读学位期 间学位论文工作的知识产权属西安工业大学。本人保证毕业离校后,使用学位论文工作成 果或用学位论文工作成果发表论文时署名单位仍然为西安工业大学。学院有权保留送交的 学位论文的复印件,允许学位论文被查阅和借阅;学校可以公开学位论文的全部或部分内 容,可以采用影印、缩印或其他复制手段保存学位论文。 ( 保密的学位论文在解密后应遵守此规定) 学位论文独创性声明 秉承学校严谨的学风与优良的科学道德,本人声明所呈交的学位论文是我个人在导师 指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地 方外,学位论文中不包含其他人已经发表或撰写过的研究成果,不包含本人已申请学位或 他人已申请学位或其他用途使用过的成果。与我一同工作的同志对本研究所做的任何贡献 均已在论文中作了明确的说明并表示了致谢。 学位论文与资料若有不实之处,本人承担一切相关责任。 学位论文作者签名: 指导教师签名: 日期:2 。97 年 乱 u日 稍埽p i _ 火v 硐1 l 绪论 w e b 是互联网上最重要的上层应用,它一方面作为信息的载体,以丰富的表现形式 将信息及时重现;另一方面还提供各种检索和查询服务,使人们能方便获取所需信息。尽 管w e b 诞生至今只有短短的十多年,但人类对它的关注和频繁使用极大地促进了这项技 术的不断发展和革新。从最初的静态h t m l 页面,到现在的动态w e b 页面;从最初对内 容的简单描述,到今天将内容的结构和表示分离处理,无论w e b 的功能还是关键技术都 发生了重大的变化。但到了2 0 世界9 0 年代中期,随着w e b 信息量的膨胀,人类意识到 缺乏自动处理w e b 海量信息的有效技术。针对这些问题,b e m e r s l e e 于2 0 0 0 年提出了下 一代w e b 的概念语义网。语义网将改变计算机在w e b 中的角色,使得它不但可以保 存和重现信息,而且能对信息进行智能化处理。 1 1 问题的提出及研究意义 1 1 1 问题的提出 知识的记录和传播是人类文明延续和发展的根本保证。从远古的结绳记事和烽烟传j 一 信,到现代大容量高速度的存储设备和便捷的无线电、光纤通信设备,人类知识比以往低 何时代都更容易被保存、组织、传播和检索。特别在信息时代的今天,w e b 极大地改变 了人类利用知识的形式。w e b 是互联网上最重要的上层应用,它一方面作为信息的载体, 以丰富的表现形式将信息及时重现;另一方面还提供各种检索和查询服务,使人们能方便 获取所需信息。w e b 的高速发展使得它很快成为一个庞大的知识库,但同时带来很多问 题。 1 ) w e b 信息无法被自动处理。当前的w e b 无论是手写的h t m l 网页,还是根据查 询动态生成的网页,其目的都是供人阅读,计算机只负责显示这些信息,而没有理解和处 理w r e b 信息的能力。因此,在w e b 上很难开发各种智能应用。 2 ) w e b 信息无法被有效利用。w e b 的规模不断变大,这对w e b 信息的有效利用提 出了巨大挑战。基于传统技术的搜索引擎已经无法应对w e b 这个日益庞大的知识库。以 最强大的搜索引擎g o o g l e 来说,它目前能搜索8 0 亿之多的w r e b 页面,但这仅仅占整个 w r e b 规模的2 5 - - 3 0 ,也就是说大量的w r e b 信息无法被搜索到l l j 。同时,由于计算机无 法精确识别w e b 上的内容,当前搜索引擎返回的信息要么过多,要么过少,搜索结果的 质量并不令人满意。 3 ) w 曲服务存在异构问题。在w e b 服务方面,尽管提出了u d d i 、w s d l 等技术标 准,但仍然存在很多尚待解决的问题:服务发现、匹配、检索的查全率和查准率较低;服 务集成仍然需要人工干预,不能完全自动化。在c o r b a 、c o m 和e j b 等以跨平台互操 作为目标的中间件研究和应用方面,也同样存在中间件描述、检索和自动化集成等方面的 问题。无论是简单的网页信息,还是网络服务或中间件等复杂的信息和服务的聚集体,它 们的主要问题都在于:描述信息的语义二义性导致机器无法自动地理解和处理它们。 例如,如图1 1 所示,在百度搜索引擎中输入“苹果 一词,第一页返回的信息9 0 都是数码方面的,而作为水果的“苹果”只有一条信息,以“苹果 为品牌的服装牛仔系 列和电影苹果等信息却没有显示。也就是说,当前的搜索引擎在检索时只考虑了部分 用户的偏好情况,不全面。 盼i 盘百度 赶既酷魁跬霾 蕴鲤弼页鳌竖笈道巡銎匿监援短超蕴 整猢 率累龟骑公霹,提供耀关的攥作燕绕翻饶频皱俘筹 w w w a p p l e c o m c n 1 0 k2 0 0 9 - 3 - 9 匿蔗送照 墼塑丝;登倒曼:妄壁塑:登上麴墓壅缝毽 蔓差= 基激 麴有6 1 ,7 1 5 + 孳粟相关的视频鼙访山寨“苹果咩执v y o u k u c o m 苹桑苹暴t o u c h _ 高i 羹怒n u k u a i 1 e a r n e r s 。c n 一岁生日嗡苹果分类:一岁生b 嗡苹, v i d e o ,b a i d u ,c o m 杉嘲稍= 苹袅2 0 0 9 - 3 - 罐 苹果百度百科 苹果禽奢多种维生豢、矿物质、糖樊、艨膀筹构成尢瞻所必须的蕾养成分。苹鬃中的纤 维,对凡蠢的生长发鬻膏益。能健遂生长和发1 1 。苹果中的獭t j l l 的记忆有益,能麓剃u l 的记忆力但苹凝中的酸能腐挺妙f 落屹竞苹果后最好漱漱口l b a i k e 。b a i d u c o m v i e w 1 3 3 1 。h t m7 5 k2 0 0 瓤粥囊壤婕髓 叁眺 苹果黢份宥敝公霹给p 纠ei n c 一俺称擎暴公司,n a s d a q :a a p l 。l s e :a c p ) ,蔗秫苹果电磨c a p p l ec o m p u t e f ) , 2 0 0 7 年1 r9 e l 午旧金山的m a c w o r l de x p o _ l :童布改名总部位平羹嗣加稠 福尼亚媳摩比提诺。接,渊2 务是电牛科技产晶,目麓全球毫眩市场占有率为3 捌孵a p p l e c o m j9 k2 0 0 9 3 4 - 堇瑾迭殛 整墨生图:i 2 垒垡l 迦鲮 苹果公弼僚管所有投稠。使用繁软l 客户私黼内容供应状况随时曩r 能改变。莱些内容 可能在特定地区无法摄供。不代表名入代麓。部份应用程序棚_ 苄所有地区。疲用授 序的发馨状况和输播均可能有所变动k a n y ew e s tg r a d u a t i o na l b u m 觚 图1 1 检索示例 此外,当前的搜索引擎在进行检索时,没有考虑同一用户先前的检索情况,以至于检 索的查准率较低。先前用户输入的查询术语是“雪莲果 ,随后这一用户又输入“苹果 。 根据前一次用户的输入,应该可以推断出,此次用户的偏好是水果中的苹果,而不是数码 方面的信息或是其他方面的可能性要大些。但是,此次返回的信息仍和图1 1 完全一样。 2 随着w e b 上信息量的不断增加,上述的这些问题还会进一步加剧。作为一个全球性 的信息网络,w e b 还远没有充分发挥它的潜能。机器不能自动地、有效地、有目的地发现、 集成和复用w e b 上的各种数据,这正是创建智能化w e b 服务的根本障碍。 针对上述问题,b e m e r s l e e 于2 0 0 0 年提出了下一代i n t e m e t 的概念语义网 ( s e m a n t i cw e b ) ,并首次给出了语义网功能逐层增强的层次结构图,指明了语义网的研 究框架。语义网中的层次关系基于x m l ( 可扩展标记语言,e x t e n s i b l em a r k u p l a n g a u g e ) 和r d f r d f s ( 资源描述框架,r e s o u r c ed e s c r i p t i o nf r a m e w o r k 资源描述框架 大纲,r d fs c h e m a ) ,并在此之上构建本体和逻辑推理规则,以完成基于语义的知识表示 和推理,从而能够为计算机所理解和处理。 目前,r d f 数据模型描述的资源之间的关系都是某种确定的关系;描述的信息都是 确定的信息。但是,在现实世界中存在很多模糊信息,同时信息之间的关系也具有模糊性。 那么,这就要求r d f 数据模型将w e b 上资源本身的模糊性及资源间关系的模糊性表示出 来。在此基础上的逻辑推理能够更接近人的思维,增强了计算机的智能性。而且,信息的 语义在不同的领域中,不同的文化、社会环境中有所不同。同时,信息的语义还会随着外 界因素的变化而发生演变。那么,r d f 数据模型如何描述w e b 资源的模糊性及资源间关 系的模糊性? 在模糊性的基础上,信息语义是如何随外界因素变化而发生演变的呢? 这正 是本文研究的内容。 1 1 2 研究意义 模糊语义网设想的提出,使得w e b 上的资源具有模糊性,资源间的关系也同样具有 模糊性。并且,这种模糊性的大小会因为外界因素的影响而发生改变。这使得网络虢:像人 的大脑一样,对事物的认知不全是确定无疑的,而是存在着很多的不确定性即模糊性,对 事物的认知理解会随着种种因素的改变而改变。简单的说,就是网络将能够像人脑一样思 考,成为智能网络。 因此,本文选取语义网作为毕业设计研究内容,在阅读了大量语义网相关资料的基础 上,提出了模糊语义网的设想,并研究模糊语义网演化的情况。希望通过对语义网的学习 研究,能够为语义网的发展添加新的思想元素,为语义网的研究发展贡献自己的一份力量。 1 2 国内外研究现状 当前国际上关于语义网的研究刚刚处于起步阶段,而我国对语义网的研究不论是从标 准规范、系统试验、研究深度,还是从规模层次、具体应用方面都相对落后。令人欣慰 的是,我国学者已经认识到了语义网及其相关技术对未来互联网发展的影响,并开始着手 研究语义网及其相关的关键技术与应用。 当前对语义网的概念还没有形成统一的定义,对语义网的理解表述不一。如语义网是 “第三代w e b ,其目标是实现机器自动处理信息,它提供诸如信息代理、搜索代理、信 息过滤等智能服务 【2 1 ;语义网“不同于现存的万维网,其数据主要供人类使用,新一 3 代w w w 中将提供也能为计算机所处理的数据,这将使得大量的智能服务成为可能”【3 1 ; 语义网研究活动的目标是“开发一系列计算机可理解和处理的表达语义信息的语言和技 术,以支持网络环境下广泛有效的自动推理【4 】。语义网的创始人t i mb e m c r s l e e 对语 义网的定义如下:语义网是一个网,它包含了文档或文档的一部分,描述了事物间的明 显关系,且包含语义信息,以利于机器的自动处理【5 】。尽管对语义网的理解与描述不 同,但仍能从这些描述与理解中看出语义网的一些基本特征:语义网不同于现在w w w , 它是现有w w w 的扩展与延伸;现有的w w w 是面向文档而语义网则面向文档所表示的 数据;语义网将更利于计算机“理解与处理,并将具有一定的判断、推理能力。 ,我国学者除了对语义网进行了系统介绍以外,还就语义网及其关键技术做了一些有益 的试验与应用研究。在r d f 技术的应用方面,文献( 6 1r 7 1 分别从x m l r d f 的特点入手, 讨论了基于x m l r d f 的m a r c 和d c 元数据描述技术,并给出了具体的描述实例;文 献1 8 j 通过一个采用r d f 语法的d c 元数据实例,展示了r d f 的具体应用;文献【9 】讨论了 r d f 在关系数据库中的存储问题;文献【1 0 1 阐述了如何利用r d f x m l 技术进行自动更新 的搜索引擎的设计与实现;文献【l l 】在对r d f ( s ) 进行了简要介绍的基础上,详细讨论了一 种利用r d f 建立o n t o l o g y 的方法,并给出了相应的r d f ( s ) 示例;文献【1 2 】提出了一个基 于x m l 的新型r d f 查询语言叫r q l ,构建了一个以x r q l 为查询语言的r d f 引擎 ( n s r e ) 的体系结构,并简要探讨了相关的实现技术。 在o n t o l o g y 应用方面,文献【l l 】介绍了如何使用r d f ( s ) 表示o n t o l o g y 中的对象模型, 分析了如何在r d f ( s ) 中表示本体论中的公理,通过举例说明了如何利用r d f 技术进行 o n t o l o g y 的构建;文献【1 3 】介绍了一个基于o n t o l o g y 的企业职工能力查询系统,在构造企 业本体模型的基础上给出了相应的查询算法;文献【1 4 】从图书服务实例出发,在三个层次 上分析了o n t o l o g y 的开发思路和方法,着重就基于r d f s 的简单o n t o l o g y 开发,基于 o w l 的有复杂语义信息的o n t o l o g y 设计,以及为w e b 服务增加语义功能的d a m l s 规 范的分析应用等方面做了有益的探讨;文献【l5 】在对本体论思想进行了简要介绍的基础上, 提出了利用本体理论和方法建立知识图书馆中知识的划分、分类和组织模型,从而方便知 识的面向主题的存放和智能检索等问题;文献【1 6 】【1 7 】分别就o n t o l o g y 在数字图书馆中的应 用以及如何利用o n t o l o g y 构建知识门户进行了详细了阐述;文献【1 8 】在对本体查询和检索 思想的基础上,提出了一种语义网上本体查询和检索的新方法;文献【1 9 】提出了一种支持 语义w e b 模糊本体的描述逻辑。 早在2 0 0 2 年,语义w e b 技术就被国家8 6 3 计划列为重点支持项目,清华大学、东南 大学、上海交通大学和中国人民大学都是国内语义w e b 及其相关技术的研究中心。东南 大学的语义w e b 本体映射研究有一定的国际影响,清华大学的语义w e b 辅助本体挖掘系 统s w a r m s 、上海交通大学的本体工程开发平台o r i e n t 都代表了国内语义w e b 研发水 平。 尽管如此,目前实用性的语义w e b 应用仍然比较少,其主要问题1 2 0 如下: 4 1 ) 通用的本体相对缺乏。由于开发人员的素质和开发目的不同,很难对相关领域的 一些共享的概念达成共识。 2 ) 缺乏工程化的本体构建方法。目前本体的开发正在从技术开发到工程阶段过渡, 比如一种基于软件工程中的螺旋模型的原型法本体构建方法,具体过程包括需求分析、信 息收集、术语识别、形式化编码、确认和评估,并取得了成功。但是由于开发本体的团体 处于不同的学科领域,他们虽然总结出各个领域不同的开发方法、生命周期及体系结构, 但本体的开发过程仍然没有一个通用的开发标准。 3 ) 缺乏强有力的机构来进行组织、协调、规划本体的创建。对领域概念关系分析的 方法没有统一的指导。不同单位为了相同的目的,往往不但做了重复的劳动,而且创建了 异构的本体,这有悖于本体共享和重用的本质。 4 ) 缺乏示范性的应用。w e b 环境的知识本体至少应该满足下面的一些要求,语义共 享、演化能力、可交互性、一致性检测、表示能力和扩展能力的平衡、易用、与其它标准 的兼容、语言国际化等,这些要求决定了本体的开发需要大量的人力、物力的支持。因而 当前对本体驱动的应用理论研究比较活跃,但是缺少实际的支撑性应用。 1 3 本文的主要内容和结构安排 1 3 1 本文的主要内容 本课题的研究内容是模糊语义网及其演化研究。主要是研究语义网的七层体系结构及 每个层次的功能,在总结了语义网研究现状的基础上,重点研究了七层体系结构中的 r d f ( s ) 层和本体层。本文研究了模糊认知图的基本理论,在资源描述框架r d f 三元组理 论的基础上,添加了表示模糊性的权值一项,从而提出模糊资源描述框架f r d f ( f u z z y r e s o u r c ed e s c r i p t i o nf r a m e w o r k ) 的概念。然后将f r d f 的思想向上延伸,使本体层及再上 面的逻辑、证明和信任等层次都贯穿了模糊性,从而提出模糊语义网的框架和概念。根据 神经网络的原理与思想及演化算法理论,进一步研究模糊语义网的演化情况。 本课题的主要工作体现在以下几个方面: 1 ) 语义网基本原理与技术。研究语义网基本原理与技术,了解目前国际上及国内对 语义网研究的现状及语义网研究发展的趋向走势。研究的主要内容有语义网的思想、架构; 语义网知识表示模型、逻辑基础、表示语言、查询技术及安全。对语义网有一个整体宏观 的了解与把握,为后续研究工作奠定理论基础。 2 ) 资源描述。当前的w w w 以用超文本方式表示信息的h t m l 语言为核心,主要 关注信息的表示是否宜人阅读,而不关心信息是否能被机器理解。语义网试图扩展w w w , 描述网络信息的语义,让机器和人共同理解信息。知识表示语言是语义网的核心,该语言 表示的知识独立于特定平台,既是计算机可理解的语言,又适于人阅读和理解。r d f ( s ) 层和本体层是语义网的核心,用于表示网络信息的语义。本文深入探讨研究r d f 的概念, 数据模型及本体理论和本体语言,将模糊性应用到r d f 和本体,使语义网能够描述模糊 5 资源及资源间的模糊关系。 3 ) 本体演化。本体演化是指一个本体面对不断产生的变化要能够具备随时间变化的 适应能力。随着时间的推移,由于知识具有内在的变化性质,具有高度的动态性质;领域 的变化,对不同任务的适应性,以及本体在概念化和关系上的改变均要求给出的知识表示 方法要具备很好的动态适应性。语义网的演化实质上就是本体的演化,本文研究本体的演 化,深入探讨研究模糊语义网的演化。 1 3 2 本文的章节安排 全文共有六章组成。第一章为绪论,主要阐述了课题的研究背景,针对w e b 上海量 信息处理存在的问题,提出了本课题的研究意义和研究内容;第二章介绍了语义网及资源 描述框架r d f 。介绍了语义网的相关概念、体系结构及应用,着重研究了资源描述框架 r d f 及r d fs c h e m a ;第三章介绍了模糊认知图及神经网络的基础知识与原理;第四章介 绍了模糊语义网概念的提出及其演化的研究;第五章通过实验验证提出的理论及对实验结 果的分析与总结。第六章是对论文工作所作的总结,其中指出并分析了语义检索推理系统 中尚不完善的部分,并对将来的工作进行了展望。 6 2 语义网原理与技术 2 1 语义网概述 “语义一就是文本的含义。语义需要理解文本的意思和结构,而与显示方式无关。语 义网就好比一个巨型的大脑,它由数据库智能化程度极高,协调能力非常强大的各个部分 组成,可以解决各种难题。在语义网上连接的每一部电脑,都能分享人类历史上所有科学、 商业和艺术等知识。它不但能够理解词语和概念,而且还能够理解它们之间的逻辑关系。 在语义网中,网络不仅能够连接各个文件,而且还能够识别文件里所传递的信息。例 如:它可以让计算机辨认和识别“h e a d 一这个单词的意思是“头脑 还是“领导一;在读 者看新闻时,它能轻松地分辨出哪句是标题、哪句是导语。 2 1 1 语义网的概念 当前国际上关于语义网的研究刚刚处于起步阶段,因此,对语义网的概念还没有形成 统一的定义,对语义网的理解表述也各有不同。如语义网是第三代w e b ,其目标是实现 机器自动处理信息,它提供诸如信息代理、搜索代理、信息过滤等智能服务圆;语义网不 同于现存的万维网,其数据主要供人类使用,新一代w w w 中将提供也能为计算机所处: 理的数据,这将使得大量的智能服务成为可能 3 1 。w 3 c 是这样阐述语义网的:将机器能: 理解的数据发布在w e b 上正成为很多组织最优先考虑的工作,只有w e b 成为一个自动工 具和人能够共享和处理数据的平台,它的潜能才可能全部发挥【l 】。语义网的创始人t i m b e m e r s - l e e 对语义网的定义如下:语义网是一个网,它包含了文档或文档的一部分,描 述了事物间的明显关系,且包含语义信息,以利于机器的自动处理【5 】。 2 1 2 语义网的特征 尽管对语义网的理解与描述不同,但仍能从这些描述与理解中看出语义网的一些基本 特征: 1 ) 语义网不同于现在w w w ,它是现有w w w 的扩展与延伸; 2 ) 现有的w w w 是面向文档而语义网则面向文档所表示的数据; 3 ) 语义网将更利于计算机“理解与处理”,并将具有一定的判断、推理能力。 4 ) 语义网的目标是让w e b 上的信息能够被机器理解,从而实现w e b 信息的自动处 理,以适应w e b 资源的快速增长,更好地为人类服务。 5 ) 在语义网环境下,w e b 上定义和链接的数据不仅能显示,而且可以被机器自动处 理、集成和重用。 7 2 2 语义网的架构 根据b e m e m l e e 的设想,语义网是由一种分层的体系结构构成,如图2l 所示。这 是一个功能逐层增强的层次化结构,由七个层次构成【l i 。 图2 1 语义网体系结构 1 ) u r i + u n i c o d e ( 统一资源标识+ 国际码) u r j 和u m c o d e 层是表示语义网对象和统一使用国际字符集的基本手段。u r i 是w e b 的核心概念之一,它能唯一地标示w e b 上的任意一个资源,其思想是在需要的时候通过 连接引用资源因此不需要对资源进行拷贝或集中管理。u m c o d e 是一种新的字符编码标 准,它支持世界上所有的语言。 2 ) x m l + n s + x a m i ls c h e m a ( 可扩展标记语言+ 名字空间+ 可扩展标记语言大纲) 此层定义了语义网上语法互操作的标准。x m l 提供了文档结构化的语法,实现了文 档结构与文档表现形式的分离根据不同的目的同一个文档可以有不同的表现形式。x m l 命名空间是名称的一个集合,用于文档元素和属性名有效性的验证,由u r l 引用来标示。 x m ls c h e m a 是约束x m l 文档结构的语言。x m l 是底层的数据变换格式,它只是解决 了文档内容的次序、结构的问题,并没有解决文档内容的语义、联系的问题。标签的具体 含义的定义和互操作要交给e 一层去解决。 3 ) r d f4 - r d f 岛c h e m a ( 资源描述框架+ 资源描述框架大纲) 本层用来描述和定义语义网上的资源。x m l 实现了文档结构化,但文档信息并不包 含任何语义。r d f 数据模型提供简单的语义,r d f 属性可以看作是资源的属性,同时又 表达了资源之间的关系。 r d fs c h e m a 为r d f 模型提供了一个基本的类型系统,其目的就是定义资源的属性 定义披描述资源的类,并对类和关系的可能组合进行约束,同时提供约束违例的检测机制。 4 ) o n t o l o g yv o c a b u l a r y ( 本体词汇集) 本体层用来定义不同概念之间的关系,以支持词汇的演化。虽然r d f ( s ) 能够定义对 象的属性和类,并且还提供了类的泛化等简单语义,但他不能够明确表达描述属性或类的 术语的含义及术语间的关系。本体层( o n t o l o g y ) 就是要提供一个明确的形式化语言,以 准确定义术语语义及术语间的关系。 5 ) l o g i c 、p r o o f & t r u s t ( 逻辑、证明和信任) l o g i c 层为基于规则的系统提供一个描述公理的框架,负责提供公理和逻辑推理规则, 为智能服务提供基础:p r o o f 层执行规则并做出相应的评估,为智能代理间互相验证交换 数据的签名提供支持。t r u s t 层为应用程序是否信任一个给定的证明提供检测机制。 6 ) d i g i t a ls i g n a t u r e ( 数字签名) d i g i t a ls i g n a t u r e 简单地说就是一段数据加密块,机器和软件代理可以用它来唯一地 验证某个信息是否由特定的可信任的来源提供。它是实现w e b 信任的关键技术。 2 3 语义网的研究问题 从目前来看,语义网涉及的主要研究问题包括以下几个方面。 1 ) 语义网知识表示模型。语义网采用本体作为知识表示模型。本体形式化定义了领 域内共同认可的知识,是语义网体系中的核心。因此,如何创建和管理本体是实现语义网 上知识表示的基础。此外,本体的扩充、集成和演化及本体库的自动建立与管理等问题也 常常需要考虑。 2 ) 语义网逻辑基础。语义网的逻辑基础是描述逻辑。它是一阶逻辑的子集,+ 这个自 己具有可判定性的特点,并适合处理大规模的数据。语义网语言的表达能力直接依赖于相 应的描述逻辑,推理问题也可以由描述逻辑的推理算法实现。 3 ) 语义网表示语言。表示语言提供了语义网中的领域信息描述的基础,是语义网的 核心。语义网中需要通过表示语言来描述领域中的资源,包括分类、属性、子类关系、子 属性关系、实例关系、定义域和值域等等。目前的语义网表示语言包括x m l 、r d f ( s ) 和o w l ( w r e bo n t o l o g yl a n g u a g e ) 等。 4 _ ) 语义网查询技术。查询技术是语义网的基本技术,语义网的各种应用都离不开查 询技术的支持。语义网查询的对象是以各种语义网表示语言表示的文档或知识库,因此针 对各种表示语言,发展了各自的查询语言。 5 ) 语义网安全。安全主题是语义网实现的必要条件。语义网安全事务涉及语义网结 构中的所有层次。安全包含每一层次的安全以及互用性的安全。高层的安全依赖底层的安 全。 语义网构想了w e b 辉煌的未来。但在语义网的实现道路上还有很多尚待解决的重要 问题,而且对于这些问题研究者各抒己见,莫衷一是。并非所有的研究人员都持接受语义 网的观点,甚至有些对语义网持反对观点。无论最终的结果如何,我们都相信语义网的研 9 究会带来很多新的成果。 2 4 资源描述框架对) f 目前的w e b 模型主要支持对文本内容的浏览和搜索。随着w e b 信息的大量增加,该 模型已不能适应海量信息的交换和处理工作。语义网需要新模型以支持对w e b 信息源和 服务以及职能应用的统一访问,并用标准机制去交换数据和处理不同的数据语义。 作为本体描述语言之一的r d f 己经成为w 3 c 的建议。r d f 是元数据处理和操作的 基础。它提供了应用程序协同工作能力。语义w e b 处理的是具有固定格式的信息,所谓 的固定格式就是指r d f ,只有用r d f 描述资源信息,才能使得应用程序可以更好地识别 w e b 信息。元数据是关于数据的数据,是对资源和内容进行描述的数据。r d f 是描述w e b 资源的元数据,属于语义w e b 中的元数据层,是关于任何网络资源的元数据框架。 2 4 1r d f 的含义 资源描述框架r d f 提供了一个通用的数据模型支持对w e b 资源的描述。它的主要含 义如下: 1 ) 资源。r d f 可处理的w e b 资源含义极广,包括一切在w e b 上被命名、具有u r i 引用的东西。资源可以是整个网页、或网页的一部分、一群网页的集合以及无法经由网络 存取的物件等。 2 ) 描述。对资源特性的一个声明,包括资源本身的属性和资源之间的关系。 3 ) 框架。与被描述资源及其领域无关的通用模型。r d f 定义一种机制以描述非特定 领域的资源,而不定义任何特定领域的语义。 2 4 2r d f 模型 r d f 的设计基于这一思想:被描述的资源具有一些特性,而这些特性各有其值;特 性值既可以是文字也可以是其他资源;如果特性值是资源,该特性也可以看成是两个资源 之间的关系;对资源的描述就是对资源的特性及值进行声明。根据此思想建立的r d f 数 据模型由以下四种基本对象类型组成: 1 ) 资源。在w r e b 上以u r i 表示的所有事物都可称为资源。资源可以是整个网页( 如 h t m l 文档“h t t p :w w w w 3 。o r g o v e r v i e w h t m l ) 、或网页的一部分( 如h t m l 或x m l 网页的一个特定元素) 、一群网页的集合( 如一个网站) 以及无法经由网络存取的物件( 如 印刷的书) 等。 2 ) 文字。字符串或数据类型的值。r d f 没有自己的数据类型定义机制,二是允许使 用独立定义的数据类型,如使用x m ls c h e m a 中定义的数据类型。 3 ) 特性。特性用来描述资源的特性、属性或关系。每个特性都有一个特定的意义, 可定义它的许可值、描述的资源类型以及和其他特性之间的关系。在r d f 中,特性是资 源的一个子集,因此一个特性也可以用另一个特性描述,甚至可以被自身描述。 1 0 4 ) 声明。一个特定的资源加上特性及特性值就是一个r d f 声明。r d f 声明都表示 为三元组的形式。 r d f 声明可由一个三元组来表示,即( 资源,特性,特性值) 。三元组中的各项又可 称为主体、谓词和客体,因此,也可用( 主体,谓词,客体) 的形式来表示r d f 三元组。 r d f 模型的基本结构是声明三元组的集合,可用具有节点和有向边的r d f 图来表示。在 r d f 图中每个三元组表示为一个节点一边一节点的连接。r d f 图的节点是主体和客体, 其中资源用椭圆节点表示,文字用方节点表示;边由谓词担当,边的方向总是由主体指向 客体。 例如,“t o m 的电子邮件地址是t o m e m a i l o r g 这句话可以用一个r d f 三元组表示 为 e x :p

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论