(计算机科学与技术专业论文)面向数据库的语义查询技术研究.pdf_第1页
(计算机科学与技术专业论文)面向数据库的语义查询技术研究.pdf_第2页
(计算机科学与技术专业论文)面向数据库的语义查询技术研究.pdf_第3页
(计算机科学与技术专业论文)面向数据库的语义查询技术研究.pdf_第4页
(计算机科学与技术专业论文)面向数据库的语义查询技术研究.pdf_第5页
已阅读5页,还剩141页未读 继续免费阅读

(计算机科学与技术专业论文)面向数据库的语义查询技术研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

浙江人学博i :学位论文摘婪 摘要 髓着网络技术的迅猛发展,开放式网络中的海量信息资源的规模釉复杂魔以 指数级别增长,这对海量信怠资源的智能化管理提出了更高的要求,需要解决信 息资源豹表承、薅息资源豹存继和基予本体靛语义查遨等关键技求,尤其需要嚣 向数掘库的语义查询技术。 本论文遴过对开敷式翘终g 境下产生豹海量露惠瓷源管理透露深入熬系绕疆 究,详细的探讨了实现面向数据库的语义查询的关键技术,本论文的研究内梅和 主要贡献弼下: 1 建立麟向数据库的语义查询模型 根据在海量信息资源上的语义蠢询特点,建立了蕊向数掭库的语义查询模瀣, 并将模型分必三个关键部分。第一部分是本体摆关都分,该部分是安现语义焱询 的基础和依据,包括本体的建立、本体的存储等。第二部分楚信息资源的表承和 存镶帮分,该部分主簧珐铯照翅嚣表示弱存镶海量嫠惑资源,毽括缕惠资源熬表 示,信息资源的语义标注和信息资源的存储。第三部分是语义查询部分,该部分 是语义盎逶黪实瑗部分,主要秘r d b m s 的中心缀务器有关,是孛心羧务器麓支 持基于本体的语义查询所需臻进行的适应性调整,这部分也熙论文的工作重点部 分。 2 建立檄念相似性度量模型 奉体概念的语义相似性度量是实现基于本体的语义查询的理论依据,论文中 辫援了相似髅霸捆美性概念懿含义,以心理学领域概念摆似挂发量模型为基破, 结合人工智能领域概念相似性度量模型,建立概念相似性度缀模型,为实现撼于 本体黪语义焱逡提供理论基硝。 3 将概念相似性度量模型引入r d b m s 体系结构 缩合r d b m s 簸理查询鲶过程,将本俸檄念的语义稚戗缎度量穰燮作为一今 推理模块,纳入到肋b m s 的体系结构中,为其它模块提供接口。用予存储本体、 浙江人学博i 。学位论文 摘篮 计算概念相似性,为r d b m s 实现基于本体的语义查询提供推理接口。 4 r d b m s 中心服务器体系结构适应性调整 根据o s c a r 数据库中心服务器体系结构特点,深入分析了中心服务器提供 语义查询支持时所需要的适应性调整,提出了支持语义查询的o s c a r 中心服务 器新的体系结构简化模型,分析了体系结构中每个模块在支持语义查询中所做的 适应性调整。 5 提出基于节点关系的结构连接索引 根据被序列化为x m l 数据的映射存储策略的特点,为提高查询效率,提出 一种新b + 树索引管理模式。在x m l 数据映射到表中之后,数据中的节点b j 的 关系不再和以x m l 数据形式存在的方式那样直接,有必要以某种形式来保存这 些关系。在节点关系的结构连接索引算法中,将x m l 数据视作一颗树,树中的 节点表示数据中的元素,树中的边表示数据中的元素关系,算法中建立了节点信 息索引和节点关系索引,其中节点关系索引的索引项包括文档i d ,节点i d ,父 节点i d 、右兄弟节点i d ,最左孩子节点i d ,根据这些索引项,可以轻松的推导 出任意节点之间的祖先后代关系,从而快速的获取基于结构查询的结果。 关键词:本体、语义查询、数据库、语义相似性、语义标注、节点关系、海量信 息资源、资源描述框架、映射存储 浙江人学博i :学位论史a b s t r a e t a b s t r a c t w i t ht h er a p i dd e v e l o p m e n to fn e t w o r kt e c h n i q u e , t h es i z ea n dc o m p l e x i t yo f h u g ei n f o r m a t i o nr o s o n r c ei sn o wg r o w i n g 弼t ht h ei n d e xg r a d e , s oi t s e th i 荫e l r e q u i r e m e n t sf o ri n t e l l i g e n tm a n a g e m e n to f h u g ei n f o r m a t i o nr e s o u r c e , a n dm u s ts o l v e t h ek e yt e c h n i q u ea b o u ti n f o r m a t i o nr e s p r e s e n t a t i o n , i n f o r m a t i o ns t o r a g ea n ds e m a n t i c q u e r yb a s e do no n t o l o g y , a n ds ot h es e m a n t i cq u e r yi nr d b m si so f s p e c i a lv a l u e b a s e do ns p e c i a l i z e dr e s e a r c hm a n a g e m e n to f h u g ei n f o r m a t i o nr e s o u r c ep r o d u c e d b yo p e nn e t w o r k , t h i st h e s i si si n t e n d e dt oc o n t r i b u t et ok e yt e c h n i q u eo fs e m a n t i c q u e r yi nr d b m s ,a n dm a i n l yi n v o l v e st h ef o l l o w i n gi s s u e s 1 p r o p o s et h em o d e lo fs e m a n t i cq u e r yi nr d b m s a c c o r d i n gt ot h ec h a r a c t e r so f s e m a n t i cq u e r yo nh l l g ei n f o r m a t i o nr e s o u r c e , w e p r o p o s et h em o d u l eo fs e m a n t i cq u e r yi nr d b m s t h em o d e lc o n s i s t so ft h r e ek e y c o m p o n e n t s 髓ef i r s tp a r t i sa b o u to n t o l o g yt e c h n i q u e , a n di ti st h eb a s i sa n d f o u n d a t i o no f s e m a n t i cq u e r y i nt h i sp a r t , w ee x p r e s st h eb u i l d i n ga n ds t o r a g es t r a t e g y f o ro n t o l o g y t h es e c o n dp a r te x p r e s s e si n f o r m a t i o n r e s p r e s e n t a t i o na n ds t o r a g e 。t h i s p a r ti n c l u d e si n f o r m a t i o nr e s p r e s e n t a t i o n , s e m a n t i ca n n o t 趣t i o na n di n f o r m a t i o ns t o r a g e t h el a s tp a r ti sa b o u ts e m a n t i cq u e r y i nt h i sp a r t , w ee x p r e s sh o wt oi m p l e m e n t s e m a n t i cq u e r yi nr d b m s ,a n dt h i sp a r ti st h ek e r n e lo f t h er e s e a r c h 2 b u i l d i n gc o n c e p ts e m a n t i cs i m i l a r i t yc o m p u t a t i o n a lm o d e l t h em e a s u r e m e n to f c o n c e p t ss i m i l a r i t yi sb a s i sa n df o u n d a t i o no fs e m a n t i cq u e r y b a s e do no n t o l o g y i nt h i st h e s i s , w ea n a l y z et h em e a n i n go f s i m i l a r i t ya n dr e l a t i v i t y o nt h eb a s i so f p s y c h o l o g i c a ls t u d i e sa b o u ts i m i l a r i t ya n da r t i f i c i a li n t e l l i g e n c es t u d i e s a b o u ts i m i l a r i t y , w ep r o p o s eam o d e lt om e a s u l t h es e m a n t i cs i m i l a r i t yb e t w e e n c o n c e p t s 3 i n t r o d u c i n gt h em e a s u r e m e n tm o d e lo f c o n c e p t ss i m i l a r i t yi n t or d b m s w i t ht h eq u e r yp r o c e s so fr d b m s ,t a k em e a s u r e m e n to fc o n c e p t ss i m i l a r i t ya sa r p m s o nm o d e l ,a n di n t r o d u c ei ti n t ot h er d b m so a r c h i t e c t u r e t h i sm o d e lp r o v i d e r e a s o ni n t e r f a c ef o ro n t o l o g ys t o r a g ea n dc o n c e p t ss i m i l a r i t ym e a s u r e m e n t 浙江人学博l 岸位论义 a b s t r a c t 4 a d a p t a b i l i t ya d j u s t m e n to f c e n t e rs y s t e ma r c h i t e c t u r e a c c o r d i n gt o t h e c h a r a c t e r so fc e n t e rs y s t e ma r c h i t e c t u r e , w ea n a l y z et h e a d a p t a b i l i t ya d j u s t m e n to ft h es y s t e mi no r d e rt os u p p o r ts e m a n t i cq u e r y , a n dt h e n p r o p o s et h en e ws i m p l i f i e dm o d e lo fc e n t e rs y s t e ma r c h i t e c t u r e ,a tl a s t ,a n a l y z et h e a d a p t a b i l i t ya d j u s t m e n to f t h ea l lm o d u l e i nt h es y s t e m 5 p r o p o s es t r u c t u r e j o i ni n d e xb a s e do nn o d er e l a t i o n s h i p o nt h eb a s i so ft h ec h a r a c t e r so fs h r e d d i n gs t o r a g eo fx m ld a t a , p r o p o s ean e w i n d e xs t r a t e g yt oi m p r o v et h eq u e r ye f f i c i e n c y t h ei n f o r m a t i o nb e t w e e nt h en o d e si s n o td i r e c ta f t e rt h ed a t ai ss h r e d d i n gi n t ot h et a b l e , a n ds oi th a st os o m es t r a t e g yt o k e e pt h ei n f o r m a t i o n i nt h en o d er e l a t i o n s h i pa l g o r i t h m s a nx m l d o c u m e n tc a nb e t r a n s f e r r e da l lo r d e rt r e e , t r e en o d e sc o r r e s p o n dt ot h ed o c u m e n td e m e n t s , a n de d g e s c o r r e s p o n dt ot h ee l e m e n t * s u be l e m e n tr e l a t i o n s h i p i nt h er e l a t i o n s h i p j o i na l g o r i t h m s , e l e m e n ti n d e xa n dn o d er e l a t i o n s h i pi n d e xa r et h et w oi n d e x e st os u p p o r tt h en o d e r e l a t i o n s h i pj o i n s t h i sr e l a t i o n s h i pi n d e xh a sf i v es e a r c hk e y s ,x m ld o c u m e n ti d ( d i d ) ,n o d ei d 斟l o gh i sp a r e n tn o d ei d p i d ) ,h i sf i r s tr i g h ts i b l i n g s i d ) ,h i sf i r s t l e f tc h i l dn o d ei d ( c i d ) t h er e l a t i o n s h i pi n d e xh e l p s 懈t od e t e r m i n et h er e l a t i o n s h i po f t w on o d e sq u i c k l yt os p e e du pt h es t r u c t u r e j o i nq u e r y k e y w o r d s : o n t o l o g y , s e m a n t i cq u e r y , r d b m s ,s e m a n t i cs i m i l a r i t y ;s e m a n t i c a n n o t a t i o n , n o d er e l a t i o n s h i p ,h l l g ei n f o r m a t i o nr e s o u r c e ,r d f , s h r e d d i n gs t o r a g e 浙江人学博i j 学位论义幽h 录 图目录 图1 1 互联嬲的发震3 图1 2 语义w e b 层次结构5 图1 3 烹调风格本体l l 霾1 0 论文俸系结稳1 5 图2 1 r d f 的图形表承2 4 图2 2 0 w l 鼷次架构2 6 蚕2 3 0 w l 和r d f 攒述辋弼瓷源2 7 图2 4 一个描述逻辑袭示的例子2 9 图2 5 子类实铡3 2 图2 。6 等价类实铆3 2 图2 7 不相交的类声明3 2 图2 8 概念璇往定义安铡3 3 图2 9 语义标注示意湖3 5 图2 1 0 面向数据库的语义奁询摸型3 8 匿3 1 语义标往豹擎零关注爱5 l 图3 2 语义标注的用户关注度5 2 图4 1 汽车的楣经壤念_ 葶f l 娟笑概念之瓣载关系醴 图4 2 a 、b 两个对象槲住f - h j 的关系囤6 6 图4 3 两个概念图和图的交6 8 图4 4 对魄模鳖诗篝豹差翻分涝痊蔼 图5 1d i e t z 的节点先序和后序序号图例8 5 图5 2 跳过裰先节点8 7 圈5 3 跷过焉代节点8 7 图5 4 一个简单x m l 文档8 9 蓬5 5 示倒文档熬节轰痔号分鬻静 图5 6 节点索引结构9 0 图5 7 节点关系索引9 1 蘧5 s 瓣豫子褥霹对寝懿熬豫第点糇廖9 8 图5 9 扫描节点数1 0 0 图5 1 0 数据集合的查询处理时越1 0 0 图5 n 扫描节点数1 0 1 图5 1 2 数据集合的查询处理时问l o l 圈6 1 系统麓要模型1 0 5 图6 2 系统体系结构1 0 7 图6 3 本体库的建立和存储l1 6 图6 。4 概念鞠纭经瘦黧模块体系结构1 1 7 浙江人学博l 学位论文腻目录 豳6 5 存储瑟体系结构ll s 图6 6 索引对态询效率的影响1 1 9 躅6 6 索引对囊询效率的影响1 2 0 v 浙江人学博i 。学位论文 第1 章绪论 第1 章绪论 我有一个关于万维网的梦想,在第一部分中,万维网变成了一个有利于人们相互合作的 强大工具;在梦想的第二部分,合作延伸到了计算机,机器变得可以分析万维网上的所有数 据包括内客链接以及人与计算机之间的交互 互连网发明人蒂姆伯纳斯一李 1 1 引言 在过去的二十年罩,随着互连网技术的普及和社会信息化程度的提高,各个 应用领域所积累的信息资源都f 在急剧的增长,这些信息资源包括音频、视频、 网页、文本、表格、应用系统、源代码、服务等多种形式。据统计,全球数字信 息资源量每2 0 个月就翻一番,同时数据库的数量和规模也在迅速扩张。随着信 息化的进程和网络应用的同益广泛,围绕着有效的使用这些海量信息资源的研究 和开发正如火如荼的展丌,特别是以下三个问题倍受关注: 首先,海量信息资源需要有机器可理解的表示方式来表示信息资源。在丌放 式的互联网中,由于参与的主体数量规模大、运行环境的异构性、活动目标的自 主性等原因,导致海量信息资源来源复杂,形式多样,缺乏统一的描述方式,给 有效利用信息资源带来诸多挑战。x m l 的出现使得不同类型的数据表示成同一格 式成为了可能,x m l 的灵活性使得用户可以快速、容易的描述任意的内容,但 由于x m l 并不能解释它所标记内容的含义,大多数处理应用要求这些标记集合 能够满足某种标准或者双方的约定,为此,w 3 c 推荐以r d f ( r e s o u r c ed e s c r i p t i o n f r a m e w o r k ,资源描述框架) 标准来解决x m l 的语义局限,但是r d f 在解决诸如 同义词和一词多义等等问题上又显得力不从心,因此,需要寻求一种更为有效的 数据表示方式来表示海量信息资源,使得计算机能够理解信息资源所表达的含 义,实现信息资源处理过程自动化、智能化。 其次,海量信息资源迫切需要一种有效的存储策略来存储信息资源。信息资 浙江人学博i j 学位论文第l 章绪论 源的产生必然伴随着信息资源的存储,信息资源的存储策略涉及到多方面的问 题,如信息资源量的大小、信息资源的表示方法、在信息资源上的操作种类、信 息资源上查询的种类、信息资源的存储效率等等诸多问题,而常见的存储策略有 基于内存,文件系统。专门的存储系统和r d b m s ,对目前的海量信息资源,由 于来源的复杂,但查询的要求却越来越高,因此急需一种有效的存储策略来存储 海量信息资源,并满足海量信息资源的存储效率和查询要求。 最后,海量信息资源迫切需要一种行之有效的查询技术从中检索出合适的信 息。丌放式的互联网产生的海量信息资源不可能分门别类,从而如同在图书馆目 录中那样进行检索。目前大多采用传统的基于关键字的查询技术进行查询,查询 结果集动辄数力数百万条,而且结果集来源复杂,有些内容可能是业余爱好者收 集的资源,有些则是领域专家整理的领域知识,资源的可信度不一。另外,由于 其数据组织不是建立在能够表示概念之间的关系、事实和实例的领域模型的基础 上,因此无法实现智能查询和信息推理,也就无法解决语义异构性问题。由于不 同的组织和人员可能使用不同的词语表示同一个含义,因此查询系统得不到意义 相同但用词( 或语法) 不同的内容,当需要对多个数据源进行查询的时候问题更 为明显,多义词和同义词会使查询得到许多不相关的信息,而忽略另外一些重要 信息。因此,海量信息资源迫切需要一种能够理解语义的查询技术来解决海量信 息资源上的查询,满足用户查询的查全率和查准率要求。 目前围绕着这些热点问题的研究和丌发j 下在不断的进行。在研究方面,国内 外的著名高校、研究院所和一些自由开发者j 下参与其中,在工业应用方面,有甲 骨文公司的o r a c l e 数据库管理系统l o g ,m i c r o s o f t 公司的s q l s e r v e r 2 0 0 5 ,i b m 公司的d b 2 等,在标准化方面,w 3 c 国际标准化组织陆续完成x m l 、x q u e r y 、 r d f 、o w l 等标准化规范工作。 本论文正是以开放式网络下产生的海量信息资源的有效利用问题为背景,在 国家“8 6 3 重大软件专项 对象关系数据库管 理系统( o s c a r ) 研制及其应用( 编号为2 0 0 3 a a 4 2 3 0 1 0 ,2 0 0 4 a a 4 2 3 0 1 0 , 2 0 0 5 a a 4 2 3 0 2 0 ) ”的资助下,详细分析了基于本体的语义查询技术,深入探讨了 2 浙江人学l 雌i 。举位论文第l 常绻论 上述三个关键技米在面向数据痒的语义查询中的作蠲,侧重分析了甏向数据瘁酌 语义查询的关键技术。 1 2 为什么需要丽向数据库的语义奁询 自1 9 8 9 年互联瓣产生之后网络技术飞速发展,主要体现在两个方面。一方 面体现在网络上的傣息量和使用人数的急剧膨胀与| | 虫用领域的急速扩张,另方 面体现在网络应用方式越来越智能化,逐渐向复杂程度更高的应用集成方向转 交。铁应用模式豹焦发寒番,互联嬲应用基零上经历涎个除段:测览( 包括黪叁、 动态页面) 阶段和超越浏览阶段。在互联网发展初期是网沾以静态页面的方式提 供鞭务,熬发鑫耨越、公鑫、论文等售患。籍来麓了寝予溪产_ 蠢弼滚之 拜l 匏馈惠 交甄,网站通过a s p 、j s p 等技术从后台数据库生成动念页两返回给用户,歼始 提儇交互功能。2 0 0 0 年懿螽,互联阏除了继续为入翻提供溺麓交互德意,还为应 用穰序提供收集信息和集成应用的场所,开始进入超越浏览阶段,这一阶段体现 出来的核心穗想是资源共享与协同工作。资源包括嘲络上的硬件、软件、数据、 信怠和知识簿多个艨次上的资源,例如c p u 计算熊力、磁盘的存熊窆闽、特定 功能软件的服务资源、通用格式的数据、特定用途的信息、领域知识等。超越浏 览羧羧兹 弋表悭疆突热点氢摇:w e b 溅务( w e bs e r v i c e ) 、餐戆a g e n t ( i n t e l l i g e n t a g e n t ) 、点对点技术( p e e rt op e e r , p 2 p ) 、语义w e b ( s e m a n t i cw e b ) 等。应用 模式懿转交体凌为嚣联鬻按零静转嶷,鲡踅i 1 ( 臻自 h t t p :w w w w 3 o r g 2 0 0 3 0 1 c o n s o r t i u m 1 i n g ) 所示。 3 筇i 章绪论 图1 1 且联网的发展 互联网技术发生改变的根本原因是原柬的技术不能满足应用持续发展的需 要,主要体现在以下几个方面: 信息查找困难。随着互联网的飞速发展,网上的信息资源越来越多,如 何在海量信息资源中进行检索,检索的结果如何达到较高的查准率和查 全率要求。自然语言处理技术( n a t u r a ll a n g u a g ep r o c e s s i n g ,n l p ) 在这 个领域展丌了大量的研究,但是依然面临着巨大的困难,基于海量信息 资源的查询的查准率和查全率很难进一步提高。 信息管理困难。互联网上现有的信息资源数据量正在失去控制,目前能 够有效管理这些信息资源的工具极少。由于互联网结构特征,相关主题 信息资源分散在全世界许多不同的服务器上,而目前很少有工具能够综 合不同来源的相关信息资源。 信息难以集成。大量数据和信息资源在企业和科研院所中产生,且需要 浙江人学博i :学位论文第l 章绪论 通过网络借助多种应用集成平台进行处理和交换。同时,大量中小企业 通过提高信息化技术水平来提高企业自身的竞争力,但是协同工作需要 对现有多种应用通过网络进行集成。当集成规模逐渐扩大,合作伙伴迸 一步增多时,点对点数据集成的复杂程度会呈指数级上升,数据集成需 要一个基于语义的平台来实现数据交换。 信息难以理解。互联网上的海量信息资源难以被应用程序理解。互联网 初始目标是为人类浏览信息而设计的,而不是为了应用程序处理信息而 设计。面向人类阅读和应用程序处理是两种不同处理方式,所需要的信 息资源必定存在一定的差异。人类浏览的信息主要考虑信息的表现形式, 这也是h t m l 的主要而强大的功能,不过这种方式不能满足应用程序阅 读信息,程序需要更多的关于数据本身的描述,目前互联网上的信息资 源难以被机器阅读与处理。 信息难以合作。目前互联网上的数据来源复杂,不同的应用程序、平台 产生的数据不能被其他系统所理解。h t m l 所描述的信息是先天不能被 其他应用程序理解,丙在此基础上的x m l 描述的数据也由于产生的信 息源不同,描述的方式也不致,对相同的一个目标有不同的解释,产 生的信息也自然不一致。因此跨平台跨系统的信息难以合作 互联网在信息表达和检索方面的缺陷主要在于它的设计目的是面向用户直 接阅读与处理,而没有提供计算机可读的语义信息,因此限制了计算机在信息检 索中自动分析处理以及进一步智能信息处理的能力。 针对目前互联网存在的缺陷,w w w 的创始人t i m b e r n e r s l e e 于2 0 0 0 年1 2 月1 8 只在x m l 2 0 0 0 会议上,提出了下一代互联网的概念一语义w e b l 3 1 ,并于2 0 0 1 年5 月在科学美国人杂志上发表同名论文“t h es e m a n t i c w e b ”,为人们勾勒 出一幅未来语义w 曲的美好前景1 4 1 。应该说,语义w e b 技术的提出,为有效解决 上述瓶颈问题提供了新的技术思路和处理手段。 语义w e b 的目标是为互联网上的信息提供具有计算机可以理解的语义,从而 满足智能软件代理a g e n t 对w w w 上异构、分布信息的有效检索和访问,实现网 浙江人学博l 学位论文 第1 争绪论 上信息资源在语义层j 二的全方位互联,并在此旗础上,实现更高层的、基j :知识 的智能应用。 t i mb e m e r s l e e 提出的语义w e b 层次结构如图1 2 所示。该结构从底层到 高层依次为:u n i c o d e 和u r i 5 1 、x m l 、r d f ( s ) 6 7 1 o n t o l o g y 、l o g i c 、p r o o f 和t r u s t 。 | 璺l1 2 语义w e b 的层次结构 u n i c o d e 和u r i 层 最底层的u n i e n d e 和u r i 是语义w e b 基础所在,其r t u n i c o d e 用于实现网 上信息的统一编码,它定义了国际化、通用化的字符集,以避免不同类型字符集 在存储、交换、使用上由于编码不同引起的混乱,实现了多国语言混合存储和使 用。在w e b 环境中,应用之间不可避免的需要相互通信,以机器可读的格式传递 或发布信息,这些信息中很大一部分是对w e b 资源的描述,因此,需要有明确的 标识这些资源的机制,语义w e b 采用统一资源标识符u r i ( u n i f o r mr e s o u r c e i d e n t i f i e r , u r i ) 5 1 来标识资源及其属性,u r i 是一个i n t e m e t 标准,它和w 曲上 常用的统一资源定位符( u n i v e r s a lr e s o u r c el o e a t o r ,u r l ) 以及统一资源名称 ( u n i f o r m r e s o u r c e n a m e ,u r n ) 的区别在于u r i 泛指所有以字符串标识的网络 资源,包含了u r l 和u r n 。在w e b 中,无论是页面或者网站,任何一个资源都 可以用u r i 唯一标识和定位,能实现更为精细的资源标识,从而使精确信息检索 6 浙江人学博i 学位论立第l 辛缝论 成为疆能。 x m l + n s + x m ls c h e m a 层 x m l 是语义w e b 中的必键技术之一,也是整个体系结构的基础,它j 下逐步 取代h t m l 成为w e b 文档秘数据的标准化诱砉。命名空触( n a m es p a c e ,n s ) 为x m l 文耥中的标记的定义和使用提供了上下文机制射,方面为文档中的每 一令振淀都攒明特定戆含义,另一方蠢还稳上下文审矮存籀溺名黎熬标遮丞分开 来,以避免命名冲突,x m ls c h e m a 为x m l 文档提供了语法结构上的约束,最 终确定x m l 文档静究整毪与宥效羲。该层鹃主要功筢是运避椽_ l 语言将弼羔资 源信息的结构、内容与数据的表现形式进行分离。 r d f r d fs c h e m a 屡 r d f 定义了一种播述w e b 资源及其楣甄联系的简单模型,是实现语义w e b 的关键技术之一,也怒语义信息描述的有效手段怫。蒸本数掘模型包含三类对象: 资源、属性帮躲述。瓷源之瓣豹关系遵过弱蠛来接逮。对特寇资源特定属性豹接 述,构成了r d f 中的一个陈述,通常用一个三元组 表 示。茭孛,被摇述懿资源舔必s u b j e c t ,撵遮瓷滚豹嚣经穗蔻p r e d i c a t e ,o b j e c t 是 属性的值,r d f 是建也在x m l 和u r l 的基础之上的,通过麟性描述了资源之间 的关系,但并没有撬供描述这些属毪以及属僚闯关系的梳制,r d fs c h e m a 撬供 了这种表达机制,它描述了r d f 属饯豹使用髋则,可为r d f 定义领域本体,并 将其组织为类和属性的层次缩构。r d f r d fs c h e m a 联的主瑟功能是为网上资源 撼述提供7 一弹通用挺架,必实现数据集成豹元数掇提供解决方案。 本体层 疆义菇惑戆交滤崧绥激共溷豹理解为蓦撵,否爨双方裁会产生误解,在溪义 w e b 中,本体是概念模型的明确规范说明,宅提供了这种“挺同的理解”即为共 同的谮义空翊,本体筋设计鞫歼发依赖于翼俸豹本棒獾述工鬃和本钵誓其软伟。 目前本体语富的研究可以大致分为两类,一类是基于阶谓词逻辑的形式化本体 语言。如o n t o l o g i n g u a 、l o o m 、框架逻辑等等,这一类本体语言的特点是不适子 网络交换和甄操作。对于语义w e b 成用两富,本体嬲表示需要以w e b 数据袭示 浙江人学博i :学位论文 第1 市绪论 和交换的标准化语言为基础,使得机器之1 日j t 够相互理解。第二类基于x m l 的 本体表示语占,包括s h o w 、x o l 、o m l 、d a m l + o i l 以及o w l 等。d a m l 发布于2 0 0 0 年8 月由美国军方d a p r a ( 互联网也起源于该组织的一个研究项 目) ,o i l 由欧洲o n t o k n o w l e d g e o r g 项目支持,提供基于本体的推理层。d a m l 与o i l 一起形成了本体语言d a m l + o i l 。o w l 是w e b o n t 工作组为了在w w w 上发布和共享本体而推荐的语言标记语言,它起源于d a m l + o i l ,是以x m l 和 r d f 为基础研究制定的本体描述语言,目前已成为描述w e b 本体的标准化语言, 但目前o w l 对规则的表达能力还较弱,需要进一步的研究才能达到应用要求。 第四层的本体层主要目的是揭示资源本身以及资源之问更为复杂和丰富的语义 信息吣1 2 1 ,从而将信息的结构和内容相分离,使网上的信息具有了计算机可理解 的语义。 逻辑层 语义w e b 的目标是使w e b 资源可以被机器理解和处理,能够更好的支持人 机协同工作,为此语义w e b 研究必须解决元数据的表示和规则性知识的表示两个 关键问题。到目前为止,大部分语义w e b 的研究集中在w 曲内容的语义表示上, 如,大部分基于x m l 和r d f s 的本体表示语言( 如d a m l + o i l 、o w l ) 都能表 示复杂的领域概念性知识以及领域相关的公理知识。目阿的研究表明,逻辑层的 实现将有必要引入描述逻辑之外的其它逻辑,如h o m 逻辑。在w e b 环境下,信 息的不完整性和数据的不一致性是一种普遍现象,因此,允许系统内部存在不一 致现象的某些非单调逻辑也会受到研究者重视。另外,由于逻辑层处于本体层之 上,因此在逻辑层的研究中,规则推理将势必结合本体中的概念与属性,因此逻 辑层的规则推理将是一种混合推理,在规则的表示方面,语义w e b 可以借鉴已有 的规则语言,同时对现有的本体表示语言进行相应扩展。也就是说,逻辑层主要 提供公理和推理规则,从而为智能推理提供基础。 p r o o f 和t r u s t 层 位于顶层的p r o o f 和t r u s t 则注重于提供认证和信任机制,使用户代理a g e n t 在网上进行个性化服务和彼此间交互合作时,更安全与可靠。p r o o f 和t r u s t 这部 浙江人学博i 学位论文 第1 章绪论 分内容在概念上目前还没有公认的权威说法,但是语义w e b 的研究者普遍认为 p r o o f 和t r u s t 将是下一代w e b 的重要概念i l ”。 出上述分析可以看到,在语义w e b 的7 层结构中的x m l 、r d f 和o n t o l o g y 这三层,主要用于表示w e b 信息的语义,因而是系统的核心和关键所在。目的, 对于语义w e b 的研究正掀起一股热潮,如从第一届在2 0 0 1 年于s t a n f o r d 大学召 开的语义w e b 研讨会( s w w s 2 0 0 1 ) ,从第一届在2 0 0 2 年于意大利的撒丁岛召开 了语义w e b 国际会议( i s w c 2 0 0 2 ) ,截至到2 0 0 7 年已经1 6 届的w w w 会议等 等,我们有理由相信:语义信息模型今后必将成为互联网上的主流信息模型,从 而跨越w e b 信息检索和信息集成在语义模糊、语义异构等难点上的困扰,实现一 系列智能化应用,如有效地发现资源,提供个性化服务,智能信息浏览、分级与 过滤w e b 内容以及应用a g e n t 进行网上信息和服务的智能代理等等。 总的来说,语义w e b 环境下的应用在事实的基础上,通过应用逻辑推理,得 出某种结论。这种推理的每一步对用户来说,都应该是可见的,或者晚应该是可 查的。这个推理的过程,就是一种证明,推出最后得出的结论也是应该可以信任 的。首先用户应该可以信任所见的数据,并且可以信任所做的推理过程,只有在 这个基础上,用户才能最重信任得到的结论。然而,就用户所见的数据而言,r d f 模型允许任何人对资源进行任何描述,不同观点的人对同样的资源可能作出相反 的描述,本体是使w e b 具有语义性的关键技术,在语义w e b 中起着重要的作用: 它提供了一套对特定领域知识的共享和共同认识,帮助人们在语法和语义上与机 器实现准确的交流,是对领域的形式化与结构化的描述,是人和机器、程序间知 识交流的语义基础。 面向语义w e b 的语义查询和传统的w e b 搜索研究不同,面临了新的问题和 挑战,虽然语义w e b 与目前的w e b 都有半结构化的数据特点,但从查询能力的 需求看,语义w e b 与传统w e b 有着很大的不同,传统w e b 的查询研究的基本出 发点是将w e b 视为一个网络数据库,而非知识库,因此尽管在查询研究方面积累 了不少成果,但并不能很好的满足语义w e b 数据的查询需求,因为传统w e b 查 询的基本假设是数据而不是语义,而语义w e b 的核心即为语义数据。因此现有的 9 浙甑人学博j 一学位论文 第1 带绪论 w e b 查逡谣言不支持浯义溪次筑查溺,氇缎不满楚语义w e b 上静裘谵l 嚣求。 基于语义的查询需求可以简单归纳如下: 存储描述r d f 信怠的翔谈库不佼簧能摇述r d f 断言,还要能箍逐r d f 模式( 类和属性的层次关系) ; 套询语言廷抽象的,不依赖于特定的语法规则; 查询语砉其毒多耪功能,耍拜麓零鲍单一属接,筐查键,妥r d f 隧形表示 的路径访问到类似d a t a l o g 的查询; 髂凌类耪瀛瞧之瓣秘毽含关系套游,这些氛含关装露瑗遴避r d fs c h e m a 中的s u b c l a s s o f 和s u b p r o p e r t y o f 束描述; 实现资源豹分类,如对予给定静资源实铡,壹询冀属予哪一类; 具有反向推理能力,如,浆某a 创作了歌剧b ,则可以反向推理出歌剧 b 的作者魑a : 熊自动的扩展查询以发现属性值之闽的泛化或特辣化关系; 能对资源日j 的语义关系查询。 嚣蠡,己提出询二多嚣国浯义w e b 魏粪瓣方法秘语言。投提盎谗方法与绳力戆 不i 司,可以大致分为三类。第一类焱询方法的基本观点是将r d f 资源描述视为三 元缀集合构藏静翔识痒,典鍪豹蠢镪谮富有s i l r i ( s i m p l el o g i c - b a s e dr d f i n t e r p r e t e r ,简单的基于逻辑的r d f 注释器) 【1 4 , 1 5 1 、t r i p l e 1 6 , 1 刀等,基本方式是将 r d f 元数据映射弱基于h o r n 逻辑的知识瘁。第二癸查询谣言是以i b m 为代表的 r d f q u e f y ,基本观点是将r d f 文档作为x m l 数据,采取的是x m l 数据库的 思路。第三类查询语言主鼹指r q l ,由希腊的i c s ,f o r t h 项目支持,r q l 的查 询语言基予r d f 豳模型定义,吸收了强国对象查询语言o q l 窝x m l 查谗孛戆 路径查询以及过滤器思想,其相对优势在于能够统一查询r d f 数据和r d f s c h e m a 熬信悫,簸够支掩r d f 接理。慧体来讲,这些语畜豹共翳特点跫不篷支 持结构查询。也就是说,查询的输入和输出模型是不同构的,如,输入查询怒r d f 胬模型,豢询结采集是赢平的记录表结构。 语义w e b 是一项面向压联网威用的遴用技术,它提出的技术朋予鳃决鼹翦网 l o 浙江人学博i + 学位论文第1 章绪论 络孛信怠瓷潦急瘸氆糯静绩撬串姿源信惠

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论