(管理科学与工程专业论文)偏好SPARQL及其在电子商务中的应用.pdf_第1页
(管理科学与工程专业论文)偏好SPARQL及其在电子商务中的应用.pdf_第2页
(管理科学与工程专业论文)偏好SPARQL及其在电子商务中的应用.pdf_第3页
(管理科学与工程专业论文)偏好SPARQL及其在电子商务中的应用.pdf_第4页
(管理科学与工程专业论文)偏好SPARQL及其在电子商务中的应用.pdf_第5页
已阅读5页,还剩55页未读 继续免费阅读

(管理科学与工程专业论文)偏好SPARQL及其在电子商务中的应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中文摘要 摘要 近年来,随着网络技术的普及和信息化程度的提高,越来越多的信息资源被 运用到各种领域。但是这些信息资源缺乏统一的描述方式,计算机不能准确理解 这些信息,导致了用户也很难准确查找到所需资源。如何描述网络资源,使其更 易被利用成为计算机信息资源管理中面临的新挑战。基于这种背景,语义w e b 被 提了出来。在语义w e b 中,计算机可以“理解”网络资源中的信息,所以它的应用 得到了学者的广泛关注,而语义w e b 中的电子商务是重要的研究方向。 查询信息是电子商务应用过程的一个重要方面,普通查询技术的查询结果往 往不能满足用户的要求,甚至返回“空结果”。本文研究偏好查询可有效解决这一 问题,主要内容包括: ( 1 ) 介绍语义w e b 查询语言s p a r q l 的语法、语义及使用规范,及r d f 数 据模型和r d f 数据集等概念。 ( 2 ) 研究偏好查询与s p a r q l 的结合。首先,引入偏好s q l 查询语言,接 着介绍偏好s p a r q l ,将偏好查询融入到了s p a r q l 语言中。 ( 3 ) 将语义相似度引入偏好s p a r q l 中,提出扩展的偏好s p a r q l 查询语 言,并用颜色本体概念作为实例进行了详细研究。 ( 4 ) 最后,本文引入服装领域电子商务作为实例,用r d f 数掘关系表和r d f 数据集进行描述,分别用偏好s q l 和偏好s p a r q l 进行了查询。 通过对比分析,表明偏好s q l 是针对数据库关系表进行的查询,而偏好 s p a r q l 则是针对r d f 数据集进行的查询,两种偏好查询都可以解决普通查询遇 到的空结果的问题。理论与实践的结合表明,本课题所提出的偏好s p a r q l 在电 子商务中的应用是先进的、可行的。 关键词:语义w e b ;电子商务;偏好:s q l ;s p a r q l ;语义相似度 英文摘要 a b s t r a c t i nr e c e n ty e a r s ,w i t ht h ep o p u l a r i z a t i o no fm o d e mn e t w o r kt e c h n o l o g y , a n ds o c i a l i n f o r m a t i o nl e v e li n c r e a s e s ,m o r ea n dm o r ei n f o r m a t i o nr e s o u r c e sa r ea p p l i e dt ov a r i o u s f i e l d s s u c ha sa u d i o ,v i d e o ,t e x t ,f o r m s ,e t c 。,b u tt h e yl a c kau n i f i e dd e s c r i p t i o no f i n f o r m a t i o nr e s o u r c e s a p p r o a c h ,t h ec o m p u t e rc a nn o ta c c u r a t e l yu n d e r s t a n dt h e i n f o r m a t i o nh a sl e dt ou s e r si sd i f f i c u l tt oq u i c k l yf i n de x a c t l yt h er e s o u r c e sr e q u i r e d h o wa c c u r a t ed e s c r i p t i o no fn e t w o r kr e s o u r c e si nau n i f i e dm e s s a g et om a k ei te a s i e rt o u s e ,i th a sb e c o m ean e wc h a l l e n g ec o m p u t e ri n f o r m a t i o nr e s o u r c e sm a n a g e m e n tf a c e s b a s e do nt h i sb a c k g r o u n d ,t h es e m a n t i cw e bh a sb e e nm e n t i o n e d ,a si nt h es e m a n t i c w e b ,t h ec o m p u t e rc a n ”u n d e r s t a n d ”t h en e t w o r ko fi n f o r m a t i o nr e s o u r c e s s oi t s a p p l i c a t i o nh a sg o tt h ea t t e n t i o no fs c h o l a r s a n d ,t h es e m a n t i cw e bi ne - c o m m e r c ei s a ni m p o r t a n tr e s e a r c hd i r e c t i o n i n f o r m a t i o nq u e r y i n gi sa ni m p o r t a n ta s p e c to fe c o m m e r c ea p p l i c a t i o np r o c e s s , g e n e r a lq u e r yt e c h n o l o g y sr e s u l t so f t e nc a nn o tm e e tt h er e q u i r e m e n t so fu s e r s ,e v e n r e t u r n ”e m p t y ”i nt h i sp a p e r , p r e f e r e n c eq u e r yc a nb ea ne f f e c t i v es o l u t i o nt ot h i s p r o b l e m ,t h em a i nc o n t e n t si n c l u d e : ( 1 ) i n t r o d u c t i o ns y n t a x ,s e m a n t i c sa n ds t a n d a r d i z e do ft h es e m a n t i cw e bq u e r y l a n g u a g es p a r q l ,a n dt h er d f d a t am o d e la n dr d fd a t as e t sa n ds oo n ( 2 ) s t u d yt h ec o m b i n a t i o no fs p a r q lq u e r ya n dt h ep r e f e r e n c e f i r s t ,i n t r o d u c e t h ep r e f e r e n c es q lq u e r yl a n g u a g e ,t h e ni n t r o d u c et h ep r e f e r e n c es p a r q l ,p u tt h e p r e f e r e n c ei n t os p a r q lq u e r yl a n g u a g e ( 3 ) i n t r o d u c t i o nt h es e m a n t i cs i m i l a r i t yi n t op r e f e r e n c es p a r q l ,p r o p o s ee x t e n d e d p r e f e r e n c es p a r q lq u e r yl a n g u a g e ,a n du s et h ec o n c e p to fc o l o ro n t o l o g ya st h e e x a m p l ei nd e t a i l ( 4 ) f i n a l l y , t h i sp a p e ri n t r o d u c et h ea p p a r e le - c o m m e r c ea sa ne x a m p l e ,d e s c r i p t i o n w i t hr d f r e l a t i o n s h i pd a t at a b l ea n dr d fd a t as e tt a b l e ,a n dq u e r yw i t hp r e f e r e n c e s q la n dp r e f e r e n c es p a r q l t h r o u g hc o m p a r a t i v ea n a l y s i sw eg e tt h a tt h ep r e f e r e n c es q lq u e r yi sf o rt h e d a t a b a s et a b l e ,y e tt h ep r e f e r e n c es p a r q lq u e r yi sf o rt h er d fd a t as e t ,b o t ht h et w o k i n d so fp r e f e r e n c eq u e r i e sc a ns o l v et h ep r o b l e mo f j e m p t y ”r e s u l t t h ec o m b i n a t i o n o ft h e o r ya n dp r a c t i c es h o wt h a t ,t h ei s s u er a i s e db yp r e f e r e n c es p a r q li ne c o m m e r c e a p p l i c a t i o ni sa l la d v a n c e da n df e a s i b l e k e yw o r d s :s e m a n t i cw e b ;e - c o m m e r c e ;p r e f e r e n c e ;s q l ;s p a r q l ;s e m a n t i c s i m i l a r i t y 大连海事大学学位论文原创性声明和使用授权说明 原创性声明 本人郑重声明:本论文是在导师的指导下,独立进行研究工作所取得的成果, 撰写成博士硕士学位论文竺偏妊墨坠b q l 及墓在鱼王直釜生鲍应眉:。除论文 中已经注明引用的内容外,对论文的研究做出重要贡献的个人和集体,均已在文 中以明确方式标明。本论文中不包含任何未加明确注明的其他个人或集体己经公 开发表或未公开发表的成果。 本声明的法律责任由本人承担。 论文作者签名。芦白莎伊年多月2 日 学位论文版权使用授权书 本学位论文作者及指导教师完全了解“大连海事大学研究生学位论文提交、 版权使用管理办法”,同意大连海事大学保留并向国家有关部门或机构送交学位论 文的复印件和电子版,允许论文被查阅和借阅。本人授权大连海事大学可以将本 学位论文的全部或部分内容编入有关数据库进行检索,也可采用影印、缩印或扫 描等复制手段保存和汇编学位论文。 保密口,在年解密后适用本授权书。 本学位论文属于:保密口 不保密口( 请在以上方框内打“”) 论文作者签瓠幸列 导师签名: 论文作者签吲u导师签芦: 日期:寸国沪年6 月 偏好s p a r q l 及其在电子商务中的应用 第一章绪论 1 1 课题背景及意义 随着现代化网络技术的普及和社会信息化程度的提高,越来越多的信息资源 被运用到各种领域。信息的传播已经超越了时间和空间的局限,网络化和全球化 已经成为了不可逆转的世界趋判1 1 。由于网络用户的迅速膨胀,众多的商家和厂商 也纷纷将目光投向互联网,所以,从单纯的完善发布信息,传递信息到网上创立 信息中心;从借助传统贸易手段不成熟的电子商务交易到能够在网上完成供、产、 销全部业务流程的电子商务虚拟市场;从封闭的银行电子金融系统到开放式的网 络电子银行,电子商务如火如荼的发展起来【2 】。它打破了传统商业营运下的地域和 时间限制,开辟了一个崭新的、开放的多维主体市场空间,可以支持全球化的2 4 小时不问断商务活动。 电子商务( e c e l e c t r o n i cc o m m e r c e ) 是指实现整个贸易活动的电子化f 3 】。主要 是指基于i n t e m e t 所进行的商品和服务的买卖活动【4 1 。它是一个发展潜力巨大的市 场,极具发展前景。它的双向信息沟通、灵活的交易手段和快速的交货方式的特 点,将会给社会带来巨大的经济效益,促进整个社会生产力的提高【5 】。电子商务的 广泛推广,打破了时空限制,改变了贸易形态,大大加速了整个社会的商品流通, 有助于降低企业成本,提高企业竞争力,尤其能够使中小型企业直接进入国际市 场参与国际市场竞争f 6 】。电子商务给消费者提供了更多的选择,提供了更好的便利 性。它是商务领域的一场信息革命,它对我们的思维方式、对人类的经济活动、 对人类的工作方式和生活方式都将产生根本性的影响【7 】。然而技术在发展,人们的 需求也在提高,目前的电子商务搜索技术已经不能满足人们的需求,为了让电子 商务更好的发展,更新的技术被提了出来。 在网络上搜索要购买的商品时,消费者的“愿望”和“偏好”变得愈加重要。 正如现实世界中的购物一样,个性化的标准与爱好会引领消费者寻找理想的商品。 选择商品的标准可以分为两类:硬性标准是必须满足的,而软性标准则是尽可能 满足的。人们在现实购物中期望商家能帮助自己找到最适合自己各种要求的物品, 第一章绪论 在网络商场中消费者有着同样的期待。然而目前的电子购物环境还远没有达到这 种理想状况。无论b 2 c 还是b 2 b 的电子购物都不能有效处理用户的偏好,而常常 使得电子购物归于失败。当人们提出带有个人偏好的查询需求时,返回的往往是 空的结果。研究表明,当用户的需求很少得到满足时,用户会放弃登录网络商城, 这对于商家显然是不利的。 一种解决方法是用户放弃一些“偏好”,而这时的查询结果往往是过量的,包 含大量的无关信息。另一种解决方法是带参数的查询,通过一个交互的过程不断 缩小查询范围。显然这种方法是费时费力的。 正是基于这样的原因,基于偏好的查询语言被提了出来,包括偏好s q l 与偏 好s p a r q l 。本文面向语义w e b 中的电子商务,系统研究偏好s p a r q l 在电子 商务领域中的应用。通过对偏好s p a r q l 的语义扩展,克服现阶段电子商务应用 中存在的问题,对有效处理和解决消费者的“愿望”和“偏好”的电子商务搜索 系统具有一定的理论和应用意义。 1 2 国内外研究现状 1 2 1 语义w e b 中的电子商务 t i mb e m e r s l e e 在1 9 8 9 年发明了万维网 8 】。万维网对我们绝大多数人的日常 生活方式有着重大的改变和提高,电子商务也由此发展了起来。 电子商务是指在互联网环境下,利用信息技术把商务活动的各主体如企业、 合作者、消费者及政府连接起来,进行各种商务活动的一种商业模式。它是现代 信息社会中网络技术、电子技术等在商业领域中应用的产物,是当代高新技术手 段与商业实务、贸易策略有机结合的结果。电子商务给企业带来了有效、便捷的 管理,为其创造了更多的商业机会,在降低成本方面更是起到了举足轻重的作用。 但随着时间的推移和w e b 及电子商务应用需求的增长,仅依靠万维网的局限 性逐渐显现出来。例如,计算机不能理解网页的语义,网上有用的信息难以查找, 即使借助功能强大的搜索引擎,查准率也比较低等。 为了使人们能够按内容的语义表达需求,使计算机能够理解网页内容,t i m b e m e r s l e e 在1 9 9 8 年提出了下一代万维网一“语义w e b 的理念。语义w e b 最 偏好s p a r q l 及其在电子商务中的应用 大的好处是让计算机具有对网络空间所存储的数据进行智能识别的能力。这样, 计算机就可以像人脑一样“理解”信息的含义。这对于电子商务进一步的应用具 有重大意义。用户使用语义w e b 搜索引擎进行搜索的结果无疑会比万维网更为准 确。 不论从哪个角度看,电子商务的实施都离不开计算机技术、通信技术和网络 技术【9 】。目前,我国的电子商务发展环境正在进一步的完善,电子商务的应用方式 正逐步的向多样化发展,应用领域不断拓宽,领域内人才辈出,其发展和培训已 经得到了企业和国家的重视。当然,电子商务的高度发展也带来了许多亟待解决 的问题,本文将介绍偏好查询在电子商务中的应用。 文献【1 0 】将本体融入到电子商务中,研究应用于电子商务的产品本体模型构建 技术。文献1 提出电子商务知识描述的分层框架,研究了基于本体论的电子商务 知识表示语言。文献1 1 2 】重点介绍了语义w e b 在电子商务中的应用研究。文献【”】分 析了应用于电子商务的w e b 语言,主要包括x m l 、r d f 、r d fs c h e m a 、d a m l + o i l 。 本文主要使用r d f 语言。 1 2 2 语义w e b 中的s p a r q l s p a r q l i 1 4 1 是w 3 c 提出的针对r d f 数据的查询语言标准,并得到了广泛的认 同。目前学者们已经在查询语言、查询处理和查询优化方面取得了初步的研究成 果。 在s p a r q l 提出后,关于语言本身的研究,除了从理论上弄清该语言的表达 能力以外,主要工作还集中在如何实现和扩充s p a r q l 查询语言,使其能够更好 地满足用户的需求。 文献【1 5 1 研究如何将s p a r q l 翻译成关系代数。由于s p a r q l 和s q l 的语义不 同,一些算子无法直接翻译。文献1 1 5 1 给出了将s p a r q l 主要部分翻译成关系代数 的方法。文献( 1 6 1 将s p a r q l 的核,i i , 操作抽取出来,称为s p a r q l c ,并分析了它的 计算复杂度和形式语义基础。而后,讨论了在哪种s p a r q l 查询中,多重嵌套的 o p t i o n a l 算子与左外连接可相互转换,并将这样的查询称为精心设计的 s p a r q l 查询。文献【1 7 1 从理论上确定了数据库支持的s p a r q l 查询的范围。文献【1 7 1 第一章绪论 在文献 1 6 】的基础上对s p a r q l c 作了扩展,增加了对包操作语义的支持。由于演 绎数据库界在逻辑表示和推理方面已经做了很长时间的工作,为了利用演绎数据 库的成果,研究人员尝试将语义w 曲数据映射成演绎数据库的数据。d a t a l o g 是演 绎数据库的查询语言,文献【1 8 j 从复杂性分析的角度出发提出了一个基于d a t a l o g 的 s p a r q l 形式语义。文献【1 9 】证明了s p a r q l c 的表述能力等同于s p a r q l ,并证明 了s p a r q l 的表述能力等同于带否定词的非递归安全d a t a l o g 。 文献【2 0 】在面向数据库应用的扩展方面做了一些工作,将关系数据库信息无损 转换为语义w e b 数据,并证明了s p a r q l 具有抽取约束信息和检查数据是否满足 约束的功能。文酬2 1 1 对s p a r q l 作了扩展,允许用户设定查询结果的优先度,这 样,系统将用户优先级较高的查询结果排在前面,适用于t o p k 查询和s k y l i n e 查 询。文献1 2 2 】在s p a r q l 上增加了路径变量和路径表达式形成s p a r q 2 l 语言,允 许用户使用变量来指代未知路径,这样,用户可以使用该语言查询两实例间存在 何种直接联系或间接联系。该文给出了s p a r q 2 l 的实现框架、预处理方法和具体 实现算法。 为了利用关系数据库成熟的查询处理技术,流行的s p a r q l 查询处理方式采 用将s p a r q l 直接映射到s q l 的方式来实现,这样仅需编写s p a r q l 编译器,简 化了实现s p a r q l 查询执行引擎的工作量。由于s p a r q l 的语法与s q l 的语法存 在差异,需要研究如何将s p a r q l 完整地翻译为s q l 。文献f 2 3 1 提出了模式无关的 s p a r q l - t o s q l 转换算法,将s p a r q l 中的查询语法转换为对应的s q l 语句, 并对转换结果进行优化,例如利用实例的类型信息和表统计信息来选择查询路径。 文献f 2 4 1 提出了一个s p a r q l 查询图模型,基于此模型定义了一些指导查询重写的 转换规则,并运用启发式规则找到高效的查询计划。文献【2 5 】主要提出了“f i l t e r ”表 达式转换规则。该转换规则支持大部分s p a r q l 特征。 在s p a r q l 查询优化方面,也有许多学者做出了研究成果,文献【2 6 】提出一种 贪婪算法,将r d f 数据图上所有可能的路径都存储起来。这样,可以方便地根据 用户需求在预存的路径上进行查询,避免在每次查询时进行计算。虽然该方法提 高了查询效率,但是问题在于可扩展性差,且不利于数据的修改。路径可达索引 4 偏好s p a r q l 及其在电子商务中的应用 是全路径索引的一个变种,它只存储两节点间是否存在路径的信息,不存储具体 的路径信息。 文献1 2 7 】引入g r i n 索引,它基于如下假设:在r d f 数据图中,距离越近的资 源越有可能成为同一查询所需要的结果。g r i n 根据用户指定的中心,将资源分为 若干块,根据块中心节点的关系将数据组织成二叉树索引。索引节点对应资源块 的中心,并存储该块的半径。文献【2 8 1 将g r i n 索引引入到时态r d f 数据的查询中, 将g r i n 索引扩展为t g r i n 索引。由于时态数据增加了时间信息,因此与g r i n 索引相比,t g r i n 在计算资源距离时不仅要考虑平面距离,还要增加对时态距离 的考虑。t g r i n 的另一贡献是将索引结构由二叉树扩展到n 叉树。g r i n 类索引的 问题在于,这类根据距离将资源分块存储的索引方法适用范围较小,可推广性较 1 上 z lo 1 3 本文研究的主要内容和论文结构 1 3 1 论文研究的主要内容 本文主要介绍了偏好查询语言偏好s p a r q l 及其在电子商务中的应用。首先 介绍了语义w e b 查询语言s p a r q l ,详细介绍了s p a r q l 的语法和语义。其次本 文介绍了偏好s q l 模型和偏好s p a r q l 模型,并介绍了基于偏好的查询语句。第 四章为本文的重点,在这一章中,本文将本体的概念和语义相似度的计算方法应 用到偏好s p a r q l 中,提出了基于语义相似度的扩展的偏好s p a r q l 的语法,并 给出了查询实例。最后本文将服装领域电子商务作为研究对象,进行了详细的偏 好查询,并分析了偏好s q l 和偏好s p a r q l 两种查询的优缺点。 1 3 2 论文的组织结构 本文的组织结构如下: 第1 章概述了论文研究的背景、意义,所涉及问题的当前研究现状。 第2 章介绍了语义w e b 查询语言s p a r q l ,及其语法、语义和应用规范。 第3 章研究了偏好s q l 和偏好s p a r q l 的相关理论知识。 第4 章提出了基于语义相似度的扩展的偏好s p a r q l ,将本体的概念引入偏 第一章绪论 好s p a r q l ,并将语义相似度的计算引入偏好s p a r q l 的语法、语义中。 第5 章将服装领域电子商务作为研究对象,对服装本体进行偏好查询,对比 分析了偏好s q l 查询和偏好s p a r q l 查询。 第6 章总结了本论文的研究工作和研究成果,并指出不足之处以及将来进一 步的研究工作。 6 偏好s p a r q l 及其在电子商务中的应用 第二章语义w e b 查询语言s p a r q l 由于为企业应用间的数据共享与重用提供通用的框架,语义w e b 在当前获得 了极大的发展1 2 9 1 。w 3 c 提出了为网络中的异构资源提供语义标注的标准语言r d f , 以及r d f 查询语言s p a r q l ,目前都已成为推荐标准【3 0 1 。s p a r q l 是从r d f 数据 中获取信息的查询语言。r d f 数据是三元组的集合,每个三元组具有形式( s ;p ;o ) , 其中s 是主体、p 是谓词、o 是对象,用来声明主体与客体之间的关系。这样的三 元组集合被视为有向图,节点表示主体或客体,有向边表示谓词,也就是从主体 到客体的联系【3 1 1 。为了查询r d f 数据,s p a r q l 允许定义三元组与图模式,以便 被r d f 图,即r d f 数据匹配。 2 1r d f 数据模型 虽然资源描述框架( r e s o u r c ed e s c r i p t i o nf r a m e w o r k ,r d f1 通常称为一种“语 言”1 3 2 1 ,但它实际上是一种数据模型( d a t a m o d e l ) t 3 3 1 。它由一系列陈述( s t a t e m e n t ) 即“对象属性值”三元组组成。当然,为了刻画和传输一个抽象的数据类型,需 要一套具体的语法。 2 1 1r d f 的基本思想 r d f 的基本概念是资源、属性和陈述【3 4 1 。 ( 1 ) 资源 可以将资源视为一个对象,也就是打算谈论的“事物”。资源可以是作者、书 籍、出版社、地点、人、旅馆、房间或查询请求等等。每个资源都有一个通用资 源标识符u r i ( u n i v e r s a lr e s o u r c ei d e n t i f i e r ) 。u r i 可以是u r l ( 统一资源定位符, 或称为网络地址1 ,也可以是某个其他形式的唯一标识符。注意,标识符并不一定 要直接达n ( a c c e s st o ) 资源。u r l 系统不仅可表示网络地址,也可以标识许多其他 对象,如电话号码、i s b n 码或地理位置。一般地,我们假定u r i 是一个网络资源 的标识符。 ( 2 ) 属性 属性是一类特殊的资源,描述资源之间的关系,如“由编写”、“年龄”、“头 衔”等等。r d f 中的属性仍然用u p , jr 3 5 1 ( 或者实际中的u r l ) 标识。用u r i 标识“事 第二章语义w e b 查询语苦s p a r q l 物”及其关系的想法非常重要,因为这使用户有了一个全球通用的唯一命名系统, 从而极大地减轻了此前一直困扰着分布式数据表示的同名问题。 ( 3 ) 陈述 陈述( s t a t e m e n t ) 用于描述资源所具有的属性。一个陈述是一个“对象属性值” 三元组,由一个资源、一个属性和一个值组成。值可以是资源,也可以是文字 ( 1 i t e r a l ) 。文字是原子值( 字符串) ,它的结构本文不再详细讨论。 陈述的一个例子如下: d a v i d b i l l i n g t o n 是网页h t t p :w w w c i t g u e d u a u - d b 的拥有者。 解释该陈述的最简单方法是使用定义,比如下面的三元组: ( h t t p :w w w c i t g u e d u a u - d b ,h t t p :w w w m y d o m a i n o r g s i t e o w n e r ,# d a v i d b i l l i n g t o n ) 。 一般地,可以把三元组( x ,p ,y ) 看做一个逻辑公式p ( x ,y ) ,其中二元谓词p 将对像x 和对象y 关联起来。实际上,r d f 只提供二元谓词( 属性) 。注意上例中的 属性“s i t e o w n e r ”和两个对像都是用u r l 加以标识,而另一个对象简单地用一个 字符串表示。 解释陈述的第二个观点是基于图的。在r d f 图中每个三元组表示为一个节点 边节点的连接。r d f 图的节点是资源( 陈述的主体) 和值( 陈述的客体) ,其中资源 用椭圆节点表示,文字用方节点表示;边由谓词担当,边的方向很重要,它总是 由主体指向客体。r d f 图的含义就是对应所有图中三元组包含声明的逻辑合取。 和一般的图不同,r d f 图中的边也可视为椭圆节点,在其他的三元组中作为主体 或客体,即特性也是资源。图2 1 出了与上文陈述对应的r d f 图表示。这种图在 人工智能中被称为语义网络( s e m a n t i cn e t ) 。 下图是一个最基本的r d f 图,表示网站h t t p :w w w c i t g u e d u a u - d b 的拥有者 是d a v i db i l l i n g t o n 。 ) 一砸三 图2 1 三元组的r d f 图表示 f i g u r e2 1r d fg r a p hr e p r e s e n t a t i o no ft r i p l e s 8 偏好s p a r q l 及其在电子商务中的应用 上文已提到,陈述的值可以是资源,因此,它也可以指向其他资源。下面看 一个复杂点的例子,网站h t t p :w w w c i t g u e d u a u 一d b 的拥有者是d a v i db i l l i n g t o n , d a v i db i l l i n g t o n 的电话号码是3 8 7 5 5 0 7 ,d a v i db i l l i n g t o n 使用的网站是 h t t p :w w w c i t g u e d u a u 一a r o c k d e f e a s i b l e d e f e a s i b l e c g i ,网站 h t t p :w w w c i t g u 。e d u a u 一a r o c k d e f e a s i b l e d e f e a s i b l e c g i 的拥有者是a n d r e wr o c k , 于是可以表示为下列四个三元组: r h t t p :w w w c i t g u e d u a u 一d b ,h t t p :w w w m y d o m a i n o r g s i t e - o w n e r ,# d a v i d b i l l i n g t o n ) ( # d a v i db i l l i n g t o n ,h t t p :w w w m y d o m a i n o r g p h o n e ,“3 8 7 5 5 0 7 ”) ( # d a v i d b i l l i n g t o n,h t t p :w w w m y d o m a i n o r g u s e s h t t p :w w w c i t g u e d u a u - a r o c k d e f e a s i b l e d e f e a s i b l e c g i ) ( h t t p :w w w c i t g u e d u a u - a r o c k d e f e a s i b l e d e f e a s i b l e c g i h t t p :w w w m y d o m a i n o r g s i t e o w n e r ,“a n d r e wr o c k ”、 它的r d f 图表示如图2 2 所示。 图2 2 包含多个三元组的r d f 图 f i g u r e2 2r d fg r a p hc o n t a i n sm u l t i p l et r i p l e s 我们再看一个例子, 有h t t p :w w w c i t g u e d u a u 一d b 和 h t t p :w w w c i t g u e d u a u - d a 两个网页,他们的创建者是n a m e 为d a v i db i l l i n g t o n 、 e m a i l 为d a v i d e m a i l o r g 的一个人。同样,这句话可以表示为下面四个r d f 三元 组: ( h t t p :h w w w c i t g u e d u a u 一d b ,c r e a t o r ,p e r s o n l0 2 3 ) ( h t t p :w w w c i t g u e d u a u 一d a ,c r e a t o r ,p e r s o n l0 2 3 ) ( p e r s o n 10 2 3 ,f l a m e ,d a v i db i l l i n g t o n ) 9 第一二章语义w e b 查询语苦s p a r q l ( p e r s o n l0 2 3 ,e m a i l ,d a v i d e m a i l o r 9 1 同样可以表示为下面的r d f 图。 鸯,- d a v i d b i l l i n g t o n1 厂 1 0 2 3 0 、7 _ p e m o n 、 ( _ , 远w w w e 亟i t g u e d 堕u a u 至- d a - ) 。- 。、恒三蔓三固 图2 3 包含多个r d f 三元组的r d f 图 2 1 2r d f 的结构化特性与空节点 如果只用例子中简单的r d f 三元组形式就足够描述所有需要记录的信息,则 一切变得很简单。但大多数现实世界中的数据至少表面看起来要比简单的r d f 三 元组所能描述的形式复杂得多【3 6 】。例如,上文的例子中并没有提及d a v i d 的u r i 引用,因此也可以被理解为是在描述网页的创建者特性,该特性值包含了名字和 电子邮件地址两个信息。这样包含复杂信息结构的特性称为结构化特性。对此, r d f 通过该特性值看做一个主体,将复杂的结构化特性分解为多个r d f 特性进行 描述。我们在例子中正是这样做的,但我们使用了一个原描述中未出现的u r i 引 用来确定一个人,这样的u r i 引用被称为中间u r i 引用。由于u r i 引用是可以被 任何人创建用来标识任何对象,所以这种做法并没有错。但通常一幅r d f 图中可 能有大量的中间u r i 引用,而它们可能从来不会被从r d f 图的外部引用,因此并 不需要使用通用的u r i 引用来标识。这样就可以用一种更直观的方法来表示该例 子。 一1 ;,。匡 ? 、 亟多- - 、运基 图2 4 中使用了空节点,它虽然没有u p , 引用,但表达了它应该表达的含义, l o 偏好s p a r q l 及其在电子商务中的应用 因为这个空节点本身提供了图中各个部分之间必须的连接作用。空节点也被称作 匿名资源。但在用三元组表示的时候,还是需要一个能清楚表达空节点的标识符, 通常使用“:”来表示f 3 7 】: ( h t t p :w w w c i t g u e d u a u - d b , c r e a t o r ,一:p e r s o n d a v i db i l l i n g t o n ) ( h t t p :w w w c i t g u e d u a u - d a , c r e a t o r ,一:p e r s o n d a v i db i l l i n g t o n ) ( _ :p e r s o n d a v i db i l l i n g t o n , n a m e ,“d a v i db i l l i n g t o n ”1 ( _ :p e r s o n d a v i db i l l i n g t o n , e m a i l ,“d a v i d e m a i l o r g ”1 在表示一个图的三元组中,图中每个不同的空节点都被赋予一个不同的空节 点标识符。与u r i 引用和文字不一样,空节点标识符并不被认为是r d f 图的一个 实际组成部分。空节点标识符仅仅是在把r d f 图表示成三元组形式的时候,用来 区分图中的空节点的,它只是在用三元组表示单一的图的时候才有意义。如果希 望图中的一个节点可以从图的外部来引用,那么就应该赋予一个u r i 引用来标识 它。因为空节点标识符表示的是( 空) 节点而非边,所以在一个图的三元组表达式中, 空节点标识符只能出现在三元组主体和客体的位置上,而不能出现在谓词的位置 上。 再考虑更复杂一点的特性,如果在上例中要描述d a v i d 的年龄是2 6 岁呢? 假 设已经能够有了a g e 这样一个特性,可以这样表示: ( _ _ :p e r s o n d a v i db i l l i n g t o n ,a g e ,2 6 ) 该特性的值表面上看来很简单,但实际上可能会更复杂。该三元组声明d a v i d 的年龄是2 6 ,但是单位量( 岁) 没有明确给出。当确信某个访问文本中特性值的人能 推定所使用的单位量时,则单位量经常被省略。但是,在w e b 上的文本海洋里, 这样的“确信”常常是不可靠的。因此,对于包含单位或是类似附加信息的特性 值应该经过缜密的考虑然后进行明确的声明,这样的特性值称为结构化值。在r d f 模型中,可以用一个单独的资源( 通常是空节点) 来表示结构化值,且作为原来声明 的客体。这个资源应该有个特性表示数值,称为主值,还有另一个特性表示单位 等附加信息。r d f 提供了一个预定义的特性r d f :v a l u e 来描述结构值中的主值1 3 8 1 。 r d f 能把这样的信息表述成结构化值: ( _ _ :p e r s o n d a v i db i l l i n g t o n ,a g e ,一:d a v i db i l l i n g t o n ) ( _ :a g e d a v i db i l l i n g t o n ,r d f - v a l u e “2 6 ”,m x s d :d e c i m a l l 第二章语义w e b 查询语言s p a r q l ( _ :a g e d a v i db i l l i n g t o n ,u n i t s ,u n i t y e a r ) 这样明确表示出d a v i d 的年龄是2 6 ,单位是年。至于这个单位如何处理则是 应用程序负责的事,r d f 本身并不关心。可以对一个结构化值赋予多个不同的附 加特性,如既声明单位是年,又声明单位是月,r d f 不能检查出这种错误。 我们在文字“2 6 ”后面加上了一个x m l s c h e m a 的数据类型的u r i 引用x s d : d e c i m a l ,说明这里的“2 6 是十进制整数。这样通过规定文字的类型可以更精确 地反映文字的含义。r d f 并不自己定义数据类型定义,而是使用独立定义的数据 类型,这里使用了x m ls c h e m a 中定义的数据类型。 2 1 3r d f 图的等价性 r d f 图是最直观的r d f 表示方式。r d f 图的等价性是处理r d f 的基本问题。 r d f 中的文字最多包含字符串、语言标签、数据类型三个部分。两个文字是 相等的,当且仅当下列条件成立: ( 1 ) 两个词法形式中的字符串是相同的,每个字符都相同。 ( 2 ) 要么都有,要么都没有语言标签;如果有语言标签,则它们是相等的。 ( 3 ) 要么都有,要么都没有数据类型;如果有数据类型,则它们两个是相同的。 r d f 中的资源都是用u r i 引用表示的( x m l 限定名只是对u r i 引用的简写形 式) 。两个r d f 的u r i 引用时等价的,当且仅当它们的u n i c o d e 字符串中的字符个 个相等。 两个r d f 图g 和g 是等价的,如果在两个图之间存在一个一一映射m ,使 得: ( 1 ) m 把空节点映射为空节点; ( 2 ) 对任意g 中的r d f 文字l i t ,有m ( 1 i t ) = l i t 。 ( 3 ) 对任意g 中r d f 的u r i 引用谢,有m ( u r i ) - - u d 。 ( 4 ) - - 元组( s ,p ,o ) 在g 中,当且仅当三元组( m ( s ) ,p ,m ( o ) ) 在g 中。 在这个定义下,映射m 是用来处理图中的空节点的,即等价的r d f 图间仅存 在空节点名称上的不同。显然,等价的r d f 图描述了相同的信息。 2 2s p a r q l 的语法与语义 本节介绍的s p a r q l 语言是w 3 c 为r d f 所设计的查询语言之一,这些查询 语言先后包括了o w l - q l ,r q l ,r d q l ,s p a r q l 等,其中,s p a r q l 是目前最 1 2 偏好s p a r q l 及其在电子商务中的应用 为流行的查询语言。它是一个用于查询的r d f 图模式匹配语法,类似于s q l 语言。 s p a r q

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论