（计算机应用技术专业论文）基于语义web的知识发现方法研究.pdf

上传人：伐*** IP属地：宁夏上传时间：2019-12-15 格式：PDF 页数：64 大小：2.63MB 积分：0 举报 版权申诉

已阅读5页，还剩59页未读，继续免费阅读

（计算机应用技术专业论文）基于语义web的知识发现方法研究.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

哈尔滨工程大学硕十学位论文摘要近年来w e b 以惊人的速度发展着，整个网络正在形成一个前所未有的超级信息数据库，如何处理这些海量信息成为了全新的课题。本体在w r e b 上的应用可以有效地解决w e b 信息共享的语义问题。语义w e b 可以使网络中的信息都具有语义，可以被计算机理解和处理，便于人和机器之间的交互和合作。因此建立基于语义w | e b 的知识发现方法具有实际意义和较高学术价值。本文首先分析了对于语义w e b 以及知识发现的国内外研究现状，阐述了语义w 曲的体系结构和本体相关理论、知识发现的过程以及w e b 数据挖掘技术的内容和技术。然后，讨论了在知识发现中应用语义w e b 的优势，提出了一个基于语义 w e b 和w e b 日志的知识发现模型。详细阐述了实现s k d m 的关键技术和算法，包括领域本体的表示方法、用户浏览行为的规范化表示方法、基于领域本体的语义w e b 页面分类算法、语义用户群分布算法、利用多马可夫链预测模型进行用户浏览行为预测方法，并分析了s k d m 的优缺点以及在w e b 个性化服务中的应用。最后对本文的工作进行了总结，并确定了下一阶段的研究方向。关键词：知识发现；语义w e b ；本体；分类哈尔滨工程大学硕十学能论文 a b s t r a c t i nr e c e n ty e a r s ，t h ew o r l dw i d ew e bi sd e v e l o p i n ga ta na m a z i n gs p e e da n d t h ew h o l ew e bi sf o r m i n gas u p e ri n f o r m a t i o nd a t a b a s ew h i c hn e v e rc o m e st ou s ， s oh o wt od e a lw i mt h i sg r e a tq u a n t i t yo fi n f o r m a t i o nb e c o m e st oan e wt a s k t h e a p p l i c a t i o no fo n t o l o g yi nt h ew e bp r o v i d e sa l le f f e c t i v es o l u t i o nt ot h es e m a n t i c q u e a i o n so fs h a r i n gw e bi n f o r m a t i o n s e m a n t i cw e bc a nm a k ea l li n f o r m a t i o ni n t h ew e bc o n t a i ns e m a n t i c s ，a n dt a i lb eu n d e r s t o o da n dp r o c e s s e db yc o m p u t e r s ， a n dt h a tm a k e si tc o n v e n i e n tf o rp e o p l et oi n t e r a c ta n dc o o p e r a t ew i t ht h e c o m p u t e r s s ot h er e s e a r c ho nt h em e t h o do fk n o w l e d g ed i s c o v e r yb a s e do n s e m a n t i cw e bh a sg r e a tp r a c t i c a lm e a n i n ga n dh i g ha c a d e m i cv a l u e f i r s t l y , t h ec u r r e n tr e s e a r c h s i t u a t i o no f s e m a n t i cw e ba n dk n o w l e d g e d i s c o v e r ya th o m ea n da b r o a da r ea n a l y z e di nt h i st h e s i s ，a n dt h es y s t e ms t r u c t u r e o ft h es e m a n t i cw e b ，t h er e l a t e dt h e o r yo fo n t o l o g y , t h ep r o c e s so fk n o w l e d g e d i s c o v e r ya n dt h ec o n t e n ta n dt e c h n i q u eo f w e bu s a g em i n i n ga r ed i s c u s s e d s e c o n d l y i nt h i st h e s i s ，t h ea d v a n t a g eo ft h ea p p l i c a t i o no fs e m a n t i cw e b t o t h ek n o w l e d g ed i s c o v e r yi sd i s c u s s e d ，a n dan e wm o d e lf o rk n o w l e d g ed i s c o v e r y b a s e do ns e m a n t i cw e ba n dw e bl o gf i l e si sp r o p o s e d w h a t sm o r e ，i ti l l u s t r a t e s t h ek e yt e c h n i q u ea n da r i t h m e t i co ff u l f i l l i n gs k d m ，i n c l u d i n gt h ee x p r e s s i n g m e t h o do fd o m a i no n t o l o g y , t h ec a n o n i c a le x p r e s s i n gm e t h o do ft h eu s e r s b r o w s i n gb e h a v i o r , t h ec l a s s i f i c a t i o na r i t h m e t i cm e t h o do fs e m a n t i cw e bp a g e s b a s e do nd o m a i no n t o l o g y ，t h ea r i t h m e t i cm e t h o do ft h ed i s t r i b u t i o no fs e m a n t i c u s e rg r o u p s ，t h em e t h o do ff o r e c a s t i n gt h el a s e r s b r o w s i n gb e h a v i o ru s i n gt h e m u l t i m a r k o vc h a i n a n dt h e n ，t h i sp a r ta l s o a n a l y s e s t h e a d v a n t a g e sa n d d i s a d v a n t a g e so fs k d m a n di t sa p p l i c a t i o ni nt h ew e bi n d i v i d u a t i o ns e r v i c e a tl a s t ，t h es u m m a r ya n dt h ef u r t h e rs t e p so ft h er e s e a r c ha r eg i v e n k e y w o r d s ：k n o w l e d g ed i s c o v e r y ；s e m a n t i cw e b ；o n t o l o g y ；c l a s s i f i c a t i o n 哈尔滨工程大学学位论文原创性声明本人郑重声明：本论文的所有工作，是在导师的指导下，由作者本人独立完成的。有关观点、方法、数据和文献的引用已在文中指出，并与参考文献相对应。除文中己注明引用的内容外，本论文不包含任何其他个人或集体已经公开发表的作品成果。对本文的研究做出重要贡献的个人和集体，均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。作者( 签字) ：斯敝 1 日期：测年月j 弘日哈尔滨工程大学硕+ 学位论文 1 1 研究目的与意义第1 章绪论自上世纪末以来互联网蓬勃发展，网络已经深深地改变了人类的生活，并日渐成为人们日常生活中获取信息的主要途径之一。越来越多的人在使用互联网，与此同时互联网的容量越来越大，内容越来越丰富。现在，即便是浏览一个网站，也往往会迷失于大量的信息中，很难快速高效的找到自己所需要的信息，这样就造成了很大程度上的对于时间的浪费。这种信息极度的膨胀，造成了数据丰富而知识缺乏的现状。那么如何有效地、快速地从海量的数据里面提取有用的信息，如何更方便地传递、交流、获取信息，成为当前高科技领域的关注热点。如果能够通过提供给用户一些有效的智能服务，让用户更加便捷的找到自己需要的信息，那么对于一个网站的发展来说则是很有现实意义的。通过用户的访问行为准确、及时、全面地了解用户的兴趣可以作为企业市场行为的科学根据。这也成为当前很多电子商务网站所面临的新的挑战。然而传统的w e b 存在着很多的不足和缺点。传统的w e b 上的绝大部分文件是以超文本标记语言h t m l ( h y p e r t e x tm a r k u pl a n g u a g e ) 的形式存储和传输的。随着w e b 应用的深入，h t m l 过于简单的弱点也越来越突出。其中一个明显的弱点就是由h t m l 编写的w e b 页面缺乏语义信息。因为h t m l 只是一种表达的技术，它并不能揭示h t m l 标记中所表示的含义。目前w e b 存在的闽题是：广泛存在的信息格式的异构性、信息语义的多重性以及信息关系的非统一性。为了解决w e b 上存在的缺陷，必须找到一种合理的解决途径。语义w e b 被认为解决问题的一种可能途径。随着语义w e b 研究的深入，越来越多的人认识到基于本体的w e b 使用知识发现和智能化服务对于未来w e b 领域的发展是非常重要的。可以借助于本体在w e b 上的应用所形成的语义w e b 来解决这些问题。面对大量的资源，在语义w e b 中如何集成发现的资源是其主要哈尔滨丁程大学硕十学位论文问题。建立一个基于语义w e b 知识发现方法，目的是根据w e b 对象的内在属性及w e b 本体描述的类与属性之间的关联，为用户活动提供更加准确的解释和推理能力，这些对基于语义w e b 的智能信息检索和智能电子商务的个性化服务中具有一定的实际意义和参考价值。 1 2 国内外研究现状 1 2 1 语义w e b 研究现状 w e b 能够将网页内容展示用户，却无法理解页面内容的含义，这成为 w e b 当前所面临的致命弱点。现在很多公司或研究机构都在致力于搜索引擎的开发，通过搜索引擎可以查询到包含用户感兴趣的信息的相关网页，但是当今网络飞速膨胀，即便是公认的最强大的搜索工具如g o o g l e 也只能检索到的w e b 的不到3 0 的内容。为了能让计算机在一定程度上理解w e b 的内容的含义，w e b 之父t i m b e m e r s l e e 早在1 9 9 8 年就提出了关于语义w e b 的设想n 3 ，。语义w e b 的思想勾勒了一个计算机能够在一定程度上根据定义，智能地进行信息处理的下一代万维网的宏伟构想，它的诞生引起了学术界、工业界的极大反响。语义 w 曲1 已经成为了当前w e b 技术研究的热点之一。语义w e b 研究的主要目的就是扩展当前w e b ，使得网络中信息都是具有语义的，都是计算机能够理解和处理的，便于人和计算机之间的交互合作。因而其研究的侧重点就是如何把信息表示为计算机能够理解和处理的形式，即带有语义。语义w e b 主要基于x m l 和r d f r d f s ，并在此基础上构建本体和逻辑推理规则，以完成基于语义的知识表示和推理，从而能够为计算机所理解和处理。在语义w e b 的研究中，知识表示、本体论、智能主体等都是其重要的研究内容，它们都是不可分割的。在知识的语义表示和推理中，有两个层次的研究：一是在理论上，基于逻辑形式化的研究工作，即以一阶谓词逻辑为代表的各种逻辑体系；二是基于这些逻辑理论的本体论的研究，可以看作是具体的应用研究。美国对语义w e b 的研究投入了巨资，最初投入就达7 0 0 0 万美元。欧盟 2 哈尔滨工程大学硕士学位论文 w 的信息社会技术计划启动了2 0 多个语义w e b 研究项目。日本2 0 0 1 年成立了专门的语义w e b 委员会。w 3 c 、d a r p a 和e r c i m 等研究机构以及h p 、i b m 、 m o t o r o l a 、n o k i a 、p h i l i p s 等公司都积极地投入到语义w e b 的研究中。许多高等学府如美国的m i t 、s t a n f o r d 、y a l e 、m a r y l a n d ，英国的m a n c h e s t e r ，德国的k a r l s r u h e ，荷兰的v r i j e 大学都非常重视这方面的研究。语义w 曲潜在的巨大商业潜力使工业界和学术界密切合作。为推动语义w e b 的发展，w 3 c 成立了专门的工作组并对各种相关技术进行标准化。其中较为活跃的是r d fc o r e 工作组晦，和w e bo n t o l o g y 拇工作组。这两个工作组对实现语义w e b 的一些基础技术进行开发和标准化。r d fc o r e 工作组致力于修订r d f 模型和语法的推荐标准，完成r d f 模式规范并在规范中提供与x m l 模式中的数据类型规范紧密结合的支持。w e bo n t o l o g y 工作组致力于创建一种语言，以定义结构化的、基于w e b 的本体。 t i mb e m e r s l e e 提出的语义w e b 模型还只是一个理想化的模型，其中的一个重要思想就是以本体来表示语义信息，通过在语义w e b 中引入本体层来实现语义信息的共享，从而提高网络信息服务的智能化与自动化。这一思想得到了众多语义w e b 研究者的认同，当前的许多项目都致力于在语义w e b 中引入本体层的研究，其中有代表性的为o n t o k n o w l e d g e ，k a o n 和 c o h s e 项目。 o n - t o k n o w l e d g e 是欧洲i s t ( i n f o r m a t i o ns o c i e t yt e c h n o l o g i e s ) 计划中的一个项目。该项目通过在信息中应用本体来提高大型分布式系统的知识管理水平。本体可以明确的表示半结构化信息的语义，这样就可以为信息的获取、保存和访问提供复杂的自动化支持。为了达到这一目标，该项目组开发了基于本体的工具和环境。这些工具和环境分为3 个级别：最低级是信息级，其作用是处理非结构化的信息资源，从中提取出机器可处理的元信息；中间级是表示级，作用是利用元信息来提供对这些信息资源的自动化访问、创建和保存；最高级为访问级，作用是利用先进的技术来进行信息访问，通过基于代理技术、查询技术和可视化技术，可以利用形式化的标记帮助用户访问信息。在所有级别中，本体都是实现功能的关键。采用这样的方法，可以使用这些工具在信息源和用户所需信息间建立联系，解决因它们之问的差别而带来的信息处理上的困难。 3 哈尔滨：程大学硕十学位论文 k a o n ( t h ek a r l s r u h eo n t o l o g ya n ds e m a n t i cw e bi n f r a s t r u c t u r e ) 是德国 k a r l s r u h e 大学的一个以商业应用为目标的开源的本体管理基础项目。该项目对t i mb e m e r s l e e 所提出的语义w e b 模型的实现进行了探索，创建了一系列工具，包括本体的创建工具、管理工具来为基于本体的应用提供基础。 k a o n 关注的重点是传统的本体管理和应用技术与商业应用技术( 如关系数据库) 的集成。在k a o n 项目中，本体和元数据在实现语义w e b 中具有重要地位，r d f 被用来作为本体和元数据的核心数据模型。该项目中开发了处理r d f 的工具集，并提供专用的工具和服务来实现本体和元数据的开发、管理和表示。这些工作以组件化的方式来完成，使k a o n 系统具有较好的可扩展性和灵活性。利用k a o n 提供的这些工具，可以很方便地创建语义w e b 应用。 c o h s e ( c o n c e p t u a lo p e nh y p e r m e d i as e r v i c e se n v i r o n m e n t ) 项目的目标是大幅度提高检索互联网上各种文档的效率和有效性。c o h s e 是由英国 e p s r c ( t h ee n g i n e e r i n ga n dp h y s i c a ls c i e n c e sr e s e a r c hc o u n c i l ) 的d i m ( d i s t r i b u t e di n f o r m a t i o nm a n a g e m e n t ) 计划提供基金，南安普顿大学与曼彻斯特大学合作开展的。该项目开发了一个从开放的概念化超媒体系统中集成表示符的系统。在实现这一系统时采用了三种前沿技术：本体化的推理服务；基于w e b 的开放式超媒体链接服务：本体服务与开放式超媒体链接服务的集成。c o h s e 利用本体来表示文档术语的概念化模型及这些术语问的关系，利用超媒体链接服务来提供链接工具，而本体服务与开放式超媒体链接服务的集成则形成了一个概念化的超媒体系统。用元数据来描述文档的内容，在文档之间产生了概念化的链接。我国的相关研究开展的比较晚，规模也不够大，但是可喜的是已经有越来越多的高校和科研院所正进行相关的研究。从1 9 9 9 年至2 0 0 6 年1 2 月发表的论文来看，论文数量逐年递增。随着时问的推移，对语义w e b 的研究已经引起了我国学者的高度重视。同时研究内容越来越广泛而深入，大致可分为 3 个层次- ：第一层次时对语义w e b 及其关键技术的描述与介绍，主要包括语义w 曲的含义、体系结构、关键技术( r d f 、o n t o l o g y ) 、面临的挑战等。第二层次是关于语义w | e b 及其关键技术对相关学科或研究领域的影响与 4 哈尔滨工程大学硕十学位论文启示，包括信息管理信息检索、知识库系统、数字图书馆、数据挖掘、电子商务、机器翻译、智能代理、需求分析、元数据描述与交换、网络信息资源和知识的表达等。第三个层次则是针对语义w e b 及其关键技术所做的具体试验与应用，包括r d f 的应用与存储、基于r d f x m l 的搜索引擎的设计与实现，本体的构建、基于本体的查询系统设计，本体在图书服务网络、知识图书馆和数字图书馆中的应用、本体与主题词表相结合实现对元数据的查询等。虽然语义w e b 展示了w e b 的美好前景以及由此而带来的互联网的革命，但语义w e b 的实现仍然面临着巨大的挑战佃，：内容的可获取性，即基于本体而构建的语义w e b 网页目前还很少；本体的开发和演化，包括用于所有领域的核心本体的开发，开发过程中的方法及技术支持，本体的演化及标注和版本控制问题；内容的可扩展性，即有了语义w e b 的内容以后，如何以可扩展的方式来管理它，包括如何组织、存储和查找等；多语种支持问题；本体语言的标准化问题。 1 2 2 知识发现研究现状在1 9 8 9 年8 月举行的第1 i 届国际联合人工智能学术会议上第一次提出了知识发现( k n o w l e d g ed i s c o v e r yi nd a t a b a s e ，k d d ) 的概念。迄今为止，由美国人工智能协会主办的k d d 国际研讨会已经召开了1 0 多次，规模由最初的专题讨论会发展到国际学术大会，人数由二三十人到上千人，研究重点也逐渐从发现方法转向系统应用，并且注重多种发现策略和技术的集成，以及各种学科之间的相互渗透。其他内容的专题会议也把数据挖掘和知识发现列为议题之一，已经成为当前相关领域的一大研究热点“。数据挖掘是知识发现过程的核心。g a r t n e rg r o u p 在一次高级技术调查中将数据挖掘和人工智能列为“未来- n 五年内将对工业产生深远影响的五大关键技术”之首，并且还将并行处理体系和数掘挖掘列为未来五年内投资焦点的十大新兴技术前两位。目前，数据挖掘和知识发现的主要研究内容包括基础理论、发现算法、数据仓库、可视化技术、定性定量互换模型、知识表示方法、发现知识的维 5 哈尔滨工程大学硕士学何论文护和再利用等。国际上比较有影响的数据挖掘系统主要有：c o v e rs t o r y ， e x p l o r a ，k n o w l e d g ed i s c o v e r yw o r k b e n c h ，d b m i n e r 等。近年来，i n t e r n e t 的发展使计算机、网络、通信合而为一，网络经济以其巨大的社会效益和极富挑战与机遇的内涵，正在成为信息科学最引人注目的研究课题。如何快速、准确地从海量的w e b 数据中获得有价值的知识，如何根据已有的历史数据来预测用户的未来行为等已经成为电子商务和人工智能等领域关注的一个焦点。目前，基于半结构化和非结构化数据的w e b 挖掘已经引起了计算机及相关领域的高度关注，集中讨论w e b 挖掘的w e bk d d 国际会议从1 9 9 9 年至今已经成功举办了6 次。2 0 0 5 年8 月，在美国芝加哥的第六次w e bk d d 会议上，基于移动和可变数据的w e b 日志挖掘和基于动态站点的w e b 内容挖掘和结构挖掘成为了大会讨论的主要议题。目前，w e b 挖掘的主要研究集中在：智能搜索引擎、信息推荐、个性化服务、自适应站点等方面。比较典型的应用系统有：t e x t m i n e r , w e b m i n e r 、和s h o p b o t 等。目前，针对w 曲环境中的数据挖掘和知识发现的研究焦点主要集中在以下几个方面：研究专门用于知识发现的数据挖掘语言，通过制定一些标准使数据挖掘过程走向形式化和标准化；寻求知识发现过程中的可视化方法，使得知识发现的过程能够被用户理解，也便于在知识发现过程中的人机交互；研究基于语义的知识表示和知识发现等恤，。国内对d m k d 的研究稍晚，目前还没有形成整体力量。1 9 9 3 年国家自然科学基金首次支持了对该领域的研究项目。虽然国内的许多科研单位和高等院校竞相开展知识发现的基础理论及其应用研究，如：北京系统工程研究所对模糊方法在知识发现中的应用进行了较深入的研究；北京大学也在开展对数据立方体代数的研究：南京大学等对半结构化数据的w e b 挖掘进行了研究等。但是，从总体上看，国内的d m k d 研究较为分散，数据挖掘技术在电子商务领域的应用才刚刚开始，研究成果的共享和应用还有待进一步提高。现阶段将知识发现与语义w e b 相结合的研究处与起步阶段，主要是从讨论如何建立知识发现的模型，从理论上进行验证可行性，并没有投入到实际的建设中。这种方法的基础是语义w e b ，这种方法能够真正投入到使用中需要语义w e b 能够搭建起来并投入到广泛的使用中，但是现阶段已经建成的语义w e b 还是非常少的，这也成为制约予以w e b 知识发现方法的研究的一个 6 哈尔滨工程大学硕士学位论文重要因素。将该方法作为对未来网络数据挖掘的一种前沿技术的讨论是很有价值的，国内外都已经开始着手对此进行研究，并取得了一定的成果。 1 3 研究内容本论文所研究的主要内容是如何在语义w e b 的基础上利用其理论与方法，结合知识发现的知识及其核心数据挖掘技术，通过提出一种基于语义w e b 的知识发现方法，获得语义w 曲内所隐藏的知识。研究内容如下： ( 1 ) 语义w e b 基础理论研究，包括语义w e b 的体系结构、数据模型、形式化描述；将人工智能和知识表示比较成熟的关于语义的研究方法、技术和理论应用到语义w e b 中，促进对其的形式化研究。 ( 2 ) 研究本体作为在知识层提供知识表示和知识推理的方法及其应用，并研究在语义w e b 中如何用领域本体对对象及其属性和关系进行描述。 ( 3 ) 研究知识发现的理论和过程，对知识发现的核心数据挖掘技术进行分析，并深入研究w e b 使用挖掘的分类、过程和方法。 ( 4 ) 研究如何借助于领域本体对语义w e b 页面进行分类，进而结合用户聚类得方法建立起一个用于分析用户浏览行为的知识发现模型。 ( 5 ) 研究如何将知识发现的研究成果应用于对用户访问行为的预测中。 1 4 论文组织结构本论文拟采用如下的论文组织结构：第l 章说明了本论文的研究目的与意义，分析了对于论文相关的国内外研究现状，确定了论文的研究内容和组织结构。第2 章分析本文相关的理论和技术，包括语义w e b 的概念和结构，本体的概念和本体描述语言、w e b 描述语言，还有知识发现的相关理论以及w e b 数据挖掘技术。第3 章首先分析在知识发现中运用语义w e b 技术的优势，并阐述语义 w e b 中进行知识发现的过程，由此提出一个基于语义w e b 的知识发现模型 ( s k d m ) ，并提出如何对该模型进行评价。 7 哈尔滨工程大学硕士学位论文 i l l 第4 章就第三章提出的s k d m 进行深入研究，阐述s k d m 实现中的主要方法技术和关键算法，包括页面分类算法、用户分类算法和用户行为预测算法等。 8 哈尔滨丁程大学硕士学位论文 2 1 语义w e b 第2 章相关理论与技术 2 1 1 语义w e b 的概念语义w e b ( s e m a n t i cw e b ) 被称为第三代互联网。为了让w e b 发挥更大的潜能，w e b 创始人t i mb e m e r s l e e 在1 9 9 8 年首次提出语义w e b 的概念，并在2 0 0 0 年1 2 月召开的x m l 2 0 0 0 会议上阐述了语义w e b 的设想。他认为“语义w e b 是现有w e b 的扩展，信息的含义在语义环境下能够很好的加以定义，使得计算机和人类能够更好的协同工作。或者说，语义w e b 的目标是让w e b 上的信息能够被近期所理解，从而实现w e b 信息的自动处理，以适应w e b 资源的快速增长，更好的为人类服务”。语义w e b 并不是一个独立的w e b ，而是对现在广泛使用的w e b 的扩展。语义w e b 上的信息具有定义良好的含义，使得计算机之间以及人类能够更好地彼此合作。其追求的目标是让w e b 上的信息能够被机器理解，从而实现 w 曲信息的自动处理，以适应w 曲信息资源的快速增长。在语义w e b 中，各种资源被人为地赋予了各种明确的语义信息，计算机可以分辨和识别这些语义信息，并对其自动进行解释、交换和处理。互联网中信息和知识不仅可以发布和生成，而且可以进行语义校验、机器推理、形式证明，真正让w e b 形式化和语义化。与传统的w e b 相比，语义w e b 不仅解决了w e b 上信息共享的语义问题，还能够实现w e b 资源在语义层的共享和互操作他州。 2 1 2 语义w e b 结构可以把语义w e b 的发展，理解为是信息表示语言的发展，让信息表示在在不同层次上使计算机可以理解和可以处理。语义w e b 是由多种语言和应用 9 哈尔滨二程大学硕士学位论文形成的一个层次化的体系结构。t i mb e m e r s l e e 在2 0 0 0 年提出了语义w e b 的体系结构。语义w 曲体系结构如图2 1 所示。图2 1 语义w e b 结构该体系中从底层到高层分别是“a | ：u n i c o d e 和u r i 、x m l 、r d f + r d f s c h e m a 、o n t o l o g y 、l o g i c 、p r o o f 、t r u s t 。 1 第一层是u c o d e 和u r i 该层是整个语义w e b 的基石，成功地解决了w e b 上资源的定位和跨地区字符编码的标准格式的问题。其中u n i c o d e 处理资源的编码，保证使用的是国际通用的字符集，以实现网上信息的统一编码。u r i 是统一资源标识符，用来标识义w e b 的资源和属性。 2 第二层x m l + n s + x m l s c h e m a 该层是用于表示数据的内容和结构的语法层。x m l 是e x t e n s i b l em a r k u p l a n g u a g e 的缩写，即可扩展标记语言，是一种标记语言。它可以将数据与格式从网页中分开，它可以储存数据和共享数据。它由万维网协会( w 3 c ) 创建，用来克服h t m l ( 即超文本标记语言，它是所有网页的基础) 的局限。 n s 是n a m es p a c e ( 名称空间) 的缩写，x m l s c h e m a ( x m l 模式定义) ，x m l 通过标记语言将网上信息的结构、内容与数据的表现形式进行分离，并支持与其他基于x m l 的标准进行无缝集成。 3 第三层是r d f + r d fs c h e m a 该层用于描述网络上的资源及其类型，为网上资源提供一种通用框架和实现数据集成的元数据解决方案。r d f 是r e s o u r c ed e s c r i p t i o nf r a m e w o r k 的 1 0 哈尔滨工程大学硕十学位论文缩写，即资源描述框架，是一种用于描述w e b 资源的标记语言。r d f 文档由资源、属性和声明三类实体组成。r d fs c h e m a ( 简称r d f s ) 是r d f 模式，提供属性与属性间关系的机制。r d f 与r d fs c h e m a 合称r d f ( s ) 。u r i 用于标识网上的对象，r d f ( s ) 可以对u r i 表示的对象进行陈述。 4 第四层o n t o i o g y 层 o n t o l o g y ( 本体) 层描述各种资源之间的联系。本体揭示了资源本身以及资源之间更为复杂和丰富的语义信息，从而将信息的结构和内容相分离，对信息做出完全形式化的描述，使网上的信息具有计算机可以理解的语义。 5 第五到七层这三层位于语义w e b 体系结构的顶部，也是语义表达的高级要求，目前正处于研究的阶段，也有一些简单的示范性应用系统正在建设中。其中，逻辑层提供了推理规则的描述手段，证明层通过运用这些规则进行逻辑推理和求证，而信任层则负责为应用程序提供一种机制以决定是否信任给出的论证。 6 数字签名( d i g i t a is i g n a t u r e ) 数字签名位于层次模型的右侧，并且贯穿于中间的四层。数字签名是一种基于互联网的安全认证机制。当信息内容从一个层次传递到另一个层次时，允许使用数字签名说明内容的来源和安全性，这样接受方就可以通过数字签名鉴别其来源和安全性以决定是否接受。数字签名对于语义w e b 及其他使用 x m l 进行信息交换的系统非常重要。在这个层式结构中，上层将下层的语言机制作为本层的支撑语言，通过分析器，从合法有效的下层描述中抽取出本层所能理解的模型，实现更多的语义处理功能。x m l 、r d f 、o n t o l o g y 这三层主要用于表示网络信息的语义，是系统的核心和关键所在。 2 2 本体概述 2 2 1 本体定义本体最早是一个哲学上的概念，从哲学的范畴来说，本体是客观存在的一个系统的解释或说明，关心的是客观现实的抽象本质。在人工智能界，最 l l 哈尔滨t 程大学硕士学位论文早给出本体定义的是n e c h e s t 川等人，他们将本体定义为“给出构成相关领域词汇的基本术语和关系，以及利用这些术语和关系构成的规定这些词汇外延的规则的定义”。关于本体的定义有几个比较有代表性的定义方法： 1 9 9 3 年，g r u b e 给出了本体的一个最为流行的定义n 7 】“本体是概念模型的明确的规范说明。后来，b o r s t 在此基础上，给出了本体的另外一种定义n 引：“本体是共享概念模型的形式化规范说明”。 s t u d e r 等对上述两个定义进行了深入的研究，认为本体是共享概念模型的明确的形式化规范说明。现在第三种定义即由s t u d e r 提出的本体概念得到了比较广泛的应用。其定义包含四层含义n 1 概念模型( c o n c e p t u a l i z a t i o n ) 、明确( e x p l i c i t ) 、形式化 ( f o r m a l ) 和共享( s h a r e ) 。 “概念模型”指通过抽象出客观世界中一些现象( p h e n o m e n o n ) 的相关概念而得到的模型。概念模型所表现的含义独立于具体的环境状态。 “明确”指所使用的概念及使用这些概念的约束都有明确的定义。 “形式化”指本体是计算机可读的( 即能被计算机处理) 。 “共享指本体中体现的是共同认可的知识，反映的是相关领域中公认的概念集，即本体针对的是团体而非个体的共识。本体的目标是捕获相关领域的知识，提供对该领域知识的共同理解，确定该领域内共同认可的词汇，并从不同层次的形式化模式上给出这些词汇( 术语) 和词汇间相互关系的明确定义。 2 2 2 本体建模元语本体包含5 个基本建模元语( m o d e l i n gp r i m i t i v e ) ，分别为：类( c l a s s e s ) 、关系( r e l a t i o n s ) 、函数( f u n c t i o n s ) 、公理( a x i o m s ) 和实例( i n s t a n c e s ) 。通常也把类写成概念( c o n c e p t s ) 。概念含义很广泛，可以指任何事物，如工作描述、功能、行为、策略和推理过程等等。 1 2 哈尔滨工程大学硕士学位论文关系代表了在领域中概念之间的交互作用。形式上定义为n 维的笛片儿乘积的子集：r ：c 1 c 2 e 。如：子类关系( u b c l a s s o f ) 。函数是一类特殊的关系。在这种关系中前，l 一1 个元素可以唯一决定第” 个元素。可以形式化的定义如下：f ：gxc 2x x e 一。_ e 。公理代表永真的断言，用于说明函数之间或关联之间存在的关联或约束。实例是指属于某个概念的个体。在本体中，概念之间的基本关系有4 种：p a r t - o f , a t t r i b u t e o f ，i n s t a n c e o f 和k i n d o t a ”1 。p a r t o f 表达概念之间部分与整体的关系；i n s t a n c e o f 表达概念的实例和概念之间的关系；a t t r i b u t e o f 表达某个概念是另外一个概念的属性。 k i n d o f 表达概念之间的继承关系。一般情况下，本体的概念之间都存在着层次性关系( 或者说上下位关系) ，更高层的概念代表更抽象的意义，更低层的概念代表更具体的意义，低层概念与它上层的概念是“k i n d o f 的关系。所有的层次性关系构成一个树状结构。 2 2 3 本体的分类目前从不同的角度出发，存在多种对本体的分类标准。按照本体的主题，本体通常可以划分为如下5 种类型幢”。 ( 1 ) 知识表示本体。典型的关于知识表示系统的研究工作，是斯坦福大学知识系统实验室从事的关于知识本体的研究。该项研究对知识的本质特征和基本属性进行研究。 ( 2 ) 通用或常识本体。通用知识本体论的研究包括著名的c y c 工程，中国科学院数学所承担的国家自然科学基金重点项目“常识知识的实用研究” 也属于通用知识本体的研究范畴。其他工作主要还包括j s o w a 的通用本体研究“，等。 ( 3 ) 领域本体。领域本体研究如何定义特定领域中的概念、概念之间的关系、发生的活动以及该领域的主要理论和基本原理等。目前已经开发的领域本体主要包括企业本体、医学概念本体、酶催化生物医学本体、电子商务供应链本体等。其中，企业本体( e n t e r p r i s eo m o l o g y ，e o 汹) 是大型企业建模基础设施的一个重要组成部分，它覆盖了企业建模所有的核心概念。比较 1 3 哈尔滨丁程大学硕士学位论文著名的企业本体研究工作包括爱丁堡大学企业项目( e n t e r p r i s ep r o j e c t 汹，) 和多伦多大学的虚拟企业( v i r t u a le n t e r p r i s e 亿町) 项目。 ( 4 ) 语言学本体。语言学本体是指关于语言、词汇等的本体，典型的实例为w o r d n e f 。w o r d n e t 是一个联机英语词汇检索系统，其核心是它的词汇源文件。 ( 5 ) 任务本体。任务本体是本体研究中的另一个分支，主要涉及动态知识，而不是静态知识m 1 。其它对本体的分类方法包括：按照本体的开发目的进行分类、按照本体的形式化程度进行分类等。在此不作详述，请参见文献旧，。 2 3w e b 本体描述语言本体描述语言可以使得用户为领域模型编写清晰的、形式化的概念描述。随着w e b 的发展，出现了一系列基于w e b 的本体语言，也叫做本体标记语言。标准的w e b 本体描述语言能够通过类、属性、公理和实例等元素来准确地描述w e b 上的元数据和w e b 对象，并提供基于分类层次的领域知识及其语义关联。因此，根据w e b 本体描述的类、属性、类之间的关联、属性之间的关联、类与属性之间的关联，以及类之间的外延关系和属性之间的外延关系等，可以准确地发现w e b 对象之间的关联和潜藏的语义知识。下面的图2 2 是w 3 c 的本体语言栈描述心：图2 2w 3 c 的本体语言栈 1 4 哈尔滨t 程大学硕士学位论文 = ；暑；宣；i i i 一 i 宣；= 昌；i w e b 本体描述语言是对w e b 本体进行定义和描述的一种语言。随着语义 w e b 研究的深入，w 曲本体描述语言已经从最初的r d f ( s ) 、o i l 、d a m l 、 d a m l + o i l 发展至o 、忑亿。 ( 1 ) s h o e ( s i m p l eh t m lo n t o l o g ye x t e n s i o n s ) 是h t m l 的扩展。它是基于框架和规则的。它使用一些不同于h t m l 的标记，使得可以在h t m l 文档中插入本体，将机器可读的语义知识结合到h t m l 文件或其它w e b 文档中。当x m l 产生并成为w e b 上交换信息的标准后，s h o e 的语法被修改为基于x m l 的。 ( 2 ) r d f ，r d f s ( r d fs c h e m a ) ，是w 3 c 在l 基础上推荐的一种标准，目的是为了创建描述w e b 资源的元数据，r d f 是表述对象及对象之间二元关系的语言规范。 ( 3 ) d a m l + o i l ，其知识基础是r d f 三元组的集合。d a m l + o i l 使用自己的词汇给r d f 三元组以具体的意思表述。d a m l + o i l 将整个世界划分为两个不相交的部分。一部分是由属于x m ls c h e m a 数据类型( d a t at y p e ) 的值所组成的，称作数据类型域。另一部分则是由( 单个) 对象所组成的，这些对象应被看作是d a m l + o i l ( 或r d f ) 中所定义的类的成员，此部分称作对象域。 ( 4 ) o w l ( w e b 本体语言，w e bo n t o l o g yl a n g u a g e ) o w l 是w 3 c 推荐的一种标准的w e b 本体描述语言，它在x m l r d f 等己有标准的基础上，通过添加大量的基于描述逻辑的语义原语来描述和构造w 曲本体【2 8 1 。o w l 的目的是提供更多的原语以支持更加丰富的语义表达，并更好的支持推理。针对不同的需求，o w l 有三个子语言：o w ll i t e 、o w ld l 和o w lf u l l 。 o w l 本体抽象语法主要包含注释( a n n o t a t i o n s ) 、公理( a x i o m s ) 和事实( f a c t s ) 。 o w l 本体的主要内容在公理和事实中执行，o w l 事实提供了个体 ( i n d i v i d u a l s ) 的结构化描述，每个个体由个体标识

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（计算机应用技术专业论文）基于语义web的知识发现方法研究.pdf

文档简介

温馨提示

最新文档

评论

（计算机应用技术专业论文）基于语义web的知识发现方法研究.pdf

文档简介

温馨提示

最新文档

评论

相关文档