




已阅读5页,还剩59页未读, 继续免费阅读
(计算机应用技术专业论文)领域本体半自动化建模研究与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
东南大学学位论文独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成 果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表 或撰写过的研究成果,也不包含为获得东南大学或其它教育机构的学位或证书而使用过 的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并 表示了谢意。 研究生签名:幺牛日期:删 东南大学学位论文使用授权声明 东南大学、中国科学技术信息研究所、国家图书馆有权保留本人所送交学位论文的 复印件和电子文档,可以采用影印、缩印或其他复制手段保存论文。本人电子文档的内 容和纸质论文的内容相一致。除在保密期内的保密论文外,允许论文被查阅和借阅,可 以公布( 包括刊登) 论文的全部或部分内容。论文的公布( 包括刊登) 授权东南大学研 究生院办理。 研究生签名:洱导师签名:薹笠墨一日期:幽多 摘要 摘要 本体是一种用来描述概念以及概念之间关系的模型。本体技术在计算机的许多领域 得到了广泛的应用,如知识工程,数字图书馆,软件复用,信息检索和w e b 上异构信息 的处理,语义w e b 等。本体构建的好坏,直接影响这些应用过程。因此,如何方便,快 速构建本体是当今研究的热点问题。 从目前本体构建的现状来看,领域本体的构建很大程度上依赖于手工,半自动化与 自动化构建领域本体的方法远远没有达到成熟的应用。由于手工方法存在工程复杂,专 家依赖性强,本体构建速度慢等缺陷,这极大的限制了本体的发展。随着本体应用面的 扩展和辅助资源的增加,出现了一些与人工智能领域相结合的利用辅助资源来半自动化 或自动化构建本体的方法,其使用的核心技术就是本体学习一利用知识发现技术从数据 源中获取知识,从而实现本体的半自动化或自动化建模。 本体学习技术是当今研究的热点,它的主要目标是从w e b 文档中自动获取领域术语 及其相互关系,采用信息抽取技术来确定概念对之间的语义关系,在获取的概念及其相 互关系的基础上构建本体。本体学习的任务包括概念的获取、概念问关系( 包括分类关 系和非分类关系) 的获取和公理的获取。 本文将统计自然语言处理和文本挖掘等相关技术应用到领域本体的构建过程中,进 行了领域本体的半自动化构建的研究。本文提出的领域本体半自动化建模方法通过从大 量中文的领域文献中自动提取领域概念以及领域概念间关系实现。 通过对领域相关语料文本进行分词处理,词语的组合搭配处理提取候选合成词语, 接着对候选合成词语进行互信息以及上下文依赖分析判断候选合成词语是否完整的合 成词语,最后对合成词语以及领域常用词语进行领域相关度分析获得候选领域概念。得 到的候选领域概念需要人工校验挑出领域概念。 利用从领域语料文本中提取的领域概念,设计了提取领域概念间关系的相关算法。 考虑领域概念问的关系有分类关系以及非分类关系。分类关系是指概念之间的层次关 系,本文从词形与词义两个方面着手设计提取分类关系的方法。从词形上看,具有分类 关系的合成词语往往具有相同的后缀,采用广义后缀树方法提取了这部分分类关系;从 词义上看,具有分类关系的词语往往可以使用在相似的上下文环境中,采用对词空f 8 】向 量聚类的方法提取这部分的分类关系。非分类关系种类繁多,本文采用基于关联规则挖 掘获取相关概念对的方法获取非分类关系,需要人工编辑相关概念对之间的非分类关 系。 本文的研究丰富了本体的理论和应用研究,一定程度上加速了本体的构建,但仍然 有许多不足,后续要进行的工作还有很多。 关键词:领域本体;分类关系;广义后缀树;聚类;词空间向量;非分类关系;基 于关联规则挖掘 东南大学硕十学位论文 a b s t r a c t o n t o l o g yi sam o d e lt h a td e s c r i b e sd o m a i nc o n e e d t sa n dr e l a t i o n sb e t w e e nd o m a i n c o n c e p t s o n t o l o g yi sw i d e l yu s e d i nm a n yf i e l d so fc o m p u t e r , s u c ha si n f o r m a t i o n e n g i n e e r i n g d i g i t a ll i b r a r y , s o f t w a r er e u s e ,i n f o r m a t i o nr e t r i e v a la n dp r o c e s s i o no fi s o m e r o u s i n f o r m a t i o n s e m a n t i cw e ba n ds oo n t h eq u a l i t yo fo n t o l o g yc o n s t r u c t i o na f f e c t st h e s e a p p l i c a t i o n sd i r e c t l y t h e r e f o r e ,h o wt oc o n s t r u c to n t o l o g yf a s ta n dc o n v e n i e n t l yi sa h o tt o p i c n o w a d a y s f r o mt h er e c e n ts t u d ys i t u a t i o no fo n t o l o g yc o n s t r u c t i o n ,c o n s t r u c t i o no fd o m a i no n t o l o g y d e p e n d so nm a n u a lt oag r e a te x t e n t a n ds e m i a u t o m a t i ca n da u t o m a t i cc o n s t r u c t i o nm e t h o d s o fd o m a i no n t o l o g ya r ef a rf r o mm a t u r e a sm a n u a lc o n s t r u c t i o nm e t h o d sh a v ed e f e c t ss u c h a sc o m p l e x i t y , h i g hd e p e n d e n c eo ne x p e r t s ,l o ws p e e da n ds oo n ,t h e s ed e f e c t sr e s t r i c tt h e d e v e l o p m e n to fo n t o l o g y w i t ht h ed e v e l o p m e n to fo n t o l o g ya p p l i c a t i o n s e m i a u t o m a t i ca n d a u t o m a t i cc o n s t r u c t i o nm e t h o d so fo n t o l o g yh a v ec o m eo u t t h ec o r et e c h n o l o g yo ft h e s e m e t h o d si so n t o l o g yl e a r n i n g o n t o l o g yl e a r n i n gi sa h o tr e s e a r c ht o p i cn o w a d a y s i t st a r g e ta i mi st oa u t o m a t i c l ye x t r a c t d o m a i nc o n c e p t sa n dr e l a t i o n sb e t w e e nd o m a i nc o n c e p t s d o m a i no n t o l o g yi sc o n s t r u c t e do n t h eb a s i so fd o m a i nc o n c e p t sa n dr e l a t i o n sb e t w e e nd o m a i nc o n c e p t s t h et a s k so fo n t o l o g y l e a r n i n ga r et oo b t a i nd o m a i nc o n c e p t s ,r e l a t i o n sb e t w e e nd o m a i nc o n c e p t sa n da x i o m t h i sp a p e ra p p l i e st h es t a t i s t i cn a t u r a ll a n g u a g ep r o c e s s i n ga n dt e x tm i n i n gt e c h n o l o g yt o c o n s t r u c td o m a i no n t o l o g ys e m i a u t o m a t i c l y t h em e t h o di sr e a l i z e db ye x t r a t i n gd o m a i n c o n c e p t s a n dr e l a t i o n sb e t w e e nd o m a i nc o n c e p t sa u t o m a t i c l yf r o mc h i n e s ed o m a i n l i t e r a t u r e s t h ec a n d i d a t ed o m a i nc o n c e p t sa r ee x t r a c t e db yu s i n gc h i n e s ew o r dp a r t i t i o nt od e a lw i t h t e x tc o r p u s ,c o m b i n i n gw o r d sa d j a c e n tt oc o n s t r u c tc a n d i d a t ec o m p o u n dw o r d s ,j u d g i n g c a n d i d a t e c o m p o u n d w o r d sb yc o m p u t i n gm u t u a li n f o r m a t i o na n da n a l y z i n gc o n t e x t d e p e n d e n c yo ft h ew o r d s ,a n da t l a s ta n a l y z i n gd o m a i nr e l a t i v i t yo ft h e s ew o r d s t h e c a n d i d a t ed o m a i nc o n c e p t sa r ec h e c k e dt oo b t a i nd o m a i nc o n c e p t sf i n a l l y t h er e l a t i o n s h i p sa m o n gt h ec o n e 印t sc o n t a i nt a x o n o m yr e l a t i o na n dn o n - t a x o n o m y r e l a t i o n s t h em e t h o db a s e do nr u l e si st h ec o m m o nw a yt og a i nt h et a x o n o m yr e l a t i o n ,b u ti t h a si t so w ns h o r t c o m i n g s t o n o m yr e l a t i o n sa m o n gt h ec o m p o u n dw o r d sa r eg a i n e db a s e d o ng e n e r a l i z e ds u 衔xt r e e t h es a m ek i n do fw c i r d sc a nb eu s e di nt h es i m i l a rc o n t e x t s o c l u s t e r i n gm e t h o dc a nb eu s e dt og a i nt h et a x o n o m yr e l a t i o n s a sa r e s u l to ft h ec o m p l e x i t yo f n o n t a x o n o m yr e l a t i o n s ,t h er e l a t e dc o n e 印tp a i r sa r ee x t r a c t e da n dn o n - t a x o n o m yr e l a t i o n s a r er e c o g n i z i n gb ym a n u a l t h er e s e a r c ho ft h ep a p e ra c c e l e r a t e sc o n s t r u c t i o no fo n t o l o g yt oac e r t a i ne x t e n t ,b u tt h e m e t h o dh a si t so w nd e f e c t st ob ei m p r o v e d k e y w o r d s :d o m a i nc o n c e p t ,t a x o n o m yr e l a t i o n ,g e n e r a l i z e ds u m xt r e e ,c l u s t e r i n g ,w o r d s p a c ev e c t o r , n o n - t a x o n o m yr e l a t i o n ,m e t h o db a s e do nr e l a t e dr u l e sm i n i n g 目录 t 1 := , 目习 摘要i a b s t r a c t i i 第一章引言1 1 1 研究背景1 1 2 国内外研究现状1 1 3 本文的主要1 :作2 1 4 本文的组织结构3 第二章语义网与本体概述4 2 1 语义网介绍4 2 i i 语义网的提出4 2 1 2 语义网的体系结构4 2 1 3 本体和语义网的关系5 2 2 本体介绍6 2 2 1 本体定义6 2 2 2 本体的分类6 2 2 3 本体描述语言。7 2 2 4 本体编辑丁具1 1 2 3 本体构建1 :程思想1 2 2 3 1 召架法1 2 2 3 2 循环获取法1 3 2 3 3 企业建模法l 3 2 4 本体构建准则1 3 2 5 本章小结1 4 第三章本体学习1 5 3 1 面向不同数据源的本体学习1 5 3 1 1 基丁结构化数据的本体学习1 5 3 1 2 基于非结构化数据的本体学习1 6 3 i 3 基于半结构化数据的本体学习1 8 3 2 本体学习工具1 9 3 2 1 本体学习工具简介2 0 3 2 2 本体学习工具比较2 2 3 3 本章小结2 3 第四章领域本体半自动化建模系统设计2 4 4 1 系统实现框架2 4 4 2 领域概念自动提取模块设计2 5 4 2 1 合成词语提取2 5 4 2 2 领域概念提取参数2 6 4 2 2 1 互信息2 6 4 2 2 2 上下文分析2 7 4 2 2 3 领域相关度分析2 8 4 2 3 领域概念提取模块实现框架2 9 4 3 分类关系提取模块设计3 0 4 3 1 广义后缀树方法提取分类关系3 0 4 3 2 聚类方法提取分类关系3 2 4 3 2 1 词空间的构建3 3 4 3 2 2 领域概念之间相似度计算3 4 4 3 2 3 典型的聚类方法3 4 4 3 2 4 一种基于“最小最大”原则的初始质心优选的k - m e a n s 聚类算法3 5 4 4 非分类关系提取模块设计3 8 4 4 1 关联规则挖掘方法3 8 i 东南人学硕:t :学位论文 4 4 2 非分类关系提取算法3 9 4 5 本章小结3 9 第五章领域本体半自动化建模系统实现4 0 5 1 系统开发环境4 0 5 2 领域概念提取模块的实现4 0 5 3 领域概念间关系提取模块的实现4 3 5 3 1 分类关系提取模块实现4 3 5 3 2 非分类关系提取模块的实现4 5 5 3 3 领域概念间关系运行演示4 6 5 4 本体表示的实现4 7 5 5 本章小结5 2 第六章总结与展望5 3 6 1r l j 作总结5 3 6 2 未来:i :作展望5 4 致谢5 5 参考文献5 6 文章发表情况。5 9 i l 第一章引言 1 1 研究背景 第一章引言 随着计算机在社会生活中的广泛应用,人们对数字信息的需求越来越强烈,信息技 术开始面临种种新的挑战,如知识的表示、知识的共享、信息的组织、软件的复用等。 尤其是i n t e m e t 的迅速发展,使得如何组织、管理和维护海量信息并为用户提供有效的 服务已成为一项重要而迫切的研究课题。同时,随着各种已有的和将要研制的知识库的 不断增多,人们期望已有的知识库能够在后面的基于知识的系统中继续使用,也希望不 同的知识库系统能够共享某个知识库的知识,这样可以极大地减少研究开发中的工作 量。为了适应这些需求,本体( o n t o l o g y ) 作为一种能在语义知识层次上描述概念和概念 间关系的概念表示,自提出以来就引起了国内外众多科研人员的关注,并在计算机的许 多领域得到了广泛应用,如知识工程、软件复用、信息检索和异构数据源的集成、语义 w e b 等。 作为本体应用研究的一项基础性工作一本体的构建方面也进行了大量的研究工作, 产生了很多本体构建工具,例如美国斯坦福大学的p r o t 6 9 6 、德国o n t p o s r i e 的o n t o e d i t 等。构建本体没有一个统一的模式,通常是利用这些本体的构建工具,经历获取领域知 识( 包括搜集领域概念、定义领域概念之间的关系等) 、利用工具的编辑环境建立本体、 对构建的本体进行校验等步骤。对于某个特定的领域,领域知识的获取通常需要领域专 家来人工搜集领域概念并定义其关系。虽然现有的本体构建工具的编辑环境已经可以满 足建立本体的需求,但是完全靠人工搜集概念以及概念之间的关系来构建本体,仍然是 一项费时费力的工作,使得基于本体的应用难以推广,成为本体应用的一个瓶颈。当领 域涉及到的概念较多时,构建本体的工作量将成倍增加。 为了解决手工构建本体的瓶颈问题,我们需要以自动化或半自动化的手段来构建本 体。因此,如何以自动化或半自动化方式构建本体,提高本体构建效率,降低本体构建 的开销,是一个很有意义的研究方向。目前,国内外在该方向上的研究很活跃,把相关 的研究称为本体学习( o n t o l o g yl e a r n i n g ) ,其目标是利用机器学习和统计等技术自动或 半自动地从已有的数据源中获取期望的本体。 综上所述,自动化或半自动化构建本体对于本体理论的进一步发展,语义w e b 的推 广应用以及因特网的革新起到了重要的作用。因此本体学习在理论和实际应用中将显示 出巨大的意义和价值。 1 2 国内外研究现状 目前已经出现了许多本体构建工具,从最早的o n t o l i n g u a 引,o n t o s a u r u s 引, w e b o n t o 7 1 ,到p r o t 6 9 6 2 0 0 0 8 1 , w e b o d e 9 1 ,o i l e d t l0 1 , o n t o e d i t 【1 1 1 以及k a o n 1 2 1 等, 本体构建工具也日趋成熟。这些工具提供了友好的图形化界面和一致性检查机制,但是, 这些工具提供的仅仅是本体编辑功能,支持的仍然是手工构建本体的方式。由于手工方 法存在工程复杂,专家依赖性强,本体构建速度慢等缺陷,这极大的限制了本体的发展。 近年来,为了能够获取一种简单,高效的本体构建方法,国外的很多研究机构将自 然语言处理技术和文本挖掘技术应用到本体的构建方法中,产生了一些利用领域文本语 料来半自动化构建本体的方法和相关技术,例如台湾中央研究院的s o a t 1 3 】、日本研究 东南人学硕上学位论文 机构的d o d d e 1 4 】、意大利研究机构的s y m o n t o s 1 5 j 等。这些方法主要是通过对领域相 关的文本语料进行自然语言处理( 包括词性标注,浅层句法解析,短语提取,领域关键 词提取等) ,利用基于规则或统计的方法来自动抽取领域的相关概念和概念之间的部分 关系,最后通过人工校验来修正结果。在人工构建本体时,将经过校验后机器处理所得 到的结果加入到要构建的本体中,加快了本体的构建过程。 当前国内外很多团体致力于本体半自动化或自动化构建方法的研究,已经出现了很 多本体学习工具。下面列举几个典型的本体学习工具:o n t o l e a m 【1 6 j 是u n i v e r s i t yo f r o m e 开发的一个基于文本的本体学习工具,利用自然语言分析和机器学习技术从文本中提取 相关的领域术语,得到合适的概念及概念间的关系来构建本体;o n t o b u i l d e 1 7 j 是 m i s s i s s i p p is t a t eu n i v e r s i t y 开发的一个从x m l 和h t m l 中获取本体的工具;t e x t t o o n t o 埔j 是u n i v e r s i t yo f k a r l s r u h e 开发的一个整合的本体学习工具,它从仞始的核心本体中来建 立领域本体;h a s t i 1 9 j 是a m i rk a b i ru n i v e r s i t yo f t e c h n o l o g y 开发的基于波斯文本的一个 本体学习工具,系统从一个小的本体内核出发,通过文本理解来半自动化构建本体。国 外的研究比较成熟,这与以英文为代表的西文分词处理较为容易有关。 国内的本体学习研究处于起步阶段,已构建的本体学习工具有:中国科学院计算技 术研究所程勇等开发的本体学习工具o n t o s p h e r e ,该工具包括语料分析、本体学习、本 体编辑和本体映射功能。在该系统中,作者采用潜在语义索引方法和基于h o w n e t 的概 念学习算法抽取概念,采用聚类、关联规则以及基于h o w n e t 常识知识库抽取概念间关 系;浙江大学刘柏嵩基于t e x t t o o n t o 本体学习工具包完成实验系统w e b o n t l e a m 和 g o l f ,其中g o l f 系统采用多策略学习法,在本体学习过程中集成多种算法,并进行 了跨领域、多语种实验,同时在知识网格和数字图书馆中进行了应用研究。 对于本体构建的研究现在还处在早期阶段,目前还没有成熟的方法论指导,甚至建 成什么样子也只是初步的探索。 1 3 本文的主要工作 本文试图将统计自然语言处理和文本挖掘等相关技术应用到领域本体的构建过程 中,旨在提出一种具有很强的逻辑性、可操作性及可拓展性的领域本体构建方法,来实 现本体的半自动化构建。通过将自动提取出的领域概念、领域概念间关系加入到领域本 体的构建过程中,来辅助人工构建领域本体,减少对领域专家的依赖性,加速领域本体 的构建过程。 本文的总体目标是设计并实现一个领域本体半自动化建模工具,利用该工具建立一 个实际的本体模型。领域本体是对给定领域中存在的概念的一种详尽的特征化描述,即 对领域内的大量术语及术语间关系的描述。因而领域本体的构建主要是领域本体概念以 及概念间关系的获取,本文提出的领域本体半自动化建模方法通过从大量中文领域文献 中自动提取领域概念以及领域概念间关系实现。 本课题的主要研究工作如下: 研究本体的概念,本体的描述语言以及本体的构建方法,在此基础上分析本体编辑 工具p r o t 6 9 6 的本体表示方式,作为本体表示,本体建立过程以及实现本体构建工具的 基础。 构建领域本体,首先要获得与领域相关的概念。本体学习的知识源根据其结构化程 度可以分为三种:非结构化信息,半结构化信息以及结构化信息。在本体学习过程中, 可以结合使用上述三种知识源。从现状来看,大多数领域并不存在可以被本体学习使用 2 第一章引言 的半结构化和结构化信息,而非结构化信息却大量存在,例如领域专业文献,i n t e m e t 上的网页信息,甚至可以是与领域专家交谈的笔记。领域相关的文本语料丰富,并且蕴 含了本领域相关的概念,因此可以通过对于领域相关文本语料进行自然语言处理,计算 相关概念的统计信息,从统计语言模型出发,设计一种领域概念的自动提取技术。 利用从领域文本语料提取的领域概念,研究设计提取领域概念间关系的相关算法。 领域概念问的关系主要有两种类型:分类关系和非分类关系。分类关系主要指概念之间 具有典型的分类结构,比如继承关系;非分类关系主要指概念之间不具有典型的分类结 构,但是概念之间具有一定的联系,比如整体部分关系,同义词关系,相关关系等。 同一类词必能进入一些同样的上下文环境。因此,如果两个概念在语料集中所处的语言 环境总是非常相似,就可以认为这两个概念彼此非常相似,从而认定这两个词是属于同 一类的。基于上述原理分类关系的获取可以使用聚类的方法。此外,具有分类关系的词 语在词的构成上往往很相似,可以通过提取具有共同后缀的词语来发现领域概念问的分 类关系。因此,本文采用聚类与后缀树相结合的方法来抽取领域概念问的分类关系。非 分类关系可以采用基于关联规则挖掘的方法从文本中发现相关概念对,通过人工参与的 方式识别相关概念对之问的关系。 在分析本体编辑工具p r o t 6 9 6 的本体表示方式的基础上,结合从领域语料库中获取 的领域概念以及领域概念间的关系,设计并实现一个领域本体半自动化建模工具。 1 4 本文的组织结构 本文各章的主要内容分别为: 第一章引言:主要介绍论文研究背景、国内外研究现状,本文的主要工作以及论 文结构。 第二章详细介绍了语义网以及本体的相关知识。在描述语义网和本体关系时,强 调了本体在语义网中的重要性。在本体的介绍中,介绍了本体的定义,描述语言,编辑 工具等,并列举了比较著名的本体构建方法,阐述了本体构建的准则。 第三章首先说明了本体学习是本体半自动化或自动化建模的核心技术,然后介绍 了面向不同数据源的本体学习,并详细的分析比较了几个重要的本体学习工具。 第四章基于前面章节中理论知识的介绍,阐述了领域本体半自动化构建的可行性, 本章提出了一种新的领域本体半自动化建模方法,设计了一个原型系统,给出了该系统 的总体框架图并详细描述原型系统中各模块的功能以及设计中的关键技术。 第五章详细说明原型系统各模块的实现方式,展示了原型系统运行过程中的主要 界面,并选取同一领域的数据源,对开发的原型系统在发现概念以及关系的能力方面进 行了验证。 第六章总结与展望:对全篇进行概要性总结,提出不足之处并对未来工作进行展 望分析。 东南大学硕l :学位论文 2 1 语义网介绍 2 1 1 语义网的提出 第二章语义网与本体概述 1 9 9 0 年,t i mb e m e r s l e e 发明了万维网,其目的是让人们通过因特网来获得各种 信息。十年过去了,力维网得到了飞速的发展,从最初的仅用于获得各种信息到现在的 电子商务( e b u s i n e s s ) 、电子政务( e g o v e r n m e n t ) 、电子学习( e - l e a r n i n g ) 、网格计算 ( e s c i e n c e ) 。万维网不仅仅用来发布各种数据和信息,它还能自动地处理各种信息, 建立更好的用户界面,更生动地发布与显示不同类型的数据以满足不同的需求。然而, 在伴随着w e b 成功的同时,呈指数级增长的海量信息使得来自各领域的用户对信息的查 找、访问、表示以及维护变得越来越困难起来。 针对当前因特网在信息表达、检索等方面存在的缺陷,w w w 的缔造者t i m b e r n e r s l e e 于2 0 0 0 年1 2 月在x m l 2 0 0 0 会议上,提出了下一代因特网的概念一语义w e b , 并于2 0 0 1 年5 月在科学美国人杂志上发表同名论文“t h es e m a n t i cw e b ”,为人们 勾勒出一幅语义w e b 的未来美好f j 景。 语义w e b 的目标是通过增加可以描述网页内容的元数据注解或语义来实现对万维 网上资源的自动处理。在语义w e b 中,信息不但能够被人理解和使用,而且计算机也能 够共享和处理这些数据,可以实现智能的、自动化的、集成化以及跨不同应用程序的知 识复用。通俗一点说,语义w e b 就是一个让计算机能理解的互联网。比如,用现在的搜 索引擎,你只能通过关键字去查找网页,然后通过你自己的理解和判断从查找的网页中 筛选你需要的信息。而在语义w e b 中,你告诉计算机你这次查找的目的是什么,然后它 去给你查找信息,并阅读信息,从中把你需要的信息提取出来,然后告诉你怎么解决问 题,而不是给你看那些网页。 2 1 2 语义网的体系结构 为了实现语义w e b 智能化与自动化处理信息的目标,语义w e b 的研究者们开发了 许多新技术并提出了一系列的标准和规范。t i mb e r n e r s l e e 在综合了语义w e b 研究领域 的最新成果的基础上,提出了语义w e b 模型。这一模型得到了语义w e b 研究者的认同。 图2 1 是t i mb e r n e r s l e e 在x m l 2 0 0 0 大会上提出的语义w e b 的体系结构,自上而下共7 层【2 0 1 。 图2 1 语义网体系结构 4 第二荦语义网j 本体概述 第1 层是u r i ( u n i f o r mr e s o u r c ei d e n t i f i e r ) 和u n i c o d e ,该层是整个语义w e b 的基 础,u r i 负责资源的标识,u n i c o d e 负责资源的编码。 第2 层是x m l + n s ( n a m e s p a c e ) + x m l s c h e m a ,用于表示数据的内容和结构。x m l 已经成为数据表示和交换的事实标准,它提供了一种格式自由的语法,用户可以按照自 己的需要创建标记集,所以不可避免地发生标记同名的情况。w 3 c 引入n a m e s p a c e s , 即命名空间机制,在标记前加上u r i 索引,从而消除这种冲突。x m l s c h e m a 提供了一种 对x m l 文档进行数据校验的机制。它基于x m l 语法,提供多种数据类型,对x m l 标记的 结构和使用方法进行了规范。 第3 层是r d f + r d f s c h e m a ,用于描述w e b 上的资源及类型。x m l 不适于表达数据的 语义,这样计算机就很难进行信息的自动识别和数据交换。为了解决这样的问题,w 3 c 组织提出了r d f ( r e s o u r c ed e s c r i p t i o nf r a m e w o r k ,资源描述框架) 标准,用来描述互 联网上的资源及其之间的关系,以解决不同计算机之间对数据的互操作。r d f s c h e m a 提 供了一种面向计算机理解的词汇定义,提高了描述类和属性的能力。 第4 层是本体( o n t o l o g y ) 层。在人工智能领域和互联网研究领域,一个本体描述 了一个特定领域的一个形式化的,共享的概念模型。本体非常适合于描述互联网上各种 不同的,分散的,半结构化的信息资源。通过定义共享的,通用的领域知识,本体帮助 人和机器明确的交流,支持语义级的交换,而不仅仅是语法级的。 第5 层是逻辑层( l o g i c ) 提供了规则,从而便于进行推理。p r o o f 在此基础上使代 理可以交换推理的结果。规则及其描述方法是自动推理的基础。语义w e b 的一个重要目 标,就是实现基于特定规则的自动推理。 第6 层是p r o o f , 推理结果应该是可以验证的。p r o o f 层使用l o g i c 层定义的推理规 则进行逻辑推理,得出某种结论。对于语义w e b 的用户来讲,这个推理过程应该是建立 在可靠的数据基础上的,推理的过程应该是公开的,而且推理得到的结论也应该是可以 验证的。 第7 层是t r u s t ,语义w e b 应该是一个可以信任的网络。在语义w e b 内进行推理最 终得到的结论应该是可以信任的。t r u s t 层负责为应用程序提供一种机制,以决定是否 信任给出的论证。t r u s t 层的建立,使智能代理在网络上实现个性化服务以及彼此i 、日j 自 动交互合作的可靠性和安全性。 其他:s i g n a t u r e ,数字签名位于层次模型的右侧,贯穿了语义w e b 的中间四层。数 字签名是一种基于互联网的安全认证机制。当信息从一个层次传递到另一个层次时,可 以使用数字签名说明信息的来源和安全性;这样,接收方就可以通过数字签名鉴别其来 源和安全性,以决定信息的可信任程度。 2 1 - 3 本体和语义网的关系 从技术上讲,语义w e b 主要提供的是对信息的语义表示机制,有足够而且合适的描 述语义能力是对语义w e b 技术上的要求。以w 3 c 的长远目标来看,语义w e b 最终要实 现的是信息在知识层次上的共享和语义的互操作,所以需要本体来指导对共享知识进行 管理。 在语义w e b 层次结构中,本体层位于知识表示与推理层次的转折点,本体提供的原 语不仅用于描述概念模型,而且还是知识推理验证的基础。因此,语义w e b 可以看作是 在本体基础上的对现有w e b 的扩展,使w e b 上的信息具有计算机可以理解的语义,在 本体的支持下实现软件a g e n t 对w e b 信息资源所进行的智能访问和检索。 5 东南人学硕 :学位论文 2 2 本体介绍 2 2 1 本体定义 本体( o n t o l o g y ) 最早是一个源于哲学的概念,是一种对“存在”的系统化解释, 用于描述事务的本质。后来知识工程学者借用了这个概念,在开发知识系统时用于领域 知识的获取。 在人工智能界,最早给出本体定义的是n e c h e s 等人,他们将本体定义为“给出构 成相关领域词汇的基本术语和关系,以及利用这些术语和关系构成的规定这些词汇外延 的规则的定义”。 1 9 9 3 年,g r u b e r 给出了本体的一个最为流行的定义【2 】,即“本体是概念模型的明确 的规范化说明”。后来b o r s t 在此基础上,给出了本体的另外一种定义:“本体是共享概 念模型的形式化规范说明”。 s t u d e r 等人对上述两个定义进行了深入的研究,认为本体是共享概念模型的明确形 式化规范说明。这包括4 层含义【3 j :概念模型( c o n c e p t u a l i z a t i o n ) ,明确( e x p l i c i t ) , 形式化( f o r m a l ) 和共享( s h a r e ) 。“概念模型”指通过抽象出客观世界中一些现象的相 关概念而得到的模型。概念模型所表达的含义独立于具体的环境状态。“明确”指所使 用的概念以及这些概念的约束都有明确的定义。“形式化”指本体是计算机可读的( 即 能被计算机处理) 。“共享”指本体中体现的是共同认可的知识,反映的是相关领域中公 认的概念集,即本体针对的是团体而非个体的共识。s w a r t o u t 将本体定义为:“本体是 一个为描述某个领域而按层次关系组织起来的一系列术语,这些术语可以作为一个知识 库的骨架【4 1 。 除上述定义以外,不少文献从不同的问题领域和研究角度出发,对本体又给出了各 种各样的定义。这些定义之间是相互补充的,并且不断扩充本体的应用范围。它们有一 个共同点,即本体是用来描述领域概念以及概念之间关系的。 总而言之,本体的目标是获取,描述和表示相关领域知识,提供对该领域知识的共 同理解,确定该领域内共同认可的词汇,并从不同层次的形式化模型上给出这些词汇和 词汇间关系的明确定义。针对不同的领域,可以定义和构造不同的本体。 2 2 2 本体的分类 由于研究本体的机构和组织很多,各种本体定义抓住了本体各方面的特性,因此存 在着不同的本体分类方法。这里介绍g u a r i n o 提出的以详细程度和领域依赖度两方面对 本体进行的划分【2 1 1 。描述或刻画建模对象的程度较高的称为引用本体( r e f e r e n c e o n t o l o g y ) ,程度较低的称为共享本体( s h a r eo n t o l o g y ) 。根据本体对领域依赖程度由低 到高分成了四个类别: ( 1 ) 顶级本体( t o p 1 e v e lo n t o l o g y ) 描述最普遍的概念以及概念之间的关系,如空间、 时间、事件、行为等,与具体的应用无关,其他本体均为其特例。 ( 2 ) 领域本体( d o m a i no n t o l o g y ) 描述特定领域中的概念和概念之间的关系。 ( 3 ) 任务本体( t
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年注册验船师资格考试(A级船舶检验法律法规)考前模拟试题及答案二
- 2025年殡仪服务职业认证考试面试要点及模拟题集
- 桃花心木课件教学
- 公务员应变面试题及答案
- 2025年艺术设计领域招聘考试试题预测及备考策略
- 2025年国家历史局选拔考试复习题目与答案详解
- 公务员面试题及答案最佳
- 公务员面试题及答案扶贫
- 莫言小说中的民俗元素呈现及其意义
- 2025年环境科学与管理专业高级考试题库及答案
- 矿山基金管理办法
- 肥料登记证授权合同范本
- 工业厂房租赁管理办法
- 辽宁动物检疫管理办法
- 肺癌免疫治疗病例分享
- 2025年汽车智能驾驶技术及产业发展白皮书-清华大学
- 2025云南师范大学辅导员考试题库
- 2025年国考行测试题及答案解析
- 财务岗位安全培训课件
- 2025年贵州省中考语文试卷真题(含答案)
- 2025至2030中国电容膜片真空计行业发展趋势分析与未来投资战略咨询研究报告
评论
0/150
提交评论