(计算机系统结构专业论文)面向关系数据库的本体学习研究与实现.pdf_第1页
(计算机系统结构专业论文)面向关系数据库的本体学习研究与实现.pdf_第2页
(计算机系统结构专业论文)面向关系数据库的本体学习研究与实现.pdf_第3页
(计算机系统结构专业论文)面向关系数据库的本体学习研究与实现.pdf_第4页
(计算机系统结构专业论文)面向关系数据库的本体学习研究与实现.pdf_第5页
已阅读5页,还剩50页未读 继续免费阅读

(计算机系统结构专业论文)面向关系数据库的本体学习研究与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 本体学习是在已有的各类数据模型中进行语义提取,自动组织并 生成本体的一个过程,而关系数据模型是当前数据的存取与组织的主 要模型。作者以关系数据模型到本体知识库的转换为核心,对以下几 部分进行了重点阐述: 首先介绍了本体学习概念的出现背景、基本思想及其在语义w e b 中的地位,说明了当前国内外的发展情况;论述了以各种数据源作为 本体学习输入,以标准本体语言o w l d l 作为输出时的研究与发展; 对本体语言及其逻辑基础进行了分析比较。 然后针对将当前各类关系数据模型下的数据转换成本体知识库 表示的问题,以一种关系模式到一种语义扩展e r 模型的正确性可满 足转换算法为基础,通过建立关系数据模型到本体的映射规则和构建 映射等步骤,提出了一种通过数据库反向工程、从关系数据库到o w l d l 本体的翻译算法。说明了该算法可以使得转换前后的模式满足逻 辑上的正确性,并对结论进行了实验验证。 最后阐述了转换算法的实现过程与结论。说明了程序设计步骤以 及所使用的关键类,分析了生成结果为r d f x m l 文档格式的 o w l d l 本体。对所采用的实验方法、实验环境、实验步骤、实验 结果以及现阶段对于本体学习效果的评价等多个方面作出了详细分 析。 关键词语义w e b ,关系模式,本体学习,o w l d l ,s n a x a b s t r a c t o n t o l o g yl e a r n i n gw a st oe x t r a c ts e m a n t i cf r o mt h ed a t am o d e l n o w e x i s t i n g i nv a r i e s o r g a n i z a t i o n ,g e n e r a t e n e w o n t o l o g yb y + d a t a r e o r g a n i z a t i o n a n dd e f i n i t i o n c e n t e r e do nt h et r a n s f o r m a t i o n c o n t r i b u t i o n sw e r eg r o u p e di n t ot h ef o l l o w i n g3s e c t i o n s : l ,f i r s tw ei n t r o d u c e dt h ep r o p o s a lo ft h eo n t o l o g yl e a r n i n gc o n c e p t a n di t sb a s i ci d e a a n di t si m p o r t a n c ei nt h es e m a n t i cw e bc o n s t r u c t i o n t h er e s e a r c ha n dd e v e l o p m e n to ft r a n s f o r m a t i o nw i t hr e l a t i o n a ld a t a b a s e a si n p u ta n do 吧一d lo n t o l o g yl a n g u a g ea so u t p u ti nt h eo n t o l o g y l e a r n i n gi n d u s t r yw e r ei n v e s t i g a t e di nd e p t h f u r t h e rw ec o m p a r e da n d a n a l y z e dt h em o s tp o p u l a ro n t o l o g yl a n g u a g e sa n dt h e i rc o r r e s p o n d i n g l o g i cl a n g u a g e s 2 ,l a t e r t ot h ep r o b l e mo ft r a n s f o r mr e l a t i o n a ld a t am o d e la n dd a t a t h e r e b yi n c l u d e di n t oao n t o l o g i c a lk n o w l e d g e b a s e ,a na l g o r i t h mw h i c h s t e m sf r o mam e t h o do ft r a n s l a t i n gad a t a b a s em o d e li n t oac o n c e p t u a l m o d e lt h r o u g hd a t a b a s ei n v e r s ee n g i n e e r i n gi sp r e s e n t e d t h i sa l g o r i t h m f o rt r a n s f o r m a t i o nf r o mr e l a t i o n a ls c h e m at oo n t o l o g ye x p r e s s e db y o w ld l ,w ep r o v e dt ob es o u n d 3 ,t h el a s ts e c t i o ni st h es p e c i f i c a t i o n sa b o u tt h er e a l i z a t i o na n dt h e o u t p u tr e s u l t sb a s e do nt h er e s e a r c h w ed e m o n s t r a t e dt h ed e s i g ns t e p so f t h i se x p e r i m e n t a ls y s t e ma n di t ss i g n i f i c a n tc l a s s e sa n dt h e i rf u n c t i o n sa s w e l l 、a l s oa n a l y z e dt h eo u t p u t a no 、礼一d lo n t o l o g yf i l e i n r d f x m ls y n t a x a sf o rt h em e t h o d su s e df o rt h ed e s i g no ft h i ss y s t e m , t h ee n v i r o n m e n tf o rt h es y s t e mt or u n ,a n ds p e c i f i c a t i o n sf o rt h er e s u l t s a n de v a l u a t i o nf o ra l g o r i t h mw e p r o p o s e d ,w ea l s og a v es p e c i f i c a t i o n si n d e t a i l 。 k e yw o r d s :s e m a n t i cw e b ,r d m ,o n t o l o g yl e a r n i n g ,o w l d l h 原创性声明 本人声明,所呈交的学位论文是本人在导师指导下进行的研究 工作及取得的研究成果。尽我所知,除了论文中特别加以标注和致谢 的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不 包含为获得巾南大学或其他单位的学位或证书而使用过的材料。与我 共同工作的同志对本研究所作的贡献均已在论文中作了明确的说明。 作者签名:丝琵垫日期:尘巫年上月翌日 关于学位论文使用授权说明 本人了解中南大学有关保留、使用学位论文的规定,即:学校 有权保留学位论文,允许学位论文被查阅和借阅;学校可以公布学位 论文的全部或部分内容,可以采用复印、缩印或其它手段保存学位论 文;学校可根据国家或湖南省有关部门规定送交学位论文。 作者签名:姓导师签名堕日期:2 丝年旦月塑日 硕i :学位论文第一章绪论 1 1 前言 第一章绪论 w e b 发展到今天,表现出大量的数掘持续快速增长的特点,使人们信息的定 位、获取、组织等都变得相对困难,影响了人们对w e b 的利用效率。因此人们 希望计算机可以具备更高智能,能理解w e b 中的内容并代替人智能地完成这廿鬯 操作。而语义w e b 就是要围绕这个目标,建立一个使内容具有形式语义的体系 结构【i 】。本体技术是数据可以达到语义层次交换的关键。本体学习就是以现存的 大量各类信息资源为基础,自动或半自动的进行本体构建的研究;是一种采用从 下而上的方式直接高效使数据能参与语义交换的技术。本章介绍了本体学习的研 究背景、国内外研究现状和本研究的目的与意义。 1 2 研究背景 本文基于以下三个背景:首先语义w e b 在最近几年发展迅速,语义网背后 的基本理论不断被深入研究,语义网技术正在进入实际应用,影响并加速了信息 业的发展;其次本体作为语义w e b 中的核心,其逻辑基础与本体映射,本体学 习等具体技术发展不断成熟;最后湖南省自然科学基金项目语义x m l 数据库系 统( 项目名称“基于本体的x m l 数据集成和查询研究”,项目编号:0 6 j j 5 0 1 4 2 ) 中具体技术需要得到进一步完善。 1 2 1 语义w e b 的提出及发展 x m l 使得数据可以在句法的层次进行共享与交换,下一步目标就是为w e b 加入知识表示来表达w e b 上的内容,并可以对内容进行推理。当前w e b 面临的 挑战是如何丌发出一种通用的机器可理解的表示w e b 数据的方法。现有的那些 来自于人工智能,数据库系统和编程语言的方法都需要重新进行考察、改进以适 应当前的w e b 形式和未来的发展。 最近几年语义w e b 发展非常迅速,但在取得巨大进展的同时,过去一些研 究不是非常具体的问题逐渐凸现出来。2 0 0 0 年w e b 创始人t i mb e m e r s l e e 提出 了语义w e b 的体系结构【2 】,如图l l 所示。 硕i j 学位论义 第一章绪论 s e l f d e s c d o c p r o o f r 一- - 1 一 o n t o l o g yv o c a b u l a r y r d f + r d fs c h e m a ) ( m l + n s + x m l s c h e m a 2 置 c 寸 塑 百 总 呈p q u r i 图1 - 12 0 0 0 年语义w e b 体系结构 p r o o f l o g i cf r a m e w o r k _ o w lr u l e s 暑d l pb i t 。f o w l r u l 一 r d fs c h e m a r d fc o r e x m ln a m es p a c e o 暑 委董: 鼍鲞 q u r l 图1 - 22 0 0 5 年语义w e b 体系结构 该体系结构下,u r i ,u n i c o d e 是处理力维网上的资源定位和字符编码:x m l 代表句法层,x m l 允许用户为文档任意添加一定的标签和结构,这些标签和结 构本质上不具备语义,仅在语义网中作为句法使用;r d f 代表数据层。是生成、 交换和重用结构化元数据的基础。原则上信息用r d f 陈述的形式存储,用三元 组的形式统一表示;o n t o l o g yv o c a b u l a r y 层用于指定语义。本体提供一定领域内 共享概念明确的形式化说明,适合于描述当i l l j - w e b 上异构分布和半结构化的信 息。通过交换包含交流所需词汇的本体,语义网代理之问达到概念一致的理解; l o g i c 层提供智能推理的规则,如回答问题,选择行为路径;p r o o f 层用于对自动 代理给出的答案提供解释,转换其内部的推理机制表示成统一的证明表示语言; t r u s t 层负责考察信息安全性、可信度以及隐私等内容,保证信息的来源合法有 效。 x m l 、r d f 和本体这三层是前段语义w e b 研究工作的重点,也取得了很大 成功。本体提供共享的领域知识,可以解决一词多义或同义词等语言理解、知识 管理中的知识获取维护与访问、商务网站中对商品的形式化描述等等问题。但当 进入到语义交换的关键层逻辑层时,在研究中出现了一些新的讨论。2 0 0 5 年同 2 一 s 、 e u r a a , d a a d 硕f j 学位论文第一章绪论 样是t i mb e m e r s l e e 对图1 1 的结构进行了修改1 3 】,如图1 2 所示。但通过对比 可以看出新图比原图更加清晰具体。l ,o n t o l o g yv o c a b u l a r y 和r d f + r d fs c h e m a 两层用o w l 、r u l e 层,d l pb i to fo w l r u l e ,r d fs c h e m a ,r d fc o r e 四层代 替,且前三层被s p a r q l 所包含。r d f 只是一种数据表示方式,严格说并不具 备语义,而其余层都符合了本体的基本条件,比如有基本词汇集,概念构子,推 理规则等。2 ,逻辑层变成了逻辑框架,并被纳入证明层的范围。因为现有的完 全基于描述逻辑的语义在一些重要方面显现出了局限性,需要多种逻辑方式结合 运用。 1 2 2 本体学习 在关系数据模型下关系模式的本体自动生成研究来源于语义w e b 中的本体 学习概念【4 1 。自g r u b e r 提出本体概念【5 】之后不久,相继出现了一系列本体编辑工 具【6 7 矗9 10 1 。为了减轻人工编辑负担,减少人为出现的编辑错误,人们把利用 机器学习或统计等等技术来自动生成本体的相关研究统称为本体学习。2 0 0 1 年 德国k a r l s r u h e 大学正式使用了本体学习的概念并开发出了一个实现工具 t e x t t o o n t o 3 6 】。该框架通过本体引入、提取、修剪、精炼以及评估,为本体工 程师进行本体建模提供了一些方便。此外t e x t t o o n t o 支持从自由文本( f r e e t e x t ) 、字典、已有本体中进行学习,以及通过反向工程从关系数据库模式、x m l 文档中进行学习。 本体学习根据其输入被分为三个大的类别:结构化数据、半结构化数据和非 结构化数据】。结构化数据指的是典型的关系数据库形式存放的数据,以严格 的完整性约束对数据类型及操作进行了限制,是现有互联网数据的主要存在方 式。对于关系模式下语义的提取很早就引起了人们的关注,1 9 9 4 年j o h a n n e s s o np 提出的关系模式下数据的概念模型【1 2 】已经非常接近于现有的本体。而【1 3 】也采用 了数据库反向工程的方法,利用关系模式生成面向对象的数据模型。无论是面向 对象数据模型还是概念模型或者e r 模型,都已经成为了进一步进行本体生成的 基础,如【1 4 】的本体生成就是基于一种扩展的e r 模型来完成的。 1 3 研究目的和意义 现在大量的商业网站开始从过去的静态页面向根据用户需求动态产生页面 的动态网站转变。这种网站一般采用关系数据库来实现【1 5 】,被称为数据密集型 ( d a t ai n t e n s i v e ,d e e pw e b ) 网站,如在线购物等就是这种网站的典型。语义w e b 硕i :学位论义第一章绪论 是当前w e b 的一个延伸,因此本体构建中,关系数据模型是本体学习的一个重 要的学习源。 数据库驱动型网站如d e e pw e b 中,其动态产生内容不能被搜索引擎检索, 同时其生成的数据只能提供给用户浏览,相应的不真正构成语义w e b 的一部分。 因此需要研究一些方法,可自动从数据库实例创建出元数据标注的概念框架,移 植这些动态内容到语义w e b 中,形成机器可读的形式。总结研究意义为以下三 点: 1 本体构建需要大量的人工参与被认为是本体技术的一人缺陷,而本体学 习引入自动化过程,可大大减轻本体构建负担; 2 当前大多w e b 站点数据均以后台数据库方式存放,属于“隐形数据”( 常 被称作d e e pw e b 或d a t ai n t e n s i v ew e b ) 。实现从关系数据模型构建本体,可实 现数据共享即为不同代理问的数据实现语义上的交换; 3 在s n a x 中,w e b 数据采集子系统进行的信息搜集,是对当日仃w e b 静态 页面信息源的搜集,没有涉及潜在w e b 后台的数据,因此采集的信息很难保证 领域范围站点内信息的完整性和准确性。而关系数据模式下的本体学习可以使得 动态的隐藏的内容显性化,扩大信息采集范围,提高数据准确性。 1 4 论文组织 本文共分为五个章节,具体的组织如下: 1 第一部分是关于语义w e b 的大体框架及本体学习的研究背景。介绍了语 义w e b 的提出与近期的发展;本体学习的研究范围;以关系数据模型为学习源 的本体学习研究进展情况及其在语义w e b 中的地位、意义;本体学习所使用的 技术和关系模式下数据的本体生成技术概述。 2 第二部分是与本体学习相关的具体问题以及国内外研究进展的说明。分 别对结构化半结构化以及结构化的各类数据源进行了调研,探讨了本体的逻辑基 础,从描述逻辑、逻辑编程的表达能力与计算推理方面的属性进行考察,调查了 各自在语义w e b 中的应用场景和适用情况。 3 第三部分详细说明了在面向关系数据库时语义对应的转换方法。说明了 翻译方法的来源,生成目标本体的语言及结构,进行语义对应翻译方法的详细步 骤,对翻译方法在信息包含能力上的正确性进行了说明,然后与其他相关研究方 法进行了比较。 4 顾l :学位论文第一章绪论 4 第四部分介绍了采用j e n a 开发包进行本体生成的一些技术。对转换方法 的设计、实现步骤、程序编码、生成效果等方面进行了说明。 5 第k 部分足对所做本工作的总结和展望。 5 顾i :学位论义第一二章奉体学习相关研究 第二章本体学习相关研究 通过对关系数据库文件中的关系模式进行考察,可以转换出新的概念结构; 采用包装器方法将无结构半结构化文本形成关系存储,采用机器学习以及自然 语言处理技术从中提取术语,也可以进一步形成初步的概念结构。对于新产生的 本体概念模型,从逻辑上对其在语义w e b 上的应用进行分析,描述逻辑虽然有 些同有的缺点,但仍然是本体语言所必须依赖的逻辑基础。 2 1 面向关系数据库的本体学习 2 1 1 国内外各种解决方法分析 从关系模式及其数据到本体的转换可分为两种,较早的一种是转换关系模式 到框架逻辑,对本体概念及属性分别提出一系列转换砒则形成本体【1 6 】,另外 一种方法是从别的模型入手进行本体的生成或者先把关系模式转换成别的概念 模型,如“关系模式到概念模型( 扩展的e r 模型) 的正确性可满足转换算法”【6 】, 从e r 模型到d l 本体语义保持的翻译”【8 1 ,“从关系模型到r d f ( s ) 映射”【1 8 】 等。 在数据库反向工程领域,p a u lj o h a n n e s s o n 为了从关系数据库中获得概念模 型,提出了一种翻译方法【6 1 。该方法证明生成的概念模型在信息包含能力上可保 证f 确性,即可表达与源模式同样内容包含能力的信息。 l j i l j a n as t o j a n o v i c t l 6 】为了处理d e e pw e b 数据只能供人浏览,不能被搜索引 擎检索的问题,将传统的数据密集网站转换成语义网。方法是建立一些从关系数 据模式到本体的映射。本体形成元数据标注的概念骨架,元数据标注自动根据数 据库来创建。其步骤包括l ,输入由s q ld d l 得到的关系模式;2 ,根据建立的 一些规则,关系模式被映射到本体( 框架逻辑) ;3 ,数据库实例映射成基于本体 的知识库;4 ,生成之后的本体在设计者修正后,只在数据库模式改变时重新做 计算。用s e r v l e t s 创建本体的r d f 输出及数据库数据的输出;5 ,输出文件两个, 一个包含本体,另外一个包含实例;6 ,将框架逻辑映射到r d f 。此方法一方面 使得提供元数据的过程,即语义标注自动化。同时相应使得动态网站页面的内容 可以进行语义处理,并被搜索引擎所检索。从技术角度来看,此方法是数据库反 向工程与语义w e b 自动标注两种技术的结合使用。 b e i l s l i m a l l e f l 7 】提出了种对关系数据库进行反向工程半自动化生成o w l 本 6 硕_ = 学位论文第一二章本体学习相关研究 体的方法。此方法与前者的不同在于:从分析h t m l 中的表格来获取语义,并 用来丰富关系模式,本体由丰富并重构后的关系模式通过设定的规则进行一系列 转换得到。目标一方面也是使得d e e pw e b 信息语义网化,同时也用于本体的半 自动化构建。 此外还有k a s h y a p 方法【1 9 2 0 1 。此方法是m c c ( m i c r o e l e c t r o n i c sa n dc o m p u t e r t e c h n o l o g yc o r p o r a t i o n ) i n f o s l e u t h 研究项目的一部分。该项目是要在动态环境中 发展可以操作异构信息的技术。从数据库模式构建领域本体的基本前提是领域内 知识嵌入到了数据或者模式中,该方法用数据库模式构建本体,然后收集用户感 兴趣的查询以精炼本体。领域本体内那些实体,属性或者关系是否重要由专家确 定,是个互动而且反复的过程。这个过程有两个状态:首先分析数据库模式确定 键、外键、包含依赖,创建一个新的数据库模式,通过反向工程技术,其内容映 射到新的本体;第二个阶段,对该本体进行精炼,以更好地反映用户所需要的信 息。 国内许卓明提出了从e r 模型到d l 本体语义保持的翻译,该研究主要目标 就是用于本体的开发以及数据库与语义w e b 之间的语义互操作,通过关系模式 和本体模式之问建立映射规则来实现,这些规则保证了模式之问的语义保持。曹 泽文等提出了一种非常类似于s t o j a n o v i c 方法的、从关系数据库到框架逻辑 f l o g i c 本体的转换方法【2 1 1 。王洪伟等学者提出了“面向关系模式的领域本体获 取”方法【:引,“基于逆向工程的领域本体开发方法【2 3 】”,“本体模型的逆向获耿研 究 【2 4 】等等,此类方法既没有说明规则的合理性,也没有对实现的考察,只是 从纯粹关系模式的反向工程到本体做出了一系列设想。 以上所述各种通过数据库反向工程,或者从e r 等其它模式着手来构建本体 的方法,都明显存在着从数据源到本体构建不能一步到位、所采用的规则不一定 得到支持、效率方面缺乏考虑等等的问题。此外要充分利用已有的d e e pw e b 上 的数据库并直接使之能进入语义w e b 并参与数据交换,必须将以上多种技术进 行结合进行。 2 1 2 语义对应翻译方法在s n a x 系统中的应用 s n a x 是一个以订l 为数据源,基于本体的数据集成,推理和查询技术开展 研究的项目。目的是了解构建语义网的必要原理和技术。s n a x 主要由原生x m l 数据存取管理器、本体管理器、多功能查询器和w e b 数据采集子系统几部分组成 2 s 】 o 7 硕一i 二学位论文第二章本体学习相关研究 数据采集通过w e b 信息搜索器将w e b 文档搜集到检索信息库,经过标记消除, 领域相关度计算筛选文档。在本体理解用户检索请求之后,返回给用户语义匹配 的文档。数据和存取管理器中,数据可以是采用x m l 句法表示的文档,也可以 是用r d f 表示的数据或本体。其任务是提供给本体映射集成和查询推理模块。映 射集成主要包括从x m l 到r d f 到局域本体再到全局本体的三次映射集成。基本 思路是以w o r d n e t 为依据,从低级数据中通过同义词提取来实现。多功能查询器: 通过借助r d f 模型和本体的帮助,使对x m l 文档的查询不仅仅是数据本身匹配, 同时也是语义上的查询。 l 望坦墼篓蔓 二二二二二二二二二二二至垂亘亟豆耍 :二二二二二 文件格式判定器li 命令解析器lfx m l 解嗣面礴菥 本 。_ 。” 。- 0 一0 + 砷嗽到鹨r 。啼鸣翳翳_ 本体存取刊 鬣俸渐广臣葛量 图2 1n x d 和存取管理器体系结构 体解析; 一 图2 - 2 加入r d m 2 0 n t o 之后n x d 和存取管理器体系结构 以上四个部分中,数据存取管理器存储了原始的从x m l 、r d f 及局域本体 等各类数据,这些都来源于已有现成的资源。而这些资源特别是本体往往不是既 定的,需要从一定的数据集上进行转换来得到。其次本体映射通常是为本体学习、 集成以及查询提供支持,可看作是以本体为数据源的学习,因此也是本体学习中 的一个有机部分。数据采集器采用的本体也是假定已经存在的,r d m 2 0 n t o 与本 体采集器处于相当的位置,但是目标不一样:前者首先采集w e b 文档然后利用本 8 硕f 二学位论文第二章本体学习相关研究 体进行对w e b 文档语义查询,后者利用w e b 上的各类数据生成相关的本体进入数 据存储管理器。 原s n a x 系统中原生数据库n x d 和存储管理器体系结构如图2 1 所示。加入 r d m 2 0 n t o 之后的存储管理器体系结构如图2 2 所示。 2 2 面向其他数据源的本体学习 无结构化数据环境下,数据没有一定的类型、格式,数据之间不存在顺序与 规则,比如文本,视频,声音,图像等数据。 结构化数据环境下,数据被组织成一定语义实体( 如关系,类等) ,相似的实 体被归结到一组。同一个组的实体有相同的属性( 描述) ,该属性( 描述) 有相同的 格式和长度。 半结构化数据( 如x m l ) 环境下,数据被组织成一定语义实体,相似的实体 被归结到一组。但同一个组的实体不一定有相同的属性( 描述) ,属性的顺序无关, 属性可以缺失,相同的属性的大小和类型可以不同。半结构化数据主要是在数据 库和文档两者之间取一个折中方案,用于异构数据源之间的数据交换和集成。 2 2 1 面向无结构半结构化数据的本体学习 现有的数据存在形式多种多样,对于半结构化数据,x m l 一度成为数据交 换的标准,g r d d l 机制可以从多种x m l 文档中提取出相关数据并形成r d f 输 出【2 舛7 1 ,但只是对x m l 文档,而且输出的r d f 也不能完全满足语义w e b 中本 体的要求。对于无结构化数据采用包装器的方法,实质上是一种从w 曲页面对 象对关系数据库数据的映射技术,只是把数据结构化的一个步骤。 采用包装器首先是先转换成关系模式存储【2 8 1 。采用特定的包装- 器( w r a p p e r ) , 把相关的数据映射成x m l 或者关系表中。此类方法的主要任务是如标签、标题 等相关数据的判别、提取与组织。包装器生成问题就是给定一个w e b 页面s ( s 是一个包含了隐含的对象集合) ,确定一个映射w ,把页面内的对象装入数据仓 库r 。映射同时要能识别和提取与s 相似的其它页面s 的数据。相似指的是 同一个或类似站点或w 曲服务提供的页面。因此包装器就是一个映射器。包装 器生成工具的目标是生成高度精确并健壮的包装器,并尽可能减少包装器开发者 的工作。a d e l b e r gb 设计的n o d o s e 工具一方面提供一个框架,研究者可以 在其中加入自己的挖掘算法、用户接口等等部件来测试自己的工作,另外还包含 9 硕士学位论文第二章本体学习相关研究 了一个可以推理出文本文档类结构的组件。因为包装器要提取的数据可能是简单 的平面结构,也可能是隐含的,层次性的复杂结构,提取之后必须能对这些结构 进行识别与组织,因此包装器方法通常仅用在特定的场合中应用【29 3 0 】,主要应 用在信息提取( i n f o r m a t i o ne x t r a c t i o n ) 范围。页面提取采用的技术包括使用断言式 语言,h t m l 结构分析,自然语言处理,机器学习,数据建模以及本体等。通常 通过以下步骤进行:l 、通过图形用户界面,进行半自动化内容分解,确定页面 所属领域;2 、确定文档格式,自动挖掘文档语法,并根据文档语法提取出相关 内容,构建相应的关系模型;3 、将文档数据重新组织形成关系存储。 针对自然文本,国内徐力斌刘宗田等人提出了一种基于w o r d n e t 和自然语 言处理技术的领域本体半自动构建方法【3 l 】,没有给出具体考察指标的结果。 2 2 2 本体学习技术之一本体映射的研究进展 要达到异构系统和语义w e b 程序之间的互操作,需要合并各类分布式、异构 的本体,这实际也是一个本体的学习过程。由于模式映射、本体集成等方法的数 量正在不断增长,对这些方法的有效性、效率、可行性等指标需要有一致的评估。 这样的背景下o a e i 组织于2 0 0 4 年开始开展这项工作。 o a e i 的主要目标是在统一的基础上比较这些映射系统及其算法,使得人们 可以对分辨出最好的映射策略,同时这些工具开发者可以学习并改进他们的系 统。o a e i 比赛提供了在一致测试集上映射系统的评估。为了突出映射需求的不 同方面,比赛准备了大量不同的测试集。 0 7 年的比赛设有以下四个环节,包含6 个数据集、多种评估形式。 比较环节:基准测试( c o m p a r i s o nt r a c k :b e n c h m a r k ) 。与往年比赛一样,产生 一个系统化的基准b e n c h m a r k 。b e n c h m a r k 旨在区分各种映射算法的强弱领域。 测试基于一个很狭窄的书目文献领域的特定本体,以及一些已经提供了映射的该 领域内的替代本体。 强表达力本体环节( t h ee x p r e s s i v eo n t o l o g i e s ) :解剖。a n a t o m y 是一个现实 中的解剖实例。映射成年老鼠解n 立i j ( 2 7 4 4 个类) 和n c i ( 3 3 0 4 个类,描述人类解剖) 。 目录与辞典( d i r e c t o r ya n dt h e s a u r u s ) 。现实世界的d i r e c t o r y 映射:映射网站的 目录( 如y a h o o 的开放目录) ,超过4 k 个基础测试。现实的f o o d 映射:映射两个 s k o s ( s i m p l ek n o w l e d g eo r g a n i z a t i o ns y s t e m ) 关于f o o d 的词典,必须用s k o s 映 射词汇关系进行映射,结果的样例由领域专家评估。环境( e n v i r o n m e n t ) : 三个 1 0 硕士学位论文第二二章本体学习相关研究 s k o s 关于环境的词典必须用s k o s 映射词汇关系进行映射( a b , b c ,c a ) , 结果的样例由领域专家评估。 图书馆( 1 i b r a r y ) :将两个关于书的s k o s 辞典用 s k o s 映射词汇集给出的关系来映射,结果样例由领域专家评估。 表2 - 1 测试集的各种测试特性 大会( c o n f e r e n c e ) 与一致认同( c o n s e n s u s ) w o r k s h o p 。要求参与者任意找个大 会组织的本体集( 领域要被研究者所了解) 。此工作可以在提交的p a p e r 中形成, 也可以在有兴趣的个体对应,统计上的观察,不明确的设计模式等中进行。先前 不要有参考映射,由这个环节的组织者提供一个结果的事后评估,该评估部分手 工进行、部分采用数据挖掘技术。对于选出的对应例子,在w o r k s h o p 将形成一致, 形成一致的过程也将被记录。表2 1 给出了各种测试集的各种测试特性。 表2 1 中t e s t 指测试本体集;l a n g u a g e 指本体语言;r e l a t i o n 指映射关系、等价 映射、包含映射、狭义映射、广义映射等。c o n f i d e n c e :映射关系的表示方式, 为布尔值或非布尔值。o p e n b l i n d :o p e n 方式向参与者开放参考映射。b l i n d 没有 向参与者公开参考映射,b l i n d + e o n s e n s u a l 或d o u b l eb l i n d 方式下参考映射通过讨论 给出。此后还有预备、执行、评估、评论等四个阶段,具体在参考文献【3 2 1 。 o a e i2 0 0 7 年比赛结果。2 0 0 7 年有更多的研究组织参与进来。2 0 0 4 年参与者 4 个,0 5 年7 个,0 6 年l o 个( 表2 2 所示) ,0 7 年达到了1 7 个,同往年一样参与者没有 提供所有的测试结果,他们通常只做那些容易运行的测试比如b e n c h m a r k , d i r e c t o r y 和c o n f e r e n c e 。因为测试种类的繁多以及时间安排紧凑让参与者无暇考 虑更多的测试。 基准测试的目的是为每个算法提供一个稳定而详细的图型表示。因此算法运 行的都是系统生成的测试集。第一个测试的领域是书目参考。对于出版物可能有 多个分类,这里选的是学术上常见的分类( # 3 0 1 3 0 4 ) 。基准测试集围绕一个标准 ( 参考) 本体和其许多变体来进行。标准本体是襻1 0 1 测试集,参与者要用变体映射 到这个参考本体。本体用o w l - d l 语言描述,r d f x m l 格式。参考本体包含3 3 个有名称的类,2 4 个对象属性,4 0 个数据属性,5 6 有名称的个体,2 0 个匿名个体。 l l 硕:学位论文 第二章本体学习相关研究 映射的类型有限,他们只能映射有名称的类和属性,用“= ”关系表示。基 准测试分为三组:i x x 为简单测试。拿自己与参考本体比较,与其他不相关的本 体比较或自己的o w l l i t e 版本比较。2 x x 为系统测试。该测试集由去掉参考本体 的一些特性后获得,旨在评估当特定类型信息缺失的时候算法的表现。3 x x 为四 个现实生活的书目参考本体。在w e b 上发现的,基本上也是没改过的( 除了添加一 些命名空间) 。 从表2 2 可以看出a s m o v ,l i l y 和l r i m o n 相对优秀,f a l c o n ,p r i o r + a n do l a 2 紧随其后。所有的系统基本上都l 匕e d n a ( - - 个通过简单的计算标签上的语义距离 的算法) 要好。这些算法在测试集l x x 上每个算法表现都最好,其他两个没有什么 区别。而且通过看2 x x 钡j 试集的结构可以看出算法的不同效果。 0 7 年系统测试的结果与往年相比如表2 3 所示。三个最好系统( a s m o v , l i l ya n dr i m o m ) 所提供的结果之间可进行比较,但与往年r i m o m 和f a l c o n 提供 的结果不同,r i m o m 2 0 0 7 年的结果l 匕2 0 0 6 年要差。 表2 - 22 0 0 7 标准测试结果 表2 - 32 0 0 5 起最好的得分系统 o a e i 发展趋势。随着时间推进,进入o a e i 的映射系统逐渐增多,而且一些 映射系统已经不是一些原形而是持续开发持续不断提升性能的系统了。 1 2 硕士学位论文第二章本体学习相关研究 从这些测试可以看出,b e n c h m a r k n i 试集在系统之间的区分度不是很好,这 些测试集评估算法的强处和弱点还是有用,但比较这些算法有些略显不足。另外 o a e i 还想有一些强表达力本体的测试集,不断有各种推荐的测试提交给o a e i , o a e i 将可能新挑选出一些强表达力本体测试集。 提供随机逐渐下降的b e n c h m a r k 钡, o 试将是o a e i 考虑的重点。以前的 b e n c h m a r k n i 试时,功能是从参考本体一个一个去掉,现在可能按照比如5 , l o ,2 0 ,4 0 的随机比例来进行。 o a e i 尝试对系统进行分类,比如:1 、可进行大量测试集的系统;2 、不能 进行大量测试集的系统;3 、稳定、全面、可进行多个环节测试的系统;4 、专业 的系统。不过对这些系统的分类还有待进一步分析。 在0 7 年许多系统没有在句法上生成正确的结果,这样使得别的程序不能识别 该结果。因此以后将进行自动评估,自动评估将要求参与者输入正确的结果。 o a e i 同时还计划:1 、寻找更对现实世界本体测试集,特别是强表达力本体。 2 、通过结果验证,持续接受映射结果提交。3 、改进测量的方法( l k 如已经有抽 象化查全率查准率、查全查准图等) 。4 、对测试的难度作一些定义。比如大本 体,强表达力本体之间的映射难度高于一般大小语言简单的本体。 2 2 3 当前本体学习工具介绍 本体学习技术旨在综合众多的学科技术来促进本体的自动或半自动构建,特 别是本体工程技术和机器学习技术。在最近几年一些本体学习方法和系统已经建 立,这些系统中大多数是依赖于语言分析和机器学习算法以发现潜在的感兴趣的 概念和这些概念之间的关系。本体学习有面向文本、面向字典、面向知识库和面 向关系数据库等等。目前面向文本的本体学习工具有很多【3 3 1 ,! t l l o n t o l e a m 3 4 3 5 1 , t e x t - t o o n t o 3 6 ,3 7 3 8 1 ,s o a t t 3 9 1 ,a s i u m 4 0 1 ,s v e t l a n 4 1 1 和h a s t i 4 2 1 等等,下面 就其中的几种作简单介绍。 1 t e x t - t o o n t o 由卡尔斯鲁厄大学( u n i v e r s i t yo f k a r - l s r u h e ) 的a i f b ( i n s t i t u t eo f a p p l i e d i n f o r m a r i e sa n df o r m a ld e s c r i p t i o nm e t h o d s ) 开发。t e x t - t o o n t o 采用的一种多策 略综合的方法,对于不同的输入数据和任务结合不同的方法去学习,比如 t e x t t o o n t o 通过文本处理技术,使用了一种通用的关联规则算法,不仅能发现 概念间的关系,还能确定对关系进行抽象的一个合适水平。此# b t e x t - t o o n t o 方 1 3 硕 = 学位论文第二章奉体学习相关研究 法支持半自动化的本体开发,使得本体创建和使用、文档生成和使用之间有可选 的反馈。t e x t t o o n t o 不但通过自然语言处理技术、数据挖掘技术分析w e b 数据、 辅助用户开发和维护本体,同时还能给与用户一些本体建模的提示信息。 2 o n t o l e a m 为了从一个文本语料库中提取相关的领域术语,然后使用自然语言处理和统 计的技术来过滤这些术语,v e l a r d i 和m i s s i k o 鹏人基于w o r d n e t 开发出了o n t o l e a r n 。首先该系统使用a f i o s t o 语言处理器从领域文本库中提取术语,该文本库可 以使某个特定的网站或者某些网络社区中的文档等等。然后,使用自然语言处理 和统计的方法,进行不同领域的比较分析,对术语作过滤处理。接着使用w o r d n c t 和s e m c o r 词法知识库来对这些词汇进行语义解释。根据分类和其他语义关联, 生成一个领域概念森林。最后,o n t o l e a m 还是用w o r d n e t 集成领域概念森林,创建 一个修剪和细化过了的领域本体试图。以o n t o l e a m 工具为中心,能够建立和评 估领域本体以支持虚拟用户社区的智能信息集成。有两个欧洲项目中测试了o n t o l e a r n ,在项目中它作为语义交互平台的基础应用于小一中规模的旅游企业。 3 a s i u m a s i u m ( a c q u i s i t i o no f s e m a n t i ck n o w l e d g eu s i n gm a c h i n el e a r n i n gm e t h o d s ) 由p a r i s s u d 大学计算机科学研究室开发。a s i u m 的主要目的是用分析的方法帮 助专家获得技术文本的语义知识。学习方法是基于概念上和层次上的聚类。使用 一个矩阵计算各个类之间的语义相似度。 4 h a s t i h a s t i 是2 0 0 3 年s h a m s f a r d 等人提出的一种自动化本体构造方法,是从一个小 的本体内核出发,通过文本理解来自动化建造本体。本体内核包含建立本体所需 的基本概念、关系和操作符,还包含了添加、移动、删除和更新本体元素的基本 元知识。他们提出模型在一个小的基本内核上建造本体,学习单词、概念、分类 关系、非分类关系和公理。h a s t i 用于实现和测试自动本体构造方法,从波斯语 文本中抽取词汇和本体知识。 2 3 输出本体的底

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论