(计算机应用技术专业论文)基于owl本体的标注工具研究.pdf_第1页
(计算机应用技术专业论文)基于owl本体的标注工具研究.pdf_第2页
(计算机应用技术专业论文)基于owl本体的标注工具研究.pdf_第3页
(计算机应用技术专业论文)基于owl本体的标注工具研究.pdf_第4页
(计算机应用技术专业论文)基于owl本体的标注工具研究.pdf_第5页
已阅读5页,还剩50页未读 继续免费阅读

(计算机应用技术专业论文)基于owl本体的标注工具研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

河海大学硕i :学位论文 摘要 语义w e 卜下一代w e b 的目标是使机器( 软件代理) 能从w e b 内容中提 取丰富、明确的语义信息以完成诸如搜索、过滤、精炼知识等用户任务。语义标 注( s e m a n t i ca n n o t a t i o n0 1 m a r k u p ) 的任务是将用户可理解的内容转换成机器可 理解的内容,是实现语义w e b 的一个关键步骤。现有的语义标注工具大多不支 持w 3 c 推荐的最新w e b 本体语言标准o w l 。因此,研究如何使用o w l 本体 对w e b 页进行语义标注的技术和工具是十分必要的。导师领导的研究小组在深 入研究o w l 语言规范和总结现有标注工具优缺点基础之上,设计并实现了基于 o w l 本体的静态w e b 页标注框架s p a n n o t a t o r 。 本文主要论述作者在标注框架s p a n n o t a t o r 中的所承担的本体处理和语义元 数据生成工具的设计和实现。首先分析现有标注工具的特点,提出s p a n n o t a t o r 中本体处理和语义元数据生成工具的研究目标和设计思想;接着,在重要的数据 结构、框架公用部分、本体解析、本体可视化、本体获取和语义元数据生成等六 个方面详细论述了具体的实现技术;最后,通过具体的案例分析表明:已实现的 原型标注框架s p a n n o t a t o r 中,本体处理和语义元数据生成方法是有效的,原型 工具是易用的。 关键字:语义标注,静态w e b 页,o w l ,本体工具,语义w e b 河海大学硕士学位论文摘要 a b s t r a c t t h es e m a n t i cw e b ,t h en e x tg e n e r a t i o no ft h ec u r r e n tw e b ,a i m sa tm a k i n g s o f t w a r ea g e n t st h r i v eo ne x p l i c i ts p e c i f i e ds e m a n t i c so fw e bc o n t e n ti no r d e rt o s e a r c h ,f i l t e r , c o n d e n s ek n o w l e d g ef o rt h e i rh u m a nu s e r s s e m a n t i ca n n o t a t i o n st a s k i st u r n i n gh u m a n u n d e r s t a n d a b l ec o n t e n ti n t om a c h i n e u n d e r s t a n d a b l ec o n t e n t ,w h i c h i sak e ys t e po fi m p l e m e n t a t i o no ft h es e m a n t i cw e b m o s te x i s t i n gs e m a n t i c a n n o t a t i o nt o o l sc a n n o ts u p p o r to w l - t h en e w e s tw 3 c p r o p o s e dr e c o m m e n d a t i o n o fw e b o n t o l o g yl a n g u a g e t h e r e f o r e ,i ti sn e c e s s a r y t or e s e a r c ht e c h n i q u e sa n dt o o l s f o rs e m a n t i ca n n o t a t i o no fw e b p a g e su s i n go w lo n t o l o g i e s b a s e do nt h ea n a l y s i s o fo w l s p e c i f i c a t i o na n dt h es u m m a r yo ft h em e r i t sa n dd r a w b a c k so fe x i s t i n g a n n o t a t i o nt o o l s ,t h es e m a n t i cw e br e s e a r c hg r o u pl e db ym ys u p e r v i s o rh a s d e s i g n e da n di m p l e m e n t e da na n n o t a t i o nf r a m e w o r k s p a n n o t a t o rf o rs t a t i cw e b p a g e s e m a n t i cm a r k u pu s i n go w ll i t eo n t o l o g i e s t h i sp a p e rm a i n l ye x p a t i a t e sa u t h o r sw o r k - t h ed e s i g na n di m p l e m e n t a t i o nf o r o n t o l o g yp r o c e s s i n ga n ds e m a n t i cm e t a d a t ag e n e r a t i o nt o o l st h a ta l et h ep o r t i o n so f s p a n n o t a t o r f i r s t l y , t h ef e a t u r e so fe x i s t i n ga n n o t a t i o nt o o l sa r ea n a l y z e da n dt h e r e s e a r c hg o a l sa n dd e s i g ni d e a sf o ro n t o l o g yp r o c e s s i n ga n ds e m a n t i cm e t a d a t a g e n e r a t i o nt o o l sa r ep r e s e n t e d n e x t ,t h ei m p l e m e n t a t i o nt e c h n i q u e sa r ed e t a i l e di ns i x a s p e c t so fi m p o r t a n td a t as t r u c t u r e s ,c o m m o np o r t i o n so fs p a n n o t a t o rf r a m e w o r k , o n t o l o g yp a r s i n g ,o n t o l o g yv i s u a l i z a t i o n ,o n l i n eo n t o l o g ya c q u i s i t i o na n ds e m a n t i c m e t a d a t ag e n e r a t i o n l a s t l y , ac a s es t u d ys h o w st h a tt h ea p p r o a c hf o ro n t o l o g y p r o c e s s i n ga n ds e m a n t i cm e t a d a t ag e n e r a t i o ni se f f e c t i v e ,a n dt h et o o l sa r ee a s yt o u s e k e yw o r d s :s e m a n t i ca n n o t a t i o n ,s t a t i cw e bp a g e ,o w l ,o n t o l o g yt o o l ,s e m a n t i c w e b 河海大学硕士学位论文基于o w l 本体的标注工具研究 1 1 研究背景 第一章绪论弟一早珀t 匕 万维网( w b r l dw i d ew e b ,简称w w w 或w r e b ) 是i n t e r n e t 最重要、最广泛 的应用之一,用户通过它可浏览i n t e r n e t 上所有的信息资源,但是现有的万维网 存在两个最明显的不足:一是计算机不理解网页内容的语义,因此无法自动处理 信息;二是网上有用信息难找,即使借助搜索引擎,查准率也比较低,它在帮助 用户得到成批相关网页的同时,也夹杂了许多与查询主题不相关的信息。随着 w e b 上的信息( 文本、h t m l 文档、图像、媒体流等) 持续的、爆炸式地增长, 这个问题愈发突出【l 】。造成这种状况的主要原因是现在的w e b 上的信息是采用超 文本标记语言( 删) 编写,网页上的内容是设计成专供人类浏览的,而非供 计算机理解和处理的,因此机器无法为用户提供自动处理网上数据的功能。同时, 万维网是按“网页的地址”,而非“内容的语义”来定位信息资源的,网上所有信息 都是由不同的网站发布的,相同主题的信息分散在全球众多不同的服务器上,又 缺少有效工具能将不同来源的相关信息综合起来,因此形成了一个个信息孤岛。 针对这种情况,w e b 的创始人t i mb e m e r s l e e 在1 9 9 8 年提出了语义w e b 的构 想【2 】。语义w e b 将使计算机能做到:不仅可以存取和处理信息,而且可以精炼和 解释数据内容的含义。语义w e b 研究的重点就是如何把信息表示为计算机能够 理解和处理的形式,即带有语义【3 】。 为了实现使计算机能够自动识别和处理w e b 上的信息,需要在文档内容中 加入机器可读的标记。为此,w 3 c 研究和开发了一系列标准和协议来支持用户 对当前w e b 内容进行语义标注,这些标准和协议也是t i mb e r n e r s l e e 提出的语 义w e b 体系结构 4 1 中的基础核心层。该体系结构中从底层到高层分别为:u n i c o d e 和u r i 、x m l 、r d f 、o n t o l o g y 、l o g i c 、p r o o f 、t r u s t 。第一层是u n i c o d e 和u r i 。 该层是整个语义w e b 的基础,其中u n i c o d e 处理资源的编码,u r i 负责标识资 源。第二层是x 地+ n s + x 池s c h e m a ,用于表示数据的内容和结构。第三层为 r d f + r d fs c h e m a ,用于描述w e b 上的资源及其类型。第四层为o n t o l o g y v o c a b u l a r y 层,用于描述各种资源之间的联系。第五层到第七层是在下面四层的 基础上所进行的逻辑推理操作。其中核心层为x m l 、r d f 、o n t o l o g y ,通过这3 层就可以支持用户在w e b 内容中加入语义标记以表示其含义。语义标注就是将 用户可理解的内容转换成机器可理解的形式,它是实现语义w e b 中一个关键步 骤。语义标注工具是用来实现语义标注的用户工具,目标是提供方便的操作和友 好的界面,让用户在w e b 信息中加入机器可读的信息( 即语义元数据) 。这些机 河海大学硕士学位论文 基于o w l 本体的标注工具研究 器可读的信息通过w e b 的开放性,就像w e b 产生之初的w e b 页面一样,会构成 语义w e b 可用的基础5 1 。 1 2 语义w e b 基础 w 3 c 这样定义语义w | e b l l o 】:语义w e b 是w 曲上数据的一种表示,它是一 项由w 3 c 领导的、众多研究人员和工业伙伴参与的协作式研究计划;语义w e b 基于资源描述框架( r e s o u r c ed e s c r i p t i o nf r a m e w o r k ,r d f ) 来集成以x m l 为 语法、统一资源标识符( u n i f o r mr e s o u r c ei d e n t i f i e r s ,u r i ) 为命名机制的各种应 用。t i mb e m e r s l e e 等人明确指出:语义w e b 是当前w e b 的一种扩展,w e b 信 息将被赋予明确定义的含义,以使计算机和人更好地协同工作【3 】。在2 0 0 0 年的 x m l 会议上,t i mb e m e r s l e e 提出了语义w e b 的基础结构【4 】( 如图1 1 ) ,体 系结构中的每一层支持元数据或包含一个到元数据的连接。 ,e 、 释 、r u l e s :1 j s t ; u 锄 移 。、 d a t aj ,一p r o o fj巴 3 、 j 。- 鹤 。震 l o g i c 母 c _ d a t a 。 价 s e l f - l 誊 d e s c 磐 o n t o l o g yv o c a b u l ar y 嵋 一- j d o c 隧。p :辫? 弛二,o 乎菇撼州1 “静噌矿。 、。l :波i7 :鬻。“妒“嘛磺;增晒噬警獭 溺 i : ;。 r d f + r d f s c h e m a ” 霪 q f 。 。一一 ” 嬲粥秽”戮鹦爹r 一,? ”i 。蓼? 事j 瞥,铲i ,4 嚣? p 声谨t 冀j ”i ”p :。:t 秽缪譬嘲 鍪。 21 i :? 舭j ns x m t s c h 一:e m a i ”:_ j 。:+ :j 爱:j 霪 鼠篓擞釜麓。j 匿鏊蠹麓潮 图1 1 语义w e b 基础结构 1 ) u n i c o d e & u r i u n i c o d e 是一个涵盖了目前全世界使用的所有已知字符的统一编码方案。随 着计算机应用变得越来越全球化,推动了支持全世界各种语言字符的需求,人们 认识到一个单一的统一编码方案是必要的,u n i c o d e 标准就是在这样的背景下诞 生的。u n i c o d e 是x m l 的默认编码方案。u r i 【l lj ( u n i f o r mr e s o u r c ei d e n t i f i e r s , 统一资源标识符) 是可以标识w e b 上所有类型资源的短字符串。 2 河海大学硕士学位论文基于o w l 本体的标注工具研究 2 ) x m l x m l s c h e m a x m l 【1 2 】( e x t e n s i b l em a r k u pl a n g u a g e ,可扩展标记语言) 是w 3 c 在1 9 9 8 年发布的一种文档数据描述语言,它是标准通用标记语言s g m l ( s t a n d a r d g e n e r a l i z e dm a r k u pl a n g u a g e ) 的一个子集,具有自描述性、内容与显示相分离、 可扩展性、半结构化、独立于平台和应用、机器可解析等特点。x m l 是一种元 语言( m e t al a n g u a g e ) ,它可以定义一套自己的标记,描述文档的结构。文档结 构的描述通过d t d ( d o c u m e n tt y p ed e f i n i t i o n ) 或x m ls c h e m a 模式语言来定 义。 d t d 以上下文无关语法规定了一个x m l 文档的结构( 即文档中可包含哪些 元素和属性,它们在何处出现,出现多少次,元素如何嵌套和引用,元素和属性 如何结合等) 。x m ls c h e m a 在数据类型和结构约束机制方面对d t d 进行了扩充 和加强:首先它本身就是x m l 文档,可直接使用x m l 解析器来处理;其次, 提供了丰富的数据类型,并可以定义新的数据类型;其三,x m l s c h e m a 支持继 承和命名空间。 尽管x m l 为数据提供了简单的结构,但它仍然是语法层次上的,没有含有 有用的语义信息【1 3 】。 3 ) r d f & r d fs c h e m a r d f 【1 4 1 ( r e s o u r c ed e s c r i p t i o nf r a m e w o r k ,资源描述框架) 是一个描述和交 换元数据的通用框架,它提供了一种标准的方式来描述元数据。r d f 数据模型 包含三种对象类型:资源( r e s o u r c e s ) 、属性( p r o p e r t i e s ) 、值( v a l u e s ) 。r d f 的基本模块是对象属性值三元组:a ( o ,v ) ,即对象0 拥有值为v 的属性a 。 对象必须是由u r i 唯一标识的资源,属性值也可以是u r i 标识的资源,这就意 味着这种三元组模型可以任意嵌套,以表达任意复杂的模型。r d f 模型试图提 供明确表达语义的方法。因此,通过三元组可以使文档包含对资源的描述,也就 包含了资源相关的语义信息1 6 】【1 7 】。 例如,以下是一个陈述( s t a t e m e n t ) - h t t p :l l w w w e x a m p l e o r g f m d e x h t m lh a sac r e a t o rw h o s ev a l u ei sj o h ns m i t h 这个语句表示h t t p :w w w e x a m p l e o r g i n d e x h t m l 这个w e b 页的创作者是 j o h ns r n i t h 。 这个语句可以用主谓宾结构表示如下: 主语( s u b j e c t ) 是一个u r l ( u r l 是u r i 的一种) : h t t p :w w w e x a m p l e o r g i n d e x h t m l ,表示一个w - e b 页; 谓语( p r e d i c a t e ) 是: c r e a t o r ,表示这个w ,e b 页的创作者; 宾语( o b j e c t ) 是:j o h ns m i t h ”,表示创作者的名字。 也可以用r d f 图来表示:椭圆结点表示对象,有向边表示属性,方形结点 3 河海大学硕士学位论文基于o w l 本体的标注工具研究 表示值。以上语句( s t a t e m e n t ) 可以用一个边标记有向图来表示,见图1 2 : 图1 2 一个r d f 数据模型实例 r d f 只定义了用予描述资源的框架,它并没有定义用哪些元数据来描述资 源。r d f 允许任何人定义元数据来描述特定的资源,由于资源的属性不止一种, 因此实际上是定义一个元数据集,元数据集在r d f 中被称作词汇集 ( v o c a b u l a r y ) ,词汇集也是一种资源,可以用u r i 来唯一标识,这样,在用r d f 描述资源的时候,可以使用各种词汇集,只要用u r i 指明它们即可。当然,各 种词汇集的受欢迎程度可能不同,有的也许只是被定义它的人使用,有的却由于 其定义的科学性为许多人所接受,如以类似图书馆卡片目录的方式来定义资源的 词汇集d u b l i nc o r e ,定义教育内容i m s 元数据,定义个人信息的v - c a r d 元数据 等。因为词汇集是资源,所以可以用r d f 来描述它的属性以及和其他词汇集间 的关系,w 3 c 为此特地提出r d fs c h e m a 来定义怎样用r d f 来描述词汇集,也 就是说r d fs c h e m a 是定义r d f 词汇集的词汇集。 r d fs c h e m a ”】是一个r d f 的简单的类型系统,它的目的是提供一个x m l 词汇表来表达类、类间的关系及类的属性。与x m ls c h e m a 相比,r d fs c h e m a 提供了关于如何解释r d f 数据模型中声明的信息,同时设置了这些数据模型中 的限制条件,使用它可以方便地根据数据进行推理。而x m ls c h e m a 只是对x m l 文档的结构作出了限制,x m ls c h e m a 强调句法、检查x m l 的有效性;而r d f s c h e m a 则强调语义 1 8 a 9 1 。 一个r d f s 的例子,在图书馆方面使用广泛的d u b l i nc o r e 的r d fs c h e m a : 4 河海大学硕士学位论文基于o w l 本体的标注工具研究 t i f i e t h en a l n cg i v e l lt ot h er e s o u r c e u s u a l l yb yt h ec r e a t o ro rp u b l i s h e r a u t h o r c r e a t o r n ep e r s o no ro r g a n i z a t i o np r i m a r i l yr e s p o n s i b l ef o rc r e a t i n gt h ei n t e l l e c t u a lc o n t e n t o ft h er e s o u r c e f o re x a m p l e ,a u t h o r si nt h ec a s eo fw r i t t e nd o c u m e n t s ,a r t i s t s , p h o t o g r a p h e r s ,o ri l l u s t r a t o r si nt h ec a s eo fv i s u a lr e s o u r c e s 调用p r o c e s s c l a s s n o d e 处 理类 使用处理过的类作参数 构造树结点 更新相关数据结构 返回根结点 结束 图4 2c r e a t e t r e e f r o m m o d e l 方法流程图 2 8 拿一 茹一 瞽更苇芰甲 河海大学硕士学位论文基于o w l 本体的标注工具研究 2 ) 得到类属性。使用自定义的方法g e t p r o p e r t y o f c l a s s ( 得到某类的所有属性) 、 p r o c e s s i n t e r s e c t i o n c l a s s ( 处理使用o w l :i n t e r s e c t i o n o f 定义的类) 和 p r o c e s s r e s t r i c t i o n ( 处理属性方式来以o w l :r e s t r i c t i o n 定义的类) 完成取得类 属性的功能。实现的处理的流程主要按照图3 1 的属性处理规则。 3 ) 得到类语言标签。使用自定义方法g e t l a n g u a g e l a b e l 实现此功能,该方法接 受一个类的u r i ,然后取得类语言标签的值,存放到h a s h m a p 中,语言标签 信息主要用在支持多语言标注方面。例如:一个本体片断 m a s t e r 硕士 h a s h m a p 中的存放形式为: 4 6 本体可视化 根据3 3 节的本体元素的显示规则,本体浏览器界面实现如图4 3 所示: 海 学砸t 学t 立 赫十o w l 奉# 的标rir m r 图43 本体浏览窗口 1 ) 多本体显示。系统支持多本体标注,因此在本体可视化时采用多个本体页 的方式来显示解析后的本体元素。使用自定义s m t a b b e d v l a i n p a n e l 功能类 来处理每个本体页的添加、删除操作。在增加和删除本体页时,要与4 3 节 提到的记录多本体信息的全局变量h m m u l t i o n t o l o g y 保持同步。 2 ) 奉体可视化的内部类实现。自定义的s m o n t t r e e p a n e l 功能类实现对本体显 示和标注过程操作处理的功能。为了达到3 3 节的显示规则要求和图4 3 的 显示效果,在s m o n t t r e e p a n e l 中实现了六个内部类p o p u p l i s t e n e r 、 m y d e f a u l t t a b l e m o d e 、m y d e f a u l t t a b l e e d i t o r 、m y t a b l e c e l l r e n d e r e r 、 m y l i s t c e l l r e n d e r e r 、m y t a b l e c e l l r e n d e t i e r 2 。这六个内部娄在底层数据结构 和用户显示界面之间起一个数据中转和处理的作用。下面分别介绍: 自部类m y d e f a u l t t a n e m o d e l 继承了a b s t r a c t t a b l e m o d e l ( f a v a xs w i n g t a b l e 包) 类,主要来处理属性 表( 即图43 中显示区域c ) ,它的主要作用包括:提供属性表列名、获 取,设置属性表中每个表格的数据、控制属性表中列的可编辑性。 - 自部类m y d e f a u l t t a b l e e d i t o r 继承a b s t r a c t c e l e d i t o r 类( 1 a v a xs w i n g 包) ,实现t a b l e c e l l e d i t o r ( j a v a xs w i n g t a b l e 包) 接口,主要作用是在用户编辑个体属性时,根据 3 0 河海人学硕:学位论文基于o w l 奉体的标注工具研究 属性类型的不同来返回不同的编辑元素。如果用户选择的当前属性是数 据属性,则提供一个文本框来对属性的值进行编辑;如果用户选择的是 对象属性,则根据属性值域的类,取得类所属的个体放入下拉列表框, 供用户选择。实现t a b l e c e l l e d i t o r 接口的g e t t a b l e c e l l e d i t o r c o m p o n e n t 方法是提供不同编辑元素的关键,图4 4 是方法处理的流程图: 开始 取得属性表 存储信息 絮竺岁珍可 i !土 。,! 一,! 一 坚堡垦竺銎竺! 习l 在文麓馨当前 ,t 取得糟赡e 旨定类的i 所有个体,加入下il 拉列表 l 广_ 一 一t 一i 返回文本编辑窗1 2 1 返回带有个体信息 的下拉列表 结束 图4 4g e t t a b l e c e l l e d i t o r c o m p o n e n t 方法处理流程 内部类m y t a b l e c e l l r e n d e r e r & m y t a b l e c e l l r e n d e r e r 2 实现t a b l e c e l l r e n d e r e r 接口( j a v a x s w i n g t a b l e 包) ,主要功能是实现属 性表中表格数据的定制显示。m y t a b l e c e l l r e n d e r e r 改变属性表中的属性 名( p r o p e r t y n a m e ) 列显示,m y t a b l e c e l l r e n d e r e r 2 改变属性表中的属性 值域( r a n g e ) 列和属性值( v a l u e ) 列的显示。例如:底层数据结构存 储的属性表中的一行信息为: 属性名:h t t p :w w w h h u e d u c n i s w c i s w c o w l # w h i c h s c h o o l 属性类型:h t t p :w w w h h u e d u c n i s w c i s w c o w l # s c h o o l 属性值:h t t p :w w w h h u e d u c n i s w c i s w c o w i # h h u 经过r e n d e r e r 处理后显示: p r o p e r t y n a m er a n g e v a l u e l ( o ) w h i c h s c h o o l s c h o o lh h u 河海大学硕士学位论文基于o w l 本体的标注工具研究 内部类m y l i s t c e l l r e n d e r e r 实现l i s t c e l l r e n d e r e r 接口( j a v a x s w i n g 包) 。作用与m y t a b l e c e l l r e n d e r e r 类似,与个体列表关联后,影响列表中每个个体的显示。 内部类p o p u p l i s t e n e r 主要用来监听右键菜单事件。实现在图4 3 的显示区域a 、b 、c 分别出 现不同的右键功能菜单。在类层次树上,用户可以建立除根之外的类的 个体;在个体列表上,视个体类型的不同,显示不同的菜单,当用户选 择当前个体是本体自带个体时,允许用户将此个体转换成自定义个体, 是用户添加个体时,允许用户编辑和删除个体;在属性表上,用户可以 增加和删除属性。 3 ) 本体浏览。在3 - 3 节的显示规则中,本体显示以类为中心,所以用户在浏览 本体时操作路径基本有三条:一是从类到个体;二是从类到属性;三是从 个体到属性。数据变化和相应操作在这三条路径上展开。 4 ) 各显示区域存放信息的数据结构。从图4 3 可以看出,在类层次树的显示区 域中,类树上的每个结点有一个类信息与之关联,即s m a l c l a s s n o d e ;在 个体列表显示区域,每个个体以s m a l n a m e v a l u e 方式存放, s m a l n a m e v a l u e 是一个名值对,n a m e 存放这个个体的类型( 定义两个全 局变量o m r o d d d u a l 和o w n i n d i v i d u a l ,分别代表本体自带个体 和用户标注产生的个体) ,v a l u e 存放个体u r i ;在属性表显示区域中,每 个属性三元组由s m a l t a b l e d a t a 存放,经过内部类m y t a b l e c e l l r e n d e r e r 的处理,显示成短名字表格供用户浏览;个体公理显示区域的存放结构与 个体列表类似。下面给出s m a l n a m e v a l u e 和s m a l t a b l e d a t a 的定义: 类s m a l n a m e v a l u e 定义: c l a s ss m a l n a m e v a l u e 【 p r i v a t es t r i n gn a m e = n u l1 ; p r i v a t es t r i n gv a l u e = n u l l ; ) 个体类型 | 令诲u r i 类s m a l t a b l e d a t a 定义: c l a s ss m a l t a b l e d a t a ( s t r i n gp r o p e r t y i d = n u l l ; 属性u r i s t r i n gr a n g e = n u l l ; 属性类型u r i s t r i n gv a l u e = n u l l ; 属性值u r i b o o l e a ni s d a t a t y p e p r o p e r t y = t r u e ;是否为数据属性 ) 3 2 河海大学硕士学位论文基于o w l 本体的标注工具研究 实现本体浏览的方法定义。用户操作有三条路径,方法调用如图4 5 : 图4 5 本体浏览方法调用图 上图中,当用户选择某类,更新个体列表时,不仅要列出本体自带个体,还 要列出用户标注产生的个体,而且要列出所有子类得个体,更新属性表后,设置 其编辑属性为只读;在用户选择某个体时更新属性表和公理列表时,考虑到两种 不同类型个体间处理的差异性。 4 7 本体获取 根据3 2 节的设计,本体获取主要得到在线本体文档,网络配置信息由 s m n e t p r o x y s e t 处理。用户在获取本体界面输入想要打开或保存到本地的本体 u r l 后,首先对输入信息进行验证,输入信息不能为空,输入的u r l 以h t t p 或 f i l e 协议访问本体文档,否则把相应的错误信息提示给用户。验证用户输入信息 使用s m v a l i d g e t o n l i n e o n t 类,它实现了自定义的验证接口s m v a l i d a t i o n 。获取 在线本体文档的实现步骤如下: p u b l i cv o i dg e t o n l i n e o n t o l o g y ( s t r i n go n t o l o g y u r l ,s t r i n gs a v e p a t h ) t t r y 设置代理 s m n e t p r o x y s e tp r o x y s e t :n e ws m n e t p r o x y s e t ( ) ; p r o x y s e t s e t p r o x y ( ) ; b u f f e r e d i n p u t s t r e a mb i s = n u l l ; 输入流存储在线本体的信息 b u f f e r e d o u t p u t s t r e a mb o s = n u l l ; 输出流,保存本体到本地 t r y u r lu r l = n e wu r l ( o n t o l o g y u r i ) ? u r l c o n n e c t i o nc o n n = u r l o p e n c o n n e c t i o n ( ) 7 打开连接 3 3 河海大学硕士学位论文基于o w l 本体的标注工具研究 i f ( p r o x y s e t i s a u t h e n t i c a t e ( ) ) 设置验证信息 c o n n s e t r e q u e s t p r o p e r t y ( “p r o x y - a u t h o r i z a t i o n 。, c o n n c o n n e c t ( ) ; 得到在线本体的输入流 p r o x y s e t g e t a u t h e n t i c a t e s t r ( ) ) ; b is=newb u ff e r e d i n p u t s t r e a m ( c o n n g e t i n p u t s t r e a m ( ) ) ; m o d e l r e a d ( b i s ,n u l l ) ; b i s r e s e t ( ) ; 保存本体到本地 读入o n t m o d e l ,用来构造类树 i f ( ! ( s a v e p a t h e q u a l s ( ”) ) ) b o s = n e wb u f f e r e d o u t p u t s t r e a m ( n e wf i l e o u t p u t s t r e a m ( s a v e p a t h ) ) ; i n tc = b i s r e a d ( ) ; w h i l e ( c ! = 一1 ) b o s w r i t e ( c ) ; c = b i s r e a d ( ) ; ) c a t c h( 工o e x c e p t i o ni o e )t 提示用户,检查网络设置 s m u t i l s g e t j o p t i o n p a n e ( ) s h o w m e s s a g e d i a l o g ( n u l l , 。o p e nf a i l e d ,p l e a s ec h e c ky o u ro n t o l o g yf i l e o r i n t e r n e t ( e g p r o x y ) s e t t i n g ! 。,。e r r o r 。,j o p t i o n p a n e e r r o r _ m e s s a g e ) ; j o e p r i n t s t a c k t r a c e ( ) ; ) f i n a l l y 关闭输入输出流 t r y ( i f ( b i s ! = n u l l ) b i s c l o s e ( ) ; i f ( b o s ! = n u l l ) b o s c l o s e ( ) ; ) c a t c h( 工o e x c e p t i o ni o e ) i o e p r i n t s t a c k t r a c e ( ) ; 河海大学硕二l :学位论文基于o w l 本体的标注工具研究 4 8 语义元数据生成 4 8 1 个体创建 个体的创建方式有两种:一种是用户根据w e b 页的词汇创建个体,一种是 用户认为本体自带的某个个体是合适的,将其转换成用户自定义个体。 通过w e b 页词汇创建个体。从w e b 页取得的词汇是个体名称,通过选 定个体所属类生成个体,其中可以通过粘贴系统剪贴板中的个体名或直 接填写个体名创建个体,s m a e i n d i v i d u a l d i a l o g 对话框的功能是新增或 编辑个体信息,包括个体名和语言标签。语言简称应符合i s 0 6 3 9 标准。 在用户确定添加个体后的操作为:新建s m a l i n d i v i d u a l 实例存放个体信 息;将此实例放入本体页提供的个体容器中;更新个体列表的显示。 通过本体自带个体转换成用户个体。主要由自定义功能类 s m c o n v e r t t o l n d i v i d u a l 来完成。主要操作步骤为: 检查此本体自带个体是否为空; 新建用户标注个体; 取语言标签信息填充新建个体; 取属性三元组信息填充新建个体; 取公理信息填充新建个体; 将新建个体放入个体容器; 更新个体列表显示; 在本体中删除已转换的个体。 4 8 2 编辑个体信息 在创建个体后,需要编辑个体的属性信息和创建个体公理信息。编辑属性信 息主要在图4 3 的显示区域c 属性表进行操作,创建个体公理主要在显示区域d 个体公理列表进行操作。由于s p a n n o t a t o r 支持多本体标注,而编辑个体信息时 需要的操作( 如取得某类的所有的个体) 在每个本体页都适用,因此,实现了一 组对个体操作的通用方法,以全局函数的形式存在,避免在每个打开本体页都创 建其实例。这一组通用方法由自定义功能类s m a l i n d i v i d u a l a s s i s t a n t 来实现,实 现的方法如表4 2 : 河海大学硕士学位论文基于o w l 本体的标注工具研究 表4 2s m a l i n d i v i d u a l a s s i s t a n t 方法表 方法名功能描述 g e t a l l c l a s s 返回某本体中所有的类 g e t a l l o n t o l o g y 返回所有打开的本体 g e t o n t o l o g y d e f a u l t u r i返回某本体的缺省u r i g e t a l l l n d i v i d u a l f r o m c l a s s返回属于某类的所有个体 g e t a l l l n d i v i d u a l f r o m o n t o l o g y 返回某本体的所有个体 g e t l n d i v i d u a l s f r o m m u l t i o n t o l o g y返回所有打开本体中属于某类的所有个体 方法实现要点: 方法g e t a l l c l a s s 取得本体中所有的类。有两种方法可以完成此功能:一种是在处理本体的 o n t m o d e l 上取得所有命名类;一种是在本体页的类层次树上取得,每个树 结点对应本体中的一个类。因为在解析本体时存放了类的相关信息,所以采 用第二种方法。返回所有类名的字符串数组。此方法主要用在创建个体公理 时,在选定本体后,要取得本体所有的类。 方法g e t a l l o n t o l o g y 取得所有打开的本体名,在4 3 小节提到数据结构中记录多本体信息的全局 变量是h m m u l t i o n t o l o g y ,通过它取得所有打开本体的信息,主要在创建个 体公理使用。 方法g e t o n t o l o g y d e f a u l t u r i 在每个打开的本体页中,保存

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论