




已阅读5页,还剩50页未读, 继续免费阅读
(计算机科学与技术专业论文)问答系统中多变量问题到owl查询语句的转换研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
创性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其 他人已经发表或撰写过的研究成果,也不包含为获得北京工业大学或其它教育 机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何 贡献均已在论文中作了明确的说明并表示了谢意。 签名:翌枣:为望 日期: 2 2 旦:笸:旦 关于论文使用授权的说明 本人完全了解北京工业大学有关保留、使用学位论文的规定,即:学校有 权保留送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部 或部分内容,可以采用影印、缩印或其他复制手段保存论文。 ( 保密的论文在解密后应遵守此规定) 签名: 至璺查:缝导师签名:塑鼙! 堕d 日期:兰! ! ! ! ! ! ? o w l 知识,以问答的方式检索这些知识是更好的利用这些知识的方式之一。 现有的o w l 知识问答系统依然存在一些问题,如对o w l 元素的处理不全 面,不能处理多变量问题等。针对这些问题,本文集中研究问答系统中多变量 问题到o w l 查询语句的转换方法,包括三个子问题:期望答案类型识别、变 量提取、组合o w l 查询语句,具体工作如下: 针对期望答案类型识别,在参考w 曲c l o p e d i a 的期望答案类型分类标准后, 本文根据实验所采用的领域知识库,总结出以“讹o ,“讹e n ”和“w h e r e 开头的问题的期望答案类型。对于以“ 和“w k c h 开头的问题,则提出 先识别问题的目标,再根据问题目标来得到问题期望答案类型的方法。对以 “w h a t 和“w k c h 开头的问题进行的实验结果表明该方法具有较好的效果。 在变量提取方面,提出了一种提取变量、识别变量潜在类型的方法。该方 法采用s t a l 偷r dp a r s e r 工具对问题进行解析,若解析结果表明问题中含有从句 则提取变量,变量的潜在类型通过关系词所指代的先行词直接得出或从用同义 词典对先行词进行扩展后得到的集合中得出。实验结果表明该变量提取方法是 可行的。 在组合o w l 查询语句方面,为了组合所有的变量及o w l 元素到r d f 元 组,采用了基于模板的组合方法,组合过程中用到了a g i l e 系统没有用到的二 变量模板。得到i f 元组后,为了剔除元组中的噪声,对a g i l e 系统中已有的 噪声剔除规则进行了部分修改。实验结果表明基于模板的组合方法能够较好的 组合r d f 元组,噪声过滤能提高组合精度。 综合前面描述的期望答案类型识别、变量提取、组合0 w l 查询语句三个子 内容的所有实验结果,整个结果表明方法对以“w h a t ”,“w k c h ”,“帆o , “肌e n ”开头的问题比较有效,对以“m e r e 开头的问题效果较差。 关键词问答系统;多变量问题;期望答案类型识别;变量提取;组合 北京工业大学工学硕j :学位论文 i i s e m a n t i cw e br e l a t e d t e c h n o l o g i e s , o w lb a sb e c o m eaw 3 cr e c o m m e n d e d s t a i l d a r d n o w a d a y s ,雠r ea r ei n a s s i v eo w lk n o w l e d g ei nd i 舵r e 】1 td o m a i l l so nm e w 曲,q u e s t i o na 1 1 s w e 血gs y s t 锄i so n eo ft h eb e t t e rm e m o d si i lr e t r i e v i n gn l e s e h l o 、v l e d g e e x i 池go w lk 1 1 0 w l e d g eq u e s t i o na 1 1 s 、) ,e 血gs y s t e ms t i l lh a ss o m ep r o b l e m s , s u c h 私1 a c ko fp r o c e s s i n go w le l e m e n t sa 1 1 dm u l t i - v 撕a b l eq u e s t i o n s t os o l v e 吐1 e s ep r o b l e m s ,w es t u d ya 们n s f o m a t i o nm e t h o d 丘o mam u l t i v a r i a b l eq u e s t i o nt 0 a 1 1o w lq u e i i l c l u d i i l gt 1 1 r e e s u b c o n t e n t s :e x p e c t e da 1 1 s w e rt y p er e c o 班t i o n , v 撕a b l ee x t r a c t i o na i l do m o l o g yq u e 巧c o m b i l l a t i o n i nt h ee x p e c t e da 芏l s 、v e r 帅er e c o g l l i t i o na s p e c t ,a r e rr e f e r r i n gt ow 曲c l o p e d i a s e x p e c t e da n s w e r帅ec l a s s i f i c a t i o ns t a n d a r d ,t b j st h e s i ss 1 姗加撕z e ds e v e r a l e x p e c t e da 1 1 s w e rt y p e st 0 n :i e q u e s t i o n sb e g i r 血n gw i t h “w h o ”,“w h e n ,a n d “w h e r e ”,i ns u p p o r to fal i n l i t e dd o m 血k n o w l e 趣eb a s eu s e di n “ss 砌y i n a d d i t i o i l ,r e g a r d i n gt 1 1 eq u e s t i o l l sb e g i i l l l i l l g 谢t l l w h a t a 1 1 d “w 1 1 i c h ,w ep r o p o s e d am e t h o dt og e tt h eq u e s t i o n sg o a l ,a 1 1 dm e no b t a i nt 1 1 ee x p e c t e da i l s 、) l ,e rt ) ,p eb a s e d o n 1 eg o a l b yc a r r y i n go nt l l e e x p e r i m e n to nm eq u e s t i o n sw t l i c hb e g i nw i t h “w m c h ,a i l d “w 1 a t ”,戗1 er e s u l t sd e m o n s 仃a t e dn l a t 也i sm 甜1 0 dh a dag o o d p e r f o 肌a i l c e i i lv a r i a b l ee x 饿l c t i o n 嬲p e c t ,w ep r o p o s e da 1 1 0 m e rm e t h o dw h j c hc a ne x 拓a c t v 撕a b l ea i l dr e c o 蛐z ev a r i a b l ep o t e n t i a lt ) l ,p e s w ef i r s t l yu s e ds t a l l f o r dp a r s e rt o o l t oo b t a i n 恤a 训皿c 慨e i ft l l ea 1 1 a l 如ct r e ei n d i c a t e dt h a t l eq u e s t i o ni n c l u d e d s u b o r d i n a t ec l a u s e ,t h e ne x 位l c t sv 撕a b l e ,t 1 1 ev a r i a b l ep o t e m i a l 咖er e f e r st 0an o u l l t h ee x p e r i m e n t a lr e s u l t sd e m o n s t r a t e dt h a tm i sm e t h o di sf e a s i b l e i no w lq u e 巧c o m b i n a t i o na l s p e c t ,w eu s eat e m p l a t e - b 弱e dc o m b i i l a t i o n m e t l l o dt oc o m b i n et h eo n t 0 1 0 9 ye l e m e n t si 1 1 t 0t u p l e s i i lc o m b i 瑚l t i o 玛w eu s e dat w o v a r i a b l et e r n p l a t ew k c hi sn o tu s e di i lt h ea g i l es y s t e m i i lo r d e rt of i l t e rt h en o i s eo f r e s u l t s ,w em a d es o m ep 甜i a lm o d i f i c a t i o i l si l l 廿1 en o i s ef i l t e rm l e si nt h ea g i l e - i i i 北京工业大学工学硕士学位论文 s y s t e m t h ee x p e r i m e n t a l r e s u l t sd e m o n s t r a t e dt h a tt h ec o m b i n a t i o nm e t l l o d p e r f o n n e dw e l li nm er d ft u p l e sc o m b i n a t i o na n d t h en o i s ef i l t e r i n gm e t h o dc o u l d i r l c r e a s ep r e c i s i o nt os o m ee x t e n d i nc o n c l u s i o n ,w ep e o r m e d3p r o c e s s e sm c l u d i n ge x p e c t e da 1 1 s w e rt y p e r e c o g n j t i o n ,v 撕a b l ee x n a c t i o na 1 1 dp o t e n t i a l 帅er e c o 鲥t i o 玛a n do w lq u e r ) , c o m b i l l a t i o n t h er e s u l t sd e m o n s t r a t e dt 1 1 a to u r 印p r o a c hp e 面肌e dm o r ee 日e c t i v e l y 0 nt h eq u e s t i o i l sb e g i n i l i n g 、析m w h o ”,“w h a t ”,“w l l i c h ,a n d “w h e n ”,b u tl e s s e 虢c t i v e l yo n “w h e r e ”q u e s t i o n s k 舒w o r d sq u e s t i o na 1 1 s w 嘶n gs y s t e m ;m u l t i - v a r i a b l eq u e s t i o n s ;e x p e c t e da 1 1 s w e r t y p er e c o g l l i t i o n ;v a r i a b l ee ) 【t r a c t i o n ;c o m b i i l a t i o n 1 3 1 4 1 5 第2 章 2 1 2 2 2 3 2 4 2 5 2 6 2 7 第3 章 3 1 3 2 3 3 3 4 3 5 第4 章 4 1 4 2 4 3 4 4 主要研究内容4 研究意义4 本文结构5 o w l 规范及相关研究7 本体简介7 2 1 1 本体定义7 2 1 2 本体分类8 本体描述语言8 o w l 语言规范10 o w l 查询语言1 1 a g i l eo w l 知识问答系统13 2 5 1 系统介绍1 3 2 5 2 问题分类1 4 单变量与多变量问题1 4 本章小结1 5 期望答案类型识别与变量提取1 7 期望答案类型识别17 3 1 1 帆o 、肌e r e 和矾e n 类问题1 7 3 1 2 册a t 和w k c h 类问题一1 8 变量提取1 9 3 2 1 表示答案的变量提取1 9 3 2 2 中间变量提取。1 9 3 2 3 变量潜在类型识别1 9 实例2 0 实验2 1 3 4 1 实验环境2 2 3 4 2 实验数据2 2 3 4 3 实验评估2 2 3 4 4 实验结果及分析2 3 本章小结2 3 组合o w l 查询语句2 5 基于模板的组合方法2 5 组合算法2 6 噪声过滤2 8 查询语句生成2 9 v 北京t 业大学工学硕士学位论文 4 5 实例2 9 4 6 实验3 0 4 6 1 实验数据3 1 4 6 2 实验结果及分析3 1 4 7 本章小结3 3 结论3 5 参考文献3 7 攻读硕士学位期间发表的学术论文4 3 致j 射4 5 息多,检索方式单一等。因此,越来越多的人将问答系统作为研究目标,这种 系统以自然语言问题的方式提问,系统给出的不是相关的网页或文本,而是一 个简洁、准确的答案【1 】o 随着网络智能技术【2 ,3 一,特别是语义w e b 技术5 ,6 】的 发展,本体这种新型的数据表示方式的出现,使得问答式本体知识检索技术【刀 成为一个新的研究目标。 1 1 课题背景 w e b 技术的迅速发展使得网络上的信息不断增加与丰富,随着人们对信息 需求的与日俱增,w e b 已经成为人们获取信息的最重要的来源之一。然而网络 上的信息是海量的,且分布在世界各地不同的站点上,人们查找自己所需要的 信息变得越来越困难。为帮助人们从网络上大量的信息中找到自己需要的信息, 上世纪九十年代开始出现了搜索引擎技术。这种技术利用用户输入的关键字进 行检索,返回包含关键字的网页或文本的链接,用户再从这些网页或文本中找 到自己想到的答案。这种技术在一定程度上满足了用户检索信息的需求,因此 获得了快速的发展,到目前为止,比较著名的搜索引擎有g o o g l e 【8 】、y a l l o o 【9 1 、 百度【1 0 】等。 尽管上述搜索引擎在一定程度上解决了用户在w 曲中查找信息困难的难 题,但其还是有着很多的缺点:一是用户检索出来的无用信息多,当用户利用 关键字进行检索的时候,所有包含关键字的网页和文本都被检索了出来,其中 包括很多和用户检索主题无关的信息,用户还得花大量的时间从这些网页或文 本中找出自己所需要的信息。其次,搜索引擎只提供了单一的检索方式,用户 只能输入关键字进行检索,这样就存在用户无法用关键字来清楚的表达自己意 图的情况,检索的结果也就与用户的需求相差很远。最后,现有搜索引擎的检 索只是简单的字符匹配,没有对用户输入信息进行句法、语义方面的理解,检 索的结果只是相关的网页或文本,而没有直接给出用户想要的答案。基于上述 的问题等,人们展开了对问答式检索技术 1 1 】的研究。这种检索技术通常由用户 输入自然语言问题进行提问,系统给出的是一个简洁、准确的答案,而不是相 北京工业大学工学硕士学位论文 关的网页和文本,在一定程度上弥补了现有搜索引擎的不足。 随着w e b 智能( w e bi n t e l l i g e n c e ) 技术的发展,特别是语义w 曲的出现, 需要在w 曲中引入语义知识表示,即不仅仅局限于将页面内容展现出来,更需 要增加语义的信息,使得w 曲上的信息能被机器理解和自动处理。本体l l 2 j ( o n t o l o g y ) 是一种描述概念以及概念之间关系的模型,并通过概念之间的关 系来描述概念的语义,解决了l 和r d f 在语义w 曲方面所不能解决的语义 问题,成为语义w 曲体系中的核心。o w l 【1 3 1 4 j ( w 曲o n t o l o g ) ,l a l l g u a g e 网络 本体语言,缩写o w l ) ,是w 3 c 推荐的w 曲本体标准语言,随着w r e b 智能技 术的发展,大量的个人和团体专注于自动建立o w l 知识的研究,网络上存在 着越来多的以o w l 描述的本体知识,以问答的方式检索这些知识是更好的利 用这些知识的方式之一。 以上背景促使了本文对o w l 知识问答系统的研究。这种问答系统采用 o w l 格式的知识库,以用户提出的自然语言问题为处理的对象。用户最习惯使 用的表达方式是自然语言的形式,不能以自然语言问题直接对o w l 知识进行 查询,需要将自然语言问题转换成o w l 查询语句的形式,因此,自然语言问 题到o w l 查询语句的转换将是研究重点。 1 2 研究现状 问答系统自6 0 年代人工智能刚开始研究的时候就已经被提出来,已经有很 长的研究时间。近年来,随着网络和信息技术的快速发展,国际上的许多科研 院所和著名公司也都积极的参与到该领域的研究,如i b m 和微软等著名的跨国 公司。现有的对问答系统的分类,根据检索知识源的不同,可以将问答系统分 为面向数据库的问答系统、面向网络的问答系统、面向本体的问答系统。本文 的研究属于面向本体的问答统,以本体为检索知识源。下面介绍一下各种问答 系统研究现状。 面向数据库的问答系统拥有一个或多个数据库,信息以关系数据库的方式存 储,对于用户输入的自然语言问题,需要将问题进行处理转换成数据库查询语句 的形式,这种问答系统在上世纪七、八十年代的时候出现的比较多i l5 ,1 6 j 。由于当 时条件所限,面向数据库的问答系统研究在八十年代后期没落。后来,随着机器 学习技术及自然语言技术的发展,面向数据库的问答系统重新成为人们的研究内 容。如文献 1 7 ,1 8 】根据利用不同的学习算法生成的一个谓词字典和归纳学习器 获得问题对应的逻辑形式,最后根据逻辑形式获得s q l 语句。文献 1 9 ,2 0 ,2 1 】对 于用户输入的自然语言问题,利用语言解析插件、最大流算法将问题词映射到不 同的数据库元素,最后组合成s q l 查询语句。 第l 覃绪论 面向网络的问答系统是目前问答系统研究的主流方向。这种问答系统以w - e b 上的信息为知识源,关键是对问题的关键词进行提取,然后利用信息检索和信息 抽取等技术来得到答案并返回给用户【2 2 】。与其它问答系统相比,面向网络的问答 系统借助信息检索技术中的搜索引擎技术来获取信息,借助信息抽取技术从获取 到的网页、文本中抽取、合成答案,不需要建立大规模知识库,节省了大量的人 力物力。目前国外开发的面向网络的问答系统有s t a n 【2 3 1 、a s k 【矧、a n s w e r b u s 【2 5 】, w e b c l o p e d i a l 2 6 j 等。为了比较不同的问答系统的性能,从1 9 9 9 年开始文本检索会 议j ( t e x tr e 仃i e v a lc o i 曲e n c e ,t i 冱c ) 把q at r a c k 设为评测项目之一。至此以 后,每年一度的t i 也c 的q at r a c k 的比赛都会有新的系统出现,提出新的技术与 方法,进一步促进了问答系统的研究与发展。 随着语义w 曲技术和o n t o l o g y 语言的发展,本体被用来对查询进行改进【2 8 2 9 j ,同时也出现了以本体为知识库的面向本体的问答系统。这种问答系统采用 o w l 格式的知识库,以用户提出的自然语言问题为输入。o w l ( w e bo m o l o g y l a n g u a g e ) 语言和自然语言是两种不同的表达方式,o w l 知识问答系统的关键 就是将用户输入的自然语言问题转换成o w l 查询语句的形式,因此,自然语 言问题到o w l 查询语句的转换是研究的重点。 在已有的面向本体的问答系统中,文献 3 0 ,3 l 】对于用户输入的问题,首先 将其转换成d r s ( 一阶谓词逻辑的子集) ,然后根据由基于o w l 的领域模型和 查询语言规范生成的重写规则将d r s 转换成语义w e b 查询语句。不是所有的 问题都能被表示成一阶谓词逻辑的形式p2 。,所以对可处理的问题进行了约束, 只能处理可控的英语子集。文献 3 3 】用工具对问题进行处理,从得到的解析树 中抽取名词词组组成查询元组这种中间的表达方式,然后利用本体中的知识将 查询元组映射到本体元组。最后,连同从解析树中抽取的目标和修饰符将本体 元组解释生成s p a r q l 查询。文献【3 4 通过语义关系标记将问题中的词关联到 本体中的概念或属性,通过语义结构识别、s p a r q l 生成器得到相应的s p a r q l 语句。文献 3 5 将问题处理得到一个问题词集,利用o w l 知识库解析得到o w l 元素集,映射过程被看作是一个分类问题,一个问题词和一个o w l 元素组成 一个样例,每个样例被分类到“匹配”和“不匹配 两种结果,映射过程等价 于为给定的问题词寻找被分到“匹配”类的由该问题词和元素组成的样例。文 献【3 6 的a g i l e 系统对问题和o w l 知识库处理的方式与文献 3 5 】相同,不同的 是将问题词集和o w l 元素集分别看作变量集和变量的值域,采用基于约束的 方法【37 j 为问题词获取匹配的o w l 元素,然后用基于模板的组合方法将o w l 元素组合成) f 元组,符合规则的本体元素和变量都是合适的填充子。 已有的这些本体知识问答系统对自然语言问题到o w l 查询语句的转换进 行了重要的探讨,但到目前为止,依然存在一些问题:如文献 3 3 】没有处理多 北京工业大学t 学硕七学位论文 个不同的类匹配同一个变量的问题,文献【3 4 】没有提到个体的解决情况。文献 3 6 解决了文献【3 3 】和 3 4 的问题,但是没有处理多变量自然语言问题。本文对o w l 知识问答系统中的多变量自然语言问题到o w l 查询语句的转换研究正是以解 决上述问题为出发点。 1 3 主要研究内容 本文研究问答系统中的多变量自然语言问题到o w l 查询语句的转换。现 有o w l 查询语言都是以i f 图模型为基础,转换的关键是获取和问题匹配的 r d f 元组,再由r d f 元组生成o w l 查询语句。因此,对于该问题,本研究拟 分为三个子问题研究。 ( 1 ) 期望答案类型识别。o w l 知识问答系统中,系统能够给出正确答案 的前提是已经明确知道表示答案的变量及该变量的类型,而表示答案的变量的 类型与问题的期望答案类型相同。本文拟根据自然语言问题目标来进行期望答 案类型识别,并将期望答案类型作为表示答案的变量的类型。 ( 2 ) 变量提取。由多变量自然语言问题得到的r d f 元组中至少有两个或 两个以上不同的变量,每个变量表示不同的o w l 元素,具有相应的o w l 元素 类型,因此,需要根据自然语言问题提取出这些变量,识别变量的潜在类型。 对于该子问题,拟研究根据问题中的从句来提取变量,根据先行词识别变量潜 在类型。 ( 3 ) 组合o w l 查询语句。得到所有的变量后,需要将变量和o w l 元素 组合成r d f 元组,最后由i m f 元组得到o w l 查询语句。在组合时对填充子 的个数以及组合得到的砌) f 元组数目不加约束,组合得到的r d f 元组中可能 含有噪声,需要进行噪声过滤,因此拟研究基于模板的组合方法组合i m f 元组 以及使用规则过滤噪声。 1 4 研究意义 本文研究多变量自然语言问题到o w l 查询语句的转换方法,具有重要的现 实和理论意义。 首先,o w l 知识问答系统是对关键字检索技术的补充和完善,与关键字检 索技术相比具有无可比拟的优势,更加符合用户的习惯,具有重要的实用价值。 其次,随着语义w e b 技术的发展以及o w l 规范成为知识表示的工业标准, 各种行业越来越多的以o w l 描述的本体知识出现在w - e b 上,以问答的方式检 索这些o w l 知识是更好的利用这些知识的方式之一。自然语言和0 w l 语言是 两种不同的表示方式,因此本课题的研究成果也弥补了自然语言与o w l 语言 本文的结构是这样安排的:首先对本课题的研究背景、研究现状进行了调 查、分析并发现没有解决的问题,接着提出解决问题的方法,然后通过实验验 证所提出方法的有效性,最后结论对本文工作做出总结并指出下一步的研究方 向。全文共四章,分别如下: 第1 章介绍了本文的课题背景、研究现状、主要研究内容及意义,以及本 文结构。 第2 章介绍了本体知识及与本文相关的研究现状。 第3 章给出了期望答案类型识别和变量提取方法,并用实验进行了验证。 第4 章介绍了o w l 查询语句的组合,包括i f 元组组合及过滤,查询语 句生成,并进行了实验。 结论部分对本文的工作做了一个总结,并指出了下一步深入研究的方向。 北京工业大学工学硕l :学位论文 6 了不同的本体描述语言,如x o l 【3 8 】、d w l 【3 9 】等。2 0 0 2 年,w 3 c 在提交的 d a m l + o i l 【4 0 j 基础上发展了o w l 语言,后来成为w 3 c 的推荐标准。 本章将系统的介绍本体的定义、分类及本体描述语言的发展情况。2 1 节首 先介绍了本体的定义及其分类。然后2 2 节介绍了随着w e b 技术的发展而出现 的本体描述语言。o w l 成为w 3 c 推荐的本体语言推荐标谁,因此接下来2 3 节介绍了0 w l 语言规范及其各子语言的特点。以自然语言提问的方式检索 o w l 知识,需要将自然语言问题转换成查询语句的形式,2 4 节介绍了能够用 来对o w l 知识库进行查询的本体查询语言。2 5 节介绍了a g i l eo w l 知识问答 系统。最后2 6 节介绍了单变量与多变量问题。 2 1 本体简介 2 1 1 本体定义 本体( o n t o l o g y ) 最早是一个哲学上的概念,是对客观存在的一个系统的解 释,关心的是客观现实的抽象本质。后来,本体这个词被计算机领域所采用并给 予了不同的认识和定义,这种认识和定义是一个不断深化的过程。 最早给出o n t o l o g y 定义的是n e c h e s 等人【4 1 1 ,他们将0 n t o l o g y 定义为“定 义了组成主题领域的词汇的基本术语和关系,以及用于组合术语和关系以定义 词汇外延的规则 。1 9 9 3 年,g 加b e r 【4 2 j 给出了o n t o l o g y 的一个公认的定义,即 “o n 幻l o g y 是概念化的明确的规范说明”。后来,b o r s t l 4 3 j 在此基础上,给出了 o n t 0 1 0 9 y 的另外一种定义,即“o n t o l o g y 是共享的概念化的形式化规范说明 。 s t l l d e r 等人【4 4 j 对上述两个定义进行了深入的研究,认为“o m o l o g y 是共享的概 念化的明确的形式化规范说明 ,包含4 层含义:概念化( c o n c e p t u a l i z a t i o n ) 、 明确( e x p l i c i t ) 、形式化( f o m a l ) 和共享( s h a r e ) ,并分别对它们做出了如下解 释:概念化是指通过标识现象的相关概念而得到客观世界中这个现象的抽象模 型;明确化是指使用的概念及使用这些概念的约束都有明确的定义;形式化是 北京t 业大学工学硕士学位论文 指本体是计算机可读的;共享是指反映了这样一个观念,即本体获取的是一致 认可的知识,它不是某些个体私有的,而是可以被一个群体所接受的。 目前大部分人所公认的,还是g m b e r 在1 9 9 3 年给出的o n 幻l o g y 的定义, 即“o n t 0 1 0 9 y 是概念化的明确的规范说明 ,强调指定的概念必须是一致的。 2 1 2 本体分类 本体的表示范围很广,根据实际应用的不同,需要对o m 0 1 0 9 y 进行有效的 分类。g u 碰n o 在文献 4 5 】中提出根据两个维度来对本体进行划分:详细程度和 依赖程度。详细程度描述或刻画建模对象的程度,越详细的本体越接近指定词 汇的本意,但需要更详细的表示语言。依据详细程度,可以把本体分为参考 ( r e f e r e n c e ) 本体和共享( s h a r e ) 本体,或者离线( o 搏l i n e ) 本体和在线( o n 1 i n e ) 本 体。依据依赖程序从低到高,本体可以细分为顶级( t o p 1 e v e l ) 本体、领域( d o m a i n ) 本体、任务( t a s k ) 本体和应用( a p p l i c a t i o n ) 本体4 类。顶级本体描述的是最普通的 概念,如空间、时间、事件、对象、行为等,与特定的问题和领域无关;领域 本体和任务本体分别描述的是普通领域( 如医学、汽车等) 和普通任务或行为 ( 如诊断、销售) 中的词汇及其之间的关系;应用本体描述依赖于特定领域和 任务的概念及其之间关系。 1 9 9 9 年,p e r e z 和b e n j 锄i n s 【4 6 】归纳了l o 种最常用的本体类型:知识表示 本体、普通本体、顶级本体、元本体、领域本体、语言本体、任务本体、领域 任务本体、方法本体和应用本体。这种分类是对前面g u 撕n o 提出的本体分类 的扩充与细化,但是本体之间有交叉,分类不够清晰。 除上述分类之外,、h e i j s t 等人【4 7 】也按照两个维度来对本体进行了分类: 数量和概念化结构的类型,概念化的主题。根据第一个维度,分为术语本体、 信息本体、知识建模本体。其中术语本体描述用来表示知识的术语;信息本体 描述数据库结构;知识建模本体描述概念化的知识。依据第二个维度本体分为 应用本体、领域本体、通用本体和表示本体。其中应用本体包括了特定领域建 模所需知识的全部定义;领域本体表示特定领域的明确的概念;通用本体类似 领域本体,但定义的概念认为在许多领域间是通用的;表示本体表示知识表示 形式化的概念。 本体的分类方法很多,目前还没有能够被广泛接受的分类标准。 2 2 本体描述语言 本体描述语言起源于人工智能领域的研究,在具体的应用中,本体的表示 方式多种多样,可以用自然语言来描述本体,也可以用语义网络或逻辑语言等 第2 苹o w l 规范及相关研究 来描述。具体描述o m o l o g y 的方法很多,使用最普遍的方法有f 【4 8 】、 o m o l i i l g u a 【4 9 1 和l o o m 【5 0 】等。 随着w - e b 技术的迅速发展,用于信息表示和共享的本体描述语言成为一种 重要的知识表示语言,成为本体论研究和应用的热点。这些语言的开发经历了 一个从简单到复杂的过程,表达能力都采用了基于l ( e x t e n s i b l em 诎u p 1 a i l g u a g e ) 的语法结构,如s h o e 【5 1 】( s i m p l eh t m lo n t o l o g ) ,e x t e n s i o n ) ,o m l 【5 2 】 ( o n t o l o g ym a r k u pi a l l g u a g e ) ,x o l ( l - b a s e do n t o l o g ye x c h a n g el a i l g u a g e ) 等。 图2 1 是w 3 c 绘制的本体语言栈,描述了各种本体语言之间的关系。 t h eo n t o l o g yl a n g u a g es t a c k 图2 1w 3 c 本体语言栈 f i g u r e2 11 1 1 ew 3 co n t 0 1 0 9 ) rl 觚g u a g es t a c k x o l 是基于l 的本体知识交换语言,源于生物信息学领域本体交换语 言的研究,是一种限制严格的语言;s h o e 是简单的h t m l 本体扩展语言,在 文档中结合了机器可读的语义知识,以使智能体能够对信息进行检索与更新; o m l 是本体标记语言,和s h o e 共享很多特征,没有专门的编辑工具,由x m l 编辑器替代;r d f 酬( r e s o u r c ed e s c r i p t i o nf r 锄e ) 是用来描述网络资源的语言, 使用u 对来对资源进行标注,并通过属性和属性值来描述资源。r d f 只提供了 一些基础的建模原语,因此,i f s 【5 4 】做了进一步的扩展,在r d f 的基础上增 加了许多建模原语,为r d f 资源的属性和类型提供了定义良好的词汇表,但 r d f s 仍然没有足够的词汇来描述完整意义上的知识本体,且没有推理功能。 在r d f s 之上,欧洲的i s t 项目o n t o k n o w l e d g e 中开发了语义w e b 标记语言 0 i l 【55 。,进一步扩展了) f s 的语义表示能力,能表达i f s 所不能表达的语 义。2 0 0 0 年8 月,美国政府启动了d 灿冲a ( a g e n tm a r k u pl a i l g u a g e ) 计划,创建 北京工业大学工学硕士学位论文 了本体描述语言d a m l ( d a r p aa g e n tm a r k u pl a n g u a g e ) ,允许在其数据上进行 语义信息标注。同年1 2 月,美国和欧洲两个组织成立联合委员会将d a m l 与 o i l 合并,命名了d 气m l + o i l ( d 删a g e n tm a r k u pl a l l g u a g eo i l t o l o g y i n f e r e n c el a y e r ) ,并用丰富的建模原语对i f 进行了扩展,成为未来语义w 曲 标准描述语言的基础。2 0 0 2 年,w 3 c 在提交的d a m + o i l 基础上发展了 o w l 语言,添加了更多描述属性和类的词汇,2 0 0 4 年o w l 成为w 3 c 推荐的 本体描述语言标准。 2 3o w l 语言规范 o w l 有三种表达能力递增的子语言,本文引用文献 1 4 的描述,介绍如下: ( 1 ) o w ll i 钯:用于提供给那些只需要一个分类层次和简单约束的用户。 ( 2 ) o w ld l :用于支持那些需要最强表达能力而需要保持计算完备性 ( c o i n p u t a t i o i l a lc o m p l e t e n e s s ,即所有的结论都能够确保被计算出来) 和可判定 性( d e c i d a b i l 时,即所有的计算都能在有限的时间内完成) 。 ( 3 ) o w lf l l l l :o w lf u l l 支持那些需要尽管没有可计算性保证,但有最强 的表达能力和完全自由的i f 语法的用户。它允许在一个本体增加预定义的 ( i f 、o w l ) 词汇的含义。这样,不太可能有推理软件能支持对o w lf u l l 的所有成分的完全推理。 o w ll i t e 和0 w ld l 及o w lf u l l 相比,只是使用了o w l 语言的部分特征, 并且在特征使用方面做了更多的限制。此外,虽然o w ll i t e 支持基数的约束, 但是基数值的取值范围只能是0 和1 。o w ld l 和o w lf u l l 对o w ll i t e 的词汇集进 行了扩展,使用相同的词汇集,但是o w ld l 的词汇集受到一些限制。在表达能 力和推理能力上,每个子语言都是前面的语言的扩展,因此这三个子语言之间存 在如下文献 1 4 描述的关系,但反过来并不成立: ( 1 ) 每个合法的o w ll i t e 本体是一个合法的o w ld l 本体。 ( 2 ) 每个合法的o w ld l 本体是一个合法的o w lf u l l 本体。 ( 3 ) 每个有效的o w ll i t e 推论是一个有效的0 w ld l 的推论。 ( 4 ) 每个有效的o w ld l 推论是一个有效的o w lf u l l 推论。 o w l 语言作为w 3 c 推荐的w e b 本体语言标准,是建立在对) f r d f s 基础上、 修改d 舢订l + o i l 而成的新的本体语言。o w l 与砌) f 相比,添加了大量的描述类 和属性的词汇,具有更强的语义和逻辑表示功能。o w l 本体中的大部分元素都 是与类( c l a s s ) 、属性( p r o p e 啊) 、类的实例( i i l d i v i m 融) 以及这些实例间的关 系有关,本文提到的o w l 元素是指o w l 本体中的类,类的实例( 个体) 、属性( 对 象属性、数据类型属性) 以及属性值。 r d q l ( i fd a :t aq u e d r l a n g u a g e ) 是一种由s q l l i s h q l 查询语言演化而来 i f 查询语言,最初是在j e i l a l 2 o 中公布。这种语言是面向数据的,查询将i m f 图完全看作数据,没有推理机制。一个r d q l 查询包括一个图形模式,由一系列 的三元组模式表示,每个三元组由命名变量和r d f 值组成,其语法类似s q l 的 s e l e c t 模式,但省略了舶m 子句。图2 2 是一个r d q l 查询例子。 图2 - 2 一个r d q l 查询例子 f i g u r e2 - 2a ne x 姗p l ef o rr d q lq u e d , r d q l 主要的优点是简单、并且能够很容易地跨平台执行,但i q l 没有推 理机制,且没有较强强大的表达能力和形式化的语义。 2 ) s p a r q l s p 剐她l 是一种基于客户端一服务器的r d f 查询语言,语法类似s q l ,受 i q l 和s q u i s h q l 查询语言的影响,于2 0 0 6 年成为w 3 c 的候选推荐标准。 s p a r q l 查询包括一系列的三元组模式,且支持逻辑查询,因此能处理比i q l 更复杂的查询。为了进一步提炼查询的结果,s p a r q l 拥有d i s t i n c t 、l i m i t 、 o f f s e t 和o r d e rb y 等关键字,它们
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年网络伦理与社会责任考试试题及答案
- 2025年设计类院校艺术考试模拟卷及答案
- 2025年媒体与传播管理考试试题及答案
- 智能监控技术在2025年智慧港口建设中的应用实施方案报告
- 特殊快递安全管理制度
- 特殊物品人员管理制度
- 特殊货物报备管理制度
- 特种医疗设备管理制度
- 狂犬门诊工作管理制度
- 玉米大豆套种管理制度
- 国开80646+24219Python语言基础复习题期末复习资料
- 郑州航空工业管理学院《企业经营统计学案例》2022-2023学年第一学期期末试卷
- 四川省成都市(2024年-2025年小学五年级语文)统编版摸底考试((上下)学期)试卷及答案
- 汽车保险与理赔课件 8.2汽车水灾事故的预防与施救
- 手术室护理不良事件的管理
- DB11T 581-2021 轨道交通工程防水技术规程
- 2024年冬季N0M世界青少年数学思维研学活动模拟题4年级
- 石材营销渠道的数字化转型
- 驾驶员雇佣协议书
- GB/T 44192-2024政务服务便民热线数据应用指南
- 安徽省池州市贵池区2023-2024学年七年级下学期末历史试卷
评论
0/150
提交评论