(计算机应用技术专业论文)问答式owl知识检索技术.pdf_第1页
(计算机应用技术专业论文)问答式owl知识检索技术.pdf_第2页
(计算机应用技术专业论文)问答式owl知识检索技术.pdf_第3页
(计算机应用技术专业论文)问答式owl知识检索技术.pdf_第4页
(计算机应用技术专业论文)问答式owl知识检索技术.pdf_第5页
已阅读5页,还剩106页未读 继续免费阅读

(计算机应用技术专业论文)问答式owl知识检索技术.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 问答式检索以其符合普通用户行为习惯的输入输出模式 满意的准确度成 为信息检索技术中的研究热点 先后出现了 面向数据库的问答式检索技术 面向w e b 的问答式检索技术 面向本体的问答式检索技术 但是 现有的问答 式检索系统依然存在以下问题 1 常用的手动建立和自动学习知识获取方式 在建立效率和质量方面存在限制 2 处理问题映射的方法通常是半自动的 需要用户手动解决语义模糊问题 3 处理包含模糊概念和关系的问题存在困 难 2 0 0 4 年被w 3 c 推荐为工业标准的网络本体语言 w e bo n t o l o g yl a n g u a g e o w l 已经成为w e b 上知识表示和共享的基础 大量个人和学术团体专注于自 动学习和手动建立不同领域的用o w l 规范表示的本体知识库 本文称为o w l 知识 w e b 上将保存大量o w l 版本的本体知识 检索这些知识 实现用户和 w 曲智能体间的动态交互已经成为w e b 智能 w e bi n t e l l i g e n c e 领域的重要研 究内容 针对问答式检索存在的问题 结合o w l 语言规范的特点 本文集中研究 了问答式o w l 知识检索技术中三个重要问题 获取o w l 知识库 映射自然语 言问题成为o w l 查询 扩展o w l 语言的知识表示能力 这三个问题的研究内 容和主要结果如下 1 鉴于目前两种直接知识获取方式 手动建立和自动学习在本体建立效率 和本体质量方面的限制 本文集中研究包括搜索 聚类 后处理三个关键步骤 的0 w l 知识间接获取 基于o w l 知识的主要语义特征 概念可以组织成具有 等级的层次结构 复杂概念的语义通过简单概念说明 类的语义可以通过一些 属性限制等 提出了粗粒度和细粒度的o w l 知识语义相似性计算方法 并 用它们完成了o w l 知识间接获取的两个重要步骤 搜索和聚类o w l 文档 实 验结果表明 粗粒度语义相似性计算方法具有较好的过滤和排序性能 尽管细 粒度语义相似性计算方法对手工建立和自动学习到的o w l 文档在参数设定方 面有区别 但是只要输入正确的类型个数就能获得正确的聚类结果 2 给定自然语言问题和o w l 知识源 将自然语言问题映射为语义等价的 o w l 查询 r d f 元组集 是获取正确答案的关键 为了完成上述任务 本文 提出了一种三阶段语义映射框架 并在该框架的基础上研究了基于模糊约束满 足和基于学习的两种自动语义映射方法及基于模版的查询组合方法 实现了一 个问答式o w l 知识检索原型系统 a g i l e 我们搜集了不同领域的三个o w l 知识库和对应的问题集 以a g i l e 为平台进行了一系列实验 结果表明 1 自然语言处理技术 基于模糊约束的语义映射方法中软约束的优化顺序及两种 北京工业大学工学博士学位论文 组合精化方法对映射精度都有影响 2 选定了软约束的优化顺序 知识库的 具体结构差异会对基于模糊约束的语义映射方法有较少的影响 3 消除了前 两个阶段的错误影响 组合r d f 元组时 两种精化方法可以极大的提高组合精 度 4 和基于模糊约束满足的语义映射算法中精度最高和最低的优化顺序比 较 基于学习的映射算法精度通常介于二者之间 5 树型 函数和懒惰型三 类分类器上的比较实验说明 j 4 8 分类器在三个数据集上都取得了较好的效果 3 现有知识表示语言的局限 使得一些包含模糊概念和关系的问题无法处 理 本文的另一研究侧面是利用现有技术 扩展o w l 语言规范 实现模糊问 题检索 首先 以模糊描述逻辑为语义基础 为o w l 语言扩展了模糊概念和 关系等算子 并提出了o w l 现有概念到新增算子的转换规则用于统一扩展语 言的语义 其次 以扩展语言为媒介 特化了z a d e h 提出的p n l p r e c i s i a t e d n a t u r a ll a n g u a g e 过程 提出一种用自然语言检索f o w l 知识的p n l 式系统 重写了p f l 格式的d d b 推理规则 最后 用一个应用实例说明了该系统的检 索流程 本文的主要贡献如下 1 为了解决o w l 知识的间接获取 基于o w l 知识的语义特点 提出一种 用于计算o w l 文档语义相似性的算法 结合层次聚类技术对该方法进行了分 析和验证 该方法较好的反映了o w l 文档的语义特点 聚类效果比较明显 2 为了建立自然语言问题到r d f 元组集的语义映射 提出一种基于模糊约 束满足的语义映射方法 理论分析和实验验证表明该方法有较多优势 1 该方 法是完全自动的 2 知识库的领域和结构差异对映射精度影响不大 3 调整 约束的优化顺序可提高映射的精度 3 为了增强映射过程的学习能力 提出了基于学习的语义映射用于完成词 集到元素集的自动映射 实验结果表明在训练数据充足的情况下 选择j 4 8 分 类器 算法精度可以达到8 0 4 为了检索带模糊概念的问题 基于模糊描述逻辑扩展了现有o w l 语言规 范 并以扩展语言为知识表示方式 探讨了p n l 式模糊知识问答系统 应用实 例说明以扩展语言为知识源 利用模糊描述逻辑的推理机制和p n l 式问答框架 可以处理一些带模糊概念的自然语言问题 总之 本文可以作为问答式检索技术的一个研究范例 被推广到其他信息 格式和其他知识表示形式 并最终为问答式检索向实用化发展提供可行途径 关键词w e b 智能 问答式检索 o w l 知识 语义映射 知识扩展 i l a b s t r a c t i i m m 詈皇 a b s t r a c t s e a r c h i n gi n f o r m a t i o nb yn a t u r a ll a n g u a g eq u e s t i o n sa c c o r d sw i t hb e h a v i o r so fg e n e r a lu s e r s a n di sam o r ec h a l l e n g i n gp r o b l e mt h a ns e a r c he n g i n e s d a t a b a s e d r i v e n q u e s t i o n a n s w e r i n g s y s t e m w e b b a s e dq u e s t i o n a n s w e r i n gs y s t e m a n do n t o l o g y d r i v e nq u e s t i o n a n s w e r i n ga r c t h r e ec d l s e s h o w e v e r c u r r e n tr e s e a r c h e so nq as y s t e m se n c o u n t e raf e wu r g e n tp r o b l e m s f i r s t l y e f f i c i e n c yo fb u i l d i n gk n o w l e d g eb a s eb yh a n da n dq u a l i t yo fl e a r n i n gk n o w l e d g eb a s ef r o mt e x t a r en o ts a t i s f y i n g s e c o n d l y m o s to fm a p p i n gm e t h o d sb e t w e e nn a t u r a ll a n g u a g eq u e s t i o n sa n d o n t o l o g yq u e r i e sa r es e m i a u t o m a t i ca n dr e q u i r eu s e r st om a n u a l l ys o l v et h ea m b i g u i t yp r o b l e m s i ns e m a n t i cm a p p i n g t h i r d l y e x i s t i n go n t o l o g yl a n g u a g e sc a n n o tr e p r e s e n tf u z z yc o n c e p t sa n d r o l e s o w l t h es t a n d a r dw e bo n t o l o g yl a n g u a g ei sr e c o m m e n d e db yw 3 c h a sb e c o m et h e n e ws t a n d a r df o rk n o w l e d g er e p r e s e n t a t i o na n de x c h a n g eo nt h ei n t e r a c t m o r ea n dm o r e o n t o l o g yk n o w l e d g eo fo w l v e r s i o ni nd i f f e r e n td o m a i n s s u c ha sc y cg e n e r a lk n o w l e d g eb a s e a n dt h et i m eo n t o l o g y i sb u i l tb ya u t ot o o l so rb yh a n da n dr e l e a s e do nt h ew e b h o wt ou t i l i z e a n dq u e r yt h eo w l k n o w l e d g eb e c o m e sa l le m e r g e n tr e s e a r c h a i m i n ga tt h ea b o v ep r o b l e m s t h ep a p e rf o c u s e do nt h r e ea s p e c t so fr e s e a r c ho ns e a r c h i n g o w lk n o w l e d g eb yq u e s t i o n a n s w e r i n g t h e ya lea c q u i r i n gr i g h to w lk n o w l e d g e m a p p i n g n a t u r a ll a n g u a g eq u e s t i o n st oo w l q u e r i e s a n de x t e n d i n go w lr e p r e s e n t i n gf u z z yk n o w l e d g e i no r d e rt os h a r ea n dr e u s ce x i s t i n go w l k n o w l e d g eo nt h ew e b t h ep a p e rp r e s e n t sa ni d e a o fa c q u i r i n go w l k n o w l e d g ei n d i r e c t l y t h ek e ys t e p sa r es e a r c h i n go w l c l u s t e r i n go w l a n d p e r f e c tt h e m w ep r o p o s ea l lo r d e r i n gm e t h o d c a l l e dc w m b a s e do ns e m a n t i ca n a l y s i sf o r c o a r s eo w lc o n s t r u c t sa n dam e t h o do fc o m p u t i n gs i m i l a r i t yb e t w e e nt w oo w ld o c u m e n t s n a m e do w l s s i m b a s e do ns e m a n t i ca n a l y s i sf o rr e f i n eo w lc o n s t r u c t s t h ec w mi su s e d t of i l t e ro w li nap r o t o t y p es e a r c he n g i n e w lo n t o s e a r c h t h eo w l s s i mc a nb eu s e dt o c l u s t e ro w ld o c u m e n t sb u i l tb ye x p e r t so ro w ld o c u m e n t sl e a r n e db ya u t o m a t i ct o o l s w ed o s o m ee x p e r i m e n t so nt h e s em e t h o d sa n dr e s u l t sa r ep r o m i s i n g m a p p i n gaq u e s t i o ni n t oa l le q u i v a l e n to w lq u e r yi st om a pd i f f e r e n ts y n t a c t i c a lc o n s t r u c t s b e t w e e nt h e mb a s e do ns e m a n t i ce q u i v a l e n c e f i x i n go nw o r d sa n de l e m e n t sa sa p p r o p r i a t e s y n t a c t i c a lc o n s t r u c t s t h ep a p e rp r o p o s e sat h r e e p h a s es e m a n t i cm a p p i n gf r a m e w o r k t p s m i nt h ef r a m e w o r k w er e s e a r c ht w oa l g o r i t h m sf o ra u t ob u i l d i n gs e m a n t i cm a p p i n gb e t w e e nas e t o fw o r d sa n das e to fe l e m e n t sa n dam e t h o df o rc o m b i n i n gq u e r yl a n g u a g e n e ya r c f c s p b a s e ds e m a n t i cm a p p i n g f c s p s m l e a r n i n g b a s e ds e m a n t i cm a p p i n g l s m a n d t e m p l a t e b a s e dc o m b i n i n gm e t h o d t b c m w eh a v ei m p l e m e n t e dap r o t o t y p es y s t e mn a m e d a g i l eb a s e do nt h ef r a m e w o r ka n dt h ea b o v em e t h o d s a n dt e s t e das e r i e so fe x p e r i m e n t so n t h r e ed i f f e r e n tt o p i c so fo w lk n o w l e d g eb a s e sa n do r i g i n a ls e t so fq u e s t i o n s t h ee x p e r i m e n t a l r e s u l t si n d i c a t et h a tt h ep r e c i s i o no ff c s p s m a c r o s sa l lt o p i c so fq u e s t i o n si so v e r8 0 n a t u r a l i i i 北京工业大学工学博士学位论文 l a n g u a g ep r o c e s s i n g p r i o r i t i e sa m o n gc o n s t r a i n t sa n dr e f i n e dm e t h o d sh a v ee f f e c to nt h e p r e c i s i o no f t h ep r o t o t y p es y s t e m j 4 8i sag o o dm e t h o df o ra l lt o p i cd a t a a n dt h ep r e c i s i o no f l s ma r eb e t w e e nt h em o s ta n dw o r s tp r i o r i t yo r d e r i n g sa m o n gc o n s t r a i n t sf o rf c s p s m e x i s t i n go w lo n l yr e p r e s e n t sc e r t a i na n dc o m p l e t ec o n c e p t sa n dr o l e s h o w e v e r h u m a n b e i n gi su s e dt or e p r e s e n ta n dr e a s o nf u z z yk n o w l e d g e t h i sp a p e re x t e n d so w ll a n g u a g eb y e n c o d i n gf u z z yc o n s t r u c t o r s a x i o m sa n dc o n s t r a i n t s m a p ss e m a n t i c so ft h e s en e wv o c a b u l a r i e s t of u z z yd e s c r i p t i o nl o g i c a n dp r e s e n t st r a n s l a t i o nr u l e sf r o mo w lt oe x t e n d e do w l i no r d e r t of i n i s hf u z z yq u e r yf o re x t e n d e do w l w es p e c i f yp r e c i s i a t e dn a t u r a ll a n g u a g ep r o c e s sb a s e d o ne x t e n d e do w la n dg i v e sa ne x a m p l eo fq u e r yf i l mt os h o wt h es y s t e mw o r k f l o w t h e r ea r cc o n t r i b u t e si nt h ep a p e ra sf o l l o w 1 i no r d e rt os h a r ea n dr e u s ee x i s t i n go w lk n o w l e d g eo nt h ew e b t h ep a p e rp r e s e n t sa m e t h o do fc o m p u t i n gs i m i l a r i t yb e t w e e nt w oo w l d o c u m e n t s n a m e do w l s s i m b a s e d o ns e m a n t i ca n a l y s i s r e s u l t so fe x p e r i m e n t ss h o wt h a to w l s s i mi se f f e c t i v eo n c l u s t e r i n go w ld o c u m e n t sb u i l tb ye x p e r t so rl e a r n e db ya u t o m a t i ct o o l s 2 t h ep a p e rf o r m a l i z e st h et a s ko fs e m a n t i cm a p p i n gi n t oaf u z z yc o n s t r a i n ts a t i s f a c t i o n p r o b l e m t h ee x p e r i m e n t a lr e s u l t si n d i c a t et h a tt h em o d e lh a st h r e ea d v a n t a g e s f i r s t l g t h em e t h o di sa u t o m a t i c s e c o n d l gd o m a i n sa n ds t r u c t u r e so fo w l k n o w l e d g eb a s eh a v e l i t t l ei n f l u e n c eo np r e c i s i o no ft h ea l g o r i t h m t h i r d l y p r i o r i t i e sa m o n gc o n s t r a i n t sa n d r e f i n e dm e t h o d sh a v ee f f e c to f ft h ep r e c i s i o no ft h ep r o t o t y p es y s t e m 3 i no r d e rt oi m p r o v el e a r n i n gc a p a b i l i t yf o rs e m a n t i cm a p p i n gf r o mn a t u r a ll a n g u a g e q u e s t i o n st oo w lq u e r y w ed e s c r i b eam a p p i n gm e t h o db a s e do nl e a r n i n gi nt p s m t h e e x p e r i m e n t a lr e s u l t si n d i c a t et h a tj 4 8i sag o o dm e t h o df o ra l lt o p i cd a t aa n dt h ep r e c i s i o n o ft h ea l g o r i t h ma r eb e t w e e nt h em o s ta n dw o r s tp d o d t yo r d e r i n g sa m o n gc o n s t r a i n t sf o r f c s p s m 4 t h ep a p e re x t e n d so w la sf u z z yo w l f o w l b a s e do nf u z z yd e s c r i p t i o nl o g i ca n d d i s c u s s e saf u z z yq ab a s e do np n lp r o c e s s f o w lc a nr e p r e s e n tf u z z yo n t o l o g y k n o w l e d g ea n dp n lp r o c e s sc a nd e a lw i t hq u e s t i o n sw i t hf u z z yc o n c e p t sa n dr o l e s i nc o n c l u s i o n t h e s et e c h n o l o g i e sa n dm e t h o d s s p e c i a lf o ro w l k n o w l e d g e p r o p o s e di nt h e p a p e rc a nb es e e na sc a s e sa n da r eu s e di no t h e rk n o w l e d g ea n di n f o r m a t i o n k e y w o r d sw e bi n t e l l i g e n c e q u e s t i o n a n s w e r i n gs y s t e m o w l s e m a n t i cm a p p i n g e x t e n d i n gk n o w l e d g e i v 独创性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研 究成果 尽我所知 除了文中特别加以标注和致谢的地方外 论文中不包含其 他人已经发表或撰写过的研究成果 也不包含为获得北京工业大学或其它教育 机构的学位或证书而使用过的材料 与我一同工作的同志对本研究所做的任何 贡献均已在论文中作了明确的说明并表示了谢意 关于论文使用授权的说明 2 的万 识艿 本人完全了解北京工业大学有关保留 使用学位论文的规定 即 学校有 权保留送交论文的复印件 允许论文被查阅和借阅 学校可以公布论文的全部 或部分内容 可以采用影印 缩印或其他复制手段保存论文 保密的论文在解密后应遵守此规定 魏秀织v 第1 章绪论 第1 章绪论 计算机和网络技术的发展使信息的发布与共享不再受时空限制 这使得公 用信息呈指数增长 一方面大家为能享受到这些廉价丰富的信息而兴奋 另一 方面却因为 信息过载 的问题而头痛 这个问题导致了现代信息检索技术 1 的发展 自然语言是普通用户表达意愿的最有效工具 以问答的形式检索信息 一直是人工智能的研究目标之一 而随着信息表示技术的发展 出现了各种各 样的信息表示方式 产生了大量针对这些信息源的问答式检索研究课题 问答 式本体知识检索技术1 2 j 是其中比较突出的问题 1 1 课题背景 计算机和网络技术的进展使信息的发布与共享不再受到时空限制 同时也 给我们带来了 信息过载 的问题 即信息资源极大丰富 而真正有用的信息 和知识却相对匮乏 这个问题导致了现代信息检索技术的发展 搜索引擎是现代信息检索技术的突出成就 其中代表性的搜索引擎 比如 g o o g l e 引 y a h o o 和百度等已经成为每个网络用户的必备工具 但这不代表网民 对此类信息检索完全满意 很多调查显示 网民普遍认为目前的检索结果重复 率高 精确度差 专业 彳亍业搜索功能差 这些缺点反映了基于关键字检索的两 个固有缺陷 一个是关键字无法准确表达用户意图 另一个是答案包含太多语 义无关信息 自然语言是普通用户表达意愿的最有效工具 如果准许用户以自 然语言问题表达意愿 检索信息 就可以从根本上解决现有搜索引擎的第一个 缺陷 以上问题促使研究人员展开了对问答式检索技术 4 l 的研究 出现了大量 基于w e b 的问答式检索系统 其中比较著名有 a s kj e e v e s l a n s w e r b u s 2 w e b e l o p e d i a 3 等 但是这些研究获取信息源的途径仍然是搜索引擎 能处理的信 息格式依然是无结构和语义的文本信息 涉及的领域范围依然是无限制的开放 域 因此 面向w e b 的问答式检索系统未能从根本上解决答案包含不相关信息 的问题 为了解决这个问题 需要新的包含语义的知识源 随着w e b 智能技术1 5 吲的发展 特别是语义w e b l 7 8 1 的提出 本体 9 1 3 这种具有语义 可以进行推理的知识将成为w e b 上主要的知识表示和共享模式 以本体知识为检索源 研究问答式本体知识检索技术将成为信息检索技术的新 方向 h t t p w w w a s k e o m 2 h t t p l l w w w a n s w e r b u s e o r r d i n d e x s h t m l h t t p w w w i s i e d a n a t u r a j l a n g u a g e p r o j c e t s w e b e l o p e d i a d e s e r i p t i o n h t m l 北京工业大学工学博士学位论文 本体最早是一个哲学上的概念 表示客观存在的一个系统的解释或说明 关心的是客观现实的抽象本质 以后被人工智能界借用并重新定义为 共享概 念模型的形式化规范说明 用于捕获相关领域的知识 提供对该领域知识的共 同理解 确定该领域内共同认可的词汇 并从不同层次的形式化模式上给出这 些词汇问相互关系的明确定义 本体知识的表示经历了一个表达能力从简单到 复杂的发展过程 出现了s h o e 14 1 x o l 4 r d f t l 5 1 r d f s l l6 1 o i l 1 7 1 d a m l o i l 博j 等众多语言 这些语言是建立在x m l 上层的 为了满足不同需 要 分别具有不同特点 在吸收这些本体语言 s h o e x o l r d f s d a m l o i l 特点的基础上 2 0 0 4 年w 3 c 将o w l t l 9 2 0 l w e bo n t o l o g yl a n g u a g e 缩写为o w l 设定为工业标准 随着o w l 语言的标准化 大量的个人和学术团体专注于自 动学习和手动建立各种各样o w l 知识规范 越来越多不同领域的o w l 知识将 出现在w e b 上 例如c y c 常识库 2 1 1 时间域本体 2 孔 啤酒本体5 等 以上问题促使本博士课题选择o w l 知识作为问答式检索的知识源展开研 究 下面 简要阐述几个和o w l 知识相关的研究热点 o w l 知识学习 2 2 5 本体知识学习一直是一个主流研究方向 和该技 术相关的概念有本体生成 o n t o l o g yg e n e r a t i o n 本体挖掘 o n t o l o g y m i n i n g 和本体抽取 o n t o l o g ye x t r a c t i o n 等 其目标是利用机器学 习和统计等技术自动或半自动地从已有的数据资源中获取期望的本体 知识 根据数据资源不同 可以分为基于结构化数据的本体学习 基 于半结构化数据的本体学习及基于无结构化数据的本体学习 o w l 是 一种表示本体的语言规范 以往的学习技术都可以用于学习o w l 知 识 但是 现有的本体学习技术大多集中于概念和层次关系的学习 而非层次关系 实例 公理的学习对一个本体的实用化 特别是像o w l 这样具有较强表达能力的本体语言 更重要 比起其他的本体语言 o w l 增加了很多新的特性 新的元素 所以需要新的学习技术 o w l 知识收集 2 争2 7 1 该任务从网络上收集特定主题的o w l 知识 并 完成这些知识的聚类及映射 生成可用于推理的一致知识库 本质上 o w l 知识属于半结构化数据 可以使用传统的半结构数据收集方法 比如 限定文件格式的搜索引擎 但它本身又具有不同的特点 首先 o w l 知识除了定义标签外 定义了大量的语义概念 可以较完整的描 述某一领域涉及的概念及概念间的联系 其次 很多o w l 知识是由专 家手工完成的 必然包含大量 同形异义 和 同义异形 的概念 等 这些特点使o w l 知识收集成为一个新的研究课题 一o w l 知识查询 2 如前所述 随着o w l 知识学习和收集技术的日渐 4 h t t p x m l c o v e r p a g e s o r g x 0 1 h t m i 5 h t t p w w w d a y f d e 2 0 0 4 o w l b e e r o w l 一2 第1 章绪论 成熟 越来越多o w l 格式的知识将出现在w e b 上 供智能a g e n t 共 享和交换 这是实现 机 机 之间无障碍交流的基础 o w l 规范标准 化的另一个目标是实现 人 机 之间交流 现有的解析器 特定查询 语言等工具可以帮助专业用户完成o w l 知识的检索 但这需要学习各 种查询语言规范 掌握大量o w l 知识格式 普通用户如何查询并利用 这些知识解决实际问题 即如何实现用户和智能体之间的动态交互已 经成为研究 人 机 间交流技术的重点 一 o w l 语言扩展1 2 s 3 1 比起r d f 或者r d f s o w l 语言的表达能力有 了很大提高 但是 它的语义基础是描述逻辑 目前的o w l 语言只能 处理精确和完备的知识及其上的推理任务 事实上 现实世界和w e b 存在着更多的不确定 不精确和不完备知识 扩展o w l 语言的表达能 力 使其能够表达和推理不确定 不精确和不完备知识 具有很高的 理论和现实意义 根据目前的研究方向及应用现状 今后与o w l 知识相关的重点研究可能 在以下几个方面展开 一 多数据源的o w l 知识集成技术及相关理论的研究 随着电子商务 电 子政务 虚拟社会的发展和进步 数据和信息将以更多元化的表达方 式存在于w e b 上 独立于这些数据格式的 更实用 高效的o w l 知 识学习技术及搜索 聚类技术将完成面向任务的实时o w l 知识获取 一问答式o w l 知识检索技术的研究 问答式检索技术能够克服基于关键 字和基于查询语言的输入缺点 o w l 知识的语义推理能力填补了知识 源的缺陷 研究问答式o w l 知识检索技术和理论 开发实用的问答式 检索系统是信息检索技术发展的新方向 基于不确定知识表达理论扩展o w l 语言 过去几十年 针对各种不确 定知识提出了很多新的表达方式和推理理论 概率逻辑 模糊逻辑都 是其中的重要形式 将这些研究成果扩展到o w l 语言 使其具有表示 概率概念 模糊概念的能力是一项很吸引入的研究 从上面的叙述 我们可以看出 与o w l 知识相关的研究内容是极其丰富 和富有挑战性的 这些研究一方面是为了利用现有o w l 知识 另一方面是为 了扩展其表达和推理能力 使之适应智能应用和新一代w e b 的需要 在这样的 背景下 在以往的研究基础和各类基金的支持下 我们开展了如下的研究工作 1 2 主要研究内容 我们收集和整理了大量的相关资料 在对相关理论 方法 算法 体系结 北京工业大学工学博士学位论文 构等充分调研的基础上 围绕如何设计一个高效的问答式o w l 知识检索系统 集中选取了下面3 个问题开展了相关工作 1 o w l 知识库的获取 检索系统能获取准确答案的前题是 可以动态 方便的建立 更新 扩充 面向任务和应用的知识库 o w l 是一种特定的本体语言规范 现有的两种本体 获取技术都可以用于获取o w l 知识 但是 手工方法费时 费力 且本体质 量依赖于专家的领域知识 本体学习是个很活跃的研究领域 针对概念和关系 的学习技术很多 实例和公理的学习难度相对较大 目前的技术只能产生一些 结构简单的轻量级本体 鉴于这些问题 本文集中讨论o w l 知识的间接获取 方式 该方式的有效性依赖于w e b 或语义w e b 上存在着海量的 不同领域 不 同类型的o w l 知识库 这些知识库蕴含了领域专家的智慧和自动学习技术的 成果 是建立 更新和扩充知识源的基础 2 自然语言问题到o w l 查询的语义映射 o w l 是一种本体知识规范 现有的主流查询语言s p a r q l 3 2 1 o w l q l t 3 3 都可用于检索o w l 知识 所以 问答式o w l 知识检索的关键是自然语言问题 到o w l 查询的语义等价映射 类似的研究有很多 自然语言问题到s q l 查询 的转换 问题到查询词组的重写 自然语言问题到特定查询的转换等 这些方 法的共同特点是 1 语义映射过程是半自动的 需要用户解决语义模糊问题 2 未能充分应用蕴涵于语法常识 领域字典 用户行为等数据中的可用于解 决映射模糊性的辅助知识 3 没有区分不同辅助知识对映射过程的不同影响 这些特点使已有的映射技术难以走向实用化 原因在于 1 普通用户很难解 决语义模糊问题 2 等价语义映射过程是动态的 问题的实时语法分析 领 域变化 用户行为等都将对映射过程产生影响 考虑单一因素必将影响系统的 精度 3 多种因素的影响程度也有差别 因此 研究 开发自动的高精度映 射算法便成为当务之急 模糊约束满足问题常用于建模复杂处理过程 本文将基于模糊约束满足框 架研究自然语言问题到o w l 查询的语义映射 模糊约束满足问题由一个变量 集和一个模糊约束集组成 根据实际需要 模糊约束可以处理两种情况 约束 间的优化程度不同 对变量的取值偏好不同 这正好用于解决影响映射过程的 不同因素及这些因素间的不同影响程度 这种方法是静态的 缺乏学习能力 利用不断增强的已处理问题实例作为学习样本 为问题映射过程增加学习能力 是映射过程的另一项研究内容 3 o w l 语言的模糊扩展及其在问答式查询中的应用 现有的o w l 语言规范以描述逻辑为语义基础 可表达和推理的知识是精 确和完备的 然而 现实世界和w e b 存在着更多的不确定 不精确和不完备知 第1 章绪论 识 特别是人类用于交流的自然语言 蕴涵着大量的模糊成分 问答式查询的 自然语言问题也可能包含着模糊知识 只有扩展o w l 语言的表达能力 使其 能够表达和推理不确定 不精确和不完备知识 才有可能在自然语言问题和 o w l 知识间建立真正的语义等价影射 实现真正意义上的实用化问答式知识检 索系统 基于以上分析 本文将研究o w l 语言的模糊扩展 并讨论应用这种扩展 语言完成模糊查询的过程 1 3 研究意义 本文的研究主要基于以下几点考虑 1 问答式检索以其符合普通用户行 为习惯的输入模式 满意的准确度成为改善搜索引擎不足的新研究方向 特别 是面向本体知识源的问答式检索技术将成为问答式检索实用化的新途径 2 o w l 规范已经成为知识表示的最新工业标准 各行各业的领域型 任务型 应 用型o w l 知识越来越多的出现在w e b 上 研究面向o w l 知识的问答式检索 技术 用于解决用户的实际问题具有重要的理论和现实意义 3 现有o w l 语言对不确定 不完善知识的局限性表达能力限制了它的进一步发展 要想实 现更精确 更方便的 人 机 界面 必须扩展o w l 语言能够表达和推理模糊 的 不完善的知识 这是实现w e b 智能及更高级的智慧网络 w i s d o mw 曲 的需要 本课题除了具有较强的现实意义 应用价值外 还具有较强的理论价值 首先 自然语言问题到o w l 查询的语义映射被形式化为一个模糊约束满足问 题 约束满足和模糊约束满足是解决复杂过程的常用框架 具有一定的普遍性 本文在这些方面的研究成果对于解决这一类复杂问题有借鉴意义 此外 本文 对于o w l 语言的模糊扩展研究 应用这一扩展语言解决模糊查询的研究 以 及o w l 知识的间接获取研究拓宽了本体知识的表达能力和建立知识库的途径 对语义w e b 及w e b 智能的发展起到一定的推动作用 1 4 创新性工作 与研究内容相对应 本文的创新性工作分别表现在o w l 知识获取 自然 语言问题到o w l 查询的自动映射及o w l 语言的模糊扩展三个方面 1 4 1o w l 知识的间接获取 获取知识库的途径很多 常用的有专家手工建立 从其它数据中自动学习 北京工业大学工学博士学位论文 两种 尽管手工建立更符合人类认知 但费时费力 而且需要专家同时具有丰 富的领域知识和o w l 知识 从其它数据中自动学习o w l 知识库在概念学习上 取得很多成果 可是对关系 实例 公理的自动学习效果很差 比起前两种方 式 借助现有搜索技术 收集满足需求的o w l 知识库 将其聚类后 再手工 修改或者二次学习是一种实用性很高的方法 基于这种思想 结合问答系统需 求 本文实现了一个本体专用搜索引擎 提出了一种基于语义分析的o w l 文 档相似性计算方法 并结合层次聚类技术对该方法进行了分析和验证 该方法 较好的反映了o w l 文档的语义特点 聚类效果比较明显 详见第4 章 1 4 2 问题到o w l 查询的语义映射 从语义映射的角度看 自然语言问题和o w l 查询可以看作是同一语义知识 的两种异构表示 他们之间存在着不同层次的语义映射关系 这些映射关系是实 时和动态的 与检索涉及的领域知识 语法常识 用户背景及行为密切相关 为 了最大程度的统一这些影响因子 利用现有语言工具 知识解析工具 我们借鉴 了模糊约束满足问题框架 提出了基于模糊约束满足的语义映射方法 理论分析 和实验验证表明该方法有较多优势 1 该方法是完全自动的 2 知识库的领 域和结构差异对映射精度影响不大 3 调整约束的优化顺序可提高映射的精度 详见第5 章 问答式o w l 知识检索系统是否具有学习能力是其能否实用化的另一关键 为了利用现有样例及用户反馈 我们将机器学习技术引入语义映射过程 提出 了基于学习的语义映射用于完成词集到元素集的自动映射 实验结果表明在训 练数据充足的情况下 选择j 4 8 分类器 算法精度可以达到8 0 详见第6 章 1 4 3o w l 语言的模糊扩展及应用 要真正实现问答式知识检索 关键问题是机器及智能a g e n t 不但能充分表 达也要能充分理解人类的知识结构 知识语言 人类由于生理和心理因素的影 响 更擅长表达和处理不确定 不精确的知识 致使现实世界及虚拟世界 w e b 上存在大量的模糊知识 现有o w l 语言由于语义基础的限制 只能处理精确 和确定的知识 针对这种知识源的问答式检索很难回答包含模糊知识的查询 为此 我们以模糊描述逻辑为基础 提出了模糊网络本体语言 f u z z yw 曲 o n t o l o g yl a n g u a g e f o w l 和现有o w l 语言比较

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论