




已阅读5页,还剩44页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于本体的智能化知识检索 摘要 知识检索的提出给2 0 世纪中期以来形成的信息检索理论带来根本的变革 与挑战,众多学者的关注和加入也使得研究取得了一定的成果,但是,在一些知 识更新迅速、用户需求多样的领域,检索系统实际思维能力的欠缺却使得检索 效率的进一步提升遭遇瓶颈。基于此,本文以人工智能相关技术为理论背景, 以知识检索模型和方法为研究对象,以提高知识检索系统的智能化水平、检索 效率为研究目的,在以下几方面进行了深入研究: ( 1 ) 基于本体的智能化知识检索模型。文章首先从基于本体的知识检索的 工作原理和一般模型出发,分析了检索系统内影响智能性的两方面因素;接着 结合a g e n t 、i g a 等人工智能技术提出了一种基于本体的智能化知识检索模型, 并详细阐述了模型的体系结构和工作流程。 ( 2 ) 基于i g a 的知识检索需求获取方法。针对知识检索过程中用户需求模 糊、不充分而难以准确获取的问题,文章通过分析用户需求的特点,将其区分 为显性和隐性两部分,并结合概念图的思想设计了一种需求语义描述模型。以 此为基础,结合交互式遗传算法的基本原理,探讨了交互式遗传算法在知识检 索需求获取过程中的应用模式。 ( 3 ) 基于概念图的知识检索匹配方法。利用检索过程中产生的交互信息来 计算用户检索概念的权值,并运用到基于概念图的知识匹配方法中,以提高检 索匹配的效率。 最后,根据本文研究内容构建了基于本体的智能化知识检索实验系统一一 运动鞋产品检索系统,并在此基础上进行了分组检索实验,证明了本文模型和 方法的可行性及有效性。 关键词:知识检索;本体论;知识检索模型;需求获取;交互式遗传算法;语义匹配 t h e i n t e l l i g e n tk n o w l e d g e r e t r i e v a lb a s e d0 1 1o n t o l o g y a b s t r a c t t h ei s s u eo fk n o w l e d g er e t r i e v a lh a sb r o u g h tg r e a ti n n o v a t i o n sa n dc h a l l e n g e st o i n f o r m a t i o nr e t r i e v a lt h e o r y , w h i c hf o r m e di nt h em i d - 2 0 t hc e n t u r y , w h i l e ,t h ec o n c e r n sa n d j o i n i n go fs c h o l a r sa l s om a k es o m er e s u l t s h o w e v e r ,i nt h e s ef i e l d si n v o l v i n gr a p i d r e n e w a lo fk n o w l e d g ea n dv a r i o u su s e rd e m a n d s ,f u r t h e ri m p r o v i n gt h er e t r i e v a le f f i c i e n c y h a se n c o u n t e r e db o a l e n e c k s ,b e i n gl a c ko ft h ea c t u a lc a p a c i t yo fs y s t e m st h i n k i n g f o rt h i s r e a s o n ,t a k i n ga r t i f i c i a li n t e l l i g e n c e r e l a t e dt e c h n o l o g ya sr e s e a r c hb a c k g r o u n d ,k n o w l e d g e r e t r i e v a lm o d e l sa n dm e t h o d sa sr e s e a r c ho b j e c t , a n di m p r o v i n gt h el e v e lo fi n t e l l i g e n to f k n o w l e d g er e t r i e v a ls y s t e ma n dr e t r i e v a le f f i c i e n c ya sr e s e a r c hp u r p o s e s ,t h i sp a p e rw i l l d e l v ei n t ot h ef o l l o w i n ga r e a s : ( 1 ) o n t o l o g y - b a s e di n t e l l i g e n tk n o w l e d g e r e t r i e v a lm o d e l b a s e do nt h e o n t o l o g y - b a s e dk n o w l e d g eo ft h ew o r k i n gp r i n c i p l ea n dt h eg e n e r a lm o d e l ,t h i sp a p e rf i r s t a n a l y z e st h ei m p a c to fi n t e l l i g e n tr e t r i e v a ls y s t e mo ft w of a c t o r s ;a n dt h e np r o p o s e sa o n t o l o g y b a s e di n t e l l i g e n tk n o w l e d g er e t r i e v a lm o d e l ,w h i c hc o m b i n e da g e n t ,i g aa n d o t h e ra r t i f i c i a li n t e l l i g e n c et e c h n o l o g y , a n da m p l yn a r r a t et h em o d e lo fa r c h i t e c t u r ea n d w o r kf l o w ( 2 ) ai g a - b a s e dr e q u i r e m e n t se l i c i t a t i o nm e t h o do ft h ek n o w l e d g er e t r i e v a l i n o r d e rt oe f f e c t i v e l ys o l v et h ed i s a d v a n t a g eo ft h er e q u i r e m e n t se l i c i t a t i o ni nk n o w l e d g e r e t r i e v a lw h i c hi sc a u s e db yu s e r s v a g u ea n di n a d e q u a t ed e m a n d ,t h i sp a p e ra n a l y s et h e c h a r a c t e r i s t i c so fu s e rd e m a n dw h i c hi sd i v i d e di n t ot w op a r t s :e x p l i c i tp a r ta n di m p l i c i t p a r t ,a n dd e s i g nad e s c r i p t i o nm o d e lo fu s e rd e m a n d 、7 l ,i t l l t h ei d e ao fc o n c e p tm a p a p p l y i n gt h et h e o r yo fi n t e r a c t i v eg e n e t i ca l g o r i r i t h m ,w ee x p l o r et h ea p p l i c a t i o np a t t e no f t h i st e c h n o l o g yi nr e q u i r e m e n t se l i c i t a t i o no ft h ek n o w l e d g er e t r i e v a lb a s e do no u r r e q u i r e m e n t sm o d e l ( 3 ) c o n c e p tm 印一b a s e dm a t c h i n gm e t h o do fk n o w l e d g er e t r i e v a l i no r d e r t oi m p r o v e t h er e t r i e v a le f f i c i e n c y , c o m b i n e do ft h em u t u a li n f o r m a t i o np r o d u c e di nt h er e t r i e v a l p r o c e s s ,c a l c u l a t e du s e r sr e t r i e v a lv a l u eo f t h ec o n c e p t ,a n da p p l i e dt ok n o w l e d g em a t c h i n g m e t h o db a s e d0 1 1c o n c e p tm a p f i n a l l y , a c c o r d i n g t ot h ec o n t e n t so ft h i sp a p e rc o n s t r u c t e do n t o l o g y - b a s e di n t e l l i g e n t k n o w l e d g er e t r i e v a ls y s t e me x a m p l e s p o r ts h o e sp r o d u c tr e t r i e v a ls y s t e m s ,a n do nt h i s b a s i sp e r f o r m e dt h eg r o u pr e t r i e v a le x p e r i m e n t s ,p r o v e dt h ef e a s i b i l i t ya n de f f e c t i v e n e s so f t h i sm o d e la n dm e t h o d s k e y w o r d s :k n o w l e d g er e t r i e v a l ;o n t o l o g y ;k n o w l e d g er e t r i e v a lm o d e l ;r e q u i r e m e n t s e l i c i t a t i o n ;i n t e r a c t i v eg e n e t i ca l g o r i t h mss e m a n t i cm a t c h i n g 插图清单 图2 1 基于概念的知识检索模型8 图2 2 遗传算法的基本概念关系1 0 图2 3 遗传算法流程图1 1 图3 1 信息检索一般过程1 4 图3 2 基于本体的知识检索一般模型1 5 图3 3 基于本体的智能化知识检索模型1 7 图3 4 本体知识库构建及扩展流程1 8 图3 5 个性化服务流程l9 图3 - 6 用户交互式检索流程图2 0 图4 1 用户需求概念图2 2 图4 2 交叉算子2 5 图4 3 概念图交集示例图2 6 图5 1p r o t 6 9 6 类编辑界面3 2 图5 2p r o t 6 9 6 属性编辑界面3 2 图5 3 运动鞋产品检索系统架构图。3 3 图5 4 运动鞋产品检索系统功能结构图。3 4 图5 5 系统登录界面3 5 图5 - 6 检索评价界面3 6 图5 7i g a 参数设置界面3 6 图5 8 不同主题进化效果曲线。3 7 图5 - 9 查全率与查准率3 8 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成 果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表 或撰写过的研究成果,也不包含为获得 金毽王些盔堂 或其他教育机构的学位或 证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了 明确的说明并表示谢意。 学位论文作者签名:签字e l 期:知i o 年争月p 曰 学位论文版权使用授权书 本学位论文作者完全了解金g 垦王些太堂有关保留、使用学位论文的规定,有权保 留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授 权金胆工些盔堂可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采 用影印、缩印或扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名: 将 i 签字日期:力 o 年年月2 l 日 名;名身易 签字日期:2 pr o 年4 - 月】目 学位论文作者毕业后去向: 工作单位:支嚣盛t 卑凰,闪传攀客在阵么司 电话: 黼坳b 知j 1 奇沾蚪立舭抽衅邮 i i i 37 卯印 l 致谢 二年半的研究生学习生活即将告一段落,本人受益良多。在论文即将完成 之际,向所有关心、指导和帮助过我的师长及同学表达我最诚挚的谢意! 首先要感谢导师蒋翠清教授在学业上、思想上和生活上给予的谆谆教导和 亲切关怀。蒋翠清老师严谨的治学态度、渊博的学识和孜孜以求的进取精神都 使我深感敬佩也受益匪浅。两年多来,蒋翠清教授在项目实践,论文的选题、 构思和写作等方面都给予了悉心的指导,使本人顺利完成了硕士学业。在此, 谨向蒋翠清教授致以衷心的感谢和崇高的敬意! 其次,衷心感谢梁昌勇院长、俞家文副教授、丁勇副教授、陆文星副教授、 汪曙老师和靳鹏老师等所里的老师在本人从事项目和学术研究期间给予的指导 和教诲,本人终生难忘! 在我的课题和完成论文期间,同研究所的许阳、王国才、龚前伟、李瑞、 翟宜群、胡俊妍、易成成以及其他同学在学习和生活上都给予了我很多帮助。 也感谢2 5 班的全体同学和宿舍的室友们,与他们的交流给了我很多的启发,和 他们在一起生活和学习的日子是很愉快的、也是令人难忘的! 再次感谢所有关心和帮助过我的领导、老师、同事和同学! 最后,衷心感谢我的父母和哥哥,他们的期望、支持和付出,是我一生永 远的动力! 没有他们的理解和鼓励,就不会有我今天的收获! 作者:杜伟 2 0 1 0 年3 月2 9 日 第一章绪论 1 1 研究背景与问题提出 随着信息技术的发展以及知识经济的兴起,生活中的信息呈现指数级的增 长趋势。传统的基于关键字的信息检索技术在帮助人们获取有用信息的同时也 带来诸多问题( 如“信息丰富而知识缺失 ) ,信息数量的激增与信息质量的高 需求呈现出不平衡的发展态势。为了改变这种状况,人们急切地想寻找一种能 够快速、准确而又全面地获取到所需信息的检索新技术,以有效获取知识为目 的的知识检索便应运而生。 知识检索的提出给2 0 世纪中期以来形成的信息检索理论带来根本的变革 与挑战,众多学者的关注和加入使得研究取得了一定的成果:( 1 ) 理论研究方面, 包括对知识组织体系的研究、对知识可视化展现的研究、对检索系统应用框架 的研究等;( 2 ) 模型研究方面,包括基于本体的知识检索模型、反馈式知识学习 模型、基于a g e n t 的检索模型等;( 3 ) 检索方法研究方面,包括基于概念的检索 方法、基于专家经验知识的检索方法、基于c b r 的检索方法等;( 4 ) 检索算法 研究方面,包括神经网络算法、情境匹配算法、基于本体的语义匹配算法等【l l 。 但是,智能性的不足却使得检索系统在应用过程中遭遇操作与维护困难的问题。 部分学者针对此将自然语言理解、个性化服务等功能加入到检索系统内,也取 得了一定的突破。在研究过程中,学者们意识到良好的知识组织体系是提高检 索智能性和效率的基础,于是,本体因为所具有的良好的概念层次结构和对逻 辑推理的支持,迅速成为了研究的热点,基于本体的知识检索也得到了广泛地 应用。 “知识本体作为组织领域知识的语义基础以及“本体概念集对资源的语 义标引”使知识资源有效地获取与利用成为了可能,基于本体的语义匹配与推 理则令匹配环节的智能性水平和检索效率都得到了提高。然而,在一些知识更 新迅速、用户需求多样的领域,检索系统的思维能力依旧欠佳,这使得用户检 索的时间成本增加。比如在商品种类繁多、更新换代快的电子商务领域,用户 数量巨大,知识水平参差不齐,需求也大多模糊难定,用户往往需要经过很长 时间的操作才能找到理想的检索目标。在这些情境下,智能性的不足主要表现 为以下几点: ( 1 ) 领域概念及相关知识的迅速更新使系统知识资源相对滞后,维护成本 增加。如何使系统内的本体具备自动扩展能力,且知识库具备动态获取和更新 的能力值得深究; ( 2 ) 知识检索应该考虑到用户的知识背景,并且随着用户不断地学习而演 变。另外,虽然用户知识结构差异巨大,但同类用户间检索行为类似,因此, 强大的个性化服务能力也是挑战之一。 ( 3 ) 用户的知识需求一般都是模糊的、不充分的,难以衡量的,当前的基 于本体的知识检索大多采用简单的多次反馈去逐步获取用户真实需求,但仅仅 将知识区分为“相关 与“不相关 两类进行取舍,并不足以表达用户主观需 求心理的层次性,用户与检索系统间未能对反馈过程中的“相关”程度形成共 同的理解,主观心理空间和客观特征空间存在差异。因此,如何准确把握用户 需求将是解决问题的关键。 本文为国家自然科学基金项目“面向协同的制造企业知识建模与集成理论 研究和安徽省教育厅自然科学重点项目“机械产品设计知识管理系统研究 的研究成果之一,主要从上述三个问题点出发,结合本体论知识以及人工智能 的相关技术( 如i g a 等) ,对现有的基于本体的知识检索进行改进,提高检索 的智能性及效率。 1 2 国内外研究现状 1 2 1 智能化检索研究现状 为了实现检索技术的智能化,将人工智能技术引入信息检索及知识检索前 景广阔。运用于知识检索的人工智能技术主要包括: ( 1 ) 自然语言理解技术 自然语言是指日常交流过程中人们所使用的语言,主要分为书面语和口语 两种,与机器语言相比,它具有灵活而模糊的特点,因此很难被计算机正确处 理和理解。为了能够在人类与计算机间建立一种和谐的交流方式,学者们开始 着手研究自然语言理解技术,整个技术围绕如何让计算机理解并正确处理人们 日常使用的语言而展开,力求通过技术运用使计算机能进行高效的信息传递和 认识活动。早在2 0 世纪5 0 年代,科学家就进行了机器翻译的实验,经过5 0 多年的研究,自然语言理解的理论和技术有了长足的发展,特别是在语法与语 言的自动分析方面,而近十年来基于语料库的自然语言理解方法成为了研究热 点。在信息剧增的当今社会,自然语言的识别和处理一直是人工智能研究的核 心,也是检索技术智能化的关键。 国外对自然语言在信息检索中的应用很活跃,并且已经取得了实质性进展。 如美国两大法律全文数据商均提供自然语言提问检索接口,法国把自然语言分 析成名词词组后再与机器内词表匹配;荷兰的c s d o s 全文库,就是一个自然 语言提问系统。相比之下,国内研究以理论居多,如文献【2 卜【4 】分别将自然语 言理解技术用于中文知识检索模型、知识检索系统、以及知识库管理系统。 ( 2 ) a g e n t 技术 a g e n t 技术,起始于2 0 世纪8 0 年代,最先由美国麻省理工学院研制开发, 是人工智能技术的一个重要研究领域。进入2 0 世纪9 0 年代后,随着互联的广 泛使用及信息技术的发展,a g e n t 因其所具有的自治性、适应性、移动性和部 2 分智能等特性迅速成为人工智能的研究热点和信息技术的前沿代表,自身也得 到了很大的发展。目前,国外从事a g e n t 技术研究的不仅有研究机构、大学, 还有微软、i b m 等诸多信息技术公司,并且部分a g e n t 产品或嵌入a g e n t 技术 的产品已投入使用。 与此同时,在检索领域a g e n t 成为了克服现有检索问题的有效手段,特别 是运用于知识检索领域之后,a g e n t 成为开发智能化、个性化知识检索的重要 技术之一。国外学者研究时,往往将a g e n t 作为检索系统构建的基础,针对具 体应用问题用a g e n t 技术去解决或者结合其他技术探讨新的检索功能,如文献 【5 】用a g e n t 满足个人健康信息检索需求,文献【6 】使用c o n s e n s u sm e t h o d s 技术 综合各检索a g e n t 的返回结果,并支持a g e n t 的自更新。国内学者在这方面也 做了积极地探讨,尤其是在个性化检索和基于a g e n t 的知识检索模型研究方面, 并且呈现出本体与a g e n t 结合起来研究的趋势,如文献【7 卜 8 】等。本体能够解 决语义理解问题,而a g e n t 可以实现开放、自主、主动和协作,将二者相结合 可大大提高知识检索的效率。 ( 3 ) 机器学习技术 机器学习是人工智能的核心研究领域之一,它从人类的学习行为出发,研 究如何使机器模拟人类的各种学习过程来获取知识,并进行知识的积累和扩充, 目的是将已存在的结构化信息自动提炼和转换成知识,来构建知识库。机器学 习的一般过程是建立理论、形成假设和进行归纳推理,通过机器学习处理环境 提供的信息,以丰富和改善知识库中的知识。文献【9 】就是根据机器学习技术设 计了一个学习方法,来给信息资源进行自动分类;文献 1 0 】中则利用机器学习 技术对检索过程的相关反馈信息进行处理。 国内最早将机器学习引入到知识检索研究的是武汉大学的张玉峰、晏创业 等人,他们通过用户知识的学习、专家经验知识学习、网页分类知识学习等机 器学习方法去获取检索知识,并提出基于机器学习的知识检索模型】。另外, 国内学者还进行了基于机器学习的本体映射研究1 1 2 l 1 3 】。 ( 4 ) 知识发现技术 随着信息的激增以及大规模数据库的应用,对数据和信息的简单查询已不 能满足于人们的日常需求,这是因为简单的查询和检索手段不足以充分挖掘和 利用数据库内蕴藏的知识,无法给用户带来具有结论性效果的信息,这就间接 造成了信息资源的浪费。另外,人们也希望能有种技术可以自动地、智能地将 数据转化为即用的信息或知识。基于此,人们在数据库技术和机器学习技术的 基础上提出了知识发现的思想,力求从大量模糊的随机数据中发现有用信息和 知识。建立在数据库基础上的知识发现系统,不仅提供检索查寻功能,而且综 合了机器学习、模糊逻辑、专家系统以及统计学等多种学习方法,支持数据信 息的微观和宏观的统计分析与综合推理,达到去粗取精、由表及里的知识服务 效果【14 1 。 目前,知识发现技术的研究和开发以及应用还刚刚起步,并且多以数据挖 掘为主要方式,如文献 z 5 】。但是,知识发现所显示出的良好发展前景,将给 未来知识检索带来强大的推进力。 1 2 2 知识检索研究进展 在知识检索的研究过程中,国内外无论是在理论研究还是实际应用方面都 经历了漫长的试验性阶段。期间,学者们设计了很多知识检索模型和方法,模 型包括有基于信息检索的扩展模型,概念检索模型、案例知识推理模型、基于 本体的知识检索模型、反馈式知识学习模型和基于a g e n t 的检索模型等;检索 方法方面则包括基于概念的检索方法、基于专家经验知识的检索方法、基于 c b r 的检索方法、智能导航浏览方法、分布式多维检索方法等【l 引。现今知识检 索研究在各领域的关注与研究下逐渐走向成熟,部分知识服务公司和研究者设 计开发了一系列的知识检索系统:o n t o s e e k 系统、移动知识检索系统f l 训、 b e e s m a r t 知识检索系统1 1 8 】、i m c 知识检索系统i l9 】等。纵观知识检索的研究, 其发展主要有以下特征: ( 1 ) 结合先进的人工智能技术 美国著名学者v a s a n th o n a v a r 曾提出人工智能是知识检索智能化、自动化 及其他相关知识活动的理论基础。的确,在知识检索最初被提出时,人们便开 始运用人工智能技术对检索模式进行改进。 a g e n t 是驻留在特定环境下的一类可计算实体或程序,它能够感知外界环 境并自治运行,以实现其设计者和使用者的一系列目标。具有自治性、适应性、 移动性和部分智能等特性,学者们将其运用到知识检索研究中,构建了基于 a g e n t 的知识检索模型。案例推理( c b r ) 通过应用或调整已有案例的解决方案来 解决新问题。c b r 基于更加结构化的知识,能够更好地复制“症状目标诊断 补救 过程,进行快速高效的知识检索,因此基于案例知识推理的知识检索被 广泛研究。随着研究的深入,机器学习、数据转换集成、模糊集、粗糙集理论 以及神经网络等其他人工智能方面的技术将被引入到知识检索的研究中。 ( 2 ) 从跨领域、多角度研究知识检索 知识检索虽然提出的比较晚,但是具有很强的后发优势,以多学科领域为 其发展基础及思想源泉,不断将所涉及的理论经验融入到研究中,并对其加以 引申、改进,从而促进整个知识检索研究的进步发展。 例如,语言学为知识检索的过程和方法提供了必需的理论依据。基于自然 语言的知识检索能利用语言学的方法充分理解用户查询语句的语义。另外,多 语言交叉语言检索的主要困难在于语种间表达方式和语义对应的不确定性,将 语言学方法引入后,使得用户可以采用母语提交查询,实现多语言查询,返回 4 时再通过机器翻译成用户母语。 信息科学研究人如何生产、搜索、检索和使用信息,特别是人与信息系统 的相互作用。将人与检索过程结合起来,运用信息科学的反馈技术实现检索系 统与用户的反复交互,有助于提高知识检索的准确度。 ( 3 ) 融合传统知识组织模式与检索方法 传统的分类法杜威十进分类法、国际十进分类法由于在浏览检索、 对非文本信息的组织聚类、国际通用性等方面具有很强的优势,被一些网站作 为网络信息资源自动分类的基础与依据。斜词法一般被认为由于需要人工先行 制定规范的斜词表,不适合信息更新迅速的网络信息环境。然而随着网络技术、 动态适应性、规范化、词汇控制方面的优势使其在网络信息管理方面更显突出。 斜词法与超文本技术相结合而构造出的概念地图能更全面、直观地概括与描述 概念之间的关系,同时能更实时地更新斜词表的结构体系i l6 1 。 1 3 论文的研究内容与结构安排 针对知识检索中存在的知识库自动扩展性差、获取用户检索模糊性需求能 力弱等智能性不足的问题,本文以本体作为知识组织的基础,从基于本体的知 识检索的工作原理和一般模型出发,分析了智能性不足产生的原因。在此基础 上,文章结合a g e n t 、i g a 等人工智能技术设计了一种基于本体的智能化知识 检索模型,并研究了基于本体的智能化知识检索的策略与方法。 本文的结构安排如下: 第一章作为本文的绪论部分,说明了本文的研究背景,国内外的研究现状, 论文的研究内容与结构安排。 第二章主要介绍本文所涉及的技术和方法,包括本体论概述、知识检索概 述以及交互式遗传算法概述。 第三章首先对基于本体的知识检索工作原理和一般模型进行了研究,在此 基础上,引入a g e n t 、i g a 等技术提出了基于本体的智能化知识检索模型,并 对模型主要工作流程进行了阐述; 第四章首先分析了知识检索需求获取能力不足的原因,并设计了一种需求 语义描述模型;接着结合交互式遗传算法的基本原理,探讨了交互式遗传算法 在知识检索需求获取过程中的应用模式;最后论述了基于概念图的匹配方法。 第五章设计并实现了一个基于本体的智能化知识检索实验系统一一运动鞋 产品检索系统,在此基础上,通过两组实验验证了本文检索模型和方法的可行 性及有效性。 第二章相关技术与方法 2 1 本体论概述 2 1 1 本体的定义 本体论( o n t o l o g y ) 最初起源于哲学领域,是形而上学的一个分支,试图去回 答“存在是什么 和“所有存在的普遍特征是什么 等问题,它在哲学中的定 义为“对世界上客观存在物的系统地描述 。 在人工智能界,本体论被赋予了新的定义,从而受到了信息科学专家的关 注。早在1 9 9 1 年,n e c h e s 等人就给出本体论在信息科学中的定义:“给出构成 相关领域词汇的基本术语和关系,以及利用这些术语和关系构成的规定这些词 汇外延规则的定义【2 们。后来,随着本体在信息系统、知识工程等领域的应用, 越来越多的人加入到本体的研究队伍,信息科学界对于本体的理解也逐步发展 走向成熟。1 9 9 3 年g r u b e r 将本体定义为:“概念模型的明确的规范说明”1 2 , 这一定义被知识工程研究人员所普遍接受;1 9 9 7 年,b o r s t 更是在该定义的基 础上进行了完善,认为“本体是共享概念模型的形式化规范说明 1 2 引。 从定义可看出,本体主要包含“概念模型( 现实的抽象模型) 、“明确( 定 义明确) 、“形式化( 机器可读的) 以及“共享( 一致认可的) 四层含义【2 引。 而从本质上讲,本体论则是一个或几个领域的概念以及反映这些概念问关系的 集合。 知识检索必须以知识组织为前提和基础,而知识组织体系的形式与能力也 在相当程度上决定了知识检索的能力。知识本体具有良好的概念层次结构和高 度的知识推理能力,能准确表达概念间的内在关联,它与知识检索的天然结合 性,使得基于本体的知识检索更加高效且迅速成为研究热点。 2 1 2 本体描述语言 本体论一般需要通过预先定义的语言来描述,目前具有代表性的本体论语 言中,有的是基于逻辑( 一阶谓词逻辑) 的,有的是基于框架的,有的是基于w e b 网络的,还有一些比较高级的本体论语言综合了逻辑、框架和网络三个方面的 要素。我们把它们简单归类如下: ( 1 ) 和w e b 相关的有s h o e 、x o l 、r d f 、r d f s 、o i l 、d a m l 、o w l 。 其中s h o e 是h t m l 的一个扩展;r d f 和r d f s 、o i l 、d a m l 、o w l 、x o l 之间有着密切的联系,它们是w 3 c 的本体语言栈中的不同层次,与s h o e 不 同之处在于这些语言都是基于x m l 的;o w l 是r d f ( s ) 的扩展,具有丰富的 语义表达和推理能力,它位于w 3 c 的本体语言栈的栈顶。 ( 2 ) 和具体系统相关的有:c y c l 、l o o m 、o n t o l i n g u a 。 ( 3 ) k i f 是最早的一类基于一阶谓词逻辑的知识表示语言,现在已经成为 6 了美国的国家标准,主要是作为交换格式应用于企业内。 2 1 3 基于本体的知识表示 本体论是领域实体存在本质的抽象,强调实体间的关联,可通过多种知识 表示元素将这些关联进行表达,这些知识表示元素也被称为元本体,主要包括 概念、属性、关系、函数、公理以及实例6 大要素【l6 1 。 其中,基本的关系主要包括部分与整体关系( p a r t o f ) 、继承关系( k i n d o f ) 、 实例与概念关系( i n s t a n c e o f ) 以及属性与概念关系( a t t r i b u t e o f ) 4 种。 有了以上的表示基础,在实际的操作中可以按照以下流程进行领域本体的 构建: ( 1 ) 确定本体论的领域及应用范围 只有清楚的领域描述和应用界定,才能全面地进行领域概念及概念关系的 定义。因此,本体构建的第一步就是要正确地了解本体应用的范围和需要描述 的领域。 ( 2 ) 是否有现存本体可借鉴 大型领域本体的构建是一个繁杂的过程,为了减少工作量,可以考虑使用 现存的本体。查找现有本体并不困难,因为很多组织与机构为了方便交流,都 会将各自构建的领域本体进行发布。但是,各领域没有形成同一的标准,同领 域下的不同团体所构建的本体都是针对具体应用而来的,彼此会存在差异。因 此,使用现存本体时,要根据第一步所确定的本体领域范围和应用目标,对现 存的相关本体进行修改和扩展,以达到知识准确共享的目的。 ( 3 ) 列举领域内的概念词汇 领域本体是领域的模型抽象和规范说明,要做到这一点就必须对领域有全 面的描述。因此,本体构建第三步就是要在前面信息收集和领域认识的基础, 尽可能多的列举出领域内使用的概念词汇。 ( 4 ) 确定本体的层次结构关系 列举完领域内的概念词汇后就需要确定各概念间的层次结构关系,常用的 方法主要有从上向下、由下往上以及上下结合三种。在这一步骤里,我们常使 用类来作为本体结构的基本组织单元。利用类所具有的继承性可以将高层的抽 象概念表示为父类,而底层具体的实体概念则可以用子类来表示。 ( 5 ) 建立概念的属性 仅有概念词汇并不足以表达领域知识的完整语义,为了对领域概念有充分 的描述和说明,我们还需要为各概念定义相关的属性和属性的限制因素,这也 是构建领域本体的重要步骤。 ( 6 ) 获取本体实例 通过前面的流程,我们已经为领域本体构建了良好的框架,剩下的就是要 7 为概念( 类) 创建个体实例,该过程主要包括三个步骤:选择一个类;创建该 类的实例;填充实例的各属性值。 2 2 基于本体的知识检索概述 2 2 1 知识检索的概念及模型 随着知识检索成为检索领域新的研究热点,国内外学者从不同领域、不同 角度对知识检索进行了研究,有的学者认为:“知识检索是综合应用信息管理科 学、人工智能、认知科学及语言学等多学科的先进理论与技术,基于知识和知 识组织,融合知识处理和多媒体信息处理等多种方法与技术,充分表达和优化 用户需求,能高效存取所有媒体类型的知识源,并能准确精选用户需要的结果” 1 2 4 】;也有学者从知识组织体系入手,指出“知识检索是指在知识组织的基础上, 从知识库中检索出知识的过程,是一种基于知识组织体系,能够实现知识关联 和概念语义检索的智能化的检索方式,【2 列;还有一部分学者从用户知识需求出 发,认为“知识检索是指根据用户需求或问题的实际情况找出可利用的知识使 问题得到圆满解决的过程1 2 6 。 研究人员采用不同的知识组织模式,应用不同的人工智能技术和知识处理 方法对知识检索进行了研究,主要的模型成果包括:基于概念的知识检索模型、 基于信息检索的扩展模型、案例知识推理模型、基于a g e n t 的知识检索模型、分 布式知识检索模型、基于专家系统的知识检索模型、基于中文自然语言理解的 知识检索模型等。其中,基于概念的知识检索模型与本文的研究内容关联性较 大,下面作简单介绍。 基于概念的知识检索模型是根据概念之间的相关性,在词的概念语义层面 上建立关联关系,通过对用户检索词的概念扩展,向检索用户提供包含未直接 显示表达需求的相关结果,满足用户对结果高质量需求的检索模型【1 6 】。模型如 图2 1 所示: 用 , 抽i 合l 对旌 厶一- , 求 f1 甄j c 4r q :霄y 一7 果 7 果 匹 分 配 1 八,、射 处 j。知识库 析 理 :一一一一一一一一一一一一一一一一一- 一一一一一- 一一- 一- 一- 一一- - - 一- 一一一一- 一 图2 1 基于概念的知识检索模型 2 2 2 基于本体的知识检索及特征 较之信息检索,检索专家给知识检索勾画出两个显著特征:一是基于某种 8 具有语义模型的知识组织体系。知识组织体系与知识检索相辅相成,前者是后 者实现的前提与基础,而后者则是前者运用的结果。二是对资源对象进行基于 元数据的语义标注。元数据是知识组织系统的语义基础,信息资源要想具有长 期的利用价值必须经过元数据标注和描述【l 引。 从知识检索的两个特征不难看出,只有以知识组织体系为基础,并以此对 资源进行语义标注,才能实现真正意义上的知识层面的检索。国内外学者在这 方面进行了积极地探索,提出了各种各样的思想,例如概念聚类、空间向量等 等。而本体所具有的良好的概念层次结构和对逻辑推理的支持,为知识检索提 供了有效地知识表示方法;与此同时,“知识本体作为组织领域知识的语义基础 以及“本体概念题对资源的语义标引 恰恰满足了知识检索的两个特征需求。 于是,一些国外的研究者在这方面进行了有益的尝试,建立了一些基于本体论 的检索系统,如o n t o s e e k 系统、b e e s m a r t 知识检索系统、i m c 知识检索系统 等等。本体为这些知识检索系统提供了资源描述及查询所需要的全部概念词汇, 并通过领域语义模型为知识资源提供语义标注信息,从而使系统内所有模块对 领域内的知识形成了统一的认识,这也进一步提高了检索系统的推理能力和精 确性,实现了为用户提供全面的共同视图的功能。 毫无疑问,本体的引入给长期困扰检索专家的知识组织和知识表示问题带 来了良好的解决方案。通过实际运用,我们发现基于本体的知识检索相比传统 检索方式,不仅具有较高的查全率和查准率,而且在知识挖掘、智能性需求获 取、知识定位以及检索结果处理等方面都有明显的优势1 27 j : ( 1 ) 具有知识挖掘能力 比如对数字的理解,新词学习等。当0 8 年7 月份,n i k e 公司刚刚推出f l y w i r e ( 飞线科技) 时,一般的电子商务系统因为扩展的滞后性是无法将这一技术及时 更新进用户查询选择项内的。如果使用本体作为知识组织方式,就能将f l y w i r e 的描述词汇如“钢缆式细线支撑 、“降低鞋内缝线”、“透气性强”等,对应到 本体中的具体概念名,并通过技术推理得出f l y w i r e 是一种运动鞋鞋面设计技 术,甚至可以知道使用该技术的运动鞋透气性和贴脚性更好。 ( 2 ) 智能化程度高 在现实生活中,针对同一个知识概念,不同用户检索时使用的查询词汇往 往是不相同的,比如表述“阿迪达斯 这个运动品牌时,一部分人喜欢用全称, 而另一部分则倾向于“阿迪 这个简称,这是因为不同用户的知识结构、检索 习惯以及兴趣爱好都是不相同的。本体包含领域内所有的概念词汇,它可通过 词条间的映射关系有效地解决表达差异的问题;另外,运用本体良好的层次结 构关系,可以对概念进行语义扩展,实现用户检索需求的智能获取。 ( 3 ) 知识定位准确 一词多义多用处的现象很常见,比如“会呼吸的”,既可以是运动鞋性能也 9 可以是生物描述。传统检索是基于关键词的,停留在语法层面,不能准确把握 知识的应用范围,经常检索出一些无用的信息。以本体作为概念语义分析基础 后,就可以缩小范围,准确进行知识定位,而“会呼吸的 就会因为是基于运 动鞋本体而被区分为运动鞋透气性能好的一种表现。 ( 4 ) 检索结果综合 这里的检索结果综合有双重含义,既可以表示同一系统下的综合也可以是 多系统间的协作,但考虑到不用系统数据库结构的差异,多系统下的综合具有 很大的难度。如果在相同领域下使用同一本体进行开发,就可以解决数据库异 构的问题,也可以将不同服务商联系起来,使用户得到的知识更加全面。如查 询“李宁跑步鞋 ,返回的信息就可能不仅包括李宁跑步鞋的款式图片,还有这 种鞋的口碑、制造工艺、相关明星故事等等。 只有在高效的知识组织体系基础上去构建检索系统才能使知识检索具有更 高的智能性水平,这也是本文选取本体作为知识检索的知识组织体系的主要原 因。 2 3 遗传算法及交互式遗传算法 2 3 1 遗传算法概述 遗传算法是一种高效的搜索最优解的方法,由美国m i c h i g a n 大学的 j h o l l a n d 教授在l9 7 5 年最先提出。整个算法模拟了达尔文进化论的自然选择 和生物进化过程,对群体不断地进行选择、交叉、变异等遗传操作,最终达到 优胜劣汰、适者生存的目的,以求得满足环境要求的解。 要想理解遗传算法,首先要理解生物进化的含义。所谓进化,就是生物延 续生存的生命现象,这一现象同时又是生物群不断进行自身调整,逐渐适应环 境的过程,比如从猿演化至人类的过程。作为模仿生物进化过程的随机方法, 遗传算法中有许多基本术语来自生物遗传学内的概念,包括基因( g e n e ) 、染色 体( c h r o m o s o m e ) 、基因型( g e n o t y p e ) 、表现型( p h e n o t y p e ) 、个体( i n d i v i d u a l ) 、种 群( p o p u l a t i o n ) 、适应度( f i t n e s s ) 等1 2 引,他们的关系如图2 2 所示: 适应度+ 一表现型 基上基因型 垂亘 圆圆口 1 0 基本组成单位则是基因;基因的组合决定了个体的表现性,并最终确定个体适 应度。值得注意的是,适应度是用来度量某个物种对于生存环境的适应程度的, 在算法中,为了计算个体的适应度,又引入了适应度函数。它是遗传算法的主 要特征之一,直接影响算法的收敛速度和搜索结果。 遗传算法的一般处理过程如
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 共享出行市场技术创新与应用前景研究报告
- 火灾原因认定规则课件
- 井下照明设备项目可行性研究报告
- 年产8900吨工业冷水塔项目可行性研究报告
- 二零二五年度服务器租赁及网络安全风险评估合同
- 2025版垃圾处理工程合同担保与废物资源化利用合同范本
- 2025版合法借款合同(三)
- 二零二五年度多式联运货物运输合同模板
- 2025版旅游商业区商铺分租经营协议
- 二零二五年度搅拌站轮胎绿色生产项目融资合作协议
- 2025四川建筑安全员C证(专职安全员)考试题库
- 嘉兴市昊鸣纺织有限公司年产480万米高档纺织真丝面料技改项目环评报告
- 假体隆胸手术课件
- 水泵房设备安装施工方案
- 90题性格测试题及答案
- 农村宅基地流转合同协议范本
- 文保员安全培训课件
- 西门子S7-1200PLC应用技术项目教程(第2版)-教案全套 LAD+SCL
- 高锰酸钾的产品包装说明和使用说明书
- 2025年华侨港澳台生联招考试高考化学试卷试题(含答案解析)
- 开曼群岛公司法2024版中文译本(含2024年修订主要内容)
评论
0/150
提交评论