




已阅读5页,还剩55页未读, 继续免费阅读
(计算机应用技术专业论文)基于本体的领域构件检索方法的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
河海人学硕十研究生毕业论文基丁| 本体的领域构件检索方法的研究 摘要 基于构件的软件开发是解决软件危机的有效途径。在基于构件复用的软件开 发过程中,构件库管理系统扮演了重要角色。在构件库管理系统中构件的分类方 式及其检索是最基本也是最核心的功能之一。传统的构件描述与检索方式,由于 缺乏构件的语义信息描述,用户难以精确检索到与需求匹配的构件资源,所以不 能很好地实现资源共享和复用的目的。 针对上述问题,本文在刻面的基础上引入本体,重点阐述了基于本体的描述 框架与检索方法,随着不同领域的可复用构件的增多,在数量庞大的通用构件库 中检索出所需要的构件很困难,而在单个领域中对软件构件的理解相对来说要简 单容易的多,构建特定的单一领域的构建库,构建数量不会很大,构件的描述也 不需要考虑跨领域的问题,而且尽量使用本领域的专业词汇,大大提高了构件的 检索效率。 本文主要工作如下: ( 1 ) 在研究了几种典型的构件描述与分类的模式下,总结制定出水利领域 构件的本体描述方案,构件的描述中增加了语义的概念,能够帮助更 好的理解构件,提高构件的检索效率。 ( 2 ) 针对构件的本体描述框架,利用检索树的思想及其相关理论,在水利 领域中对本体描述的构件进行检索,并分析与在通用构件库系统中的 刻面描述模型的检索进行比较。 ( 3 ) 在此基础上设计和实现基于本体的水利领域构件描述框架和检索的 构件库系统,并介绍了主要功能模块的实现及检索性能的分析比较。 本文研究的目的和意义在于:通过提出对水利领域构件的本体描述及其检索 方法,提高构件的查询效率,降低软件复用的成本,最终达到提高软件产品质量 的目的。 最后,在本文总结的基础上,提出若干有待进一步深入研究和探讨的问题。 关键词:软件构件本体构件检索水资源领域水利领域 河海大学硕士研究生毕业论文基于本体的领域构件检索方法的研究 a b s t r a c t c o m p o n e n t - b a s e ds o f t w a r ed e v e l o p m e n ti s a l le f f e c t i v ew a yt os o l v et h e s o f t w a r ec r i s i s i nt h ed e v e l o p m e n to fr e u s i n gt h ec o m p o n e n t , t h ec o m p o n e n t m a n a g e m e n ts y s t e mp l a y sa ni m p o r t a n tr o l e t h ec o m p o n e n tc l a s s i f i e dw a ya n dt h e r e t r i e v a li so n eo ft h em o s tb a s i ca n dt h em o s tc o r ef u n c t i o n si nt h ec o m p o n e n t m a n a g e m e n ts y s t e m t h et r a d i t i o n a lc o m p o n e n td e s c r i p t i o na n dr e t r i e v a lw a y l a c k so f s e m a n t i cd e s c r i p t i o no ft h ei n f o r m a t i o n , i ti sh a r dt of i n dt h ee x a c tc o m p o n e n t m a t c h i n gt ot h er e q u i r e m e n t s ,a n dt h e r e f o r ei t i sh a r dt oa c h i e v et h ep u r p o s eo f s h a r i n gt h er e s o u r c ea n dr e u s e a c c o r d i n gt ot h ea b o v ep r o b l e m , t h i sp a p e ri n t r o d u c e so n t o l o g yb a s e do nf a c e t , a n di n t r o d u c e so n t o l o g y - b a s e dd e s c r i p t i o na n dr e t r i e v a lm e t h o do fc o m p o n e n t ,b u t a l o n g 、撕n li n c r e a s i n gu s e a b l ec o m p o n e n t si nd i f f e r e n td o m a i n s u s e r sc a nn o tf u l l y u n d e r s t a n dt h ec o m p o n e n ti nr e t r i e v i n gt h ec o m p o n e n ti nt h eh u g eg e n e r a lc o m p o n e n t l i b r a r y b u ti ti sv e r ye a s yt ou n d e r s t a n dt h es o f t w a r ec o m p o n e n ti nt h es i n g l ed o m a i n ni sn o tv e r yb i gt h a tc o n s t r u c t i n gac o m p o n e n tl i b r a r yo fas p e c i f i cd o m a i n , a n di t d o e sn o tn e e dc oc o n s i d e re x p a n d i n gt h ed o m a i n ,n ol o n g e ru s i n gt h es y n o n y m ,a n di t c a l le n h a n c ec o m p o n e n tr e t r i e v a le f f i c i e n c y t h e p a p e r sm a i nw o r k 笛f o l l o w s : ( 1 ) i nt h es t u d yo fs e v e r a lk i n d so ft y p i c a lc o m p o n e n td e s c r i p t i o n sa n dt h e c l a s s i f i e dp a t t e r n , is u m m a r i z e dt h eo n t o l o g y - b a s e dd e s c r i p t i o no fc o m p o n e n to f w a t e rc o n s e r v a n c yd o m a i n a d d i n gs e m a n t i ci n t ot h ec o m p o n e n td e s c r i p t i o nm a k e sa b e t t e ru n d e r s t a n d i n go fc o m p o n e n t s ,a n di m p r o v e st h ee f f i c i e n c yo fc o m p o n e n t r e t r i e v a l ( 2 ) i nt h ev i e wo fo n t o l o g y - b a s e dd e s c r i 【p t i o no fc o m p o n e n t s ,u s i n gr e t r i e v a l t r e e st h o u g h ta n dt h e o r y ,q u e r y i n gt h ec o m p o n e n t si nt h ew a t e rc o n s e r v a n c yd o m a i n , a n da n a l y z i n gw i t ht h er e t r i e v a lo ft h ef a c e t - b a s e dm o d e li nt h ec o m m o nc o m p o n e n t s s y s t e m ( 3 ) o nt h i sb a s i s ,d e s i g n i n ga n di m p l e m e n t i n gt h eo n t o l o g y - b a s e dc o m p o n e n t d e s c r i p t i o nf r a m e w o r ka n dt h ec o m p o n e n tr e t r i e v a ll i b r a r ys y s t e m ,a n di n t r o d u c i n g t h er e a l i z a t i o no f m a i nf u n c t i o nm o d u l e sa n da n a l y s i so f t h er e t r i e v a lp e r f o r m a n c e t h er e s e a r c h g o a l a n dt h es i g n i f i c a n c el i ei n :t h r o u g hp r o p o s i n gt h e o n t o l o g y - b a s e dd e s c r i p t i o na n dr e t r i e v a lm e t h o di nt h ew a t e rc o n s e r v a n c yd o m a i n ,i t c a nr a i s et h er e t r i e v a le f f i c i e n c y , r e d u c et h ec o s to fs o f t w a r er e u s i n ga n df i n a l l y a c h i e v ei m p r o v i n gt h eq u a l i t yo f s o f t w a r e f i n a l l y , i nt h eb a s eo f s u m m a r y , t h i sp a p e rp r o p o s e ss e v e r a lq u e s t i o n sw h i c hn e e d d e e pr e s e a r c ha n d d i s c u s s i o n k e y w o r d :s o f t w a r ec o m p o n e n to n t o l o g yc o m p o n e n tr e t r i e v a l w a t e rc o n s e r v a n c yd o m a i n 学位论文独创性声明: 本人所呈交的学位论文是我个人在导师指导下进行的研究工作 及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方 外,论文中不包含其他人已经发表或撰写过的研究成果。与我一同工 作的同事对本研究所做的任何贡献均已在论文中作了明确的说明并 表示了谢意。如不实,本人负全部责任。 论文作者( 签名) : 逸! ) 砬幽 讷苦年,月场日 ( 注:手写亲笔签名) 。 一 学位论文使用授权说明 河海大学、中国科学技术信息研究所、国家图书馆、中国学术期 刊( 光盘版) 电子杂志社有权保留本人所送交学位论文的复印件或电 子文档,可以采用影印、缩印或其他复制手段保存论文。本人电子文 档的内容和纸质论文的内容相一致。除在保密期内的保密论文外,允 许论文被查阅和借阅。论文全部或部分内容的公布( 包括刊登) 授权河 海大学研究生院办理。 论文作者( 签名) : 习毯3 8 年3 月g 日 ( 注:手写亲笔签名) 。 河海人学硕士研究生毕业论文 基- 丁本体的领域构件检索方法的研究 第一章绪论 1 1 研究意义 随着构件技术的不断发展,基于构件的软件开发( c o m p o n e n tb a s e ds o f t w a r e d e v e l o p m e n tc b s d ) 越来越得到人们的关注,为了复用构件,必须提供有效的构 件信息描述与检索,构件检索技术在基于构件的软件开发中起着举足轻重的作 用;构件库的不断充实和完善,构件的数量急剧增加,对构件信息检索提出了更 高的要求。开发者要在数量庞大的构件库中快速找到合适的可用的构件,就日益 成为一个亟待解决的课题。而有效地进行构件检索的基础前提是构件得到良好的 描述并被放入构件库中。 但是随着不同领域的可复用构件的增多,在数量庞大的构件库中检索所需要 的构件以及充分理解构件很困难,对准确检索构件造成了很多不便。使用者在检 索和提取构件时会遇到困难,相应构件库管理员在对构件进行管理和维护时也显 得力不从心。而在单个领域中对软件构件的理解相对来说要简单容易得多,在通 用构件库中,随着新的领域的增加,以及构件数量的不断增加,基于刻面等技术 的构件描述与检索己不能满足当前的需要,在效能上需要进行改进与提高,于是 提出了基于本体的构件描述与检索。 随着水利领域中信息技术的广泛应用【”,水利信息化与自动化是必需的。在 水利领域这个庞大的体系中,我们习惯的开发方式是从头做起,很少用到以前或 是其他人开发的构件来开发,这样的开发方式费时费力,而且开发出来的系统可 维护性比较困难,可再用性也很差。所以,构建一个水利领域的构件库是非常有 必要的。对于怎样实现这个构件库,以及怎样进彳亍检索都是需要研究的内容,也 是构建水利领域构件库的关键技术。 1 2 国内外研究现状 软件复用技术是近年来国内外软件界研究的热点之一,它能大幅度提高软 件质量和生产率,降低软件开发和维护的成本1 2 】。大规模的软件复用要求有足够 数量的构件支持,对这些构件的管理涉及到的构件描述和检索方法是实现软件复 用的一项关键技术。而有效的软件复用依赖于对构件的静态特性和语义信息作出 河海人学硕十研究生毕业论文 基丁本体的领域构1 ;,j :检索方法的研究 准确、全面的描述,并提供良好的检索方法支持。目前已经有许多组织和研究机 构对此作了大量的探索,但在构件描述的准确性、全面性、合理性以及构件检索 的有效性方面依然有很大的改进空间。 现有的构件描述和检索技术起源于好几个领域【3 5 】,目前比较有代表性的方 法包括传统的信息科学编目查询技术、基于框架、基于演绎、基于刻面和基于本 体的构件描述与检索方法。 ( 1 ) 传统的信息科学编目查询技术 早期比较具有代表性的是使用基于关键字匹配的传统的图书馆及信息科学 编目信息查询技术,这类检索方法主要是计算查询关键字与构件描述关键字之间 的匹配程度,在应用中也比较容易实现。但基于关键字匹配的查询无法体现出所 查询的关键字之问的逻辑联系,使得构件的查准率受到限制。目前已提出多种改 进方法,如s c o t th e n n i n g e r 提出利用传统的图书馆和信息科学中的激活扩散思 想,在构件检索中进行了有益的尝试。m a g w o l f d i e t e rm e r k l 提出将所有构件在 逻辑上组织成一个神经网络。将查询术语集转化为输入矢量,利用神经网络的竞 争算法获得结果:e d a m i a n i 则提出了基于模糊数学的、能够根据用户反馈信 息对模糊匹配值的计算参数进行自适应调节的方法。 ( 2 ) 基于框架( f r a m e - b a s e d ) 的构件描述与检索 在软件主体( a g e n t ) 和分布式计算领域提出的基于框架( f r a m e - b a s e d ) 的构件 描述和检索方法中,要求所有的构件和检索查询都用相同的预先定义好的词汇来 描述,即使用“属性一值对( a t t r i b u t e - v a l u ep a i r s ) ”来对构件进行分类描述。目前大 部分商业化的构件服务搜索技术( 例如j i n i ,e s p e a k , s a l u t a i o n , u d d i ) 都使用基 于框架的方法。这种方法通过构件描述和检索查询都使用相同术语的方法来提高 查全率和查准率,但它是以要求所有的构件服务都用框架进行建模为代价的,使 其灵活性受到制约,在实践中比较难以推广应用。 ( 3 ) 基于演绎的构件描述与检索 b f i s c h e r 等人提出的基于演绎的检索方法将基于框架的方法往前推进了 一步。它首先使用逻辑方法形式化地说明构件服务的属性( 例如输入、输出、功 能【前置、后置条件,不变量】、性能等) ,然后通过证明某个构件是否实现了检 索查询所描述的服务属性来进行构件检索。这种方法要求预先定义的逻辑谓词不 存在冗余,并且对所有的构件服务和检索查询都进行了完全形式化的规约,才能 2 河海人学硕士研究生毕业论文基丁本体的领域构件检集方法的研究 获得比较理想的查全率和查准率。 与此类似的有a m ym o o r m a n n 等人针对构件的形式化规格说明提出的型构 ( s i g n a t u r e ) 匹配( 接口规约) 和规约匹配( 功能规约) ,对构件的行为特征作形式化说 明以排除自然语言描述的二义性和不准确性,并且还可以利用规约说明之间的偏 序关系来组织构件库中的构件存储。基于规约匹配的构件检索能够提供层次丰富 的规约匹配类型,所以能够较好的满足用户对构件检索查准率和查全率的综合要 求。 但是,这些方法面临两个十分严峻的现实困难:( 1 ) 用形式逻辑对所有构件 服务语义进行建模的代价十分高昂;( 2 ) 这种方法中的证明过程的计算复杂度很 高,从而导致系统性能难以提高。尤其是第一方面的问题限制了基于演绎的检索 方法的可扩展性,使得它很难成为实用的构件服务检索方法。 ( 4 ) 基于刻面的构件描述与检索 基于刻面的描述是一种目前正逐步得到重视和应用的描述方法。基于刻面 的描述方法中,一个构件可以用多个刻面以及每个刻面中的多个术语来刻画,不 同的刻面从不同的角度对构件进行描述。这些特征使刻面方法能够从多个角度、 多个方面对构件作出更为全面的描述,在应用中取得了良好的效果。r u b o n p r i e t o d i a z 等人提出了以传统的数据库检索技术为主的刻面检索方法,并结合同 义词匹配和术语的一般一特殊关系匹配来改进检索性能。在以往的研究中,还引 入了无序树匹配的思想,提出了一个包含四个匹配层次的、赋有匹配代价计算的 构件匹配模型,使得查询用户可以通过匹配层次的选择以及匹配代价的计算等手 段,在保证构件检索的查全率的情况下有效地提高构件检索的查准率。 基于亥4 面的方法相比传统的基于关键字的方法有了很大进步,但也存在着一 定的局限性,主要体现在:i ) n 面树和术语空间的表达能力有限,例如刻面之间主 要是组成关系,而术语之间主要是一般特殊关系和同义关系;2 ) 术语空间往往只能 体现一种概念分层模式,限制了构件描述的灵活性;3 ) 匹配的灵活性不够;4 ) n 面 及术语方案往往只能满足构件高层描述的需要,无法体现特定领域的描述内容。 ( 5 ) 基于本体的构件描述与检索 由于本体描述的无二义性和逻辑推理的精确性,o w l 语言及本体的相关技 术被应用于构件描述和检索的研究中。国外对于本体的研究相对较早,已经有许 多的应用和实现【6 】。比如:a d o b e 的可扩充元数据平台,w 3 p h o t o ,s u n 的“剑鱼”, 河海人学硕十研究生毕业论文基丁本体的领域构1 ,i = 检索方法的研究 b r a n d s o f t 以及s e m a v i e w ss h e r p a 等。 国内在本体方面的研究还处于初级阶段,但在一些领域尤其是信息检索领域 已经有一定的研究和应用。比较有影响的有中科院数学所陆汝钤研究员领导的常 识知识的实用性研究 7 1 ,中科院计算技术研究所曹存根研究员主持的大规模知识 系统的研究嗍,以及中科院数学研究所金芝研究员研究的基于本体的软件需求获 取方法【9 】等。其他的主要有上海交大的a p e x 实验室俞勇教授,东南大学计算机 科学与工程系瞿裕忠教授主持的一些研究项目比较有代表性,北师大情报学,吉 林大学,哈工大等也正在致力于o n t o l o g y 及o n t o l o g y 应用的研究。 1 3 本文的研究工作 在信息检索研究领域,语义检索涉及到众多概念和实体,如o n t o l o g y 、受控 词表等,语义w e b 的提出和发展为语义检索的实现开辟了一条崭新的思路。语 义检索所包含的技术很多,故难以在本篇论文中面面俱到,本文的目的是从基于 本体的描述与检索手段入手,重点研究利用本体技术实现在水利领域中的构件检 索。 本文主要研究本体的相关知识,水利领域的业务逻辑,以及基于本体的构件 的描述与检索的框架,在相应的理论基础上,建立试验环境与试验平台,建立基 于本体的水利领域构件的描述方案,利用相应的本体生成工具生成构件并入库, 利用基于该方案的构件检索方法进行相应的试验,并在构件的查全率、查准率上 有所突破。 本文拟解决的重点问题是基于本体的水利领域构件的描述,构件入库,因为 构件检索是基于构件描述的,构件检索方法的好坏必须要依赖于构件描述方案的 优劣,同时在查全率与查准率上有所突破。 1 4 本文的组织结构 本文共分为六章,第一章绪论介绍了本文的研究背景和意义,构件检索方法, 构件描述模型的国内外的研究现状,并阐述了已有的构件的描述与检索方法,以 及本文的主要研究内容。第二章主要介绍了软件构件技术,介绍了构件的定义, 构件的特点,以及构件分类。并介绍了当前研究的几种主要的构件检索方法,分 析比较了这几种检索方法的优劣。以及介绍了作为语义和知识层次上的建模工具 4 河海人学硕+ 研究生毕业论文基于本体的领域构件检索方法的研究 本体的概念,本体的描述语言o w l 。第三章针对水利领域的应用背景与现 状,研究了领域本体的建立方法,在本体语义的基础上,设计了基于本体的水资 源领域构件的信息描述表。第四章主要介绍了基于本体描述的构件检索的过程, 并给出了语义检索的匹配实例。第五章主要介绍了基于本体的水利领域构件检索 系统,给出了系统的体系结构,并介绍了主要的功能模块以及j e n a 本体开发工 具包第六章总结了全文的内容,并对今后的工作做了展望。 河海人学硕十研究生毕业论文基丁本体的领域构什检索方法的研究 第二章构件检索方法及相关技术 本章主要讲述本文用到的相关技术,包括软件构件技术,本体及本体描述语 言,以及当前研究的几种构件检索方法,并对这几种构件检索方法进行了分析。 2 1 软件构件技术 2 1 1 构件的定义 构件( c o m p o n e n t ) 的概念来源于软件复用。早在1 9 6 8 年,在北大西洋公约组 织( n a t o ) 会议上就提出了软件复用的概念,后来还为此制定了一整套软件复用 的指导性标准,其中包含了利用标准构件实现软件复用的基本思路。也就是在这 次会议上,m c l l r o y 在题为( m a s s p r o d u c e ds o f t w a r ec o m p o n e n t s 的论文中首次 提出了构 牛的撅念。构件技术作为支持软件复用的核心技术,正越来越受到人们 的重视。构件的定义也随着时间的推移及其它相关软件开发技术的发展而逐渐演 化”o j 。构件的发展经历了以下三个阶段: 二十世纪六十年代末到八十年代初,结构化的软件开发思想开始占主导地 位构件指的就是一些定义良好的方法包或者是功能模块。 八十年代起,面向对象的开发思想开始发展起来,构件指的就是类库。这时 候的类虽然具备了一定的封装、多态和继承性,但是还需要依赖具体的编程语言, 因此不能完全表达到可移植性和互操作性的要求。 九十年代后,构件的内涵开始得到加强,聚合性、独立性和复用性得到进一 步提高。此时构件的定义得到了迸一步完善。 目前主要的构件定义有: s a l n e t i n g e r 认为:构件是自包含、可清晰标识的片断,执行特定的功能,有 着清楚的接v i 、恰当的文档和己定义的复用状态 t t 】。 o m g 组织在制定u m l 规范时认为;构件是系统的一个物理的、可替换的 部分,它包装实现并且提供了一组接口的实现。一个构件表示系统实现的一个物 理部件,包括软件代码或者其等价物,如脚本或命令文件等【1 2 】。 著名软件构件学者s z y p e r s k i 认为:构件是一个带有契约化接口规约和显示 上下文依赖的组装单元,构件可以被独立发布并且可以被第三方组装。该定义已 6 河海人学硕士研究生毕业论文 基于本体的领域构f t 检索方法的研究 被广泛的接受。 卡内基美隆大学软件工程研究所的b a c h m a n 认为:构件是非透明的功能实 现,可供第三方组装,并遵循一个构件模型【1 4 1 。 h e i n e m a n 认为:构件是这样的构件元素,它符合一种构件模型,能被独立地 部署,且可未经修改地依据一种合成规范被组装。 北京大学杨芙清认为:构件是可以被复用的软件实体,由构件规约与构件实 现两部分组成。其中,构件规约主要由构件模型进行描述【】6 1 。 计算机科学技术百科全书对软件构件的定义为:软件系统中具有相对独 立功髭,可以明确辨识,接口由规约指定,与语境有观显依赖关系,可独立部署, 且多由第三方提供的可组装软件实体软件构件需承载有用的功能,并遵循某种构 件模型【。 综上所述,可以知道,构件是具有特定功能的、可重用的并能够独立工作或 能同其它构件一起组装构造其它软件的独立的软件单元。或者说,构件作为一种 软件单元是可以独立的制造、分发、销售、装配的。 2 1 2 构件的特点 从构件本身的特征来说,构件是可重用的、自包含的、独立于具体运用的构 件对象模块。构件作为系统的一个特定的功能单位,主要出四部分来组成:构件 标识符、构件说明、构件体、接口。把构件说明和构件体分开的原因是考虑到同 一个构件说明可以由不同的程序设计语言来实现。即使同一个构件也可以有多个 不同语言实现的构件体。构件的接口不仅要提供外部物理实现接口,而且还要提 供一个外部逻辑接口,外部逻辑接口是给用户提供一个非形式化的该构件的功能 描述,这样更能方便用户了解和使用构件。构件模型是关于开发可重用构件和实 现构件之间相互通信的一组标准的描述。有了构件及构件模型的出现,使得软件 开发者可以快速地构造出所需的应用软件。以便减少软件开发所需的经费、缩短 开发周期和提高效率,并且可以在重用已有开发的基础上得到高质量的、完全可 靠的软件产品。 软件构件应该具备以下几个特征【1 8 】: ( 1 ) 自描述构件必须能够识别其属性、存取方法和事件,这些信息可以使开发 环境将第三方软件构件无缝地结合起来; 7 河海人学硕十研究生毕业论文基丁本体的领域构什检索方法的研究 ( 2 ) 可定制提供一个典型的图形方式环境,软件构件的属性只能通过控制面板 来设置; ( 3 ) 可集成构件必须可以被编程语言直接控制。构件也可以和脚本语言连接或 者从代码级访问构件的环境连接,这个特性使得构件可以在非可视化开发项目中 使用; ( 4 ) 连接机制构件必须能产生事件或者具有让程序员从语义上实现相互连接 的其它机制。这意味着程序员可以很容易地向按钮添加代码,使点中按钮就可以 影响其它构件的动作。 由构件的特点可以看出,都强调了构件的独立性、互换性和功能性,即构件 不依存于某一个系统,它可以被相同功能的构件所替换,并且具有实际的功能意 义。 2 1 3 构件的分类 对大量构件进行分类有三个好处:便于组织管理、方便查询和辅助理解。构 件分类是建立和维护构件目录信息的活动,构件的检索方法依赖于构件的表示和 分类。从不同的角度可以对分类模式进行不同的划分:h m i l i 根据构件检索的复 杂度将构件分为基于文本的、基于词法描述子的和基于规约的描述方法三类【1 9 】; w f r a k e s 从构 串的表示出发将现有方法分为人工智能方法、超文本方法和信息科 学方法三类 2 0 l 。基于人工智能的构件分类方法又可以细分为基于构件行为的分类 方法、基于知识库的构件分类方法和基于神经网络的构件分类方法等。信息科学 方法在实际构件库的项目中应用较为成功,一般分为基于受控词汇表( 如枚举、 刻面) 分类和基于不受控词汇表( 如关键词) 分类两种形式。 在信息科学分类方式中,基于受控词汇表的分类方法为研究的重点,它的主 要特点就是用来进行分类检索的词汇表是一个有限集合,主要包括枚举分类方 式、刻面分类方式和关键词分类方式。基于不受控词汇表的分类方法,一般是对 构件描述信息的全文进行处理的方式,如从正文抽取术语,词汇表是一个无限集 合。下面是对几种常用分类方式的简要介绍: 枚举分类通常将一个被关注的领域严格划分为若干不相交的予领域,构件按 照某些性质分成若干大类,每个大类又可分为若干小类,经过若干次分解形成构 件的层次结构,实际的构件位于层次结构的最低层,其它层次则表示构件所属的 8 河海人学硕十研究生毕业论文 基于本体的领域构件检索方法的研究 父类或祖先类。该方法对问题域进行清晰的高度结构化的划分,概念清晰,易于 理解和使用。但是该方法比较严格,通常只提供一种视角,使得分类模式难以伴 随领域的变化而演化,所能够表示的关系也受到限制。枚举结构的创建者必须具 有完整的领域知识,在建立层次结构之前,必须进行领域分析以寻找合适的供分 类的性质,因此建立恰当的枚举结构需要花费相当的代价。 层次分类这种分类方法的本质是层次型的先把所有的构件划分为一些 高层的( 大的) 种类,再把每个种类划分为一些层次较低的( 较小的) 种类,层次结 构的最低层就是构件。层次结构的中间层实际上是一组构件所属的种类。使用者 在寻找构件时从高到低逐层判断自己要找的构件应该属于哪一类,可以较快地收 敛到所要寻找的目标。这类方法的主要缺点是:按照某种标准划分构件的种类可 能只适合一部分构件,而另一些构件可能不适合按这种标准分类。 关键词分类每个构件以一组与之相关的关键词编目,用主题进行描述,主题 多为短语。每个主题下可有多个描述子,多为单词。查询者给出关键词来描述所 需的构件。该方法能够根据构件文档自动抽取术语补充到术语空间中,可节省人 力。其难点在于抽取术语的精确度,例如出现频率高的术语不一定是描述构件的 本质术语。对术语的抽取一般需要人力进行判断,工作量较大。 ;属性值分类该方法为所有构件定义一组属性,每个构件都用一组“属性值” 进行描述,开发人员通过指定一组“属性殖”对构件库进行检索。“属性,值”描 述方法与下面将要介绍的刻面描述方法非常类似,不同的是:刻面对应的术语空 问是有限的不定空间( f i n i t ea n di n d e f i n i t et e r ms p a c e ) ,而属性的值域往往是无限 的确定空间( i n f i n i t ea n dd e f i n i t ev a l u es p a c e ) ;刻面的选择也远比属性要慎重;刻 面一般不超过7 个,而“属性值”法没有限制属性没有优先级,刻面则可设置 优先级;“属性值”方法中不使用同义词功能,而刻面的术语可定义同义词关系。 刻面分类该机制是将术语置于一定的语境中,并通过特定的反映构件本质特 性的视角( 刻面) 进行精确的描述。构件管理者通过将刻面与对应的术语相联结, 可以在构件问建立复杂的联系。与一般的分类策略相比,刻面分类策略更易于修 改,更富有弹性,因为对一个刻面的修改不会影响到其它的刻面,同时每个刻面 对应一个结构化的术语空间,避免了一般的关键词分类策略的杂乱无章,使得对 关键词的管理更为方便和有序。 在上述各种分类模式中,刻面分类方法从若干不同的维度描述复杂对象,弥 9 河海人学硕十研究生毕业论文基丁本体的领域构什检索方法的研究 补了关键词分类策略的杂乱无章,结构上比属性值分类更为合理,也没有枚举 分类方法开销大,并且容易扩展。具有枚举、属性值和关键词分类几种方法的 优点。也正是因为它的诸多优点,它被n a t o 组织采纳和推荐使用,是目前使 用最为广泛的一种分类模。 2 2 构件检索方法概述 2 2 1 当前研究的几种构件检索方法 构件的检索方法依赖于构件的分类描述,针对各种构件分类方法,相应的构 件检索方法也一一提出:如z a r e m s k i a m 等人针对构件的规约描述方法提出利 用基调匹配( s i g n a t u r em a t c h i n g ) 和行为匹配( b e l l a “o r a lm a t c h i n g ) 1 2 1 】来检索构 件,a n d yp o d g u r s k i 等人针对构件的行为描述方法提出的基于构件行为采样的检 索 2 2 1 。许多研究学者也提出了将神经网络【2 3 1 、模糊数学【2 4 】、关联传动【2 5 】等方法 应用于构件检索的思路。 根据上述介绍的各种构件分类方法,选取各类中比较具有代表性的构件检索 技术作一些概述。 1 基于规约描述方法的构件检索技术 基于规约描述方法的构件检索技术根据规约描述的具体形式不同,主要可分 为基调匹配( s i g n a t u r em a t c h i n g ) 和行为匹配( b e h a v i o r a lm a t c h i n g ) 两类。构件检 索时,用户首先写出需求规约,然后提交。构件检索的实际过程一般由证明器根 据构件规约与需求规约间的某一偏序关系进行检索,构件库中的构件一般按照构 件规约问的偏序关系来组织。这样,在构件检索时检索历程可以大大减少需求规 约与构件规约比较的数目,从而提高检索效率。 基调匹配就是利用函数或模块中的函数的数据类型信息,利用变量重命名 ( v a r i a b l er e n a m i n g ) ,看能否通过对用户所需求的函数基调中的变量通过重命名 来与构件库中一个函数的基调匹配闭。这类似于自动定理证明中常要用到的合一 ( u n i f i c a t i o n ) 概念。显然,基于基调的构件检索还只是停留在语法匹配的层次上, 一个函数或构件的基调不能反映出该函数的语义或功能。如用户检索一个计算平 方根的函数,用户规约为( 假设只是基于基调检索) :f :r e a l r e a l ,即所要检索的函 数以实数类型为参数,返回值为实数类型。显然,s i n ,c o s ,t g 等三角函数都满 河海大学硕士研究生毕业论文基于本体的领域构件检索方法的研究 足要求,因而查准率将会降低。因此,在实践应用中,基于基调的检索一般被用 作构件检索中的前置过滤手段以达到对构件进行粗选的目的。在它的后端一般要 进行更复杂的行为匹配检索以进一步提高检索的查准率。 对于利用行为匹配来件索构件的技术,a m z a r e m s k i 做了较系统的阐斛拥。 文中用前件后件( p r o p o s t - c o n d i t i o n s ) 来描述构件的行为,并定义了各种匹配情 况,如精确前后件匹配( e x a c tp r e v o s tm a t c h ) 、嵌入匹配( p l u g - i nm a t c h ) 、嵌入 后件匹配( p l u 乎i i lp o s tm a t c h ) 、弱后件匹配( w e a kp o s tm a t c h ) 、精确谓词匹配 ( e x a c tp r e d i c a t em a t c h ) 、通用匹配( g e n e r a l i z e dm a t c h ) 、专用匹配( s p e c i a l i z e d m a t c h ) 等概念。文中提出从两种视角来看待规约,并阐述了在这两种视角下具体 的规约匹配技术。假设构件的规约为s ,用户需求规约为q ,s p 玎,s p 。:分别为 s 的前件和后件,q 陌,q 嘲:分别为q 的前件和后件。文中提出的第一个视角 是将一个规约分成前件和后件两个部分。如对于前后件匹配,如果满足: s p 仃铮q 陆 s p 耐q 帆,那么就认为s 和q 是精确前后件匹配的。但是如果 只是满足:s p o s t :,q p 。则可认为s 和q 是一种放宽条件下的前后件匹配。文中 提出的第二个视角是将一个规约s 看成一个s 附j s 嘲,谓词结构。如果构件的 规约s 和用户需求规约q 满足( s p s p o a ) ( q p c r 等q p 曲则认为s 和q 是精 确谓词匹配的。如果只是满足:( s p s p 。0j ( q p e r :j q 嘲) 或者( q p 。j q r 曲、 ( s 陌s p 嘣) 则可认为s 和q 是一种放宽条件下的谓词匹配。这种检索方法具有 很高的准确率,但其缺点也是形式化方法所共有的,即代价较高。 2 基于人工智能的构件检索技术 ( 1 ) 基于构件行为采样的构件检索技术 基于构件行为采样的构件检索技术是针对基于构件行为的分类方法提出来 的,它的基本思想是,利用软件构件的执行能力来检索构件。由构件的开发者对 每一个构件选用一些典型的实际数据作为输入,然后得到该构件的输出数据。用 输入数据、输出数据及返回类型作为构件的一个采样。该构件库中的构件集合为 c = c i ,c z ,c n ) ,设采样集合为s = s l ,5 2 ,s m ) ,定义二元关系r c _ c xs , r = ( c ,s ) ) c c ,s e s 且s 是c 的一个采样) ,则三元组( c ,s ,r ) 为一个构件库的 形式化环境( f o r m a lc o n t e x o 。( c i ,s i ) 称为一个概念,其中c i ,s i 分别为c 和s 的子集,且v c c i ,vs e s i ,s 是c 的一个采样。概念间的偏序关系定义为( c l , s i ) ( c 2 ,s 2 ) 当且仅当c l 是c 2 的子集( 或等价的s l 是s 2 的子集) 。两个概念 河海人学硕十研究生毕业论文基丁本体的领域构什检索方法的研究 间的最大下界a 定义为( c l ,s 1 ) a ( c 2 ,s 2 只c i n c 2 , s i s s 且对所有 c e c l n c 2 ,( c ,s ) r ”;两个概念间的最小上界v 定义为( c l ,s 1 ) v ( c 2 ,s 2 ) = ( s l n s 2 ,( c i c c 且对所有s s l n s 2 ,( c ,s ) r ) ) 。所有概念形成一个完备格 ( c o m p l e t el a t t i c e ) 。这样就把一个软件构件库构造成一个格结构并可以用概念分 析技术来检索构件。在检索时,假设用户提交的预期采样( 即用户以选定的数据 作为输入数据,并以其想要的输出作为输出数据,以及返回值类型来构造的采样) 为s l ,s 2 ,s k ,则构件检索过程将返回具有s 1 ,s 2 ,s k 的构件【2 扪。 a n d yp o d g u r s k i 应用概率论的知识在一定程度上证明了利用这种以用户提供 输入,在构件库中的软件构件上执行,并比较执行结果和用户提供的输出之间的 异同,以此来匹配软件构件的构件行为采样方法进行构件检索的可能性 2 9 1 。进一 步,他指出当采样数据的规模( 即输入、输出数据对的数目) n 2 2 时,该方法可 以从理论上保证该检索方法具有很高的查准率。并且,他还进行了大量的统计实 验,从中得出了以下的实验结论:在一般情况下8 3 的构件检索只需要n 茎3 就 可以准确的检索到所要寻找的构件。 ( 2 ) 基于知识的构件检索技术 这类检索技术所基于的构件描述方法是对软件构件的自然语言描述进行一 些词法、句法和语义的分析,并用一个知识库来存放应用领域以及自然语言本身 的语义信息。因此,基于知识的构件检索技术的基本原理是:构件检索时,根据 用户提出的各种要求,生成系统内部的提问形式,启动推理机求出结果,以用户 易读的形式显示。常用的有语义网和框架描述形式,如m u r r a yw o o d 等人应用概 念依赖模型,采用框架形式,描述和检索构件,不过这种方法需要相当丰富的框 架。b e r t r a n dl b r a h i m 等人开发的r o s a 系统,通过对软件构件的自然语言描述 进行语法、句法分析来确定软件构件的语义,再用同样方法处理的用户请求信息 进行匹配。 ( 3 ) 基于神经元网络的构件检索技术 m a g w o l f d i e t e rm e d d 在他的博士论文【刈中首次提出了将构件库中的所有构 件在逻辑上组成一个自组织的神经网络的思想。该方法使用神经网络技术,依据 软件构件功能的相似度来构造构件库。例如,功能相似的构件被安置在相邻的位 置。这样,构件之间的相似度就变得清楚了,因为它受构件间的地理相近度决定。 该方法检索过程如下:用户的查询术语集合通过系统首先转化为一个输入矢量, 1 2 河海大学硕+ 研究生毕业论文基丁| 本体的领域构什检豢方法的研究 然后将该矢量输入进该神经网络,通过竞争后,在网络的输出层得到一个优胜的 节点( 该网络输出层的节点与构件库中的构件在逻辑上具有对应关系) ,最后将该 优胜节点以及其一定领域范围内的所有节点所对应的构件作为本次检索所得到 的结果反馈给用户。 神经元网络为依据用户的适当评价递增地改变概念距离权值提供了理想的 框架该方法的技术关键在于网络的学习算法和竞争算法。该项技术最大的优点 在于它可以通过竞争学习,自组织的将构件按语义相关性进行逻辑上的组织,以 方便构件的检索。它解决了组合爆炸问题:在基于分类方法的检索系统中,相似 度计算通常用一个概念距离图来实现,该图建立了分类方法中限制词汇表中术语 的相似度。当软件构件库很大的时候,对该图的手工调整是
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年英语教育专业考试试题及答案
- 2025年智能制造工程师资格考试题及答案
- 2025年心理学研究方法专业考试试卷及答案
- 2025年翻译专业硕士研究生入学考试试题及答案
- 2025年数据科学与大数据技术专业入学考试卷及答案
- 2025年心理健康指导师资格考试试题及答案
- 电梯安全运行监测系统维护保养与改造升级合同
- 知乎付费专栏专业内容合作开发与知识传播合同
- 老龄大学教学成果转化与运营合作协议
- 高端工业机器人系统集成与市场拓展合同
- 【上市公司内部控制问题及对策的案例探析:以小米集团为例11000字(论文)】
- 福建省福州市仓山区2023-2024学年六年级上学期期末数学试卷
- 先天性肠旋转不良疾病演示课件
- 广西陆上风电项目规划清单
- 考试工作先进个人事迹
- 反假货币培训
- 《延年益寿养生方法》课件
- 《全的针灸方法》课件
- 纸箱采购投标方案(技术方案)
- 仪 器 设 备 购 置 申 请 表
- 外科学(2)智慧树知到课后章节答案2023年下温州医科大学
评论
0/150
提交评论