已阅读5页,还剩84页未读, 继续免费阅读
(计算机应用技术专业论文)基于刻面分类的构件检索技术的研究与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于刻面分类的构件检索技术的研究与实现摘要 论文题目:基于刻面分类的构件检索技术的研究与实现 专业:计算机应用技术 硕士生:傅翠云 指导教师:常会友教授 摘要 软件复用是解决软件危机、实现软件开发工业化生产的有效途径。构件的分 类和检索是软件复用技术的基础,良好的分类方法和高效的检索方法能大大降低 软件复用成本。一个有效的构件分类与检索方法应包括详细规范的构件描述、合 理准确的分类体制、快速交互的检索方式以及全面友好的检索结果。 本课题以广州市科技局立项提出“面向制造业信息化与电子政务领域的软件 构件库平台 ( 项目编号:2 0 0 6 2 1 d 6 0 2 1 ) 为背景,研究构件分类与检索技术。 本文的构件分类采用扩展性较强、性能较均衡的刻面分类方式,以x m l 作 为其刻面树描述语言。现有匹配模型和查询方法理解能力不高、匹配代价较大、 查询负担较重、检索性能难以均衡。针对存在的问题,本文实现了一种对构件 x m l 描述文档进行全文检索的构件检索方法,在索引过程中增加了术语的结构 化信息,提高关键字定位的准确性,增强用户同检索工具之间的交互能力。为了 表达领域构件库中大量的领域知识,本文自定义了五种语义关系及其推理规则, 实现了基于这五种语义关系的语义库,对查询条件进行概念化、语义扩展和简单 推理,从而提高了检索工具的理解能力,弥补用户与检索工具概念上的语义偏差, 为模糊匹配提供一定的语义支持。最后,本文定义了一种基于向量模型的结果评 价公式,综合考虑用户需求、术语的表达能力和术语与文档的关联度,依据公式 的计算结果,降序排列检索到的构件,将更贴近用户需求的构件优先返回给用户, 增强了检索结果的友好度。 本文提出了一种基于语义库的构件刻面检索方法,经过实验证明,检索结果 令人满意,查全率、查准率和检索效率等性能均衡,是一个可行、有效的构件分 类与检索方案。 关键词:刻面分类,构件检索,x m l ,全文检索,语义库,结果评价 基于刻面分类的构件检索技术的研究与实现 t 硪:n er e s e a r c h 孤di m p l e m e n t a t i o no fc o m p o n e n tr e t r i e v a l r e c l m o l o g yb a s e do nf a c e t e d c l a s s i f i c a t i o n m 鼍陋:c o m p u t e ra p p l i c a t i o nt e c l l l l o l o g y n 锄e :f uc u i y u n s l l p c r v i s o f :p r o f e s s o rc h 孤gh u i y o u a b s t r a c t s o f t w a r er e u s ei sa ne f ! f e c t i v ew a y0 ff o r e s t a l l i n gt h es o f 研a r e s i sa n d r e a l i z i n g t h ei n d u s t r i a l i z a t i o no fs o f t w a r e d e v e l o p m e n t t h ed a s s i f 主c a t i o n a n d r c 蝻e v a lo fr e u s a b l es o f | w a r ec o m p o n e n t sj sab a s i ci s s u ei ns o f w a r cf e u s e a p p r o p r i a t ec l a s s i f i c a t i o ns c h e m a 锄d r e t r i e v a la p p r o a c hw h i c hp r o v i d ec a n o n i c a l d 笛c f i p t i o no fc o m p o n e n t s ,a c c u f a t ed a s s i f i c a t i o ns c h e m a ,i n t e r a c t i v er e t r i e v a l a p p f o a c ha n du s e r - 倒e n d l yr e s u i t sc o u l dg r e a t l yr e d u c et h ec o s t0 fs o f 时a r er e u s e t h et h e s i sr e s e a r c h e so nt h ed a s s i f i c a t i o ns c h e m aa n dr e t r i e v a la p p r o a c ho v e r t l 垃m a n u f a c t u r i n gi n f o r m a t i z a t i o n 锄de g o v e m m e n to r i e n t e ds o 脚a i e c o m p o n e n tl i b r a r y ( m g s c 乙n o 2 0 0 6 2 1 - d 6 0 2 1 ) s i n c ef a c e t e dc l a s s i f i c a t i o nd e s c r i b e sc o m p o n e n t s丘o mm u l t i d i m e n s i o n a l 弱p c c t sw i t hs t r o n ge x p a n s i b i l i t y ,t h et h e s i sc o n 黜a t e so nf a c e t e dc l a s s i f i c a t i o n m o d e la n di t sf a c e t e dt r e ei nt h ef b 彻o fx m ld o c u m e n t ( 乃n c e m i n ga b o u ti t s r e t r i e v a l ,t r a d i t i o n a lf a c e t e dc l a s s i f i c a t i o nl a c l k so fu n d e r s t a n d i n go fk n o w l e d g ea n d i t s 仃e em a t c h i n ga l g o r i t h mi sh i g h c o s tw h e r e a sx m lq u e r ym o d e lh a sa 伊e a t p r 璐s u r eo nu s e r s t bs o l v et h o s ep m b l e m s ,t l l et h e s i sp r o p o s e saf u l l t e x tr e t r i e v a l a p p r o a c ho nt h ec o m p o n e n t s x l 订ld e s c r i p t i o nd o c u m e n t s t h ea p p r o a c hi n d e x e s d a l a ss t n l c t u r ei n f o 珊a t i o ni nt h ei n v e n e dt a b l et ol o c a t et h ek e y w o r d w h i c h 伊e a t l y i m p r 0 v e st h er e c a l l ,e f f i c i e n c ya n di n t e r a c t i o n t be x p r e s sal a 唱e 锄o u n to fd o m a i n l ( i 姒v l e d g ei nd o m a i nc o m p o n e n tl i b r a r y ,t h et h e s i sd e f i n e sf i v el 【i n d so fs e m a n t i c f c l a t i o n s h i p s ,d e s i 髓sa n di m p 】e m e n l sas e m 彻t i c1 i h a 秽l oc x t e n tt h eq u e r yt o a 出e v eb e t t e ru n d e r s t a n d i n go fu s e r s q u e 巧觚di m p r 0 v ep r e c i s i o n f i n a l l y t h c t h c s j sd e f i n e s 觚e v a l u a t i o nt oo b t a i nm o s t 崩c n d l yr c s u l l s0 nt h et o p t h ef a c e t e dr e t r i e v a la p p r o a c hb a s e do ns e m a n t i cl i b m 叮h a sb e e ns u c c e s s f t l l l y a p p l i e dw i t hh i g hr e c a l la i l dp r e c i s i o na n dt h ef e a s i b i l i t ya n de f f i c i e n c yi sp r 0 v e ni n t h ee x p e r i m e n t k e yw o r d s :f a c e tc l a s s i f i c a t i o n ,c d m p o n e n tr e t f i e v a l ,x m l f u i l t e x ts e a r c h , s 嘲a l l t i cl i b r a 礴r e s u l t se v 越u a t i o n 原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研究 工作所取得的成果。除文中已经注明引用的内容外,本论文不包含任何其他个人 或集体已经发表或撰写过的作品成果。对本文的研究作出重要贡献的个人和集 体,均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。 学位论文作者签名: 乃磅辞泛 日期:加蝇年j 月p 日 学位论文使用授权声明 本人完全了解中山大学有关保留、使用学位论文的规定,即:学校有权保留 学位论文并向国家主管部门或其指定机构送交论文的电子版和纸质版,有权将学 位论文用于非赢利目的的少量复制并允许论文进入学校图书馆、院系资料室被查 阅,有权将学位论文的内容编入有关数据库进行检索,可以采用复印、缩印或其 他方法保存学位论文。 剥签名勿仓导师签名:吖哆 基于刻面分类的构件检索技术的研究与实现 第1 章引言 1 1 课题背景和意义 1 1 1 课题背景 第1 章引言 计算机技术在各领域蓬勃发展,软件开发的规模越来越大,如果每个应用 软件系统都从头开始开发,其过程存在大量的重复劳动,软件工程的目标在于 提高软件生产效率和软件质量,实现软件工业化生产。 上个世纪6 0 年代,计算机硬件的高速发展,硬件成本不断降低,计算机价 格下跌为计算机的广泛应用创造了极好的条件,软件需求亦不断提高。大型软 件的开发过程出现“软件危机”,即开发复杂度高、开发周期长、正确性难以 保证等等。“软件危机 引发了人们对软件复用的研究。在1 9 6 8 年垤0 软 件工程会议上,m c l h o y 在邀请论文【1 】中首次提出可复用构件和构件库的思 想。应用系统中可以明确辨识的构成成分称为构件,具有相对独立的功能和可 复用价值的构件称为可复用构件。应用软件系统通常包括三种成分:通用基本 成分,包括基本数据结构、用户界面元素等,可独立于具体应用软件系统,通 用于各种应用系统;领域共性成分,应用软件系统所属领域的共性构成成分, 可存在于该领域不同的应用软件系统;应用专用成分,每个应用软件系统的特 有构成成分。软件复用通常是指在开发新的软件系统时,对上述通用基本成分 和领域共性成分的进行重用。软件复用发生在构造新的软件系统的过程中,重 复调用某段源代码,程序的重复运行和分布式系统中的软件拷贝均不属于软件 复用【2 1 。随着对软件构件理解的不断深化,构件的概念已从可复用源代码扩展 到系统和构件的需求规约、构架、文档、测试用例、数据以及其他对开发活动 有利的信息1 3 j 。 软件工程界普遍认为软件复用具有以下优势:提高软件生产率;提高软件 产品质量;降低软件开发成本;缩短开发周期;便于软件移植和实现互操作性; 支持快速原型开发;降低程序员和终端用户的培训成本等等。 构件库是软件复用的基础设施,为软件复用提供必要的平台和技术支持。 1 基于刻面分类的构件检索技术的研究与实现第1 章引言 软件供应商们可以向各大型构件库购置基础性构件和部分公共业务构件,而自 己只需负责创建部分公共业务构件和所有专业领域构件。当前国内外构件技术 已取得显著成果,国内著名的构件库有北大软件工程中心开发的公共软件构件 库和上海构件库,国际上著名的构件库有r e b o o t 、s 0 u r c e f o r g c 【4 1 、c o m p o n e n t s o u r c e 【5 】等。 广州面向制造业信息化和电子政务的软件开发发展多年,但由于客观条件 的限制,目前构件化技术的应用范围还局限于企业内部,重用的范围局限于单 个的企业,尚未形成广泛的构件化开发成果的共享基础。为了有效实现构件复 用并推动领域工程工业化生产,广州市科技局立项提出课题“面向制造业信息 化与电子政务领域的软件构件库平台”( 项目编号:2 0 0 6 2 1 一d 6 0 2 1 ) ,简称 m g s c l ,由广州市天剑计算机系统工程有限公司、中山大学和广州华南资讯科 技有限公司三方合作研发。该项目的总体目标是研究大规模构件库建设与应用 技术,结合广州市制造业和电子政务领域应用特色,开发一批具有特色的软件 构件,形成面向制造业应用的大型构件库,服务于广州信息化事业。中山大学 在本项目中作为技术支撑单位,建立一种在理论上完善完备的同时又简单、易 于实现的构件模型。在此基础上建立m g s c l 构件库系统,提供构件的发布、 查询、下载、组装和调用等服务,实现跨越组织和技术边界的构件复用,提高 软件开发的生产效率。 1 1 2 课题意义 复用项目的成功通常有以下因素:在特定领域或充分理解的领域;领域知 识变迁缓慢;构件统一标准;形成一定市场规模,有大量复用需求;形成一定 技术规模,有大量有效构件。成功的复用项目必须提供满足大规模构件库的软 件技术要求【6 】。随着构件库规模的扩大,如何能有效检索和获取满足用户需求 的构件成为构件库构造的核心问题。对于复用者而言,单个构件的复用成本可 以表示为: 复用成本= 检索成本+ 获取成本+ 理解成本+ 修改成本+ 组装成本 ( 1 1 ) 对于构件库而言,单个构件的复用成本可以表示为: 复用成本= 获取成本+ 评价与认证成本+ 分类与存储成本( 1 2 ) 2 基于刻面分类的构件检索技术的研究与实现 第1 章引言 由于对构件库访问次数非常多,建立和维护构件分类索引的成本远小于因 此节省的用户检索和理解成本【3 1 。为了减少复用的成本,系统设计时应尽量降 低检索和理解成本,有效的构件检索机制能够大大降低构件检索和理解成本。 高效的检索是构件库管理极其关键的问题,必须提供一定的机制来对其中的构 件进行合理的组织,并以适当的方式将其存储在构件库中,在检索时根据构件 库组织结构将检索路径范围逐步缩小,从而协助构件库使用者从构件库中迅速 找到所需要的构件,有效的分类能实现高效方便的检索。因此,构件库高效检 索的核心就是良好的分类表示和高效的检索方法。 1 2 国内外研究现状 作为软件复用的基础设施,构件库一直是几十年来软件复用的研究热点和 重点,而构件分类和检索技术是影响复用成本的关键因素。在构件库系统中, 无论是构件的存储、检索,还是构件信息的反馈,每一项活动都依赖于构件系 统化的组织方式。构件的分类方式允许构件管理者将构件组织成一种有利于用 户检索的结构。构件的分类是构件检索的基础,主要研究分类模型和描述。同 时,分类方式还决定了检索的精确性和返回结果的准确性。构件检索在良好的 分类机制的基础上实现高效的检索方法。 国内外研究中出现了不少构件库系统和原型,其中使用的分类和检索方法 都基于构件库的一些共同概念和性质,同时存在定的差异。以下简要介绍几 个具有代表性的构件库和相关的分类和检索方法: ( 1 ) i 也b o o t 构件库系统【7 】:9 0 年代初期,欧盟信息技术计划e s p r r r 的 一个项目,由一个存储构件的重用库和一组支持构件生产、考查、分类、选择、 评估和装配的重用工具组成。它采用了刻面分类方法,定义了a b s t r a m i o n 、 o r a t i o n s 、o p e r a t e so n 、d e p e n d e n c i e s 四个刻面来描述系统所存储的面向对象 的源代码构件,辅助同义词典提供术语间语义关系的描述,其中a b s t r a c t i o n 描 述类对象,o p e r a t i o n s 为对象的操作,o p e r a t e so n 为操作对象,d e p e n d e n c i e s 刻画该构件与其他构件的关系。r e b o o t 刻面分类模型主要针对源代码级别的 构件,不具备模式、框架等描述粒度大、结构复杂的构件的能力。 ( 2 ) 青鸟构件库管理系统【1 】:国家“九五 重点科技公关项目“软件 3 基于刻面分类的构件检索技术的研究与实现 第1 章引言 工程环境( 青鸟c a s e ) 工业化生产技术及系统的研究与开发 中的核心组成 部分,可存储和管理广义的构件。构件的基本刻面包括环境、应用领域、功能、 层次、表示方法,采用了关键词、刻面、规约等多种检索方式。使用者可以用 刻面和属性的检索组合,层次地浏览和检索,并逐步求精。此外,使用者还可 以通过系统提供的反馈机制选取辅助分析。 ( 3 ) a g o r a 构件搜索引擎【8 1 :利用s p j d e r 技术在w e b 页面搜索i n t e m e t 上 的可复用标准构件,缺乏构件功能的语义描述信息,用户只能通过方法、事件 或者属性名称进行查询,不便于用户准确定位查询和使用构件。 ( 4 ) i b mr s l ( r e u s el i b r a r y ) 系纠9 】:结合刻面和关键词分类方法对构件 进行描述,但是不支持对分类法的扩展。 ( 5 ) r d f 【1 0 j :采用类似属性值分类法扩展构件描述,但是仅考虑取值受限 制的属性的表示,可扩展的属性类型比较简单。 ( 6 ) o w l s 【1 1 】:w e b 服务构件描述,使用本体技术建立构件描述模型, 能较强地支持构件理解,但局限于描述形势比较单一,缺乏可扩展的分类模式 定制和构件属性描述扩展机制。 通过对上述几种典型构件库和相关构件分类和检索技术的概述,可以看出构 件的分类和检索方法应多样化,不能把对构件的描述局限在某一种体制上。随 着领域知识的丰富,构件技术不断发展,构件的分类和检索方法应调整和扩展。 1 3 本文的研究工作 本文以m g s c l 为背景,研究可行的构件分类与检索方案。构件分类和检 索技术包括构件分类、构件描述与检索方法。构件的分类方法很多,其中刻面 方法使用最为广泛。刻面的分类与检索方案准确、高效,是检索代价、复杂性 和检索性能三者最均衡的方法,较其他分类方法更适合大规模的构件管理。刻 面分类下的构件描述信息为树形结构,以x m l 作为构件刻面描述信息的标记 语言符合刻面分类的树形结构,具有很强的扩展性,且能自定义复杂数据类型。 传统基于刻面分类的刻面树匹配模型和x m l 检索技术存在以下问题:无法表 达属性值之间的关系:由于用户理解与构件描述术语之间存在分歧,用户无法 用准确的关键字表达出自己的需求,往往造成查全率低或者检索结果与用户的 4 基于刻面分类的构件检索技术的研究与实现 第l 章引言 真实需求有很大出入;刻面树查询匹配的代价较高,无法保证较高的查询效率; x m l 检索工具依赖于结构化信息,对用户的表达能力要求较高等等。 本文结合信息检索技术,提出一种基于刻面分类的) 【m l 全文构件检索方 法。该方法实现了x m l 构件描述文档的全文检索,并做出如下改进: ( 1 ) 索引术语的路径信息以定位关键字在文档中的位置,提高检索的准确 性,增强用户同检索工具之间的交互能力: ( 2 ) 自定义了五种语义关系及其推理规则,设计和实现了语义库扩展用户的 查询表达式,概念化查询表达式中的关键词从而弥补用户与检索工具概念上的 语义偏差,并为模糊匹配提供一定的语义支持; ( 3 ) 定义了一种基于向量模型的结果评价公式,综合考虑用户需求、术语的 表达能力和术语与文档的关系,计算检索结果中的构件与用户需求的关联度, 根据关联度排序将更贴近用户需求的构件返回给用户,增强检索工具的友好度。 经过实验证明,该构件检索方法具有很强的扩展性,理解能力,查全率, 查准率和查询效率。 1 4 本文的组织结构 本文共分6 章,第1 章为引言,介绍研究课题的背景和意义,构件分类与 检索的国内外研究现状以及本文的研究工作。 第2 章介绍了信息检索技术和五种主要信息检索模型和它们使用的特性。 第3 章介绍了构件和构件库的主要概念,当前主要的构件描述,分类和检 索方法。 第4 章简述基于刻面分类和x m l 描述的构件检索方法,分析了已有方法中 存在的问题,针对存在的问题,提出了一种基于语义库的刻面分类的构件检索 方法,并阐述了解决改进方法中几个关键问题的主要思想。 第5 章是本文的核心内容,首先介绍了m g s c l 构件库的总体设计和 m g s c l 构件模型,并提出了刻面分类模式,接着,设计了m g s c l 构件库中 检索工具的框架和主要功能模块,并详细描述了每个功能模块的实现细节。最 后对检索工具的实际应用效果进行分析。 第6 章对全文进行了总结,并对下一步工作进行了展望。 5 基于刻面分类的构件检索技术的研究与实现第2 章信息检索技术 第2 章信息检索技术 2 1 信息检索概述 信息检索起源于l l l h n 在2 0 世纪5 0 年代对文献进行的统计分析【1 2 l ,此后 人们对信息检索进行了大量的理论研究和实践工作。传统意义上的信息检索是 指文本的检索,随着计算机的高速发展,应用媒体日趋丰富,信息检索的对象 扩展到一切可用计算机表示的对象。依据检索对象的不同,信息检索可分为文 本检索和内容检索,内容检索是针对图像、音频和视频等多媒体的数据内容和 特征进行检索f 1 3 】;依据检索领域,可分为综合检索和垂直检索,综合检索为 用户提供所有资源,由用户自己判断结果中哪些是相关信息,而垂直检索针对 特定领域或特定主题进行检索,其结果都是与用户需求相关的1 1 4 】;依据检索范 围,可分为全文检索和字段检索,全文检索在全文范围内进行匹配,通常在分 类的基础上再进一步进行全文检索,而字段检索只在某些检索点进行匹配,数 据库的查询通常就是字段检索;依据匹配方式,可分为模糊匹配和精确匹配, 通常使用关键词进行精确匹配,通过概念词典,同义词库等实现模糊匹配;依 据查询方式,可分为布尔检索、限制检索、二次检索、嵌套检索、相似检索和 邻接检索,相似检索通过知识库和人工智能方法产生一定的联想和推理能力, 从而找到相关的结果【1 5 j 。 检索模型是检索的核心,直接影响了检索结果和相似度排序。下一节将详 细介绍几个常用的信息检索模型。 2 2 信息检索模型 2 2 1 布尔模型 用户通常以语义精确的布尔表达式的方式输入查询条件,用1 和o 分别表 示查询条件中的术语出现在文档中或者不在文档中。例如存在文档 d 1 一 k ,恐 ,幺; k ,玛) ,岛= k ,b - k l ,墨,必和毛为术语, 6 基于刻面分类的构件检索技术的研究与实现第2 章信息检索技术 当查询表达式为即以( k f 妫) ,即k 必墨或k k 或k 墨,此时用 户查询的结果为 d 1 ,d 4 ) 。 布尔模型查询速度快,查询表达式的规范易于掌握,是最基本的信息检索 模型。但是它的检索策略是基于二元判定标准,完全匹配会导致太多或者太少 的结果文档被返回,亦无法体现出检索结果的差异,此外用户将需求转化成布 尔表达式并不容易。扩展的布尔模型【1 6 】增加了匹配的相似度弥补了布尔检索的 不足,查询表达式为炳。厂死册:,相似度s 拥( ,d ,) = ,当查询 表达式为死m 删弧,相似度s 砌( 码) 一1 一坠半,其 中x ( 0s xs 1 ) ,) ,( 0s ) ,1 ) 分别代表术语死朋。和术语死帆在文档盔中的 重要程度。上述相似度计算方法可以进一步拓展为包含m 个术语的布尔表达式 的相似度计算公式。 。 2 2 2 向量空间模型 向量空间模型如图2 1 所示,以术语向量的形式表示文档和查询,在查询 条件和检索的文档之间分配给索引术语非二元的权值嵋,以表示k ,在第f 个文 件中的权重,该权重反映了术语在文档和查询中的相关度,依据查询向量和每 个文档向量的相关度降序,检索结果排列后返回用户。 向量空间模型包括两个关键算法:索引术语权重计算和相似度计算。计算 索引术语权重的经典算法是豫肼词频与倒排文档频度方法【1 7 】,该方法综合 考虑了索引术语在单个文档的重要性和整个数据集的重要性。词频豫是索引术 语在单个文档出现的频度,索引术语在该文档中出现的次数越高,则表明索引 术语在该文档中越重要。同时,还需要考虑索引术语在整个数据集合的重要性, 以区分在文档中出现相同频度的术语,若一个索引术语在整个数据集中出现的 频度较低,则可认为此索引术语是覆盖该词文档内容的主要词汇。倒排文档频 度z d f 体现索引术语在整个数据集的频度,与该词所在文档的总数成反比。设 7 基于刻面分类的构件检索技术的研究与实现 第2 章信息检索技术 文档向量为d f = ( m l ,m ,2 ,m 一) ,查询向量为口,= ( m ,) ,索引术 语巧在文档q 出现的频度为步e 呸,文档总数为万,包含索引术语的文档总数 舳j 该躺i 术语在文档计的权瓢,4 觋畔i 舰,1 0 睁。 c a b u l a r y v e c t o rs p a c e 墨如 d 1m ,1 嵋,2 m ,。 d 2 ,1w 2 ,2 ,。 见m ,1 嵋,2 朋 图2 - 1 向量空间模型 上述度量没有考虑文档中索引词的总数,因此,通常用各种方法对此度量 进行正规化,例如将词频除以某个与含有该文档的索引术语总数相关因子, 珥,4 晶,加吼,是索引术语吩在文档或的词频,峄 步 是文 档吐中所有术语的最大词频。 通过余弦公式计算查询向量同文档向量之间的相似度s 泐( g ,d ) = _ 了蚌。所有的相似度的计算公式都满足。s s 溉1 ,当s 妇;。表明 善矛擂喀2 完全无关,s 砌a 1 表明完全相关。 该模型得到的检索结果是部分匹配查询条件,相比布尔模型更符合用户的 需要,被广泛应用于搜索引擎。 8 基于刻面分类的构件检索技术的研究与实现第2 章信息检索技术 2 2 3 概率模型 通过文档和查询的概率模型,计算文档和查询之问的相似度。查询条件q 将 所有文档d = 似。,d :,d 。) 分为相关文档和不相关文档,分别取值为,和f 。若 p ( ,k ,口) 急p ( f k ,q ) ,则嚷是检索结果,否则盔不是检索结果。根据s 砌 ,g ) = 罢纠! 票计算查询条件同文档之间的相关度。由贝叶斯原理可知,s 砌( d ,g ) ; p ( 厂i d j ,口) 端,p ,口”是从与q 相关的文档中随机选取文档d ,的概率,p ( ,) 是从整个文件集合中随机选取一篇文档作为q 的相关文档的概率,尸( d f ,q l ,) 和 p ( _ ) 同理。 推理网络模型【1 8 】建立在双复合泊松分布模型【1 9 】等经典概率模型上,是概 率模型的统一框架。然而概率模型现存的主要问题是检索依赖于预知的相关性 文档。为此,统计语言模型【2 0 】以大规模真实语料库的处理的语料库语言学为基 础,为信息检索模型的研究提供了新的思路。 概率模型的优点在于有良好的数学理论基础,可通过学习的方法对检索中 的查询和文档建立相应的模型,但是由于该模型基于词汇的独立性假设,因此 多元模型组合空间巨大。 2 2 4 引用分析模型 根据文档或网页之间的引用关系衡量检索结果的重要程度,被引用的次数 越多或引用的质量越高,则该文档或者网页就被认为是更贴近用户需求的检索 结果。该模型的典型是g o o 百e 使用的p a g e r 柚k 【2 1 1 。 假设网页a 有网页五、链接指向a ,网页互的外向链接数量为c ) , d 是权重因子( 0 d 1 ) ,通常取o 8 5 ,每个网页z 的外向链接的权重为 笔等,则网页a 的网页级别p a g e r a n k ,表示为艘似) ,通过计算链接到该 9 基于刻面分类的构件检索技术的研究与实现第2 章信息检索技术 网页的链掀鳓和黼咫阶州川砉器。配2 g e r a n k 计算过程为d = 0 8 5 时网页的p a g e r a n k 计算。 丝丝。4 2 p a g e ap a g ec p r ( a ) = 8 p r ( c ) = 5 2 5 矿 半。 p a g eb 2 、 p a g ed p r ( b ) = 6 弋2 p r ( d ) - 6 7 3 7 5 、占, 歹 1 7 5 、 图2 2p a g e r a n k 计算过程 指向网页a 的链接数量越多,则p a g e r a n k 值越高。在网络中检索页面时, 根据p a g e r a l l l 【对检索结果排序,p a g e r a l l l 【越高,排名越靠前。 在大文档集的应用中,文本内容难以充分体现文档特征,该模型充分考虑 了文档链接关系在检索中的重要性,适合关系丰富的文档检索,尤其在网络应 用中。 2 2 5 语义模型 经典的布尔模型、向量空间模型、概率模型和引用分析模型的匹配都是基 于串匹配进行关键词检索,不提供语义层面的模糊匹配,很难兼顾查准率和查 全率,具有很大的局限性。同一个概念可以用不同的方式表达。例如,通常情 况下,“电脑和“计算机”表达了相同的概念,但是在用户查询“电脑 时, 所有只含“计算机 而不含“电脑”的信息都将被过滤。 自然语言通常具有丰富的语义,一词多义,一义多词等情况非常普遍,然 而系统通常不具有这些语义的理解能力。要改善其理解能力、提高检索效果, 需要进行语义检索。语义检索是在自然语言理解、计算机语言学发展的基础上 产生,基于知识进行语义上的分析检索。由知识库支持的语义检索和基于语义 1 0 基于刻面分类的构件检索技术的研究与实现第2 章信息检索技术 的本体模型,在检索的查准率和查全率上都能较好地满足用户的检索要求,是 信息检索发展的趋势。知识库是专家知识或经验的集合,包含了领域相关概念 和概念之间的相互关系,是动态发展的。本体( o n t o l o g y ) 的概念最先起源于 哲学领域,在诸如知识工程、数字图书馆、软件复用、语义网、信息检索和互 联网上异构信息处理等计算机领域得到广泛应用。b c h a i l d r a s e k a r a n 等人认为 “o n t 0 1 0 9 y 研究特定领域知识的对象分类,对象属性和对象间的关系,它为领 域知识的描述提供术语i 硐。本体作为一种领域知识表示的手段,描述客观事 物的概念以及概念之问的相互关系,更贴近现实世界的语义,有助予系统对查 询条件的理解,进而提高查全率和查准率。本体研究是当前语义网研究的热点, 构建本体模型是语义检索的一种方式,但是本体论还处于初级研究阶段,本体 的形式化、统一标准、本体获取等方面都还不成熟。 2 2 6 信息检索模型总结 上述五种模型是最常用的检索模型,根据不同的检索领域和检索需求,研 究者提出了很多基于以上模型的扩展模型。例如可将一篇文档的多个部分分别 用不同的检索模型计算相似度,再按照一定的比例线性相加。在网络搜索引擎 中最常用的是向量空间模型与引用分析模型结合的混合模型,通过向量空间模 型衡量网页中关键词的相关性,通过引用分析模型弥补网页之间丰富的关系。 不论是经典模型还是扩展模型,或者混合模型,模型的设计都是为了切合实际 应用系统中的需求,获得更好的检索效果。 1 1 基于刻面分类的构件检索技术的研究与实现第3 章构件分类与检索技术 第3 章构件分类与检索技术 3 1 构件与构件库 3 1 1 构件及其相关信息 构件定义有广义与狭义之分。广义上,构件是指应用系统中可以明确辨识 的构成成分,包括可复用源代码、系统和构件的需求规约、构架、文档、测试 用例、数据以及其他对开发活动有利的信息。狭义上,构件是提供一组明确的 接口,符合一套接口标准并完成特定功能的可复用程序块,是系统中实际存在 的可更换部分,代表系统中的一部分物理实施,包括软件代码( 源代码、二进 制代码或可执行代码) 或其等价物( 如脚本或命令文件) 。 通过构件的以下特征实现构件复用: ( 1 ) 独立性:构件可独立进行需求分析、设计、编码、测试、部署和发布; ( 2 ) 封装性:封装对外界隐藏构件的设计和实现细节,仅通过接口与外界交 互,业务逻辑可以用构件进行完全封装,用户只需知道相应构件的接口,就可 以满足业务需求; ( 3 ) 规范化接口:构件通过一组接口对外完成其功能,接口可分为对外服务 接口和服务请求借口; ( 4 ) 可替换性:具有相同接口和相同封装标准的构件可以相互替换; ( 5 ) 组装性:在构造应用系统时,可以灵活选择合适粒度的构件进行复用, 通过构件组装实现模块从代码级、对象级、架构级到系统级的重用,小粒度构 件具有较高的复用度,大粒度则具有较低的复用成本和较高的复用效率; ( 6 ) 可调整性:构件模型具有一定的灵活性,以适应不同的客户需求,订制 符合客户需要的构件。 在构件库中,构件是存储的最小单位,其粒度由构件生产者决定,但是为 了广泛复用和灵活地与其他构件装配,构件粒度通常不宜太大,并且复用后的 构件和原组成构件在逻辑存储和物理存储上应分开f 矧。 构件库存储大量的构件及其相关信息,相关信息包括: 1 2 基于刻面分类的构件检索技术的研究与实现 第3 章构件分类与检索技术 ( 1 ) 构件的语义描述:构件的基本信息、应用环境、应用领域、用途、上下 文环境、开发环境,其中构件基本信息包括构件开发者、版本、开发时间、大 小、入库时间等等; ( 2 ) 构件的分类:对具有相同特征的构件的聚类; ( 3 ) 构件的形态:构件的类型( 包括类、类树、框架、模块等) ,构件的技 术环境( 包括构件的开发工具、配置方法和部署环境等) ,构件的形式( 包括 源代码、二级制代码等) ; ( 4 ) 构件的状态:版本、历史等时问相关构件的属性。 3 1 2m g s c l 构件库 构件库分为通用构件库和领域构件库。通用构件库包含大量应用基础构件, 可以适用于大多数的应用领域。与通用构件库不同的是,领域构件库面向特定 领域,具有大量的领域知识和业务逻辑。m g s c l 构件库面向广州市制造业和 电子政务领域,包含了大量应用基础构件以及具有制造业和电子政务领域特色 的构件。 依据构件结构,m g s c l 构件可以分为原子构件和复合构件。原子构件是 m g s c l 构件库平台操作的最小工作单元,由一系列的需求、设计、开发文档 和对应的源代码、编译后文件、以及资源文件、构件描述符、构件元信息等文 件按规范打包而成。复合构件是由一组关系紧密、相互协作的成员构件连接而 成的构件,其成员构件可以是原子构件或复合构件,通过匹配构件的各成员构 件对外提供的服务和对外依赖的服务,将复合构件对外提供和要求的服务映射 到成员构件相应的服务上去,从而建立构件之间的连接。 按照应用领域,m g s c l 构件可以分为基础构件、领域构件、模型构件,如 图3 1 所示。基础构件在整个集成环境和运行环境中都可以使用,为用户提供 通用的服务。领域构件是为某一特定应用领域开发的构件,可分为领域通用构 件和领域专用构件,领域通用构件包括输入构件、查询构件、报表构件和处理 构件等,领域专用构件是针对领域中的某一特定业务功能的系统所开发的构件, 如公司领导决策构件、数据分析构件、生产调度构件、收费构件等等。模型构 件是一种符合定义的结构化文档,只提供下载,不能远程调用。m g s c l 构件 1 3 基于刻面分类的构件检索技术的研究与实现第3 章构件分类与检索技术 库基于开放性构件模型和标准化描述语言规范,通过多方集成和自主开发方式 实现大规模的基础构件、领域构件和模型构件,形成基础构件库、领域构件库 和模型构件库三种类型的构件库。目前,m g s c l 中的基础构件数量达8 0 0 个 以上,制造业领域构件8 0 0 个以上,电子政务领域构件8 0 0 个以上。 模型构件 制造业信息化 电子政务 算法模型业务模型 系统框架系统框架 制造业信息化领域构件电子政务领域构件 销售构件计划构件应收构件组织管理公众服务公安构件 采购构件车问构件应付构什档案管理内容管理劳动社保 仓储构件质量构件成本构件政务安全数据交换民政构件 基础构件 支撑构件权限构件数据处理内容管理审批流a o p 构件 安全构件目志构件文件处理协同管理工作流w e b 硅示 消息构件异常处理数学计算事务处理短信中心报表构件 图3 1m g s c l 构件 构件库管理系统是规范管理构件库中的构件的系统,为构件库平台用户( 包 括构件开发者,构件使用者和构件库管理员) 提供统一的管理和操作平台。构 件库管理系统必须能够提供以下操作:添加构件,构件入库前需要对构件进行 测试和验证,只有合格的构件才能添加到构件库中;检索构件,以数据库检索 的方式直接对需求匹配难以得到完全满意的构件,需要通过适配使之满足需求; 构件的删除、备份、用户登记和存取控制、使用跟踪和统计分析、异构构件库 的连接等。m g s c l 构件库如图3 2 所示,其中的构件库管理系统提供管理构 件整个生命周期的系统管理服务,构件库的用户可根据构件库工具集的开发支 持和领域应用系统开发方法的指导,复用和组装构件形成制造业信息和电子政 务领域的应用系统。 m g s c l 构架库面向制造业和电子政务等应用领域,具有一定的领域特性: ( 1 ) 领域完整性:构件库表述的概念覆盖整个应用领域,不能存在属于该领 域的构件不能被构件库获取; 1 4 基于刻面分类的构件检索技术的研究与实现第3 章构件分类与检索技术 ( 2 ) 领域抽象性:构件库中的构件按一组关键抽象概念组织起来; ( 3 ) 领域标准化:按领域标准设计构件库。 面向制造业信息化领域的构件化应用系统 面向电子政务领域的构件化应用系统 构件库平台工具集 ,一一赢 构件库管理系 ,、 , 电子政务领域构件库1 统 f制造业信息化领域构件库 7 、 、三竺竺一一一一7 构件模堑和构件标准亿规范 3 2 构件分类与描述 3 2 1 构件分类的意义 图3 2m g s c l 构件库系统 1 9 6 7 年,m d l f o y 提出了对被组装的软件部分进行软件构件分类的思想【, 2 0 世纪7 0 年代后期,l a n e 略a n 和p o y n t 伽在一个有限领域中应用该方法,对 该应用中大量的源代码和标准架构进行辨识和分类,取得很好的结果【2 4 l 。构件 重用首先要获得构件,其次理解构件,最后修改构件并使其适应已有的系统, 其过程如下: b e g i n 检索库 i f 匹配到相同的r c t u m 匹配的构件; e l s e 收集所有相似构件,计算相似度; 排序选择最好的; 修改构件; e n dl f e 】帕 在重用过程中,构件的组织和如何选取相似构件是非常重要的问题,选择 1 5 基于刻面分类的构件检索技术的研究与实现第3 章构件分类与检索技术 相似构件是一个分类问题,构件之间的组织关系决定了构件之间的相似度,因 此构件分类是重用的核心部分。不同构件库具有不同领域特征,分类模式是构 件库中构件之间拥有的共同分类特征的集合,分类表现了事物之间和种类之间 的相互关系,分类的结果通常是网络结构或关系结构。分类模式需要表达两种 关系:层次和句法。层次关系基于从属或者包含关系,句法关系是不同层次关 系中的两个或者两个以上的概念之间的相互关系,一般分类模式都是严格层次 结构。句法关系作为复合种类,如“r e s p i r a t i o no fb i r d s 在分类过程中属于 “r e s p i r a t i o n ”类别,而在分类法中属于“b i r d s 【2 5 1 。分类模式具有如下要求: 分类信息包括从复用者角度反映构件之间相关联系的信息;分类模式要能应用 于不同粒度的可复用构件,并能应用于软件开发生命周期的各个阶段;分类模 式不能太复杂,否则会增加理解的难度,阻碍复用【2 l 。 构件的分类机制是获取构件的基础,合适的分类方法有助于理解和修改代 码。如果构件集是由定义构件需求的属性组织的,那么获取到无用构件的机率 也会减少。对于有效的获取系统的设计,一个良好定义的分类结构是必要的。 3 2 2 构件分类方法 根据构件信息处理方式,f h k e s 将构件分类技术分为入工智能方法、超文 本方法和信息科学方法三种方法,信息科学方法分为基于不受控词汇表和受控 词汇表的分类方法【矧。 不受控词汇表的分类方法【2 7 】是在文档中提取关键字并依据关键字进行分 类,通常称为自由文档分析。自由文档分析通过对构件描述文档的全文进行处 理,分析自然文档中的词频,根据统计信息以及位置属性,自
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 小学尊师重教献温情说课稿2025
- 2026年员工文化知识测试题及答案
- 2026年空分装置测试题及答案
- 2026年荷花说课稿说明
- 2026青海大学附属医院招聘合同制工作人员1人备考题库及1套完整答案详解
- 2026青海海西州德令哈工业园管委会招聘10人备考题库含答案详解(考试直接用)
- 2026青海高等职业技术学院社会招聘外聘教辅人员1人备考题库附答案详解(巩固)
- 2026黄淮学院招聘高层次人才38人备考题库附答案详解(能力提升)
- 2026黑龙江哈尔滨启航劳务派遣有限公司派遣到哈尔滨工业大学全媒体中心招聘2人备考题库含答案详解
- 2026黑龙江黑河市北安市社区卫生服务中心招聘82人备考题库及答案详解(易错题)
- 高考听力播放应急预案(3篇)
- 区域经济研究报告:西安经济产业现状及发展建议
- 展览设计专业考试试题及答案
- 六年同窗 不负韶华-小学毕业成长纪念册
- 病理学 课件 第十四章 消化系统疾病
- 2025年管道系统安装及试验测试卷附答案
- 2026年4月自考02324离散数学试题及答案含评分参考
- 2026中考语文文言文九大主题对比整合梳理(附真题)
- 中医门诊绩效考核制度
- 薪酬体系绩效考核制度
- 2025年西药药剂员(中级)职业技能鉴定考试题库(含答案)
评论
0/150
提交评论