(计算机应用技术专业论文)基于构件使用模式发现的构件库管理系统研究.pdf_第1页
(计算机应用技术专业论文)基于构件使用模式发现的构件库管理系统研究.pdf_第2页
(计算机应用技术专业论文)基于构件使用模式发现的构件库管理系统研究.pdf_第3页
(计算机应用技术专业论文)基于构件使用模式发现的构件库管理系统研究.pdf_第4页
(计算机应用技术专业论文)基于构件使用模式发现的构件库管理系统研究.pdf_第5页
已阅读5页,还剩57页未读 继续免费阅读

(计算机应用技术专业论文)基于构件使用模式发现的构件库管理系统研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

哈尔滨丁程大学硕士学位论文 摘要 随着基于构件软件开发技术的迅猛发展,构件库变得越来越复杂,对构 件的学习和检索提出了更高的要求。 序列模式发现是在给定时间窗口内的序列集中挖掘所有最长频繁序列的 过程。给定序列数据库和最小支持,找出序列数据库中满足最小支持度阈值 的频繁序列中的最大序列,每一个这样的最大序列就是一个序列模式。 a p r i o r i a l l 和g s p 算法是公认的比较好的经典算法。软构件技术是当前软件 工程、软件复用的关键技术,涉及到构件表示、构件分类、构件库及其管理 系统、构件检索等。如何提高构件的复用程度,为使用人员提供更方便、更 符合个性化的构件搜索方法是构件库管理系统的重要任务。 本论文给出了构件使用序列模式发现的处理过程和算法,并进一步探讨 了引入序列模式后的构件库管理系统模型。本文将构件使用的序列模式发现 分为日志数据向序列数据库的迁移、数据预处理、序列模式算法运算、结果 的求精和解释和结果保存5 个步骤。构件使用的序列模式发现算法有一个刻 面参数,这样可以有针对性的对某一个感兴趣的刻面在不同概念层进行构件 使用的序列模式发现。在改进后的构件库系统中,增加模式库以存储发现的 有效序列模式,增加程序方法库存储序列模式发现算法程序及其应用接口, 进行并发控制等。模式库的引入,有效的改善了构件库对构件检索提供的支 持。本论文研究成果的应用可以改进构件的分类和智能检索,提高构件学习、 检索的质量和效率。 关键词:软构件;序列模式;构件库管理系统;构件使用模式;构件使用 模式发现 a b s t r a c t w i t ht h er a p i dd e v e l o p m e n to fc o m p o n e n t - b a s e d s o f t w a r ed e v e l o p m e n t t e c h n o l o g y ,t h ec o m p o n e n tl i b r a r yb e c o m e s m o r ec o m p l e x ,l e a r n i n ga 1 1 dr e 协e v a l o ft h ec o m p o n e n t sh a v eh i g h e rd e m a n d s e q u e n t i a lp a t t e r n s d i s c o v e r y i sap r o c e s so fm i n i n gf r e q u e n t l o n g e s t s e q u e n c ei nag i v e nt i m ew i n d o wo nt h es e q u e n t i a l d a t a s e t g i v e ns e q u e n t l 2 l l d a 组b a s ea n dt h em i n i m u ms u p p o r t s ,i d e n t i f y t h el o n g e s ts e q u e l a e em t h e s e a u e n t i a ld a t a b a s et om e e tt h em i n i m u mt h r e s h o l do fs u p p o r t s ,e v e r y o n eo f t h el o n g e s ts e q u e n c ei sas e q u e n t i a lp a t t e r n a p r i o r i a l la n dg s pa r er e c o 鲫z e d c l a l s s i ca l g o 矾n s s o f t w a r ec o m p o n e n tt e c h n o l o g yi sk e yt e c h n o l o g yo f 叫t e n t s o f t v 唧ee n g i n e e r i n g ,s o f t w a r er e u s e ,w h i c hr e l a t i n gt oc o m p o n e n t r e p r e s e n t a t l o n , c o m d o n e n tc l a s s i f i c a t i o n ,c l m s ,r e t r i e v a la n ds oo n h o w t oi m p r o v et h el e v e lo f r e u s a b l ec o m p o n e n t s ,f o rt h eu s eo fp e r s o n n e lt op r o v i d em o r ec o n v e n i e n t ,m o r e p e r s o n a l i z e d s e a r c hc o m p o n e n t i sai m p o r t a n tt a s ko fc o m p o n e n tm a r y m a n a g e m e n ts y s t e m t l l ep r o c e s sa n da l g o r i t h mo fs e q u e n t i a lp a t t e r n sd i s c o v e r yo fc o m p o n e n t s u s a g e ,i sg i v e ni nt h i sp a p e r ,a n dt of u r t h e r ,t h em o d e lo fc o m p o n e n tn b r a r y m a n a g e m e n ts y s t e mw i t hs e q u e n t i a lp a t t e r n si sd i s c u s s e d t h ep r o c e s so f p g s g s p l i t si n t of i v es t a g e s ,d a t am i g r a t i o n ,d a t ap r e p r o c e s s i n g ,a l g o r i t h mc o m p u t i n g , r e f i n e m e n ta i l di n t e r p r e t a t i o no f r e s u l t sa n ds a v i n gt h er e s u l t t h ea l g o r i t h mh a sa f a c e t e dd a r a m e t e r ,w h a tc a nb et a r g e t e dt o a p a r t i c u l a ri n t e r e s ti nt h e d l f i e r e n t f a c e t so ft h ec o n c e p to fc o m p o n e n tu s a g ei ns e q u e n t i a lp a t t e r n sd i s c o v e r y l l h e c o m p o n e n tu s a g ep a t t e mb a s e dc o m p o n e n tl i b r a r ym a n a g e m e n ts y s t e mh a s o n e d a 饿ml i b r a r y t o s t o r et h ef o u n d e f f e c t i v e s e q u e n t i a lp a t t e r n s ,o n e p r 盯锄& m e t i l o d l i b r a r y t os t o r et h ea l g o r i t h mp r o c e d u r e s a n da p p l l c a t l o n i m e 托a c e 。、瓶t hc o n c u r r e n c yc o n t r 0 1 d u et ot h ep a t t e r n sl i b r a r y ,t h ei m p r o v e m e n t o fp r o v i d es u p p o r tt oc o m p o n e n t r e t r i e v a li nc o m p o n e n t sl i b r a r yi sn o t a b l e t h e a c h i v e m e n to ft h i sp a p e rc o u l di m p r o v ec o m p o n e n tc l a s s i f i c a t i o na n di n t e l l i g e n t 哈尔滨t 程大学硕士学位论文 1 i i i 暑| 暑_ _ i r e t r i e v a l ,i m p r o v et h eq u a l i t ya n de f f i c i e n c yo fl e a r n i n ga n dr e t r i e v a lc o m p o n e n t k e y w o r d s s o f t w a r ec o m p o n e n t ;s e q u e n t i a lp a t t e r n ;c l m s ;c o m p o n e n tu s a g e p a t t e r n ;c o m p o n e n tu s a g ep a t t e r nd i s c o v e r y 哈尔滨工程大学 学位论文原创性声明 本人郑重声明:本论文的所有工作,是在导师的指导下,由 作者本人独立完成的。有关观点、方法、数据和文献的引用已在 文中指出,并与参考文献相对应。除文中已注明引用的内容外, 本论文不包含任何其他个人或集体已经公开发表的作品成果。对 本文的研究做出重要贡献的个人和集体,均已在文中以明确方式 标明。本人完全意识到本声明的法律结果由本人承担。 作者( 签字) :彳李违匆 日期:加2 年多月t g 日 哈尔滨t 程大学硕士学位论文 1 1 研究背景 第1 章绪论 软件重用是指在两次或多次不同的软件开发过程中重复使用相同或相似 软件元素的过程。可重用软件元素包括程序代码、测试用例、设计文档、设 计过程、需求分析文档甚至领域知识。对于新的软件开发项目而言,它们或 者是构成整个目标软件系统的部件,或者在软件开发过程中发挥某种作用, 通常将这些软件元素称为软构件。软构件的主要思想就是将应用系统分解成 若干个不同种类、不同用途、不同形式的构件,然后选择或开发这些构件, 最后将这些构件合理高效地组装在一起形成最终的应用系统。 按照重用活动是否跨越相似性较少的多个应用领域,软件重用可区别为 横向和纵向重用。横向重用是指重用不同应用领域中的软件元素,例如数据 结构、分类算法、人机界面构件等。纵向重用是指在一类具有较多公共性的 应用领域之间进行软构件重用。因为在两个截然不同的应用领域之间实施软 件重用的潜力不大,所以纵向重用才广受瞩目,并成为软件重用技术的真正 希望所在。不难理解,纵向重用活动的主要关键点即是域分析:根据应用领 域的特征及相似性预测软构件的可重用性。 一旦根据域分析确认了软构件的重用价值,即可进行软构件的开发,并 对具有重用价值的软构件进行一般化以便它们能够适应新的类似的应用领 域。然后,软构件及其文档即可进入软构件库,成为可供后续开发项目使用 的可重用资源。这些步骤构成软构件的构造活动。显然,它是一个软构件不 断积累、不断完善的渐进过程。 软构件库作为集构件描述语言、构件分类与检索和构件集成于一身的软 构件管理工具逐步受到人们的重视。软构件库般都包括储存可复用构件的 数据库和一组产生、认证、插入、提取、评价和适配可复用构件的工具的环 境。 随着软构件的不断丰富,软构件库的规模会不断扩大,因此,库的组织 1 哈尔滨工程大学硕士学位论文 结构将直接影响软构件的检索效率,特别是当检索手段并不局限于标准函数 库所采用的简单名字匹配方法时。可供候选的软构件从库中被检索出来以后, 用户还必须理解其功能或行为以判别它是否真正适应于当前项目。必要时可 考虑对某个与期望的功能行为匹配程度最佳的软构件进行稍许修改,甚至可 以将修改后的软构件加进软构件库以替代原有软构件。 尽管软件重用技术提高了软件生产效率和质量,但也还存在一些值得进 一步研究的问题,其中之一便是如何将人们对构件的检索使用的行为模式加 以识别,并应用到构件的使用和学习支持上,进一步提高构件库的智能程度, 使构件库具有主动支持能力。 在行为模式识别研究方面,序列模式代表了大多数行为人的一种惯常的、 具有普遍性的、带有时间序列的行为习惯,因此序列模式的挖掘成为了一个 研究重点。比如作息、购物、思考、学习等行为过程及其特点在人类中具有 一定的共性,研究并应用这些特性可以改变一些不好的习惯,提高人们的生 活和工作、学习质量。 对软构件库的使用和学习也是一样。尽管软件开发组织内的个体对构件 库的使用是有差异的,但由于人理解、思考问题的习惯有一定的共性,这种 共性表现在构件使用时的相关性和时序性上,因此可以考虑挖掘这种构件使 用中共性,进行构件使用的序列模式发现。发现的序列模式可以用以改进构 件库的组织,可以更好的支持构件的检索和引导初学者学习,可以更好的让 人们理解构件之间的业务( 流转) 关系或功能之间的依赖关系。 1 2 国内外研究现状 本课题研究构件库中构件使用的序列模式及如何应用发现的序列模式, 因此涉及到构件、构件库管理系统、构件分类、构件检索、构件日志、日志 挖掘、序列模式发现。研究的着眼点在于构件的使用曰志,因此日志挖掘是 一个重要的相关领域,目标在于发现日志中存在的序列模式:另一个方面是, 如何将发现的序列模式应用到构件的检索( 构件的使用) 中,如何在构件库管 理系统中嵌入序列模式发现的应用机制。 2 哈尔滨工程大学硕士学位论文 1 2 1 序列模式 序列模式挖掘或称序列挖掘,是从序列数据库中发现相对时间或者其它 顺序所出现的高频率子序列。其最初动机是想通过在带有交易时间属性的交 易数据库中发现频繁项目序列以发现时间段客户的购买活动规律。近年来 序列模式挖掘已经成为数据挖掘的一个重要方向,其应用范围不局限于交易 数据库,在d n a 分析等尖端科学研究领域、w r e b 访问等新型应用数据源等 众多方面得到针对性研究【l 】。 到目前为止主要有两类算法,两种研究方向。其一,对关联规则中a p r i o r i 的扩展,例如a p r i o r i a l l ,a p r i o r i s o m e ,d y n a m i c s o m e 引。这三种算法中把整 个挖掘过程分为五个阶段:( 1 ) 排序阶段,以顾客号( c u s t o m e r - i d ) 为主键( m a j o r k e y ) ,交易时间( t r a n s a c t i o n t i m e ) 为辅键( m i n o rk e y ) 进行排序,将原来的事务 数据库转换成由顾客序列组成的数据库。( 2 ) 大项集阶段,即找出所有的大项 集,每一大项集对应于一大1 序列。( 3 ) 转换阶段,将每一个顾客序列的交易 用它所包含的所有大项集替换,目的是为了加快序列与子序列的比较。“) 序 列阶段,找出所有的大序列。( 5 ) 最大序列阶段,在大序列集中找出最大序列 集即序列模式集。其二,探索新的挖掘算法,如基于树投影的挖掘算法系列, 例如f r e e s p a n 。另外还出现了多层序列模式发现、多维序列模式发现、带约 束的序列模式发现算法和并行序列模式发现等算法,下面简要介绍一些典型 算法。 g s p ( 广义序列模式) 算法对序列中的项( i t e m ) 按概念层次树组织,可以在 多个概念层上进行挖掘1 3 j 。在概念层次树中高层概念是低层概念的概括。根 据概念层次树重新表示序列,出现在树中低层的概念被其所有高层概念替换。 它也是一种基于a p r i o r i 的算法,但它又增加了时间限制,在序列的邻近元素 间增加了最大最小时间间隔;不要求序列模式中元素的项( 物品r e m ) 来自于 同一次相( 物品i t e m ) 来自于不同的交易,只要这些交易处于某一用户指定的 时间窗口内。 多维序列模式挖掘可归结为两类:( 1 ) 将序列模式挖掘算法和多维分析方 法集成。( 2 ) 将多维信息并入到序列中然后对新的序列集进行挖掘。对于第一 哈尔滨工程大学硕士学位论文 类问题提出了s e q d i m 和d i m s e q 算法,对于第二类提出了u n i s e q 算法1 4 j 。 基于频繁模式投影的序列模式挖掘的基本思想是:把频繁序列的挖掘和 频繁模式的挖掘结合起来,并投影序列数据库以精简查找空间,缩减候选子 序列的产生。f r e e s p a n 是一种投影算法,它使用频繁项递归地把序列数据库 投影到一系列更小的数据库中,然后在每一个小的投影数据库中增长子序列 的长度1 5 】。该算法首先找出所有的频繁项( 也即构成了频繁1 序列) ,并按照支 持度排序。使用这种分解的方法找出所有的序列模式的完全集然后进行投影, 在投影数据库上进行递归挖掘。p r e f i x s p a n 是另一种投影算法,它的基本思 想是:仅仅检查一个模式的前缀子序列,并投影它们相应的后缀子序列到投 影数据库中,通过仅仅考察局部的频繁序列来使序列模式增长【6 】。 s p i r i t 算法使用正则表达式作为一个灵活的限制规范,用户唯一参与的 活动就是指定一个最小支持度m i n 给定的数据库,给定的最小支持度,对不同的用户挖掘过程中计算量是相同 的,用户只是被动地参与到数据挖掘中去,不能由有经验的用户对特定问题 作出自已经验的判断,另外会产生大量无用的结果。缺乏表达用户所要集中 关注问题的手段,使某些只对特定问题感兴趣的用户淹没在大量无用的序列 中。s p i r i t 是受用户控制的挖掘,输入的数据序列中掺入了用户指定的正则 表达式约束,使用户参与到挖掘过程中。算法本身非常类似g s p 算法。在剪 枝时除了有基于支持度的考虑,还有基于这些约束的考虑。剪枝出来的频繁 序列需要同时具有最小支持度,满足约束条件。针对不同的约束程度,文中 形成了四种不同的算法,s p i r i t n ,s p i r i t l ,s p i r i t v 和s p i r i t r , 其约束度依次增强。 e v e 提出一个算法族,类似于g s p 的并行版本,并作了一些扩展。输 入数据是分布的,每一个处理器都有单独的候选序列的哈希树数据结构。根 据数据分布的不同分成三种算法e v e s ,e v e r 和e v e c 。e v e s 把所有 的序列完全平均分摊在不同的处理器上,当短的数据序列数量较大时比较适 合。e v e r 分解每一个序列,以使每一处理器上的事务数相当,e v e c 也是 分解每一个序列,以使每一个处理器上的事务数相当,当事件时间窗口内长 序列较少时它比较适用。 国内有研究者提出了一种基于大项集重用的序列模式挖掘算法 4 哈尔滨工程大学硕士学位论文 h v s m l f 引,用垂直位图法组织序列数据,然后进行横向和纵向扩展生成大数 据项集作为“集成块 ,在挖掘k - 大序列时重用大项集,并以兄弟节点为种 子生成候选大序列,利用1 s t t i d 对支持度进行计数。 还有研究采用前缀序列将搜索空间划分为若干个子空间,提出了项目位 置索引的概念【9 1 ,即将原始序列数据库信息转换到项目位置索引( i v i ) 中,从 而在搜索序列模式时避免了复杂的多维候选序列的测试,仅需对各前缀序列 对应的扩展的项目位置索引库( i p i d b s ) 做简单的序列数目累加操作,将复杂 的高维序列模式搜索问题巧妙地转换为一维频繁项目的搜索,降低了算法复 杂度,提高了效率。 在发现算法上,还提出了挖掘长序列模式的f f s p a n 算法,适用于中大 型数据库和小支持度的情况下的基于位置数据的闭合序列模式挖掘算法,基 于预聚类技术的并行序列模式挖掘算法,基于互关联后继树的多时间序列关 联模式挖掘算法和分布式序列模式发现算法等。 在检索到的文献中涉及到序列模式在如下各种场合的应用:c r m 中销售 序列模式分析、复杂机械系统监测诊断、铁路客票分析、移动环境中的最大 移动序列模式挖掘、g s m 系统中报警模式挖掘、自动控制系统中的序列模式 知识获取、邮件过滤、电力系统警报信息处理、用户w e b 日志序列模式挖掘、 设备故障监控、网络业务流分析、入侵检测技术研究、视频分类和图像检索、 w e b 用户浏览序列模式识别、股票交易决策、水文趋势预测、d n a 序列挖掘、 高压输电线系统故障诊断等方面。 1 2 2 构件库与构件库管理系统 构件重用与构件库的研究主要集中在如下几个方面。 1 构件的检索技术 软构件的检索方法研究一直是构件库研究的热点,拥有大量可复用构件 的组织必须以一种易于分类管理而又方便复用者检索的机制来表示和保存构 件。有效的构件检索机制能够降低构件查找和理解的成本,典型的构件方法 有模糊查询技术、基于刻面与聚类分类的检索技术等。 5 哈尔滨工程大学硕士学位论文 2 构件库的实现 构件库系统是具有某种关联的构件和子构件系统的集合。包括支持集成 的软构件库技术,将数据仓库技术与可复用构件库系统进行融合的构件库系 统模型研究以及针对领域的可重用构件库的实现等。提出了较完善的构件库 功能集模型和构件库管理系统的设计与实现思路。 3 构件的应用研究 包括领域构件库技术在信息系统( 如e r p ) 开发中的应用和基于构件库 的构件重用支撑系统研究等。有的论文结合具体的语言和工具阐述了构件检 索查询的实现,比如利用u m l 设计模型信息进行可复用构件查询、研究可 复用构件库在c a s e 工具中的集成问题等。 4 构件分类模式研究 构件的合理分类是实现高效方便的检索的基础。提出了在( 基于特定领域) 构件库系统中采用刻面分类、自动生成术语的软构件刻面分类和基于s o m 聚类的软构件分类、基于框架的软构件后缀索引构造方法等软构件分类模式。 5 青鸟构件库设计与实现中采用的技术方法介绍 对青鸟构件库的设计与实现、功能集、构件分类与检索、构件度量、访 问控制机制等机制做了扼要的介绍。 王卓等认为,在目前实际应用当中软构件大多是基于某框架之下的。应 当描述和管理软构件所应用的框架和环境并为构件分类形成框架类别【1 0 】。另 外,为了提高检索效率,为每个刻面的术语空间建立术语树,并为树中节点 建立后缀索引。这样可减少检索软构件时遍历术语树中节点的个数,而且使 同一批检索到的构件更适合应用到同一框架当中。该方法不但可以提高软构 件的检索效率,而且保证了检索到的软构件经过最小的修改量就能够被应用 到软件系统中。该方法对提高构件复用的效率施加了应用环境和语义限定条 件,因而更有针对性,更有效率,有较好的理论和实用价值。 1 2 3 构件检索 目前,国内外学者已在软构件的分类和检索方面作了大量的研究工作, 提出了一些较为经典的分类方法和相应的检索策略。 6 哈尔滨工程大学硕士学位论文 构件的检索和构件的分类密切相关。分类是对构件进行的一种预处理, 它通过为构件添加其在分类过程中所产生的分类信息,为构件的检索提供支 持f l l 】。具有代表性的构件分类方法有规约描述方法和编目分类法,相应的检 索策略有基于构件行为采用的检索、基于型构匹配的检索和基于文献编目的 检索方法。 采用刻面分类法的软构件库都是采用树状结构来组织术语构件,每个刻 面对应一棵术语树。在术语树中包含了术语空间中的全部术语、近义词,并 用这些术语描述的构件作为树的叶子结点。树形结构的层次关系对应术语的 语义范围之间的包含和被包含的层次关系。 1 2 4 曰志挖掘 拟订论文的研究重点之一是构件日志的挖掘,日志挖掘在近几年的研究 重点体现在如下几个方面:数据库日志挖掘、w e b 日志挖掘和网络入侵日志 挖掘和各种设备等的警告日志挖掘。各种设备的警告日志挖掘与本论文题目 相关性不大,不做说明分析。 1 数据库系统日志与信息系统的使用日志 数据库日志记录着数据库状态的变迁,可以通过分析日志的方法来进行 数据库的数据变化监测。这种数据库日志分析方法有着广泛的应用背景,数 据库故障恢复、电子数据审计以及系统安全监测等方面都离不开数据库的日 志分析。另外一个方面是关于数据使用的日志,监控各个授权用户的连接活 动和数据操纵活动,审计非法存取数据违规行为等。这两个方面日志的分析 和挖掘同等重要。 大型数据库系统都提供了完善的事务控制和日志管理功能,提供了相应 的日志分析工具来指导数据的恢复和数据库系统性能调整。另外可以编写程 序来监测数据库的更新活动和状态。由于各类数据库提供的日志功能具有强 弱不一、数据格式及日志访问接口差别大等特点,如何针对各类提供日志功 能的数据库,提出一种基于日志的数据库更新通用外部监测的方法并实现它 成为了一个研究课题。 通常的使用日志系统整合到前台的应用程序中来实现,对用户登陆、修 7 哈尔滨工程大学硕士学位论文 改数据的过程进行记录,同时保存到系统日志表中。常用的管理信息系统开 发工具提供了较多方便易用的控件,降低了开发人员的开发难度。但是这也 使控件对数据的操作变得不完全透明,开发人员很难了解控件对数据的具体 操作,从而使这种本来就不方便的日志实现越来越难。有论文提出针对设计、 开发大型管理信息系统过程中前台实现日志系统的困难和低效,将日志系统 移到后台解决,利用o r a c l e 数据库p l p s q l 的d m l 数据触发器、替代触 发器和系统触发器的强大优势,建立一套完善的日志系统。 最近几年提出了新的日志管理模式日志管理中,i 二, ( l m c ) 2 2 j 。通过 对各种日志信息进行采集、规整和汇集,生成统一的日志事件,利用事件关 联规则进行分析,从而发现系统中的潜在威胁和攻击,采取实时应对措施。 集数据库系统日志与应用系统日志管理为一体,是一种比较全面的、有应用 前景的解决方案。 数据库的日志挖掘还包括系统的警告、错误信息、i o 性能等方面,它 们与本研究题目相关性不大,不再赘述。 2 w e b 日志挖掘 w e b 给人们带来丰富的信息和极大的便利的同时,也产生了一些亟待解 决的问题,个性化的信息服务和构建智能化w e b 站点便是其中之一。解决 这个问题的有效途径就是将数据挖掘技术运用到w e b 服务器日志的挖掘中, 通过w e b 日志挖掘,站点管理者可以发现用户的访问模式,从而改进w e b 服 务器的设计以方便用户使用和提高w 曲服务器的性能,增强个性化服务【l 引。 w e b 日志挖掘及其发现用户访问模式的典型方法均为a p r i o r i 类算法,聚类 和关联规则开采是论文中常见的方法。 对w e b 日志挖掘的研究还体现在数据的预处理方面,针对w e b 服务器 的通用日志格式( c o m m o nl o gf o r m a t ,c l f ) 和扩展型日志格式( e x t e n d e d l o gf o r m a t ,e l f ) 进行数据清理、用户识别、会话识别、路径补全、格式化 等操作【1 4 】【1 5 】。 3 网络入侵日志挖掘 入侵检测系统是用来检测网络入侵行为的工具,入侵检测系统的关键在 于其安全模式规则的准确性。 目前的入侵检测技术可分为两类:一种是误用入侵检测,另一种是异常 8 哈尔滨工程大学硕士学位论文 一i _ _ _ _ _ _ _ - _ _ _ _ _ _ _ - _ _ _ _ 一 入侵检测【1 6 】。误用检测是对利用已知的系统漏洞和网络攻击方法进行的入侵 活动的检测,而异常入侵检测需要建立目标系统和用户的正常活动模型,然 后基于这个模型对系统和用户的实际活动进行审计,以判定系统是否正在遭 受入侵。异常检测的实质是将用户的异常行为看作是可疑的入侵行为。在入 侵检测中,根据孤立的事件或属性判断是否是入侵行为是很困难的,必须把 用户在一次登录甚至几次登录过程中的行为作为一个整体分析。因此,需要 对审计数据进行序列挖掘分析,即从网络事件数据库中挖掘出用户正常行为 以及入侵行为的频繁序列模式。 在入侵检测中,常用关联规则开采和聚类方法。 1 3 研究内容与意义 本题目基于以下目的而设定: ( 1 ) 尽管组织内的个体对构件库的使用是有差异的,但由于人理解、思 考问题的习惯有一定的共性,这种共性表现在构件使用时的相关性和时序性 上,因此可以考虑挖掘这种构件使用中的共性,进行构件使用的序列模式发 现。 ( 2 ) 构件的序列性在一定程度上反映构件之间的业务( 流转) 关系或功能 之间的依赖关系,进行构件使用的序列模式发现有利于进一步明确构件之间 的这种关系,可以用于改进构件的分类、组织和存储结构。 ( 3 ) 构件库的设计者和使用者均期望构件库具备一定的智能支持,用以 指导更好的利用组织内的构件资源。但现在构件提取相关的研究论文大部分 均集中在研究如何分类组织构件库( 如基于神经网络、聚类等规则) 和如何改 进构件库的组织( 如从分类编码角度和体系结构方面) 以提高构件的提取速 度,尚没有研究构件使用的行为模式从而改进构件使用的文献。 本题目的意义主要体现在如下几个方面: ( 1 ) 序列模式发现结果对于软件开发组织认识构件间的使用关系,从而 对改进软件过程是非常有意义的,进而提高构件使用的效率和效益。 ( 2 ) 可根据运算结果提高构件检索速度,可预检索相关构件,提高构件 检索的智能程度。 ) 哈尔滨t 程大学硕士学位论文 ( 3 ) 该算法可运行于构件库中( 嵌入构件库中定时即时运行) ,增强构件 库系统的功能。 ( 4 ) 可同时应用于研究员工的知识( 构件) 学习习惯,指导改进学习效能。 依赖于组织构件使用信息的收集,构件的签出( c h e c ko u t ) 或使用日志数 据能为本课题的研究提供数据基础。开发组织改进软件过程、提高软件开发 质量和效率、提高员工构件学习质量的内在需求是本研究课题的需求基础。 软件开发组织可分析出构件在使用过程中的构件查找先后关系及构件使用的 相关性,用于项目实施过程中的构件查找浏览、构件理解与软件维护。 1 4 本文的篇章结构 在展开阐述本论文的方法之前,首先对序列模式发现、构架库与构件库 管理系统的研究现状做了一个较系统的总结,通过回顾和总结使我借鉴到有 益的思想,明确研究的重点和方向,并为提出更有效的方法奠定基础。 第2 章对序列模式发现进行了概述,介绍了两个典型的序列模式发现算 法。 第3 章对软构件技术中构件模型和构件库管理系统、构件的刻面分类法 进行了说明,为论文最后提出的算法和构件库管理系统模型奠定基础。 第4 章描述了构件使用序列数据库的产生方法,提出了构件使用的序列 模式发现算法及处理过程。 第5 章提出了基于构件使用模式发现的构件库管理系统模型,研究了引 入序列模式后构件库管理系统中的几个主要问题。 l o 哈尔滨工程大学硕士学位论文 第2 章序列模式发现 序列模式发现最早是针对超市中购物篮数据的分析提出来的,通过在带 有交易时间属性的交易数据库中发现频繁项目序列以发现一时间段客户的购 买活动规律。 构件库系统的使用者对构件使用的序列模式发现是本论文的一个重要研 究方面,试图通过发现大部分使用者对构件的使用、检索序列模式来改进构 件的检索,重构构件库管理系统的处理逻辑。本章将对序列模式及经典的 a p r i o r i a l l 和g s p 序列模式发现算法作简要介绍。 2 1 序列模式发现概述 序列模式( s e q u e m i a lp a t t e r n s ) 发现是在给定时间窗口内的序列集中挖掘 所有最长频繁序列的过程。它是数据挖掘技术中一个非常重要的研究课题和 领域。它首先是由r a k e s ha g r a w a l 、r a m a k r i s h n a ns r i k a n t 针对超市中购物篮 数据的分析提出来的。序列模式发现已经在客户购买行为模式预测、w e b 访 问模式预测、疾病诊断、自然灾害预测、d n a 序列分析等领域应用。 所谓序列模式发现就是给定序列数据库和最小支持,找出序列数据库中 满足最小支持度阈值的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论