已阅读5页,还剩54页未读, 继续免费阅读
(计算机应用技术专业论文)光纤故障隐患预警系统中数据挖掘技术的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
声明尸明 本人郑重声明:此处所提交的硕士学位论文光纤故障隐患预警系统中数据挖掘技 术的研究,是本人在华北电力大学攻读硕士学位期间,在导师指导下进行的研究工作 和取得的研究成果。据本人所知,除了文中特别加以标注和致谢之处外,论文中不包含 其他人已经发表或撰写过的研究成果,也不包含为获得华北电力大学或其他教育机构的 学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文 中作了明确的说明并表示了谢意。 学位论文作者签名: 骛敛 日期: 型1 2 丝丝 关于学位论文使用授权的说明 本人完全了解华北电力大学有关保留、使用学位论文的规定,即:学校有权保管、 并向有关部门送交学位论文的原件与复印件;学校可以采用影印、缩印或其它复制手 段复制并保存学位论文;学校可允许学位论文被查阅或借阅;学校可以学术交流为 目的,复制赠送和交换学位论文;同意学校可以用不同方式在不同媒体上发表、传播学 位论文的全部或部分内容。 ( 涉密的学位论文在解密后遵守此规定) 作者签名:趁筮 z :蓦 日 期:磁竺:兰i 华北电力大学硕士学位论文摘要 摘要 本文基于数据挖掘技术和关联规则挖掘理论,对经典的关联规则挖掘算法 a p f i o f i 算法进行了深入地学习,给出了其不足之处。针对算法的缺陷,通过引入哈 希函数、建立分组表和分组查找频繁项集以及引用变量进行事务修剪的方法对其进 行了改进,给出了a p r i o r i g r o u p 算法。基于v s 2 0 0 3 平台,开发了光纤故障隐患预 警数据挖掘系统。在对光功率告警进行曲线及数据分析的基础上,将改进后的算法 应用于数据库光功率历史告警信息的分析,找出光功率告警信息的频繁项集,从而 得到光功率告警信息与光纤线路运行情况之间的关联关系,推出了可供决策参考的 关联规则,实现了理论研究和实际应用的结合。 关键字:数据挖掘,关联规则,a p r i o r i 算法,光功率告警,光纤故障预警 a b s t r a c t t h i st h e s i ss t u d i e st h ed e f i c i e n c i e so ft h ec l a s s i c a la s s o c i a t i o nr u l e m i n i n g a l g o r i t h m - - - a p r i o r ib a s e do nt h ed a t am i n i n gt e c h n o l o g ya n dt h ea s s o c i a t i o nr u l em i n i n g t h e o r y , a n do p t i m i z e sa p r i o r iw i t ht h ea p p l i c a t i o no fh a s hf u n c t i o n ,g r o u pt a b l e sa n dt h e c h e c ho ff r e q u e n ts e tw i t ht h et a b l e ,a n dt r i m st h et r a n s a c t i o nw i t ht h eg i v i n gv a r i a b l e , g i v e sa p r i o r i g r o u pa l g o r i t h m b a s e do nt h ev s 2 0 0 3p l a t f o r m ,t h ed a t am i n i n gs y s t e mo f t h eo p t i c a lf i b e rf a u l te a r l yw a r n i n gi sd e v e l o p e d t h i st h e s i sf i n d so u tt h ef r e q u e n ts e to f o p t i c a lp o w e ra l a r mi n f o r m a t i o ni nt h ed a t a b a s eb a s e do na n a l y z i n gm a s so p t i c a lp o w e r a l a r m h i s t o r y i nc u r v e ,m i n e st h ea s s o c i a t i o nb e t w e e nt h e o p t i c a lp o w e ra l a r m i n f o r m a t i o na n dt h eo p t i c a lf i b e rr u n n i n gs i t u a t i o n ,a d v a n c e st h ea s s o c i a t i o nr u l ew h i c h c a nb er e g a r d e df o rd e t e r m i n a t i o n ,a n da c h i e v e st h ec o m b i n a t i o no ft h e o r ya n dp r a c t i c e p e n gm i n ( c o m p u t e ra p p l i e dt e c h n o l o g y ) d i r e c t e db ya s s p r o f h uc h a o j u k e yw o r d s :d a t am i n i n g ,a s s o c i a t i o nr u l e s ,a p r i o r i ,o p t i c a lp o w e rw a r n i n g o p t i c a lf i b e rf a i l u r ee a r l yw a r n i n g 中文摘要 英文摘要 第一章绪论1 1 1 研究背景1 1 2 国内外研究现状。一2 1 2 1 国外研究现状2 1 2 2 国内研究现状j j :3 1 3 课题研究内容4 1 4 论文的组织结构4 第二章数据挖掘技术5 2 1 数据挖掘概念。5 2 2 数据挖掘步骤:5 2 3 数据挖掘方法7 2 3 1 人工神经网络- 7 2 3 2 遗传算法7 2 3 3 决策树8 2 3 4 关联分析8 2 3 5 序列模式分析8 2 3 6 分类分析9 2 3 7 聚类分析9 2 4 数据挖掘常用的知识表示模式与方法9 2 4 1 关联知识挖掘9 2 4 2 广义知识挖掘。1 0 2 4 3 类知识挖掘。l o 2 4 4 预测型知识挖掘。1 0 2 4 5 特异型知识挖掘1 l 2 5 数据挖掘的应用1 1 2 6 本章小结。1 1 第三章关联规则挖掘1 2 3 1 基本概念1 2 华北电力大学硕士学位论文目录 3 2 关联规则的分类1 3 3 3 关联规则挖掘步骤1 4 3 4 关联规则a p r i o r i 算法l 5 3 4 1 a p r i o r i 算法原理与描述1 5 3 4 2 a p r i o r i 算法缺陷1 9 3 4 3 典型的a p r i o r i 优化算法介绍2 0 3 5 本章小结2 2 第四章a p r i o r i g - r o u p 算法2 3 4 1 几个重要性质2 3 4 2a p r i o r i g r o u p 算法改进思想2 3 4 3a p r i o r i g - r o u p 算法特色2 3 4 4a p r i o r i g r o u p 算法2 9 4 4 1a p r i o r i g r o u p 算法分析2 9 4 4 2a p r i o r i g r o u p 算法流程图2 9 4 4 3a p r i o r i g r o u p 算法描述:3 0 4 5 本章小结3 3 第五章a p r i o r i g r o u p 算法在光纤故障隐患预警系统中的应用3 4 5 1 应用背景一3 4 5 2 光纤故障隐患预警系统结构设计3 4 5 3 光功率监测模块3 5 5 4 光纤故障预警模块3 6 5 4 1 光功率数据分析模块3 6 5 4 2 光功率数据挖掘模块3 9 5 5 系统测试结果分析4 5 5 6 本章小结4 5 第六章总结与展望4 6 6 1 启象结z 1 6 6 2 进一步工作4 7 参考文献4 8 致谢5l 在学期间发表的学术论文和参加的科研情况5 2 i i 1 1 研究背景 随着国际互联网的日益普及,数据业务的迅速发展,尤其是口业务呈现的爆炸式 增长,已经成为光纤行业迅速发展的主要因素,同时光纤到户的技术以及密集波分复用 技术的应用是促使光纤进一步发展的重要因素。 光纤通信具有传输容量大,中断距离长,传输损耗小等特点。自问世3 0 多年来, 光纤通信已逐渐成为现代传输网的主体。随着我国信息业的快速发展,光纤通信技术的 不断发展,光纤网络不断扩大容量,承载的业务不断增加。然而在竞争日趋激烈的情况 下,仅有大容量的通信能力还是远远不够的,竞争的真正核心是服务质量与网络性能, 好的网络性能可以为每一个客户的通信畅通无阻提供可靠保障,要在己建成的几十万公 里的干线高速光纤通信网上实现无阻断通信,除传输设备因素外,首先要考虑的问题是 对光传输物理路由实施自动保护的技术解决方案,同时方案应具有安全灵活、高可靠性、 保护迅速、具有强大的抗灾害和抗阻断能力,且具有高度应用推广价值【l l 。 面对大量信息的传输,应采取什么样的技术措施和解决方案来保证无阻断通信特别 是传输干线的无阻断通信,是当前所面临的一项重要课题。传统干线传输维护方式是在 干线线路阻断时,对系统的光缆进行分段的线路应急调度,即将系统所用的光缆人工调 度至预安排的同一段落不同路由的光缆上。这种维护方式对故障的响应速度较慢,系统 阻断时间长,严重影响系统的故障指标。 光纤自动切换保护技术是通过对光缆中传输光功率变化的实时监测、告警信息的自 动分析,能够及时发现故障及隐患,在出现严重故障时,快速将工作光路自动切换到备 用通道,在极短的时间内( 切换时间小于5 0 m s ) 恢复通信,完成对光缆故障的快速反 应和恢复机制圆。它是一个集监测、保护和管理为_ 体的、独立于传输系统的、完全建 立在光缆物理层上的自动监测保护系统,该监测光缆线路中的光功率值的变化情况,管 理光缆线路。由于光纤线路产生大量光功率告警信息,光保护网管系统将这些告警信息 存入数据库中,如何理解数据库中大量的光功率告警信息,如何通过这些数据来预测光 纤运行情况以及未来的行为,如何从这些海量数据中发现信息,变被动数据为主动的知 识,如何对各种数据进行有效的挖掘,为用户提供重要的信息或知识,指导用户决策, 以发挥其应用潜能。 数据挖掘有很多研究方向,关联规则挖掘是其中最活跃的研究方向之一,关联规则 揭示了数据项间未知的依赖关系,根据所挖掘的关联规则,可以由一个数据对象的信息 推断出另一个数据对象的信息。本课题采用关联规则挖掘技术,从大量的光功率告警信 华北电力大学硕士学位论文 息中提取我们感兴趣的、隐含的、对决策有潜在价值的知识,为光纤故障分析提供重要 的依据,保证光纤网络数据传输的安全可靠。 1 2 国内外研究现状 r a k e s ha g r a w a l 博士等于1 9 9 3 年提出了关联规则的概念,用于刻画事务数据库中 各交易项目之间的关系,即频繁关系。一个典型的例子就是“购买面包顾客的9 0 会购 买牛奶”。关联规则提出后,人们对关联规则挖掘进行了广泛而深入的研究。这些研究 主要在于解决以下五个方面的问题:首先,由于频繁关系在不同数据对象、应用环境中 具有不同形式,这种频繁关系是一种模式或知识形式,因此,关联关系的研究是关联规 则挖掘研究中需首要解决的问题;二是提高关联规则挖掘的速率和减少关联规则挖掘的 存储空间需求;三是如何在稠密集、大量和海量数据集中进行关联规则挖掘;四是如何 挖掘有价值的关联规则;五是如何利用关联规则。 1 2 1 国外研究现状 在关联规则挖掘研究中,大量研究均集中于关联规则挖掘效率的研究。这些研究主 要是通过提高串行算法的效率,利用并行和分布式挖掘算法、各种有效的数据结构、增 量算法等来提高关联规则的挖掘效率,取得较好的结果 第一个有效的关联规则挖掘算法是a 面o r i ,它是一个串行算法,以后人们对之进行 了很多改进,提出了多种有效的串行算法,典型的有:采用动态h a s h 和剪枝策略的d h p 算法1 3 1 、采用分块挖掘的p a r t i t i o n 算法1 4 1 、采用前缀树存储候选集的s e a r 和s p e a r 算法嗍、 采用分块和动态项目频度计算的d i c 算法【6 】、采用抽样策略的s a m p l i n g 算法【7 1 等。此外, z a k i 博士提出了四个有影响的串行关联规则挖掘算法e c l a t 、m a x e c l a t 、c l i q u e 和 m a x c l i q u e 【射。其中e c l a t 采用了基于前缀的等价类技术和自底向上搜索策略;m a x e c l a t 采用了基于前缀的等价类技术和混合搜索策略;c l i q u e 采用了基于团的等价类技术和自 底向上搜索策略;m a x c l i q t m 采用了基于团的等价类技术和混合搜索策略。 对并行算法,基于a p f i o n 1 i k e 的并行算法 9 1 有c d ( c o u n td i s t r i b u t i o n ) 、d d ( d a t a d i s t r i b u t i o n ) 、i d d ( i n t e l l i g e n td a t ad i s t r i b u t i o n ) 、h d ( h y b d dd i s t r i b u t i o n ) 等。其他是基于 d h p 、s e a r & s p e a r 、d i c 等的分布式关联规则挖掘算法【l o i ,z a k i 提出了基于e c l a t 、 m a x e e l a t 、c l i q u e 和m a x c l i q u e 并行算法p a r ( m a x ) e c l a t , p a r ( m a x ) c l i q u c 1 l 】。 典型的增量挖掘算法有参数增量算法和数据增量算法两大类,参数增量算法主要有 i u a 和p i u a ,数据增量算法主要有f u p 、f u p 2 和b o r d e r 等。 以上这些算法都是挖掘产生所有频繁项a f i ( a uf r e q u e n tr c m s e t s ) 的,为了进一步提 高挖掘效率,还提出了挖掘产生另外两类频繁项m f i 和c f i 。m f l ( m a x i m a lf r e q u e n t i t e m s e t s ) 表示极大频繁项集;c f i ( c l o s e x if r e q u e n ti t e m s e t s ) 表示闭集频繁项;m f i 和c f i 2 华北电力大学硕士学位论文 的数量都远小于a f i 。挖掘m f i 的典型算法【1 2 1 有a l l - m f s 算法、p i n c e r - s e a r c h 算法、 m a x - m i n e r 算法、d e p t h - p r o j e c t 算法、m a f i a 算法、g e n m a x 算法等;挖掘c f i 的算法【1 3 】 主要有a - c l o s e 、p a s c a l 、c l o s e t 、c h a r m ,此外m a f i a 算法也可以挖掘闭集频繁项。k a r a t n g o u d a 和m a h a m m e dj z a k i 等人的研究表明,上述这些算法各有其应用环境,对m f i 较好的算法是m a f i a 、d e p t h - p r o j e c t 、g e n m a x ,对c f i 较好的算法是m a f i a ,c l o s e t 、c h a r m 。 1 9 9 9 年,h a n 等人提出的f p g r o w t h 1 4 j 和a g r a w a l 等人提出的树投影t r e e p r o j e c t 关联规则挖掘算法【1 5 】,与a p r i o r i 算法相比,挖掘效率有了数量级的提高。利用f p t r e e , 可以压缩事务数据集,压缩比有的达到1 0 0 多倍,而树投影方法从原理上讲,是适应 任何数据集的,无论其数据量多大,该算法都能有效运行,从而使得关联规则挖掘可以 应用于大量、海量数据挖掘和稠密数据集的挖掘。对关联规则挖掘的第三个问题,典型 的算法【1 6 】有:f p g r o w t h 、t o p d o w nf p g r o w t h 、t r e e p r o j e c t 、h - m i n e 、o p p o r t u n i s t i c 等。 目前,数据挖掘技术及知识发现已成为计算机科学界的一大研究热点。国外许多计 算机公司非常重视数据挖掘的开发应用,r e db r i c k 数据挖掘在关系引擎中通过创建模 型完成,这些模型在数据库中表现为相应的表,并且这些模型可以通过结构化查询语言 对其进行访问和操作【1 7 1 。此外,m m 和微软也成立了相应的研究中心进行这方面的工作, 相关软件也有开始销售,如s a s 、s p s s 、b o 、d b m i n e r 等i 埔j 。 1 2 2 国内研究现状 国内研究所涉及的领域很多,一般集中于学习算法的研究、数据挖掘的实际应用以 及有关数据挖掘理论方面的研究。 在国内,关联规则数据挖掘研究主要从1 9 9 8 、1 9 9 9 年开始。胡侃、夏绍伟等人于 1 9 9 8 年在软件学报上发表了基于大型数据仓库的数据采掘研究综述,该文详细介绍 了数据挖掘的基本原理和方法,阐明了关联规则挖掘的基本思想;杨学兵、高俊波、蔡 庆生给出了一种可增量更新的关联规则挖掘算法;朱绍文等提出了一种多概念层数值关 联规则挖掘方法;李学明、张伟等研究了关联规则的冗余特性,给出了改进型的关联规 则生成算法【1 9 1 。 目前,具体的研究项目有中科院计算机研究所的智能信息处理重点实验室研制开发 的多策略数据挖掘平台m s m i n e r 系统,此系统集成了关联规则挖掘算法;复旦大学设 计的关联规则的挖掘工具a r m i n e r ,采用基于a p r i o r i 改进算法,虽然取得了相当的成 功,但尚处于实验室研究阶段;北京系统工程研究所对模糊方法的知识发现中的应用进 行了较深入的研列2 0 】。而采用关联规则挖掘技术在光缆线路管理和应用方面目前仍处于 初级阶段,有待进一步的研究。 3 华北电力大学硕士学位论文 1 3 课题研究内容 本文的研究工作源于上述的背景和应用需求,对现有关联规则挖掘算法进行深入地 学习,基于传统关联规则挖掘a p r i o r i 算法的基础上,给出a p r i o r i g r o u p 算法,将 a p r i o r i g r o u p 算法应用于光纤故障隐患预警系统中,课题研究内容如下: 1 系统地学习数据挖掘的基本理论,包括数据挖掘的概念,数据挖掘的主要步骤, 数据挖掘方法以及数据挖掘常用的知识表示模式和方法。 2 详细地阐述关联规则挖掘理论知识,包括关联规则的基本概念,关联规则的挖 掘步骤。深入地学习经典的关联规则挖掘算法a p r i o r i 算法,基于a p r i o i i 算法存在的两 个缺陷,介绍几种典型的关联规则优化算法。 3 在传统a p r i o r i 算法的基础上,给出改进的关联规则挖掘算法a p r i o r i g r o u p 算法, 详细地阐述该算法的改进思想,分析该算法的优点以及其可行性。 4 对光功率告警信息进行曲线分析和数据分析,利用a p f i o f i g - r o u p 算法,挖掘光 纤中大量光功率历史告警数据的潜在信息,分析和总结挖掘出的关联规则,对光纤故障 存在的隐患进行分析和预测,实现光纤故障隐患预警系统 1 4 论文的组织结构 第一章绪论。介绍本文的研究背景、关联规则算法国内外研究现状、本课题 的研究内容以及论文的组织结构。 第二章数据挖掘技术。详细地阐述数据挖掘技术的概念、数据挖掘主要步骤、 数据挖掘方法以及数据挖掘常用的知识表示模式与方法。 第三章关联规则挖掘。系统地介绍关联规则的基本概念、挖掘步骤,深入的 学习经典关联规则挖掘算法a p r i o r i 算法,基于a p r i o r i 算法存在两个缺陷问题,简 要地介绍几种典型的优化算法。 第四章a p r i o r i g r o u p 算法。详细地阐述a p r i o r i g r o u p 算法思想,即采用哈希函 数和事务压缩技术、建立分组表、引用变量进行事务的剪枝以及采用分组查找频繁 项集的方法对传统的a p r i o r i 算法进行改进,分析该算法的可行性。 第五章光纤故障隐患预警系统设计和开发。对光功率告警信息进行曲线分析 和数据分析,采用a p r i o r i g r o u p 关联规则挖掘算法,对光功率历史数据进行关联规 则的挖掘,挖掘出光功率历史告警数据的潜在信息,完成光纤故障隐患预警系统的 设计和开发,给光缆线路管理工作提供帮助。 第六章结论与展望。对所做的工作进行总结,阐述有待于进一步需要解决的 问题。 4 华北电力大学硕士学位论文 2 1 数据挖掘概念 第二章数据挖掘技术 数据挖掘( d a t am i n i n g ) 就是从大量的、不完全的、有噪声的、模糊的、随机的数据 中,抽取隐含在其中的未知的、有价值的模式或规律等知识的复杂过程。数据挖掘所依 赖的数据来源多种多样,可以是常用的关系数据库、事务数据库、文本数据库、多媒体 数据库等【2 l 】。目前,数据挖掘的数据主要取自关系数据库和数据仓库。 一个典型的数据挖掘过程可以分成四个阶段:数据预处理、数据挖掘、模式评估及 知识表示。数据预处理阶段主要包括数据的整理、数据中的噪声及空缺值处理、属性选 择和连续属性离散化等。数据挖掘包括挖掘算法的选择和算法参数的确定等。模式评估 对得到的模式进行评价、训练和测试。这三个阶段是循环往复的过程,直到得到用户满 意的模式为止。 2 2 数据挖掘步骤 1 问题定义( t a s kd e f i n i t i o n ) 在问题定义过程中,一方面明确实际工作对数据挖掘的要求,另一方面通过对各种 学习算法的对比进而明确可用的学习算法。 2 数据集成( d a t ai n t e g r a t i o n ) 数据集成主要是将多文件或多数据库运行环境中的异构数据进行合并处理,解决语 义的模型性,主要涉及数据的选择、数据的冲突问题以及不一致数据的处理问题。 3 数据清洗( d a t ac l e a n i n g ) 数据清洗要去除源数据集中无关数据、处理遗漏的数据、去除空白数据域等。主要 包括重复数据处理和缺值数据处理,并完成一些数据类型的转换。通过数据清洗,可以 对数据做简单的泛化处理,在原始数据的基础之上得到更为丰富的数据信息,便于下一 步数据挖掘的顺利进行。 4 数据选择( d a t ac h o o s e ) 数据选择是确定发现任务的操作对象后,根据用户的需要从原始数据库中检索、分 析得到与任务相关的数据。 5 数据变换( d a t at r a n s f o r m a t i o n ) 数据变换主要是找到数据的特征表示,用维变换或者转换方式减少有效变量的数目 或找到数据的不变式,包括规格化、归纳、切换、旋转和投影等操作。 5 华北电力大学硕士学位论文 6 数据简化( d a t ar e d u c t i o n ) 有些数据属性对发现任务是没有影响的,这些属性的加入会大大影响挖掘效率,甚 至还可能导致挖掘结果的偏差。数据简化是在对发现任务和数据本身内容理解的基础 上,寻找依赖于发现目标的表达数据的有用特征,以缩减数据规模,从而在尽可能保持 数据原貌的前提下,最大限度的精简数据量。 7 数据挖掘( d a t am i n i n g ) 数据挖掘算法执行阶段首先根据对问题的定义明确挖掘的任务或目的,根据挖掘任 务来选择合适的算法选择算法有两个考虑因素:一是不同的数据有不同的特点,需要 用与之相关的算法来挖掘;二是用户或实际运行系统的要求。 8 模式评估( e v a l u a t i o n ) 根据某种兴趣度度量、识别表示知识的真正有趣的模式。评估可以根据用户多年的 经验,也可以直接用实际数据来验证模型的正确性,进而调整挖掘模型,不断重复进行 数据挖掘。 9 知识表示( k n o w l e d g er e p r e s a a t a t i o n ) 使用可视化和知识表示技术,向用户提供挖掘的知识。数据挖掘的结果一般表现为 模式,模式给出了数据的特性或数据之间的关系,是对数据包含的信息更抽象的描述 模式可以是一组规则、聚类、决策树或者其他方式表示的知识其结构如图2 1 所示 图2 - 1 知识发现体系结构图 6 源数据 - 一 据 据 - 一 识 一 数 一 觌 一 = i | | | = 一 目 备 华北电力大学硕士学位论文 2 3 数据挖掘方法 数据挖掘中采用的方法综合了数据库、人工智能、统计学、模式识别、机器学习、 数据分析等领域的研究成果。现有的数据挖掘方法主要有以下几种:人工神经网络 ( a m 6 c i a ln e u r a ln e t w o r k s ) 、遗传算法( g e n e t i ca l g o r i t h m s ) 、决策树方法( d e c i s i o nt r e e s ) 、 关联分析( a s s o c i a t i o n s ) 、序列模式分析( s e q u e n t i a lp a t t e r n s ) 、分类分析( c l a s s i f i e r s ) 、聚类 分析( c l u s t e r i n g ) 等。 2 3 1 人工神经网络( a r t i f i c i a ln e u r a ln e t w o r k s ) 神经网络为解决大复杂度问题提供了一种相对比较有效的简单方法,它可以很容易 解决具有上百个参数的问题。神经网络常用于两类问题:分类和回归。在结构上,可以 把一个神经网络划分为输入层、输出层和隐含层【2 2 1 。输入层的每个节点对应一个个的预 测变量。输出层的节点对应目标变量可有多个。在输入层和输出层之间是隐含层,隐含 层的层数和每层节点的个数决定了神经网络的复杂度。 除了输入层的节点,神经网络的每个节点都与很多它前面的节点连接在一起,每个 连接对应一个权重,此节点的值就是通过它所有输入节点的值与对应连接权重乘积的和 作为一个函数的输入而得到,我们把这个函数称为活动函数训练周期。要完成神经网络 的训练可能需要很多个训练周期,经常是几百个。训练完成之后得到的神经网络就是在 通过训练集发现的模型,描述了训练集中响应变量受到预测变量影响的变化规律。 神经网络的参数通过各种各样的组合方式来影响输出结果,以至于很难对一个神经 网络表示的模型做出直观的解释。在很多复杂度很高的问题如化学试验、机器人、金融 市场模拟以及语言图像识别等领域神经网络都取得了很好的效果。 2 3 2 遗传算法( g e n e t i ca l g o r i t h m s ) 遗传算法是模拟生物进化过程的算法【2 3 1 ,由三个基本算子( 或过程) 组成: 1 ) 繁殖( 选择) :即从一个旧种群( 父代) 选出生命力强的个体,产生新的种群( 后 代) 的过程。 2 ) 交叉( 重组) :即对选择两个不同的个体( 染色体) 的部分( 基因) 进行交换, 形成新个体的过程。 3 ) 变异( 突变) :对某些个体的某些基因进行变异( o 变1 ,或1 变o ) ,形成新个 体的过程。 遗传算法可起到产生优良后代的作用,这些后代需满足适应值,经过若干代的遗传, 将得到满足要求的后代( 即问题的解) 。遗传算法已在优化计算和分类机器学习方面发 挥了显著作用。 7 华北电力大学硕士学位论文 2 3 3 决策树( d e c i s i o nt r e e s ) 决策树提供了一种展示类似在什么条件下会得到什么值这类规则的方法,决策树的 基本组成部分:决策节点、分支和叶子【硼。决策树中最上面的节点称为根节点,是整个 决策树的开始。决策树的每个节点子节点的个数与决策树采用的算法有关。如c a r t 算 法得到的决策树的每个节点有两个分支,这种树称为二叉树。允许节点含有多于两个子 节点的树,称为多叉树。 每个分支要么是一个新的决策节点,要么是树的结尾( 也称为叶子) 在沿着决策 树从上到下遍历的过程中,在每个节点都会遇到一个问题,对每个节点上的问题的不同 回答导致不同的分支,最后会到达一个叶子节点。这个过程就是利用决策树进行分类的 过程,利用几个变量( 每个变量对应一个问题) 来判断所属的类别,最后每个叶子会对 应一个类别。建立决策树的过程,是不断的把数据进行切分的过程,每次切分对应一个 问题,也对应着一个节点。对每个切分都要求分成的组之问的搿差异 最大。 2 3 4 关联分析( a s s o c i a t i o n s ) 从广义上讲,关联分析f 8 堤数据挖掘的本质,它集中在数据库中对象之间关联及其 程度的刻画。关联分析的目的就是要找出数据库中隐藏的关联信息,这种关联关系有简 单关联、时序关联、因果关联、数量关联等,这些关联并不总是事先知道的,而是通过 数据库中数据的关联分析获得的,因而对商业决策具有新价值。 关联规则挖掘【2 5 】是关联知识发现的最常用方法。最为著名的是a g r a w a l 等提出的 a p r i o r i 挖掘算法。为了发现出有意义的关联规则,需要给定两个阈值:最小支持度 似h i l i i u t ns u p p o r t ) 和最小可信度( m i n i m u mc o n f i d e n c e ) 。挖掘出的关联规则必须满足用 户规定的最小支持度和最小可信度。在这个意义上,数据挖掘系统的目的就是从数据库 中挖掘出满足最小支持度和最小可信度的关联规则。关联规则的研究和应用是数据挖掘 中最活跃和比较深入的分支,目前已经提出了许多关联规则挖掘的理论和算法。 2 3 5 序列模式分析( s e q u e n t i a lp a t t e r n s ) 序列模式分析和关联分析法相似,其目的也是为了挖掘出数据之间的联系,但序列 模式分析的侧重点在于分析数据间的前后( 因果) 关系。它能发现数据库中形如“在某 一段时间内,顾客购买商品a ,接着购买商品b ,而后购买商品c ,即序列a b - - , c 出现的频度较高 之类的知识f 2 6 】,序列模式分析描述的问题是:在给定交易序列数据库 中,每个序列是按照交易时间排列的一组交易集,挖掘序列函数作用在这个交易序列数 据库上,返回该数据库中出现的高频序列。在进行序列模式分析时,同样也需要由用户 输入最小置信度c 和最小支持度s 。序列模式挖掘的大部分方法都采用了类a p r i o d 算法 的变种,只是所考虑的参数设置和约束有所不同。 8 华北电力大学硕士学位论文 2 3 6 分类分析( c l a s s i f i e r s ) 设有一个数据库和一组具有不同特征的类别( 标记) ,该数据库中的每一个记录都 赋予一个类别的标记,这样的数据库称为示例数据库或训练集。分类分析匹7 】就是通过分 析示例数据库中的数据,为每个类别做出准确的描述或建立分析模型或挖掘出分类规 则,然后用这个分类规则对其它数据库中的记录进行分类。 2 3 7 聚类分析( c l u s t e r i n g ) 聚类是在预先不知道目标数据库到底有多少类的情况下,希望将所有的纪录组成不 同的类。在这种分类情况下,使得以某种度量为标准的相似性在同一聚类之间最小化而 在不同聚类之间最大化。事实上,聚类算法【2 8 】中有一大类算法所采用的相似性都是基于 距离的,而且由于现实数据库中数据类型的多样性,关于如何度量两个含有非数值型字 段的记录之间的距离的讨论有很多,并提出了相应的算法。聚类分析的算法可以分为以 下几大类:分裂法、层次法、基于密度的方法、基于网格的方法和基于模型的方法等。 聚类分析作为数据挖掘中的一个模块,它既可以作为一个单独的工具以发现数据库 中数据分布的一些深入的信息,从而概括出每一类的特点,或把注意力放在某一个特定 类上以作进一步的分析;它又可以作为数据挖掘算法中其他分析算法的预处理步骤。 2 4 数据挖掘常用的知识表示模式与方法 数据挖掘的目的是发现知识,知识要通过一定的模式给出。通过对数据挖掘中知识 表示模式及其所采用方法的分析,可以更清楚地了解数据挖掘系统的特点。 2 4 1 关联知识挖掘 关联知识( a s s o c i a t i o n ) 反映一个事件和其它事件之间的依赖或关联。数据库中的数 据关联是现实世界中事物联系的表现。数据库作为一种结构化的数据组织形式,利用其 依附的数据模型刻画了数据间的关联。但是数据之间的关联是复杂的,关联知识挖掘的 目的就是找出数据库中隐藏的关联信息。关联可分为简单关联、时序关联、因果关联、 数量关联等。这些关联并不总是事先知道的,而是通过数据库中数据的关联分析获得的, 对商业决策具有新价值。 关联规则挖掘是关联知识发现的最常用方法。最为著名的是a g a r w a l 等提出的 & p r i o r i 算法。为了发现出有意义的关联规则,需要给定两个阈值:最小支持度( m i n i m u m s u p p o r t ) 和最小可信度( m i n i m u mc o n f i d e n c e ) 。挖掘出的关联规则必须满足用户规定的最 小支持度和最小可信度,数据挖掘的目的就是从源数据库中挖掘出满足最小支持度和最 小可信度的关联规则【2 9 1 。关联规则的研究和应用是数据挖掘中最活跃和比较深入的分 支,许多关联规则挖掘的理论和算法已经被提出。 9 华北电力- 大学硕士学位论文 2 4 2 广义知识挖掘 广义知识( g 髓e f a l i z a t i o n ) 是指描述类别特征的概括性知识【3 0 】。源数据一般是细节性 数据,而人们有时希望能从较高层次的视图上处理或观察这些数据,通过数据进行不同 层次上的泛化,来寻找数据所蕴涵的概念或逻辑,以适应数据分析的要求。数据挖掘的 目的之一就是根据这些数据的微观特性发现有普遍性的、更高层次概念的、宏观的知识。 因此,这类数据挖掘是对数据的所蕴涵的概念特征信息、汇总信息和比较信息等的概括、 精炼和抽象的过程。被挖掘出的广义知识可以结合可视化技术以直观的图表形式展示给 用户,也可以作为其它应用的基础知识。 2 4 3 类知识挖掘 类知识( c l a s s ) 刻画了一类事物,这类事物具有某种意义上的共同特征,并明显和不 同类事物相区别。类知识是指数据挖掘的分类和聚类两类数据挖掘应用所对应的知识。 ( 1 ) 分类 分类的目的是学会一个分类模型,该模型能把数据库中的数据项映射到给定类别 中。由于数据挖掘是从源数据集中挖掘知识的过程,因此应该是对源数据的过滤、抽样、 压缩以及概念提取等。从机器学习的观点,分类技术是一种有指导的学( s u p e r v i s e d l e a r n i n g ) ,即每个训练样本的数据对象已经有类标识,通过学习可以形成表达数据对象 与类标识间对应的知识。从这个意义上说,数据挖掘的目标就是根据样本数据形成的类 知识并对源数据进行分类,进而也可以预测未来数据的归类。用于分类的类知识可以用 分类规则、概念树,也可能以一种学习后的分类网络等形式表示出来。 ( 2 ) 聚类 聚类是把一组个体按照相似性归成若干类别,它的目的是使得属于同一类别的个体 之间的差别尽可能的小,而不同类别上的个体间的差别尽可能的大。通过聚类技术【1 2 】 可以对源数据库中的记录划分为一系列有意义的子集,进而实现对数据的分析。聚类和 分类技术不同,前者总是在特定的类标识下寻求新元素属于哪个类,而后者则是通过对 数据的分析比较生成新的类标识。数据挖掘中的分类和聚类技术都是在已有的技术基础 上发展起来的,它们互有交叉和补充。 2 4 4 预测型知识挖掘 预测型知识是指由历史的和当前的数据产生的并能推测未来数据趋势的知识。这类 知识可以被认为是以时间为关键属性的关联知识3 。从预测的主要功能上看,主要是对 未来数据的概念分类和趋势导出。分类技术可以用于产生具有对未来数据进行归类的预 测型知识,统计学中的回归方法可以通过历史数据直接产生对未来数据预测的连续值 等,因而这些预测型知识已经蕴藏在诸如趋势曲线等输出形式中。由于分类型的知识有 l o 华北电力大学硕士学位论文 两种基本用途。第一,通过样本子集挖掘出的知识可能目的只是用于对现有源数据库的 所有数据进行归类,以使现有的庞大数据在概念或类别上被“物以聚类”。第二,有些源 数据尽管它们是己经发生的历史事件的记录,但是存在对未来有指导意义的规律性东 西。因此这类分类知识也是预测型知识。预测型知识的挖掘也可以借助于经典的统计方 法、神经网络和机器学习等技术,其中经典的统计学方法是基础。 2 4 5 特异型知识挖掘 特异型知识是源数据中所蕴涵的极端特例或明显区别于其它数据的知识描述,它揭 示了事物偏离常规的异常规律【埘。数据库中的数据常有一些异常记录,从数据库中检测 出这些数据所蕴涵的特异知识是很有意义的。特异型知识可以和其它数据挖掘技术结合 起来,在挖掘普通知识的同时进一步获得特异知识。例如分类中的反常实例、不满足普 通规则的特例、观测结果与模型预测值的偏差、数据聚类外的离群值等。 2 5 数据挖掘的应用 数据挖掘研究具有广泛的应用前景,目前数据挖掘技术在科学研究、金融投资、市 场营销、通信网络管理等行业得到广泛的应用。 在金融方面,银行信用卡和保险行业,预测存款趋势,优化存款策略,用数据挖掘 将市场分成有意义的群组和部分,协助市场业务执行人员更好的集中于有促进作用的活 动。在客户管理管理方面,数据挖掘能通过分析客户行为来改进管理方式。在零售业市 场营销方面,数据挖掘用于顾客购货篮的分析可以协助货架布置、促销产品组合等商业 活动。通过对一种商品在各连锁店的市场共享分析、客户统计及历史状况分析,可以确 定销售和广告业务的有效性。在过程控制和质量监督方面,数据挖掘可以协助管理大数 量变量之间的相互作用,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 电子邮件营销行为规范条款
- 2026湖北民族大学附属民大医院招聘2人备考题库含答案详解(精练)
- 2026江西旅游商贸职业学院高层次人才招聘15人备考题库(36)附答案详解(考试直接用)
- 2026广东云浮市招募就业见习人员299人备考题库含答案详解(预热题)
- 2026年马鞍山市和县文化旅游体育局度校园招聘备考题库附答案详解(巩固)
- 2026四川长虹电子控股集团有限公司招聘综合管理主办岗位1人备考题库及完整答案详解1套
- 2026四川达州大竹县国有资产事务服务中心县属国有企业招聘工作人员28人备考题库含答案详解(夺分金卷)
- 2026浙江台州市温岭市市场监督管理局招聘编外人员3人备考题库含答案详解
- 2026上海对外经贸大学国际经贸学院行政管理人员招聘1人备考题库及答案详解(考点梳理)
- 2026河南事业单位联考驻马店市招聘142人备考题库及答案详解(夺冠系列)
- 2026年青山湖区住房和城乡建设局下属事业单位招聘工作人员8人笔试备考题库及答案解析
- 2026中国中煤能源集团有限公司春季校园招聘备考题库及答案详解一套
- GB/T 214-2026煤中全硫的测定方法
- 水泥基渗透结晶防水涂料安全交底
- IT系统运维流程与管理方案
- 小学五育并举工作制度
- ISO9001 认证辅导服务协议
- 20S515 钢筋混凝土及砖砌排水检查井
- 永辉生鲜采购制度
- 2026湖北黄石市阳新县高中学校校园招聘教师26人备考题库(培优b卷)附答案详解
- 盘锦北方沥青股份有限公司招聘笔试题库2026
评论
0/150
提交评论