(计算机应用技术专业论文)基于dm技术的线损自动生成系统的应用研究.pdf_第1页
(计算机应用技术专业论文)基于dm技术的线损自动生成系统的应用研究.pdf_第2页
(计算机应用技术专业论文)基于dm技术的线损自动生成系统的应用研究.pdf_第3页
(计算机应用技术专业论文)基于dm技术的线损自动生成系统的应用研究.pdf_第4页
(计算机应用技术专业论文)基于dm技术的线损自动生成系统的应用研究.pdf_第5页
已阅读5页,还剩51页未读 继续免费阅读

(计算机应用技术专业论文)基于dm技术的线损自动生成系统的应用研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 数据挖掘( d a t am i n i n g ) 是近年来十分热门的一个学科,是指从存放在数据库、数据 仓库或其他信息库中的大量数据中提取隐含的、未知的、有潜在应用价值的信息或模式 的过程,被认为是数据库系统最重要的前沿之一。聚类分析是其重要的挖掘技术之一, 它就是基于“物以类聚的朴素思想,将物理或抽象对象的集合分组成为由类似的对象 组成的多个类或簇的过程。它使在同一个簇中的对象之间具有较高的相似度,而不同簇 中的对象差别较大,用这种方法可以解决许多数据预处理阶段的数值残缺问题。但是, 孤立对象的存在并不一定毫无意义,其本身可能是非常有用的,对其进行研究就是时下 十分流行的离群数据挖掘。 本文在对分析了几种离群数据挖掘方法的基础上,改进了基于距离的离群数据挖掘 方法,并将其运用到大连供电公司线损自动生成系统中。 本文的主要工作: ( 1 ) 介绍了数据挖掘的基本概念,数据挖掘知识表示模式及方法,详细介绍了数据 挖掘的过程和相关研究领域,并阐述了数据挖掘面临的问题。 ( 2 ) 对聚类算法进行相关描述,介绍了聚类分析的几种算法,以及其应用现状。 ( 3 ) 对离群数据挖掘和基于距离的离群数据挖掘进行相关描述。 ( 4 ) 对供电企业的线损自动生成系统进行了相关研究( 包括:背景、立题、设计原则、 软硬件配置及模块主要功能等) 。 ( 5 ) 根据系统实际情况,在现有的基于距离的离群算法的基础上进行改进,并应用 于供电企业的线损自动生成系统上,实现了降损和反窃电的目标。 关键词:数据挖掘聚类分析离群数据挖掘线损管理 人连交通大学t 学硕十学位论文 _ i i i m , rl , 目自目! ! = ! = = e j g ! ! 自目= = s ! ! = = = = = = = = 自= 自= = 自e = e ! ! ! ! = ! ! ! 目= = = 目e 日| ! ! ! | = e 目_ 目_ = = = = = 自j | a b s t r a c t d a t am i n i n gi sav e r yp o p u l a rs u b j e c ti nr e c e n ty e a r s ,i ti sap r o c e s st h a te x t r a c th i d d e n , u n k n o w n p o t e n t i a la n dv a l u ei n f o r m a t i o no rm o d e l sf r o mal a r g ea m o u n to f d a t at h a ti ss t o r e d d a t a b a s eo rd a t aw a r e h o u s e i ti sc o n s i d e r e dt ob eo n eo fi m p o r t a n tl e a d i n gi nt h ed a t a b a s e s y s t e m a n dc l u s t e r i n ga n a l y s i si so n e o ft h ev e r yi m p o r t a n tt e c h n o l o g i e si nt h ed a t am i n i n g , i ti sb a s e do nas i m p l ei d e at h a t “s i m i l a rt h i n g sa l w a y sl i k et og a t h e rt o g e t h e r i ti st h i sk i n d o fp r o c e s sw h i c hd i v i d e st h o s ep h y s i c a lo ra b s t r a c to b j e c t si n t os o m ec a t e g o r i e so rc l u s t e r s t h a ta r ec o m p o s e do fs o m es i m i l a ro b j e c t s i tm a k e st h es a m ec l u s t e ro fo b j e c t sh a v eah i g h s i m i l a r i t ya n dt h ed i f f e r e n tc l u s t e r so fo b j e c t sh a v el a r g e rd i f f e r e n c e ,i t c a r ls o l v et h e n u m e r i c a li n c o m p l e t ep r o b l e m si nd a t ap r e p r o c e s s i n gs t a g e b u tt h ee x i s t e n c eo fi s o l a t ep o t s i sn o ta l w a y sm e a n i n g l e s s a n di tm a yb ev e r yu s e f u l ,t h eo u t l i e rd a t am i n i n gi sv e r yp o p u l a r i 1 1i t s r e s e a r c h i nt h i st e x t ,b a s e do na n a l y z i n gs o m ek i n d so fo u t l i e rd a t am i n i n gw a y s ,t h ea u t h o r i m p r o v e sd i s t a n c eb a s e do u t l i e ra l g o r i t h m ,a n dw h a t sm o r ea p p l i e s i to nt h el i n e l o s s a u t o m a t i c a l l yg e n e r a t e ds y s t e mo f t h ed a l i a np o w e rs u p p l yc o m p a n y t h em a i nt a s k si nt h i st e x t : ( 1 ) e l a b o r a t i n gt h er e l a t e dt h e o r i e so fd a t am i n i n g ( 2 ) m a k ead e s c r i p t i o na b o u tt h er e l a t e di d e a so ft h ec l u s t e r i n ga l g o r i t h m ( 3 ) m a k ead e s c r i p t i o na b o u to u t l i e rd a t am i n i n ga n ds o m eo u t l i e rd ma l g o r i t h m ( 4 ) m a k i n gr e l a t e dr e s e a r c h e sf o rl i n e l o s sa u t o m a t i c a l l yg e n e r a t e ds y s t e mo ft h e d a l i a np o w e rs u p p l yc o m p a n y ( i n c l u d e d :b a c k g r o u n d ,i d e n t i f yi s s u e s ) ( 5 ) b a s e do nt h ea c t u a ls i t u a t i o no ft h i ss y s t e m ,i m p r o v e dd i s t a n c eb a s e do u t l i e r a l g o r i t h ma n d u s ei to nt h el i n el o s sa u t o m a t i c a l l yg e n e r a t e ds y s t e mo ft h ed a l i a n p o w e rs u p p l yc o m p a n y ,a n dr e a l i z i n gt h eg o a l so fr e d u c i n gl o s s e sa n df i g h tb a c k t h ea c to fs t e a l i n ge l e c t r i c i t y k e yw o r d s :d a t am i n i n g ;c l u s t e r i n ga l g o r i t h m ;o u t l i e r d a t am i n i n g ;l i n el o s s m a n a g e m e n t i i 大连交通大学学位论文版权使用授权书 本学位论文作者完全了解盍整塞通太堂有关保护知识产权及保 留、使用学位论文的规定,即:研究生在校攻读学位期间论文工作的 知识产权单位属太羹銮通太堂,本人保证毕业离校后,发表或使用 论文工作成果时署名单位仍然为太蔓銮通太堂。学校有权保留并向 国家有关部门或机构送交论文的复印件及其电子文档,允许论文被查 阅和借阅。 本人授权太董塞通太堂可以将学位论文的全部或部分内容编入 中国科学技术信息研究所中国学位论文全文数据库等相关数据库 进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论 文。 ( 保密的学位论文在解密后应遵守此规定) 学位论文作者张黝写 日期:0 彳加2 ,年f f 月f6 一日 导师签名: 日期:二妒g 年月f 导日 学位论文作者毕业后去向: 工作单位:1 躲闪夜易习 电话:9 - 41166 弓 通讯地址:旅监多面苔中山焉了g ,z 邮编:石。 电子信箱:砂c 尹q 侈加 、 大连交通大学学位论文独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作 及取得的研究成果。尽我所知,除了文中特别加以标注和致谢及参考 文献的地方外,论文中不包含他人或集体已经发表或撰写过的研究成 果,也不包含为获得太蔓銮通太堂或其他教育机构的学位或证书而 使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在 论文中作了明确的说明并表示谢意。 本人完全意识到本声明的法律效力,申请学位论文与资料若有不 实之处,由本人承担一切相关责任。 籼姗鲐洌了 日期:加舻年i f 月“日 绪论 绪论 作为基础产业之一的供电企业,在计算机技术、通信技术和网络技术方面有了较快 发展,信息技术、自动化技术得到广泛应用,但是中国目前供电企业在线损自动化管理 方面,技术手段相对落后。线路损失率居高不下,窃电现象严重,经济损失巨大,供电 可靠性、供电质量都有待进一步提高。 线损自动生成系统即线路损耗自动生成系统是运用现代数据通信技术和计算机网 络技术,延伸和扩展原有电力调度自动化系统和远程抄表系统的各项功能,将电量控制 功能、电量数据采集功能和营销自动化系统功能融为一体,并将预测和区段控制引入系 统中的一种统一的、标准化的数据管理和数据应用平台。它应用c s 、b s 、数据仓库和 数据挖掘等许多现代流行的数据处理和应用技术,对供电企业实现配电网运行数据采集 及在线分析系统,从而,实现降损规划、降损计划的制定提供坚实数据基础,为配电网 经济运行和科学规划提供了有力保障。为落实与推广线损多级管理考核提供强大的技术 支持,进而提高线损管理水平,降损增效。 数据挖掘是目前人工智能和数据库领域研究的热点问题,数据挖掘是一种决策支持 过程,它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等, 高度自动化地分析企业的数据,做出归纳性的推理,从中挖掘出潜在的模式,帮助决策 者调整市场策略,减少风险,做出正确的决策。它通过对大量历史数据的分析,可以挖 掘出规则、概念、模式等形式的信息和知识。 该文在介绍数据挖掘技术、聚类分析技术以及离群数据挖掘技术的基础上,改进了 现有的基于距离的离群数据挖掘技术,并将其应用于供电企业线损自动生成系统,取得 了满意效果和一定的经济效益。 大连交通火学t 学硕十学位论文 第一章课题概述 1 1 数据挖掘技术的产生及研究现状 随着科技的进步,特别是信息产业的发展,把我们带入了一个崭新的信息时代。数 据挖掘作为2 0 世纪末刚刚兴起的数据智能分析技术,由于其具有的广阔应用前景而备 受关注。最近几十年中,数据库中存储的数据量急剧增加。与此同时,计算机硬件性能 越来越高,并行多处理机技术也已经成熟,管理大量数据的数据库管理系统以及各类数 据仓库已经能够支持存储、检索如此规模的数据。虽然目前的数据库系统可以高效地实 现数据的录入,查询,统计等功能,但无法发现数据中存在的关系和规则,无法根据现 有的数据预测未来的发展趋势。缺乏挖掘数据背后隐藏的知识的手段,导致了“数据爆 炸但知识贫乏的现象。 数据挖掘技术在现实世界中具有广阔应用前景,据不完全统计,已经在银行业、生 物与基因工程、电子商务与互联网应用、欺诈预防、保险业、证券投资、医药、零售业 与市场营销、科学数据处理、通信等领域得到了应用。例如,在机器维护系统中,嵌入 检测或识别难以定性的设备故障功能;在电子商务中,网上商品推荐、个性化网页、自 适应网站建设;在证券系统中,嵌入神经网络预测功能;在欺诈检测系统中,嵌入欺诈 行为的分类识别模型;在客户关系管理系统中,嵌入客户分类功能或客户行为分析功能; 在市场营销中,分析分销渠道的情况和分销渠道的容量,建立利润评测模型,控制风险; 在营销数据库中,嵌入选择最可能购买产品的客户功能;在基因分析系统中,嵌入d n a 识别功能等。 当前,数据挖掘研究正方兴未艾,预计在未来还会形成更大的高潮,研究焦点可能 会集中到以下几个方面:研究专门用于知识发现的数据挖掘语言,也许会像s q l 语言 一样走向形式化和标准化;寻求数据挖掘过程中的可视化方法,使得知识发现的过程能 够被用户理解,也便于在知识发现过程中的人机交互;研究在网络环境下的数据挖掘技 术,特别是在i n t e r n e t 上建立数据挖掘服务器,与数据库服务器配合,实现数据挖掘; 加强对各种非结构化数据的挖掘,如文本数据、图形图像数据、多媒体数据。但是,无 论怎样,需求牵引,市场驱动是永恒的,数据挖掘将首先满足信息时代用户的急需,大 量基于数据挖掘的决策支持软件工具产品将会问世。 1 2 聚类分析 聚类分析是研究“物以类聚”的一种方法,它的目的是把相似的东西归成类,从而 使复杂的现象简单化。聚类分析认为研究变量之间存在不同程度的相似性,找出能够度 2 第一章课题概述 量变量之问相似程度的统计量,并以此为依据把关系密切的样本聚合到一个小的分类单 位,关系疏远的聚合到一个大的分类单位,直到把所有的样本或变量都聚合完毕,形成 一个由4 , n 大的分类系统。 1 3 离群数据挖掘 离群数据( o u t l i e r ) 通常的表现形式就是异常数据。一般由采集或记录误差产生的偏离 正常值的少量数据常常被忽视,被发现后往往就迅速的清除。实际上,这种想法并不完 全j 下确,离群数据中也有可能包含一些十分有用的信息,有的时候甚至能够从其中分析 出重要的信息。所以,对异常资料的处理应该采取辩证的态度,进行有效的分析。 离群数据挖掘就是对海量的、复杂的、含有噪音的数据进行挖掘,分析其中的有用 信息。常用的离群数据挖掘算法主要有基于聚类的方法和基于统计的方法。 目前,离群点检测已经在信用卡欺诈、电子商务中的犯罪行为探测、网络入侵检测 分析等领域得到了广泛应用。与关联规则发现、分类与聚类分析等数据挖掘任务所关注 的对象不同,离群点检测的任务是从大量复杂的数据集中发现小部分异常数据所隐含 的、与常规数据模式显著不同的数据模式近年来学者们开展了专门针对离群点的研究工 作。 1 4 供电企业线损研究现状 配电网线损是电力部门一项综合性的经济、技术指标。准确合理的配电网线损分析 是电力部门分析线损构成、制定降损措施的有力工具,对促进供电企业降低能耗,内部 挖潜,提高经济效益,优化电网规划设计方案,加强运行管理具有重要意义。目前,由 于配电网结构的复杂性、参数多样性和资料不完善以及缺乏实时监控设备,准确计算配 电网理论线损比较困难,一直是个难题。 配电网线损分析的主要目的是通过对电能在输送和分配过程中各元件产生的电能 损耗及各类损耗所占比例的计算,来确定配电网线损的变化规律。 传统的计算方法,如均方根电流法、平均电流法等,计算结果精度不高,不便于降 损分析。针对这种情况,近几年来,部分学者将数据挖掘的部分理论遗传算法( g a ) 、人 工神经网络( a n n ) 和模糊识别等理论应用于配电网线损分析,研究计算速度快、计算结 果精度高的数学模型,丰富和发展了线损分析算法,拓宽了研究思路。 1 5 本文的主要工作 本文的主要工作如下: 火连交通人学t 学硕十学侍论文 ( 1 ) 介绍了数据挖掘的基本概念,数据挖掘知识表示模式及方法,详细介绍了数据 挖掘的过程和相关研究领域,并阐述了数据挖掘面临的问题。 ( 2 ) 对聚类算法进行相关描述,介绍了聚类分析的几种算法,以及其应用现状。 ( 3 ) 对离群数据挖掘和基于距离的离群数据挖掘进行相关描述。 ( 4 ) 对供电企业的线损自动生成系统进行了相关研究( 包括:背景、立题、设计原则、 软硬件配置及模块主要功能等) 。 ( 5 ) 根据系统实际情况,在现有的基于距离的离群算法的基础上进行改进,并应用 于供电企业的线损自动生成系统上,实现了降损和反窃电的目标。 本章小结 本章主要对课题进行了概要论述并提出了本文的主要工作。 4 第j 二章数据挖掘 第二章数据挖掘 数据挖掘作为个较新的研究领域,许多概念和技术是逐步发展起来的。以下着重 阐述与数据挖掘有关的概念和技术。 2 1 数据挖掘概述 2 1 1 数据挖掘的概念 数据挖掘( d a t am i n i n g ,d m ) 又称数据库中的知识发现 ( k n o w l e d g ed i s c o v e ri nd a t a b a s e ,k i n d ) ,是目前人工智能和数据库领域研究的热点问题, 数据挖掘是一种决策支持过程,它主要基于人工智能、机器学习、模式识别、统计学、 数据库、可视化技术等,高度自动化地分析企业的数据,做出归纳性的推理,从中挖掘 出潜在的模式,帮助决策者调整市场策略,减少风险,做出正确的决策。它通过对大量 历史数据的分析,可以挖掘出规则、概念、模式等形式的信息和知识。数据挖掘概念的 定义描述有若干版本,比较流行的定义:d m 就是从大量的、不完全的、有噪声的、模 糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在的有用信息 和知识的过程川。简单地说,数据挖掘就是从大量数据中提取或“挖掘”知识。 2 1 2 数据挖掘的知识表示模式及方法 数据挖掘的任务就是发现知识,而知识就一定要具有一定的表示模式与方法。最常 见的数据挖掘知识表示模式及方法有以下五类1 2 - 6 : ( 1 ) 广义知识( g e n e r a l i z a t i o nm i n i n g ) 广义知识指类别特征的概括性描述知识。根据数据的微观特性发现其表征的、带有 普遍性的、较高层次概念的、中观和宏观的知识,反映同类事物共同性质,是对数据的 概括、精炼和抽象。广义知识的发现方法和实现技术有很多,如数据立方体、面向属性 的归约等。数据立方体还有其他一些别名,如“多维数据库 、“实现视图”、“o l a p ” 等。该方法的基本思想是实现某些常用的代价较高的聚集函数的计算,诸如计数、求和、 平均、最大值等,并将这些实现视图储存在多维数据库中。既然很多聚集函数需经常重 复计算,那么在多维数据立方体中存放预先计算好的结果将能保证快速响应,并可灵活 地提供不同角度和不同抽象层次上的数据视图。另一种广义知识发现方法是加拿大 s i m o nf r a s e r 大学提出的面向属性的归约方法。这种方法以类s q l 语言表示数据挖掘查 询,收集数据库中的相关数据集,然后在相关数据集上应用一系列数据推广技术进行数 据推广,包括属性删除、概念树提升、属性阈值控制、计数及其他聚集函数传播等。 人连交通人学1 :学硕+ 学何论文 ( 2 ) 关联知识挖掘( a s s o c i a t i o nm i n i n g ) 关联模式又称关联规, 贝j ( a s s o c i a t i o nr u l e ) ,它反映一个事件和其他事件之间依赖或 关联的知识。如果两项或多项属性之间存在关联,那么其中一项的属性值就可以依据其 他属性值进行预测。最为著名的关联规则发现方法是r a g r a w a l 提出的a p r i o r i 算法。 关联规则的发现可分为两步。第一步是判断出所有的频繁项目集,这些项目集出现 的频繁性至少和预定义的最小支持度一样;第二步是从频繁项目集中构造可信度不低于 用户设定的最低值的规则。挖掘关联规则的总体性能由第一步决定,第二步相对容易实 现。识别或发现所有频繁项目集是关联规则发现算法的核心,也是计算量最大的部分。 关联规则常用的算法是a p r i o r i 算法,这是一种统计型算法,它效率高、效果好,是目 前最为流行的挖掘算法之一。目前以该算法为基础推广产生了很多种能适应不同环境的 扩充的a 研o r i 算法。 ( 3 ) 类知识挖掘( c l a s sm i n i n g ) 它反映同类事物共同性质的特征型知识和不同事物之间的差异型特征知识,涵盖分 类( c l a s s i f i c a t i o n ) 与聚类( c l u s t e r i n g ) 两种数据挖掘知识表示模式和方法。 分类分析( c l a s s i f i c a t i o n ) 是对一组已分类数据为对象作分析,找到每一类的规律称分 类规则或简称分类,目的是提出一个分类函数或分类模型( 即分类器) ,通过分类器将数 据对象映射到某一个给定的类别中,所发现的知识可以表达成:i f t h e n 规则、决策 树、数学公式和人工神经网络等。分类分析是一个两阶段的过程。在第一阶段,建立模 型来描述一个预先确定的数据类或概念的集合,即进行有教练的训练。在第二阶段,首 先是采用测试数据集检验模型的准确度,如果达到预定要求,则可将模型用于预测未来 数据对象的类别。 聚类( c l u s t e r i n g ) 是将数据对象进行分组并将相似对象归为一类的过程。数据聚类是 将数据的对象分成几个群体,在每个群体内部对象之间具有较高的相似性,而不同群体 的对象之间则具有较高相异性或较低相似性,它的目的是使属于同一类别的个体之间的 距离尽可能地小,而不同类别的个体间的距离尽可能地大。一般来说,一个群体称为一 个类,如果对一个对象集合事先并不知道对象所属的类,这就需要定义一个衡量对象之 间相似性的标准,并通过一定的算法用于决定类。例如,在商业领域,聚类可以帮助市 场营销人员分析客户数据库,发现不同类型的客户群,按照购买习惯分类并刻画客户群 的特征;在生物学界,聚类可以用于动物和植物分类,对具有功能的基因进行分类,了 解种群的内在结构。聚类法中的算法也很多,有遗传算法、划分法、层次法、基于密度 方法、基于网格方法等。 ( 4 ) 预测型知识( p r e d i c t i o n ) 6 第二章数据挖掘 它根据时间序列型数据,由历史的和当前的数据去推测未来的数据,也可以认为是 以时间为关键属性的关联知识。目前,时间序列预测方法有经典的统计方法、神经网络 和机器学习等。1 9 6 8 年b o x 和j e n k i n s 提出了一套比较完善的时间序列建模理论和分析 方法,这些经典的数学方法通过建立随机模型,如自回归模型、自回归滑动平均模型、 求和自回归滑动平均模型和季节调整模型等,进行时间序列的预测。由于大量的时间序 列是非平稳的,其特征参数和数据分布随着时间的推移而发生变化。因此,仅仅通过对 某段历史数据的训练,建立单一的神经网络预测模型,还无法完成准确的预测任务。为 此,人们提出了基于统计学和基于精确性的再训练方法,当发现现存预测模型不再适用 于当前数据时,对模型重新训练,获得新的权重参数,建立新的模型。也有许多系统借 助并行算法的计算优势进行时间序列预测。 ( 5 ) 特异型知识挖掘( e x c e p t i o nm i n i n g ) 特异型知识挖掘即发现不符合一般行为或模型的数据对象。特异知识挖掘是一个全 新的研究分支。它是对差异和极端特例的描述,揭示事物偏离常规的异常现象,如标准 类外的特例,数据聚类外的离群值等。大多数数据挖掘方法将离群值( o u t l i e r ) 当作噪声 或例外情况而消除。然而,在不少情况下,这些特异数据会含有重要信息,比如可应用 于金融欺诈行为的发现。可以按照一定的统计分布假设来检测离群值,或使用基于距离 的度量来检测离群值,还可以使用基于偏差的检测方法。 2 1 3 数据挖掘的知识发现过程 数据挖掘也常被称为数据库知识发现,它可以从数据库中自动抽取或发现出有用的 模式知识。知识发现源于人工智能和机器学习,它用简洁的方式从数据库中抽取隐含的、 未知的、有用的信息;它可看成是一种数据搜寻过程;不同于传统的数据处理过程,它 不必预先假设或提出问题,但仍能找到那些非预期的令人关注的信息,这些信息表示了 数据元素的关系和模式:它也能通过完整的数据发现和数据分析找到规则、规律1 7 j 。 知识发现的过程是复杂的,大致可划分为以下几个阶段: 7 之g 奎堡垒兰 耋堡圭耋堡丝蚤 一一 一 始槲 日标数据 厂丽而而- l n m 一 i ” 模式 厂 ,变换后数据 ? j 已预处理 数据 圈21 数据挖掘的知识发现过科 f 嘻21p r o c e s s o f d a t a m i n i n g ( 1 ) 问题定义阶段。了解业务领域知识,熟悉业务背景,明确要达到的目标,j 下确、 彻底的评价任务的需求及数据。 ( 2 ) 抽取数据阶段。先收集初步的数据,然后进行了解数据的各种活动,包括判断 数据的质量问题,对数据进行基本观察,或预澳i 感兴趣的数据子集。 ( 3 ) 数据预处理阶段。包括从初步粗数据构造最终数据集合( 即将要输入建模工具的 数据集合) 的所有活动。进行再处理,检查数据的完整性及数据一致性,消除噪声,滤 除与数据挖掘无关的冗余数掘等。 ( 4 ) 数据挖掘阶段可以选择和应用各种知识发现技术,从数据中提取用户所需的有 用信息,这些知识可用一种特定的方式表示或使用一些常用的表示方式。 第二章数据挖掘 ( 5 ) 知识评价阶段。根据挖掘目的对提取的知识进行分析,利用可视化工具将把最 有价值的知识以用户能理解和观察的方式呈现。如果不能满足需求,需要重复以上数据 挖掘的过程。可见,数据挖掘过程可能需要多次的循环反复,每一个步骤一旦与预期目 标不符,都要回到前面的步骤,重新调整,重新执行。 2 2 数据挖掘的特点 数据挖掘的特点主要有一下几个方面。 ( 1 ) 处理的数据规模十分庞大,达到g b 、t b 数量级,甚至更大。 ( 2 ) 查询一般是需求者提出的即时随机查询,往往不能形成精确的查询要求,需要 靠系统本身寻找其可能感兴趣的东西,而收集到的数据又往往不是为数据挖掘准备。 ( 3 ) 数据挖掘所发现的规则是动态的,它只反映当前状态的数据库具有的规则,随 着不断地向数据库中加入新数据,需要随时对其进行更新。在一些应用( 如商业投资等) 中,由于数据变化迅速,因此要求数据挖掘能快速做出相应反应以随时提供决策支持。 数据挖掘中,规则的发现基于统计规律。因此,所发现的规则不必适用于所有数据,而 是当达到某一临界值时,即认为有效。因此,利用数据挖掘技术可能会发现大量的规则。 而且也有可能出现误差。 2 3 数据挖掘技术的应用现状 数据挖掘技术在现实世界中具有广阔应用前景,据不完全统计,已经在银行业、生 物与基因工程、电子商务与互联网应用、欺诈预防、保险业、证券投资、医药、零售业 与市场营销、科学数据处理、通信等领域得到了应用。 例如,在电信业,数据挖掘帮助行业理解商业行为、确定电信模式、捕捉盗用行为、 更好的利用资源和提高服务质量;在市场营销中,分析分销渠道的情况和分销渠道的容 量,控制风险;在电子商务中,网上商品推荐、个性化网页、自适应网站建设; 在金 融业,数据挖掘通过特征选择和属性相关性计算,识别关键因素,进行贷款偿付预测和 客户信用分析,利用分类和聚集的方法对用户群体进行识别和目标市场分析,使用数据 可视化、链接分析、分类、聚类分析、离群数据分析、序列模式分析等工具侦破洗黑钱 和其他金融犯罪行为。在零售业中,使用交互式询问技术、分类技术和预测技术,更精 确地挑选潜在的顾客,识别顾客购买行为,发现顾客购买模式和趋势,进行关联分析, 以便更好地进行货架摆设,改进服务质量,获得更好的顾客忠诚度和满意程度,提高货 品的销量比率,设计更好的货品运输与分销策略,减少商业成本,寻找描述性的模式, 以便更好地进行市场分析等等;在教育方面,分析学生的选课情况,制定适当的选课计 9 大连交通大学t 学硕+ 学位论文 划,满足学生的要求,同时分析教师的年龄、学历、职称等与教学结果的关系,制定教 学方案,提高教学质量;在医学上,数据挖掘成为d n a 分析中的强有力工具。利用数 据挖掘技术在d n a 数据的分析研究中可以进行d n a 序列间的相似搜索和比较,对同 时出现的基因序列的相关分析,遗传研究中的路径分析等等。 总之,数据挖掘j 下广泛应用于各行各业,并发挥着重要作用。 2 4 数据挖掘面临的问题 数据挖掘技术是一个年轻且充满希望的研究领域,研究和开发已经走在很前沿,数 据挖掘应用面也已经得到了拓展。它会成为一种增值服务。商业利益的强大驱动力将会 不停地促进它的发展每年都有新的数据挖掘方法和模型问世,并投入使用,人们对它 的研究正日益广泛和深入。尽管如此,目前数据挖掘技术应用的情况与人们的预期还有 一定差距。要真j 下实现预期的目标,数据挖掘技术仍然面临着许多问题和挑战,主要有: ( 1 ) 数据挖掘的基本问题就在于数据,数据挖掘必须能够挖掘多种来源、多种类型、 异质的数据。 ( 2 ) 数据挖掘算法的效率、可伸缩性必须能满足海量数据挖掘的要求。 ( 3 ) 在有限内存与外存空间的约束下,以最短时间完成挖掘任务。 ( 4 ) 各种不同的模型如何应用,其效果如何评价,即数据挖掘的价值最终取决于挖 掘结果的可用性、确定性与表达能力 9 1 。 本章小结 本章介绍了数据挖掘的产生背景,数据挖掘的基本概念,数据挖掘的基本任务,详 细介绍了数据挖掘的过程和相关研究领域,并阐述了数据挖掘面临的问题。 1 0 第三章聚类分析 第三章聚类分析 随着数据挖掘技术的发展,聚类分析技术正在以勃发之势迅速拓展到各个领域,有 贡献的研究领域主要包括数据挖掘,统计学,机器学习,空间数据库技术,生物学,以 及市场营销等。以下对聚类分析方法进行粗略的介绍。 3 1 聚类分析定义 数据挖掘的根本在于统计学,而统计方法中多元数据分析的三大方法之一的聚类分 析则是数据挖掘采用的核心技术聚类分析。 聚类分析就是根据“物以类聚 的原理,将物理或者抽象对象进行分组并将相似对 象归为一类的过程,即将数据对象分组成多个类或簇,使在同一个簇中的对象之间具有 较高的相似度,而不同簇中的对象差别较大。 3 2 聚类分析的算法 数据挖掘技术的一个典型的特点就是处理巨大的,复杂的数据集,这就要求聚类分 析具有可伸缩性,无论是对于小数据集还是大型复杂的数据集,聚类的结果都不会有偏 差;具有处理不同类型属性的能力;能够发现任意形状的簇;减少输入参数对领域知识 的依赖型,减少用户负担,也使得聚类质量易于控制;能够按照要求处理噪声以及异常 点,而不是简单的忽略;具有处理多维甚至是高维数据的能力,且结果是便于理解和使 用。 目前人们已经提出了大量的聚类方法。根据聚类分析算法的基本思想可以被分为以 下几种: 3 2 1 基于划分的方法( p a r t i t i o n i n gm e t h o d s ) 给定一个有n 个元组或者纪录的数据集,分裂法将构造k 个分组,每一个分组就 代表一个聚类,k n 。而且这k 个分组满足下列条件: ( 1 ) 每一个分组至少包含一个数据纪录; ( 2 ) 每一个数据纪录属于且仅属于一个分组( 注意:这个要求在某些模糊聚类算法中 可以放宽) ;对于给定的k ,算法首先给出一个初始的分组方法,以后通过反复迭代的 方法改变分组,使得每一次改进之后的分组方案都较前一次好,而所谓好的标准就是: 同一分组中的记录越近越好,而不同分组中的纪录越远越好。 分割聚类方法其实就是选择初始区域,反复在聚类之间移动数据点,使得聚类代表 最优,如:k m e a n s 、c l a r a n s 算法。 大连交通人学t 学硕十学位论文 k m e a n s 算法是在获得的数据中,根据聚类的均值进行聚类划分。将万个数据对 象划分为可接受的k 个聚类作为初始聚类中心,以便使得所获得的聚类满足。其中同一 聚类中的对象相似度较高,而不同聚类中的物件相似度较小。然后利用各聚类中对象的 均值所获得一个“中心”,将剩下的资料根据与k 个聚类中心的距离,分别分配给与其 最接近的聚类。然后计算每个聚类的新中心( 重新计算这个组资料的均值,并且以新的 均值作为聚类中心点进行下一次聚类) 。重复上述过程,直到准则函数会聚。 c l a r a n s 算法,实际上就是随机搜索聚类的一种算法。首先随机选择一个点作为 聚类代表,然后随机搜索周围的邻接点,如果找到一个比更好的点,则把它移入作为新 的聚类代表,否则把该点作为局部最小。然后再随机选择一个点来寻找另一个局部最小 量,直至所找到的局部最小量数目达到用户要求为止。这个算法因为要进行多次扫描、 比较、筛选,所以对数据和硬件配置的要求都比较高。 k m e a n s 方法把聚类的中心作为聚类的代表c l a r a n s 算法则是首先把一个随意点 作为代表。两种算法都能够在局部内获得最优。但其还是存在异常数据点和初始划分的 选择要求十分严格的问题。 3 2 2 基于层次的方法( h i e r a r c h i c a lm e t h o d s ) 层次方法1 9 j 就是对于给定的数据集进行层次的分解。具体又可分为凝聚算法和分裂 算法。凝聚算法又称为“自底向上 方法。初始时,每个对象成为一个单独的簇,在以 后的迭代的过程中,再把相互临近的簇合并成一个簇,直到所有的成员组成一个簇为止。 分裂算法又称为“自顶向下 方法。在初始时,所有的元组都属于同一个簇,然后将上 层的簇重复的分裂为两个下层簇,知道每一个元组组成单独的簇为止。 层次方法是对不同层次的分割聚类组成,层次之间的分割一般具有嵌套关系,如 b i r c h 算法和c u r e 算法。 b i r c h 算法即平衡迭代削减聚类法,是一种应用广泛的层次聚类算法。它在聚类 过程中不需扫描数据集中的所有数据点,采用将数据逐个读入的方式进行动态聚类以减 小内存的占用量,这使得b i r c h 方法在进行增量和动态聚类是很有效。b i r c h 算法首 先扫描数据库以建立个初始基于内存的c f 树,该树是一个具有两个参数分枝因子和 类直径的高度平衡树。分枝因子规定了树的每个节点子女的最多个数,而这些点在多大 范围内可以聚为一类,非叶子结点是它的子女的最大关键词,可以根据关键词进行插入 索引,它总结了其子女的信息。新的数据项总是插入到树与该数据距离最近的叶子中。 如果插入后使得该叶子的直径大于类直径,则把该叶子节点分裂。而其它叶子结点也需 要检查是否超过分枝因子来判断其分裂与否,直至达到该数据插入到叶子中,并且满足 1 2 第= 章聚类分析 不超过类直径,而每个非叶子节点的子女个数不大于分枝因子。b i r c h 中数据点密集 的区域被视作一个单一聚类,而数据点稀疏的区域被视作异常数据而去掉。 c u r e 算法即使用代表点的聚类方法。该算法先把每个数据点看成一个类,每次都按 照规定的速率将距离最近的类合并,直至类个数为所要求的个数为止。c u r e 算法将层次 聚类方法和划分聚类方法结合到一起,对传统的聚类算法进行了改进,放弃了用所有点, 或用中心和半径来表示一个类的方式,而是从以一个适当的收缩因子,让抽取类的代表 点合并,使它们更靠近类的中心点。c u r e 算法采用随机抽取与分割聚类算法相结合的办 法提高了算法的效率。 3 2 3 基于密度的方法( d e n s i t y b a s e dm e t h o d s ) 提出了基于密度的聚类方法p j 是为了发现任意形状的聚类结果,这个方法的主要指 导思想就是,只要一个区域中的点的密度大于某个阀值,就把它加到与之最近的聚类中 去。其主要思想是:只要临近区域的密度超过某个阈值,就继续聚类。这样的方法可以 用来过滤“噪声”离群数据,发现任意形状的簇。属于该类的方法有d b s c a n ,o p t i c s , d e n c l u e 等。d b s c a n 是一个有代表性的基于密度的算法。它可以在含有噪声的空间 数据集中发现任意形状的簇。但是这个算法对于算法内部所使用的用户定义的参数是很 敏感的。为了解决上述问题,o p t i c s 算法被提出了,它通过引入核心距离和可达距离, 使得算法对于输入数据不敏感。而d e n c l u e 是基于一组密度函数的聚类算法。它的优 点在于能很好的处理含有大量噪声的数据集,概括了其它的聚类算法,能描述任意形状 的簇类。它的不足就在于需要对密度参数和噪声阀值仔细的选择,这两个参数对聚类结 果影响很大。 3 2 4 基于网格的方法( g r i d b a s e dm e t h o d s ) 这种方法首先将数据空间划分成有限个单元的网络结构1 9 1 。其优点就是处理速度很 快,通常与数据对象的个数无关,而与单元数有关。属于该类的算法有s t i n g ,c l i q u e 等。s t i n g 是一种基于网格的多分辨聚类技术,它的有点就是效率高,由于它并行采用 网格结构,有利于并行处理和增量更新。它的不足之处是聚类的质量取决于网格最低层 的粒度,而且所有聚类边界为水平或垂直的,降低了簇的质量和精确性。而c l i q u e 对 于大型数据库中的高维数据的聚类是非常有效的。 大连交通人学t 学硕十学何论文 3 2 5 基于模型的方法( m o d e l b a s e dm e t h o d s ) 基于模型的方法为每个簇假定了一个模型【9 - 1 1 1 ,寻找数据对给定模型的最佳拟合。 基于模型的算法可能性通过构建反映数据点空间分布的密度函数来定位聚类。这种聚类 方法试图优化给定的数据和某些数学模型之间的适应性。 s o m 神经网络是一种基于模型的聚类方法。它类似于大脑的信息处理过程,对二 维或三维数据的可视是非常有效的。它的局限性就在于需要很大的训练集,聚类结果有 时不易理解,算法不一定收敛。而c o b w e b 是基于统计学的聚类算法。目前,它本身 还有许多需要完善的地方,如假设每个属性上的概率分布实彼此独立的,但是这个假设 往往不成立,还有不适合应用于大数据库的分析等。随着对聚类研究的不断深入,人们 对聚类方法提出了一些要求。 3 3 聚类分析的应用现状 在商务上,聚类能帮助市场分析人员从客户基本库中发现不同的客户群,并且用购 买模式来刻画不同的客户群特征。在生物学上,聚类能用于推导植物和动物的分类,对 基因进行分类,获得对种群中固有结构的认识。聚类在地球观测数据库中相似地区的确 定,汽车保险单持有者的分组,及根据房子的类型、价值和地理位置对一个城市中房屋 的分组也可以发挥作用。聚类也能用于对w e b 上的文档进行分类,以发现信息。作为 一个数据挖掘的功能,聚类分析能作为一个独立的工具来获得数据分布的情况,观察每 个簇的特点,集中对特定的某些簇作进一步的分析【l0 1 。此外,聚类分析可以作为其他算 法( 如特征和分类) 的预处理步骤,这些算法再在生成的簇上进行处理。 本章小结 本章主要介绍了聚类的基本概念,对一些聚类的五种典型方法进行了介绍,并对其 中比较有代表性的算法进行了阐述,同时介绍了聚类分析的应用现状。 1 4 第四章离群数据挖掘 第四章离群数据挖掘 4 1 离群数据挖掘定义 离群数据( o u t l i e r ) 【l2 j 就是明显偏离其它数据不满足数据的一般模式或行为,它通常 的表现形式就是异常数据。一般由采集或记录误差产生的偏离正常值的少量数据常常被 忽视,被发现后往往就迅速的清除。实际上,这种想法并不完全正确,离群数据中也有 可能包含一些十分有用的信息,有的时候甚至能够从其中分析出重要的信息。离群数据 通常来源于测量错误、计算机录入错误、人为错误等,这些数据要对其修改、删除,否 则,可能影响数据分析结果;另外它也可能就是数据的真实性质的反映,可能比一般数 据所包含的信息更有价值,这部分数据应与以保留。所以,对异常资料的处理应该采取 辩证的态度,进行有效的分析。 离群数据挖掘就是对海量的、复杂的、含有噪音的数据进行挖掘,分析其中的有用 信息。 4 2 离群数据挖掘的方法 离群数据挖掘方法主要可以分为三类1 1 3 j :基于统计的离群数据挖掘方法,基于距离 的离群数据挖掘方法,基于偏移的离群数据挖掘方法等。 4 2 1 基于统计的离群数据挖掘方法 对已知数据集假定某种分布或概率模型,然后根据模型采用不一致性检验 ( i n c o n s i s t e n c yt e s t ) 确定离群数据【l 引。不一致性检验包含两个假设:零假设( w o r k i n g h y p o t h e s i s ) 和对立假设( a l t e r n a t i v eh y p o t h e s i s ) 。假设给定的数据集服从一个随机分布( 如 正态分布) ,用不一致性检验识别离群数据。在大多数情况下,不能知道数据的具体分 布,而且现实数据也往往不符合任何一种理想状态的数学分布。另外即使在低维( 一维 或二

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论