




已阅读5页,还剩56页未读, 继续免费阅读
(计算机应用技术专业论文)模糊关联规则挖掘及其应用研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
p 、:弋- 1i 西华大学学位论文独创性声一i y l 1 1 1 1 1 1 1 1 7 1 1 1 1 1 ”5 1 1 1 1 1 。1 1 1 1 1 2 1 1 1 1 t 1 1 7 1 1 1113111 作者郑重声明:所呈交的学位论文,是本人在导师的指导下进行研究 工作所取得的成果。尽我所知,除文中已经注明引用内容和致谢的地方外, 本论文不包含其他个人或集体已经发表的研究成果,也不包含其他已申请 学位或其他用途使用过的成果。与我一同工作的同志对本研究所做的贡献 均已在论文中做了明确的说明并表示了谢意。 若有不实之处,本人愿意承担相关法律责任。 学位论文作者签名: 日期: 指导教师签名: 日期 西华大学学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,在校 攻读学位期间论文工作的知识产权属于西华大学,同意学校保留并向国家 有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅,西 华大学可以将本论文的全部或部分内容编入有关数据库进行检索,可以采 用影印、缩印或扫描等复印手段保存和汇编本学位论文。( 保密的论文在解 密后遵守此规定) 学位论文作者签名:澎苏孽 日期:硇幻、砂搿僦:修琵 嘲:7 0 lo 、名、n 西华大学硕士学位论文 摘要 随着信息技术的发展,数据挖掘技术得到了广泛的关注。在很多研究领域中,关联 规则挖掘是数据挖掘中比较重要和活跃的研究方法之一,对它进行深入研究不仅有重要 的理论意义,而且有着重要的应用价值。关联规则数据挖掘最早于1 9 9 3 年由a g r a w a l 等人提出,最初是针对购物篮分析问题提出的,以分析事务数据库中项与项之间联系为 目标,后来的研究者们对问题原型进行多方面的改进和扩充。目前,关联规则挖掘技术 已经被应用到商业、电信、金融、农业、医疗等领域,并取得了良好的效果。 本文的主要工作是: 1 、 在对模糊关联规则挖掘问题研究和总结的基础上,对现有的关联规则挖掘 模型进行了分类,深入地分析和探讨了一些典型的模糊关联规则挖掘模型。 并指出了模糊关联规则挖掘问题存在的不足之处。 2 、 针对模糊关联规则数量问题,提出了一种新的支持度定义形式( 引入调控 因子口) ,建立了规则兴趣性度量框架,构造了一个新的模糊关联规则挖 掘模型。 3 、结合布尔型关联规则的生成算法,在此基础上提出了一种新的模糊关联规 则挖掘算法。 4 、结合民航机场建设之前对若干预选站址所要进行的电磁环境评价这一实际 案例,提出一种基于模糊关联规则理论的评价电磁环境的新方法。 关键词:数据挖掘;关联规则;模糊关联规则;电磁兼容;电磁环境评价 w i t ht h ed e v e l o p m e n to fi n f o r m a t i o nt e c h n o l o g y ,d a t am i n i n gh a sb e e np a i da t t e n t i o n e x t e n s i v e l y a sw ek n o w ,d a t am i n i n gh a sal a r g er e s e a r c hs c o p e ,a s s o c i a t i o nr u l e sm i n i n g i s o n eo ft h ei m p o r t a n tr e s e a r c ha n dt h em o s ta c t i v er e s e a r c hm e t h o d ss u b j c c ti ni t d e e p l y r e s e a r c h i n gi n t ot h es u b j e c th a st h em o s ti m p o r t a n tv a l u e sn o to n l yi nt h e o r y ,b u ta l s oi n a p p l i c a t i o n s a s s o c i a t i o nr u l em i n i n gi sp u tf o r w a r db ya g r a w a la n dt h eo t h e r si n l 9 9 3 ,f i r s t l y b ep r o p o s e df o rm a r k e tb a s k e ta n a l y s i sp r o b l e ma n dt h ep u r p o s ei sa n a l y z i n gt h er e l a t i o no f i t e m si nt r a n s a c t i o nd a t a b a s e ,l a t e r , r e s e a r c h e r si m p r o v e da n de x t e n d e dt h ep r o t o t y p eo ft h e q u e s t i o n a tp r e s e n t ,a s s o c i a t i o n r u l e s t e c h n o l o g y h a sb e e n a p p l i e d i n b u s i n e s s , t e l e c o m m u n i c a t i o n ,f i n a n c e ,a g d c u l t u r e ,m e d i c a lt r e a t m e n ta n ds oo n i th a sb r o u g h tag o o d e f f e c t t h em a i nw o r ko ft h et h e s i si s : 1 o nt h eb a s i co ft h er e s e a r c ha n ds u m m a r ya b o u tf u z z ya s s o c i a t i o nr u l ep r o b l e m ,t o c l a s s i f yt h ee x i s t i n ga s s o c i a t i o nr u l em i n i n gm o d e l ,i n d e p t ha n a l y s i sa n dd i s c u s s i o no fs o m e t y p i c a lf u z z ya s s o c i a t i o nr u l e sm i n i n gm o d e l ip o i n t e do u tt h ep r o b l e mo fm i n i n gf u z z y a s s o c i a t i o nr u l e se x i s t i n gd e f i c i e n c i e s 2 a g a i n s tq u a n t i t yo ff u z z ya s s o c i a t i o nr u l e s ,ip r o p o s ean e w f o r mo ft h ed e f i n i t i o no f s u p p o r t ( t h ei n t r o d u c t i o no fr e g u l a t o r yf a c t o ra ) ,c o n s t r u c tan e wf u z z ya s s o c i a t i o nr u l e m i n i n gm o d e l 3 c o m b i n e dw i t hb o o l e a na s s o c i a t i o nr u l e sg e n e r a t i o na l g o r i t h m ,o nt h i sb a s i s ,an e w a l g o r i t h mf o rm i n i n gf u z z y a s s o c i a t i o nr u l e si sp r o p o s e d 4 w ec o m b i n ew i t ht h ep r a c t i c a lc a s eo fe v a l u a t i o no ne l e c t r o m a g n e t i ce n v i r o n m e n tf o r af e wp r e s e l e c t i o ns t a t i o n sb e f o r ec o n s t r u c t i n gc i v i la v i a t i o na i r p o r t ,i m p r o v eo r i g i n a l m e t h o d s ,e x c a v a t et h ea t t r i b u t ei n f o r m a t i o nw h i c hi n f e c t s e v a l u a t i o no ne l e c t r o m a g n e t i c e n v i r o n m e n to fa i r p o r t ,a n dp r o p o s eam e t h o db a s e do hf u z z ya s s o c i a t i o nr u l e k e yw o r d s :d a t am i n i n g ;a s s o c i a t i o nr u l e ;f u z z ya s s o c i a t i o nr u l e ;e l e c t r o m a g n e t i c c o m p a t i b i l i t y ;e v a l u a t i o no ne l e c t r o m a g n e t i ce n v i r o n m e n t i i 两华大学硕士学位论文 目录 摘要i a b s t r a c t i i 1 绪论l 1 1 课题研究背景和意义1 1 2 国内外研究现状2 1 3 论文选题及主要工作3 2 数据挖掘及关联规则。6 2 1 数据挖掘的概念6 2 2 数据挖掘的分类7 2 3 数据挖掘的应用9 2 4 关联规则挖掘的基本概念1 0 2 5 关联规则挖掘的经典算法描述1 2 2 6 对挖掘算法a p r i o r i 的改进。1 4 2 7 小结1 6 3 模糊关联规则挖掘1 7 3 1 模糊集理论的介绍一1 7 3 1 1 模糊集合理论的提出1 7 3 1 2 模糊集理论中的概念1 7 3 1 3t 模与t 余模1 8 3 1 4 模糊理论与关联规则的结合1 9 3 2 模糊关联规则一2 0 3 2 1 模糊关联规则的提出2 0 3 2 2 模糊关联规则的概念2 1 3 2 3 模糊关联规则现有模型一般的分类2 3 3 3 小结2 5 4 基于模糊关联规则的电磁环境评价的模型2 6 4 1 支持度2 6 4 1 i t 一模算子与支持度2 6 4 1 2 新的支持度的提出。2 8 4 2 模糊关联规则挖掘改进算法。3 0 i l l 西华大学硕士学位论文 4 2 1 模糊关联规则挖掘算法 :;i ) 4 3 机场电磁环境的分析与评价3 4 4 3 1 电磁环境的基本概念。3 4 4 3 2 基于模糊关联规则的电磁环境评价方法3 8 4 3 3 小结4 4 5 总结与展望4 6 5 1 论文总结4 6 5 2 未来展望。4 6 参考文献铝 攻读硕士学位期间发表学术论文情况5 1 致谢5 2 i v 西华人学硕十学位论文 1 绪论 1 1 课题研究背景和意义 数据挖掘是一个多学科交叉研究领域,它融合了数据库技术、人工智能、机器学习、 统计学、知识工程、面向对象方法、高性能计算以及数据可视化等最新技术的研究。数 据挖掘是在大型数据存储库中,自动发现有用信息的过程,数据挖掘用来探查大型数据 库,发现先前未知的有用模式,数据挖掘还具有预测未来观测结果的能力。随着信息时 代的发展,在我们生活中,数据量的迅猛增长,企业集团的人事管理、零售行业的销售 业绩、银行客户的资料管理、网络数据的捕捉等等方面都显示出数据量的迅猛增长。如 此巨大的数据量能给我们带来什么? 我们可以从这些大量的数据中得到多少有用的知 识? 我们如何从这些数据中获取信息? 这些问题已经成为人们讨论和研究的方向。数据 挖掘就是在这样的背景中发展起来,并且数据挖掘一经产生,便迅速发展。目前数据挖 掘技术仍然是一门新兴的技术,但在短短十几年里,其应用涉及各个领域,包括银行、 零售业、客户管理、w e b 搜索和网络安全等方面。 关联规则挖掘是数据挖掘的一种比较常用的方法,利用关联规则挖掘可以从拥有大 量数据的数据库中提取置信度高的、有意义的规则,从而达到数据挖掘、信息获取的目 的。根据属性取值的不同,关联规则分为布尔型关联规则和多值属性关联规则,在多值 属性关联规则挖掘的过程中,将属性值划分到某个区间内,而区间的精确划分将导致区 间边界比较尖锐,从而有可能导致区间边界附近的信息丢失。为此,引入模糊集合理论, 将多值属性转换为模糊区间,从而使得区间的过渡比较平滑,减少区间边界信息丢失的 现象。因此,对属性为多值的数据库可以利用对属性进行模糊化的方法来获取更多、更 有意义的规则。 当前研究的重点大都是基于清晰型关联规则上展开的,但在实际的应用中,数据之 间的关系通常表现为模糊关系,而普通关联规则将焦点集中在确定和准确的概念上,对 于一些含有模糊意义的规则挖掘,则往往不能够准确表达出有意义的关联模式。因此将 模糊概念【1 j 引入到关联规则挖掘算法中,可有效地发现数据之间的模糊关系,使关联规 则的挖掘功能得到进一步增强。 随着无线电技术的不断发展,各种无线电业务层出不穷,台站数量急剧增加,无线 电频谱资源日趋紧张,电磁环境r 益复杂,研究和评价电磁环境的变化趋势也日益重要。 电磁环境的状况牵涉众多因素,如各类通信设备的设计研制、通信组网、频率分配、台 站设置审批等。为了了解和掌握现有频谱资源的使用情况,规范无线电台( 站) 的管理, 模糊关联规则挖掘及其应用研究。 保护电磁环境,及时把握电磁辐射污染情况,有关电磁环境自动监测和评估分析的工作 急待开展。近几年来,航空频段通信导航业务受干扰现象时有发生,影响正常飞行安全。 虽然无线电管理机构已投人大量人力、物力对多起航空频段通信导航业务受干扰事件 进行查处,取得了明显成效。但千扰事件仍呈上升趋势,没有得到根本的遏制,事故隐 患依然存在。因此,很有必要调查、了解机场电磁环境,在适当的时候进行评估。以达 到改善机场电磁环境的目的。改善机场、航路电磁环境是一项系统工程,国家、政府 各部门极为重视。 本文所讨论的就是将基于模糊集的关联规则挖掘技术运用到无线电信号监测的项 目中去,首先对所实地采集到的属性信息进行模糊区间划分,再进行关联规则挖掘,得 出影响电磁环境的属性之间的关系,最终也可以根据此关系判断出该地区电磁环境的情 况。 1 2 国内外研究现状 关联规则挖掘的研究越来越受到人们的关注,现已成为数据挖掘领域的一个新的研 究热点。用于发现大量数据中项集之间有趣的相关联系,许多文献都研究讨论了挖掘布 尔型关联规则问题 2 - 5 1 。1 9 9 3 年r a g r a w a l 等人首先提出了最为著名的关联规则【3 】发现方 法是挖掘顾客事务数据库中项集间的关联规则问题,并提出了一种挖掘算法,即a p r i o r i 算法。该算法的核心是基于频集理论的递归方法,是挖掘单维布尔关联规则的一种重要 方法,但具有一定的局限性,该算法的基本思想是将关联规则挖掘算法的设计分解为两 步: ( 1 ) 找到所有支持度大于最小支持度的项集,即频繁项集。 ( 2 ) 使用第( 1 ) 步找到的频繁项集产生所期望的规则。 在这些规则中,只有那些可信度大于用户给定的最小可信度的规则才被留下来。 r a g r a w a l 和r s r i k a n t 提出了可以集中于处理产生频繁集的快速a p r i o r i 算法f 6 1 :1 9 9 5 年,一部分( p a r kjs ,s a r a s c r ea 等) 学者提出了很多对a p r i o r i 算法【7 】【8 】的改进算法, 但是多数是针对布尔型数据的关联规则的挖掘;1 9 9 6 年,a g r a w a l 和s r i k a n t 对当进行 数值型关联规则挖掘时如何划分子区间以及规则合并等问题进行详细的研究f 9 1 ,但是在 区域划分时,容易忽略或者过分的强调区分临界值附近点在分区中所起的作用,即锐利 临界值问题;其次,在处理高偏度数据时,区间划分的方法很难有效地体现数据的实际 分布情况;1 9 9 7 年,c h a nm k ,f ua 等用模糊集软化划分边界,并提出模糊关联规则 的概念 1 0 】,但文中没有讨论如何将数量型属性划分成模糊集,也没有系统地提出挖掘 模糊关联规则的具体算法;1 9 9 8 年程继华提出了一种挖掘模糊关联规则的算法【1 1 】; 2 西华大学硕十学位论文 2 0 0 0 年,李德毅、邸凯昌和李德仁等,用语言云模型软化划分边界 1 2 】,并研究了数量 型属性关联规则的挖掘算法;2 0 0 1 年,陆建江、宋自林和钱祖平用模糊聚类算法将数量 型属性划分成若干个模糊集,并提出了语言值关联规则的挖掘算法b 3 ,但文中的算法 只适用于含有少量属性的数据库;2 0 0 1 年,i s h i b u c h i ,n a k a s h i m aa n dy a m a m o t o 也提 出了一种处理连续性属性的模糊关联规则挖掘算法【1 0 】,该算法很好的解决了锐利临界 值问题,但是需要专家给出隶属函数,以将数值属性模糊软化。考虑到不同应用领域, 这在很多时候是不现实的;2 0 0 4 年,陆建江等提出了基于语言值的关联规则挖掘方法 【1 4 】,但在语言值提取过程中没有考虑语言值关联规则的可理解性特征。 1 3 论文选题及主要工作 关联规则挖掘是数据挖掘领域的一个重要研究课题,由于它在商务领域,特别是近 几年在电子商务的成功应用,已经越来越得到挖掘界的关注。关联规则主要是描述数据 库中数据项( 属性) 之间所存在的潜在关系的规则,它可以反映一个事物与其他事物之 间的相互依存和关联性,如果两个或者多个事物之间存在一定的关联关系,那么其中一 个事物就能够通过其他事物来预测。关联规则挖掘可以发现大量数据中项集之间的关联 或相关联系它是形如x 号y 的蕴涵式,其中z 和y 都是数据项( 属性值) ,并且 x n y f 2 j ,通常衡量规则的主要指标是支持度和可信度,支持度确定规则可用于给定 数据集的频繁程度,而置信度确定y 在包含x 的事务中出现的频繁程度。例如:“面 包,黄油_ 牛奶【o 7 ,0 9 】”是一个从销售数据中挖掘出来的关联规则,它的支持度为 0 7 0 ,可信度为0 9 0 。该规则包含的意思是“在所有的销售数据中,购买面包和黄油且 买牛奶的数据占7 0 ”,“在购买面包和黄油的顾客中,有9 0 的人同时也买了牛奶”。 它的直观含义就是顾客在购买某些商品时有多大的倾向会购买另外的一些商品,这有助 于指导商场货架的组织、布局和配套穿行路线的设计等。用公式表述为: s u p o r t ( x 等y ) = s u p p o r t ( xuy ) 在传统的关联规则挖掘中,通常需要对事务数据库的连续属性作为数据预处理,其 方法是应用经典集论,将这些属性根据数值区间划分为若干经典集合,一个对象或者一 定属于这个集合,或者不属于这个集合。但是这样的划分往往会过于绝对而不能真实地 体现对象之间的区别,尤其是在区间的边界点处。为此,在关联规则挖掘的数据预处理 中引入了模糊集合论,将连续属性划分为模糊集合而不是经典集合,以有效地解决“尖 锐边界”问题,使集合的划分更能真实地体现数据本身的特征。 3 模糊关联规1 4 0 控挪厦其应用研究 由此,原数据库中相应的数据值( 属性值) 通过模糊转化为模糊数据值( 模糊属性 值) ,经典的关联规则也相应地转化为模糊关联规则。要挖掘模糊关联规则,首先要将 每个数值属性转化为相应的模糊集,将属性值转化为模糊属性值,这就涉及到了隶属函 数的问题,在很多领域可由用户或领域专家给出。 随着无线电通信事业的快速发展,各类无线电台( 站) 迅速增多,为改革开放、经济 发展发挥了十分重要的作用,同时也给人民群众的生活和工作带来了极大的方便。但是 随着无线电台( 站) 数量的迅速增加,使有限的频率资源日趋拥挤,各种无线电干扰的机 率不断增多,电磁环境同趋复杂,研究和评价电磁环境的变化趋势也日益重要。近几年 来,航空频段通信导航业务受干扰现象时有发生,影响正常飞行安全。因此,很有必要 调查、了解机场电磁环境,适当的时候进行评估,以达到改善机场电磁环境的目的。机 场电磁环境评价首先要依据中华人民共和国无线电管理条例的规定进行测试和评估, 使用的设备是无线电领域内标准的信号接收仪表和天线等。以往的评估方法有的是不简 化数据( 原始数据) 的评估,即由实测数据和覆盖区域内最低信号场强得出防护率( 指保证 导航接收设备正常工作的接收机天线处信号场强与同频干扰场强的最小比值,以分贝表 示) ,结合相关标准进行评估;还有的是采取简化数据( 统计数据) 的评估,即根据l e e 方 法进行数据评估,根据概率将数据归类,在限定间隔时间内进行平均i l 。但是原有的电 磁环境评估方法不但完全基于数据统计分析得出结论,角度单一,而且评估系统有些简 单和粗糙,不够完备。因此,在本文中把机场建设之前对预选站址所做的电磁环境评价 作为实际案例,结合无线电技术人员丰富的工作经验,对测试系统所得的原始数据和监 测站的分析报告进行研究和总结,充分利用模糊关联规则技术挖掘相关属性之间蕴涵的 有用的关联规则。 论文一共分为五章,其技术路线和主要工作现归纳如下: ( 1 ) 首先查阅相关文献和资料,了解课题研究背景和意义以及该领域在国内、外的 研究现状,并且论述了论文的选题和主要工作:( 2 ) 数据挖掘和关联规则,简要介绍数 据挖掘的定义、分类、应用;关联规则的基本概念、经典算法;( 3 ) 模糊关联规则,介 绍了模糊集理论的基本概念、性质;模糊关联规则的基本概念,对现有的模糊关联规则 模型进行了介绍;( 4 ) 针对模糊关联规则现有模型,进行了改进;提出了一种新的模糊 关联规则模型,以机场电磁环境测试评估作应用背景,结合已有的无线电领域内电磁环 境测试的基本概念和测试系统,通过监测到的原始数据和工作人员的经验对无线电领域 原有的评估方法加以改进,深入探讨影响电磁环境评价的因素,提出一种基于模糊关联 规则模型评价电磁环境的新方法。最后通过测试系统将实际采集到的一组数据进行统 计,并进行了数据的分析,从而验证了方法的可行性。( 5 ) 做全面总结。给出论文的总 4 体 方 5 模糊关联规则挖掘及其应用研究 2 数据挖掘及关联规则 数据挖掘是- - f 7 多学科交叉应用领域,在各行各业都扮演着越来越重要的角色。本 章将从数据挖掘的定义、分类以及应用等方面对数据挖掘技术做一简单的介绍,并介绍 数据挖掘技术中常用的一种方法一关联规则挖掘及经典的a p r o i r i 算法描述。 2 1 数据挖掘的概念 计算机与信息技术经历了半个多世纪的发展,给人类社会带来了巨大的变化与影 响。在支配人类社会三大要素( 能源、材料和信息) 中,信息越来越显示出其重要性和支 配力,随着技术的进步,人们能快速、方便地获取和存储大量数据,这就使得数据及其 信息量快速增长。9 0 年代互联网( i n t e r n e t ) 的出现与发展,以及随之而来的企业内部网 ( i n t r a n e t ) 和企业外部网( e x t 啪e t ) 以及虚拟私有i 网( v p n :v i r t u a lp r i v a t en e t w o r k ) 的产生和 应用,使整个世界相互间的联系越来越紧密,人们可以跨越地域的限制,在网上交换信 息和协同工作。这样,展现在人们面前的已不是局限于本部门、本单位和本行业的庞大 数据库,而是浩瀚无垠的信息海洋。面对这样极度膨胀的数据信息量,人们受到“信息 爆炸 、“混沌信息空间”和“数据过剩”的巨大压力。 随着计算机硬件和软件的迅速发展,尤其是数据库技术及其应用的同益普及,存储 的数据量猛增,如何有效的利用这些丰富的数据量,己成为人们关注的焦点之一。随着 信息技术的发展,企业、政府机构可以很方便地收集到大量的数据。比如在超级市场中, 电脑自动汇集了每一次购物情况,几乎不用太多时间,如此持续就可以收集到非常庞大 的数据。又如在银行交易中,客户在每次刷卡时,取款金额、日期等各种信息就会被输 入电脑。因此在我们的生活中产生了非常巨大的数据量,而这些繁冗的数据很难直接反 映出某种规律或关联。例如将上百万的数据按大小排个次序,就成了耗时的运算,更不 用说进一步的分析了。另一方面,在大量的数据中确实隐含着各种各样的信息,这些信 息往往根据人们的直觉与经验是难以发现的,但电脑具有处理大量数据并且运算速度极 快的特点,我们可以利用电脑的这些特点,对数据进行分析,以便发现有用的规律和联 系。数据挖掘技术正是在这种情况下应运而生,并显示出强大的生命力。 数据挖掘是源于大型零售商面对决策支撑问题提出的,它是从大量的数据中识别出 有效的、新颖的、具有潜在用途的及最终可以理解的模式的高级处理过程。 数据挖掘的步骤描述如图2 1 所示: 6 其中: 1 、目标数据:获取相关知识数据,形成目标数据集。 2 、预处理数据:对数据进行预处理,清除不必要的噪声数据,清除与挖掘主题明 显无关的数据,并且将来自多数据源的数据集合到一起。 3 、数据转换:将数据转换为易于进行数据挖掘的数据存储形式。 4 、数据挖掘:这是整个挖掘过程中最基本的一个步骤,其作用就是利用种种方法 挖掘数据模式或规律知识。 5 、模式评估:其作用就是根据一定的评估标准,从挖掘结果筛选出有意义的模式 知识。 6 、知识表示:利用可视化和知识表达技术,向用户展示所挖掘出的相关知识。 2 。2 数据挖掘的分类 随着数据挖掘的发展,其功能也越来越多。根据发现任务与发现目标的不同,数 据挖掘可分为分类或预测模型发现、数据总结、聚类、关联规则发现、序列模式发现、 依赖关系或依赖模型发现、异常和趋势发现等。本节将给出几种功能介绍。 1 、分类分析 分类,在数据挖掘中是一项非常重要的任务。就是按照分析对象的属性,建立类组, 根据一些变量的数值做计算,再依照结果作分类。分类的目的是找到一个分类函数或分 类模型( 也常常称作分类器) ,该模型能把数据库中的数据项映射到给定类别中的某一 个类别。分类可用于预测。预测的目的是从历史数据纪录中自动推导出对给定数据的趋 势描述,从而能对未来数据进行预测。 模糊关联规则挖掘及其应用研究 其主要方法有:统计方法、神经网络方法、粗糙集方法、决策树方法等。 2 、聚类分析 聚类是把一些个体按照相似性归成若干类别,即“物以类聚 。它的目的是使属于 同一类别的个体之间的距离尽可能的小,而不同类别上的个体间的距离尽可能的大。很 显然,不同类型的问题可以给出不同的聚类原则,从而找到不同的特征。例如世界上的 居民可以按民族分类,可以按肤色分类,可以按国家分类,不同的聚类原则就会 找出不同的特征。 其主要方法有:统计方法、机器学习方法、神经网络方法。 3 、关联规则发现 关联是要找出在某一事件或者资料中会同时出现的东西。关联( a s s o c i a t i o n ) 主要是找 出下面这样的信息:如果a 是某一事件的一部分,则b 也出现在该事件中的机率有x 。 例如:如果一个顾客买了低脂乳酪,那么这个顾客同时也买低脂牛奶的机率是8 5 。这 样就可以确定哪些相关对象应该放在一起。通过关联规则发现可以对顾客的购买行为提 供极有价值的信息,可以帮助如何摆放货架上的商品,把顾客经常同时购买的商品放在 一起,帮助规划市场,减少库存,对市场变化提供预测。通过关联规则,我们可以得到 例如“尿布和啤酒常被同时购买 的意料之外的发现,这也是关联规则在商业领域的成 功应用案例之一。这是我们的经验所无法替代的。 4 、依赖关系分析 数据依赖关系代表一类重要的可发现的知识。一个依赖关系存在于两个元素之间。 如果一个元素a 的值可以推出另一个元素曰的值( 彳呻b ) ,则称b 依赖于a 。这个元素 可以是字段,也可是字段间的关系。 在发现系统中,依赖关系分析的结果有时可以直接提供给终端用户。然而,通常强 的依赖关系反映的是固有的领域结构而不是什么新的或有兴趣的事物。自动地查找依赖 关系可能是一种有用的方法,这类知识可被其他模式抽取算法使用,比如可用于解释千 万某种变化的原因。 5 、偏差检测 通过发现异常,可以引起人们对特殊情况的加倍注意。异常包括如下几种可能引起 人们兴趣的模式:不满足常规类的异常例子;出现在模式边缘的特异点;与父类或兄弟 类有显著不同的类;在不同时刻发生了显著变化的某个元素或集合;观察值与模型推算 出的期望值之间有显著的差异的事例。偏差分析的一个重要特征就是它可以有效地过滤 大量的不感兴趣的模式。 两华大学硕士学位论文 2 3 数据挖掘的应用 数据挖掘的产生就是面向应用的,在很多重要领域,数据挖掘技术都发挥着巨大作 用1 1 们。 一、数据挖掘在商业领域中的应用 在如今市场相对饱和,厂商之间的竞争已经由市场份额之争转移到利润份额之争的 环境下,数据挖掘技术应用于商业领域能够产生巨大的商业利润。在国外关于数据挖掘 应用的相关文献中涉及商业领域的为数颇多,这类问题的研究大多集中在零售、金融、 电信等方面,也是数据挖掘技术应用发展比较成熟的地方。 数据挖掘在零售业中的应用主要涉及客户细分和交叉销售等方面。j i a w e i h a n 和 m i c h e l i n ek a m b e r 认为,零售业数据挖掘可有助于识别客户购买行为,发现客户购买模 式和趋势,改进服务质量,取得更好的客户保持力和满意程度,提高货品销量比率,设 计更好的货品运输与分销策略,降低商业成本。在金融业方面,数据挖掘的应用突出表 现在信用评估和防止欺诈等方面。数据挖掘在电信业最突出表现是其在客户保持方面的 应用。近年来数据挖掘技术被大量地应用于电子商务的领域,基于w e b 的数据挖掘技 术j 下在飞速发展。 科技往往是应生产的需要而产生,数据挖掘的出现也如此,因此这一技术在工业生 产领域中应用已经十分广泛和成熟。早在1 9 8 4 年,w e s t i n g h o u s e 的研究人员l e e c h 就 开始将决策树技术应用于核电厂生产中预测氧化物粉末小颗粒的质量,其后又对新数据 进行归纳学习获得了更加准确的规则。这一应用提高了产量、降低了库存,西屋公司每 年增加一千多万元的销售额。r y s z a r d 和m i c h a l s k i 等人总结了多个数据挖掘在工业生产 中应用的具体领域,包括决策树技术用于提高化工过程控制中的产量,用归纳算法进行 机械设备故障诊断,用归纳方法监测卷轧冷钢过程中旋转乳液的质量,利用结构化归纳 改善炼油厂油气分离质量,利用规则归纳预防电力公司变压器故障,利用决策树归纳实 现钢厂调度自动化等。 二、数据挖掘技术在非营利组织中的应用 数据挖掘由于其与统计学之间的内在联系,从诞生之同起就被应用到生物、医学等 广泛应用统计技术的领域,随着数据挖掘技术的不断成熟,近年来数据挖掘在许多非营 利性组织中开辟了新的应用领域。 在生物与医学领域中,n e u r o m e d i c a l 系统公司采用神经网络技术进行油性流质食物 辅助诊断;v y s i s 采用神经网络技术为药品开发进行蛋白质分析;r o c h e s t e r 大学癌症中 心和牛津移植中心采用基于决策树技术的k n o w l e d g es e e k e r 辅助他们的研究工作:南 加州大学脊椎病医院利用i n f o r m a t i o nd i s c o v e r y 进行数据挖掘。目前数据挖掘技术已经 9 模糊关联规则挖掘及其应用研究 应用到肿瘤学、肝脏病理学、肝炎的生存几率预测、泌尿学、甲状腺病例诊断、风湿病 学、c r a n i o s t e n o s i s 综合病症诊断、皮肤病诊断、心脏病学、神经心理学、妇科医学、产 科医学等众多医学领域。 在天文与气象领域中,天文学中的有些问题是人力所不能及的,其获得的数据往往 是g b 级的。1 9 9 5 年f a y y a d 等人采用归纳技术处理天体对象的分类问题,取得了符合 科学数据分析标准的高准确率。1 9 9 6 年m u k h e r j e e 等人描述了数据挖掘的几种科学应用, 包括天空图象分析、金星上的火山定位和地震的侦测。数据挖掘在气象学中的应用也有 着较早的历史,1 9 8 5 年z u b r i c k 和r i e s e 介绍了决策树归纳方法在预测严重暴风雨方面 的应用。 在地理与环保领域中,美国b y r dp o l a r 研究中心的p a l e o e l i m a t o l o g y 小组将数据挖 掘方法应用于构建水网地图。s a i 0d l q e r o s k i 等人介绍了数据挖掘应用于生态环保领域, 利用规则归纳解决若干有关水质生物分类问题,w a l l e y 等人利用贝叶斯推理,而r u c k 等人利用神经网络来完成河流水质生物分类。k o m p a r e 等人还利用机器学习技术解决海 藻在湖和礁湖中生长的建模问题,并从测量数据归纳出差分方程模型。 三、数据挖掘的其他应用 由于数据挖掘可以解决视频图像序列中的动作识别问题,因此也被应用于安全反恐 领域。r y s z a r d 和m i c h a l s k i 阐述了在检查行李x 光图像中的引爆雷管问题的数据挖掘 解决方案。此外,相关的应用还包括利用规则归纳处理直升机叶片的修理问题,利用结 构化归纳方法进行航天飞机引擎的测试,利用决策树归纳配置建筑物中的防火设备,以 及将数据挖掘技术应用于体育比赛和运动员训练、电视娱乐、新闻出版等。随着数据挖 掘技术的不断成熟,数据挖掘的应用将越来越广泛。 2 4 关联规则挖掘的基本概念 关联规则挖掘是从大量的数据中挖掘出有价值的数据项之间相互联系的有关知识。 它挖掘的一般对象是事务数据库,如对于零售业的销售事务数据库、网终访问日志数据 库等。1 9 9 3 年a g r a w a l 于1 9 9 3 年首次提出了布尔型关联规则问题啪1 。 定义2 1 2 0 1 :关联规则挖掘的数据集记为d ,d = p 。,f :,“,t 。,气一“,屯, ,f 口 ,称为事务( t r a n s a c t i o n s ) ,其中k 一1 ,2 ,n ;( 胁- 1 2 ,p ) 称为项i ;i ( i t e m ) 。 定义2 2 2 0 1 :设,一“,之,) 是d 中全体项目组成的集合,中的任何子集x 称为 d 中的项目集( i t e m s e t ) ,若项目集x 的项目数为k ,则称集合x 为k 项目集( 七i t e m s ) 。 设r 。和x 分别为d 中的事务和项目集,如果x t 。,称事务t 。包含项目集x 。每一个事 务都有一个惟一的标识符,称为t i d 。 1 0 西华大学硕七学位论文 定义2 3 啪1 :数据集d 中包含项目集x 的事务数称为项目集x 的支持数,记为 x :o u n t 。项目集x 的支持度记为s u p p o r t ( x ) : s u p p o r t ( x ) 一寄x1 0 0 或s u p p o r t ( x ) 一寄 其中:l d i 是数据集d 的记录数,若s u p p o r t ( x ) 不小于用户指定的最小支持度 ( m i n s u p ) ,则称x 为频繁项目集,简称为频集( 或大项目集) ,否则称x 为非频繁集, 简称为非频集( 或小项目集) 。若k 一项目集为频繁项目集,则称其为频繁k 一项目集。 定理2 1 啪1 :设x 、y 是数据集d 中的项目集: ( 1 ) 若x y ,则s u p p o r t ( x ) 2s u p p o r t ( y ) 。 ( 2 ) 若x y ,如果x 是非频繁集,则y 也是非频繁集。 ( 3 ) 若x y ,若y 是频繁集,则x 也是频繁集。 定义2 4 枷:若x 、y 为项目集,且xny 。f 2 j ,蕴涵式xjy 称为关联规则,x 、】, 分别称为关联规则x 辛y 的前提和结论。项目集xuy 的支持度称为关联规则x 辛y 的支持度,记作( s u p p o r t ( x 专y ) : s u p p o r t ( x 号y ) = s u p p o r t ( xu y j e ( xu y j = s 关联规则xj y 的置信度记作 confide胱(轴小墅帮计(rx)support 一 、 i xj 关联规则x 号y 含义为:在数据集d 中有s 的记录包含项目集xu y ,并且在数 据集d 中包含项目集x 的事务中有c 同时也包含项目集y 。例如关联规则 ” , 辛 ,( 3 5 ,6 5 ) ”表示的含义为年龄在 3 0 到3 9 岁之间拥有3 辆汽车的已婚者占总调查人数的3 5 ;年龄在3 0 到3 9 岁之间的 已婚者中,有6 5 的人拥有3 辆汽车。 通常用户根据挖掘需要而指定的最小支持度和最小置信度分别记为m i n c s u p 和 m i n c o n f 支持度和置信度是描述关联规则的两个重要概念,前者用于衡量关联规则在整个数 据集中的统计重要性,后者用于衡量关联规则的可信程度。一般来说,只有支持度和置 信度均较高的关联规则才可能是用户感兴趣的、有用的关联规则。 定义2 5 : s u p p o r t ( x 净y ) m i n s u p ,j lc o n f i d e n c e ( x 净y ) m i n c o n f , 称关联规则 x 专y 为强关联规则,否则称关联规则x 考y 为弱关联规则。 关联规则挖掘主要包含以下两个步骤: 模糊_ 关联规则挖掘及其应用研究 ( 1 ) 发现频繁项目集,即根据用户指定的最小支持度寻找所有频繁项目集,即满足支 持度小于m i n s u p 的所有项目子集。 ( 2 ) 由频繁项目集和最小置信度生成强关联规则。通常用户给定的最小可信度,在 每个最大频繁项目集中,寻找可信度不小于m i n c o n f 的关联规则。 2 5 关联规则挖掘的经典算法描述 a g r a w a l 等人于1 9 9 3 年提出了a i s 算法2 0 1 和s e t m 算法2 1 1 ,1 9 9 4 年又提出了 a i s 改进的a p r i o r i 算法2 2 1 。 a p r i o r i 算法被认为是关联规则挖掘中的经典算法,它的描述如下。 算法a p r i o r i : 输入:事务数据库d ,最小支持度m i n s u p 输出:d 中的频繁项集 1 、主程序( 寻找频繁项目集) : ( 1 ) l l - p n d f r e q u e n t i t e m s e t ( d ) ;发现频繁l 一项目集 ( 2 ) 扣,( 七i l l2 ;l i - l m ;七+ + ) ( 3 ) ( 4 ) q a p r i o r i g e n ( l h ,;m i n s u p ) 根据频繁k 一项目集产生候选k 一项目集 ( 5 ) f o ,e a c ht r a n s a c t i o n s
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 药厂生产现场质检员课件
- 销售返利合同与销售返利的合同4篇
- 房地产买卖与租赁合作协议
- 政府采购招标文件编制及审核流程工具
- 科学潜水艇课件
- 费用申请与报销流程统一化工具
- 建筑外墙保温工程合同
- 农业信息化管理系统建设与维护合同
- 康复护理心理评定
- 废气环保知识培训课件
- 铁路专项病害课件
- 开学安全教育课件
- 2025年学历类自考专业(学前教育)学前儿童发展-学前教育原理参考题库含答案解析(5套)
- 2025-2026学年人教版(2024)初中化学九年级上册教学计划及进度表
- 日本设备销售合同范本
- (2024)大学生宪法知识竞赛题库及答案
- 2025年芜湖市鸠江区医院招聘16名工作人员笔试参考题库附答案解析
- T-CBDA 86-2025 建筑幕墙、采光顶及金属屋面工程质量验收标准
- 厨房消防安全培训
- 2025山西阳泉平定县从社区专职网格员中选聘社区专职工作人员考试备考试题及答案解析
- 小陈 税务风险应对常见指标与答复思路
评论
0/150
提交评论