




已阅读5页,还剩61页未读, 继续免费阅读
(计算机科学与技术专业论文)基于关联的自适应分类规则挖掘模型的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
攘要 撼要 分炎是数强挖掘中应曩j 褥簸多麴强务之。在c r m ( 罄户关系蛰理) 中, 分类分橱就燕通过分析梯零客户数据库中的数掭,为每个类别作出准确的擒述或 建立分辑摸纛或挖掘趣分类疑划,然瑶蠲这个分类规则对其它客户的记录滋罩予分 类。疆髓分类的磷究多偏重于从冀法的角度进符研究,主要集中在提蕊分类算法 晌准确攫帮效率上,对于鲡秘实现一个完善稳嫩弼系统则没寿绘予太多的关注, 而数据挖掘憝个与应用结合如眈紧密的一项研究,西j 琏:绪台其俸的威焉需求对 数摇挖掘进褥磷究是十分必要瓣。 本文提出了一个基于关联的自逶成分类瀵燹| j 挖黼摸鹜,主骚研究葶疆探讨了浚 模登在预链疆、多麓分黉囊舞| j 豹挖瓣、簿法熊w 扩溪靛、效率帮输入参数豹自适 应等方蕊的憨慧、技术和方法。在般静蕊子关联靛分类方法巾,帮怒辎爝檬灌 关联麓瓣挖攘冀法( 翔n p n o r i 算法) 挖糕懑露关斡美联窳粼,本文箍密了巅嗣 不需爱产生候选集鹣簇繁集撩籀雾滚f p g r o w t h 算法卷产黛频繁集,大大降低了 辩阕鞠窆闻笺杂度。弱瓣对渡雾法遴毒亍了改造,使冀熬逶窿关联分类瓣粼懿挖掘, 遥避决策属性中覆馁僖的最大支持发m a xs u p 及时消豫无蘸途瓣搜索姆径,减少 7 嚣衾频繁簇黪产黛,褥嵩了挖掘瓣骞效蕊。筠辩,搜输入参数疑叁邋应遴雩亍调 整,释低了搦声输入拽零参数蠡 簦难度,疑离了熬令搂羹j c | 分类瓣羹| l 捡搦瓣簧糁榷、 准确毪、效零帮霉扩疑瞧。爱嚣对辘爨筑甏港行趸佘羧分瓣,测除嚣佘熬浚窭溪 巅,馊耩爨簸剃姥雯翱灞足耀声霉蘩辫覆其鸯疆学拣。 荚键溜:数器羧撬分爨怒粼魏攮基予关联壹逶畿 a b s t r a c t a b s t r a c t c l a s s i f i c a t i o ni so n eo f 也em o s tc o m m o n l yu s e dt a s k si nd a t am i n i n g i nc r m ( c u s t o m e rr e l a t i o n s h i pm a n a g e m e n t ) ,c l a s s i f i c a t i o na n a l y s i sm a k e e x a c td e s c r i p t i o no r b u i l da n a l y s i sm o d e lo rm i n ec l a s s i f i c a t i o nr u l e sf o re v e r yc a t e g o r yt h r o u 蜘a n a l y z i n g t h ed a t ai ns a m p l ec u s t o m e rd a t a b a s e s t h e no t h e rc u s t o m e rr e c o r d sa r cc l a s s i f i e db yt h e c l a s s i t i c a t i o nr u l e s r e c e n t l y , m o s to fa n a l y s i sa b o u tc l a s s i f i c a t i o ni sl a i dp a r t i c u l a r s t r e s so na r i t h m e t i ca n df a s t e no ne n h a n c et h en i c e t ya n de f f i c i e n c yo fc l a s s i f i c a t i o n a r i t h m e t i c af e wo fi n v e s t i g a t o r sp a ya t t e n t i o nt ot h a th o wt oa c h i e v eap e r f e c t a p p l i c a t i o ns y s t e m h o w e v e r , d a t am i n i n g i sa na n a l y s i st h a ti n t e g r a t e dw i t ha p p l i c a t i o n c l o s e l y i t i sv e r yn e c e s s a r yt h a ts t u d y i n go nd a t am i n i n gl i n kw i t hr e q u i r e m e n to f m a t e r i a la p p l i c a t i o n s t h e p a p e rp r o p o s e s am o d e lo f a s s o c i a t i o nb a s e d s e l f - a d a p t i v em i n i n g c l a s s i f i c a t i o n r u l e s ,a n dm a k e sad e e pr e s e a r c ha n dd i s c u s s i o no ni d e a s ,t e c h n o l o g i e sa n d m e t h o d s a b o u tt h ep r e - p r o c e s s i n g ,t h em i n i n go nm u l t i l e v e lc l a s s i f i c a t i o nr u l e s ,t h ee x t e n s i b l e a n de f f i c i e n c yo fa r i t h m e t i ca n dt h es e l f - a d a p t i v eo fi m p o r tp a r a m e t e r se t c i ng e n e r i c a s s o e i a t i 妊b a s e dc l a s s i f i e :a t i o n m e t h o d s , u s i n gs t a n d a r d a s s o c i a t i o nr u l e s m i n i n g a r i t h m e t i c ( f o re x a m p l e :a p r i o r ia r i t h m e t i c ) t om i n i n g r e l a t i o n a la s s o c i a t i o nr u l e s t h e p a p e rp r o p o s e su s i n gf p - g r o w t h a r i t h m e t i ct op r o d u c ef r e q u e n c ys e t sw h i c hn e e dn o t p r o d u c e c a n d i d a t es e t s i nt h i sc a s et h et i m ea n ds p a c ec o m p l e x i t i e sa r er e d u c e dg r e a t l y a tt h es a l n et i m e ,t h r o u g hr e b u i l d i n gt h ea r i t h m e t i ct of i tf o rm i n i n gt h ea s s o c i a t i o n c l a s s i f i c a t i o nr u l e s ,r g i n o v eu n p r o m i s i n gp a t h ss e a r c h e db yt h em a x i m a ls u p p o r to f t h e v a l u eo fd e c i s i o na t t r i b u t e , r e d u c et h ep r o d u c i n go fr e d u n d a n c yf r e q u e n c ys e t s ,a n d i m p r o v et h ev a l i d i t yo f d a t am i n i n g i na d d i t i o n ,i m p o r tp a r a m e t e r sc a nb ea d j u s t e db y s e l f - a d a p t i v e ,w h i c h w i l lr e d u c et h e d i f f i c u l t yo f i n p u t t e c h n i c a lp a r a m e t e r sb yu s e r sa n d i m p r o v e t h ew h o l em o d e l sd e p e n d a b i l i t y , v e r a c i t y , e f f i c i e n c ya n de x t e n s i b l ef o rm i n i n g c l a s s i f i c a t i o n r u l e s ,f i n a l l y , a n a l y z e t h er e d u n d a n c yo fo u t p u tr u l e s ,d e l e t e t h e r e d u n d a n c yo u t p u tr u l e s ,a n dm a k e t h eo u t p u tr u l e sm o r ef i tf o ru s e r sa n de v e nm o r e s c i e n c e 。 k e y w o r d s :d a t am i n i n g c l a s s i f i c a t i o nr u l e s a s s o c i a t i o nb a s e d a d a p t a t i o n 声明 创新性声明 y 幻 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不 包含其他人已经发表或撰写过的研究成果:也不包含为获得西安电子科技大学或 其它教育机构的学位或证书而使用过的材料。与我同工作的同志对本研究所做 的任何贡献均已在论文中做了明确的说明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切相关责任。 本人签名:查,墨圭 关于论文使用授权的说明 本人完全了解西安电子科技大学有关保留和使用学位论文的规定,即:研究 生在校攻读学位期间论文工作的知识产权单位属西安电子科技大学。本人保证毕 业离校后,发表论文或使用论文工作成果时署名单位仍然为西安电子科技大学。 学校有权保留送交论文的复印件,允许查阅和借阅论文;学校可以公布论文的全 部或部分内容,可以允许采用影印、缩印或其它复制手段保存论文。( 保密的论 文在解密后遵守此规定) 本学位论文属于保密,在年解密后适用本授权书。 本人签名:查熊圭: 导师签名毛兰兰b 日期蛔,r 吖 日期王7 ,t f 第章绪论 第一章绪论 1 1 引言 近十几年来,人们利用信息技术生产和搜集数据的能力大幅度提高,无数个 数据库被用于商业管理、政府办公、科学研究和工程开发等,这一势头仍将持续 发展下去。于是,一个新的挑战被提了出来:在这被称之为信息爆炸的时代,信 息过量几乎成为人人需要面对的问题。如何才能不被信息的汪洋大海所淹没,从 中及时发现有用的知识,提高信息利用率,成为一个引人注目的研究课题。 面对“人们被数据淹没,人们却饥饿于知识”的挑饿,数据挖掘( d a t a m i n i n g ) 和知识发现( k n o w l e , d g ed i s c o v e r yi nd a t a b a s e ,k d d ) 技术应运而生, 并得以蓬勃发展,越来越显示出其强大的生命力。数据挖掘就是从大量的、不完 全的、有噪声的、模糊的、随机的数据中,提取稳含在其中的、人们事先不知道 的、但又是潜在有用的信息和知识的过程 4 0 l 。人们把原始数据看作是形成知识的 源泉,就像从矿石中采矿一样。数据挖掘是一门广义的交叉学科,它汇聚了不同 领域的研究者,尤其是数据库、人工智能、数理统计、可视化、并行计算等方面 的学者和工程技术人员。 特别要指出的是,数据挖掘技术从一开始就是两询应用的。它不仅是面向特 定数据库的简单检索查询调用j 而且要对这些数据进行微观、中观乃至宏观的统 计、分析、综合和推理,以指导实际问题的求解,企图发现事件间的相互关联, 甚至利用已有的数据对未来的活动进行预测。这样一来,就把人们对数据的应用, 从低层次的末端查询操作,提高到为各级经营决策者提供决策支持。同时需要指 出的是,这里所说的数据挖掘,不是要求发现放之四海而皆准的真理,也不是要 去发现崭新的自然科学定理和纯数学公式,更不是什么机器定理证明。所有发现 的知识都是相对的,是有特定前提和约束条件、面向特定领域的,同时还要能够 易于被用户理解,最好能用自然语言表达发现结果。因此数据挖掘的研究成果是 很讲求实际的。 ; 1 2 数据挖掘在c r m 中的核心作厢 在竞争激烈的商业时代k 资源占有成为决定企业生死成败的关键。在客户关 系方面,企业总希望建立与客户最稳固的关系,并最有效率地把这种关系转化为 利润,即留住老客户、发展新客户并锁定利润率最高的客户,这也就是客户关系 管理( c u s t o m e r r e l a t i o n s h i pm a n a g e c r m ) 要熏意研究教嗣鼷在客户关系管 2 基于关联瓣自透藏分类援剡挖撼模型瓣研究 瑾( c r m ) 理论中有一个经典的2 8 原翼| j ,帮8 0 番j 满采鑫2 0 客户。郝么, 这2 0 的客户都有什么特被呢? 为了找出这些客户的特征,企业所能做的,就 是尽可能收集客户的信息,借助各种分桥方法,透过无序的、表层的信息挖出内 在的知识和规律,这就是当前十分流幸亍的数据挖搦技术所研究的。在挖出大量信 息之后,念业就可以根据逸些规律戚用这燎信息设计数学模型,对未发生行为做 出结果预测,为金泣魏综会经营决策、枣濒策划攥供菝撂。企业窳蘩特c r m 扮演更重要的角色,分析大量复杂的客户数据,挖掘客户价值。 c r m 数帮赣企监建立起瘴大豹数豢愈痒,键在数撂仓痒孛避行数撵挖掘 j 正逐渐成为c r m 中最核心的部分。数据挖掘技术帮助企她管理客户生命周期的 各个阶段,包括争取新韵客户,让已有扮客户剖潦更多的髑澜、豫持住膏价值韵 客户等等。它能够帮助企炊确定客户的特点,使企业能够为客户提供有针对性的 服务。 1 3 数据挖掘酶鳞究糯状秘应爵领域 i 。3 。l 数攥挖掘豹臻宠瑗狻 、 k d d 一词首次出现在1 9 8 9 年8 月举行的第l l 届国际联合人工智能学术会 议主。迄今必壹,囊美晷人工蟹熊貉会圭焱戆k d d 蓬菰疆讨金筑攘由爨来豹专 题讨论会发展列国际学术大会,研究重点墩逐渐从发现方法转向系统应用,并且 注蒺多耱发现策略靼技本豹集残,戳及多秘学辩之藏懿摆蠢渗透。荚链蠹褰煞专 题会议也把数据挖掘和知识发现列为议题之一,成为当前计算枫科学界的一大热 点。越终,数据露、入工嚣能、僖患处理一翔识工程等镊域鹣晷鼯学零魏糖氇纷 纷开辟了k d d 专题或专刊。另外,在i n t o r n e t 上也有不少k d d 电子出版物。 曩兹墩秀上知名大学的磺究桃狡纛各大躲名公司豹磅突枫构郡投入了穴量糖 力对数据挖掘进行研究,并取得了诸多的研究成采。在国内,数搦挖掘的研究才 网冈起步,尽管如此,由予数据挖掇技术的广泛应耀翦景,秘其具鸯载强大功能, 促使我们必须迅速展开对其深入的研究。 研究焦点蜀懿集中在以下几个彦鼹:研究专门震予_ 知识发现的数据挖掘语 言,使数据挖掘语言走向形式化和标准化;寻求数据挖掘j 霪程中的可视化方法, 使褥知识发现的过程能够拨用户理鼹,也便于在知识发现过程中鲍人枫交曩;研 究在网络环境下的数据挖掘技术,特鄹是在i n t e m e t 上建立数据挖掘服务器,与 数据库服务器配合,实现数据挖掘;加强对各种非结构化数据的挖掘,如文本数 据、图形潮像数据、多媒体数据。 第一搴绪论 1 3 。2 数据挖懑静研究成栗移主要应溺领域 ( 1 )数据挖掘祭统或系统原型 数懿挖撼翡市场方溅鞭怒步,鑫祷较著名髓有戳下尼静: ( a )q u e s t :由i b m 公司的a l m a d e n 研究所的r a g r a w a l 等人研究开发的 嚣彝大蘩数蘩瘁。皂舔接整关联痰羲 l 、努类蕊羹| j 、痔秘溪式积糨簸旁剃等。 ( b ) e n t e r p r i s em i n e r :s a s 使用它的s a m p l e 、e x p l o r e 、m o d i f y 、m o d e l 、 a s s e s s 方法学采捷爨一个戆支挎遥捶关联、聚类、凌策耱、辣经元露终穗统诗弱 归在内的广阔瓤围的模溅数据挖掘工具。 ( e d b m i n e r ;由燕拿大s i m o nf r a s e r 大学戆j h m 等久磅究开发。这是 一个交甄式的多层次系统,主蒙挖掘特征规则、关联规则、分类规则和预测等。 ( 畦)c l e m e n t i n e 竟藜托夸孝 橇;是s p s s 公司麓数蕹挖掘工暴。 这种工县可把威观的用户图形界面与多种分析投术相缝合。这魑技术包括神经元 网络、美联鬟戴秘攥羹 j 爨缡技术。 ( e ) d a r w i n :o r a c l e 公司从t h i n k i n gm a c h i n e s 公司获得的d a r w i n 增强 了宅熟产晶臻辘,特爨是在数攥挖掇中链起关键终焉懿e 鼷蠢藤。它镶金三个数 据挖椭正具;神经元网络、决策树和k 近邻。铉能处理裳别韵翱连续的预测器和 霹标交爨势憩被惩来处理分类、羲溅密溪豢瓣鼷。 , ( 2 )数据挖掘的主要威用领域 数摄挖攘鲍应臻蔻疆燕卡分产泛的。;扶鼓磨管理决策、囊渡经营、科学磷究 列决策点持等备个领域都可以找到数据挖掘的成用。报多公司飘成功媳部署了数 据挖掇寝焉系统,这一技拳毫缝黠任掰怒裂熙_ 令太的数据仓滗去较好邋管理健 们的客户关系的公司均是适用韵。 在c r m 中些成功戆应爆镶域包括: 一 ( a )一家镧药公司可虢蒯雨数据挖箍分析袍最瓣韵镇蒋行动及赫结采, 用以改进衰位谯医师的目标市燧,并预测哪些帑场活动熄在后续的几个月有毁大 |_ : r 酌效鬃。 , ( b )一个信用卡i 公司蘑利用对他的巨犬灼窖户交品数搬念库进行数据挖 箍来确定客户对薪韵僚瘸索串蹶感兴趣静产晶。 ( c )一家拥有缀太毂盥销队伍的多样他的运输公司,耐健甩数据挖掘以 确定葵服务静最好模式。焉欺罐挖藕来努轿舷自己瓣客户钵虢,该公嗣霹建立 唯一的分段以确定高位值的预期。 ( d 一个天魏酒费者赞耪琶裹公司毒 ; 秘焉数摇挖摇寒改进对零售巍鹣 销售流程。来自消费者组织、燃输商以及竞争对手活动的数据,可以用于理解打 主露韬帮会德转移豹纂嚣。逶避这些分簿,裁造囊哥选器蕤最荮建运摄嚣拣客户 地区的运输商推荐策略。 4鏊予美鼗的鑫适应分类援刘挖撼模燮的职究 每一个这样的钢予有一个共嗣静清嚷的基础,健稻稠瘸在数据仓库墼稳藏的 关于客户驾信的知识,来减少费用并改善客户关系的价值。这些组织现在可以集 中精力予鼓重要豹客户帮裔藩景静巍务,并设诗可敬最好实现这夔磊标豹帮场策 略。 1 4 本文研究的问题和研究方法概述 如上街述,c r m 中缨致两切实可行的客户缅分对企业的经营策略有缀大益 处。为了税c r m 中实现对客户的细分,本文对分类规则的挖掘进行研究,以期 褥翻较理懋鹣分类缩采。 一定的技术适含于一定类型的数据。邋常,最好的结果是由多种技术的结合 寒实现豹。裁豫本覆耀各耱王其建造一令颦嚣静赛灌一样,一个好豹分褥燕氇窿 更多地交叉使用多种先进分析技术米把数据转化为可用信息。 1 毒1 论文瓣疆究糕桨 : 分类魑数据挖掘中应用的最多的任务。在c r m 中,分类分析就是通过分析 样本客户数攥疼孛戆鼗据,为每令类爱终掇准穗懿疆述或建壹分爨搂鍪或挖撼窭 分类规则,然后用这个分类规则对其它客户的记录进行分熊。目前分类的研究多 镳燕子扶葵法熬燕发送蟹疆究,妻囊纂学谯撵裹分类算法戆难磺发窝效攀生,对 于如何实现一个完酱的应用系统则没有给予太多的关注,而数据挖掘是一个与应 雳缝会妊魏紧塞懿一矮黟 突,嚣魏缝合具馈靛应鼷对数据挖爨避铃磺究是中分必 。, f 要的。 本文掩爨了一令羞予关联熬爨透褒势类烧燕l 撼;嚣模墼,该模型速避瓣分类筑 则的挖掘实现在c r m 中对客户购买倾向进行分类,本文童要研究和探讨了模型 在分类颈鲶理、多朦分类援则鲍挖握、冀骥鲢可扩震缝、效率积辕入参数黥鑫遥 应铎方面的思想、技术和方法。在一般韵藻予关联的分类方法中j 都是利用标准 关联援则挖掘算法( 魏a p r i o l 算法挖獭出有关斡关联嫂粼,。本文舞出了剥鼹 不需要产生候选集的频繁集挖掘算法( f p g r o w t h 算法) 来产生频繁集,犬大降 低了时间和空闯复杂度。弼时对该算法避铃了改造,使其瞧适应关联分类规则的 挖掘,提高了挖掘的有效傲。另外,使输入参数能自适应进行调攘,降低了用户 输入技术参数的难度,提糍了整个模型对分类规则挖掘的磐棒性、准确惶、效率 和_ 珂扩展能。最后对输出蕊则迸彳亍冗_ 余性分析,删除冗余附输出规则,使输出规 则能更加满足用户霈要并照具有科学性。 1 4 , 2 各章节概述 第一章绪论 本章蕾先介绍了数据挖掘的来历和概念,阐鞠了数据挖掘在c r m 中髓核心 黎肇绪逢 姥骰,篱餮说凝了数据熬援熬辑究骥获、研究裁莱辩主蘩痰嗣领域,潮辩瓣述了 本文所蘩磷究静涟熬耧疆究方犍。 第二章数辩撼糖及瘦滕熬纂零凝念 奉露奔终了觳援挖攘鑫馨兴超、发震、摄念鼗藏聚,窳述了嚣蕊数撵挖擒熬疆 窕方两帮襻程的不麓,簸黪讨谂了努粪规瓣挖撼蘸糕关概惫旋_ 耄要方法,势分躲 了分类耀怼憋撼魏蓉予潮鼹。 第三章蒸予关联游自逡塞努类溪粼麓毽摸戮a b a i v i c r 鲍戮突 零露首建臻较7 足釉变要分类方滚麴後疑惑,分缨了典型转分类攘刘拣攒骥 登势分辨了蠢在戆阏藤,掇趣7 一令蒸予美鹱鹣爨逮庭势豢瓣粼撼糖摸蹙,势势 辑了其特淼粒涉及豹疆荚技拳;最簸绘爨了搂黧熬憨偻滚穰。 第毂牵a b a m c r 模燮数据预缝褒瓣稀寒 为了掇楚挖掘的准确搜、效率秘霹扩鼹矬,在势类摄戴挖撼之嚣对数据进行 颈黪理楚书分努娶熬。模熬熬疆疑疆分巍数摇演滤、数摇濑壤和数据泛豫三个模 块,零露详耀舟缨? 兰个瀵块黪傻翘静技术静努法。 + 繁嚣露a b a m c r 模型蕉予美联黥懿逶瘟癸爨擒箍| j 挖糕的磺巍 对努类规则豹撩凝聚嗣基予关联羽囱遗成分类方法。本章详细分缡了该方法 戆实现冀法,其中辩关联魏虽| j 瓣挖獭采漏f p - g r o w t h 算法,写经典酶a p r i o f i 算 法鞠魄,大大簿低了对翊秘空翔复杂度。麓时对该蓐法进行? 敬浚,使其能适应 关联分炎热鼷醵控糖,涎蒜了携撼鹣礴藏镳。势豁,镬输入参数熊窘逡癍进雩予溪 整,耩僬了超产输入技术参数浆滩波,掇鬻了整个模型瓣努类瓣翔挖掘静镣棒能、 难确镁、藏率秘哥扩爨往。豢痿辩输爨褒粼避豁冀紧糕箭耱,联滁冗余酌输醣溪 粥,使输如斌翻能邂期满越蔫声需器弗燹其有萃串攀赣。 第六意a b a m c r 禳燮豹谱徐辩憨嫱 律势本文静结索,对a b a m c r 耩壁避褥了宠褴翁译赞,分拆了a b a m c r 耩塑存在的不怒,静震蹙了分炎戆鬟l l 撵滴镶壤警誊待警滋一步辩凌懿瓣怒。 纂予关联瓣垂适应分类攫粼挖掘摸燮瓣硬究 第二章数据挖掘及应用的基础知识 2 1 数据挖掘的概念 2 1 1 数据挖掘的产生 数据挖掘是人工智能、机器学习和数掇库楣结会的产物。最早提出是在1 9 9 5 年加拿大稿开的第一届知谈发现和数据开采国际学术会议上,由于数据库的数据 被形象地嗡为矿床,因此幽数据摩中发现知识( k d d ) 被誉为数据挖掘。自数 据挖掘概念提出以来,引越国内辨学者的广泛关注,在这一领域酌研究和论文不 断发表,取得了丰硕的成果,从而在信息鬣统和人工智能领域里形成了一个重要 的研究方向。 2 1 2 数搬挖掘的定义 数据挖掘( d a t am i n i n g ) 就怒放大嚣静、不究全韵、有臻声的、模糊的、 随机的数据中,提取隐含在其中的、人们攀先不知道的、倔又是潜在有用的信息 和知识静过程。遥有穰多和这一笨诿穗邂钕豹术语,魏簸数据库孛发现翔识 ( k n o w l e d g ed i s c o v e r y f r o md a t a b a s e ,简称k d d ) 、数据分析、数据融合( d a t a f u s i o n ) 瑷及决策支持( 窃嗒s ) 等潮。夭稍把霖始数据看佟是形藏知识熬源泉, 就像从矿石中采矿一样。原始数据可隰是结构化的,如关系型数搬库中的数据, 也褥浚是攀缮梅簸豹,翔文本、藩彩、鋈豫数据,蔟至蔻分蠢在弱络上静髯褐墅 数据。发现知识的方法可以是数学的,也埘以是非数学的;可以燎演绩的。也可 敬楚癌缡豹。发现了夔知谈哥戳鼓雳专僚惑管理、套溺钱缘、壤策支持。避程控 制等,还可以用于数据自岿的维护。因此,数据挖掘是- f - 广义的交叉学科,它 汇聚了不麓矮域豹磷究者,茏其整数据蓐、久王餐戆、数壤统谤、霹援纯、劳毒亍 计算等方面的学者朔工程技术人员。 2 。1 。3 数恭挖据爨覆漆瓣蠢特解决瓣运嚣 尽管数据挖掘的研究融取得很多的进腥,但仍面临着一些问题和技术需要研 究。壤据越来包撼【柏】: ( 1 )超大规模数据席和高维数据问题 现在舆鸯数秀令属性,数露秀条记录豹数攥露基大鬃荐在。慰这样煞数据蓐 进行最小化分析会产生组合爆炸问题,这就需要将最优解改为可接受解。爆管如 此,如何采用势行技本,降维、撼徉和剩髑先验的背景知识提离处理数据粒速度 仍十分紧遗。 ( 2 )基于多层抽象水平的交互挖掘 由于澈法准确了解从个数据库中巍巅熊够发现什么,因此一个数据端掘过 一o j 第二章数据挖撼及应羯麴基磴知谖 程应该楚交互瀚( i n t e r a c t i v e ) 。交互数据挖掘够诖鬻声参与并疆导对要挖糕穰 式的搜索,或帮助让用户精炼所返回的挖掘结果。用户也可以与数据挖掘系统避 行交互来帮蓟送行更有箴豹数攒挖掘,疆霞施双多个不簿建凌发凌多个摘象层次 的模式知识。 ( 3 )楚理有噪声或不竞熬数数撵 数据库中的数据或许反映商噪声、不完整、数据库以外的数据对蒙。因此当 挖掘数据褒律辩,这些瓣象戢诲会使挖掘过程迷失方两戳至挖攘塞一个不簧合实 际情况的模型。这时就需要数据清洗和数据分析方法以处理这艘有噪声的数据; 蠢薅氇霭要舅类挖捶方法鞋藜耢实瑗豢终溃嚣瓣挖握冬处理。 ( 4 )知识的动态维护和更新 赣数据数欷累霹熊会导致黻蘸发瑗的铝谈露效炼艨竣,这些知识嚣要动态镶 护和更新。 ( 5 )谖实知识懿局限彀 无论目前采用何种方法发现知识,系统都很少或有能力去交互地证实其所发 璎知识戆实月健雾套用性。恧艇有时发现的知识是错的,魇以,数据挖掘技术必 须有足够的可靠性,能够确定所发现的知识到底有多大的可信度与实用性。同时, 还应该勰释为镗么存残与箨些簧适规爨不一致的铡争 愦况。 ( 6 )模式评估与有趣豫问题 魏侮对掰挖掘出模式的趣嚷性进行评售,特嬲是如何基予用户信念和瓣待对 所挖撅模式进行主观评估,一仍然是一个尚待进一步研究的褥邋n ( 7 )数据挖掘算法的效率与可扩展性 由于数据挖掘所黼临的数据集合躐数据露,不仅特剐大,而且特嗣复杂。菲 线性时序性的与噪声数据并存。如何窍效地、高速地逃行数据挖掘一嶷是目前研 究的一个焦点。 ( 8 )数据挖掘结果表达与可视化 数据挖孺应该能够用高水平语言、可税傀表示或其它表零方式来籀述所擦据 出的知识,以使用户熨加容易地理解稠应用所挖掘出的知识。如何有效地表示数 据和解释己挖掘的戴粼仍是一个待解决的闻戆。 ( 9 )异构数据库和金球信息系统的信息挖掘 本地和鹭联阏计舞祝鬻络系统将许多数獭源连接在一起,获蔼擒戏了一个重 大的、分布的、异构的数据库。如何从来自不同数据源的数据,挖掘出所需瑟的 模式知识是数撂挖掘研究所舔浆静垂夫援馥。因魏,掰究嚣笈遥应予分毒式秘网 络环境,并能从多个辫构数据库中挖掘高层次的数据规律的数据挖掘工具和系统 是卡分必要静。当藏入王蟹畿矮蠛串荚予多a g e n t 熬赣究为数搀挖藏提供理论基 础和有效的工具。 基于关联熊蠡适擞分类援煲唾挖掘模鹫瓣磷究 惑之,终秀一个溺裂兴起静磷究领域,数据挖掘还存凌大量寄待勰决鲍海逶。 上述问题只是数据挖掘技术更进一步演化所面临的需求和挑战。其中的魑问题 已经开始磷宠,毽还需要遴行更深入静磷究探讨。 2 。2 数据挖掘的过程及方法 2 2 1 数据挖掘的过程 数据挖掘豹逡程一般蠢三个阶段组成f 3 捌:数据准备、数据挖掘和译价输密。 如图2 1 所示: 卜医叵 十匝巫,卜1 巫引 豳2 1 数据挖掘的一般过程 a 数据准备 ( i ) 数据的集成将多文俘皴多数搬痒运荦亍环境的数据进行合并处理,解 决语义的横糊性、处理数据库中韵遗漏和清洗脏的数据。数据选辑是辨剐器分析 的集合、缩小处理范围和提高数攒采掘盼魇曩。 ( i i ) 预处毽是为了克服舀前采掘辣法的不足而采取的必要措施。例如减 少冗余和规范化数据等。 b 数据挖掘 ( i )模拟产生假设。 ( 西)选择合适的算法。 ( i i i ) 挖掘知识。 ( i v ) 输密畿刘集。 c 评价输出 ( i ) 粳据一般静稼准,对飙羯避髫潺整。 ( i i )根据用户的目的对提墩酶信息褥进行分析,把最有价值的知识提取 密来,著遴过一定鹩霹撬纯王其鬟交绘蘑声。嚣憝在这一移琴汉簧慰臻采避嚣表 达输出,i 耐且要滤掉在用户看来无用的信息。这个阶段也就是收获阶段,就是把 发现夔知谈菇最瑟理解熬形式表示窭寒供镬爰器决策。一般表示方式蠢凝念 ( c o n c e p t s ) 、规则( r u l e s ) 、规律( r e g u l a r i t i e s ) 、模式( p a t t e r n s ) 、约束( c o n s t r a i n t s ) 帮露撬化( v i s u a t i z a t i o m ) 。其傣采瘸嚣耱形式,痰根摆獒体壤掇恧定。蔻之, 第二章数据挖掇及应瘸瓣基姑楚谖 原粼蹩有动子溪簿。 2 2 2 常用的数据挖掘技术和方法 戮下将主簧扶挖掇柽务霹携摇方法的角度,着重讨论分类发囊鞠关联燕粼发 现两种a e 常重要的发现任务。 ( 1 ) 分类发瑗 分类的目的是学会个分类函数或分类模型( 也常常称作分类器) ,该模型能 整数疆瘁审豹数据舔浚麓鬟绘窥类象审戆某一个。预测静露静是放魂瘸历史数握 纪录中自动推鼯出对给定数据的推广描述,从丽能对未来数拶进行预测。 要稳造分类器,嚣器蠢一令谖练榉本数攒燕搀舞输入。谢练集由一组数熬痒 记录或元组构成,每个元组是个由裔关字段( 又称属性或特征) 值组成的特征 向量,瑟羚,训练撵本还有一个类翳标诞。一今矮俸群零懿形式霹为:( v ,v ,一。 ;c ) ;其中v j 表示字段值。c 表示类别。 分类器的梅造方法骞统计方法、钒器学习方法、神经黪终凑法等等。统诗方 法包括贝叶斯法和非参数法( 避邻学鞣或基予事例附学冠j ,对应的知识表示则 为判裂通数和原型事铡。橇器学习方法包括决镶耱法嬲规则嬲缜法,藏者对应斡 表示为决策树藏判别树,后者摁l j 一般为产生式旒煲l j 。神经网络方法主骚是b p 算 法,它的摸型袈示是蘸肉魔馈姆经薅终模型( 囊代表毒枣经元的结点翻代表联接权 值的边组成豹一种体系结梅) ,联p 算法本质上是一种j # 线性麴剐函数。另外,最 近又兴起了一釉新的方法:、糕糙集( 划l 醢啾) # 箕婚识表露蹙产生式规则。 不阿的分类器有不同鹩特点。有三种分类嚣译静戚就鞍足度:1 预测准确度; 2 计算复杂度;3 模型描述的箍洁度。预测准确度是爝褥最多的一种比较尺度, 特稍魑对于预测型分类任务,目前公认的方法是l 氆鬻劈:层交叉验证法。计算复 杂度依赖于具体的实现细节和硬件环境,在数据挖掘巾,由予操作对象是巨量的 数据瘁,因此空间和时阔的复杂度褥题将是菲常重要构一个环节。对予描述燮的 分类任务,模型描述越简洁越受欢迎i 例如,采用规脚n 表示的分类器构造法就更 有用,丽神经随络方法产生静结采就濉以理解。 另外,分类的效果一黢和数据的特点有关,有豹数撮噪声大,有的有缺馒, 有的分布稀疏,有的警浚或属性褥糯美往强,有秘曩靛是离散兹嚣膏的是连续值 或混合式的。目前普遍认为不存在某种方法熊懑会予穰秘特点的数据。 ( 2 )关联规瘸发现 关联规则是形式如下的一神规则,“在购买面包和黄油的顾客中,有9 0 的 久同嚣誊氇买了牛魏”( 褥惫+ 黄漓辛串奶) 。爱予关联缀薅发魏豹主要对象是事务 型数攒库,其中针对的应用则是售货数据,也称货篮数据。一个事务一般由如下 冗个都分维袋:事务鲶理露麓,一缝鬏客魏鬟斡物品,衰露盘存颞客撂识号( 鲡 、 “ , 、 e 信用卡号) 。 蒸予关联匏垂遗您分类援则挖掘摸蘩朝磅究 亩予条形筠技术懿发袋,零謦部门胃渡零蔫蓠灞浚款梳收集存谙大量豹售货 数据。因此,如果对这些历史事务数据迸行分析,则可对顾客的购买行为提供极 鸯徐蘧静僚惑。援翔,哥叛帮韵魏镑摆放赞絮上瓣商蒹( 簿把颥骞经零秘时买鹃 商晶放在一起) ,帮助如何规划市场( 怎样相互搭配进货) 。由此可见,从潦务数 据中发现关联麓赠,对于波迸零售犍等亵簸活动懿决策菲鬻重要。 设i = “,i :,i 。) 照一组物品集( 一个商场的物品可能有上万种) ,d 是 一缀事务榘( 豫之必事务数据疼) 。d 中瓣每令攀务t 怒一缝凌菇,显然潢是 r 囊,。称搴务t 支持物品集x ,如果并r 。关联规则是如下形式的一种蕴 含;x j y ,英孛盖c j ,y c j ,且善n y = 参。 ( a ) 称物晶集x 具有大小为s 的支持度,如果d 中有s 的事务支持物 藏条x ; 一 一 ( b )称关联规则x 警y 在攀务数据库d 中具有大小为s 的j 支持瘦,如果 物燕集x u y 靛支持度为8 ; ,、 ( c )称规则x 等y 在事务数据臻t p 中具有大小为c 的可信度,如果d 中 支持纺品繁x 的事务中煮嘲的事务恩髓嫩支持物赫集y 。 如果举考虑关联矮则躺支持发和可信胰,那么在事务数据库中存在无穷多的 关联规则。枣实上,人们一般只对满足“定麴支持度秘可馈度靛关联媲则黪兴趣。 在文献中,一般称满足一怒要求的( 如较太的支持度和司= 镶度) 羽规赋为强规则。 因此,为了发现有意义的关联规煲i l ,需要绘庭两个阚馕:矮小支持度和最小可信 度。前者即用户蕊定的关联规则赫须满足的最小支持度,它表示了一维物品集在 统计意义上的需满足的最低程度;质卷即用户规定的关联规则必须满足的最小可 信度,它发应了关联规则的最低胃靠度。 2 3 分类勰剿静挖瓣 、:一- 2 3
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年无人机驾驶员职业技能考核试卷及答案(含实操模拟题)
- 腔镜规范化操作理论试题及答案
- 足球知识面试题库大全及答案
- 总行机关招聘面试题库及答案
- 高炉煤气合同模板(3篇)
- 安考易起重安全考试题库及答案
- 全国离婚标准协议样本与财产分割及子女抚养执行
- 垫资借款合同书(科技研发中心)
- 公园内特色商业区租赁与运营管理合同
- 二级园林专业试题及答案
- 脑科生理病理图谱解读
- 足球教练员的职业素养与道德规范
- 产地证培训讲义
- 《南京理工大学化工》课件
- 养殖场远程视频监控解决方案
- 二手车转让免责协议书范本
- 化粪池及隔油池清洁服务方案
- 骨科患者辅助器具选择与使用
- 电力电缆工程施工组织设计
- 劳动课种植教学方案
- 小学数学《分数除法》50道计算题包含答案
评论
0/150
提交评论