




已阅读5页,还剩53页未读, 继续免费阅读
(模式识别与智能系统专业论文)基于粗糙集理论的数据挖掘方法研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 本文遥过在褪糙集懿倍惠表示翁蘩醚上,由鼗糙集蕊代数表示窝信息表示瓣 致性,旋出了一种基于信息量的糯糙集属性约简算法,该冀法的基本愚想蹙通 过属性塑髅性的发量求出粗糙集的核,然后在核的基础上,继矮依据属性重疆性 魏度量,隧约篱鹁信息鳖裙愿莛性焱舍懿蕊惫量棚等这一准刘柬逐芎j 二鬓牲约麓, 算法篱荦,效率离。 通过研究传统数据挖掘方法的知识评估标准缀小支持度葶口娥小嚣信艘,发现 有些知识可能被忽略,提出新增的知识评估标准支持度最小膨胀艘和支持度 楚, 、颈 l l | 臻,稳溪这舔令王l 麴魏知识译估标灌,练合爨毒支蒋凌窝最小置信发柩 准,对数据库述行分部挖掘,可以褥出更加深屡次的有趣的知识。并举例浇磷了 这一对新增标准的可行性。 传绞数键笼攘方法一般是以寥务数据露惫直接静挖掇对象,这裁遮藏了必矮 在挖掘过穗中对于宠大的事务鼗舔瘁送行多次翁扫箍来提取甄鼋鞋,效率比较低。 数据挖掇怒为了完成知濒挖掘这任务,知识是耪频繁出现黝属性焚合,它实 际上是一种频繁出现的属性的关联。在此基础上,本文提出了种伴随2 频繁集 赘鼗摇存豫缝穆,挥隽事务数据瘁鹣醛j i i ;。存入嚣孛靛是事务数据库中频繁出瑗 ( 超过一种比最小支持艘小的支持艘滚僮的一静度鲞标准) 2 元关系酶集合。将 数据挖掘建立在伴随2 “频繁集数据的基础上,悬h 军十很好的想法。由于伴随2 频繁集数糍库本痨是一罩串超出一个确定润篷的2 元璃毪集会,这群,攫多对予挖 菰无蔫豹数据将不菠考懋,两显它本隽是对事务数獾抟一种泛纯,数羹乡。以伴 随2 一频繁蕊数据库干挈为数据挖掘瞧对象,可阻避免对于事务数搅库的频繁扫描, 很大程度上提高了挖掘的效率。 本文聚螽帮分缀会以上三个方疆:疆馋夔2 频繁集为数攒挖撼对象,别矮 基予信息爨瓣糯麓集凰注约篱算法,懿鼹标准加上新增翡知识评估标准速行知识 挖掘。这种数据挖掘方法和结构,饿得算法简单,挖掘效率商,挖掘的知识中除 了传统的数提挖掘方法中珂 丑褥到的那部分之外,包含蓑一些更加有趣的信息。 霆蓝吴煮缀嵩弱实际瘟鼷徐篷。 除此之外,本文还提出了一种黼散的关联规则的挖掘算法。 关键词 数据挖掘;最小支持度;鬣小置信度;粮糙集;信息鬟;属性的重甏矬: 伴随2 。频繁黧:最小澎涨度;最小预测馕 a b s t r a c t b a s e do nt h ec o h e r e n c eo fi n f o r m a t i o ne x p r e s sa n da l g e b r a i ce x p r e s so f r o u g h s e t ,t h i sp a p e r p r e s e n t sak i n do f a t t r i b u t er e d u c t i o na l g o r i t h mw i t hr o u g hs e tb a s e do ni n f o r m a t i o nq u a n t l t y 7 t h e m a i ni d e ao ft h i sa l g o r i t h mi st of i n dt h ec o r eo fa t t r i b u t es e ta c c o r d i n gt ot h ei m p o r t a n c eo f a t t r i b u t e s ,t h e nt or e d u c ea t t r i b u t e sa c c o r d i n g t ot h em e a s u r e m e n to ft h ei m p o r t a n c eo f a t t r i b u t e s , a n dt h ei n f o r m a t i o nq u a n t i t yo fr e d u c t i o nm u s tb ee q u a lt oo r i g i na t t r i b u t es e t t h i sa l g o r i t h mi s v e r ye a s y , a n d c a na t t a i nh i g he f f i c i e n c y u n d e rt h ee v a l u a t i o ns t a n d a r d s ( m i n i m u ms u p p o r ta n dm i n i m u mc o n f i d e n c e ) o ft r a d i t i o n a l d mm e t h o d s ,s o m ek n o w l e d g ew i l lb ei g n o r e d t h i st h e s i sp r e s e n t sas e to fn e wk n o w l e d g e e v a l u a t i o ns t a n d a r d s ( m i n i m u me x p a n d a b i l i t ya n dm i n i m u mf o r e c a s t ) b y u s i n g t h i s p a i r o f a p p e n d e de v a l u a t i o ns t a n d a r d s ,m i n i m u ms u p p o r t a n dm i n i m u mc o n f i d e n c e ,t om i n et h ed a t a b a s e p a r ta f t e rp a r t , w e c a n g e tm o r ei n t e r e s t i n gk n o w l e d g e i nd e e pl a y e r t r a d i t i o n a ld m m e t h o d s ,g e n e r a l l y , u s ed a t a b a s ed i r e c t l y , a n ds c a nt h ed a t a b a s em a n y t i m e s d u r i n gd m t h ee f f i c i e n c yi sv e r yl o w t h ep u r p o s eo f d mi st of i n dk n o w l e d g e b e i n gh i d e di n d a t a b a s e ,a n dk n o w l e d g ei sa 蛾o f s o m ea t t r i b u t e sa p p e a r i n gf r e q u e n t l y , i nf a c t ,t h i ss e ti sak i n d o fr e l a t i o n a p p e a r i n gf r e q u e n t l y b a s e d o ni t ,t h i st h e s i sp r e s e n t sak i n do fm e m o r ys t r u c t u r e n a m e dc o n c o m i t a n t2 - f r e q u e n ta t t r i b u t es e t f h ed a t ab e i n gp u ti n t oi ti st h o s er e l a t i o n sw h i c h a p p e a ri nt h ed a t a b a s ef r e q u e n t l y li t i sas m a r ti d e at om i n ek n o w i e 豫eb a s e do nt h i sk i n do f s t r u c t u r e b e c a u s ec o n c o m i t a n t2 - f r e q u e n ta t t r i b u t es e ti sak i n do fs e tw h i c hs u p p o r t sa r eo v e r m i n i m u ms u p p o r t ,m a n yd a t au s e l e s sf o rd mw i l lb ei g n o r e d a n di ti sak i n do fg e n e r a l d e s c r i p t i o na b o u td a t a ,s ot h ea m o u n tw i l t n o tb ev e r y l a r g e u s i n gc o n c o m i t a n t2 - f r e q u e n t a t t r i b u t es e ta st h eo b j o c to fd m c a na v o i ds c a n n i n gt h ed a t a b a s ef r e q u e n t l y , a n di tc a ni m p r o v e t h ee f f i c i e n c yo f d m , t h el a s t c h a p t e r o ft h i st h e s i s i n t e g r a t e s t h r e e a s p e c t sd e s c r i b e d :u s i n g c o n c o m i t a n t 2 - f r e q u e n ta t t r i b u t es e ta st h eo b j e c to f d m ,a t t r i b u t e sr e d u c t i o na l g o r i t h m w i t hr o u g hs e tb a s e do n i n f o r m a t i o nq u a n t i t y ;u s i n gt h eo l ds t a n d a r d sa n dt h en e wa p p e n d e do n e st o g e t h e rt oe v a l u a t e k n o w l e d g e a b o u tt h em e t h o d ,i t sa l g o r i t h m i s e a s n i t s e f f i c i e n c y i s h i g h ,a n dc a ng e tm o r e i n t e r e s t i n gk n o w l e d g ee x c e p tf o rt h o s ew h i c hc a nb eg o tb yt r a d i t i o n a ld m m e t h o d s s oi th a s h i 蚤a p p l i c a t i o n v a i u e , e x c e p t t b rt h e s e ,t h i st h e s i sp r e s e n t sak i n do f h i g he f f i c i e n td m a l g o r i t h mf o r r e l a t i o nr u l e s k e 3 q v o r d sd m ;m i n i m u ms u p p o a ;m i n i m u mc o n f i d e n c e ;r o u g hs e t ;i n f o r m a t i o nq u a n t i t y ; i m p o r t a n c eo f a t t r i b u t e ;c o n c o m i t a n t2 - f r e q u e n ta t t r i b u t es e t ;m i n i m u me x p a n d a b i l i t y ; m i n i m u mf o r e c a s t 感谢信 时光往蒋,随着毕业设计的完成,研究生三年的时阍就骚结寒,离别之 前,很多德绻在脑中反复。对母嫒熟依恋,对髋友憝不舍,对管经走过鲢 每一寸蛾蕊翅鼗。这三三年懿露闯对予羲亲避怒菲誊重要黥,麓逡豫了学 习理论知诚之外,耍从老师、同学和朋友躲身上学到了缀多做人韵道憋, 是一段非常珍贵的人生缀历。 s 在馨将蕊开饕经玺灞了s 年筑搜瓣之际,畜缀多话要涎,攫多大霰簧感 蠢。 首先,感谢我的指导教师王俊酱教授。王激掇为人正盥,对人热情,对 于知识的锩授孜孜不倦。王教授马上就要邂体了,头发已经花自半,健 是每天蔽然辩奁夔菠冀在基己舔工作褒位上,熊囊没奏露止追求鲮惑懿。 他的脸上总是挂着善懋的微笑,让人容易接近,与他沟通怒件开心静鬻 情。在王教授豁悉心指鼯和关怀“f ,我掌握了很多有用的知识和懂得了 些怼是己将来静发展大嘉餐助黪馁a 遵遵。蕊剐之际,祝王激授赛体绽壤。 王箨羰弱,在科研土有露丈翡突被。 其次感谢蕊主任周衙琴周老师,周老师的:c 作碾忙,还鞭饕理我们这个 班缴的一烘琐碎的事憾,裁在今天,援老师还米瓢我们宿盘捻套卫生,不 过我羹密禽瓣卫生交予最近忙萋设论文羲实不太象话,但是震老露还蹩慈 祥的微笑潜,感觉就像母亲,我想嗣老师绘人的感觉都会魁这个样子。祝 周老师身体健康,工作不要太过予操劳。 辇三感澈爨塞生老鼹,奚老娄霹黠学生饕零关;,经常氍裂凌戆室发谈及 毽嚣事蒋。每次逶蠲系澎辩慧觉都貔较轻橙,避褥霄一次,我在菝萄量庭, 手土拿着烟,被吴老师糟到了,他掩蔚我笑了焚,感觉就稼一个朋友。我 想,有这榉一个朋友的存在,戒烟也不是一件嫩漆j l 。祝鬓老师身体键威, 磷究上煮受丈翁蓑震。 第西感谢系墨的其他老师,这三年之闾,他 f j 或多或少都在无私的给予 潜我絮助,刃会使我艨测的度过研究生这段鬃张的学习生涎。祝你们鼹 俸健康,凑业上取褥强大瓣成功。 最磊感瀚霉验饔裁袋最:李矮、赫交、张动。褫豫弱盛体整藤,涛涞 事业有成,搠有美满的窳魔。 燃嚣、导辩潮塞 蒸垒文登枣 丛丹 2 0 0 3 5 9 ( 8 :19 、 序高 序言 随着信息技术的发展,大量的数据累积如山,其中包含着一些对于将来的决 策很有用的信息,j q - 其提取出来进行决策是很有必要的。数据挖掘技术就是在这 样一个背景下诞生的,从它诞生那一天起就受到众多的研究人员的广泛关注,各 种各样的数据挖掘方法不断的被提出,很多其它的学科和技术和数据挖掘技术之 间进行相互的融合。人们在从事数据挖掘的理论研究的同时,不断将数据挖掘技 术应用到现实当中来,并在医疗和银行等领域取得了很好的结果。 粗糙集的概念产生于上个世纪7 0 年代,波兰学者z p a w l a k 和一些波兰科学 院以及波兰大学的一些逻辑学家在从事关于信息系统逻辑研究的过程中所提出。 它是一门很强的学科,虽然从诞生到现在只有几十年的时间,但已经在不少领域 取得了丰硕的成果。近似推理、数字逻辑分析和化筒、建立预测模型、决策支持、 控制算法获取、机器学习算法和模式- 7 , * 1 等。 粗糙集所采用的信息表与关系数据库中的关系数据模型很相似,这就便于将基于 粗糙集的算法嵌入到数据挖掘技术当中。 一般的数据挖掘方法采用最小支持度和最小置信度进行知识评估,但是,除 了在这个基础上挖掘出来的知识,数据中还有可能隐藏着一些其它有趣的信息。 比如,数据库中存在一条属性集合,随着数据的不断存入,它的支持度不断的增 加,在总体上,它的支持度是小于最小支持度的,但是,如果将数据库分成几个 部分挖掘的话,它在最后一个部分的支持度有可能大干最小支持度( 或者接近) 。 观察到这条属性集合支持度不断上升的趋势,可以以很大的概率断定,它在以后 的时间里,支持度会依然快速的上升。这显然也可以归结为一条知识,而且更有 趣。但是在最小支持度的条件下它没有被挖掘出来,这说明基于最小支持度的数 据挖掘对于知识的挖掘是很不完全的,应该有新的标准来对知识评估进行控制。 本篇论文提出最小膨胀度和最小预测值标准作为知识的评价标准,可以在更大深 度上挖掘出知识。 传统的数据挖掘是直接以事务数据库为基础的,但是一般数据库中事务的数 量是很庞大的。数据挖掘是对知识的挖掘,知识一般情况下可以被认为是一种关 联。如果可以将数据挖掘的对象变为一种关联,减小挖掘对象的数量那么可以对 效率进行很大的提高。本篇论文提出了一种伴随2 一频繁集的数据库存储结构可以 实现这个目的。 粗糙集的代数表示和信息表示是等价的,在信息表达的情况下,粗糙集算法 的复杂度会降低。本文在粗糙集的信息表示的前提下,提出基于信包量的属性约 简算法。并且在伴随2 频繁集的基础上,以新的知识评估标准,利用该算法对数 据挖掘进行研究。 第一牵数据掩掇 第一部分数据挖掘 第一章数据挖掘 数据挖掘 1 i 数接挖掘秘基誊概念 定叉1 戮知识: 1 ) 易于被人蠼解; 2 ) 在某种姆度上对于新的或者测试数据有效 3 ) 是i 罄吝有用砖; 4 ) 新颖的或者验证了震户关注砖莱种预感。 这样一种有趣的模式。 知识鲢痊薰:存在一鎏模式兴趣度的震营,这些度量基于瑟受蕊模式簿露稳和荚 于它们的统计。 定义2 支持度1 1 】: 蒜是娩燃爵簪本百分毙,擎蒎率s u p p o r t ( xy ) = 爰善u 乃,其孛,髫v y 表示离时毡含x 争r 的带务。 定义3 鼓馆度0 1 : 包含石的事务也包禽j ,蟪概率,印c o n f i d e n c e ( x 等y ) = p ( y j 鼢。 定义4 敬据挖掘 从大髓数据中提取或“挖掘”知识。 也可眭溺萎靖一夺常瘸舔拳语数撼孛谚知识发璐 k d d ) 采定叉, 数据挖掘是数据库中知识发现过程的一个基本步骤。 知识发现过程步骤如下: 1 ) 数琚清莲( 演除噪声或不一致数器; 2 ) 数据集成( 多种数据源可以组合在一起) ; 3 ) 数据选择( 从数据库中舱索和分析任务柏关的数据) ; 4 ) 数据变换 数据变换或统一度适合挖掘酶影式) : 5 ) 数据藐辍( 基本步骤,逶臻智齄方法提取数据模式麓 6 ) 模式评估( 根据采种兴趣虞度量,识别氟示知识的奏越有趣的襟或) ; 7 ) 知识表示( 使用可视化和知识表示技术,向用户提供挖掘的知识) 。 篱一章鼗器挖掘 典型的数据挖掘系统的撼本组成如图1 1 所示: 1 ) 数据库、数据仓库或其弛信息库:这是一个或一组数据库、数据仓库、 电予裹播或英能类型砖蓿惠毒。可双吝数据上避杼数据潦理寿集成。 2 ) 数搪库或数据仓库服务器:穰据用户的数褥挖掘请求,敬据库或数据仓 库服务器负责提取相关数据。 3 ) 知识滓:这是领域知识,用于指导搜索,或评诂结最模式约署趣度。这 种知识可琵邑辆概念旁屡,翅于蒋属挂或属性 蠹鲤轰不同鼹箍象屡,爆 户确信方面的如傲也包含在内。可以使用这种知识,根据非期望性评估 横式的兴趣度。领域知识的其他还有兴趣度限制或阈侦和无数据( 例如, 描透拳鑫多夸异转数器嚣秘数掇等。 4 ) 敬撼挖掘i l 擎:这是数据拣辊系统基本的部分,由一锻功能模决纽成, 用于特征化、燕联、分类、聚类分析以及演变和偏差分析。 5 ) 模式功能模堤:通常,北残分使用兴趣度度量,并于数据挖掘模块交置, 以便簧搜索聚焦在有趣酶模式上。它可蕊使薅兴趣度阚谯过滤麦筑酶模 式。模式评估糕块也可以与挖掘模块集成在一起,这依赖于所用的数据 挖掘方法的实现。对于有效的数据挖掘,建议尽可能深的将模式评估推 避到挖掘适程申,以搜替搜索隈喜4 在有兴趣瓣模式土。 数据 l潮搿瘸户舁疆 鼗拣簿或 数攥仓痒糕务器 图l _ 1 典魁的数据挖掘幕统结构 6 ) 圈彤耀户界面:本模块在霹户 和数据挖掘文麓通信,允
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 经济学考研备考心得分享
- 降低化学工业排放标准方案
- 企业员工激励方案调研
- 工作总结:计划执行与目标实现
- 仪表工业故障诊断预案
- 年终总结:别具一格风采独特
- 2025浙江丽水缙云县壶镇中学招聘代课教师4人笔试备考试题及答案解析
- 分析初高中生心理健康问题
- 2025云南丽江宁蒗彝族自治县应急管理局面向社会招聘公益性岗位1人笔试备考试题及答案解析
- 2025新疆克孜勒苏柯尔克孜自治州阿合奇县面向社会招聘社区工作者13人笔试备考试题及答案解析
- (二)冲床安全操作规程
- 思想道德与法治2023年版电子版教材-1
- 电动汽车充电基础设施十五五发展规划
- 《泥塑的乐趣》教学课件-2024-2025学年鲁教版(五四学制)(2024)初中美术六年级上册
- (新版)焊工职业技能考试题库及答案(含各题型)
- 征拆协调岗招聘试题及答案
- 2025年网络安全专业考研模拟试卷及答案
- T/CNFAGS 10-2024双加压稀硝酸工艺用硝酸四合一机组技术规范
- 花果园湿地公园规划设计
- 2025秋一年级语文上册-【语文园地八】教学课件
- 2025年商务短信平台软件系统项目市场调查研究报告
评论
0/150
提交评论