




已阅读5页,还剩62页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、dataminingbussinessentlligence、数据挖掘和业务智能、2、课程内容,摘要统计,数据可视化OLAP,分类,关联,群集分析,异常检测,各种数据挖掘工具简介,备注:IntroductiontoDataMining美国 p.n.tanet.al,2数据挖掘特定方法,2.3关联分析,关联规则挖掘方法,4,基本概念:关联规则挖掘,关联规则:关联规则是隐含表达式,如X-Y。其中x和y是不相交的项目集。关联规则挖掘:在数据集中发现了关联规则,该关联规则显示了给定数据集中经常发生的属性值条件元组。Market-Basket事务集,examplefasassociationrules,diaper beer,milk,breakd eggs,coke,2.3.1,5。是的,通过查找客户放入购物车的不同商品之间的连接,分析客户的购买习惯。通过了解哪些商品经常被顾客同时购买,这种联系的发现可以帮助零售商制定营销战略。例如,在同一家购物中,顾客购买牛奶的同时,购买面包(以及某种面包)的可能性有多大?此信息可能导致销售,并有助于零售商选择性地分发和部署货架。例如,尽可能靠近牛奶和面包,商店会进一步引导顾客一起购买这些商品。“啤酒和尿布”的关联规则,2.3.1,6。一些默认定义,要素集一个或多个要素集(例如: milk,breakd,diaper k-要素集中具有k子项的要素集支持数()要素集在事务处理集中出现的频率e.g. (milk,breakd)支持度很低的规则只是偶然,因此从业务角度看,低支持度的规则大体上并不有趣。因为,促销顾客不一次性购买的商品可能不好。7,某些基本定义,Example:关联规则与xy的含义相同。其中x和y是项目集。例如,对: milk,diaper beer关联规则的强度的测量指标支持(缩写:s)中包含x和Y的事务率置信度(缩写:c)Y在包含x的事务处理中出现的频率为2.3.1,8,关联规则挖掘方法、事务集t、关联规则挖掘的任务是查找符合以下条件的关联规则:支持级别minsupthreshold置信度minconfthreshold“原始野蛮”方法:列出所有规则删除每个规则的置信度和支持级别未达到minsup阈值和minconf阈值的规则Computationallyprohibitive,2.3.2,全局频繁发生,相互关联性大,9,关联规则挖掘方法,examplefrules : milk,diaper beer (s=0.4,c=0.67) milk,beer diaper因此,必须区分可信度和支持要求。2.3.2,10。关联规则挖掘方法,“第二阶段”方法:首先频繁创建项目集。也就是说,support min sup中的所有项目集创建规则经常在项目集中创建高度可靠的规则。每个规则本质上是项目集的分割。生成频繁要素集的流程计算仍然很大!2.3.2,11。如果给定了d项,则可以生成2d候选集。链接规则挖掘方法,2.3.2,创建频繁的要素集,网格结构:经常用于枚举所有可能的要素集,12,原始方法:列出所有可能的项目集(例如,右侧),即候选的频繁项目集扫描事务数据库(左侧),计算每个候选集的支持程度。将每个事务处理与候选项集匹配,以创建关联规则。算法复杂性 O( O(NMw)=expensive sincem=2d=2d!2.3.2,关联的规则挖掘方法,13,算法复杂性,给定d个事务处理条目:的总集=2d中可以生成的规则总数为:ifd=6,r=602 rules,2.3.2,14,如何降低生成频繁项集的计算复杂性,候选集数减少(m)整体搜索:M=2d不一定要使用某些修剪方法比较m减少比较计数(NM)高级数据结构比较事务或候选集(HashTree)某些事务和候选集。减少事务数(N),2.3.2,15,候选集减少策略,先验原则:如果一个项目集频繁,那么所有子集也应该频繁。即,词典原理是成立的,因为对以下特性:个项目集的支持度不超过子集的支持级别。此特性也称为支撑测量的反向单调特性。2.3.2,16。先验原理应用示例,Prunedsupersets,如果要素集不太频繁,则其超集也经常(2.3.2,17,先验原理应用示例(续),items (1-itemsets),Pairs(2-itemsets)(noneedtokenratecandinvoiceinvoicincokeoos),apriori算法(创建频繁要素集),Method:Letk=1创建长度为1的频繁要素集重复以下过程,直至没有在新频繁要素集中创建长度为k 1的候选集。扫描数据库,聚合每个候选集的支持以删除经常使用的要素集,保留经常使用的要素集,2.3.2,19,查找所有不经常使用的项目集。flf可以满足最低可靠性要求。如果A,B,C,D是常用项目集,则候选规则为: ABCD、abdc、acdb、bcda、ABCD、Bacd、cabd、dabc ABCD、acbd、如何在频繁的项目中高效地创建规则?通常,可靠性与支持度量单位没有不同的单调性。例如,c(ABCD)canbelargerorsmallerthanc(Abd)表示从同一候选集生成的规则,l=a,b,c,d 3360 c(ABCD)c(ABCD)、laticeofrules、lowconfidelule、2.3.2、apriori算法(创建规则)、22、2.3.2、Apriori算法(创建规则)、23、2数据挖掘特定方法,2.4群集分析,群集的经典方法,24,什么是群集分析?群集分析,也称为“同类组”或“无监督分类”,是指每个群集的数据相似,不同群集之间的数据将数据划分为相距较远的不同“群集”。2.4.1,25。群集分析的应用程序。例如,为了便于导航,将文档和蛋白质群集起来,以便对它们之间类似的功能比较审查波动类似的股票进行股东参考;有助于概括和减少大型数据集的数据量,clusteringprecipitationinaustralia,2.4.1,26,不是群集分析的项目,已经知道类标签信息的监视分类,但不知道分类的规则简单划分,例如注册时按学生的名字音序分组。查询返回的结果此分组是外部指定的结果。2.4.1,27。群集的一些概念可能是模糊的,2.4.1,28。不同类型的群集,整个群集集合通常称为群集层群集和群集的不同点分区群集,只需将数据对象划分为非重叠子集(群集),以确保每个数据对象正好位于一个子集中。分层群集分层群集是嵌套群集的群集,由分层树组成。2.4.1,29。分割群集,original points,apartitional clustering,2.4.1,30,分层群集、traditional hierarchies lustering、Non-traditional hierarchical dendrogram、traditional dendrogram、2.4.1、不同的簇类型,明确分离的簇:从每个点到同一簇中的任意点的距离比从另一簇中的任意点的距离更近。三个明显分离的群集,2.4.1,32。基于不同群集类型、中心的群集,从每个点到该群集中心的距离比到其他群集中心的距离更近。thecenterofacelusterisoftenacentroid、theaveragageofallthepointsinthecluster、oramedoid、the most representative,不同的群集类型,连续群集(也称为“基于相邻群集”)8个连续群集,每个点到该群集上的至少一点的距离小于到其他群集上任意点的距离,2.4.1,34。不同类型的群集,密度低的群集用于由密度低的群集分隔的高密度区域群集不规则或缠结,或者存在噪波和异常点的情况。6 density-based clusters,2.4.1,35,群集算法,K均值算法及其更改版本级群集算法,2.4.2,36,基本k平均群集,每个群集都有一个中心centroid(通常定义为群集内采样点的平均值)。群集k值(每个示例位于最近的中心中心中心)是预先指定的基本思想。首先,随机选择k数据点作为群集中心。然后计算从其他点到这些群集中心点的距离,计算群集的距离平均值,继续更改这些群集中心的位置,直到群集中心不再更改。2.4.2,37。K平均聚类,初始质心随机选择。在同一示例集中按顺序群集,结果群集往往不相同。质心通常是簇中采样点的平均值。通常使用Euclidean距离、馀弦相似性和相关性等来表示采样之间的相似性。在上述相似性度量下,大多数k-means聚类算法可以收敛,只需几次迭代即可收敛。算法的停止条件是“until elatifypointschangelclusters”算法的复杂性为o(n*K*I*d)n=总样本数,K=群集数,I=迭代数,d=属性,两个不同的群集结果,Sub-optimalClustering、optimalClustering、original points、2.4.2、39、特定进程(1),2.4.2,40,特定进程(1)、2.4.2、41、特定进程(2),2.4.2,42,特定进程(2)、2.4.2、43、假定采样集中实际存在k簇,因此在采样集中选择初始质心的概率实际上非常小。IK越大,机会越小。简单计算,假设每个簇包含n个采样点。例如,如果添加K=10,则此概率=10!/1010=0.00036有时,在迭代过程中,算法会在正确的方向修改初始质心,最终得到正确的簇,但算法无法修改初始质心。以下是包含5对群集的示例:2.4.2,44。是,startingwithatwinitialcentroidsinoneclusterofearchpairofclusters,2.4.2,45,示例,Startingwithintworinitiativeroidsinoneclusternofpairofclusters,2.4.2,46,示例,startingwithasomesofclustershavingthreeinitialcentroids,Whiletherhavionlyone。2.4.2、47、是,starting without someware sofclustershavingthreeinitialcentroids,whiletherhavionlyone,2.4.2,48。解决方法,重复运行k-means群集,使用最佳结果helps、butprobaabilitysnotonyourside采样和层次群集算法确定初始质心选择中的k个或更多采样点,以及每个之间距离最大的k个作为初始质心。后处理:解散群集,合并两个群集.2.5以上检测,2.4.2,49。2分钟k平均算法,2.4.2,50,2分钟k平均算法k平均算法的更改版本,2.4.2,50,2分钟k平均算法.2
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 消费者权利课件
- 消火器材安全培训课件
- 消毒供应室质量管理
- 消毒供应中心包装材料课件
- 消化道穿孔个案课件
- 消化肿瘤内科课件教学
- 消化内科压疮赛肤润课件
- 裕安安全教育培训课件
- 洗衣厂安全环保培训总结课件
- 洗煤厂入厂安全培训课件
- 潍坊市2026届高三开学调研监测考试数学试题及答案
- 力帆集团摩托车营销策略优化研究:基于市场竞争与消费者洞察
- 2025喀什经济开发区兵团分区招聘(10人)考试参考试题及答案解析
- 2025江西南昌市西湖城市建设投资发展集团有限公司及下属子公司招聘40人考试参考试题及答案解析
- 2025年体育组织行业研究报告及未来行业发展趋势预测
- 2024年永州市工会社会工作者招聘笔试真题
- 推进文旅医养融合发展的策略及实施路径
- 弹跳的小球教学课件
- 2025年山东快递工程专业职称考试(快递设施设备知识·技术员、助理工程师)历年参考题库含答案详解(5卷)
- 反洗钱身份识别培训课件
- 2025年北京市人文知识竞赛真题
评论
0/150
提交评论