版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
关联分析关联分析原理啤酒与尿布2购物篮分析啤酒与尿布3关联分析应用在美国国会投票记录中发现关联规则在一个国会投票记录的数据集中发现议案投票的相关性,使用分析结果来为政治竞选活动服务,或者预测选举官员会如何投票。4关联分析应用发现毒蘑菇的相似特征这里只对包含某个特定元素(有毒性)的项集感兴趣,从中寻找毒蘑菇中的一些公共特征,利用这些特征来避免吃到那些有毒蘑菇。5关联分析应用在Twitter源中发现一些共现词对于给定搜索词,发现推文中频繁出现的单词集合。6关联分析应用从网站点击流中挖掘流行趋势,挖掘哪些广泛被用户浏览到搜索引擎推荐,在用户输入查询词时推荐同相关的查询词项7关联分析应用从数据海洋中抽取的知识,可以用于商品定价、市场促销、库存管理等环节。8关联分析定义关联分析(又称关联挖掘)在交易数据、关系数据或其他信息载体中,查找存在于项目集合或对象集合之间的频繁模式、关联、相关性或因果结构。或者说,关联分析是发现交易数据库中不同商品(项)之间的联系。9简单关联关系序列关联关系关联分析定义10简单关联关系没有共同属性的事物的组合,组合元素会较大概率同时出现;购买面包的顾客中80%会购买牛奶。面包和牛奶作为一种早餐的搭配是大家所接受的,二者没有共同属性,但是二者搭配后就是一顿美味早餐。商场购买时,如果你把这两样摆在一起时,就会刺激顾客的潜意识联系了二者的关系,并刺激购买。这是一种简单的关联关系。11序列关联关系事物的出现,很大概率上,会在时间上以一定的先后顺序发生12比如买了iphone手机的顾客中80%会选择购买iphone手机保护壳这是序列关联关系存在先后的时间上的顺序数码相机存储卡笔记本电脑照片打印机关联分析基于购物篮事务,进行关联挖掘13基于购物篮事务的关联挖掘14基于购物篮事务的关联挖掘{鸡蛋}的支持度计数=1{尿布啤酒}的支持度计数=3{面包牛奶尿布}的支持度计数=2{鸡蛋}的支持度=1/5{尿布啤酒}的支持度=3/5{面包牛奶尿布}的支持度=2/5N=5概念:支持度计数支持度项集15基于购物篮事务的关联挖掘支持度太低,不能说明问题项集越大,支持度越低{尿布啤酒}的支持度=3/5{牛奶尿布啤酒}的支持度=2/5{面包牛奶尿布啤酒}的支持度=1/516基于购物篮事务的关联挖掘TID面包牛奶鸡蛋啤酒可乐尿布11110002111100311101041111015111010支持度高也不一定有价值常识性的发现没有价值17基于购物篮事务的关联挖掘怎样才算“关联”?1)支持度高,足够高≥支持度阈值minSup置信度2)同时出现的概率大出现{尿布}的事务中,有多少出现了{尿布,啤酒}=3/4≥置信度阈值minConf
18基于购物篮事务的关联挖掘{尿布}支持度=4/5如果根据本例中的业务和数据的特性和规律,认为支持度3/5和置信度3/4已足够建立关联规则,则认为规则{尿布}
{啤酒}存在:即,购买了尿布的购物单中,很大程度上也购买了啤酒。商家便可就此探究成果进行针对性的营销。{尿布}
{啤酒}{尿布,啤酒}支持度=3/519
基于购物篮事务的关联挖掘1)计算支持度:{牛奶,尿布}支持度=3/52)计算置信度:{牛奶,尿布}
{啤酒}
{牛奶,尿布,啤酒}支持度=2/5如果根据本例中的业务和数据的特性和规律,认为支持度2/5=0.4和置信度2/3=0.67已足够建立关联规则,则认为规则{牛奶,尿布}
{啤酒}是关联的,也就是说,购买了牛奶和尿布的购物单中,很大程度上也购买了啤酒。商家便可就此探究成果进行针对性的营销。20
基于购物篮事务的关联挖掘在无目标关联的情况下,需要对每一种可能的组合进行检验,发现其中的关联关系21基本概念项集(Itemset)令
I={i1,i2,……,in}是购物篮数据中的所有项的集合,T={t1,t2,……,td}是所有事务的集合。每个事务ti包含的项集都是I的子集。包含0个或多个项的集合称为项集。k-项集如果一个项集包含k个项,称其为k-项集。例如:{牛奶,面包,尿布}、{牛奶,尿布}、{牛奶}均为项数不同的项集。例如:{牛奶,面包,尿布}就为3-项集。22基本概念支持度计数(Supportcount)包含特定项集的事务个数为支持度计数,用
表示。在数学上,项集X的支持度计数
(X)可以表示为:支持度(Support)包含某项集的事务数与总事务数的比值称为该项集的支持度,用s
表示。支持度衡量的是某项集(即构成该项集的各个事件)同时出现的概率。例如,表5‑2所示的数据中,有:
({牛奶,面包,尿布})=2。例如,s({牛奶,面包,尿布})=2/5。23基本概念频繁项集(FrequentItemSet)是指能够满足支持度阈值(minSup)的所有项集支持度阈值是人为指定的一个数值候选项集未经支持度检验的项集24候选项集频繁项集≥支持度阈值minSup候选项集频繁项集基本概念置信度(confidence)置信度揭示了
X出现时,Y是否一定会出现,如果出现则其大概有多大的可能出现。如果置信度为100%,则说明了
X
出现时,Y
一定出现那么,对这种情况而言,假设
X
和
Y
是市场上的两种商品,就没有理由不进行捆绑销售了25基本概念关联规则关联规则(AssociationRule)是形如
X→Y的蕴含表达式,其中X
和Y
是不相交的项集,即有X∩Y=Ø关联规则的强度可以用它的支持度s和置信度c来度量支持度确定规则可以用于给定数据集的频繁程度,而置信度确定Y
在包含X
的事务中出现的频繁程度26蕴含表达式设
p、q为两个命题。复合命题“如果p,则q”称为p与q的蕴含式,记作
p→q。称
p为蕴含式的前件,
q为后件。并规定
p→q为假当且仅当
p为真
q为假。其真值表为:pqp→q1000111110
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 注册会计师审计中数字化审计工具的应用技巧
- 人力资源管理公司实习心得体会
- “寓言故事”导读-三年级下册“快乐读书吧”解读
- 某麻纺厂质量改进制度
- 2026福建省厦门银行股份有限公司校园招聘备考题库附参考答案详解(巩固)
- 2026福建福州市侨联招聘1人备考题库附答案详解【完整版】
- 2026福建福州新区(长乐区)新任教师(教育部直属师范大学公费师范生)招聘1人备考题库完整参考答案详解
- 2026兴业银行厦门分行春季校园招聘备考题库含答案详解(模拟题)
- 2026江西上饶婺源县蚺城街道办事处综合行政执法队编外辅助人员招聘4人备考题库及答案详解(有一套)
- 2026贵州铜仁市第一批市本级城镇公益性岗位招聘26人备考题库含答案详解(培优)
- 气象灾害防御工作制度
- PEP人教版六年级下册英语教案全册
- 2026校招:上海银行笔试题及答案
- 2026年郑州信息科技职业学院单招职业适应性测试题库与答案详解
- 内部风险隐患报告奖励制度
- 2026年安全生产网格化测试题及答案
- 2025年中考道德与法治真题完全解读(广西卷)
- 高钾血症诊疗指南(2025年版)
- 防刀斧砍杀培训课件
- 2025年集团招聘广东省广轻控股集团有限公司招聘备考题库及一套答案详解
- 军事地质课件
评论
0/150
提交评论