《数据挖掘原理与应用 第2版 》课件 5.7关联分析-关联模式评估_第1页
《数据挖掘原理与应用 第2版 》课件 5.7关联分析-关联模式评估_第2页
《数据挖掘原理与应用 第2版 》课件 5.7关联分析-关联模式评估_第3页
《数据挖掘原理与应用 第2版 》课件 5.7关联分析-关联模式评估_第4页
《数据挖掘原理与应用 第2版 》课件 5.7关联分析-关联模式评估_第5页
已阅读5页,还剩20页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

关联分析关联模式评估关联模式的评估关联分析算法往往产生大量的规则有一部分可能会具有相对较高的支持度和置信度,但可能由于某些原因,其强关联关系并不一定能成立或很大一部分可能是不感兴趣的。因此,建立一组广泛接受的评价关联模式质量的标准是非常重要的2关联规则评估标准统计论据判定主观论据判定前件、后件统计上相互独立覆盖少量事务的模式反映的是伪关联客观兴趣度度量主观认为是无趣的提升度(Lift)杠杆率(Leverage)确信度(Conviction)兴趣因子(interestfactor)可视化基于模板的方法主观兴趣度量

3主观论据判定模式由主观认为是否为有趣的{黄油}

{面包}无趣,它表示的关系显而易见。尽管支持度和置信度都会很高{尿布}{啤酒}是有趣的,因为这种联系十分出乎意料,并且可能为零售商提供新的交叉销售机会。利用主观知识对模式评估较为困难,因需要来自领域专家的大量先验信息4客观兴趣度度量支持度-置信度框架的局限性忽略了规则后件中项集的支持度高置信度的规则有时存在误导5客观兴趣度度量【例】分析喝咖啡和喝茶的人之间的关系,收集一组饮料偏爱的数据,并汇总到表格。1000人的饮料偏好Coffee合计Tea15050200650150800合计8002001000规则支持度

=15%,置信度s=75%,都相当高,似乎规则成立。评估关系规则{茶}{咖啡}。然而,在没有任何前提条件时,喝咖啡的人的比例为80%;这意味着,喝茶这个条件,反而降低了喝咖啡的概率(由80%降到了75%),说明两个情况是互斥的。置信度的缺点在于该度量忽略了规则中后件项集的支持度。相依表6相依表(contingencytable)给定随机变量X、Y,可以构建一个相依表给定关联规则XY:ContingencytableforX,Y

Y

Xf11f10f1+f01f00f0+

f+1f+0NContingencytableforX

Y

Y

Xf11f10f1+f01f00f0+

f+1f+0|T|

7客观兴趣度度量客观兴趣度度量使用数据的统计量,来确定模式是否确实关联提升度(Lift)杠杆率(Leverage)确信度(Conviction)兴趣因子(interestfactor)相关度IS度量8提升度提升度:对于事件

X和

Y,提升度表示含有

X的条件下,同时含有

Y的概率,与

Y发生的概率之比。反映了关联规则中的

X与

Y的相关性提升度也可以写成:即关联规则的置信度和规则后件项集支持度的比率。9提升度一般在数据挖掘中当提升度大于3时,才能认为挖掘出的关联规则是有价值的Lift(X

Y)=1,

X与Y相互独立,关联模型两个条件没有任何关联;

1,

说明条件X与事件Y是互斥的,规则X→Y是无效的强关联规则;≥

1,

规则X→Y是有效的强关联规则;10提升度

规则支持度

=15%,置信度s=75%,都相当高,似乎规则成立。【例】分析喝咖啡和喝茶的人之间的关系,收集一组饮料偏爱的数据,并汇总到表格。1000人的饮料偏好Coffee合计Tea15050200650150800合计8002001000评估关系规则{茶}{咖啡}。11提升度一种比较简单的判断指标受零事务的影响较大如果,例中保持其他数据不变,把1000个事务改成10000个事务,则计算出提升度就会明显增大,可见提升度是与零事务有关的。1000人的饮料偏好Coffee合计Tea15050200650150800合计800200100010000人的饮料偏好Coffee合计Tea1505020065091509800合计80092001000012

例如:前面例子中,零事务为既不爱喝咖啡也不爱喝茶叶的事务,数值较小,为150。但在现实中,这个值往往很大。杠杆率定义为:杠杆率越大,X与Y的关系越紧密;等于0时,X与Y相互独立。或13杠杆率【例】分析喝咖啡和喝茶的人之间的关系,收集一组饮料偏爱的数据,并汇总到表格。1000人的饮料偏好Coffee合计Tea15050200650150800合计8002001000评估关系规则{茶}{咖啡}。

14确信度确信度用来衡量随机变量X和Y的独立性。计算公式:衡量

X出现而

Y

不出现的概率,也就是规则预测错误的概率。确信度的值=1,X、Y相互独立;确信度的值越大,X和

Y

越关联。15确信度【例】分析喝咖啡和喝茶的人之间的关系,收集一组饮料偏爱的数据,并汇总到表格。1000人的饮料偏好Coffee合计Tea15050200650150800合计8002001000评估关系规则{茶}{咖啡}。

16兴趣因子(interestfactor)定义为:对于二元变量,与提升度Lift等价I(X,Y)=1,

X与Y相互独立;<1,

X与Y是负相关的;>1,

X与Y是正相关的;ContingencytableforX,Y

Y

Xf11f10f1+f01f00f0+

f+1f+0N17兴趣因子

【例】分析喝咖啡和喝茶的人之间的关系,收集一组饮料偏爱的数据,并汇总到表格。1000人的饮料偏好Coffee合计Tea15050200650150800合计8002001000评估关系规则{茶}{咖啡}。18兴趣因子【例】给定两个词{p,q}和{r,s}出现的频率。兴趣因子I({p,q})=1.02,I({r,s})=4.08。表明:特定情况下,提升度等价于兴趣因子,因此兴趣因子也有其固有的局限性虽然p和q同时出现在88%的文档中,但I(p,q)≈1,表明二者相互独立。另一方面,

I(r,s)大于I(p,q),尽管r和s很少同时出现在同一个文档中。这种情况下,置信度可能是一个更好的选择,因为置信度表明p和q之间的关联(94.6%)远远强于r和s之间的关联(28.6%)。19相关分析对于二元变量,相关度公式:ф(X,Y)=0,

X与Y相互独立;≥0,

X与Y正相关,=1则完全正相关;0,

X与Y负相关的,=-1则完全负相关;ContingencytableforX,Y

Y

Xf11f10f1+f01f00f0+

f+1f+0N20相关分析【例】分析爱喝咖啡和爱喝茶的人之间的关系,收集一组饮料偏爱的数据,并汇总到表格。1000人的饮料偏好Coffee合计Tea15050200650150800合计8002001000

评估关系规则{茶}{咖啡}。21相关分析

当样本大小成比例变化时,它不能够保持不变。适合于分析对称的二元变量22IS度量IS是另一种度量,用于处理非对称二元变量。该度量定义如下:23IS度量【例】给定两个词{p,q}和{r,s}出现的频率。 {p,q}和{r,s}的IS度量分别为

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论