版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、-CARMA Continuous Association Rule Mining Algorithm,报告人:徐启元 指导教师:谢邦昌 日期:2007年11月30日,目录,关联规则基本概念 CARMA算法简介 CARMA模块的基本概念 案例分析及Clementine操作步骤 购物篮分析-Tabular类型数据 网络日志分析-Transactional类型数据 值得注意的问题 CARMA算法原理(参考),关联规则算法简介,关联分析的目的是寻找数据项间的相关性常用技术: 关联规则:即寻找在同一个事件中出现的不同项目的相关性 例如:找出顾客经常同 时购买哪些商品。网民 浏览的网页之间有没有 什么关
2、联性。,CARMA算法简介,CARMA是一种比较新的关联规则算法,它是1999年由Berkeley大学的Christian Hidber教授提出来的。,1,2,3,4,能够处理在线连续交易流数据,仅需一次,最多两次对数据的扫描就可以构造出结果集,允许在算法执行过程中按需要重新设置支持度,占用内存少,CARMA,CARMA模块中的基本概念,Antecedent,CARMA算法原理,如果v是k-项集(k=2),则先按前述方式处理包含的所有1-项集,且: 如果第一次出现,判断该k-项集是否可以进入V,且令Count(v)1, firstTrans i,且 如果不是第一次出现,则项集各子集的Count
3、(v)Count(v)+1; “修剪”,默认每读入500个事务作一次修剪(从效率角度考虑,其实可以读入一条修剪一次),即判断支持格中所有k-项集的maxSupport(v),如果小于当前的最小支持度i ,则剔除相应项集出V,CARMA算法原理,在Phase I阶段,k-项集v进入V的主要原则 如果一个项集是频繁项集,则其所有子集必定也是频繁项集;反之,如一个项集的某个子集不是频繁项集,则该项集必定也不是频繁项集;Carma在决定k-项集v进入频繁项集V时,应确保v的所有真子集已在当前事务之前进入V中,这是v进入V的条件之一(要看所有子集,若2项无所谓,若3项则需要检验其2项子集是否也在内)。
4、项集v加入V的必要条件表述为:i为当前的事务序号,即v的所有真子集w都是频繁项集且已在当前事务之前进入V中,CARMA算法原理,在Phase I阶段,k-项集v进入V的主要原则 判断v的真子集时应从包含项目较多的子集开始判断,如果包含项目较多的子集已在V中,则包含项目较少的子集也一定在V中。因此,不必检查所有子集,只需要检验那些包含项目最多的子集即可。 为提高效率不必检验所有真子集,只需要检查那些:,其中:|w|、 |v|为所包含的项目数k,CARMA算法原理,计算maxSupport(v)的关键是计算maxMissed(v) maxMissed计算的依据一:其最大子集的频繁程度 在第i个时刻
5、, v的具有最大firstTrans的真子集w(|w|=|v|-1),其支持度一定大于v的,即:,CARMA算法原理,计算maxSupport(v)的关键是计算maxMissed(v) 依据二:用户以往定义的最小支持度的情况,在i+1时刻,以往最小支持度序列表示为i(1,2 , 3, i) Carma中定义了关于i的天花板(ceiling of )序列,记为 天花板的含义是: 当j i时(j=1,2,.i-1): 当j i时(j=1,2,.i-1):,例如:(0.3,0.7,0.9,0.5),CARMA算法原理,计算maxSupport(v)的关键是计算maxMissed(v) 依据二:用户以
6、往定义的最小支持度的情况 总之有:主要取决于以往的一系列最小支持度,b (0,1,3) 1,1,CARMA算法原理,Phase I举例 事务序列T=(a,b,a,b,c,b,c),定义的支持度阀值序列=(0.3,0.9,0.5),V,t1=a,b,1=0.3,Va,b,t2=a,b,c,2=0.9,Va,b,c,a,b,a,b的maxSupport均大于0.3, 不能剔除出V,a (0,1,1) 1,1,b (0,1,1) 1,1,a (0,1,2) 1,1,b (0,1,2) 1,1,c (0,2,1) 0.5,0.5,a,b (1,2,1) 0.5,1,t3=b,c,Va,b,c,a,b,
7、b,c,1=0.5,a (0,1,2) 0.66,0.66,c (0,2,2) 0.66,0.66,a,b (1,2,1) 0.33,0.66,b,c (1,3,1) 0.33,0.66,(maxMissed,firstTrans,count) minSupport,maxSupport,CARMA算法原理,用户自行给出各个 是不现实的,用户只需要给出初始的 ,Carma便可以自行调整,通过固定 、不断减少maxSupport来实现maxSupport与 的比较 策略一: 序列为常数序列S,则,随着计算的进行,i由小变大,maxSupport则相对由大变小(可以加快收敛速度),并趋于S。,CA
8、RMA算法原理,策略二: 序列为变化量 Carma算法允许作四次变化取四个值,分别记为S1,S2,S3,S4; S1在处理19事务保持期间不变;S2在处理1099事务期间保持不变;S3在处理1004999事务期间保持不变;S4在处理5000以后的事务期间保持不变化;在每轮计算过程中,i由小变大,maxSupport则相对由大变小,并趋于Si。Si依据S和事务数t及以下关系确定:,CARMA算法原理,Carma的Phase II的基本思路 已知Phase I的V,最后一个支持度阀值n 剔除所有的maxSupport小于n的项集 如果某个项集被剔除了,则其所有超集也应被剔除 在频繁项集的基础上产生关联规则(同其他算
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 企业管理-班组生产安全管理制度
- 湖北省宜昌市外国语初级中学2025-2026学年下学期5月阶段性考试物理试题试卷含解析
- 江苏省常州市金坛区2026年初三下练习题(三)数学试题含解析
- 腹痛的中医护理专业发展
- 湖北省黄石市还地桥镇南湾初级中学2026届学业水平考试物理试题模拟卷一含解析
- 老年科护理中的质量控制
- 江苏省南京市新城中学2025-2026学年初三下学期期末质量监控物理试题含解析
- 湖南省长沙市广益实验中学2026届初三下学期第一学月考试物理试题含解析
- 吉林省辽源市名校2026届初三年级四月调研考试物理试题含解析
- 高中语文《涉江采芙蓉》课件+统编版高一语文必修上册
- 2025年湖北省中考语文试卷真题(含标准答案)
- GB/T 42186-2022医学检验生物样本冷链物流运作规范
- 通辽市遴选和选调公务员笔试真题2024
- 动物园动物肖像摄影技巧
- (高清版)DB50∕T 392-2011 方形钢筋混凝土电杆
- 村居、社区退役军人服务站星级评定标准
- 四川成都历年中考语文古诗欣赏试题汇编(2003-2023)
- 头顶一颗珠对VCI大鼠血脑屏障及紧密连接蛋白的影响及作用机制研究
- 锅炉暖风器改造施工方案
- 一元线性回归模型说课课件2024年第十届全国中小学实验教学说课活动
- 成都市崇州市2024年小升初必考题数学检测卷含解析
评论
0/150
提交评论