




已阅读5页,还剩31页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1 第四章关联规则 2020 4 7 一 关联规则的定义 2 关联规则一般用以发现事务数据库中不同商品 项 之间的联系 用这些规则找出顾客的购买行为模式 这种规则可以应用于超市商品货架设计 货物摆放以及根据购买模式对用户进行分类 2020 4 7 3 二 关联规则 基本概念 一 支持度与置信度 A A BB 买尿布的客户 二者都买的客户 买啤酒的客户 2020 4 7 置信度confidence 是指购物篮分析中有了左边商品 同时又有右边商品的交易次数百分比 也就是说在所有的购买了左边商品的交易中 同时又购买了右边商品的交易概率 4 1 置信度 2020 4 7 2 支持度 支持度sup 表示在购物篮分析中同时包含关联规则左右两边物品的交易次数百分比 即支持这个规则的交易的次数百分比 5 2020 4 7 例 6 对于规则A Csupport support A C 50 confidence support A C support A 66 6 2020 4 7 7 表1 8 表2 规则 夹克 球鞋 的计算 9 2020 4 7 10 表3 存在的问题 11 1 高置信度 低支持度 夹克 球鞋 的置信度高达100 但因为只有一人买了球鞋 这条关联规则支持度只有千分之一 2 支持度 置信度都比较高 但几乎是没有作用的规则 买方便面则买牛奶 买牙刷则买牛奶 喜欢野外休闲则会买牛奶 2020 4 7 12 1 关联规则的分类 二 关联规则的分类与作用 2020 4 7 布尔型关联规则与数值型关联规则 布尔型关联规则处理的值都是离散的 种类化的 它显示了这些变量之间的关系 数值型关联规则可以和多维关联或多层关联规则结合起来 对数值型字段进行处理 将其进行动态的分割 或者直接对原始的数据进行处理 当然数值型关联规则中也可以包含种类变量 2020 4 7 13 如果关联规则中的项或属性每个只涉及一个维 则它是单维关联规则 反之 为多维关联规则 如 计算机 财务软件 年龄30 39岁 月收入4000元以上 高清电视如果在给定的规则集中 规则不涉及不同抽象层的项或属性 就称单层关联规则 反之 称多层 14 2020 4 7 2 关联规则的作用 15 购物篮分析 关联规则就是要找出哪些产品总是会同时出现在客户的购物篮中 商品摆放 基于商店不同的经营理念 如果将会经常一起购买的东西较近摆放 客户会比较方便购买 如果有意放在购物通道的两端 顾客寻找的过程中可以增加其他物品销售的可能性 关联规则可以处理所谓的匿名消费 一张发票就是一个购物篮 与决策树和类神经网络不同 关联规则与时序规则相结合 不能匿名 适合会员制 先找出来哪些事务总是同时发生的关联规则 再加入时间的因素 找出哪些事务总是会先后发生的潜在规律 2020 4 7 另外 只有同一个购物篮的商品信息能够分析的项目也很有限 因此 可以将气象资讯 温度 湿度 降雨 等转换为虚拟的商品项目 并入到购物篮中进行关联规则的分析 如 日本7 11相当著名的 七五三 规则 即是说如果一天当中温度相差7度 今天和昨天的温度差到5度 湿度差大于30 的话 代表感冒的人会增加 药店就要考虑把感冒药 温度计和口罩之类的用品上架 16 2020 4 7 三 关联规则的挖掘 17 2020 4 7 一 关联规则挖掘的步骤 第一步 找出所有频繁项集 根据定义 这些项集出现的频繁性 支持度 至少和预定义的最小支持度一样 第二步 由频繁项集产生强关联规则 根据定义 这些规则必须满足最小支持度和最小置信度 18 2020 4 7 19 对于一个给定的候选数据集 项集的数目呈指数增长 2020 4 7 二 Apriori演算法 关联规则计算虽然容易但由于规则太多容易形成 组合爆炸 因此 需要对这些规则进行筛选 筛选需要的统计量如下 最小支持度 规则必须符合的最小支持度阀值 最小置信度 计算规则所必须符合的最低置信度阀值 如果关联规则满足最小支持度和最小置信度 可以说该规则是有趣的 20 2020 4 7 1 算法所需要的前置统计量 2 频繁项集 项的集合称为项集 itemset 包含k个项的项集称为k 项集 集合 计算机 金融管理软件 就是一个2 项集 项集出现频数是包含项集的事务数 简称为项集的频数 支持计数或计数 21 2020 4 7 如果项集满足最小支持度或满足min sup与数据库中事务总数的乘积 即最小支持计数 则称它为频繁项集 frequentitemset 频繁k 项集的集合通常记作Lk 2020 4 7 22 23 对于A C support support A C 50 confidence support A C support A 66 6 最小支持度50 最小可信度50 例 2020 4 7 4 Apriori算法 使用候选项集找频繁项集 Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法 算法的名字基于这样的事实 算法使用频繁项集性质的先验知识 它使用一种称作逐层搜索的迭代方法 k 项集用于探索 k 1 项集 首先 找出频繁1 项集的集合 该集合记作L1 L1用于找频繁2 项集的集合L2 而L2用于找L3 如此下去 直到不能找到频繁k 项集 找每个Lk需要一次数据库扫描 24 2020 4 7 例1 25 数据库D 扫描D C1 L1 L2 C2 C2 扫描D C3 L3 扫描D 2020 4 7 为什么只有一项 26 例 L3 abc abd acd ace bcd 连接 L3 L3abcdfromabcandabdacdefromacdandace修剪 acdeisremovedbecauseadeisnotinL3C4 abcd 2020 4 7 Apriori 剪枝频繁项集的任何子集也一定是频繁的 例3 27 3 Apriori算法的实现过程 28 2020 4 7 4 由频繁项集产生关联规则 一旦找出频繁项集 再通过最小置信度产生关联规则 关联规则的产生步骤如下 对于每个频繁项集l 产生l的所有非空子集 对于l的每个非空子集s 如果则输出规则 s l s 29 2020 4 7 以例3为例 看其中一个频繁项集l I1 I2 I5 可以由l产生哪些关联规则 l的非空子集有 I1 I2 I1 I5 I2 I5 I1 I2 I5 结果关联规则如下 每个都列出了置信度 如果最小置信度阀值为70 则只有第2 3和最后一个规则可以输出 30 2020 4 7 真正可取的规则具备的条件 31 并非所有的规则在符合阀值限制后都是有意义的 这样的规则还分为 有用的规则 包含高品质的有效情报常识无法解释的结果关联规则真正可取的是具备以下两个条件的规则 人们常识之外 意料之外的关联该规则必须具有潜在的作用 2020 4 7 5 案例 2020 4 7 32 2020 4 7 33 34 Apriori算法的核心 用频繁的 k 1 项集生成候选的频繁k 项集用数据库扫描和模式匹配计算候选集的支持度Apriori的瓶颈 候选集生成巨大的候选集 104个频繁1 项集要生成107个
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 输血安全知识培训试题及答案
- 2025年事业单位工勤技能-湖北-湖北计算机操作员五级(初级工)历年参考题库典型考点含答案解析
- 2025-2030中国综合桥梁系统行业市场发展趋势与前景展望战略研究报告
- 文化产业园产业集聚与服务创新:2025年产业融合发展模式与挑战深度分析报告001
- 2025年天然气加气站布局与社区安全防范体系的整合分析报告
- 编程教育未来趋势2025年在线平台盈利模式分析报告
- 2025年尾矿综合利用与生态修复技术创新成果分析报告
- 2025年事业单位工勤技能-河南-河南机械冷加工五级(初级工)历年参考题库含答案解析
- 2025年事业单位工勤技能-河南-河南地质勘查员一级(高级技师)历年参考题库含答案解析
- 2025年事业单位工勤技能-河南-河南信号工-机车信号设备维修五级(初级工)历年参考题库典型考点含答案解析
- 通海翡翠华庭建设项目 水土保持方案报告表
- T/CCMA 0206-2024混凝土机械液压平衡阀
- 手阳明大肠经课件
- 职场高效沟通与结构化表达技巧培训
- 2025-2030中国红枣深加工行业市场深度调研及投资策略与投资前景预测研究报告
- 企业清洁生产审核手册
- 对标工作的方案和计划对标管理实施方案
- 图书管理员考试的注意事项和建议试题及答案
- 警校区队管理制度规定
- 郑州银行总行信息科技岗位招聘考试真题2024
- 新发展英语(第二版)综合教程2 课件 Unit 6 Cultural Difference
评论
0/150
提交评论