数据挖掘实验三报告_第1页
数据挖掘实验三报告_第2页
数据挖掘实验三报告_第3页
数据挖掘实验三报告_第4页
数据挖掘实验三报告_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

实验三 基于 Weka 进行关联规则挖掘 实验步骤 1 利用利用 Weka 对数据集对数据集 contact lenses arff 进行进行 Apriori 关联规则挖掘 要求 关联规则挖掘 要求 描述数据集 解释描述数据集 解释 Apriori 算法及流程 解释算法及流程 解释 Weka 中有关中有关 Apriori 的参数 的参数 解释输出结果解释输出结果 Apriori 算法 1 发现频繁项集 过程为 1 扫描 2 计数 3 比较 4 产生频繁项集 5 连接 剪枝 产生候选项集 6 重复步骤 1 5 直到不能发现更大的频集 2 产生关联规则 1 对于每个频繁项集 L 产生 L 的所有非空子集 2 对于 L 的每个非空子集 S 如果 P L P S min conf 最小置信度阈值 则输出规则 S L S Weka 中有关 Apriori 的参数 1 car 如果设为真 则会挖掘类关联规则而不是全局关联规则 2 classindex 类属性索引 如果设置为 1 最后的属性被当做类属性 3 delta 以此数值为迭代递减单位 不断减小支持度直至达到最小支持度或产生了满足数量 要求的规则 4 lowerBoundMinSupport 最小支持度下界 5 metricType 度量类型 设置对规则进行排序的度量依据 可以是 置信度 类关联规则 只能用置信度挖掘 提升度 lift 杠杆率 leverage 确信度 conviction 在 Weka 中设置了几个类似置信度 confidence 的度量来衡量规则的关联程度 它们分别是 a Lift P A B P A P B Lift 1 时表示 A 和 B 独立 这个数越大 1 越表明 A 和 B 存在于一个购物篮中不是偶然现象 有较强的关联度 b Leverage P A B P A P B Leverage 0 时 A 和 B 独立 Leverage 越大 A 和 B 的关系越密切 c Conviction P A P B P A B B 表示 B 没有发生 Conviction 也是用来衡量 A 和 B 的独立性 从它和 lift 的关系 对 B 取反 代入 Lift 公式后求倒数 可以看出 这个值越大 A B 越关联 6 minMtric 度量的最小值 7 numRules 要发现的规则数 8 outputItemSets 如果设置为真 会在结果中输出项集 9 removeAllMissingCols 移除全部为缺省值的列 10 significanceLevel 重要程度 重要性测试 仅用于置信度 11 upperBoundMinSupport 最小支持度上界 从这个值开始迭代减小最小支持度 12 verbose 如果设置为真 则算法会以冗余模式运行 对数据集 contact lenses arff 进行 Apriori 关联规则挖掘的结果 由输出 共进行 16 轮搜索 生成 11 个频繁 1 项集 21 个频繁 2 项集 6 个频繁 3 项集 产生 10 条 设置的 关联规则 如第一条规则 tear prod rate reduced contact lenses none 的置信度为 1 即在 tear prod rate reduced 的条件下 contact lenses none 的概率为 1 2 根据根据 CarInfo txt 和和 CarInfo Description txt 两个文件将两个文件将 CarInfo txt 转换成转换成 CarInfo arff 文件 并进行文件 并进行 Apriori 关联规则挖掘 要求同关联规则挖掘 要求同 1 将 txt 文件数据复制到 excel 中并保存为 CSV 格式 在 weka 中打开 CSV 文件 并保存为 arff 文件即可 其他同 1 3 解释解释 FPGrowth 算法 解释算法 解释 Weka 中关于中关于 FPGrowth 算法的参数 比较算法的参数 比较 FPGrowth 和和 Apriori 算法的区别算法的区别 FPGrowth 算法 1 构造项头表 扫描数据库一遍 得到频繁项的集合 F 和每个频繁项的支持 度 把 F 按支持度递降排序 记为 L 2 构造原始 FPTree 把数据库中每个事物的频繁项按照 L 中的顺序进行重排 并按照重排之后的顺序把每个事物的每个频繁项插入以 null 为根的 FPTree 中 如果插入时频繁项节点已经存在了 则把该频繁项节点支持度加 1 如果该节 点不存在 则创建支持度为 1 的节点 并把该节点链接到项头表中 3 对 FP 树挖掘 由长度为 1 的叶子节点开始 构造它的条件模式基 然后构造它的条件 FP 树 并递归的在该树上进行挖掘 模式增长通过后缀模式与条件 FP 树昌盛的频繁模 式连接实现 FPGrowth 算法的参数 1 delta 以此数值为迭代递减单位 不断减小支持度直至达到最小支持度或产生了满足数 量要求的规则 2 findAllRulesForSupportLevel 查找满足最小支持下限和最小度量约束的所有规则 打开此 模式将禁用迭代支持减少过程 以查找指定数量的规则 3 lowerBoundMinSupport 最小支持度下界 4 maxNumberOfItems 频繁项集中最多项的个数 5 metricType 度量类型 设置对规则进行排序的度量依据 可以是 置信度 类关联规则 只能用置信度挖掘 提升度 lift 杠杆率 leverage 确信度 conviction 6 在 Weka 中设置了几个类似置信度 confidence 的度量来衡量规则的关联程度 它们分别 是 a Lift P A B P A P B Lift 1 时表示 A 和 B 独立 这个数越大 1 越表明 A 和 B 存在于一个购物篮中不是偶然现象 有较强的关联度 b Leverage P A B P A P B Leverage 0 时 A 和 B 独立 Leverage 越大 A 和 B 的关系越密切 c Conviction P A P B P A B B 表示 B 没有发生 Conviction 也是用来衡量 A 和 B 的独立性 从它和 lift 的关系 对 B 取反 代入 Lift 公式后求倒数 可以看出 这个值越大 A B 越关联 7 minMetric 最小度量 8 numRulesToFind 要发现的规则数 9 positiveIndex 设置要被视为正索引的二进制值属性的索引 对稀疏数据没有影响 在这 种情况下 第一个索引 即非零值 总是被视为正值 对一元值属性没有影响 即当使用 Weka Apriori 样式格式用于市场篮子数据时 使用缺少值 表示项目不存在 10 rulesMustContain 打印出只包含这些项的规则 11 transactionsMustContain 将 FPGrowth 的输入限制为包含这些项的事务 实例 提供一 个逗号分隔的属性名称列表 12 upperBoundMinSupport 最小支持度上界 13 useORForMustContainList 对规则使用 O

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论