数据挖掘实验三报告

上传人：仙*** IP属地：河南上传时间：2020-04-13 格式：DOCX 页数：7 大小：122.78KB 积分：12 举报 版权申诉

已阅读5页，还剩2页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

实验三基于 Weka 进行关联规则挖掘实验步骤 1 利用利用 Weka 对数据集对数据集 contact lenses arff 进行进行 Apriori 关联规则挖掘要求关联规则挖掘要求描述数据集解释描述数据集解释 Apriori 算法及流程解释算法及流程解释 Weka 中有关中有关 Apriori 的参数的参数解释输出结果解释输出结果 Apriori 算法 1 发现频繁项集过程为 1 扫描 2 计数 3 比较 4 产生频繁项集 5 连接剪枝产生候选项集 6 重复步骤 1 5 直到不能发现更大的频集 2 产生关联规则 1 对于每个频繁项集 L 产生 L 的所有非空子集 2 对于 L 的每个非空子集 S 如果 P L P S min conf 最小置信度阈值则输出规则 S L S Weka 中有关 Apriori 的参数 1 car 如果设为真则会挖掘类关联规则而不是全局关联规则 2 classindex 类属性索引如果设置为 1 最后的属性被当做类属性 3 delta 以此数值为迭代递减单位不断减小支持度直至达到最小支持度或产生了满足数量要求的规则 4 lowerBoundMinSupport 最小支持度下界 5 metricType 度量类型设置对规则进行排序的度量依据可以是置信度类关联规则只能用置信度挖掘提升度 lift 杠杆率 leverage 确信度 conviction 在 Weka 中设置了几个类似置信度 confidence 的度量来衡量规则的关联程度它们分别是 a Lift P A B P A P B Lift 1 时表示 A 和 B 独立这个数越大 1 越表明 A 和 B 存在于一个购物篮中不是偶然现象有较强的关联度 b Leverage P A B P A P B Leverage 0 时 A 和 B 独立 Leverage 越大 A 和 B 的关系越密切 c Conviction P A P B P A B B 表示 B 没有发生 Conviction 也是用来衡量 A 和 B 的独立性从它和 lift 的关系对 B 取反代入 Lift 公式后求倒数可以看出这个值越大 A B 越关联 6 minMtric 度量的最小值 7 numRules 要发现的规则数 8 outputItemSets 如果设置为真会在结果中输出项集 9 removeAllMissingCols 移除全部为缺省值的列 10 significanceLevel 重要程度重要性测试仅用于置信度 11 upperBoundMinSupport 最小支持度上界从这个值开始迭代减小最小支持度 12 verbose 如果设置为真则算法会以冗余模式运行对数据集 contact lenses arff 进行 Apriori 关联规则挖掘的结果由输出共进行 16 轮搜索生成 11 个频繁 1 项集 21 个频繁 2 项集 6 个频繁 3 项集产生 10 条设置的关联规则如第一条规则 tear prod rate reduced contact lenses none 的置信度为 1 即在 tear prod rate reduced 的条件下 contact lenses none 的概率为 1 2 根据根据 CarInfo txt 和和 CarInfo Description txt 两个文件将两个文件将 CarInfo txt 转换成转换成 CarInfo arff 文件并进行文件并进行 Apriori 关联规则挖掘要求同关联规则挖掘要求同 1 将 txt 文件数据复制到 excel 中并保存为 CSV 格式在 weka 中打开 CSV 文件并保存为 arff 文件即可其他同 1 3 解释解释 FPGrowth 算法解释算法解释 Weka 中关于中关于 FPGrowth 算法的参数比较算法的参数比较 FPGrowth 和和 Apriori 算法的区别算法的区别 FPGrowth 算法 1 构造项头表扫描数据库一遍得到频繁项的集合 F 和每个频繁项的支持度把 F 按支持度递降排序记为 L 2 构造原始 FPTree 把数据库中每个事物的频繁项按照 L 中的顺序进行重排并按照重排之后的顺序把每个事物的每个频繁项插入以 null 为根的 FPTree 中如果插入时频繁项节点已经存在了则把该频繁项节点支持度加 1 如果该节点不存在则创建支持度为 1 的节点并把该节点链接到项头表中 3 对 FP 树挖掘由长度为 1 的叶子节点开始构造它的条件模式基然后构造它的条件 FP 树并递归的在该树上进行挖掘模式增长通过后缀模式与条件 FP 树昌盛的频繁模式连接实现 FPGrowth 算法的参数 1 delta 以此数值为迭代递减单位不断减小支持度直至达到最小支持度或产生了满足数量要求的规则 2 findAllRulesForSupportLevel 查找满足最小支持下限和最小度量约束的所有规则打开此模式将禁用迭代支持减少过程以查找指定数量的规则 3 lowerBoundMinSupport 最小支持度下界 4 maxNumberOfItems 频繁项集中最多项的个数 5 metricType 度量类型设置对规则进行排序的度量依据可以是置信度类关联规则只能用置信度挖掘提升度 lift 杠杆率 leverage 确信度 conviction 6 在 Weka 中设置了几个类似置信度 confidence 的度量来衡量规则的关联程度它们分别是 a Lift P A B P A P B Lift 1 时表示 A 和 B 独立这个数越大 1 越表明 A 和 B 存在于一个购物篮中不是偶然现象有较强的关联度 b Leverage P A B P A P B Leverage 0 时 A 和 B 独立 Leverage 越大 A 和 B 的关系越密切 c Conviction P A P B P A B B 表示 B 没有发生 Conviction 也是用来衡量 A 和 B 的独立性从它和 lift 的关系对 B 取反代入 Lift 公式后求倒数可以看出这个值越大 A B 越关联 7 minMetric 最小度量 8 numRulesToFind 要发现的规则数 9 positiveIndex 设置要被视为正索引的二进制值属性的索引对稀疏数据没有影响在这种情况下第一个索引即非零值总是被视为正值对一元值属性没有影响即当使用 Weka Apriori 样式格式用于市场篮子数据时使用缺少值表示项目不存在 10 rulesMustContain 打印出只包含这些项的规则 11 transactionsMustContain 将 FPGrowth 的输入限制为包含这些项的事务实例提供一个逗号分隔的属性名称列表 12 upperBoundMinSupport 最小支持度上界 13 useORForMustContainList 对规则使用 O

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

数据挖掘实验三报告

文档简介

温馨提示

最新文档

评论

数据挖掘实验三报告

文档简介

温馨提示

最新文档

评论

相关文档