




已阅读5页,还剩2页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
weka Apriori算法关联规则挖掘实验一、Apriori算法参数含义本次共进行了9组实验,使用了weka安装目录data文件夹下的contact-lenses.arff数据。ToolsArffViewer,打开contact-lenses,可以看到实验数据contact-lenses共有24条记录,5个属性值。具体内容如下:结合实验结果阐释下列12个参数的含义1.car如果设为真,则会挖掘类关联规则而不是全局关联规则。2.classindex类属性索引。如果设置为-1,最后的属性被当做类属性。3.delta以此数值为迭代递减单位。不断减小支持度直至达到最小支持度或产生了满足数量要求的规则。4.lowerBoundMinSupport最小支持度下界。5.metricType度量类型。设置对规则进行排序的度量依据。可以是:置信度(类关联规则只能用置信度挖掘),提升度(lift),杠杆率(leverage),确信度(conviction)。在Weka中设置了几个类似置信度(confidence)的度量来衡量规则的关联程度,它们分别是:a)Lift:P(A,B)/(P(A)P(B) Lift=1时表示A和B独立。这个数越大(1),越表明A和B存在于一个购物篮中不是偶然现象,有较强的关联度.b)Leverage :P(A,B)-P(A)P(B)Leverage=0时A和B独立,Leverage越大A和B的关系越密切c)Conviction:P(A)P(!B)/P(A,!B)(!B表示B没有发生)Conviction也是用来衡量A和B的独立性。从它和lift的关系(对B取反,代入Lift公式后求倒数)可以看出,这个值越大, A、B越关联。6.minMtric度量的最小值。7.numRules要发现的规则数。8.outputItemSets如果设置为真,会在结果中输出项集。9.removeAllMissingCols移除全部为缺省值的列。10.significanceLevel重要程度。重要性测试(仅用于置信度)。11.upperBoundMinSupport最小支持度上界。从这个值开始迭代减小最小支持度。12.verbose如果设置为真,则算法会以冗余模式运行。二、实验结果及分析1.以其中一组实验为例做详细分析具体参数设置如下图:完整的实验结果输出及具体分析= Run information =/实验运行信息Scheme:weka.associations.Apriori -I -N 10 -T 0 -C 0.9 -D 0.05 -U 1.0 -M 0.5 -S -1.0 -c -1Relation:contact-lenses/数据的名称contact-lensesInstances:24/数据的记录数24Attributes:5/属性数目5以及各属性名称agespectacle-prescripastigmatismtear-prod-ratecontact-lenses= Associator model (full training set) =%scheme -所选的关联规则挖掘方案:Apriori算法%算法的参数设置:-I -N 10 -T 0 -C 0.9 -D 0.05 -U 1.0 -M 0.5 -S -1.0 -c -1 ;%各参数依次表示:%I -输出项集,若设为false则该值缺省;%N 10 -规则数为10;%T 0 度量单位选为置信度,(T1-提升度,T2杠杆率,T3确信度);%C 0.9 度量的最小值为0.9;%D 0.05 -递减迭代值为0.05;%U 1.0 -最小支持度上界为1.0;%M 0.5 -最小支持度下届设为0.5;%S -1.0 -重要程度为-1.0;%c -1 -类索引为-1输出项集设为真%(由于car, removeAllMissingCols, verbose都保持为默认值False,因此在结果的参数设置为缺省,若设为True,则会在结果的参数设置信息中分别表示为A, R,V)%Apriori/ Apriori算法运行结果=Minimum support: 0.5 (12 instances)/最小支持度0.5,即最少需要12个实例Minimum metric : 0.9/最小度量: 0.9Number of cycles performed: 10/进行了10轮搜索Generated sets of large itemsets:/生成的频繁项集Size of set of large itemsets L(1): 7/频繁1项集:7个Large Itemsets L(1):/频繁1项集(outputItemSets设为True,因此下面会具体列出)spectacle-prescrip=myope 12spectacle-prescrip=hypermetrope 12astigmatism=no 12astigmatism=yes 12tear-prod-rate=reduced 12tear-prod-rate=normal 12contact-lenses=none 15%在上面所示数据界面中,分别点击标签spectacle-prescrip,astigmatism,tear-prod-rate和contact-lenses,该列的值会自动进行分类排序,可以很方便的对上面结果进行。点击age标签,其值按pre-presbiopic、presbiopic和young分类排序,可以看到各属性值的记录数均为8 contact-lenses=none 12conf:(1)/若tear-prod-rate取值为reduced可以推出contact-lenses的取值为none,该关联规则置信度为100%2其它实验设置及部分结果展示1实验中,若其它参数保持为默认值,将最小支持度下界设为0.8,则运行结果会显示”No large itemsets and rules found!”,即找不到满足条件的关联规则。2若其它参数保持为默认值,将最小支持度下界设为0.25,上界设为0.8,度量选为置信度,最小值为0.8,则运行结果找到:频繁1项集10个,频繁2项集18个,频繁3项集4个,找到的最佳关联规则为:1. tear-prod-rate=reduced 12 = contact-lenses=none 12conf:(1)2. spectacle-prescrip=myope tear-prod-rate=reduced 6 = contact-lenses=none 6conf:(1)3. spectacle-prescrip=hypermetrope tear-prod-rate=reduced 6 = contact-lenses=none 6conf:(1)4. astigmatism=no tear-prod-rate=reduced 6 = contact-lenses=none 6conf:(1)5. astigmatism=yes tear-prod-rate=reduced 6 = contact-lenses=none 6conf:(1)6. spectacle-prescrip=myope contact-lenses=none 7 = tear-prod-rate=reduced 6conf:(0.86)7. astigmatism=no contact-lenses=none 7 = tear-prod-rate=reduced 6conf:(0.86)8. contact-lenses=none 15 = tear-prod-rate=reduced 12conf:(0.8)3若其它参数保持为默认值,将最小支持度下界设为0.25,上界设为0.8,度量选为提升度(Lift:P(A,B)/(P(A)P(B),最小值为1.1,则运行结果找到10条最佳关联规则,前3条如下:1. tear-prod-rate=reduced 12 = spectacle-prescrip=myope contact-lenses=none 6conf:(0.5) lev:(0.1) 2 conv:(1.21)2. spectacle-prescrip=myope contact-lenses=none 7 = tear-prod-rate=reduced 6conf:(0.86) lev:(0.1) 2 conv:(1.75)3. tear-prod-rate=reduced 12 = astigmatism=no contact-lenses=none 6conf:(0.5) lev:(0.1) 2 conv:(1.21)4若其它参数保持为默认值,将最小支持度下界设为0.25,上界设为0.8,度量选为杠杆率(Leverage:P(A,B)-P(A)P(B),在下面第一条规则中,4表示满足lev:(0.19)的实例数目),最小值为0.1,则运行结果找到6条最佳关联规则,前3条如下:1. tear-prod-rate=reduced 12 = contact-lenses=none 12conf:(1) lift:(1.6) conv:(4.5)2. contact-lenses=none 15 = tear-prod-rate=reduced 12conf:(0.8) lift:(1.6) conv:(1.88)3. tear-prod-rate=reduced 12 = spectacle-prescrip=myope contact-lenses=none 65若其它参数保持为默认值,将最小支持度下界设为0.25,上界设为0.8,度量选为确信度(Conviction:P(A)P(!B)/P(A,!B),最小值为1.1,则运行结果找到10条最佳关联规则,前3条如下:1. tear-prod-rate=reduced 12 = contact-lenses=none 12conf:(1) lift:(1.6) lev:(0.19) 4 2.
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 【正版授权】 ISO 4504:2025 EN Plastics - Polyethylene (PE) - Determination of co-monomer content by solution state 13C-NMR spectrometry
- 【正版授权】 ISO 5461:2025 EN Space systems - Failure reporting,analysis and corrective action (FRACA) process requirements
- 【正版授权】 ISO 17987-3:2025 EN Road vehicles - Local Interconnect Network (LIN) - Part 3: Protocol specification
- GB 46030-2025建筑用安全玻璃安全技术要求
- 校本培训经验课件
- 校外培训机构安全知识培训课件
- 导数考试题型及答案
- 盐业局的考试试题及答案
- 北京音乐知识培训课件
- 医药耗材面试题及答案
- T-CACM 1064-2018 针刀医学临床 通.用要求
- 天津市南开区2025年数学五年级第二学期期末综合测试试题含答案
- 电气行业与市场分析
- 2025年乡村全科助理医师考试题库及答案
- 排水设施养护管理制度
- 小学植物百科知识
- 循环水地下管道安装施工方案
- 检验科生物安全风险评估报告
- 混合痔的中医个案护理
- 2023年广西现代物流集团社会招聘笔试真题
- 大数据开发工程师招聘笔试题及解答(某世界500强集团)2025年
评论
0/150
提交评论