版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、I关联规则分析报告2009 年 7 月 8 日目录一前言. 1 1二数据预处理.1 1三前 77107710 条真实数据分析 .2 21 商品按小类分析 .22 商品按中类分析 .43 商品按大类分析 .44 分析上匕较.5四后 4490444904 条随机数据分析 .5 51 商品按小类分析 .52 商品按中类分析 .73 商品按大类分析 .84 分析比较.8五5261452614 条混合数据分析 .8 81 商品按小类分析 .82 商品按中类分析 .113 商品按大类分析 .114 分析比较.12六总结.12121一前言使用关联规则挖掘算法分析购物清单时,会产生不止“啤酒 r 尿布”的单一
2、关联规则,而将出现涉及多种商品的“纵横交错”的多条关联规则。针对这一实际问题,本文利用学生日常购物记录数据进行关联分析,通过概念分层从不同粒度上分析商品之间的关联性,从而找到商品之间的关联规则,实现优化超市货物摆放次序的目的。二数据预处理1)在 SQL server 2000 查询分析器里执行下面的SQL 语句declare sql varchar(8000)set sql = select zid ,xhselect sql = sql + , max(case goodsid when + goodsid + then goodsid end) + n+ goodsid+ from (se
3、lect distinct goodsid from rcxfjl) as aset sql = sql + into table_a from rcxfjl group by zid,xhexec(sql)2)在 PB 里将有购买记录的列改为”yes”for i=1 to dw_1.rowcount()for li_index=1 to long(dw_1.object.datawindow.column.count)if integer(dw_1.getitemstring(i,dw_1.describe(# + string(li_index)+.name)0 thendw_1.seti
4、tem(i,dw_1.describe(# + string(li_index) +.name),yes)end ifnextnext3)将处理好的数据直接导出到Excel 中4)将 Excel 表中的空格替换成”?”(在 weka 中?表示缺省值)2三前7710条真实数据分析1商品按小类分析1.1 商品规范化中类商品再分小类对挖掘没有太大意义,故都将其看作一类;对于学生来说,家庭用品也没有太大意义,将其删除掉。数据预处理过程如下:统一商品名:表 1 1 统一商品商品类名原来编 P处理后编勺饮料02020010001罐头八宝粥03001030010001冲调食品03002030020001奶粉
5、03003030030001营养保健03004030040001冲泡包面粉04001040010001罐头食品04002040020001南北干货04004040040001冷藏冷冻食品05001050010001冰制品05002050020001外购面包05003050030001个人清洁用品07002070020001头饰首饰07003070030001纸类用品07004070040001书报10001100010001纸品10002100020001文具10003100030001礼品10004100040001内衣110011100100013睡衣11002110020001鞋类110
6、031100300014女装11004110040001男装11005110050001帽子11006110060001商品类名编勺处理方式烟酒02004删除厨房调料04003删除蔬菜06001删除家禽类06003删除肉类06004删除家用清洁用品07001删除百货家居类08删除百货综合类12删除表 2 2 删除的商品Minimum support: 0.04 , Minimum metric : 0.4 , 结果如下,Best rules found:1. N030010001=yes 127 = N020010001=yes 71conf:(0.56)2. N010010002=yes 1
7、48 = N020010001=yes 66conf:(0.45)3. N010010001=yes 180 = N020010001=yes 79conf:(0.44)4. N010010002=yes 148 = N010010001=yes 63conf:(0.43)5. N040010001=yes 233 = N020010001=yes 99conf:(0.42)注:N030010001 :罐头 八宝粥,020010001 :饮料,N010010002 :小面包,N010010001 :蛋糕,040010001 :冲泡包面粉从关联结果可知,买罐头 八宝粥又买饮料关联性最强,其次是小
8、面包、蛋糕、冲泡包面粉。在日常生活购物中,我们买了罐头、面包后再买饮料或牛奶的概率极大,关联结果比较符合事实。1.2 商品筛选筛选出商品的购买次数 25 的商品然后进行关联分析,结果如下56Minimum support: 0.035, Minimum metric : 0.3 , 结果如下,Best rules found:1. N010010005=yes 120 = N010010001=yes 53conf:(0.44)2. N010010005=yes 120 = N010010002=yes 53conf:(0.44)3. N010010002=yes 148 = N0100100
9、01=yes 63conf:(0.43)4. N010010002=yes 148 = N010010005=yes 53conf:(0.36)5. N010010001=yes 180 = N010010002=yes 63conf:(0.35)注:N010010005:绿豆糕,N010010001 :蛋糕,N010010002 :小面包从关联结果可知,买绿豆糕又买蛋糕关联性最强,其次是小面包,关联结果也比较符合事实。2商品按中类分析由于总共才有 1535 个事务,故将算法参数支持度和置信度设置较低,Minimum support:0.04 , Minimum metric : 0.2。结果
10、如下,Best rules found:1. N01002=yes 136 = N01001=yes 77conf:(0.57)2. N02002=yes 161 = N01001=yes 83conf:(0.52)3. N03001=yes 127 = N01001=yes 65conf:(0.51)4. N02001=yes 226 = N01001=yes 104conf:(0.46)5. N04001=yes 233 = N01001=yes 85conf:(0.36)6. N01003=yes 176 = N01001=yes 62conf:(0.35)7. N02001=yes 2
11、26 = N04001=yes 67conf:(0.3)8. N04001=yes 233 = N02001=yes 67conf:(0.29)9. N01001=yes 494 = N02001=yes 104conf:(0.21)从结果可知,买糖果 巧克力又买饼干 糕点的概率最大,乳品饮料与饼干糕点、罐头八宝粥与饼干糕点、碳酸饮料与饼干 糕点概率次之。3商品按大类分析Minimum support: 0.04, Minimum metric : 0.4 , 结果如下,Best rules found:1. N02=yes N04=yes 103 = N01=yes 69conf:(0.67
12、)782. N03=yes N02=yes 93 = N01=yes 61conf:(0.66)3. N01=yes N04=yes 106 = N02=yes 69conf:(0.65)4. N03=yes N01=yes 97 = N02=yes 61conf:(0.63)5. N02=yes 436 = N01=yes 238conf:(0.55)6. N03=yes 197 = N01=yes 97conf:(0.49)7. N03=yes 197 = N02=yes 93conf:(0.47)从结果可知买食品酒饮类、食品粮油类与买食品休闲类关联性最大。注:N01 是“食品休闲类”,N
13、02 是“食品 酒饮类”,N03 是“食品 冲调类”,N04 是“食品粮油类”。4分析比较从上面中类和大类分析可知,食品之间的关联性最大,其实这也是显而易见的,顾客买了罐头八宝粥后会买饼干 糕点等食品,再买饮料的概率也很大,而实际中超市几乎都是这 样安排商品的,大多食品都放在一起饮料放在旁边,这样方便顾客购买,增加销售。四后44904条随机数据分析1商品按小类分析1.1 商品规范化统一商品名:表 3 3 统一商品商品类名原来编勺处理后编亏饮料02020010001罐头八宝粥03001030010001冲调食品03002030020001奶粉03003030030001营养保健030040300
14、40001冲泡包面粉04001040010001罐头食品04002040020001南北干货040040400400019冷藏冷冻食品05001050010001冰制品05002050020001外购面包05003050030001个人清洁用品07002070020001头饰首饰07003070030001纸类用品07004070040001书报10001100010001纸品10002100020001文具10003100030001礼品10004100040001内衣11001110010001睡衣11002110020001鞋类11003110030001女装11004110040001
15、男装11005110050001帽子11006110060001表 4 4 删除的商品商品类名编勺处理方式烟酒02004删除厨房调料04003删除蔬菜06001删除家禽类06003删除肉类06004删除家用清洁用品07001删除百货家居类08删除百货综合类12删除Minimum support: 0.04 , Minimum metric : 0.3 , 结果如下,10Best rules found:1. N030010001=yes 127= N020010001=yes71conf:(0.56)2. N010010002=yes 148= N020010001=yes66conf:(0.
16、45)3. N010010001=yes 180= N020010001=yes79conf:(0.44)4. N010010002=yes 148= N010010001=yes63conf:(0.43)5. N040010001=yes 233= N020010001=yes99conf:(0.42)6. N010010001=yes 180= N010010002=yes63conf:(0.35)注:N030010001 :罐头 八宝粥,020010001 :饮料,N010010002 :小面包, 蛋糕,040010001 :冲泡包面 粉,N010010005从关联结果可知,买罐头八宝粥
17、又买饮料关联性最强,其次是小面包与饮料这样的结果,原因可能是我选取后面的44904 条数据不完全都是随机生成的。1.2 商品筛选筛选出商品的购买次数 190 的商品然后进行关联分析,结果如下Minimum support: 0.01, Minimum metric : 0.1 , 结果如下,Best rules found:1. N040010003=yes 252= N040010002=yes59conf:(0.23)2. N010010002=yes 290= N010010001=yes65conf:(0.22)3. N040010002=yes 282= N040010003=yes
18、59conf:(0.21)4. N010010001=yes 313= N010010002=yes65conf:(0.21)注:N040010003:热干面,N040010002 :酱拌面, 小面包从关联结果可知,买热干面又买酱拌面关联性最强,其次是小面包与蛋糕 和置信度均较低。2商品按中类分析Minimum support: 0.15 , Minimum metric : 0.5 , 结果如下Best rules found:1. N10003=yes 1335= N08006=yes793conf:(0.59)2. N10006=yes 1260= N08006=yes744conf:(
19、0.59)3. N08005=yes 1159= N08006=yes680conf:(0.59)4. N08003=yes1163= N08006=yes 682conf:(0.59)N010010001 :蛋糕,N010010001:,至于得出N010010002:,但其支持度115. N02001=yes1186 = N08006=yes 693conf:(0.58)6. N01002=yes1281= N08006=yes 747conf:(0.58)7. N07001=yes1207 = N08006=yes 701conf:(0.58)8. N06002=yes1288 = N08
20、006=yes 747conf:(0.58)9. N01001=yes1383 = N08006=yes 787conf:(0.57)10. N07002=yes 2172 = N08006=yes 1231conf:(0.57)11. N01003=yes 2106 = N08006=yes 1189conf:(0.56)12. N01001=yes 1383 = N07002=yes 707conf:(0.51)从结果可知,工具(N08006)与其他商品关联性较强,但是仔细分析数据库中的数据 会发现中类“工具”下包括的商品种类是最多的,用随机数生成数据时“工具“中类的商品 会明显多于其他中
21、类的商品,所以用中类划分随机数进行关联分析不科学。3商品按大类分析Minimum support: 0.5 , Minimum metric : 0.8 , 结果如下Best rules found:1. N10=yes 3170= N08=yes 2753conf:(0.87)2. N01=yes 3368= N08=yes 2920conf:(0.87)3. N07=yes 3244= N08=yes 2811conf:(0.87)4. N02=yes 2800= N08=yes 2418conf:(0.86)从结果可知,用大类划分随机数进行关联分析也存在上述问题。4分析比较从上面中类和大
22、类分析可知,不管用大类还是用中类划分随机数进行关联分析都会存在划分不平均的问题。而用处理后的小类商品分析得出买热干面又买酱拌面概率最大。五52614条混合数据分析1商品按小类分析1.1 商品规范化统一商品名:12表 5 5 统一商品商品类名原来编 P处理后编 p饮料02020010001罐头八宝粥03001030010001冲调食品03002030020001奶粉03003030030001营养保健03004030040001冲泡包面粉04001040010001罐头食品04002040020001南北干货04004040040001冷藏冷冻食品05001050010001冰制品0500205
23、0020001外购面包05003050030001个人清洁用品07002070020001头饰首饰07003070030001纸类用品07004070040001书报10001100010001纸品10002100020001文具10003100030001礼品10004100040001内衣11001110010001睡衣11002110020001鞋类11003110030001女装11004110040001男装11005110050001商品类名编亏处理方式商品类名编号处理方式表 6 6 删除的商品13帽子11006110060001烟酒02004删除厨房调料04003删除蔬菜0600
24、1删除家禽类06003删除肉类06004删除家用清洁用品07001删除百货家居类08删除百货综合类12删除Minimum support: 0.08 , Minimum metric : 0.5 , 结果如下,Best rules found:1. N070030002=yes 2267 = N020010001=yes 1272conf:(0.56)2. N100030001=yes 1407 = N020010001=yes 789conf:(0.56)3. N030020001=yes 1015 = N020010001=yes 565conf:(0.56)4. N040010001=y
25、es 944 = N020010001=yes 522conf:(0.55)5. N070030003=yes 906 = N020010001=yes 489conf:(0.54)6. N030020001=yes 1015 = N070030002=yes 509conf:(0.5)注:N070030002 :头绳,020010001 :饮料,N100030001 :果冻,N030020001 :蜂蜜,040010001 :冲泡包面 粉,N070030003 :发卡从关联结果可知,买头绳又买饮料关联性最强,其次是果冻、蜂蜜和冲泡包面粉,另-个有趣的是发卡果冻关联性较大。1.2 商品筛选筛选
26、出商品的购买次数 190 的商品然后进行关联分析,结果如下Minimum support: 0.01, Minimum metric : 0.2 , 结果如下,Best rules found:1. N040010003=yes 252 = N040010002=yes 59conf:(0.23)2. N010010002=yes 290 = N010010001=yes 65conf:(0.22)3. N040010002=yes 282 = N040010003=yes 59conf:(0.21)4. N010010001=yes 313 = N010010002=yes 65conf:(
27、0.21)14注:N040010003:热干面,N040010002 :酱拌面,N010010001 :蛋糕,N010010002 :小面包从关联结果可知,买热干面又买酱拌面关联性最强,其次是小面包与蛋糕,但其支持度和置信度均较低。2商品按中类分析Minimum support: 0.1 , Minimum metric : 0.5 , 结果如下Best rules found:1. N10006=yes 1299= N08006=yes 755conf:(0.58)2. N10003=yes 1407= N08006=yes 815conf:(0.58)3. N08005=yes 1196= N08006=yes 691conf:(0.58)4. N08003=yes 1223= N08006=yes 703conf:(0.57)5. N04003=yes 1070= N08006=yes 608conf:(0.57)6. N01003=yes N07002=yes 107
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年清洁能源行业绿色能源在建筑领域的应用展望报告
- 2025年道路运输企业安全生产应急物资清单考核试卷
- 2025年金融衍生品风险管控(中小企业商品衍生品应用门槛风险)考核试卷
- 2025年智能传感器网络攻击防护考核试卷
- 2025年哈尔滨松北区审计局、松北区机关服务中心招聘编外聘用人员4人考试笔试备考试题及答案解析
- 2025安徽六安市金寨县消防救援局政府专职消防员招聘10人考试笔试备考题库及答案解析
- 2025年湖北农商行新员工社会招录笔试考试备考题库及答案解析
- 合江县卫生健康局2025年下半年公开招聘卫生医疗机构编外工作人员考试笔试模拟试题及答案解析
- 2025广西自然资源职业技术学院下半年招聘工作人员150人考试笔试备考题库及答案解析
- 2025年湖南吉利汽车职业技术学院招聘考试笔试备考题库及答案解析
- 学校考核物业表格
- 二年级数学《乘加乘减》集体备课活动记录
- 2024年广东省政工师理论知识考试参考题库(含答案)
- 蜜雪冰城是如何实现成本领先的
- 电子商务公司薪资体系
- 幼儿教资(综合素质)及答案
- 列车电子防滑器-电子防滑器原理
- 钣金加工过程作业指导书
- 电子元器件标示及实物对照
- 耕地合法永久转让协议书
- 芜湖仅一机械有限公司年产500万套汽车零部件及通讯设备压轴件生产线项目(承诺制项目)环境影响报告表
评论
0/150
提交评论