




已阅读5页,还剩1页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于Apriori算法的超市商品销售数据的关联规则分析郑印(华中师范大学 计算机学院, 湖北 武汉 430079)Apriori association rules algorithm based supermarket merchandise sales dataZhengyin(Computer College, Central China Normal University, Hubei 430079, China)摘要:Apriori算法广泛应用于商业中,应用于消费市场价格分析中,它能够很快的求出各种产品之间的价格关系和它们之间的影响。尤其是在超市零售业中的应用更是广泛,通过对销售数据记录的分析,挖掘出商品的关联规则,有利于提高超市零售业的销售利率,增强其市场竞争力。关键词:关联规则;Apriori算法;销售利率Abstract:Apriori algorithm is widely used in business and prices analysis of consumer market , it can quickly determine the impact of prices relationships between the various products. Especially using in supermarket retailing is even more widespread, through the analysis of sales data of record, the association rule mining commodities, help to improve the supermarket retail sales rates, and enhance their market competitiveness. Key words:Association rules; Apriori algorithm; sales rate1.研究背景超市零售业是数据挖掘应用较为活跃的一个领域。了解客户的购买习性和趋势,对于零售商制订销售策略是至关重要的。通过关联规则的挖掘,分析客户对商品的需求状况,发现顾客的潜在需求特征,有目的性的开展广告和销售业务。通过对顾客的忠诚度分析,相应调整商品的价格和类型,改进销售服务,有利于保持现有客户,寻找潜在的客户,扩大销售的范围和规模,从而增加销售量。通过分析销售的数据记录,目前主要应用于销售预测、库存需求、零售点选择和价格分析,分析客户的购买行为和习惯,分析商场的销售商品的构成,使商品的选择与搭配更为科学。因此,对超市经营信息、数据的整理、挖掘,从中得出对经营有用的信息,增强超市的竞争能力,已经成为各家超市企业面临的一个紧迫课题,同时,Apriori算法作为关联规则挖掘的重要算法,也被各个企业所运用。2.关联规则的基本概念设 I = i 1 ,i 2 , , i m 是项的集合。设任务相关的数据 D 是数据库事务的集合,其中每个事务 T 是项的集合。每一个事务有一个标识符,称作 TID。设 A 是一个项集,事务 T 包含 A 当且仅当 AT 。关联规则是形如 AB 的蕴涵式, 其中AI ,BI ,并且 A B = 。关联分析中还包括两个重要的参数, 支持度(min_sup) 和置信度(min_conf)。具体定义如下:支持度:support(AB) = P(A B),即 A 和 B 这两个项集在事务集 D 中同时出现的概率。置信度:confidence(AB) = P(B | A) ,即在出现项集 A 的事务集 D 中, 项集 B 也同时出现的概率。同时满足最小支持度(min_sup)和最小置信度(min_conf)的规则称作强规则。项的集合称为项集(itemset), 包含 k 个项的项集称为 k 项集。项集的出现频率是包含项集的事务数, 简称为项集的频率、 支持计数或计数。如果项集的出现频率大于或等于最小支持度,则称为频繁项集频繁 k 项集的集合通常记作 Lk 。3.Apriori算法分析关联规则(Association Rules) 的挖掘是数据挖掘中的一个重要问题。我们采用的是相关性分析的方法,采用的是Apriori算法。Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。其核心是基于两阶段频集思想的递推算法。该关联规则在分类上属于单维、单层、布尔关联规则。在这里,所有支持度大于最小支持度的项集称为频繁项集,简称频集。该算法的基本思想是:首先找出所有的频集,这些项集出现的频繁性至少和预定义的最小支持度一样。然后由频集产生强关联规则,这些规则必须满足最小支持度和最小可信度。然后使用第1步找到的频集产生期望的规则,产生只包含集合的项的所有规则,其中每一条规则的右部只有一项,这里采用的是中规则的定义。一旦这些规则被生成,那么只有那些大于用户给定的最小可信度的规则才被留下来。为了生成所有频集,使用了递推的方法。Apriori算法采用连接步和剪枝步两种方式来找出所有的频繁项集。1)连接步为找出Lk(所有的频繁k项集的集合),通过将Lk-1(所有的频繁k-1项集的集合)与自身连接产生候选k项集的集合。候选集合记作Ck。设l1和l2是Lk-1中的成员。记lij表示li中的第j项。假设Apriori算法对事务或项集中的项按字典次序排序,即对于(k-1)项集li,li1li2.lik-1。将Lk-1与自身连接,如果(l11=l21)&( l12=l22)&.& (l1k-2=l2k-2)&(l1k-1鸡肉; : 1.0牛奶;-鸡肉; : 1.0衣服;-鸡肉; : 1.0牛肉;-奶酪; : 0.75牛奶;-衣服; : 0.75牛奶;-衣服;鸡肉; : 0.75牛奶;牛肉;-鸡肉; : 1.0奶酪;鸡肉;-牛肉; : 1.0衣服;-牛奶; : 1.0牛肉;-鸡肉; : 0.75牛奶;鸡肉;-衣服; : 0.75鸡肉;-牛奶; : 0.8衣服;鸡肉;-牛奶; : 1.0衣服;-牛奶;鸡肉; : 1.0奶酪;-牛肉; : 0.75f)结果分析从上面我们可以看到事务集中的所有频繁项集,如牛奶;衣服; : 3;牛肉;鸡肉; : 3;奶酪;鸡肉; : 2;牛奶;衣服;鸡肉; : 3等,他们的支持度都大于2。在这些频繁集中,牛奶,衣服可以和鸡肉建立关联规则,因为他们的信任度大于所设定的最小信任度,如上面所示还有很多频繁项集可建立关联规则。与此同时,我们还可以看出顾客的消费习惯和那些商品顾客会同时购买,超市应该根据上面的分析结果来进购商品和安排商品的摆放位置。拿鸡肉的例子简单分析下,很多顾客购买鸡肉,因为鸡肉的支持度达到了5,远远的高于设定的支持度,同时发现很多顾客在购买鸡肉的同时还购买了牛奶,所以超市应该把鸡肉和牛奶放到一起,方便顾客的购买。参考文献1陈文伟. 数据仓库与数据挖掘 . 北京: 人民邮电出版社, 20042康晓东. 数据仓库的数据挖掘技术
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 【教案版】小学五班级上册 小篮球
- XX市CIM基础信息平台数字工程应用项目建设要求
- 2025年环境工程原理与技术模拟题
- 前滚翻教学课件
- 2025年特岗教师招聘小学全科考试复习策略及预测题实战演练
- 2025年高级产品经理面试实战模拟题与答案全攻略
- 2025年电子商务初级实操面试模拟题集专区
- 2025年初级客户经理应聘指南及面试模拟题解答
- 初中地理片段教学课件
- 2025年人力资源经理招聘面试实战模拟题及参考答案
- 2024标准版安全生产责任制培训记录
- 《如何治理小金库》课件
- 协及医院老年综合评估表格
- 精选青少版新概念1B-unit1课件
- 高二英语词汇表(含音标、分单元)
- b737培训课件49-6章apu滑油本是针对飞机737CL机型级的概述
- 邮政储汇业务员高级技师理论知识试卷5套(完整版)
- 英语四级词汇大全
- 压力性尿失禁
- SB/T 10029-2012新鲜蔬菜分类与代码
- 居家适老化改造需求评估表
评论
0/150
提交评论