




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、欧阳科创编2021.02.05题目 大型超市"购物篮"分析时间:2021.02.05创作:欧阳科摘要本文根据顾客购买记录,通过“购物篮”分析,运用多种模型 得出结果,并给出促销方案。问题一要求构建能表达多种商品关联程度的数学模型。根据 4717个顾客对999中商品的购买记录,先用对数据进行预 处理,将其转化为0-1模型,然后求出购买丿商品的集合为和购 买k商品的集合 考虑到同时购买两种商品占购买人数的频 率,即相关性,存在购买人数少但相关性大的缺陷。在改进的模 型中,因为存在购买商品数少但也会使相关性大的情况,所以对 两种情况进行综合考虑,得出最优模型:用求解0矩阵,求出两
2、商品间关联系数较大的前八 位,有相关系数的值在0-1范围之内,与所得模型函数的范围一 致,可知,该模型是准确可靠的。问题二要求出有效方法来找出最频繁被购买的商品记录,且 越多越好。根据问题一所得0-1矩阵,将其代入运用AM" 模型,先算出单项商品的频繁项集,将支持度较小的数据剔除 后,最后选取被购买次数最多的前18个商品,其中最畅销的为 368号商品。根据这18个畅销品,运用同样方法将其转化为两 两商品的组合,得到被同时购买次数200次以上的商品;根据此 算法依次迭代,得到同时购买3种商品和同时购买4种商品的数 据,更多商品被同时购买次数较少因此不予考虑,最后得出:两 件商品被同时购
3、买次数最高的是368和529号;三件商品被同时 购买次数最高的是368、489和682 ;四件商品被同时购买次数 最高的是68、937、895和413。问题三要求给出方案使效益最大。根据问题一中01模型和 问题二中勿刃"模型,将得到的购买次数最多的商品信息和题中所 给利润表相比较,将利润小数量多的商品作为赠品和利润大数量 多的商品一同销售;将共同购买次数多且利润大的两商品组合作 为促销品进行销售,以进一步提高超市的综合效益。关键词 0模型勿刃”模型数据预处理相关系数一、问题背景和重述1.1问题背景随着信息技术的发展,通过分析大量历史数据来发现模式和 利用规律的数据挖掘技术应运而生,然
4、而大多数商家并不是数据 挖掘技术领域的专家,如何使数据挖掘技术平民化,成为当代很 多学者研究的热点之一。购物篮分析是数据挖掘技术应用在零售业中的一种有效方 式,其目的就是在顾客的购买交易中分析能够同时购买一类产品 或一组产品的可能性,利于商品的摆放,也利于提高促销活动的 效果。随着人们生活水平的提高,特别是城市,基本物质生活已 满足,人们有更高的追求并呈现多样性,从企业角度看,了解和 掌握顾客消费的特征和规律,有利于提高企业利润,同时也能提 高消费者的满意度。本文以一个面向大型超市的购物篮问题,构 建数学模型。1.2问题重述作为超市的经理,经常关心的问题是顾客的购物习惯。他们 想知道什么商品组
5、或集合顾客多半会在一次购物时同时购 买? ”。现在假设我们是某超市的市场分析员,已经掌握了该超 市近一个星期的所有顾客购买物品的清单和相应商品的价格,需 要给超市经理一个合理的“购物篮”分析报告,并提供一个促销计 划的初步方案。问题1 :题目中表格数据显示了该超市在一个星期内的4717个 顾客对999种商品的购买记录,表格中每一行代表一个顾客的购 买记录,数字代表了其购买商品的超市内部编号。建立一种数学 模型,该模型能定量表达超市中多种商品间的关联关系的密切程 度。问题2 :根据在问题1中建立的模型,寻找一种快速有效的方法 能从表格的购买记录中分析出哪些商品是最频繁被同时购买的。 超市经理希望
6、得到尽可能多的商品被频繁同时购买的信息,所以 找到的最频繁被同时购买的商品数量越多越好。例如:如果商品1、商品2、商品3在4717个购物记录中同时 出现了200次,则可以认为这三个商品同时频繁出现了200次,商 品数量是3。问题3 :题目给出了这999中商品的对应的利润,根据在问题1、问题2中建立的模型,给出一种初步的促销方案,使超市的 效益进一步增大。二、问题分析2.1问题一的分析要求构建模型定量表达超市多种商品间的关联关系的密切程 度,根据4717个顾客对999种商品的购买记录,令兀表示第,个 顾客的购买情况,当第,个顾客购物篮里有第丿个商品,州";没 有购买,则x,=0o这就把
7、复杂繁多的数据化为了简单易求的0 模型。根据购买记录,求出购买丿商品的顾客集合和购买斤商品的 顾客集合,两集合的交集(同时购买)所代表的人数与购买人数 的比值即为频率,此频率表示两商品的相关程度,考虑到购买人 数较少也会造成频率较大的情况,对模型进行改进,将同时购买 的人数与至少买一种商品的人数的比值作为相关系数,转化后的 模型仍存在缺陷,购买次数较少时也会造成系数较大但不能反映 商品相关性的问题。综上两种考虑,将两个模型结合起来,得到 最优模型,用此模型来定量表达商品间的关联关系的密切程度。 由题目可知,此模型所得结果必定大于0小于1,为验证模型的 可靠性,本文运用mgw对数据进行预处理,将
8、数据转化为0-1 矩阵后,再根据公式编程筛选出两商品相关系数较大的前八位, 由所得系数与函数大于0小于1的性质相比,若符合,则模型是 可靠的;若不符合,则再求新的定量模型。2.2问题二的分析要求我们寻找一种快速有效的方法从购买记录中找出被最频 繁购买的商品,并且被同时购买的数量越多越好。根据问题一 对数据进行的0-1矩阵处理,并在心创中对数据进行求和 以及排序处理,得到一次购买一次商品的次数最多的前18个商 品。由于数量的繁多,我们将从这18种商品中求出两件被同时 购买以及三件、四件商品被同时购买的信息。因此我们调出这18 种商品的0-1矩阵,并用编程得到两件商品同时被购买的 频数,并用勿川如
9、算法的原理提出支持度J用其来筛选得到的众 多数据,修改程序以得到三件商品、四件商品被同时购买的数 据。2.3问题三的分析对于问题三,要求根据问题一和问题的模型给出一种促销的 方案,促使效益进一步增大。首先我们定义/为超市的收益,商 品的数量为"商品的利润为。则f = no我们考虑将数据中卖 出数量多的商品且利润大的商品附赠以卖出商品数量多但是收益 较小的商品来进一步提高它们卖出的数量以获得更大的利润。而 对于那些卖出数量以及能够获得的利润都适中的商品,根据问题 二求得的两件商品被同时购买的数量将它们放在一起促销,这样 也会获得较高利润。三、模型假设1、超市货源充足最大限度满足顾客需求
10、;2、短时期内,商品的销售情况保持不变;3、每位顾客的购物行为都是理性的,真实反映当地的消费情 况;4、假设两商品同时被购买次数大于200的为高销量商品;5、假设商品收益只考虑销售所得收入,不考虑商品成本;四、符号说明和名词解释4.1符号说明第i个消费者的购物篮中的第丿种商品购买丿 中上品的人的集合f超市的收益n购买商品的人数w被购买商品的利润4.2名词解释1、布尔量:本题中所指的是购买或未购买,购买时布尔量二1, 未购买布尔量二0 ;五、模型建立与求解5.1模型的准备5.1.1问题一模型的准备由于本题是针对大型超市购物篮的问题,数据繁多,且只考 虑顾客的购买记录,即买或不买,并以此研究商品间
11、的关联程 度,因此本题先对所给数据进行预处理,将4717位顾客对999 种商品的购买转化为0-1模型,方便问题的求解。首先以兀表示 第'个消费者的某次购物行为,如果在消费者的购物篮中发现了 第丿种商品,则有切=】,否则®(同时心表示第,个消费者购买 第斤种商品)。5.2问题一模型的建立与求解5.2.1模型的建立本题消费者购买只有两种情况,即购买或不购买,因此可以 用到模型。为表达超市中多种商品间的密切关联程度,本题建立了定量 模型。首先,用忑来描述第,个消费者的购物情况,列“表示第, 个消费者购买了第丿个商品,反之,州=o表示未购买。因为是根据顾客对商品的购买记录来求解,因此
12、本文对购买 某种商品的顾客进行分类,设购买丿的人的集合为厂 购买&的人 的集合为彖,则SjCSk表不同时购买丿商品和&商品的顾客。由此可 将两种商品的相关联程度表示为:此公式表示同时购买两种商品的频率,频率越高,相关性越 大,但若购买人数少,也会导致频率值较大,显然这样的表达不 能准确反映两商品间的关联程度,因此对此模型还应进一步改 进。对购买人数”进行改进,考虑到有顾客在两种商品中至少购 买一种的情况,将"化为巧5则两种商品的相关联程度转化 为:此公式表示两种商品都买的情况占至少购买一种情况的比 值,即频率,也能反映两商品间的关联程度,但其同第一个公式 类似,存在购
13、买商品次数少但导致频率较大,而不能反映两商品 相关性的缺陷,因此,综合两种情况,得到最优模型:表示两商品的相关性,若卩较大,剔除购买次数较小的情 况,即可反映当消费者购买一种商品时,对另一种商品的购买可 能性很大,两种商品的关联相关性密切。522模型的求解对上述模型进行具体求解,其中卜“和表示同时购买丿商品和 &商品的人数,公式为:血5订表示两种商品中至少购买一种商品的人数,其具体公式 为:|耳'町小于购买人数,同时小于至少购买一种商品的人数, 所以P小与lo将题目中所给数据运用进行预处理,将其转化为0 矩阵,由于数据过多,则将所得矩阵放在附录中,详见附录1。根据所得关联函数公
14、式,用编程求出两商品间关联系 数较大的前八位,如下图所示:表两商品间的相关系数两个商品|相关系数22839813237170.93748097437870.81820544856370.8127685559590.75496375328480.7230635844390.71727444769730.7047645从图中可知,228和398两种商品的关联相关性最密切。同 时有相关系数的值在0范围之内,与所得模型函数的范围一 致,可知,该模型是准确可靠的。5.3问题二模型的建立与求解分析最频繁被同时购买的商品,且越多越好。首先我们要找 出单独一项商品被购买的频数,根据频数较高的单项商品集,通 过
15、筛选得出两种商品被同时购买的频数,以此类推,层层迭代, 找出多种商品被同时购买的频数。勿刃"算法使用频繁项集的先验 性质,通过逐层搜索的迭代方法,先扫描数据库,再累积每个项 的计数,并收集满足最小支持度的项,找出频繁项集的集合,直 到所求条件。因此本文运用算法,对此题作出分析并求出最 佳结果。其具体算法过程如下:此算法体现出若4是一个频繁项集,则A的每一个子集都是一 个频繁项集。首先我们提出支持度S的概念,支持度是D中包含A 和3的事务数与总的事务数的比值。可以利用支持度的大小来筛 选数据。设厶是同时购买"项商品的人员集合。先从999中商品中找 出单项频繁项集厶,根据项频繁
16、项集厶,找出下一频繁项集即 厶 并算出其中的支持度,将支持度较小的元素删除,最终得到 纟吉果。5.3.1对单项商品的购买要给出尽可能多的商品被同时购买的信息,由所给购买记 录,可以先由简单的单项商品开始,求出它们的被购买次数。根据问题一所得预处理后附件1中的购买记录,详见附录 1,用丛站对单项商品购买次数进行求和。由于题目只要求给出频繁被购买的商品,频数较少的予以剔除,因此经过排序后得到 购买次数最多的前十八个数据如下:表 前18个被购买次数最多的商品商品号被购买次数3681338829110352910895109604199432179354898864388519568417668309
17、14825682819692814851798205782720758722757883744从表中我们可以看出368号商品被购买次数最多,851商品 被购买次数相对较少,但这18种商品都可以作为最频繁购买的商品被经理采用,来研究商品购物篮问题。5.3.2同时对两项商品的购买上述18个单项商品被同时购买的次数较为频繁,说明这18 项商品最为畅销,以这18项商品为一个频繁项集,根据勿刃"算 法,构建0矩阵,对每一个商品都可以用一个布尔量来表示是 否被购买,由于18种商品两两组合数据较多,且我们只需要被 同时购买较频繁的商品,本文以200次作为两商品同时被购买的 频数界限,大于200次,
18、则表示两商品同时被购买的次数频繁。找出这18个商品的矩阵,由于矩阵数量较大,这里不 予详细列出,并用心"对数据进行编程筛选,筛选可以得到两商 品被同时购买的200以上次数的数据:表:两件商品被同时购买的次数表商品序号次数21736829121741921036841926936843822236848629136851026043848921641951020043851020221752924236852933441952920243852924448952921336868228948968222036869226152969225736876621621782921736882
19、9313419829237489829206510829212529829255682829201692829241766829204217914203368914259217956202368956211489956219根据以上表格,可以看出,368、529两商品被同时购买的次数最多,两商品可以作为最畅销品放在一起出售。533同时对三项商品的购买根据两件商品被同时购买的程序,修改出三件商品被同时购 买的程序,筛选求得次数大于110的三种商品被同时购买的次数如下表所不:表:三件商品被同时购买表次数商品序号36848968212495653841312253841379711595653879
20、7114956413797114956413572114956413826112956538826111956797826111956797572111有上表可知,368、489、682三件商品被同时购买的次数最 多,956、797、572被同时购买的次数相对较少,但每组商品被 购买次数都大于100次,可看出这几种商品组合销量较好。5.3.4同时对四项商品的购买同时,我们也可以修改出四件商品被同时购买的程序,继续 筛选出次数较大的前五位表格如下所示表:四件商品被同时购买表商品序号次数36893789541372529682883724836882952969247529438470752474
21、8943875235447从上述表格中得出结论如下:1、两件商品被同时购买的频数最高的是368和529,总共被购 买了 313次;2、三件商品被同时购买的频数最高的是368、489和682,总共 被购买了 124次;3、四件商品被同时购买的频数最高的是368、937、895和413,总共被购买了 72次。从不同商品同时被购买次数可以知道,随着商品种类的增 多,被同时购买次数逐渐减少,四种商品以后同时购买次数绝大 数小于47,频数较少,因此不再详细讨论。从以上研究可以看出 勿方”能够运用层层递进的迭代算法,快速将大型超市繁多的购物 记录简化,从而找出多种商品同时被频繁购买的信息,给销售经理简单明
22、了的顾客购物记录。5.4问题三模型的建立与求解5.4.1模型的建立超市的效益有很大程度上体现在超市的总的收益上,因此用 /表示超市最终收益,设商品的数量为,商品的利润为则:对于商品数量要求高且利润大的商品,我们可以通过附赠以 数量要求高且利润小的商品;对于数量要求和利润要求都中等的 商品,可以考虑同时购买两种频率较高的商品,将两者放在一起 搞促。5.4.2考虑赠品的关系般将销售量较好且利润较大的商品作为主要销售种类,对 于那些数量需求多且利润较小的商品,将其作为主销售品的赠 品,既能促进主商品的销售,又能带动小商品的销售,从而最大 程度的提高超市利润,而且在提高企业的服务效益的同时,大大 满足
23、了顾客的需求,提高了顾客满意度。将题目所给利润表和在第二问求得的数量表放在一起考虑, 利润大且数量多的商品(这里取单买数量排名前十位的,利润大 于270的商品)为:表利润大且数量多的商品商品号利润w数量幵f368290.011338388033.4529285.041089310408.6417297.02943280089.9438274.78851233837.8692272.52814221831.3851297.02798237022从表中可得到368号商品总利润最大,其次为529号和417 号商品,可以看出以这些商品为主要销售品,并将其集中摆放在 比较显眼的位置,方便顾客找到自己所需
24、商品,也为超市留出更 大的空间。表利润小但数量多的商品商品号利润数量2175.20089354895.200888668224.349819利润小但数量多的商品,相对于其他商品来说,它们总的利 润可能较小,但可以看出顾客对其的需求却相当大。将其作为赠 品促进其他商品的销售,虽然是放弃了这部分商品的利润,但它 所带动商品的销售份额所得利润远高于它们分别销售所得利润。 利润大数量多的商品因为能带来更大将数量要求以及利润要求, 所以考虑从其中提取出商品以及他们的赠品,可得到如下表表商品及赠品商品赠品368217529489417682从表中我们可以看出,将368、529、417商品作为主要销售 的商
25、品,将217、489、682商品分别作为赠品,既可以提高主要 商品的销售量,又可以吸引顾客,从长远看,此销售方式对总效 益提高有极大帮助,同时我们建议将这三组商品摆放在显眼的位 置,更方便顾客的购买。5.4. 2再考虑促销的关系由问题一可知,同时购买某种商品频数相同可知该种商品同 另一商品相关性较大,在实际销售中,将两种关联性大的商品放 在一块儿,有利于提高商品销售量,从而提高综合效益。在第二 问中,我们得到两种商品同时被购买的次数,利用第二问求出的 数据,找出被同时购买次数较多的商品,并去掉上述已促销的商 品,其余的如下表所示:表两商品同时购买利润及次数商品号利润商品序号利润共购买次数419
26、297.0251099.994200438274.7851099.994202419297.02829188.7323751099.994829188.73212692272.52829188.7324176699.994829188.73204购买次数多并不一定收益高,若要求出能使综合收益达到最 大的商品组合,需要根据上表算出两商品组合后总利润最大的情 况。在考虑利润和共购买次数的情况下,可以放一起促销以便提 咼最大效益的是:表同时促销的两商品组合促销商品商品419829692829从表中可以看出,419和829两种商品,692和829两种商 品被同时购买次数最多且利润最大,将这两种商品组合
27、作为促销 方案,既满足了顾客对两商品的需求,又在销售一种商品的同 时,带动了另一商品的销售。所以建议将419、829两商品放在 一起销售,将692、829两种商品放在一起销售。六、模型检验6.1问题一的检验要求出商品间的关联密切程度,根据题目做出模型:为验证模型的准确可靠性,本文用做出0矩阵后, 求出相关系数较大的前八种,由相关系数的值都与模型函数的值 大于0小于1的性质相符合,可知模型是可靠的。七、模型评价和改进7.1模型的评价7.1.1模型的优点1、0-1模型将复杂繁多的数据简单化,便于问题求解;2、多种定量模型相互比较,找出最能反映商品关联程度的模 型,有利于我们选择更好的方案;3、如沏
28、算法从众多数据中分析出符合要求的数据,并进一步深化,层层迭代,使问题简单化,得出合理结论。7.1.2模型的缺点1、如沏算法会产生大量候选及候选集,导致算法的效率较低;2、没有考虑成本对总效益的影响。7.2模型的改进第二问中,使用只购买一件商品的18个数据,相对于给出 的数据,虽具有代表性,但是结果没有那么准确。如果使用数据 超过18个,将会使后面的数据趋于多项化,这样一来数据便更 加准确,给出的建议也会更加的合理。八、模型推广0-1模型具有广泛的应用背景,比如经济管理中的实际问题 的解必须满足逻辑条件和顺序要求等一些特殊的约束条件,此时 往往需要引出0J变量来表达“是”与“非”。此外,线路设计
29、,工 厂选址,生产计划安排,旅行购物、背包问题、人员安排等人们 所关心的诸多问题都可以化为0模型求解。正是由于0-1模型 具有深刻的背景和广泛的应用,所以研究它的算法具有十分重要 的意义。A”"模型使用逐层搜索的迭代方法,该算法理解简单,计算 容易,且是能够对多种规则进行挖掘。在电力企业决策应用中, 将勿川”模型的数据挖掘技术应用于企业管理决策,通过深入挖掘 形成企业管理决策库,真正在企业管理过程中,特别是在更复杂 的经营环境中提供强大的决策支持。九、参考文献1 薛红聂规划,基于关联规则分析的“购物篮分析”模型的研究,北京工商大学学报,2008-7-18 ;2 孙细明龚成芳,关联规则在购物篮分析中的应用,计算机与 数字工程,2008.06.20 ;高勇,购物篮里的“潜规则”商界(评论),2009.3.15 ;4谭浩强,C程序设计(第三版),北京:清华大学出版社, 2005 o附录附录1(1) 0-1 矩阵:A=textread('C:UsersAdministratorDesktopdata.txt,);B=zeros(4718,999);for i=l:4718forj=l:73if A(ij)>0B(
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 《行路难(其一)》教学设计
- 《电子元件封装技术》课件
- 中草药有效成分的提取与结构鉴定课件
- 《优化客户沟通技巧》课件
- 安全培训个人总结
- 航空事故处理考核试卷
- 小草的课件教学课件
- 2025年煤炭采掘机械设备合作协议书
- 《T教育讲座》课件
- 运维安全问题
- 2025年中考理化生实验操作考试考务培训大纲
- 2021年高考地理试卷(全国甲卷)(空白卷)
- 2025年重庆西南大学附中高考数学模拟试卷试题(含答案详解)
- 2025四川巴中市国有资本运营集团有限公司招聘17人笔试参考题库附带答案详解
- 二年级古诗词大赛选择题
- 七年级期中考试后家长会课件39820
- 剑9阅读真题原文1-William-Henry-Perkin
- 最新氧气安全标签
- 1100集装箱船体建造工艺指导书
- 橡塑保温材料检验报告模板
- 液压基本回路及典型液压系统.ppt
评论
0/150
提交评论