




已阅读5页,还剩10页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据挖掘报告滨江学院数据挖掘实验报告题 目: 超市商品摆放位置挖掘报告 院 系: 计算机系 专 业: 软件工程 班 级: 软件1班 小组成员: 刘鹏 黄杰飞 吴思维 王悦 陆青凤 学 号: 20102344013 20102344009 20102344024 20102344021 20102344014 指导教师: 周北平 日期:2013 年 6月 16日一、引言随着计算机技术的应用和普及,各行业中数据的采集、存储能力大大增强,而对数据的处理和分析能力相对不足。传统的数据库方法虽然可以高效地实现数据的录入、修改、统计和查询功能,但却无法发现数据中隐藏的信息,人们今天所能获取和存储的数据已远远超过了对其处理和分析能力,这就造成了所谓的“数据坟墓”,大量的数据被采集和存储后,闲置下来,无人问津。数据总量的不断增加,迫切需要有效的分析工具,它能自动、智能和快速地发现大量数据间隐藏的依赖关系并从大量数据中抽取有用的信息或知识。以人工智能、统计学等为基础的数据挖掘技术就是为了迎合这种需要而出现的,为现代信息处理提供了一种新的方法和研究领域。在展开本文立论前,有必要对本文研究范围内的核心方面(数据挖掘的研究动态与发展趋势)作出说明,以便综合与分析。数据挖掘(DataMining),就是从大量的、不完全的、有噪声的、模糊的、随机的数据库中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。当前,数据挖掘知识发现的研究方兴未艾,数据挖掘研究人员、系统合应用开发人员所面临的主要问题是高效而有效的数据挖掘方法和系统的开发,交互和集成的数据挖掘环境的建立,以及如何应用挖掘技术解决大型应用问题。研究的焦点可能会聚集在以下几方面:(1)数据挖掘语言的形式化描述:研究专门用于知识发现的数据挖掘语言,以期形式化和标准化;(2)可视化数据挖掘:是从大量数据中发现知识的有效途径,使得数据挖掘过程可以被用户理解,方便进行人机交互;(3)多媒体数据挖掘:是指从大量的文本数据、图形数据、视频图像数据、音频数据乃至综合多媒体数据的开采中,通过分析语义和视听特征,发现其中隐含的、有价值的模式,处理的对象是非结构化的数据,有别于传统的数据挖掘对象;(4)Web数据挖掘:主要是利用数据挖掘技术从Intranet/Internet中自动发现并提取有用信息的过程,其数据最大特点在于半结构化。因此Web数据挖掘重点集中在开发新的Web挖掘技术以及对Web文档进行预测处理以得到关于文档的特征表示;(5)数据挖掘中的隐私与信息安全:是指需要进一步开发有关方法,以便在适当的信息访问和数据挖掘中确保隐私保护与安全。二、设计正文 1.本文工作内容本文的目标是运用数据挖掘的理论和方法,通过研究分析数据仓库,建立一个与ERP集成的以销售为核心的超市决策支持系统,以提高企业商业决策能力。本文的研究重点有以下几个方面:(1)对数据挖掘的研究现状进行了分析,探讨了数据挖掘的基本原理与体系结构,并对数据仓库进行了研究,使得建立超市决策支持系统成为可能;(2)以超市数据仓库中的数据为原始数据,运用维度建模的方法建立了系统的信息模型,并且对数据进行分析;(3)建立超市决策支持原型系统,并在此系统的基础上,对原型系统进行了实例数据挖掘应用,并把结果进行了可视化转化,最后向企业决策人员提交了挖掘结果。2.数据挖掘的概况 2.1数据挖掘的概念数据挖掘主要是从大量的、有噪声的、模糊的、随机的数据中提取人们感兴趣的知识。这些知识是隐含的、事先未知的、潜在有用的信息,提取的知识表现为概念、规则、规律、模式等形式。数据挖掘是知识发现的重要技术,它并不是用规范的数据库查询语言(如:SQL语言)进行查询,而是对查询的内容进行模式的总结和内在规律的搜索。传统的查询和报表处理只是得到事件发生的结果,并没有深入研究发生的原因,而数据挖掘则主要了解发生的原因,并且以一定的置信度对未来进行预测,用来为决策行为提供有利的支持。 2.2 数据挖掘的任务数据挖掘的任务是对数据库中的大量数据进行抽取、转换、分析和其他模型化处理,并从中提取辅助决策的关键性数据。数据挖掘的任务主要有以下几方面:(1)自动预测趋势和行为:自动寻找预测性信息,直接由数据本身得出结论。(2)聚类分析。按相似性归纳分类,同类数据彼此相似,不同类数据相异。(3)关联分析。目的是找出数据库中隐藏的关联,以支持度和可信度来度量。(4)分类。用于规则描述和预测。(5)时序模式。通过时间序列搜索出的重复发生概率较高的模式。(6)偏差分析。寻找观察结果与参照之间的差别。2.3 数据挖掘的基本原理在利用数据挖掘技术进行决策分析时,一般遵循的步骤包含以下几个方面:在进行数据挖掘工作前,要清楚地知道数据挖掘的目标。事先明确挖掘的业务目标,确定达到目标的评价方法,这将大大减少挖掘工作的难度和工作量。选择数据,这些数据可能是数据仓库或数据集市,也可能是各个联机事务处理系统中的数据。数据预处理,一般包括消除噪声、推导计算缺值数据、消除重复记录、完成数据类型转换、对数据降维等。数据变换,从初始特征中找出真正有用的特征,以减少数据挖掘需考虑的特征或变量个数。数据挖掘,首先需要确定数据挖掘的目标和挖掘的知识类型;在确定挖掘任务后,根据挖掘的知识类型选择合适的挖掘算法;最后实施数据挖掘操作,运用选定的挖掘算法从数据库中抽取所需的知识。整个数据挖掘过程是不断地循环和反复的,因而可以对所挖掘出来的知识不断求精和深化,最终达到用户所满意的结果。3.系统的分析与建模 3.1 现状调研与分析随着我国超级市场的不断普及,我国的超市企业面临竞争的严峻考验。沃尔玛、家乐福等一些国际著名的零售企业抢滩中国,使中国超市面临着国际化的竞争,中国的商业零售市场竞争日益激烈。国内零售公司迫切需要通过各种手段提高竞争力。在这种情况下,超市从上到下迫切需要更科学、更全面细致、更快速准确的经营管理要求。因此,能否对数据进行灵敏、快速的分析,有针对性地制定政策,适时根据市场需求排放货物,显得越来越重要。把握市场动向,提包销售利润是商场、超市的最终目标。在企业管理日趋科学化的今天,如何准确及时的进行生产经营决策是商场、超市面临的严峻问题。这要求决策者准确及时的捕捉到销售信息,分析销售情况,随时根究历史的销售情况,对下一步的生产经营进行科学决策。销售分析需要的基础数据涉及到的模块有销售、库存、财务和人事,能够围绕销售趋势、产品需求趋势等辅助决策信息。 3.2 数据理解3.2.1数据的特点超市的数据挖掘因其数据来源与类型的不同,其做法也稍有不同。一些超市,其顾客多数持有会员卡或优惠卡,比如沃尔玛在北京的连锁店。这种情况下,超市的数据仓库记载了最为丰富的信息,它不仅可以提供顾客分层层面上的购物偏好等信息,甚至可以了解到每位顾客的购物习惯;而有些超市,其顾客多数为匿名消费,他们没有会员卡之类可跟个人记录相联的工具,而且多数是现金消费,超市很难把握每位顾客的消费习惯。但这一类数据在累计层面上,依然可以为商场提供很多有用信息。在销售历史数据中,我们常常会发现代表同一概念的属性在不同的数据库含有不同的名字,这将会导致不一致和冗余,而含有大量不一致和冗余数据会降低数据挖掘过程的性能或使之陷入混乱。并且数据源中常不可避免地存在着不完整、不一致、不精确和重复的数据,这些数据统称为“脏数据”。脏数据能使挖掘过程陷入混乱,导致不可靠的输出。将数据集成与变换、清洗将减少或避免这种情况,提高数据挖掘的精度与速度。3.2.2 数据的描述数据描述是对收集的数据进行描述。一般数据描述由资料数据和行为数据组成,用来描述各个事务的基本特征,并为超市决策系统模型的分析和建立提供数据源。现描述的数据为商品的信息、会员信息、退货信息、销售的状态信息。Merchandise(商品)表说明字段类型长度备注序号SequenceNumberint4标识列商品编码MerchandiseNumbervarchar20例:食品类别:SP000001条型码TreatyCodevarchar20例:tx321SP000001类别编号SortNumberchar10外键商品名称MerchandiseNamevarchar50零售价(元)RetailPricemoney8计量单位Unitsvarchar20供应商号ProductManufacturerVarchar20进货价PurchasePricemoney8保质期(天)CheckTermnumeric9允许空备注Remarkvarchar50允许空MerchandiseType(商品类别)表说明字段:类型:长度:备注:序号SortIDint4标识列类别编号SortNumberchar10例:食品类:SP0001类别名SortNamevarchar20Customer(用户)表说明:字段:类型:长度:备注:用户号CustomerIDvarchar20主键用户名称CustomerNamevarchar20用户等级UserGradevarchar20家庭地址AddressVarchar50性别SixVarchar10文化程度WenhuaVarchar20用户积分GradeVarchar10BackSale(退货)表说明:字段:类型:长度:备注退货单编号BackSale_IDvarchar10主键退货日期BackDatevarchar50商品条形码Product_IDvarchar50主键,外键(参照PRODUCT表)数量Numbernumeric9进货价格Pricevarchar8商品名称ProductNamevarchar20货品生产厂家ProductManufacturervarchar50(退货人)普通客户CommonClientvarchar10(退货人)会员VIP_IDvarchar10(退货人)超市SuperMarketvarchar50退货原因Reasonvarcha250(销售)表销售编号Sale_IDvarchar10主键,外键(参照SALE表)商品编号(条形码)Product_IDvarchar10主键,外键(参照PRODUCT表销售日期SaleDatevarchar50商品数量Numbernumeric9商品单价Priceint4折扣Discountint4会员卡号VIP_IDvarchar10收银员编号Shroffvarchar10普通客户CommonClientvarchar10商品名称ProductNamevarchar50商品类别ProductSortvarchar503.2.3 超市决策系统应解决的问题超市销售是超市决策系统的的重中之重,销售的情况直接影响到超市能否正常的运营。采用正确的销售策略是企业不容忽视的问题,通过良好的超市决策可以将超市的商品管理、库存管理、人员管理以及顾客管理良好的结合在一起,以便为良好的销售服务。在超市销售过程中,决策部门借助于决策系统应该解决以下问题:(1)顾客聚类分析:根据顾客的性别、地理分布、文化程度、种族等对顾客做聚类分析,使超市能够有针对性的营销。(2)顾客忠诚度分析:根据持续时间、交易数量、地理分布等因素考虑分析。(3)商品摆放情况分析:根据顾客购买商品的关联规则,分析商品的最佳摆放位置。(4)销售员绩效分析:通过对销售情况汇总,及时了解销售员的工作负荷、服务质量,合理安排销售任务,保证销售工作的顺利进行。(5)商品退货情况分析:查询商品的退货情况,按照时段、顾客、商品供应商情况,分析产生原因。(6)销售趋势预测分析:按地区、组织、顾客类型、供应商类型、销售员、销售方式、时段和商品进行分析,查询以往商品的销售数据,得出未来的销售趋势,从而采取正确的销售方式。4. 决策支持系统的设计与实现4.1 超市决策支持系统的设计基于数据挖掘的超市决策支持系统的主要功能功能设计包括商品管理方面、顾客管理方面、销售管理方面的设计。4.1.1商品管理通过对数据仓库中多次购买记录的分析,应用商品的关联分析模型,发现不同商品被一起 购买的关系,当若干中商品被同时购买超过一定频数时,可以确定这些商品之间具有一定的相关性,以此为依据可以对商品的捆绑销售、位置摆放提供信息支持。对同一品类的不同商品的销售额、利润率、顾客感兴趣程度进行分析,依据商品品类管理目标模型和品类淘汰模型,可以得出不同商品对于实现利润最大化的重要程度,对一个品类内的商品进行末位淘汰,优化商品的品类结构。利用数据仓库中关于商品的库存信息以及商品的销售额、销售利润、库存成本、定货成本、定货提前期等数据,结合商品进货和库存管理模型,可以确定商品的最佳定货批量,节约商品的进货、库存管理成本。4.1.2顾客管理结合超级市场的会员制度,数据仓库收集了大量的顾客信息和顾客购买记录,依据超市自身需求,首先确定顾客细分变量,结合顾客细分模型,对顾客进行聚类分析。在聚类分析的基础上,可以归纳出每类顾客的主要特征,可以将这些特征作为分类标准对新客户进行分类。通过对顾客的聚类、分类分析,我们能够对顾客进行精细管理,从而使我们更好的为顾客提供相适应的服务。4.1.3销售管理能够对超级市场促销活动的时间、业绩、商品搭配等进行分析,得出促销活动的重要影响因素,对促销活动的效果进行评价,指导超市企业促销活动的开展。结合数据仓库中老客户的商品购买记录,分析各个顾客的潜在消费需求,协助超市进行针对性的商品推荐。对超市数据仓库中各种商品的销售数据进行系统的统计分析,协助超市进行销售数据的整理、分析、储存。4.2模块设计超市决策支持系统的主要功能模块包括信息查询、预警提示、联机分析处理、决策支持和系统管理五大模块。该模块流程图:库存缺料查询信息查询基本数据查询业务数据查询库存主题分析处理销售主题分析处理顾客主题分析处理商品主题分析处理应付款到期查询采购订单查询联机分析处理超市决策系统预警提示顾客消费评估商品销售预测库存预测决策支持系统管理系统权限管理数据仓库管理 超市决策系统功能模块图5建立顾客细分模型5.1顾客细分概述 顾客细分,即根据客户不同的特征对市场进行簇的划分,使得属于同一簇的客户具有某种相似的特征。在超级市场中,不同的顾客之间具有很大的差异,对超市来说也具有不同的价值。对超级市场来说,对不同的顾客按照相应的标准进行划分,对于优化超级市场的相关策略、增强超市的竞争能力、使超市更好的管理客户等等都是非常有益的。针对不同的顾客群体制定不同的差异化策略,增加顾客的忠诚度、刺激顾客购买、增加超市盈利,从而使超级市场更好的管理客户。5.2顾客细分方法及依据顾客细分是按照一定的规则把一定的顾客划分为不同的顾客群。通过顾客细分,企业可以更好地识别不同的顾客群体,采取差异化的营销策略,从而有效地降低成本,同时获得更强、更有利可图的市场渗透。现有的研究依据传统的市场细分理论进行了有益的探讨,例如采用人口统计学变量(如年龄、性别、收入、教育背景和职业等),或者顾客购买行为特征变量(如顾客购买量、购买频率和忠诚度等),亦或是顾客价值变量。但是,由于这些细分方法的提出是基于不同的研究目的和视角,尚不能满足顾客关系管理对于顾客细分更全面、细致的要求。顾客细分的方法有很多,顾客细分没有唯一的方法,一个超市要想尽量好的描述、把握客户,应该尝试不同的细分变量,独立变量和联合变量都要考虑。顾客细分依据顾客细分依据举例人口统计特点年龄、性别、收入、职业、社会、地位地理因素特点国内国际市场、地区经济发展水平、居住小区级别家庭生命周期特点个人所处家庭生命周期的阶段购买者的个人特点资产状况、个性、风险偏好、生活方式5.3 顾客细分模型的应用及研究顾客细分模型以数据仓库为基础,能够进行充分的应用,从而为超市的经营决策提供支持。而K-平均算法是一种广泛的聚类分析算法,此算法已经在第二章讲过,所以我们在这里直接用K-平均算法对顾客进行细分。根据上述所讲的顾客细分方法及模型,我们通过聚类分析中的K-平均算法对一家超市的顾客进行了聚类分析我们可以从下面的分析表中发现该超市顾客的一些特点。聚类分析结果类型客户数人数金额计算价值黄金客户1760.00030.5111.60价值客户776150.132662.0960.20一般客户2881460.834037.2023.89低值客户193680.03310.204.31文章也对分出的每一类客户特点做了关联分析,发现如下特点:黄金客户都是大集团客户,如机场、政府、大学等,不但订了很多份报纸还有许多其它商品的配送业务,与公司能保持比较长时间的业务关系。价值客户多是一些较小的公费用户,或是综合市场等多个单客户组成的联合体,还有一些收入高,生活优越的中产阶级。普通用户大多是一些私费订户,长期稳定地订购公司的产品与服务。低值客户多是一些订购时间短,续订积极性不高的用户,多是一些年轻人,为了生活方便临时订购。这个挖掘结果不但发现了有意义的知识,得到了决策者和业务人员的认可,而且也体现了经济学中的20%-80%规律,即少数客户创造大部分的客户生涯价值。5.4商品关联分析5.4.1原始数据采集从超市中选取具有潜在销售关系的一系列产品,设产品销售集合为 D。 D=洗发水A 、浴衣B 、香皂C 、润肤霜 D、洗衣粉E (1)选取超市一段时间内在商品集合 D 中购买商品的记录进行分析,首先我们对其进行预处理,将购买数量简化为 1 或 0,其中 1 代表购买,0 代表没有购买。预处理后的销售记录如表。销售数据处理后顾客洗发水A浴衣B香皂C润肤霜D洗衣粉E00111100002111100031110000411100005111010061110000711100 00811100 009111000101110001111100012011000130110001401111015011000160000001700110018010100190001002000001销售记录模块的文件(.arff):relation supermarketattribute customer numericattribute xfs numericattribute yuyi numericattribute xz numericattribute rfs numericattribute xif numericdata001,1,1,1,0,0002,1,1,1,1,0003,1,1,1,0,0004,1,1,1,0,0005,1,1,1,0,1006,1,1,1,0,0007,1,1,1,0,0008,1,1,1,0,0009,1,1,1,0,0010,1,1,1,0,0011,1,1,1,0,0012,0,1,1,0,0013,0,1,1,0,0014,0,1,1,1,1015,0,1,1,0,0016,0,0,0,0,0017,0,0,1,1,0018,0,1,0,1,0019,0,0,0,1,0020,0,0,0,0,1(2)我们对商品进行销售关联分析首先计算各个项目集的支持度:商品的支持度=包含商品的事务数量/全部事务数量;项集 X 的支持度 support(X)描述了项集 X 的重要性;经过计算,结果如表所示。项目集的支持度项目集支持度项目集支持度项目集支持度A55%BC75%ACD5%B80%BD15%ACE5%C80%BE10%BCD10%D25%CD15%BCE10%E15%CE10%BDE5%AB55%DE5%CDE5%AC55%ABC55%ABCD5%AD5%ABD5%ABCE5%AE5%ABE5%(3)设定最小支持度为50%,进一步计算置信度:( Lk 为k-频繁项目集, X m-1为Lk 的非空子集)。经过计算,结果如表所示。 项目集的支持度L kX m-1置信度LkXm-1置信度ABA100%ABCA100%AB
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 菜地出让协议书
- 电表增容协议书
- 遗体防腐协议书
- 木地板仓库承包协议书
- 职务期权协议书
- 股东还债协议书
- 合作种植斑斓叶协议书
- 维护路产协议书
- 电力资产分界点协议书
- 职工集资协议书
- 8 推翻帝制 民族觉醒 说课稿 -2023-2024学年道德与法治五年级下册统编版
- 丽声北极星分级绘本第二级下-
- 变电站数字孪生框架构建与关键技术研究
- 2025-2030年中国报废汽车回收行业市场十三五发展规划及投资战略研究报告新版
- DIP支付下的病案首页填写
- 两癌防治知识培训
- 《思想政治教育方法论》考研(第3版)郑永廷配套考试题库及答案【含名校真题、典型题】
- 肩袖损伤的治疗与护理
- 【MOOC】创业基础-浙江科技学院 中国大学慕课MOOC答案
- 物理-2025年中考终极押题猜想(广州专用)(原卷版)
- 江苏省苏州市(2024年-2025年小学五年级语文)统编版期末考试(下学期)试卷及答案
评论
0/150
提交评论