数据挖掘试验报告_第1页
数据挖掘试验报告_第2页
数据挖掘试验报告_第3页
数据挖掘试验报告_第4页
数据挖掘试验报告_第5页
已阅读5页,还剩6页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、市场购物篮分析经济管理学院 企业管理专业 1306122427 杨欢欢、 实验背景随着社会进入信息化时代, 现代化的企业搜集了大量数据或高维数据, 包括 市场、客户、供货商、竞争对手以及未来趋势等重要信息,但是信息超载与无结 构化,使得企业决策部门无法有效利用现存的信息, 甚至使决策行为产生混乱与 误用。通过数据挖掘技术,可以从大量的数据中, 挖掘出不同的信息与知识来支 持决策,必能产生企业的竞争优势。数据挖掘和知识发现是一个涉及多学科的研究领域。 数据库技术、人工智能、 机器学习、统计学、粗糙集、模糊集、神经网络、模式识别、知识库系统、高性 能计算、数据可视化等均与数据挖掘相关。 近年来,

2、与数据库的知识发现研究领 域已经成为热点, 其中关联规则数据挖掘算法是数据挖掘中的一个很重要的课题, 它是从背后发现数据中的关联或联系。本实验主要处理描述超级市场购物篮内容(所购买的全部商品的集合)的虚 构数据,以及购买者的相关个人数据。 目的是寻找购买相似产品并且购买相似产 品的客户群特征。二、 实验目的1、掌握数据挖掘的基础知识,能够深刻理解并熟练运用 GRI 和 C5.0 规则,能 够熟练运用SPSS Clementine11.1软件进行数据分析。2、利用 GRI 和 C5.0 规则对商场客户交易数据进行分析,从中发现客户购买的 商品之间的关联关系,并进一步归纳出购买相似商品的顾客群的特

3、征 。3、理解并操作实验中数据挖掘的两个部分, 一是关联规则建模和一个显示所购 买商品关联关系的网络图;二是 C5.0 规则归纳,显示购买建立的产品组合 的顾客群具有的特征。三、 操作环境1 、系统环境: Windows XP2、软件环境: SPSS Clementine11.13、软件简介: 作为一个数据挖掘平台, Clementine 结合商业技术可以快速建立 预测性模型,进而应用到商业活动中, 帮助人们改进决策过程。 强大的数据挖掘 功能和显著的投资回报率使得 Clementine 在业界久负盛誉。同那些仅仅着重于 模型的外在表现而忽略了数据挖掘在整个业务流程中的应用价值的其它数据挖 掘

4、工具相比, Clementine 其功能强大的数据挖掘算法,使数据挖掘贯穿业务流程的始终,在缩短投资回报周期的同时极大提高了投资回报率 四、实验数据本实验所使用的数据是SPSSCIementinell.1自带的数据,名为BSAKETS1, 该数据包含18个字段,1000条记录。1、购物篮摘要:cardid (购买此篮商品 的客户的忠诚卡标识符)、Value (购物篮的总购买价格)、pmethod (购物篮的 支付方法);2、卡持有者的个人详细信息:Sex、homeown(卡持有者是否拥有 住房)、收入、age ;3、购物篮内容一产品类别的出现标志:fruitveg, freshmeat, da

5、iry, cannedveg, cannedmeat, frozenmeal, beer, wine, softdrink, fish, con fecti onery 。五、实验步骤1、新建工作流,附加数据1.1、该模型的数据存储为 BSAKETS1,首先在选择面板选择可变文件节点作为 数据读入节点,双击该结点进行编辑,加入数据存储文件。结果如图1。图12、使用一般规则归纳(GRI)大致了解购物篮内容的关系(关联)以生成关联规 则2.1、选择要在此建模过程中使用的字段,方法是:编辑“类型”节点,将所有产品类别的方向设置为双向,其他方向设置为无,如图2。其中,双向表示该字然后,连接一个“表”节

6、点,执行查看需要字,如图3。.F- 主-册ue 固: methodGl ae* 固 hoincflwn inc:.m:J J卿 固勉毗9 gjTTG圖inwH 囚曲ry 囚 carjn&dv&g 国 匸 annedimeat lU,! frorenmEal;吏看十祚既 童舀云使用口亭眾常盡删格式超凹BASKETS山英郭罔蛊::呂个京孟,1OW益记录#1图32.2、在选择面板中的建模目录中选择 GRI节点连接到到数据流中,然后对该节 点进行编辑,选择选项只显示值为真的标志变量,然后执行GRI节点。在管理器的模型栏中显示产生未精炼模型,这些规则显示冻肉、罐装蔬菜和啤酒之间存在多种关联;酒和糖果也具

7、有关联。如图 4与图5。这些规则显示冻肉、罐装 蔬菜和啤酒之间存在多种关联;酒和糖果也具有关联。aC 自iFii eoe 4rKnrnMlcannedvE ghoarcsmne drnsal frcze-mal-I T IE1 Y) W乐唧譎tt |eorrehnie atrrczemeai乩11!AJ.O丨雪文伴也心I唇肺席方式at信ist-iA froehirieat Gsnnd#gtiKH.rb&erhp nr nulMQ 阿册帕 ftr7Afirnrtal i7e shme attainnecfyegc&nnedvg ftruR- rriRRl rresniTi&st87.96B7 5

8、drtir/ccfirwdinefllhTriirfepq匚启图5结果分析:图四结果显示了购买各种商品之间的关联关系。这个表的每一行表明了购买某种商品的时候还有可能购买哪些商品,它是用关联分析中的支持度和置信度来分析的。支持度越大,说明同时被购买的可能性越大。 我们以第一行结果为例分析,支持度为3.0%,置信度为96.67,顾客在购买cannedveg时有可能会同时购freshmeat,frozenmeal,beer这三种商品,对于其它行同样用此方法分析。2.3、在“图形”中选择“网络”节点拖入到工作框,然后与“类型”节点连接。编辑“网络”节点,选择购物篮所有产品字段,选择仅显示真值,如图6。

9、图62.4执行网络节点,得到如图7所示的网络图。然后指定弱连接和强连接,单击 工具栏上的黄色双箭头按钮。这会展开显示Web输出摘要和控件的对话框。选择大小表示强/正常/弱。将弱链接设置为低于90,将强接连设置为101。结果如 图8示。图7图8在图中有三个客户群突出显示:购买鱼和果蔬,我们将该组合定义为“健康”, 购买酒和粮果,该组合定义为“小资”,购买啤酒、冻肉和罐装蔬菜,该组合定 义为“火锅”。3、C5.0规则归纳3.1、选中网络图中连接鱼和果蔬的连线,导出 “与”节点,字段命名“健康”。 如图9和图10。在真值和假值栏分别填写新字段的两种数据值,其中真值表示 当条件满足时该字段的值,假值表

10、示当条件不满足时该字段的值。c c t ic ermedv# gfruiloftdi-ink cannedjueat cannedveg confect ioneryO diry f ishO f reshme at O f roz erne alO beergoioo 120150200图9图103.2、设置字段的输入与输出。在健康节点后连接一个类型结点,通过该类型节 点来制定字段的输入或输出方向。这里我们要分析购买健康食物的顾客特征,所 以我们将健康字段的方向选项设置为输出,将顾客的个人特征设置为输入,将其 他商品设置为无。如图10TUShcoirectioneiytrcE?nmeai b

11、eercairy cannedveg cannedmaiflCSlTTCAt31AC)确叔口血用 IE亠无无无元无主无元jn trW _#标忘 -* tr 志 -!标志m tr花 :用打总 :w kr怎 j kr盂 j* k佥tv fr七, hr 忘读取值|玮就订希咼、无无无无无无无尢辆 9OQOCJG1QQOO图113.4附加C5.0节点。在选择面板中选择 C5.0拖到工作框中。将输出类型设置 为规则集,然后执行。如图12。:: C WJEV* M-I部眞- O*ri C T1 4- *5 D LJ14卄1 OU .OLPO1 LJLJUHW HnCO SQ7i臼厲 T12V PQO全god

12、1丄衣4 斗O 凸.-4-50 T2 .aonT l=S图12结果分析:图中的结果显示了 14.5%的人会选择购买健康食物,85.5%的人 不会购买健康食物。下一个分支中,按照年龄特征来划分,小于等于24岁的人中购买健康食品占40.4%,其余的59.6%的人则不会购买。年龄大于24岁的人中, 4.6%的人选择购买健康食物,95.4%的人不会购买健康食物。而在小于24岁且有 房子的人中,1.4%的人会购买健康食品,98.6%的人不会购买。年龄小于24岁且 没有房子的人中80.3%的人会选择购买健康食物,19.3%的人不会购买健康食物。 3.5、对定义的其它组合重复上述操作,然后对于火锅组合的规则

13、集执行,结果 如图12。fiIV亠Nni*=a丘乜0NC戸厂1 VO1 Lg T0工4工V厘0 T之5-Ja* MT1 C .-a Dd o-aq m-11 ?.=33CB1 TH图13结果分析:图中的结果显示了 16.7%的人会选择购买火锅组合,83.3%的人不会购买火锅组合。下一个分支中,按照收入特征来划分,收入小于等于16900元的人42.604%购买该组合,其余的57.396%的人则不会购买。收入大于16900 元的人中,3.474%的人选择购买火锅组合,96.526%的人不会购买。而在收入小于等于16900的男性中,84.242%的人会购买火锅组合,15.758%的人不会购买。 收入小于等于16900的女性中2.89%的人会购买火锅组合,97.11%的人不会购买 火锅组合。3.6、最终工作框的流程如图13示。图13六、实验总结本实验一共分为三个部分,第一部分主要是附加数据, 第二部分是通过GRI关 联规则来建模,以此来揭示购买的商品

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论