SPSS关联模型步骤_第1页
SPSS关联模型步骤_第2页
SPSS关联模型步骤_第3页
SPSS关联模型步骤_第4页
SPSS关联模型步骤_第5页
免费预览已结束,剩余14页可下载查看

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、SPSS Cleme ntines 预测分析模型啤酒+尿片故事的实现机理(使用11版本实现)SPSS Cle nmen ti nes 提供众多的预测模型,这使得它们可以应用在多种商业领域中: 如超市商品如何摆放可以提高销量;分析商场营销的打折方案,以制定新的更为有效的方案;保险公司分析以往的理赔案例,以推出新的保险品种等等,具有很强的商业价值。超市典型案例如何摆放超市的商品引导消费者购物从而提高销量,这对大型连锁超市来说是一个现实的营销问题。关联规则模型自它诞生之时为此类问题提供了一种科学的解决方法。该模型利用数据挖掘的技术,在海量数据中依据该模型的独特算法发现数据内在的规律性联系,进而提供具

2、有洞察力的分析解决方案。通过一则超市销售商品的案例,利用“关联规则模型”,来分析商品交易流水数据,以其发现合理的商品摆放规则,来帮助提高销量。关联规则简介关联规则的定义关联规则表示不同数据项目在同一事件中出现的相关性,就是从大量数据中挖掘出关联规则。有关数据挖掘关联规则的具体理论依据这里不做详细讲解,大家可以参看韩家炜的数据挖掘概论。为了更直观的理解关联规则,我们首先来看下面的场景。一个市场分析人员经常要考虑这样一个问题:哪些商品是频繁被顾客同时购买的?顾客1 :牛奶+面包+谷类顾客2 :牛奶+面包+糖+鸡蛋顾客3 :牛奶+面包+黄油顾客4 :糖+鸡蛋以上的情景类似于当年沃尔玛做的市场调查:啤

3、酒+尿片摆放在同一个货架上,销售业绩激 增的著名关联规则应用。市场分析员分析顾客购买商品的场景,顾客购买面包同时也会购买牛奶的购物模式就可用以 下的关联规则来描述: 面包=> 牛奶支持度=2%,置信度=60%(式1)式1中面包是规则前项(Antecedent ),牛奶是规则后项(Consequent)。实例数(Instances )表示所有购买记录中包含面包的记录的数量。支持度(Support)表示购买面包的记录数占所有的购买记录数的百分比。规则支持度(Rule SuppOrt)表示同时购买面包和牛奶的记录数占所有的购买记录数的百分比。置信度(con fide nee)表示同时购买面包和

4、牛奶的记录数占购买面包记录数的百分比。1的规则才是有意义提升(Lift)表示置信度与已知购买牛奶的百分比的比值,提升大于的。关联规则 式1的支持度2%意味着,所分析的记录中的 2%购买了面包。置信度60% 表明,购买面包的顾客中的60%也购买了牛奶。如果关联满足最小支持度阈值和最小置信度阈值,就说关联规则是有意义的。这些阈值可以由用户或领域专家设定。就顾客购物而言,就找到顾客根据以往的购买记录,找出满足最小支持度阈值和最小置信度阈值的关联规则,经常同时购买的商品。此处进行关联规则应用可以使用两种数据格式:1,交易数据格式,2,表格格式。1bread1.交易格式ITEMCustomerlD2ja

5、mjuicejammilk2.表格格式CustomerlDbreadjamjuicemilk关联规则挖掘算法Aprior、Carma和序列节点是常用的关联规则挖掘算法,它们都可以使用交易格式和表格格式数据进行挖掘处理。其中Aprior算法,处理速度快,对包含的规则数没有限制,是种最有影响的挖掘关联规则的方法。本次试验将使用 SP SS Cleme ntin e11自带的安装目录下的Demos 文件夹下的BASKETS1 n数据。希望分析出哪些商品会和啤酒一起购买,以此来合理安排商品的摆放, 进而提高啤酒的销量。此数据属于表格格式数据,每条记录表示顾客的一次购物。记录的字段包括卡号、顾客基本 信

6、息、付款方式和商品名称(每个商品一个字段 ,该商品字段值为 T,表示购买该商品,值 为F表示未购买,具体可参考表 2,表格格式数据)。商品名称都有fruitveg (水果蔬菜),freshmeat (生鲜肉), dairy (奶制品), cannedveg(罐装蔬菜), cannedmeat(罐装肉),foze nmeal(冻肉),beer (啤酒),wine (酒类),softdrink (软饮),fish(鱼),confectionery(甜食)。1谏 i r CLempdIxiik 13.* I0叵翌1衣忡凹和低)卯曾工KB 幫节臨嘗 幽荊首先打开Clementine,会出现一张空白的流

7、界面,这时用户可以在里面创建自己的流。12 J I.J屯弓專令“ * * -1芟 ffl去包具CRISP-Dri 聲 A Ah闿侖窃會 M<411C9 由 肖射 ItJk穿*H iwn 冲利如h0Xh040 UftT 职kizikr第一步,为流添加一个数据节点,这里选择Cleme nti ne 自带的 Demo 数据。将界面下中选择Clementine自带的 Demo 数据BASKETS1 n,如图所示。方选项卡的“数据源”选项中的“可变文件”拖放到空白界面中,双击打开,在文件选项卡也£ 4943 SSiC 收.ttOM «1X* atKf x" t已kR

8、i脈縮傀幡*驀霍価'褊无国用«. *s*«均严iJaimr今師号超M肓3创闍mii|$*IWffiH:HMii 林" itiwrffWH* 14*1w*費卄窪e腐片黑-JtH m 过雀运e寸1ISP &M .£ aQllftEK亠 laWfK 一' a-HtB亶厦理 临*0轴Em啊叩町点击确定按钮,这时就成功的创建了数据节点。第二步,为流添加类型节点,类型节点是显示和设置数据每个字段的类型、格式和角色。从界面下方的“字段选项”卡中,将“类型”节点拖放到界面中,接着将数据节点和类型节点连接起来,或者直接在“字段选项”卡中双击“类型”

9、节点,将两者连接起来。这时双击打开“类型”节点,此时“类型”节点中显示了数据的字段和其类型,点击“类型”节点界面上的“读取值”按钮,这时会将数据节点中的数据读取过来。如下图所示。:LI- EM14 凳朋V F IR幷 I Q ipfl'k * 抽 前 ClmwrthT.” ICpK>lB&;fcT9Ecr Cl-L Il K- fHilAxl fe<R _ bniwK l tc fefT_ fW *% rr«i-*Hidl. < i r. iJd4耳.亡 rvtecahn»L(IX1J3. owe. b 壮 7rw. « j.r.

10、 T. r.>.烫 r. n t卢irHl.34 tH).已IfS.MHtiL 杆.KV.*.*鼻 L 卩“|N卞 寿 mn.CfiUK.PQ ISTJK HlRT- * T. *.T.T F. T. ffsnroDTTJSs七* 'p ,-盲丄.1 * * 二皂 >Sftt «4<r>a® Ef I*£D flP?S® 嘗口腔 BtttCD._ <4> rrtc)E5j "莎勒 <ik> 刮 firn Ek 口 屋E” 划 rnrrwn< J.iJ|OT* O Jfl* igia&

11、#171;鼻wijzc ,C»EyCA就孙0liuJCC.M辆 h h讥sub密 IfKUR*一凸一R& ffis tnJu_*« JiCiWf帖4卡|«隔0 &总曲 * itQH舞M局国©® ©管樹輕国&V亡A*41 4W r*4L larB”tt«IT i -h I f U4Wt"KSF P* * iK(»/忖B接着可以为参与建模的数据字段设置角色, 角色分“输入”,“目标”,“两者”和“无”。输入表示该字段可供建模使用,目标表示该字段为建模的预测目标,两者表示该字段为布尔型的

12、输入字段,无表示该字段不参与建模。Ap riori节点需要一个或多个输入字段和一个或多个目标字段,输入字段和输出字段必须是符号型字段。在此可以选择一个或多个字段为目标字段,表明该模型的预测目标字段;对于 Ap riori建模节点,也可以不设置目标字段,则需要在建模节点中设置“后项”。第三步,为流添加 过滤节点,将不参与的字段排除在外。该步骤为可选步骤。从“字段选项”卡中选择“过滤”节点,并将其拖入到界面中,将“过滤”节点加入到流中。双击打开“过滤”节点,在不参与建模字段的箭头上点击,会出现一个红叉,表示该字段被过滤掉了,不参与建模,如图所示。© f f 旳E卞*1=sr灯tfAiSC

13、曲HE 肿袖皿 sate再刃 网殆痂7-1'3irrtd叫! dlTKK -K *還'I岳1圖腫i mr 严 一仔ftwE-JifTeeAr Teire-。心宙塞、科te輕'五”低 niiiffa .柚确tMU idjirvHA血iJmia 禺可IflT 時 riLMg;chlFf:Q RhaJ标志”,将只显示那些“两者”的字段,如图所示。对于一些与建模关系不大的节点可以将其过滤掉,比如卡号、性别、家乡和年龄字段。在此之前,第四步,有了这些前期的准备过程, 接下来就可以开始创建关联规则模型节点了,让我们先添加一个图形节点网络节点,建立此节点的目的是为了让用户首先可以直观

14、的看到商品之间的关联程度,有一个感性认识。选择“图形”选项卡中的“网络”节点,将此拖入界面,将“网络”节点加入流中,与“过滤”节点连接起来。双击打开网络节点,在“字段”列表中选择添加字段,可以将所有的商品字段添加进来;也可以点击“仅显示真值艾e杳DLKW11® Edo 血F氛M :,当咕O “"电, E <B注比戯4Obnmher* ;+金» rt lEAWtf選>ff应自n詛拙>忘画-WWTitx 血“0Ampxcmtinm.0Crt*(n hwii «说哥聊冊:专駅聲,®F&殴询*ita出- - - - - - -

15、 II_ I a - ! - - ” 一 - - .bmcnchrOT®i «Ms 任人® moo 2Mt “e® VQOW wwaf伺ffwuiUTSiinia竺曲rUM站;豪空I叫m” *«丸也iix臭ftUX«WI-睡«C炖AE««#啊和'卫細S)刊*脈啊Boffi a» _ *a 空騙斫 !M右 1 It邓ii-k411 »fn忑U倆'J«Sl£D点击“运行”按钮,这时会生成一个商品之间关联程度(链接数量)的网络图,用户可以在RB樽anB #

16、 丄置F 4«>,/他孑AAii占葺«j«t茹五S 输i 4»仃!f二口辛捷理ftBJ|钉*&"(5裤点击“选项”卡,进入选项设置,用户可以在此设置链接数量的显示范围,不显示一些链接*直图臺2 *tS K£ O匸蚤功atiQ 11 EUHcj知 ”* + H jiRjfl W 姬 4 瞬数量低的链接,如图所示。F方的调节杆上调节链接数量的显示范围。艮m H字農:纶对值怖网络as辛1 Sil视B輻网绪養樨!亡 orif 色 ctionGydaircannedrneatfisbserrrurtveg = T, canned

17、veg = T (Bfi|r&shmeatwinefnjit vegO beerO dairy fruitvegIIBiHI cannedmfaatOfishO softdrink' cannedvsg confectionery fresfimeat Ofroenmeal* wine_B j r 1 !:O20eo so -1001201401601902t)0 ;确定(5上图中,线的粗细和深浅代表联系的强弱,可以直观的看到beer 禾R frozenmeatcann edeg 联系程度比较强。第五步,添加“建模”节点到流中,开始关联规则模型设置和使用的篇章。首先点击界面下方

18、“建模”选项卡,再点击Apriori ,节点拖放到界面中,连接该节点到过滤节点上,或者双击Apriori节点。接着设置 Apriori节点的参数,建立关联规则模型。 双击打开 Apriori 节点,如下图所示。SWtlllAS IM J*CD «na(S 酣世'KkM亡J 3 厨岳o g m広 V电CfeniMvie注的商品设置在“前项”列表中,如下图所示。j * Mfi(&a*:齣;宣 髓 vnnrJIp叶却H聲Wl该“字段”选项卡,是设置参与建模的字段和目标字段的,可以看到其中包括两个选项,“使用类型节点设置”和“使用定制设置”,这里将为用户分别呈现两种选项的使用

19、方法。这里无论选择哪个选项,都需要将市场分析员重点关注的商品包括在其中,其他商品可以不包括。) dD ABtElcElEniSa3H 尊Ifc 枷t密 ftiERQb «'« 判荊SMIA WWOK ' 如果用户选择“使用定制设置”选项,则需要将啤酒设置在“后项”列表中,将其他重点关F 岖"-1IK L L 1二匕汶1!封 itkUD lieRM 工砲 5 占切尚 BtBJM)tOvnoiiirSAFTEInJ©nifa 册dW阿 *T« 翻倒 ilWH卵 M理KAI雯o备®矽嗨二竜94W予 cwt 4H和“"

20、; b剖*1恥 «> W" 竝0-卜蓟总応'M邛/£f9tSl 西IH_ _ _n*弄 *4 十4b G产“ 甲才 3;曬学討需 丁4碰耳 » 5*士 nVMmu审 IHUB这里,分区允许您使用指定字段将数据分割为几个不同的样本,分别用于模型构建过程中的训练、测试和验证阶段。如果设置了 “分区”,除了在此选择分区字段外,还需要在“模型”选项卡中,勾上“使用分区数据”的选择框。关于“分区”的概念、作用和使用方法,本文不做详细介绍。除此,“使用事务处理格式”选择框,是针对于事务性数据的,如果数据为交易格式,需要勾上此选择框,但本示例的数据为表格

21、格式,故无需选择。设置好了字段后,点击“模型”选项卡,进入模型设置。如下图所示。aaq畐 a、叭曲”电 厂MIT函 i? <-无* A,ir*F'fCbntmmr®含團删EgSflM °0:命厦袖刿?WK耳 hlEmm貝 r n IF J 、 il dud s 谄證一c 单*玄mas »ii»iS»<ST I « Tl.wsct * Bvrio> 购Q倉奇#巒觀唱CifcLj用户可以在“模型名称”处为本模型设置一个名字,如果想使用分区功能,则需要勾上“使用分区数据”选项。用户为规则模型设置一个最低条件支持度,

22、那么模型将从所有规则中选择那些为真,并且其对应的记录的百分比大于此值的规则。如果您获得的规则适用于非常小的数据子集,、圭 p_L请尝试增加此设置。接着,用户需要为模型设置一个最小规则置信度,表明正确预测的百分比。置信度低于指定标准的规则将被放弃。如果您获得的规则太多,请尝试增加此设置。如果您获得的规则太少(甚至根本无法获得规则),请尝试降低此设置。用户还可以为任何规则指定“最大前项数”。这是一种用来限制规则复杂性的方式。如果规则太复杂或者太具体,请尝试降低此设置。对于“仅包含标志变量的真值” 选项,如果对于表格格式的数据选择了此选项,则在生成的规则中只会出现真值。这样使得规则更容易理解。该选项

23、不适用于事务格式的数据。成一个“模型”节点,该节点里包含了模型运行结果。整个运行后的流图,如下图所示。为了提高建模性能,设置了“优化”选项供用户选择。选择“速度”可指示算法从不使用磁 盘溢出,以便提高性能。选择“内存”可指示算法在合适的时候,以牺牲某些速度为代价使 用磁盘溢出。接下来,进入“专家”选项卡,对于一般用户,则选择“简单”选项;而对于高级用户,则 可以通过此页面进行微调,如下图所示。却回««£> a删过2*®联|3(BOW «阿Kai 爭* 日 * * * , £ * 卑 A 5 凯EA£任tSI nva n

24、s««胡iroffli #怛豳 i 費樹 j学 了、日r、口營辺wv vy匸二HM «iruvtti r-tjp »tHV "f 陌U»e.«'*r- *W r*h * in*-绘*d4a BA 虽匚 _ - -,I ''>IE4HEU #sn 再* 希& I此时,我们已经创建好了关联规则模型的整个流,点击工具栏的绿色箭头, 运行该流,会生> Jil*riF”口 “屮姻血Hi£按辺 幅也 li'E血 血 m也0珂M吞揭 rihf*质复*7 B孑氏亀ita y和A-3- - F1= -_r= -T =-1側轴询 =wa*i«! "la曜 a niiib .-"BHI£1:F站炉呵胡 Lil阴HI ' "UJB砂叠93瞿B囤風iS團画回囤團

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论