银行客户案例_第1页
银行客户案例_第2页
银行客户案例_第3页
银行客户案例_第4页
银行客户案例_第5页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、银行客户案例分析案例背景和问题:某商业银行试图通过对个人客户购买本银行金融产品的数据进行分析,从而发现交叉销 售的机会。数据集说明:该银行采集了 7991个客户的产品(或服务)购买记录,共32000行,数据集名称为BANK。变量说明:ACCT:客户标识SERVICE:购买的产品或服务VISIT:购买时间NameModelRoleMeasurement LevelDfscriptionACCTIDNominalAccojnt NvimberSERVICETargelNominalType of ServiceVISITSequence Ordinal Order of Product Pincl

2、iase数据集每一行代表这个顾客拥有的一种产品,一个顾客可能有多个行。平均每个顾客拥 有的产品数是3种。数据集中的13种产品和服务缩写如下所示:ATM自动取款机AUTO自动贷款CCRD信用卡CKCRD支票/贷记卡CKING支票账户HMEQLC家居股本信贷IRA个人退休账户MTG抵押CD存款保证PLOAN个人消费信贷SVG储蓄账户TRUST个人信托账户MMDA货币市场存款实验要求和总体步骤:对BANK数据集进行关联分析和频繁序列分析。确定数据源设置变量角色确定支持度、置信度阈值,进行关联分析查看和筛选关联分析结果设置变量角色,进行频繁序列分析分析评价频繁购买序列操作步骤准备工作:在D盘建立文件夹

3、:BANK启动SAS,建立逻辑库DATA指向D:BANK打开企业挖掘机关联分析:1.建立一个新的挖掘项目BANK,保存在D:BANK目录下,第一个DIAGRAM命名 为ASSO C。并在右边的工作区中加入“ input data source”节点。,2. 打开Input Data Source node (数据输入节点)。3.在数据库中选择BANK数据集。选择Variables (变量)栏。将ACCT设为id (身份),SERVICE设为target (目标),将VISIT设为sequence (序 列)。关闭Input Data Source node (数据输入节点),保存对它的更改。工

4、作区中新增Association node节点,并与Input Data Source节点进行连接。如下 图所示:然后 打开Association node (关联节点)。默认的是Variables tab (变量栏), 这与Input Data Source node (数据输入节点)中的Variables tab (变量栏)是 样的。8,选择General (综合)栏,通过这个栏可以设置分析节点。观察Analysis mode (分析方法)选项,默认的方法是By Contexto要根据前面的Input Data Source node (数据输入节点)中定义的信息来选择适当的方法。如果输入

5、数据集包括一个ID (身份)变量,一个target (目标)变量,这个节点就会自动地选择association analysis (关 联分析)。如果有一Sequence (序列)变量且它的状态是use,那么这个节点就会进行一个 sequence Analysis (序列分析)。因为在输入数据集中有个序列变量,所以这里默认的分析方法为sequence analysis (序 列分析)。这里我们先进行association analysis (关联分析),稍后讨论Sequence analysis (序 列分析)。将分析方法改为Association (关联)。设置支持度和置信度的阈值,以及频繁

6、 项集的最大元素个数,如上图所示。关闭Association node (关联节点),弹出提示时选择保存。运行这图里的Association node (关联节点),并且观察结果。% Results - AssociationRuIes Freqtencies Code Log | Notes RelaticnsLiftSuDDortK)ConfidenceflT ransacton CountRule12口:4.1/b.bb做9.0SVG = IKING221.J254.1763J529.0KING = SVG?1 inia 1 q心1。亦m nmh.JH i ATM421.1036.192

7、392.0ATM = :KING52US25.694.532053.0S=/G = 必21.DS25. G9GG 0130E2.0ATM SVG121.1716.47100.001318.0FMEQLC = CKING1e21.171河719.201915.0CriNG -、921.D415.7225.1012SG.0G=/G CD1021.3415.7264.001296.0CD = SVG11121J415.5339.311245.0h/MDA = CKING11221.0415.501 0.1 L;1245.0CKING MMDAi1321.12H.8517.321187.0CKING

8、-、CCRD,1IJ这个关系栏包含了所有的关联关系,假设关系为A=B,回顾一下前面的:A=B的Support (支持度)是指一个顾客同时拥有人和8的可能性。A=B的confidence (置信度)是给定顾客拥有A后,又拥有B的可能性。A=B的lift是对这个关联的强度的恒量。如果关系A=B的Lift=2,拥有A的顾客 再拥有B的可能性是随机抽样的一个顾客拥郁 的可能性的两倍。12,在Support(%)列中单击右键,选择Sort (排序)= Descending (降序)Support (支持度)是指包含这个关系的所有顾客的百分比。比如说,大约在7991位顾 客中有54.17%同时拥有支票与储

9、蓄,而大约有25%的顾客同时拥有支票账户,储蓄账户和 ATM (自动取款卡)。13.在Confidence(%)列中单击右键,选择Sort (排序)= Descending (降序)。% Results - AssociationRu1es Frequencies Code Leg Notes 123456789101112I3 IRelaticnsLiftSupport()Confidence()T ransaction CcuntRule31.178.531LILI.0LIG82 LiuHMEQLC:?.:ATM CKIMG21.1711.30100.00903.00CXCRD = CKI

10、NG21.17:6.47100.001316.0HMEQLC = CKING01.177.97100.0027. 00iyc iCKCRD CKIMG31.17:1.15100.00391.00WG &HMEQU2 = CKING41.176.09100.00487.00S7G & HMEQU2 &灯M = CKING31.174.63100.00370. 00HMEQLC &: CCFID ? CKJNG1131.175.53100.00446.00CKCRD & CCRD = CKING1131.147.0197.9056Q 00CD &A1M = CKING1121.147.2797.6

11、1501.00MJG CKING131.149.9997.67798.00S7G &:CCRD= CKING1s41.145.2697.6742Q00WG &CD & ATM = CKING13I. I44.S437.4S3S7. 00U:.FiD ATM =?- LKINijiConfidence (置信度)表示拥有LHS (左边)业务的顾客中拥有RHS (右边)业务的百 分比。比如:所有拥有支票账户的顾客都拥有一支票卡,而在同时拥有储蓄账户和信用卡的 顾客中超过97%的顾客拥有一个支票账户。14.在llift(增益)列中单击右键,选择Sort (排序)= Descending (降序)。%

12、 Results - AssociationRules Frequenc ies Code Log Nates RalatioraLiftupporl()T rancaction CountPula133.3355349.39446.00 CKCRD = 匚KING & CCRD233.3355837.57146.00匚KING & 匚匚FID = CKCRD333.195.583G.05J4G.00CCRD CKING 岌 CKCRD433.1955849.39446.00匚KING & CKCRD = CCRD523.1955349.39446.00CKCRD = CCRD623.1936

13、.0044 A. 00CCFIDCKCRD731.0946331.17370.00CKING &: CCRD = HMEQLCI831.8946320.12370.00HMEQLC = CKING CCRD|331.624.6320.12370.00HhdEQLC &: CKINGCCRDI1021.3246320.12370.00HMEQLC = CCFDI1121.0246329.91370.00CCRD = HMEQLCI1231.824 6329.91370.00CCRD = HMEQLC & KING13460916.04487.00CKING &4TM = SVG X HMEQLC

14、1*在关联关系中的lift(增益),是RHS (右边)和LHS (左边)形成关系的confidence (置 信度)与假设RHS (右边)和LHS (左边)不相关的confidence (置信度)二者之比。因此, lift是用来衡量RHS (右边)和LHS (左边)的关联关系的。如果值大于1,则说明LHS与 RHS正相关,如果等于1则代表无关。如果小于1则二者负相关。CKCRD = CCRD的lift(增益)值为3.19,因此,如果选择一个顾客拥有check/debit card (支票/借记卡),那他拥有credit card (信用卡)的可能性是随机抽取的一个顾客的3倍。注:默认情况下,在

15、结果中,只显示lift(增益)大于1的关联。可以将V iew= When Confidence(真实可信度)改为Expected Confidence (期望可信度)。15,点击Frequencies (频率)栏。一 ID1 *1Hi I evFr-equenc les Cede l_n Notes C 口 uZlletrn1CKING243-WSVG33073ATM419GOCD513-94MMDA613d 6HMEQLC71237CCRD903CKCR D9BBSSIRAliJ742AUTO115S4MTG12390TRUSTJ这个栏格列出了每个产品拥有的客户量。这与简单的次数统计是有所区

16、别的。比如说, 一个顾客可能拥有多个支票账户,但这里只会计算一次。这是一个相当有用的信息,尤其在 解释为什么一个特定的对象没有出现在这些关系里时。上面提到,在默认的情况下,一个关 联出现的次数至少要是出现最多的对象的次数的5%。这里出现最多次数最多的是checking account (支票账户),出现了6855次。因此,一个产品的组合至少要有343位顾客(6855的 5%),否则无法形成一个关联准则。如果想对association (关联)中的出现较少的产品进行研究的话,就要考虑在运行 association Node (关联节点)减低最少出现频率的限制。如果得到的关联关系太多,超过了 可用

17、围,则可以考虑提高最少出现频率的限制。假设想对拥有 market deposit account (MMDA)(货币市场存款)和ce rtificate of deposit (CD)(存款保证)的用户进行了解,想了解他们拥有其它什么产品。可以按照以下的方法:选择Rules tab (关系栏)。选择View(视图)= Subset Table.(子栏)在Predecessor (前续)= Successor(后续)栏中,选择CD (存款保证)和MMDA(货币市场存款)两项做为左边的项。在Left Hand Side (左边)的Type(类型)的下拉选项中选择Combinations &Sing

18、le(结合与单一)。在Right Hand Side (左边)的Type (类型)的下拉选项中选择Find Any (寻找全 部)。选择Process (进行),然后观察结果。左边是CD (存款保证)和MMDA (货币市场存款)中一个或者两个的规则有8个。如 果是想了解和automobile loans (自动贷款)有关的规则,而且想要得到一个含有AUTO (自 动贷款)的规则的子集,最简单的方法将这些规则保存为一个子集,然后用SAS Code node (SAS代码节点)分出这个数据。选择View(视图)= Reset Table (重排表格)选择File (文件)= Save As Dat

19、a Set.(保存为数据集)可以看到,这个数据集的保存名为Selected Output from Rulegen .点击OK,保存这 个数据集。关闭这个Association node (关联节点),然后在图栏中添加一个SAS Code node(SAS代码节点)。11,打开这个SAS Code node (SAS代码节点),打开Macros tab (宏栏)。Enterprise Miner(企业挖掘器)自动创建了很多宏变量。这里,我们可以看到&_MAC_4, 这是从Association node (关联节点)中保存过来的结果。选择Program (程序)栏。输入如下的程序:data w

20、ork.auto;set;if iteml=TAUTO or item2 = AUTO 1 or Ltem3=rAUTO1 or item4= r AUTO 1 or=1 AUTO 1 ;run;proc print data=work.auto: run; 点击按钮行SAS Code(SAS代码)。点击Yes,选择现在运行SAS Code(SAS代码)。弹出提示时点击Yes,观察运行结果。选择Output (输出)栏。te 5ET_S I ZE EXP J 印 NFLUHF SUPPORT LIFT CUUNT HULE_LHf1HDi3352I61323S4295g54Sg973BEB96

21、1993G103eM33012a313385ti JRHHN。70BlBFEfr454#29.1 117E42970970?0194&S2U4G51暨IETBB17E114624295625155045904ae4104g44B45翌I14I4714719719?19719713517 5 5 9 330 3340022111133331gftUTD= CKINDfiUTOfiUTD= SWinUTOftUTD= 南 THTO机fiTM = AUTO卉THftUTD=EVG CIONGfUTOSMG CKIIMG 二二 2 ftIJTO辑UG &CK IMG枫SVG

22、ErtUIO CKNHIG砌G fiUTO00CKIN6& AUTOSWGCKINC& fiUTOloofiUTO CK IHG & ATMMITO项ftiTM CKIMG J10ftTM00KING& AUTOATMCKIND& flUTQDOCKING& AW hU10CKItffi& flinWHUTD言 Aim P 匚KUNGFUTO AmITEMSITEM4I TENSE s 5 5 7 7 7 ? 4 4 4 46433444 43333-ITEniiITEM 2CKINB3VGATM和msug g cr iniiG 心。? CKSNGB洲G9 CK3NG I ATM匚K I MG

23、 & nU TOAin“ AUTO13 CKINBAUTOAUTDAUTD 伟TH AUTO SUDSUOCK INGAUTOAinEK I他 ck. i ric AUTDCKIMG ftUTO rnjjo yftUTD ftTN RTMIGMT1GK u T u Ucs A A3Cl MGWIJTDCKINGCKIMG 匚KI成SGATHIflOTD ftTn AUTO CKING在输出结果中得到了 13个关于与automobile loans (自动贷款)有关的规则。18,看完输出结果以后,关闭SAS Code node(SAS代码节点)结果和SAS Code node(SAS代码节点)。

24、序列分析Association or Sequence?AnBversusIs there a difference?Association analysis (关联分析)的作用是用来研究出售的产品之间的关系。换句话说, 哪些产品是顾客同时会购买的。Sequence analysis (序列分析)又进一步分析了这些产品的 购买的顺序。这可以回答这样的问题:如果一周顾客购买了人产品,下周他是否会购买B产 品? 一个 Sequence analysis (序列分析)需要定义一个 sequence(序列)变量 o association analysis (关联分析)则不要求sequence (序列

25、)变量。银行除了对客户拥有的产品感兴趣以外,还 想了解顾客购买这些的顺序。在数据集中有sequence (序列)变量,就可以进行sequence analysis (序列分析)。1.在图表工作区添加一个Association node (关联结点),把它与Input Data Sourcenode (输入数据源节点)节点相连。打开这个Association node (关联节点)。选择General (一般)栏。观察到,由于数据集中的sequence (序列)变量的状 态是use (利用),所以在默认的情况下,分析的方法就是sequence analysis (序 列分析)。4. 选择Sequ

26、ences (序列)栏。在Sequences (序列)栏中,可以定义一个序列出现的最小出现频率以及在一个最长的 序列链里出现的个数。定义的最多个数是10个。选择Time Constraints (时间限制)栏。这里的选项允许对一系列交易指定最大 时间长度,这些交易被考虑成一个序列。可能只考虑在三个月购买两种产品的 情况进行序列分析,而超过三个月的则不以考虑。另外一个选项是固定时差。 意思是如果在一天之购买两种产品,则认为是同时购买。使用默认值,关闭关联节点。运行Association node (关联节点),在弹出提示时选择Yes来观察得出的结果。在Confidence (置信度)(%)列单击

27、右键选择Sort (排序)= Descending(降序)。=I 口 I l轮Results - SequenceRu 1 esFr-equenc les Cade | Lag | NatesChain LenqthGupportfConfidence%Transaction CountRule134.471 nn.nn357ATMAUTO =:a 建LIT。23I 1.30luu.uugLK.INLi -f LK.LHL -f Lk.LHL332. GO100.002Q8CD = CKCRD = CKCRD433.45100.0027BHMEQL匚= CKCRD = CKCRD535581

28、LILI LILI446CCRD =? CKCFiD =?- CKCRD6211 3nmn nnFin3r:Kr:Rn =,PKCRD732.631 ULI. ULI210MM DA CKCFiD CKCFiDe37.971 ULI. ULI637SVG CKCFiD CKCRD930.2907.002C0ATM MTG MTG1032.1 U82.7G1GSLUAU 1 U AU 1 U1127.6382.21G1 UAUTO AUTO1235.S7.52543匚KING AUTO AUTD1334.8773.233S9SVG AUTO f AUTO1423.8578.97疣TRUST TRUST1532.5278.82-1CD =如 TRUST =3 TRUST1G33.G578.28KING =5-

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论