应用SASEM进行数据挖掘ppt课件_第1页
应用SASEM进行数据挖掘ppt课件_第2页
应用SASEM进行数据挖掘ppt课件_第3页
应用SASEM进行数据挖掘ppt课件_第4页
应用SASEM进行数据挖掘ppt课件_第5页
已阅读5页,还剩68页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、Copyright 2003, SAS Institute Inc. All rights reserved.应用应用SAS/EM进行进行数据挖掘数据挖掘2019-04-16赛仕软件研究所上海Copyright 2003, SAS Institute Inc. All rights reserved.议程数据挖掘概述SAS数据挖掘项目方法论及工具SAS/EM简介WorkshopCopyright 2003, SAS Institute Inc. All rights reserved.企业决策支持信息系统OLTP数据仓库数据仓库统计分析统计分析数据挖掘数据挖掘决策支持决策支持企业知识企业知识D

2、W SolutionDM & Analysis SolutionApplication for C/S & B/SCBI Solution1st Qtr2nd Qtr3rd Qtr4th QtrPowerPlayFileEditDataValuesDisplayTextLegendLocation 1992 All Products Age groups Revenue($000)OLAP查询报表查询报表Copyright 2003, SAS Institute Inc. All rights reserved.什么是数据挖掘?定义:定义:从海量的数据库中选择、探求、识别出从海

3、量的数据库中选择、探求、识别出有效的、新颖的、具有潜在效用的乃至有效的、新颖的、具有潜在效用的乃至最终可理解的模式以获取商业利益的非最终可理解的模式以获取商业利益的非平凡的过程平凡的过程-Fayyad-Fayyad,Piatetsky-Piatetsky-ShapiroShapiro特征:特征:处理海量的数据;处理海量的数据;揭示企业运作中的内在规律;揭示企业运作中的内在规律;为企业运作提供直接决策分析,并为企业带为企业运作提供直接决策分析,并为企业带来巨大经济效益。来巨大经济效益。Copyright 2003, SAS Institute Inc. All rights reserved.待

4、分析待分析数据数据数据数据仓库仓库处理后处理后数据数据变换后变换后数据数据 Source :”From Data Mining to Knowledge Discovery: An Overview”, Advances in Knowledge Discovery and Data Mining, AAAI Press/The MIT Press.数据抽取数据抽取数据预处理数据预处理数据挖掘数据挖掘数据变换数据变换解释评价解释评价数据挖掘全过程Copyright 2003, SAS Institute Inc. All rights reserved.数据挖掘涉及领域神经计算神经计算数据库数

5、据库知识发现知识发现数据挖掘数据挖掘统计学统计学方式方式识别识别人工人工智能智能Copyright 2003, SAS Institute Inc. All rights reserved.数据挖掘算法按有无目标变量)连接分析连接分析因子分析因子分析Copyright 2003, SAS Institute Inc. All rights reserved. 预测预测 用过过去的数数据预测预测 未来发来发生什么么 预测未来预测未来发生的可能性发生的可能性历史数据历史数据预测算法预测算法 - 神经元网络神经元网络 - 决策树决策树 - 回归回归 描画 用过去的数据 描画 现在发生了什么描述现在描

6、述现在已经发生的规律已经发生的规律历史数据历史数据描述算法描述算法 - 聚类聚类 - 关联关联数据挖掘算法按分析目的)Copyright 2003, SAS Institute Inc. All rights reserved.回归算法:线性回归、逻辑回归、概率回归统计方法:主成分分析、因子分析、判别分析等关联算法:关联模式、序列模式、连接分析等聚类算法:Cluster、SOM/Kohonen神经元网络:MLP、RBF决策树:CHAID、CART、C4.5、C5.0数据挖掘算法Copyright 2003, SAS Institute Inc. All rights reserved.x20.

7、00.81.0 x10.0 0.2 0.4 0.6 0.8 1.0 x20.00.81.0 x10.0 0.2 0.4 0.6 0.8 1.0使用一元二次项使用简单线性 预测预测型型 回回归归 希望希望预测预测“ “绿绿点点在在哪哪些情些情况况下下发发生以及生以及发发生的生的概概率率数据挖掘常用算法Copyright 2003, SAS Institute Inc. All rights reserved.Time 13yes no70%9663%ratio .39time 10ratio 8410359% 预测型预测型 决策树决策树 希望预测希望预测“绿点

8、在哪些情况下发生以及发生的概率绿点在哪些情况下发生以及发生的概率Quoted priceLower limit price(ratio)Time00.8910111315数据挖掘常用算法Copyright 2003, SAS Institute Inc. All rights reserved.timemethod# of orderratio# of ordereditems Y1 = f1(x).Y2 = f2(x).Y3 = f3(x).Y = f1(x) + f2(x) + f3(x)数据挖掘常用算法 预测预测型型 神神经经元元网络网络 希望希望预测预测“ “绿绿点点

9、在在哪哪些情些情况况下下发发生以及生以及发发生的生的概概率率Copyright 2003, SAS Institute Inc. All rights reserved.CombinationA DA CC AB & C DSupport2/52/52/51/5Confidence2/32/32/41/3AB CAC DBC DAD EBC E 描述型 关联 了解客户购买哪些产品组合数据挖掘常用算法Copyright 2003, SAS Institute Inc. All rights reserved. cluster4cluster3cluster1cluster2cluster

10、5 描述型 聚类 把具有相似行为的客户分到一群Quoted amountTotal amountQuoted PriceAverage Price数据挖掘常用算法Copyright 2003, SAS Institute Inc. All rights reserved.议程数据挖掘概述SAS数据挖掘项目方法论及工具EM简介WorkshopCopyright 2003, SAS Institute Inc. All rights reserved.SAS 数据挖掘项目方法论反复挖掘数据反复挖掘数据 (SEMMA)定义业务问题定义业务问题考察业务情况考察业务情况提出业务问题提出业务问题考察数据可

11、用考察数据可用性性制定业务计划制定业务计划选择数据挖掘选择数据挖掘方法方法探求探求(E)调整调整(M)建模建模(M)评价评价(A)抽样抽样(S)系统环境评估系统环境评估评估系统环境评估系统环境评估企业准备评估企业准备情况情况评估评估IT环境环境选择软硬件环选择软硬件环境境规划实施体系规划实施体系结构结构数据准备数据准备创建数据挖掘创建数据挖掘环境环境检查和校验数检查和校验数据据准备数据准备数据模型实施模型实施设计模型集成的体系设计模型集成的体系结构结构生成管理和业务报告生成管理和业务报告清理数据使其可用清理数据使其可用把模型应用于生产把模型应用于生产回顾与评价回顾与评价回顾模型对企业生产回顾模

12、型对企业生产的效果的效果回顾投资回报回顾投资回报回顾模型的性能回顾模型的性能Copyright 2003, SAS Institute Inc. All rights reserved.企业化经典统计数据分析工具统计分析:STAT,LAB,INSIGHT计量经济学与时间序列分析:ETS运筹优化:OR质量控制与质量提高:QC矩阵编程语言:IML图形与分析工具:GRAPHThin Client: Enterprise Guide数据挖掘工具:SAS/Enterprise Miner傻瓜兼专家型国际标准的全方位的统计分析和数据挖掘工具Copyright 2003, SAS Institute Inc

13、. All rights reserved.EM基本介绍EM特色EM界面SEMMA方法论节点简介节点通用概貌Copyright 2003, SAS Institute Inc. All rights reserved.SAS/EM特色支持广泛的平台包括各种UNIX,MVS,OS/390,Linux可访问的数据源多达50多种,和数据库,数据仓库很好的集成Client/Server结构。SEMMA方法论引导,将数据挖掘功能模块组成处理流程图,可视化,图形化,拖拽式操作界面,适用于业务和技术人员丰富的可视化数据探索节点,对数据进行细致分析提供多种数据预处理和变换工具,包括变量自动选择等功能提供丰富的

14、数据挖掘模型和灵活的算法: 决策树,神经元网络,回归,基于记忆的推理,两阶段模型,K均值聚类,自组织映射及其他统计方法,以及模型组装技术(Ensemble) 提供模型评估模块和多种评估准则提供完整的数据挖掘模型代码输出和打分Scoring功能报告工具可以将整个数据挖掘流程和结果生成HTML格式的详细的报告,与其它业务专家和数据挖掘专家共享。Copyright 2003, SAS Institute Inc. All rights reserved.SAS/EM 界面Copyright 2003, SAS Institute Inc. All rights reserved.数据取样数据取样SA

15、MPLE 选数据样本?数据探索数据探索EXPLORE可视化数据探索聚类分析和分类数据调整数据调整MODIFY数据重组和细分添加和变换变量模式化模式化MODEL决策树模型数理统计分析 人工神经网络时间序列分析评价评价ASSESS新数据预测结论综合和评价SAS数据挖掘过程方法论-SEMMACopyright 2003, SAS Institute Inc. All rights reserved.节点简介:Sampling类节点Input Data确定数据源。Sampling提供多种抽样方法,如简单随机抽样、分层抽样、分类抽样等。Data Partition将数据划分为训练(Train)、检验(V

16、alidation)、测试(Test)数据,以避免模型过拟合。Copyright 2003, SAS Institute Inc. All rights reserved.节点简介: Explore类节点Distribution Explorer提供数据的多维分布图,以了解变量的趋势和特色Multiplot提供所有变量的分布图及对KOV的关系图SAS/INSIGHT提供交互式直观统计分析Variable Selection提供选择对KOV重要的KIVs的功能Association提供关联分析和序列分析Link Analysis提供连接关系分析Copyright 2003, SAS Instit

17、ute Inc. All rights reserved.节点简介: Modify类节点Data Set Attributes设置或改变数据集与变量的属性Filter Outliers提供处理数据集中异常点、稀缺值的功能Transform Variables提供变量变换的功能Data Replacement数据集中数据的替换和校正,主要用于处理缺失数据Cluster提供多种方法的聚类分析(K-mean)SOM/Kohonen自组织特征映射网络据进行分类Copyright 2003, SAS Institute Inc. All rights reserved.节点简介: Model类节点Mem

18、ory Based ReasoningCopyright 2003, SAS Institute Inc. All rights reserved.节点简介: Assess类节点Copyright 2003, SAS Institute Inc. All rights reserved.节点简介: Scoring类节点Copyright 2003, SAS Institute Inc. All rights reserved.节点简介: Utilities类节点Copyright 2003, SAS Institute Inc. All rights reserved.节点通用概貌In/Out

19、Data Properties(选择,阅读)Data/Variables/Log/Output/Notes等Tab修改节点后的自动保存节点的下拉菜单Copyright 2003, SAS Institute Inc. All rights reserved.SAS/EM处理示例模型应用建模源数据预处理Copyright 2003, SAS Institute Inc. All rights reserved.议程数据挖掘概述SAS数据挖掘项目方法论及工具EM简介WorkshopCopyright 2003, SAS Institute Inc. All rights reserved.Work

20、shop信用风险建模)业务问题用于建模的数据建模前的数据处理建立预测模型模型的评估模型实施Copyright 2003, SAS Institute Inc. All rights reserved.信用风险的业务问题客户从商业机构获得资金、产品或服务,承诺在未来某天或某段时间内偿还他所使用的资金、产品或服务,并支付一定的费用一个“坏账客户带来的损失相当于数百个“好客户给您带来的收益信用管理者要求提供对风险进行定量的度量,以及根据其风险大小决定采取何种最佳措施以减低将来的损失Copyright 2003, SAS Institute Inc. All rights reserved.定义我们关

21、注的高信用风险申请信用时关注的风险Profitable?将来拖欠的可能性很大客户使用过程中关注的风险信用卡欺诈客户拖欠偿还我提供的信用?多久才是高风险?催收欠费过程中关注的风险无法收回?Copyright 2003, SAS Institute Inc. All rights reserved.信用周期 - Applying客户申请表客户申请表内部信息内部信息Strategy接受接受 信用额度信用额度 利息利息 其他条件其他条件回绝回绝 信用署数据信用署数据 其他外部信息其他外部信息 政策政策/内部规则内部规则 申请打分引擎申请打分引擎(App Scoring Engine)信控人员信控人员C

22、opyright 2003, SAS Institute Inc. All rights reserved.信用周期 - Behaviour行为打分引擎行为打分引擎Beh Scoring Engine)新的新的Strategy:Inc/Dec LimitX-selling 消费消费 存现存现/取现取现 移管移管(Transfer)拖欠拖欠(Delinquent)客户消费情况客户消费情况6/157/157/318/109/17消费期消费期对帐单对帐单到期日到期日最后期限最后期限Copyright 2003, SAS Institute Inc. All rights reserved.信用周期

23、- Collection 收集打分引擎收集打分引擎(Col Scoring Engine)Strategy被移管的客户被移管的客户9/17卖给债务代理公司卖给债务代理公司Write-off部分偿还部分偿还全部偿还全部偿还Recovery损损失失! 催帐单催帐单 Copyright 2003, SAS Institute Inc. All rights reserved.Workshop信用风险建模)业务问题用于建模的数据建模前的数据处理建立预测模型模型的评估模型实施Copyright 2003, SAS Institute Inc. All rights reserved.定义所需数据确定业务

24、问题,找出您想预测的事物历史数据必须包含您想预测的事物目标变量)其它的变量包括客户的属性,交易数据。使用最新的数据 。Copyright 2003, SAS Institute Inc. All rights reserved.信用风险分析数据集市. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 哪些客户?. 哪些属性?. . . .目标变量Copyright 2003, SAS Institute Inc. All rights reserved. 哪些客户?currentPerformance windowobservation windowCopyright 2003, SAS Institute Inc. All rights reserved.TargetDefinitionExclusionBadIndeterminateGood01 Dummy Account 102 Dummy Account 203 Under Minimum Age04 Transfer at OBS05 Forced Cancellation06 Closing Status07 Fraud Accounts

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论