应用SASEM进行数据挖掘课件_第1页
应用SASEM进行数据挖掘课件_第2页
应用SASEM进行数据挖掘课件_第3页
应用SASEM进行数据挖掘课件_第4页
应用SASEM进行数据挖掘课件_第5页
已阅读5页,还剩68页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

SAS/EM进行数据挖掘2003-04-16议程数据挖掘概述SAS数据挖掘项目方法论及工具SAS/EM简介Workshop企业决策支持信息系统OLTP数据仓库统计分析数据挖掘决策支持企业知识DWSolutionDM&AnalysisSolutionApplicationforC/S&B/SCBISolution1stQtr2ndQtr3rdQtr4thQtrPowerPlayFileEditDataValuesDisplayTextLegendLocation1992AllProductsAgegroupsRevenue($000)OLAP查询报表待分析数据数据仓库处理后数据模式变换后数据

知识Source:”FromDataMiningtoKnowledgeDiscovery:AnOverview”,AdvancesinKnowledgeDiscoveryandDataMining,AAAIPress/TheMITPress.数据抽取数据预处理数据挖掘数据变换解释评价数据挖掘全过程数据挖掘涉及领域神经计算数据库知识发现数据挖掘统计学模式识别机器学习人工智能数据挖掘算法(按有无目标变量)有监督算法无监督算法(有目标变量)

(无目标变量)传统回归 无神经网络决策树

逻辑/概率回归决策树 聚类神经网络 神经网络判别分析基于记忆的推理决策树 主成分分析 聚类

关联/序列分析 连接分析 因子分析预测分类探索关联回归算法:线性回归、逻辑回归、概率回归统计方法:主成分分析、因子分析、判别分析等关联算法:关联模式、序列模式、连接分析等聚类算法:Cluster、SOM/Kohonen神经元网络:MLP、RBF决策树:CHAID、CART、C4.5、C5.0数据挖掘算法x20.00.20.40.60.81.0x10.00.20.40.60.81.0x20.00.20.40.60.81.0x10.00.20.40.60.81.0使用一元二次项使用简单线性①

预测型–回归

希望预测“绿点”在哪些情况下发生以及发生的概率数据挖掘常用算法Time

<13yesno70%9663%ratio

<.39time<10ratio<8410359%①

预测型–决策树

希望预测“绿点”在哪些情况下发生以及发生的概率QuotedpriceLowerlimitprice(ratio)Time00.20.40.60.8910111315数据挖掘常用算法CombinationADACC

AB&CDSupport2/52/52/51/5Confidence2/32/32/41/3ABCACDBCDADEBCE②

描述型–关联

了解客户购买哪些产品组合数据挖掘常用算法

cluster4cluster3cluster1cluster2cluster5②

描述型–聚类

把具有相似行为的客户分到一群QuotedamountTotalamountQuotedPriceAveragePrice数据挖掘常用算法议程数据挖掘概述SAS数据挖掘项目方法论及工具EM简介Workshop企业化经典统计数据分析工具统计分析:STAT,LAB,INSIGHT计量经济学与时间序列分析:ETS运筹优化:OR质量控制与质量提高:QC矩阵编程语言:IML图形与分析工具:GRAPHThinClient:EnterpriseGuide数据挖掘工具:SAS/EnterpriseMiner傻瓜兼专家型国际标准的全方位的统计分析和数据挖掘工具EM基本介绍EM特色EM界面SEMMA方法论节点简介节点通用概貌SAS/EM特色支持广泛的平台包括各种UNIX,MVS,OS/390,Linux可访问的数据源多达50多种,和数据库,数据仓库很好的集成Client/Server结构。SEMMA方法论引导,将数据挖掘功能模块组成处理流程图,可视化,图形化,拖拽式操作界面,适用于业务和技术人员丰富的可视化数据探索节点,对数据进行细致分析提供多种数据预处理和变换工具,包括变量自动选择等功能提供丰富的数据挖掘模型和灵活的算法:决策树,神经元网络,回归,基于记忆的推理,两阶段模型,K均值聚类,自组织映射及其他统计方法,以及模型组装技术(Ensemble)提供模型评估模块和多种评估准则提供完整的数据挖掘模型代码输出和打分(Scoring)功能报告工具可以将整个数据挖掘流程和结果生成HTML格式的详细的报告,与其它业务专家和数据挖掘专家共享。数据取样SAMPLE选数据样本?数据探索EXPLORE可视化数据探索聚类分析和分类数据调整MODIFY数据重组和细分添加和变换变量模式化MODEL决策树模型数理统计分析人工神经网络时间序列分析评价ASSESS新数据预测结论综合和评价SAS数据挖掘过程方法论-SEMMA节点简介:Sampling类节点InputData确定数据源。Sampling提供多种抽样方法,如简单随机抽样、分层抽样、分类抽样等。DataPartition将数据划分为训练(Train)、检验(Validation)、测试(Test)数据,以避免模型过拟合。节点简介:Explore类节点DistributionExplorer提供数据的多维分布图,以了解变量的趋势和特色Multiplot提供所有变量的分布图及对KOV的关系图SAS/INSIGHT提供交互式直观统计分析VariableSelection提供选择对KOV重要的KIVs的功能Association提供关联分析和序列分析LinkAnalysis提供连接关系分析节点简介:Model类节点Regression提供多元回归、逻辑/概率回归及自动选择变量变量的功能DecisionTree决策树,支持CHAID,CART,ID3/C4.5等算法NeuralNetwork提供MLP、RBF等网络结构,及多种调整方法UserDefinedModel为SAS程序编制的模型提供统一的模型评价界面Ensemble提供模型整合的功能,如Combine,Stratified,Bagging&BoostingTwo-StageModel两阶段模型MemoryBasedReasoning节点简介:Assess类节点Assessment 对不同模型提供图形化比较:“哪一个模型最好?”Reporter 自动生成HTML格式报告节点通用概貌In/OutDataProperties(选择,浏览)Data/Variables/Log/Output/Notes等Tab修改节点后的自动保存节点的下拉菜单SAS/EM处理示例模型应用建模源数据预处理议程数据挖掘概述SAS数据挖掘项目方法论及工具EM简介WorkshopWorkshop(信用风险建模)业务问题用于建模的数据建模前的数据处理建立预测模型模型的评估模型实施信用风险的业务问题客户从商业机构获得资金、产品或服务,承诺在未来某天或某段时间内偿还他所使用的资金、产品或服务,并支付一定的费用一个“坏账”客户带来的损失相当于数百个“好”客户给您带来的收益信用管理者要求提供对风险进行定量的度量,以及根据其风险大小决定采取何种最佳措施以减低将来的损失定义我们关注的高信用风险申请信用时关注的风险Profitable?将来拖欠的可能性很大……客户使用过程中关注的风险信用卡欺诈客户拖欠偿还我提供的信用?多久才是高风险?……催收欠费过程中关注的风险无法收回?信用周期-Applying客户申请表内部信息Strategy接受

信用额度利息

其他条件拒绝信用署数据其他外部信息政策/内部规则申请打分引擎(AppScoringEngine)信控人员信用周期-Behaviour行为打分引擎(BehScoringEngine)新的Strategy:Inc/DecLimitX-selling消费存现/取现……移管(Transfer)拖欠(Delinquent)客户消费情况6/157/157/318/109/17消费期对帐单到期日最后期限信用周期-Collection收集打分引擎(ColScoringEngine)Strategy被移管的客户9/17卖给债务代理公司Write-off部分偿还全部偿还Recovery损失!催帐单

email

电话

……Workshop(信用风险建模)业务问题用于建模的数据建模前的数据处理建立预测模型模型的评估模型实施定义所需数据确定业务问题,找出您想预测的事物历史数据必须包含您想预测的事物(目标变量)其它的变量包括客户的属性,交易数据。使用最新的数据。信用风险分析数据集市......................................................①哪些客户?......②哪些属性?...目标变量①哪些客户?currentPerformancewindowobservationwindowTarget

DefinitionExclusionBadIndeterminateGood②哪些属性?

背景数据

年龄

性别

地区信用信息开户日期、余额消费金额、偿还金额卡数量、卡用途信用署信息noofoutstandingloansnoofcurrentloansnooffinishedloans拖欠信息在过去9个月中拖欠超过30天的次数拖欠超过60天的次数最后付款日期

其他相关信息是否本银行的客户

多长时间上一次贷款日期使用业务知识派生变量新的变量前3月内余额大于0的次数前3月内透支超过10天的次数最后一次消费距今的天数……比率前1/2/3月平均余额/n个月平均余额前1/2/3月消费额/n个月消费额……差分,移动平均,趋势,……观察使用量的动态状况其它???使用RFM方法派生变量MoneyT-1月余额T-2月余额T-3月余额过去三个月/六个月内最大,最小,平均余额……Recency最后一次余额>0元距今天数余额连续2次<=0的时间距今天数余额连续3次<=0的时间距今天数……Frequency余额<=0元的次数余额连续2次<=0的次数余额连续3次<=0的次数……Workshop(信用风险建模)业务问题用于建模的数据建模前的数据处理建立预测模型模型的评估模型实施数据挖掘与采样是否需要进行采样?数据在采样前需要进行什么处理?数据挖掘中所用到的一般采样类型。如何决定样本大小?数据挖掘中采样的指导策略。对于某些特定的目的,如验证和测试,是否应该采用多重采样?针对小概率事件的过采样GoodBad数据分割校验测试训练Exploration阶段通过探索去理解您的数据显现您的数据InsightDistributionExplorerMultiplot使用VariableSelection工具发现最有影响的变量-降维DistributionExplorer节点交叉报表简单的汇总分析Multiplot节点为每个变量自动生成直方图。同时标明每个变量对目标的影响。Modify阶段根据所用的模型进行数据调整优化您的数据极值,异常值缺失值变量转换建立新的变量改变分布的形状定义最优的输入域处理共线性Replacement节点包括基于决策树逻辑的缺失值处理。为修正变量建立指示器TransformVariables节点提供各种变量转换,包括为了优化二元目标变量预测而对变量进行自动分装。VariableSelection节点根据目标变量快速确定输入变量(“modelscreening”)。描述它们拟合线型模型的框架(regression/ANOVA)。单变量R-平方及相关检验。建立新的变量组(AOV16)与降低分类变量的类型。Workshop(信用风险建模)业务问题用于建模的数据建模前的数据处理建立预测模型模型的评估模型实施建立预测模型回归,神经网络和决策树等。Good/Bad作为分析目标。结果:

Bad的可能性(全部方法)

变量的重要性分析(回归,决策树)

规则分析(决策树)EM回归节点EM神经网络节点提供基本选项给普通用户“智能”设定其它的复杂参数EM决策树节点Workshop(信用风险建模)业务问题用于建模的数据建模前的数据处理建立预测模型模型的评估模型实施Assessment阶段LiftCharts(又叫gainschart)利润/损失图(Profit/Los

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论