




已阅读5页,还剩68页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
应用SAS/EM进行数据挖掘,2003-04-16 赛仕软件研究所(上海)有限公司,议程,数据挖掘概述 SAS数据挖掘项目方法论及工具SAS/EM简介 Workshop,企业决策支持信息系统,OLTP,数据仓库,统计分析 数据挖掘,决策支持,企业知识,DW Solution,DM & Analysis Solution,Application for C/S & B/S,CBI Solution,OLAP,查询报表,什么是数据挖掘?,定义: 从海量的数据库中选择、探索、识别出有效的、新颖的、具有潜在效用的乃至最终可理解的模式以获取商业利益的非平凡的过程 -Fayyad,Piatetsky-Shapiro 特征: 处理海量的数据; 揭示企业运作中的内在规律; 为企业运作提供直接决策分析,并为企业带来巨大经济效益。,数据 仓库,处理后 数据,Source :”From Data Mining to Knowledge Discovery: An Overview”, Advances in Knowledge Discovery and Data Mining, AAAI Press/The MIT Press.,数据抽取,数据预处理,数据挖掘,数据变换,解释评价,数据挖掘全过程,数据挖掘涉及领域,数据挖掘算法(按有无目标变量),有监督算法 无监督算法 (有目标变量) (无目标变量) 传统回归 无 神经网络 决策树 逻辑/概率回归 决策树 聚类 神经网络 神经网络 判别分析 基于记忆的推理 决策树 主成分分析 聚类 关联/序列分析 连接分析 因子分析,预测,分类,探索,关联, 预测 用过去的数据预测 未来发生什么,预测未来 发生的可能性,历史数据,预测算法 - 神经元网络 - 决策树 - 回归, 描述 用过去的数据 描述 现在发生了什么,描述现在 已经发生的规律,历史数据,描述算法 - 聚类 - 关联,数据挖掘算法(按分析目的),回归算法:线性回归、逻辑回归、概率回归 统计方法:主成分分析、因子分析、判别分析等 关联算法:关联模式、序列模式、连接分析等 聚类算法:Cluster、SOM/Kohonen 神经元网络:MLP、RBF 决策树:CHAID、CART、C4.5、C5.0,数据挖掘算法,使用一元二次项,使用简单线性, 预测型 回归 希望预测“绿点”在哪些情况下发生以及发生的概率,数据挖掘常用算法, 预测型 决策树 希望预测“绿点”在哪些情况下发生以及发生的概率,Quoted price Lower limit price (ratio),Time,0,0.2,0.4,0.6,0.8,9,10,11,13,15,数据挖掘常用算法,time method # of order ratio # of ordered items,数据挖掘常用算法, 预测型 神经元网络 希望预测“绿点”在哪些情况下发生以及发生的概率,Combination A D A C C A B & C D,Support 2/5 2/5 2/5 1/5,Confidence 2/3 2/3 2/4 1/3,A,B,C,A,C,D,B,C,D,A,D,E,B,C,E, 描述型 关联 了解客户购买哪些产品组合,数据挖掘常用算法, 描述型 聚类 把具有相似行为的客户分到一群,Quoted amount Total amount,Quoted Price Average Price,数据挖掘常用算法,议程,数据挖掘概述 SAS数据挖掘项目方法论及工具EM简介 Workshop,SAS 数据挖掘项目方法论,企业化经典统计数据分析工具 统计分析:STAT,LAB,INSIGHT 计量经济学与时间序列分析:ETS 运筹优化:OR 质量控制与质量提高:QC 矩阵编程语言:IML 图形与分析工具:GRAPH Thin Client: Enterprise Guide 数据挖掘工具:SAS/Enterprise Miner 傻瓜兼专家型,国际标准的全方位的 统计分析和数据挖掘工具,EM基本介绍,EM特色 EM界面 SEMMA方法论 节点简介 节点通用概貌,SAS/EM特色,支持广泛的平台包括各种UNIX,MVS,OS/390,Linux 可访问的数据源多达50多种,和数据库,数据仓库很好的集成 Client/Server结构。 SEMMA方法论引导,将数据挖掘功能模块组成处理流程图,可视化,图形化,拖拽式操作界面,适用于业务和技术人员 丰富的可视化数据探索节点,对数据进行细致分析 提供多种数据预处理和变换工具,包括变量自动选择等功能 提供丰富的数据挖掘模型和灵活的算法: 决策树,神经元网络,回归,基于记忆的推理,两阶段模型,K均值聚类,自组织映射及其他统计方法,以及模型组装技术(Ensemble) 提供模型评估模块和多种评估准则 提供完整的数据挖掘模型代码输出和打分(Scoring)功能 报告工具可以将整个数据挖掘流程和结果生成HTML格式的详细的报告,与其它业务专家和数据挖掘专家共享。,SAS/EM 界面,SAS数据挖掘过程方法论-SEMMA,节点简介:Sampling类节点,Input Data 确定数据源。 Sampling 提供多种抽样方法,如简单随机抽样、分层抽样、分类抽样等。 Data Partition 将数据划分为训练(Train)、检验(Validation)、测试(Test)数据,以避免模型过拟合。,节点简介: Explore类节点,Distribution Explorer 提供数据的多维分布图,以了解变量的趋势和特色 Multiplot 提供所有变量的分布图及对KOV的关系图 SAS/INSIGHT 提供交互式直观统计分析 Variable Selection 提供选择对KOV重要的KIVs的功能 Association 提供关联分析和序列分析 Link Analysis 提供连接关系分析,节点简介: Modify类节点,Data Set Attributes 设置或改变数据集与变量的属性 Filter Outliers 提供处理数据集中异常点、稀缺值的功能 Transform Variables 提供变量变换的功能 Data Replacement 数据集中数据的替换和校正,主要用于处理缺失数据 Cluster 提供多种方法的聚类分析(K-mean) SOM/Kohonen 自组织特征映射网络据进行分类,节点简介: Model类节点,Regression 提供多元回归、 逻辑/概率回归及自动选择变量变量的功能 Decision Tree 决策树,支持CHAID, CART, ID3/ C4.5等算法 Neural Network 提供MLP、RBF等网络结构,及多种调整方法 User Defined Model 为SAS程序编制的模型提供统一的模型评价界面 Ensemble 提供模型整合的功能,如Combine, Stratified, Bagging&Boosting Two-Stage Model 两阶段模型 Memory Based Reasoning,节点简介: Assess类节点,Assessment 对不同模型提供图形化比较:“哪一个模型最好?” Reporter 自动生成HTML格式报告,节点简介: Scoring类节点,Score 可输出SAS/BASE方式的预测代码 可用于对新的数据集进行预测 C*Score 可输出 C code的预测代码,节点简介: Utilities类节点,SAS Code 提供SAS程序接口。 Group Processing 提供分组处理的功能 Subdiagram 建立模型流程子表,方便管理 Control Point 控制流程执行,方便管理 Data Mining Database (DMDB) 建立DMDB(Meta Data),节点通用概貌,In/Out Data Properties(选择,浏览) Data/Variables/Log/Output/Notes等Tab 修改节点后的自动保存 节点的下拉菜单,SAS/EM处理示例,议程,数据挖掘概述 SAS数据挖掘项目方法论及工具EM简介 Workshop,Workshop(信用风险建模),业务问题 用于建模的数据 建模前的数据处理 建立预测模型 模型的评估 模型实施,信用风险的业务问题,客户从商业机构获得资金、产品或服务,承诺在未来某天或某段时间内偿还他所使用的资金、产品或服务,并支付一定的费用 一个“坏账”客户带来的损失相当于数百个“好”客户给您带来的收益 信用管理者要求提供对风险进行定量的度量,以及根据其风险大小决定采取何种最佳措施以减低将来的损失,定义我们关注的高信用风险,申请信用时关注的风险 Profitable? 将来拖欠的可能性很大 客户使用过程中关注的风险 信用卡欺诈 客户拖欠偿还我提供的信用?多久才是高风险? 催收欠费过程中关注的风险 无法收回?,信用周期 - Applying,信用周期 - Behaviour,行为打分引擎(Beh Scoring Engine) 新的Strategy: Inc/Dec Limit X-selling,信用周期 - Collection,收集打分引擎 (Col Scoring Engine),Strategy,被移管的客户,9/17,卖给债务代理公司,Write-off,部分偿还,全部偿还Recovery,损 失 !,催帐单 email 电话 ,Workshop(信用风险建模),业务问题 用于建模的数据 建模前的数据处理 建立预测模型 模型的评估 模型实施,定义所需数据,确定业务问题,找出您想预测的事物 历史数据必须包含您想预测的事物(目标变量) 其它的变量包括客户的属性,交易数据。 使用最新的数据 。,信用风险分析数据集市,. . .,. . .,. . .,. . .,. . .,. . .,. . .,. . .,. . .,. . .,.,.,.,.,.,.,.,., 哪些客户?,.,., 哪些属性?,. . .,目标变量, 哪些客户?,current,Performance window,observation window,Target Definition,Exclusion Bad Indeterminate Good, 哪些属性?,背景数据 年龄 性别 地区,信用信息 开户日期、余额 消费金额、偿还金额 卡数量、卡用途,信用署信息 no of outstanding loans no of current loans no of finished loans,拖欠信息 在过去9个月中拖欠超过30天的次数 拖欠超过60天的次数 最后付款日期,其他相关信息 是否本银行的客户 多长时间 上一次贷款日期,使用业务知识派生变量,新的变量 前3月内余额大于0的次数 前3月内透支超过10天的次数 最后一次消费距今的天数 比率 前1/2/3月平均余额/n个月平均余额 前1/2/3月消费额/n个月消费额 差分,移动平均,趋势, 观察使用量的动态状况 其它?,使用RFM方法派生变量,Money T-1月余额 T-2月余额 T-3月余额 过去三个月/六个月内最大,最小,平均余额 Recency 最后一次余额0元距今天数 余额连续2次=0的时间距今天数 余额连续3次=0的时间距今天数 Frequency 余额=0元的次数 余额连续2次=0的次数 余额连续3次=0的次数 ,Workshop(信用风险建模),业务问题 用于建模的数据 建模前的数据处理 建立预测模型 模型的评估 模型实施,数据挖掘与采样,是否需要进行采样? 数据在采样前需要进行什么处理? 数据挖掘中所用到的一般采样类型。 如何决定样本大小? 数据挖掘中采样的指导策略。 对于某些特定的目的,如验证和测试,是否应该采用多重采样?,针对小概率事件的过采样,Good,Bad,数据分割,校验,测试,训练,Exploration 阶段,通过探索去理解您的数据 显现您的数据 Insight Distribution Explorer Multiplot 使用Variable Selection工具发现最有影响的变量- 降维,Distribution Explorer节点,交叉报表 简单的汇总分析,Multiplot 节点,为每个变量自动生成直方图。 同时标明每个变量对目标的影响。,Modify 阶段,根据所用的模型进行数据调整 优化您的数据 极值,异常值 缺失值 变量转换 建立新的变量 改变分布的形状 定义最优的输入域 处理共线性,Replacement 节点,包括基于决策树逻辑的缺失值处理。 为修正变量建立指示器,Transform Variables 节点,提供各种变量转换,包括为了优化二元目标变量预测而对变量进行自动分装。,Variable Selection 节点,根据目标变量快速确定输入变量 (“model screening”)。 描述它们拟合线型模型的框架 (regression/ANOVA)。 单变量R-平方及相关检验。 建立新的变量组 (AOV16) 与降低分类变量的类型。,Workshop(信用风险建模),业务问题 用于建模的数据 建模前的数据处理 建立预测模型 模型的评估 模型实施,建立预测模型,回归,神经网络和决策树等。 Good/Bad作为分析目标。 结果: Bad的可能性(全部方法) 变量的重要性分析(回归,决策树) 规则分析(决策树),EM回归节点,EM神经网络节点,提供基本选项给普通用户 “智能”设定其它的复杂参数,EM决策树节点,Workshop(信用风险建模
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年医学影像学医学影像诊断能力挑战答案及解析
- 2025年耳鼻喉科疑难病例诊断与治疗技术验证答案及解析
- 2025年全科医生实践能力评估考卷答案及解析
- 2025年哥伦比亚大学妇产科学试卷模拟答案及解析
- 2025年床边护理科护理常规操作考核试卷答案及解析
- 知道网课《初级俄语实践语法(大连外国语大学)》课后章节测试答案
- 2025届春季江苏金陵科技集团有限公司校园招聘模拟试卷带答案详解
- 2025春季中国核工业二四建设有限公司社会招聘模拟试卷有完整答案详解
- 2025江苏南通市兴东街道招聘综合行政执法辅助人员3人模拟试卷及答案详解(全优)
- 太阳能光伏生态影响-洞察与解读
- 2025贵州贵阳市投资控股集团房地产置业有限公司招聘12人考试参考题库及答案解析
- 免疫细胞治疗安全性评价-第1篇-洞察及研究
- 车间师带徒管理办法
- 桥梁工程监理工作实施方案
- 2025年秋期新教材部编人教版一年级上册道德与法治教学计划+进度表
- 服装辅料基础知识培训
- 医院门诊急诊统筹管理方案
- 国家事业单位招聘2025农业农村部国际交流服务中心招聘拟聘用人员笔试历年参考题库附带答案详解
- 2025年AI技术在项目管理中的应用洞察报告
- 胃肠外科医生进修汇报
- 慢病健康宣教课件
评论
0/150
提交评论