已阅读5页,还剩68页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
应用SAS/EM进行数据挖掘,2003-04-16赛仕软件研究所(上海)有限公司,议程,数据挖掘概述SAS数据挖掘项目方法论及工具SAS/EM简介Workshop,企业决策支持信息系统,OLTP,数据仓库,统计分析数据挖掘,决策支持,企业知识,DWSolution,DM&AnalysisSolution,ApplicationforC/S&B/S,CBISolution,OLAP,查询报表,什么是数据挖掘?,定义:从海量的数据库中选择、探索、识别出有效的、新颖的、具有潜在效用的乃至最终可理解的模式以获取商业利益的非平凡的过程-Fayyad,Piatetsky-Shapiro特征:处理海量的数据;揭示企业运作中的内在规律;为企业运作提供直接决策分析,并为企业带来巨大经济效益。,数据仓库,处理后数据,Source:”FromDataMiningtoKnowledgeDiscovery:AnOverview”,AdvancesinKnowledgeDiscoveryandDataMining,AAAIPress/TheMITPress.,数据抽取,数据预处理,数据挖掘,数据变换,解释评价,数据挖掘全过程,数据挖掘涉及领域,数据挖掘算法(按有无目标变量),有监督算法无监督算法(有目标变量)(无目标变量)传统回归无神经网络决策树逻辑/概率回归决策树聚类神经网络神经网络判别分析基于记忆的推理决策树主成分分析聚类关联/序列分析连接分析因子分析,预测,分类,探索,关联,预测用过去的数据预测未来发生什么,预测未来发生的可能性,历史数据,预测算法-神经元网络-决策树-回归,描述用过去的数据描述现在发生了什么,描述现在已经发生的规律,历史数据,描述算法-聚类-关联,数据挖掘算法(按分析目的),回归算法:线性回归、逻辑回归、概率回归统计方法:主成分分析、因子分析、判别分析等关联算法:关联模式、序列模式、连接分析等聚类算法:Cluster、SOM/Kohonen神经元网络:MLP、RBF决策树:CHAID、CART、C4.5、C5.0,数据挖掘算法,使用一元二次项,使用简单线性,预测型回归希望预测“绿点”在哪些情况下发生以及发生的概率,数据挖掘常用算法,预测型决策树希望预测“绿点”在哪些情况下发生以及发生的概率,QuotedpriceLowerlimitprice(ratio),Time,0,0.2,0.4,0.6,0.8,9,10,11,13,15,数据挖掘常用算法,timemethod#oforderratio#ofordereditems,数据挖掘常用算法,预测型神经元网络希望预测“绿点”在哪些情况下发生以及发生的概率,CombinationADACCAB&CD,Support2/52/52/51/5,Confidence2/32/32/41/3,A,B,C,A,C,D,B,C,D,A,D,E,B,C,E,描述型关联了解客户购买哪些产品组合,数据挖掘常用算法,描述型聚类把具有相似行为的客户分到一群,QuotedamountTotalamount,QuotedPriceAveragePrice,数据挖掘常用算法,议程,数据挖掘概述SAS数据挖掘项目方法论及工具EM简介Workshop,SAS数据挖掘项目方法论,企业化经典统计数据分析工具统计分析:STAT,LAB,INSIGHT计量经济学与时间序列分析:ETS运筹优化:OR质量控制与质量提高:QC矩阵编程语言:IML图形与分析工具:GRAPHThinClient:EnterpriseGuide数据挖掘工具:SAS/EnterpriseMiner傻瓜兼专家型,国际标准的全方位的统计分析和数据挖掘工具,EM基本介绍,EM特色EM界面SEMMA方法论节点简介节点通用概貌,SAS/EM特色,支持广泛的平台包括各种UNIX,MVS,OS/390,Linux可访问的数据源多达50多种,和数据库,数据仓库很好的集成Client/Server结构。SEMMA方法论引导,将数据挖掘功能模块组成处理流程图,可视化,图形化,拖拽式操作界面,适用于业务和技术人员丰富的可视化数据探索节点,对数据进行细致分析提供多种数据预处理和变换工具,包括变量自动选择等功能提供丰富的数据挖掘模型和灵活的算法:决策树,神经元网络,回归,基于记忆的推理,两阶段模型,K均值聚类,自组织映射及其他统计方法,以及模型组装技术(Ensemble)提供模型评估模块和多种评估准则提供完整的数据挖掘模型代码输出和打分(Scoring)功能报告工具可以将整个数据挖掘流程和结果生成HTML格式的详细的报告,与其它业务专家和数据挖掘专家共享。,SAS/EM界面,SAS数据挖掘过程方法论-SEMMA,节点简介:Sampling类节点,InputData确定数据源。Sampling提供多种抽样方法,如简单随机抽样、分层抽样、分类抽样等。DataPartition将数据划分为训练(Train)、检验(Validation)、测试(Test)数据,以避免模型过拟合。,节点简介:Explore类节点,DistributionExplorer提供数据的多维分布图,以了解变量的趋势和特色Multiplot提供所有变量的分布图及对KOV的关系图SAS/INSIGHT提供交互式直观统计分析VariableSelection提供选择对KOV重要的KIVs的功能Association提供关联分析和序列分析LinkAnalysis提供连接关系分析,节点简介:Modify类节点,DataSetAttributes设置或改变数据集与变量的属性FilterOutliers提供处理数据集中异常点、稀缺值的功能TransformVariables提供变量变换的功能DataReplacement数据集中数据的替换和校正,主要用于处理缺失数据Cluster提供多种方法的聚类分析(K-mean)SOM/Kohonen自组织特征映射网络据进行分类,节点简介:Model类节点,Regression提供多元回归、逻辑/概率回归及自动选择变量变量的功能DecisionTree决策树,支持CHAID,CART,ID3/C4.5等算法NeuralNetwork提供MLP、RBF等网络结构,及多种调整方法UserDefinedModel为SAS程序编制的模型提供统一的模型评价界面Ensemble提供模型整合的功能,如Combine,Stratified,Bagging&BoostingTwo-StageModel两阶段模型MemoryBasedReasoning,节点简介:Assess类节点,Assessment对不同模型提供图形化比较:“哪一个模型最好?”Reporter自动生成HTML格式报告,节点简介:Scoring类节点,Score可输出SAS/BASE方式的预测代码可用于对新的数据集进行预测C*Score可输出Ccode的预测代码,节点简介:Utilities类节点,SASCode提供SAS程序接口。GroupProcessing提供分组处理的功能Subdiagram建立模型流程子表,方便管理ControlPoint控制流程执行,方便管理DataMiningDatabase(DMDB)建立DMDB(MetaData),节点通用概貌,In/OutDataProperties(选择,浏览)Data/Variables/Log/Output/Notes等Tab修改节点后的自动保存节点的下拉菜单,SAS/EM处理示例,议程,数据挖掘概述SAS数据挖掘项目方法论及工具EM简介Workshop,Workshop(信用风险建模),业务问题用于建模的数据建模前的数据处理建立预测模型模型的评估模型实施,信用风险的业务问题,客户从商业机构获得资金、产品或服务,承诺在未来某天或某段时间内偿还他所使用的资金、产品或服务,并支付一定的费用一个“坏账”客户带来的损失相当于数百个“好”客户给您带来的收益信用管理者要求提供对风险进行定量的度量,以及根据其风险大小决定采取何种最佳措施以减低将来的损失,定义我们关注的高信用风险,申请信用时关注的风险Profitable?将来拖欠的可能性很大客户使用过程中关注的风险信用卡欺诈客户拖欠偿还我提供的信用?多久才是高风险?催收欠费过程中关注的风险无法收回?,信用周期-Applying,信用周期-Behaviour,行为打分引擎(BehScoringEngine)新的Strategy:Inc/DecLimitX-selling,信用周期-Collection,收集打分引擎(ColScoringEngine),Strategy,被移管的客户,9/17,卖给债务代理公司,Write-off,部分偿还,全部偿还Recovery,损失!,催帐单email电话,Workshop(信用风险建模),业务问题用于建模的数据建模前的数据处理建立预测模型模型的评估模型实施,定义所需数据,确定业务问题,找出您想预测的事物历史数据必须包含您想预测的事物(目标变量)其它的变量包括客户的属性,交易数据。使用最新的数据。,信用风险分析数据集市,.,.,.,.,.,.,.,.,.,.,.,.,.,.,.,.,.,.,哪些客户?,.,.,哪些属性?,.,目标变量,哪些客户?,current,Performancewindow,observationwindow,TargetDefinition,ExclusionBadIndeterminateGood,哪些属性?,背景数据年龄性别地区,信用信息开户日期、余额消费金额、偿还金额卡数量、卡用途,信用署信息noofoutstandingloansnoofcurrentloansnooffinishedloans,拖欠信息在过去9个月中拖欠超过30天的次数拖欠超过60天的次数最后付款日期,其他相关信息是否本银行的客户多长时间上一次贷款日期,使用业务知识派生变量,新的变量前3月内余额大于0的次数前3月内透支超过10天的次数最后一次消费距今的天数比率前1/2/3月平均余额/n个月平均余额前1/2/3月消费额/n个月消费额差分,移动平均,趋势,观察使用量的动态状况其它?,使用RFM方法派生变量,MoneyT-1月余额T-2月余额T-3月余额过去三个月/六个月内最大,最小,平均余额Recency最后一次余额0元距今天数余额连续2次=0的时间距今天数余额连续3次=0的时间距今天数Frequency余额=0元的次数余额连续2次=0的次数余额连续3次=0的次数,Workshop(信用风险建模),业务问题用于建模的数据建模前的数据处理建立预测模型模型的评估模型实施,数据挖掘与采样,是否需要进行采样?数据在采样前需要进行什么处理?数据挖掘中所用到的一般采样类型。如何决定样本大小?数据挖掘中采样的指导策略。对于某些特定的目的,如验证和测试,是否应该采用多重采样?,针对小概率事件的过采样,Good,Bad,数据分割,校验,测试,训练,Exploration阶段,通过探索去理解您的数据显现您的数据InsightDistributionExplorerMultiplot使用VariableSelection工具发现最有影响的变量-降维,DistributionExplorer节点,交叉报表简单的汇总分析,Multiplot节点,为每个变量自动生成直方图。同时标明每个变量对目标的影响。,Modify阶段,根据所用的模型进行数据调整优化您的数据极值,异常值缺失值变量转换建立新的变量改变分布的形状定义最优的输入域处理共线性,Replacement节点,包括基于决策树逻辑的缺失值处理。为修正变量建立指示器,TransformVariables节点,提供各种变量转换,包括为了优化二元目标变量预测而对变量进行自动分装。,VariableSelection节点,根据目标变量快速确定输入变量(“modelscreening”)。描述它们拟合线型模型的框架(regression/ANOVA)。单变量R-平方及相关检验。建立新的变量组(AOV16)与降低分类变量的类型。,Workshop(信用风险建模),业务问题用于建模的数据建模前的数据处理建立预测模型模型的评估模型实施,建立预测模型,回归,神经网络和决策树等。Good/Bad作为分析目标。结果:Bad的可能性(全部方法)变量的重要性分析(回归,决策树)规则分析(决策树),EM回归节点,EM神经网络节点,提供基本选项给普通用户“智能”设定其它的复杂参数,EM决策树节点,Workshop(信用风险建模),业务问题用于建模的数据建模前的数据处理建立预测模型模型的评估模型实施,Assessment阶段,LiftCharts(又叫gainschart)利润/损失图(Profit/LossCharts)投资效益比图(ROI)诊断分类图ROCCharts各种基于临界值的图形(Threshold-basedCharts)。,Assessment节点,结果的鉴别,好,中,差,ROC,增益,累计增益,二值目标的混淆矩阵(ConfusionMatrix),正确的否定,错误的肯定,错误的否定,正确的肯定,0,1,0,1,预测结果,实际结果,实际否定合计,实际肯定合计,否定合计,肯定合计,分界(C
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 钻孔桩浇筑技术方案
- 质量控制体系建设与评估方案
- 燃气管道施工现场防护措施方案
- 武汉地铁集团有限公司2026届春季校园招聘备考题库附答案详解(典型题)
- 2026天津医科大学肿瘤医院第三批招聘40人备考题库完整答案详解
- 2026江西南昌大学抚州医学院招聘编外合同制科研助理1人备考题库附答案详解(达标题)
- 雨水管道防冻技术实施方案
- 养猪场疫病防控设施升级方案
- 2026北京协和医院检验科王瑶团队合同制科研助理招聘1人备考题库含答案详解(考试直接用)
- 陕西省2026届定向延安“优师计划地方专项”师范毕业生招聘30人备考题库含答案详解(精练)
- 2025课堂惩罚 主题班会:马达加斯加企鹅课堂惩罚 课件
- 《市域(郊)铁路设计规范》条文说明
- 典型新闻案例分析课件
- 基础教育精品课《杨氏之子》课件模板
- 2022年青岛前进船厂招聘笔试题库及答案解析
- 分包企业准入资格证
- 完整word版《劳动合同书》范本下载
- 设备监造实施细则-202208271405446
- 新浙教版八年级下册初中数学 4.4 平行四边形的判定定理 教学课件
- 2022同等学力申硕英语真题
- 成都市建筑消防设施及电气防火检测规范DB510100T
评论
0/150
提交评论