应用SAS_EM进行数据挖掘ppt课件_第1页
应用SAS_EM进行数据挖掘ppt课件_第2页
应用SAS_EM进行数据挖掘ppt课件_第3页
应用SAS_EM进行数据挖掘ppt课件_第4页
应用SAS_EM进行数据挖掘ppt课件_第5页
已阅读5页,还剩69页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

应用SAS EM进行数据挖掘 2003 04 16赛仕软件研究所 上海 有限公司 议程 数据挖掘概述SAS数据挖掘项目方法论及工具SAS EM简介Workshop 企业决策支持信息系统 OLTP 数据仓库 统计分析数据挖掘 决策支持 企业知识 DWSolution DM AnalysisSolution ApplicationforC S B S CBISolution OLAP 查询报表 什么是数据挖掘 定义 从海量的数据库中选择 探索 识别出有效的 新颖的 具有潜在效用的乃至最终可理解的模式以获取商业利益的非平凡的过程 Fayyad Piatetsky Shapiro特征 处理海量的数据 揭示企业运作中的内在规律 为企业运作提供直接决策分析 并为企业带来巨大经济效益 数据仓库 处理后数据 Source FromDataMiningtoKnowledgeDiscovery AnOverview AdvancesinKnowledgeDiscoveryandDataMining AAAIPress TheMITPress 数据抽取 数据预处理 数据挖掘 数据变换 解释评价 数据挖掘全过程 数据挖掘涉及领域 数据挖掘算法 按有无目标变量 有监督算法无监督算法 有目标变量 无目标变量 传统回归无神经网络决策树逻辑 概率回归决策树聚类神经网络神经网络判别分析基于记忆的推理决策树主成分分析聚类关联 序列分析连接分析因子分析 预测 分类 探索 关联 预测用过去的数据预测未来发生什么 预测未来发生的可能性 历史数据 预测算法 神经元网络 决策树 回归 描述用过去的数据描述现在发生了什么 描述现在已经发生的规律 历史数据 描述算法 聚类 关联 数据挖掘算法 按分析目的 回归算法 线性回归 逻辑回归 概率回归统计方法 主成分分析 因子分析 判别分析等关联算法 关联模式 序列模式 连接分析等聚类算法 Cluster SOM Kohonen神经元网络 MLP RBF决策树 CHAID CART C4 5 C5 0 数据挖掘算法 使用一元二次项 使用简单线性 预测型 回归希望预测 绿点 在哪些情况下发生以及发生的概率 数据挖掘常用算法 预测型 决策树希望预测 绿点 在哪些情况下发生以及发生的概率 QuotedpriceLowerlimitprice ratio Time 0 0 2 0 4 0 6 0 8 9 10 11 13 15 数据挖掘常用算法 timemethod oforderratio ofordereditems 数据挖掘常用算法 预测型 神经元网络希望预测 绿点 在哪些情况下发生以及发生的概率 CombinationA DA CC AB C D Support2 52 52 51 5 Confidence2 32 32 41 3 A B C A C D B C D A D E B C E 描述型 关联了解客户购买哪些产品组合 数据挖掘常用算法 描述型 聚类把具有相似行为的客户分到一群 QuotedamountTotalamount QuotedPriceAveragePrice 数据挖掘常用算法 议程 数据挖掘概述SAS数据挖掘项目方法论及工具EM简介Workshop SAS数据挖掘项目方法论 企业化经典统计数据分析工具统计分析 STAT LAB INSIGHT计量经济学与时间序列分析 ETS运筹优化 OR质量控制与质量提高 QC矩阵编程语言 IML图形与分析工具 GRAPHThinClient EnterpriseGuide数据挖掘工具 SAS EnterpriseMiner傻瓜兼专家型 国际标准的全方位的统计分析和数据挖掘工具 EM基本介绍 EM特色EM界面SEMMA方法论节点简介节点通用概貌 SAS EM特色 支持广泛的平台包括各种UNIX MVS OS 390 Linux可访问的数据源多达50多种 和数据库 数据仓库很好的集成Client Server结构 SEMMA方法论引导 将数据挖掘功能模块组成处理流程图 可视化 图形化 拖拽式操作界面 适用于业务和技术人员丰富的可视化数据探索节点 对数据进行细致分析提供多种数据预处理和变换工具 包括变量自动选择等功能提供丰富的数据挖掘模型和灵活的算法 决策树 神经元网络 回归 基于记忆的推理 两阶段模型 K均值聚类 自组织映射及其他统计方法 以及模型组装技术 Ensemble 提供模型评估模块和多种评估准则提供完整的数据挖掘模型代码输出和打分 Scoring 功能报告工具可以将整个数据挖掘流程和结果生成HTML格式的详细的报告 与其它业务专家和数据挖掘专家共享 SAS EM界面 SAS数据挖掘过程方法论 SEMMA 节点简介 Sampling类节点 InputData确定数据源 Sampling提供多种抽样方法 如简单随机抽样 分层抽样 分类抽样等 DataPartition将数据划分为训练 Train 检验 Validation 测试 Test 数据 以避免模型过拟合 节点简介 Explore类节点 DistributionExplorer提供数据的多维分布图 以了解变量的趋势和特色Multiplot提供所有变量的分布图及对KOV的关系图SAS INSIGHT提供交互式直观统计分析VariableSelection提供选择对KOV重要的KIVs的功能Association提供关联分析和序列分析LinkAnalysis提供连接关系分析 节点简介 Modify类节点 DataSetAttributes设置或改变数据集与变量的属性FilterOutliers提供处理数据集中异常点 稀缺值的功能TransformVariables提供变量变换的功能DataReplacement数据集中数据的替换和校正 主要用于处理缺失数据Cluster提供多种方法的聚类分析 K mean SOM Kohonen自组织特征映射网络据进行分类 节点简介 Model类节点 Regression提供多元回归 逻辑 概率回归及自动选择变量变量的功能DecisionTree决策树 支持CHAID CART ID3 C4 5等算法NeuralNetwork提供MLP RBF等网络结构 及多种调整方法UserDefinedModel为SAS程序编制的模型提供统一的模型评价界面Ensemble提供模型整合的功能 如Combine Stratified Bagging BoostingTwo StageModel两阶段模型MemoryBasedReasoning 节点简介 Assess类节点 Assessment对不同模型提供图形化比较 哪一个模型最好 Reporter自动生成HTML格式报告 节点简介 Scoring类节点 Score可输出SAS BASE方式的预测代码可用于对新的数据集进行预测C Score可输出Ccode的预测代码 节点简介 Utilities类节点 SASCode提供SAS程序接口 GroupProcessing提供分组处理的功能Subdiagram建立模型流程子表 方便管理ControlPoint控制流程执行 方便管理DataMiningDatabase DMDB 建立DMDB MetaData 节点通用概貌 In OutDataProperties 选择 浏览 Data Variables Log Output Notes等Tab修改节点后的自动保存节点的下拉菜单 SAS EM处理示例 议程 数据挖掘概述SAS数据挖掘项目方法论及工具EM简介Workshop Workshop 信用风险建模 业务问题用于建模的数据建模前的数据处理建立预测模型模型的评估模型实施 信用风险的业务问题 客户从商业机构获得资金 产品或服务 承诺在未来某天或某段时间内偿还他所使用的资金 产品或服务 并支付一定的费用一个 坏账 客户带来的损失相当于数百个 好 客户给您带来的收益信用管理者要求提供对风险进行定量的度量 以及根据其风险大小决定采取何种最佳措施以减低将来的损失 定义我们关注的高信用风险 申请信用时关注的风险Profitable 将来拖欠的可能性很大 客户使用过程中关注的风险信用卡欺诈客户拖欠偿还我提供的信用 多久才是高风险 催收欠费过程中关注的风险无法收回 信用周期 Applying 信用周期 Behaviour 行为打分引擎 BehScoringEngine 新的Strategy Inc DecLimitX selling 信用周期 Collection 收集打分引擎 ColScoringEngine Strategy 被移管的客户 9 17 卖给债务代理公司 Write off 部分偿还 全部偿还 Recovery 损失 催帐单email电话 Workshop 信用风险建模 业务问题用于建模的数据建模前的数据处理建立预测模型模型的评估模型实施 定义所需数据 确定业务问题 找出您想预测的事物历史数据必须包含您想预测的事物 目标变量 其它的变量包括客户的属性 交易数据 使用最新的数据 信用风险分析数据集市 哪些客户 哪些属性 目标变量 哪些客户 current Performancewindow observationwindow TargetDefinition ExclusionBadIndeterminateGood 哪些属性 背景数据年龄性别地区 信用信息开户日期 余额消费金额 偿还金额卡数量 卡用途 信用署信息noofoutstandingloansnoofcurrentloansnooffinishedloans 拖欠信息在过去9个月中拖欠超过30天的次数拖欠超过60天的次数最后付款日期 其他相关信息是否本银行的客户多长时间上一次贷款日期 使用业务知识派生变量 新的变量前3月内余额大于0的次数前3月内透支超过10天的次数最后一次消费距今的天数 比率前1 2 3月平均余额 n个月平均余额前1 2 3月消费额 n个月消费额 差分 移动平均 趋势 观察使用量的动态状况其它 使用RFM方法派生变量 MoneyT 1月余额T 2月余额T 3月余额过去三个月 六个月内最大 最小 平均余额 Recency最后一次余额 0元距今天数余额连续2次 0的时间距今天数余额连续3次 0的时间距今天数 Frequency余额 0元的次数余额连续2次 0的次数余额连续3次 0的次数 Workshop 信用风险建模 业务问题用于建模的数据建模前的数据处理建立预测模型模型的评估模型实施 数据挖掘与采样 是否需要进行采样 数据在采样前需要进行什么处理 数据挖掘中所用到的一般采样类型 如何决定样本大小 数据挖掘中采样的指导策略 对于某些特定的目的 如验证和测试 是否应该采用多重采样 针对小概率事件的过采样 Good Bad 数据分割 校验 测试 训练 Exploration阶段 通过探索去理解您的数据显现您的数据InsightDistributionExplorerMultiplot使用VariableSelection工具发现最有影响的变量 降维 DistributionExplorer节点 交叉报表简单的汇总分析 Multiplot节点 为每个变量自动生成直方图 同时标明每个变量对目标的影响 Modify阶段 根据所用的模型进行数据调整优化您的数据极值 异常值缺失值变量转换建立新的变量改变分布的形状定义最优的输入域处理共线性 Replacement节点 包括基于决策树逻辑的缺失值处理 为修正变量建立指示器 TransformVariables节点 提供各种变量转换 包括为了优化二元目标变量预测而对变量进行自动分装 VariableSelection节点 根据目标变量快速确定输入变量 modelscreening 描述它们拟合线型模型的框架 regression ANOVA 单变量R 平方及相关检验 建立新的变量组 AOV16 与降低分类变量的类型 Workshop 信用风险建模 业务问题用于建模的数据建模前的数据处理建立预测模型模型的评估模型实施 建立预测模型 回归 神经网络和决策树等 Good Bad作为分析目标 结果 Bad的可能性 全部方法 变量的重要性分析 回归 决策树 规则分析 决策树 EM回归节点 EM神经网络节点 提供基本选项给普通用户 智能 设定其它的复杂参数 EM决策树节点 Workshop 信用风险建模 业务问题用于建模的数据建模前的数据处理建立预测模型模型的评估模型实施 Assessment阶段 LiftCharts 又叫gainschart 利润 损失图 Profit LossCharts 投资效益比图 ROI 诊断分类图ROCCharts各种基于临界值的图形 Threshold basedCharts Assessment节点 结果的鉴别 好 中 差 ROC 增益 累计增益 二值目标的混淆矩阵 ConfusionMatrix 正确的否定 错误的肯定 错误的否定 正确的肯定 0 1 0 1 预测结果 实际结果 实际否定合计 实际肯定合计 否定合计 肯定合计 分界 Cutoff 概率 x2 0 0 0 2 0 4 0 6 0 8 1 0 x1

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论