SPSS 数据挖掘基础_第1页
SPSS 数据挖掘基础_第2页
SPSS 数据挖掘基础_第3页
SPSS 数据挖掘基础_第4页
SPSS 数据挖掘基础_第5页
已阅读5页,还剩68页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、SPSS 数据挖掘培训,2,培训内容,第一章 SPSS 数据挖掘简介 第二章 数据获取 第三章 数据质量 第四章 数据处理 第五章 寻找数据之间的关系 第六章 复杂数据处理 第七章 建模前数据准备,3,第一章 SPSS Modeler数据挖掘简介,内容: 数据挖掘概念和技术简介 介绍CRISP-DM (跨行业数据挖掘标准流程) 介绍数据挖掘环境 介绍基本操作,4,数据挖掘定义:用已验证的方法从大量数据中发掘出可采取行动的内在知识,从而改善企业运营。 已验证的方法 数据 知识 改善运营 数据挖掘技术: 预测与分类 聚类 关联性分析 序列分析 异常监测 时间序列分析,数据挖掘,5,对将来发生的事情

2、进行预测,预测与分类,6,基于事物的属性进行自动归类,聚类分析,7,关联可能一起发生的事件,关联分析,8,确定事件发生的序列,序列相关分析,9,从正常群体中筛选出行为异常的个体,异常分析,10,基于事物发展的延续性和随机性预测事物未来的发展,时间序列分析,11,应用领域,流失顾客 Scoring模型,市场活动反应模型,顾客细分&扼要描述,产品生产需要预测模型,商品推荐模型,销售预测模型,收入推算模型,网络浏览量预测模型,新加入/流失顾客Scoring模型,揭发保险欺诈模型,贷款拖欠管理模型,信用评价模型,统计质量管理模型,生物学相关模型,商圈分析,LTV (Life Time Value),R

3、isk 管理模型,揭发欺诈模型,早期预警模型,质量保证(Warranty) 分析模型,1.2 数据挖掘应用,数据挖掘越来越多的应用到了各个领域中,主要包括与客户关系管理相关的模型、与风险控制相关的模型、与生产销售预测相关的模型等。,数据挖掘,12,制造业,制造业数据挖掘应用主题,关于轿车产品的需求预测,不良钢铁制造工艺的预测,轿车质量保证(Warranty)分析,轿车顾客的细分&扼要描述,电子产品Cross-selling, Up-selling,轮胎质量管理,库存最优化分析,产品收益性分析,1.2 数据挖掘应用,13,金融业,金融业数据挖掘应用主题,1.2 数据挖掘应用,14,零售业,零售业

4、数据挖掘应用主题,1.2 数据挖掘应用,15,通信业,通信行业数据挖掘应用主题,1.2 数据挖掘应用,16,政府/公共领域,政府/公共领域数据挖掘应用主题,1.2 数据挖掘应用,17,其他领域,其它领域(医院, 航空公司, 广告公司, 学校等)数据挖掘应用主题,1.2 数据挖掘应用,18,CRISP-DM 过程模型,跨行业数据挖掘标准过程(CRISPDM) 定位是面向行业、工具导向、面向应用 适用于大型工业和商业实践的一般标准 六个阶段: 商业理解 数据理解 数据准备 建模 模型评估 结果发布,19,CRISP-DM商业理解,商业 理解,数据 理解,数据 准备,建立 模型,模型 评估,结果 发

5、布,确定商业 目标,形势评估,确定数据 挖掘目标,制定项目 计划,背景,商业目标,成功标准,拥有资源,需求、假定 和限制,风险和 偶然性,专业 术语,成本和 收益,数据挖掘 目标,数据挖掘 成功标准,项目计划,工具和方法 评估,20,CRISP-DM数据理解,商业 理解,数据 理解,数据 准备,建立 模型,模型 评估,结果 发布,收集原始 数据,数据描述,数据探索 性分析,数据质量 描述,数据收集 报告,数据描述 报告,探索性数据 分析报告,数据质量 报告,21,数据挖掘项目实施过程数据理解举例,数据字典描述 业务假设验证主要业务假设参考因素和分析目标的关联程度如何? 业务假设不成立 业务假设

6、成立 数据质量分析关注的因素数据质量如何?缺失率是否严重?,22,CRISP-DM数据准备,商业 理解,数据 理解,数据 准备,建立 模型,模型 评估,结果 发布,选择数据,确定分析包含/剔除数据,数据集,数据集 描述,数据清理,数据清理报告,数据重构,生成新的变量(字段),生成新的记录,整合数据,合并相关数据,格式化数据,改变数据格式,适应分析,23,数据挖掘项目实施过程数据准备举例,缺失值填补客户年收入数据缺失,补入一定范围内的随机数?还是常值?还是建立另一个预测模型通过其它客户年收入来填补客户年收入缺失值? 清理异常数据哪些客户由于特殊情况客户年收入填写失真?哪些客户年收入数据有问题?

7、派生衍生变量最近3个月的交易量转换成交易量增长百分比;开户日期转换成开户时长等,24,CRISP-DM建立模型,商业 理解,数据 理解,数据 准备,建立 模型,模型 评估,结果 发布,选择建模 技术,产生检验 设计,建立模型,评价模型,模型 技术,模型假设,检验设计,参数设定,建模,模型评价,参数设定 的修订,模型描述,25,SPSS Modeler中涉及的算法,人工智能,关联分析模型,聚类模型,决策树模型,其他,回归模型,自动建模,时间序列,降维,神经网络模型,26,不同数据模型结果比较,分析之初很难清晰定义哪种算法拟合效果最好 准确性不是衡量不同模型效果的唯一标准 需要多角度去评估模型的效

8、果(准确性、查全率、纯度、提升度等),收益图,提升图,27,CRISP-DM模型评估,商业 理解,数据 理解,数据 准备,建立 模型,模型 评估,结果 发布,结果评估,数据挖掘 过程回顾,确定下一 步的工作,评估数据 挖掘结果,被认可的模型,数据挖掘过程 的回顾,列出可能 的行动,决策,28,CRISP-DM结果发布,商业 理解,数据 理解,数据 准备,建立 模型,模型 评估,结果 发布,发布结果 计划,监测和维护 模型计划,生成最终数据 挖掘报告,项目回顾,结果发布计划,监测和维护 模型计划,最终数据 挖掘报告,数据挖掘 报告展现,项目检验 总结,29,第二章 获取数据,内容 可以读取的数据

9、格式 文本数据文件 数据文件 ODBC 读取数据库 查看数据,30,读取的数据格式,文本文件 工具专有数据文件 ODBC 兼容的数据库 用户输入文件,31,文本文件,自由字段文本文件是包含分隔符(逗号、制表符、空格或一些其它字符)的数据文件,可以使用分隔符断开的方式读取数据 如果数据是列界定的(字段未被分隔,但是始于相同的位置并有固定长度),应该使用固定宽度读取方式导入。,32,数据库节点,使用数据库节点前必须配置 ODBC 驱动去指定数据库的位置 “控制面板-管理工具” 选择 ODBC 选择 “添加” 备注:SPSS专用ODBC可通过安装SDAP软件包载入,33,添加 ODBC 数据源,选择

10、合适的 ODBC 驱动,该驱动应该匹配数据库的名称和版本 数据库或数据库文件,34,定义字段类型,类型节点指定字段的一系列重要属性 指定字段类型、方向和缺失值 SPSS Modeler 可以自动设置变量类型,用户也可以强制指定类型 为建立模型,指定字段的角色 指定缺失值以及如何处理缺失值 变量值检查保证字段值满足一定的设置,35,定义字段类型,字段类型帮助您理解正在使用的数据,是一些数据准备和所有建模程序所必需的 字段类型: 连续型 用于描述数值,如0-100 或者0.75-1.25 内的连续值一个连续值可以是整数、实数或日期/时间 离散型用于当一个具体值的精确数量未知时描述字符串,一旦数据被

11、读取,其类型就会是标记、集合或者无类型 集合型 用于描述带有多个具体值的数据(黄、绿、蓝) 标记型 用于只取两个具体值的数据(真、假) 无类型 用于不符合上述任一种类型的数据或者含有太多元素的集合类型数据,36,第三章 数据质量,内容 缺失数据定义 数据审核 目的 发现数据的准确性、完整性和数据整体分布的方法,37,缺失数据类型,系统缺失值,也被称作 nulls,这些值在数据库中被留为空格,而且在类型节点上它们并不被明确设置为“缺失”系统缺失值一般显示为 $null$ 用户自定义缺失值,也被称作空白 blanks,这些值在类型节点上被明确地定义为缺失确定为空白的数据值被标记为特殊对待,而且在大

12、多数计算中被剔除,38,输出检查结果,点击小图看完整的 分布图或直方图,39,4.1.1 定性变量的数值描述,5. 结果解释,4. 输出结果,“统计量”表格显示分析变量“Inccat”的有效记录数和缺失记录数 频率:各类别的记录数; 百分比:各类别的记录数占总记录数的比例; 有效百分比:各类别的记录数占有效记录总数(不含缺失值的记录总数)的比例; 累积百分比:按类别排序后,当前类别之前所有类别(包含当前类别)的记录数占有效记录总数的比例。,40,推断性统计 参数估计 样本和总体 样本参数和总体统计量 从样本参数估计总体统计量 假设检验 假设检验的一般思路,2. 推断性统计,统计学是用以: 收集

13、数据、整理分析数据和由数据得出结论的一组概念、原则和方法。 描述性统计 利用表格、图形或者数值(数值特征)来展示和刻画数据中的信息 推断性统计 利用样本获得的数据对总体的性质进行估计或者检验。总体的性质通常用概率模型刻画,1. 统计学分类,4.1.2 定量变量的数值描述,41,平均数 中位数 众数 百分位数 四分位数,2. 位置描述概述(1),通过数据指标来概括数据中的信息 刻画数据的位置; 刻画数据的变异程度; 刻画相对位置和检测异常值; 探索性的分析 刻画两个变量之间的关系,1. 概述,4.1.2 定量变量的数值描述,42,3. 位置描述概述(2),平均数 数据值的算术平均: 最常用的中心

14、位置度量 受极端值影响 例:1,3,5,7,9,4.1.2 定量变量的数值描述,43,4. 位置描述概述(3),中位数 重要的中心位置度量 在递增排序后的数据列中 若 n 是 奇数,中位数是正中央的数 若 n 是 偶数,中位数是正中央的两数的平均值. 不受极端值的影响 例:1,5,7,3,9,4.1.2 定量变量的数值描述,44,5. 位置描述概述(4),众数 发生频数最高的数据值 不受极端值的影响 众数可能不存在 可能有多个众数(单峰,双峰,多峰) 可用于定量或定性数据,4.1.2 定量变量的数值描述,45,6. 位置描述概述(5),百分位数 第p百分位数 使得至少有p%的数据小于或等于这个

15、值,且使得至少有(100-p)%的数据大于或等于这个值 如何计算? 将原数据从小到大排列 计算i=(p/100)n 若i是整数, 则第p百分位数为第i 与第 i+1 项的平均 若i不是整数,则向上取整。,4.1.2 定量变量的数值描述,46,7. 位置描述概述(6),四分位数 将排序后的数据分为四个等份 不受极端值的影响,4.1.2 定量变量的数值描述,47,8. 变异程度描述概述(1),4.1.2 定量变量的数值描述,48,9. 变异程度描述概述(2),全距、极差 极差= 最大值 最小值(全距) 忽略数据的分布,极差= 12 - 7 = 5,极差= 12 - 7 = 5,4.1.2 定量变量

16、的数值描述,7 8 9 10 11 12,7 8 9 10 11 12,49,10. 变异程度描述概述(3),四分位点内距 四分位点内距= 不受极端值的影响,11 12 13 16 16 17 18 21,= 17.5 - 12.5 = 5,4.1.2 定量变量的数值描述,50,11. 变异程度描述概述(4),方差 重要度量 对于总体: 对于样本:,4.1.2 定量变量的数值描述,12. 变异程度描述概述(5),标准差 最重要的变异程度的度量 反映了关于平均值的变异程度 对于总体: 对于样本:,51,13. 变异程度描述概述(6),标准差比较,Mean = 15.5 s = 3.338,11

17、12 13 14 15 16 17 18 19 20 21,Data B,Data A,Mean = 15.5 s = .9258,Mean = 15.5 s = 4.57,Data C,11 12 13 14 15 16 17 18 19 20 21,11 12 13 14 15 16 17 18 19 20 21,4.1.2 定量变量的数值描述,52,14. 变异程度描述概述(7),变异系数,反映标准差相对于平均值的大小,是对变异程度的相 对度量 可用来比较两组或多组数据 公式 ( 对样本):,4.1.2 定量变量的数值描述,15. 变异程度描述概述(8),变异系数比较,Stock A:

18、去年的平均价格 = $50 标准差 = $5 Stock B: 去年的平均价格 = $100 标准差= $5,变异系数: Stock A: 10 Stock B: 5,第四章 数据处理介绍,Copyright 2009-11, SPSS Inc.,54,第四章 数据加工,内容 选择处理记录 字段处理:过滤、导出、重新分类、设为标志,Copyright 2009-11, SPSS Inc.,55,数据处理方法,内容 选择处理记录 业务层面做记录筛选 特定数据的排除 字段处理:过滤、导出、重新分类、设为标志 排除无用字段以节约资源 导出字段使字段更显著 对分类变量进行重新 将变量转化为标志,第五章

19、 寻找数据之间的关系,Copyright 2009-11, SPSS Inc.,57,第五章 变量间的关系,内容 网络图和矩阵研究符号字段之间关系 使用相关系数来研究数值字段之间关系,Copyright 2009-11, SPSS Inc.,58,在数据中寻找关系,使用目标字段层叠 矩阵生成符号数据交叉列联表 网络图可视化表现符号数据之间的关系 统计量计算数值字段之间的相关系数 散点图和直方图可视化表现数值数据(交叠符号字段),59,网络图:可视化表现符号字段,使用网络图节点连接类型节点 MARITAL,MORTGAGE 和 RISK 之间是否表现出关联 选择字段 MARITAL,MORTGA

20、GE 和 RISK 线段值为绝对数值 连接规模连续变化 只显示大于 300 的连接 400 以下为弱连接,600 以上为强连接 输出网络图,60,统计量节点:数值字段之间的相关性,相关分析是分析变量之间关系的密切程度时常用的统计方法,最常见的是两两相关分析,例如:研究身高和体重的关系;销售额和需求之间的关系 统计关系常见类型 线性相关: 两变量呈线性共同增大 呈线性一增一减负 非线性相关 曲线相关 两变量存在相关趋势 不相关,1. 相关分析概要,如果两个变量的观测点很分散,无任何规律,则表示变量间没有相关关系,2. 线性相关与不相关,61,散点图,简单散点图Simple,重叠散点图Overla

21、y,矩阵散点图Matrix,三维散点图3-D,62,直方图,既要看占比,也要看绝对数,63,第六章 复杂数据处理技术,内容 合并多个数据源数据 抽取样本,选择和缓存数据 文件操作,64,合并多个数据源数据,内容: 使用追加串联包含相似字段的记录集的文件 使用合并把不同数据源的信息加入到现有数据源 使用合并匹配字段内容或是将数据字典更新到数据中,65,抽取样本,选择和缓存数据,内容: 使用抽样和选择节点抽取样本 使用分割节点分割数据为训练和测试样本 使用缓存数据加速数据处理 目的: 介绍一系列对数据进行预处理的方法,66,随机抽取样本,利用函数进行抽样 导出随机变量 根据随机变量的分布作分段标识 选择指定的标识,利用工具直接抽样 包括样本 设定抽取个数,或抽取比例 设定随机种子数54321,第七章 建模前数据准备,介绍在Modeler中建模前的数据准备和清洗操作, 2006 SPSS Inc.,68,内容,简要讨论建模前的数据准备和清洗 使用条形图和平衡数据 分割数据为训练和测试样本 通过分布图转换数据 运行神经网络前使用转换到连续变量

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论