第三讲:SPSS软件基础使用PPT课件.ppt_第1页
第三讲:SPSS软件基础使用PPT课件.ppt_第2页
第三讲:SPSS软件基础使用PPT课件.ppt_第3页
第三讲:SPSS软件基础使用PPT课件.ppt_第4页
第三讲:SPSS软件基础使用PPT课件.ppt_第5页
已阅读5页,还剩55页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

SPSS基本功能和操作 第三讲 主讲教师 沈浩中国传媒大学新闻传播学院教授中国传媒大学调查统计研究所副所长中国传媒大学数据挖掘研发中心主任博易智讯 北京 信息技术有限公司首席技术顾问IPSOS 中国 市场研究有限公司首席技术顾问 1 如果您不能量化某些事情 那么您就不能理解他它 如果您不能理解它 那么您就不能控制它 如果您不能控制它 那么您就不能改进它 统计学是收集 分析 表述和解释数据的艺术和科学 SPSS是统计分析工具软件 它帮助您完成手工难以完成或无法完成的数据处理工作 数据无处不在数据包含的信息很多 但是数据中的信息往往是分散的 但个数据很难直接被应用起来统计学就是把数据转化为信息的科学 统计学是什么 2 统计分析的技术思路 商业问题数据问题商业问题解决方案统计学方法或者数据挖掘方法 3 统计分析是正确理解数据的工具 首先 要避免犯统计错误 明确 统计没有错误 犯错的是人 理论和方法的错误 理解和解释的错误 4 描述性统计 多变量分析技术 市场研究模型技术 数据挖掘技术 频数分析交叉表分析T检验数据探查分析相关分析方差分析 回归分析主成分分析因子分析聚类分析判别分析对应分析多维尺度分析 结合分析离散选择模型多维偏好分析结构方程式模型分类树决策与预测模型 分类预测细分关联序列 统计分析方法 5 变量 测量尺度 6 数据分析项目各阶段 数据收集数据录入数据读取数据准备数据理解数据分析数据建模模型评估结果报告结果发布 7 SPSS软件功能 产品简介窗口简介菜单简介数据分析步骤无处不在的Help系统进行数据分析要求的格式记录 变量等的一般术语 8 SPSS产品简介 SPSS是服务器 客户端结构的产品SPSS产品由SPSSBase AdvancedCategories Conjoint Trends Regression MissingValueAnalysis Tables ExactTest和Maps等分析模块构成 另外还有专门查看输出结果的SmartViewer模块SPSSDataAccessPack用于和数据库进行连接并获取数据 9 进入SPSS 10 SPSS窗口简介 DataView DataEdit VariableView 11 Syntax Output SPSS窗口简介 12 SPSS的Help系统 帮助菜单 StatisticsCoach ResultCoach Casestudies Tutorial对话框帮助无处不在的 What sthis 13 SPSS的环境设置 14 命令语法规则 每条命令始于新起一行的第一列其他行至少空一列最后一行以 结束变量名必需拼写正确子命令必须以 分隔每行不超过256字符 推荐限制在80字符内 15 利用命令Help 三种编辑方式生成SPSS命令1 通过自己编辑生成2 通过 Paste 生成格式再做修改3 利用 Help 生成格式再作修改利用Help生成SPSS命令的几步1 写入关键字 如 Regression 2 点击工具栏以获取语句3 选择选项以及变量 16 各自适用条件 如果满足于菜单分析 就用菜单分析如果不经常使用SPSS 运行菜单 并获取帮助如果只想运行Syntax文件中的命令 又不想显示命令 用Include命令如果要经常读取某一文本各式或数据库数据 可考虑用Include命令来定义数据 然后进行分析如果做月报性分析 可以考虑用ProductionFacility如果运行同样的命令 只是在文件名或变量名作小的改动 考虑用ProductionFacility中的宏 17 SPSS的变量 变量名 变量类型 变标 值标 缺失值 测量尺度 18 变量和数据整理 排序 转置 数据重构 数据合并 插入变量 汇总数据 正交实验设计 拆分记录 选择样本 样本加权 19 变量或数据转换 计算新变量 随机种子 计数 重新编码 自动分类 秩排序 秩排序 缺失值处理 20 数据分析和方法 21 数据分析和图形分析 展示 22 有用的工具 23 汇总数据 数据选择 一起动手 24 汇总数据 25 描述统计测定指标 数据分布性质 算术平均数 中位数 众数 集中趋势 全距 方差 标准差 离中趋势 偏态 分布形态 四分位距 峰度 26 保留语法 下次再作 研究痕迹 27 频数分析 变量分布 28 29 30 2020 3 21 31 描述性分析 汇总统计 32 A B C 正态分布 33 探索数据关系EXPLORINGRELATIONSHIPS定类变量交互分析CATEGORICALDEPENDENTVARIABLES连续变量趋势图分析CONTINUOUSDEPENDENTVARIABLES相关和散点图分析RELATIONSHIPSBETWEENINDEPENDENTVARIABLES 数据转换DATATRANSFORMATIONS自动编码AUTOMATICRECODE分组值GROUPINGVALUES函数转换FUNCTIONALTRANSFORMATIONS修改异常值MODIFYINGOUTLIERS计算新变量DERIVINGNEWVARIABLES改变分析单元CHANGINGTHECASEBASE消减变量REDUCINGTHENUMBEROFFIELDS 34 计算新变量 菜单 Compute方程式 函数 算术 字符 日期时间 统计量 变量值数字数学与逻辑符号示例 平均值计算字符合并年龄计算条件式计算 35 对变量重新赋值 菜单 Recode与Compute不同之处 Recode利用单个变量值计算生成新值覆盖旧变量或生成新变量旧值与新值的对应关系 两个原则 不重 不漏适用于 将连续变量转换为分类变量将数字字符型变量转换为数值型变量将几个类别合并为一类 36 字符型变量自动转换为数值型变量 菜单 AutomaticRecode适用于 字符型变量转换为数值型变量与Recode相比转换原则 字母顺序 顺序或逆序相同字符串相同值 不同字符串不同值值标签 原变量值标签或值示例 Name Numname Sex Gender 37 Doif elseifLogistic 适用于 基于几个变量生成新变量结构 Doif Compute Elseif Compute Else Compute Endif 示例 将所有产品分为三类 耐用 快速变动 其它 38 图形模块的应用 目的 掌握如何新建图形模块文件 TemplatesorChartlooks 掌握如何应用模版文件了解如何设置图形模版文件为默认外观 39 表格编辑规则 表格要素 行 列 层 数据编辑规则 TableProperties对所有单元格 所有行 列或者层进行编辑属性与新纬度一致 列变量移动到行变量时 CellProperties只对选中的单元格进行编辑属性继承先Table后CellCellProperties覆盖TableProperties特性 40 表属性 用于修改整个表的属性主要功能 单元格属性 字体 对齐方式行列宽度 高度空行和空列打印边界脚标 41 SPSS结果的发布 掌握如何将表格 图形 文本等结果转入其他应用格式中掌握将SPSS结果导入为静态网页格式或文本格式OLE方法将SPSSPivotTable转入其他应用程序中将SPSSGraph转入其他应用程序中将SPSS结果导出利用SPSSSmartViewerWebServer来展示结果 42 文件的合并 增加记录和变量 增加记录 一种纵向合并 是对不同个体的相同属性进行合并 事先排序 变量相同 增加变量 是一种横向合并 是对相同个体的不同属性进行合并 事先排序 关键字且唯一 一对一匹配或一对多匹配 合并两个文件或多个文件 利用菜单一次只能合并两个文件 其中一个文件必须使SPSS格式 另一个文件必须可以用SPSS打开 43 定义商业问题 最重要的要求是你的数据和业务问题 没有任何统计方法或算法 无论多么复杂玄妙 无法提供有价值的结果 即使有也难以使人信赖 缺少这些背景知识 无法明确定义要解决的问题 不能为分析准备资料 也很难正确解释所得到的结果 要想充分发挥数据的价值 必须要对你的目标有一个清晰明确的定义 决定到底想干什么 有效的问题定义还应该包含一个对你的知识发现 以及项目得到结果进行衡量的标准 还应该有整个项目预算和理性的解释 比如你说你想提高商业战役的用户响应时 你想做的可能是 提高用户响应率 也可能是 提高一次用户响应的价值 要解决这两个问题而建立的分析方法或模型几乎是完全不同的 你必须做出决定 44 理解商业问题 性别 父亲的教育程度 被访者教育程度 工作类型 城市 当前收入水平 45 性别 父亲的教育程度 被访者教育程度 工作类型 城市 当前收入水平 当前财政状况 未来信用风险 Time1 Time2 46 家庭收入 销售数量 喜欢流行音乐 47 数据质量评估 龙生龙 凤生凤 对数据分析也是同样道理 要想得到好的模型必须用好的资料 数据质量评估就是要确定资料中哪些性质会最终影响模型的质量 你不仅要保证资料值的正确性和一致性 还要保证这些值是按同样的方法记录的同一件事情 数据域中可能包含了不正确的值 比如 身份证号码被粗心的资料录入人员录入了年龄 即使每个单个域中包含的资料都是正确的 但这些域组合起来时可能就出现了错误的记录 如男性怀孕 有时域中的值为空 当从多个不同的源整合资料时一定要注意不同源之间资料的一致性 存在各种各样的数据质量问题 48 资料清理 缺值是一个非常有害的问题 如果只要有一个数据域缺值就把这个记录删除掉 那么最后可能得到一个很小的数据集 同时你得到的这个数据集很可能已经丢失了实际资料中蕴含的一些信息 因为你已经改变了原资料的组成 缺值这件事本身可能就是非常有意义的 比如也许只有富有的顾客才经常忽略 收入 这一项 你可以增加一个新的变量来标识这些缺值的记录 然后用它建立一个模型 然后与按其它方法建立的模型进行比较 看哪个准确度更高一些 另一种方法是为缺失值计算一个替代值 计算替代值的常用方法包括使用形式值 名词变量 中间值 定序变量 平均值 连续变量 49 还有一个不是很常用的方法是按照数据库中值的分布规律为缺值的字段添值 比如如果数据库中包含40 男性和60 女性 那么在为那些性别缺失的记录添值时也按这个比例随机赋值 还有一种方法是为这个缺失值的字段用统计分类和预测技术建立一个预测模型 然后按照这个模型的预测结果添值 这种方法效果应该最好 当然也最花时间 承认生活并不是十全十美是必要的 数据分析也是一样 你也不可能解决所有遇到的问题 只能做得尽量好一点 检查和修正数据质量问题是一项非常耗费时间和金钱的工作 对解决不了的问题 通常你只能采取折衷的办法 先用现有的资料分析 把问题放到将来去解决 缺失值处理问题 50 进行 描述型分析 以获得更详细的关于可视化 描述性统计量 频数分析 关联分析 交叉分析 连结分析及其它资料分析方法 分析的目的是找到对预测输出影响最大的数据域和变量 并决定是否需要定义转换和导出新的字段 变量 如果资料集包含成百上千的字段 那么浏览分析这些资料将是一件非常耗时和累人的事情 这时你需要选择一个具有好的接口和功能强大的工具软件来协助你完成这些事情 分析资料 51 理想情况下 你可以选择拥有的所有变量 把他们输入到统计分析工具中 让他来帮你选择哪些是最好的预测变量 实际上这样做并不是很好 一方面是由于随着变量个数的增加 模型的建立时间也随之上升 另一方面盲目的把所有的变量都加进去会导致建立错误的模型 比如 建立预测模型的一个常见错误就是把一个依赖于目标变量的变量 由目标变量导出 作为预测变量 像用生日来 预测 年龄 在原理上说 一些数据算法自动忽略不相关的变量 自动计算相关的 协 变量 在实际应用中完全依赖这些工具是不明智的 毕竟最了解你的资料的还是你自己 利用你的领域知识 你会做出大部分正确的选择 例如 用身份证号或人名做预测变量要么不会有任何用处 甚至降低了其它重要变量的影响力 选择变量 52 与选择变量类似 你可能也想用你所有的记录来建立模型 然而如果你的资料量确实非常巨大的话 要么要花费很长的时间来建立这个模型 要么买一台计算能力非常强大的机器 因此 如果资料量特别大 进行抽样就是一个很好的主意 如果做的足够仔细 保证抽样是按真正的随机来进行的 抽样对大部分商业问题来说都不会丢失信息 你可以用所有的资料建立一个模型 你还可以用抽样的方法根据不同得抽样方法建立几个模型 然后评价这几个模型选择一个最好的 我们认为后面这种方法得到的方法更准确 更健壮 你可能选择资料中明显的异常资料删除掉 然而在某些情况下 这些看来异常的资料可能包含了你要建立模型的重要信息 基于你对问题的理解方式的不同 通常可以把这些异常忽略掉 比如可以把异常认为是人为的录入错误 有时也需要向资料中添加一些新的资料 如 那些没有做出购买的客户 选择记录 53 很多情况下需要从原始资料中衍生一些新的变量作为预测变量 比如 用话费额度占收入的百分比来预测信用风险比直接用话费额度和收入做预测变量更准确一些 也更容易理解一些 很多变量如果组合起来 加 减 比率等 会比这些变量自身影响力更大 一些变量如果扩大它的范围也会成为一个非常好的预测变量 比如用一段时间内话费变化情况代替一个单一的话费资料 创建新变量 54 对建立模型来说要记住的最重要的事是它是一个反复的过程 需要仔细考察不同的模型以判断哪个模型对你的商业问题最有用 你在寻找好的模型的过程中学到的的东西会启发你修改你的资料 甚至改变最初对问题的定义 一旦决定了预测的类型之后 分类还是回归 就需要为这个预测选择模型的类型 可能是传统的数学统计 甚至一棵决策树 神经网络 选择什么样的模型决定了你需对资料做哪些预处理工作 一旦所有的资料准备好之后 就可以开始训练和建构你的模型进行分析 建立模型 55 验证的效验 为了保证得到的模型具有较好的精确度和健壮性 需要一个定义完善的训练 验证协议 有时也称此协议为带指导的学习 他的主要思想就是先用一部分资料建立模型 然后再用剩下的资料来测试和验证这个得到的模型 有时还有第三个资料集 称为验证集 因为测试集可能受模型的特性的影响 这时需要一个独立的资

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论