第4章spss统计技术1ppt课件.ppt_第1页
第4章spss统计技术1ppt课件.ppt_第2页
第4章spss统计技术1ppt课件.ppt_第3页
第4章spss统计技术1ppt课件.ppt_第4页
第4章spss统计技术1ppt课件.ppt_第5页
已阅读5页,还剩150页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第四章SPSS统计技术 SPSS基本操作及描述统计T检验 2检验回归分析 数据的输入和保存 NA NotAnswered NAP NotAppropriate DK Don tKnow 画图数据分组描述统计頻数描述 SPSS基本操作及描述统计 数据 排序数据 拆分转换 计算转换编码 基本操作 像年龄变量 收入变量 成绩变量都是典型的连续变量 这就是我们前面介绍的Pearson相关 相关分析 例从某系随机选取了40名大学生进行追踪研究 分别在入学后一周 第一学年末 第二学年末和第三学年末共4次英语词汇测验推算得到的被试的英语词汇量 单位 千 表中的变量如下 性别 0表示女生 1表示男生 test1 入学后一周词汇量 test2 第一学年末词汇量 test3 第二学年末词汇量 test4 第三学年末词汇量 想计算并检验学生英语词汇量四次测验之间的相关系数 在进行相关分析之前 可以使用Graphs菜单中的Scatter命令作散点图 散点图是以点的分布反映变量之间相关情况的统计图形 根据图中的各点分布走向和密集程度 大致可以判断变量之间的关系 按顺序Graphs Scatter单击 打开Scatterplot散点图主对话框 1 Simple简单散点图 只显示一对相关变量的散点图 4 3 D三维散点图 显示三个相关变量之间的散点图 3 Matrix矩阵散点 在矩阵中显示多个相关变量之间的散点图 2 Overlay重叠散点图 可显示多对相关变量的散点图 把test1选择作为Y轴变量 把test2选择作为X轴变量 结果 矩阵散点图在矩阵变量框内要选择两个或两个以上的变量 编辑散点图 选中图中的点 打开Properties图形属性对话框 选择Marker点选项卡 在选项卡中 选择点的类型 Type 点的大小 Size 点的外周线 BorderWidth 以及点的颜色 Color 选择分析菜单下的相关分析下两个变量间的相关分析选项 菜单 2单击按钮 3单击OK 1选择变量 皮尔逊相关系数 如果两变量相关显著 需要标注 显著性检验选项 将 指定为 结果和讨论 每个变量有三行数据 第一行是该变量与其他变量之间的相关系数 右上角标有 的表示在0 01水平上是显著的 Sig 2 tailed 双尾t检验结果 对于相关系数为0的假设成立的概率 N为参与相关系数计算的有效观测量数 结论 r 0 886 P 0 000 0 01 拒绝H0 可以认为test1和test2之间有正的直线相关关系 H0 0 即test1和test2无直线相关关系 相关性检验 等级变量的相关分析 前面介绍了等级相关 下面看如何利用SPSS来实现这种计算 例 12名学生的两门功课成绩评定分数见下表 问这两门功课的成绩是否具有一致性 优 1良 2中 3 数据 课程A 课程B 数据录入 选择分析菜单下的相关分析下两个变量间的相关分析选项 菜单 2单击按钮 3单击OK 1选择变量 斯皮尔曼相关系数 结论 rs 0 657 P 0 020 0 05 拒绝H0 可以认为两门功课成绩间有正的直线相关关系 即具有一致性 H0 s 0 即两门功课成绩间无直线相关关系 相关性检验 凡符合计算积差相关系数的资料 不要用等级相关计算 要计算积差相关 例 点二列相关UniversityofFloridagraduatesalaries sav 性别收入 积差相关bankloan工作时间和收入 注意 t检验实例1 分析某班级学生的高考数学成绩和全国的平均成绩70之间是否存在显著性差异 实例2 分析清华 北大大一学生的高考数学成绩之间是否存在显著差异 两个学校学生的高考数学成绩表 研究一个班同学在参加了暑期数学培训班后 学习成绩是否有显著变化 数据如下 实例3 内容提要 一 One samplestTest过程 一 功能该过程用于进行样本所在总体均数与已知总体均数的比较 即单样本的T检验 H0假设为 样本总体均值与总体均值之间不存在显著差异 二 实例 1 分析某班级学生的高考数学成绩和全国的平均成绩70之间是否存在显著性差异 三 实现步骤 1 在Analyze菜单Comparemeans项中选择one samplettest命令 2 选择菜单后 出现one samplettest对话框 将全国数学高考的平均值70填入testvalue框 将要检验的变量 分数 从左边框中添加到testvariable框中 3 单击options按钮 出现以下对话框 4 单击continue按钮 返回到one samplettest对话框 单击ok按钮 spss即完成所需要的计算 5 结果和讨论 T Test 四 操作练习 根据大量调查 已知某地成年男子脉搏均数为72次 分 现在该地邻近的山区随机调查了20名健康成年男子 测得其脉搏值如下 请据此推断山区成年男子的脉搏均数是否与该地成年男子有所不同 测量值 75747279787669777670737671787776747977 二 Independent samplesTTest过程 一 概念理解独立样本 指两个样本之间彼此独立没有任何关联 两个独立样本各自接受相同的预测 适用条件 两样本相互独立 样本来自的两个总体应服从正态分布 H0假设 两总体均值之间不存在显著差异 二 实例 分析清华 北大大一学生的高考数学成绩之间是否存在显著差异 两个学校学生的高考数学成绩表 三 实现步骤 1 在Analyze菜单 Comparemeans 中选择Independent samplesttest命令 2 在弹出的Independent samplesttest对话框中 testvariables用于选入需要分析的变量 数学 Groupingvariable用于选入分组变量 学校 Definegroups 用于定义需要比较的两组的分组变量值 1表示清华 2表示北大 3 单击continue按钮 返回independent samplesttest对话框 单击ok按钮即完成分析 4 结果与解释 四 操作练习 随机抽取学生干部和非学生干部各10名 用SEI测得其自尊总分值如下 请问学生干部与非学生干部之间的自尊水平是否存在显著差异 干部 40423638392937291932非干部 32353829271942393637 三 Paired samplesTTest过程 一 概念理解根据样本数据对样本来自的的两配对总体的均值是否有显著性差异进行推断 配对样本 指两个样本之间存在着一一对应关系 两样本的观察值数目相同 观察值得顺序不能随意更改 适用条件 两样本是配对样本 样本来自的两个总体应服从正态分布 H0假设 两总体均值之间不存在显著差异 二 实例3 研究一个班同学在参加了暑期数学培训班后 学习成绩是否有显著变化 数据如下 三 实现步骤 1 在Analyze菜单 Comparemeans 中选择paired samplesttest命令 2 选择变量 3 单击ok键 完成分析 4 结果 四 操作练习 为研究女性服用某种新药后是否影响其血清总胆固醇 将20名女性按年龄配成10对 每对中随机抽取一人服用新药 另一人服用安慰剂 经过一段时间后 测得血清胆固醇含量 mmol L 结果如下表 问该新药是否会影响女性血清总胆固醇 卡方检验 单列 卡方检验 多格表两独立样本的卡方检验 列联表资料 指两个或者多个分类变量各水平组合频数分布表 又称频数交叉表 简称交叉表 Crosstabs 下表为四格表 操作过程 1 建立数据文件 chi2 2 sav 数据格式 4行3列 如下图 分类变量 行变量 变量名 group 1 抗病毒组 2 紫外线组 分类变量 列变量 变量名 effect 1 有效 2 无效 频数变量 变量名 freq 将四格表中的4个频数输入此列 2 加权个案加权个案是指对变量 特别是频数变量赋予权重 本例对变量 freq 进行加权 Spss18 0操作点击 数据 选择 加权个案 在SPSS软件中 DataView 数据视图 在默认情况下每一行就是一条记录 通常情况下我们也是这样录入数据的 但是 在有些情况下我们得到的数据可能是已经初步汇总过的 如所说下面的情况 如果每一行就是一个记录 则需要输入168行 这样做非常麻烦 SPSS当然考虑了这个问题 并且比较容易地解决了这个问题 具体办法是使用频数格式录入数据 即相同取值的观测只录入一次 另加一个频数变量记录该数值共出现了多少次 这样就需要在分析前先用Data 数据 主菜单中的WeightCases 加权个案 过程将数据指定为该种格式 然后再进行分析 即加权后这个变量表示这一行的频数 弹出下列窗口选择加权个案 并将变量 freq 拉进框内 3 卡方检验操作 分别选择 分析 统计描述 交叉表 如右图 弹出交叉表 Crosstabs 主对话框1 行变量本例选择 group 2 列变量本例选择 effect 行 组别 列 效果 点击右边 统计量 选项 弹出对话框 如下图 选择 卡方 选项 4 结果解释 Pearson卡方 非校正卡方检验连续校正 仅适用于四格表 Fisher的精确检验 Fisher确切概率检验 也仅适用于四格表资料似然比 似然比卡方检验 适用表资料线性和线性组合 线性相关性检验 两变量均为等级变量 且从小到大排列时方有意义 其他情况忽略 观察值 观察频数期望值 期望频数行百分比 给出行变量百分比列百分比 给出列变量百分比 其他选项介绍 RXC 书上P53 第五题数据 多个率间的多重比较 多个率比较的资料可以整理成多个2乘k表资料 若不经过任何处理 而直接进行两两比较 必须重新规定检验标准 其目的是为保证检验假设中I型错误的概率不变 重新规定检验标准的估计方法有两种1 多个实验组间的两两比较分析目的为k个实验组间 任两个率进行比较 公式如下 例3个实验组间的两两比较 其检验水准用上面公式估计如下 2 实验组与同一个对照组的比较公式如下 1991U S GeneralSocialSurvey sav不同种族的人在lifeexiting上的选择是否有差别 练习 单因素方差分析 SPSS单因素方差分析过程名 1 完全随机设计资料的方差分析One WayANOVA 例1某高原研究组将籍贯相同 年龄相同 身高体重接近的30名新战士随机分为三组 甲组为对照组 按常规训练 乙组为锻炼组 每天除常规训练外 接受中速长跑与健身操锻炼 丙组为药物组 除常规训练外 服用抗疲劳药物 一月后测定第一秒用力肺活量 L 结果见表 试比较三组第一秒用力肺活量有无差别 n行2列 指标变量 分组变量 数据格式 Analyze CompareMeans One WayANOVA 检验步骤 One WayANOVA对话框 PostHocMultipleComparisons对话框 Option对话框 点击 OK 运行结果 结果输出 基本统计描述 方差齐性检验 P 0 05 接受原假设 方差齐 方差分析表 如果P0 05接受原假设 0 093 0 25 3 72 多重比较 LSD法 1 2间有差异 1 3间没差异 2 3间没差异 多重比较 SNK法 每一列表示一个亚组 亚组中的无差异 不同亚组间p0 05 练习 某职业病防治院对31名石棉矿工中的石棉肺患者 可疑患者及非患者进行了用力肺活量 L 测定 问三组石棉矿工的用力肺活量有无差别 2 随机区组 或单位组 配伍组 设计的方差分析 例2下表是11名战士在不同海拔高度的血氨值 试作方差分析 1行3列 指标变量 处理组分组变量 单位组分组变量 数据格式 Analyze GeneralLinearModels 一般线性模型 Univariate 单变量 检验步骤 Univariate对话框 多重比较 Univariate Model对话框 Univariate Model对话框 PostHocMultipleComperisonsforObservedMeans对话框 Options对话框 点击 OK 运行结果 结果输出 有效数据例数统计 分组统计描述 均数 标准差 方差分析表 首先是所用方差分析模型的检验 P值为0 003 P小于0 05 因此所用的模型有统计学意义 可以用它来判断模型中系数有无统计学意义 第二行是截距 它在我们的分析中没有实际意义 忽略即可 第三行是变量海拔分组 p小于0 01有统计学意义 第四行是战士编号 有统计学意义 但是我们这里不关心 均数估计 多重比较 练习 例8 1对小白鼠喂以A B C三种不同的营养素 目的是了解不同营养素增重的效果 采用随机区组设计方法 以窝别作为划分区组的特征 以消除遗传因素对体重增长的影响 现将同品系同体重的24只小白鼠分为8个区组 每个区组3只小白鼠 三周后体重增量结果 克 列于下表 问小白鼠经三种不同营养素喂养后所增体重有无差别 回归分析的意义回归分析就是对具有相关关系的两个或两个以上变量之间数量变化的一般关系进行测定 确立一个相应的数学表达式 以便从一个已知量来推测另一个未知量 为估算预测提供一个重要的方法 回归分析 相关分析与回归分析的区别联系 一 概念 1 相关分析 用一个指标来表明现象间共变的相互依存关系的密切程度 广义的相关分析包括相关分析 狭义的相关分析 和回归分析 2 回归分析 根据其相关关系的具体形态 选择一个合适的数学模型 称为回归方程式 来近似地表达变量间的平均变化关系 二 相关分析与回归分析的区别 1 相关分析中不必确定自变量和因变量 而在回归分析中 必须事先确定自变量和因变量 且只能从自变量去推测因变量 而不能从因变量去推断自变量 2 相关分析不能指出变量关系的具体形式 而回归分析能确切的指出变量之间关系的具体形式 可根据回归模型从已知量估计和预测未知量 3 相关分析所涉及的变量一般都是随机变量 而回归分析中因变量是随机的 自变量则作为研究时给定的非随机变量 三 相关分析与回归分析的联系 有共同的研究对象 常常必须互相补充 只有当变量之间存在着高度相关时 进行回归分析寻求其相关的具体形式才有意义 简单说 1 相关分析是回归分析的基础和前提 2 回归分析是相关分析的深入和继续 相关程度与回归预测 r r 0 无法预测 r 1 预测完全准确 没有误差 二 回归分析理解 回归分析的种类 SimpleLinearregression 回归模型的类型 一个自变量 两个及两个以上自变量 回归模型 多元回归 一元回归 线性回归 非线性回归 线性回归 曲线回归 线性回归分析概述 通过样本数据建立一个回归方程后 不能立即就用于对某个实际问题的预测 因为 应用最小二乘法求得的样本回归直线作为对总体回归直线的近似 这种近似是否合理 必须对其作各种统计检验 一般经常作以下的统计检验 回归方程的显著性检验 1 拟合优度检验回归方程的拟合优度检验就是要检验样本数据聚集在样本回归直线周围的密集程度 从而判断回归方程对样本数据的代表程度 自变量引起的离差平方和 占总离差平方和的比重 回归方程的拟合优度检验一般用确定系数R2实现 该指标是建立在对总离差平方和进行分解的基础之上 2 回归方程的显著性检验 F检验 回归方程的显著性检验是对因变量与所有自变量之间的线性关系是否显著的一种假设检验 回归方程的显著性检验一般采用F检验 利用方差分析的方法进行 SPSS原假设 统计的就是F值的概率 即计算F值所对应的P值原假设 回归方程不显著 3 回归系数的显著性检验 t检验 所谓回归系数的显著性检验 就是根据样本估计的结果对总体回归系数的有关假设进行检验 之所以对回归系数进行显著性检验 是因为回归方程的显著性检验只能检验所有回归系数是否同时与零有显著性差异 它不能保证回归方程中不包含不能较好解释说明因变量变化的自变量 因此 可以通过回归系数显著性检验对每个回归系数进行考察 原假设 回归系数 0 回归参数显著性检验的基本步骤 提出假设 计算回归系数的t统计量值 根据给定的显著水平 确定临界值 或者计算t值所对应的p值 后者为spss用的方式 作出判断 回归分析的步骤 1 绘制散点图 观察x和y是否有线性关系 2 建立回归模型 3 回归方程显著性检验 4 计算回归估计标准误差 5 根据建立的模型进行预测 例某医生为了探讨缺碘地区母婴TSH水平的关系 随机抽取10对数据如下 试求脐带血TSH水平y对母血TSH水平x的直线回归方程 输入 移去的变量b模型输入的变量移去的变量方法1VAR00002a 输入a 已输入所有请求的变量 b 因变量 VAR00003 结果 模型汇总模型RR方调整R方标准估计的误差1 681a 463 396 32848a 预测变量 常量 VAR00002 Model为回归方程模型编号 不同方法对应不同模型 R为回归方程的复相关系数RSquare即R2系数 用以判断自变量对因变量的影响有多大 但这并不意味着越大越好 自变量增多时 R2系数会增大 但模型的拟合度未必更好AdjustedRSquare即修正R2 为了尽可能确切地反映模型的拟合度 用该参数修正R2系数偏差 它未必随变量个数的增加而增加Std ErroroftheEstimate是估计的标准误差 Anovab模型平方和df均方FSig 1回归 7451 7456 908 030a残差 8638 108总计1 6099a 预测变量 常量 VAR00002 b 因变量 VAR00003 系数a模型非标准化系标准系数tSig B标准误差试用版1 常量 2 994 6104 912 001VAR00002 997 379 6812 628 030a 因变量 VAR00003 SumofSquares为回归平方和 Regression 残差平方和 Residual 总平方和 Total df为自由度MeanSquare方差检验的结果sig 0 05说明回归模型在0 05的显著性水平上是显著的 5 标准化系数表示该系数对因变量的影响 绝对值大影响就大 6 根据最后一张表 回归系数在0 05的显著性水平上显著 可以建立回归模型 练习某国营农场在试验田上研究耕种深度对水稻产量的关系 所得资料如下表 试求水稻产量与耕种深度的直线回归方程 练习 为了研究旅行社广告费用对销售额的影响 收集到7家旅行社的销售额与广告费用的数据如下表 试进行回归分析 以年龄为自变量x 血压为因变量y 可作出如下散点图 练习 某医学研究所对30个不同年龄的人的血压 高压 进行了测量 得到如下数据 对于多元线性回归主要需研究如下几个问题 建立因变量Y与x1 x2 xm的经验公式 回归方程 对经验公式的可信度进行检验判断每个自变量xi i 1 m 对Y的影响是否显著 利用经验公式进行预报 控制及指导生产诊断经验公式是否适合这组数据 方差分析的主要思想是把yi的总方差进行分解 模型平方和 误差平方和 二 多元线性回归 参数估计方法 最小二乘法回归方程显著性的检验 就是检验以下假设是否成立 采用方差分析法 如果自变量对Y的影响显著 则总方差主要应由xi引起 也就是原假设不成立 从而检验统计量为 多元线性回归的方差分析表 在实际问题中 影响因变量Y的因素 自变量 可能很多 在回归方程中 如果漏掉了重要因素 则会产生大的偏差 但如果回归式中包含的因素太多 则不仅使用不便 且可能影响预测精度 如何选择适当的变量 建立最优的回归方程呢 在最优的方程中 所有变量对因变量Y的影响都应

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论