SPSS统计分析基础入门_第1页
SPSS统计分析基础入门_第2页
SPSS统计分析基础入门_第3页
SPSS统计分析基础入门_第4页
SPSS统计分析基础入门_第5页
已阅读5页,还剩82页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、SPSS统计分析基础入门统计分析基础入门傅天珍傅天珍 2013.12.04LOGOSPSSP 数据无处不在 - 将数据转化为信息PP 现象、问题在演绎 - 通过调查,求真数据准备统计学统计工具信息Solution:为什么学为什么学 SPSS Statistics? SPSS SAS难难易易LOGOSPSSSPSS Statistics是什么?是什么?u Statistical Package for the Social Sciences “社会科学统计软件包社会科学统计软件包”:原名:原名u Statistical Product and Service Solutions “统计产品与服务

2、解决方案统计产品与服务解决方案” :2000年更改年更改 世界上最早的统计分析软件世界上最早的统计分析软件:19681968年,由美国斯坦福大学的年,由美国斯坦福大学的3 3位研究生于研制,广泛应用位研究生于研制,广泛应用于自然科学、技术科学、社会科学的各个领域于自然科学、技术科学、社会科学的各个领域 世界上应用最广泛的专业统计软件世界上应用最广泛的专业统计软件:目前世界上流行的三大统计分析软件之一(:目前世界上流行的三大统计分析软件之一(SASSAS、SPSSSPSS及及SYSTATSYSTAT)。)。全球约有全球约有2828万万家产品用户,世界上许多家产品用户,世界上许多有影响的报刊杂志有

3、影响的报刊杂志纷纷就纷纷就SPSSSPSS的自的自动统计绘图、数据的深入分析、使用方便、功能齐全等方面给予了高度的评价与称赞动统计绘图、数据的深入分析、使用方便、功能齐全等方面给予了高度的评价与称赞 影响和信誉极高影响和信誉极高:在国际学术界有条不成文的规定,即在国际学术界有条不成文的规定,即在国际学术交流中,凡是用在国际学术交流中,凡是用SPSSSPSS软件完成的计算和统计分析,可以不必说明算法软件完成的计算和统计分析,可以不必说明算法目前最新版本:目前最新版本:IBM SPSS Statistics 20.0IBM SPSS Statistics 20.0多国语言版多国语言版SPSSSPS

4、S Statistics的基本特点的基本特点 易用性强:易用性强:“易学易用易普及易学易用易普及” 操作界面极为友好,操作简单,大多数操作界面极为友好,操作简单,大多数操作可通过鼠标拖曳、点击操作可通过鼠标拖曳、点击“菜单菜单”、“按按钮钮”和和“对话框对话框”来完成来完成 良好的帮助系统和自学功能良好的帮助系统和自学功能 适用于非专业统计分析人员适用于非专业统计分析人员 也为高级用户提供编程功能也为高级用户提供编程功能 兼容性好兼容性好 数据输入:数据输入:ExcelExcel、LotusLotus、 OracleOracle、SQL SQL ServerServer、AccessAcces

5、s、dBASEdBASE、文本,以及各类、文本,以及各类统计软件的数据形式统计软件的数据形式SASSAS,StataStata文件文件 数据输出:数据输出:WordWord、HTMLHTML、XMLXML、 ExcelExcel、 PowerPointPowerPoint、PDFPDF 功能强大功能强大 全面、成熟的统计过程:全面、成熟的统计过程:非常全面地非常全面地涵盖了数据分析的整个流程,提供了数据涵盖了数据分析的整个流程,提供了数据获取、数据管理与准备、数据分析、结果获取、数据管理与准备、数据分析、结果报告这样一个数据分析的完整过程。报告这样一个数据分析的完整过程。 全面的统计技术:全面

6、的统计技术:自带自带11种类型种类型136个个函数,提供了如数据汇总、计数、交叉分函数,提供了如数据汇总、计数、交叉分析、分类、描述性统计分析、因子分析、析、分类、描述性统计分析、因子分析、回归及聚类分析等广泛的基本统计分析功回归及聚类分析等广泛的基本统计分析功能。能。 全新的演示图形系统,能够产生更全新的演示图形系统,能够产生更加专业的图片:加专业的图片:高分辨率、色彩丰富的高分辨率、色彩丰富的饼图、条形图、直方图、散点图、三维图饼图、条形图、直方图、散点图、三维图形以及更多图表都是形以及更多图表都是 SPSS Statistics中的中的标准功能。标准功能。LOGOSPSS怎么学习怎么学习

7、SPSS Statistics?理论是研究的基石:理论是研究的基石: SPSS只是一个统计工具,需掌只是一个统计工具,需掌握统计学理论基础握统计学理论基础模仿是最好的学习模仿是最好的学习选一种适合自己的学习途径:选一种适合自己的学习途径: 网络资源教程上课培训班网络资源教程上课培训班v自习参考书自习参考书 1. SPSS1. SPSS统计分析基础、应用与实战精粹统计分析基础、应用与实战精粹. . 王璐、王沁王璐、王沁. . 化学工业出版社化学工业出版社. 2012-3. 2012-3(非常适合初学者)(非常适合初学者) 2. SPSS2. SPSS统计分析基础教程统计分析基础教程( (第第2

8、2版版). ). 张文彤张文彤, , 邝春伟邝春伟. . 高等教育出版社高等教育出版社; ; 第第2 2版版 (2011(2011年年1111月月1 1日日, 20.0), 20.0) 3. 3. 问卷统计分析实务问卷统计分析实务-SPSS-SPSS操作与应用操作与应用. .吴明隆吴明隆. . 重庆大学出版社重庆大学出版社. 2010-5-1.(. 2010-5-1.(读秀有全文,读秀有全文,14.0)14.0) 4. SPSS 4. SPSS统计分析与数据挖掘统计分析与数据挖掘. . 谢龙汉,尚涛谢龙汉,尚涛. . 电子工业出版社电子工业出版社. 2012-1-1. (19.0. 2012-

9、1-1. (19.0,有光盘,有光盘) ) 5. 5. 统计分析与统计分析与SPSSSPSS的应用(第三版)的应用(第三版). . 薛薇薛薇. .中国人民大学出版社中国人民大学出版社. 2011-1-1. 2011-1-1(教材,入门)(教材,入门) 6. SPSS6. SPSS在生物统计中的应用(第二版)在生物统计中的应用(第二版). . 张力。厦门大学出版社。张力。厦门大学出版社。2008.82008.8 内容情况:内容情况:一般一般SPSS教程教程1225章,章,200600页页SPSS软件自带教程:大于软件自带教程:大于1000页页人大经济论坛:人大经济论坛: SPSS初中级视频课程初

10、中级视频课程张文彤主讲;张文彤主讲;15讲讲12h SPSS高级视频课程高级视频课程张文彤主讲;张文彤主讲;17讲讲15hSPSS官方初中级培训班:官方初中级培训班:3天天LOGOSPSS图书馆电子参考资料图书馆电子参考资料u 图书馆主页图书馆主页数据导航数据导航中文资源中文资源非书资料管理系统非书资料管理系统安装虚拟光驱安装虚拟光驱下载下载u 图书馆主页图书馆主页书目查询书目查询光盘下载光盘下载LOGOSPSS进行统计分析前不对数据进行整理和归纳。进行统计分析前不对数据进行整理和归纳。得到数据文件后,直接进行得到数据文件后,直接进行统计分析或绘制图表,根本没有对数据属性进行定义,也没有对数据

11、文统计分析或绘制图表,根本没有对数据属性进行定义,也没有对数据文件进行科学必要的预处理。件进行科学必要的预处理。乱用各类统计方法。乱用各类统计方法。没有从实际问题的要求出发,不注意方法的使用条没有从实际问题的要求出发,不注意方法的使用条件,认为只要能输出结果即可。例如,定性数据采用连续性数据的统计件,认为只要能输出结果即可。例如,定性数据采用连续性数据的统计方法,没有对数据标准化等。方法,没有对数据标准化等。对分析结果输出的图表不知道其统计意义,更不知输出量的实际意义对分析结果输出的图表不知道其统计意义,更不知输出量的实际意义,因此无法对数据处理结果进行深层次的分析研究。因此无法对数据处理结果

12、进行深层次的分析研究。SPSS软件使用时常犯的错误软件使用时常犯的错误LOGOSPSS基础知识介绍基础知识介绍 SPSS界面与菜单介绍界面与菜单介绍 数据准备数据准备 描述性统计分析描述性统计分析 简单统计推断简单统计推断 相关分析相关分析 回归分析回归分析 图形的实现图形的实现SPSS Statistics& 图书馆购买:图书馆购买: IBM SPSS Statistics 20.0(简称简称SPSS20.0) : 下载路径:下载路径:图书馆主页帮助与指南常用软件图书馆主页帮助与指南常用软件LOGOSPSS1. SPSS界面界面与菜单介绍与菜单介绍 4个主要窗口个主要窗口:数据编辑窗口、数据

13、编辑窗口、结果输出窗口结果输出窗口、语法编辑窗口、脚、语法编辑窗口、脚本编辑窗本编辑窗口口变量视图变量视图:定义数据的格式(变量名、类型、宽度等),每一行代表对:定义数据的格式(变量名、类型、宽度等),每一行代表对一个变量的定义,每一列则代表定义该变量时用到的某种属性一个变量的定义,每一列则代表定义该变量时用到的某种属性数据编辑窗口:数据编辑窗口: 建立新数据、编辑和建立新数据、编辑和显示已有数据文件;显示已有数据文件; 两个视图区两个视图区LOGOSPSS结果查看窗口:结果查看窗口: 随执行统计分析随执行统计分析命令打开,显示分命令打开,显示分析结果、统计报告、析结果、统计报告、图表等图表等

14、 如果在运行时产如果在运行时产生错误,也会输出生错误,也会输出提示信息提示信息 允许对输出结果允许对输出结果进行常规编辑整理,进行常规编辑整理,窗口内容可以直接窗口内容可以直接保存,保存,“*.spv”LOGOSPSS菜单介绍菜单介绍数据准备数据准备二二 要利用要利用SPSSSPSS进行数据统计分析,首要的工作就是建立进行数据统计分析,首要的工作就是建立SPSSSPSS数据文件;数据文件; 实际中收集、调查得到的数据资料往往是零乱的,不实际中收集、调查得到的数据资料往往是零乱的,不能直接进行统计分析;能直接进行统计分析; 主要由菜单栏中的主要由菜单栏中的【数据】【数据】和和【转换】【转换】命令

15、来实现命令来实现 规范化操作中不可忽略的一步。规范化操作中不可忽略的一步。LOGOSPSS 2.1 数据数据文件的建立文件的建立四种创建数据文件的方法:四种创建数据文件的方法: 新建数据文件 直接打开已有数据文件:*.sav、*.sys,*.xls,*.sas7bdat,*.txt等 使用数据库查询:与大型数据库进行数据交换,如SQL、Oracle,也适用于Excel 从文本向导导入数据文件LOGOSPSS 实例实例2-1:Excel数据的导入数据的导入1. 整理excel文档,第一行设置为变量,与spss格式相同2. 打开SPSS软件,菜单栏中选择【文件】【打开】【数据】命令,弹出【打开数据

16、】对话框3. 选择2-1.xls文件4. 点选【从第一行数据读取变量名】5. 【确定】文件2-1.xls是上证指数从2007年1月4日至2008年10月16日的数据资料,包括了开盘价、当日最高价、当日最低价和收盘价等选项,请将该数据导入至SPSS中。LOGOSPSSLOGOSPSS2.2 SPSS数据文件的属性数据文件的属性v SPSS数据文件是一种有结构的数据文件,包括文件结数据文件是一种有结构的数据文件,包括文件结构和数据,在软件中创建好数据后,首先应该进行构和数据,在软件中创建好数据后,首先应该进行数据数据文件的属性定义文件的属性定义或者或者结构定义结构定义。 变量属性:变量属性:变量名

17、变量名、变量类型变量类型、变量、变量名标签、名标签、变量值变量值、缺失值的定义、度、缺失值的定义、度量的尺度、及数据的显示属性(显示量的尺度、及数据的显示属性(显示宽度、列宽度、对齐方式)宽度、列宽度、对齐方式)u 例:新建例:新建 数据录入数据录入“变量视图变量视图”定义变量;定义变量; “数据视图数据视图”在定义好的在定义好的变量列填入相应数据变量列填入相应数据LOGOSPSSu 实例实例2-2: 左边是对人们信息获取情况的一个调研表,请定义问卷调查表的变量信息。打开新数据表:文件新建数据打开新数据表:文件新建数据变量视图变量视图变量名变量名数据类型数据类型描述性的描述性的变量标签变量标签

18、描述性的值标签描述性的值标签用户定义的缺失值用户定义的缺失值LOGOSPSS 缺失值缺失值:如果直接进行数据分析,:如果直接进行数据分析,SPSS将把缺失数据作为正常数据,造成非常大的将把缺失数据作为正常数据,造成非常大的误差误差 数据中存在漏填数据数据中存在漏填数据 数据中存在明显错误或明显不合理的数据(如年数据中存在明显错误或明显不合理的数据(如年龄龄130) 缺失数据处理步骤:缺失数据处理步骤: 1、指定缺失数据,指明哪些数据属于缺失数据、指定缺失数据,指明哪些数据属于缺失数据(空缺数据,首先填一个特定标记数据)(空缺数据,首先填一个特定标记数据) 2、统计分析时对缺失数据进行一定处理、

19、统计分析时对缺失数据进行一定处理(选择(选择缺失数据处理方法)缺失数据处理方法) LOGOSPSS数据视图数据视图变量名称变量名称个案或个案或观查值观查值 SPSS数据文件中的一列数据称为一个变量,每个变量都应有一个变量名。 SPSS数据文件中的一行数据称为一条个案或观测量。 LOGOSPSS2.3 数据管理和转换数据管理和转换 通常情况下,刚刚建立的数据文件并不能立即进行统计分析刚刚建立的数据文件并不能立即进行统计分析,这是因为收集到的数据还是原始数据,还不能直接利用分析,需要对原始数据进行进一步的加工、整理进一步的加工、整理。 数据变换是正式分析前的重要一步,通过数据变换数据变换,一个优秀

20、的统计分析员可以将原始记录整理成所需的任何格式,从而为后面的精确分析打下坚实的基础。张文彤u 变量级别的数据管理变量级别的数据管理主要集中了一些对变量进行变换的过程,如对原始数据进行主要集中了一些对变量进行变换的过程,如对原始数据进行排序、转置、四则排序、转置、四则运算、对数据重新编码、求出变量的秩次运算、对数据重新编码、求出变量的秩次等,这些功能往往在统计分析的预处等,这些功能往往在统计分析的预处理中起着非常重要的作用。理中起着非常重要的作用。u 文件级别的数据管理文件级别的数据管理对数据进行加工整理,比如根据统计分析的要求对数据进行加工整理,比如根据统计分析的要求对数据文件进行分组、合并、

21、对数据文件进行分组、合并、加权、筛选等操作加权、筛选等操作观察值的名次观察值的名次:如:如3 3、5 5、-2-2、0 0、7 7数列各观测量的秩为:数列各观测量的秩为:3 3、4 4、1 1、2 2、5 5LOGOSPSS案例2-3:文件合并 问题:问题:已知2-3-1.sav和2-3-2.sav中的数据是北京、天津、河北等省市在2005年部分行业的固定投资额(亿元)数据,请将2-3-1.sav和2-3-2.sav的数据文件纵向合并。LOGOSPSS例:我国城市和农村居民消费价格例:我国城市和农村居民消费价格分类指数数据见右表。分类指数数据见右表。 由于不同产品的价格涨跌不同,由于不同产品的

22、价格涨跌不同,请请找出城市和农村居民消费价找出城市和农村居民消费价格指数都较去年上涨超过格指数都较去年上涨超过 1%(指数(指数101)的项目数的项目数。案例案例2-4:变量值计数(消费价格指数的上涨项目):变量值计数(消费价格指数的上涨项目) 变量值计数:变量值计数:计算一些变量在同一个观测量中满足要求的特定变量值计算一些变量在同一个观测量中满足要求的特定变量值出现的次数。出现的次数。Step1:转换转换对个案内的值计数;对个案内的值计数;Step2:输入目标计数变量(输入目标计数变量(x,增加率),增加率)Step3:选择计数变量选择计数变量Step4:设置计数规则;设置计数规则;Step

23、5:完成操作完成操作结果输出结果输出描述性统计分析描述性统计分析三三统计分析的目的:统计分析的目的:研究总体的数量特征。研究者一般研究总体的数量特征。研究者一般通过样本来研究总体。通过样本来研究总体。首先了解数据的整体情况首先了解数据的整体情况,随后才能考虑做深入的推,随后才能考虑做深入的推断断两种方式实现:两种方式实现: 第一,数值计算,计算常用的基本统计量的值,准确反映第一,数值计算,计算常用的基本统计量的值,准确反映数据的基本统计特征;数据的基本统计特征; 第二,图形绘制,即绘制常见的基本统计图形,直观展现第二,图形绘制,即绘制常见的基本统计图形,直观展现数据的分布特点。数据的分布特点。

24、LOGOSPSSu描述性统计分析是统计分析的第一步和先决条件描述性统计分析是统计分析的第一步和先决条件u在进行统计分析和建模前,常需对数据做一些描述性统计,了解数据的基本统计指标在进行统计分析和建模前,常需对数据做一些描述性统计,了解数据的基本统计指标 定量数据:均数、标准差、标准误等定量数据:均数、标准差、标准误等 计数或分类数据:频率、比率等计数或分类数据:频率、比率等u SPSS的许多模块均可完成描述性分析,但专门为该目的而设计的几个模块则集中在描的许多模块均可完成描述性分析,但专门为该目的而设计的几个模块则集中在描述菜单中:述菜单中:【分析分析】【描述统计描述统计】1.1.基本统计量基

25、本统计量 频率频率(F)(F):该过程产生频数表;:该过程产生频数表; 描述描述(D)(D):进行一般性统计描述;:进行一般性统计描述; 探索探索(E)(E):用于对数据概况不清时的探索性分析:用于对数据概况不清时的探索性分析3 描述性统计分析描述性统计分析3.1 频数分析频数分析l 使用目的:了解变量取值的状况,对把握数据分布特征非常有用,是描述性统计中最常用的方法之一。l 例如,了解某班学生考试的学习成绩、了解某地区居民的收入水平等都可以借助于频数分析。u 作用: (1)编制频数表,按要求给出某百分位点的数值 频率频率:各类别的记录数:各类别的记录数 有效百分比有效百分比:即各记录数占有效

26、样本数的百分比,有效样本数总样本:即各记录数占有效样本数的百分比,有效样本数总样本缺失样本数缺失样本数 累计百分比累计百分比:即各百分比逐级累加起来的结果。最终取值为:即各百分比逐级累加起来的结果。最终取值为100100 (2)绘制常用的条图、饼图等统计图 (3)还可以进行分位数、描述集中趋势的基本统计量等计算功能 案例案例3-1:利用频数分析产品销售信息:利用频数分析产品销售信息 假设某公司每周大约卖出假设某公司每周大约卖出2000万件产品,但市场的需求不稳定,该万件产品,但市场的需求不稳定,该公司的生产经理想更好的掌握近期该产品的分布情况。公司的生产经理想更好的掌握近期该产品的分布情况。利

27、用频数分利用频数分析析你能得到什么你能得到什么有助于生产及销售的的信息有助于生产及销售的的信息? 近期公司该产品每周的销售数据(单位:百万):近期公司该产品每周的销售数据(单位:百万):24 18 18 26 24 23 16 18 21 20 21 24 19 19 14 22 21 26 27 15 19 17 20 20 19 22 23 16 23 21 15 19 21 20 22 15 24 19u Step1:打开打开 “3-1” “3-1”(savsav、xlsxls)【分析分析】【描述统计描述统计】【频率频率】uStep2:设置设置“统计统计量量”、“图表图表”内容内容uSt

28、ep3:结果输出:结果输出l 描述分析目的描述分析目的:获取数据的均值、标准差、峰度等数据,进一步把握数据的:获取数据的均值、标准差、峰度等数据,进一步把握数据的集中趋势集中趋势、离散程度离散程度和和分布形状分布形状。3.2 描述分析描述分析u 基本描述统计量:基本描述统计量:(1)表示数据的中心位置(集中趋势)表示数据的中心位置(集中趋势) :均值、中位数、众数均值、中位数、众数等等(2)表示数据的离散程度(离散趋势):)表示数据的离散程度(离散趋势):全距、全距、方差、标准差、极差、变异系数方差、标准差、极差、变异系数等等(3)刻画分布形态的描述统计量(与正态分布比较):数据分布是否对称,

29、)刻画分布形态的描述统计量(与正态分布比较):数据分布是否对称,偏度、峰度偏度、峰度等等l众数:众数:就是数据中出现次数或出现频率最多的数值就是数据中出现次数或出现频率最多的数值l中位数:中位数:即一组数据按升序排序后,处于中间位置上的数据值即一组数据按升序排序后,处于中间位置上的数据值l全距:全距:也称极差,是数据的最大值与最小值之间的绝对离差也称极差,是数据的最大值与最小值之间的绝对离差l偏度:偏度:描述变量取值分布形态对称性的统计量,描述变量取值分布形态对称性的统计量,0:对称;:对称;0:右偏;:右偏;0:左偏:左偏l峰度:峰度:描述变量取值分布形态陡峭程度的统计量,描述变量取值分布形

30、态陡峭程度的统计量,0:同正态分布;:同正态分布;0:尖峰分布;:尖峰分布; 0:平峰分布。:平峰分布。u Step:打开数据文件(打开数据文件(3-2.sav)【分析】【描述统计】【)【分析】【描述统计】【描述描述】3.2 描述分析描述分析l 例例3-2: 请你分析不同性别演员获奥斯卡金奖的年龄差异性。请你分析不同性别演员获奥斯卡金奖的年龄差异性。 男:男:32 37 36 32 51 53 33 61 35 45 55 39 76 37 42 40 32 60 38 56 48 48 40 43 62 43 42 44 41 56 39 46 31 47 45 60 女:女:50 44 3

31、5 80 26 28 41 21 61 38 49 33 74 30 33 41 31 35 41 42 37 26 34 34 35 26 61 60 34 24 30 37 31 27 39 343.2 描述分析描述分析u 输出结果:输出结果:结果:结果:男演员的获奖年龄波动幅度小于女演员,且都不服从正态分布。男演员的获奖年龄波动幅度小于女演员,且都不服从正态分布。3.3 探索分析探索分析4 基本思想基本思想 从数据本身出发,不拘泥于模型的假设而采用从数据本身出发,不拘泥于模型的假设而采用非常灵活的方法来探讨数据非常灵活的方法来探讨数据分布的大致情况分布的大致情况,从复杂的数据中分离出数据

32、的基本模式和特点,让分析从复杂的数据中分离出数据的基本模式和特点,让分析者发现其中的规律,者发现其中的规律,为传统的统计推断提供良好的基础和减少盲目性为传统的统计推断提供良好的基础和减少盲目性4 主要内容主要内容(1)检查数据是否有错。)检查数据是否有错。过大或过小的数据均可能是异常值、影响点或错误值。要检查过大或过小的数据均可能是异常值、影响点或错误值。要检查这样的数据,并分析原因,然后决定是否从分析中剔除这些数据这样的数据,并分析原因,然后决定是否从分析中剔除这些数据(2)获得数据分布特征。获得数据分布特征。很多统计方法模型对数据的分布有要求,如方差分析就需要数很多统计方法模型对数据的分布

33、有要求,如方差分析就需要数据服从正态分布据服从正态分布(3)对数据的初步观察,发现一些内在规律对数据的初步观察,发现一些内在规律4用途:用途:用于计算指定变量的探索性统计量和有关的图形。既可以对观测量整体分析用于计算指定变量的探索性统计量和有关的图形。既可以对观测量整体分析,也可以进行分组分析。从这个过程,也可以进行分组分析。从这个过程可以获得箱线图、茎叶图、直方图、各种正态可以获得箱线图、茎叶图、直方图、各种正态检验图、频数表、方差齐性检验等结果,以及检验图、频数表、方差齐性检验等结果,以及对非正态或正态非齐性数据进行变换对非正态或正态非齐性数据进行变换,并表明和检验连续变量的数值分布情况,

34、并表明和检验连续变量的数值分布情况。3.3 探索分析探索分析l 例例3-3:对对中国南北城市的温度差异中国南北城市的温度差异性作探索性作探索性分析性分析u 数据准备数据准备1:“变量视图变量视图”定义变量定义变量u 数据准备数据准备2:“数据视图数据视图”输入数据输入数据3.3 探索分析探索分析u Step1:打开数据(打开数据(3-3.3-3.savsav)【分析分析】【描述统计描述统计】【探索探索】u Step2:选择标签值选择标签值u Step3:选择输出的描述性统计量选择输出的描述性统计量u Step4:结果输出结果输出3.3 探索分析探索分析 分析样本数据的稳健性,求出分析样本数据的

35、稳健性,求出中心趋势的最大似然比的稳健中心趋势的最大似然比的稳健估计值估计值 4种稳健估计量:种稳健估计量:Huber(稳健(稳健估计量)、估计量)、Hampel(非降稳健(非降稳健估计量),估计量),Andrew(波估计(波估计量),量),Tukey(复权估计量)(复权估计量)结果:结果:1. 北方城市的标准北方城市的标准差大于南方城市,差大于南方城市,说明北方年平均温说明北方年平均温度变化较南方更大。度变化较南方更大。2. 从分布形态看,从分布形态看,南方城市年均气温南方城市年均气温呈尖峰、右偏特征;呈尖峰、右偏特征;北方城市则为平峰、北方城市则为平峰、左偏。左偏。3.3 探索分析探索分析

36、 Step4:结果输出结果输出结果:结果:由由M值差异可以得出,南北方数据差异明显。值差异可以得出,南北方数据差异明显。茎叶图:茎叶图:第一列:频数,表示所在行观察值频数;第一列:频数,表示所在行观察值频数;第二列:茎,实际观察值除以图下方茎宽后的整数部分第二列:茎,实际观察值除以图下方茎宽后的整数部分第三列:叶,实际观察值除以图下方茎宽后的小数部分第三列:叶,实际观察值除以图下方茎宽后的小数部分它在反映数据整体趋势的同时,还能精确反映数值的大它在反映数据整体趋势的同时,还能精确反映数值的大小,分析小样本时优势明显,在国外非常流行。小,分析小样本时优势明显,在国外非常流行。LOGOSPSS箱

37、图箱图:箱图:中间粗线为中位数;中间粗线为中位数;方框的两端分别表示四分位数方框的两端分别表示四分位数(75%)和下四分位数)和下四分位数(25%),两者间的距离为四),两者间的距离为四分位数间距;分位数间距;方框外上、下两个细线分别表方框外上、下两个细线分别表示除去异常值外的最大、最小示除去异常值外的最大、最小值;值;凡是与四分位数值的距离超过凡是与四分位数值的距离超过1.5倍的都定义为异常值。倍的都定义为异常值。中位数75%百分位数25%百分位数最小值最大值异常值简单统计推断简单统计推断四四 均值比较均值比较-T检验检验 方差分析方差分析 非参数检验非参数检验- -卡方检验卡方检验 假设的

38、简单分类假设的简单分类假设检验假设检验参数检验参数检验(一般为定量数据)双样本双样本单样本单样本T检验(小样本)Z检验(大样本)配对样本配对样本独立样本独立样本配对样本配对样本独立样本独立样本非参数检验非参数检验(可为非定量数据)单样本:单样本:卡方检验;K-S检验;二项式检验双样本双样本LOGOSPSS4.1 均值比较均值比较-T检验检验v 总体中的每个个体之间存在差异,即使严格总体中的每个个体之间存在差异,即使严格遵守随机抽样原则,也会由于抽到一些数值较遵守随机抽样原则,也会由于抽到一些数值较大或较小的个体致使样本统计量与总体参数之大或较小的个体致使样本统计量与总体参数之间有所不同:间有所

39、不同:两个变量均值不同的样本是否来自同一总体两个变量均值不同的样本是否来自同一总体? ?其差异是否有统计学意义?其差异是否有统计学意义?4.1 均值比较均值比较-T检验检验类型:类型: 均值分析:均值分析:用于分组计算、比较制定变量的描述性统计量,如总和、均值、方差、标用于分组计算、比较制定变量的描述性统计量,如总和、均值、方差、标准差、观测数等,还可以给出方差分析表和线性检验结果。准差、观测数等,还可以给出方差分析表和线性检验结果。区别与区别与“描述描述”,必须分组求,必须分组求均值,目的在于比较均值,目的在于比较 单样本单样本T检验:检验:某个变量的样本均数与某个变量的样本均数与给定总体的

40、已知均数给定总体的已知均数相比,其差异是否有显著相比,其差异是否有显著(例:周岁儿童的平均身高是否为(例:周岁儿童的平均身高是否为75厘米)厘米) 非配对或独立非配对或独立T检验:检验:检验由两个检验由两个独立样本独立样本估计的总体均数之间的差异是否显著(如两估计的总体均数之间的差异是否显著(如两种不同饵料养殖罗非鱼)种不同饵料养殖罗非鱼) 配对配对T检验:检验:两组样本彼此不独立,又称为成对样本(如家兔接种某疫苗前后体温)两组样本彼此不独立,又称为成对样本(如家兔接种某疫苗前后体温)u T检验的先决条件是:检验的先决条件是:样本的抽样呈正态分布,方差齐性(样本的抽样呈正态分布,方差齐性(F检

41、验)检验)u T检验是检验是0假设假设,即总体均值与指定检验值之间不存在显著差异,即总体均值与指定检验值之间不存在显著差异u T检验的结果:如果在置信度为检验的结果:如果在置信度为95下,下,显著性水平显著性水平0.05,则接受假设;则接受假设;如果如果一般线性模型一般线性模型-单变量单变量分数分数因变量;因变量; 学校、课程学校、课程固定因子固定因子输出结果输出结果4.3 非参数检验非参数检验-卡方检验卡方检验LOGOSPSS4.3 非参数检验非参数检验-卡方检验卡方检验 在实践中,常碰到一些样本的总体分布不明确,或者总体参数的假设条件不成立,或不服从正态分布时,采用非参数检验 非参数检验:

42、不假定总体分布情况下,来实现对总体参数的推断 包括:卡方、二项式分布、游程、单样本K-S检验,以及两个独立样本、多个独立样本、两个相关样本、多个相关样本非参数检验 与参数检验相比,优势如下:与参数检验相比,优势如下: 稳健性。总体分布的约束条件大大放宽,对个别偏离较大的数据不至于太敏感。稳健性。总体分布的约束条件大大放宽,对个别偏离较大的数据不至于太敏感。 对数据的测量尺度无约束,对数据的要求也不严格,什么数据都可以做。对数据的测量尺度无约束,对数据的要求也不严格,什么数据都可以做。 适用于小样本、无分布样本、数据污染样本、混杂样本等。适用于小样本、无分布样本、数据污染样本、混杂样本等。n 但

43、是,如果参数检验模型的所有假设在数据中都能满足,且达到所要求的水平,但是,如果参数检验模型的所有假设在数据中都能满足,且达到所要求的水平,那么用非参数检验可能导致低效率,最终浪费数据。那么用非参数检验可能导致低效率,最终浪费数据。4.3 非参数检验非参数检验-卡方检验卡方检验1.使用目的使用目的l 卡方检验(Chi-Squar Test)也称为卡方拟合优度检验,是K.Pearson给出的一种最常用的非参数检验方法最常用的非参数检验方法。它用于检验观测数据是否与某种概率分布的理论数值相符合,进而推断观测数据是否是来自于该分布的样本的问题。l 如:根据投掷骰子实验中出现的点数检验骰子是否均匀,即各

44、点出现的概率是否均为1/6。 2.基本原理基本原理l 进行卡方检验时,首先提出零假设首先提出零假设 :样本样本X来自的总体分布服从期望分布或来自的总体分布服从期望分布或某一理论分布某一理论分布。接着,利用实际观测值的频数与理论的期望频数之间的差异来构造检验统计量,它描述了观察值和理论值之间的偏离程度描述了观察值和理论值之间的偏离程度。 3.软件使用方法软件使用方法l 【分析】【分析】 【非参数检验】【非参数检验】【旧对话框】【旧对话框】【卡方卡方】v 案例案例4-4l 某公司经营多年,形成了一套成熟的企业文化和管理体系,例如根据多年的运营经验,经理层、监察员、办事员三种职务类别人员比例大约在1

45、5:5:80为宜,这样运行效率最高。目前公司进行人事调整,公司人员结构发生变动,有员工担心是否人事调整已经导致职务类型比例的失调有员工担心是否人事调整已经导致职务类型比例的失调。l 三种职务的期望构成比为15、5和80。而目前样本中观察到的三种职务的人数比为84:27:363,构成比分别是17.7、5.7和76.6,和理论值有差异。那么这种差异是由随机误差造成的,还是真的构成比和这种差异是由随机误差造成的,还是真的构成比和以前有所变化?以前有所变化?该问题就可以用2检验来实现。相应的假设检验如下。 H0:目前三个职业的总体构成比仍然是:目前三个职业的总体构成比仍然是15、5和和80。 H1:目

46、前三个职业的总体构成比不再是:目前三个职业的总体构成比不再是15、5和和80 。4.3 非参数检验非参数检验-卡方检验卡方检验l Step1Step1:打开数据(:打开数据(4-4.4-4.savsav)【分析】【)【分析】【非参数检验非参数检验】【】【旧对话框旧对话框】【】【卡方卡方】 职务类别:职务类别:“1”“1”表示办事员,表示办事员,“2”“2”表示监察员,表示监察员,“3”“3”表示经理。表示经理。l Step2Step2:选择检验变量:选择检验变量 在左侧的候选变量列表框中选择在左侧的候选变量列表框中选择“Employment Category“Employment Catego

47、ry(职务)(职务)”变量变量作为检验变量,将其添加至【检验变量列表】列表框中。作为检验变量,将其添加至【检验变量列表】列表框中。l Step3Step3:选择期望值:选择期望值 在【期望值】选项组中点选【值】单选钮,以指定期望概率值。接着在【在【期望值】选项组中点选【值】单选钮,以指定期望概率值。接着在【值】的文本框中分别输入值】的文本框中分别输入0.80.8、0.050.05和和0.150.15这三个数值,并且单击【添加这三个数值,并且单击【添加】按钮加以确定。】按钮加以确定。l Step4Step4:完成操作:完成操作4.3 非参数检验非参数检验-卡方检验卡方检验结果输出:结果输出:P值

48、0.174大于显著性水平0.05。因此接受零假设因此接受零假设,认为目前三个职业的总体构成比仍然是15、5和80,人数的调动只是随机误差造成的,公司人员结构没有显著性改变。 5. 相关分析相关分析相关分析:相关分析:研究变量相互关系的密切程度和变化趋势,并用适当的统计指标描述。研究变量相互关系的密切程度和变化趋势,并用适当的统计指标描述。& 最常见的是两两相关分析,最常见的是两两相关分析,例如:鱼的体长与体重、作物的产量与施肥量等问题 统计关系常见类型:统计关系常见类型:&线性相关线性相关:两变量呈线性共同增大;:两变量呈线性共同增大; 呈线性一增一减呈线性一增一减&非线性相关:非线性相关:曲

49、线相关;曲线相关; 两变量存在相关趋势两变量存在相关趋势&不相关不相关常用方法:常用方法:&l 散点图散点图&l 计算相关系数:计算相关系数:区间是区间是-1,1,是两个变量之间的线性关联的一个度量是两个变量之间的线性关联的一个度量 相关分析案例相关分析案例某科技人员饲养了某科技人员饲养了35尾团头鲂,共重尾团头鲂,共重7.2kg,在水温,在水温29的条件下,测量摄食量与的条件下,测量摄食量与耗氧率之间的关系,请对摄食量与耗氧率作相关行分析。耗氧率之间的关系,请对摄食量与耗氧率作相关行分析。 SPSS SPSS操作步骤:操作步骤:数据准备数据准备【分析分析】【相关相关】【双变量双变量】结果输出

50、:结果输出:P=0.0000.01,差异极显著,差异极显著,表明摄食量和耗氧量之间存在表明摄食量和耗氧量之间存在极显著的正相关关系,耗氧量极显著的正相关关系,耗氧量随着摄食量的增加而增加随着摄食量的增加而增加 Pearson 简单相关系数:简单相关系数:适用于双变量正态分布资料(一般用适用于双变量正态分布资料(一般用字母字母r表示)表示) Spearman 等级相关系数等级相关系数:适用于有序数据和不满足正态分布:适用于有序数据和不满足正态分布假设的等间隔数据,非参数统计假设的等间隔数据,非参数统计 Kendall 等级相关系数等级相关系数:对有序变量或两个秩变量间相关程度:对有序变量或两个秩

51、变量间相关程度的度量统计量,非参数统计的度量统计量,非参数统计6. 回归分析回归分析l 探察变量之间的数量变化规律,并通过一定的数学表达式来描述一定的数学表达式来描述这种关系,进而确定一个或几个变量的变化对另一个变量的影响程度l 只要系数之间是线性组合的,并可通过变换可转换为线性方程的,都可尝试用线性模型进行拟合回归分析与相关分析的关系回归分析与相关分析的关系二者均为研究两个或两个以上变量之间关系的方法。从广二者均为研究两个或两个以上变量之间关系的方法。从广义上说,义上说,相关分析包括了回归分析相关分析包括了回归分析。二者有区别:二者有区别:1、相关分析的两个变量平行,不一定存在、相关分析的两个变量平行,不一定存在因果关系因果关系;回归回归分析变量之间存在因果关系分析变量之间存在因果关系,自变量是因,因变量是果,自变量是因,因变量是果,一个回归方程内因变量只有一个,自变量可以有多个一个回归方程内因变量只有一个,自变量可以有多个。2、相关分析仅仅研究变量之间的相互关系的、相关分析仅仅研究变量之间的相互关系的密切程度和变密切程度和变化趋势化趋势,并用适当的统计指标描述。,并用适当的统计指标描述。如果用一个或多个变如果用一个或多个变量的取值来估计另一个变量的取值,这就是量的取值来估计另一个变量的取值,这就是回归分析回归分析。4 回归分类一元线性回归分析一元线性回归分析 一元线性回

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论