SPSS统计分析基础教程学习大数据分析.ppt_第1页
SPSS统计分析基础教程学习大数据分析.ppt_第2页
SPSS统计分析基础教程学习大数据分析.ppt_第3页
SPSS统计分析基础教程学习大数据分析.ppt_第4页
SPSS统计分析基础教程学习大数据分析.ppt_第5页
已阅读5页,还剩425页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、统计学实践,主讲:李晓军 E-mail:,第1章 数据分析概述与软件入门,1.1 SPSS软件概述 1.1.1 SPSS简介 SPSS(Statistics Package for Social Science )for Windows是一种运行在Windows系统下的社会科学统计软件软件包。 SPSS的基本功能包括数据管理、统计分析、图表分析、输出管理等,具体内容包括描述统计、列联分析,总体的均值比较、相关分析、回归模型分析、聚类分析、主成份分析、时间序列分析、非参数检验等多个大类,每个类中还有多个专项统计方法。,一、功能强大,(1)囊括了各种成熟的统计方法与模型,为统计分析用户提供了全方位

2、的统计学算法,为各种研究提供了相应的统计学方法。 (2)提供了各种数据准备与数据整理技术。 (3)自由灵活的表格功能。 (4)各种常用的统计学图形。,二、SPSS的实验环境要求,(1)系统运行环境 SPSS10.0以上版本软件包可以工作在两种模式下,单机模式和作为网络系统的用户界面模式。 (2)辅助软件环境 三、SPSS的主要界面 SPSS的主要界面有数据编辑窗口和结果输出窗口。 四、SPSS的帮助系统 SPSS对一些基本模块中的统计提供了帮助,可以通过单击Help菜单中的Statistics Coach命令,选择所需要的统计指导。,五、SPSS的运行方式,SPSS提供了3种基本运行方式:完全

3、窗口菜单方式,程序运行方式、混合运行方式。程序运行方式和混合运行方式是使用者从特殊的分析需要出发,编写自己的SPSS命令程序,通过语句直接运行。 SPSS中使用的对话框主要有两类,一类是文件操作对话框,文件操作对话窗口操作与Windows应用软件操作风格一致。另一类是统计分析对话框,统计分析对话框可以分为主窗口和下级窗口,在该类对话框中,选择参与分析的各类变量及统计方法是对话框的主要任务。,1.1.2 spss的安装,一、启动Windows 后,把SPSS 系统安装软盘(或光盘)插入软驱(或光驱),并找到SPSS的安装程序的可执行文件Setup.exe。 二、双击 Setup.exe 文件,安

4、装程序向导将给出每一步操作的提示。在出现Welcome(欢迎)窗口后,选择Next进入下一步。 三、安装程序显示Software License Agreement对话框时,选择Yes接受显示的协议条款。,1.2 spss操作入门,1.2.1 spss软件的启动与退出 单击Windows 的开始按钮,在程序菜单项SPSS for Windows中找到SPSS 10.0 for Windows并单击。,1.2.2 SPSS的5个窗口,(1)数据编辑窗口(SPSS Data Editor),Spss处理数据的工作全在此窗口进行。,(2)结果管理窗口(SPSS Output viewer),此窗口用

5、于存放分析结果。左边是目录区,右边是内容区。,(3)草稿结果窗口(SPSS Draft Viewer),草稿结果是结果的一种简化文本格式。实际上就是WORD所兼容的rtf超文本格式,因此可以在没有安装SPSS的PC机上使用文字编辑软件打开。,(4)语法编辑窗口(SPSS Syntax Editor),(5)脚本窗口(SPSS Script Editor),1.2.3 SPSS的四种运行方式,一、菜单对话方式 首先打开SPSS软件,然后选择菜单File Open file。,然后,利用菜单Analyze Descriptive Statistics Frequencies,,二、程序方式,在Sy

6、ntax编辑窗口中键入以下程序:,Get file=c:program filesspssemployee data.sav. Frequencies variables = jobcat/order = analysis。,只需要选择菜单Run All,运行该程序也一样会出现相同的分析结果。,三、Include命令方式,当编写Syntax程序时,如果发现将要编写的程序语句正好是另一个Syntax文件的内容;或者发现所需要的程序语句其实是几个Syntax文件的总和是,除了可以通过“Copy”、“Paste”的方法利用资源,生产一个新的Syntax文件外,还可以利用Include命令。,Incl

7、ude c:sytaxsample.sps.,四、spss Production Faccility 方式,在Windows的程序菜单中,spss菜单组除了有“spss for windows”项之外,还有一个“spss production facility”。,(1)单击Syntax框下的“Add”按钮,到C盘根目录下打开“syntaxsample”。,(2)单击Syntax框下的“Edit”按钮,对程序进行编辑。,(3)单击右下角的“uesr prompts”按钮,添加对程序的交互分析界面。,(4)单击“Browse”按钮制定结果保存路径,单击“export options”按钮还可以制

8、定结果保存格式。,1.2.4 spss的四种输出结果,1、表格格式 2、文本格式 3、标准图与交互图 4、结果的保存和导出,第2章 数据录入与数据获取,本章主要解决两个问题: 第一个问题,根据问题类型的不同,将会从开放题、单选题和多选题的录入方式为例进行介绍。 第二个问题,重点介绍如何用SPSS直接读取Excel类型和文本格式的数据,以及如何用ODBC接口读取数据库文件。,2.1.1 统计软件中数据的录入格式 (1)不同观测对象的数据不能在同一记录中出现,即同一观测数据应当独占一行。 (2)每一个观测量指标或影响因素只能占据一列的位置,即同一指标的数量观测值都应当录入到同一个变量中去。,2.1

9、 数据格式概述,即:一个观测占一行,一个变量占一列,在录入数据时,归纳为以下三步: 第一步:定义变量名; 第一步:指定每个变量的各种属性; 第一步:录入数据。 变量名不能与spss保留字相同,spss的保留字有ALL、END、BY、EQ、GE、GT、LE、LT、NE、NOT、OR、TO、WITH。,2.1.2 变量属性介绍,一、变量的储存类型,SPSS中,变量有三种的基本类型:数值型、字符型和日期型。,标准 数值型,逗号 数值型,圆点 数值型,科学技术法 数值型,美元 数值型,用户自 定义型,数值型:数值型的数据是0-9的阿拉伯数字和其他符号,如美元符号、逗号或圆点组成的。,字符型:字符型数据

10、的默认显示宽度为8个字符位,系统不区分变量名中的大小写字母,并且不能进行数学运算。 注意:在输入数据时不应输入引号,否则双引号将会作为字符型数据的一部分。,日期型:日期型数据是用来表示日期或时间的。日期型数据的显示格式有很多,SPSS以菜单方式列出日期型数据的显示格式以供用户选择。事实上,SPSS存储中的日期型变量是该实践与1582年10月14日零点相差的秒数。,关于日期型格式的几点说明:,“m”在年与日(字母y与d)之间表示月份;在时与秒(字母h与s)之间表示“分”钟。 “mmm”表示要求书写英文月份单词的前三个字母组成的缩写。 “ddd”三个字母d表示要求用从元月一日算起的日数表示日期。

11、指定了日期变量的格式,不一定在输入时就使用指定的格式。可以输入用“/”或“”作分隔符的具体日期,回车后,系统将自动将输入的格式转化为指定的格式,显示在单元各种。,二、变量的测量尺度,在SPSS中使用Measure属性对变量的测量尺度进行定义。,(1)定类尺度(Nominal Measurement):定类尺度是对事物的类别或属性的一种测度,按照事物的某种属性对其进行分类或分组。,特点:其值仅代表了事物的类别和属性,即能测度类别差异,不能比较各类之间的大小,所以各类之间没有顺序和等级。对定类尺度的变量只能计算频数和频率。,在spss中,能适用定类尺度的数据可以是数值型,也可以是字符型变量。使用定

12、类变量对事物进行分类时,必须符合穷尽原则和互斥原则。,(2)定序尺度(Ordinal Measurement):定序尺度是对事物之间的等级或顺序差别的一种测度,可比较优劣或排序。,特点:由于定序变量只能侧度类别之间的顺序,无法测出类别之间的准确差值,即测量数值不代表绝对的数量大小,所以其测量结果只能排序,不能进行运算。,(3)定矩尺度(Interval Measurement):定矩尺度是对事物类别或次序之间间距的测度。,特点:不仅能将事物区分为不同类型并进行排序,而且可能准确指出类别之间的差距是多少;定居变量通常以自然或物理单位为计量尺度,因此测量结果往往表现为数值,所以计量结果可以进行加减

13、运算。,(4)定比尺度(Scale Measurement):定比尺度是能够测算两个测度值之间比值的一种计量尺度,它的测量结果同定距变量一样表现为数值。,特点:定必变量是测量尺度的最高水平,它除了具有其他三种测量尺度的全部特点外,还具有可计算两个侧度至之间笔直的特点,因此它可以进行加、减、乘、除运算,而定居变量值可进行加减运算。,三、变量名与变量标签值,Label:定义变量名标签 Value:定义变量值标签,四、缺失值,Spss中缺失值有用户自定义缺失值和系统缺失值两大类。,在SPSS中,对字符型变量,默认的缺失值为空格;对数值型变量,默认的缺失值为零。,2.2 数据的直接录入,2.1.1 操

14、作界面说明,Data View表可以直接输入观测数据值或存放数据,表的左端列边框显示观测个体的序号,最上端行边框显示变量名。,Variable View表用来定义和修改变量的名称、类型及其他属性,如图所示。,如果输入变量名后回车,将给出变量的默认属性。如果不定义变量的属性,直接输入数据,系统将默认变量Var00001,Var00002等。,在Variable View表中,每一行描述一个变量,依次是: Name:变量名。变量名必须以字母、汉字及开头,总长度不超过8个字符,共容纳4个汉字或8个英文字母,英文字母不区别大小写,最后一个字符不能是句号。 Type:变量类型。变量类型有8 种,最常用的

15、是Numeric数值型变量。其它常用的类型有:String字符型,Date日期型,Comma逗号型(隔3位数加一个逗号)等。 Width:变量所占的宽度。 Decimals:小数点后位数。 Label:变量标签。关于变量涵义的详细说明。 Values:变量值标签。关于变量各个取值的涵义说明。 Missing:缺失值的处理方式。 Columns:变量在Date View 中所显示的列宽(默认列宽为8)。 Align:数据对齐格式(默认为右对齐)。 Measure:数据的测度方式。系统给出名义尺度、定序尺度和等间距尺度三种(默认为等间距尺度)。,为了在统计分析过程中能有效的利用其它软件产生的数据,

16、SPSS软件编辑窗口除可以使用*.sav扩展名数据文件,还可以直接打开和保存下述类型的文件: SPSS DOS版本产生的数据文件*.sys; Excel 报表程序产生的数据文件*.xls; DBASE 数据库格式文件*.dbf; SAS统计软件产生的数据文件。,2.2.2 开放题和简单单选题的录入,一、在spss中定义变量,录入数据的第一步是定义变量属性,随后才能进行数据录入。,二、开放题的录入,三、单选题的录入 单选题的录入可以采用字符直接录入、字符代码+值标签、数值代码+值标签三种方式。,2.2.3多选题的录入,一、多重二分法(Multiple Dichotomy Method) 所谓多重

17、二分法,是在编码的时候,对应每一个选项都要定义一个变量,有几个选项就有几个变量,这些变量均为二分类,他们各自代表对一个选项的选择结果。 二、多重分类法(Multiple Category Method) 多重分类法,也是利用多个变量对一个多选题的答案进行定义,应该用多少个变量,由被访者实际可能给出的最多答案数而定。,三、多选题录入在spss中的实现,2.3 外部数据的获取,SPSS读入非SPSS类型的文件数据,有三种主要方式:直接打开,利用文本导向读入文本数据以及利用数据库OBDC接口读入数据。,2.3.1 电子表格数据如何导入spss中,SPSS中可以直接读入许多常用格式的数据文件,选择菜单

18、File Open Data或直接单击快捷键工具栏上的 快捷按钮,系统就会弹出Open File 对话框,单击“文件类型”列表框,在里面能够看到可以直接打开的数据文件格式。,2.3.2 文本数据如何导入spss中,第一步:首先,在Open File 文件框中选中文件,单击“打开”,系统会自动启动文本倒入向导对话框。,第二步:选择“NO”并单击“下一步”按钮。,用某种字符区分,固定宽度,第三步:分别选择“Delimited”和“yes”,然后单击“下一步”按钮。,第四步,第五步,第六步,第七步,2.4 数据的保存,2.4.1 存为spss格式 2.4.2 存为其他数据格式,第3章 数据管理,3.

19、1 变量级别的数据管理,对变量进行操作的内容主要集中于Transform菜单中,包括新变量的生成、记录的排序、对变量进行计数等。,计算新变量:就是用Compute过程。 变量转换:包括Recode、Visual Bander、Count、Rank Case、Automatic Recode这五个过程。 专用过程:包括建立时间序列、缺失值代替和设定随机种子三个过程。 Run Pending Transforming:用于执行编程中被挂起的数据整理操作。,计算产生新变量,变量值自动编码,设定随机数种子,创建代替缺失值变量,创建时间序列变量,运行其它转换程序,变量值重新编码,创建计数变量,观测量排秩

20、,连续变量进行分段,3.1.1 计算新变量,计算新变量的功能就是在原有spss数据文件的基础上,根据用户的要求,使用spss算术表达式及函数,对所有记录或满足SPSS条件表达式的记录,计算出一个新结果,并将结果存入一个用户指定的变量中。 一、常用基本概念 (1)spss算术表达式 spss算术表达式是由常量、spss变量名、spss的算术运算符、圆括号等组成的式子。 (2)spss函数 spss提供了多达70多种函数,分为八大类:算术函数、统计函数、分布函数、逻辑函数、字符串函数、日期时间函数、缺失值函数和其它函数。 (3)spss条件表达式 通过spss的算术表达式和函数可以对所有记录计算一

21、个结果,如果仅希望对部分记录进行计算,则应当利用spss的条件表达式指定对那些记录进行计算。,二、compute过程的分析实例,例3.1 统计英语成绩在60分以上的学生的数学和语文的平均成绩。,例3.2 计算工人工资的所得税。,学生自己练习。,3.1.2 对变量值进行分组合并,一、对连续变量进行分组,在SPSS中可以将连续变量转换为离散(等级或定序)变量,按照某种一一对应的关系生成新变量值,可以将新值赋给原变量。Recode过程和Visual Bander过程都可以完成这一任务,但前者给为简单和常用。,例3.3 当学生英语成绩小于60时取值为“不及格”,大于等于60且小于70为“及格”,大于等

22、于70且小于80为“较好”,大于等于80为“优秀”。,二、分类变量类别的合并,Recode过程也常用于合并某个分类变量的几个水平为一个水平。,将上例grade中优秀、良好和及格三个等级合并为一个等级“PASS”,将grade的等级“不及格”转换为“NOPASS”。,3.1.3 连续变量的可视化分段,VISUAL Bander 用于将连续变量进行分段,该过程使用百分位数、标准差范围或者等间距方式将连续变量划分为若干组段,并采用图形化操作的方式。,例3.4 对数学成绩进行分段,假设现在希望按变量math将学生分为5组,60分 以下为第一组,60分以上的按照等间距的方式分为4组。,3.1.4 将字符

23、变量转换为数值变量,用automatic recode将字符变量转换为数值变量。,3.1.5 变量的编秩,所谓编秩,就是对记录按照某个变量值大小来排序。Rank case过程就是用来排序的一个专用过程。,例:根据性别分组计算数学成绩的秩次。,3.1.6 Transform菜单中的其它功能,(1)count过程 如果用户需要对满足某项条件的数据进行计数,可以使用Count命令。,先在Target Variable中指定一个变量(可以是已经存在的变量或新变量),并定义变量标签,然后指定要统计的变量加到Numeric Variables框中,再单击Define Values按纽,打开Value to

24、 Count对话框。,Value:输入某个值为清点对象; System-missing:以系统的缺失值为清点对象; System-or user missing:以系统或用户指定的缺失值为清点对象; Range:指定数值的计数区域:其中包括: ( )through( )在框内指定下限和上限 lowest through( ): 在框内只指定上限; ( )highest through: 在框内只指定下限。,(2)random Number Seed过程: 用于设定伪随机函数的随机种子。,3.2 文件级别的数据管理(一),数据编辑窗口的Data菜单为用户创建和定义数据提供了方便的功能。这个菜单是

25、SPSS统计软件数据整理的特有功能菜单。它的功能包括:对变量、观测量的编辑处理;对变量数据的变换;对观察量数据整理。 (1)简单命令:包括插入变量、插入记录和到达某条记录,他们的功能实际上都可以用鼠标在数据表界面上直接完成,很少会使用菜单来调用。 (2)常用的简单过程:包括排序、拆分文件、选择记录和加权记录。 (3)变量与数据文件属性导向:用于定义数据字典,或者将于定义的数据字典直接引入当前数据文件。,(4)数重构过导向:用于进行数据转置,或者对重复测量数据表进行长型、宽型记录间的转换。 (5)文件合并过程:将几个数据文件合并为一个大的spss数据文件,含横向合并和纵向合并两种情况。 (6)正

26、交设计过程:实际上是联合分析模块的一部分,用于生成实施联合分析所需要的设计。 (7)其他过程:包括定义日期变量过程、数据汇总过程和查找重复记录导向。,定义变量属性,定义变量日期,插入观测量,拷贝数据属性,插入一个变量,定位观测量,观测量排序,重构数据结构,分类或不分类汇总,正交设计,数据文件转置,合并数据文件,标识重复观测量,拆分数据文件,选择观测量,观测量加权,3.2.1 记录排序,一、排序的两种方法: (1)在数据表格的变量名处单击右键,弹出的右键菜单最后两项就是“sort Ascending”和“Sort Descending”。 (2)对于多变量排序,则需要使用Sort Cases过程

27、来进行。 二、多变量排序需要注意的三点: (1)在多重排序中,制定排序变量名是很关键的,先指定的变量在排序时必然优先于后制订的变量。 (2)可以指定按某变量值升序排序的同时按另一变量值降序排序,或相反。 (3)排序以后,原来记录数据的排列次序将被打乱。,3.2.2 记录拆分,Split File 分割文件的功能是把当前工作分割成两个或两个以上的组,随后的分析将对每个组进行。,3.2.3 记录筛选,Select Cases:当用户不需要分析全部的数据,而是按要求分析其中的一部分,使用该选择。,All case:选择所有数据; If condition is satisfied: 按指定条件选择数

28、据。,Random Sample of cases:对观察值进行随机抽样。,Use filter variable:用指定变量作过滤。先选择一个变量,系统自动在数据管理器中将该变量值为0的观测单位标上删除记号,系统对标有删除记号的观测单位不作分析。,Based on time or case range:顺序抽样。单击Range按纽,打开Select Case: Range对话框,用户自行定义从第几个观察值开始抽到第几个观察值结束。,3.2.4 加权记录,Weight Cases:设定某变量为频数变量。,3.2.5 数据汇总,所谓分类汇总就是按指定的分类变量对观测值进行分组,对每组记录的各变量

29、求指定的描述统计量,结果可以存入新数据文件,也可以替换当前数据文件。,一、汇总的概念,二、进行分类汇总的方法,1、打开“data”菜单,选择“Aggregate”,展开aggregate data”对话框。,2、在左侧的源变量框中选择一个或多个变量作为分类变量进入分类变量(Break Variables)框中。,3、在左侧的源变量框中选择一个或多个变量作为要求汇总的变量进入汇总变量(Aggregate Variables)框中,即要求这些变量的值进行分类汇总。,4、“name 当n为偶数时选择Endpoints weighted by .5。 4、如果选择左下方的Display casewis

30、e listing,可以在输出窗口观察计算过程,其中包括移动平均的结果,季节指数的生成过程,序列成分分解过程。否则只输出简单的季节指数。,5、单击Save按纽,打开Save对话框,选择是否创建新的变量。 新创建的时间序列有:季节指数、调整后的序列值、平滑值及不规则变动。,6、单击OK得到输出结果如表所示。 简单的输出结果只显示季节指数。 Results of SEASON procedure for variable 零售量变量季节分析结果 Multiplicative Model. Centered MA method. Period = 12 乘法模型,Seasonal index 季节指

31、数 时期Period (* 100) 1 16.391 2 23.999 3 71.285 4 108.195 5 258.452 6 268.829 7 226.751 8 110.477 9 59.058 10 27.338 11 16.214 12 13.011,从上面的季节指数可以看出,背心的销售量在4月份至8月份的季节指数明显的高于其它月份的季节指数,其中5月、6月和7月份的季节指数超过了200,说明了这个阶段的零售量非常大,已经达到月平均值的两倍以上。,9.2.2 进行季节调整,季节分解的目的是根据季节指数进行季节调整,消除季节因素的影响,并通过调整前后的指标数据的比较,确定季节因

32、素的影响程度,为预测决策提供科学依据。所以在进行季节分解的同时,在Seasonal Decomposition对话框中选择Display casewise listing复选项,可以得到详细的分解过程和季节调整值。表中给出了季节分解和调整过程的部分数据。,序号 变量 移动平均 比率 季节指数 季节调整值 平滑值 不规则变动 Seasonal Seasonally Smoothed Case Moving Ratios factors adjusted trend- Irregular number 零售量 averages (* 100) (* 100) series cycle compon

33、ent (1) (2) (3)=(1)/(2) (4) (5)=(1)/(4) (6) (7)=(5)/(6) 1 23.000 . . 16.391 140.321 148.671 .944 2 33.000 . . 23.999 137.505 124.873 1.101 3 69.000 . . 71.285 96.794 105.357 .919 4 91.000 . . 108.195 84.107 95.716 .879 5 192.000 . . 258.452 74.289 95.421 .779 6 348.000 . . 268.829 129.450 106.167 1.

34、219 7 254.000 109.208 232.583 226.751 112.017 116.773 .959 8 122.000 109.667 111.246 110.477 110.430 125.651 .879 9 95.000 109.417 86.824 59.058 160.859 131.264 1.225 10 34.000 110.208 30.851 27.338 124.367 138.571 .897 11 19.000 116.375 16.327 16.214 117.185 151.024 .776 12 27.000 120.750 22.360 13

35、.011 207.521 166.836 1.244 13 30.000 120.833 24.828 16.391 183.027 163.602 1.119 14 37.000 121.500 30.453 23.999 154.173 145.837 1.057 15 59.000 120.458 48.980 71.285 82.766 120.203 .689 16 120.000 119.375 100.524 108.195 110.911 113.038,第10章 非参数检验,前面进行的假设检验和方差分析,大都是在数据服从正态分布或近似地服从正态分布的条件下进行的。但是如果总体

36、的分布未知,如何进行总体参数的检验,或者如何检验总体服从一个指定的分布,都可以归结为非参数检验方法。非参数检验包括下列内容: 本章主要内容: 1、总体分布的假设检验; 2、两种以上的现象之间的关联性检验(见列联分析); 3、总体分布未知时,关于单个总体均值的检验;两个总体均值或分布的差异是否显著的检验,以及多个未知总体的单因素方差分析。 4、某种现象的出现的随机性检验; 在SPSS分析软件中,非参数检验在菜单Analyze Nonparametric Test 中显示,共有8种检验方法。,这8种检验方法依次是:,Chi-square卡方检验 Binomial二项分布检验 Runs游程检验 1-

37、Sample K-S 单个样本柯尔莫哥洛夫-斯米诺夫检验 2 Independent sample 两个独立样本检验 K Independent sample K个独立样本检验 2 Related Independent sample两个相关样本检验 K Related Independent sample K个相关样本检验,10.1 Chi-Square Test 卡方检验,卡方检验是一种常用的检验总体分布是否服从指定的分布的一种非参数检验方法。其检验思想是:将总体的取值范围分成有限个互不相容的子集,从总体中抽取一个样本,考察样本观察值落到每个子集中的实际频数,并按假设的总体分布计算每个子集

38、的理论频数,最后根据实际频数和理论频数的差构造卡方统计量,当原假设成立时,统计量服从卡方分布。以此来检验假设总体的分布是否成立。下面通过例题来说明具体的检验方法。,例10.1 掷一个骰子300次,每个面出现的次数(取变量名为Shi)见表,用数字1,2,3,4,5,6分别表示六个面的点数,试在显著性水平0.05下检验颗骰子是否是均匀的?,解:如果这个骰子是均匀的,则每次试验出现六个点数的可能性是相等的。 建立原假设H0:每个点出现的概率等于1/6; 备择假设H1:每个点出现的概率不等于1/6。 具体操作步骤: 1、首先建立数据文件,注意变量Shi的变量值是300次试验的所有结果。然后单击Anal

39、yze Nonparametric Test Chi-Square Test ,Chi-Square Test打开对话框如图所示。,2、指定检验统计量,本例中选择变量Shi进入检验框中。,3、在Expect Values栏内指定期望分布的频数值,有两个选择项 。,4、在Expect Range 栏中指定检验值的范围。 系统默认从数据中得到的最小值和最大值作为取值范围,也可选择自定义取值范围。本例中选择系统默认项。 5、单击Option按钮,打开对话框如下图所示,对话框中有两个选择栏: Statistics栏, 选择输出的统计量: 有统计描述和四分位数两个选项,基本统计描述输出变量的均值、标准差

40、、最大值和最小值,缺失值数量等。,Missing Value栏,选择处理缺失值的方式。 本例中选择系统默认项,将剔除参与对比的缺失值,7、单击OK,系统运行,输出结果如表所示。,10.2 一个样本的K-S检验,Chi-Square Test 卡方检验在进行均匀分布时的检验比较方便,但在进行其它总体分布的检验时需要预先计算出理论分布期望值并输入到计算机中。这样操作起来比较麻烦,下面介绍一种K-S检验方法,可以非常方便快捷地检验常用的四种总体分布形式,使检验过程更加简单。 一个样本的K-S检验又称单个样本柯尔莫哥洛夫-斯米诺夫检验,这种检验可以检验样本数据是否服从Normal正态分布、Poisso

41、n泊松分布、Uniform均匀分布及Exponential指数分布等四种分布形式。但一般要求在大样本条件下进行检验。下面通过例题介绍这种检验方法。,例5.2:某棉织厂质量检验部门抽检验了50匹布,每匹布上的疵点数如下: 2 1 0 1 1 2 0 5 1 1 3 0 1 1 2 0 1 1 0 0 1 3 4 0 0 1 1 4 1 2 5 2 6 2 4 1 5 1 1 2 0 1 1 0 3 2 0 2 3 3 试检验布匹上的疵点是否服从的泊松分布。(=0.05,解:如果只检验疵点数的分布,可以用一个样本的K-S检验。即检验假设: H0:布匹上的疵点服从泊松分布, H1:布匹上的疵点不服从

42、泊松分布。 具体检验的操作过程如下:,1、根据原始数据建立数据文件,在其数据编辑窗口单击Analyze Nonparametric Test 1-sample K-S,打开对话框。,2、选择检验变量“疵点”进入检验框; 3、在Test Distribution栏中选择检验数据的分布假设,系统默认正态分布,根据本例中的要求,选择泊松分布。 4、在Options对话框中选择输出结果形式及缺失值处理方式。 5、单击OK。,从上面的检验结果可以看出,样本平均值为1.68,由样本计算的统计量为0.569,假设检验的P值为0.902,远远大于0.05,所以可以认定疵点数服从泊松分布,故接受假设H0。,如果

43、将要检验布匹上的疵点是否服从=1.5.的泊松分布。则要通过Chi-square检验。即检验假设 H0:布匹上的疵点服从=1.5.泊松分布, H1:布匹上的疵点不服从=1.5.泊松分布。 设=1.5,通过泊松分布的分布计算出X取每一值概率并得出理论频数如表。,具体检验步骤如下: 1、打开数据文件,在数据编辑窗口单击Analyze Nonparametric Test Chi-Square Test ,打开Chi-Square Test对话框。 2、指定检验统计量 本例中选择变量疵点进入检验框中。 3、在Expect Values栏内指定理论值,选择Values , 依次输入各组由给定分布所计算的

44、理论值,每输入一个值,点击Add,直到输入全部理论值为止。,4、单击OK,系统运行。,从上面的结果可以看出,由样本计算的统计量值为12.671,P值小于0.05,故接受H1,认为每匹布的疵点数不是服从=1.5的泊松分布。但是, 注意,在这次检验中频数小于5 的值太多,按照卡方检验法的条件,应当适当合并小于5的组,将疵点数大于等于4的观察值合并成一组,再进行检验,在合并时注意定义一个新的变量,给变量值重新编码,主要将变量值大于等于4(有4,5,6三个值)的值赋予同一个码值,即相当于一个组,与之相应的观测频数和理论频数合并相加后,再进行卡方检验,就可以得到最终结果。,10.3 两个独立样本的检验(

45、Test for Two Independent Sample),如果两个无联系总体的分布是未知的,则检验两个总体的均值或分布是否有显著差异的方法是一种非参数检验方法,或者称为两个独立样本的检验。检验是通过两个总体中分别抽取的随机样本数据进行的。下面通过例题解释具体操作过程。,例3:为了调查甲、乙两地的土壤对种植的同一种西瓜有无影响,从这两个产地分别随机抽取同种的8只和7只西瓜,重量(市斤)如下:,试根据样本数据检验两地的土壤对种植西瓜在重量上是否有显著差异。 解:建立假设 H0:甲乙两地的西瓜重量没有显著差异; H1:甲乙两地的西瓜重量有没有显著差异。 然后根据上面给出的数据建立数据文件,注

46、意数据文件中有一个表示重量数据的变量和一个表示地区分组的变量。,最后在数据编辑窗口进行检验。检验的具体操作过程如下: 1、单击Analyze Nonparametric Test 2 Independent Sample ,打开Two-Independent-Sample对话框如图所示。,2、选择检验的变量进入检验框中,选择分组变量进入Grouping Variable框中,单击Define Group键,打开Define Group对话框。,3、在Test Type栏中,确定检验方法。 SPSS中提供了四种检验方式:这四种方式分别是: Mann-Whitney U 曼惠特尼检验,同时适用于小

47、样本和大样本的情况。 Kolmogorov-Smirnov Z K-S检验,适用于大样本的情况。 Mases Extreme Reactions 极端反应检验,适用于小样本的情况。 Wald-Wolfowitz runs 游程检验,适用于大样本的情况。,这四种检验方法的侧重点有所不同,但都是先将两样本数据混合排序,再从不同的角度分析并检验两个独立总体的分布是否有显著的差异。有时这几种检验结果可能不一样,所以要结合数据的探索分析考察数据的分布状况作出结论。常用的检验方法是 Mann-Whitney U方法,该方法同时适用于大样本和小样本的情况。本例中就选择Mann-Whitney 和Kolmog

48、orov-Smirnov方法。,4、选择输出的结果形式及缺失值处理方式; 5、单击OK,得输出结果。,上表中显示的是Mann-Whitney U 曼惠特尼检验的秩和表,右表中有适用于大小两种样本的统计量,由于例题是小样本的情况,所以选择小样本 U 统计量和精确概率的计算结果,从检验结果知两个地区的西瓜重量上无显著差异。,上表显示的是频数表,下表中显示检验结果,从表中看到检验统计量值Z为0.414,P值接近1,故两地种植的西瓜的重量没有显著差异。 因此,上面的两种检验的结论是一致的。即两地种植的同一种西瓜地的重量没有显著差异。,10.4 两个有联系样本检验(Test for Two relate

49、d samples),两个有联系的样本检验一般用于比较一个现象在采取了某项措施前后的变化是否显著,或者说采取的措施是否有效。也可以检验同一个测试对象上的两种测试方法是否一致。取n个测试对象作为样本,则样本数据是成对出现的。也可以检验这样两个样本是否服从相同的分布等。这种检验在实际中应用范围很广,如对于一种药品效果比较检验,农业上对于一种新的粮食品种与原有品种的比较检验,工业中新工艺方法、新材料与原方法和材料的比较检验等等。下面通过一个例题说明两个有联系样本的检验方法。,例5.4:一车间为了提高工作效率,对某种零件的加工过程进行改进,为了比较加工时间是否明显减少,抽取15名工人对比他们改革前后零

50、件的加工时间,得到相应的数据如下:试根据数据检验改进后零件的加工时间是否明显减少(=0.05)? 改进前(m):70,76,56,63,63,56,58,60,65,65,75,66,56,59,70 改进后(m):48,54,60,64,48,55,54,45,51,48,56,48,64,50,54,解:根据上面的数据建立数据文件SY-15,这显然是两个有联系的样本,故采用两个有联系的样本检验方法。具体操作如下: 建立假设H0:改进前后的零件加工时间没有显著差异; H1:改进前后的零件加工时间明显减少。,1、单击Analyze Nonparametric Test 2 Related Sa

51、mple ,打开Two Related Sample对话框如图所示。,3、在Test Type栏中选择检验方式。SPSS中给出了三种检验方法,分别是: Wilcoxon :威尔克科森秩和检验,只给出大样本近似检验概率。 Sign:符号检验,给出精确检验概率。 McNemar:适用于二值变量的检验 本例中选择Wilcoxon和Sign检验。,2、选择检验的两个变量进入检验框中。,4、在Options框内选择输出结果形式和缺失值处理方式。 5、单击OK,输出结果如表。,Sign Test符号检验,Wilcoxon Signed Ranks Test 威尔克科森秩和检验,威尔克科森秩和检验,检验统计

52、量Z的值为-2.870,假设检验的P值为0.004,小于0.05;而符号检验的频数表和检验表,同样,假设检验的P值为0.035,也小于0.05,故拒绝原假设,认为改进前后的差异是显著的。,10.6 多个样本的非参数检验(K Samples Test),一、多个独立样本的单因素方差分析 (Test for Saveral Independent Samples) 在总体分布未知的情况下,多个独立样本的检验是检验多个独立总体的平均值是否存在显著的差异。由于总体分布未知,所以检验过程是建立秩的基础上。下面通过例题来说明具体的检验方法。,例 5.6 仍以2002年全国职工平均工资表为例,如果定义一个分

53、组变量,将我国东部、中部和西部各省标上1,2,3作为分组值,下面来考察东部、中部和西部的职工平均工资是否存在显著差异(=0.05)?,解:建立假设 H0:各地区的职工平均工资没有显著差异; H1:各地区的职工平均工资有显著差异; 可以从分组中得到三个独立的样本数据,显然可以用多个独立样本的检验。 具体操作步骤如下:,1打开数据,在数据窗口单击Analyze Nonparametric Test K Independent Sample ,打开K-Independent-Sample对话框如图所示。 2选择检验的变量进入检验框中。本例中选择国有单位,城镇集体和港澳台商进入Test Variabl

54、e List框内。 3在Test Type栏中选择检验方式。SPSS软件给出两种检验方式,Kruskal-Wallis H检验,利用秩平均建立检验统计量,检验多个独立总体的分布是否存在显著差异。Median中位数检验,利用卡方统计量检验多组样本的中位数差异是否显著。本例中选择Kruskal-Wallis 统计量。,4在Options对话框内选择输出结果形式和缺失值处理方式。 5单击OK,输出结果如表。,Ranks 秩和表中给出每个变量各组的秩平均。 Test Statistics(a,b) 检验统计表中给出检验结果,其结果显示:卡方统计量结果显示:国有企业、城镇集体及港澳台商企业这三个变量的职工平均工资在中国的东部、中部和西部地区的的差异都是显著的。,Ranks 秩和表,Test Statistics(a,b) 检验统计表,二、多个有联系样本的方差分析(K Related Samples Test),多个有联系样本的方差分析,又称多个配对样本的检验,是在总体分布未知的情况下,用于比较多个有联系的总体分布的差异性。可以归纳为: 多个有联系的总体是否存在显著差异; 多个评判结果是否存在显著差异(一致性检验); 由于总体分布未知,所以检验都是建立秩和的基础上。下面通过例题来说明具体的检验方法。,例7 对于五个企业生产的同一类型产品,由四个使用单位分别对

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论