数据统计分析SPSS教程完整版.ppt

上传人：m*** IP属地：四川上传时间：2019-07-10 格式：PPT 页数：430 大小：6.19MB 积分：25 举报 版权申诉

已阅读5页，还剩425页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

统计学实践,主讲：李晓军 E-mail：,第1章数据分析概述与软件入门,1.1 SPSS软件概述 1.1.1 SPSS简介 SPSS（Statistics Package for Social Science ）for Windows是一种运行在Windows系统下的社会科学统计软件软件包。 SPSS的基本功能包括数据管理、统计分析、图表分析、输出管理等，具体内容包括描述统计、列联分析，总体的均值比较、相关分析、回归模型分析、聚类分析、主成份分析、时间序列分析、非参数检验等多个大类，每个类中还有多个专项统计方法。,一、功能强大,（1）囊括了各种成熟的统计方法与模型，为统计分析用户提供了全方位的统计学算法，为各种研究提供了相应的统计学方法。（2）提供了各种数据准备与数据整理技术。（3）自由灵活的表格功能。（4）各种常用的统计学图形。,二、SPSS的实验环境要求,（1）系统运行环境 SPSS10.0以上版本软件包可以工作在两种模式下，单机模式和作为网络系统的用户界面模式。（2）辅助软件环境三、SPSS的主要界面 SPSS的主要界面有数据编辑窗口和结果输出窗口。四、SPSS的帮助系统 SPSS对一些基本模块中的统计提供了帮助，可以通过单击Help菜单中的Statistics Coach命令，选择所需要的统计指导。,五、SPSS的运行方式,SPSS提供了3种基本运行方式：完全窗口菜单方式，程序运行方式、混合运行方式。程序运行方式和混合运行方式是使用者从特殊的分析需要出发，编写自己的SPSS命令程序，通过语句直接运行。 SPSS中使用的对话框主要有两类，一类是文件操作对话框，文件操作对话窗口操作与Windows应用软件操作风格一致。另一类是统计分析对话框，统计分析对话框可以分为主窗口和下级窗口，在该类对话框中，选择参与分析的各类变量及统计方法是对话框的主要任务。,1.1.2 spss的安装,一、启动Windows 后，把SPSS 系统安装软盘（或光盘）插入软驱（或光驱），并找到SPSS的安装程序的可执行文件Setup.exe。二、双击 Setup.exe 文件，安装程序向导将给出每一步操作的提示。在出现Welcome（欢迎）窗口后，选择Next进入下一步。三、安装程序显示Software License Agreement对话框时，选择Yes接受显示的协议条款。,1.2 spss操作入门,1.2.1 spss软件的启动与退出单击Windows 的开始按钮，在程序菜单项SPSS for Windows中找到SPSS 10.0 for Windows并单击。,1.2.2 SPSS的5个窗口,（1）数据编辑窗口（SPSS Data Editor）,Spss处理数据的工作全在此窗口进行。,（2）结果管理窗口（SPSS Output viewer）,此窗口用于存放分析结果。左边是目录区，右边是内容区。,（3）草稿结果窗口（SPSS Draft Viewer）,草稿结果是结果的一种简化文本格式。实际上就是WORD所兼容的rtf超文本格式，因此可以在没有安装SPSS的PC机上使用文字编辑软件打开。,（4）语法编辑窗口（SPSS Syntax Editor）,（5）脚本窗口（SPSS Script Editor）,1.2.3 SPSS的四种运行方式,一、菜单对话方式首先打开SPSS软件，然后选择菜单File Open file。,然后，利用菜单Analyze Descriptive Statistics Frequencies，,二、程序方式,在Syntax编辑窗口中键入以下程序：,Get file=c:program filesspssemployee data.sav. Frequencies variables = jobcat/order = analysis。,只需要选择菜单Run All，运行该程序也一样会出现相同的分析结果。,三、Include命令方式,当编写Syntax程序时，如果发现将要编写的程序语句正好是另一个Syntax文件的内容；或者发现所需要的程序语句其实是几个Syntax文件的总和是，除了可以通过“Copy”、“Paste”的方法利用资源，生产一个新的Syntax文件外，还可以利用Include命令。,Include c:sytaxsample.sps.,四、spss Production Faccility 方式,在Windows的程序菜单中，spss菜单组除了有“spss for windows”项之外，还有一个“spss production facility”。,（1）单击Syntax框下的“Add”按钮，到C盘根目录下打开“syntaxsample”。,（2）单击Syntax框下的“Edit”按钮，对程序进行编辑。,（3）单击右下角的“uesr prompts”按钮，添加对程序的交互分析界面。,（4）单击“Browse”按钮制定结果保存路径，单击“export options”按钮还可以制定结果保存格式。,1.2.4 spss的四种输出结果,1、表格格式 2、文本格式 3、标准图与交互图 4、结果的保存和导出,第2章数据录入与数据获取,本章主要解决两个问题：第一个问题，根据问题类型的不同，将会从开放题、单选题和多选题的录入方式为例进行介绍。第二个问题，重点介绍如何用SPSS直接读取Excel类型和文本格式的数据，以及如何用ODBC接口读取数据库文件。,2.1.1 统计软件中数据的录入格式（1）不同观测对象的数据不能在同一记录中出现，即同一观测数据应当独占一行。（2）每一个观测量指标或影响因素只能占据一列的位置，即同一指标的数量观测值都应当录入到同一个变量中去。,2.1 数据格式概述,即：一个观测占一行，一个变量占一列,在录入数据时，归纳为以下三步：第一步：定义变量名；第一步：指定每个变量的各种属性；第一步：录入数据。变量名不能与spss保留字相同，spss的保留字有ALL、END、BY、EQ、GE、GT、LE、LT、NE、NOT、OR、TO、WITH。,2.1.2 变量属性介绍,一、变量的储存类型,SPSS中，变量有三种的基本类型：数值型、字符型和日期型。,标准数值型,逗号数值型,圆点数值型,科学技术法数值型,美元数值型,用户自定义型,数值型：数值型的数据是0-9的阿拉伯数字和其他符号，如美元符号、逗号或圆点组成的。,字符型：字符型数据的默认显示宽度为8个字符位，系统不区分变量名中的大小写字母，并且不能进行数学运算。注意：在输入数据时不应输入引号，否则双引号将会作为字符型数据的一部分。,日期型：日期型数据是用来表示日期或时间的。日期型数据的显示格式有很多，SPSS以菜单方式列出日期型数据的显示格式以供用户选择。事实上，SPSS存储中的日期型变量是该实践与1582年10月14日零点相差的秒数。,关于日期型格式的几点说明：,“m”在年与日（字母y与d）之间表示月份；在时与秒（字母h与s）之间表示“分”钟。 “mmm”表示要求书写英文月份单词的前三个字母组成的缩写。 “ddd”三个字母d表示要求用从元月一日算起的日数表示日期。指定了日期变量的格式，不一定在输入时就使用指定的格式。可以输入用“/”或“”作分隔符的具体日期，回车后，系统将自动将输入的格式转化为指定的格式，显示在单元各种。,二、变量的测量尺度,在SPSS中使用Measure属性对变量的测量尺度进行定义。,（1）定类尺度（Nominal Measurement）：定类尺度是对事物的类别或属性的一种测度，按照事物的某种属性对其进行分类或分组。,特点：其值仅代表了事物的类别和属性，即能测度类别差异，不能比较各类之间的大小，所以各类之间没有顺序和等级。对定类尺度的变量只能计算频数和频率。,在spss中，能适用定类尺度的数据可以是数值型，也可以是字符型变量。使用定类变量对事物进行分类时，必须符合穷尽原则和互斥原则。,（2）定序尺度（Ordinal Measurement）：定序尺度是对事物之间的等级或顺序差别的一种测度，可比较优劣或排序。,特点：由于定序变量只能侧度类别之间的顺序，无法测出类别之间的准确差值，即测量数值不代表绝对的数量大小，所以其测量结果只能排序，不能进行运算。,（3）定矩尺度（Interval Measurement）：定矩尺度是对事物类别或次序之间间距的测度。,特点：不仅能将事物区分为不同类型并进行排序，而且可能准确指出类别之间的差距是多少；定居变量通常以自然或物理单位为计量尺度，因此测量结果往往表现为数值，所以计量结果可以进行加减运算。,（4）定比尺度（Scale Measurement）：定比尺度是能够测算两个测度值之间比值的一种计量尺度，它的测量结果同定距变量一样表现为数值。,特点：定必变量是测量尺度的最高水平，它除了具有其他三种测量尺度的全部特点外，还具有可计算两个侧度至之间笔直的特点，因此它可以进行加、减、乘、除运算，而定居变量值可进行加减运算。,三、变量名与变量标签值,Label：定义变量名标签 Value：定义变量值标签,四、缺失值,Spss中缺失值有用户自定义缺失值和系统缺失值两大类。,在SPSS中，对字符型变量，默认的缺失值为空格；对数值型变量，默认的缺失值为零。,2.2 数据的直接录入,2.1.1 操作界面说明,Data View表可以直接输入观测数据值或存放数据，表的左端列边框显示观测个体的序号，最上端行边框显示变量名。,Variable View表用来定义和修改变量的名称、类型及其他属性，如图所示。,如果输入变量名后回车，将给出变量的默认属性。如果不定义变量的属性，直接输入数据，系统将默认变量Var00001,Var00002等。,在Variable View表中，每一行描述一个变量，依次是： Name：变量名。变量名必须以字母、汉字及开头，总长度不超过8个字符，共容纳4个汉字或8个英文字母，英文字母不区别大小写，最后一个字符不能是句号。 Type：变量类型。变量类型有8 种，最常用的是Numeric数值型变量。其它常用的类型有：String字符型，Date日期型,Comma逗号型（隔3位数加一个逗号）等。 Width：变量所占的宽度。 Decimals：小数点后位数。 Label：变量标签。关于变量涵义的详细说明。 Values：变量值标签。关于变量各个取值的涵义说明。 Missing：缺失值的处理方式。 Columns：变量在Date View 中所显示的列宽（默认列宽为8）。 Align：数据对齐格式（默认为右对齐）。 Measure：数据的测度方式。系统给出名义尺度、定序尺度和等间距尺度三种（默认为等间距尺度）。,为了在统计分析过程中能有效的利用其它软件产生的数据，SPSS软件编辑窗口除可以使用*.sav扩展名数据文件，还可以直接打开和保存下述类型的文件： SPSS DOS版本产生的数据文件*.sys； Excel 报表程序产生的数据文件*.xls； DBASE 数据库格式文件*.dbf； SAS统计软件产生的数据文件。,2.2.2 开放题和简单单选题的录入,一、在spss中定义变量,录入数据的第一步是定义变量属性，随后才能进行数据录入。,二、开放题的录入,三、单选题的录入单选题的录入可以采用字符直接录入、字符代码+值标签、数值代码+值标签三种方式。,2.2.3多选题的录入,一、多重二分法（Multiple Dichotomy Method）所谓多重二分法，是在编码的时候，对应每一个选项都要定义一个变量，有几个选项就有几个变量，这些变量均为二分类，他们各自代表对一个选项的选择结果。二、多重分类法（Multiple Category Method）多重分类法，也是利用多个变量对一个多选题的答案进行定义，应该用多少个变量，由被访者实际可能给出的最多答案数而定。,三、多选题录入在spss中的实现,2.3 外部数据的获取,SPSS读入非SPSS类型的文件数据，有三种主要方式：直接打开，利用文本导向读入文本数据以及利用数据库OBDC接口读入数据。,2.3.1 电子表格数据如何导入spss中,SPSS中可以直接读入许多常用格式的数据文件，选择菜单File Open Data或直接单击快捷键工具栏上的快捷按钮，系统就会弹出Open File 对话框，单击“文件类型”列表框，在里面能够看到可以直接打开的数据文件格式。,2.3.2 文本数据如何导入spss中,第一步：首先，在Open File 文件框中选中文件，单击“打开”，系统会自动启动文本倒入向导对话框。,第二步：选择“NO”并单击“下一步”按钮。,用某种字符区分,固定宽度,第三步：分别选择“Delimited”和“yes”,然后单击“下一步”按钮。,第四步,第五步,第六步,第七步,2.4 数据的保存,2.4.1 存为spss格式 2.4.2 存为其他数据格式,第3章数据管理,3.1 变量级别的数据管理,对变量进行操作的内容主要集中于Transform菜单中，包括新变量的生成、记录的排序、对变量进行计数等。,计算新变量：就是用Compute过程。变量转换：包括Recode、Visual Bander、Count、Rank Case、Automatic Recode这五个过程。专用过程：包括建立时间序列、缺失值代替和设定随机种子三个过程。 Run Pending Transforming：用于执行编程中被挂起的数据整理操作。,计算产生新变量,变量值自动编码,设定随机数种子,创建代替缺失值变量,创建时间序列变量,运行其它转换程序,变量值重新编码,创建计数变量,观测量排秩,连续变量进行分段,3.1.1 计算新变量,计算新变量的功能就是在原有spss数据文件的基础上，根据用户的要求，使用spss算术表达式及函数，对所有记录或满足SPSS条件表达式的记录，计算出一个新结果，并将结果存入一个用户指定的变量中。一、常用基本概念（1）spss算术表达式 spss算术表达式是由常量、spss变量名、spss的算术运算符、圆括号等组成的式子。（2）spss函数 spss提供了多达70多种函数，分为八大类：算术函数、统计函数、分布函数、逻辑函数、字符串函数、日期时间函数、缺失值函数和其它函数。（3）spss条件表达式通过spss的算术表达式和函数可以对所有记录计算一个结果，如果仅希望对部分记录进行计算，则应当利用spss的条件表达式指定对那些记录进行计算。,二、compute过程的分析实例,例3.1 统计英语成绩在60分以上的学生的数学和语文的平均成绩。,例3.2 计算工人工资的所得税。,学生自己练习。,3.1.2 对变量值进行分组合并,一、对连续变量进行分组,在SPSS中可以将连续变量转换为离散（等级或定序）变量，按照某种一一对应的关系生成新变量值，可以将新值赋给原变量。Recode过程和Visual Bander过程都可以完成这一任务，但前者给为简单和常用。,例3.3 当学生英语成绩小于60时取值为“不及格”，大于等于60且小于70为“及格”，大于等于70且小于80为“较好”，大于等于80为“优秀”。,二、分类变量类别的合并,Recode过程也常用于合并某个分类变量的几个水平为一个水平。,将上例grade中优秀、良好和及格三个等级合并为一个等级“PASS”，将grade的等级“不及格”转换为“NOPASS”。,3.1.3 连续变量的可视化分段,VISUAL Bander 用于将连续变量进行分段，该过程使用百分位数、标准差范围或者等间距方式将连续变量划分为若干组段，并采用图形化操作的方式。,例3.4 对数学成绩进行分段，假设现在希望按变量math将学生分为5组，60分以下为第一组，60分以上的按照等间距的方式分为4组。,3.1.4 将字符变量转换为数值变量,用automatic recode将字符变量转换为数值变量。,3.1.5 变量的编秩,所谓编秩，就是对记录按照某个变量值大小来排序。Rank case过程就是用来排序的一个专用过程。,例：根据性别分组计算数学成绩的秩次。,3.1.6 Transform菜单中的其它功能,（1）count过程如果用户需要对满足某项条件的数据进行计数，可以使用Count命令。,先在Target Variable中指定一个变量（可以是已经存在的变量或新变量），并定义变量标签，然后指定要统计的变量加到Numeric Variables框中，再单击Define Values按纽，打开Value to Count对话框。,Value:输入某个值为清点对象； System-missing:以系统的缺失值为清点对象； System-or user missing:以系统或用户指定的缺失值为清点对象； Range:指定数值的计数区域：其中包括：（）through（）在框内指定下限和上限 lowest through（）: 在框内只指定上限；（）highest through: 在框内只指定下限。,（2）random Number Seed过程：用于设定伪随机函数的随机种子。,3.2 文件级别的数据管理（一）,数据编辑窗口的Data菜单为用户创建和定义数据提供了方便的功能。这个菜单是SPSS统计软件数据整理的特有功能菜单。它的功能包括：对变量、观测量的编辑处理；对变量数据的变换；对观察量数据整理。（1）简单命令：包括插入变量、插入记录和到达某条记录，他们的功能实际上都可以用鼠标在数据表界面上直接完成，很少会使用菜单来调用。（2）常用的简单过程：包括排序、拆分文件、选择记录和加权记录。（3）变量与数据文件属性导向：用于定义数据字典，或者将于定义的数据字典直接引入当前数据文件。,（4）数重构过导向：用于进行数据转置，或者对重复测量数据表进行长型、宽型记录间的转换。（5）文件合并过程：将几个数据文件合并为一个大的spss数据文件，含横向合并和纵向合并两种情况。（6）正交设计过程：实际上是联合分析模块的一部分，用于生成实施联合分析所需要的设计。（7）其他过程：包括定义日期变量过程、数据汇总过程和查找重复记录导向。,定义变量属性,定义变量日期,插入观测量,拷贝数据属性,插入一个变量,定位观测量,观测量排序,重构数据结构,分类或不分类汇总,正交设计,数据文件转置,合并数据文件,标识重复观测量,拆分数据文件,选择观测量,观测量加权,3.2.1 记录排序,一、排序的两种方法：（1）在数据表格的变量名处单击右键，弹出的右键菜单最后两项就是“sort Ascending”和“Sort Descending”。（2）对于多变量排序，则需要使用Sort Cases过程来进行。二、多变量排序需要注意的三点：（1）在多重排序中，制定排序变量名是很关键的，先指定的变量在排序时必然优先于后制订的变量。（2）可以指定按某变量值升序排序的同时按另一变量值降序排序，或相反。（3）排序以后，原来记录数据的排列次序将被打乱。,3.2.2 记录拆分,Split File 分割文件的功能是把当前工作分割成两个或两个以上的组，随后的分析将对每个组进行。,3.2.3 记录筛选,Select Cases：当用户不需要分析全部的数据，而是按要求分析其中的一部分，使用该选择。,All case：选择所有数据； If condition is satisfied: 按指定条件选择数据。,Random Sample of cases：对观察值进行随机抽样。,Use filter variable：用指定变量作过滤。先选择一个变量，系统自动在数据管理器中将该变量值为0的观测单位标上删除记号，系统对标有删除记号的观测单位不作分析。,Based on time or case range：顺序抽样。单击Range按纽，打开Select Case: Range对话框，用户自行定义从第几个观察值开始抽到第几个观察值结束。,3.2.4 加权记录,Weight Cases：设定某变量为频数变量。,3.2.5 数据汇总,所谓分类汇总就是按指定的分类变量对观测值进行分组，对每组记录的各变量求指定的描述统计量，结果可以存入新数据文件，也可以替换当前数据文件。,一、汇总的概念,二、进行分类汇总的方法,1、打开“data”菜单，选择“Aggregate”，展开aggregate data”对话框。,2、在左侧的源变量框中选择一个或多个变量作为分类变量进入分类变量（Break Variables）框中。,3、在左侧的源变量框中选择一个或多个变量作为要求汇总的变量进入汇总变量（Aggregate Variables）框中，即要求这些变量的值进行分类汇总。,4、“name& label” （名称与标签）：单击此按钮可以修改组合后所生成新变量名称以及标签：可以在name后面的矩形框中输入新变量名。在Label后面的矩形框中输入新变量标签。单击“continue”按钮继续。,5、“Function”（函数）选择此项可以确定汇总变量的描述内容；系统默认函数为平均数。,3.3文件级别的数据管理（二）,3.3.1 数据字典的定义与应用在大型的数据分析项目中，数据管理是非常重要的一个环节，为了保证工作质量，数据处理人员往往会事先定义好一个非常详细的数据格式，包括变量格式、变量标签、标签值、缺失值定义等，这被称为数据字典。一、变量属性定义导向：Define Variable Properties,具体说来，可以列出所选变量的所有值；分辨没有值标签的值，并且提供自动给出值标签的功能；可以将另一个变量的属性拷贝到所选变量，也可以将所选变量的属性拷贝到其他变量。,二、复制数据文件属性导向,Copy Data Properties 过程用于将定义好的数据字典直接应用到当前文件中。,操作时不仅可以将一个外部数据文件相关属性拷贝到当前数据文件中，还可以进行自行定义，只选择某些变量，或者某些属性进行拷贝，这无疑大大提高了连续性项目对原有资源的利用程度。,3.3.2 查找重复记录,Identifying Duplicate Cases：用于查找重复记录。,运行结束后，结果窗口会给出本次操作的信息汇总：,3.3.3 数据文件的重新排列与转置,一、数据的长型与宽型格式：长型格式和宽型格式指的是重复测量数据的两种不同的排列方式。,由于重复测量模型可以使用不同的统计模型加以分析，因此根据模型的要求进行长型格式和宽型格式之间的互转换是数据分析中经常要遇到的问题。,二、长型格式转换为宽型格式：Restructure。,选择Data Restructure，系统就会弹出下图导向。,三、数据转置,Transpose：用于对数进行行列转置，数据文件的转置就是将数据编辑窗口中数据的行列互换，即将记录转为变量，将变量转为记录后，重新显示在数据编辑窗口中。,Variable(s)：放入将要行列转置的变量名。在数据文件中，未放入栏中的变量会遗失。字符串变量不能转换，如强迫转换，变量值转变为系统缺失值。,Name variable：变量命名栏，在左侧源变量栏中选择一个变量，放入name variable栏，技改变量的数据作为转置后的变量名。,3.3.4 多个数据文件的合并,纵向连接：几个数据集中的数据相加，组成一个新的数据集，新数据集中的记录是原来几个数据集中记录数的总和。横向连接：指的是按照记录的次序，或者某个关键变量的数值，将不同数据集中的不同变量合并为一个数据集，新数据集中的变量数是所有原数据集中不重名变量的总和。一、数据文件的纵向连接纵向合并实质就是将两个数据文件的变量列，按照各个变量名的含义，一一对应的进行首尾相接。纵向合并必须遵循两个条件：第一，两个合并的spss数据文件，其内容合并是有实际意义的。第二，为方便spss数据文件的合并，在不同的数据文件中，最好起相同的名字，变量类型和变量长度也要尽量相同。,Unpaired variable：不匹配变量栏。指变量名相同而变量定义不同的变量，或变量名不同的变量。 Variable in new working data：新工作数据变量栏。 Indicate case source as variable：指示记录来源的变量选项/,二、数据文件的横向合并,横向合并的实质是将两个数据文件的记录，按照记录对应，一一进行左右对接。横向合并遵循三个条件：第一，如果不是按照记录号对应的规律进行合并，则两个数据文件必须至少有一个变量名相同的公共变量，这个变量是两个数据文件横向合并的依据，成为关键变量。第二，如果是使用关键变量进行合并的对应，则两个数据文件都必须事先按关键变量进行升序排列。第三，为方便SPSS文件的合并，在不同的数据文件中，数据含义不相同的列，变量名不应取相同的名称。,Excluded Variables：拒绝变量名。外部文件与当前数据的同变量，拒绝加到新工作区中。,New Working Data：新工作数据变量栏。,Match Case on Key Variable in sort：排序文件中按关键变量匹配记录选项。,Both files provide case：由外部文件和当前数据量两者提供记录。 External file is keyed table：外部文件为关键表，以当前数据为基准，外部文件匹配当前数据的关键变量值，如匹配成功，外部文件的新变量值加入到当前数据的新变量中，匹配不成功则不加入。 Working Data File is keyed table：当前数据为关键表。 Key Variables：关键变量栏，在拒绝变量选择某变量作为关键变量。 Indicate case source as variable：指示记录来源的变量选项。,第4章连续性变量的统计描述与参数估计,4.1 连续变量的统计描述概述 4.1.1 统计描述中的可用工具（1）各种初步汇总描述方法频数、百分位数。（2）各种统计描述指标均值、标准差、四分位数间距。（3）统计表（4）统计图,4.1.2 连续变量的统计描述指标体系,（1）集中趋势（Central Trend）：均数（Mean）中位数（Median）众数（Mode）总合（Sum）,（4）其他趋势百分位数指标（Percentile）、M统计量（M-Estimators)、极端值（Outlier）。,（2）离散趋势（Dispersion Trend）标准差（Std. Deviation）、方差（Variance）、全距（Range）、最小值（Minimum）、最大值（Maximum）、标准误（S.E. Mean）,（3）分布特征（Distribution Tendency）偏度系数（Skewness）和峰度系数（Kurtosis）,4.1.3 spss中的相应功能,1、Spss的用于连续变量统计描述的过程，均集中在Descriptive Statistics子菜单中。（1）Frequencies：产生原始数据的频数表，并能计算各种百分位数。,控制频数表输出范围类型的最大数目,（2）Descriptive过程,该过程用于一般性的统计描述，相对于Frequencies过程而言，它不能绘制统计图。,（3）Explore 过程,该过程用于对连续性资料分布状况不清楚时的探索性分析，它可以计算许多描述统计量，给出各种统计图，并进行简单的参数估计。,（4）Ratio 过程,用于对两个连续性变量计算相对比指标。,2、Compares means 均值比较,means过程：means过程的优势在于各组的描述指标被放在一起便于相互比较，并且如果需要，可以直接输出结果，无须再次调用其它过程。,4.2集中趋势的的描述指标,4.2.1 算术平均算术平均（Arithmetic Mean）是最常用的描述输送距分布的集中趋势的统计良。总体均数（Population Mean）用希腊字母表示，样本均数常用表示。一、算术平均数的定义和性质,二、均数的意义,任何一个平均数值首先是同类现象的平均数。任何一个平均数总是一个平衡点。但平均数在高度概括观测数据从而使问题简化的同时，却丢失了某些有用的信息，一方面它把各个观测数据之间的差异性掩盖了起来，另一方面由于平均数对于个别极端值反应比较灵敏，因而平均数在某些情况下可能具有一定的欺骗性。,三、均数的适用范围,严格的讲平均数指示用于定距变量。但有时对于定序变量，求平均等级也可以使用平均数。,4.2.2 中位数,中位数（Median）是将总体各单位的标志值按大小顺序排列，处于中间位置的那个标志。一、中位数的定义对于未分组的原始资料，首先必须将标志值按大小顺序。设排序结果为：则中位数就可以按下列方式确定：二、中位数的适用范围,4.2.3其他集中趋势指标,一、截尾均数由于均数较易受极端之的影响，因此可以考虑将数据排序后，按照一定的比例去掉最两端的数据，只是用中部的数据来求均数。如果截尾均数河源均数相差不大，则说明数据不存在极端值，或者两侧极端值的影响正好抵消；反之，则说明数据中有极端值，此时截为均数更好地反映数据的集中趋势。常用的截尾均数有5%截尾均数，即两端各去掉5%的数据。,二、几何均数,几何均数适用于原始数据分布不对称，但经过对数转换后称对称分布的资料。,几何均数世纪上就是对数转换后的数据lgX的算术平均数的反对数。,四、调和均数它实际上是观察值X倒数之均数的倒数。,三、众数（Mode）众数指的是样本数据中出现频次最多的那个数。,众数适用于任何层次的变量，特别适用于单峰对称的情况，是比较两个分布是否接近首先要考虑的参数。,在SPSS中，众数可以在Report子菜单和Tables子菜单的全部报表过程和制表过程中计算出来。,在SPSS中，调和均数可以在Report子菜单的4个报表过程过程中计算出来。,4.3 离散趋势的描述指标,4.3.1全距（Range）又称为极差，是一组数据中最大值（Maximun）与最小值（Minimum）之差。极差反映的是变量分布的差异范围或离散程度，在总体中，任何两个标志值之差都不可能超过极差。极差存在两点不足：一是它仅仅取决于两个极端之的水平，不能反映其间的变量分布情况，提供的信息太少。二是它容易受个别极端值的影响，不符合稳健型的要求。,4.3.2 方差和标准差,一、方差（Variance）和标准差（Standard Deviation）的定义将离均差平方和（Sum of Squares of Deviation from Mean，SS）除以观察例数N，就得到方差：方差越大，数据分布离散程度越大。对于样本数据而言，方差的计算公式为：将方差开方，就得到标准差。对于同性质的数据来说，标准差越小，表明数据的变异程度越小，即数据越整齐，数据的分布范围越集中；标准差越大，表明数据的变异程度越大，即数据越参差不齐，分布越分散。二、方差和标准差的适用范围：方差和标准差的适用范围应当是正态分布。,4.3.3 百分位数、四分位数与四分位数间距,分位差是对极差指标的一种改进，是从变量数列中剔除了一部分极端值后重新计算的类似于极差的指标。常用的分位差有四分位差、十分位差、百分位差。,一、分位数,分位数：是一种位置指标，用PX表示。一个百分位数PX将一组观测之分为两部分，理论上有x%的观测值比它小，（100-x）%的观测值比它大。四分位数（quartile）、十分位数（decile）、百分位数（percentile），他们分别是用3个点、9个点、99个点将数据4等分、10等分和100等分后各分位点上的值。,二、四分位数,四分位数：实际上是三个数值的总称，分别是P25、P50、P75分位数。很显然，中间的分位数是中位数，因此通常所说的四分位数是指第一个四分位数（下四分位数）和第三个四分位数（上四分位数）。,上下四分位数的差值称为四分位数间距：,QR=Q3-Q1,4.3.4 变异系数,当需要比较两组数据离散程度大小的时候，往往直接使用标准差来进行比较并不合适。这可以被分为两种情况：（1）测量尺度相差太大；（2）数据量纲不同。在以上情形中，就应当消除测量尺度和量纲的影响，而变异系数（Coefficient of Variance），它是标准差和其平均数的比率。,4.4 连续变量统计描述实例,4.4.1 数据背景介绍 4.4.2 使用Explore过程进行分析探索分析是对数据进行初步的观察分析，主要的分析项目有：观察数据的分布特征：可通过绘制箱图和茎叶图等图形直观地反映数据的分布形式和数据的一些规律性，包括考察数据中是否存在异常值等。正态分布检验：检验数据是否服从正态分布。方差齐性的检验：用Levene检验比较各组的方差是否相等。,1、单击Analyze-Descriptive statistics-Explore，打开Explore主对话框：,一、分析操作,（3）在Display栏中选择输出项，依次是Both选择项，输出图形与描述统计量（系统默认），只输出描述统计量和只输出图形。本例中选择默认项。,（1）从左侧的变量列表中选出变量”身高”，送入Dependent List栏。,（2）选择”性别”作为因子变量，送入Factor List栏。有了因子变量，SPSS会把所有的观测个体按照因子变量的取值分成若干各组，再分组考察Dependent List中的各个变量，如果不选择因子变量，SPSS会对全部观测来做探索分析。,2、单击Statistics统计量按钮，打开Statistics对话框,选择统计输出量。,（1）Descriptives基本统计描述。同时指定均值的置信区间的置信度，系统默认为95。,（2）M-估计（M估计在计算时对所有观测量赋予权重，随观测量距分布中心的远近而变化）。（3）Outliers输出分析数据中五个最大值和五个最小值。（4）Percentiles输出百分数。,3、单击Plots 图形按钮，打开Plots对话框。,（1）Boxplot 箱图选择栏,Factor levels together因变量按因素水平分组（系统默认）； Dependents together 所有因变量生成一个并列箱图（本例中选择项）；None不显示箱图。,（2）Descriptive 描述图形栏 Stem-and-leaf 茎叶图Histogram 直方图,（3）Normality plots with test(复选项)，正态分布检验并输出Q-Q图。,None：不产生回归直线的斜率和方差齐性检验； Power Estimation转换幂值估计（对每组数据产生一个中位数自然对数及四个分位数的自然对数的散点图）选项； Transformed 变换原始数据选择项； Untransformed不变换变换原始数据选择项。,（4）Spread vs level with Levene Test栏，对所有的散布层次图，同时输出回归直线的斜率以及方差齐性的Levenes检验。,4、单击Option按纽，打开Option对话框如图所示。可选择缺失值的处理方式，SPSS提供三种处理方式：,（1）Exclude cases listwies 剔除带缺失值的观测量（系统默认）。（2）Exclude cases pairwise 剔除带缺失值的观测量时还一并剔除与缺失值有成对关系的观测量。（3）Report values 输出频数表时同时输出缺失值。,5、单击OK，得到相应的输出结果如表所示。,二、基本的分析结果,三、输出百分位数和极端值列表,身高 Stem-and-Leaf Plot for sex= 男 Frequency Stem & Leaf 1.00 15 . 9 .00 16 . 9.00 16 . 555778999 20.00 17 . 00000000011112334444 24.00 17 . 555555555556677777788889 12.00 18 . 000000122234 3.00 18 . 668 Stem width: 10 Each leaf: 1 case(s),箱图中，最底部的水平线段是数据的最小值（奇异点除外），顶部的水平线段是数据的最大值（奇异点除外），中间矩形箱子的底所在位置是数据的第一个四分位数（即25分位数），箱子顶部所在位置是数据的第三个四分位数据（即75分位数）。箱子中间的水平线段刻画的是数据的中位数（即50分位数）。,4.4.3使用其他过程过程进行分析一、Descriptive过程的结果,二、Frequencies过程的结果,4.5 连续性变量的参数估计,根据样本数据对总体的客观规律性作出合理估计的过程被称为统计推断（Statistical Inference），它可以被分为参数估计和假设检验两大类。 4.5.1 正态分布一、正态分布的定义若连续性随即变量X的概率分布密度函数为则称随机变量X服从正态分布（Normal Distribution）,二、正态分布的特征,（1）正态分布是一条对称曲线，关于均数对称，因此均数被称为正态分布的位置参数。（2）曲线是单峰，在均值出达到最高点。（3）正态分布曲线的尖削与标准差有关。因此标准差被称为正态分布曲线的尺度参数。（4）曲线无论向左或向右延伸，都越来越接近横轴，但不会与横轴相交，以横轴为渐近线。（5）约68%的个体的取值与平均数在距离一个标准差之内。（6）约95%的个体取值与平均数的距离在1.96个标准差之内。（7）99%个体的取值与平均数的距离在2.58个标准差。,三、标准正态分布（Standard Normal Distribution）,将原来的正态分布转换为标准正态分布。,在SPSS中的Descriptive过程可以将原变量转换为标准正态分布的得分，只需要选中主对话框左下角的Save standardized values as variables 复选框即可。,四、偏度和峰度,（1）偏度（Skewness）：偏度是用来描述变量取值分布形态的统计量，只分布不对称的方向和程度。样本偏度系数：,偏态的方向指的应当是长尾的方向，而不是高峰的位置。,(2)峰度（Kurtosis）：峰度用来描述变量取值分布形态陡缓的统计量，是指分布图形的的尖削程度或峰凸程度。样本的峰度系数：,4.5.2 参数的点估计,参数的点估计就是选定一个适当的样本统计量作为参数的估计量，并计算出估计值。对于所选统计量是否适于作参数估计量，有无偏性、一致性和有效性三个评选标准。无偏性是指虽然估计量的值不全等于参数，但应在真实值附近摆动。一致性是指样本容量越大，估计值离真实值的差异应当越小。有效性是指如果两个统计量都符合上述要求，则应当选取误差更小的一个作为估计值。,在许多种情况下，样本统计量本身往往就是相应的总体参数的最佳估计，此时就可以直接取相应的样本统计量作为总体参数的点估计。,一、矩法,二、极大似然估计法该方法的原理是在已知总体的分布，但未知其参数值时，在待估参数的可能取值范围内进行搜索，使似然函数值最大的那个数值为极大似然估计值。三、稳健估计值稳健估计值的是该统计量具有稳健性，当数据存在异常值时受影响较小，而且对大部分的分布而言都很好。,文件估计有M估计、R估计等不同方法。,SPSS中数出的M估计量有4种，它们分别是Huber、Andrews、Hampel和Tukey所提出的，实际上就是所用的函数不同。一般而言，Huber适用于数据接近正态分布的情况，另外三种则适用于数据中许多异常值的情况。如果M估计量里平均数和中位数较远，则数据中可能存在异常值。此时，应该用M估计量替代平均数以反映集中趋势。,4.5.3 参数的区间估计,一、标准误标准误就是用来描述参数估计值可能离真实值究竟有多远的统计量。二、区间估计的计算结合样本统计量和标准误可以确定一个具有较大的可信度包含总体参数的区间，该区间称为总体参数的1-a可信区间或置信区间（Confidence Interval）。对于任意可信度的区间情况，总体均值在100（1-a）%可信区间为：,第5章分类变量的统计描述与参数估计,5.1分类变量的统计描述概述 5.1.1分类变量的统计描述指标体系一、频数分布情况描述各个类别的样本数和所占比例分别称为频数（绝对频数）和百分比（构成比）。累计频数是指本类别及较低类别出现的次数之和，累计百分比则是指本类别及较低类别出现的次数之和占总次数的百分比。,根据类别的有序性，分类变量可以分为有序分类变量（Ordinal Variable）和无序分类变量（Nominal Variable）。,当集中趋势显著时，用众数（Mode）作为总体的代表值。,二、集中趋势的描述,所谓众数，使之出现次数最多的那个数。如果只有一个众数称为单众数，多于一个的称为复众数。,（1）比（Ratio）：比指的是两个有关指标之比A/B，用于反映两个指标在数量/频数上的大小关系。,三、使用相对数进行深入描述,（2）构成比（Proportion）,率是一个时间概念，或者说具有速度、强度含义的指标，用于说明某个时间发生的频率或强度。,分观察对象为K部分（A1、A2、Ak），其中某一个/多个部分的例数占总例的比例未构成比，它描述某个事物内部各构成部分所占的比重。,（3）率（Rate）,5.1.2 分类变量的联合描述,当一共有两个分类变量时，这汇总因分类变量的各类别交叉而成的复合频数表被称为行*列表，也称列联表。,当观察的现象与两个因素有关时，如某种服装的销量受价格和居民收入影响；某种产品的生产成本受原材料价格和产量的影响等等，交叉列联表分析可以比较好的反映出两个因素之间有无关联性，两因素与现象之间的相关关系。因此，数据交叉列联表分析主要包括两个基本任务： 1、根据收集的样本数据，产生二维或多维交叉列联表； 2、在交叉列联表的基础上，对两两变量间是否存在关联性进行检验。,5.2分类变量的统计描述实例,5.2.1使用Frequencies过程输出频数表具体操作: Analysis Descriptive Statistics Frequencies,1、打开数据，单击AnalyzeDescriptive Statistics Crosstabs对话框。,2、如果是二维列联表分析，可以将行变量选择进入Row(s)中，将列变量选择进入Column(s)框中。如进行三维以上的列联表，可以将其它变量作为控制变量选到Layer框中。多控制变量可以是同层次的也可以是逐层叠加的。,5.2.2 使用Crosstabs过程输出列联表,3、Display clustered bar chart选择项，可以指定绘制各变量交叉频数分布柱形图。Suppress table表示不输出列联表，只有在分析行列变量间关系时选择此项。此例中不选择这一项。,4、

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

数据统计分析SPSS教程完整版.ppt

文档简介

温馨提示

最新文档

评论

数据统计分析SPSS教程完整版.ppt

文档简介

温馨提示

最新文档

评论

相关文档