数据与SPSS数据处理_第1页
数据与SPSS数据处理_第2页
数据与SPSS数据处理_第3页
数据与SPSS数据处理_第4页
数据与SPSS数据处理_第5页
已阅读5页,还剩189页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第二章数据与SPSS数据处理第1节数据第2节SPSS数据文件的建立和管理第3节SPSS数据的预处理1精选ppt第二章数据与SPSS数据处理第1节数据2精选ppt200只灯泡使用寿命频数分布表使用寿命二百只灯泡的可使用寿命直方图频数3精选ppt关于改革方案调查结果5种软饮料购买频数4精选ppt5精选ppt数据的定义现代汉语词典:数据(data)是进行各种统计、计算、科学研究和技术设计等所依据的数值。数理统计学:通过对样本进行观察或测定的方法,得到的观察值或变量(variable)就是数据。数据是原始事实,如员工的姓名、每周的工作小时数、商店存货数量或销售订单等。传统的数据:狭义的数据,指用数值表示的字据,仅能用数字表示现代的数据:广义的数据,指代表真实世界的客观事物,可以是数字、文字、图像、声音等。数据是简单的客观事实,除它本身以外没有什么价值。但如果在各个数据之间定义了相互的关系,它们就具有了价值。6精选ppt数据的类型按照数据的表现形式,广义的数据常分为4种基本数据,包括数字、文字、字母、符号和字符图形数据,包括图形、图片声音数据,包括声音、噪声和音调视觉数据,包括动作、脉冲、电磁波、信号和动画当这些事实按照一定意义的方式组织和安排在一起,就成为信息7精选ppt数据的类型正确理解所研究变量的类型对选择适当的统计分析方法至关重要对变量分类可以根据不同标准进行获得方式观测水平取值性质8精选ppt(1)根据数据的获得方式观测数据(observeddata):取值直接来自研究者的观察、测量或调查表现物质特征的数据为客观数据。如空气污染物、某商品的物价表现精神属性的数据为主观数据(是客观数据的能动反映和抽象),如人们对某事物的反映按照数据来源,有对离散数的观测数据——计数数据,人数、桌椅数;有对连续数的观测数据——计量数据,如温度、长度。衍生数据(deriveddata):又称之为二手数据,其来源于他人直接观察和调查,或者是观测(初级)数据的再处理,经过高度抽象,是高级的客观数据。客观数据经人为的加工,即转化为衍生数据衍生数据取值往往是通过某种数学方法根据观测量计算出来的,如平均气温、平均物价等。9精选ppt(2)根据数据的观测水平定量数据(quantitativedata)连续数据(continuousdata)(气温、气压)离散数据(discretedata)(上课人数、上班人数)顺序数据(ordinaldata)(比赛名次、考试成绩名次等)连续数据可转化为离散数据,也可转化为顺序数据;但顺序数据不能转化为离散数据或连续数据。为方便起见,年龄数据、时间(天、年)、货币(价格、工资)等数据虽然是连续数据,也常常作为离散数据来处理。定性数据(qualitativedata)又叫做类型数据(categoricaldata)定量数据与定性数据的根本区别在于前者取值有明确的顺序意义,而后者取值仅具有属性特征(今天是否下雨、有无球赛、班里是否开会)10精选ppt在使用有关统计方法时要注意具体方法的要求,与所研究数据之间的一致性根据测量水平划分的各类数据之间的最重要差别在于它们的信息量不同。测量水平最高的数据是连续量,它包含的信息量在所有数据中为最高,其次是离散量和顺序量,最后才是类型量。不同数理统计方法适用于不同类型的数据用针对高测量水平数据的方法去分析低测量水平的数据,导致错误的结论使用为低测量水平数据设计的方法去检验高测量水平数据,会造成数据信息的浪费11精选ppt不同类型数据之间的转换不同类型数据之间的转换是允许的,但此类转换必然是单向的。由于不同数据中包含的信息量不同,只可能将观测水平较高的数据转换为观测水平较低的类型在进行统计分析时最常用的数据类型转换是将连续量或离散量变换为顺序量,即所谓求秩运算。鉴于此类转换将导致数据信息的损失,非必要时尽量不要使用。12精选ppt(3)按照数据的取值(性质)能否由观察者加以控制,可将其分成随机数据(randomdata)和确定性数据(fixeddata)两大类数理统计方法的研究对象是随机数据。随机数据的主要特点在于它们的每一次取值都是不确定的,因此研究者不可能控制也无法预知每个取值的确切数值。另一方面,随机数据在大量观察中的取值又有其特定的规律性,而数理统计方法就是要揭示这种规律性。确定性数据本身不能成为数理统计方法研究的直接对象,但当研究涉及两个或两个以上数据之间的关系时,确定性数据仍有其特定的地位(方差分析中的因素或回归分析中的自变量)。13精选ppt数据的计量--尺度

在现代科学研究中,对研究对象一般都要采取测量的方法进行观察。测量的尺度,就是用于观察研究对象和处理资料的测量方法。资料的统计分析处理,就是要运用这些尺度测量被研究对象。有的事物、现象只能或只需对其属性进行分类(称之为定性分析),有些则可以或要求必须用比较精确的数字加以计量(称之为定量分析)。由粗略到精确可分为4个层次,定类尺度(nominalscale)、定序尺度(Ordinalscale)、定距尺度(intervalscale)和定比尺度(ratioscale)共4级。每一级都代表了测量的一个层次。14精选ppt数据的计量的四种尺度定类尺度

nominalscale定序尺度

ordinalscale定距尺度

intervalscale定比尺度

ratioscale按照某属性对事物进行平行的分类。(=、≠)对事物类别间等级或顺序差别的测度。(<、>)对事物类别或次序之间差距的测度。

(+、-)对事物类别或次序之间差距及差别程度的测度。

(×、÷)15精选ppt1.定类尺度定类尺度也称作名义尺度,是测量尺度中层次最低的计量尺度,是仅能区分出不同类别的测量尺度。按照某种属性把事物进行分类,是判断“属于/不属于”的基准。常用于测量定类数据,如性别分为男和女两类。定类尺度在统计处理时也可用数字表示,但这些数字只是由研究者任意规定的某一类别的代号,不具任何数学意义。如对性别可以规定女是0、男是1。这里的数据不能区分大小或进行加减乘除数学运算,只能计算各类别的频数与频率。在市场调查中,定类尺度常被用来度量被调查的品牌、属性、商店等对象。16精选ppt变量变量值编码性别男女12人种白黄棕黑123417精选ppt定类尺度的两个特点:它仅仅只是区别不同事物的性质而没有任何数量比较关系,在代号上也没有任何量的关系,因而不能进行数的比较和运算;这种代号具有随意性,其符号既可用数字也可用英文、拼音字母等。在对它们进行排列时,可以按研究者认定的形式进行。

定类尺度的设计必须遵循两个原则:第一,规定的类别必须具有穷尽性,即所有被测量的现象都可分别纳入这些类别;第二,各类别必须是相互排斥的,一种现象只能归入一类,而不能出现同时归入两类的情况。18精选ppt2.定序尺度定序尺度又叫顺序尺度,是指能将社会指标排列出大小或高低秩序的测量尺度。它比定类尺度高级一些,不仅能将事物分成不同的类别,还可以确定这些类别的优劣或顺序,是判断“A比B···”的基准。用于测量定序数据如文化程度可分成文盲、小学、初中、高中、大专、大学、研究生等7级,每一级都较前一级更高,所给编号分别为1、2,3,4、5,6、7。定序数据可以计算各类别的频数与频率可以比较大小,但不能进行加减乘除数学运算。如根据文化程度排序,可以判断初中文化程度读书时间多于小学而低于高中,并用数字符号表示为小学<初中<高中,但无法判断初中与小学受教育年限的差别是否同高中与初中受教育年限的差别一样大。定序尺度常被用来度量相对态度、意见、感觉和偏好。19精选ppt定序尺度的特点定序数据在统计处理上,其代号也是由研究者任意确定的,使用符号既可是数字,也可是别的字符。和定类数据不同的是,它的排列顺序不能有任意性,只能从小到大或由大到小。定序尺度仍然不能进行数学运算,因为这类运算不仅无法进行,而且也不具有任何的实际意义。定序尺度是行为学研究中最常用的测量尺度。如在态度测量中要问及调查对象是否喜欢跳舞时就可以列出非常喜欢、喜欢、一般、不喜欢、厌恶等5个等级,并可用代号来表示。使用定序尺度时需要注意:当定序尺度之外的因素引入实际测量之后,原测量的对象会导致由定序数据变成定类数据,从而降低测量的层次。20精选ppt变量编码产品等级一等品二等品三等品123对事物的态度很满意满意中立不满意反对12345变量值21精选ppt3.定距尺度定距尺度也称间隔尺度,是指能用某种计量单位去测定研究现象的测量尺度。它用于测量定距数据,度量层次高于定序尺度,它不仅能将事物分成不同类别并进行排序,而且可以准确地计量它们间的差距。用定距尺度测量的样本数据间的距离是可以确定的,因而不仅可以比较样本数据的大小,而且可以比较各数据间差别的大小。如温度,90度比80度高10度。其中的数据除可以分类与比较大小以外,还可以进行加减运算。22精选ppt定距尺度特征由于没有绝对零点,因此乘除运算是没有意义的,摄氏温度是个很好的例子。如当三个地点的气温分别为20度、25度、40度时,不仅知道他们的气温定序排列是25度大于20度而小于40度,而且也知道25度与20度的差别小于25度与40度的差别。由于定距数据有统一计算单位,故可以进行加减运算,但不能做乘除运算,因为做乘除运算要一个表示真正是“无”的绝对零,如气温为0度(严格地讲,温度有绝对零度),就不能说其没有温度,也不能说温度数为30度的气温,是温度数为15度的气温2倍。23精选ppt4.定比尺度定比尺度也称比率尺度,是最高层次的度量尺度,除具有以上3种尺度的所有特性以外,还有绝对零点。因此,除了可以分类、比较大小以及加减运算以外,还可做乘除运算,可以计量测度值间的比值。如以“元”作为计量单位来测定人们的收入,对于收入,0表示无收入,在此是有实际意义的,不仅可以计算500元比300元也是多200元,还可以计算1000元是500元的2倍。在市场调查中,销售额、成本、市场份额、消费者数等变量都是定比数据。定比尺度一般都是连续性数据。例如收入,不仅可有从40、41、42、43直到100元之别,而且每1元之间,还可有精确到分的100个点相连接,正因为如此,定比尺度一般是用计算单位的量度值作为数据值,具有客观的确定性,而没有随意性。24精选ppt6枚3枚25精选ppt小结变量类型的划分26精选ppt品质型变量数量型变量10青少年身高体重表品质型变量品质型变量数量型变量关于投票选举一次抽样调查的数据阵列27精选ppt以上4种尺度对事物的度量层次是由低级到高级,由粗略到精确逐步递进的,定类尺度是最低层次的测量尺度,定序尺度较定类尺度则高一层次,它包括了定类尺度的特性。定距尺度较定类尺度又高一层次,而且也包括了前两者的特性。由于它们测量的层次、特性的不同,在统计处理中便针对有不同类型变量的统计方法。高层次计量尺度的数据可以转化成低层次计量尺度的数据,但反过来,低层次计量尺度的数据不能转化成高层次计量尺度的数据。不同的转换方法,高层次计量尺度可产生不同形式、不同数量的低层次计量数值,尺度转换就会有信息损失,所以除了高层次计量尺度数据质量比较差,或者研究一致性的需要,一般不要随意转换尺度。28精选ppt第二章数据与SPSS数据处理第2节SPSS数据文件的建立和管理29精选ppt对数据类型数据文件的建立原始资料数据录入:文本格式

电子表格

用SPSS进行数据录入

大样本---数据库二手资料数据读取:用SPSS读取各种格式的数据30精选ppt数据录入三步曲确定变量,定义各变量属性录入数据检查录入错误31精选pptSPSS数据文件的特点SPSS数据文件是一种有结构的数据文件数据结构:记录数据变量的名称、类型、变量宽度、小数位数、变量名标签、变量值标签、缺失值、显示宽度、对齐方式和度量尺度等必要信息数据内容:待分析的具体数据建立SPSS数据文件描述数据的结构--VariableView录入编辑数据--DataView32精选pptSPSS数据的组织方式原始数据的组织方式计数数据(频数数据)的组织方式33精选ppt原始数据的组织方式数据编辑窗口中的一行称为一个个案或记录(Case),所有个案组成SPSS数据文件的内容数据编辑窗口的一列称为一个变量(Variable),每个变量都有一个名字,称为变量名,它是访问和分析SPSS每个变量的唯一标志34精选ppt原始数据的组织方式35精选ppt频数数据的组织方式在频数数据的组织方式中,数据编辑窗口中的一行为变量的一个分组(或多个变量交叉分组下的一个分组)所有行囊括了该变量的分组情况(或多个变量交叉下的所有分组情况)。数据编辑窗口中的一列仍为一个变量,代表某个问题(或某个方面及频数)36精选ppt频数数据的组织方式37精选ppt例题2.1关于计算机课程教学意见的样本数据38精选ppt组织数据39精选ppt练习2.1频数数据(计数数据)设置三个变量:专业方向、性别、人数40精选ppt组织数据41精选pptSPSS数据的结构和定义方法SPSS数据的结构是对SPSS每列变量及其相关属性的描述变量名数值类型宽度小数位数变量标签数值标签缺失值列宽对齐方式数据量度42精选ppt变量名(Variablename)变量名是变量存取的唯一标志起名规则:不多于8个字符组成首字符应以英文字母开头,后面可以跟除了!、?、*之外的字母或数字。下划线、圆点不能为变量名的最后一个字符不区分大小写允许汉字作为变量名默认变量名为VARn,如:var00001变量名不能与SPSS内部特有的具有特定含义的保留字同名,如ALL,BY,AND,NOT,OR等43精选ppt数据类型(TYPE)数据类型是指每个变量取值的类型三种基本数据类型数值型(1)标准型(Numeric)(2)科学记数法型(ScientificNotation)(3)逗号型(Comma)(4)圆点型(Dot)(5)美元符号型(Dollar)(6)用户自定义型(CustomCurrency)字符型(String)日期型(Date)44精选ppt列宽(Width),小数位宽(Decimals)

显示宽度(Columns)每种类型的变量都有自己的列宽、小数位和显示宽度列宽是变量允许的最大字符位数显示宽度是数据编辑窗口中显示每列的字符位数通常这两个宽度是一致的数据的显示并不影响数据的存储,也不影响数据的计算45精选ppt数值型--标准型(Numeric)SPSS默认的数据类型默认的显示宽度为8位,包括正负符号位、小数点和小数位在内小数位默认为2位如果数据的实际宽度大于8位,spss将自动按照科学计数法显示

12345678

-1234.56

46精选ppt数值型--科学记数法型(ScientificNotation)表示很大或很小的数据120表示为1.2E2,0.0012表示为1.2E-3默认的显示宽度为8位,包括正负符号位、字母E和跟在其后的正负符号及幂次数字在内输入时可按标准方式输入,SPSS会自动进行转换

1.2E+00247精选ppt数值型--逗号型(Comma)从个位开始三位一个逗号默认的显示宽度为8位,逗号包括在内小数位默认为2位输入时可按标准方式输入,SPSS会自动进行转换1234.5671,234.5748精选ppt数值型--圆点型(Dot)从个位开始三位一个圆点分隔以逗号作为整数和小数部分的分隔符默认列宽8,小数位宽2输入时可按标准方式输入,SPSS会自动进行转换1.234,5649精选ppt数值型--美元符号型(Dollar)表示货币数据前附加美元符号显示格式很多50精选ppt数值型--用户自定义型(CustomCurrency)51精选ppt字符型(String)由一个字符串组成,默认显示宽度为8个字符区分大小写字母不能够进行算术运算在SPSS命令处理过程中应用一对双引号括起来在输入数据时不应输入双引号52精选ppt日期型(Date)用来表示日期或者时间53精选ppt变量名标签(Variablelabel)对变量名含义的进一步解释说明,它可以增强变量名的可视性和统计分析结果的可读性变量名标签可用中文总长度可达120个字符,但在统计分析结果的显示中一般不能显示如此长的变量名标签信息可省略54精选ppt变量值标签(Value)对变量取值含义的解释说明信息,对于定类型数据和定序性数据尤为重要可以用中文可省略变量值输入框变量值标签输入框55精选ppt缺失值(Missing)缺失值:漏填数据明显错误的数据对缺失值的一般处理事先指定:指定某个特定值为缺失值(用户缺失值)其他处理方法,如:以均值、众数替代等SPSS缺失值用户缺失值系统缺失值:用圆点表示;字符型变量中空格不是系统缺失值56精选pptSPSS用户缺失值对字符型或数值型变量,用户缺失值可以是1至3个特定的离散值(Discretemissingvalues)对一个数值型变量,用户缺失值可以在一个连续的闭区间内并同时再附加一个区间以外的离散值(Rangeplusoneoptionaldiscrete)57精选ppt变量对齐格式(Align)定义显示对齐方式右对齐、左对齐和中间对齐数值型变量默认为右对齐字符型变量默认为左对齐58精选ppt计量尺度(Measure)定距型数据(scale):一般为数值型数据 如:收入、人数、身高定序型数据(ordinal):有固有大小或高低顺序,数值型或字符型数据。 如:职称、年龄段定类型数据(nominal):没有有固有大小或高低顺序,一般为数值或字符表示的分类数据

如:性别、民族59精选ppt定义SPSS数据文件结构操作方法:利用变量视图如何查看变量定义的情况菜单选项:

Utilities->Variables60精选ppt单击VariableView进入;定义变量名定义变量类型定义变量名标签变量值标签定义度量尺度定义显示宽度定义对齐方式

定义变量类型对话框

定义变量值标签对话框定义变量缺省值对话框61精选ppt例题2.2问卷示例问题的类型:单选题----3,5数值型开放题----1,7文字型开放题----2日期型开放题----4多选题----662精选ppt开放题的录入1序号

2姓名

4出生年月日(mm/dd/yyyy)63精选ppt单选题1----选项没有顺序之分:不含其它:字符型录入:字符加值标签数值型录入:数值加值标签含其它:两个变量来录入(“其它”选项中如需填写需单独变量)单选题2----选项有顺序之分数值型录入:数值加值标签是否喜欢足球1非常喜欢2喜欢3无所谓4不喜欢5非常不喜欢单选题的录入64精选ppt65精选ppt一份简单的调查问卷单项选择题提供几个备选择答案,从其中选择一个答案变量类型:分类数据、定序数据数据类型:字符型填空题变量类型:定距数值型数据类型:数值型66精选ppt一份简单的调查问卷多项选择题提供几个备选择答案,从其中选择多个答案在下列品牌中您信任哪些品牌?伊利、蒙牛、光明、银桥、欧德宝、德运被诊断为高血压后你采取了以下哪些辅助治疗手段?高考时报考学校

(1)北京大学(2)清华大学(3)人民大学(4)北京理工大学

(5)北京师范大学(6)北京外国语大学67精选ppt多项选择题的处理方法多项选择题不能在SPSS中直接存储,因为SPSS的一个变量只能有一个取值思路将一个问题定义成几个变量,用这几个变量来描述该问题的几个可能被选择的答案编码方式多选项二分法(multipledichotomizemethod)多选项分类法(multiplecategorymethod)68精选ppt将每个答案作为一个变量,每个变量只有两个取值(0或1)。多选项二分法69精选ppt预先估计多选项问题可能被选择的最多答案数.为每个答案建立一个变量,取值为多选项问题的可选答案多选项分类法70精选ppt多选二分法则有6个选项,故应设6个变量,运用0-1编码方法编码,即:1,0,1,0,1,1。多选分类法,则编码为1,3,5,6,0,0。135671精选ppt问题2:择业中考虑的主要因素(多选)1经济收入2专业对口3发展前途4地理区位5个人爱好6风险大小7劳动强度8社会福利9其他编码应为:1,0,1,1,1,0,1,1,0。或1,3,4,5,7,8,0,0,0。72精选ppt136问题3:您择业中考虑的主要因素有(限选三项)1经济收入2专业对口3发展前途4地理区位5个人爱好6风险大小7劳动强度8社会福利9社会地位10其他

因为限选三项,故应设三个变量,编码依次为1,3,6。73精选ppt练习2.2根据居民储蓄调查问卷,建立SPSS格式的数据文件74精选pptSPSS数据的录入与保存录入时应注意:黑框确定当前数据单元录入带有变量值标签(Value)的数据:手工输入代码屏幕显示变量值标签,在下拉菜单中选择在View-->ValueLabels中切换75精选pptSPSS数据的编辑定位插入删除修改复制在数据视图中进行76精选pptSPSS数据的定位目的:将当前数据单元定位到某个特定的单元中两种定位方式:按个案号码定位菜单:Data->Gotocase->输入样本号->确认输入要寻找观测量序号77精选ppt2.按变量值定位:将当前单元定位在某变量列的任何一个个案上选择菜单Edit->Find,出现如下对话框输入定位变量值并确认SPSS自动对指定的变量进行搜索,并将当前单元定位到与定位变量值相等的第一个个案上。SPSS数据的定位78精选ppt插入和删除一个个案插入一个个案:在数据编辑窗口的某个个案前插入一个新个案将当前数据单元确定在一个个案上选择菜单Data--InsertCase(或工具栏插入个案图标按钮)删除一个个案:在欲删除的个案号码上单击鼠标左键,于是待删除的个案数据全部呈蓝色显示单击鼠标右键,从弹出菜单中选择clear选项79精选ppt插入和删除一个变量插入一个变量:在数据编辑窗口的某个变量前插入一个新变量将当前数据单元确定在一个变量上选择菜单Data--InsertVarible(或工具栏插入变量图标按钮)删除一个变量:在欲删除的变量名上单击鼠标左键,于是待删除的个案数据全部呈蓝色显示单击鼠标右键,从弹出菜单中选择clear选项80精选ppt数据的移动、复制和删除与一般的应用程序相同选择操作对象(变量、个案、若干连续单元等)剪切:Edit+Cut(Ctrl+X)复制:Edit+Copy(Ctrl+C)粘贴:Edit+Paste(Ctrl+V)恢复删除或修改前数据Edit+Undo(或工具栏Undo图标按钮)81精选ppt插入变量与删除变量插入与删除观测量数据的剪切、粘贴与复制1.插入变量在添加处单击Var,单击右鼠标键出现右侧对话框,单击InsertVariables2.删除变量1.插入观测量在添加处单击观测量,单击右鼠标键出现右侧对话框,单击InsertCase2.删除观测量剪切复制粘贴若想恢复,打开Edit---Undo82精选pptSPSS支持的数据格式1、SPSS文件格式,扩展名为.sav2、Excel格式文件,扩展名为.xls3、dbf格式文件,扩展名为.dbf4、文本格式文件,扩展名为.dat注意:有些信息会丢失SPSS数据的保存83精选pptSPSS数据的保存基本操作File--Save,对于新的:提示文件名和类型;对于旧的,覆盖原来的,不再提问File+SaveAs,另存一个数据文件,也有格式(类型)问题Variable按钮允许用户指定保存哪些变量,不保存哪些变量,变量名前画叉的变量将被保存到磁盘中84精选pptSPSS数据的保存基本操作将数据保存为Excel文件格式时,Writevariablesnamestospreadsheet选项呈可用状态,它的作用是指定是否将SPSS变量名写入Excel工作表的第一行上Savevaluelabelswheredefinedinstedofdatavalve选项呈可用状态,它的作用是指定是否在Excel工作表中用变量值标签来替代变量值85精选ppt读取其他格式的数据文件SPSS能够直接读取其他格式的数据文件,并将其保存为SPSS格式的数据直接读取其他格式的数据文件:(1)选择菜单File+Open+Data;(2)选择数据文件的类型,并输入数据文件名使用数据库查询打开利用通用数据库ODBC接口读取数据文件在9.0及以前版本中非常重要使用文本向导读入文本文件:选择菜单File+ReadTextData86精选ppt直接打开选择菜单File==>Open==>Data或直接单击快捷工具栏上的OpenFile按钮文件类型87精选ppt读取EXCEL文件SPSS默认将Excel工作表中的全部数据读到SPSS数据编辑窗口可以指定仅读取工作表中某个区域内的数据(如A5:B10)工作表上的一行数据为SPSS中的一个个案如果Excel工作表文件第一行或指定读取区域内的第一行存储了变量名信息,则应选择Readvariablenames项,即以第一行的文字信息作为SPSS的变量名,否则不选88精选ppt读取dbase文件字段名、字段类型自动转成SPSS数据文件中的变量名和类型一条记录为一个个案89精选ppt使用文本导入向导读入文本文件File==>ReadTextData该功能在SPSS中已被整合到了OpenFile对话框中,之所以在菜单上保留该条目的原因是读入纯文本的情况非常普遍,放在这里更加醒目例:现有一数据文件以纯文本的形式保存,且第一行为变量名,请将其读入SPSS。在File==>ReadTextData对话框选中相应的文件名并单击“确定”,系统会自动启动文本导入向导对话框90精选pptSpss是否已经正确的识别和分割了数据项91精选ppt数据间如何分割数据文件的第一行上是否有变量名92精选ppt数据部分从文本文件的第几行开始个案数据在文本文件中是如何安排的93精选ppt指定文本文件的分割符号字符型数据表示方法94精选ppt对随后出现的两个窗口中的问题,通常不必回答。95精选ppt对随后出现的两个窗口中的问题,通常不必回答。96精选ppt使用数据库查询打开SPSS可以直接打开许多类型的数据文件,但这并不是说它可以打开所有类型的数据文件SPSS还提供了另一个适用范围更广、但使用上较为专业的数据接口--数据库查询SPSS在这里使用的是一种叫ODBC(OpenDataBaseCapture)的数据接口,该接口被大多数数据库软件和办公软件(如MSOffice)支持,通过它,应用程序可以直接访问以结构化查询语言(SQL)做为数据访问标准的数据库管理系统由于SPSS10.0可以直接打开EXCEL所有系列的数据文件,因此数据库查询接口的用处不是很大。但是,在9.0及以前的版本中,该查询仍是直接打开EXCEL95、97及2000数据文件的唯一办法97精选ppt使用数据库查询打开ODBC数据引擎是独立于各种应用软件,直接安装到Windows系统中的,因此你所用的系统中ODBC所支持的数据类型取决于所安装的ODBC引擎的情况。大多数支持该接口的软件都会在安装光盘上附送该引擎的安装文件(如MSOffice)选择菜单File==>OpenDatabase==>NewQuery,系统会弹出数据库向导的第一个窗口,其中会列出你使用的机器上已安装的所有数据库驱动程序,选中所需的数据源,然后单击下一步,向导会一步一步的提示你如何做,直至将数据读入SPSS。98精选pptSPSS数据文件合并当数据量较多时经常会把一份大的数据分成几个小的部分,由几个录入员分别录入合并:首先将其中的某个数据文件读入数据编辑窗口中然后依次与其他数据文件合并合并方式纵向合并数据文件:从外部数据文件中增加个案到当前数据文件中(AddCases)横向合并数据文件:从外部数据文件增加变量到当前数据文件(AddVariables)99精选ppt纵向合并数据文件(AddCases)将数据编辑窗口中的数据与另一个SPSS数据文件中的数据进行首尾对接,即将一个SPSS数据文件的内容追加到数据编辑窗口中的数据后面--依据变量名进行数据对接相互合并的数据文件应该有相同的变量注意两个待合并的spss数据文件的内容合并起来应有实际意义在不同数据文件中数据含义相同的数据项最好起相同的变量名,且数据类型也最好相同,利于spss对变量的自动匹配100精选ppt纵向合并数据文件(AddCases)步骤打开一个数据文件菜单:Data+MergeFiles+AddCases同名变量不同名变量显示数据来源101精选ppt纵向合并数据文件(AddCases)注意VariablesInnewworkingdatafile框中显示的变量名是两个数据文件中都有的变量名UnpairedVariables框中的变量名是两个文件中的不同变量名。*表示该变量是当前数据编辑窗口中的变量,+表示该变量是待合并文件中的变量Indicatecasesourceasvariable:是否希望在合并后的数据文件中看出个案的来源自动生成一个变量名为source01,取值0或1的变量102精选ppt纵向合并数据文件(AddCases)不同变量名但含义相同的变量名的处理配对(Pair)选择其中的两个变量名并按“Pair”按钮指定配对。默认原数据中的变量名对某变量按“Rename”按钮改名后在指定配对不经匹配,强行合并两个(多个)变量103精选ppt横向合并数据文件(AddVariables)将数据编辑文件窗口中的数据与另一个SPSS数据文件中的数据进行左右对接。即两个数据文件依据个案进行数据对接注意:相互合并的数据文件必须至少有一个名称相同的变量,该变量是两文件横向合作的依据,称为关键变量两个数据文件都必须先按关键变量进行升序排列不同数据文件中数据含义不相同的数据项变量名不应相同104精选ppt横向合并数据文件(AddVariables)步骤:打开一个数据文件菜单:Data+MergeFiles+AddVariables105精选ppt当个案数据不是一一对应待合并数据的共有变量名待合并数据文件中的所有变量名106精选ppt横向合并数据文件(AddVariables)合并数据的方式Bothfilesprovidecases:合并后的数据由原来两个数据文件共同提供Externalfileiskeyedtable:在数据编辑窗口中的数据基础上,将第二个数据文件中的其他变量合并进来WorkingDataFileisKeyedTable:在第二个数据文件数据的基础之上,将数据编辑窗口中的其他变量合并进来107精选ppt练习2.3数据录入108精选ppt练习2.4多选题录入在一项关于汽车品牌的研究中,我们希望了解人们在购买汽车的时候关注的是哪些因素,问题如下您在购买汽车的时候,关注以下哪些因素:品牌、车型、价位、油耗、其他我们希望了解目标人群对手机的哪些品牌的信任度较高,在问卷中列出了10个品牌,让被访者从中选择他认为最可信的几个。问题如下请在下面10个品牌中选出您认为最信得过的几个(最多选三个)

诺基亚、苹果、三星、波导、西门子、康佳、华为中兴、联想、海尔109精选ppt练习2.5Excel数据的读取将文件名为“居民储蓄调查数据.xls”的Excel数据文件转换为SPSS数据文件,并在SPSS中指定其变量名标签和变量值标签110精选ppt练习2.6数据文件合并将名为“学生成绩一.sav”和“学生成绩二.sav”两个数据文件以学号为关键变量进行横向合并,形成一个完整的数据文件111精选ppt第二章数据与SPSS数据处理第3节SPSS数据的预处理112精选ppt为什么要进行数据的预处理缺失值?异常值?使用所有个案还是部分个案?使用所有变量还是部分变量?数据是否可以直接用于数据分析和建模?在数据文件建立好后,通常还需要对待分析的数据进行必要的预加工处理,这是数据分析过程中不可缺少的一个关键环节随着数据分析的不断深入,对数据的加工处理还会多次反复,实现数据加工和数据分析的螺旋上升113精选ppt数据的预处理SPSS提供了一些专门的功能辅助用户实现数据的预加工处理工作。通过预处理还可以使用户对数据的总体分布有所了解数据的预加工处理服务于数据分析和建模,包括:数据的排序变量计算数据选取计数分类汇总数据分组数据预处理的其他功能:转置、加权、数据拆分、缺失值处理、数据排秩、定义变量集114精选ppt数据的排序数据排序的目的通常数据编辑窗口中个案的前后次序是由数据录入的先后顺序决定的。数据预处理中,有时需要将数据按照一定的顺序重新排列作用数据排序便于数据的浏览,有助于了解数据的取值状况、缺失值数量的多少等通过数据排序能够快捷地找到数据的最大值和最小值,进而可以计算出数据的全距,初步把握和比较数据的离散程度通过数据排序能够快捷地发现数据的异常值,为进一步明确它们是否对分析产生重要影响等提供帮助115精选ppt数据排序的方法SPSS的数据排序是将数据编辑窗口中的数据按照某个或多个指定变量的变量值升序或降序重新排列。这里的变量也称为排序变量排序变量只有一个时,排序称为单值排序。排序变量有多个时,排序称为多重排序多重排序中,第一个指定的排序变量称为主排序变量,其他依次指定的变量分别称为第二排序变量、第三排序变量等多重排序时,数据首先按主排序变量值的大小次序排序,然后对那些具有相同主排序变量值的数据,再按照第二排序变量值的次序依次排序下去116精选ppt数据排序的操作步骤选择菜单:【Data】→【SortCases】指定主排序变量到【Sortby】框中,并选择【SortOrder】框中的选项指出该变量按升序排还是降序排序。[Ascending]表示升序,[Descending]表示降序。如果是多重排序,还要依次指定第二、第三排序变量及相应的排序规则。否则,本步可略117精选ppt在左边的源变量框中选择排序变量进入Sortby框。如果选择2个以上的变量,观测量的排序结果与排序变量在Sortby框中的顺序有关。列于首位的为第一排序变量。在SortOrder栏内选择排序方式——升序与降序118精选ppt说明 数据排序是整行数据(个案)排序,而不是只对某列变量排序多重排序中指定排序变量的次序很关键。先指定的变量优先于后指定的变量。多重排序可以在按某个变量值升序(或降序)排序的同时再按其他变量值降序(或升序)排序数据排序后,原有数据的排序次序必然被打乱,应保存原始数据119精选ppt例题2.3利用住房状况调查数据,通过数据排序功能分别找到本市户口和外地户口家庭住房面积的最大值和最小值多重排序主排序变量--户口状况第二排序变量--现住面积120精选ppt变量计算变量计算的目的数据的转换处理

数据的转换处理是在原有数据的基础上,计算产生一些含有更丰富信息的新数据。例如,根据职工的基本工资、失业保险、奖金等数据项,计算实际月收入;这些新产生的变量具有更直观和更有效的特点。

对数据的原有分布状态进行转换

由于数据分析和建模中某些模型对数据的分布有一定的要求,因此可以利用变量计算对原有数据的分布进行转换。例如,利用对数或多项式转换对非正态或非线性数据进行处理;对时间序列进行平稳化处理;利用区间变换压缩数据取值范围和标准化处理等。121精选ppt变量计算的方法SPSS变量计算是在原有数据的基础上,根据用户给出的SPSS算术表达式以及函数,对所有个案或满足条件的部分个案,计算产生一系列新变量注意:(1)变量计算是针对所有个案(或指定的部分个案)的,每条个案(或指定的部分个案)都有自己的计算结果。(2)变量计算的结果应保存到一个指定变量中,该变量的数据类型应与计算结果的数据类型相一致。122精选ppt变量计算的几个概念SPSS

算术表达式SPSS条件表达式SPSS

函数123精选pptSPSS算术表达式(numericexpression)在变量计算过程中,应根据实际需要指出按照什么方法计算变量。这里的方法一般以SPSS算术表达式的形式给出。由常量、变量、算术运算符、圆括号、函数等组成的式子。字符型常量应用引号引起来变量是指那些已存在于数据编辑窗口中的现有变量算术运算符主要包括:+(加)、-(减)、*(乘)、/(除)、**(乘方)。操作对象的数据类型为数值型。运算次序:先乘方,再乘除,最后加减。在同级运算中,按从左到右的顺序进行运算.通过圆括号改变原有的计算顺序在同一算术表达式中的常量及变量,数据类型应该一致,否则无法计算124精选pptSPSS条件表达式在变量计算中通常要求对不同组(类)的个案分别按不同的方法进行计算,于是就需要通过一定的方式来指定个案。条件表达式能够帮助实现这一目标条件表达式是一个对条件进行判断的式子。其结果有两种取值:如果判断条件成立,则结果为真;如果判断条件不成立,则结果为假条件表达式包括简单条件表达式和复合条件表达式125精选ppt1.简单条件表达式简单条件表达式是由关系运算符、常量、变量以及算术表达式等组成的式子。关系运算符包括>(大于)、<(小于)、=(等于)、~=(不等于)、>=(大于等于)、<=(小于等于)例如,对职工基本情况数据可以写成这样的简单条件表达式:nl>35,表示年龄大于35岁。在数据编辑窗口中,对于年龄大于35岁的个案,该条件判断的结果为真,而对于年龄小于或等于35岁的个案,该条件判断的结果为假。126精选ppt2.复合条件表达式复合条件表达式又称逻辑表达式,是由逻辑运算符、圆括号和简单条件表达式等组成的式子。其中,逻辑运算符包括&或AND(并且)、|或OR(或者)、~或NOT(非).NOT的运算最优先,其次是AND,最低是OR。可以通过圆括号改变这种运算次序例如,职工基本情况数据可以写成这样的复合条件表达式:(nl<=35)andnot(zc<3)表示年龄小于等于35岁并且职称不低于3。对于年龄小于等于35岁并且职称不低于3的个案,该条件判断的结果为真,其余个案的条件判断结果为假。在变量计算时,如果根据实际需要给出了条件表达式,SPSS将只对数据编辑窗口中条件判断结果为真的那些个案进行计算。因此,构造条件表达式是很关键的。127精选pptSPSS函数函数是事先编好并存储在SPSS软件中,能够实现某些特定计算任务的一段计算机程序。这些程序段都有各自的名字称为函数名。执行这些程序段得到的计算结果称为函数值用户在使用这些函数时,只需通过书写相应的函数名,并给出必要的计算参数,SPSS便会自动计算函数值函数书写的具体形式为:函数名(参数)函数名是SPSS已经规定好的圆括号中的参数可以是常量(字符型常量应用引号引起来),也可以是变量或算术表达式参数可能是一个,也可能有多个,各参数之间用逗号分隔128精选pptSPSS函数分类算术函数统计函数分布函数查找函数(逻辑)字符函数缺失值函数日期函数其他函数:杂项函数、转换函数等课本P54~P58129精选pptSPSS变量计算的基本操作步骤(1)选择菜单:【Transform】→【Compute】(2)在[NumericExpression]框给出SPSS算术表达式和函数。可以手工输入,也可以按窗口的按钮以及函数下拉菜单来完成算术表达式和函数的输人工作。(3)在Target框中输入存放计算结果的变量名。该变量可以是一个新变量,也可以是已经存在的变量。新变量的变量类型默认为数值型,用户可以根据需要按Type&Label按钮修改,还可对新变量加变量名标签。(4)如果用户仅希望对符合一定条件的个案计算产生变量,则按if按钮,选择[Incudeifcasesatisfescondition]选项,然后输入条件表达式。否则,本步骤略去。130精选ppt输入算术表达式和函数存放计算结果的变量名所有函数的分类各类函数包含的函数名131精选ppt例题2.4利用职工基本情况数据,依据职称级别计算实发工资。假设职称1至4职工的工资分别上调5%,3%,2%,1%132精选ppt数据选取数据选取就是根据分析的需要,从已收集到的大批量数据(总体)中按照一定的规则抽取部分数据(样本)参与分析的过程,通常也称为样本抽样SPSS可根据指定的抽样方法从数据编辑窗口中选出部分样本以实现数据选取,这样后面的分析操作就只针对选出的数据,直到用户取消这种选取为止133精选ppt数据选取的目的服务于以后的数据分析:提高数据分析效率

如果数据量较大,会在一定程度上影响计算和建模的效率,因此,通常可以依据一定的抽样方法从总体中抽取少量样本,后面的分析只针对样本进行,这样会大大提高分析的效率检验模型的需要

在数据分析中,所建的模型是否能够较完整准确地反映数据的特征,是否能够用于以后的数据预测,这些问题都是人们极为关心的。为了验证模型,一般可依据一定的抽样方法只选择部分样本参与数据建模,剩余的数据用于模型检验134精选ppt数据选取方法按指定条件选取(Ifconditionissatisfied)随机选取(Randomsampleofcases)近似选取(Approximately)精确选取(Exactly)选取某一区域内的样本(Basedontimeorcaserange)通过过滤变量选取(Usefiltervariable)135精选ppt按指定条件选取(Ifconditionissatisfied)选取符合条件的数据SPSS要求用户以条件表达式的形式给出数据选取的条件。SPSS将自动对数据编辑窗口中的所有个案进行条件判断。那些满足条件的个案,即条件判断为真的个案将被自动选取出来,而那些条件判断为假的个案则不被选中136精选ppt近似选取(Approximately)近似选取要求用户给出一个百分比数值。SPSS将按照这个比例自动从数据编辑窗口中随机抽取出相应百分比数目的个案根据SPSS随机数种子发生器设计和实现抽取出的个案总数不一定恰好精确等于用户指定的百分比数目,会有小的偏差,因而称为近似选取。通常不会对数据分析产生重要影响。137精选ppt精确选取(Exactly)近似选取精确选取希望选取的个案数指定在前几个个案中选取138精选ppt随机数种子发生器【Transform】→【RandomNumberGenerators】随机种子为具体的正整数小于等于2,000,000一般用于随机化结果需要重复出现的情况随机种子每次自动取一个新的值随机化结果不会重复出现139精选ppt选取某一区域内的样本(Basedontimeorcaserange)选取数据编辑窗口中的样本号范围内的所有个案,要求给出这个范围的上下限个案号码通常适用于时间序列数据140精选ppt通过过滤变量选取(Usefiltervariable)依据过滤变量的取值进行样本选取要求指定一个变量作为过滤变量,变量值为非0或非系统缺失值的个案将被选中通常用于排除包含系统缺失值的个案141精选ppt数据选取的操作步骤(1)选择菜单:【Data】→【Selectcases】(2)在select框中选择抽样方法。Allcases表示全部选中。(3)指定对未选中个案的处理方式。其中,Filtered表示在未被选中的个案号码上打一个“\”标记;Deleted表示将未被选中的个案从数据编辑窗口中删除。一般采取第一个处理方式较好。142精选ppt数据选取的操作步骤说明按上述操作步骤完成数据这取后,以后的SPSS分析操作仅针对那些被选中的个案,直到用户再次改变数据选取为止采用指定条件抽样和随机抽样方法进行数据选取后,SPSS将在数据编辑窗口中自动生成一个名为filer_$的新变量,取值为1或0,1表示本条个案被选中,0表示未被选中。filer_$是SPSS产生的中间变量,如果删除它则自动取消样本抽样143精选ppt例题2.5利用居民储蓄调查数据,根据不同的分析要求采用不同的数据选取方法抽样:(1)希望分析城市储户的情况(2)希望对其中的70%的数据进行分析,可通过数据选择功能采用随机抽样中的近似抽样方法进行抽样采用指定条件的抽样方法采用近似抽样方法144精选ppt计数计数的目的把握个案各方面的特征SPSS实现的计数是对所有个案或满足某条件的部分个案,计算若干个变量中有几个变量的值落在指定的区间内,并将计数结果存入一个新变量中的过程对个案中的变量进行计数SPSS实现计数的关键步骤是:1.指定哪些变量参与计数,计数的结果存入哪个新变量中2.指定计数区间145精选ppt计数区间描述形式:

1.单个变量值(Value)2.系统缺失值(System-missing)3.系统缺失值或用户缺失值(Systemoruser-missing)

4.给定最大值和最小值的区间(nthroughm)5.小于等于某指定值的区间(Lowestthroughn)6.大于等于某指定值的区间(nthroughhighest)SPSS中的计数区间是一个广义的概念,包含了离散值146精选ppt计数对大学毕业班同学的学习成绩进行综合评价时,可以依次计算每个学生的若干门专业课中有几门课程得了优,有几门课程得了良,有几门得了中等等,并以门次为权重做进一步的分析。这样的计算门次数据的过程就是一个计数过程评价学生成绩,成绩为优的计数区间可以指定为90throughhighest,成绩为良的计数区间指定为80through89,不及格的计数区间指定为Lowestthrough59147精选ppt计数的基本操作步骤选择菜单:[Transform】→[Count】选择参与计数的变量到【NumericVariables】框中在[TargetVariable】框中输入存放计数结果的变量名,并在【TargetLabel】框中输入相应的变量名标签按DefineValues按钮定义计数区间,出现如图所示的窗口。通过【add】,【Change】,【Remove】按钮完成计数区间的增加、修改和删除如果仅希望对满足某条件的个案进行计数,则按if按钮并输入相应的SPSS条件表达式。否则,本步略。148精选ppt例题2.6利用住房状况调查数据,分析被调查家庭中有多少比例的家庭对目前的住房满意且近几年不准备购买住房149精选ppt分类汇总分类汇总是按照某分类进行分类汇总计算某企业希望了解本企业不同学历职工的基本工资是否存在较大差距最简单的做法就是分类汇总,即将职工按学历进行分类,然后分别计算不同学历职工的平均工资,就可对平均工资进行比较150精选ppt分类汇总某商厦希望分析假日周内不同职业和不同年龄段的顾客对某商品的“打折促销”反应是否存在较大差异,用以分析不同消费群体的消费心理。最初步的分析可以是分别计算不同职业中不同年龄段顾客的平均消费金额和平均消费金额差异程度(标准差),并对它们进行比较。这个过程可通过分类汇总过程完成分析大学男生和大学女生入校和毕业时每月生活费的变化情况151精选ppt分类汇总SPSS实现分类汇总涉及两个主要方面:1.按照哪个变量(如上例中的学历、职业和文化程度;性别、年级)进行分类。2.对哪个变量(如上例中的基本工资、消费金额、生活费)进行汇总,并指定对汇总变量计算哪些统计量(如上例中的平均工资、平均消费金额和标准差、平均生活费)152精选ppt分类汇总的基本操作步骤选择菜单:【Data】→【Aggregate】指定分类变量指定汇总变量指定对汇总变量计算哪些统计量SPSS默认计算均值分类汇总结果覆盖数据编辑窗口中的数据将结果生成到系统默认的名为aggr.sav的SPSS数据文件中可以按File按钮重新指定文件名重新指定结果文件中的变量名或加变量名标签SPSS默认的变量名为原变量名后加_1在结果文件中保存各分类组的个案数153精选ppt分类汇总说明分类汇总中的分类变量可以是多个,此时的分类汇总称为多重分类汇总。如上述不同职业和不同年龄段顾客消费的例子即是多重分类汇总的应用。类似于数据的排序,在多重分类汇总中,指定多个分类变量的前后次序是很关键的。第一个指定的分类变量为主分类变量(如职业),其他的依次为第二(如年龄段)、第三分类变量等,它们决定了分类汇总的先后次序。154精选ppt例题2.7根据职工情况数据研究不同学历的职工的工资水平是否存在差异利用分类汇总功能计算不同学历职工的平均工资,然后进行比较。选择文化程度为分类变量基本工资为汇总变量155精选ppt例题2.8利用住房状况调查数据,分析本市户口家庭和外地户口家庭目前人均住房面积的平均值是否有较大差距,未来打算购买住房的平均面积是否有较大的差距。分类变量是“户口状况”,汇总变量是“人均面积”和“计划面积”156精选ppt数据分组数据分组就是根据统计分析的需要,将数据按照某种标准重新划分为不同的组别数据分组的目的数据分组是对定距型数据进行整理和粗略把握数据分布的重要工具,因而在实际数据分析中经常使用。在数据分组的基础上进行的频数分析,更能概括和体现数据的分布特征。另外,分组还能够实现数据的离散化处理等。157精选ppt数据分组职工基本情况数据中的基本工资数据为定距数据,表现为具体的工资金额。如此“细致”的数据有时并不利于展现数据的总体分布特征。因此,可以将工资收入进行“粗化”,即分组,将其按照一定的标准重新分成高收入、中收入、低收入三个组,之后再进行频数分析,绘制直方图等。200只灯泡的使用寿命学生英语成绩按照分数分为优秀、良好和不及格158精选ppt组距分组在变量值较多的情况下,数据分组通常采用组距分组。组距分组是将全部变量值依次划分为若干个区间,并将同一区间的变量值作为一组组距分组中有两个关键问题分组数目的确定组距的确定“不重不漏”的原则"不重"是指一个变量值只能分在某一个组中,不能在其他组中重复出现"不漏"是指所有数据都应分配在某个组中,不能遗漏159精选ppt分组数目的确定数据应分成多少组比较合适通常与数据本身的特点和数据个数有关。由于分组的目的之一是观察数据分布的特征,因此组数的确定应以能够清楚地显示数据分布特征和规律为原则。组数太少会使数据的分布过于集中,而组数太多又会使数据的分布过于分散,这样都不便于观察数据分布的特征和规律。在实际分组时,可以按照Sturges提出的经验公式来确定组数K;

K=1+lgn/lg2n为数据个数,对结果四舍五入取整后为理论分组数目160精选ppt组距的确定组距是一个组的上限(组中的最大值)与下限(组中的最小值)之差。组距可根据全部数据的最大值和最小值及组数来确定

组距=(最大值-最小值)/组数职工基本工资情况分组数目:K=1+lg16/lg2=5组距:(1044-824)/5=44近似取50

161精选ppt组距分组的基本操作步骤SPSS对分组结果的两种存放策略用分组变量值覆盖原变量(IntoSameVariables)将分组结果存到一个新变量中(IntoDifferentVariables)通常采用第二种策略操作步骤(1)选择菜单:[Transform]→[RecodeintoDiferentVariables](2)选择分组变量到【NumericVariable->Output】框中。(3)在【OutputVariable】框中的【Name】后输入存放分组结果的变量名,并按Change按钮确认。也可在【Label】后输入相应的变量名标签。(4)按OldandNewvalues按钮进行分组区间定义。这里,应根据分析要求逐个定义各分组区间(5)如果仅对符合一定条件的个案分组,则单击If按钮并输入SPSS条件表达式。否则,本步可略去162精选ppt选择分组变量到此处存放分组结果的变量名按Change按钮确认定义分组区间163精选ppt指定分组区间的下限和上限给出该区间对应的分组值单击Add按钮确认分组区间并加到此处164精选ppt例题2.9利用住房状况调查数据,分析被调查家庭的人均住房面积的分布特征确定分组变量确定组距和分组数目进行分组165精选ppt数据预处理的其他功能数据转置将数据编辑窗口中数据的行列互换选择菜单:[Data】→【Transpose】指定数据转置后应保留哪些变量指定转置后数据文件中各变量如何取名选择一个取值唯一的变量(如职工号)作为标记变量到此处166精选ppt数据转置转置后数据各变量取名为:K_标记变量值(如K_001、K_002、K_003等)。如果略去本步,则转置后数据各变量名默认为VAR00001,VAR00002,VAR00003等SPSS将自动完成数据转置,并将转置结果显示在数据编辑窗口中。同时,SPSS还会自动产生一个名为Case_lbl的新变量,用来存放原数据文件中的各变量名167精选ppt统计分析中的加权处理是极为常见的,如计算加权平均数如果仅用各种蔬菜销售单价的平均数作为平均价格是不合理的,还应考虑到销售量对平均价格的影响因此,以蔬菜的销售量为权数计算各种蔬菜销售单价的加权平均数,就能够准确反映平均价格的水平加权处理168精选ppt加权处理【Data】→【WeightCases】选择某变量作为加权变量到此处169精选ppt加权处理注意SPSS中指定加权变量的过程本质上是数据复制。对表3-14的蔬菜销售数据,如果指定销售量为加权变量,那么SPSS将萝卜这条数据复制1025行,将西红柿这条数据复制850行,等等。但加权操作完毕后,数据编辑窗口中的数据并没有变化,而仅在状态栏中有已经加权的提示信息一旦指定了加权变量,那么在以后的分析处理中加权是一直有效的,直到取消加权为止。取消加权应在相应的窗口中选择(Doweightcases)选项通过加权处理,可以达到将数据编辑窗口中的计数数据还原为原始数据的目的170精选ppt数据拆分SPSS的数据拆分与数据排序很相似,但也有一个重要的不同点,即数据拆分不仅是按指定变量对数据进行简单排序,更重要的是根据指定变量对数据进行分组,它将为以后所进行的分组统计分析提供便利数据拆分将对后面的分析一直起作用,即无论进行哪种统计分析,都将是按拆分变量的不同组分别进行分析计算。如采希望对所有数据进行整体分析,则需要重新执行数据拆分,并在相应的窗口中选择[Analyzeallcase]项。对数据可以进行多重拆分,类似于数据的多重排序。多重拆分的次序决定于选择拆分变量的前后次序171精选pptData-SplitFile将拆分变量选到此处将分组统计结果输出在同一表格中,以便于不同组

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论