统计分析软件spss简要教程.ppt_第1页
统计分析软件spss简要教程.ppt_第2页
统计分析软件spss简要教程.ppt_第3页
统计分析软件spss简要教程.ppt_第4页
统计分析软件spss简要教程.ppt_第5页
免费预览已结束,剩余138页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

StatisticalProgramforSocialSciences,SPSSforWindows,第一讲SPSS简介及数据编码录入,1简介SPSS是StatisticalProgramforSocialSciences的简称,即社会科学统计程序,由美国SPSS公司1970年代推出,迄今已有近30年的历史。是国际著名三大社会科学统计软件包之一(SAS、SPSS、Statis)。我们现在使用的是SPSSforWindows8.0版。,2进入SPSS之前的准备工作,2-1-1数据资料的形式:矩阵式数据数据要求每一横行为一个个案(Case),纵列按变量排列,形成矩阵格式。,2-1数据资料的形式及编码,2-1-2编码的概念:根据一定的规则将研究资料转换为可进行统计分析的数码资料的过程。,问题025:您认为打工的外地人对北京市的社会秩序是否有影响?(单选)1有很大影响2有较大影响3没有影响4不好说,4,编码,答案,2-1-3编码的步骤:1)确定变量;,变量:用来反映文意概念的量化形式。在统计中往往指最小的分析单位。编码就是对变量进行编码。变量由两个部分构成:变量名和变量值。要注意区分何为变量,何为变量值。在调查问卷中还要注意区分问题和变量。,问题009:您有几个儿子?几个女儿?1儿子_人2女儿_人,2,3,问题,变量1,变量2,变量1的值,变量2的值,2)制作编码表,变量名:一个数据文件中,一个变量只能有一个唯一名称。,码位:某一变量在数据文件中占据的栏位,码数:某一变量由几位数组成。,该变量是数值型(Numeric)如定距、定比,还是字串型(String),如定类、定序。前者在统计中可以做高级运算,后者则不可以。,不适于被访人回答的问题的编码。一般采用7,97,997等。,被访人回答不知道时的编码。一般采用8,98,998等。,被访人拒绝回答某变量时的编码。一般采用9,99,999等。,问卷中出现漏答时的处理编码。一般采用9,99,999等。,2,3,100011,3)编码:根据编码表对问卷进行编码,而后将编码结果记录在问卷上或编码纸上。,2-2数据录入,采用DOS、WPS、CCED等软件,按ASCII码方式录入成文本文件(*.dat;*.txt)。这种录入方式的特点是,数据之间没有间隔,录完一个数码后自动后移,录入速度较快。缺点是容易错位。,采用SPSS数据编辑器(SPSSDataEditor)录入。其优点是不容易错位,缺点是不能自动后移,录入速度慢,数据错误不容易修改。,作业:将问卷填答好,并做出问题001问题011的编码表,将自己的答案在问卷上编码。下一节课带问卷上机。,练习:,第二讲SPSS数据定义,SPSS的运行步骤如下:,录入数据,SPSS数据定义的命令共有4个,分别用来定义数据的变量名、变量名标签、变量值标签和缺失值。,1变量名定义命令:DataList1-1命令格式:,DataListFile=原始数据文件名(*.dat)/变量1名码位变量2名码位变量n名码位.,这些数据定义命令都要写在SPSS的语句窗口(Syntax)里,而后运行。,示例:Datalistfile=c:lianxilianxi.dat/num1-4W015W01a6-7W028W039W0410.,或:Datalistfile=c:lianxilianxi.dat/num1-4W015W01a6-7W028W039W0410.,1-2要求:变量名不能超过8个字符;变量名不能以数字开头;变量名中不能包含,/、?、等运算和逻辑符号。当相邻变量名称上存在顺序且码位相同时,可用简略方法:W028W039W0410.可换为W02toW048-10.当变量值是字符时,在码位后加(a);如:W712(a);当变量值包含小数时,在码位后加(n),n表示小数的位数。如:446.79,在录入时要录成44679,定义时为:W1212-16(2);,练习:问卷p1变量名定义;问卷问题010、011变量名定义;问题012变量名定义;运行。,2变量名标签定义命令:Variablelabels该命令是给变量名一个说明标注。,2-1命令格式:Variablelabels变量1名标签/变量2名标签/变量3名标签/变量n名标签.,示例:VariableLabelsnum编号/W01性别/W01a出生年/W02婚姻状况/W03文化程度.,或:VariableLabelsnum编号/W01性别/W01a出生年/W02婚姻状况/W03文化程度.,或:VariableLabelsnum编号W01性别W01a出生年W02婚姻状况W03文化程度.,2-2要求:变量名要和已定义过的名称相一致;标签用中、西文均可,但长度不要超过120个字符,即60个汉字。,练习:问卷p1变量名标签定义并运行。,3.变量值标签定义命令:Valuelabels该命令是给变量的每一取值加一个说明标注。,3-1格式:ValueLabels变量名值1标签值2标签值3标签/变量名值1标签值2标签值3标签.,示例:ValuelabelsW011男2女/W021未婚2已婚3离婚后未再婚4离婚后再婚5丧偶后未再婚6丧偶后再婚7未婚同居/W031不识字或识字很少2初小3高小4初中5高中中专或中技6大专7大学本科8研究生以上/W041不识字或识字很少2初小3高小4初中5高中中专或中技6大专7大学本科8研究生以上0不适用.,3-2要求:变量名要和已定义过的名称相一致;标签用中、西文均可,但长度不要超过60个字符,即30个汉字。,练习:问卷问题001007的变量值标签定义并运行。,4缺失值定义命令:MissingValue,4-1格式:MissingValue变量名变量名变量名(缺失值1,缺失值2,)/变量名变量名变量名(缺失值1,缺失值2,).,示例:MissingValueW01W02W03(9)/W04(0,9)/W01aW8.1W8.2W8.3(99).,4-2要求:缺失值的定义与前面的命令格式不同,它是按照缺失值的码位数来排列变量的。有相同码位数的变量放在一组。,上机作业:1、在DOS下的Edit编辑器下录入问卷。2、运用SPSS的4个数据定义命令对问卷的第一页进行定义。,第三讲SPSS的主要窗口和菜单,1SPSS的3个主要窗口1-1数据编辑器窗口(SPSSDataEditor):用来编辑和显示数据;在此窗口中的文件名称为*.sav。1-2程序语句编辑器窗口(SPSSSyntaxEditor):用来编写各种程序;在此窗口中的文件名称为*.sps。1-3结果观看窗口(SPSSViewer):显示统计运算结果;在此窗口中的文件名称为*.spo。,2SPSS数据编辑器的主要菜单2-1File菜单:文件管理New;Open;Save;Saveas;Exit。2-2Edit菜单:编辑Undo;Cut;Copy;Paste;Clear;Find;2-3View菜单:视图Fonts;Gridlines;Valuelabels。,2-4Data菜单:数据整理definevariables;Insertvariables;Insertcase;gotocase;sortcase;selectcase。2-5Transform菜单:数据转换recode;compute;count。2-6Statistics菜单:统计2-7Graphs菜单:统计图2-8Utilities菜单:工具附件2-9Windows菜单:窗口2-10Help菜单:帮助,第四讲SPSS的单变量描述统计,1单变量描述统计介绍A变量的尺度:a定类CategoryScale:只能计次b定序OrdinalScale:计次、排序c定距IntervalScale:计次、排序、加减d定比RatioScale:计次、排序、加减、乘除,B变量的统计描述:分布Distribution集中趋势Centraltendency离散趋势Dispersion,分布,平均数,中位数,众数,离散程度,2SPSS的单变量描述统计命令AFrequencies:频数统计StatisticsSummarizeFrequencies,变量值,频数,百分比,有效百分比,累计百分比,BDescriptives:定距变量描述统计StatisticsSummarizeDescriptives,变量名,平均数,标准差,最小值,最大值,第四讲SPSS的双变量关系描述统计(一)列联与方差分析,1、变量关系概述寻找变量间的关系是科学研究的首要目的。变量间的关系最简单的划分即是有关与无关。在统计学上,我们通常这样判断变量之间是否有关:如果一个变量的取值发生变化,另外一个变量的取值也相应发生变化,则这两个变量有关。如果一个变量的变化不引起另一个变量的变化则二者无关。,性别与四级英语考试通过率的相关统计,表述:统计结果显示,当性别取值不同时,通过率变量的取值并未发生变化,因此性别与考试通过率无关。自变量的不同取值在因变量上无差异,两变量无关。自变量的不同取值在因变量上有差异,两变量有关。,表述:统计结果显示,当性别取值不同时,收入变量的取值发生了变化,因此性别与月收入有关。,2、双变量关系的统计类型,3、列联统计3-1列联表的格式,自变量,因变量,人数,行百分比,列百分比,总百分比,3-2列联分析的原理:自变量发生变化,因变量取值是否也发生变化。比较边缘百分比和条件百分比的差别。,4-1)变量关系强度的含义:指两个变量相关程度的高低。统计学中是以准实验的思想来分析变量相关的。通常从以下的角度分析:A)两变量是否相互独立。B)两变量是否有共变趋势。C)一变量的变化多大程度上能由另一变量的变化来解释。,4列联变量的关系强度测量,4-2)双变量关系强度测量的主要指标,4-3)卡方测量的原理:卡方测量用来考察两变量是否独立(无关)。其原理是根据这一概率定理:若两变量无关,则两变量中联合事件发生的概率应等于各自独立发生的概率乘积。,在列联表中,这一定理就具体转化为:若两变量无关,则两变量中条件概率应等于各自边缘的概率乘积。反之,则两变量有关,或,两变量不独立。,示例,由此可见,期望值(独立模型)与观察值的差距越大,说明两变量越不独立,也就越有相关。因此,卡方的表达式如下:卡方的取值在0之间。卡方值越大,关联性越强。在SPSS中,有PearsonX2和相似比卡方(LikelihoodRatioX2)两种。,4-4)的改进标准化系数:为使值有一固定的区间,便于比较,采用了以下几个修正:,A、系数(Phi):(01),适用于22表。B、列联系数(ContingencyCoefficient):(01),适用任意表。C、CramerV系数:(01),适用任意表。D、系数(Lambda):(01),适用任意表。E、GoodmanY(妻子收入),P(xi,yi),Y=k,共变异数(协方差)=,散点越集中于1、3象限,共变异数的和正值约大;散点越集中于2、4象限,共变异数的和负值约大;散点越均匀分布于各象限,共变异数的和越趋近于0。,3)相关系数的计算公式:,由此公式可看出:1相关就是共变异数的标准化。2相关系数r的取值范围在(-1,+1)之间。+1代表完全正相关;-1表示完全负相关;0表示无相关。,示例:通过此题来演算相关系数。,2定序定序尺度(SpearmanCor.)积差相关的公式:积差相关又称等级相关,用来考察两个定序变量间的相关关系。它的公式是由积矩相关转变而来,,其中,D是每一对因变量和自变量的序数的差值;N是总的排序的序数。,示例:,3SPSS中的相关统计命令Statistics-Correlate-Bivariate,4相关统计的输出格式,相关系数,人数,1回归的含义:回归(Regression,或LinearRegression)和相关同样都用来分析两个定距变量间的关系,但回归有明确的因果关系假设。即要假设一个变量为自变量,一个为因变量,自变量对因变量的影响就用回归表示。如年龄对收入的影响。由于回归构建了变量间因果关系的数学表达,它具有统计预测功能。,第六讲SPSS的双变量关系描述统计(四)线性回归,2回归的统计原理:两个定距变量的回归是用函数y=f(x)来分析的。我们最常用的是一元回归方程,其中x为自变量;y为因变量;a为截距,即常量;b为回归系数,表明自变量对因变量的影响程度。,Y=350+20 x,在统计学中,这一方程中的系数是靠x与y变量的大量数据拟合出来的。,X,Y,Y=a+bx,(x,y),由图中可以看出,回归直线应该是到所有数据点最短距离的直线。该直线的求得即使用“最小二乘方法”,使:,在拟合的回归直线方程中,回归系数:,表示x每变化一个单位时,x与y共同变化的程度(共变异数)。,常数,比如通过上学年数和工资的关系计算得出下列的回归公式:y=472+14.8x就可知上学年数每增长1年,工资会增加14.8元;也可推测,上学年数为15年的人,工资收入应为472+14.8*15=694元。,3SPSS线性回归的统计命令StatisticsRegressionLinear,自变量,因变量,回归方式,4SPSS线性回归的输出格式:,常数,自变量,回归系数,标准化回归系数,每月工资=823.3-3.487年龄,1推断统计的一般概念1.1推断统计的含义及类型:(1)含义:推断统计是指用概率分布的方法,由样本的统计量推断总体参数的统计方式。,第七讲:SPSS的推断统计(一)参数估计和单变量的假设检验,样本统计量:样本中某个变量的统计值。如此次调查中高中文化程度的人占32%。,样本32%,总体参数:与样本中某个变量的统计值相对应的总体中的统计值。如全市人口中高中比例为38%。,总体38,样本统计量有可能等于总体参数,也有可能不等于总体参数,但二者之间有着某种概率关系。推断统计就是教会我们如何利用这种概率关系来由样本统计量推估总体参数。,为了区别样本和总体的不同,样本的平均数用,来表示,标准差用S表示;总体的平均数用表示,标准差用表示。因此,推断统计往往,可以看作是由,推断。,样本32%,总体=?,(2)类型:推断统计分为参数估计和假设检验两大类。参数估计:根据一个随机样本的统计值来估计总体参数。即已知样本,估计总体。,假设检验:先假定总体参数为,用一个随机样,总体=38%,样本32%,来检验总体参数为的假设是否成立。,本的统计量,?,1.2推断统计的原理:参数估计和假设检验都是利用正态分布的概率特征来进行的。(1)正态分布(,):正态分布是一种统计分布,它有如下几个特征:A单峰对称;B平均数、中位数、众数合一,都在峰点;C1.96包含了95的面积;1.65包含了90的面积;即面积和标准差之间有一个固定换算。,正态分布N(,),1.96,平均数,1701.96*10,(170,10),例:某校同学的身高为正态分布,平均值为170cm,标准差为10cm。问:1)高于平均数1.5个标准差的同学身高是多少?2)162cm身高的同学距平均数有几个标准差?3)95%的同学身高会在什么范围内?,解1:Xi=+Z*=170+1.5*10=185cm;解2:Z=(Xi-)/=(162-170)/10=-0.8;解3:Xi=-Z*=170-1.96*10=150.4Xi=+Z*=170+1.96*10=189.6(150.4189.6),由上可得出:,其中Xi为分布中任何一个值,是平均数;是标准差。Z是Xi距离平均数的标准差单位,又称Z分数,同时也表示Xi与平均数之间的面积。,(2)标准正态分(Z分布):N(0,1)标准化了的正态分布。即平均数=0,标准差=1的正态分布。,(0,1),=1,(3)总体分布:D(,)总体中某变量的几何分布。有可能是正态分布,也可能不是正态分布。,(4)样本分布:D(,,S),样本中某变量的统计分布,和总体分布一样,它有可能是正态分布,也可能不是正态分布。,(5)样本平均数的抽样分布:N(,,),从总体中多次重复抽取容量为n的样本,每个样本平,均数的所形成的统计分布。是由多个,组成的。,总体分布,样本平均数的抽样分布,D(,),N(,,),样本平均数的抽样分布的特点:,B正态分布。C它的平均数就等于总体的平均数,标准差则是,A是由多个,组成,,因此,我们所作的任何一次抽样的平均数,都可看作是样本平均数的抽样分布中的一个点。,它会有95的概率落在1.96,总体标准差的,倍。即,的范围内。,,又被称作,标准误(StandardError,S.E),总体分布(,),样本分布(,s),样本平均数的抽样分布(,),三种分布的关系,推断统计的原理就是:利用样本平均数的抽样分布的正态特征,以及与的包含关系,来从样本统计量推估总体参数(即参数估计),或用样本统计量检验有关总体参数的假设(假设检验)。由此可见,参数估计和假设检验实际是相同的。,在实际调查中,我们便是利用这一原理,用一次调查的结果来推断总体的参数。我们把某一次调查的结果看作是同样样本规模的无数次调查中的一次,它是样本平均数的抽样分布中的一个点,,可用来估计总体参数。,2参数估计的步骤,1)求出样本的平均数、标准差;2)求出总体的标准差(如未知,可用样本的标准差代替)3)设定参数估计的置信区间即参数估计的把握性(90%?95%?)的Z值(1.65?1.96?),4)根据,计算出的所在范围。,例:已知某学校的学生每天课外活动时间的标准差为15分钟。现从学生中随机抽取25人,得知他们的课外活动时间平均为60分钟,问该校学生总体平均每天的课外活动时间会是多少?(选择95%的置信区间),解:,=60,S.E=15/251/2,Z=1.96,=605.88606,5466,例:在此次调查中,男性共630人,平均年龄为45岁,标准差为15;女性共620人,平均年龄为44岁,标准差为14。问:1)男性与女性各自平均年龄的总体参数是多少?(95%的置信区间),解:,男性,=451.176,43.82446.176,女性:,=441.1,42.945.1,2)从总体上看,男女年龄是否有差异?,解:比较男女平均年龄的总体参数的区间,,男,(43.8,46.1),女,(42.9,45.1),二者有交集,故总体年龄在95%的置信度上没有差异。,答案:1,(652.339,709.561),(646.97,714.93),2,(5.8364,6.0436),(6.574,6.766),(7.827,8.053),3比例数的参数估计:当样本的统计量不是平均数,而是以比例的形式出现时,比如,共青团员在调查中占9.4%,也可以用=XiZ*S.E公式的变形:P总=PiZ*S.E来推断总体参数。其中,Pi为比例数形式的样本统计量,,示例:在此次抽样调查的1254人中,共青团员的比例为9.4%,求总体中共青团员的比例参数(置信度为95%)。解:P总=PiZ*S.E,(0.078,0.11)总体中共青团员的比例有95%的可能性在7.8%11%的区间内。,4假设检验的步骤:,示例:纳税起征线的规定是根据当地居民的平均月收入制定的。有关部门认为某地的起征线应为800元,因为根据经验当地居民平均月收入应不低于此数。在当地进行的一次400人的随机抽样表明,居民月收入为790元,标准差为100元,请用此调查结果在95的置信水平上检验居民月收入为800元的说法是否成立。,假设m=800,800!1.96*5,m=800,样本容量为400时的样本平均数的抽样分布:N(800,5),样本:X=790,4.1假设检验的分布算法1)确定有关总体参数m的假设;如假设总体平均收入为800元;2)确定检验此假设的概率标准,即置信区间为P=90?P=95?(Z1.65?Z=1.96?),(平均数、标准差、标准误,即样本平均数抽样分布的标准差)。4)以m为中心,作出样本平均数抽样分布的给定概率区间。,3)抽取一个随机样本,计算出,、S、S.E,5)看在这一区间内是否包括了,,如果包括,,就可以说,在给定的置信区间中(或在给定的概率条件下),验证(接受)了原假设;如未包含,则说明原假设在给定的概率水平上不成立(被否定),或说原假设在给定的显著度水平(1给定概率)上被否定。,解:1)确定有关总体参数的假设H0:m800;H1:m!800;2)确定检验此假设的概率标准:置信度为95,显著度为5,即Z1.963)计算样本的有关统计量790;S100;S.E=100/20=54)以m为中心,作出样本平均数抽样分布的给定概率区间。(8001.965),即(790.2809.8)5)结论:此区间未包含样本统计量790,因此在5的显著水平上推翻原假设。当地居民的平均月收入小于800元。,4.2假设检验的公式算法:,从上一算法中可以看出,Xi距m的距离是检验假设的关键指标:Xi如果落在m的95%的置信区间之外,这时|Zxi|Z95%,即|Zxi|1.96。则原假设被否定的概率95%,或者说,原假设成立的概率5%,我们称为在5%的显著水平上否定了原假设。Xi如果落在m的95%的置信区间之内,这时|Zxi|Z95%,即|Zxi|1.96。我们称为在5%的显著水平上不能否定原假设。因此,可以利用,来直接计算出|Zxi|是否大于Z95%。解:1)确定有关总体参数的假设H0:m800;H1:m!800;2)确定检验此假设的概率标准:置信度为95,显著度为5,即Z1.963)计算Zxi,4)判定:Zxi=-2,绝对值大于Z95%,因此在5%的显著水平上否定原假设m800。,假设m=800,样本1:X1795;S10,m!1.96S.E,样本2:X2790;S10,接受区95,拒绝区5,1双变量统计关系假设检验概述变量间关系的统计和变量关系强度的测量也同样存在统计推断问题。即从样本中统计出的变量关系强度系数(如X2、各种相关系数)是否在总体上也有效。比如:根据我们的调查1254人的统计结果得知性别)与文化程度的卡方值为27.89,W19.1与W19.2的相关系数r=0.367,那么总体上这些变量之间是否也会有同样的相关?这就要依靠变量关系的假设检验。,第八讲:SPSS的推断统计(二)双变量关系的假设检验,2双变量统计关系假设检验的步骤双变量的假设检验和单变量很相似,通常采用以下的步骤:1)确定双变量总体参数的假设:如假设总体中性别与文化程度无关,即卡方值=0;W19.1与W19.2不相关,即r=0;2)确定检验此假设的概率标准,即置信区间为95%或90%(即显著度为0.05或0.1);3)抽取一个随机样本,计算出样本中双变量关系的统计量,如性别与文化程度的卡方值为27.89,W19.1与W19.

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论