SPSS数据统计分析实例详解PPT课件_第1页
SPSS数据统计分析实例详解PPT课件_第2页
SPSS数据统计分析实例详解PPT课件_第3页
SPSS数据统计分析实例详解PPT课件_第4页
SPSS数据统计分析实例详解PPT课件_第5页
已阅读5页,还剩107页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

.,1,StatisticalProgramforSocialSciences,SPSSforWindows,2003年11月30日,.,2,第一章SPSS初步数据分析实例详解,1.1数据的输入和保存1.1.1SPSS的界面1.1.2定义变量1.1.3输入数据1.1.4保存数据1.2数据的预分析1.2.1数据的简单描述1.2.2绘制直方图1.3按题目要求进行统计分析1.4保存和导出分析结果1.4.1保存文件1.4.2导出分析结果,以SPSS10.0版,1.5打开其他文件格式1.5.1直接打开1.5.2使用数据库查询打开1.5.3使用文本导入向导读入文本文件1.6编辑数据文件1.6.1定义新变量1.6.2数据录入技巧1.7进一步整理数据文件-Data菜单1.7.1用于数据管理的菜单项1.7.2正交设计菜单项,2003年11月30日,.,3,例1.1某克山病区测得11例克山病患者与13名健康人的血磷值(mmol/L)如下,问该地急性克山病患者与健康人的血磷值是否不同?患者:0.841.051.201.201.391.531.671.801.872.072.11健康人:0.540.640.640.750.760.811.161.201.341.351.481.561.87,2003年11月30日,.,4,让我们把要做的事情理理顺:首先要做的肯定是打开计算机(废话),然后进入Windows,在进入SPSS后,具体工作流程如下:将数据输入SPSS,并存盘以防断电。进行必要的预分析(分布图、均数标准差的描述等),以确定应采用的检验方法。按题目要求进行统计分析。保存和导出分析结果。下面就按这几步依次讲解。,2003年11月30日,.,5,1.1数据的输入和保存,1.1.1SPSS的界面,2003年11月30日,.,6,1.1.2定义变量,该资料是定量资料,设计为成组设计,因此我们需要建立两个变量,一个变量代表血磷值,习惯上取名为X,另一个变量代表观察对象是健康人还是克山病人,习惯上取名为GROUP。选择菜单Data=InsertVariable。点击VariableView,将变量名改为GROUP和X。现在,第一、第二列的名称均为深色显示,表明这两列已经被定义为变量,其余各列的名称仍为灰色的“var”,表示尚未使用。同样地,各行的标号也为灰色,表明现在还未输入过数据,即该数据集内没有记录。,2003年11月30日,.,7,1.1.3输入数据,在DataView中输入相应的数据,一个单元格输入一个数据,Group中输入1代表患者,2代表健康人。,2003年11月30日,.,8,1.1.4保存数据,选择菜单File=Save,由于该数据从来没有被保存过,所以弹出Saveas对话框,2003年11月30日,.,9,1.2数据的预分析,1.2.1数据的简单描述,首先我们需要知道数据的基本情况,如均数、标准差等。选择Analyze=DescriptiveStatistics=Descriptives菜单,系统弹出描述对话框如下:,2003年11月30日,.,10,该对话框可分为左右两大部分,左侧为所有可用的侯选变量列表,右侧为选入变量列表。我们只需要描述X,用鼠标选中X,单击中间的,变量X的标签就会移入右侧,注意这时OK按钮变黑,表明已经可以进行分析了,单击它,系统会弹出一个新的界面如下所示:,该窗口上方的名称为SPSSViewer,即(结果)浏览窗口,整个的结构和资源管理器类似,左侧为导航栏,右侧为具体的输出结果。结果表格给出了样本数、最小值、最大值、均数和标准差这几个常用的统计量。从中可以看到,24个数据总的均数为1.2846,标准差为0.4687。,2003年11月30日,.,11,2003年11月30日,.,12,我们以上的做法对吗?当然有问题!光看总的描述是不够的,还应当看看分组的描述情况。这里要用到文件分割功能,请切换回数据管理窗口,选择Data=SplitFile菜单,系统弹出文件分割对话框如下:,选择单选按钮Organizeoutputbygroups,将变量GROUP选入右侧的选入变量框,单击OK钮,此时界面不会有任何改变,但请再做一次数据描述,你就可以看到现在数据是分Group=1和Group=2两种情况在描述了!从描述可知两组的均数和标准差分别为1.5209、1.0846和0.4218、0.4221。如果定义了文件分割,则它会在以后的所有统计分析中起作用,直到你重新定义文件分割方式为止。,2003年11月30日,.,13,2003年11月30日,.,14,1.2.2绘制直方图,统计指标只能给出数据的大致情况,没有直方图那样直观,我们就来画个直方图瞧瞧!选择Graphs=Histogram,系统会弹出绘制直方图对话框如下:,2003年11月30日,.,15,将变量X选入Variable选择框内,单击OK按钮。此时结果浏览窗口内会绘制出如下两个直方图:,2003年11月30日,.,16,两组的数据没有特别偏的分布,也没有十分突出的离群值,因此无须变换,可以直接采用参数分析方法来分析。综合设计类型,最终确定采用成组设计两样本均数比较的t检验来分析。最后,我们还要取消变量分割,免得它影响以后的统计分析,再次调出变量分割对话框,选择单选按钮中的“Analyzeallcases,donotcreatgroup”,单击OK按钮就可以了。,2003年11月30日,.,17,1.3按题目要求进行统计分析,下面我们要用SPSS来做成组设计两样本均数比较的t检验,选择Analyze=CompareMeans=Independent-SamplesTtest,系统弹出两样本t检验对话框如下:,2003年11月30日,.,18,将变量X选入test框内,变量group选入grouping框内,注意这时下面的DefineGroups按钮变黑,表示该按钮可用,单击它,系统弹出比较组定义对话框如右图所示:,该对话框用于定义是哪两组相比,在两个group框内分别输入1和2,表明是变量group取值为1和2的两组相比。然后单击Continue按钮,再单击OK按钮,系统经过计算后会弹出结果浏览窗口,首先给出的是两组的基本情况描述,如样本量、均数等(糟糕,刚才的半天工夫白费了),然后是t检验的结果如下:,2003年11月30日,.,19,IndependentSamplesTest,IndependentSamplesTest,2003年11月30日,.,20,可见该结果分为两大部分:第一部分为Levenes方差齐性检验,用于判断两总体方差是否齐,这里的检验结果为F=0.074,p=0.788,可见在本例中方差是齐的;第二部分则分别给出两组所在总体方差齐和方差不齐时的t检验结果,由于前面的方差齐性检验结果为方差齐,第二部分就应选用方差齐时的t检验结果,即上面一行列出的t=2.568,=21,p=0.018。从而最终的统计结论为按=0.05水准,拒绝H0,认为克山病患者与健康人的血磷值不同,从样本均数来看,可认为克山病患者的血磷值较高。,2003年11月30日,.,21,1.4保存和导出分析结果,1.4.1保存结果文件,显然,最方便快捷、最符合信息时代特征的就是第三种方法,在结果浏览窗口中(注意:一定要在结果浏览窗口中)选择菜单File=Save,由于该结果也从来没有被保存过,所以弹出和前面保存数据时极为相似的一个Saveas对话框,和前面相比,他唯一的区别就是文件的保存类型只有ViewFiles(*.spo)一种。好,闲言少叙,在文件名框中键入“Li1_1”并回车,该结果文件就会按文件名Li1_1.spo被存储。,2003年11月30日,.,22,1.4.2导出分析结果,文件倒是保存了,但问题还没有完全解决:我们从来写文章什么的都用的是文字处理软件,尤其是WORD,可WORD不能直接读取SPO格式的文件,怎么办呢?没关系,SPSS提供了将结果导出为纯文本格式或网页格式的功能,在结果浏览窗口中选择菜单File=Export,系统会弹出ExprotOutput对话框如下,2003年11月30日,.,23,2003年11月30日,.,24,最上方的Export下拉式列表可以选择输出的内容,可以为含图表的输出文档、无图表的输出文档和只有统计图表三种;中部的ExprotFile对话框则填入输出的目标文件名;左下方的ExportWhat单选框可以选择输出结果的哪些部分,可以是所有结果、所有可见结果或只输出选择的结果,一般选输出所有可见结果;右下方的输出文件类型下拉式列表已被我打开,可见里面有网页格式和纯文本格式两种,在一切按所需选择完毕后按OK钮,则结果文件就会输出为你想要的类型。好,到这里,就象我们刚开始所说的一样,你实际上已经完全掌握了SPSS的基本使用方法。我们以后将要做的工作就是“百尺竿头,更进一步”,将从下一章开始详细介绍SPSS各个模块的精确用法,使大家能尽快的从SPSS新手向SPSS高手过度。,2003年11月30日,.,25,1.5打开其他格式的数据文件,1.5.1直接打开,SPSS现在可以直接读入许多格式的数据文件,其中就包括EXCEL各个版本的数据文件。选择菜单File=Open=Data或直接单击快捷工具栏上的“”按钮,系统就会弹出OpenFile对话框,单击“文件类型”列表框,在里面能看到直接打开的数据文件格式,分别是:,2003年11月30日,.,26,1.5.2使用数据库查询打开,SPSS可以直接打开许多类型的数据文件,但这并不是说它可以打开所有类型的数据文件(废话),比如FoxPro3.0以上版本的*.dbf文件就不能直接打开(有兴趣的话你可以试试)。为此,SPSS还提供了另一个适用范围更广、但使用上较为专业的数据接口数据库查询。实际上,SPSS在这里使用的是一种叫ODBC(OpenDatabaseCapture)的数据接口,该接口被大多数数据库软件和办公软件(如MSOffice)支持,通过它,应用程序可以直接访问以结构化查询语言(SQL)做为数据访问标准的数据库管理系统。由于SPSS10.0可以直接打开EXCEL所有系列的数据文件,因此数据库查询接口的用处不是很大。但是,在9.0及以前的版本中,该查询仍是直接打开EXCEL95、97及2000数据文件的唯一办法。,2003年11月30日,.,27,ODBC数据引擎是独立与各种应用软件,直接安装到Windows系统中的,因此你所用的系统中ODBC所支持的数据类型取决于所安装的ODBC引擎的情况。还好,大多数支持该接口的软件都会在安装光盘上附送该引擎的安装文件(如MSOffice)。不过有一点要提醒大家,许多机器的OBDC数据引擎安装有问题(尤其是D版),在SPSS中使用它往往要死机。选择菜单File=OpenDatabase=NewQuery,系统会弹出数据库向导的第一个窗口,其中会列出你使用的机器上已安装的所有数据库驱动程序,选中所需的数据源,然后单击下一步,向导会一步一步的提示你如何做,直至将数据读入SPSS。,2003年11月30日,.,28,1.5.3使用文本导入向导读入文本文件,选择菜单File=ReadTextData,系统就会弹出OpenFile对话框,对!和前面的情况完全一样,只是文件类型自动跳到了Text(*.txt)。实际上,该功能在SPSS中已被整合到了OpenFile对话框中之所以在菜单上保留该条目有两个原因:1.读入纯文本的情况非常普遍,放在这里更加醒目;2.为了和SPSS老版本的使用上保持兼容。例2.1现有一数据文件以纯文本的形式存为“c:Li2_1.txt”,且第一行为变量名,请将其读入SPSS。解:在OpenFile对话框选中相应的文件名并单击“确定”,系统会自动启动文本导入向导对话框如下:,2003年11月30日,.,29,2003年11月30日,.,30,1.6编辑数据文件,在SPSS中,数据文件的编辑、整理等功能被集中在了Data和Transform两个菜单项中,这两个菜单的内容如下所示:,Data菜单项,Transform菜单项,2003年11月30日,.,31,1.6.1定义新变量,直接定义新变量大多数情况下我们需要从头定义变量,在SPSS10.0中,定义变量只需单击左下方的VariableView标签就可以切换到变量定义界面开始定义新变量。如Li1_1.sav的变量定义如下所示:,2003年11月30日,.,32,以变量x为例:变量名为x,类型为Numeric,宽度为4,小数位数2位(因小数点还要占一位,故整数位只有一位),变量标签位为“血磷值”。右侧在图中未能看到的依次为Values,用于定义具体变量值的标签;Missing,用于定义变量缺失值;Colomns,定义显示列宽;Align,定义显示对齐方式;Measure,定义变量类型是连续、有序分类还是无序分类。,使用该窗口,我们可以一次定义许多新变量,不会象老版本那样一个一个的定义了。,2003年11月30日,.,33,标签和老版本不同,现在变量标签和变量值标签被分开设置,变量标签就在Label框中直接输入,变量值标签则在它右侧的Value框定义。以group为例,单击Value框右半部的省略号,会弹出变量值标签对话框如右:,上部的两个文本框分别为变量值输入框和变量值标签输入框,分别在其中输入“1”和“克山病患者”,此时下方的Add钮变黑,单击它,该变量值标签就会被加入下方的标签框内。与此类似定义变量值“2”为“健康人”,最后按OK,变量值标签就设置完成。此时你做任何分析,在结果中都有相应的标签出现。如果你现在就想看效果,切换回DataView界面,然后选择菜单View=ValueLabels,怎么样,看到了吗?,2003年11月30日,.,34,缺失值单击missing框右侧的省略号,会弹出缺失值对话框如下:,界面上有一列三个单选钮,默认值为最上方的“无缺失值”;第二项为“不连续缺失值”,最多可以定义3个值;最后一项为“缺失值范围加可选的一个缺失值”,2003年11月30日,.,35,ComputeVariable对话框这主要用于对原变量通过一定的计算,产生新变量的方法。例3.2在li1_1.sav中建立新变量temp,令其值当血磷值大于1时为2,否则为1。,首先给变量temp均赋值为1,然后将血磷值大于1的记录其temp变量值改为2即可。第一步:选择菜单Transform=Compute,弹出ComputeVariable对话框如下:,2003年11月30日,.,36,左上角为需要计算的变量名,在其中键入“temp”,此时“Type&Lable”按钮就会变黑,喜欢精确的朋友可以在这里对temp进行详细的定义;左下方为候选变量列表,现在还用不着;中部为类似计算器的软键盘,可以用鼠标按键输入数字和符号,这里我们直接输入“1”,输入的内容回立刻在右上方的数值表达式窗口中出现;软键盘右侧为函数窗口,可以在这里找到并使用所需的SPSS函数;这次也用不到。好,现在“OK”按钮已经变黑,单击他,系统就会自动生成一个新变量temp,并且取值均为1。,2003年11月30日,.,37,第二步,再次选择菜单Transform=Compute,系统也再次弹出这个对话框,将数值表达式窗口中的1改为2,然后单击中下部的“If”按钮,系统弹出记录选择对话框如下:,2003年11月30日,.,38,Count对话框,Count对话框用于计算某个值或某些值在某个变量的取值中是否出现(好象有点拗口),比如我们想看看有哪些记录的血磷值在23之间,选择菜单Transform=Count,系统弹出Count对话框如下:,2003年11月30日,.,39,2003年11月30日,.,40,TargetVariable框中用于指定记录变量值是否出现的变量名,在这里输入temp2;选中血磷值(x),将其选入Variables窗口,此时“DefineValues”按钮变黑,单击它,系统弹出变量值定义窗口如下:,2003年11月30日,.,41,左半部为变量值定义窗口,可以定义某个值、系统缺失值、系统或用户定义缺失值、变量值范围、小于某值或大于某值。我们这里是第四种情况:选择Range,在through两侧分别键入2、3,然后单击已变黑的“Add”按钮,“2thru3”就会被加入“ValuestoCount”框内。然后单击“Continue”,再单击Count对话框的“OK”,可以看到系统自动生成变量temp2,其中10、11号记录因血磷值介于2和3之间,temp2取值为1,其余的记录temp2取值均为0。,2003年11月30日,.,42,Recode对话框,Recode对话框用于从原变量值按照某种一一对应的关系生成新变量值,可以将新值赋给原变量,也可以生成一个新变量。例2.3在Li1_1.sav中生成新变量temp3,当血磷值小于1时取值为0,12时取值为10,大于2时取值为20。解:选择菜单Transform=Record=IntoDifferentVariables,,2003年11月30日,.,43,1、OutputVariable框:选入x2、OutputVariableName框:键入temp3:单击Change钮3、选中x-temp3:单击OldandNewValues钮:4、Range:Lowestthrough单选钮:键入1:NewValueValue单选钮:键入0:单击Add钮5、Range:through单选钮:两侧分别键入1、2:NewValueValue单选钮:键入10:单击Add钮6、Range:Allothervalues单选钮:NewValueValue单选钮:键入20:单击Add钮7、单击Continue8、单击OK,步骤:,2003年11月30日,.,44,CategorizeVariables对话框,CategorizeVariables对话框用于将连续性变量自动按要求分成等间距的几类。其界面非常简单,许多东西都是我们所熟悉的,唯一特别的是右下方的numberofcategories框,用于输入变量的等级数,默认为4,比如我们希望将血磷值按大小分成5个等级,先将血磷值选入CreateCategories框,然后将下面的4改为5,单击OK,就会看到系统产生了一个新变量nx(即numberofx之意),其取值就对应了血磷值相应的5个等级(15)。重复一下,具体操作步骤为:1、reateCategories框:选入x2、Numberofcategories框:53、OK,2003年11月30日,.,45,RankCases对话框,例2.4请分组计算血磷值的秩和。解:选择菜单Transform=RankCases,弹出RankCases对话框,2003年11月30日,.,46,将血磷值选入Variable框,分组变量选入By框,单击OK即可。系统会建立一个新变量rx(即原变量名前加r表示Rank之意),其取值为x分组的秩次。解释一下RankCases对话框的其他几个零件:左下角的AssignRank1to框架用于选择将秩次1赋给最小值还是最大值;中下部的Displaysummarytables复选框用于确定是否在结果窗口内输出结果报表;RankTypes钮用于定义秩次类型,有Rank(秩分数)、Savage评分(新变量值按指数分布)、Fractionalrank(新变量值是秩分数除以非缺失值观测量的权重之和)、Fractionalrank%(新变量值是秩分数除以非缺失值观测量数乘100)、Sumofcaseweights(新变量值是各观测量的权重之和)、Ntiles(新变量值是按所选变量的百分位数分组的组序号),默认值为Rank。单击More按钮,还会有更多的设置,这里就不再讲了。,2003年11月30日,.,47,AutomaticRecord对话框,CreateTimeSeries对话框,ReplaceMissingValue对话框,该对话框用于按原变量值的大小生成新变量,变量值就是原值的大小次序,功能和RankCases对话框重复(等价于相同值观测量当作一个记录处理的情况)。,用于自动生成时间序列变量,用于填充缺失值,结果存入一个新变量。填充方法有:序列的均数、相邻若干点的均数、相邻若干点的中位数、线性内插、线性外延,默认值为序列的均数。,2003年11月30日,.,48,1.6.2数据录入技巧,连续多个相同值的输入如前面group变量有连续多个1,如果直接输入,可以在第一格内输入1并回车,然后回到刚才的单元格并单击右键,选择copy,最后用拖放方式选中所有应输入1的单元格,单击右键并选择paste,所有选中的单元格就会都被刚才拷贝的1填充。将EXCEL数据直接引入SPSSExcel已经打开原数据,并且数据量较少的时候,可以直接用拷贝粘贴的方法将数据引入SPSS:先在EXCEL中选中所有的数据(不包括变量名),然后选择拷贝命令;然后切换到SPSS,最好使行1列1单元格成为当前单元格,然后执行粘贴命令,数据就会全部转入SPSS,再定义相应的变量即可。,2003年11月30日,.,49,1.7进一步整理数据文件-Data菜单,在许多情况下,我们需要先对数据进行一些整理(如分组、合并、加权等)才能将其用于最终的统计分析。这些功能基本上都集中在Data菜单项中,下面我们就对这些对话框做逐一介绍。,2003年11月30日,.,50,1.7.1用于数据管理的菜单项,1.7.1SortCases对话框主要用于对数据排序。,2003年11月30日,.,51,例2.5对数据集li1_1.sav按group升序,x降序的次序排列。解:选择菜单Data=SortCases,系统弹出SortCases对话框,该对话框并不复杂,其中比较特殊的是下方的SortOrder单选钮,有升序和降序两种选择。请注意,该单选钮是和上方的SortBy框一起使用的,具体方法如下:确认升序单选钮被选择,将Group选入SortBy框;选择降序单选钮,将x选入SortBy框。请注意:group和x后面分别跟着Ascending和Descending,表明前者是按升序、后者按降序排列;由于Group在前,因此排序时以Group优先。,2003年11月30日,.,52,Transepose对话框,该对话框用于对数据进行行列转置,可以在原数据文件中指定一个变量记录转置后的变量名。原变量名则自动保存在系统产生的名为case_lbl的字符变量中。该对话框也非常简单,左侧为候选变量框;右上方为Variable框,用于选入需要转置的变量,一般应选入除名称变量外的所有其他变量,如果有变量未选入,则转置时会被自动丢弃;右下方为NameVariable框,用于指定原数据文件中记录转置后变量名的字符变量,但不是必需的,此时系统会将新变量自动按var001、var002.的顺序命名。,2003年11月30日,.,53,MergeFiles对话框,用于合并数据文件,实际上包括了两个对话框,分别对应了两种合并方式:1.从外部数据文件中增加记录到当前数据文件中,称为纵向合并,用AddCases对话框完成,相互合并的数据文件中应该有相同的变量。选择菜单Data=MergeFiles=AddCases,系统首先弹出打开数据文件对话框,选中需要添加的数据文件并按OK,系统才弹出AddCases对话框,左侧显示的是新、老数据文件中不匹配的变量名,右侧显示的是已经匹配的变量名。可以用Rename按钮对不匹配变量改名(先选中)或用鼠标强行匹配(即先按Ctrl键选中匹配的两个变量再单击Pair钮)。右下方的Indicatecasesourceasvariable复选框用于定义一个新变量以区分哪些记录是后来添加的。选择停当后单击OK,该操作就完成了。,2003年11月30日,.,54,实际上右侧显示的是将要包括在合并后数据集中的变量,如果有哪个你不需要,把它弄到左侧框中即可。2.从外部数据文件增加变量到当前数据文件,称为横向合并,用AddVariable对话框完成,相互合并的数据文件中应包含同样的记录。选择菜单Data=MergeFiles=AddVariable对话框,系统同样先弹出打开数据文件对话框,单击OK后弹出和前面相似的AddVariable对话框。按需选择即可。,2003年11月30日,.,55,Aggregate对话框,用于对数据进行分类汇总,所谓分类汇总就是按指定的分类变量对观测值进行分组,对每组记录的各变量值求指定的描述统计量,结果可以存入新数据文件,也可以替换当前数据文件。,2003年11月30日,.,56,2003年11月30日,.,57,上图中各个零件的含义如下:BreakVariables框:用于选择分组变量;AggregateVariables框:用于选择被汇总的变量;Name&Label钮:用于定义新产生的汇总变量的名称和标签;Function钮:用于定义汇总函数,共有三组函数,以最常用的第一组为例,可选的函数有均数、同组的第一个观测值、最后一个观测值、同组记录数、标准差、最小值、和、最大值共8个;SaveNumberofcasesinbreakgroupasvariable复选框:用于定义一个新变量以存储同组的记录数;Createnewdatafile单选钮:定义一个新文件以存储汇总的结果,右侧的File钮用于具体文件名的定义,默认文件名为AGGR.sav;Replaceworkingdatafile单选钮:用汇总的结果替换原来的数据。,2003年11月30日,.,58,例2.6计算Li1_1.sav中两组的血磷值标准差。解:该题完全可以用更简单的方法完成,这里只是演示一下汇总对话框的用法。1、BreakVariables框:Group2、AggregateVariables框:x3、Function钮:(Standarddeviation单选钮:Continue钮)4、Replaceworkingdatafile单选钮:选中5、OK,2003年11月30日,.,59,SplitFile对话框,用于将数据文件分组进行处理,该对话框我们在第一章时已经使用过了,这里再介绍一下各个对话框元素的用途:Analyzeallcases单选框:和下面的两个单选框为一组,选中本框不拆分文件;Comparegroups单选框:按所选变量拆分文件,各组分析结果紧挨在一起便于相互比较;Organizeoutputbygroups单选框:按所选变量拆分文件,各组分析结果单独放置;Groupsbasedon框:用于选择拆分数据文件的变量;Sortthefilebygroupingvariables单选框:将数据按所用的拆分变量排序;Fileisalreadysorted单选框:数据保持原状,不按所用的拆分变量排序。,2003年11月30日,.,60,SelectCases对话框,很多时候我们不需要分析全部的数据,而是按某种要求分析其中的一部分(比如只分析男性的身高、只对前200个数据进行分析以了解大概情况),这时使用SelectCases对话框可以大大简化工作。该对话框界面如下所示:,2003年11月30日,.,61,2003年11月30日,.,62,其中主要的对话框元素为:Allcases单选钮:和下面的4个单选钮为一组,选中它则分析所有的记录;Ifconditionissatisfied单选钮:只分析满足条件的记录;If按钮:和If单选钮一起使用,单击后弹出If对话框;Randomsampleofcases单选钮:从原数据中按某种条件抽样;Sample按钮:和Random单选钮一起使用,可以设定按百分比抽取记录,或者精确设定从前若干个记录中抽取多少个记录;Basedontimeorcaserange单选钮:基于记录序号来选择记录;,2003年11月30日,.,63,Range按钮:和Based单选钮一起使用,用于输入记录序号范围;Usefiltervariable单选钮:使用筛选指示变量来选择记录,必需在下面选入一个筛选指示变量,该变量取值为非0的记录将被选中,进入以后的分析;Filtered单选钮:和下面的Deleted单选钮为一组,表示未被选中的记录只是被隔离,这些记录的记录号会被加上斜杠以示区别;Deleted单选钮:未被选中的记录将被删除,一般不要使用。当对数据集做出筛选后,所做的筛选将在以后的分析中一直有效,直到再次改变选择条件为止。同时在多数情况下,系统会自动产生一个名为filter_$的筛选指示变量,被选中的记录该变量取值为1,反之则为0。,2003年11月30日,.,64,WeightCases对话框,在默认情况下,每一行就是一条记录,这在多数情况下没有什么问题,但有时却非常麻烦,想想看如果你需要计算一个四格表卡方,有100例,如果每一行就是一条记录,你就需要输入100条记录!如果希望在计算过程中利用不同的变量对数据进行加权处理,就需要用到WeightCases对话框。该对话框的使用极为简单,界面上有两个单选钮,分别是不权重记录和用某变量权重记录,如果选择后者,则需要选中一个权重变量。,2003年11月30日,.,65,Data菜单中的其余对话框,Definedates对话框:可以自动生成时间变量。InsertVariable命令:在当前列插入新变量。Insertcases命令:在当前行插入新记录。Gotocases对话框:到达指定记录号的记录,该命令在记录数极多时(1000条以上)非常有用。,2003年11月30日,.,66,1.7.2正交设计菜单项,正交设计不包含在SPSS/BASE模块中,因此由于解密范围的问题,有的盗版中不含该菜单项。在SPSS中可以直接进行正交设计,OrthogonalDesign子菜单项就是专门用于完成该任务的,具体做法用下面的例子说明如下:,2003年11月30日,.,67,解:选择Data-OrthogonalDesign-generate,弹出的就是正交设计窗口,操作如下:1、Factorname框:输入A;单击ADD钮;2、确定变量A被选中,单击Definevalue钮;3、Value列:头三行分别输入1、2和3,代表变量A的三个水平;单击continue钮;4、Factorname框:输入B;单击ADD钮;5、确定变量B被选中,单击Definevalue钮;6、Value列:头两行分别输入1、2,代表变量B的两个水平;单击continue钮;7、单击OK,例2.7做A、B两个因素的正交设计,A因素有三个水平,B因素有两个水平。,2003年11月30日,.,68,在第7步定义完后,对话框应如下图所示:,2003年11月30日,.,69,在其他没有用到的选择项中,各种LABELS当然适用于定义相应的各种标签的;DataFiles单选框组用来定义产生的数据文件是存为制定的文件名,还是直接替换当前工作文件;而DefineValue对话框中的Autofit框可以自动填充从1到你输入的那个数值这么多个水平的定义。这里我们直接替换当前工作文件,在这个自动产生的正交设计数据集中,前两个变量就是要分析的A和B,各个水平已经按正交设计的要求排列好了。后面的status_和card_变量是系统产生的LOG变量,可以不管它。现在你再建立一个结果变量,输入实验结果,就可以进行正交设计的分析了。,2003年11月30日,.,70,附件:论统计软件中的数据录入格式,统计分析是科研中的必要环节,统计软件则是进行统计分析的利器。但是,在计算机已逐渐普及的今天,统计软件却仍让人感到几分神秘:除了大型统计软件都还没有中文版这一原因,统计软件在许多小的方面也有自己的特点,往往就是这些小地方就会让许多人深入宝山而空返。今天我们就来谈谈使用统计软件时一个最基本而又非常重要的问题数据录入格式。简言之,我们平时往往用表格的形式来记录数据,这并无不妥。问题在于当进行统计分析时,如果我们直接将数据按平时记录的格式来进行分析,那就很可能不得其门而入因为大多数统计软件对数据格式都有着特定的格式要求,下面我们就举一些常见的情况来解释这一问题。,2003年11月30日,.,71,1.单组或多组数据,平时我们多记录成第1组、第2组、第3组.等等,如表一左侧所示。样本含量相等或不等。主要用于成组资料比较的t、F或秩和检验等。这种记录格式姑且称为统计表格格式,在各种统计软件中,该数据通用的分析格式如表一右侧所示,我们把这种格式称为统计分析格式。,2003年11月30日,.,72,统计分析格式1,0.11,0.21,0.32,0.42,0.53,0.63,0.73,0.83,0.9,表一统计表格格式,看出来区别了吗?统计分析格式中第一列为“分组变量”,指示所在的组号;第二列为原始数据。现在再回到SPSS等统计软件的菜单去,做one-wayANOVA(成组的方差分析)知道怎么选变量了吧!,2003年11月30日,.,73,2.配伍组数据,平时的记录格式同上面相似。主要用于配伍组资料比较或秩和检验等。见表二:,表二统计表格格式,统计分析格式,1,1,0.11,2,0.22,1,0.32,2,0.43,1,0.53,2,0.6,统计分析格式中第一列为“第一分组变量”,指示所在的组号;第二列为“第二分组变量”,指示在该组的序号,第三列为原始数据;,2003年11月30日,.,74,3.单组成对数据,变量名分别为:X、Y,要求样本含量相等。主要用于配对计量资料比较的t、秩和检验;直线回归与相关;曲线拟合等,格式见表三。,表三,统计表格格式,统计分析格式0.1,0.40.2,0.50.3,0.6,两种格式没有区别,但请注意,如果配对资料转用方差分析来处理,则相应的也要变换格式。,2003年11月30日,.,75,4.多组成对数据主要用于协方差分析,格式见表四。,表四统计表格格式,统计分析格式,1,0.1,0.31,0.2,0.42,0.5,0.82,0.6,0.92,0.7,1.0,在统计分析格式中,第一列为对子组号,第二列与第三列分别为该组的对子X、Y。,2003年11月30日,.,76,第二章SPSS功能介绍及其应用举例,描述性统计分析DescriptiveStatistics菜单均数间的比较CompareMeans菜单一般线性模型GeneralLinearModel菜单相关分析Correlate菜单多元线性回归与曲线拟合Regression菜单对数线性模型Loglinear菜单聚类分析与判别分析Classify菜单因子分析与对应分析DataReduction菜单信度分析与多维尺度分析Scale菜单非参数检验NonparametricTests菜单Survival菜单,第一节SPSS的主要分析工具Analyze菜单,2003年11月30日,.,77,1、描述性统计分析DescriptiveStatistics菜单,1.1Frequencies过程的特色是产生频数表1.2Descriptives过程进行一般性的统计描述;1.3Explore过程用于对数据概况不清时的探索性分析;1.4Crosstabs过程则完成计数资料和等级资料的统计描述和一般的统计检验,我们常用的X2检验也在其中完成。,描述性统计分析是统计分析的第一步,做好这第一步是下面进行正确统计推断的先决条件。SPSS的许多模块均可完成描述性分析,但专门为该目的而设计的几个模块则集中在DescriptiveStatistics菜单中,最常用的是列在最前面的四个过程:,2003年11月30日,.,78,2、均数间的比较CompareMeans菜单,该菜单集中了几个用于计量资料均数间比较的过程。具体有:2.1Means过程对准备比较的各组计算描述指标,进行预分析,也可直接比较。2.2One-SamplesTTest过程进行样本均数与已知总体均数的比较。2.3Independent-SamplesTTest过程进行两样本均数差别的比较,即通常所说的两组资料的t检验。2.4Paired-SamplesTTest过程进行配对资料的显著性检验,即配对t检验。2.5One-WayANOVA过程进行两组及多组样本均数的比较,即成组设计的方差分析,还可进行随后的两两比较。,2003年11月30日,.,79,3、一般线性模型GeneralLinearModel菜单,一般线性模型可不是用一章就可以说清楚的,因为它包括的内容实在太多了。那么,究竟我们用到的哪些分析会包含在其中呢?简而言之:凡是和方差分析粘边的都可以用他来做。比如成组设计的方差分析(即单因素方差分析)、配伍设计的方差分析(即两因素方差分析)、交叉设计的方差分析、析因设计的方差分析、重复测量的方差分析、协方差分析等等。因此,能真正掌握GLM菜单的用法,会使大家的统计分析能力有极大地提高。实际上一般线性模型包括的统计模型还不止这些,我这里举出来的只是从用SPSS作统计分析的角度而言的一些。,2003年11月30日,.,80,好了,既然一般线性模型的能力如此强大,那么下属的四个子菜单各自的功能是什么呢?请看:3.1Univariate子菜单:四个菜单中的大哥大,绝大部分的方法分析都在这里面进行。3.2Multivariate子菜单:当结果变量(应变量)不止一个时,可用他来分析。3.3RepetedMeasures子菜单:顾名思义,重复测量的数据就要用他来分析;用前两个菜单似乎都可以分析出来结果,但在许多情况下该结果是不正确的,应该用重复测量的分析方法才对。3.4VarianceComponents子菜单:用于作方差成份模型的(这个模型实在太深,不是一时半会说的请的,所以我在这里就干脆不讲了)。,2003年11月30日,.,81,4、相关分析Correlate菜单,在数据分析中经常要遇到分析两个或多个变量间关系的情况,有时是希望了解某个变量对另一个变量的影响强度,有时则是要了解变量间联系的密切程度,前者用下一章将要讲述的回归分析来实现,后者则需要用到本章所要讲述的相关分析实现。SPSS的相关分析功能被集中在Analyze菜单的Correlate子菜单中,他一般包括以下三个过程:,2003年11月30日,.,82,4.1Bivariate过程此过程用于进行两个/多个变量间的参数/非参数相关分析,如果是多个变量,则给出两两相关的分析结果。这是Correlate子菜单中最为常用的一个过程,实际上我们对他的使用可能占到相关分析的95%以上。4.2Partial过程如果需要进行相关分析的两个变量其取值均受到其他变量的影响,就可以利用偏相关分析对其他变量进行控制,输出控制其他变量影响后的相关系数,这种分析思想和协方差分析非常类似。Partial过程就是专门进行偏相关分析的。4.3Distances过程调用此过程可对同一变量内部各观察单位间的数值或各个不同变量间进行距离相关分析,前者可用于检测观测值的接近程度,后者则常用于考察预测值对实际值的拟合优度。该过程在实际应用中用的非常少。,2003年11月30日,.,83,5、多元线性回归与曲线拟合Regression菜单,回归分析是处理两个及两个以上变量间线性依存关系的统计方法。回归分析就是用于说明这种依存变化的数学关系。下面三个过程是Regression菜单的子菜单,是SPSS提供的用于回归分析的工具:,5.1Linear过程调用此过程可完成二元或多元的线性回归分析。在多元线性回归分析中,用户还可根据需要,选用不同筛选自变量的方法(如:逐步法、向前法、向后法,等)。5.2CurveEstimation过程CurveEstimation过程可以用与拟合各种各样的曲线,原则上只要两个变量间存在某种可以被它所描述的数量关系,就可以用该过程来分析。但这里我们要指出,由于曲线拟合非常的复杂,而该模块的功能十分有限,因此最好采用将曲线相关关系通过变量变换的方式转化为直线回归的形式来分析,或者采用其他专用的模块分析。,2003年11月30日,.,84,5.3BinaryLogistic过程所谓Logistic模型,或者说Logistic回归模型,就是人们想为两分类的应变量作一个回归方程出来,可概率的取值在01之间,回归方程的应变量取值可是在实数集中,直接做会出现01范围之外的不可能结果,因此就有人耍小聪明,将率做了一个Logit变换,这样取值区间就变成了整个实数集,作出来的结果就不会有问题了,从而该方法就被叫做了Logistic回归。随着模型的发展,Logistic家族也变得人丁兴旺起来,除了最早的两分类Logistic外,还有配对Logistic模型,多分类Logistic模型、随机效应的Logistic模型等。由于SPSS的能力所限,对话框只能完成其中的两分类和多分类模型,下面我们就介绍一下最重要和最基本的两分类模型。,2003年11月30日,.,85,6、对数线性模型Loglinear菜单,对数线性模型是一种纯粹应用于分类变量分析的多元统计方法。它是一种比较新型的分析方法,在分析高维列联表时优势尤为突出。由以下三个过程组成:6.1General过程用于进行一般对数线性模型分析,主要用于证实性研究。此时研究人员只对某些特定效应感兴趣,即已经有关于模型的假设,此时就可以采用一般模型来检验这一假设是否正确、充分,它可以对总模型和各个参数给出详细的检验结果。对变量不分因变量自变量,在分析中一视同仁,最后在结果解释时才由研究人员来做出判断。6.2Logit过程当研究人员已经有了一些线索,知道因变量自变量时,如果应变量为两分类,就可以用这个过程来分析。6.3ModelSelection过程分层对数线性模型。一般线性对数模型可以对每个系数及总模型给出非常丰富和详细的信息,但是它要求研究人员心中已经有了一定的思路或线索,或只对某些特定效应项感兴趣,即已经有关于简约模型的假设。如果在探索性分析中研究人员中只是设想若干分类变量之间可能有关系,但是并无明确假设,也没有具体分出哪个是应变量、哪个是自变量,此时比较适宜采用分层对数线性模型分析。,2003年11月30日,.,86,7、聚类分析与判别分析Classify菜单,聚类分析和判别分析都是将记录或变量分类的方法,所不同的是聚类分析是把没有分类信息的资料按相似程度归类,有一定探索性的味道;而类别分析则是从已知的分类情况中总规律,为以后判断新观测所属类别提供依据。Classify菜单提供如下三个过程:7.1K-meansCluster过程对记录进行快速聚类,当明确所需要分出的类别数时,采用快速聚类可以节省运算时间。根据经验,如果样本量大于100,则有必要考虑是否使用快速聚类。7.2HierarchicalCluster过程习惯上翻译成系统聚类法,该过程提供了全面而强大的聚类分析能力,可对记录或变量进行聚类。更为重要的是,参与系统聚类分析的变量不再像快速聚类一

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论