《统计分析软件应用》实验指导.doc_第1页
《统计分析软件应用》实验指导.doc_第2页
《统计分析软件应用》实验指导.doc_第3页
《统计分析软件应用》实验指导.doc_第4页
《统计分析软件应用》实验指导.doc_第5页
已阅读5页,还剩14页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

统计分析软件应用实验指导统计分析软件应用实验指导书实验一SPSS软件基础实验目的:1、掌握SPSS软件的两个基本窗口和三种基本运行方式2、掌握SPSS数据文件以及基本管理方法3、掌握SPSS数据的基本加工方法学时分配:6主要内容:1、掌握SPSS的两个基本窗口和三种基本运行方式(1)两个基本窗口:data editor窗口,功能:对SPSS的数据文件进行录入、修改、管理等基本操作的窗口;组成:窗口主菜单、工具栏、数据编辑区、状态显示区;特点: SPSS运行过程中自动打开; SPSS中各统计分析功能都是针对该窗口中的数据进行的;窗口中的数据文件以.sav存于磁盘上;两个视图:数据视图和变量视图viewer窗口,功能:SPSS统计分析报表及图形的输出的窗口;组成:窗口主菜单、工具栏、结果显示区、状态显示区;特点:在进行第一次分析时自动打开,也可手工打开;可以手工打开若干个可相互切换的viewer窗口;状态栏上的!表示当前输出窗口;输出窗口可以关闭,窗口内容以.SPO存于磁盘上;两个视图:目录视图和内容视图(2)三种基本运行方式:完全窗口菜单方式:所有分析操作过程都是通过菜单和按钮及对话框方式进行的.是经常使用的一种运行方式,适用于一般分析和SPSS的初学者程序运行方式:手工编写SPSS命令程序;一次性提交计算机运行;适用于大规模的分析工作和熟练的SPSS程序员菜单程序混合运行方式:先通过菜单选择分析过程和参数,不立即提交(OK)执行,而是按动PASTE按钮;计算机自动将用户刚定义的分析过程和参数转换成SPSS的命令,并显示到SYNTAX语句窗口中;用户可对其进行必要的修改后再提交给计算机执行;一般适用于熟练的SPSS程序员.2、掌握SPSS数据文件以及变量结构定义,包括:给变量名加注释(VARIABLES LABLES)、变量值加注释(VALUE LABLES)、指定用户缺失值(MISSING VALUE)、修改变量宽度(FORMATS)等(1)变量名:变量名是变量存取的唯一标志;起名规则:不多于8个字符组成;不区分大小写;允许汉字作为变量名(2)变量的类型和显示宽度:数值型:标准数值型(Numeric):默认类型8.2;带逗号的数值型(Comma):从个位开始三位一个逗号8.2;科学计数法(Scientific Notation):表示很大或很小的数据8.2;l带美元符号(Dollar):表示货币字符型:存储字符数据8位日期型:存储日期数据(3)变量名标签:对变量名的一些解释说明,增强分析结果的可视性(4)变量值标签:对变量所取值的一些解释说明,增强分析结果的可视性(5)缺失值:漏填数据;明显错误的数据;对缺失值的一般处理:事先指定:指定某个特定值为缺失值(用户缺失值;其他处理方法,如:以均值、众数替代等(6)变量计量尺度:定距数据,一般为数值型数据;有固有顺序的顺序水准的数值型或字符型数据;无固有顺序的名义水准的数值型或字符型数据3、掌握SPSS数据文件的基本管理,包括:在SPSS一个区域内修改数据文件、确定当前个案、查找某个数据单元、插入和删除变量、插入和删除个案、复制数据、数据文件合并、从ASCII数据文件读入数据以及与其他软件的数据交换和数据字典等(1)插入和删除一个个案:data-insert case;选定待删行,鼠标右键找到Cut(2)插入和删除一个变量:光标定位到某列变量上-Data-Insert Variable(插到某列前)或鼠标右键;删除:选定列,鼠标右键Cut项(3)数据移动、复制和删除(4)数据文件的合并:将两个SPSS数据文件合并到一个数据文件中;文件合并的方式;纵向合并;横向合并4、掌握SPSS数据文件的基本加工,包括:计算产生新变量、产生计数变量、变量值分组、个案排序、数据分类汇总、个案选取、个案加权等(1)个案排序:将所有个案按照用户指定的某一个或多个变量的变量值的升序或降序重新排列;菜单选项:data-sort cases;注意:多重排序,选择变量名的次序很关键(2)个案选取:从现有数据中挑选出部分数据;菜单选项:data-select cases;l选取个案的几种不同方式:选择符合一定条件的个案;随机选取个案;近似选取、精确选取;选取某一区域内的个案;使用过滤变量;注意:以后的操作和分析都在该个案选取的基础上进行(3)变量计算:产生新变量或对原变量进行必要的转换处理;根据用户给出的SPSS算术表达式,对所有或部分样本数据进行加工;菜单选项:transform-compute;if按钮;SPSS算术表达式(Numeric Expression)(4)变量计数:对所有或部分个案,计算若干个变量中有几个变量的值落在指定的区域内,并将结果存入新变量中;菜单选项:transform-count-define value(5)数据的分类汇总:按指定的分类变量的变量值对个案分组;计算每组个案的汇总变量的基本统计量;将计算结果生成到一新文件中,即:在新文件中对应分类变量的每一个分类值产生一个个案;菜单选项:data-aggregate;说明:多重分组时,变量名的选择顺序;生成的新文件名默认为:aggr.sav(6)数据分组:了解数据的总体分布状况;指定按哪个变量分组,即:指定分组变量;定义分组变量的分组区间(不重、不漏);指定一个存放分组结果的标志变量;分组方法:自动分组,手工分组(7)数据加权:指定某一变量为加权变量。如:平均蔬菜价格、男足打分;菜单选项:data-weight case;说明:如果取消加权变量应重新定义:data-weight case;do not weight cases实验二SPSS的基本统计分析实验目的:1、掌握SPSS的基本统计分析方法2、掌握问卷的基本分析思路和结果解读3、掌握SPSS基本图形的绘制方法学时分配:4主要内容:1、掌握基本统计分析指标的含义和SPSS的基本描述统计分析的操作计算描述统计量的目的:精确把握变量的总体分布状况,了解数据的集中趋势、离散趋势、对称程度、陡峭程度;描述集中趋势的统计量:均值(mean):表示某变量所有变量值集中趋势或平均水平的统计量;适用于定距数据;特点:利用了全部数据,易受极端值的影响;描述离散程度的统计量:标准差(standard deviation-Std Dev):表示某变量的所有变量值离散程度的统计量。SPSS中计算的是样本标准差。方差(variance):标准差的平方。SPSS中计算的是样本方差。极差(range):最大值(maximum)-最小值(minimum)描述对称程度的统计量:偏度(skewness):描述某变量分布形态的偏斜程度和方向的统计量;偏度为0表示对称;大于0表示正偏差大(右偏),频数最大的值比均值小,极值大于均值;小于0表示负偏差大(左偏)描述陡峭程度的统计量:峰度(kurtosis):描述某变量所有变量值分布形态陡缓程度的统计量。峭度为0表示与标准正态分布峭度相同。大于0表示比标准正态分布陡,尖峰。小于0表示比标准正态分布缓,平峰其他统计量:标准误差(standard error S.E):抽样分布中的标准差,反映样本误差;中心极限定理认为:样本均值N(u,s2/n),映样本均值与总体真值间的平均离散程度,样本数越大,样本均值的离散程度越小,对真值的估计越准确基本操作步骤:(1)菜单选项:analyze-descriptive statistics-descripive;(2)选择将参加计算的数值型变量名到variables框其他功能:数据标准化处理;新变量的均值为0,标准差为1;小于0表示在平均水平下,大于0反之.正态分布的数据标准化后呈标准正态分布(68.2%,95.4%,99.7%);save standardized values as variables选项,将变量作标准化2、掌握频数分析的意义和SPSS频数分析的操作步骤频数分析的目的是粗略把握变量值的分布状况;采用的方法:计算频分布表:包括计算频数、百分比、累计百分比;绘制统计图形:条形图、饼图;基本操作步骤:(1)菜单选项:analyze-descriptive statistics-frequencies;(2)选择几个待分析的变量到variables框;(3)chart选项,选择所需要的图形频数分析中的其他分析:计算分位数:适用于定距数据;数据按升序排序后,找到若干个分位点上的变量值;quartiles:计算四分位数25%(QL)、50%(中位数)、75%(QU);cut points for nequal groups:n等份;percentile:自定义百分位点;分位数的应用:在排除极端值影响的条件下,通过计算分位数差,比较两组样本数据的离散程度3、利用SPSS进行问卷分析实践,包括:问卷数据收集和整理、将问卷数据转成计算机数据文件、问卷数据统计分析及说明、简单统计结果的输出单项选择题:提供几个备选择答案,从其中选择一个答案;变量类型:分类数据、定序数据;数据类型:字符型;填空题;变量类型:定距数据;数据类型:数值型;多项选择题:提供几个备选择答案,从其中选择多个答案;如:在下列品牌中您信任哪些品牌?多项选择题不能在SPSS中直接存储,因为SPSS的一个变量只能有一个取值多项选择题的处理方法:将一个问题定义成几个变量,用这几个变量来描述该问题的几个可能被选择的答案;编码方式:多选项二分法(multiple dichotomize method);多选项分类法(multiple category method);多选项二分法:将每个答案作为一个变量,每个变量只有两个取值(0或1);多选项分类法:预先估计多选项问题可能被选择的最多答案数.为每个答案建立一个变量,取值为多选项问题的可选答案;4、掌握SPSS for Windows的统计图形绘制的方法和步骤,包括:图形种类以及三种模式的应用等第一种模式下的三种图形:用于某变量在各分类情况的比较;第二种模式下的三种图形:用于若干变量的统计量的比较;实验三SPSS的统计推断实验目的:1、掌握SPSS参数检验的基本方法和应用2、掌握SPSS非参数检验的基本方法和应用学时分配:6 1、掌握SPSS的参数检验,包括:两独立样本T检验的意义、基本思想和操作应用;两独立样本T检验的意义、基本思想和操作应用;两配对样本T检验的意义、基本思想和操作应用等假设检验是一种根据样本数据来推断总体的分布或均值、方差等总体统计参数的方法。根据样本来推断总体的原因:总体数据不可能全部收集到。如:质量检测问题;收集到总体全部数据要耗费大量的人力和财力;假设检验包括:参数检验;非参数检验假设检验的基本步骤:第一,根据检验的目标,对待推断的总体参数或分布作一个基本假设H0第二,构造检验统计量,且该统计量服从某种已知分布.第三,利用收集到的样本数据和基本假设计算检验统计量的值,并得到相应的相伴概率P值,即:检验统计量在某个特定的极端区域取值在H0成立时的概率.第四,如果概率P值小于用户给定的显著性水平a,则拒绝H0.否则,不拒绝H0.(1)单样本T检验检验某变量的总体均值与指定的检验值之间是否存在显著差异。例如:周岁儿童的平均身高是否为75厘米;要求:样本来自的总体服从正态分布;基本思路:H0:u=u0,总体均值与检验值之间不存在显著差异;构造检验统计量.从样本均值的分布出发,即:N(u0,2/n).于是:总体方差未知时构造t统计量;t统计量服从n-1个自由度的t分布;计算t统计量和对应的相伴概率P(绝对值大于等于的双侧概率);结论:P,则拒绝H0,认为总体均值与检验值之间有显著差异.P,不能拒绝H0.基本操作步骤:(1).菜单选项:Analyze-compare means-one-samples Ttest;(2).指定检验值:在test后的框中输入检验值;option选项:confidence interval:指定输出m-m0的置信区间.默认值为95%;Missing values:缺失值的处理(单样本检验时以下选项没有差别);exclude cases analysis by analysis:当分析时涉及到有缺失值变量时再剔除相应的个案;exclude cases listwise:剔除所有含缺失值的个案后再分析(2)两独立样本的T检验根据两独立样本的数据,对两总体均值是否有显著差异进行推断。例如:男生和女生的计算机平均成绩有显著差异吗?要求:两样本必须相互独立,即:抽取其中一批样本对抽取另一批样本没有任何影响.(如:北京周岁儿童与上海儿童的平均身高);两总体服从正态分布基本思路:H0:u1-u2=0,两总体均值无显著差异;构造检验统计量.从两样本均值差的分布出发,即:N(u1-u2,2x1-x2).于是两总体均方差未知时构造t统计量:两总体均值差的抽样分布标准差;方差相等:用合并方差;方差不等;计算t统计量和对应的相伴概率P;绝对值大于等于该值的双侧概率;结论:方差齐性F检验:利用Levene F检验确定两总体方差是否齐性.H0:两总体方差无显著差异.该检验首先计算每个个案与所属组均值之差并取绝对值.然后对其进行单因素方差分析;结论:首先,如果F检验的P,则拒绝F检验的H0,认为方差不齐性;其次看Unequal行的t检验概率.如果,则拒绝t检验的H0,认为两总体均值有显著差异;如果,则不拒绝t检验的H0.;首先,如果F检验的P,则不能拒绝F检验的H0,认为方差齐性;其次看equal行的t检验概率.其余同上基本操作步骤:(1).菜单选项:analyze-compare means-independent-samples T;(2).选择若干变量作为检验变量到test variables框;(3).选择代表不同总体的变量作为分组变量到grouping variable框;(4).定义分组变量的分组情况Define Groups.:use specified values:定义分组变量的分组标志值分别是什么;cut point:分组变量为连续变量.输入一个数字,将大于等于该值的分成一组,小于该值的分成另一组.(3)配对样本的T检验根据配对样本对两总体均值是否有显著差异进行推断.例如:某种减肥茶是否有效;要求:两样本数据必须两两配对,即:样本个数相同,个案顺序相同.如:减肥茶的效果、不同广告形式对销售额的影响.(控制了个案自身的影响);两总体服从正态分布基本思路:H0:两总体均值无显著差异,差值序列的均值u0=0;构造统计量:同单样本均值检验;实质是先求出每对测量值的差值;然后检验差值序列的均值是否与0有显著差异;如果差值的均值与0有显著差异,则认为两总体均值存在显著差异;否则,与0无显著差异,则认为两总体均值不存在显著差异.计算t统计量和对应的相伴概率P(绝对值大于等于的双侧概率);结论:P,则拒绝H0,认为两总体均值有显著差异.P,不能拒绝H0.基本操作步骤:(1).菜单选项:analyze-compare means-paired-samples T;(2).选择一对或若干对配对变量作为检测变量到paired variables框.;(3)option选项,同独立样本的T检验2、掌握SPSS的非参数检验,包括:总体频数分布的CHI-SQUARE检验、二项分布检验、K-S检验、变量随机性检验;配对样本的变化显著性检验、正负符号检验、平均秩检验;多个匹配样本的推广的变化显著性检验、推广的平均秩检验、和谐系数检验;两独立样本的相同中位数检验、平均秩检验、K-S检验、游程检验;多个独立样本的推广的相同中位数检验、推广的相同中位数检验等(1)单样本的非参数检验:总体分布的chi-square检验根据样本数据推断总体的分布与某个已知分布是否有显著差异-吻合性检验。例如:心脏病的死亡规律研究,l2.8:1:1:1:1:1:1;某地区陪审团成员的年龄结构研究,陪审员是否是随机抽取的该地区的年龄结构比:0.42:0.23:0.16:0.19;对某公司新品牌产品的名称作决策,等构成比检验。适用于分类资料的统计推断;基本方法:根据已知总体的构成比计算出样本中各类别的期望频数,计算实际观察频数与期望频数的差距,即:计算卡方值。卡方值较小,则实际频数和期望频数相差较小.如果P大于a,不能拒绝H0,认为总体分布与已知分布无显著差异.反之基本操作步骤:(1)菜单:analyze-nonparametric test-chi square;(2)选定待检验变量入test variable list框(3)确定待检验个案的取值范围(expected range):get from data:全部样本;use specified range:用户自定义个案范围;(4)指定期望频数(expected values):all categories equal:所有类别有相同的构成比;value:用户自定义构成比(2)单样本的非参数检验:K-S检验利用样本数据推断总体是否服从某个理论分布(正态分布、均匀分布、指数分布和泊松分布);基本假设:总体服从指定的分布.基本方法:根据用户指定检验的总体分布,构造出一理论的频数分布,并计算相应的累计频率.与样本在相同点的累计频率进行比较.如果相差较小,则认为样本所代表的总体符合指定的总体分布.基本步骤:(1)菜单选项:analyze-nonparametric tests-1-sample k-s;(2)选择待检验的变量入test variable list框;(3)指定检验的分布名称(test distribution);(4)normal:正态分布;uniform:均匀分布;lpossion:泊松分布exponential:指数分布(3)两独立样本的非参数检验由独立样本数据推断两总体的分布是否存在显著差异(或两样本是否来自同一总体);基本假设:两总体分布无显著差异(两样本来自同一总体);数据要求:样本数据和分组标志(基本方法:曼-惠特尼U检验(Mann-Whitney U):平均秩检验;将两样本数据混合并按升序排序;求出其秩;对两样本的秩分别求平均;如果两样本的平均秩大致相同,则认为两总体分布无显著差异;k-s检验:将两样本混合并按升序排序;分别计算两个样本在相同点上的累计频数和累计频率;两个累计频率相减.;如果差距较小,则认为两总体分布无显著差异;应保证有较大的样本数;游程检验(Wald-Wolfowitz runs):将两样本混合并按升序排序;计算分组标志序列的游程数;如果游程数较大,则说明是由于两类样本数据充分混合的结果,即:认为两总体分布无显著差异;如果两样本中有相同的样本值,则会使游程数发生变化.系统会作出提示.基本操作步骤:(1)菜单选项:analyze-nonparametric tests-2 independent sample;(2)选择待检验的变量入test variable list框;(3)选择一种或几种检验方法(4)多独立样本的非参数检验由独立样本数据推断多个总体的分布是否存在显著差异.基本假设:多个总体分布无显著差异.数据要求:样本数据和分组标志基本方法:相同中位数检验(median):判断多个总体是否是具有相同的中位数;将多个样本数混合并按升序排序;求出混合样本序列的中位数;如果各独立样本中大于此中位数的个案数和小于此中位数的个案数大致相同,则认为总体有相同的中位数;k-w检验(推广的平均秩检验):将多个样本数混合并按升序排序,求出其秩;对多个样本的秩分别求平均秩序;如果各样本的平均秩大致相等,则认为多个总体分布无显著差异基本操作步骤:(1)菜单选项:analyze-nonparametric test-k independent samples;(2)选择待检验的变量入test variable list框(3)选择一种或两种检验方法(5)两配对样本的非参数检验由配对样本数据推断两总体分布是否存在显著差异.基本假设:两总体分布无显著差异.数据要求:两配对的样本数据.基本方法:变化显著性检验(McNemar);将研究对象作为自身的对照者检验其前后的变化是否显著;关心的是发生变化的两格中的频数变化.如果频数变化相当,则认为无显著变化.数据要求只能是二分值数据;正负符号检验(sign):将样本2的各样本值减去样本1的各样本值.如果差值为正,则记为正号;如果差值为负,则记为负号;如果正号的个数与负号的个数相当,则认为无显著变化.否则,认为有显著变化;符号平均秩检验(wilcoxon):正负符号检验只考虑了两总体数据变化的性质,而没有注意其变化的程度.符号平均秩检验注意到了这点;将样本2的各样本值减去样本1的各样本值.如果差值为正,则记为正号;如果差值为负,则记为负号;将差值按升序排序,并求其秩.分别计算正号秩和负号秩总和;如果正秩和负秩相当,认为正负变化程度相当,两总体无显著差异.基本操作步骤:(1)菜单选项:analyze-nonparametric-2 paired sample;(2)选择待检验的两配对变量入test pair(s)list框(3)选择一种或几种检验的方法(6)多配对样本的非参数检验由多匹配样本数据推断多个总体分布是否存在显著差异.基本假设:各总体分布无显著差异.数据要求:多配对的样本数据.基本方法:推广的平均秩检验(双向Friedman检验):将每个个案的变量值数据按升序排序,并求其秩;求各样本的平均秩;如果平均秩相当,则认为各总体分布无显著差异;谐同系数检验(Kendall W检验):谐同系数检验方法与推广的平均秩检验方法相同;主要用在分析评判者的评判标准是否一致和公平;通过谐同系数W进行判定.W表示了横向各样本数据之间相关的强弱程度,取值在0和1之间.越接近1,则表示相关性越强,即:评判者的评判标准一致.基本操作步骤:(1)菜单选项:analyze-nonparametric-k paired sample(2)选择待检验的若干变量入test variables框(3)选择一种或几种检验的方法实验四SPSS的方差分析实验目的:1、掌握SPSS单因素方差分析的基本方法2、掌握SPSS多因素方差分析的基本方法3、掌握SPSS协方差分析的基本方法学时分配:4主要内容:1、掌握SPSS单因素方差分析的基本思想、数据要求和基本操作步骤以及应用,包括:基本分析、多重比较检验、趋势检验等单因素方差分析的目的是检验某一个控制因素的改变是否会给观察变量带来显著影响基本思路:检验控制变量的不同水平下,各总体的分布是否存在显著差异,进而判断控制变量是否对观测变量产生了显著影响.前提:各组样本独立不同水平下各总体服从方差相等的正态分布.H0:不同水平下,各总体均值无显著差异.即:不同水平下控制因素的影响不显著.构造F统计量:因为:总变差=组间差异+组内差异;可证明:SST=SSA+SSE(设:k个水平,每个水平有ni个数据)。结论:F值较大,F值的概率p值小于或等于用户给定的显著性水平a,则拒绝H0,认为不同水平下各总体均值有显著差异;F值较小,F值的概率p值大于用户给定的显著性水平a,则不能拒绝H0,不可以认为不同水平下各总体均值存在显著差异.基本操作步骤:(1)菜单选项:analyze-compare means-one-way ANOVA;(2)选择一个或多个变量作为观察变量到dependent list框;(3)选择一个变量作为控制变量到factor框;(4)option中的statistics项:ldescriptive:输出观察变量不同水平下的描述统计量多重比较检验:如果各总体均值存在差异,F检验不能说明哪个水平造成了观察变量的显著差异.多重比较将对每个水平的均值逐对进行比较检验.几种常用的多重比较方法:LSD(Least significant Difference)最小显著性差异法;T(Tukey)方法趋势检验:将组间平方和分解成线性、二次、三次或更高次的多项式,检验观测变量是否随控制变量呈不同次幂变化2、掌握SPSS多因素方差分析的基本思想,数据要求和基本操作步骤以及应用,包括:多因素的检验、饱和模型和建立、非饱和模型的建立、拟和优度的评价等多因素方差分析的目的是测试若干个控制因素的不同水平的交叉变化是否给观察变量带来了显著影响.基本思路:认为观测变量的变动是由各控制变量独立作用、它们的交互作用、以及随机因素造成的。以两个控制变量的方差分析为例:SST=SSA+SSB+SSAB+SSE说明:固定效应因素:该因素的所有可能水平在样本中都出现。针对该因素而言,从样本的分析结果中就可以得知所有水平的状况,无需外推;随机效应因素:人为无法对所有水平值进行准确控制和观测。交互作用,即:两个或多个控制变量各水平之间搭配时对观察变量的影响.即:如果一个因素所产生的效应在另一个因素的不同水平下有明显差异,则称该这两因素存在交互作用基本操作步骤:(1)菜单选项:analyze-General Linear model-Univariate;(2)选择观察变量到dependent框;(3)选择固定效应因素fix factor框;(4)选择随机效应因素random factor框;(5)模型的定义Model选项(饱和模型和非饱和模型)3、掌握SPSS协方差分析的基本思想,数据要求和基本操作步骤以及应用,包括:协变量的验证、模型结果的解释、修正均值的多重比较检验等协方差分析是将无法或很难控制的因素作为协变量,在排除协变量影响的条件下更精确地分析控制变量对观察变量的影响.基本思想:观测变量总变差:协变量、控制变量、交互作用、随机因素;在进行各控制变量不同水平下观测变量的均值比较之前,用线性回归的方法找出观测变量与协变量之间的数量关系,求得在假定协变量相等情况下的修正的观测变量值,然后再进行方差分析;协变量对观测变量没有显著影响;在剔除协变量影响的条件下,控制变量各水平下观测变量的总体均值无显著差异.协方差分析的进一步分析:水平下均值的比较:利用均值进行比较;利用修正的均值进行比较:修正是将各水平下本组协变量的效益从本组观测变量中剔除实验五SPSS的相关分析和回归分析实验目的:1、掌握SPSS相关分析的基本操作和应用2、掌握SPSS一元回归的基本操作和应用3、掌握SPSS多元回归分析的基本操作和应用学时分配:6主要内容:1、掌握相关分析的意义、基本思想、数据要求、SPSS操作方法,包括:相关图形的绘制步骤、图形的含义说明、相关系数计算、偏相关系数的计算以及应用等(1)相关分析的研究对象是统计关系:(如:收入和消费;身高的遗传.);事物间的关系不是确定性的.即:当一个变量x取一定值时,另一变量y的取值可能有几个.一个变量的值不能由另一个变量唯一确定;统计关系的常见类型:线性相关:正线性相关、负线性相关、非线性相关。相关分析的目的是通过样本数据,研究两变量间线性相关程度的强弱.(例如:职工的年龄和收入之间的关系、工人数和管理人员之间的数量关系);基本方法:绘制散点图、计算相关系数基本操作步骤:(1)菜单选项:graphs-scatter;(2)选择散点图类型:simple:简单散点图(显示一对变量的散点图)overlay:重叠散点图(显示多对变量的散点图);(3)选择x轴和y轴的变量;(4)选择分组变量(set markers by):分别以不同颜色点的表示;(5)选择标记变量(label case by):散点图上可带有标记变量的值(如:职工号)(2)相关系数:以精确的相关系数(r)体现两个变量间的线性关系程度.r:-1,+1;r=1:完全正相关;r=-1:完全负相关;r=0:无线性相关;|r|0.8:强相关;|r|0.3:弱相关基本操作步骤:(1)菜单选项:analyze-correlate-bivariate.;(2)选择计算相关系数的变量到variables框.;(3)选择相关系数(correlation coefficients).;(4)显著性检验(test of significance);tow-tailed:输出双尾概率P.;one-tailed:输出单尾概率P(3)偏相关系数在控制了其他变量的影响下计算两变量的相关系数。虚假相关.如:小学16年级全体学生进行速算比赛(身高和、分数间的相关受年龄的影响);研究商品的需求量和价格、消费者收入之间的关系.因为:需求量和价格之间的相关关系包含了消费者收入对商品需求量的影响;收入对价格也产生影响,并通过价格变动传递到对商品需求量的影响中。基本操作步骤:(1).菜单选项:analyze-correlate-partial;(2).选择将参加计算的变量到variable框.;(3).选择控制变量到controlling for框;(4)option选项: zero-order correlations:输出简单相关系数矩阵2、掌握SPSS一元线性回归分析的基本思想、数据要求、SPSS操作方法,包括:一元回归方程的显著性检验、回归系数的显著性检验、拟和优度的检验等(1)回归分析理解:galton研究研究父亲身高和儿子身高的关系时的独特发现.;回归线的获得方式一:局部平均;回归曲线上的点给出了相应于每一个x(父亲)值的y(儿子)平均数的估计;回归线的获得方式二:拟和函数;使数据拟和于某条曲线;通过若干参数描述该曲线;利用已知数据在一定的统计准则下找出参数的估计值(得到回归曲线的近似);(2)回归分析的基本步骤:第一,确定自变量和因变量(父亲身高关于儿子身高的回归与儿子身高关于父亲身高的回归是不同的).第二,从样本数据出发确定变量之间的数学关系式,并对回归方程的各个参数进行估计.第三,对回归方程进行各种统计检验.第四,利用回归方程进行预测.(3)一元线性回归方程的检验拟和优度检验:检验样本观察点聚集在回归直线周围的密集程度,评价回归方程对样本数据点的拟和程度;回归方程的显著性检验:自变量与因变量之间的线性关系是否显著,是否可用线性模型来表示;回归系数的显著性检验:检验自变量对因变量的线性影响是否显著(4)基本操作步骤:(1)菜单选项:Analyze-regression-linear;(2)选择一个变量为因变量进入dependent框;(3)选择一个变量为自变量进入independent框;(4)enter:所选变量全部进入回归方程(默认方法);(5)对样本进行筛选(selection variable):利用满足一定条件的样本数据进行回归分析;(6)指定作图时各数据点的标志变量(case labels)3、掌握SPSS多元线性回归分析的基本思想、数据要求、SPSS操作方法,包括:多元回归方程的显著性检验、回归系数的显著性检验、拟和优度的检验、自变量筛选策略,以及虚拟变量的应用等(1)多元线性回归方程的检验拟和优度检验:检验样本观察点聚集在回归直线周围的密集程度,评价回归方程对样本数据点的拟和程度;回归方程的显著性检验:自变量与因变量之间的线性关系是否显著,是否可用线性模型来表示;回归系数的显著性检验:检验自变量对因变量的线性影响是否显著(2)自变量的筛选自变量筛选的目的:多元回归分析引入多个自变量.如果引入的自变量个数较少,则不能很好的说明因变量的变化;并非自变量引入越多越好.原因:有些自变量可能对因变量的解释没有贡献,自变量间可能存在较强的线性关系,即:多重共线性.因而不能全部引入回归方程.自变量向前筛选法(forward):即:自变量不断进入回归方程的过程;首先,选择与因变量具有最高相关系数的自变量进入方程,并进行各种检验;其次,在剩余的自变量中寻找偏相关系数最高的变量进入回归方程,并进行检验;默认:回归系数检验的概率值小于PIN(0.05)才可以进入方程.反复上述步骤,直到没有可进入方程的自变量为止.自变量向后筛选法(backward):即:自变量不断剔除出回归方程的过程.首先,将所有自变量全部引入回归方程;其次,在一个或多个t值不显著的自变量中将t值最小的那个变量剔除出去,并重新拟和方程和进行检验;默认:回归系数检验值大于POUT(0.10),则剔除出方程;如果新方程中所有变量的回归系数t值都是显著的,则变量筛选过程结束.否则,重复上述过程,直到无变量可剔除为止.自变量逐步筛选法(stepwise):即:是向前法和向后法的结合。向前法只对进入方程的变量的回归系数进行显著性检验,而对已经进入方程的其他变量的回归系数不再进行显著性检验,即:变量一旦进入方程就不回被剔除;随着变量的逐个引进,由于变量之间存在着一定程度的相关性,使得已经进入方程的变量其回归系数不再显著,因此会造成最后的回归方程可能包含不显著的变量。逐步筛选法则在变量的每一个阶段都考虑的剔除一个变量的可能性。(3)基本操作步骤:(1)菜单选项:analyze-regression-linear;(2)选择一个变量为因变量进入dependent框;(3)选择一个或多个变量为自变量进入independent框(4)选择多元回归分析的自变量筛选方法: enter:所选变量全部进入回归方程(默认方法) remove:从回归方程中剔除变量 stepwise:逐步筛选;backward:向后筛选;forward:向前筛选;(5)对样本进行筛选(selection variable);利用满足一定条件的样本数据进行回归分析;(6)指定作图时各数据点的标志变量(case labels)实验六SPSS的聚类分析实验目的:1、掌握SPSS聚类分析的基本原理、基本操作和应用2、掌握不同聚类方法的对比学时分配:4主要内容:1、掌握SPSS层次聚类的意义、基本特点、数据要求、SPSS基本操作以及分析结果的解读聚类分析是统计学中研究物以类聚的一种方法,属多元统计分析方法.聚类分析是建立一种分类,是将一批样本(或变量)按照在性质上的亲疏程度,在没有先验知识的情况下自动进行分类的方法.其中:类内个体具有较高的相似性,类间的差异性较大.(1)层次聚类聚类过程具有一定的层次性;以合并(凝聚)的方式聚类(SPSS采用):首先,每个个体自成一类;其次,将最亲密的个体聚成一小类;然后,将最亲密的小类或个体再聚成一类;重复上述过程,即:把所有的个体和小类聚集成越来越大的类,直到所有的个体都到一起(一大类)为止。可见,随着聚类的进行,类内的亲密性在逐渐减低以分解的方式聚类:首先,所有个体都属于一类;其次,将大类中最疏远的小类或个体分离出去;然后,分别将小类中最疏远的小类或个体再分离出去;重复上述过程,即:把类分解成越来越小的小类,直到所有的个体自成一类为止。可见,随着聚类的进行,类内的亲密性在逐渐增强(2)距离的测度方法:个体和小类、类和类间的距离:最短距离法(nearest neighbor):两类间的距离定义为两类中距离最近的两个个案之间的距离;最长距离法(furthest neighbor):两类间的距离定义为两类中距离最远的两个个案之间的距离;平均链锁法(within-groups linkage);两类之间的距离定义为两类个案之间距离的平均值。包括:组间平均链锁法(between-groups linkage):只考虑两类间个案的距离;组内平均链锁法(With-groups linage):考虑所有个案间的距离(3)基本操作:(1)菜单选项:analyze-classify-hierachical cluster;(2)选择参与聚类分析的变量入variables框;(3)选择一字符型变量作为个案的标记变量(label cases);(4)选择个案聚类还是变量聚类(4)聚类数目的确定:聚类数目确定尚无统一标准,一般原则:各类所包含的元素都不应过多;分类数目应符合分析的目的;分层聚类中可以将类间距离作为确定类数目的辅助工具:SPSS中,聚类过程中,类间距离呈增加趋势,类间距离小,类的相似性大;距离大,相似性小。绘制碎石图(X轴为类距离,Y轴为类数)2、掌握SPSS快速聚类的意义、基本特点、数据要求、SPSS基本操作以及分析结果的解读快速聚类可以克服分层聚类在大样本时产生的困难,提高聚类效率。做法:通过用户事先指定聚类数目的方式提高效率。因此,分层聚类可以对不同的聚类数而产生一系列的聚类解,而快速聚类只能产生单一的聚类解基本思路:(1)指定最后要聚成K类;(2)用户指定k个样本作为初始类

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论