下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、SPSS和SAS统计实验指导书(学生用)王慧、欧晓华、王立平等编经济与贸易系市场营销教研室2006年4月方差(Variance)和标准差(Standard Deviation)四分位数(Quartiles)和十分位数(Deciles).实验三:相关分析实验四:回归分析1一元线性回归2多元线性回归分析1 实验理论概述2二元定距变量的相关分析3二元定序变量的相关分析4偏相关分析5距离相关分析实验一:统计描述1均值(Mean和均值标准误差()2中位数(Median).3众数(Mode)4全距(Range).567频数(Frequency).128峰度(Kurtosis).9偏度(Skewness).
2、实验二:均值比较和T检验1均值比较2单一样本T检验3两独立样本T检验4两配对样本T检验实验一:统计描述实验内容:均值、中位数、众数、全距、方差与标准差、四分位数、十分位数、频 数、峰度、偏度实习目的:掌握SPSS基本的统计描述方法,可以对要分析的数据的总体特征有比较准 确的把握,从而为以后实验项目选择其他更为深入的统计分析方法打下基础。实验一要研究的问题:某班级的数学成绩A1A2A3A4A5A6A7A8A9A10A11A12A13A14A15A16A17A18998879595489795689992389705067788956将该班级学生的姓名和数学成绩定义为两个变量,并将数学成绩作为实验
3、一的原始数据输入SPSS保存。1.均值(Mean和均值标准误差问题:求该班级在一次数学测验中的平均成绩和其标准差实验步骤:步骤1单击“Analyze” 菜单“Descriptive statistics”项中的“Frequencies”命令,如图1-1所示。图1-1选择Frequencies菜单步骤2弹岀Frequencies对话框,如图1-2所示,在对话框左侧的便利列表中选择“数学”,单击卜按钮使之添加到Variable(s)框中。图1-2Frequencies对话框步骤3单击Frequencies对话框下方的图1-3Frequencies:Statistics对话框实验结果:由以上结果可以
4、看岀该班数学的平均成绩为72.9444分,均值的标准误差为4.75097。该结果可以在“File菜单中选择Save as命令,将该结果保存为Mean1文件。2.中位数(Median)问题:求该班级数学成绩的中位数实验步骤:步骤步骤2弹岀图1-4选择Frequencies菜单Frequencies对话框,如图1-5所示,在对话框左侧的变量列表中选择“数步骤学”,单击卜 按钮使之添加到Variable(s)框中。单击图1-5 Frequencies对话框Frequencies对话框下方的Statistics按钮,弹岀如图1-6所示对话框。选择要 在Central Tendency中选择Median
5、,选好后单击Continue按钮返回3统计的项目,Frequencies对话框,单击0K按钮,SPSS即开始计算单击“Analyze” 菜单“Descriptive statistics”项中的“Frequencies”命令,如图 所示。11-4图1-6 Frequencies:Statistics对话框实验结果:由上图可以看岀该班数学成绩的中位数是78.5分。在结果输岀窗口处选择“File”菜单中的Save as命令,将该结果保存为Median1文件。3.众数(Mode问题:求该班数学成绩的众数实验步骤:步骤1步骤一和步骤二同以上求均值和中位数的步骤一和步骤二步骤2 单击Frequencie
6、s对话框下方的Statistics按钮,弹岀如图1-7所示对话框。选择要统计的项目,在Cen tral Ten de ncy中选择Mode,选好后单击Co nti nue按钮返回Frequencies对话框,单击OK按钮,SPSS即开始计算图1-7 Frequencies:Statistics对话框实验结果:由以上结果可以看岀该班级数学成绩中成绩为4.全距(Range问题:求该班学生数学成绩的全距实验步骤:步骤1步骤一和步骤二同以上求均值和中位数的步骤一和步骤二步骤2单击Frequencies对话框下方的Statistics按钮,弹岀如图1-8所示对话框。选择要统计的项目,在Dispersio
7、n中选择Range,选好后单击Continue按钮返回Frequencies对 话框,单击OK按钮,SPSS即开始计算图1-8 Frequencies:Statistics对话框实验结果:由以上结果可以看岀该班学生成绩的全距为实验结果:由以上结果可以看岀,该班级学生数学成绩的方差为72.9444。将该结果文件保存为varia nce1。ran ge1。5.方差(Variance)和标准差(Standard Deviation)问题:求该班学生数学成绩的方差和标准差实验步骤:步骤1单击“ Analyze菜单Descriptive statistics项中的Descriptives命令,如图1-9
8、所示步骤2弹岀图1-9选择Frequencies菜单Descriptives对话框,如图1-10所示,在对话框左侧的变量列表中选择数步骤学”,单击按钮使之添加到Variable(s)框中。单击图1-10 Descri ptives对话框Descriptives对话框下方的Options按钮,弹岀如图1-11所示对话框。选择要Mean、Std.deviation、和Varianee三项统计量,选好后3统计的项目,在此对话框中选择单击Continue按钮返回Descriptives对话框, 单击OK按钮,SPSS即开始计算 图1-11 Descriptives:Options对话框89分的人最多。
9、将该结果保存为“Mode1 ”76分(即9923=76)。将该结果保存为绩为6.问题406.291,标准差为20.15666,平均成四分位数(Quartiles)和十分位数(Deciles)1:求该班级学生成绩的四分位数(S)框中。3单击Frequencies对话框下方的Statistics按钮,弹岀如图1-12所示对话框。选择要统计的项目,在Percentile Value中选择Quartiles,选好后单击Continue按钮返回Frequencies对话框,单击OK按钮,SPSS即开始计算图1-12 Frequencies:Statistics对话框实验结果1:(S)框中。3单击Freq
10、uencies对话框下方的Statistics按钮,弹岀如图1-13所示对话框。在Percentile Value中选择Percentile(s)右方的小框中依次10,20,. 100,每输完一个数据后单击下方的Add按钮,使这个数据依次添加到右下方的空白框内。之后单击Continue按钮返回Frequencies对话框,单击OK按钮,SPSS即开始计算图1-13Frequencies:Statistics对话框实验结果2:由以上结果可以看岀,该班学生数学成绩的D6=82,其余十分位数D1=47.3,D2=55.6,D9=99。将该结果保存为Deciles1文件。7.频数(Frequency)
11、问题:求岀该班学生数学成绩的频数分布实验步骤:步骤Variable(s)框中。3选择对话框下方的Dis play freque ncy tables复选框,表示显示频数分布表。单击OK按钮,SPSS自动完成计算。实验结果:由以上结果可以看岀各个分数的得分人数,如得实验步骤:步骤1步骤1-12单击“Analyze” 菜单“Descriptive statistics”项中的“Frequencies”命令,如图所示弹岀Frequencies对话框,如图1-2所示,现要求处该班学生数学成绩的四分位数,故在对话框左侧的便利列表中选择“数学”,单击按钮使之添加到Variable步骤由以上结果可以看岀,该
12、班学生数学成绩的第一分位数Q1=56,第二分位数Q2=78.5,第三分位数Q3=89。四分位差Q=(89-56)/2=16.5。将该结果保存为quartiles1文件。问题2:求该班学生成绩的D6实验步骤:步骤1步骤1-12单击“Analyze” 菜单“Descriptive statistics”项中的“Frequencies”命令,如图所示弹岀Frequencies对话框,如图1-2所示,现要求处该班学生数学成绩的十分位数,故在对话框左侧的便利列表中选择“数学”,单击按钮使之添加到Variable1 在“Analyze”菜单中“Descriptive Statistics” 中选择Freq
13、uencies命令,弹岀Frequencies对话框,如图1-14所示图1-14Frequencies对话框步骤2在对话框左侧的变量列表中选择“数学成绩”,单击按钮使之添加到步骤步骤89分的人最多为4个,得56分、79分和99分的人各有2个,其余的分数都为1人。8.峰度(Kurtosis)问题:2量,到SPSS数据编辑窗口。图1-16 Weight Cases对话框3在“Analyze”菜单中“Descriptive Statistics” 中选择Frequencies命令,弹岀Frequencies对话框,如图1-17所示图1-17 Frequencies对话框框中。步骤4 单击Freque
14、ncies对话框下方的Statistics按钮,弹岀如图1-18所示对话框。选择要统计的项目,在Distribution中选择Kurtosis,选好后单击Continue按钮返回Frequencies对话框,单击OK按钮,SPSS即开始计算图1-18 Frequencies:Statistics对话框实验结果:由上图可以看岀个案N为18,峰度为0.488,峰度大于0,表示该班级数学成绩分布比正态分布高峰更加陡峭。9.偏度(Skewness)问题:求该班数学成绩分布的偏度步骤1步骤一、二和步骤三同求峰度的步骤数学分数人数231501541562591671701781792881894992求该
15、班学生数学成绩的峰度实验步骤:步骤在“Data菜单中选择Weight Cases命令,如图1-15所示图1-15选择菜单在弹岀如图1-16所示的Weight Cases对话框中,左边的变量表中选择“人数变使其添加到Frequency Variable框中。使人数成为权重变量。单击0K按钮,返回1步骤步骤在对话框左侧的变量列表中选择“数学成绩”,单击按钮使之添加到Variable(s)步骤2单击Frequencies对话框下方的Statistics按钮,弹岀如图1-19所示对话框。选择要统计的项目,在Distribution中选择Skewness,选好后单击Continue按钮返回Frequen
16、cies对话框,单击OK按钮,SPSS即开始计算图1-19 Frequencies:Statistics对话框实验结果:由以上结果可以看岀个案数N为18个,偏度为一0.810,偏度小于0,表示该班级数学成绩分布中,负偏差数值较大,为负偏或左偏,即和正态分布相比较,分数偏低的人较多,有一条 长尾巴拖在左边。实验二:均值比较和T检验实验目的:掌握均值比较、单一样本T检验、两独立样本T检验和两配对样本T检验的方法实验内容:均值比较、单一样本T检验、两独立样本T检验和两配对样本T检 验1.均值比较研究问题:1 在“Analyze菜单“Com pare Means项中选择Means命令,如图2-1所示图
17、2-1选择菜单2弹岀Means对话框,如图2-2所示。因要分性别求数学成绩的均值和标准差,所使之添加到Indepen de nt List框中。In de pen de nt List框可以有多个变量,表示分做的多个层次,可以通过单击“Next”按钮来实现。图2-2 Means对话框单击右下角的Options按钮,弹岀如图2-3所示的对话框,可以选择要统计的项图2-3 Means:Options对话框在Cell Statistics项中,Mean为均值、Standard Deviation为标准差、Varianee为方差、Number of Cases为观察单位数。在Statistics fo
18、r First Layer项中,如果选中An ova table and eta项,则将为第一层次的分组计 算方差分析(也就是单因素方差分析,通过方差分析的结果,可以看岀第一层次的分组是否在观 察值上有均值显着差异)。如果选中Test of linearity项,则进行第一层次的线性检验。选好后,单击Continue按钮返回Means对话框,单击Ok按钮,SPSS即开始计算。以上结果显示:总共对11个个案进行了统计,其中男生的数学成绩平均值为84.71分,标准差为13.97;女生的数学成绩平均值为55.25分,标准差为26.55;总体平均值为74分,标准 差为23.44。由此可以看岀女生的数学
19、成绩总体上来说差于男生,未达到总体的平均分。2.单一样本T检验问题:分析该班学生的数学成绩和全国的平均成绩 实验步骤:步骤1 在“Analyze菜单“Com pare Means项中选择one-sample T test命令,如图2-4所示图2-4选择菜单性别数学成绩Male99795989798999Female88545623步骤以在对话框左侧的变量列表中选择“数学”,单击按钮使之进入De pendent List框中。选择“性别”,单击步骤3目。70分之间是否存在显着性差异。比较不同性别学生数学成绩的平均值和方差实验步骤:步骤步骤2选择菜单后,岀现One-Sample T Test对话框
20、,如图2-5所示图2-5 One-Sample T Test对话框将全国数学高考的平均值70填入Test Value框,将要检验的变量“数学”从左侧框中添加到Test Variable框中。步骤3单击Options按钮,岀现图2-6所示的对话框图2-6 One-Sample T Test:Options对话框步骤4单击Continue按钮,返回到One-sample T Test对话框,单击OK按钮,SPSS即完成所需要的计算实验结果:由以上结果可以看岀:11个学生的数学成绩平均值为74分,标准差为23.44,均值误差为7.07。本例中的检验均值为70分,样本均值和检验均值的差为4,计算岀的T
21、值为0.566,相伴概率为0.584。95%的置信区间为-11.75,19.75,表示95%的样本差值在该区间内。假设显着 性水平a为0.05,由于相伴概率大于a,因此接受原假设,即认为该11名同学的均值和全国的数学均值相比,没有显着性差异。3.两独立样本T检验研究问题:分析清华、北大大一学生的高考数学成绩之间是否存在显着性差异 实验步骤:步骤1 首先到清华、北大校园中随机调查9位大一同学的高考数学成绩,进行记录。虽然分析的是两个独立样本,但在数据组织时,SPSS要求两个独立样本数据放在一个SPSS变量中,再加上另外一个变量source01,对来自不同学校的学生进行区分。3量列表中选择“数学”
22、变量,并添加,到量,添加到Grouping Variable框中。图2-8 Independen t-Sa mp les TTest对话框4单击Define Groups按钮,弹岀Define Groups对话框,如图2-9所示。在该对话框中指定标识变量的区分方法。选择Use specified values选项,表示根据标识变量的取值进行区分。在Group1中输入0,在Group2中输入1。图2-9 Define Groups对话框5单击Co nti nue按钮,返回In de pen de nt-Sa mple T Test对话框,单击OK按钮,SPSS即开始计算。实验结果:由以上结果可以
23、看岀:两个学校9个学生的数学平均分分别为76.89和69分,标准差分别为16.56和23.54,均值误差分别为5.52和7.85。统计量F的相伴概率为0.461,大于显着性水平0.05,接受方差相等的假设,即认为两个学校学生的数学成绩无显着差异。方差相等时T检学校数学成绩清华998879595489795689北大992389705067788956步骤2在An alyze菜单Comp are Mea ns中选择In de pen de nt-Sa mp les T Test命令,2-7所示如图图2-7选择菜单在弹岀如图2-8所示的In de penden t-Sa mp les T Test
24、对话框中,从对话框左侧的变Test Variable(s)框中。选择source01变步骤步骤步骤验结果,统计量T的相伴概率为0.423,大于显着性水平0.05,接受T检验的零假设,也就是 说,两个学校18个学生高考数学成绩平均值不存在显着差异。4.两配对样本T检验问题:研究一个班同学在参加了暑期数学培训班之后,数学成绩是否有明显的变化?平0.05小,因此拒绝原假设,即认为培训前后该班学生的数学成绩有显着的差异,培训后,该 班学生数学成绩明显提高。实验三:相关分析实验目的:掌握二元定距变量的相关分析、二元定序变量的相关分析、偏相关分析、距离相关 分析的理论内容,SPSS中的操作方法。实验内容:
25、二元定距变量的相关分析、二元定序变量的相关分析、偏相关分析、距离相关分析1.实验理论概述任何事物的变化都与其他事物是相互联系和相互影响的,用于描述事物数量特征的变量之 间自然也存在一定的关系。变量之间的关系归纳去来可以分为两种类型,即函数关系和统计关 系。衡量事物之间,或称变量之间的线形相关程度的强弱并用适当的姓名数学1数学2A19998A28889A37980A45978A55478A68989A77987A85676A98956A109976A112389A128989A137099A145089A156788A167898A178978A185689在An alyze菜单Comp are
26、 Mea ns中选择P ared-Sa mp les T Test命令,如图所示实验步骤:步骤12-10步骤图2-10选择菜单在弹岀如入4-11所示的Pared-Samples T Test对话框中,从对话框左侧的变量列表2中选择数学1,这时数学1变量岀现在图4-11种的Current Selections框的Variable1中。然后从对话框左侧的变量列表中选择“数学2”, “数学2”岀现在Current Selections框的Variable?中,这时表示将这两个变量配对,然后使之添加到Pared Variable(s)框中。图2-11 Pared-Samples T Test对话框SP
27、SS即开始自动计算。步骤实验结果:由以上结果可以看岀: 后数学成绩序列的均值相差3 单击OK,参加培训前后,该班学生数学成绩分别为72.94和84.77分,培训前-11.83。计算岀的T统计量为-2.15,相伴概率为0.046,比显着性水统计指标表示岀来,这个过程就是相关分析。比较直接和常用的一种方法是绘制散点图,但是为了能更加准确地描述变 量之间的线性相关程度,可以通过计算相关系数来进行相关分析。如果相关系数是根据总体全部数据计算的,称为总体相关系数,记为P如果是根据样本数据计算来的,则称为样本相关系数,记为r.在统计学中,一般用样本相关系数r来推断总体相关系数相关系数的取值范围在-1和+
28、1之间,即-K r+1。其中:若0V r1,表明变量之间存在正相关关系。若-10.8时,视为高度相关。0.5|r |v 0.8时,视为中度相关。0.330,则计算Z统计量:Z统计量近似服从正态分布,SPSS将依据正态分布表给岀对应的相伴概率。Kendalltua-b等级相关系数:V是利用变量的秩数据计算而得的非一致对数目。对Kendalltua-b等级相关系数的统计检验,一般如果个案数tua-b等级相关系统计量表,SPSS将自动根据该表给岀对应的相伴概率值。但是当个案数n30,则计算Z统计量:Z统计量近似服从正态分布,SPSS将依据正态分布表给岀对应的相伴概率。SPSS中实现过程研究问题某语文
29、老师先后两次对其班级学生同一篇作文加以评分,两次成绩分别记为变量“作文1”和“作文2”,如表3-2所示。问两次评分的等级相关有多大,是否达到显着水平? 表3-2学生作文两次的得分情况人名作文1作文2Yuli86.0083.00Yafe78.0082.00Ty62.0070.00Yu75.0073.00Zha ng89.0092.00Wang67.0065.00Hai96.0093.00Bill80.0085.00Cfei77.0075.00Kake59.0065.00Jou79.0075.00Heyy68.0070.00Marry85.0080.00Mary87.0075.00Mi ng75.
30、0080.00Che n73.0078.00Smith95.0090.00Jess88.0090.00n其中DI2i 1n(UiVi)2i 1(Ui、Vi分别为两变量排序后的秩),可见,Sp earma nnW 30,将直接利用Kendall实现步骤步骤1在“Analyze”菜单“Correlate”中选择Bivariate命令,如3-8所示。图3-8选择Bivariate Correlate菜单步骤2在弹岀如图3-9所示的Bivariate Correlate对话框中,从对话框左侧的变量列框。在Correlation Coefficients框中选择Spearman和Kendalltua-b
31、等级相关系数;在Test of significanee框中选择相关系数的双侧 (Two-tailed)检验,选中Flag significations correlations选项,则相关分析结果中将不显示统计检验的相伴概率,而以星号(*)显示。如图3-9。图3-9 Bivariate Correlate对话框步骤3单击0K按钮,SPSS开始计算Spearman和Kendalltua-b等级相关系数。结果和讨论SPSS的运行结果如下:Nonp arametric Correlati ons从结果中可以看岀,语文老师两次评分的0.745和0.874。在这个数据的旁边有两个星号,表示用户指定的显
32、着性水平为 的相伴概率小于等于0.01,即两次评分显着相关,且为正相关。练习题:某专家先后对一个工程的多个项目加以评分,两次评分分别记为变量“分值2”,如下表所示。问两次评分的等级相关有多大,是否达到显着水平?工程项目两次的得分情况项目名分值1分值2项目178.0075.00项目277.0083.00项目381.0083.00项目487.008300项目591.0092.00项目677.0074.00项目796.0093.00项目881.0087.00项目967.0065.00项目1079.0073.00项目1189.0085.00项目1278.0070.00项目1395.0090.00项目1
33、488.0081.00项目1595.0085.004.偏相关分析二元变量的相关分析在一些情况下无法较为真实准确地反映事物之间的相关关系。例如, 在研究某农场春季早稻产量与平均降雨量、平均温度之间的关系时,产量和平均降雨量之间的 关系中实际还包含了平均温度对产量的影响。同时平均降雨量对平均温度也会产生影响。在这表中分别选择“作文1”和“作文2”变量,单击按钮使这两个变量添加到VariablesSpearman和Kendalltua-b等级相关系数分别为0.01时,统计检验1”和“分值选择“产量”和“降雨量”变量,单击按钮使这两个变量进入Variables框中,在选择种情况下,单纯计算简单相关关系
34、数不能准确反映事物之间的相关关系,而需要在剔除其他相 关因素影响的条件下计算相关系数。偏相关分析正是用来解决这个问题的。统计学上的定义和计算公式定义:偏相关分析是指当两个变量同时与第三个变量相关时,将第三个变量的影响剔除, 只分析另外两个变量之间相关程度的过程。偏相关分析的工具是计算偏相关系数12,3计算公式:假定有3个变量:X-I、x2、X3,求剔除变量X3的影响后,变量Xi和X2之间的偏相关系数12,3:其中,斤2表示变量Xi与变量X2的简单相关系数;X,与变量X3的简单相关系数;23表示变量X2与变量X3的简单相关系数。显着性检验公式:其中,n为个案数,n-3为自由度。SPSS中实现过程
35、研究问题某农场通过试验取得某农作物产量与春季降雨量和平均温度的数据,如表 降雨量对产量的偏相关。表3-33-3所示。现求产量降雨量温度150.0025.006.00230.0033.008.00300.0045.0010.00450.00105.0013.00480.00111.0014.00500.00115.0016.00550.00120.0017.00580.00120.0018.00600.00125.0018.00600.00130.0020.00早稻产量与降雨量和温度之间的关系实现步骤步骤1在“Analyze”菜单“Correlate”中选择Partial命令,如图3-10所示。
36、图3-10选择Bivariate Partial菜单步骤2在弹岀的如图2所示Bivariate Partial对话框中,从对话框左侧的变量列表中分别选择“产量”和“降雨量”变量,单击按钮使这两个变量进入Variables框中,在选择“温度”变量,单击/按钮使这个变量添加到Controlling For框中,表示现在所求的是剔除“温度”变量影响后“产量”和“降雨量”变量之间偏相关系数。图3-11 Partial Correlations对话框在Test of significanee框中选择相关系数的双侧(Two-tailed)检验。本例选中Flag significations correla
37、tions选项,则相关分析结果中将不显示统计检验的相伴概 率,而以星号(*)显示,星号的意义与计算简单相关系数中的相同。步骤3单击在Statistics量间的简单相关系数。 缺失值的个案后再计算。步骤4单击Continue按钮,返回Partial Correlations对话框,单击OK按钮,即可得到SPSS相关分析的结果。结果和讨论SP SS的运行结果如下。Partial Corr从结果中可以看到,上半部分是变量两两之间的P artial简单相关系数,以“产量”和“降雨量为例,它们之间的P artial简单相关系数为0.9811。下半部分是偏相关分析的输岀结果,其中,对每个变量都有三行输岀结
38、果:第一行为偏相 关系数、第二行为统计检验的自由度,第三行为检验统计量的相伴概率。从中可知,在剔除“温度”变量的影响条件下,“产量”与“降雨量”二变量的影响条件下,“产量”与“降雨 量”二变量的偏相关系数为0.7803,自由度为7,相伴概率为0.013。可见,简单相关系数和偏相关系数相比,前者有夸大的成分,后者更符合实际。 练习题某农业实验场通过试验取得小麦产量与单位虫害值和平均温度的数据,如下表所示。现求 单位虫害值对产量的偏相关。小麦产量与单位虫害值和温度之间的关系产量单位虫害值温度170.0015.007.00200.0023.009.00230.0035.0011.00350.0038
39、.0013.00400.0041.0017.00480.0044.0019.00530.0047.0020.00590.0050.0023.00670.0055.0028.00710.0059.0031.005.距离相关分析统计学上的定义和计算公式Options按钮,岀现Partial Correlations图3-12 Partial Correlations框中选择Zero-order correlations项,在Missing Values框中选择Exclude对话框,如图3-12所示。对话框在输岀偏相关系数的同时还输岀变cases listwise项,剔除所有具有距离相关分析是对观测
40、量之间或变量之间相似或不相似的程度的一种测量,可以用于同一 变量内部各个取侄间,以考察其相互接近程度;也可用于变量间,以考察预测值对实际值的拟 合优度。距离相关分析根据统计量不同,可分为:不相似性预测和相似性预测。根据分析对象不 同,可以分为:样本间分析和变量间分析。在不相似性预测的距离分析中,根据不同类型的变量,采用不同的统计量进行计算。1)对连续变量的样本(x、y)进行距离相关分析时,常用的统计量有以下几种。 欧氏距离(Euclidean Distance)计算公式为:其中,k表示每个样本中有k个变量,Xi表示第一个样本在第i个变量上的取值,yi表示第二个样本在第i个变量上的取值。 欧氏距
41、离平方(Squared Euclidean Distanee)计算公式为:其中,k表示每个样本中有k个变量,Xj表示第一个样本在第i个变量上的取值,yi表示第二个样本在第i个变量上的取值。Chebychev距离计算公式为:其中,x表示第一个样本在第i个变量上的取值,Vi表示第二个样本在第i个变量上的取值。Block距离 计算公式为:X表示第一个样本在第i个变量上的取值,yi表示第二个样本在第i个变量上的取值。Minkowski距离 计算公式为:p、q是任意可指定的次方,xi表示第一个样本在第i2)对顺序或名义变量的样本(x、y)进行距离相关分析时,常用的统计量如下。Chi-square mea
42、sure这是X2统计量,计算公式为:Phi-square measure这是2统计量,计算公式为: 对于二值变量,可以使用欧氏距离、欧氏距离平方、方差等方法进行计算。SPSS中实现过程 距离相关分析分为相似性测量和不相似测量,也可以分为样本间分析和变量间分析。分别 对这4种情况进行讲解。其中,k表示每个样本中有k个变量,其中,k表示每个样本中有k个变量,个变量上的取值,yi表示第二个样本在第i个变量上的取值。图3-13选择Distances Correlate菜单2在弹岀的如图3-14所示Distances对话框中,在对话框左侧的变量列表中选择变量按钮使之添加到Variables框中。对3个变
43、量进行距离相关分析。Betwee n variables选择Similarties相似性测距。步骤3单击Measures按钮,弹岀Distanee:Similarity Measure对话框,如图3-15所示。图3-15距离相关中相似性测量对话框本例中选择Measures框中的Interval,并选择Pearson correlation项,以Pearson相关系数为 度量,不对变量进行标准化处理。步骤3单击Continue按钮返回Distances对话框,再单击0K按钮,即可得到SPSS相关分析的结果。 研究问题2-变量之间的不相似性测量分析以问题1中的数据为例,求测量结果的不相似程度(距离
44、)。实现步骤步骤1在“An alyze”菜单“示。 研究问题1-变量之间的相似性预测分析对6个标准电子元件的电阻(欧姆)进行3次平行预测,测得结果如表3-4所示。问测试结果是否一致。表3-4123456第一次0.1400.1380.1430.1410.1440.137第二次0.1350.1400.1420.1360.1380.140第三次0.1410.1420.1370.1400.1420.1431激活数据管理窗口,定义变量名:第一次测量值为r1,第二次测量值为r2,第三r3,输入相应数值。在Analyze菜单Correlate中选择Distances命令,如图3-13所示。步骤“ r3”,单
45、击L *图3-14 Distances对话框3次平行测量结果分别置于3个变量中,因此在Compute Distances框中选择作变量之间的距离相关分析;又因本例研究的是一致性,所以在Measure栏中因为在本例中Correlate中选择Distanee命令,弹岀的Distances对话框,在对话框左侧的变量列表中选择变量“r1r2”“ r3”,单击按钮使之添加到Variables框中。在Compute Distances框中选择Measure栏中选择Dissmilarities项,Betwee n variables项,表示作变量之间的距离相关分析。在步骤2单击Measures按钮,作不相似
46、性测距。设置结果如图3-16所示。图3-16 Distances对话框弹岀Distanee:Dissimilarity Measures对话框,如图3-17所图3-173次测量情况实现步骤步骤次测量值为距离相关中不相似性距离测量对话框根据所要分析的变量类型,选择不同的相似性测量方法。因此在实际的测量汇总,首先需要在Measure框中确定变量类型。在本例中选择Measure框中的Interval,并选择Euclideandistanee项,不对变量进行标准化处理。步骤3单击Continue按钮返回Distanee对话框,再单击0K按钮,即得到SPSS相关 分析的结果。 研究问题3-个案之间的相似
47、性测量分析某动物一次产下3个幼仔,分别对3个幼子的长、体重、四肢总长、头重进行测量,试就这 几个测量而言,分析3个幼子的相似性,数据如表3-5所示。表3-53个幼子情况长体重四肢总长头重第一个5021510011第二个5122011012第三个5222011212实现步骤步骤1在SPSS的数据管理窗口中,定义4个变量,分别为“长”、“体重”、“四肢总长、“头重,输入3个幼子的相应数值。在“Analyze菜单“Correlate中选择Distanee命令,如图3-18所示。图3-18选择菜单步骤2在弹岀的如图Distanee对话框中左侧的变量列表中选变量,在对话框左侧的变量列表中选择变量“长”、
48、“体重”、“四肢总长”、“头重”,单击Variables框中。图3-19 Distanee对话框在Compute Distances框中选择Between eases项,表示作个案之间的距离相关分析。在Measure栏中选择Similarities项,作相似性测距。步骤3单击Measures按钮,弹岀Distanee:Similarity Measures对话框,如图3-20所示。图3-20距离相关分析中相似性测量对话框因为4个变量都是连续性变量,所以Interval中Pearson eorrelation项,不对变量进行标准化处理。步骤4单击Continue按钮返回Distanee对话框,再
49、单击0K按钮,即得到SPSS相关 分析的结果。 研究问题4-个案之间的不相似性测量分析以问题3中的数据为例,求幼子的不相似程度(距离)。实现步骤步骤1在“Analyze”菜单“Correlate”中选择Distanee命令,弹岀的Distances对话框,在对话框左侧的变量列表中选择变量“长”、“体重”、“四肢总长”、“头重”,单击图3-22距离相关中相似性距离测量对话框在本例中选择Measure框中的Interval,并选择Euelidean distanee项, 处理。步骤3单击Continue按钮返回Distanee对话框,再单击0K按钮,即得到SPSS相关 分按钮使之添加到按钮使之添加
50、到Variables框中。在Compute Distances框中选择Measure栏中选择Dissmilarities项,步骤2单击Measures按钮,示。Between ease项,表示作个案之间的距离相关分析。在 作不相似性测距。设置结果如图3-21图3-21 Distanee对话框弹岀Distanee:Dissimilarity Measures所示。对话框,如图3-22所不对变量进行标准化析的结果。结果和讨论1)研究问题1的SPSS运行结果如下:P roximities第一个表格是个案概述,表明6个个案数据全部都有效。第二个表格列岀了变量之间的相似性分析结果。从表格中可以看岀,第一
51、次测量和第三次测量的结果较为一致,但一致不是很明 显;第一次测量和第二次测量的结果最不一致;第二次测量和第三次测量的结果也不太一致。2)研究问题2的SPSS1行结果如下:P roximities第一个表格是个案概述。第二个表格列岀了变量之间的不相似性分析结果。3)研究问题3的SPSS1行结果如下:P roximities研究问题3中的第一个表格是个案概述,表明3个个案数据全部都有效。第二个表格列岀了个个案之间的相似性分析结果。从表格中可以看岀,3个个案的相似性非常高,分别为0.9991。其中第二个和第三个幼子最相近。4)研究问题4的SPSS1行结果如下:P roximities研究问题4中的第
52、一个表格是个案分析概述,表明3个个案数据全部都有效。第二个表格列岀了个个案之间的不相似性分析结果。从表格中可以看岀,第一个幼子和第二个幼子之间的欧氏距 离为11.269;第一个幼子和第三个幼子之间的欧氏距离为13.191;第二个幼子和第三个幼子之间的欧氏距离为2.236,可见第二个幼子和第三个幼子最相近。练习题1、对6个人进行3次体能测试,测得结果如下表所示。问测试结果是否一致。3次测试情况123456第一次858781888984第二次919288909187第三次8987858990882、对3个集装箱进行测量,分别对3个集装箱的高、宽、长、最大总重进行测量,试就这几个测量而言,分析3个集
53、装箱的相似性,数据如下表所示。3个集装箱情况高/mm宽/mm长/mm最大总重/kg第一个243824301219130480第二个243024331219530477第三个243424391218830485实验四:回归分析实验目的:掌握使用一元线形回归和多元线形回归在SPSS中的实现。实验内容:1、spss中的回归分析工具及其使用方法;2、回归分析中线形回归分析,以及常用的统计检验方法。1.一元线性回归(?y)/(n 2)研究问题:合成纤维的强度与其拉伸倍数有关,测得试验数据如表 合成纤维与拉伸倍数之间是否存在显着性线性相关关系。表4-1强度于拉伸倍数的试验数据序号拉伸倍数强度(kg/mm)
54、121.622.52.432.72.543.52.7543.564.54.275.2586.36.497.16.51087.3119812108.1实验步骤:采用最小二乘法,使随机误差(残差)平方和为最小,即mine。可求得于是回归模型为:y a bx回归模型的检验:回归系数的显着性检验(t-检验)。假设为:Ho:b 0,H1:b 0,检验统计量为t -Sb其中Sb2Sy _(X X)2(y ?)2(n 2)回归方程显着性检验(F-检验)。假设为Ho:线形关系不显着,检验统计量为(?11所示。求步骤1在菜单中选择Regressio n=li ner,系统弹出线性回归对话框如下:图41 Line
55、ar Regression对话框步骤2单击Statistics来选择输出那些统计量。如图按钮将打开Lin ear Regressio n: Statistics42所示。对话框,用图4-2 Lin ear Regressi on: Statistics对话框步骤3单击所示Lin ear Regression对话框中的Plot按钮,将打开如图43所示Lin ear Regressi on:Plot对话框。该对话框用来设置对残差序列作图形分析,从而检验残差序列的正态性、随机性和是否存在异方差现象。图43 Lin ear Regressio n:P lot对话框步骤4单击如图所示44所示Lin ea
56、r Regression对话框中的Save按钮,将打开 如图44所示Lin ear Regression:Save对话框。该对话框用来设置将回归分析的结果保 存到SPSS数据编辑窗口的变量中,还是某个spss的数据文件中。图44 Lin ear Regressio n: Save对话框步骤5单击如图45所示Linear Regression对话框中的options命令,如图45所示对话框。在该对话框中可以对多元线性回归分析中与自变量的筛选有关的参数进行 设定,同时也可设置缺省值采用不同的处理方法。图45 Lin ear Regressi on:Op ti ons对话框结果和讨论:(1) 输出结
57、果文件中的第一个表格。ModelVariablesEn teredVariablesRemovedMethod1x(a)En terVariables En tered/Removed(b)a All requested variables en tered.b Dependent Variable: y该表格输岀的是被引入或从回归方程中被踢除的各变量。该部分结果说明对编号为 线性回归分析时所采用的方法是全部引入法:En ter1的模型进行(2) 输出结果文件中的第二个表格。Adjusted RStd. ErrorModelRR SquareSquareof theModel Summary步
58、骤1在菜单中选择Regressio n=li ner,系统弹出线性回归对话框如下:Estimate1.986 (a).972.969.4118a P redictors: (Con sta nt), x该表格输岀的是常用统计量。22从这部分结果看岀相关系数R=0.986,判定系数R 0.972,调整的判定系数R0.969,回归估计的标准误差W=0.4118。说明样本回归方程的代表性强。(3)输出结果文件中的第三个表格ANOVA(b)ModelSum ofSquaresdfMean SquareFSig.1Regressi on58.894158.894347.273.000(a)Residua
59、l1.69610.170Total60.59011a P redictors: (Con sta nt), x b Dependent Variable: y第三个表格是方差分析表。从这部分结果看出: 统计量F=347.273;伴随概率P0.001。说明自变量x与因变量y之间 确有线性回归关系。类外,Sum of Squares一栏中分别代表回归平方和(58.894)、残差 平方和(1.696)以及总平方和(60.590),Df为自由度。(4) 输出的结果文件中第四个表格如下:Coefficie nts(a)ModelUn sta ndardizedCoefficie ntsStan dard
60、izedCoefficie ntstSig.BStd.ErrorBeta1(Con stant).166.278.595.565x.867.047.98618.635.000a Dependent Variable: y第四个表格是回归系数分析。其中,Un sta ndardized Coefficie nts为非标准化系数,Standardized Coefficients为标准化系数,I为回归系数检验统计量,Sig为伴随概率值。回归系数统计量t=18.635,相伴概率值P0.001。说明回归系数与0有显着差别,该回归 方程有意义:练习题:合金钢的强度y与钢材中碳的含量x有密切关系,为了冶炼
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年高校教师岗前培训高等教育心理学知识竞赛考试题及答案
- 成本效益分析与可持续发展策略
- 个人工作自查自纠报告8篇
- 2026年企业安全生产风险评估题库
- 慢阻肺社区调查数据时效性保障策略
- 慢阻肺患者肺功能监测与依从性反馈方案
- 慢病预防的效果评估与持续改进
- 2026年物联网智能家居集成协议
- 客户取件码管理协议
- 幼儿园控烟监督检查制度
- 胖东来员工管理制度
- 购门协议书范本
- 诊所注销申请书
- 心脏瓣膜病麻醉管理
- TBT3208-2023铁路散装颗粒货物运输防冻剂
- 航天禁(限)用工艺目录(2021版)-发文稿(公开)
- TCALC 003-2023 手术室患者人文关怀管理规范
- 关键对话-如何高效能沟通
- 汽车吊、随车吊起重吊装施工方案
- 中外政治思想史练习题及答案
- 降低阴式分娩产后出血发生率-PDCA
评论
0/150
提交评论