SPSS统计软件课程作业_第1页
SPSS统计软件课程作业_第2页
SPSS统计软件课程作业_第3页
SPSS统计软件课程作业_第4页
SPSS统计软件课程作业_第5页
已阅读5页,还剩14页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

《SPSS统计软件》课程作业

I.某单位对100名女生测定血清总蛋白含量,数据如下:

74.378.868.878.070.480.580.569.771.273.5

79.575.675.078.872.072.072.074.371.272.0

75.073.578.874.375.865.074.371.269.768.0

73.575.072.064.375.880.369.774.373.573.5

75.875.868.876.570.471.281.275.070.468.0

70.472.076.574.376.577.667.372.075.074.3

73.579.573.574.765.076.581.675.472.772.7

67.276.572.770.477.268.867.367.367.372.7

75.873.575.073.573.573.572.781.670.374.3

73.579.570.476.572.777.284.375.076.570.4

计算样本均值、中位数、方差、标准差、最大值、最小值、极差、偏度和峰度,并给出均

值的置信水平为95%的置信区间。

第1步数据组织:

定义1个变量为:“血清总蛋白含量”,其度量标准为“度量

第2步探究分析设置:

选择菜单”分析一描述统计一探究“,打开“探究对话框,,将“血清总蛋白含量”

字段移入“因变量列表

打开“统计量”对话框,选中“描述性”选项;

打开“探究:图”对话框,选中“按因子水平分组”、“茎叶图”、“带检验的正态图”、

“直方图”等选项。

打开“探究:选项”,选中“按列表解除个案”选项。

第3步运行结果及分析:

描述

统计量标准误

血清总蛋白含量均值73.6680.39389

均值的95%置信区间下限72.8864

上限74.4496

5%修整均值73.6533

中值73.5000

方差15.515

标准差3.93892

微小值64.30

极大值84.30

范围20.00

四分位距4.60

偏度.054.241

峰度.037.478

表中显示“血清总蛋白含品”的描述性统计量,左表中只显示的是均值、均值的95%置信

区间的上下限、中值、方差、标准差、极大/小值、偏度、峰度等

2.绘出习题1所给数据的直方图、盒形图和QQ图,并推断该数据是否听从正态分布。

直方图

均值=73.67

标准倨差.=3.939

N=100

血清总蛋白含纸的标准Q・Q图

上图为标准Q-Q图,Q-Q图可以用来检验数据是否听从某种分布,在Q-Q图中,检验数据

是否较好地听从给定分布的标准有两个:①看标准Q-Q图上的数据点及直线的重合度;②

Q-Q趋势图上的点是否关于直线Y=0在较小的范围内上下波动。从上图中可以看出,题目

中的数据及直线重合度较好,故很好地听从正态分布,这及前面的正态检验表中的结果是一

样的

血清总蛋白含量的趋降标准QYI图

观测值

85.00-

80.00-

75.00-

70.00-

65.00-

60.00-

血消总蛋门含St

箱图中显示血清蛋白总含量数据绘制成对应的箱体。每一个箱体上方那条线的取值代表该分

组中最大值,下方那条线的取值代表最小值。箱体自身的三条线从上到下分别代表3/4分位

点、中位点、1/4分位点的取值。

正态性检验

Kolmogorov-Smirnov1Shapiro-Wilk

统计量dfSig.统计量dfSig.

血清总蛋白含量.073100.200,.990100.67.

a.Lilliefors显著水平修正

*.这是真实显著水平的下限。

表中显示了血清总蛋白含量的两种检验方法的正态性检验结果,包括各分组的统计量、自由

度及显著性水平,以K-S方法的分析:其自由度sig.=0.200,明显大于0.()5,故应接受原侵设,

认为题中数据听从正态分布

3.正常男子血小板计数均值为225x103L,今测得20名男性油漆工作者的血小板计数值

(单位:109/L)如下:

220188162230145160238188247113

126245164231256183190158224175

问油漆工人的血小板计数及正常成年男子有无异样?

分析:这是一个典型的比较样本均值和总体均值的T检验问题;

第1步数据组织:

首先建立SPSS数据文件,只需建立一个变量“血小板计数”,录入相应的数据即

第2步单样本T检验分析设置

选择菜单”分析一比较均值一单样本T检验(S)”,打开“单样本T检验”对话

框,将变量“血小板计数”移入“检验变量”列表框,并输入检验值225;

打开“单样本碓验:选项”对话框,设置置信区间为95%(缺省为95%);

单个样本统计量

N均值标也差均值的标准误

血小板计数20192.150042.236529.44437

上表给出了单样本抽验的描述性统计量,包括样本数(N)、均值、标准差、均值的标准

误。

单个样本检验

检验值=225

差分的95%置信区间

tdfSig.(双侧)均值差值下限上限

血小板计数-3.47819.003-32.85000-52.6173-13.0827

本例置信水平为95%,显著性水平为0.05,从上表中可以看出,双尾检测概率P值为0.003,

小于0.05,故原假设不成立,也就是说,男性油漆工作者的血小板及225x1()9有显著性

差异,无理由信任油漆工人的血小板计数及正常成年男子无异样。

4.在某次考试中,随机抽取男女学生的成果各10名,数据如下:

男:99795989798999828085

女:88545623756573508065

假设总体听从正态分布,比较男女得分是否有显著性差异。

第1步数据组织:

在SPSS数据文件中建立两个变量,分别为“性别”、“成果”,度量标准分别为

“名义”、“度量”,变量“品种”的值标签为:b一男生,g一女生,录入数据。

第2步独立样本储验设置:

选择菜单“选择一比较均值一独立样本能验”,打开“独立样本丸佥验''对话框,将“成

果,,作为要进行,检验的变量,将“性别”字段作为分组变量,定义分组变量的两个分组

分别为“b”和“g”。

打开“独立样本璃验:选项”对话框,具体选项内容及设置及单样本T检验相同。

组统计量

性别N均值标准差均值的标准误

成果男生1084.00001:.527743.64539

女生1062.900018.453855.83562

上表给出了本例独立样本T检验的基本描述统计量,包括两个样本的均值、标准差和均值的

标准误。

独立样本检验

方差方程的Levene检验均值方程的t检验

差分的95%置信区间

FSig.tdfSig/双侧)均值差值标准误差值下限上限

成果假设方差相等1.607.2213.06718.00721.100006.880656.6442935.55571

假设方差不相3.06715.096.00821.100006.880656.4423535.75765

依据上表“方差方程的Levene检验”中的sig.为0.221,远大广设定的显著性水平0.05,故本

例两组数据方差相等。在方差相等的状况下,独立样本T检验的结果应当看上表中的“假设

方差相等“一行,第5列为相应的双尾检测概率(Sig.(双侧))为0.007,在显著性水平为0.05

的状况卜,T统计量的概率p值小于0.05,故应拒绝零假设,,即认为两样本的均值不是相等

的,在本例中,能认为男女得分绩有显著性差异。

5.设有5种治疗尊麻疹的药,要比较它们的疗效。假设将30个病人分成5组,每组6人,

令同组病人运用一种药,并记录病人从运用药物起先到痊愈所需时间,得到下面的记录:

药物类别治愈所需天数

15,8,7,7,10,8

24,6,6,3,5>6

36,4,4,5,4,3

47,4>6.6,3,5

59,3,5,7,7,6

问全部药物的效果是否一样?

第1步分析:

由于考虑的是一个限制变审(药物)对一个观测变最(治愈所需天数)的影响,而

且是五种药物,所以不适宜用独立样本T检验(仅适用两组数据),应接受单因素方差

分析。

第2步数据的组织:

数据分成两列,一列是治愈所需天数,变量名为“治愈所需天数”,另一变量是药物

种类(变量值分别为123,4,5),变量名为“药物种类”,输入数据并保存。

第3步方差相等的齐性检验:

由于方差分析的前提是各个水平下(这里是不同的药物种类影响下的治愈所需天

数)的总体听从方差相等的正态分布,且各组方差具有齐性。其中正态分布的要求并不

是很严格,但对于方差相等的要求是比较严格的,因此必需对•方差相等的前提进行检验。

误差方差等同性的Levene检验'

因变量:治愈所需天数

Fdfldf2Sig.

.552425.699

检验零假设,即在全部组中因变量的误差方差均相

等.

a.设计:截距+药物类别

方差齐性检验的H0假设是:方差相等。从上表可看出相伴依据Sig.=0.699>(0.05)说明应当

接受H0假设(即方差相等)。故下面就用方差相等的检验方法。

ANOVA

治愈所需天数

平方和df均方F显著性

组间36.46749.1173.896.014

组内58.500252.340

总数94.96729

上表是几种饲料方差分析的结果,组间(BetweenGroups)平方和(SumofSquares)为36467,

自由度(df)为4,均方为9.117;组内(WithinGroups)平方和为58.500,自由度为25,均

方为2.340;F统计量为3.896。由于组间比较的相伴概率Sig.(p值)=0.014<0.05,故应拒绝

H0假设(四种饲料喂猪效果无显著差异),说明五种药物对治愈所需天数有显著性差异。

第4步多重比较分析:

通过上面的步骤,只能推断4种饲料喂猪效果是否有显著差异。假如想进一步了解

原委是哪种药物及其他组有显著性的均值差别(即哪种药物更好)等微小环节问题,就

须要在多个样本均值诃进行两两比较。由于第3步检验出来方差具有齐性,故选择一种

方差相等的方法,这里选LSD方法;显著性水平默认取0.05;

多个比较

治愈所需天数

LSD

95%置信区间

(I)药(J)药

物类别物类别均值差值(I-J)标准误差下限上限

类别】类别22.5000,.88318.009.68114.3189

类别33.166T.88318.0011.34774.9856

类别42.3333..88318.014.51444.1523

类别51.3333.88318.144-.48563.1523

类别2类别1-2.5000'.88318.009-4.3189-.6811

类别3.6667.88318.457-1.15232.4856

类别4-.1667,88318.852-1.98561.6523

类别5-1.1667.88318.198-2.9856.6523

类别3类别1-3.1667,.88318.001-4.9856-1.3477

类别2-.6667.88318.457-2.48561.1523

类别4-.8333.88318.354-2.6523.9856

类别5-1.8333,.88318.048-3.6523-.0144

类别4类别123333,.88318.014-4.1523-.5144

类别2.1667.88318.852-1.65231.9856

类别3.8333.88318.354-.98562.6523

类别5-1.0000.88318.268-2.8189.8189

类别5类别1-1.3333.88318.144-3.1523.4856

类别21.1667.88318.198-.65232.9856

类别31.8333,.88318.048.01443.6523

类别41.0000.88318.268-.81892.8189

基于观测到的均值。

误差项为均值方(错误)=2.340。

*.均值差值在.05级别上较显著。

从整个表反映出来五种药物相互之间均存在显著性差异,从效果来看是第3种最好•,其次是

第2种,第1种最差。

治愈所需天数的估算边际均值

上图为几种药物均值的折线图,可以看出均值分布比较陡峭,均值差异也较大。

6.某公司在各地区销售一种特殊化妆品。该公司观测了15个城市在某月内对该化妆品的

销售量Y及各地区适合运用该化妆品的人数XI和人均收入X2,得到数据如下:

地区销售(箱)人数(千人)人均收入(元)

11622742450

21201803254

32233753802

41312052838

567862347

61692653782

781983008

81923302450

91161952137

1055532560

112524304020

122323724427

0

141031572088

5

(1)画出这三个变量的两两散点图,并计算出两两之间的相关系数。

销售状与人均收入之间的散点图

300.00-

250.00-

200.00-

150.00-

100.00-

50.00-

2000.002500.003000.003500.004000.00450000

人均收入

销售量与人数之间的散点图

300.00-

250.00-

200.00-

15000-

100.00-

50.00-

0.00100.00200.00300.00400.00500.00

人数

人均收入与人数之间的散点图

4500.00-

4000.00-

3500.00-

3000.00-

2500.00-

2000.00-

0.00100.00200.00300.00400.00500.30

人数

⑵试建立Y及XLX2之间的线性回来方程,并探讨相应的统计推断问题,同时预料适合

购买此化妆品的人数为220千人,人均收入为2500元的某城市对该化妆品的销量。

第1步分析:

这是一个因变量和两个自变量之间的问题,故应当考虑用一元线性回来解决。

第2步数据组织:

定义三个变量,分别为“z”(销售量)、“x”(人数)、“y”(人均收入)。

第3步一元线性回来分析设置:

选择菜单“分析一回来一线性”,打开“线性回来”对话框,将变量“销售量”作

为因变量,“人数”和“人均收入”作为自变量。

打开“统计量”对话框,选上“估计”和“模型拟合度”。

单击“绘制(T)…”按钮,打开“线性回来:图”对话框,选用DEPENDENT作

为y轴,*ZPRED为x轴作图。并且选择“直方图”和“正态概率图”

作相应的保存选项设置.,如预料值、残差和距离等。

输入/移去的变量

模型输入的变量移去的变量方法

1人均收入,人就•输入

a.已输入全部请求的变量。

表中显示回来模型编号、进入模型的变量、移出模型的变量和变量的筛选方法。可以看出,

进入模型的自变量为“销售量”

模型汇总b

模型RR方调整R方标准估计的误差

1.999」.999.9992.17722

a.预料变量:(常量),人均收入,人数。

b.因变量:销售量

R=0.999,说明自变量及因变量之间的相关性很强。R方/2)=0.999,说明自变量“销出量”

可以说明因变量“人数”和“人均收入”的99.9%的差异性。

Anovab

模型平方和df均方FSig.

1回来53844.716226922.3585679.466.000,

残差56.884124.740

总计53901.60014

a.预料变量:(常量),人均收入,人数。

b.因变量:销售量

表中显示因变量的方差来源、方差平方和、自由度、均方、F检验统计量的观测值和显著性

水平。方差来源有回来、残差。从表中可以看出,F统订量的观测值为5679.466,显著性概

率为0.000,即检验假设“H0:回来系数B=0”成立的概率为O.OOO,从而应拒绝原假设,说明

因变量和自变量的线性关系是特殊显著的,可建立线性模型。

系数’

非标准化系数标准系数

模型B标准误差试用版tSig.

1(常量)3.4532.4311.420.181

人数.496.006.93481.924.000

人均收入.009.001.1089.502.000

a.因变星:销售星

表中显示回来模型的常数项、非标准化的回来系数B值及其标准误差、标准化的回来系数

值、统计量/值以及显著性水平(Sig.)。从表中可看出,回来模型的常数项为3.453,自变

量“人数”的回来系数为0.496,“人均收入”的回来系数为0.009.因此,可以得出回来方程:

销售量=3.453+0.496X人数+0.009X人均收入。

回来系数的显著性水平为0.000,明显小于0.05,故应拒绝T检验的原假设,这也说明白回

来系数的显著性,说明建立线性模型是恰当的。

当购买此化妆品的人数为220千人,人均收入为2500元时,该城市该化妆品的销量为:

销售量=220X0.496+0.009X2500+3.453=135.073箱

系数‘

非标准化系数标准系数相关性

模型B标准误差试用版tSig.零阶扁部分

1(常量)3.4532.4311.420.181

人数.496.006.93481.924.000.995.999.768

人均收入.009.001.1089.502.000.639.940.089

a.因变量:销售量

7.探讨青春发育阶段的年龄和远视率的变更关系,测得数据如下

年67891011128

远63.661.038.813.714.8.04.42.22.01.02.53.12.9

视4645571792128

请对年龄及远视率的关系进行曲线估计。

第1步分析:

先用散点图的形式进行分析,看原委是否具有一元线性关系,假如具有一元线性关

系,则用一元线性【可来分析,否则接受曲线估计求解。

第2步数据组织:

定义为两个变量,分别是“x”(年龄)、“y”(远视率),输入数据并保存。

第3步作散点图初步判定变量的分布趋势:

年龄与远视率散点图

60.00-

6.008.0010.0012.0014.0016.C0

年龄

第4步进行曲线估计:

依次选择菜单••分析可来一曲线估计“,将全部模型全部选上,看哪种模型拟合效

果更好(主要看确定系数R2),其全部模型的拟合优度R2如下表所示。

模型汇总和参数估计值

因变量:近视率

模型汇总参数估计值

方程R方FdflDf2Sig.常数blb2b3

线性.75828.18219.00088.1986265

对数.85151.22119.000180.617-68.560

倒数.91293.29119.000-48.486679.341

二次.95381.44828.000214.566-31.3111.138

三次.95650.63837.000271.869-48.7352.804-.050

复合.925110,42219.000834.164.658

福.934127.8^819.000232454.999-4.351

S.90182.30119.000-1.96340.901

增长.925110.42219.0006.726-.419

指数.925110,42219.000834.164-.419

Logisti.925110,42219.000.0011.520

c

自变量为年龄。

从确定系数(R方即R2)来看,三次曲线效果最好(因为其R2值最大),并且方差分析的

显著性水平(Sig.)为0。故重新进行上面的过程,只选“三次曲线(Cubic)”一种

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论