数据分析实验指导书_第1页
数据分析实验指导书_第2页
数据分析实验指导书_第3页
数据分析实验指导书_第4页
数据分析实验指导书_第5页
已阅读5页,还剩39页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

目录

实脸一描述性分析

实脸二正态总袜的均值检脸

实验三非参数枪脸

实脸四方差分析

实验五回归分析

实脸大判别、聚类分析

实验上主成分分析

实验八因子分析

实验一描述性分析

【实验目的】

1.掌握数字特征的计算[AJ;

2.掌握相关矩阵计算〔A〕。

【实验原理】

数据分析是指用适当的统计方法对收集来的大量第一手资料和第二手资料

进展分析,以求最大化地开发数据资料的I力能,发挥数据的作用;是为了提取有

用信息和形成结论而对数据加以详细研究和祗括总结的过程。

要对数据进展分析,当箧要分析数据中包含的主要信息,如要分析数据的主

要特征,也就是说,要挑究数据的数字特征。对于数据的数字特征,要分析数据

的集中位置、分散程度。数据的分布是正态的还是偏态等。对于多元数据,还要

分析多元数据的各个分量之间的相关性等。

【实验工程设计】

1.给定一组单变量数据,介组it算均值、方差、Q1、Q3、偏度、峰度。

2.给定一组多变量数据,计算相关矩阵。

【实验容】

一、单样本的数字特征计算

(习题1.4)从*商店的营业日中除机抽取12天,得日营业额数据为〔单位:万元〕:

12.5,17.2,9.1,25.4,31.2,20,18.9,22.8,21.1,17.8,25.1,27.7

试求样本均值、样本方差、样本变异系数、样本中位数、上样本四分位数、下样

本四分位数、样本四分位数同他和极差。

1.建数据集

Datad4;

Input*;

Cards;

12.517.29.125.431.22018.922.821.117.825.127.7

Run;

2.使用SAS/分析家"菜单

(1)解开"分析家"界面。

选择SAS界面的级班菜单:"解决方案"A分析""分析家"o

(2)调出数据文件Work.D4o

在界面的空白处,右键弹出菜单,选择级联菜单:块件"A"按SAS名称翻开"o

依次选择退辑库和文件对象,分刖为"Work"、"D4",单方确定"按肌

⑶确定分析方法。

选择界面上的级联菜单:"统计""描述性统计""分布"

⑷输送变量。

首先选中变量*',然后单击"Analyst"按肌即舟成变量的输送,确定变量“'

作为分析变量。单击“QK"。

(5)得到输出结果

上述便那分析家”的调用过程等价于程序调用univariate过程:

procunivariatedata=d4;

Var*;

Run;

3.解答

样本均值mean=

样本方差Variance=

样本变异系数CoeffVariation=

样本上四介位数75%Q3=

样本中位数Median=

样本下四分位数25%Q1=

极差Range=

样本四分位数间班InterquartileRange=

二、相关矩阵计算

(例3.2.3)今对31个人进展3体测试,考察或沸试的七个指标是:年龄(*1)、

体重(*2)、加活量(*3)、1.5英里胞的时间(*4)、休息时的脉搏(*5)、跑步时的脉

持(*6)和附步时记录的最大脉搏(*7)。数据列于表321。现锹对这些指标作一些

相关分析。

1.对于给定E*CEL数据文件,导入数据建数据集e323.sas7bdat

2.使用SAS/INSIGHT菜单

3.输出

实验二正态总体的均值检验

【实验目的】

1.掌握单正态总体样本的均值枪验〔B〕;

2.掌握两独立组样本(服从正态总体)进展均值比较[AJ;

3.掌握两对照组样本(服从正态总体)进展均值比较〔A〕;

4.了解两组样本均值差的置信区间计算〔CK

【实验原理】

1.单样本总体均值的t检脸

2.两独立组样本总炼的方差比较

【实验工程设计】

1.单个正态总体的均值检验;

2.两独立组样本(服从正态总体)进展均值比较检脸;

3.两对照组样本(服从正态总体)进展均值比较检验。

【实验容】

一、单个正态总体的均值校验

(习题1.4)从“商店的营业日中随机抽取12天,得日营业额数据为〔单位:万元〕:

12.5,17.2,9,1,25.4,31.2,20,18.9,22.8,21.1,17.8,25.1,27.7

试检脸:M0=10o

1.建数据集

Datad4;

Input*;

Cards;

12.517.29.125.431.22018.922.821.117.825.127.7

Run;

2.使用SAS/分析家〃菜单

(1)翻开"分析家”界而。

⑵调出数据文件Work.D4o

(3)确定分析方法。

选择界面上的级联菜单:"统计"A"假设检验"A均值的单样本T检聆”

(4)输送变量。

确定变量为分析变量。

(5)得到输出结果

3.解答

HO:M0=10H1:M0#10

检脸方法:t检验

统计量取值:t=—

检验P值;

结论:拒绝/承受H0.

二、两独立组样本(服从正态总体)进展均值比较

(习题1.22)为比较甲、乙两抻安眠药的疗效,将20名患者介成两组,每组10

大,假定服药后延长的腌眠时间都近似服从正态分布且方差相等,潮得其数据如

下:

1.9,0.8,1.1,0.1,-0.1,4.4,5.5,1.6,4.6,3.4

0.7,-1.6,-0.2,-1.2,-0.1,3.4,3.7,0.8,0,2

试问在显著性水平a=0.05下检验两种安眠药的疗效有无显著性差异,p值是多少.

1.建数据集

前面的“分析家"界面不要关闭,切换到程序编辑窗口,输人程序。

Datad22;

Input*y;

Cards;

1.90.7

0.8-1.6

1.1-0.2

0.1-1.2

-0.1-0.1

4.43.4

5.53.7

1.60.8

4.60

3.42

J

Run;

2.使的SAS/分析家"菜单

(1)回到"分析家"界面,调出数据文件work.d22

(2)确定分析方法。

选择级联菜单:"统计"A喂设检脸”A均值的双样本T枪般”

(3)设置数据集work.d22中,各样本分组数据对应的变量个数:,Two

variables"o

(4)输送变量。

将变量输送给"groupf,Y输送给"group2,z,单击"OK"

(5)输出结果如下

(6)涉及到两独立组的方差,继续检验两组方差是否相等。

回到“分析家”界面上,选择级胜菜单"统计"》邯设检验"A节差的双样本T检

脸“

⑺输送变量。

将变量*'输送给"groupf,Y输送给"group2w,单击"OK"。

(8)输出结果如下

3.解答

HO:o1=a2H1:。1六。2

检验方法:F检验

统计量飒值:F=—

检验P值=

结论:拒绝/承受H0.两独立组的方差是/否相等。

HO:M1=U2H1:M1#M2

检验方法:t检验

统计量取值:t=—

检验p值=

结论:拒绝/承受H0.两种安眠药的疗效有/无显著性差异

三、两对照组样本(服从正态总体)进展均值比较

〔习题1.24〕甲、乙两种稻种分别幡种在10块试验田中,每块试验田甲、乙稻

利各抻一半。假设同一块田中两抻作物的产量之差服从正态分布。现获10块田

Datad24;

Input*y;

Cards;

140135137136125140140145128

148131140130135140144131141125

Run;

2.使的SAS/分析家”菜单

⑴回到“分析家"界而,调出数据文件work.d24

⑵确定分析方法。

选择级联菜单:"统计〃A喂设检验""均值的双样本应对T检验”

(3)输送变量。

设置各分组数据对应的变量个数:"Twovariables",并输送变量*',",单击

"OK",得到输出结果如下:

3.解答

HO:p1=p2H1:g六.2

检验方法:t枪舞

统计量取值:世—

检验P值;

结论:拒绝/承受H0,两抻稻抻产量有/无显著性差异.

实验三非参数检验

【实验目的】

1.掌樨卡万检聆:A1;

2.熟悉符合检脸、符号状和检验、状和检聆。

【实验原理】

非参数统计是统计分析的重要组成局部。可是与之很不相称的是它的理论开

展远远不及参数检验完善,因而比较完善的可供更用的方法也不多。在SAS中,

非参数统计主要由UNIVARIATEjj程、MEANS过程和NPAR1WAY过程来实现,使

用SAS的”分析家〃系第可以方便地进展界面操作。

【实验工程段计】

1.对列联表,检脸行变量与列变量的关联性;

2.给定一组未知总体的样本数据,检相u=uO;

3.给定两组未知总体的样本数据,枪验口1二口2。

【实验容】

一、对列蛛表,检脸行变量与列变量的关联性

(习题4.7)下表为「药治疗感冒效果的3/3列表。

疗效'年龄儿童成年老年合计

显著583832128

-ffi284445117

较差23181455

合计10910091300

试同:疗效与年龄是否关联[a=0.05].

1.建数据集

DataJ0407;

D。effect上显普二一肌'较差

Doage='儿童?成年?老年

inputnum;

output;

end;

end;

Cards;

583832

284445

231814

Run;

2.使胪SAS/分析家"菜单

(6)翻开"分析家"界面。

⑺调出数据文件Work.D04070

(8)懈定分析方法。

选择界面上的级联菜单:"统计"A表分析"

得到列坎表的空白界面。

(9)输送变量。

选中变量"effect",单击"Row"按钮;选中变量"age",单击"Column"按钮;选

中变量"num",单击tellCounts”按钮。完成变量输送。显示如下。

(10)。择附加的统计方法。

在列联表分析〔TableAnalysis)界面的右边下角,点击"statistics"按钮,翻开选

项设置页。勾选"chi-squarestatistics"。如下列图。单击"OK"按钮。

值得一提的是,卡方检验默认使用近似计算,目的是为了节省时间。当然也可以

勾选中间的,E*acttest”选项卡,来指定准确检验,只是*些时候的运行时间无法

控制。

(11)得到输出结果

3.解答

HO:H效与年龄独立。

枪腺统计量及其分布:z2Z2(4)

统计量=

检验P值二

结论:

二、对未知总体的一组样本数据,进展均值的非参数检验[HO:M=

(习题4.9)从*企业中随机抽取12名职工,调查他们的年抽人,数据如下〔单

位:万元〕:

5.425.655.645.134.695.134.814.375.826.31

4.785.52

试用舒号枪聆对该企“职工年收入的中位数是否显著超过了5万元进展符号检

验(a=0.05]o

1.建数据集

前面的"分析家”界面不要关闭,切换到程序窗口,运行以下程序。

Datad0409;

i叩utine;

d=ine-5;

cards;

5.425.655.645.134.695.13

4.814.375.826.314.785.52

run;

2.使用SAS/分析家"菜单

(1)在未关闭的“分析家"界面中,调出数据文件Work.D0409。

(2)翻开对应于univariate程序U]能的菜单分析界面。

选择界面上的级联菜单:"统计">描述性统计""分布"

⑶输送差值变量"d"。选中差值变量"d",单击Analysis框。单击"0K"。

⑷得到输出结果°

3.解答

HO:m=5H1:m>5

①符号检脸

检验统计量及其分布:$+〃(12,0.5)

统计量s+=2+E(S+)=8

检验p值=0.3877/2=0.194〔单边检验,故概率除以2〕

结论:承受H0o

②符号扶检验〔前提:假定总体的分布式对称的〕

检验统计量〃代表差值变量d中取值为正的数据项帙总和。

统计量T+=19+E(T+)=19+12(12+1)/4=19+39=58,

检验Plt=0.1455/2=0.〔单边检器,故概率除以2〕

结论:承受H0o

三、两组未知总体的样本数据,非参数检验总体均值

〔习题4.12)在甲、乙丙台同型梳棉机上,进展纤维箕移率试脸,除机台外其他工艺条件

M一样,经试盼得两个容量不同的纤维转移率样本数据如下表:

甲8.6359.9.2318.7979.8710.325

乙7.3427.4368.038.9469.1316.8238.9658.6968.345

试用株和检验,对纤维杨秘率而言,这两台机器是否存在显著的机台差异[a=0.05].

1.建数据集

前面的“分析家"界面不要关闭,切换到程序窗口,运行以下程序。

datad04012;

input*class$;

;

cards

5

8.63

9.甲

9.231甲

7

8.79甲

9.87甲

25

10,3乙

2

7.34乙

6

7.43乙

8.03乙

6

8.94乙

9.131乙

3

6.82乙

5

8.96乙

6

8.69乙

5

8.34

run;

ay过

padw

运行n

2.

o*on;

wilc

4012

ta=d0

ayda

ar1w

prop

c;

class

;

var*

run;

结果

输出

得到

3.

解答

4.

差异(

显著的

器存在

两台机

H1:

2〕

g=u

异〔即

的差

显著

没有

机器

两台

HO:

2)

g-

和),

的株

据中

合数

在混

数据

样本

机器的

表甲台

T代

计量

7,(豌

T=6

zz

〕,

|Z|

Pr>

d

・side

Two

验的

z检

选用

验,应

双边检

292

值=0.0

检验P

O,

拒绝H

著差异

存在显

台机器

认为两

题】

【思考

别。

的区

检验

参数

脸和

数检

非参

说出

问题1

变量d

差值

引入

要以

有需

问题

几类

有哪

,都

聆中

数枪

非参

说出

问题2

实验四方差分析

【实验目的】

3,掌提单因素力差分析、多重比较〔A〕;

4.掌握两因素方差分析算〔A〕。

【实验原理】

力差分析(analysisofvariance,简称AN0VA)是用来对多个总体的均值作比较

检验的统计方法。在进展单因素方差分析时,如果检验拒绝了原假设,则我们有

时还需进一步检脸到底哪些均值之间存在差异,出同时比较任意两个水平下的总

体均值有无显著差异的问题称为多重比较问题。常用的有费希尔LSD法和邦弗

伦尼法。

【实验工程设计】

1.进展单变量方差分析;

2.考虑交互作用进展双因素方差分析;

3.不考虑交互作用进展双因素方差分析。

【实验容】

一、单因素方差分析&多重比较

CM5.1.1)为检验甲、乙、丙三种型号的机器混合一批原料所需平均时间是否一样,*管理

人员得到了混合原料所需时间的如表5.1.1所示的数据。

机器所需时间

甲212522262322

乙272325242726

丙192221252120

(M5.2.1)在倒5.1.1中,k=3,n1=n2=n3=6,n=18,并假定在三个水平下的总体3布皆为正态,

且方差相等。试给出方差分折表〔参考教材124页〕并进展多重比较。

1.建数据集

/*引入组别变量a和数值变量*,建数据集C05017

Datac0501;

input*;

if_n_<7thena='甲';

elseif_n_<13thena='乙

elsea='丙';

cards;

212522262322

272325242726

192221252120

run;

2.使用"SAS/分析家”菜单

⑴翻开"分析家”界面,调出数据文件Work.C05010

⑵翻开单因素方差分析界面。

/*SAS\ANALYST菜单:•统计"A方差分析(A)"A单向方差分析(0)"*/

⑶输送变量。

⑷得到输出结果。

脸证:SST=SSA+SSE

3.进展多重比较

⑴翻开单因素方差分析界面

/*SAS\ANALYST菜单:•统it”》方差分析伍厂A单向方差分析(0)"*/

(2)单击界而上的"Means”按钮

单击选项卡"parisonMethod"右倒的黑色下箭头,弹出的列表中选择适宜的方法。

(3)3用Fisher'sLSD法的多重比较结果〔参考教材126页〕

(4)使用邦弗伦尼尼的多重此较结果〔参考教材127页〕

二、考虑交互作用的双因素方差分析

CM5.3.1)为研究影用合成纤维抗断强度的因素,表5.3.1记录了三位操作员用

同一批产品的纤维在瓜台生产机器上试验的数据。

机器甲乙丙丁

操作员

1109,110110,115108,109110,108

2110,112110,111111,109114,112

3116,114112,115114,119120,117

〔例5.3.2〕在例5.3.1中,a=3,b=4,r=2,并假定在12个水平组合下的总体分布皆

为正态,且方差相等。试给出方差分析表〔参考教材136页〕

1.建数据集

/*引人因素变量A、B和数值变量*,建数据集C0502*/

Datac0502;

DoA='p1','p2,;p3,;

DoB=甲,Z,'丙;「;

Dor=1,2;

Input*;

Output;

End;end;end;

cards;

109110110115108109110108

110112110111111109114112

116114112115114119120117

>

Run;

2.使用"SAS/分析家”菜单

⑴翻开"分析家”界面,调出数据文件Work.C05020

⑵翻开双因素方差分析界面。

/*SAS\ANALYST菜单:,统计"A方差分析(A)"片因子方差分析(0)"*/

(3)输送双因素变量A、B和数值变量*。保存窗口。

(4)输送交互因素AxB。

单击Model按钿,弹出如下页面。同时迭中左If变1A、B,单击cross按钿,完成交互因素

的添加。单击PK”按钮。

(5)得到输出结果。

三、不考虑

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论