版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
《应用多元统计分析》实验教案《应用多元统计分析》实验教案数学与计算科学学院二〇一五年三月目录TOC\o"1-3"\f\h\z\u15824SAS系统简介 14039第一讲SAS软件应用基础 43490第二讲描述性统计分析 931936第三讲多元正态总体参数的假设检验 1727015第四讲判别分析方法 2922589第五讲聚类分析 42685第六讲主成分分析 567827第七讲因子分析 6415469第八讲对应分析 721200第九讲典型相关分析 76PAGE80SAS系统简介SAS(StatisticalAnalysisSystem)系统是国际著名的数据分析软件系统。该系统1966年开始研制,1976年由美国SAS公司实现商业化,1985年推出SAS/PC版本,1987年推出6.03版,目前已推出Windows系统支持的8.2和9.0版,是目前国际上公认的著名的数据统计分析软件系统之一。从1976年SAS开发成功至今,SAS的用户遍及119个国家,它已经成为同类产品中的领导者。在财富500强中,有90%的公司使用SAS。而在财富500强的前100家企业中,有98%的公司使用SAS。如此广泛的应用源于SAS系统的强大的分析功能、可组合的模块式软件系统和简单易学。SAS系统是集数据分析、生成报表于一体的一种集成软件系统。它由基本部分和外加模块组成,其中基本部分包含的功能如下:–基本部分:BASESAS部分;–统计分析计算部分:SAS/STAT;–绘图部分:SAS/GRAPH;–矩阵运算部分:SAS/IML;–运筹学和线性规划:SAS/OR;–经济预测和时间序列分析:SAS/ETS。1.1.SAS的启动1.2.SAS8.0软件界面SAS界面包括三个部分,即程序窗口、日志窗口和输出窗口。EDITOR(程序窗口)编辑窗口用于编辑SAS源程序文件。编辑窗口支持全窗口编辑功能,即光标可以在整个窗口内随意移动,支持Windows系统常规编辑操作,如复制、剪切、粘贴等功能操作。SASV8提供了智能编辑功能,它可根据用户输入的SAS关键字、语句选项、变量名、数据、标记等不同内容显示不同的颜色,当用户输入的字串不正确时,对应颜色不对,警告使用者有错误发生。LOG(日志窗口)运行记录窗口用于显示和记录SAS程序的运行情况,说明程序运行成功或存在错误,当程序出现错误时,LOG记录窗口中以红色字符显示错误信息,以绿色显示一些警告信息。提示使用者修改程序中的错误。OUTPUT(输出窗口)分页显示SAS程序运行所产生的文本输出结果(图形输出通过GRAPHICS窗口显示)。对于文本结果的输出,可以使用主界面的菜单File|SaveAs将结果文档保存在磁盘中,保存的文件扩展名为.lst,但实际上是一种文本文件格式,可以使用文字处理软件,如Word或写字板、记事本等打开并进行编辑修改。对于输出到GRAPHICS窗口的图形,可以使用菜单File|ExportasImage将图形导出保存在磁盘中,图形文件格式可以在“保存类型”下拉列表中选择。SAS程序结构SAS程序采用模块化结构,模块之间相互独立,每个模块完成一个任务。模块分为两种类型:一种类型是数据模块,数据模块以英文单词data作为开始语句。另一种类型是程序模块,程序模块以proc作为开始语句。模块中的语句之间用“;”分隔,同一个语句的不同项之间必须用一个以上的空格分隔。在一个程序中可以包含多个数据模块和程序模块,模块的位置是任意的。程序按照语句出现的先后顺序执行。(1)SAS程序的语法编写程序时必须遵循所使用的软件的语法规则,SAS程序的语法规则可以归纳为以下几条:①标识符或数据之间至少用一个以上的空格分隔;②每个语句用分号作为结束标志;③变量名或其他名称最多包含8个字符,并且第一个字符为英文字母,名称中不能有空格,或SAS系统的保留符号,如:“-”、“.”、“,”、“…”、“$”等;④SAS程序可以处理带有缺失数据的文件,数据缺失值用“.”表示;⑤SAS程序只处理数值和字符串两种类型的变量,为了和数值变量相区别,输入语句中字符串变量名使用“$”作为后缀;⑥程序中可以包含注释语句,注释语句以“/*”开始,以“*/”结束;⑦除数据外,SAS程序不区分英文字母的大小写。(2)SAS数据集SAS的核心是SAS数据集是SAS文件的一种,一般又以下两部分组成:(1)描述部分包含该数据集的一般信息,包括:数据集的名字及其成员类型、数据集建立的日期和时间、观测的数目以及数据集中每一个变量的特征信息,包括:Name(变量名)、Type(类型)、Length(长度)、Format(输出格式)、Informat(输入格式)、Label(标签)。(2)数据部分包含数据集中收集的数据的值,可以看作是一个矩形的表格。表格的列(columns)称为变量(variables),对应于原始数据文件或其他一些外部数据库所称的字段(fields);表格的行称为观测(observations),对应于原始数据文件或其他一些外部数据库所称的记录(records)或数据行(datalines)(3)逻辑库SAS的逻辑库分为临时逻辑库和永久逻辑库两种。临时库只有一个,名为work,其他的库均为永久库。SAS每次启动时会自动指定4个库标记:work、Sasuser、Sashelp、Sasmap。存放在work中的SAS文件叫临时文件,当退出SAS系统时这些文件会被自动删除。永久文件保存在永久库中,在退出SAS系统时不会被自动删除。所以,通常把作为中间结果或练习使用的数据集保存为临时数据集,而需要以后再用的数据集则可以保存为永久数据集;如果需要备份,最好在退出前把临时文件复制到其他的库中。在Explorer窗口中单击鼠标右键,在右键菜单中选择New,打开NewLibrary对话框,可以建立新库(如把一个库名为Mylib)。如果选中Enableatstartup复选框,则每次打开SAS时所建逻辑库都有效。(4)数据集的导入建立数据集的方法很多,但是,无论是在Explorer窗口中使用VIEWTABLE程序,或是使用INSIGHT模块和“分析家”,还是使用编程操作中专门的数据读入方法来建立数据集,都需要将数据现场输入,费时费力。较为简便的方法是:利用Excel录入数据,并做简单处理,然后将Excel数据表导入到SAS数据集中。导入Excel数据表的步骤如下:①在SAS应用工作间中,选择菜单File下的Importdata……,打开导入向导ImportWizard第一步:选择导入类型(Selectimporttype),默认的类型为Excel数据表,单击Next按钮进入下一步。②在第二步的Selectfile对话框中,单击Browse按钮,在“打开”对话框中选择所需要的Excel文件,返回。然后,单击Option按钮,选择所需工作表,单击OK按钮返回。单击Next按钮进入下一步。③在第三步的Selectlibraryandmember对话框中,选择导入数据集所存放的逻辑库以及数据集的名称,单击Next按钮进入下一步。④在第四步的CreateSASStatements对话框中,可以选择将系统生成的程序代码存放的位置,也可不做选择,直接单击Finish按钮,完成数据集的导入。第一讲SAS软件应用基础(2学时)一、实验目的了解SAS程序结构及SAS8.0的使用方法;掌握使用DATA步建立SAS数据集的方法。二、实验要求1.会建立数据集;2.会计算样本的数字特征。三、实验相关SAS知识例1、SAS数据集的导入和导出内容:(1)将SAS数据集L3.Stu01导出为Excel数据集:ex1.xls;(2)将Excel数据集:ex2.xls导入SAS数据集为L3.Stu02;解:(1)菜单方式:File/Exportdata→选择库名,数据集名(L3.stu02)→Next→选择要导出的数据格式,默认的是Excel→Next→指定存放数据的路径及名称→在Brose中选择要保存相应程序的路径及名称(可省略)→Finish编程方式:(2)菜单方式:先建立好Excel数据,并关闭文件.(注意:Excel数据文件中,第一行应为数据变量名,这个名称只能用英文字母和数字)File/Importdata→选择要导入的数据格式,默认的是Excel→Next→选择Excel数据文件ex2.xls→Next→指定存放数据的库名及名称→在Brose中选择要保存相应程序的路径及名称(可省略)→Finish编程方式:例2、建立以下数据集,并计算数学和英语的平均成绩。姓名出生日期学号数学英语王红1977-06-029810019096李明1978-03-239810028290张平江1978-12-239810038895解:(一)建立数据集菜单方式.(1)打开SAS界面→在explorer窗口双击Libraries→选择自己常用的逻辑库,右击→点击new→点击table→点击OK,即可出如下现viewtable表格:(2)右击A,然后点击columnattributes,出现如下窗口:将变量名(name)框中的A改为”name”,Label框填“姓名”,点击“Apply”,然后关闭该窗口,出现:并在姓名下方的三个表格中分别输入王红,李明,张平江.(3)右击B,然后点击columnattributes,出现如下窗口:将变量名(name)框中的B改为”birth”,Label框填“出生日期”,type中选“Numeric”,format中点击”…”出现:在Name下方选择“yymmdd”,width中选择“10”,点击OK;在informat中点击”…”,然后在出现的窗口中,用同样的方法处理,出现:点击”Apply”,关闭该窗口,出现:在出生日期栏,分别输入:“19770602”、“19780323”、“19781223”(4)右击C,然后点击columnattributes,出现如下窗口:将变量名(name)框中的C改为”no”,Label框填“学号”,type中选“Numeric”,点击“Apply”,然后关闭该窗口,出现:输入对应的学号即可.数学和英语的成绩变量名分别为:Math和English,其输入方式学号的类似,输入完后注意保存,最后可得数据集:编程方式DATAS2;INPUTNAME$1-8BIRTHYYMMDD10.noMATHENGLISH;CARDS;王红 1977-06-02 981001 90 96李明 1978-03-23 981002 82 90张平江 1978-12-23 981003 88 95;Run;PROCPRINT;FORMATBIRTHyymmdd10.;RUN;打印出的结果是:(二)计算平均数在上面的程序的第二行和第三行之间添加一句“avg=(math+english)/2;”即:DATAS2;INPUTNAME$1-8BIRTHYYMMDD10.noMATHENGLISH;avg=(math+english)/2;CARDS;王红 1977-06-02 981001 90 96李明 1978-03-23 981002 82 90张平江 1978-12-23 981003 88 95;Run;PROCPRINT;FORMATBIRTHyymmdd10.;RUN;打印的结果:四、实验内容 学生管理数据库中数据集如下: 姓名出生日期年龄入学日期学号数学英语王红1977-06-02221998-09-10981001212073李明1978-03-23211998-09-10981000411268徐凯歌1978-11-14211998-09-10981003413078吴青云1978-04-12211998-09-10981002310984李清华1978-10-24211998-09-10981002410078张平江1978-12-23211998-09-10981000514078分别用菜单方式和编程方式建立以上数据集。五、课后练习学生管理数据库中数据集如下: 姓名出生日期年龄学号数学英语王红1977-06-022298100129073李明1978-03-232198100048868徐凯歌1978-11-142198100349278吴青云1978-04-122198100238984李清华1978-10-242198100248378张平江1978-12-232198100059678(1)要求用菜单方式将上数据集建立成一个SAS数据集;(2)请计算数学成绩的均值、方差、标准差、变异系数、偏度、峰度。第二讲描述性统计分析(2学时)一、实验目的了解SAS程序结构及SAS9.2的使用方法。掌握使用DATA步建立SAS数据集的方法。3.掌握使用Means、Univariate、Corr等PROC步进行描述性统计分析。二、实验要求4.会用SAS软件对建立的数据集进行分析5.学会用Gplot画出统计散点图。三、实验原理及常用统计量设是总体的一个样本。有如下概念:样本均值(Mean): 样本方差(Var): 样本标准差(Std): 样本变异系数(CV): 偏度(SKEWNESS): 峰度(KURTOSIS): 中位数(MEDIUM): 分位数: 上四分位数: 下四分位数: 三均值: 极差(RANGE)四、实验相关SAS知识Proc步具有大致相同的程序结构:PROC过程名<option(s)><statistic-keyword(s)>; Varvariables; <otheroption(s)>;Run;其中: option(s):Data=要分析的数据集(缺省为最新建立的数据集);variables:要进行统计分析的变量列表(缺省为数据集中的全部变量)。(1)Procmeans过程Procmeans过程的完整语句:procmeansoptions;byvariables;varvariables;outputout=sasdatasetkeyword=name….;①data=sasdataset:即在等号后指明所要分析的sas数据集名称。若此项没有,则sas系统对最新建立的数据集作分析。②MAXDEC=k:其中k为介于0与8之间的一个整数,该项指明在输出数据时小数点保留k位。Sas系统默认值为k=2。③关键词:逐个列出要计算其值的统计量的名称的关键词,最常用的有以下几个统计量: N 样本容量Mean 均值 Var 方差STD 标准差 CV 变异系数Skewness偏度 Kurtosis峰度Midian 中位数 Q3 上四分位数Q1 下四分位数 QRange 四分位极差P1第一百分位数P5第五百分位数P10第十百分为数P90第九十百分为数P95第九十五百分位数P99第九十九百分位数④Varvariables;该语句是指出数据集中要计算简单描述性统计量的变量名称。若省略此句,则sas系统对数据集中所有数值变量均计算各自在前一句指定的那些描述性统计量的值。⑤outputout=sasdatasetkeyword=name…;此句建立一个由procmeans过程的分析结果构成的sas数据集,以备进一步分析之用。在“out=”后命令要建立的数据的名称,但要想将此数据文件保留起来,就要建立一个永久性数据文件,需要用两级名称,如“RESULT.OUT”。(2)ProcUnivariate过程主要语句形式如下:ProcUnivariateoptions;Varvariables;Outputout=SASdatasetkeyword=name……;语句中“options”部分可以是下列内容的部分或全部:①data=数据集名:指明所要分析的数据集,若省略则表示分析最新生成的数据集。②plot:要求对所分析的各变量的观测值产生一个茎叶图(或水平直方图)、一个箱线图和一个正态QQ图。若某区间的观测值超过48,则不绘制茎叶图,而改绘制直方图。在正态QQ图中,以“*”表示正态QQ图上的点,以“+”表示相应的参考直线。③freq:要求生成包括变量值、频数、百分数和累计百分数的表。④normal:要求对分析的各变量的观测值进行正态性检验,并输出相应的p值。若样本容量不超过2000则使用W统计量进行检验;若样本容量大于2000则使用D统计量进行检验。正态分布的均值和方差分别取样本均值和样本方差。(3)ProcCorr过程主要语句形式如下:Proccorroptions;Varvariables;Withvariables;其中“options”部分可以是下列内容的部分或全部:①data=数据集名:指明所要分析的数据集,若省略则表示分析最新生成的数据集。②pearson:要求输出pearson相关系数矩阵(SAS系统默认的输出结果)。③spearman:要求输出spearman秩相关系数矩阵。④cov:要求计算协方差矩阵。⑤nosimple:指明不输出每个变量的简单描述性统计量。Varvariables中的“variables”则指出了要计算相关系数矩阵或协方差阵的变量名称,它可以是原数据中数值变量的一部分;若省略此句则SAS系统计算关于数据集中所有数值的相关系数矩阵。(4)procgplot过程procgplot过程的一般格式procgplotdata=<数据集名>;plot<纵轴变量>*<横轴变量>[=<变量>][/<选项>];symboln<选项>;run;此句是用来画散点图的,其中Symbol语句是专门指令绘制的格式,一个GPLOT程序中允许使用多个Symbol语句,所以就有Symbol1,Symbol2,…,Symboln.Symbol语句中有许多选项,最常用的三大选项是:C图线的颜色,可以自由选择red(红色)、black(黑色)、green(绿色)、blue(蓝色)、pink(粉色)等。V表示观察值的图形,可自由选择star(星形)、dot(点)、circle(圆圈)、diamond(菱形)等各种形状,也可选择none(不使用特别图形标注观察值)。I观察值之间的连线,可自由选择join(线性连接)、spline(光滑连接)needle(作观察值到横轴的悬垂线)等各种连线方式,也可选择none(不作任何连接)。五、实验举例[例1]某单位对100名女学生测定血清蛋白含量(g/L),数据如下:74.378.868.878.070.480.580.569.771.273.579.575.675.078.872.072.072.074.371.272.075.073.578.874.375.865.074.371.269.768.073.575.072.064.375.880.369.774.373.573.575.875.868.876.570.471.281.275.070.468.070.472.076.574.376.577.667.372.075.074.373.579.573.574.765.076.581.675.472.772.767.276.572.770.477.268.867.367.367.372.775.873.575.073.573.573.572.781.670.374.373.579.570.476.572.777.284.375.076.570.4请计算均值、方差、标准差、变异系数、偏度、峰度。解:利用A.Procmeans过程如下:dataxueqingdanbai;inputx@@;cards;74.378.868.878.070.480.580.569.771.273.579.575.675.078.872.072.072.074.371.272.075.073.578.874.375.865.074.371.269.768.073.575.072.064.375.880.369.774.373.573.575.875.868.876.570.471.281.275.070.468.070.472.076.574.376.577.667.372.075.074.373.579.573.574.765.076.581.675.472.772.767.276.572.770.477.268.867.367.367.372.775.873.575.073.573.573.572.781.670.374.373.579.570.476.572.777.284.375.076.570.4;run;procmeansdata=xueqingdanbaimeanvarstdcvskewkurt;/*mean均值,var方差,std标准差,cv变异系数,skew偏度kurt峰度*/run;运行结果为:图1简单统计量从而:均值:73.668方差:15.51273标准差:3.9389246变异系数:5.3468597偏度:0.0540593峰度:0.0370225B.ProcUnivariate过程:dataxueqingdanbai;inputx@@;cards;74.378.868.878.070.480.580.569.771.273.579.575.675.078.872.072.072.074.371.272.075.073.578.874.375.865.074.371.269.768.073.575.072.064.375.880.369.774.373.573.575.875.868.876.570.471.281.275.070.468.070.472.076.574.376.577.667.372.075.074.373.579.573.574.765.076.581.675.472.772.767.276.572.770.477.268.867.367.367.372.775.873.575.073.573.573.572.781.670.374.373.579.570.476.572.777.284.375.076.570.4;procunivariatedata=xueqingdanbaifreqnormalplot;/*选项freq输出变量频数分配表normal检验样本是否符合正态分布plot绘制茎叶图,盒形图,正态概率图*/varx;run;输出的部分结果:图2正态性检验结果图3位置检验结果表格说明:(1)TestsforNormality:正态分布检验若检验概率值p<0.05,则认为变量不服从正态分布.当样本量<2000时,采用Shapiro-Wilk检验;当样本量>=2000时,采用Kolmogorov-Smirnov检验;(2)TestsforLocation:Mu0=0:检验变量的平均值是否为0.若检验概率值p<0.05,则认为变量的平均值不为0.而且当变量服从正态时,用t统计量,否则用M或S统计量从而,上面的输出结果表明:由于Shapiro-Wilk检验的p值为0.6708>0.05,所以变量服从正态分布;并由Student'st检验的p值为0.0001<0.05,所以y的均值不为0,即单位对100名女学生测定血清蛋白含量均值不为0。图4茎叶图等六、实验内容1.为了研究人体的心肺功能,对31个成面男子测量可肺活量(OXY),并记录了他们的年龄(age)体重(weight),以及简单训练后的测量数据:跑1.5英里的时间(time)、休息事故的脉搏(spulse)、跑步时的脉搏(rpulse)和跑步是记录的最大脉搏(mpulse),共七项指标,数据如下:序号ageweighttimespulserpulsempulseOXY15773.3712.635817417639.40725479.3811.176215616546.08035276.329.634816416645.44145070.878.924817215554.62555167.2511.084816817245.11865491.6312.884416817239.20375173.7110.475918618845.79085759.089.934914815550.54594976.329.405618618848.673104861.2411.505217017647.920115282.7810.505317017247.467124473.0310.134516816850.541134587.6614.035618619237.388144566.4511.125117617644.754154779.1510.604716216447.273165483.1210.335016617051.855174981.428.954418018549.156185169.6310.955716817240.836195177.9110.004816216846.672204891.6310.254816216446.774214973.3710.087616816850.388224489.4711.376217818244.609234075.0710.076218518545.313244485.848.654515616854.297254268.158.174016617259.571263889.029.225517818049.874274777.4511.635817617644.811284075.9811.635817618045.681294381.1910.856416217049.091304481.4213.086317417639.442313881.878.634817018660.055(1)试求出样本均值、样本离差阵,样本协方差阵和样本相关阵。(2)分别画出OXY与time和age的散点图,从图中可以看出什么结论?七.课后练习1.某校为了考察学生的学习情况,就从某年级随机抽取12名学生5门课程期末考试的成绩,数据如下:序号政治(X1)语文(X2)外语(X3)数学(X4)物理(X5)19994931001002998896999731009881961004938888999651009172967869078827597775738897898938483688898773607684109582906239117672436778128575503437(1)试求出样本均值、样本离差阵,样本协方差阵和样本相关阵。(2)分别画出X1与X2,X1与X3和X2与X3的散点图,从图中可以看出什么结论?(3)绘制序号为1,8,10,12的4个人的调和曲线图(放在同一张图上)。第三讲多元正态总体参数的假设检验(2学时)实验目的掌握假设检验的基本步骤;会用SAS软件进行均值假设检验;能够用SAS软件解决实际问题。实验要求会用SAS软件按要求处理数据,给出处理结果和检验结果;对处理结果进行分析和小结。实验原理预备知识:1、单个总体均值向量的检验(1)一维正态总体均值的假设检验设正态总体,为的样本。检验的零假设vs,利用构造检验统计量:,(当已知时)或,(当未知时).确定拒绝域:,其中,拒绝域为:或,其中,拒绝域为:一般选择显著性水平为0.05或者0.01,就可以求出u或t值,即可得到拒绝域。做出判断:由样本值计算出的(或),检验其是否落在拒绝域内,是则认为,否则认为(2)多维正态总体均值向量的假设检验步骤和上面类似,就是把统计量换一下,(a)当已知时,检验统计量为当时,拒绝;当时,接受,其中的上分位点,显然,当时,。(b)当未知时,检验统计量为当时,拒绝;当时,接受;其中为的上分位点。由于,则上检验法则可转化为 当时,拒绝;当时,接受。2、多总体均值向量的检验(1)两个正态总体均值向量的检验设为来自正态总体的随机样本;自正态总体的随机样本,而且相互独立。(a)两总体协方差阵相等(但未知)时均值向量的检验⒈检验的零假设vs⒉利用构造检验统计量其中利用与的关系,也可取检验统计量为⒊确定拒绝域:⒋做出判断:当时,拒绝;当时,接受;也可以用来判断:当时,拒绝;当时,接受。一般来说,利用SAS系统作假设检验时,它都会提供了一个P值,我们可以通过P值和所给定置信水平的比较,就可以作出相应的判断:当时,拒绝原假设;当时,接受原假设:四、实验相关SAS知识ⅰ.means过程:可以计算T,Prob,SumWgt(加权和),CSS(加权离差平方和),N,Mean,StdDev,Min,Max等等,如果要输出其中的值,只需在means过程中列出相应的代码即可。功能:对数值型变量给出简单描述性统计值(16种统计量,P51,默认的只有5种)也可以检验正态总体均值是否为零。格式:procmeansprobt;/*probt用于检验正态总体均值是否为零*/varx;run;ⅱ:anova过程:将两总体的假设检验看成多元方差分析,使用anova过程可得到相应的检验结果。iii:IML过程:由于在DATA数据步的过程中,SAS系统并没有提供向量或矩阵的输入,要想建立一个矩阵的数据,就要用到SAS/IML模块,它有着一套很强大、灵活的运算语言。在IML的环境下不但可以进行矩阵的各种运算,而且还可以与DATA步一起使用实现各种复杂的计算和操作功能,下面就简单的介绍IML的最基本知识。矩阵的创建当矩阵包含多个元素时,要用大括号“{}”把等号右边的矩阵元素括起来,并用“,”来分隔矩阵的行,例如:a={456789}:表示一个的矩阵(即行向量)。b={4,5,6,.7,8,9}:表示一个的矩阵(即列向量).c={45,67,89}:表示一个的矩阵如果矩阵的元素是小写字母,需要用引号括起来,否则在IML中会自动转为大写形式,例如:a={abcXYZ};b={‘abc’‘XYZ’};如果输入创建矩阵时,遇到矩阵中的多个元素完全相同时,可以通过重复操作的方法来减少重复劳动,提高输入效率,例如:a={‘TOM’‘TOM’‘TOM’,‘MARY’‘MARY’‘MARY’};b={[3]‘TOM’,[3]‘MARY’};两则在输出结果是一样的。利用函数创建矩阵BLOCK函数的格式:BLOCK(matrix1,matrix2,…,matrix15);表示产生一个对角块矩阵;I函数的格式:I(dimension):‘dimension’为具体数字,表示方阵的阶数。表示产生对角上的元素都是1,其余元数都为0。J函数的格式:J(nrow,ncol,value);这里“nrow”为创建后矩阵的行数,“ncol”创建后矩阵的列数’“value”需要重复产生的元素。在没有指定“nrow”的值,系统会默认值为nrow=ncol。没有指定“value”时,系统默认值为1。(2)IML中矩阵与SAS数据集的相互转换1.打开SAS数据集USE语句:USESAS-data-set<VARoperand><WHERE(expression)>;这里‘SAS-data-set’为要打开数据集的名称,VAR关键字后的‘operand’为要打开的数据集中变量名称,WHERE关键字后“expression“代表特定的条件表达式,可用于限定打开数据集中观测的范围。例如:usedata1var{x1x2x3x4}where(x1>50);表示选择数据集data1中的变量“x1x2x3x4”在满足x1>50的观测上的变量值,如果忽略VAR项和WHERE项,则表示打开data1中的全部内容。2.读取并转换SAS数据集READ〈range〉<VARoperand><WHERE(expression)><INTOname>;这里“range”代表数据集中观测的范围,如果要将范围指定为全部,“range”的取值为“all”.VAR项用以限制所要读取的变量范围,“operand”即为要读取的变量名称(列表),WHERE项用以限制读取的观测的范围,INTO关键字后的“name”代表所读取的数据要存入的矩阵的名称。Prociml;prociml;Usedata1;usedata1;Readallvar{x1x2x3x4};readallintoa;Quit;printa;Quit;五、实验举例【例1】已知某地区12岁男孩平均身高为142.3cm,还有1973年某市测量120名12岁男孩身高资料,要求用SAS系统的MEANS过程检验该市12岁男孩身高与该地区12岁男孩身高平均值是否相等(即)。身高资料如下(单位cm):142.3134.5145.2151.1141.2143.5134.7150.8125.9160.9134.7129.4156.6148.8141.8144.0141.5139.2147.3144.5132.7154.2138.5142.5142.7134.4146.8145.4148.8144.7138.1137.1152.9137.9138.9141.2145.7148.8135.1146.2140.1139.3140.2147.1147.9139.9137.7148.9138.2137.9150.3143.3150.6141.9137.4142.9141.8149.7138.5154.0141.6151.3133.1156.3139.5147.8145.1134.9141.4147.5139.6147.7142.5140.8142.7141.9146.4140.5145.8143.6140.9136.9143.5152.3130.5149.8143.9140.7143.8138.9147.9142.3141.4148.1142.9146.6132.1143.6142.4145.9150.0148.9146.7143.3146.7144.0146.5139.2135.5149.0139.6144.4142.1142.4143.4140.2138.7137.4145.4139.9解:在DATA步中输入数据,然后在PROC步中调用MEANS(均值)过程,并规定计算统计量为T,PRT(即检验统计量t和p值)。具体程序如下:databoy;inputx@@;y=x-142.3;cards;142.3 134.5 145.2 151.1 141.2 143.5 134.7 150.8 125.9 160.9134.7 129.4 156.6 148.8 141.8 144 141.5 139.2 147.3 144.5132.7 154.2 138.5 142.5 142.7 134.4 146.8 145.4 148.8 144.7138.1 137.1 152.9 137.9 138.9 141.2 145.7 148.8 135.1 146.2140.1 139.3 140.2 147.1 147.9 139.9 137.7 148.9 138.2 137.9150.3 143.3 150.6 141.9 137.4 142.9 141.8 149.7 138.5 154141.6 151.3 133.1 156.3 139.5 147.8 145.1 134.9 141.4 147.5139.6 147.7 142.5 140.8 142.7 141.9 146.4 140.5 145.8 143.6140.9 136.9 143.5 152.3 130.5 149.8 143.9 140.7 143.8 138.9147.9 142.3 141.4 148.1 142.9 146.6 132.1 143.6 142.4 145.9150 148.9 146.7 143.3 146.7 144 146.5 139.2 135.5 149139.6 144.4 142.1 142.4 143.4 140.2 138.7 137.4 145.4 139.9;procmeansdata=boytprtclm;vary;run;运行后的结果:从上表可以看出检验结果(p=0.1616>0.05)拒绝原假设,认为某市测量12岁男孩身高均值非142.3cm。【例2】为了研究销售方式对商品销售额的影响,选择四种商品(甲、乙、丙和丁)按三种不同的销售方式(Ⅰ、Ⅱ和Ⅲ)进行销售。这四种商品的销售分别为x1,x2,x3,x4,其数据如下:编号销售方式Ⅰ销售方式Ⅱ销售方式Ⅲx1x2x3x4x1x2x3x4x1x2x3x411256033821066544553106533480260211980233330824540321010034468295363512602036565312280656341626546551429150405147728011748468250513065403205675448129311463395380669453501903850468210553054623574660585200424535119064515073208146662732501134039031011090442225987545852408055520200606244024810110775072707660507189110693772601110760364200943326028088782993601213061391200605142919073633903201380454292705540390295114554942401460504421906548481177103544163101581542602806948442225100332733121613587507260125633122701406131234517574840028512056416280803628625018755252026070454683701355446834519766540325062664162241306932536020554241117069603772806057273260检验:,:中至少有两个不相等其中分别为销售方式Ⅰ、Ⅱ和Ⅲ的总体均值向量。假定这三个总体均为多元正态总体,且它们的协差阵相同。解:dataxs;inputgx1x2x3x4@@;cards;1 125 60 338 210 2 66 54 455 310 3 65 33 480 2601 119 80 233 330 2 82 45 403 210 3 100 34 468 2951 63 51 260 203 2 65 65 312 280 3 65 63 416 2651 65 51 429 150 2 40 51 477 280 3 117 48 468 2501 130 65 403 205 2 67 54 481 293 3 114 63 395 3801 69 45 350 190 2 38 50 468 210 3 55 30 546 2351 46 60 585 200 2 42 45 351 190 3 64 51 507 3201 146 66 273 250 2 113 40 390 310 3 110 90 442 2251 87 54 585 240 2 80 55 520 200 3 60 62 440 2481 110 77 507 270 2 76 60 507 189 3 110 69 377 2601 107 60 364 200 2 94 33 260 280 3 88 78 299 3601 130 61 391 200 2 60 51 429 190 3 73 63 390 3201 80 45 429 270 2 55 40 390 295 3 114 55 494 2401 60 50 442 190 2 65 48 481 177 3 103 54 416 3101 81 54 260 280 2 69 48 442 225 3 100 33 273 3121 135 87 507 260 2 125 63 312 270 3 140 61 312 3451 57 48 400 285 2 120 56 416 280 3 80 36 286 2501 75 52 520 260 2 70 45 468 370 3 135 54 468 3451 76 65 403 250 2 62 66 416 224 3 130 69 325 3601 55 42 411 170 2 69 60 377 280 3 60 57 273 260;run;procanovadata=xs;classg;modelx1-x4=g;manovah=g;run;部分输出结果:(1)由于各种检验的p值都小于0.05,所以拒绝原假设,认为三种销售方式的销售额有十分显著的差异。(2)为了解这三种销售方式的显著差异究竟是由哪些商品引起的,我们对这四种商品分别用一元方差分析方法进行检验分析,即查看由modelx1-x4=g。所输出的结果(i)(ii)(iii)(iv)上面的输出结果表明:甲商品有显著差异(p=0.041),丁商品有十分显著的差异(p=0.0009),而乙和丙商品无显著差异(p=0.208和p=0.848)。即三种销售方式的显著差异是由甲商品和丁商品引起的。【例3】.人的出汗多少与人体内钠和钾的含量有一定的关系.今测量了20名健康成年女性的出汗量(),钠的含量()和钾的含量()(数据见下表).试检验,.序号序号13.748.59.3113.936.912.725.765.18124.558.812.333.847.210.9133.527.89.843.253.212144.540.28.4151.513.510.164.636.17.9168.524.814174.571.68.2186.552.810.996.747.48.5105.454.111.3205.540.99.4Data步:datad321;inputnumx1-x3@@;cards;1 3.7 48.5 9.3 11 3.9 36.9 12.72 5.7 65.1 8 12 4.5 58.8 12.33 3.8 47.2 10.9 13 3.5 27.8 9.84 3.2 53.2 12 14 4.5 40.2 8.45 3.1 55.5 9.7 15 1.5 13.5 10.16 4.6 36.1 7.9 16 8.5 56.4 7.17 2.4 24.8 14 17 4.5 71.6 8.28 7.2 33.1 7.6 18 6.5 52.8 10.99 6.7 47.4 8.5 19 4.1 44.1 11.210 5.4 54.1 11.3 20 5.5 40.9 9.4;run;prociml;/*iml模块运算*/n=20;p=3;/*一个样本的观测数据的个数以及向量的维数*/m0={45010};/*将初值赋予矩阵m0*/used321;/*利用数据集d321*/xa={x1x2x3};/*行向量*/readallvarxaintox; /*读取的数据要存入矩阵x*/printx;ln={[20]1} ;println;x0=(ln*x);printx0; /*样本均值*/xm=x0-m0;printxm;mm=i(n)-j(n,n,1)/n;a=x`*mm*x;printa; /*利用教材(高惠璇的《应用多元统计分析》)P37页的公式计算样本离差阵*/ai=inv(a);printai;/*求矩阵a的逆*/dd=xm*ai*xm`;d2=(n-1)*dd;t2=n*d2;/*计算T^2统计量*/f=(n-p)*t2/((n-1)*dd);printddd2t2f;/*计算统计量F*/p0=1-probf(f,p,n-p);printp0;fa=finv(0.95,p,n-p);beta=probf(fa,p,n-p);/*计算显著性概率值F~F(3,20)*/printfabeta;run;quit;六、实验内容地质勘测中,在A,B,C三个地区采集了一些岩石,测量其中化学成分,其数据见下表,假定三个地区的岩石成分遵从检验:,:中至少有两个不相等检验其中。A地区47.225.060.1047.454.350.1547.526.850.1247.864.190.1747.317.570.18B地区54.336.220.1256.173.310.1554.402.430.2252.625.920.12C地区43.1210.330.0542.059.670.0842.509.620.0240.779.680.04课后练习地质勘测中,在A,B,C三个地区采集了一些岩石,测量其中化学成分,其数据见上表,假定三个地区的岩石成分遵从检验其中。某监狱把犯人分为三部分:普通犯人、疯狂犯人和其他犯人,从这三部分各抽取20个分人测量他们的耳朵长度,试检验三部分的犯人耳朵长是否有差异()?数据见下表:类型测量对象左耳右耳测量对象左耳右耳普通犯人123456789105960585950596263686359656259486562627272111213141516171819206656626665616060585863566468666064576059疯狂犯人123456789107069656259556058656769686560565858646762111213141516171819206053666059586054625957556553585456596661其他犯人123456789106356625962506361556363576258585763625963111213141516171819206564656755566562555870646567555667656158第四讲判别分析方法(2学时)实验目的1.理解判别分析方法的基本步骤;2.会用SAS软件编写相关程序;3.能够用SAS软件解决实际问题。实验要求1.根据实验原理的要求理解判别分析方法的基本思想;2.对处理结果进行分析和小结。3.会用SAS软件按要求编写相关程序,给出处理结果和检验结果;实验原理设有k个维总体,其数量指标是:设总体分布函数是对于任一新样品,要判断它来自哪一个总体,一种特殊的情况是两个总体的判别分析问题.通常各总体的分布是未知的,它需要根据样本进行估计。然后构造一定的判别准则,判别新样品属于哪个总体。由于判别准则的不同,有各种不同的判别分析方法,一般有距离判别,贝叶斯判别法,费希尔判别。另外,我们还要进行判别效果的检验。三、预备知识:1.距离判别法距离判别法的基本思想是:样品和哪个总体的距离最近,就判断他属于哪个总体。两总体情况设有两个总体和,若定义样品到和的距离分别为和,则距离判别的判别规则是:即未知所属总体的样品离哪个总体较近,就判断属于哪个总体。我们定义,到和的马氏距离分别为:式中,分别为总体和的均值和协方差阵。当时,可以证明令于是判别规则可以表示为称为判别函数。由于它是的线性函数,因此又称为线性判别函数。线性判别函数的应用为最广泛。如果时,则判别函数为:式中是的二次函数。多总体情况设有个总体:,它们的均值,协方差阵分别为:。对任意给定的样品,要判断它来自哪个总体。按距离最近的准则对进行判别归类,首先计算样品到个总体的马氏距离,然后进行比较,把归到距离最小的那个总体。即若存在唯一的,有,则。计算马氏距离时时,类似地可以考虑或不全相等的两种情况,并用样本统计量作为和的估计。 2.贝叶斯判别法贝叶斯思想是假定对所研究的对象已有一定的认识,常用先验概率分布来描述这种认识,当抽取一个样本后,用来修正先验概率分布,得到后验概率分布。各种统计推断都通过后验概率分布来进行。采用后验概率的判别准则为若存在唯一的,有时。则判。其中 在正态总体的假设下。按后验概率最大进行归类的准则(贝叶斯判别的思想),在错判造成的损失认为相等的情况下,得到的判别函数其实就是马氏距离判别。在考虑先验概率及协方差阵是否相等情况下的推广,故在SAS的DISCRIM过程中称为广义平方距离判别法。即其中3.逐步判别法(1)逐步别法的基本思想:前面讨论了用全部的个变量:来建立判别函数,用以对样品进行判别归类的几种方法,在这个变量中,有的变量区分k个总体的判别能力很强,有的可能很微弱。如果不加区别地把个变量全部用来建立判别函数。则会极大地增加计算量,这可能因为变量间的相关性引起计算上的困难(病态或退化等)及计算精度的降低,另一方面由于一些对区分个总体的判别能力很小的变量引入,产生干扰,致使建立的判别函数不稳定,反而影响判别效果,因此自然提出一个变量的选择问题,即如何从个变量中挑选出对区分个总体有显著能力的变量,来建立判别函数,用以判别归类。类似于回归分析,判别分析的变量选择也有向前法,后退法和逐步筛选法。逐步判别法的基本思想和逐步回归是类似的。逐个引入变量,每次把一个判别能力最强的变量引入判别式,每引入一个新变量,对判别式中的老变量逐个检验。如其判别能力因新变量的引入而变得不显著,应把它从判别式中剔除。这种通过逐步筛选变量使得建立的判别函数中仅保留判别能力显著的变量方法,就是逐步判别法。(2)逐步判别法的基本步骤1)逐步筛选变量:根据各个变量对区分个总体的判别能力的大小,按基本思想所介绍的过程来筛选变量。SAS中的STEPDISC过程专用于筛选变量子集。该过程利用逐步筛选的方法来选择区分个总体的最佳子集。2)判别归类:对已选出来的变量子集,使用以上介绍的判别方法对样品进行判别归类。4.费希尔判别费希尔判别的思想是通过将多维数据投影到某个方向上,投影的原则是将总体与总体之间的差异尽可能的放大,而总体内的差异尽可能的缩小。然后再选择合适的判别规则,将待判的样品进行分类判别。两个总体为例,。其判别规则为:。四、实验相关SAS语句:DISCRIM过程的主要语句格式:procdiscrim<options>;class<variable>;priors<probabilities>;var<variable>;TESTCLASS<variable>;RUN;语句说明:PROCDISCRIM<options>;此语句中的”选择项”部分可包含下列内容: 1)等待分析的数据集选择: ①DATA=SASdataset;指定用以建立判别函数的SAS数据集(即训练样本数据集).若省掉此句,则最新建立的数据集被用于建立判别函数. ②TESTDATA=SASdataset:指定用以检验判别准则的SAS数据集名称.除分析类变量外,该数据集中的变量应和训练样本数据集中的变量一致. 2)输出数据集的选择: ①OUTSTAT=SASdataset:定义一个输出SAS数据集名称,该数据集中包括原训练样本集中各变量的均值,标准差及相关系数等,若METHOD=NORMAL(见后)被使用,该数据集中还包括判别函数的系数. ②OUT=SASdataset:命名一个输出的SAS数据集,其中包括训练数据及变量,后验概率及回判结果. ③OUTCROSS=SASdataset;定义一个输出的SAS数据集,其中包括训练样本数据及变量,后验概率及由交叉确认法所得到的回判结果等. ④TESTOUT=SASdataset:定义一个输出的SAS数据集,其中包括检验数据集中的变量和数据,后验概率以及利用所建立的判别函数准则对检验数据集的判别结果.此项当”选择项”中有”TESTDATA=SASdataset”时才能运用. 3)判别分析方法的选择 ①METHOD=NORMAL(或NPAR):指出建立判别函数的方法.当“METHOD=NORMAL”被指定时,则在各总体为正态分布的假设下通过利用训练样本估计各总体均值向量和协方差阵,并视各总体的协方差阵是否相等而分别建立、线性及二次判别函数;当“METHOD=NPAR”时,则使用非参数方法建立判别函数.前者是SAS系统默认的方法. ②POOL=YES(或NO,TES):在选择”METHOD=NORMAL”的前提下,”POOL=YES”意味着假定各总体为正态分布的假定下通过利用训练样本的样本协方差矩阵联合估计公共的协方差阵,这时建立的判别函数是线性的;若选择”POOL=NO”,则意味着假定各总体的协方差阵不等而建立二次判别函数;”POOL=TEST”即要求首先利用修正的BARTLETT似然比方法检验各总体的协方差阵是否相等,若检验结果在由语句”SLPOOL=P”(见后)所指定的显著水平P下显著,则建立二次判别函数,否则利用联合协方差阵估计建立线性判别函数.对线性判别函数,输出结果中才给出判别函数. ③SLPOOL=P:指定检验协方差阵是否相等的显著水平.只要当选择”POOL=TEST”时,才可以出现此语句,若省此句,则SAS系统默认P=0.10. 4)回判结果输出选择 ①LIST:打印出每个样品的回判结果; ②LISTERR:仅打印出回判中判错的样品信息; ③NOCLASSIFY:不需要对训练样本数据作回判分析. 5)交叉确认法回判结果的输出选择:当下列语句出现时,则交叉确认法被使用对训练样本作回判分析CROSSVALIDATE:要求对训练样本数据集进行交叉确认回判分析;CROSSLISTERR:打印出使用交叉确认法判别而错判的样品信息;CROSSLIST:打印出每个样品的交叉确认法回判分析结果. 6)检验数据集判别结果的输出选择 ①TESTLIST:列出对检验数据集的判别结果; ②TESTLISTERR:仅打印出检验数据集中判错的样品信息7)控制打印选择 ①WCORR:打印各总体(组内)的训练样本相关矩阵; ②PCORR;打印由各总体的样本的样本相关阵所得的联合相关矩阵;类似地,WCOV,PCOV则要求打印出相应于①,②的训练样本协方差阵估计. ③ALL:打印出所有的相关结果;SHOTR:只打印一些主要结果;CLASSvariables; 其中的”variables”即描述各类变量名称.该变量可以是数值化的变量,也可以是非数值变量.该语句是进行判别分析所必需的语句.VARvariables; 其中的”variables”即列出参与分析的描述各样品特征的变量名称,省略时即数据集中所有的数值变量.PRIORSprobabilites;此语句的功能即指出总体的先验概率分布,其中”probabilites”应是下列三种选择之一:EQUAL:即各总体的先验概率相等;PROPORTIONAL(或PROP):即各总体的先验概率与各总体的训练样本容量成比例.具体指定各总体的先验概率.通常规定:每一类水平可以写作一个SAS名或一个括起来的字符串,后面必须为等号和一个0与1之间的数值常数.小写字符值和数值必须用括号括起. 例如如果分类变量的值为A,B,C和D,以下语句规定分类变量的先验概率: PriorsA=0.1B=0.3C=0.5D=0.1;如果分类变量的值为a,b,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 城镇污水处理厂及配套管网工程施工方案
- 数字宫殿:数学概念的奇妙世界小学主题班会课件
- 一年级小跳蛙题目及答案
- 关于优化合作协议条款的商洽函4篇
- 童年志向铸梦小学主题班会课件启迪新篇章
- 药师药学服务技能理论考核试题(题库与答案)
- 景观雕塑灯光照明施工方案及技术措施
- 应急排水施工要点
- 2026年浙江省综合性评标专家库评标专家考试在线题库
- 国家开放大学电大专科《内科护理学》单项选择题名词解释题题库及答案
- T-CESA 1281-2023 制造业企业质量管理能力评估规范
- (2025)中医药知识与技能竞赛题库及参考答案
- 造纸和纸制品生产企业温室气体排放核算方法与报告指南
- 自动化电气元器件介绍与使用
- 职工基本医疗保险个人账户一次性支取申请表(样表)
- 北京汇文中学初一新生分班(摸底)语文考试模拟试卷(10套试卷带答案解析)
- 人教版八年级上册生物期中考试试卷
- 食品质量管理学智慧树知到期末考试答案章节答案2024年浙江海洋大学
- 培训教材(量具培训)
- 工程热力学教学课件-工程热力学
- 农村祖屋归属协议书
评论
0/150
提交评论