实验报告五-SAS方差分析_第1页
实验报告五-SAS方差分析_第2页
实验报告五-SAS方差分析_第3页
实验报告五-SAS方差分析_第4页
实验报告五-SAS方差分析_第5页
已阅读5页,还剩19页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、精选优质文档-倾情为你奉上实 验 报 告实验项目名称 方差分析 所属课程名称 统计分析及SAS实现 实 验 类 型 验证性实验 实 验 日 期 2016-11-12 班 级 数学与应用数学 学 号 姓 名 成 绩 实验概述:【实验目的及要求】 掌握SAS中检验多个总体均值是否相等的方差分析,掌握单因素方差分析过程及方法,掌握无交互作用的双因素方差分析、有交互作用的多因素方差分析。掌握利用INSIGHT模块、“分析家”、编程过程实现单因素、双因素方差分析。掌握均值估计与多重比较的方法。【实验原理】SAS软件的操作方法及原理【实验环境】(使用的软件)SAS 9.3实验内容:【实验方案设计】 1 理

2、解单因素、双因素、多因素方差分析的基本概念;2 利用INSIGHT、“分析家”和编程实现方差分析;3 利用“分析家”实现单因素、多因素方差分析中的均值比较。【实验过程】(实验步骤、记录、数据、分析) 【练习5-1】企业在评价项目时,通常会比较各个项目的收益率,如果项目的收益率大于基准收益率,则认为项目是可以盈利的,企业便对该项目进行投资,为此企业考察了近期在三个主管项目上的盈利情况,如表所示。表 三个主管项目上的盈利Project1Project2Project35.73%1.51%8.95%13.49%13.27%14.38%0.22%6.11%12.95%2.08%3.68%0.68%0.

3、49%2.46%3.29%0.26%4.28%5.15%用单因子方分析检验这三个项目的收益率是否存在明显的差异。【解答】利用 data 数据步实现题目数据:libname Lmf "E:sas homeworklmf"data Lmf.p51;input Yield Project$;cards;5.73 113.49 10.22 1 2.08 10.49 10.26 11.51 2 13.27 26.11 23.68 22.46 2 4.28 28.95 3 14.38 312.95 3 0.68 3 3.29 35.15 3;run;利用INSIGHT模块实现单因素方差

4、分析:步骤如下: 结果:表5.1:Yield=ProjectResponse Distribution:Normal Link Function:Identity 由表5.1拟合模型的信息知,这个分析是以Yield为响应变量、Project为自变量的线性模型;相应变量的分布(Response Distribution)为正态分布(Normal);关联函数(Link Function)是恒等函数(Identity)。表5.2 Nominal Variable InformationLevelProject112233由表5.2列名型变量信息(Nominal Variable

5、Information)得知列名型变量项目(Project)下有三个水平分别为1、2、3。表5.3 Parameter InformationParameterVariableProject1Intercept 2Project13 24 3 由表5.3参数信息(Parameter Information)知,P_2、P_3、P_4分别为项目1、2、3的标识变量(哑变量)。表5.3 Model EquationYield=0.0757-0.0386P_2-0.0235P_3由表5.3模型方程(Model Equation)得知响应变量均值关于自变量Project的

6、模型方程:(其中y表示收益率(Yield),x表示项目(Project)。) 其中,标识变量取值:表5.4 Summary of FitMean of Response0.0550R-Square0.1075Root MSE0.0501Adj R-Sq0.0000由表5.4拟合的汇总信息(Summary of Fit)得知,相应变量的均值(Mean of Response)为0.055,拟合优度(判别系数)R2为0.1075,自变量所能描述的变化(模型平方和)在全部变差平方和中的比例为10.75%,R2越大,说明自变量的信息对说明因变量信息的贡献越大,即分类变量取不同的值对因变量的影响越显著。

7、均方残差平方根(Root MSE)为0.0501,为误差项的标准差的估计值。表5.5 Analysis of VarianceSourceDFSum of SquaresMean SquareF StatPr > FModel20.00450.00230.900.4261Error150.03760.0025.C Total170.0421.由表5.5方差分析(Analysis of Variance)得出,p值较大,因此不拒绝原假设,即不同的项目的收益率无显著差异。表5.6 Type III TestsSourceDFSum of SquaresMean SquareF StatPr

8、> FProject20.00450.00230.900.4261由表5.6类检验(Type III Tests)得知,对于单因素,该表与表5.5方差分析表第一行相同。表5.7 Parameter EstimatesVariableProjectDFEstimateStd Errort StatPr >|t|ToleranceVar InflationIntercept10.07570.02043.700.0021.0.0000Project11-0.03860.0289-1.330.20220.75001.333321-0.02350.0289-0.810.42920.75001

9、.3333300.0000.由表5.7参数估计(Parameter Estimates)知,Intercept后的估计(Estimate)0.0757是项目3的收益率的均值的估计值,其后的t检验是检验这一均值是否为0,因对应的p值为0.0021<0.05,因此拒绝项目3的收益率的均值为0的原假设,因此显著非0。Project1后的估计(Estimat)为-0.0386,是项目1与项目3的效益率的均值之差的估计值,其后的t检验是检验这一均值之差是否为0,因p=0.2022>0.05,因此不拒绝均值之差为0的原假设,因此项目1、3的效益率无显著差异。Project2后的估计(Estim

10、at)为-0.0235,是项目2与项目3的效益率的均值之差的估计值,其后的t检验是检验这一均值之差是否为0,因p=0.4292>0.05,因此不拒绝均值之差为0的原假设,因此项目2、3的效益率无显著差异。图5.1 Residual-Predict散点图 图5.1残差预测值的散点图可以帮助校验模型的假定。从图中看出,残差有大体相同的散布,它表明等方差的假设没有问题。为了验证残差为正态分布的假定,回到数据窗口。下面利用INSIGHT模块进行残差的正态性检验: 结果:表5.8 Tests for DistributionCurveDistributionMean/ThetaSigmaKolmo

11、gorov DPr > DNormal-0.00000.04700.19020.0841由表5.8残差的正态性检验(Tests for Distribution)得知,p值为0.0841>0.05,因此不拒绝残差是正态分布的原假设。 综上,用单因子方分析检验这三个项目的收益率不存在明显的差异。【练习5-2】2某房地产开发商为研究购房者的背景特征与购房者对房价的看法之间的关系,专门设计了问查调卷,获得了购房者的一些基本资料以及他们对房产的看法,其中一项要求受访购房者为房价的高低打分,从1到100分,如果觉得价格高则打分也高,表是不同学历购房者对放假的打分情况。MiddleHighCo

12、llegeBachelor14575163475655117739960103540213682448224820请用单因子方差分析检验不同学历的购房者是否对房价有一致的看法。【解答】利用data数据步实现题目数据:data Lmf.p52;input score degree$;cards;1Middle6Middle51Middle60Middle21Middle48Middle4High34High17High10High3High22High57College75College73College35College68College48College51Bachelor65Bachelo

13、r99Bachelor40Bachelor24Bachelor20Bachelor;run;利用“分析家”实现单因素方差分析: 结果:The ANOVA Procedure表5.9 Class Level InformationClassLevelsValuesdegree4Bachelor College High Middle由表5.9因素水平信息(Class Level Information)得知变量学历(degree)下由4个水平,分别为大学学历(Bachelor)、大专学历(College)、高中学历(High)、初中学历(Middle)。表5.10:SourceDFSum of

14、SquaresMean SquareF ValuePr>FModel37008.333332336.111114.970.0097Error209395.00000469.75000Corrected Total2316403.33333 由表5.10方差分析表可知,经过F检验,F统计量的值为4.97,对应的p值为0.0097<0.05,因此拒绝不同学历对房价的打分无差异的原假设。表5.11:R-SquareCoeff VarRoot MSEScore Mean0.55.8121521.6737238.83333 由表5.11得出基本信息,拟合优度(判别系数)R2为0.,自变量所能

15、描述的变化(模型平方和)在全部变差平方和中的比例为42.7251%,R2越大,说明自变量的信息对说明因变量信息的贡献越大,即分类变量取不同的值对因变量的影响越显著。均方残差平方根(Root MSE)为21.67372,为误差项的标准差的估计值。表5.12:SourceDFAnova SSMean SquareF ValuePr>Fdegree37008.2336.4.970.0097 由表5.12类检验得出对于单因素,该表与表5.5方差分析表第一行相同。表5.13 方差齐性的检验结果Levene's Test for Homogeneity of score VarianceAN

16、OVA of Squared Deviations from Group MeansSourceDFSum of SquaresMean SquareF ValuePr > Fdegree31.920.1585Error20 由表5.13得知,使用Levene's检验法的p值为0.1585,所以不同水平下观测结果的方差无显著差异。表5.14:Level ofdegreeNscoreMeanStd DevBachelor649.29.College659.15.High615.11.Middle631.25. 由表5.14得知本科、大专、高中、初中学历

17、打分的均值分别为49.、59.、15.、31.;标准差分别为29.、15.、11.、25.。图5.2 各水平盒形图 由图5.2看出,从左到右依次为本科、初中、大专、高中的盒形图,可以从中对不同水平下均值的差异以及方差的差异有一个直观的了解。 综上,利用单因子方差分析,不同学历的购房者对房价不是有一致的看法。【练习5-3】工厂订单的多少直接反映了工厂生产的产品的畅销程度,因此工厂订单数目的增减是经营者所关心的。经营者为了研究产品的外形设计及销售地区对月订单数目的影响,记录了一个月中不同外形设计的该类产品在不同地区的订单数据。DistrictDistrictDesign12317004505602

18、39735742036975527204543302515试用双因子方差分析检验该产品的外形设计与销售地区是否对订单的数量有所影响。【解答】利用data数据步实现题目数据:data Lmf.p53;do District=1 to 4;do Design=1 to 3;input Order;output;end;end;cards;700450560397357420697552720543302515;run;利用proc glm过程步实现无交互作用的双因素方差分析:proc glm data=Lmf.p53;class Design District;model Order=Design

19、 District;run;结果:The GLM Procedure表5.15 Class Level InformationClassLevelsValuesDesign31 2 3District41 2 3 4由表5.15多因素水平信息得知因素设计(Design)由三个水平,地区(District)有四个水平。表5.16 Analysis of VarianceSourceDFSum of SquaresMean SquareF ValuePr > FModel5.250038219.250011.540.0049Error619872.00003312.000

20、0  Corrected Total11.2500    由表5.16方差分析得知,F统计量的值为11.54,对应的p值为0.0049<0.05,因此拒绝两因素外形设计(Design)与销售地区(District)对订单的数量无影响的原假设。表5.17 Summary of fitR-SquareCoeff VarRoot MSEOrder Mean0.11.1154057.54998517.7500 由表5.17信息汇总得知,拟合优度R2为0.,自变量所能描述的变化(模型平方和)在全部变差平方和中的比例为90.5806%,R2

21、越大,说明自变量的信息对说明因变量信息的贡献越大,即分类变量取不同的值对因变量的影响越显著。均方残差平方根(Root MSE)为57.54998,为误差项的标准差的估计值。表5.18 Type III TestsSourceDFType III SSMean SquareF ValuePr > FDesign264898.000032449.00009.800.0129District3.250042066.083312.700.0052 由表5.18类检查(Type III Tests)得知经过F检验,F统计量的值为9.80,对应的p值为0.0129<0.05

22、,因此拒绝两因素外形设计(Design)与销售地区(District)对订单的数量无影响的原假设。 综上,根据双因子方差分析得知该产品的外形设计与销售地区对订单的数量有影响。【练习5-4】北京市房地产开发商想要了解本市商品房各类房型及户型在各地区的销售情况,搜集了房屋的销售量的数据,如表所示。地区月份三室两厅两室两厅复式房型其它朝阳区1月份652521674862月份71154859338海淀区1月份481521503912月份50942555348大兴区1月份397561281472月份31457024184通州区1月份1571388962月份164194557其它1月份2174995147

23、2月份1454928108试用有交互作用的双因子方差分析检验地区与房型之间是否存在交互作用。【解答】利用data数据步实现题目数据:data Lmf.p54;do Dist=1 to 5;do Month=1 to 2; do Type=1 to 4; input Sale; output; end;end;end;cards;65252167486711548593384815215039150942555348397561281473145702418415713889616419455721749951471454928108;run;利用“分析家”实现存在交互作用的双因素方差分析: 结

24、果:The GLM Procedure表5.19 Class Level InformationClassLevelsValuesDist51 2 3 4 5Type41 2 3 4 由表5.19多因素水平信息得知地区(Dist)有5个水平,房型(Type)有四个水平。图5.3 双因素不同水平下因变量均值差异的连线图 由图5.3得出,在因素地区(Dist)的5个水平位置上(朝阳区、海淀区、大兴区、通州区、其他)有5条竖线,对应于因素房型(Type)的四个水平(三室两厅、两室两厅、复式房型、其他)有4条不同颜色的连线。每条连线与竖线的交点纵坐标是在两因素相应水平下因变量销量(Sale)的均值。

25、从因素房型(Type)的四个水平对应的连线可以看出:复式房型的销售量最低,且与所在地区关系不大;两室两厅的销售量比较均衡,需求量较多;三室两厅与其它房型的销量则与所在地区密切相关,在朝阳区、海淀区的销量较高,在大兴、通州及其他地区的销量则较低。从因素地区(Dist)来看,通州区各种房型的销量都较低。在市区销量最好的房型为三室两厅,在郊区销量最好的房型是两室两厅。从两室两厅的连线与其他三条连线的交叉可直观地看出地区(Dist)与房型(Type)有交互作用。表5.20 Analysis of VarianceSourceDFSum of SquaresMean SquareF ValuePr

26、60;> FModel19.27594169.90965.07<.0001Error2028942.5001447.125  Corrected Total39.775    由表5.20方差分析得知,双因素考虑交互作用的方差分析模型是显著的,其中F统计量的值为65.07,对应的p值小于0.0001。表5.21 Summary of fit R-SquareCoeff VarRoot MSESale Mean0.14.0541638.04110270.6750 由表5.21信息汇总得知,拟合优度R2为0.,自变量

27、所能描述的变化(模型平方和)在全部变差平方和中的比例为98.4082%,R2越大,说明自变量的信息对说明因变量信息的贡献越大,即分类变量取不同的值对因变量的影响越显著。均方残差平方根(Root MSE)为38.04110,为误差项的标准差的估计值。表5.22 Type III TestsSourceDFType III SSMean SquareF ValuePr > FDist4.650.16385.74<.0001Type3.275.092232.66<.0001Dist*Type12.35023570.02916.29<.0001 由表5.22

28、类检查(Type III Tests)得知经过F检验,F统计量对应的p值均小于0.0001,因此拒绝两因素地区(Dist)与房型(Type)对各地区的销售无影响的原假设,并且因素地区(Dist)与房型(Type)的交互作用(Dist*Type)对指标各地区的销售的影响是高度显著的。 综上,根据双因子方差分析得知地区(Dist)与房型(Type)对各地区的销售有影响。且地区与房型之间存在交互作用。【练习5-5】某家上市公司有若干下属子公司,公司主要经营三种业务。公司总裁为了了解下属公司的经营状况,从下属公司中随机抽出了四家公司,并调查了每家公司在这三种经营业务上的连续两个季度的利润率,调查结果如

29、表所示。主营季度公司1公司2公司3公司4主营业务1季度10.1035-0.0289-0.05040.0529季度20.04470.0030.0261-0.0344主营业务2季度10.11250.04850.01820.0976季度20.07920.05120.00560.0193主营业务3季度1-0.0655-0.0906-0.0967-0.0281季度2-0.0432-0.0348-0.1243-0.0408用双因子方差分析分析上表数据,并回答以下问题:各子公司的利润率是否有显著的差异?各主营业务的利润率是否有显著的差异?不同子公司在各主营业务上的利润率是否有所差别?【解答】利用data数据

30、步实现题目数据:data Lmf.p55;do Work=1 to 3;do Seas=1 to 2; do Comp=1 to 4; input Prof; output; end;end;end;cards;0.1035-0.0289-0.05040.05290.04470.0030.0261-0.03440.11250.04850.01820.09760.07920.05120.00560.0193-0.0655-0.0906-0.0967-0.0281-0.0432-0.0348-0.1243-0.0408;run;利用INSIGHT模块实现单因素各公司(Comp)方差分析: 结果:表

31、5.23: Prof=CompResponse Distribution:Normal Link Function:Identity 由表5.23拟合模型的信息知,这个分析是以Prof为响应变量、Comp为自变量的线性模型;相应变量的分布(Response Distribution)为正态分布(Normal);关联函数(Link Function)是恒等函数(Identity)。表5.24 Nominal Variable InformationLevelComp11223344由表5.24列名型变量信息(Nominal Variable Information)得知列名型

32、变量项目(Comp)下有四个水平分别为1、2、3、4。表5.25 Parameter InformationParameterVariableComp1Intercept 2Comp13 24 35 4 由表5.25参数信息(Parameter Information)知,P_2、P_3、P_4、P_5分别为公司(Comp)1、2、3、4的标识变量(哑变量)。表5.26 Model EquationProf=0.0111+0.0275P_2-0.0197P_3-0.0480P_4 由表5.26模型方程(Model Equation)得知响应变量均值关于自

33、变量Comp的模型方程:(其中y表示利润率(Prof) 其中,标识变量取值:表5.27 Summary of FitMean of Response0.0010R-Square0.1867Root MSE0.0630Adj R-Sq0.0647由表5.27拟合的汇总信息(Summary of Fit)得知,相应变量的均值(Mean of Response)为0.0010,拟合优度(判别系数)R2为0.1867,自变量所能描述的变化(模型平方和)在全部变差平方和中的比例为18.67%,R2越大,说明自变量的信息对说明因变量信息的贡献越大,即分类变量取不同的值对因变量的影响越显著。均方残差平方根(

34、Root MSE)为0.0630,为误差项的标准差的估计值。表5.28 Analysis of VarianceSourceDFSum of SquaresMean SquareF StatPr > FModel30.01820.00611.530.2375Error200.07950.0040.C Total230.0977. 由表5.28方差分析(Analysis of Variance)得出,p值较大,因此不拒绝原假设,即不同的公司的利润率无显著差异。表5.29 Type III TestsSourceDFSum of SquaresMean SquareF StatPr >

35、 FComp30.01820.00611.530.2375由表5.29类检验(Type III Tests)得知,对于单因素,该表与表5.28方差分析表第一行相同。表5.30 Parameter EstimatesVariableCompDFEstimateStd Errort StatPr >|t|ToleranceVar InflationIntercept 10.01110.02570.430.6713.0.0000Comp110.02750.03640.750.45950.66671.5000 21-0.01970.0364-0.540.59460.66671

36、.5000 31-0.04800.0364-1.320.20210.66671.5000 400.0000.由表5.30参数估计(Parameter Estimates)知,Intercept后的估计(Estimate)0.0111是公司4的利润率的均值的估计值,其后的t检验是检验这一均值是否为0,因对应的p值为0.6713>0.05,因此不拒绝公司4的利润率的均值为0的原假设,因此为0。Comp1后的估计(Estimat)为0.0275,是公司1与公司4的利润率的均值之差的估计值,其后的t检验是检验这一均值之差是否为0,因p=0.4595>0.05,因此不拒绝

37、均值之差为0的原假设,因此公司1、4的利润率无显著差异。同理子公司1、2、3、4的利润率无显著差异。利用“分析家”实现单因素(主营业务)方差分析: 结果:The ANOVA Procedure表5.31 Class Level InformationClass Level InformationClassLevelsValuesWork31 2 3由表5.31因素水平信息(Class Level Information)得知变量Work(主营业务)下由3个水平,分别为1、2、3。表5.32 Analysis of VarianceSourceDFSum of SquaresMean Squar

38、eF ValuePr > FModel20.0.16.23<.0001Error210.0.  Corrected Total230.    由表5.32方差分析表可知,经过F检验,F统计量的值为16.23,对应的p值小于0.0001,因此拒绝不同主营业务(Work)的利润率(Prof)无显著差异的原假设。表5.33:R-SquareCoeff VarRoot MSEProf Mean0.4171.6280.0. 由表5.33得出基本信息,拟合优度(判别系数)R2为0.,自变量所能描述的变化(模型平方和

39、)在全部变差平方和中的比例为60.7118%,R2越大,说明自变量的信息对说明因变量信息的贡献越大,即分类变量取不同的值对因变量的影响越显著。均方残差平方根(Root MSE)为0.,为误差项的标准差的估计值。表5.34:SourceDFAnova SSMean SquareF ValuePr > FWork20.0.16.23<.0001 由表5.34类检验得出对于单因素,该表与表5.5方差分析表第一行相同。表5.35 方差齐性的检验结果Levene's Test for Homogeneity of Prof VarianceANOVA of Squ

40、ared Deviations from Group MeansSourceDFSum of SquaresMean SquareF ValuePr > FWork27.689E-63.845E-61.250.3074Error210.3.079E-6  由表5.35得知,使用Levene's检验法的p值为0.3074>0.05,所以不同水平下观测结果的方差无显著差异。表5.36:Level ofWorkNProfMeanStd Dev180.0.280.0.38-0.0. 由表5.36得知主营业务1、2、3利润率的均值分别为0.、0.、-0.0655;标准差分别为0.、0.、0.。图5.4 各水平盒形图 由图5.4看出,从左到右依次

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论