SAS数据挖掘与分析习题答案_第1页
SAS数据挖掘与分析习题答案_第2页
SAS数据挖掘与分析习题答案_第3页
SAS数据挖掘与分析习题答案_第4页
SAS数据挖掘与分析习题答案_第5页
已阅读5页,还剩39页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、附录A习题答案习题1答案什么是观测值OBS?答:一份问卷、一个单一的整体、一个人、一个被测对象就是一个观测值,或称一个“个案”。每个个案是由若干变量组成。什么是变量Variable?一份问卷一般有几个甚至几十个问答题,一个问答题就是一个变量。如id、sex、age、location、income等。下面的变量名哪些有效?哪些无效?sex、age、v1、location、_ab_、1age、1v、location1、1、#1、%1、&2答:(1)有效的变量名是由1-8个有效字符组成且字母领头,后跟数字或有效的字母但字母、#、$、&、*等是无效的字符。比如:sex、age、vl、location、

2、_ab_等变量名是正确的;(2)无效的变量名:1age、1v、location1、1、#1、%1、&2等。变量有哪些类型?答:变量有2种类型。数字型:如INPUTidsexage;字符型:如“INPUTidsex$age;”中的“sex$”表示性别是以m=男性,f=女性表示的。给下面程序A.la改错。程序A.la:DATAsj5;INPUTabc;IF4=a=4&a=5|b=Fr=0.12500.1250基本统计测度MSS和和方差总总誓艮重舉度正准权帶WW和方数平系差偏值准异49.1750.98329802-0.7191542340.5910.7171447位置变异性均值9.175000标灌偏

3、差0.98330申位数9.500000方差0.96687极差2.50000四分位极差1.65000位置检验:Mu0=0v|2NOTE:首:厅口3E:5A59.0图A.5基本统计从图A.5看,均值为9.175岁。标准偏差为0.9833,比较小。图A.6正态性检验从图A.6看,PrW值为0.3654,大于a值0.05,没有理由拒绝“正态分布”的理论假设,所以数据呈现正态分布。习题6答案PROCFREQ过程可以做哪两种频率表?答:PROCFREQ过程可以做单变量的频率表和双变量的交叉汇总频率表。试指出以下变量哪个是行变量哪个是变量?DATA=scoreORDER=FREQ;TABLESsex*edu

4、/MISSINGCHISQ;答:这是要做双变量的交叉汇总频率表的过程命令TABLES后面的第1个变量sex是行变量,第2个变量edu是列变量。MISSING表示把缺失值当作有效值统计。CHISQ表示要显示卡方检验及基于卡方检验的泊松卡方、似然度卡方、曼特尔-亨撒尔(Mantel-Haenszl)卡方,以及PHI系数、列联系数、克莱姆系数V、2*2表格的Fisher精确检验。试计算sex变量的一维频数分布,并把缺失值当作有效值统计。答:例子见程序A.27。程序A.27:DATA;LABELedu=文化水平sex=性别l=含磷xt=血糖;INPUTidsexeduxtl;CARDS;001118.

5、13.1002229.12.8003139.04.8004238.75.100512.4.70062.6.2.PROCFREQxt2;TABLESsex/MISSING;/*把缺失值当有效值统计*/PROCPRINT;RUN;试计算“定类-定类”双变量交叉汇总与结合测量。答:例子见程序A.28。程序A.28:DATAa28;INPUTsex$edu;CARDS;m4f3f2m2m1f2m3f2f3PROCFREQ;TABLESsex*edu/CHISQEXACT;/*计算卡方分布及费歇尔的精确检验*/TITLE两维频率表,按FREQ值降序排序;RUN;运行程序A.28产生图A.7-图A.8。图

6、A.7双变量交叉汇总从图A.7看:女性5人,其中文化水平为2的有3人,占女性5人中的60%。男性4人,各种文化程度的各占1人(25%)。图A.8双变量的结合测量从图A.8看:Cramer的V系数0.6021比较大,表明此样本的性别与文化水平呈现较强的相关。接着有以下的总体推论。H0:总体上性别与文化水平双变量互为独立。验证:因为卡方值3.2625,自由度3,计算得概率为0.3529。又因为0.3529a值0.05,所以没有足够的理由拒绝H0,即总体上说,sex和edu双变量互为独立。试计算“定比-定比”双变量交叉汇总与结合测量。答:例子见程序A.29。程序A.29:DATAxt;INPUTse

7、xlocationcydympxt3.1;LABELlocation二地区sex二性别cy二抽烟量:支mp=脉搏dy=低压xt=血糖;CARDS;111585668.5212088687.3123090708.6222590707.8113595759.2223591769.0PROCFORMAT;VALUEcyFLOW-10=111-20=221-HIGH=3;VALUEdyFLOW-85=186-90=291-HIGH=3;FORMATcycyF.DydyF.;PROCFREQ;TABLEDy*xt/ALL;运行程序A.29产生图A.9-图A.10。图A.9“定比-定比”双变量的结合测量图

8、A.9中有多个相关系数,具体到“定比-定比”双变量的测量,要看最高级的Pearson相关系数,此系数0.5256较大,表明此样本的低压与血糖呈现较强的相关。接着有以下的总体推论,见图A.10。图A.10“定比-定比”双变量的总体推论HO:总体上低压与血糖双变量互为独立。验证:因为卡方值24,自由度20,计算得概率为0.2424。又因为0.2424a值0.05,所以没有足够的理由拒绝H0,即总体上说,低压与血糖双变量互为独立。试用PROCCHART过程中的水平直方图描述血糖数据。答:例子见程序A.30。程序A.30:DATAxt;INPUTsexlocationcydympxt3.1;LABEL

9、location二地区sex二性别cy二抽烟量:支mp=脉搏dy=低压xt=血糖;CARDS;111585668.5212088687.3123090708.6222590707.8113595759.2223591769.0PROCFORMAT;VALUEcyFLOW-10=111-20=221-HIGH=3;VALUEdyFLOW-85=186-90=291-HIGH=3;FORMATcycyF.DydyF.;PROCCHART;HBARxt/GROUP=sexSUMVAR=xtTYPE=MEAN;运行程序A.30产生图A.11。图A.11男女分开的血糖直方图分析:图A.11是直方图。直方

10、图比条形图更能充分的描述数据。条形图只能描述性别等nominal(标称,定类)数据,它测量不到区间。直方图适宜于interval(区间,定距)数据和ratio(比例,定比)数据。从图A.11看:它先按性别粗分为2组。区间中点(Midpoint)的&7表示血糖区间值为8.4-9.0的有2人,区间的中点9.3表示血糖区间值为9.0-9.5的有1人。而不能说血糖8.7的有2人,血糖9.3的有1人。余者依此类推。7什么情况下要采用RANK过程进行非参数检验?答:对于标称(定类)数据、次序(定序)数据,以及从非正态分布的总体数据中抽取的区间(定距)和比例(定比)数据,由于不能采用参数检验,所以只能进行非

11、参数检验来观察数据处于什么分布。这时是对原始数据做秩分变换,即对原始数据从大到小(或从小到大)排列进而赋予序号成为秩分。8.试对低压变量dy进行单因素双样本秩和检验。答:例子见程序A.31。程序A.31:DATAxt;INPUTsexlocationcydympxt3.1;LABELlocation二地区sex二性别cy二抽烟量:支mp=脉搏dy=低压xt=血糖;CARDS;111585668.5212088687.3123090708.6222590707.8113595759.2223591769.0PROCRANKNORMAL=VWOUT=OU2;VARdy;RANKSrankdy;PR

12、OCNPAR1WAYWILCOXON;CLASSsex;VARrankdy;/*单因素双样本秩和检验*/运行程序A.31产生图A.12。图A.12单因素双样本秩和检验从图A.12看,双侧概率(Two-SidedPr|Z|)为1.0000,单侧概率(One-SidedPrZ)为0.5000,都极不显著。说明秩和趋于正态分布。双样本的秩和(SumofScores)分别为10.50,相等。习题7答案简述两个均值的比较方法。答:见正文的表7.1。试用MEANS过程及其t统计量对变量血糖与标准均值5进行两个均值差异的检验。答:例子见程序A.32。程序A.32:DATAxt7;INPUTv;Y=v-5;/

13、*血糖含量与标准均值5的差值*/CARDS;8.05.2PROCMEANSMEANSTDTPRT;/*计算最主要的统计量*/VARY;RUN;运行程序A.32产生图A.13。图A.13两个均值差异的检验1结果分析:HO:两个均值之差为0。验证:从图A.13看,均值差为1.8,标准偏差为1.65。七值2.44,t的概率值0.0713大于a值0.05。所以没有足够的理由拒绝H0,说明平均血糖与标准均值5很接近。3配对样本t检验。对20位肿瘤患者,其中的10个人采用药物+化疗治疗,另10个人采用药物+放疗治疗。两周后测得体重增加见程序A.33中的数据处理(单位:公斤)。试对程序A.

14、33中的数据做两种平均疗效的差异性检验。答:解法见程序A.33中的命令。程序A.33:DATATZ;INPUTv1v2;D=v1-v2;/*20位肿瘤患者体重之差*/LABELv1=药物+化疗v2=药物+放疗;CARDS;0.900.750.800.810.690.780.530.660.510.590.800.850.980.820.660.630.600.510.670.68PROCMEANSMEANSTDTPRT;/*计算最主要的统计量*/VARD;RUN;运行程序A.33产生图A.14。图A.14两个均值差异的检验2结果分析:HO:两个均值之差为0。验证:从图A.14看,均值差为0.0

15、5,标准偏差为0.1414。t值0.50,t的概率值0.7048大于a值0.05。所以没有足够的理由拒绝H0,说明两组血糖平均值没有差异。将被试者分为对照组和实验组2组,使用同一种抗癌药物,一个月后测得肿块大小见程序A.34中的数据所示。试用“TTEST过程及其t检验”做两组疗效差异性的检验。答:命令语句见程序A.34。程序A.34:DATAdbs;INPUTgroupx;CARDS;7819019015018518818518818418840280275248270260270260270262PROCTTEST;CLASSgroup;VARx;RUN;运行程序A.34产生图A.15。图A

16、.15用“TTEST过程及其t检验”做两组疗效差异性的检验结果分析:方差相等的检验H0:两个子总体(两个样本)的方差相等。检验:从图A.15的F值的概率“PrF”为0.9506。此值大于a值0.05,所以没有足够的理由拒绝H0,说明两个子总体(两个样本)的方差相等。当方差相等时应该再观察图7.4中的Equal一行的t值及其显著性水平。均值相等的检验HO:两个子总体(两个样本)的均值相等。检验:从图7.4中的Equal一行的t值的显著性水平0.0024看,小于a值0.05,所以有足够的理由拒绝H0,说明两个子总体(两个样本)的均值差异显著(注:不宜说均值不相等)。用WILCOXON秩和检验对程序

17、A.35中的实验组与对照组此双样本(即二水平)均差进行显著性检验。答:命令语句见程序A.35。程序A.35:DATAdbs;INPUTgroupx;CARDS;7819019015018518818518818418840280275248270260270260270262PROCNPAR1WAYWILCOXON;CLASSgroup;/*指定group为分类变量*/VARx;/*指定数字型因变量x*/RUN;运行程序A.35产生图A.16。图A.16双样本(即二水平)均差的WILCOXON秩和检验结果分析:HO:实验组与对照组消肿效果没有差异。从图A.16看,WILCOXON统计量Z为3.

18、0742。t检验的概率为0.0062小于a值0.05,所以有足够的理由拒绝H0,表明实验组与对照组消肿效果有显著差异。习题8答案常用的方差分析法有哪4种?答:常用的方差分析法有下列4种:完全随机设计数据的方差分析(即单因素方差分析)随机区组数据的方差分析(即二因素方差分析)拉丁方设计数据的方差分析(即三因素方差分析)R*C析因设计数据方差分析(有交互作用的方差分析)均衡数据和非均衡数据各用什么过程命令进行分析?答:每个因素水平(每组)的个案数目相等的情形,即均衡数据的方差分析要用PROCANOVA程命令进行分析。如果只考虑组内变异和组间变异(One-Way单向方差分析)时,ANOVA也能处理非

19、均衡数据。每个因素水平(每组)的个案数目不相等的情形,即非均衡数据的方差分析要用PROCGLM程命令进行分析.对血小板偏低者用4种不同的药物治疗后血小板的数据见程序A.36。试用PROCANOVA程命令检验4种药物平均疗效有无显著性差异。程序A.36:DATAf2;DOi=1TO8;DOg=1TO4;INPUTY;OUTPUT;END;END;CARDS;10.19.010.610.19.510.011.610.08.910.58.510.08.811.59.010.28.410.69.511.810.110.510.111.810.511.9PRO

20、CANOVA;CLASSig;MODELY=ig;MEANg/DUNNETT;/*增加两两比较的功能*/答:运行程序A.36产生图A.17-图A.18。图A.17四种药物平均疗效有无显著性差异的检验a)DUNNETT检验法(b)SNK检验法图A.18四种药物平均疗效成对显著性差异的检验结果分析:H0:治疗后4组血小板平均含量没有显著差异。检验:从图A.17看,模型的显著性水平0.0028a值0.05,非常很显著。模型很好。从图A.17的因素i一行看,显著性水平0.096a值0.05,不显著。所以没有足够的理由拒绝H0,说明4组血小板平均含量没有显著差异。但,8位受试者血小板平均含量检验的显著性

21、水平0.0005F0.0078F:-SquareCoeffVarRootMSE0.58659410.061982.04114520.28571SourceSourceParameterI止已rcept:::m晞口i寻艮i%噩霆i智普sji戏彰SourceDFSurnofSquaresMeanSquareModeI265.028143232.5140716Error1145.82899974.1662727CorrectedTotal13110.8571429DFTypeISSMeanSquareFVaIueFrF12.633172662.633172660.630.4434162.394970

22、5362.3949705314.980.0026DFTypeIIISSMeanSquareFValuePrF131.5460003331.546000337.570.0188162.3949705362.3949705314.980.0026EstimateErrortValueFrItI25.11104777El2.542953699.87.0001-0.013455320.00488985-2.750.01887.58095384E:1.958947993.870.00260.00000000E:Standardi日志-无标题)阖程序編辑器-A-3.輸出-(无标NOTE:首:JE:5A59

23、.02图A.20检验2种药物对甲胎蛋白含量的平均效用结果分析:H0:检验2种药物对甲胎蛋白含量的平均效用没有差异。检验:由图A.20看,模型的F值为7.80,F的概率值为0.00078a值0.05。所以有足够的理由拒绝H0,表明药物对甲胎蛋白含量的平均效用有显著差异。可继续分析因素的作用。由于因素j的F值为14.98,其概率为0.0026a值0.05。所以2种药在药效调整后甲胎蛋白含量的平均效用有显著差异。本例只有主效应,应该观察TYPEIIISS的离差平方和。对于因素x(药量),其F的概率为0.0188Ir|underHO:Rho=0sa11sa!2edcsail1,000000,67950

24、0,41820.0001.0001sal20.679501.000000.43077,0001,0001edc0,418200,430771,00000J0001FModel11431292.9271431292.927229.530.0006Error318707.0736235.691Corr已匚:t已匚1丁匚出自.丨41450000.000TheGLMF1rocedureF:-SquareCoeffVarRootMSEyMean0.9870994.78584278.966391650.000SourceXDF1DF1TypeISS1431292.927TypeIIISS1431292.9

25、27MeanSquare1431292.927M已;miSquar已1431292.927FValue229.53FValu已229.53PrF0.0006PrF0.0006Sourc已:::1:tandar匚Fararn已t已EstimateErrortValuePr|t|Int已rcept127.4426720106.52098211.200.3175V:::0.00890380.000587715.150.0006圖輸出-1无标昌日志r无标砂國程序编辑器框图A.23模型中删除X*X项后的回归输出从图A.23的最后一行结果看,模型中删除X*X项(Xsq)后,自变量X的回归系数不为0(Pr值

26、0.0006a值0.05)。表明图A.23比图A.22中的X的回归系数显著。习题11答案1答:在微机SAS系统中REG过程包含以下几个回归方法。微机SAS系统中的REG过程中则包含了RSQUARE(判定法)、STEPWISE(逐步回归法)、ForwardSelection(向前选择法)、Backwarddimination(自后淘汰法)等回归法;而GLM过程是一个单独存在的回归过程。2答:图A.24的回归结果分析如下。H0:模型的回归系数全为0。从model(模型)拟合度的检验值F看,其概率值小于0.001,必定小于a值(0.05),因此有足够的理由拒绝原假设,表明回归模型正确。再从模型中各个

27、自变量的回归系数的显著性水平看,它们都小于a值(0.05)而非常显著,所以,回归预测模型为Y=截距+v7f+edc+v8f,即:月收入=136.45759+24.09807*总人数+23.94608*文化程度+1.76143*居住面积。习题12答案什么是完全模型的路径图和限定性模型的路径图?答:凡是根据完全模型的方差分析和参数估计统计量画出的,都是完全模型的路径图请参阅正文第30章的图30.2。所谓限定性模型是在完全模型的基础上剔除影响力甚微(系数绝对值小于0.2)的效应项,而成为非完全模型,因此被称为限定性模型。请参阅第30章的图30.3。请仿照第30章30.1节的程序30.1画出更好的“完

28、全模型的路径图和限定性模型的路径图”。答案略。习题13答案答:结果分析如下。模型拟合度从正文图13.11(c)看,“PrChiSq”值小于a值0.05的变量有:Intercept(截距)、cell(细胞类型)变量和KPS(手术前的综合体质)变量。把它们继续留在模型中,其余变量删掉,然后重新建立回归模型如下(见程序A.39)。程序A.39:DATAvalung2;DROPIN;INPUTtherapy$cell$n;Cellth=therapy|cell;LABELT=追踪时间或非追踪时间kps=手术前的综合素质评分diagtime=从诊断到手术治疗的时间age=年龄prior=事先是否有治疗cell=细胞类型therapy=疗法;DOI=1TON;INPUTtkpsdiagtimeageprior$;CENSOR=(tChiSqcell321.3579.0001kps139.8216ChiSqIntercept13.40060.34=052.31334.1400

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论