第六章 简单统计分析与sas过程ppt课件_第1页
第六章 简单统计分析与sas过程ppt课件_第2页
第六章 简单统计分析与sas过程ppt课件_第3页
第六章 简单统计分析与sas过程ppt课件_第4页
第六章 简单统计分析与sas过程ppt课件_第5页
已阅读5页,还剩38页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第六章 简单统计分析与SAS过程 一、假设检验与SAS过程 平均每户消费支出500600700800900 1000 家庭数8153025139 例题6.1: 为了了解农村居民家庭消费水平是否有所提高, 2008年,某市对其农村居民家庭进行了一次抽样调查,其 中100户被抽样家庭的调查结果如下表: 表6.1 2008年某市农村居民家庭月均消费水平 若3年前该市农村居民家庭月均消费支出服从N(720,17580) ,假定2008年月均消费支出服从正态分布,问该市农村居民家 庭月均消费支出是否有显著提高?(显著性水平0.05) 即在方差未知的情况下检验 统计量的计算值、临界值、显著性水平及检验概 率之间的关系 假定 检验统计量Z服从正态分布 统计量的计算值:一次抽样观测值代入统计量Z后 得到的数值Z0. 临界值:在给定的显著性水平下,由 统计量的计算值、临界值、显著性水平及检验概 率之间的关系 检验概率: 由临界值和检验概率的计算公式,可知 因此,判断接受或拒绝H0只需看p大于还是小于 单样本和两样本下的假设检验 单样本的假设检验 (一)单样本的参数假设检验(正态分布总体) 总体均值的假设检验 检验统计量:拒绝域: 检验统计量:拒绝域: data a; set meant; k=_freq_-1; p=1-probt(tv,k); t1=tinv(0.95,k); proc print;run; p=1-probt(t,k) t1=tinv(0.95,k);计算t分布的0.95分位数 显然,tv的值t1且p值也0.05也表明,在0.05的显著性水平下, 接受原假设。 (二)单样本的非参数假设检验 K.Pearson提出以下统计量: 总体分布的拟合优度检验 拟合优度检验是根据样本的经验分布对总体分布 作出的估计。 拒绝域: 表6.3 订单频数分布表 星期一星期二星期三星期四星期五合计 7 1215111560 问:该企业的订单在每星期5天中是否服从均匀分布?(显著性 水平0.05) 例6.3 某企业欲了解其产品订单的分布情况,在随 机选择的一周中发现,其订单频数分布如下表: 程序实现: data chisq;input foi fei; dif=(foi-fei);div=dif*dif/fei; cards; 7 12 12 12 15 12 11 12 15 12 ; proc means sum; var div; output out=test sum=chisq; run; data A; set test; k=_freq_-1; p=1-probchi(chisq,k); ci1=cinv(0.025,k); ci2=cinv(0.975,k); proc print data=a noobs; run; 程序说明: ci1=cinv(0.025,k); ci2=cinv(0.975,k); div=dif*dif/fei; proc means sum; var div; output out=test sum=chisq; p=1-probchi(chisq,k); 分别计算分布的0.025和0.975分位数。 由于 chisq统计量值满足ci10.05也表明,在0.05的显著性水平下, 接受原假设。 总体均值的非参数检验(总体不服从正态分布) 利用UNIVARIATE过程中的符号检验与威尔克森秩 和检验。 data consume; input expend number ; dif=expend-720; cards; 500 8 600 15 750 30 800 25 900 13 1000 9 ; proc univariate alpha=0.1; var dif; freq number; run; 总体不服从正态分布,利用符号检验与威尔克森秩和检验 (符号秩检验)。 由于Pr=|M|的P值小于0.0001, Pr=|S|的P值为0.002, 都小于给定的显著性水平, 故拒绝原假设,认为dif均值不为零,与即认为居民家庭月均消费 支出显著大于720. 两样本的假设检验 (一)两独立组的假设检验 独立组:两样本来自于两个独立总体 样本需满足以下两个条件:正态性,方差齐次性。 检验统计量: 拒绝域 检验可通过Proc ttest实现 满足正态性而不满足方差齐次性时,采用参数的 近似T检验或非参数的威尔克森秩和检验。 两个条件都不满足时,采用非参数的威尔克森秩和 检验。(proc nparlway wilcoxon;) 满足正态分布条件 表6.4 地区A和B家庭平均收入水平情况 A地 区 2.5 2.9 3.2 5.3 3.8 4.2 4.0 3.9 3.3 3.1 4.5 4.7 4.2 5.7 5.1 3.0 4.9 2.7 3.8 4.6 B地 区 3.7 4.1 4.3 3.6 3.9 3.8 4.7 4.4 5.3 5.1 3.8 3.7 6.0 5.5 2.9 3.4 5.2 3.8 4.8 4.6 问:这两个地区的家庭平均收入是否有显著差异?(显著性水 平0.05) 例6.4: 某银行考虑在两个相邻地区A和B之间开设一个 新的营业网点。银行所关心的时这两个地区家庭平均收入 是否相同。为此,在这两个地区分别抽取了20户居民家庭 进行调查,调查结果如下表: data income; input area$ income; cards; A 2.5 B 3.7 A 3.2 B 4.3 A 3.8 B 3.9 A 4.0 B 4.7 A 3.3 B 5.3 A 4.5 B 3.8 A 4.2 B 6.0 A 5.1 B 2.9 A 4.9 B 5.2 A 3.8 B 4.8 A 2.9 B 4.1 A 5.3 B 3.6 A 4.2 B 3.8 A 3.9 B 4.4 A 3.1 B 5.1 A 4.7 B 3.7 A 5.7 B 5.5 A 3.0 B 3.4 A 2.7 B 3.8 A 4.6 B 4.6 ; proc sort; by area;run; proc univariate normal; var income;by area;run; proc ttest ; class area; var income ; run; area=A的正态性检验结果 area=B的正态性检验结果 由于W检验的P值都大于给定的显著性水平,故接受原假设 ,认为都服从正态分布。 又由方差是否相等(Equality of Variances)的F检验:F值 =1.31,P值PrF=0.5658(0.05),故认为两组方差相等。 因此可用T检验对两组均值是否相等进行检验,对应T检验 的T值=-1.32,P值Pr|T|=0.1938(0.05),接受原假设,即 A,B两地区家庭收入没有显著差异。 正态性不满足 data zichfz; input type$ rate; cards; pt 99.4 pt 94.8 pt 38.4 pt 52.7 pt 92.1 pt 87.9 pt 334.2 pt 86.9 pt 134.5 pt 74.9 pt 69.9 pt 48.0 pt 104.9 pt 67.8 pt 60.8 pt 59.5 pt 62.0 pt 75.4 pt 715.2 pt 15.3 pt 224.6 pt 90.6 pt 86.7 pt 65.4 pt 77.1 pt 354.2 pt 59.7 nopt 31.3 nopt 54.7 nopt 29.7 nopt 40.0 nopt 55.1 nopt 32.6 nopt 59.2 nopt 46.9 nopt 52.9 nopt 29.1 nopt 64.8 nopt 35.0 nopt 56.6 nopt 44.5 nopt 52.3 nopt 21.8 nopt 52.0 nopt 28.0 nopt 24.0 nopt 13.5 nopt 29.8 nopt 67.1 nopt 17.1 nopt 48.1 nopt 30.8 nopt 32.6 nopt 24.1 ; proc sort; by type;run; proc univariate normal; var rate;by type;run; proc npar1way wilcoxon; class type;var rate;run; 见课本例6.6 type=nopt的正态性检验结果 type=pt的正态性检验结果 由于W检验的P值0.24880.05,故接受原假设,认为服从 正态分布。 由于W检验的P值; VAR variable-list; WITH variable-list; PARTIAL variable-list; WEIGHT variable; FREQ variable ; BY variable-list; CORR(相关)过程中语句说明: (1)PROC CORR语句 一般格式为:PROC CORR; 有以下几类: 数据集选项: u DATA=SAS-data-set; u OUTP=SAS-data-set;创建存放Pearson统计量的数据 集,需同时使用PEARSON选项。 u OUTS=SAS-data-set;创建存放Spearman统计量的数 据集,需同时使用SPEARMAN选项。 u OUTH=SAS-data-set; 创建存放Hoeffding统 计量的数据集,需同时使用HOEFFDING选项。 u OUTK=SAS-data-set; 创建存放Kendall的tau_b统 计量的数据集,需同时使用KENDALL选项。 相关类型选项: u Pearson相关系数;没有规定选项,即默认为 Pearson相关系数。 u Spearman秩序相关系数; u Kendall等级相关系数tau_b; u Hoeffding的相关性度量; (2)VAR语句 一般格式为:VAR variable-list; 如:var a b c; (3)WITH语句 一般格式为:WITH variable-list; 该句与VAR语句一起使用,得到变量间特殊组合的相关 系数。 如:var a b c; with x y; (4)PARTIAL语句 一般格式为:PARTIAL variable-list; 计算Pearson偏相关,Spearman偏秩序相关和Kendall的偏 tau_b,给出偏出去(即固定)的变量名。 偏相关是控制一个或几个固定变量的影响后两个变量间 相关程度强弱的度量。 如:var a b; partial c; data jumin; input income expend; cards; 802 685 931 828 1089 916 1431 1119 1568 1261 1686 1387 1925 1554 2356 1826 3027 2336 3979 3179 4283 3893 4839 3919 5160 4186 5425 4332 5854 4616 6280 4953 6860 5309 ; proc corr; var income expend; title 我国内地城镇居民收入与消费之间相关分析; run; 例6.8 我国内地城镇居民家庭人均收入(income) 和人均消费支出(expend)的相关性分析。 我国内地城镇居民和人均消费的相关性分析结果 收入与消费之间的Perason相关系数=0.99679,两者相关系数为 0的概率0.0001,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论