版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第六章第六章简单统计分析与简单统计分析与SAS过程过程一、假设检验与一、假设检验与SAS过程过程平均每户消费支出500600700800900 1000家庭数8153025139例题例题6.1: 为了了解农村居民家庭消费水平是否有所提高,2008年,某市对其农村居民家庭进行了一次抽样调查,其中100户被抽样家庭的调查结果如下表:表6.1 2008年某市农村居民家庭月均消费水平若3年前该市农村居民家庭月均消费支出服从N(720,17580),假定2008年月均消费支出服从正态分布,问该市农村居民家庭月均消费支出是否有显著提高?(显著性水平0.05)即在方差未知的情况下检验即在方差未知的情况下检验
2、是否成立。7200100:HH备责假设:原假设:22zzzP计算出的统计量的计算值、临界值、显著性水平及检验统计量的计算值、临界值、显著性水平及检验概率之间的关系概率之间的关系假定假定检验统计量检验统计量Z服从正态分布服从正态分布统计量的计算值:统计量的计算值:一次抽样观测值代入统计量一次抽样观测值代入统计量Z后后得到的数值得到的数值Z0.临界值:临界值:在给定的显著性水平下,由在给定的显著性水平下,由1020HH 接受时,拒绝当zz pzzP计算出的概率由0统计量的计算值、临界值、显著性水平及检验统计量的计算值、临界值、显著性水平及检验概率之间的关系概率之间的关系检验概率检验概率:1020H
3、H ,接受,故拒绝时,必有当zzp由临界值和检验概率的计算公式,可知由临界值和检验概率的计算公式,可知单样本和两样本下的假设检验单样本和两样本下的假设检验0100:HH备责假设:原假设:) 1 , 0(00202NnxU时,当) 1(0202ntnsxt时,当单样本的假设检验单样本的假设检验(一)单样本的参数假设检验(正态分布总体)(一)单样本的参数假设检验(正态分布总体) 总体均值的假设检验总体均值的假设检验检验统计量检验统计量:拒绝域:拒绝域:21 uu) 1(21ntt0100:HH备责假设:原假设:) 1 , 0(00202NnxU时,当) 1(0202ntnsxt时,当检验统计量检验
4、统计量:拒绝域:拒绝域:1uu) 1(1ntt对于总体均值的假设检验,可转化为均值是否为零均值是否为零的检验的检验,可通过PROC MEANS过程实现,只需在选项中选择t,prt,和clm,alpha。例6.1程序:data consume;input expend number ;dif=expend-720;cards;500 8 600 15 750 30 800 25 900 13 1000 9;proc means mean t prt;var dif;freq number; output out=meant t=tv;run;0:0:0100HH即检验由于检验变量由于检验变量di
5、f=expend-720的的t值值=3.17,概率概率pr|t|的值为的值为0.0020,小于显著性水平,小于显著性水平0.05,故,故在在0.05的显著性水平下推断出的显著性水平下推断出dif的均值显著不为的均值显著不为0,也即居,也即居民月均消费支出显著不等于民月均消费支出显著不等于720.0720:0720:10HH进一步检验data a;set meant;k=_freq_-1;p=1-probt(tv,k);t1=tinv(0.95,k);proc print;run;)(tvtp计算概率 p=1-probt(t,k)t1=tinv(0.95,k);计算计算t分布的分布的0.95分位
6、数分位数显然,显然,tv的值的值t1且且p值也值也0.05,故在故在0.05的显著性水平下拒的显著性水平下拒绝原假设,也即接受居民月均消费支出显著大于绝原假设,也即接受居民月均消费支出显著大于720.20212020:HH备责假设:原假设:) 1() 1()(220220122nSnxxnii 总体方差的假设检验总体方差的假设检验检验统计量:检验统计量:拒绝域:拒绝域:)或)1(1(2222212nn例例6.2:检验例检验例6.1中居民消费支出的方差是否有中居民消费支出的方差是否有变化,即是否仍为变化,即是否仍为17580。17580:17580:2120HH备责假设:原假设:proc mea
7、ns var; var expend; freq number;output out=test var=varex;run;data A(drop=_type_);set test;k=_freq_-1; chisq=k*varex/17580;p=1-probchi(chisq,k); ci1=cinv(0.025,k); ci2=cinv(0.975,k);proc print data=a noobs;run;程序说明:程序说明:2计算检验统计量)(2chisqp计算概率 ci1=cinv(0.025,k); ci2=cinv(0.975,k); chisq=k*varex/17580;
8、 p=1-probchi(chisq,k); 分别计算分别计算2分布的分布的0.025和和0.975分位数。分位数。由于由于 chisq统计量值满足统计量值满足ci1chisq0.05也表明,在也表明,在0.05的显著性水平下,的显著性水平下,接受原假设。接受原假设。)()(21202约束个数kfffkieieii为理论频数。为观测频数,其中eiiff0(二)单样本的非参数假设检验(二)单样本的非参数假设检验K.Pearson提出以下统计量:提出以下统计量: 总体分布的拟合优度检验总体分布的拟合优度检验拟合优度检验是根据样本的经验分布对总体分布拟合优度检验是根据样本的经验分布对总体分布作出的估
9、计。作出的估计。约束个数)或约束个数)kk(2222212拒绝域:表表6.3 订单频数分布表订单频数分布表星期一星期一星期二星期二星期三星期三星期四星期四星期五星期五合计合计 7 1215111560问:该企业的订单在每星期问:该企业的订单在每星期5天中是否服从均匀分布?(显著性天中是否服从均匀分布?(显著性水平水平0.05)例例6.3 某企业欲了解其产品订单的分布情况,在某企业欲了解其产品订单的分布情况,在随机选择的一周中发现,其订单频数分布如下表:随机选择的一周中发现,其订单频数分布如下表:程序实现:程序实现:data chisq;input foi fei;dif=(foi-fei);d
10、iv=dif*dif/fei;cards;7 12 12 12 15 12 11 12 15 12;proc means sum; var div;output out=test sum=chisq; run;data A;set test; k=_freq_-1; p=1-probchi(chisq,k);ci1=cinv(0.025,k); ci2=cinv(0.975,k);proc print data=a noobs; run;chisq2p计算eieiifff20)(计算程序说明程序说明: ci1=cinv(0.025,k); ci2=cinv(0.975,k); div=dif*
11、dif/fei; proc means sum; var div; output out=test sum=chisq; p=1-probchi(chisq,k);chisq,)(1202记为计算nieieiifff 分别计算2分布的0.025和0.975分位数。由于由于 chisq统计量值满足统计量值满足ci1chisq0.05也表明,在也表明,在0.05的显著性水平下,的显著性水平下,接受原假设。接受原假设。 总体均值的非参数检验(总体不服从正态分布)总体均值的非参数检验(总体不服从正态分布)利用利用UNIVARIATE过程中的符号检验与威尔克森秩过程中的符号检验与威尔克森秩和检验。和检验
12、。data consume;input expend number ;dif=expend-720;cards;500 8 600 15 750 30 800 25 900 13 1000 9;proc univariate alpha=0.1;var dif;freq number;run;总体不服从正态分布,利用符号检验与威尔克森秩和检验总体不服从正态分布,利用符号检验与威尔克森秩和检验(符号秩检验)。(符号秩检验)。由于由于Pr=|M|的的P值小于值小于0.0001, Pr=|S|的的P值为值为0.002,都小于给定的显著性水平,都小于给定的显著性水平,故拒绝原假设,认为故拒绝原假设,认
13、为dif均值不为零,与即认为居民家庭月均消费均值不为零,与即认为居民家庭月均消费支出显著大于支出显著大于720.BABAHH:10备责假设:原假设:)2()11(2121221nntnnsxxt两样本的假设检验两样本的假设检验(一)两独立组的假设检验(一)两独立组的假设检验独立组:两样本来自于两个独立总体独立组:两样本来自于两个独立总体样本需满足以下两个条件:正态性,方差齐次性。样本需满足以下两个条件:正态性,方差齐次性。)2(2121nntt检验统计量:检验统计量:拒绝域拒绝域检验可通过检验可通过Proc ttest实现实现 满足正态性而不满足方差齐次性时,采用参数的满足正态性而不满足方差齐
14、次性时,采用参数的近似近似T检验或非参数的威尔克森秩和检验检验或非参数的威尔克森秩和检验。 两个条件都不满足时,采用非参数的威尔克森秩和两个条件都不满足时,采用非参数的威尔克森秩和检验。(检验。(proc nparlway wilcoxon;);)满足正态分布条件满足正态分布条件表表6.4 地区地区A和和B家庭平均收入水平情况家庭平均收入水平情况A地地区区2.52.93.25.33.84.24.03.93.33.14.54.74.25.75.13.04.92.73.84.6B地地区区3.74.14.33.63.93.84.74.45.35.1 3.83.76.05.52.93.45.23.84
15、.84.6问:这两个地区的家庭平均收入是否有显著差异?(显著性水问:这两个地区的家庭平均收入是否有显著差异?(显著性水平平0.05)例例6.4: 某银行考虑在两个相邻地区某银行考虑在两个相邻地区A和和B之间开设一个之间开设一个新的营业网点。银行所关心的时这两个地区家庭平均收入新的营业网点。银行所关心的时这两个地区家庭平均收入是否相同。为此,在这两个地区分别抽取了是否相同。为此,在这两个地区分别抽取了20户居民家庭户居民家庭进行调查,调查结果如下表:进行调查,调查结果如下表:data income;input area$ income;cards;A 2.5 B 3.7 A 3.2 B 4.3
16、A 3.8 B 3.9 A 4.0 B 4.7 A 3.3 B 5.3A 4.5 B 3.8 A 4.2 B 6.0 A 5.1 B 2.9 A 4.9 B 5.2 A 3.8 B 4.8A 2.9 B 4.1 A 5.3 B 3.6 A 4.2 B 3.8 A 3.9 B 4.4 A 3.1 B 5.1A 4.7 B 3.7 A 5.7 B 5.5 A 3.0 B 3.4 A 2.7 B 3.8 A 4.6 B 4.6;proc sort; by area;run;proc univariate normal;var income;by area;run;proc ttest ; class
17、 area;var income ; run;area=A的正态性检验结果area=B的正态性检验结果由于由于W检验的检验的P值都大于给定的显著性水平,故接受原假设,值都大于给定的显著性水平,故接受原假设,认为都服从正态分布。认为都服从正态分布。又由方差是否相等(又由方差是否相等(Equality of Variances)的的F检验:检验:F值值=1.31,P值值PrF=0.5658(0.05),故认为两组方差相等。),故认为两组方差相等。因此可用因此可用T检验对两组均值是否相等进行检验,对应检验对两组均值是否相等进行检验,对应T检验检验的的T值值=-1.32,P值值Pr|T|=0.1938
18、(0.05),接受原假设,即,接受原假设,即A,B两地区家庭收入没有显著差异。两地区家庭收入没有显著差异。正态性不满足正态性不满足data zichfz;input type$ rate;cards;pt 99.4 pt 94.8 pt 38.4 pt 52.7 pt 92.1pt 87.9 pt 334.2 pt 86.9 pt 134.5 pt 74.9pt 69.9 pt 48.0 pt 104.9 pt 67.8 pt 60.8pt 59.5 pt 62.0 pt 75.4 pt 715.2 pt 15.3pt 224.6 pt 90.6 pt 86.7 pt 65.4 pt 77.1
19、pt 354.2 pt 59.7nopt 31.3 nopt 54.7 nopt 29.7 nopt 40.0 nopt 55.1nopt 32.6 nopt 59.2 nopt 46.9 nopt 52.9 nopt 29.1nopt 64.8 nopt 35.0 nopt 56.6 nopt 44.5 nopt 52.3nopt 21.8 nopt 52.0 nopt 28.0 nopt 24.0 nopt 13.5nopt 29.8 nopt 67.1 nopt 17.1 nopt 48.1 nopt 30.8nopt 32.6 nopt 24.1;proc sort; by type;
20、run;proc univariate normal;var rate;by type;run;proc npar1way wilcoxon;class type;var rate;run;见课本例见课本例6.6type=nopt的正态性检验结果type=pt的正态性检验结果由于由于W检验的检验的P值值0.24880.05,故接受原假设,认为服从,故接受原假设,认为服从正态分布正态分布。由于由于W检验的检验的P值值0.0001,故拒绝原假设,认为不服从正,故拒绝原假设,认为不服从正态分布。态分布。采用非参数检验采用非参数检验Wilcoxon Two-Sample Test检验中的近似检验中的近
21、似Z检验和近似检验和近似T检检验的双侧检验的验的双侧检验的P值都值都0.001,故拒绝原假设,即,故拒绝原假设,即两类公司的资产负债率有显著差异。两类公司的资产负债率有显著差异。又由于又由于nopt类公司资产负债率类公司资产负债率rate的均值的均值39.7629630显然小于显然小于Pt类公司的均值类公司的均值,故故Pt类公司的资产负债率显著高于类公司的资产负债率显著高于nopt类公类公司的资产负债率。司的资产负债率。0:0:10DDHH备责假设:原假设:(二)成对组的假设检验(二)成对组的假设检验成对组:两样本来自于同一总体在不同时间或不成对组:两样本来自于同一总体在不同时间或不同处理下的
22、数据。同处理下的数据。为两组差值的均值。其中D差值来自正态总体:用差值来自正态总体:用MEANS过程中过程中T检验检验来自其它分布总体:用来自其它分布总体:用UNIVARIATE过程中的符号检过程中的符号检验或符号秩检验。验或符号秩检验。课本例课本例6.7data package;input sale1 sale2;dif=sale2-sale1;cards;66 72 70 75 75 68 79 87 65 84 90 73 85 70 82 8397 95 95 90 92 82 73 78 71 69 69 74 77 86;proc univariate normal;var dif
23、; run;课本例6.8data stock(keep=rate1 rate2 dif);input price1 price2;rate1=(price1-lag(price1)/lag(price1)*100;rate2=(price2-lag(price2)/lag(price2)*100;dif=rate2-rate1;cards;25.79 24.90 24.37 24.88 23.24 25.20 22.11 25.1022.00 24.99 22.12 24.78 20.29 24.90 19.70 24.8020.46 26.05 19.98 25.41 20.68 25.46
24、;proc univariate normal; var rate1 rate2 dif;run;相关分析与相关分析与CORR过程过程两连续型变量:两连续型变量:Pearson积矩相关系数积矩相关系数两有序变量:两有序变量: (1)Spearman等级相关系数等级相关系数(或秩序相关系数)(或秩序相关系数)(2)Kendalls tau_b相关系数相关系数两分类变量:列联系数两分类变量:列联系数相关关系的度量相关关系的度量 主要功能:主要功能: 计算变量间的相关系数:包括计算变量间的相关系数:包括Pearson相关系数,相关系数, Spearman等级相关系数、等级相关系数、Kendalls
25、tau_b相关相关系数、系数、Hoeffding的相关性度量的相关性度量D. 还可以计算偏相关和还可以计算偏相关和Cronbach系数及一些单变系数及一些单变量的描述性统计量。量的描述性统计量。CORR(相关)过程(相关)过程CORR(相关)过程的一般格式(相关)过程的一般格式PROC CORR;VAR variable-list;WITH variable-list;PARTIAL variable-list;WEIGHT variable;FREQ variable ;BY variable-list; CORR(相关)过程中语句说明:(1)PROC CORR语句语句一般格式为:一般格式为
26、:PROC CORR;有以下几类:数据集选项:数据集选项:u DATA=SAS-data-set;u OUTP=SAS-data-set;创建存放Pearson统计量的数据集,需同时使用PEARSON选项。u OUTS=SAS-data-set;创建存放Spearman统计量的数据集,需同时使用SPEARMAN选项。u OUTH=SAS-data-set; 创建存放Hoeffding统计量的数据集,需同时使用HOEFFDING选项。u OUTK=SAS-data-set; 创建存放Kendall的tau_b统计量的数据集,需同时使用KENDALL选项。相关类型选项:相关类型选项:u Pears
27、on相关系数;没有规定选项,即默认为Pearson相关系数。u Spearman秩序相关系数;u Kendall等级相关系数tau_b;u Hoeffding的相关性度量;(2)VAR语句语句一般格式为:一般格式为:VAR variable-list;如:var a b c;(3)WITH语句语句一般格式为:一般格式为:WITH variable-list;该句与该句与VAR语句一起使用,得到变量间特殊组合的相关语句一起使用,得到变量间特殊组合的相关系数。系数。如:如:var a b c; with x y;(4)PARTIAL语句语句一般格式为:一般格式为:PARTIAL variable-list;计算计算Pearson偏相关,偏相关,Spearman偏秩序相关和偏秩序相关和Kendall的偏的偏tau_b,给出偏出去(即固定)的变量名。给出偏出去(即固定)的变量名。偏相关是控制一个或几个固定变量的影响后两个变量间偏相关是控制
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年潍坊护理职业学院单招综合素质考试题库含答案详细解析
- 2026年兰州职业技术学院单招职业适应性测试题库带答案详细解析
- 五年级数学上册总复习-教学设计
- 人工智能教育应用背景下学生个性化学习隐私保护与数据安全策略的优化与实践教学研究课题报告
- 2026年河南经贸职业学院单招职业适应性测试题库有答案详细解析
- 2026年重庆市社区工作者综合知识题库及答案解析
- 2026年四川托普信息技术职业学院单招综合素质考试题库有答案详细解析
- 2026北京大旺食品有限公司丰台分公司招聘8人备考题库及一套完整答案详解
- 2026福州产发园区运营管理有限公司项目运营合同制用工招聘3人备考题库含答案详解(突破训练)
- 2026年山东省威海市高职单招职业适应性测试考试题库附答案详细解析
- 《塑造卓越团队》课件
- 个人欠薪协议书范本
- 彩钢瓦遮雨棚安装施工方案
- 信息技术基础 课件 单元1 Windows10 操作系统基础
- 新编护理三基复习测试题
- GB 4234.2-2024外科植入物金属材料第2部分:纯钛
- 眼袋手术课件
- 计算机二级WPS考试题及答案
- 手部卫生要讲究学会洗手剪指甲一年级综合实践活动课件
- DL-T5024-2020电力工程地基处理技术规程
- DZ∕T 0153-2014 物化探工程测量规范(正式版)
评论
0/150
提交评论