版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第五主题区间估计和假设检验
第五主题区间估计和假设检验
区间估计与假设检验的基本概念总体均值的区间估计与假设检验的SAS实现总体比例的区间估计与假设检验的SAS实现总体方差的区间估计与假设检验的SAS实现分布检验区间估计与假设检验的基本概念区间估计假设检验第一节区间估计与假设检验的基本概念第一节区间估计与假设检验的基本概念一、区间估计1.点估计和区间估计参数的估计方法主要有两种:点估计和区间估计。点估计是用样本的观测值估计总体未知参数的值。由于样本的随机性,不同样本观测值计算得出的参数的估计值间存在着差异,因此常用一个区间估计总体的参数,并把具有一定可靠性和精度的估计区间称为置信区间。利用构造的统计量及样本观测值,计算得出参数的置信区间的方法称为参数的区间估计。一、区间估计2.参数的置信区间在区间估计中,对于总体的未知参数θ,需要求出两个统计量θ1(X1,X2,...,Xn)和θ2(X1,X2,...,Xn)来分别估计总体参数θ的上限和下限,使得总体参数在区间(θ1,θ2)内的概率为P{θ1<θ<θ2}=1–α
其中1–α称为置信水平,而(θ1,θ2)称为θ的置信区间,θ1,θ2分别称为置信下限和置信上限。置信水平为1–α的含义是随机区间(θ1,θ2)以1–α的概率包含了参数θ。2.参数的置信区间3.正态总体均值和方差的置信区间参数的区间估计大多是对正态总体的参数进行估计,如对单总体均值、方差的估计、两总体均值差的估计和两总体方差比的估计等。正态总体参数的各种置信区间见表3-1。被估参数条件枢轴量及其分布参数的置信区间单正态总体μ2已知2未知2μ已知μ未知3.正态总体均值和方差的置信区间被估参数条件枢轴量及其分布正态总体参数的各种置信区间见表3-1。
其中被估参数条件枢轴量及其分布参数的置信区间两正态总体μ1-μ2两样本独立,12,22已知两样本独立,12=22=2
未知两样本独立,μ1,
μ2未知正态总体参数的各种置信区间见表3-1。其中被估参数条件枢轴4.总体比例与比例差的置信区间实际应用中经常需要对总体比例进行估计,如产品的合格率、大学生的就业率和手机的普及率等。记π和P分别表示总体比例和样本比例,则当样本容量n很大时(一般当nP和n(1–P)均大于5时,就可以认为样本容量足够大),样本比例P的抽样分布可用正态分布近似。总体比例与比例差的置信区间如表3-2所示。待估参数枢轴量及其分布参数的置信区间总体比例π两总体比例差π1-π2
其中P1,P2为两个样本比例
4.总体比例与比例差的置信区间待估参数枢轴量及其分布参数的二、假设检验1.假设检验的基本原理对总体参数进行假设检验时,首先要给定一个原假设H0,H0是关于总体参数的表述,与此同时存在一个与H0相对立的备择假设H1,H0与H1有且仅有一个成立;经过一次抽样,若发生了小概率事件(通常把概率小于0.05的事件称为小概率事件),可以依据“小概率事件在一次实验中几乎不可能发生”的理由,怀疑原假设不真,作出拒绝原假设H0,接受H1的决定;反之,若小概率事件没有发生,就没有理由拒绝H0,从而应作出拒绝H1的决定。二、假设检验2.假设检验的步骤
1)根据问题确立原假设H0和备选假设H1;
2)确定一个显著水平,它是衡量稀有性(小概率事件)的标准,常取为0.05;
3)选定合适的检验用统计量W(通常在原假设中相等成立时,W的分布是已知的),根据W的分布及的值,确定H0的拒绝域。
4)由样本观测值计算出统计量W的观测值W0,如果W0落入H0的拒绝域,则拒绝H0;否则,不能拒绝原假设H0。2.假设检验的步骤
注意:在SAS系统中,是由样本观测值计算出统计量W的观测值W0和衡量观测结果极端性的p值(p值就是当原假设成立时得到样本观测值和更极端结果的概率),然后比较p和作判断:p<,拒绝原假设H0;p≥,不能拒绝原假设H0。注意:在SAS系统中,是由样本观测值计算出统计量W的p值通常由下面公式计算而得到。●p=P{|W|≥|W0|}=2P{W≥|W0|}
(拒绝域为两边对称的区域时)●p=min{P{W≥W0},P{W
W0}}
(拒绝域为两边非对称区域时)●p=P{W≥W0}(拒绝域为右边区域时)●p=P{W
W0}(拒绝域为左边区域时)只需根据SAS计算出的p值,就可以在指定的显著水平下,作出拒绝或不能拒绝原假设的决定。p值通常由下面公式计算而得到。3.正态总体均值和方差的假设检验对正态总体的参数进行假设检验是假设检验的重要内容,如对单总体均值、方差的检验、两总体均值之差的检验和两总体方差比的检验等。正态总体参数的各种检验方法见下表3-3至表3-5。表3-3单正态总体N(μ,2)均值μ的检验法检验名称条件检验类别H0H1检验统计量分布拒绝域Z检验已知双边检验μ=μ0μ≠μ0N(0,1)|Z|≥Zα/2左边检验μ≥μ0μ<μ0Z≤-Zα右边检验μ≤μ0μ>μ0Z≥Zαt检验未知双边检验μ=μ0μ≠μ0t(n–1)|t|≥tα/2(n
–1)左边检验μ≥μ0μ<μ0t≤–
tα(n
–1)右边检验μ≤μ0μ>μ0t≥tα(n
–1)3.正态总体均值和方差的假设检验检验名称条件检验类别H0H表3-4单正态总体N(μ,2)方差2的检验法或检验名称条件检验类别H0H1检验统计量分布拒绝域χ2检验μ已知双边检验左边检验右边检验μ未知双边检验左边检验右边检验表3-4单正态总体N(μ,2)方差2的检验法或检验表3-5两正态总体的均值差与方差比的检验名称条件类别H0H1检验统计量分布拒绝域Z检验两样本独立,12=22=2未知双边检验μ1-μ2=0μ1-μ2≠0t(n1+n2
–2)左边检验μ1-μ20μ1-μ2<0右边检验μ1-μ20μ1-μ2>0t检验成对匹配样本,12,22未知双边检验μd=0μd≠0左边检验μd0μd<0右边检验μd0μd>0F检验两样本独立,μ1,μ2未知双边检验F(n1–1,n2–1)左边检验右边检验表3-5两正态总体的均值差与方差比的检验名称条件类别H4.总体比例与比例差的检验当样本容量n很大时,可根据表3-6对总体比例与比例差进行假设检验。表3-6总体比例与比例差的检验检验名称检验类别H0H1
检验统计量分布拒绝域比例检验双边检验
=0
0N(0,1)|z|
zα/2左边检验
0
<0|z|≤–zα右边检验
0
>0|z|
zα两总体比例差检验双边检验1
=21
2N(0,1)|z|
zα/2左边检验1
21<2|z|≤–zα右边检验1
21>2|z|
zα4.总体比例与比例差的检验检验名称检验类别H0H1检验统第二节总体均值的区间估计与假设检验的SAS实现使用INSIGHT模块使用“分析家”使用TTEST过程第二节总体均值的区间估计与假设检验的SAS实现使用INS一、使用INSIGHT模块1.总体均值的区间估计【例3-1】某药材生产商要对其仓库中的1000箱药材的平均重量进行估计,药材重量的总体方差未知,随机抽取16箱样本称重后结果如表3-7所示。表3-716箱药材重量(单位:千克)设药材重量数据存放于数据集tt中,其中重量变量名为weight。求该仓库中每箱药材平均重量在95%置信水平下的置信区间。50505651495347525353495355485055一、使用INSIGHT模块50505651495347525步骤如下:
1)启动INSIGHT模块,并打开数据集tt;
2)选择菜单“Analyze”→“Distribution(Y)”;
3)在打开的“Distribution(Y)”对话框中进行区间估计的设置(如图)。
步骤如下:
结果包括一个名为“95%ConfidenceIntervals(95%置信区间)”的列表,表中给出了均值、标准差、方差的估计值(Parameter)、置信下限(LCL)和置信上限(UCL),如图3-2所示。结果表明,根据抽样样本,该仓库中药材的平均重量以95%的可能性位于50.08千克至52.92千克之间。结果包括一个名为“95%ConfidenceInt2.单样本总体均值的假设检验【例3-2】一家食品厂以生产袋装食品为主,每天的产量大约为8000袋,每袋重量规定为100克。为了分析每袋重量是否符合要求,质检部门经常进行抽检。现从某天生产的一批食品中随机抽取了25袋,测得每袋重量如表3-8所示。表3-825袋食品的重量(单位:克)试从抽检的样本数据出发,检验变量WEIGHT的均值与100克是否有显著差异。假定表3-8数据存放在数据集tt1中,重量变量名为WEIGHT。112.5101.0103.0102.0100.5102.6107.595.0108.8115.6100.0123.5102.0101.6102.2116.695.497.8108.6105.0136.8102.8101.598.493.32.单样本总体均值的假设检验112.5101.0103.0
设变量WEIGHT的均值为μ,问题是希望通过样本数据检验变量WEIGHT均值的如下假设:
H0:μ=100, H1:μ
100。使用INSIGHT对均值进行检验的步骤如下:
1)首先启动INSIGHT,并打开数据集tt1;
2)选择菜单“Analyze”→“Distribution(Y)”;
3)在打开的“Distribution(Y)”对话框中选定分析变量WEIGHT;
4)单击“OK”按钮,得到变量的描述性统计量;设变量WEIGHT的均值为μ,问题是希望通过样本数据5)选择菜单“Tables(表)”→“TestsforLocation(位置检验)”;在弹出的“TestsforLocation”对话框中输入100,单击“OK”按钮得到输出结果如图所示。
5)选择菜单“Tables(表)”→“Tests
结果显示,观测值不等于100克的观测有24个,其中19个观测值大于100。图中第一个检验为t检验(Student'st),需要假定变量服从正态分布,检验的p值为0.0105,这个检验在0.05水平下是显著的,所以可认为均值与100克有显著差异。第二个检验(Sign)是叫做符号检验的非参数检验,其p值为0.0066,在0.05水平下也是显著的,结论不变。第三个检验(SignedRank)是叫做符号秩检验的非参数检验,其p值为0.0048,在0.05水平下是显著的,结论不变。结果显示,观测值不等于100克的观测有24个,其中13.两样本总体均值的比较:成对匹配样本在INSIGHT中比较成对样本均值是否显著差异,可以计算两变量的差值变量,再检验差值变量的均值是否显著为0。【例3-3】由10名学生组成一个随机样本,让他们分别采用A和B两套试卷进行测试,结果如表3-9所示。表3-910名学生两套试卷的成绩试从样本数据出发,分析两套试卷是否有显著差异。试卷A78637289914968768555试卷B71446184745155607739差值71911517-213168163.两样本总体均值的比较:成对匹配样本试卷A7863728
步骤如下:
1)首先生成差值变量:启动INSIGHT,并打开数据集shijuan。选择菜单“Edit”→“Variables”→“Other”,打开“EditVariables”对话框,选择A为Y变量,B为X变量,然后选择变换(Transformation):Y–X,如图,生成新的差值变量d;
步骤如下:2)然后对变量d的均值做如下假设:
H0:μd=0, H1:μd
0。
3)选择菜单“Analyze”→“Distribution(Y)”;在打开的“Distribution(Y)”对话框中选定分析变量:选择变量差值d,单击“Y”按钮,将变量d移到右上方的列表框中;
4)单击“Output”按钮,在打开的对话框中选中“TestsforLocation(位置检验)”复选框;
5)两次单击“OK”按钮,得到变量的描述性统计量;2)然后对变量d的均值做如下假设:6)选择菜单“Tables(表)”→“TestsforLocation(位置检验)”;在弹出的“TestsforLocation”对话框中输入0,单击“OK”按钮得到输出结果如图所示。结果显示三个检验的结论都是p值小于0.05,所以应拒绝原假设,即总体的均值与0有显著差异。所以两套试卷有显著差异。虽然SAS给出三个检验结果,其实作结论时只需其中一个。如果可以认为分析变量服从正态分布只要看t检验结果;否则只须看符号秩检验结果。只有在数据为两两比较的大小结果而没有具体数值时符号检验才有用。6)选择菜单“Tables(表)”→“Tests二、使用“分析家”1.总体均值的置信区间【例3-4】在“分析家”中求例3-1中每箱药材平均重量在95%置信水平下的置信区间。步骤如下:
1)在“分析家”模块中打开数据集TT;
2)选择菜单“Statistics(统计)”→“HypothesisTests(假设检验)”→“OneSamplet–testforaMean(单样本均值t-检验)”;
3)在打开的“OneSamplet–testforaMean”对话框中设置均值的置信区间(如图3-6)。二、使用“分析家”3)在打开的“OneSamplet–testforaMean”对话框中设置均值的置信区间(如图3-6)。结果表明(下图),根据抽样样本,该仓库中药材的平均重量以95%的可能性位于50.08千克至52.92千克之间。
3)在打开的“OneSamplet–test2.单样本总体均值的假设检验【例3-5】使用“分析家”检验例3-2中食品重量是否符合要求。希望通过样本数据检验变量WEIGHT均值的如下假设:
H0:μ=100, H1:μ
100。由于此时的方差未知,所以使用t检验法。步骤如下:
1)在“分析家”中打开数据集TT1;
2)选择菜单“Statistics(统计)”→“HypothesisTests(假设检验)”→“OneSamplet–testforaMean(单样本均值t-检验)”,打开“OneSamplet–testforaMean”对话框;2.单样本总体均值的假设检验4)按图3-8所示设置均值检验,单击“OK”按钮,得到结果如图左所示。;显示结果(图右)表明t统计量的p值为0.0105<0.05,所以拒绝原假设,即认为总体的均值不等于100。4)按图3-8所示设置均值检验,单击“OK”按钮,得3.两样本总体均值的比较:成对匹配样本【例3-6】使用“分析家”对例3-3中两套试卷检验有无显著差异。这是一个(成对匹配)双样本均值检验问题,若μ1和μ2分别表示两套试卷的平均成绩,则检验的是:
H0:μ1–μ2=0, H1:μ1–μ2
0;分析步骤如下:
1)在“分析家”中打开数据集Mylib.sjdf;
2)选择菜单“Statistics(统计)”→“HypothesisTests(假设检验)”→“TwoSamplePairedt-TestforaMean(均值的成对双样本t-检验)”;3.两样本总体均值的比较:成对匹配样本3)在打开的“TwoSamplePairedt-TestforaMean”对话框中,按图左所示设置双样本均值检验,单击“OK”按钮,得到结果如图右所示结果显示,无论两总体的方差是否相等,t统计量的p值=0.0005<0.05,所以在95%的置信水平下,拒绝原假设,两总体的均值有显著差异。结果表明可以95%的把握认为两套试卷有显著差异。3)在打开的“TwoSamplePaired4.两样本总体均值的比较:独立样本【例3-7】为估计两种方法组装产品所需时间的差异,分别对两种不同的组装方法各随机安排一些个工人进行操作试验,每个工人组装一件产品所需的时间如表3-10所示。试以95%的置信水平推断两种方法组装产品所需平均时间有无差异。表3-10两种方法组装产品所需的时间(单位:分钟)
这是一个(独立)两样本均值检验问题,若μ1和μ2分别表示两种方法组装一件产品所需的平均时间,则检验的是:H0:μ1–μ2=0,H1:μ1–μ2
0;方法128.330.129.037.632.128.836.037.238.534.428.030.0方法227.622.231.033.820.030.231.726.032.031.24.两样本总体均值的比较:独立样本方法128.330.12
假定表3-10数据存放在数据集CHANPIN中,将两个样本中被比较均值的变量的观测值记在同一分析变量F下,不同的样本用一个分类变量g的不同值加以区分,而且分类变量g只能取两个值,否则无法进行。分析步骤如下:
1)在“分析家”中打开数据集CHANPIN;
2)选择菜单“Statistics(统计)”→“HypothesisTests(假设检验)”→“TwoSamplet-TestforMean(两样本均值的t-检验)”;假定表3-10数据存放在数据集CHANPIN中,将两3)在打开的“TwoSamplet-TestforaMean”对话框中,按图3-12所示设置双样本均值检验,单击“OK”按钮,得到结果如图3-13所示
结果显示,由于t统计量的p值=0.0433,所以在95%的置信水平下,应该拒绝原假设,即两种方法所需时间有差异。表明有95%的把握认为两种方法所需时间有差异。3)在打开的“TwoSamplet-Tes三、使用MEANS过程、TTEST过程、NPAR1WAY过程MEANS过程(ex8-2-1,ex8-2-2);TTEST过程可以执行单样本均值的t检验、配对数据的t检验以及双样本均值比较的t检验(ex8-2-3);NPAR1WAY过程(ex8-3-1,ex8-3-2);1.语法格式PROCTTEST<选项列表>;
[CLASS<分组变量名>;][VAR<分析变量名列表>;][PAIED<变量名列表>;][BY<分组变量名>;]RUN;其中,PROCTTEST和RUN语句是必须的,其余语句都是可选的,而且可调换顺序。三、使用MEANS过程、TTEST过程、NPAR1WAY过程CLASS语句所指定的分组变量是用来进行组间比较的;而BY语句所指定的分组变量是用来将数据分为若干个更小的样本,以便SAS分别在各小样本内进行各自独立的处理。
VAR语句引导要检验的所有变量列表,SAS将对VAR语句所引导的所有变量分别进行组间均值比较的t检验。CLASS语句所指定的分组变量是用来进行组间比较的;PAIED语句用来指定配对t检验中要进行比较的变量对,其后所带的变量名列表一般形式及其产生的效果见表3-11。表3-11选项及其含义变量名列表形式产生的效果a*ba–ba*bc*da–b,c–d(ab)*(cd)a–c,a–d,b–c,b–d(ab)*(cb)a–c,a–b,b–cPAIED语句用来指定配对t检验中要进行比较的变量对
PROCTTEST语句后可跟的选项及其表示的含义如表3-12所示。表3-12选项及其含义选项代表的含义data=等号后为SAS数据集名,指定ttest过程所要处理的数据集,默认值为最近处理的数据集alpha=等号后为0~1之间的任何值,指定置信水平,默认为0.05ci=等号后为“equal,umpu,none”中的一个,表示标准差的置信区间的显示形式,默认为ci=equalcochran有此选项时,ttest过程对方差不齐时的近似t检验增加cochran近似法h0=等号后为任意实数,表示检验假设中对两均值差值的设定,默认值为0PROCTTEST语句后可跟的选项及其表示的含义如2.总体均值的置信区间【例3-8】仍然考虑例3-3中的样本数据。假定其中数据使用如下数据步存放在数据集sjcj中,两套试卷得分的变量名分别为A和B。datasjcj;inputAB@@;cards;7871634472618984917449516855766085775539;run;2.总体均值的置信区间【例3-8】仍然考虑例3-3中的样本数据。假定其中数据使用如下数据步存放在数据集sjcj中,两套试卷得分的变量名分别为A和B。使用最简代码求均值、标准差的置信区间:procttestdata=sjcj;run;
代码运行结果给出两个变量在95%置信水平下的均值、标准差的置信区间,以及对原假设μ0=0所作的t检验的p值,如图所示。【例3-8】仍然考虑例3-3中的样本数据。假定其中数据使用如3.单样本总体均值的假设检验在例3-8中增加原假设选项以及置信水平,代码如下:procttesth0=70alpha=0.01data=sjcj;varA;run;
代码运行结果除了给出变量A在99%置信水平下的均值、标准差的置信区间外,还给出对假设μ0=70,所作的t-检验的p值,如图3-15所示。结果显示t统计量的p值=0.5734,不能拒绝(57.34%的把握)原假设:均值=70。3.单样本总体均值的假设检验4.配对两样本均值的假设检验在例3-8中检验两套试卷有无显著差异,代码如下:procttestdata=sjcj;pairedA*B;run;
代码运行结果给出了对原假设μ1–μ2=0所作的t检验的p值,如图3-16所示。结果显示t统计量的p值=0.0005<0.05,因此拒绝原假设。说明两套试卷有显著差异。4.配对两样本均值的假设检验5.独立两样本均值的假设检验过程TTEST还可以用于进行独立双样本均值比较的t检验法。它的用法为PROCTTESTDATA=<数据集名>;CLASS<分组变量名>;VAR<分析变量名列>;RUN;
使用这一格式要求将两个样本中被比较均值的变量的观测值记在同一分析变量下,不同的样本用另一个分类变量的不同值加以区分,而且分类变量只能取两个值,否则将报错。5.独立两样本均值的假设检验【例3-9】仍然考虑例3-7中的样本数据。假定其中数据使用如下数据步存放在数据集zzcpsj中:datazzcpsj;inputfg$@@;cards;28.3127.6230.1122.2229131237.6133.8232.1120228.8130.2236131.7237.2126238.5132234.4131.22281301;run;【例3-9】仍然考虑例3-7中的样本数据。假定其中数据使用如
将两批工人的测量结果看作两个样本,但其数据都放在一个数据集之中,所需的时间值是记录在同一分析变量f之下,而两种方法的差别是由变量g的值加以区分的,所以g可作为分类变量。检验代码如下:procttestdata=zzcpsj;classg;varf;run;检验结果如图所示。将两批工人的测量结果看作两个样本,但其数据都放在一个在检验中,先看其最后关于方差等式的检验结果,检验方差相等是用的F'统计量,其数值为1.29,相应的p值为0.6779>0.05=α,所以不能拒绝方差相等的假设。在方差相等的前提下,检验均值差异使用Pooled方法,对应统计量的t值为2.16,相应的p值为0.0433<0.05=α,所以两种方法所需的时间是有显著差异的。在异方差的情况下,使用Satterthwaite法检验均值的差异。在检验中,先看其最后关于方差等式的检验结果,检验方差相等是用第三节总体比例的区间估计与假设检验的SAS实现总体比例的置信区间单样本总体比例的假设检验两总体比例的比较第三节总体比例的区间估计与假设检验的SAS实现总体比例的置一、总体比例的置信区间【例3-10】2004年底北京市私家车拥有量已达到129.8万辆,位居全国之首,据业内人士分析其中国产中低档汽车的比例较大,为了估计目前北京市场个人购车的平均价格,调查人员于某日在北京最大的车市随机抽取36位私人消费购车者,得到他们所购汽车的价格,见下表。表3-13年底购车价格(单位:万元)根据以上调查数据,试以95%的置信水平推断该地区购买私家车在15万元以上的消费者占有的比例。6.8811.2819.9813.610.614.86.8811.7820.9824.412.314.86.8813.6813.630.314.614.88.2814.9814.79.614.617.49.615.6815.89.612.95.3810.1815.6820.510.614.87.38一、总体比例的置信区间6.8811.2819.9813.61
设购车价格数据存放在数据集Mylib.gcjg中,价格变量名为price。这是一个单样本比例的区间估计问题。由于在SAS中只能对两水平的分类变量作比例的区间估计与检验,所以首先要按变量price生成一个新的分类变量。步骤如下:
1)在“分析家”中打开数据集Mylib.gcjg;
2)选择主菜单“Edit(编辑)”→“Mode(模式)”→“Edit(编辑)”,使数据集可以被编辑(修改);设购车价格数据存放在数据集Mylib.gcjg中,价3)选择主菜单“Data(数据)”→“Transform(变换)”→“RecodeRanges(重编码范围)”,打开“RecodeRangesInformation”对话框并按图3-18(左)设置有关内容;
4)单击“OK”按钮,打开“RecodeRanges”对话框,按图3-18右所示生成新变量price_f;
3)选择主菜单“Data(数据)”→“Transf6)选择菜单“Statistics(统计)”→“HypothesisTests(假设检验)”→“OneSampleTestforaProportion(单样本比例检验)”;
7)在打开的“OneSampleTestforaProportion”对话框中,按图3-19设置比例的置信区间。
6)选择菜单“Statistics(统计)”→“H分析结果中包括变量的置信区间:按95%的置信水平变量price取值为“>15”的比例在区间(0.109,0.391)范围中(如图3-20),即可以95%的概率估计该地区所购买车辆在15万元以上的消费者所占比例在10.9%~39.1%之间。SAS课件--第5讲-SAS的假设检验二、单样本总体比例的假设检验【例3-11】考虑例3-10中的数据,试检验总体中购买车辆在15万元以上者所占比例是否超过30%。这是一个单样本比例检验问题,若表示总体中购买车辆在15万元以上者所占比例,则检验的是:
H0:≥0.3, H1:
<0.3;二、单样本总体比例的假设检验
步骤如下:
1)选择菜单“Statistics”→“HypothesisTests”→“OneSampleTestforaProportion”,打开并按图左设置“OneSampleTestforaProportion”对话框;检验结果如图右所示。步骤如下:
显示的结果表明样本中购买车辆在15万元以上者的比例为25%,检验用的Z统计量的p值为0.2563>0.05,所以不能拒绝原假设。结果表明购买车辆在15万元以上者所占比例在95%的置信水平下超过30%。
3.3.3两总体比例的比较【例3-12】2004年底很多类型的国产轿车价格都比年中有所下降,为了对比2004年底与年中私家购车族购车价格的差异,在年中新购车者中随机抽取32人,调查得到的价格数据如表3-14。表3-14年中购车价格(单位:万元):综合表3-13与表3-14的调查数据,试以95%的置信水平推断该地区年底与年中购买私家车在15万元以上的消费者占有比例有无差异。5.3810.7812.8814.718.8830.37.3811.213.61519.9815.287.9811.7813.6515.820.59.999.3811.7814.615.920.989.3610.312.314.71724.48.9911.3810.283.3.3两总体比例的比较5.3810.7812.881
这是一个双样本比例检验问题,若1和2分别表示总体中年底和年中购买私家车在15万元以上的消费者所占的比例,则检验的是假设:
H0:1–2=0, H1:1–2
0;首先将3-7与表3-8的调查数据存入一个数据集Mylib.gcjgQ中,价格变量名为price,使用变量period以区别年中数据(2)与年底数据(1)。按例3-10中的步骤由price生成两水平分类变量price_F。图3-23所示即为数据集Mylib.gcjgQ中的部分数据。这是一个双样本比例检验问题,若1和2分别表示总体然后,对上面假设进行检验,步骤如下:
1)在分析家中打开数据集Mylib.gcjgQ后,选择菜单“Statistics”→“HypothesisTests”→“TwoSampleTestforProportion(双样本比例检验)”,在对话框中,按图左设置双样本比例检验,分析结果如图右所示。结果显示,由于Z统计量的p值为0.5664,所以在95%的置信水平下,不能拒绝原假设。即该地区2004年底与年中私家购车价格在15万元以上者所占比例无明显差异。然后,对上面假设进行检验,步骤如下:第四节总体方差的区间估计与假设检验的SAS实现总体方差的置信区间单样本总体方差的假设检验两样本总体方差的比较第四节总体方差的区间估计与假设检验的SAS实现总体方差的置一、总体方差的置信区间【例3-13】表3-15所示为某中学1980年模拟高考数学的部分学生成绩,试估计本次模拟考试成绩的方差。表3-15部分学生成绩假定表3-15数据存放在数据集Mylib.kscj中,成绩变量名为score。分析步骤如下:
1)在“分析家”中打开数据集Mylib.kscj;
2)选择菜单“Statistics(统计)”→“HypothesisTests(假设检验)”→“OneSampleTestforaVariance(方差的单样本检验)”;100969690921001009099921009810097979594100一、总体方差的置信区间10096969092100100903)在打开的“OneSampleTestforaVariance”对话框中设置方差的置信区间(如图3-26)。分析结果中包括方差的置信区间估计,如图3-27所示。结果表明,本次模拟考试成绩方差在置信水平95%下的置信区间为(7.1692,28.614)。
3)在打开的“OneSampleTestfo二、单样本总体方差的假设检验【例3-14】考虑例3-13中的模拟考试成绩,检验考试成绩是否太集中。这是一个单样本方差检验问题,若表示总体方差,则检验的是:
H0:2≤52, H1:2>52;步骤如下:
1)选择菜单“Statistics”→“HypothesisTests”→“OneSampleTestforaVariance(单样本方差检验)”,打开“OneSampleTestforaVariance”对话框并按图设置;
2)单击“OK”按钮,得到结果。二、单样本总体方差的假设检验结果(图左)显示,样本方差为12.732,由于2检验的p值=0.9504,所以不能拒绝方差≤25的原假设。结果表明有95%的把握可以认为该模拟考试的成绩太过集中。SAS课件--第5讲-SAS的假设检验三、两样本总体方差的比较【例3-15】已知两只股票深发展(000001)和万科A(000002)在2004年6月21个交易日的收益率如表3-16所示。试在0.05的显著水平下判断深发展的风险是否高于万科A?表3-16深发展和万科A在2004年6月21个交易日的收益率day深发展万科Aday深发展万科Aday深发展万科A200406010.00310.009920040610-0.00220.004120040621-0.00220.0131200406020.0301-0.01372004061100.002200406220.00330.02820040603-0.0231-0.013920040614-0.0209-0.012320040623-0.0066-0.014720040604-0.00820.006200406150.04610.018620040624-0.01440.008520040607-0.0228-0.00820040616-0.0097-0.00220040625-0.0056-0.012720040608-0.02230.00220040617-0.0228-0.042820040628-0.05190.004320040609-0.0109-0.0202200406180.0111-0.0255200406290.02260.0319三、两样本总体方差的比较day深发展万科Aday深发展万科A
这是一个双样本方差检验问题,若1和2分别表示深发展和万科A两只股票收益率的方差,则检验的是:
H0:1≥2, H1:1<2;检验步骤如下:
1)首先,将表3-8中的数据生成数据集mylib.gupiao,深发展和万科的收益率可以用同一变量表示,另加一个分类变量以区别;也可用两个变量表示,如分别用s和w表示。本例用第二种方法。这是一个双样本方差检验问题,若1和2分别表示深发2)在分析家中打开数据集mylib.gupiao后,选择菜单“Statistics”→“HypothesisTests”→“Two-SampleTestforVariance(双样本方差检验)”,打开“Two-SampleTestforVariance”对话框并按图左设置;单击“OK”按钮,得到分析结果。
结果显示(图右),在0.05的显著性水平下不能拒绝原假设,说明深发展的股票风险要高于万科A。2)在分析家中打开数据集mylib.gupiao后第五节分布检验数据的分布研究在INSIGHT模块中研究分布在“分析家”中研究分布使用UNIVARIATE过程第五节分布检验数据的分布研究一、数据的分布研究1.分布拟合图由于密度直方图中矩形的面积是数据落入对应区间中的频率,根据大数定理,数据量很大时,频率近似于概率。所以,如果数据来自一个具有概率密度f(x)的连续型随机变量,密度直方图就可以作为概率密度f(x)的一个估计。一、数据的分布研究
直方图顶端的形态为折线,而常用的一些分布的密度曲线如正态分布等都是光滑曲线,所谓分布拟合图就是在限定的参数分布类中通过对参数的估计,用估计得到的参数所对应的密度曲线去拟合直方图顶部的形态。图3-31所示为分布拟合图,左图为正态分布拟合图,右图为对数正态分布拟合图。
直方图顶端的形态为折线,而常用的一些分布的密度曲线如
在SAS系统中提供的参数分布类型有:正态(Normal)分布—最为常用的分布、对数正态(Lognormal)分布、指数分布、Gamma分布、Weibull分布,它们的分布密度分别为:
1)参数为(μ,)的正态分布
2)参数为(,μ,)的对数正态分布
在SAS系统中提供的参数分布类型有:正态(Norma3)参数为(,)的指数分布的密度为
4)参数为(,c,)的指数分布的密度为
5)参数为(,α,)的Gamma分布的密度为
6)参数为(,c,)的Weibull分布的密度为3)参数为(,)的指数分布的密度为2.QQ图不论密度直方图还是分布拟合图,要从图上鉴别数据的分布是否近似于某种类别的分布是较困难的。QQ图可以帮助我们方便地鉴别数据的分布是否近似于某种类型的分布。
QQ图是一种散点图。对应于正态分布的QQ图由点构成,其横坐标为标准正态分布的分位数,纵坐标x(i)(i=1,2,…,n)是将x1,…,xn从小到大排序后的数列,为总体i/n分位点的估计。若观测数据近似正态分布N(μ,2),则QQ图上这些点近似在直线y=x+μ附近。2.QQ图
图3-32所示为居民家庭收入情况的QQ图,分别为对应于正态分布与对数正态分布的QQ图。
要利用QQ图鉴别样本数据是否近似于正态分布,只需看QQ图上的点是否近似地在一条直线附近,该直线的斜率为标准差,截距为均值。同样,也可以作对应于对数正态分布、指数分布、Gamma分布、Weibull分布的QQ图,以鉴别样本数据是否来自某一类型的总体分布。
图3-32所示为居民家庭收入情况的QQ图,分别为对应3.5.2在INSIGHT模块中研究分布1.绘制分布拟合图【例3-16】在INSIGHT模块中绘制居民家庭收入情况(参见例2-1)的分布拟合图。选择菜单“Analyze”→“Distribution(Y)”,打开“Distribution(Y)”对话框并按如图3-33所示设置。
3.5.2在INSIGHT模块中研究分布图3-34参数估计对话框与income变量的密度拟合图变量Income的密度拟合图和参数密度估计如图3-34右与图3-35所示。图3-35income变量的参数密度估计
图3-34参数估计对话框与income变量的密度拟合图2.绘制QQ图如果在图3-33右所示的“Distribution(Y)”对话框中选中“NormalQQPlot(正态QQ图)”复选框,如图左所示,则可以得到QQ图,如图右所示。
2.绘制QQ图选择菜单“Curves(曲线)”→“QQRefLine(QQ参考线)”,打开“QQRefLine”对话框。选择“Method(方法)”栏下的“LeastSquares(最小二乘)”,如图左,单击“OK”按钮得到带参考线的QQ图(图右)。
选择菜单“Curves(曲线)”→“QQRefLine(
选择菜单“Graphs(图形)”→“QQPlot(QQ图)”,打开“QQPlot”对话框。选择“Distribution(分布)”栏下的“LognormalQQPlot(对数正态QQ图)”,如图左,单击“OK”按钮得到对数正态QQ图,如图右所示。
虽然从分布拟合图中似乎得到居民家庭收入情况的样本数据接近于对数正态分布,但从QQ图可以看出,样本数据更接近于正态分布。
选择菜单“Graphs(图形)”→“QQPlot(3.正态性检验上述结论是一种直观的检验,更为严格的检验如下所示。在INSIGHT中继续上述操作:选择菜单“Curves(曲线)”→“TestforDistribution(分布检验)”,打开“TestforDistribution”对话框,如图左所示。单击“OK”按钮,得到变量income的经验分布和拟合的正态累计分布曲线图(图右)。
3.正态性检验
检验结果汇总在分布检验表(图)中,其中列举了拟合正态分布的均值2316.1000(即样本均值)和标准差697.6906(即样本标准差),并提供了KolmogorovD统计量的数值0.1377,而相应的p值>0.15>0.05=α,所以不能拒绝原假设,可以认为变量income总体分布为正态分布。检验结果汇总在分布检验表(图)中,其中列举了拟合正态三、在“分析家”中研究分布【例3-17】在“分析家”中研究例3-10~例3-12中北京市场个人购车价格变量price的正态性。1.绘制分布拟合图和QQ图首先在“分析家”中打开数据集Mylib.gcjg;选择主菜单“Statistics”→“Descriptive”→“Distributions…”,打开“Distributions”对话框。三、在“分析家”中研究分布按图(上图)设置分析选项,三次单击“OK”按钮,得到直方图和QQ图如图(下图)所示。
按图(上图)设置分析选项,三次单击“OK”按钮,得到直方图和2.分布检验继续上述步骤。在分析家窗口的项目管理器中双击“FittedDistributionsofGcjg”项,得到检验结果如图3-44~3-45所示。2.分布检验
年底数据的分布检验结果如图,其含义说明如下:其中第一部分为检验拟合分布的结果。首先指明拟合的是正态分布,均值为13.60556,标准差为5.170595;接着有三种经验分布的检验结果三种检验基本上都认为变量price的分布与正态分布有差异,因此拒绝变量price为正态分布的假设。
年底数据的分布检验结果如图,其含义说明如下:
年中数据的分布检验结果如图3-45所示。结果表明:均值为13.95031,标准差为5.234664;三种检验基本上都认为变量price的分布与正态分布无显著差异,因此不能拒绝变量price为正态分布的假设。综上,应拒绝年底数据中变量price的分布为正态分布的假设,而不能拒绝年中数据中变量price的分布为正态分布的假设。
年中数据的分布检验结果如图3-45所示。结果表明:第五主题区间估计和假设检验
第五主题区间估计和假设检验
区间估计与假设检验的基本概念总体均值的区间估计与假设检验的SAS实现总体比例的区间估计与假设检验的SAS实现总体方差的区间估计与假设检验的SAS实现分布检验区间估计与假设检验的基本概念区间估计假设检验第一节区间估计与假设检验的基本概念第一节区间估计与假设检验的基本概念一、区间估计1.点估计和区间估计参数的估计方法主要有两种:点估计和区间估计。点估计是用样本的观测值估计总体未知参数的值。由于样本的随机性,不同样本观测值计算得出的参数的估计值间存在着差异,因此常用一个区间估计总体的参数,并把具有一定可靠性和精度的估计区间称为置信区间。利用构造的统计量及样本观测值,计算得出参数的置信区间的方法称为参数的区间估计。一、区间估计2.参数的置信区间在区间估计中,对于总体的未知参数θ,需要求出两个统计量θ1(X1,X2,...,Xn)和θ2(X1,X2,...,Xn)来分别估计总体参数θ的上限和下限,使得总体参数在区间(θ1,θ2)内的概率为P{θ1<θ<θ2}=1–α
其中1–α称为置信水平,而(θ1,θ2)称为θ的置信区间,θ1,θ2分别称为置信下限和置信上限。置信水平为1–α的含义是随机区间(θ1,θ2)以1–α的概率包含了参数θ。2.参数的置信区间3.正态总体均值和方差的置信区间参数的区间估计大多是对正态总体的参数进行估计,如对单总体均值、方差的估计、两总体均值差的估计和两总体方差比的估计等。正态总体参数的各种置信区间见表3-1。被估参数条件枢轴量及其分布参数的置信区间单正态总体μ2已知2未知2μ已知μ未知3.正态总体均值和方差的置信区间被估参数条件枢轴量及其分布正态总体参数的各种置信区间见表3-1。
其中被估参数条件枢轴量及其分布参数的置信区间两正态总体μ1-μ2两样本独立,12,22已知两样本独立,12=22=2
未知两样本独立,μ1,
μ2未知正态总体参数的各种置信区间见表3-1。其中被估参数条件枢轴4.总体比例与比例差的置信区间实际应用中经常需要对总体比例进行估计,如产品的合格率、大学生的就业率和手机的普及率等。记π和P分别表示总体比例和样本比例,则当样本容量n很大时(一般当nP和n(1–P)均大于5时,就可以认为样本容量足够大),样本比例P的抽样分布可用正态分布近似。总体比例与比例差的置信区间如表3-2所示。待估参数枢轴量及其分布参数的置信区间总体比例π两总体比例差π1-π2
其中P1,P2为两个样本比例
4.总体比例与比例差的置信区间待估参数枢轴量及其分布参数的二、假设检验1.假设检验的基本原理对总体参数进行假设检验时,首先要给定一个原假设H0,H0是关于总体参数的表述,与此同时存在一个与H0相对立的备择假设H1,H0与H1有且仅有一个成立;经过一次抽样,若发生了小概率事件(通常把概率小于0.05的事件称为小概率事件),可以依据“小概率事件在一次实验中几乎不可能发生”的理由,怀疑原假设不真,作出拒绝原假设H0,接受H1的决定;反之,若小概率事件没有发生,就没有理由拒绝H0,从而应作出拒绝H1的决定。二、假设检验2.假设检验的步骤
1)根据问题确立原假设H0和备选假设H1;
2)确定一个显著水平,它是衡量稀有性(小概率事件)的标准,常取为0.05;
3)选定合适的检验用统计量W(通常在原假设中相等成立时,W的分布是已知的),根据W的分布及的值,确定H0的拒绝域。
4)由样本观测值计算出统计量W的观测值W0,如果W0落入H0的拒绝域,则拒绝H0;否则,不能拒绝原假设H0。2.假设检验的步骤
注意:在SAS系统中,是由样本观测值计算出统计量W的观测值W0和衡量观测结果极端性的p值(p值就是当原假设成立时得到样本观测值和更极端结果的概率),然后比较p和作判断:p<,拒绝原假设H0;p≥,不能拒绝原假设H0。注意:在SAS系统中,是由样本观测值计算出统计量W的p值通常由下面公式计算而得到。●p=P{|W|≥|W0|}=2P{W≥|W0|}
(拒绝域为两边对称的区域时)●p=min{P{W≥W0},P{W
W0}}
(拒绝域为两边非对称区域时)●p=P{W≥W0}(拒绝域为右边区域时)●p=P{W
W0}(拒绝域为左边区域时)只需根据SAS计算出的p值,就可以在指定的显著水平下,作出拒绝或不能拒绝原假设的决定。p值通常由下面公式计算而得到。3.正态总体均值和方差的假设检验对正态总体的参数进行假设检验是假设检验的重要内容,如对单总体均值、方差的检验、两总体均值之差的检验和两总体方差比的检验等。正态总体参数的各种检验方法见下表3-3至表3-5。表3-3单正态总体N(μ,2)均值μ的检验法检验名称条件检验类别H0H1检验统计量分布拒绝域Z检验已知双边检验μ=μ0μ≠μ0N(0,1)|Z|≥Zα/2左边检验μ≥μ0μ<μ0Z≤-Zα右边检验μ≤μ0μ>μ0Z≥Zαt检验未知双边检验μ=μ0μ≠μ0t(n–1)|t|≥tα/2(n
–1)左边检验μ≥μ0μ<μ0t≤–
tα(n
–1)右边检验μ≤μ0μ>μ0t≥tα(n
–1)3.正态总体均值和方差的假设检验检验名称条件检验类别H0H表3-4单正态总体N(μ,2)方差2的检验法或检验名称条件检验类别H0H1检验统计量分布拒绝域χ2检验μ已知双边检验左边检验右边检验μ未知双边检验左边检验右边检验表3-4单正态总体N(μ,2)方差2的检验法或检验表3-5两正态总体的均值差与方差比的检验名称条件类别H0H1检验统计量分布拒绝域Z检验两样本独立,12=22=2未知双边检验μ1-μ2=0μ1-μ2≠0t(n1+n2
–2)左边检验μ1-μ20μ1-μ2<0右边检验μ1-μ20μ1-μ2>0t检验成对匹配样本,12,22未知双边检验μd=0μd≠0左边检验μd0μd<0右边检验μd0μd>0F检验两样本独立,μ1,μ2未知双边检验F(n1–1,n2–1)左边检验右边检验表3-5两正态总体的均值差与方差比的检验名称条件类别H4.总体比例与比例差的检验当样本容量n很大时,可根据表3-6对总体比例与比例差进行假设检验。表3-6总体比例与比例差的检验检验名称检验类别H0H1
检验统计量分布拒绝域比例检验双边检验
=0
0N(0,1)|z|
zα/2左边检验
0
<0|z|≤–zα右边检验
0
>0|z|
zα两总体比例差检验双边检验1
=21
2N(0,1)|z|
zα/2左边检验1
21<2|z|≤–zα右边检验1
21>2|z|
zα4.总体比例与比例差的检验检验名称检验类别H0H1检验统第二节总体均值的区间估计与假设检验的SAS实现使用INSIGHT模块使用“分析家”使用TTEST过程第二节总体均值的区间估计与假设检验的SAS实现使用INS一、使用INSIGHT模块1.总体均值的区间估计【例3-1】某药材生产商要对其仓库中的1000箱药材的平均重量进行估计,药材重量的总体方差未知,随机抽取16箱样本称重后结果如表3-7所示。表3-716箱药材重量(单位:千克)设药材重量数据存放于数据集tt中,其中重量变量名为weight。求该仓库中每箱药材平均重量在95%置信水平下的置信区间。50505651495347525353495355485055一、使用INSIGHT模块50505651495347525步骤如下:
1)启动INSIGHT模块,并打开数据集tt;
2)选择菜单“Analyze”→“Distribution(Y)”;
3)在打开的“Distribution(Y)”对话框中进行区间估计的设置(如图)。
步骤如下:
结果包括一个名为“95%ConfidenceIntervals(95%置信区间)”的列表,表中给出了均值、标准差、方差的估计值(Parameter)、置信下限(LCL)和置信上限(UCL),如图3-2所示。结果表明,根据抽样样本,该仓库中药材的平均重量以95%的可能性位于50.08千克至52.92千克之间。结果包括一个名为“95%ConfidenceInt2.单样本总体均值的假设检验【例3-2】一家食品厂以生产袋装食品为主,每天的产量大约为8000袋,每袋重量规定为100克。为了分析每袋重量是否符合要求,质检部门经常进行抽检。现从某天生产的一批食品中随机抽取了25袋,测得每袋重量如表3-8所示。表3-825袋食品的重量(单位:克)试从抽检的样本数据出发,检验变量WEIGHT的均值与100克是否有显著差异。假定表3-8数据存放在数据集tt1中,重量变量名为WEIGHT。112.5101.0103.0102.0100.5102.6107.595.0108.8115.6100.0123.5102.0101.6102.2116.695.497.8108.6105.0136.8102.8101.598.493.32.单样本总体均值的假设检验112.5101.0103.0
设变量WEIGHT的均值为μ,问题是希望通过样本数据检验变量WEIGHT均值的如下假设:
H0:μ=100, H1:μ
100。使用INSIGHT对均值进行检验的步骤如下:
1)首先启动INSIGHT,并打开数据集tt1;
2)选择菜单“Analyze”→“Distribution(Y)”;
3)在打开的“Distribution(Y)”对话框中选定分析变量WEIGHT;
4)单击“OK”按钮,得到变量的描述性统计量;设变量WEIGHT的均值为μ,问题是希望通过样本数据5)选择菜单“Tables(表)”→“TestsforLocation(位置检验)”;在弹出的“TestsforLocation”对话框中输入100,单击“OK”按钮得到输出结果如图所示。
5)选择菜单“
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 护理管理沟通中的冲突解决技巧
- 2025年前台服务冲刺试卷
- 2026年合同能源管理与节能环保服务在制造业中的应用
- 2026年深度学习在非侵入式脑机接口神经信号解码中应用指南
- 2026年生物质能“十五五”多元化高价值发展新方向解读
- 管廊防水施工方案
- 皮内注射的过敏试验操作
- 2026年消防演练安全培训
- 2026年消防安全知识普及
- 投资监理技术方法
- 货物被淹赔偿协议书
- 2025至2030中国工业真空行业市场深度研究与战略咨询分析报告
- 2025年压力容器检验员实操与理论知识试题库
- 解读慢性阻塞性肺病(GOLD)指南(2026)更新要点课件
- 餐饮连锁门店运营管理规范与考核方案
- 林业局安全生产考试题库及答案解析
- 厂务监控系统培训
- 六安市政管道短管置换施工方案
- 2025年6月上海市高考语文试题卷(含答案详解)
- 2025年飞机制造项目成本核算方案
- 公司全员安全生产责任清单
评论
0/150
提交评论