分布的拟合检验方法分析_第1页
分布的拟合检验方法分析_第2页
分布的拟合检验方法分析_第3页
分布的拟合检验方法分析_第4页
分布的拟合检验方法分析_第5页
已阅读5页,还剩99页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

本资料来源第一页,共一百零四页。

第三节分布的拟合检验第二页,共一百零四页。第三节分布拟合的检验法

我们在前面几节中介绍的是在总分布形式已知时关于总体参数的假设检验。但在实际问题,有时不能预先知道总体分布的形式。这时,就要用假设检验的方法,根据样本的观察值判断总体是否具有某中分布,这类对总体分布形式的检验问题称为分布拟合检验。它是非参数检验中较为主要的内容。本节知介绍分布拟合的检验法。第三页,共一百零四页。§3.分布拟合检验

实际中可能遇到这样的情形,总体服从何种理论分布并完全不知道,要求我们直接对总体分布提出一个假设。

例如,从1500到1931年的432年间,每年爆发战争的次数可以看作一个随机变量,椐统计,这432年间共爆发了299次战争,具体数据如下:战争次数X01234发生X次战争的年数22314248154

可以假设每年爆发战争次数分布X近似泊松分布。那么上面的数据能否证实X具有泊松分布假设?第四页,共一百零四页。

又如,某钟表厂对生产的钟进行精确性检查,抽取100个钟作试验,拨准后隔24小时以后进行检查,将每个钟的误差(快或慢)按秒记录下来。问该厂生产的钟的误差是否服从正态分布?再如,某工厂制造一批骰子,声称它是均匀的。即在投掷中,出现1点,2点,…,6点的概率都应是1/6。为检验骰子是否均匀,要把骰子实地投掷若干次,统计各点出现的频率与1/6的差距。那么得到的数据能否说明“骰子均匀”的假设是可信的?§3.分布拟合检验第五页,共一百零四页。需要:在总体X的分布未知时,根据来自总体的样本,检验关于总体分布的假设的一种检验方法。§3.分布拟合检验第六页,共一百零四页。若原假设成立,则各实测频数fi与npi(理论频数)应相差不大。总体X可以分为k个组(类),记作A1,A2,…,Ak。现要检验的是:如对总体做作了n次观察,各类出现的频数为fi

(实测频数),所有频数之和f1+f2+…+fk等于样本容量n,fi/n称为频率。§3.分布拟合检验第七页,共一百零四页。标志着经验分布与理论分布之间的差异的大小.皮尔逊引进如下统计量表示经验分布与理论分布之间的差异:统计量的分布是什么?在理论分布已知的条件下,npi是常量实测频数理论频数§3.分布拟合检验第八页,共一百零四页。皮尔逊证明了如下定理:

若原假设成立,那么当时,统计量渐近服从自由度为(k-1)的分布.

§3.分布拟合检验第九页,共一百零四页。

如果根据所给的样本值X1,X2,…,Xn算得统计量的实测值落入拒绝域,则拒绝原假设,否则就认为差异不显著而接受原假设.§3.分布拟合检验

皮尔逊定理是在n无限增大时推导出来的,因而在使用时要注意n要足够大,以及npi

不太小这两个条件.

根据计算实践,要求n不小于50,以及npi

都不小于5.否则应适当合并类,使npi满足这个要求.第十页,共一百零四页。

对规定的显著性水平,则拒绝。否则不能拒绝,即接受§3.分布拟合检验第十一页,共一百零四页。卡方统计量与2分布类别….理论值….观察值….1900由皮尔逊(K.Pearson)提出卡方统计量定理如果原假设成立,则在样本容量→∞时,的分布趋向的分布,即。于自由度为,并进行显著性检验第十二页,共一百零四页。

奥地利生物学家孟德尔进行了长达八年之久的豌豆杂交试验,并根据试验结果,运用他的数理知识,发现了遗传的基本规律.

例1,我们以遗传学上的一项伟大发现为例,说明统计方法在研究自然界和人类社会的规律性时,是起着积极的、主动的作用.孟德尔§3.分布拟合检验第十三页,共一百零四页。子二代子一代…黄色纯系…绿色纯系他的一组观察结果为:黄70,绿27近似为2.59:1,与理论值相近.

根据他的理论,子二代中,黄、绿之比近似为3:1,

例1奥地利生物学家孟德尔进行了长达八年之久的豌豆杂交试验,并根据试验结果,运用他的数理知识,发现了遗传的基本规律。§3.分布拟合检验第十四页,共一百零四页。这里,n=70+27=97,k=2,检验孟德尔的3:1理论:提出假设H0:p1=3/4,p2=1/4理论频数为:

np1=72.75,np2=24.25实测频数为70,27.统计量

近似服从自由度为k-1=1由于统计量的实测值=0.4158<3.841,故认为试验结果符合孟德尔的3:1理论.§3.分布拟合检验第十五页,共一百零四页。

这些试验及其它一些试验,都显示孟德尔的3:1理论与实际是符合的.这本身就是统计方法在科学中的一项

重要应用.用于客观地评价理论上的某个结论是否与观察结果相符,以作为该理论是否站得住脚的印证.§3.分布拟合检验第十六页,共一百零四页。例2为了检测圆粒豌豆与皱粒豌豆第二代的分离比例是否符合孟德尔的3:1分离率,作试验观察是336粒圆粒豌豆,101粒皱粒豌豆下表:类型圆粒豌豆皱粒豌豆观测值频数336101理论值频数437(3/4)=327.75437(1/4)=109.25一致性检验第十七页,共一百零四页。(1)、一致性检验---分布拟合检验1

不全相等⑵.对规定的显著性水平,若(r=2,c=k)则拒绝。否则不能拒绝,即接受把样本统计量转换成卡方值,结合卡方分布所进行的统计检验原理是以細格次数來进行交叉比较,俗称交叉分析2.检验的步骤⑴.提出原假设和备择假设1.检验多个变量之间是否存在显著差异第十八页,共一百零四页。卡方统计量与一致性检验类别….理论值….观察值….1900由皮尔逊(K.Pearson)提出卡方统计量定理如果原假设成立,则在样本容量→∞时,的分布趋向的分布,即。于自由度为,并进行显著性检验第十九页,共一百零四页。例3为了检测卡尔。马克思的写作中使用字母(a、e、i、o、s)是否等概率从他的作品随机抽取500个字母下表:字母aeios观测值频数9011510584105理论值频数100100100100100一致性检验第二十页,共一百零四页。

Dataa;inputA$n@@;cards;a90e115i105o84s105;procfreqdata=a;tablesA/chisq;weightn;run;一致性检验第二十一页,共一百零四页。TheSASSystem14:43Friday,November12,20071TheFREQProcedureCumulativeCumulativeAFrequencyPercentFrequencyPercent------------------------------------------------------a9018.049018.04e11523.0520541.08i10521.0431062.12o8416.8339478.96s10521.04499100.00Chi-SquareTestforEqualProportions---------------------Chi-Square6.3206

DF4

Pr>ChiSq0.1764SampleSize=499一致性检验第二十二页,共一百零四页。(7-4)

也就是说K2是度量实际观察次数与理论次数偏离程度的一个统计量,K2越小,表明实际观察次数与理论次数越接近;K2=0,表示两者完全吻合;K2越大,表示两者相差越大。对于表7-4的资料,可计算得表明实际观察次数与理论次数还是比较接近的。一致性检验第二十三页,共一百零四页。

对规定的显著性水平,则拒绝。否则不能拒绝,即接受一般分布的拟合检验第二十四页,共一百零四页。

对一般总体的分布的假设检验一般分布的拟合检验第二十五页,共一百零四页。

若原假设中的理论分布F(x)已经完全给定,那么当时,统计量渐近服从(k-1)个自由度的分布.如果理论分布F(x)中有r个未知参数,需用相应的估计量来代替,那么取统计量为渐近服从(k-r-1)个自由度的分布.一般分布的拟合检验第二十六页,共一百零四页。

在F(x)尚未完全给定的情况下,每个未知参数用相应的估计量代替,就相当于增加一个制约条件,因此,自由度也随之减少一个.若有r个未知参数需用相应的估计量来代替,自由度就减少r个.此时统计量渐近(k-r-1)个自由度的分布.一般分布的拟合检验第二十七页,共一百零四页。

如果根据所给的样本值X1,X2,…,Xn算得统计量的实测值落入拒绝域,则拒绝原假设,否则就认为差异不显著而接受原假设.据Pearson定理,分布拟合检验的拒绝域为:(不需估计参数)(估计r个参数)

注意:皮尔逊定理是在n无限增大时推导出来的,因而在使用时要注意n要足够大,以及npi

()不太小这两个条件.第二十八页,共一百零四页。按参数为0.69的泊松分布,计算事件X=i的概率pi

,将有关计算结果列表如下:pi的估计是,i=0,1,2,3根据观察结果,得参数的极大似然估计为

例4从1500到1931年的432年间,每年爆发战争的次数可以看作一个随机变量,椐统计,这432年间共爆发了299次战争,具体数据如下:战争次数X01234发生X次战争的年数22314248154提出假设H0:X服从参数为的泊松分布第二十九页,共一百零四页。

因H0所假设的理论分布中有一个未知参数,故自由度为4-1-1=2.x01234fi

223142481540.580.310.180.010.02n216.7149.551.612.02.160.1830.3760.2511.623战争次数实测频数14.162.43将n<5的组予以合并,即将发生3次及4次战争的组归并为一组.14.16一般分布的拟合检验第三十页,共一百零四页。

故认为每年发生战争的次数X服从参数为0.69的泊松分布.按=0.05,自由度为4-1-1=2查分布表得=5.991=2.43<5.991,由于统计量的实测值未落入拒绝域.一般分布的拟合检验第三十一页,共一百零四页。

设总体X

的分布未知,从总体中抽取一个容量为n

的样本检验总体分布是否等于某确定的分布时,分下面四个步骤进行。

:总体X

的分布函数为的一种方法。二关于总体分布为已知分布函数的检验(1)检验假设第三十二页,共一百零四页。要求当为真时,的形式及参数都是已知的。但实际上参数值往往是未知的。这时,需要先用参数估计法(如矩估计法,极大似然估计法)来求出参数的估计。

(2)由样本构造相应的统计量。在实数轴上选取k-1个分点将数轴分成k各互不相交的区间第三十三页,共一百零四页。

其中当为真时,记为总体X

落在内的概率,即…………记为n

各样本值中落入的个数,即第三十四页,共一百零四页。组频数(一般要求,否则可合并相邻区间)。显然有。由频率的稳定性可知,在为真的条件下,的值很小。(1)称为统计量。可以证明,当n

充分大时,不论总体属于什么分布,都有(2)作统计量其中r

为被估计参数的个数。第三十五页,共一百零四页。(3)对于给定的显著性水平,由分布表可查的临界值,使这里拒绝域取为分布的右侧,是因为成立时,有变大的趋势。因此,检验的拒绝域为第三十六页,共一百零四页。(4)由样本观察值计算出的值。

若成立,则拒绝原假设,即不能认为总体分布函数是

若成立,则接受原假设,即可以认为总体分布函数是

例1在20天内,从维尼纶正常生产时的生产报表上看到维尼纶纤度(表示纤维粗细的一个量)的情况,有如下100个数据:第三十七页,共一百零四页。1.36,1.49,1.43,1.41,1.37,1.40,1.32,1.42,1.47,1.39,1.41,1.36,1.40,1.34,1.42,1.42,1.45,1.35,1.42,1.39,1.44,1.42,1.39,1.42,1.42,1.30,1.42,1.34,1.37,1.36,1.37,1.34,1.37,1.37,1.44,1.45,1.32,1.48,1.40,1.45,1.39,1.46,1.39,1.53,1.36,1.48,1.40,1.39,1.38,1.40,1.36,1.45,1.50,1.43,1.38,1.43,1.41,1.48,1.39,1.45,1.38,1.37,1.39,1.45,1.31,1.41,1.44,1.44,1.42,1.47,第三十八页,共一百零四页。1.35,1.36,1.39,1.40,1.38,1.35,1.42,1.43,1.42,1.42,1.42,1.40,1.41,1.37,1.46,1.36,1.37,1.27,1.37,1.38,1.42,1.34,1.43,1.42,1.47,1.41,1.44,1.48,1.55,1.37解本题是根据纤度的容量为100的样本值,推断总体X(纤度)是否服从正态分布。其中两个参数和未知。用矩法求出其估计值试判断纤度是否服从正态分布?第三十九页,共一百零四页。(1)提出原假设(2)在为真的条件下,统计量由于总体中有两个参数用估计值代替,因此

为计算出统计量的值,首先在数轴上选取分点,划分区间,然后统计出组频数本第四十页,共一百零四页。例有100个数据,可划分为10组(通常样本容量在50~100时,可分为6~10组),由于100个数据中最大与最小者分别为1.55和1.27,这时组距按,可取为0.03。取始点a=1.265(比数据中最小值略小一点,即比最小值精度多一位,具末位数取5),但不作为第一分点(因为在a

以下,没有试验数据),这样便得到如下9个分点第四十一页,共一百零四页。1.295,1.325,1.355,1.385,1.4151.445,1.475,1.505,1.535.将数轴分为10个区间然后统计出频数.

其次,计算,为此需将区间作中心化变换再计算,最后计算出值,统一列出计算表(见表7—2)。第四十二页,共一百零四页。表7—22.52350.41850.64570.09540.54540.80150.01706.051611.97162.340911.764910.62730.1296-2.643.46-1.533.43-3.260.361.073.589.8118.5424.5321.5713.265.621.650.3714722232510611∞~-2.30-2.30~-1.68-1.68~-1.06-1.06~-0.44-0.44~-0.190.19~0.810.81~1.431.43~2.052.05~2.682.68~+∞-∞~1.2951.295~1.3251.325~1.3551.355~1.3851.385~1.4151.415~1.4451.445~1.4751.475~1.5051.505~1.5351.535~+∞组频数U的组限

组限第四十三页,共一百零四页。第四十四页,共一百零四页。

(3)根据计算实践,要求。否则适当地合并区间,使满足这个要求。本例中前三组合并,后三组合并,k

由原来的10变为6。对于给定的显著性水平,查分布表确定临界值第四十五页,共一百零四页。,使

(4)由样本值,通过计算表(表7—2),得到因此,接受原假设,即可以认为维尼纶纤度服从正态分布。亦即可以认为第四十六页,共一百零四页。第四十七页,共一百零四页。例3下面列出了84个伊特拉斯坎(Etruscan)人男子的头颅的最大宽度(mm),试检验这些数据是否来自正态总体(取α=0.1)141148132138154142150146155158150140147148144150149145149158143141144144126140144142141140145135147146141136140146142137148154137139143140131143141149148135148152143144141143147146150132142142143153149146149138142149142137134144146147140142140137152145第四十八页,共一百零四页。解为粗略了解数据的分布情况,先画出直方图。步骤如下:1.找出数据的最小值、最大值为126、158,取区间[124.5,159.5],它能覆盖[126,158];2.将区间[124.5,159.5]等分为7个小区间,小区间的长度Δ=(159.5-124.5)/7=5,Δ称为组距,小区间的端点称为组限,建立下表:组限频数fi频率fi/n累计频率124.5-129.5129.5-134.5134.5-139.5139.5-144.5144.5-149.5149.5-154.5154.5-159.514103324930.01190.04760.11910.39290.28570.10710.03570.01190.05950.17860.57150.85720.95241第四十九页,共一百零四页。3.自左向右在各小区间上作以fi

/(nΔ)为高的小矩形

如下图,即为直方图。注:直方图的小区间可以不等长,但小区间的长度不能太大,否则平均化作用突出,淹没了密度的细节部分;也不能太小,否则受随机化影响太大,产生极不规则的形状。第五十页,共一百零四页。从本例的直方图看,有一个峰,中间高,两头低,较对称,样本象来自正态总体。于是检验第五十一页,共一百零四页。x≤129.5129.5<x≤134.5134.5<x≤139.5139.5<x≤144.5144.5<x≤149.5149.5<x≤154.5154.5<x<00870.05190.17520.31200.28110.13360.03750.734.3614.7226.2123.6111.223.156.7941.5524.4010.02Σ=87.67故在水平0.1下接受H0,认为数据来自正态总体。第五十二页,共一百零四页。

的连续性矫正由(7-1)式计算的K2只是近似地服从连续型随机变量2分布。在对次数资料进行2检验利用连续型随机变量2分布计算概率时,常常偏低,特别是当自由度为1时偏差较大。

Yates(1934)提出了一个矫正公式,矫正后的K2值记为:

(7-5)第五十三页,共一百零四页。

当自由度大于1时,(7-4)式的2分布与连续型随机变量2分布相近似,这时,可不作连续性矫正,但要求各组内的理论次数不小于5。若某组的理论次数小于5,则应把它与其相邻的一组或几组合并,直到理论次数大于5为止。第五十四页,共一百零四页。

从上例可以看出,若所检验的总体分布是连续型的计算量比较大,也比较麻烦。若所检验的总体为离散型的,则问题往往比较简单一些。

例7某电话交换台在一小时内接到电话用户呼唤次数按每分钟统计得到记录如下表

第五十五页,共一百零四页。81617106210

频数0123456≥7

呼唤次数

i

(1)原假设总体分布中只有一个未知参数,并且是总体X

的数学期望。用矩估计法,可得

的估计值。

解本题所要检验的总体分布是离散型的。可以把X

的一个取值i

看作一个分组,相应的看作是第i组的组频数。第五十六页,共一百零四页。所以,即分布列为(2)作统计量第五十七页,共一百零四页。在成立的条件下,有第五十八页,共一百零四页。列出计算表(见表7—3)。第五十九页,共一百零四页。0.12520.00170.00360.03540.06270.02180.01390.05860.5750.6790.187-0.118-0.2420.758-0.8240.4328.11816.24216.24210.8245.4122.1660.720.27816171062100123456≥7i表7—3第六十页,共一百零四页。因此,在下接受原假设,即认为呼唤次数X

服从的泊松分布。

(3)如表将后四组合为一组,此时组数为对给定的显著性水平,查分布表的临界值

(4)由样本值,通过计算表7—3得到使第六十一页,共一百零四页。三列联表列联表的中间各个变量不同水平的交汇处,就是这种水平组合出现的频数或计数(count)。二维的列联表又称为交叉表(crosstable)。右边的列联表是2×2列联表。维数多的叫做高维列联表。对定类或定序数据的描述和分析通常使用列联表.

吸?病?吸烟不吸烟患慢性气管炎(1)4313不患慢性气管炎(0)162121注意前面这个列联表的变量都是定性变量;但列联表也会带有定量变量作为协变量。第六十二页,共一百零四页。一、列联表的构造1.由两个或两个以上变量进行交叉分类的频数分布表2.行变量的类别数用

r表示,列变量的类别数用

c表示3.由行变量和列变量的所有可能的组合构成的表格,称为列联表4.一个

r行

c列的列联表称为

r×c列联表三列联表第六十三页,共一百零四页。列行12合计1vf11f122f21f22合计n2×2列联表

表示i行j列的观察频数,行合计列合计而样本容量三列联表第六十四页,共一百零四页。列行12…c合计1f11f12…f1c2f21f22…f2c………………rfr1fr2…frc合计nr×c

列联表三列联表第六十五页,共一百零四页。

r×c列联表的独立性检验的方法

r×c表是指行因子的属性类别数为r(r>2),列因子的属性类别数为c(c>2)的列联表。其独立性检验为:

第三节独立性检验其中Aij(i=1,2,…r;j=1,2,…c)为实际观察次数,Tij为理论期望次数。

第六十六页,共一百零四页。

下一张

主页

退出

上一张

其公式可简化为:第三节独立性检验第六十七页,共一百零四页。表9-9因素因素X合计Yx1x2y1aba+by2cdc+d合计a+cb+dn=a+b+c+d2×2列联表第三节独立性检验第六十八页,共一百零四页。1.期望频数为3.相关系数为2.统计量为-因素因素X合计Yx1x2y1aba+by2cdc+d合计a+cb+dn=a+b+c+d2×2列联表第三节独立性检验第六十九页,共一百零四页。第三节独立性检验

吸?病?吸烟不吸烟合计患慢性气管炎(1)431356不患慢性气管炎(0)162121283合计205134339

第七十页,共一百零四页。部门态度一分公司二分公司三分公司四分公司合计赞成该方案68755779279反对该方案32453331141合计10012090110420表9-1关于改革方案的调查结果单位:人例一个集团公司在四个不同的区域设有分公司,现该集团公司欲进行一项改革,此项改革可能涉及到各分公司的利益,故采用抽样调查方法,从四个分公司共抽取420名职工,了解职工对此项改革的看法,调查结果见表9-1。第三节独立性检验第七十一页,共一百零四页。二、列联表的分布

㈠、观察值的分布1.各行合计的分布称行边缘分布,称行边缘频数,称行百分数2.各列合计的分布称列边缘分布,称列边缘频数,称列百分数3.称为总百分数第三节独立性检验第七十二页,共一百零四页。一分公司二分公司三分公司四分公司合计赞成该方案68755779279行百分数%24.426.920.428.366.4列百分数%68.062.563.371.8-总百分数%16.217.813.618.8-反对该方案32453331141行百分数%22.731.923.422.033.6列百分数%32.037.536.728.2-总百分数%7.610.77.97.4-合计10012090110420%23.828.621.426.2100.0包含百分比的2×4

列联表表9-2第三节独立性检验第七十三页,共一百零四页。㈡、期望值的分布1.假定行变量和列变量相互独立2.实际频数的期望频数为第三节独立性检验第七十四页,共一百零四页。计算例根据表9-1,第一行第一列的实际频数,相应的期望频数则为类似可求得各个实际频数的期望频数列于表9-4第三节独立性检验第七十五页,共一百零四页。部门态度一分公司二分公司三分公司四分公司合计赞成该方案实际频数68755779279期望频数(66)(80)(60)(73)反对该方案实际频数32453331141期望频数(34)(40)(30)(37)合计10012090110420实际频数和期望频数分布表单位:人表9-4第三节独立性检验第七十六页,共一百零四页。第二节χ2分布与χ2

检验

一、统计量1.用于检验列联表中变量之间是否独立的检验,尤其适合于两个定类变量之间是否独立的检验2,统计量为(9.1)3.值愈大则表明实际频数与期望频数的差异愈大第三节独立性检验第七十七页,共一百零四页。步骤一步骤二步骤三步骤四6866

240.06067580-5250.31255760-390.15007973

6360.49323234-240.11764540

5250.62503330

390.30003137-6360.97303.0319表9-5计算表

第三节独立性检验第七十八页,共一百零四页。二、χ

2

分布分布为正偏,随着自由度的增加,趋于对称。当自由度很大时,分布可用正态分布来近似。第三节独立性检验第七十九页,共一百零四页。三、自由度的确定统计量的自由度为

f=(

行数-1)(列数-1)=(r-1)(c-1)

(9.2)当n

较大时,统计量近似分布。第三节独立性检验第八十页,共一百零四页。四、χ2

检验

㈠、一致性检验1.检验多个变量之间是否存在显著差异2.检验的步骤⑴.例如提出原假设和备择假设不全相等⑵.对规定的显著性水平,若则拒绝。否则不能拒绝,即接受第三节独立性检验第八十一页,共一百零四页。例9.1某集团公司欲进行一项改革,分别从所属的四个分公司中共随机抽取了420名职工,了解他们对改革方案的态度(见表9-1),并对职工态度是否与所在单位有关这个问题在α=0.1的显著性水平上进行检验。第三节独立性检验第八十二页,共一百零四页。解:由(9.1)式得不全相等取时,查表得从而接受,即认为四个分公司对改革方案的赞成比例是一致的。由(9.2)式,得自由度由于第八十三页,共一百零四页。㈡、独立性检验1.检验列联表中的行变量与列变量之间是否独立2.检验的步骤⑴.提出原假设和备择假设

H0:行变量与列变量独立

H1:行变量与列变量不独立⑵.计算检验统计量⑶.对规定的显著性水平,若则拒绝。否则不能拒绝,即接受。第三节独立性检验第八十四页,共一百零四页。例9.2一种原料来自三个不同的地区,原料质量被分成三个不同等级。从这批原料中随机抽取500件进行检验,结果如表9-7所示。要求检验各个地区和原料之间是否存在依赖关系。地区一级二级三级合计甲地区526424140乙地区605952171丙地区506574189合计162188150500表9-7原料抽样结果单位:件第三节独立性检验第八十五页,共一百零四页。列一级二级三级合计甲地区526424140(45.36)(52.64)(42.00)乙地区605952171(55.40)(64.30)(51.30)两地区506574189(61.24)(71.06)(56.70)合计162188150500表9-8

3×3列联表计算过程解:H0:地区和原料之间独立H1:地区和原料之间不独立第三节独立性检验第八十六页,共一百零四页。续(例9.2)取时,查表得由于所以拒绝,接受。即认为地区和原料之间不独立。第三节独立性检验第八十七页,共一百零四页。

一、独立性检验的意义对次数资料,除进行适合性检验外,有时需要分析两类因子是相互独立还是彼此相关。这种根据次数资料判断两类因子彼此相关或相互独立的假设检验就是独立性检验。独立性检验实际上是基于次数资料对子因子间相关性的研究。第八十八页,共一百零四页。表9-12价值取向职业XY制造业服务业物质报酬(人)10545%7256人情关系(人)4035%2844合计(人)14580%100100职业背景与工作价值观取向

独立性检验案例第八十九页,共一百零四页。例社会学家欲研究家庭状况对青少年犯罪的影响,设该地区有未犯罪纪录的青少年10000名,有犯罪记录的青少年150名。如果从未犯罪青少年中抽取1%,即对100名进行研究,则用相同比例从犯罪青少年中抽取的样本容量仅为1.5人。为满足研究的需要,对犯罪青少年的抽样比扩大到1/2,即抽取75人。调查所获得的数据如表9-13。

独立性检验案例第九十页,共一百零四页。表9-13青少年行为家庭状况合计完整家庭离异家庭犯罪383775未犯罪928100合计13045175家庭状况与青少年犯罪单位:人由表9-13按家庭状况计算的条件百分表,见表9-14第九十一页,共一百零四页。表9-14青少年行为家庭状况完整家庭离异家庭犯罪(%)2982未犯罪(%)7118合计(人)13045家庭状况与青少年犯罪由表9-13按青少年行为计算的条件百分表,见表9-15。第九十二页,共一百零四页。表9-15家庭状况青少年行为犯罪(%)未犯罪(%)完整家庭5192离异家庭498合计(人)75100家庭状况与青少年犯罪百分表第九十三页,共一百零四页。二、分布的期望值准则1.当数据划分为两类时,要求每一类别的期望频数不少于5。以往病史f0fe未曾患过肝炎532531患过肝炎45表9-16

说明表第九十四页,共一百零四页。续(分布的期望值准则)2.当数据划分为两个以上类别时,期望频数小于5的比例不应超过20%时,否则应把期望频数小于5的类别合并。第九十五页,共一百零四页。表9-17类别f0feA2826B4947C1823D64E9288F2025合计213213说明表第九十六页,共一百零四页。表9-18类别f0feA3032B110113C8687D2324EFG合计263263说明表第九十七页,共一百零四页。列联表列联表的中间各个变量不同水平的交汇处,就是这种水平组合出现的频数或计数(count)。二维的列联表又称为交叉表(crosstable)。右边的列联表是2×2列联表。维数多的叫做高维列联表。

吸?癌?吸烟不吸烟患肺癌(1)603不患肺癌(0)3211注意前面这个列联表的变量都是定性变量;但列联表也会带有定量变量作为协变量。第九十八页,共一百零四页。(A与B独立)

DataSMK;inputA$B$n@@;cards;1YES601NO30YES320NO11;procfreqdata=SMK;tablesA*B/chisq;weightn;run;第九十九页,共一百零四页。结果输出

表1(频数频率表)TheFREQProcedureTableofAbyB(频数)Frequency‚(频率)Percent‚(行频率)RowPct‚(列频率)ColPct‚NO‚YES‚Total-----------------------------------------------------ˆ0‚11‚32‚43‚10.38‚30.19‚40.57‚25.58‚74.42‚‚78.57‚34.78‚------------------------------------------------------1‚3‚60‚63‚2.83‚56.60‚59.43‚4.76‚95.24‚‚21.43

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论