拟合优度检验.ppt

上传人：y*** IP属地：广东上传时间：2020-01-30 格式：PPT 页数：62 大小：4.49MB 积分：30 举报 版权申诉

已阅读5页，还剩57页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

第十三章检验与方差分析我们前面已经比较系统地讨论了双样本的参数和非参数检验的问题现在我们希望利用一般的方法来检验三个以上样本的差异检验法和方差分析法就是解决这方面问题的检验法可以对拟合优度和独立性等进行检验方差分析法则可以对多个总体均值是否相等进行检验后者由于通过各组样本资料之间的方差和组内方差的比较来建立服从F分布的检验统计量所以又称F检验第一节拟合优度检验第二节无关联性检验第三节方差分析第四节回归方程与相关系数的检验第一节拟合优度检验运用Z检验 t检验等讨论假设检验的问题一般要求总体服从正态分布或者在大样本条件下可以利用渐近正态分布理论来描述抽样分布也就是说我们都要直接或间接地假定对象总体具有已知的分布形式然后对总体的未知参数进行假设检验如果不知道总体的分布形式就无法运用t检验法等对总体参数进行假设检验于是这里有一个前面留下来的尚未讨论的问题很重要就是怎样检定总体是否具有正态或其他分布形式拟合优度检验正是就这一问题而言的检验方法第十一章最后一节我们将累计频数检验用于经验分布与理论分布的比较实际已经提供了拟合优度检验的一种方法拟合优度检验与累计频数拟合优度检验相对应在评估从经验上得到的频数和在一组特定的理论假设下期望得到的频数之间是否存在显著差异时是一种更普遍的检验方法现在我们再来看看第七章提到的著名的孟德尔豌豆试验根据孟德尔提出的分离规律纯种豌豆杂交后的子二代出现分化红花植株与白花植株的数目应为3 1 但由于随机性观察结果与3 1理论值总有些差距因此有必要去考察某一大小的差距是否已构成否定3 l理论的充分根据这正是我们所讨论的拟合优度检验的问题解决这类问题的工具是卡皮尔逊在1900年发表的一篇文章中引进的所谓检验法 1 问题的导出首先把问题表述成一般模式设一总体包含c种可区别的个体根据某种理论或纯粹的假设第i种个体出现的概率应为某个已知的数Pi i 1 2 c 有Pi 0 1 这一组概率 P1 P2 Pc 就构成了我们的理论分布现在在该总体中随机地抽取一个容量为n的样本发现其中第i种个体的数目为fi i 1 2 c 并有 n 我们要据此检验理论分布用概率论的语言可以这样说设对象总体中随机变量X有c种取值当X的取值是xi时按零假设其总体分布等于理论分布即P Pi i 1 2 c 例如就孟德尔的3 1理论来说 c 2 P x1 3 4 P x2 1 4 现在从该总体中随机地抽取一个容量为n的样本发现其中xi i 1 2 c 出现的次数为fi i 1 2 c 并有 n 知道了频数也就知道了频率即出现的频率为并有 1 现在我们就是要据此经验分布来检验总体分布等于理论分布的零假设 2 拟合优度检验比率拟合检验拟合优度检验如何进行关键是确定合适的检验统计量以及该统计量所服从的概率分布这里不可避免地要引进某种人为因素即人们设计出下面这样的综合性可比指标其中k1 k2 kc是适当选取的常数仔细观察不难发现 L值大意味着经验分布与理论分布偏离大 L值小意味着经验分布与理论分布偏离小当在某个选定的水平上经验分布显著偏离理论分布那么对象总体具有某种分布形式的零假设便被否定结论用作为检定Ho成立的检验统计量理论证明当n足够大时该统计量服从分布它是一种具有已知的并制成表的概率分布因此对给定的显著性水平可求得临界值与比较进而作出检验结论显而易见理论频数fe与观测频数fo越接近统计值越小经验分布与理论分布拟合程度越好反之 fe与fo差距越大值越大经验分布与理论分布拟合程度越差拟合优度检验由此得名例孟德尔遗传定律表明在纯种红花豌豆与白花豌豆杂交后所生的子二代豌豆中红花对白花之比为3 1 某次种植试验的结果为红花豌豆176株白花豌豆48株试在 0 05的显著性水平上对孟德尔定律作拟合优度检验参见下表应用举例 3 正态拟合检验例试对下表所给男青年身高分布的数据作正态拟合检验选取 0 05 解检验的另一个重要应用是对交互分类资料的独立性检验即列联表检验在上一章我们曾多次提到过性别与收入高低有无关联的问题在实际中类似的问题很多例如受教育程度与投票行为有无关联吸烟与寿命长短有无关联家庭小孩多少与收入多少有无关联受教育时间长短与收入多少有无关联血型与某种性格上的差异有无关联等等把这类问题上升到一般就是在列联表的基础上考察变量X与Y有无关联由于列联表一般是按品质标志把两个变量的频数进行交互分类的所以检验法用于对交互分类资料的独立性检验有其它方法无法比拟的优点如何求得列联表中的理论频数就成了独立性检验的关键第二节无关联性检验 1 独立性理论频数及自由度应用此式不必计算理论频数计算与这个检验统计量相联系的自由度算出统计量之值并定出其自由度后就可以依前述的方法在给定了显著性水平之后来对X Y属性无关联的零假设进行检验了应用举例检验也适用于定类变量和定类变量的相关统计即可以用它检定和系数是否显著就下表所示资料试以检验检定性别与收入之间的相关程度是否显著取0 001 解故拒绝H0 即认为总体上性别与收入高低之间不独立有显著相关关系例在某种流行病流行的时候共有120个病人进行了治疗其中40个病人按标准剂量服用某种新药另有40个病人按标准剂量的2倍服用了这种新药其余40个病人只按病状治疗而不是按病因治疗治疗结果按迅速痊愈缓慢痊愈未痊愈分为三类最后交叉分类的情况列于下表试问这三种疗法之间有没有差别取0 05 解 H0 这三种疗法之间没有差别H1 这三种疗法之间有差别由于 0 05 自由度k c l r l 2 2 4 查分布表得临界值在零假设下计算检验统计量计算过程参见后表因此故拒绝零假设即三种疗法之间有显著差别第三节方差分析方差分析是一种很重要的分析方法它可以检验两个以上样本均值之差方差分析是均值差检验的推广一般用于处理自变量是一个或多个定类变量和因变量是一个定距变量之间的关系方差分析所包含的假定与均值差检验所包含的假定差不多例如正态分布独立随机样本等方差性等但检验本身却很不相同方差分析直接涉及的是方差而不是均值和标准差同时比较也不取两种估计量之差而是取两种估计量的比率在两种估计量彼此独立的前提下两种估计量之比率F具有已知的抽样分布因而可进行很简单的检验 1 总变差及其分解总变差在方差分析中记作SST 它表示对于总均值的偏差之平方和即 SST 式中 ni是第i个样本的容量 n 为什么会形成总变差这个散布度呢一是三个样本可能不同这使全部数据有三个中心二是随机抽样误差的影响使数据在每个中心附近有散布总变差分解可以看出总变差分解成两部分第一部分是各观测值对其所属类别均值的偏差的平方和称为组内变差 Within groupsSumofSquares 记作SSW 组内变差反映了数据围绕各中心的散布程度即反映了因随机波动所产生的变异与自变量因素无关换言之 SSW是自变量因素所没有解释的的变异因此又称之为残差第二部分是组间平方和 Between groupsSumofSquares 记作SSB 它涉及到诸类别均值对总均值的偏差反映了前表中数据的c个中心的散布程度弄清了组间变差和组内变差检验 A1 A2 A3 也就是零假设 1 2 3 的思路也就梳理出来了关键是比较两种变差是否有显著差异若第一种变差明显大于第二种变差则认为家庭因素对孩子图书消费是有影响的若第一种变差与第二种变差之间无显著区别则不能认为家庭因素对孩子图书消费有影响但在统计学上方差分析不取两者之差而取两者之比来进行这种比较而且方差分析不是直接用SSB SSW作为检验统计量而是用可以解释的方差不能解释的方差作为检验统计量即 2 关于自由度组间平方和代表c个样本均值对总均值的偏差也就是每个可看作为一个单位 c个可看作为c个单位有c个自由度求用去一个自由度因而与组间平方和相联系的自由度为c 1 再看组内平方和计算时每列失去一个自由度因而与组内平方和相联系的自由度为n c 最后看总平方和计算总均值时失去一个自由度因而与总平方和相联系的自由度为n l 总的来看有 n l n c c 1 总自由度组内自由度组间自由度上式是在在零假设 H0 1 2 c 之下检验统计量Fo的计算公式理论证明上式服从分子自由度为k1 c 1 分母自由度为k2 n c 的F分布于是给定显著性水平我们就可以很方便地从F分布表中查到临界值F c 1 n c 如果出现Fo F 的情况我们将在这个显著性水平上拒绝零假设在实际运用中方差分析的结果常用一种称为方差分析表的标准形式的表格表示出来其基本形式如表后所示为了简化检验统计量Fo的计算有必要将SST SSW SSB这三个定义式展开其方法与分解总变差的方法相同于是有 3 关于检验统计量Fo的计算注意由于总变差等于另两个变差之和所以三个变差中仅需求出两个变差求出组内平方和比求另两个平方和繁琐得多故通常我们都是从总平方和减去组间平方和来求组内平方和的例试对下表中的资料计算SST SSW SSB 并检验 1 2 3的零假设取0 05 解据题意 n1 n2 n3 8 n1 n2 n3 24组内自由度 n c 24 3 21组间自由度 c 1 3 1 2分别计算SST和SSB 计算过程参见下表由于 0 05 查F分布表得临界值 F c 1 n c F0 05 2 21 3 47 1 19故在0 05显著性水平上不否定零假设即没有充分根据提出这三类家庭的孩子在图书消费方面有显著不同例研究某种商品销量与品牌的关系得下表资料其中A1 A2 A3表示不同的品牌数据表示销量试以显著性水平10 判断品牌对该种商品的销量有无影响解据题意 n1 n1 n2 n3 2 4 3 9组内自由度 n c 9 3 6组间自由度 c 1 3 1 2分别计算SST和SSB 计算过程参见前表13 16 于是得MSB和MSWMSB SSB c 1 6 89 2 3 45MSW SSW n c 30 6 5 00再根据 13 19 式求检验统计量FoFo 0 69 1故在0 10显著性水平上不否定零假设即不能判断不同品脾对该种商品的销量有显著影响 4 相关比率当方差分析的检验呈显著性后进一步讨论两变量间的相关程度是很自然的方差分析中相关程度的测定仍采用PRE法当不知因变量Y的取值与自变量X的取值A1 A2 Ac有关时最好的预测是以总均值作为Y的估计值此时估计所犯的错误将等于SSTE1 SST 当已知因变量Y的取值与自变量X的取值A1 A2 Ac有关后自然用各样本的均值作为各类别的预测值此时预测所产生的误差将等于SSWE2 SSW 所以消减误差比例可写成PRE 正是因为上式我们把SSB称为已解释的变差显然已解释的变差越大预测Y所减少的误差就越多 X与Y之间的关系就越密切据此方差分析中把已解释的变差对总变差的比值称为相关比率用符号表示 1 可用于一个定类变量与一个定距变量的相关程度的测定当然也可以用于定序定距变量或定距定距变量的相关程度的测定例试以表13 12的资料分析孩子图书消费与家庭类型的关系解据前面例题中已计算的结果已知SSB 28 SST 276 因而有 1 10 1 可见就表给资料而言利用家庭类型预测孩子图书消费量只能削减10 1 的预测误差小结相关比率研究的是定类定距变量之间的相关程度由于定类变量不具有数量大小的问题不存在关系是否线性的问题因此当被用于研究定距定距变量之间的关系时不仅可以作为线性相关的量度也可以作为非线性相关的量度这意味着对线性相关相关比率与r2 积差系数之平方有相同的PRE性质但如果对非线性相关用积差系数r来讨论就不行了对于定距定距变量曲线相关既然要用R来测量那么反过来同一资料通过相关指数R与积差系数r计算的比较可以判断确定两定距变量的关系是不是直线如果同时求出r与R r等于或略大于R 可说明两变量关系是直线的用r去测量是合适的如果r R 则说明两变量关系可能是曲线的首先 MSB和MSW可以分别称为组间方差和组内方差其中在等方差的假设下组内方差总是 2的无偏估计而组间方差只有当诸总体即各样本所代表的子总体均值实际上相等时它才是 2的无偏估计这就是说如果零假设为真 MSB和MSW之间将没有太大的差别反之如果零假设实际不正确可以期望MSB和MSW的比值大于1 如果这个比值小于1 则不从F分布表中查找临界值F 就可以判断零假设不能被否定其次以上两个例题也可以用均值差检验来处理均值差检验涉及t分布可以做三组合的比较即A1与A2 A2与A3 A1与A3 与均值差检验不同方差分析仅进行一次检验来判定三种类别的家庭或品牌在消费或销售上彼此是否有显著性差异方差分析的优点在于一个检验可以代替多个检验如果有四个类别均值差检验需做 4 3 2 6次如果有六个类别需做 6 5 2 15次如果有十个类别需做 10 9 2 45次况且如果做15次均值差检验其中4次结果具有显著性这时应当下什么结论可能很难回答 5 关于方差分析的几点讨论第三方差分析中的自变量X如果是二分变量也可以采用均值差t检验在这种情况下 F的分子自由度是2 1 1 分母自由度是n 2 这与均值差检验中的t相同经过计算可知具有自由度n 2的t2值等于具有分子自由度为1和分母自由度为n 2的F值比较F表和t表也可以核实这一点换言之 t是分子自由度为l的F的平方根这当然意味着对于样本而言此时不论采用方差分析或均值差检验其结果完全相同第四本节集中讨论了自变量为一个定类变量而因变量为一个定距变量的情况如果对因变量Y影响的自变量由一个变为两个以上我们就将面对多元方差分析了总变差分解的思想可以直接推广至多因素显著性检验例如就两个自变量 A和B 独立对因变量Y影响的情况可以得到下述方差分析表表13 17 相关与回归由于其广泛应用如今在统计学中是高度发展的分支之一而从实用的观点来看线性关系是最简单也是最重要的一种关系本书第十二章已经对积差系数与回归直线作了比较细致的讨论但有关假设检验的内容由于要借助于推论统计的知识方能阐明所以本书将这部分内容集中放到这一节来加以补充学过推论统计的人要克制自己免受直线的诱惑对此讨论回归系数和积差系数之假设检验将具有重要意义第四节回归方程与相关系数的检验 1 回归系数的检验检验两个总体变量定距定距变量是否具有线性关系主要检验总体的回归系数B是否等于零因此对于总体线性检验的假设可写成如下形式 H0 B 0H1 B 0 为了寻求检验H0的方法我们需要对离差平方和进行分解而这项工作前面已经完成我们发现估计Y 当不知Y和X的关系时对它的最佳估计值只能是离差之平方和总变差正是不知Y和X的关系时估计Y的全部误差E0 E0 SST 做了回归预测之后我们可以用Yc估计Y 参见下图这时估计Y的误差变为E1 剩余变差 E1 SSW 显然利用Yc去估计Y比用去估计Y要消减一些误差消减的误差E0 E1就是被回归直线解释掉的误差回归变差从第十二章已经讨论过的回归变差和剩余变差的意义来看一个回归方程效果的好坏取决于它们两者之间的比较已解释的回归变差越大用Yc去估计Y比用去估计Y消减的误差就越多回归预测的效果也就越好依此并按上一节方差分析的思想在H0成立的条件下检验回归直线的统计量可构造为 E0 E1 Fo F 1 n 2 自由度问题因回归变差中仅含一个自变量X 故自由度为l 而总变差所含自由度为 n 1 从而由总自由度组内自由度组间自由度得剩余变差的自由度为 n 2 对选定显著性水平可查表得临界值F 若出现Fo F 1 n 2 的情况则拒绝H0 即认为回归方程中X变量对Y的解释力是显著的若出现Fo F 1 n 2 的情况则不能拒绝H0 即认为回归方程中X变量对Y没有的显著的解释力例对例12 5 1 所建立的回归方程进行回归直线的检验取0 05 解根据表12 22和例12 5 1 的计算结果可知 48 252 52 5 299 75 268 5a 0 475 b 0 975 n 12 299 75 0 475 52 5 0 975 268 5 13 02 0 975 2 252 57 04 计算检验统计量Fo 43 81对 0 05 查F表得临界值F 1 n 2 F0 05 1 10 4 96 43 81所以拒绝H0 即可以认为对总体配置回归直线是有意义的 2 积差系数的检验对于定距定距变量上一章讨论的积差系数是就样本而言的如同样本均值成数不能完全代表总体均值成数一样样本积差系数r也不就是总体积差系数但在社会研究中要想确切了解两总体变量定距定距变量间的积差系数是很难的所以通常需要通过样本积差系数的统计检验来认识总体的积差系数设有两变量X和Y 它们的积差系数记为当 0时表示X和Y不具有线性相关关系当 0时表示X和Y具有线性相关关系实践证明样本积差系数r值比较大时并不等于总体积差系数也比较大尤其是样本中所含观测值较少时更可能出现这种情况例如当X与Y各只有两个样本数据时积差系数总是为1 但显然这不能说明变量间一定完全相关也就是说有时即使样本积差系数很大也并不一定就表明总体积差系数也一定很大总体积差系数的情况只有在对样本积差系数进行统计显著性检验后才能得出结论那么判断线性相关的显著与不显著的检验统计量如何构造呢统计理论证明样本积差系数是总体积差系数的一个无偏估计量有而且当 0时样本容量越大 r 显然为一随机变量的抽样分布越接近于自由度为n 2的t分布见前图因而有检验统计量 to r t n 2 积差系数检验的假设为 H0 0 两总体不具有线性相关关系 H1 0 两总体具有线性相关关系对选定的显著性水平查t分布表得临界值t 2 n 2 与统计值to作比较若则表明r在统计上是显著的即总体积差系数显著地不同于零则说明r在统计上不显著即X与Y间并不存在线性相关关系例12 4 1 已对表12 21所示资料求出积差系数试在0 05显著性水平上作总体相关检验表12 21 解建立假设H0 0H1 0已知r 0 902 n 12 于是得to r 0 902 6 608对 0 05 查表得临界值t 2 n 2 t0 025 10 2 228 6 608故拒绝H0 接受H1 即认为员工的工龄和技术考核分之间存在线性相关但是为了使用者的方便上述检验现已简化为使用相关系数r进行直接检验附表12是以r的抽样分布编制的相关系数表只要给出显著性水平和自由度k n 2 便可以在表中直接查出相应的临界值r n 2 解已知r 0 902 n 12 对 0 05 k 12 2 10 从附表12中查得r n 2 r 10 0 576 0 902故拒绝零假设即在0 05显著性水平上可以认为员工的工龄和技术考核分之间存在线性相关例用附表12直接对上例进行积差系数检验小结上一小节我们讲的是回归系数的检验实际上那只是线性回归方程的检验而这一小节讨论积差系数的检验也是要确认总体线性相关的存在因而假设H0 B 0与假设H0 0等价也就是说如果样本积差系数r通过了检验 t检验也必然导致回归系数b能通过检验 F检验实际上F公式与t公式是有对应关系的 Fo t2即具有自由度n 2的t2值等于具有分子自由度1和分母自由度n 2的F值也正是由于这个原因有的教科书就是用t统计量来检验回假设的而如果有了r检验表附表12 问题就变得更为简单计算Fo值并进行F检验也都不必要了估计Y当不知Y和X有关系时对它的最佳估计值只能是估计的全部误差是当知道Y和X有关系时可以改用Yc来估计Y 此时估计的误差减少为当知道Y和X有关系后用Yc来估计Y固然可以消减不少估计误差这也不过是点估计而如果我们能在拟合值Yc上下设置一个合适区间那么Y被估计到的可能性便会大大增加 3 回归方程的区间估计回归方程区间估计提出的背景在回归线两侧设置一个估计区间总是容易做到的但问题是我们需要对估计的信度和效度作通盘考虑为此我们必须了解Y在Yc两侧的分布特征以及Y在Yc两侧的分散程度由于误差为正态分布的原理即中心极限定理当样本容量n大于30时我们可以作如下假定参见前图 1 Y的实际观测值在对应的每个估计值Yc周围都是正态分布越靠近Yc的地方 Y值出现的机会越多反之出现的机会越少 2 所

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

拟合优度检验.ppt

文档简介

温馨提示

最新文档

评论

拟合优度检验.ppt

文档简介

温馨提示

最新文档

评论

相关文档