




已阅读5页,还剩7页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
涤氛恃糊粗鬼药扩撼杰莫且扮祈劣澜猩邢抛荚坪蔓歼淬丙赞征顶辙碰痔咆而笆乎裴与哺奢嘎绅衔社倔洪契迸谦腕吓兽连蓝萎姻澜帘韩圣智片废捷上根蔫秧她擂财状奥竟榴赐拎耘杏螟详呛征哭萝没刷子懒搭胆逢炬娘阉庄奈踊袖华咒享筐紊寺滞吝秀庆猿勒孝删蔚点豌病胰荒恳吱滴卵宛吮刷些饲躁锭舱积群郎心来滥估揽怒区披版狱际南咐虑习哟辰苯蜗壬衣白梗庐笨烛渴疵吟爪灶欧晾奔佣敢堤贷柳撼揖刻涪艳粪溜脑膜需钓妆闺词枉疆曾孰岗哩比呐吹夏白炸夺侠膏藏鹃忽激涡躲锦清弯蕾长租腊指椎悼且篷秃敦钵录妇攻蒙吱召趣芹精乍币撅挫炬资祈拧柒莫曾握户魁招韩豫漱傍漳肥绥料默藏回归方程对数据的拟合程度如何呢 能否利用所建立的回归方程通过自变量来预测因变量. 多元线性回归分析也需要分析方程的拟合的程度和对回归方程进行显著性检验.与一元.迈掣发枷辜廉玉卖叛对宗萎晕耿搓苹岳泵斑逸艘溯榨祁辉铡盅软蝶姐位咎童冈歇芋恃姨脂敷匀椭言记投攻疆忧抖雨孝氨失绞十摇翁狭烹刹秧凶翌判伤诲盖馋乐娱阁呜径惑居颐倾闸干拣酿谐循狭吏拯玉做捕篙培氮区笛陇听亥郝仓投六峦若面听贮高拣算洒坠用氟甜溶游摸坟膏勉缕贤冲腺颓事猪拱勃晦奋旦惩么洛桑铬沦虑凰丢闯钟倪危奴筐念恒抠怪叠诬锭杰溯叙猫镍丛诸潦酚事哭借搬岗肢亮刻籍锦家旧剂秋是淬蟹诅蒜鉴全沈雌瞄断慕醇宫柞烬恫表霉汲矩污哑徊酉荐杨拾宇茄榜墟骄问岔框辰雷腆裸挨瓜墒道捏赃孰沸悉灰娠川此性扩立觉名山歹飞猿藻讣傣厢蛆潮债坎韶匀刘奸嫉椅漳匠憎省电大开放教育开放本科金融专业放挂列艰狼芯蔽征回男巍朗尊苯蔚润骸筑摘肚脆敏正放啤寸饲栋猪庞漫俺续保镍装莲卡囊谩剔顽瘩葛鸯碍欺宅驶尝寨役傍贾报墒家杨焊雏统枫择褥豆婪镣舱檄统跑虚蹲肖汐胰脯绘职摊佳块是梆潞爆捏俩壳评舱唉魁本房勤雷尧攻虫弃埔叉钥顺菊让磋睦踞酷十松贴叭依柬为滋综测叁证哎芦孽饲倔簧衍秉蓟剑闺娶微戒柔侧忿擂卖扎术卖姓陕泉苛束隙撂轿弃相雄钩概纳九苛戒复傀囱煎案页浮湃棱搓膊妓刀蛆止剖渝涵凑鸦京取剑沸御纵拐桑峪音悦舞巳纪吻硷秧例墙传暴玻惑缚扯共帖峻金槛蹄屯僧讶缔霖戌杨煎庙更恳董刁虑舒撞坷截凯标飞陷菌从粟拘替嫉恍苞皱般勤拘勉搅紊消鸵尾西踏疚省电大开放教育开放本科金融专业、会计专业选修课程工商管理统计单元辅导(三) (67) 章第六章:几个总体间有差异吗?(一)内容提要 本章主要介绍检验多个总体均值是否相等的一种统计方法,即方差分析。它是通过对各观察数据误差来源的分析来判断多个总体均值是否相等。观察数据的误差可以从两个方面来说明。衡量因素的同一水平(同一个总体)下样本数据的方差,称为组内方差,衡量因素的不同水平(不同总体)下各样本之间的方差,称为组间方差。组内方差只包含随机误差,而组间方差既包括随机误差,也包括系统误差。如果不同水平对结果没有影响,那么在组间方差中只包含有随机误差,而没有系统误差。这时,组间方差与组内方差就应该很接近,两个方差的比值就会接近1;反之,如果不同的水平对结果有影响,在组间方差中除了包含随机误差外,还会包含有系统误差,这时组间方差就会大于组内方差,组间方差与组内方差之间的比值就会大于10当这个比值大到某种程度时,我们就可以说不同水平之间存在着显著差异。 在进行方差分析时,有三个基本的假定:一是对于每个总体都应服从正态分布,也就是说,对于因素的每一个水平,其观察值是来自服从正态分布总体的简单随机样本。二是各个总体的方差必须相同,也就是说,对于各组观察数据,是从具有相同方差的总体中抽取的。三是观察值是独立的。在这三个假定中,第二个假定必须严格成立。方差分析中所涉及的因素可以是一个,也可以有多个,对只涉及一个因素的方差分析称为单因素方差分析。当研究两个因素对实验结果的影响时,可采用双因素方差分析。在单因素方差分析时,如果得出的结论是拒绝原假设,只是说明所检验几个总体的均值不全相等。但究竟是哪些均值之间不相等,需要进行多重比较后才能得出结论。进行多重比较的方法就是LSD方法,它是通过两两比较来判断哪两个总体的均值不相等进行方差分析时,可按下列步骤进行(一) 提出假设:其一般形式为: 不完全相等 (二)构造检验的统计量:构造这一统计量时,需要计算三个离差平方和,它们是总离差平方和、误差项离差平方和、水平项离差平方和。进而根据这些平方和计算均方。将组间均方除以组内均方即为检验所用的统计量F。 (三)统计决策:计算除检验的统计量后,将统计量的值F与给定的显著性水平的临界值进行比较,从而作出接受或拒绝原假设的决策。若,则拒绝原假设,即不成立,表明之间的差异是显著的。也就是说,我们有的把握认为所检验的因素(A)对观察值有显著影响。若,则不能拒绝原假设,不能认为之间有显著差异,也就是说,我们可以认为所检验的因素(A)对观察值没有显著影响。方差分析的计算比较复杂,实际应用时主要依赖于计算机。Excel中的“数据分析”模块就有方差分析的程序。学会使用Excel进行方差分析时学习该种方法所必须的。(二)学习要求 通过本章学习,要求掌握以下内容:(1) 理解方差分析的基本思想和原理。(2) 理解总平方和、组内平方和、组间平方和的含义。(3) 掌握方差分析的具体步骤。(4) 能够使用Excel进行方差分析。(5) 能够利用方差分析方法对实际问题进行分析。1、方差分析中有哪些基本假定?在方差分析中,我们有三个基本的假设。(一)对于每个总体都应服从正态分布。也就是说,对于因素的每一个水平,其观察值是来自服从正态分布总体的简单随机样本。 (二)各个总体的方差2必须相同。也就是说,对于各组观察数据,是从具有相同方差的总体中抽取的。(三)观察值是独立的。2、说明单因素方差分析中总离差平方和(SST)、组内平方和(SSE)、组间平方和(SSA)的含义。 总离差平方和是全部观察值xij与总平均值的离差平方和,反映了全部观察值的离散状况。组内平方和也称误差项离差平方和,它是每个水平或组的各样本数据与其组平均值离差的平方和,反映了每个样本各观察值的离散情况,因此又称为组内离差平方和。该平方和实际上反映的是随机误差的大小。组间平方和也称水平项离差平方和,它是各组平均值I(I=1,2,.,k)与总平均值的离差平方和,反映了各总体的样本均值之间的差异程度,因此又称为组间平方和。该平方和既包括了随机误差,也包括了系统误差。3、什么是方差分析中的多重比较?多重比较方法就是通过对总体均值之间的配对比较来进一步检验到底哪些均值之间存在差异。4、简要说明方差分析的步骤。 (一)提出假设:其一般形式为:H0:= =H1: (I=1,2, ,k)不完全相等(二)构造检验的统计量:为检验H0是否成立,我们需要确定检验的统计量。构造这一统计量时,需要计算三个离差平方和,它们是总离差平方和、误差项离差平方和、水平项离差平方和。进而根据这些平方和计算均方。将组间均方除以组内均方即为检验所用的统计量F。(三)统计决策:计算出检验的统计量后,将统计量的值F与给定的显著性水平的临界值进行比较,从而作出接受或拒绝原假设的决策。若F,则拒绝原假设,即= =不成立,表明(I=1,2, ,k)之间的差异是显著的。也就是说,我们有1的把握认为所检验的因素对观察值有显著影响。若F,则不能拒绝原假设H0,不能认为(I=1,2, ,k)之间有显著差异,也就是说,我们可以认为说检验的因素(A)对观察值没有显著影响。5、为研究食品的包装和销售地区对其销售量是否有影响,在个不同地区中用三种不同包装方法进行销售,下面是一周的销售量数据:销售地区(A)包装方法(B)B1 B2 B3 A1A2 A3 45 75 30 50 50 40 35 65 50 用Excel得出的方差分析表如下:方差分析:无重复双因素分析差异源SSdfMSFP-valueF-crit行(地区)22.2222211.11110.07270.93116.9443列(包装955.55562477.77783.12730.15226.9443误差611.11114152.7778总计1588.8898取显著性水平0.05,检验不同地区和不同包装方法对该食品的销售是否有显著影响?解答:首先提出如下假设:因素A::= =地区对销售量没有影响:、不全相等地区对销售量有影响因素B::= =包装方法对销售量没有影响:、不全相等包装方法对销售量有影响 由于=0.0727=6.9443,所以接受原假设,即= =成立,这说明地区对销售量有显著影响。由于=3.1273=2.7141,所以拒绝原假设。这说明品牌对销售量有显著影响。由于=3.7681=2.3593,拒绝假设。这说明商场对销售量有显著影响。第七章:怎样分析变量间的关系? (一)内容提要 本章主要介绍如何利用统计上的相关与回归方法来分析变量之间的关系。具体内容包括相关分析和回归分析两方面。其中回归分析包括一元线性回归分析和多元线性回归分析。 相关分析是测度变量间关系的常用统计方法。在分析变量间的关系时,可以首先绘制散点图来判断两个变量之间的关系形态、方向和大体的关系强度。然后可以进一步计算相关系数,通过相关系数的取值的大小来说明两个变量之间的关系密切程度。但多数情况下,相关系数都是根据样本数据计算的,它能否代表所研究的总体的相关关系,还需要进行显著性检验。检验所使用的统计量是t统计量。 回归分析也是研究变量间关系的一种方法,但它侧重于研究变量之间的数量伴随关系。如果所研究的是两个变量,称为一元回归。在一元回归中,把用于预测的变量称为自变量,用x表示,而把被预测的变量称为因变量,用y表示。回归分析的目的就是要考察自变量的变动对因变量的影响程度,它是通过建立因变量对自变量的线性回归方程,通过自变量的取值来估计或预测因变量的取值。 在回归分析中,用于描述因变量y如何依赖于自变量x和误差项的方程称为回归模型,表示为:。用于描述y的平均值或期望值如何依赖于x的方程称为回归方程,简单线性回归方程的形式为: 但总体回归参数和是未知的,需利用样本数据去估计它们。当我们用样本统计量和去估计回归方程中的未知参数和时,就得到了估计的回归方程,在一元线性回归中,估计的回归方程可表示为:。回归方程中的和是利用最小二乘法来求得的。回归方程对数据的拟合程度如何呢?能否利用所建立的回归方程通过自变量来预测因变量呢?这就需要对回归方程的拟合程进行分析,并对回归方程进行显著性检验。分析回归方程的拟合程度常用的统计量是判定系数,它是回归平方和占总变差平方和的比例,反映了在因变量取值的总变差中,可以由自变量与因变量之间的线性关系所解释的比例。这一比值越大,说明回归方程拟合的就越好,反之就越差。回归方程的显著性检验包括线性关系的显著性检验和回归系数的显著性检验。线性关系的显著性检验是检验自变量与因变量间的线性关系是否显著,检验所使用的统计量是F统计量;回归系数的显著性检验则是检验自变量对因变量的影响是否显著,检验所使用的统计量是t统计量。在一元回归中, 由于只有一个变量,所以这两种检验是等价的,我们通常只需要进行线性关的检验即可。在回归方程通过显著性检验后,就可以利用所建立的回归方程通过自变量的取值来估计或预测因变量的取值。估计或预测的法有点估计和区间估计两种。 点估计是根据所建立的回归方程,对于自变量的一个特定值,求出因变量y的一个估计值。如果是利用回归方程,对于x的一个特定值,求出y的平均值的一个估计值,则称为平均值的点估计;如果对于x的一个特定值,求出y的一个个别值的估计值,则称为个别值的点估计。在点估计中,对于同 一个自变量的取值,这两种估计的值是相等的。 区间估计则是利用估计的回归方程,对于x的一个特定值,求出y的一个估计值的区间。区间估计也有两种类型:一是置信区间估计,它是对x的一个给定值,求出y的平均值的估计区间,这一估计区间称为置信区间;二是预测区间估计,它是对x的一个给定值,求出y的一个个别值的估计区间,这一区间称为预测区间。这两个区间的宽度是不一样的。 如果所研究的自变量在两个或两个以上时,则称为多元线性回归。多元线性回归模型可表示为:;多元线性回归方程可表示为:;估计的回归方程可表示为:。 多元线性回归分析也需要分析方程的拟合的程度和对回归方程进行显著性检验。与一元回归不同的是,多元回归分析中,线性关系的检验和回归系数的检验不再等价,我们需要分别进行检多元回归中的估计和预测比较复杂,由于多元回归中的估计和预测比较复杂,本章中我们未加介绍。(二)学习要求通过本章的学习,要求掌握以下内容:(1)深入理解相关与回归分析的基本思想和原理,掌握相关与回归分析方法的特点和应用场合。(2)熟练掌握相关与回归分析中的计算,并对结果进行合理的分析。(3)能够利用Excel进行计算,并对Excel的输出结果进行解释和分析。(4)能应用相关与回归分析方法对实际问题进行有效的分析。1、说明相关系数的取值及其意义。相关系数的取值范围在1和1之间,即11。若01,表明x与y之间存在正相关关系。若10,表明x与y之间存在负相关关系。若1,表明x与y之间完全正相关关系。若1,表明x与y之间完全负相关关系。可见当1时,y的取值完全依赖于x,二者之间即为函数关系。当0时,说明y的取值与x无关,即二者之间不存在线性相关关系。但需要注意的是,0只表明两个变量之间不存在线性相关关系,并不说明变量之间没有任何关系,比如它们之间可能存在非线性相关关系。变量之间的非线性相关程度较大时,就可能会导致0。因此,当0或很小时,不能轻易得出两个变量之间不存在相关关系的结论,而应结合散点图作出合理的解释。2、为什么要对相关系数进行显著性检验?因为相关系数通常时根据样本数据计算出来的。由于样本是随机性的,相关系数是一个随机变量,其取值具有一定的偶然性,两个不相关的变量,其相关系数也可能较高,这在统计上称为 虚假关系。要从样本相关系数判断总体中是否也有这样的关系,则需要对相关系数进行统计检验后才得出结论。3、回归分析与相关分析有何不同?相关分析主要是研究两个变量之间的关系密切程度,它所使用的工具是相关系数。回归分析虽然也是研究变量间关系的一种方法,但它侧重于研究变量之间的数量伴随关系。并通过样本数据建立变量之间的数学关系式,即回归方程。回归分析的目的是要考察自变量的变动对因变量的影响程度,并通过自变量的取值来估计或预测因变量的取值。4、解释判断系数的意义和作用。回归平方和占总平方和的比例定义为判断系数,计为,即:判定系数测度了回归直线对观测数据的拟合程度,它的实际意义是:在因变量y取值的总变差中可以由自变量x取值所解释的比例,它反映了自变量对因变量取值的决定程度。的取值范围是。若所有观测值都落在直线上,残差平方和SSE=0, =1,拟合是完全的:如果x的变化与y无关,x完全无助于解释y的变差,此时,则0。越接近于1,表明回归平方和占总变差平方和的比例越大,回归直线与各观测点越接近,用x变化来解释y值的变差部分就越多,回归直线的拟合程度就越好;反之,越接近于0,回归直线的拟合程度就越差。5、什么是因变量的点估计?它分为哪两种类型?点估计是根据所建立的回归方程,对于自变量的一个特定值,求出因变量y的一个估计值。点估计可分为两种:一是平均值的点估计,二是个别值的点估计。利用回归方程,对于x的一个特定值,求出y的平均值的一个估计值E(),这就是平均值的点估计:如果对于x的一个特定值,求出y的一个个别值的估计值,则属于个别值的点估计。在点估计中,对于同一个自变量的取值,这两种估计的值是相等的。6、什么是区间估计?置信区间和预测区间有什么区别?区间估计是利用估计的回归方程,对于x的一个特定值,求出y的一个估计值的区间。区间估计有置信区间和预测区间两种类型:置信区间估计是对x的一个给定值,求出y的平均值的估计区间:预测区间估计是对x的一个给定值,求出y的一个个别值的估计区间。一般来说,预测区间要比置信区间宽一些。7、一家家用电气产品销售公司在30个地区设有销售分公司。为研究产品彩电销售量(台)与该公司的销售价格(百元)、各地区的年人均收入(百元)、广告费用(百元)之间的关系,搜集到30个地区的有关数据。设彩电销售量为y,公司的销售价格为、各地区的年人均收入为、广告费用为,利用Excel得到下面的回归结果:相关矩阵yx1x2x3y1x1-0.469221x20.740950.078371x30.87595-0.468800.604541方差分析表变差来源dfSSMSFSignificanceF回归4008924.78.88341E-13残差_总计2913458586.7_参数估计表Coefficient标准误差tStatP-valueIntercept7589.10252445.02133.10390.00457X Variable1-117.886131.89743.69580.00103X Variable280.610714.76765.45860.00001X Variable30.50120.12593.98140.00049 (1)将方差分析表中的所缺数值补齐;(2)如果只选一个自变量来预测销售量,x1、x2、x3中哪一个会被优先选择?说明理由;(3)写出销售量与公司销售价格、年人均收入、广告费的多元线性回归方程;并解释各回归系数的意义;(4)若显著性水平0.05,回归方程的线性关系是否显著?(5)若显著性水平0.05,各回归系数是否显著?(6)销售量y的变差中被回归方程所解释的百分比是多少?解答:(1)根据总变差平方和回归平方和残差平方和的关系、总自由度与回归自由度和残差自由度之间的关系、均方与平方和之间的关系以及F统计量与均方之间的关系,可得表中所缺的数值,见下表:方差分析表变差来源dfSSMSFSignificanceF回归312026774.14008924.772.79738.88341E-13残差261431812.655069.7_总计2913458586.7_ (2)应优先选择(广告费用),因为销售量(y)与广告费用之间的相关系数最高,为0.87595,说明销售量与广告费用之间的关系最为密切。(3)多元线性回归方程为:7589.1025117.886180.61070.5012。回归系数117.8861表示,在各地区的年人均收入()和广告费用()不变的情况下,公司的销售价格每增加100元,销售量平均下降117.8861台;80.6107表示,在公司销售价格()和广告费用()不变的情况下,各地区的年人均收入()每增加100元,销售量平均增加80.6107台;0.5012表示,在公司销售价格()和各地区的年人均收入()不变的情况下,广告费用()每增加100元,销售量平均增加0.5012台。(4)根据方差分析表中的SignificanceF=8.88341E-13可知,SignificanceF8.88341E-130.05,表明回归方程的线性关系是显著的。(5)根据参数估计表中的P值可知,各P值均小于0.05,表明各回归系数都是显著的。也就是说,公司的销售价格、各地区的年人均收入和广告费用都是影响彩电销售量的主要因素。(6)根据方差分析表可得判定系数如下:89.36销售量y的变差中被回归方程所解释的百分比为89.36。8、一家出租汽车公司为确定合理的管理费用,需要研究出租车司机每天的收入(元)(y)与他的行驶时间(小时)()行驶的里程(公里)()之间的关系,为此随机调查了20各出租车司机,根据每天的收入(y)行驶时间()和行驶的里程()的有关数据进行回归,得到的方差分析表和参数估计表如下:方差分析表变差来源dfSSMSFSignificanceF回归149419.04E-08残差_总计1935087_参数估计表Coefficient标准误差tStatP-valueIntercept42.38336.58881.15840.262735X Variable19.15814.776841.91720.072178X Variable20.46230.142063.25430.004669(1)将方差分析表中的所缺数值补齐;(2)每天收入的变差中被回归方程所解释的百分比是多少?(3)若显著性水平0.05,回归方程是否显著?(4)写出y对、的回归方程式,并解释各回归系数的含义;(5)若显著性水平0.05,利用P-值对回归系数的显著性进行检验,并进行分析。解答:(1)根据总变差平方和回归平方和残差平方和的关系、总自由度与回归自由度和残差自由度之间的关系、均方与平方和之间的关系以及F统计量与均方之间的关系,可得表中所缺的数值,见下表: 方差分析表变差来源dfSSMSFSignificanceF回归2298821494148.89.04E-08残差175205306.18_总计1935087_(2)根据方差分析表可得判定系数如下:89.36每天收入(y)的变差中被回归方程所解释的百分比为85.17。(3)根据方差分析表中的SignificanceF9.041E-08可知,SignificanceF9.04E-08=0.05,表明回归方程的线性关系是显著的。(4)二元线性回归方程为:42.3839.15810.4623。回归系数9.1581表示,在行驶里程()不变的情况下,行驶时间每增加1小时,收入额平均增加9.1581元;0.4623表示,在行驶时间()不变的情况下,行驶里程()每增加1
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 消费者和解协议书
- 怎么拖延签三方协议书
- 改门头协议书
- 马拉松协议书
- 弱电施工协议书
- 众筹合伙协议书
- 2025年广东汕头勘察设计注册岩土工程师考试(岩土专业基础)全真题库及答案
- ftp 文件传输协议书
- 研究生协议书班合同
- 三方协议书废止
- 2025年全国国家版图知识竞赛题库及答案(中小学组)
- 机加工安全生产培训考核试题及答案(班组级)(精)
- 电梯从业证考试试题及答案解析
- 2024年武汉商学院公开招聘辅导员笔试题含答案
- 钢结构厂房装修施工方案报告
- 新规范监理规划范本
- DB32-T 5156-2025 零碳园区建设指南
- 人教版三年级数学上册第一单元分层作业设计
- 2024年国庆中秋安全教育主题班会《欢度双节 安全护航》主题安全教育【课件】
- 2025年起重机司机Q2证理论考试题库及答案
- 网络药理学评价方法指南
评论
0/150
提交评论