版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
回归分析的基本概念现实生活中的许多现象之间存在着相互依赖、相互制约的关系,这些关系在量上主要有两种类型:确定性关系,即我们所熟悉的变量之间的函数关系,如圆的半径R与圆的面积S之间就存在确定的函数关系:S=磁:;非确定性关系,即变量之间虽然有密切的关系,但这种关系却无法用确定的函数关系表达,如人的年龄与血压之间有密切的关系,但却找不到一个函数能准确地表示它们之间的关系,变量之间的这种非确定性关系,称为相关关系.值得注意的是,即使是具有确定性关系的变量,由于测量误差的影响,其表现形式也具有某种程度的不确定性.具有相关关系的变量间虽然不具有确定的函数关系,但是通过大量的观测数据,可以发现它们之间存在一定的统计规律,数理统计中研究这些统计规律或者说研究变量之间相关关系的方法就是所谓的回归分析.它能帮助我们有效地从一个可以控制或可以精确观察的变量取得的值去估计另一随机变量所取的值.如用年龄估计血压.设孑是可以精确测量或控制的非随机变量,盯是随机变量,瓷的变化将使叶发生相应的变化,但它们之间的变化关系是不确定的,若对于孑的任一可能值x,盯相应服从一定的概率分布,则称随机变量盯与变量孑存在相关关系.进行n次独立试验,得试验数据•••7旳•••其中心及X分别是变量瓷及随机变量吓在第i次试验中的观测值…屈,常把点(心,兀)°=…卫)画在直角坐标平面上,得散点图(图1)显然,散点图不能很好地表示盯与才之间的相关关系,问题是如何根据这些观测值,找出能表达盯与才之间相关关系的最佳形式.能表达盯与才之间相关关系的最佳形式.由于盯的随机性,对于瓷的每一确定值x,盯有它的分布,从而它的数学期望(若存在的话)也随瓷取确定值而确定,而数学期望能反映随机变量所取数值的集中位置,因此,取瓷=x时吓的数学期望作为孑=x时并的估计值比较合理,即$=讥=,、=丑脚f=对显然,呻二E是x的函数,记为母㈤,戸㈤称为盯关于詡勺回归函数,予=凰㈤称为吓关于匸的回归方程•回归方程反映出叶的数学期望運肝随直的变化而变化的规律,近似地描述了可与匸之间的相关关系.然而,要完全确定回归函数加力却很困难,回归分析的基本内容是估计加力,散点图可以帮助我们粗略地了解用什么形式的函数估计随机变量盯的数学期望要好些,所研究问题的物理背景也可帮助我们确定函数且(力的类型.在确定了函数心)的类型后,可设旦㈤=心闷宀,…卫J
其中眄,%,…,比为未知参数,余下的问题就是利用试验数据,依照一定的准则选择参数眄宀,…应的估计值九旳,…,丑,使方程7曲卫2,…,玉).在一定的意义下最佳地表现可与匸之间的相关关系•而所谓的准则就是将要讨论的最小二乘法.最小二乘法设随机变量盯关于变量*的回归方程为廿心的宀,…心)用最小二乘法估计参数眄s•皿,就是要选择参数听宀,…地,使叩的观测值H与相应函数值曲—宀…心°=12…屈的离差平方和达到最小•下面讨论最小二乘法的概率意义.设当变量匸取任意实数X时,随机变量盯服从正态分布肌曲&],即盯的概率密度rjliirO"密度rjliirO"其中数学期望“(力=岸〔疋;的吒,…,如,而方差十是不依赖于X的常数,设在n次独立试验中得到观测值(心,兀)°"2…血,其中H服从正态分布“(#(可),/)(j=12…,?3),则用极大似然法估计参数的宀'…血时的似然函数为为使似然函数取得最大值,应使上式指数中的平方和取最小值,即为了使观测值(心,x)e=i2…卫)出现的可能性最大,应选择参数衍宀‘■■■‘%,使&的观测值x与相应函数值岸(召;衍卫2,…卫j。=12・・・用)的离差平方和达到最小.e=工[兀-岸〔心;甸卫2,•••,%)『分别求=对*宀・5的偏导数,并令它们等于零,得方程组解上面的方程组,求出参数叫s…心的估计值,即可得到回归方程.然而,一般来说,解上面的方程组是很困难的,仅当函数岸⑷阳宀,…,丑)是参数眄卫2,…,毎的线性函数时,才比较容易求出参数眄卫2,…,玉的估计值.这是下节将要讨论的线性回归方程问题.线性回归方程变量的相关关系中最为简单的是线性相关关系,设随机变量叶与变量直之间存在线性相关关系,则由试验数据得到的点…,町将散布在某一直线周围,因此,可以认为吓关于孑的回归函数的类型为线性函数,即戎垃=沙加,下
面用最小二乘法估计参数氏、,设X服从正态分布N3叽小Q=1,2,…卫),分别求对说、b的偏导数,并令它们等于零,得方程组解得其中其中_无)0(_刃=工舌”•_Kxy2=13-13=13=1且耳为观测值•,耳的样本方差.线性方程予=+矗称为盯关于直的线性回归方程,&称为回归系数,对应的直线称为回归直线•顺便指出,将来还需用到称为回归直线•顺便指出,将来还需用到,其中V为观测值戸必’…%的样本方差.值得注意的是,关于"心,・•・的计算可以利用具有统计计算功能的电子计算器进行,而当电子计算器具有线性回归计算的功能时,把所有试验数据
(心,X)°=1,2,…⑻逐对存入计算器中,则可直接算出矗及'的值.二例1某商场一年内每月的销售收入直(万元)与销售费用并(万元)统计如下表187.125.4239.432.4242.027.8179.522.8217.824.4251.934.2157.020.6227.129.3230.029.2197.021.8233.427.9271.830.0求销售费用吓关于销售收入匸的线性回归方程.解:计算得无=219.»护=27.1片,=12113.駅.=72823.09-12x219.5x27.15=1309.991309.9912113.68耘0.108a=27.15-1309991309.9912113.68耘0.108所求线性回归方程为予=341+0W8x散点图及回归直线如图2所示.相关系数的显著性检验现在讨论线性相关的显著性检验中最简便、最常用的一种方法,即相关系数的显著性检验法.我们早在前面的学习中知道,变量匸与吓的相关系数『和是表示孑与叶之间线性相关关系的一个数字特征,因此,要检验随机变量叶与变量孑之间的线性相关关系是否显著,自然想到考察相关系数『和的大小,若相关系数自的绝对值很小,则表明盯与才之间的线性相关关系不显著,或者它们之间根本不存在线性相关关系;当且仅当相关系数『和的绝对值接近1时,才表明叶与了之间的线性相关关系显著,这时求盯关于才的线性回归方程才有意义.在相关系数广和未知的情况下,可用样本相关系数r作为相关系数广和的估计值,参照相关系数的定义,并用样本均值与样本方差分别作为数学期望与方差的估计值,定义*与颈的样本相关系数如下:工(召-无心-刃2=1因此,根据试验数据(心,X)…血,得到J"為的值后可进一步算出样本相关系数r的值.若使用的是具有线性回归计算功能的电子计算器时,把所有试验数据…血逐对存入计算器中,则可直接算出r的值.由于样本相关系数r是相关系数『和的估计值,所以,r的绝对值越接近1,吓与匸之间的线性相关关系越显著.当r>0时,称叶与匸正相关;当r<0时,称叶与*负相关.而当r的绝对值接近0时,则可认为吓与匸之间不存在线性相关关系.然而,样本相关系数r的绝对值究竟多大,才能认为更与瓷之间的线性相关关系显著?线性回归的方差分析的结果可帮助我们解决这一问题.由于仍-2)r2仍-2)r2对于给定的显著水平氏,由F的临界值码①"一2),确定相关系数的临界值,这里由于F的第一个自由度恒为1,从而F的临界值以及由它确定的相关系数的临界值实际上只依赖于F的第二个自由度川-2.由试验数据计算出样本相关系数r,则当卜卜巾压"2)时,认为吓与匸之间的线性相关关系不显著;⑵当血血-2)<|以如心7时,认为帀与*之间的线性相关关系显著;⑶当l^l>时,认为叶与瓷之间的线性相关关系特别显著.因此,讨论随机变量盯与变量才之间的线性回归问题,应按下列步骤进行根据试验数据(心,X)°=1,2,…,“)先计算心小G的值,然后求出样本相关系数r的值,查相关系数显著性检验表确定相关系数的临界值,推断盯与了之间的线性相关关系是否显著;若吓与匸之间的线性相关关系显著,则用最小二乘法计算矗及$的值,得吓关于了的线性回归方程,该方程大致描述了盯与瓷之间的变化规律;
(3)利用得到的线性回归方程解决预测和控制的问题(下一节将介绍).例3某商场一年内每月的销售收入瓷(万元)与销售费用帀(万元)统计如下表z-187.125.4239.432.4242.027.8179.522.8217.824.4251.934.2157.020.6227.129.3230.029.2197.021.8233.427.9271.830.0利用相关系数显著性检验表检验该商场每月的销售费用吓与销售收入孑之间的线性相关关系是否显著.1309.99解:由^=12113.63^^96.27,^=1309.991309.99,斑0.850712113.68x196.27查相关系数显著性检验表,当"2=10时,ro.O5(10)=0.576?ro.ol(10)=0.708因为I^>^100)=0-708所以,认为帀与直之间的线性相关关系特别显著.与前面用线性回归的方差分析得到的结论一致,因此,线性回归的方差分析与相关系数的显著性检验只做一个就可以了,通常做得比较多的是相关系数的显著性检验.利用线性回归方程预测和控制当随机变量盯与变量孑之间的线性相关关系显著时,由试验数据(忆兀疋=12…⑻得到的^关于匸的线性回归方程姑皿大致反映了帀与孑之间的变化规律,但由于它们之间的关系是非确定性的,对于*的任一值叼,
不可能确定吓的相应值凡,由回归方程确定的九Y+阮只是兀的估计值,我们自然关心,若以九作为兀的估计值,其精确性及可靠性能否保证?因此,对于给定的f=,需要预测对应的盯的观测值的取值范围,即必须对旳进行区间估计,对于给定的置信概率1-氏,求出旳的置信区间,称为预测区间,求预测区间的方法如下.设其中G为剩余平方和,称s为剩余标准差,它反映了观测值戸必,…必偏离回归直线的程度,可以证明〜f戸必,…必偏离回归直线的程度,可以证明〜f(旳-2)Z(起-2)对于给定的置信水平1一说,确定弓,使即即因此,旳的对应于置信概率1-盘的预测区间为由于n充分大时由于n充分大时丸-选(g)55+叫(预测区间可近似地取为例如,总=0.05时,加站(①=196,凡的对应于置信概率0.95的预测区间为这时,对于试验数据…屈有F伉-1.9気<兀〈九+1.9同=P(a~}.96s+bxi<兀<a+}.96s+bx^=0.95因此,若在回归直线L:的上下两侧分别作与回归直线平行的直线厶:y=d-1.96s+bx及Z:y=+1.96s+图3约有95%的点落在这两条直线之间的带型区域内(图则所有可能出现的试验点(心,图3约有95%的点落在这两条直线之间的带型区域内(图3)显然,剩余标准差s的值越小,用线性回归方程预测九的值则越精确,因此,可用剩余标准差的大小衡量预测的精确度,至于预测的可靠性则可由置信概率体现.'另外,值得注意的是,利用线性回归方程进行预测,一般只能在原来的试验范围内进行,不能随意扩大范围.接着讨论控制问题,所谓控制问题其实是预测问题的反问题,即要求叶的观测值y在某区间仙丿勺内取值时,问应控制^的值X在什么范围?亦即对于给定的置信概率1P,求出相应的控制区间B,使応月时,X所对应的观测值y落在区间仙,七)内的概率不小于1-盘,当n充分大时,令
则可求出相应的控制区间b的上下限.下面以置信概率为例进行更为详尽的讨论.得&也-可)=02_期)-3池若出_旳〉3皿,贝I」当£>0时,心<P因此,当可<沐可时,.■■■..■■■.Fg<<y2)=~1.96s+bxY<.y<.a+1.96s+bx2)>P(a-}.96s+hx<y<a+}.96s+bx)=0.95即控制区间为(珂兄);同理,当$<0时,控制区间为〔也小1).控制区间的直观表示请看图4其中L:予=丘+矗为回归直线,直线及均与回归直线平行.另外,必须注意,为了实现控制,区间5宀)的长度要大于3.92s,即^2-^1>3.92s例4某商场一年内每月的销售收入瓷(万元)与销售费用帀(万元)统计如下表z-187.125.4239.432.4242.027.8179.522.8217.824.4251.934.2157.020.6227.129.3230.029.2197.021.8233.427.9271.830.0(1)若该商场某月的销售收入为220万元,求当月销售费用的预测区间.(2)若要求某月的销售费用在22万元到32万元之间,则该月销售收入应该在什么范围?(取置信概率为95%)解:(1)在第2节例1已求得线性回归方程为5>=3.41+0.108x则当x0=220时,九=3.41+0.108x220=27.17又在第3节例2中已算得亠=羽.61,所以占因此置信概率为95%的预测区间为(27.17-1.96x2.34,27.17+1.96x2.34)即(22.58,31.76)(2)由7!=22=3.41-1.96x2.34+0.108^护2=32=3.41+1.96x2.34+0.108x2得xj=214.60?x2=222.26,控制区间为(214.60,222.26),即销售收入在214.60万元到222.26万元之间.化非线性回归为线性回归在实际问题中,当变量之间的相关关系不是线性相关关系时,不能用线性回归方程描述它们之间的相关关系,需要进行非线性回归分析,然而,非线性回归方程一般很难求,因此,把非线性回归化为线性回归应该说是解决问题的好方法。首先,所研究对象的物理背景或散点图可帮助我们选择适当的非线性回归方程其中总及b为未知参数(在此仅讨论含两个参数的非线性回归方程),为求参数总及b的估计值,往往可以先通过变量置换,把非线性回归化为线性回归,再利用线性回归的方法确定参数尬及b的估计值。下面列出常用的曲线方程及其图形,并给出相应的化为线性方程的变量置换公式。以帮助我们观察散点图确定回归方程的类型。不过,值得注意的是,散点图毕竟只是相关关系的粗略表示,有时散点图可能与几种曲线都很接近,这时建立相应的回归方程可能都是合理的,但一个非线性回归问题,由于选择不同的非线性回归,得到同一个问题的多个不同回归方程,哪一个回归方程最优呢?对于能化为一元线性回归的问题,可通过计算样本相关系数的办法来解决,样本相关系数的绝对值最大的对应最优的回归方程。曲线方程变换公式变换后的线性方程曲线图形1b—=a十_7kY=a+bX出卄一一Trjj2*(it0wuy=Q』Y—FX(af=]nx)戶J(C>D<2)-6<*y=说+3In不X=ki^Y=a+bX‘uCDQO<E)*<p
例5在彩色显影中,析出银的光学密度孑与形成染料的光学密度叶的试验数据如下:z-0z-z-0.050.100.140.590.381.190.060.140.200.790.431.250.070.230.251.000.471.290.100.370.311.12求帘关于孑的回归方程.解:由散点图(图5)知可设回归方程为^=j4e'(b<0)其中A及b为参数,两边取ln》=ln山+―对数,得作变量代换并设a=]nA,得Y=a+bX则由试验数据=
求出对应数据(耳,再)eT2・「ii)如下岭岭20.000-2.3037.143-0.5282.6320.17416.667-1.9665.000-0.2362.3260.22314.286-1.4704.00002.1280.25510.000-0.9943.2260.113计算得T=7.946?=406.6147=-0.612,切=8.690畑=-112.835-11x7.946x(-0.612)=-59.343样本相关系数-59.343^06.614x8.690=样本相关系数-59.343^06.614x8.690=-0.998查相关系数显著性检验表,当^-2=9时,皿⑶=0602‘血1®=0735因为INHoiCT=0.735所以,认为y与X之间的线性相关关系特别显著.,再求尬及b的估计值£==-5^343=_0M6畑406.614a=7=-0.612-(-0.146)x7.946=0.548则Y关于X的线性回归方程为f=0.548-0.146^换回原变量,得晋即严伴"严0.1"所以,^关于才的回归方程为'多元线性回归方程在许多实际问题中,还会遇到一个随机变量与多个变量的相关关系问题,需要用多元回归分析的方法来解决。前面介绍的一元回归分析是其特殊情形。但由于多元回归分析比较复杂,在此仅简要介绍多元线性回归分析。设随机变量77及变量乩鼻「■為爲(m$2),进行n次独立试验,得试验数据如下其中忑血也上,…,為上及必(疋=12…,兀)分别表示鼻生■及叶在第k次试验中的观测值.若随机变量77与变量乩鼻•…氐之间存在线性相关关系,则可设多元线性回归方程为夕=盘+垃心+b2x2+-+bmxm它大致描述了吓与乩鼻…金之间的线性相关关系。下面用最小二乘法确定其中的未知参数◎斑,纭…心.设对于变量乩鼻…的任意一组实数值(珂忑,…,心),随机变量则盯在第k次试验中的观测值由消元法得方程组记矩阵'=(如)曲税,贝U当行列式|£|H°时,由后m个方程可唯一地确定坑叽,从而求得左=y~^i~^2-…_虬兀因此,多元线性回归方程为步=住+坊總+爲乜+■■■+第為多元线性回归的方差分析与一元线性回归分析一样,在求多元线性回归方程之前,必须先进行吓与乩鼻…,.之间线性相关的显著性检验。在此仅利用多元线性回归的方差分析,检验原假设H^ibl=b2="'=b^=°是否成立.考虑观测值戸入的离差平方和考虑观测值戸入的离差平方和它反映了观测值乃必,…必总的分散程度,且21=工(兔-刃'+工以-兔尸+2工(兔-刃(兀-兔)上=1上=1上=1工仇-刃以-兔)=0其中不难证明丘=1氐=f仇~y}2且丘=i反映了由盯与乩®:鼻之间线性相关关系引起的回归值期「「耳的分散程度,称为回归平方和.G=工以-A)2E=工仏-*~b\x\k一…一九%),E称为剩余平方和,它是丘=1的最小值,反映了观测值乃,出,…,齐偏离回归直线的程度,这种偏离是由乩鼻…,篇2对77的线性影响之外的随机因素引起的。若原假设丹。正确,则有2(2)2(2)(1)(1)戸_吐加且心与鳩相互独立,所以,统计量服从自由度为-険-1)的F分布.由于心体现了帀与乩鼻…之间线性相关的程度,因此,若并与乩鼻…之间的线性相关关系显著,则丘的值较大,从而统计量F的值也较大;反之,若盯与気邑…疋机之间的线性相关关系不显著,则F的值较小。所以,对于给定的显著水平氏,确定临界值码(咙川一欣T),则⑴若F<F^5(m^-m-X),则接受原假设坯,认为叶与乩鼻L之间的线性相关关系不显著;⑵若尽小屜找-m-1),则拒绝原假设坯,可以认为吓与乩鼻…,篇2之间的线性相关关系显著;⑶若,则可以认为叶与乩鼻…,.之间的线性相关关系特别显著.在计算町,氐及兀时,注意使用下列公式工&氐-召)3T其中孑为叶的观测值乃必,…必的样本方差;工&氐-召)nmm..工工2?內(恋■吞)(空-兀J丘=12=1J=12=1J=12=1因此有方差分析
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 吴文英《梦窗词》讲解
- 苻坚的前秦霸业
- DB51∕T 3366-2026 发电用燃料电池堆电性能测试规范
- 2026年语文教学方法策略研究报告
- 2026年固定资产规范化管理方案设计
- 2026年奶茶店经营策略与管理
- 2026年安全防范技术未来发展趋势分析
- 2026年实验安全问题及其教学研究
- 2026年导游职业发展初期目标
- 2026年舞蹈专业未来规划书
- 大运河的课件
- 连翘课件的介绍
- DB31∕T 1462-2024 健身教练服务能力要求
- 2025年高考真题-化学(湖南卷) 含答案
- 上海市华东师大二附中2025年高二下化学期末调研试题含解析
- 工程力学(本)2024国开机考答案
- 中国传统射箭课件
- 屠宰企业仓库管理制度
- 山财综招试题及答案
- T-CHAS 10-4-14-2021 中国医院质量安全管理 第 4-14 部分:医疗管理 应急管理
- 架子管出租协议书范本
评论
0/150
提交评论