[优秀]统计PPT统原PP第八章相关分析(下)_第1页
[优秀]统计PPT统原PP第八章相关分析(下)_第2页
[优秀]统计PPT统原PP第八章相关分析(下)_第3页
[优秀]统计PPT统原PP第八章相关分析(下)_第4页
[优秀]统计PPT统原PP第八章相关分析(下)_第5页
已阅读5页,还剩43页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1第三节 简单直线回归分析 英人英人 遗传学遗传学 高尔顿高尔顿 学生学生 皮尔逊皮尔逊 简单线性回归分析:简单线性回归分析:是对两个具有线性关系的变量是对两个具有线性关系的变量,研,研究其相关性,究其相关性,配合线性回归方程配合线性回归方程,并根据自变量的变动,并根据自变量的变动来推算和预测因变量来推算和预测因变量平均平均发展趋势发展趋势的方法。的方法。 一、回归分析的概念一、回归分析的概念 “回归回归”一词是由英国生物学家高尔顿在研究人体身高一词是由英国生物学家高尔顿在研究人体身高的遗传问题时首先提出的。根据遗传学的观点:父母身的遗传问题时首先提出的。根据遗传学的观点:父母身材高的,其子女

2、一般也较高,父母身材矮的,其子女身材高的,其子女一般也较高,父母身材矮的,其子女身材也较矮。依此推论,祖祖辈辈遗传下来,身高必然向材也较矮。依此推论,祖祖辈辈遗传下来,身高必然向两极分化,而事实上并非如此。同样身高的父亲,其子两极分化,而事实上并非如此。同样身高的父亲,其子女身高并不一致。女身高并不一致。身材很高的子女往往是由身材中等偏身材很高的子女往往是由身材中等偏上的父母所生,父母身材矮的其子女一般也较矮,但平上的父母所生,父母身材矮的其子女一般也较矮,但平均起来并不是特别矮。均起来并不是特别矮。把这种人的身高把这种人的身高趋向人的平均高趋向人的平均高度度的现象称作回归。的现象称作回归。2

3、 回归分析:通过一个变量或一些变量的变化回归分析:通过一个变量或一些变量的变化解释另一变量的变化。解释另一变量的变化。设法找出合适的数学方设法找出合适的数学方程式(即回归模型)程式(即回归模型)描述变量间的关系描述变量间的关系 回归的种类回归的种类 回归回归按照自变量的个数按照自变量的个数划分为划分为一元回归和多元一元回归和多元回归回归。只有一个自变量的回归叫一元回归,有。只有一个自变量的回归叫一元回归,有两个或两个以上自变量的回归叫多元回归。两个或两个以上自变量的回归叫多元回归。 按照回归曲线的形态划分,有线性(直线)回按照回归曲线的形态划分,有线性(直线)回归和非线性(曲线)回归。归和非线

4、性(曲线)回归。 实际分析时应根据客观现象的性质、特点、研实际分析时应根据客观现象的性质、特点、研究目的和任务选取回归分析的方法。究目的和任务选取回归分析的方法。3 二、相关分析与回归分析的关系二、相关分析与回归分析的关系 (一)相关分析与回归分析的联系(一)相关分析与回归分析的联系 相关分析是回归分析的相关分析是回归分析的基础和前提基础和前提,回归分析则是相,回归分析则是相关分析的关分析的深入和继续深入和继续。只有当变量之间存在。只有当变量之间存在高度相关高度相关时时,进行回归分析寻求其相关的具体形式,进行回归分析寻求其相关的具体形式才有意义才有意义。如果在如果在没有对变量没有对变量之间之间

5、是否相关以及相关方向和程度是否相关以及相关方向和程度做出正确判断之前做出正确判断之前,就进行回归分析,很,就进行回归分析,很容易造成容易造成“虚假回归虚假回归”。 相关分析需要依靠回归分析来表现变量之间数量相关相关分析需要依靠回归分析来表现变量之间数量相关的的具体形式具体形式,而回归分析则需要依靠相关分析,而回归分析则需要依靠相关分析来表现来表现变量之间数量变化的变量之间数量变化的相关程度相关程度。 与此同时,相关分析只研究变量之间相关的方向和程与此同时,相关分析只研究变量之间相关的方向和程度,度,不能推断变量之间相互关系的具体形式不能推断变量之间相互关系的具体形式,也无法也无法从一个变量的变

6、化来推测另一个变量的变化情况从一个变量的变化来推测另一个变量的变化情况,因,因此,在具体应用过程中,此,在具体应用过程中,只有把相关分析和回归分析只有把相关分析和回归分析结合起来结合起来,才能达到研究和分析的目的。,才能达到研究和分析的目的。4 (二)相关分析与回归分析的区别二)相关分析与回归分析的区别 1相关分析相关分析中涉及的变量中涉及的变量不存在自变量和因变量的划分问题不存在自变量和因变量的划分问题,变量之间的关系是对等的变量之间的关系是对等的;而在;而在回归分析中回归分析中,则必须根据研究,则必须根据研究对象的性质和研究分析的目的,对象的性质和研究分析的目的,对变量进行自变量和因变量的

7、对变量进行自变量和因变量的划分划分。因此,在回归分析中,变量之间的关系是。因此,在回归分析中,变量之间的关系是不对等的不对等的。 2在相关分析中在相关分析中所有的变量都必须是随机变量所有的变量都必须是随机变量;而在回归分析;而在回归分析中,中,自变量是确定的,因变量才是随机的自变量是确定的,因变量才是随机的,即将自变量的给定,即将自变量的给定值代入回归方程后,所得到的值代入回归方程后,所得到的因变量的估计值不是唯一确定的因变量的估计值不是唯一确定的,而会表现出一定的随机波动性。而会表现出一定的随机波动性。 3相关分析主要是通过相关分析主要是通过一个指标即相关系数一个指标即相关系数来反映来反映变

8、量之间相变量之间相关程度的大小,关程度的大小,由于变量之间是对等的由于变量之间是对等的,因此,因此相关系数是唯一相关系数是唯一确定的。确定的。而而在回归分析中,对于互为因果的两个变量在回归分析中,对于互为因果的两个变量 (如人的身如人的身高与体重,商品的价格与需求量高与体重,商品的价格与需求量),则有可能存在多个回归方程则有可能存在多个回归方程。 需要指出的是,变量之间是否存在需要指出的是,变量之间是否存在“真实相关真实相关”,是由变量之,是由变量之间的间的内在联系所决定的内在联系所决定的。回归分析只是。回归分析只是定量分析的手段定量分析的手段,通过,通过回归分析,虽然可以从数量上反映变量之间

9、的联系形式及其密回归分析,虽然可以从数量上反映变量之间的联系形式及其密切程度,但是无法准确判断变量之间切程度,但是无法准确判断变量之间内在联系的存在与否内在联系的存在与否,也,也无法判断变量之间的因果关系。因此,在具体应用过程中,一无法判断变量之间的因果关系。因此,在具体应用过程中,一定要注意把定要注意把定性分析和定量分析定性分析和定量分析结合起来,结合起来,在定性分析的基础在定性分析的基础上展开定量分析。上展开定量分析。5三、简单线性回归分析三、简单线性回归分析(一元一次回归一元一次回归)对于具有线性因果关系的两个变量,由于有随机因素的干扰,两变量的线性对于具有线性因果关系的两个变量,由于有

10、随机因素的干扰,两变量的线性关系中应包括随机误差项,即有:关系中应包括随机误差项,即有:对于某一确定的值,其对应的值虽有波动,但在对于某一确定的值,其对应的值虽有波动,但在大量观察中随机误差的期望大量观察中随机误差的期望值为零值为零,因而从平均意义上说,总体线性回归方程为:,因而从平均意义上说,总体线性回归方程为: 回归方程的基本形式回归方程的基本形式 y c=a+bx a、b为待定参数为待定参数 1、最小平方法、最小平方法理论要点:观察值理论要点:观察值y与回归估计值与回归估计值yc离差平方和最小。离差平方和最小。系数方程组为:系数方程组为:min2cyy22bxayyyqc令02012xb

11、xaybqbxayaq00 xbxaybxay2xbxaxyxbnay 222222xxyxxyxxyxxnyxxynbxbyaubxay6最小平方法回归分析步骤最小平方法回归分析步骤 求解方程组得:求解方程组得:回归方程为:回归方程为:预测农业总费用达预测农业总费用达10万元时万元时的农业总收入:的农业总收入:xy2xyxbaba68.3876647.144566137 .24577. 325. 0baxyc77. 325. 045.371077. 325. 010y2xbxaxyxbnay据资料计算据资料计算 代入方程组,求解代入方程组,求解a和和b 写出回归方程式,进行估计写出回归方程式

12、,进行估计举例:将右表资料代入方程组:举例:将右表资料代入方程组:72、部分平均法、部分平均法 理论要点:将资料分成两部分,每部分离差之和皆为理论要点:将资料分成两部分,每部分离差之和皆为0。 直线经过平均数和前后平均数三点。直线经过平均数和前后平均数三点。求解系数方程组为:求解系数方程组为:代入方程组得代入方程组得(中间中间7项没取项没取): 解方程组得:解方程组得: 回归方程为:回归方程为:预测农业总费用预测农业总费用10万元时的农业总收入万元时的农业总收入后前00ccyyyy后后前前xbanyxbany22序号序号农业总费农业总费用用 x(万元万元)农业总收农业总收入入y(万元万元)12

13、.06.322.510.233.09.843.411.553.813.064.618.474.719.285.822.296.221.9106.424.7117.325.0128.129.1138.232.6合计合计66.0245.7baba4265 .1553 .1962 .698 . 369. 0baxyc8 . 369. 031.37108 . 369. 010y8简单线性回归练习 某地居民收入和消费资料如右表所示。某地居民收入和消费资料如右表所示。 确定回归方程确定回归方程 估计收入达估计收入达2000元时的人均饮食消费水平。元时的人均饮食消费水平。 计算相关系数计算相关系数 解:饮食

14、消费解:饮食消费 r=0.955收入水平收入水平(元元)人口数人口数饮食消费饮食消费(元元)400以下以下50220400-800200450800-12004006001200-16002007001600以上以上150750合合 计计1000 xyc289. 09 .2808 .8592000y9提示2xbxaxyxbnay.)50*200()200*60050*200(.)50*220*200()200*60050*200(.)20050(.)200*45050*220(2babaxxxyxyfxbxfaxyfxfbnafy2收入水平收入水平(元元)人口数人口数饮食消费饮食消费(元元)4

15、00以下以下50220400-800200450800-12004006001200-16002007001600以上以上150750合合 计计1000 102222yynxxnyxxynr 加权相关系数加权相关系数 用于分组资料用于分组资料 fyyfxxfyyxxr22)()()(2222yyxxyxxyyffynxffxnyfxfxyfnr未分组资料相关系数未分组资料相关系数11提示:先计算先计算x,y加权算术平均数加权算术平均数yxfyyfxxfyyxxr22.50220.50200.5022020022yxyxr收入水平收入水平(元元)人口数人口数饮食消费饮食消费(元元)400以下以下

16、50220400-800200450800-12004006001200-16002007001600以上以上150750合合 计计1000 12 加权相关系数加权相关系数 用于分组资料用于分组资料 222.50*220.)50*220(1000.50*200.)50*200*200(1000.)50*250(.)50*200(.)50*220*200(1000r2222yyxxyxxyyffynxffxnyfxfxyfnr收入水平收入水平(元元)人口数人口数饮食消费饮食消费(元元)400以下以下50220400-800200450800-12004006001200-160020070016

17、00以上以上150750合合 计计1000 13 114回归估计标准误差回归估计标准误差 回归方程的一个重要作用在于回归方程的一个重要作用在于根据自变量的已知值根据自变量的已知值估估计因变量的计因变量的理论值(估计值)。理论值(估计值)。而而理论值与实际值存理论值与实际值存在着差距在着差距,这就产生了推算结果的准确性问题。如果,这就产生了推算结果的准确性问题。如果差距小差距小,说明估计,说明估计回归方程的精确度较高回归方程的精确度较高;反之则低。;反之则低。为此,分析理论值与实际值的差距很有意义。为了度为此,分析理论值与实际值的差距很有意义。为了度量的实际水平和估计值离差的一般水平,可计算估计

18、量的实际水平和估计值离差的一般水平,可计算估计标准误差。标准误差。估计标准误差是衡量回归直线代表性大小估计标准误差是衡量回归直线代表性大小的统计分析指标的统计分析指标,它说明观察值围绕着回归直线的变,它说明观察值围绕着回归直线的变化程度或分散程度。化程度或分散程度。 (一)估计标准误差的计算(一)估计标准误差的计算 通常用代表估计标准误差,其计算公式为(两个待定通常用代表估计标准误差,其计算公式为(两个待定系数,自由度减少系数,自由度减少2)2)(2nyyse15 回归估计标准差与一般标准差回归估计标准差与一般标准差 回归估计标准差与前面介绍的标准差的计算原回归估计标准差与前面介绍的标准差的计

19、算原理是一致的,理是一致的,两者都是反映平均差异程度和代两者都是反映平均差异程度和代表性的指标表性的指标。一般标准差反映的是各变量值与。一般标准差反映的是各变量值与其平均数的平均差异程度,表明其平均数对各其平均数的平均差异程度,表明其平均数对各变量值的代表性强弱;变量值的代表性强弱; 回归标准误差回归标准误差反映的是因变量各实际值与其估反映的是因变量各实际值与其估计值之间的平均差异程度计值之间的平均差异程度,表明其估计值对各,表明其估计值对各实际值的代表性强弱,其值越小,估计值(或实际值的代表性强弱,其值越小,估计值(或回归方程)的代表性越强回归方程)的代表性越强,用回归方程估计或,用回归方程

20、估计或预测的结果越准确。预测的结果越准确。16二、复线性回归二、复线性回归 一个因变量和多个自变量之间的线性回归。一个因变量和多个自变量之间的线性回归。 回归标准形式为:回归标准形式为: 系数方程组为:系数方程组为: 如二元线性回归如二元线性回归 系数方程组为:系数方程组为:ppcxaxaxaay221102221102222211202121221110122110ppppppppppppxaxxaxxaxayxxxaxaxxaxayxxxaxxaxaxayxxaxaxanay22110 xaxaayc22221120221221110122110 xaxxaxayxxxaxaxayxxax

21、anay17二元线性回归举例二元线性回归举例 某地区某地区10个农民家庭人均月收入个农民家庭人均月收入(x1)、人均月食品、人均月食品消费消费(x2)和人均月储蓄额和人均月储蓄额(y) 的回归计算。的回归计算。 代入方程组得:代入方程组得: 解方程组得:解方程组得: 二元线性回归方程为二元线性回归方程为 yc=2.07+0.22x10.08x2回归系数的涵义回归系数的涵义。 序号序号人均月人均月收入收入xl(元元) 人均月人均月食食品消费品消费x2(元元) 人均月人均月储储蓄额蓄额y(元元) 122142228193332203436224541255645236751296857347960

22、34910663810合计合计438258552121217192122972581594122972110043827482584381055bbabbabba08.022.007.221bba22221120221221110122110 xaxxaxayxxxaxaxayxxaxanay18第四节第四节 曲线回归和相关曲线回归和相关 一、二次抛物线回归一、二次抛物线回归 当自变量当自变量x增加时,因变量增加时,因变量y呈先增后减的相关情形。呈先增后减的相关情形。 标准方程:标准方程: 最小平方法系数方程组:最小平方法系数方程组: 部分平均法系数方程组:部分平均法系数方程组:2cxbxay

23、c4322322xcxbxayxxcxbxaxyxcxbnay后后后中中中前前前222333xcxbanyxcxbanyxcxbany19抛物线回归练习抛物线回归练习 为以下资料配合抛物线为以下资料配合抛物线方程方程4322322xcxbxayxxcxbxaxyxcxbnay施肥量施肥量x(kg) 亩产量亩产量y(kg)x2x3x4xyx2y5032560370704058043090445100450110445后后后中中中前前前222333xcxbanyxcxbanyxcxbany20二、指数曲线回归二、指数曲线回归(等差,等比等差,等比) 标准方程:标准方程: a.0 b0 两端取对数两

24、端取对数(线性化线性化) 令令 原方程线性化为原方程线性化为 系数方程组系数方程组 解方程组求解方程组求a、b,查反对数得,查反对数得xcaby bxayclglglgyylgaalgbblgbxay2xbxaxyxbnayaa1lgbb1lg21三幂函数曲线三幂函数曲线(等比,等比等比,等比) 在经济学中就是著名的柯贝在经济学中就是著名的柯贝道格拉斯生产函数曲线。道格拉斯生产函数曲线。 一般形式为:一般形式为: yc = a xb 式中式中,a,b为待定参数,且为待定参数,且a0, b的取值决定曲线的形状。的取值决定曲线的形状。 将此方程线性化只要对方程两边取对数即可得:将此方程线性化只要对

25、方程两边取对数即可得: 令:令: y=lgy, a=lga, x=lgx 则线性化方程为:则线性化方程为: y=a+bx 22四、双曲线四、双曲线 因变量因变量y的初始值很大,当自变量的初始值很大,当自变量x稍有增加时因稍有增加时因变量变量y的取位骤然下降,直至逼近一个常数,就不再随的取位骤然下降,直至逼近一个常数,就不再随自变量的变化而变化(即使有变化,也是很微小的)。自变量的变化而变化(即使有变化,也是很微小的)。 双曲线方程的一般形式为:双曲线方程的一般形式为: 式中,式中, a,b为方程的参数。且为方程的参数。且a0, b0, 双曲线回归方程的线性化:双曲线回归方程的线性化: 令令 有

26、直线方程:有直线方程:y=a+bxxbayc1xxyy1,123五、对数曲线回归模型五、对数曲线回归模型 对数曲线回归模型的表达式为:对数曲线回归模型的表达式为: 若令若令 ,则对数曲线回归模型可化为,则对数曲线回归模型可化为直线回归模型:直线回归模型:lnyabxlnxxyabx24六、曲线回归方程应用举例六、曲线回归方程应用举例 商品需求量与价格资料显示,随着价格的提高,需求商品需求量与价格资料显示,随着价格的提高,需求随之逐渐减少,而这种减少并不是近似均等地减少,而是随之逐渐减少,而这种减少并不是近似均等地减少,而是作近似等比地减少。因此可配合作近似等比地减少。因此可配合指数曲线指数曲线

27、,其回归方程为:,其回归方程为: yc=abx 所求曲线方程为所求曲线方程为 :yc237.5746(0.9824)x序号序号价格价格需求量需求量y123456789101016202429344045495520018216515413913012010810089bxayclglglg25非线性回归分析非线性回归分析非线性类型非线性类型常见的曲线有双曲线、幂函数、指数、对数曲常见的曲线有双曲线、幂函数、指数、对数曲线。线。非线性回归方程的建立非线性回归方程的建立下面主要介绍下面主要介绍指数曲线方程指数曲线方程的建立。的建立。【例【例10.810.8】 某集团公司某集团公司20052005年

28、年112112月份产量及单位月份产量及单位成本资料如下表所示:成本资料如下表所示:26月份月份月产量(吨)月产量(吨)x x单位产品成本(元)单位产品成本(元)1 12 23 34 45 56 67 78 89 91010111112121010161620202525313136364040454551515656606065651601601511511141141281288585919175757676666660606161606027根据上表实际观测值资料,在直角坐标系上作根据上表实际观测值资料,在直角坐标系上作10.710.7的散点图,以确定曲线类型。的散点图,以确定曲线类型。2

29、8从散点图可以看出,随着产量的逐渐增多,单从散点图可以看出,随着产量的逐渐增多,单位产品成本有随之而逐渐降低的趋势,这说明在位产品成本有随之而逐渐降低的趋势,这说明在月产量与单位成本之间存在着一定的依存关系,月产量与单位成本之间存在着一定的依存关系,但单位成本的降低程度并但单位成本的降低程度并不是不是随产量的增加而均随产量的增加而均匀地变化,因此,从散点图实测点的分布趋势看匀地变化,因此,从散点图实测点的分布趋势看出比较接近指数函数图形,适于配合指数函数曲出比较接近指数函数图形,适于配合指数函数曲线:线:xaby (b b0 0)将回归方程的两端取对数,得:将回归方程的两端取对数,得:bxay

30、lglglg,lg,lg, lg,bbaayy若则上述指数方程可以转化为:则上述指数方程可以转化为: xbay 29根据最小平方法原理,及应满足下列标准方程式:根据最小平方法原理,及应满足下列标准方程式:xbany2xbxayx其中:其中: yylg解上式,可以得到解上式,可以得到a a,b b,再根据再根据a a=a a, ,b b=b b的关系式,便可求出的关系式,便可求出a a,b b的值。的值。 例:根据选定的曲线类型,对此进行直线回归分析,例:根据选定的曲线类型,对此进行直线回归分析,如表下表所示:如表下表所示:3031根据表计算可得:标准方程组为:根据表计算可得:标准方程组为:ba

31、4551235271.23ba2082545577153.855解得:解得:26109.2a00831. 0 bxxbay00831.026109.2这是一个直线方程这是一个直线方程, ,将将x x代入上式即可得出代入上式即可得出 的各值。现的各值。现分别计算分别计算a a,b b的反对数的反对数, ,由由a a=a a, ,b b=b b查反对数表查反对数表得:得:a a=182.43,=182.43,b b=0.981,=0.981,于是,配合的指数曲线为:于是,配合的指数曲线为: y xxaby981. 043.182xbany2xbxayx32第五节 excel在相关分析与回归分析中的

32、应用 一、利用一、利用excel计算相关系数计算相关系数 在在excel中,有两种方式可以表达简单相关:中,有两种方式可以表达简单相关:一种是绘制数据的散点图;另一种是计算相一种是绘制数据的散点图;另一种是计算相关系数,下面分别予以介绍。关系数,下面分别予以介绍。 (一)散点图(一)散点图 散点图是用来显示当横轴数据变动时,纵轴散点图是用来显示当横轴数据变动时,纵轴数据的相应变化程度。横轴数据表示自变量,数据的相应变化程度。横轴数据表示自变量,纵轴数据表示因变量。通过散点图可以比较纵轴数据表示因变量。通过散点图可以比较直观的观察到两个数值变量的相关程度。直观的观察到两个数值变量的相关程度。 【

33、例【例9.4】表】表9-6给出了某地区城镇家庭人均可给出了某地区城镇家庭人均可支配收入和家庭人均消费性支出的资料,试支配收入和家庭人均消费性支出的资料,试建立和的散点图。建立和的散点图。33表表9-6 x和和y的数据资料的数据资料 单位:元单位:元34 第一步:执行菜单“插入”“图表”命令,出现如图9-6所示的“图表向导”。 35 第二步:在出现的“源数据”对话框中设置“数据区域”,(数据所在的区域)为“sheet1!b2:k3”,“系列产生在”设置为“行”,如图9-7所示。单击“下一步”继续。图图9-7 “源数据源数据”对话框对话框36 第三步:在出现的“图表选项”对话框中设置图表标题和数值轴,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论