




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、 一元线性回归一元线性回归线性回归线性回归 多元线性回归多元线性回归 回归分析的基本思想和方法以及回归分析的基本思想和方法以及“回归回归(Regression)”名称是名称是由英国统计学家由英国统计学家F.Galton(18221911年年)和他作为现代统计和他作为现代统计学的奠基者之一的学生学的奠基者之一的学生K. Pearson(18561936年年)提出的。提出的。他们在研究父母身高与其子女身高的遗传问题时,观察了他们在研究父母身高与其子女身高的遗传问题时,观察了1078对夫妇,以每对夫妇的平均身高作为解释变量,取他对夫妇,以每对夫妇的平均身高作为解释变量,取他们的一个成年子女的身高作为
2、被解释变量,将结果在平面们的一个成年子女的身高作为被解释变量,将结果在平面直角坐标系上绘成散点图,发现趋势近乎一条直线。直角坐标系上绘成散点图,发现趋势近乎一条直线。计算出回归直线方程为:计算出回归直线方程为:=33.73+0.516。这种趋势及回归方程表明父母身高每增加一个单位时,其这种趋势及回归方程表明父母身高每增加一个单位时,其成年子女的身高也平均增加成年子女的身高也平均增加0.516个单位。个单位。一、一元线性回归一、一元线性回归 1. 变量间的相关关系变量间的相关关系确定性关系确定性关系: 两个变量之间可以用函数两个变量之间可以用函数y=f(x)来描述来描述. 例如例如: 圆的半径圆
3、的半径R和圆的周长和圆的周长L, L=2R,R,对于一个给定对于一个给定 的半径的半径R,R,都有一个确定的周长都有一个确定的周长L L与之对应与之对应. .不确定关系不确定关系: :两个变量之间的关系不能用确定的数学表达式两个变量之间的关系不能用确定的数学表达式 来描述来描述, ,也就是说对于一个给定的也就是说对于一个给定的x x值值, ,不能找到不能找到 唯一确定的唯一确定的y y值与之对应值与之对应. .但两个变量之间存在但两个变量之间存在 着相互依赖的内在联系着相互依赖的内在联系. .例如例如: : 人体内脂肪含量与年龄人体内脂肪含量与年龄 商品的销售量与广告费用商品的销售量与广告费用
4、 粮食产量与施肥量粮食产量与施肥量回归分析就是对相关关系进行定量研究的统计分析方法。回归分析就是对相关关系进行定量研究的统计分析方法。 2.回归直线与回归方程回归直线与回归方程 已知已知(x1,y1), (x2,y2),(xn,Yn)为一组样本观察值为一组样本观察值,其中其中x为为自自变量变量(又称解释变量又称解释变量), y为为因变量因变量(又称被解释变量又称被解释变量). 上述的每一组数据上述的每一组数据,都对应平面坐标系上的一个点都对应平面坐标系上的一个点,描绘出所描绘出所有的点有的点,我们就得到一个我们就得到一个“散点图散点图”.这些样本点并不一定这些样本点并不一定严格地落在一条直线上
5、严格地落在一条直线上,如果这些点都在一条直如果这些点都在一条直线附近线附近,我们就用这条直我们就用这条直线来拟合所有的散点线来拟合所有的散点(xi,yi)(i=1,2,n), 这条这条直线称为直线称为“回归直线回归直线”. 回归直线的方程为回归直线的方程为: y=a+bx其中其中a和和b为常数为常数,前者为前者为回归方程的回归方程的截距截距,后者为后者为回归方程的回归方程的斜率斜率.当变量当变量x取取xi时,可以得到时,可以得到i=a+bxi (i=1,2,n)它与实际收集到的它与实际收集到的yi之间之间的偏差是的偏差是:yi-i=yi-(a+bxi)实际上,求回归方程的关键实际上,求回归方程
6、的关键是如何用数学的方法来刻画是如何用数学的方法来刻画“从整体上看,各点与此直线从整体上看,各点与此直线的距离最小的距离最小”.这样,用这样,用n个偏差的和来刻画个偏差的和来刻画“各点与此直线的整体偏差各点与此直线的整体偏差”是比是比较合适的较合适的这样,问题就归结为这样,问题就归结为: 当当a,b取什么值时最小,即总体偏取什么值时最小,即总体偏差最小据数学上差最小据数学上最小二乘法最小二乘法的运算,的运算,a,b的值由下式给出的值由下式给出:由于由于(yi-i)可正可负,为了避免相互抵消,可以考虑用可正可负,为了避免相互抵消,可以考虑用 |yi-i|来代替,但由于它含有绝对值,运算不太方便,
7、来代替,但由于它含有绝对值,运算不太方便,所以改用所以改用 Q=(y1-bx1-a)2+(y2-bx2-a)2+(yn-bxn-a)2来刻画来刻画n个点与回归直线在整体上的偏差个点与回归直线在整体上的偏差i=1n年份年份家庭收入家庭收入旅游支出旅游支出年份年份家庭收入家庭收入旅游支出旅游支出1994199519961997199821518.829662.338520.846279.853407.51023.51375.71638.42112.72391.2199920002001200259621.864332.473762.486910.62831.93175.53522.43878.41
8、9942002年中国家庭年均收入和旅游支出年中国家庭年均收入和旅游支出 案例案例:xyx2y2xy21518.829662.338520.846279.853407.559621.864332.473762.486910.61023.51375.71638.42112.72391.22831.93175.53522.43878.4463058753.4879852041.31483852033214181988828523610563554639793413865769054408916547553452392104755218925502684355446350157178378019658
9、10083800124073021504198722024491.840806426.163112478.797775333.5127708014168840143.5204287536.2259820677.8337074071 474015.421949.728508585300613585421321449173最小二乘法计算表最小二乘法计算表:n=9, 计算得计算得: X=52668.38, Y=2438.856, a= -19.8316, b=0.046682回归方程为回归方程为: y=-19.8316+0.046682x8000700060005000400030002000100
10、01002003004005006007008009000旅游总拟合直GDP(亿元)收入(亿元)线福建省旅游与国民经济发展回归分析福建省旅游与国民经济发展回归分析 资料来源:杨建明福建省旅游与国民经济发展相关分析经济地理,资料来源:杨建明福建省旅游与国民经济发展相关分析经济地理,2008,28(增刊):(增刊):154-160 图图4-1 海南旅游总收入与地区生产总值线性相关图海南旅游总收入与地区生产总值线性相关图丁卡丽丁卡丽. 浅析海南省旅游业与经济发展的关系浅析海南省旅游业与经济发展的关系. 04级毕业论文级毕业论文. 3. 回归模型的显著性检验回归模型的显著性检验 (1) R检验法检验法
11、 其中其中: R为样本相关系数为样本相关系数; n为样本容量为样本容量; SSyy为为 总离差平方和总离差平方和 可以证明,可以证明,|R|1|R|越大,变量越大,变量y与与x线性关系越显著线性关系越显著当当|=1时,变量时,变量y与与x完全线性相关,即所有的完全线性相关,即所有的样本点样本点(xi,yi)都落在拟合直线上都落在拟合直线上 当当|=0时,变量时,变量y与与x无相关关系无相关关系.在给定的显著水平在给定的显著水平下,可以查相关系数临界值表下,可以查相关系数临界值表,得到得到临界值临界值(n-2),与计算出的与计算出的|的值相比较的值相比较若若|R(n-2),则线性回归方程线性相关
12、性显著则线性回归方程线性相关性显著;若若|R(n-2),所以,所以,y与与x的线性关系显著。的线性关系显著。 (2) R2检验法检验法 R2= SSR/SST SST=SSE+SSR 其中,其中,R2为拟合优度系数为拟合优度系数(决定系数决定系数),表示被解释变量表示被解释变量y的的方差中能被解释变量方差中能被解释变量x做出说明部分的比例做出说明部分的比例SSR为回归平方和,指在总离差中,由解释变量为回归平方和,指在总离差中,由解释变量x可以说可以说明的部分明的部分SSR=b2SSxx SSE为残差平方和为残差平方和,是指在总离差中,由随机因素所引起的是指在总离差中,由随机因素所引起的误差误差
13、 SST为总离差平方和为总离差平方和 SST=SSyy 当当R2=0时,说明时,说明x完全不能解释完全不能解释y的方差,即的方差,即x与与y不存在不存在相关关系相关关系 当当R2=1时时,说明说明y的方差完全是由的方差完全是由x造成的造成的, x与与y完全相关完全相关 上例中,上例中,R R2 2 = SSR/SST=b= SSR/SST=b2 2SSSSxxxx/SS/SSyy yy =0.893088=0.893088 (b=1.68, SSxx=2.215, SSyy=7)说明说明y的方差中有的方差中有89%是由是由x造成的,即造成的,即y与与x相关关系显著相关关系显著 Se= SSEn
14、-2Se称为称为“估计标准误差估计标准误差”,是总体标准差,是总体标准差的一个样本估计的一个样本估计(3) 标准差检验法标准差检验法在正态分布中,若随机变量在正态分布中,若随机变量(,2),则有则有P(- X +) 68% P(-2 X +2) 95% P(-3 X F(1,n-2),则拒绝则拒绝H0,即即y与与x的线性关系显著的线性关系显著; 若若F F0.05(1,5)拒绝拒绝H0,即即y与与x的线性关系显著的线性关系显著SSRSSE/n-2= 42.49236(2) t 检验法检验法检验步骤如下检验步骤如下: (a) 提出假设提出假设H0: b=0, H1: b0 (b) 选取统计量并计
15、算其值选取统计量并计算其值 (c) 对给定的显著水平对给定的显著水平,查,查t分布表,得临界分布表,得临界 (d)比较比较t与与 t , 做出判断做出判断若若tt (n-2),则拒绝则拒绝H0,即即y与与x的线性关系显著的线性关系显著; 若若t t =2.571 拒绝拒绝H0,即即y与与x的线性关系显著的线性关系显著 t (n-2)2值值t (n-2)2SSESSnbtxx)2( 年份年份家庭收入家庭收入旅游支出旅游支出年份年份家庭收入家庭收入旅游支出旅游支出1994199519961997199821518.829662.338520.846279.853407.51023.51375.71
16、638.42112.72391.2199920002001200259621.864332.473762.486910.62831.93175.53522.43878.419942002年中国家庭年均收入和旅游支出年中国家庭年均收入和旅游支出案例案例:5. 利用利用EXCEL软件进行回归分析及相关性分析软件进行回归分析及相关性分析利用利用EXCEL软件进行回归分析及相关性分析软件进行回归分析及相关性分析第一步第一步: 原始数据输入原始数据输入打开打开EXCEL软件,在软件,在A3B3C3单元格中输入单元格中输入“编号编号” “X” “Y”, 然后将原始数据输入到相应的单元格中然后将原始数据输入
17、到相应的单元格中第二步第二步: 制作散点图制作散点图选取选取4:12单元格区域,单击单元格区域,单击“图表向导图表向导”按钮,点按钮,点击击“标准标准类型类型”,在弹出的对话框中的在弹出的对话框中的“图表类型图表类型”栏选栏选“ 散点图散点图” “子图子图表类型表类型”选选“散点图比较成对的数值散点图比较成对的数值”,然后点击,然后点击“下一步下一步”此时数据区域已自动生成,再点击此时数据区域已自动生成,再点击“下一步下一步”. 在弹出的对话框在弹出的对话框中点击中点击“标题标题”,在在“图表标题图表标题”输入框中输入输入框中输入“家庭收入与旅游支家庭收入与旅游支出的散点图出的散点图”,在在“
18、 数值数值(x)轴轴”输入框中输入输入框中输入“ 家庭收入家庭收入”,在,在数数值值(Y)轴轴”输入框中输入输入框中输入“旅游支出旅游支出”点击点击“图例图例”,删去,删去“显示图显示图例例”之打勾最后点击之打勾最后点击“完成完成”按钮,按钮,即可生成相应的散点图即可生成相应的散点图案例案例:第三步第三步: 制作相关分析结果制作相关分析结果在在E4:E9单元格中分别输入单元格中分别输入“Pearson相关相关系数系数” “自由度自由度” “tr值值” “P值值(双侧双侧) “检验水准检验水准” “t临界值临界值”,然后,然后在在F4单元格中输入单元格中输入“=CORREL(B4:B32000,
19、C4:32000)” (32000是二维是二维图表中数据点个数的最大值图表中数据点个数的最大值)在在F5单元格中输入单元格中输入“=COUNT(B:B)-2”,在在F6单元格中输入单元格中输入“=F4/SQRT(1-F42)/F5)”, 在在F7单元格中输入单元格中输入“=TDIST(ABS(F6),F5,2)”,在在F8单元格中输入单元格中输入“0.05”,在在F9单元格中输入单元格中输入“=TINV(F8,F5).第四步第四步: 制作回归分析结果制作回归分析结果在在G4:G9单元格中分别输入单元格中分别输入“截距截距a” “回归系数回归系数b” “剩余标准差剩余标准差Sx,y” “决定系数
20、决定系数R2” “Sb” “tb值值”,然后,然后在在H4单元格输入单元格输入 “=INTERCEPT(C4:C32000, B4:B32000)”在在H5单元格输入单元格输入 “=SLOPE(C4:C32000,B4:B32000)”在在H6单元格输单元格输 “=STEYX(C4:C32000,B4:B32000)”在在H7单元格输入单元格输入“= RSQ(C4:C32000,B4:B32000)在在H8单元格输入单元格输入“=H6/(DEVSQ(B4:B32000)0.5”在在H9单元格输入单元格输入“=H5/H8第五步第五步: 结果分析结果分析 相关分析得到相关分析得到Pearson系数
21、为系数为0.993244023,说明家庭,说明家庭收入与旅游支出之间有很大的相关性收入与旅游支出之间有很大的相关性 经检验经检验tr=22.64543458,相应的相应的P=8.29067E-080.05,说明该相关系数具有统计学意义说明该相关系数具有统计学意义 决定系数决定系数R2=0.986534接近接近1,说明回归的效果比较好,说明回归的效果比较好, 剩余标准差剩余标准差Sx,y=122.7033,数值比较大,说明回归模数值比较大,说明回归模型估计精度较低型估计精度较低第六步第六步: 建立回归方程建立回归方程将截距将截距a和斜率和斜率b代入回归方程代入回归方程Y=a+bX得得: Y=-1
22、9.833+0.046682X案例案例: 个家庭的年收入与支出的数据如下个家庭的年收入与支出的数据如下(单位单位:万元万元)收入收入X: 3.3, 3.45, 3.65, 4.05, 4.45, 4.90, 4.55支出支出Y: 1.5, 2.0, 2.5, 3.0, 3.5, 4.0, 4.5试写出关于的一元线性回归方程,并判断在显试写出关于的一元线性回归方程,并判断在显著水平著水平=0.05下下,y与与x的线性关系是的线性关系是否显著否显著案例案例2:第一步第一步: 输入原始数据输入原始数据 打开打开EXCEL软件,将原始数据输入各相应的单元格中软件,将原始数据输入各相应的单元格中第二步第
23、二步: 进行线性回归分析进行线性回归分析 单击菜单中的单击菜单中的“工具工具 数据分析数据分析 回归回归”,在,在“回归回归” 对话框中的对话框中的“Y值输入区域值输入区域”输入输入“C4:C10”, 在在“X值输值输 入区域入区域”输入输入“B4:B10”,在在“输出区域输出区域”选取单元格选取单元格A12, 并单击并单击“确定确定”按钮,既获得一元线性回归分析结果按钮,既获得一元线性回归分析结果第三步第三步: 结果分析结果分析相关分析得到相关分析得到Pearson系数为系数为0.945998,说明家庭,说明家庭 收入与支出之间有很大的相关性收入与支出之间有很大的相关性 经检验经检验tr=6
24、.525304,相应的相应的P=0.001264F0.05(5,10) =3.33方差分析的结果也表明回归方程高度显著,即自变量全体对方差分析的结果也表明回归方程高度显著,即自变量全体对因变量因变量y的影响显著的影响显著. 2. 对自变量个体的显著性检验对自变量个体的显著性检验 实际上,回归方程显著,并不意味每个自变量实际上,回归方程显著,并不意味每个自变量(解释变解释变量量)xi对因变量对因变量(被解释变量被解释变量)y的影响都显著,还需要对每个自的影响都显著,还需要对每个自变量都进行显著性检验根据检验结果,从回归方程中剔除变量都进行显著性检验根据检验结果,从回归方程中剔除那些无关紧要的那些
25、无关紧要的可有可无的变量,然后建立更为简单的回可有可无的变量,然后建立更为简单的回归方程归方程 一般可用一般可用F检验法剔除检验法剔除F值较小的变量。如果同时有多个值较小的变量。如果同时有多个变量影响不显著,不能一次都剔除,每次只能剔除一个变量。变量影响不显著,不能一次都剔除,每次只能剔除一个变量。 但由于但由于F检验法要用手工计算,比较复杂。最简单的方检验法要用手工计算,比较复杂。最简单的方法是将法是将| t |值中最小的一个变量剔除,建立新的回归方程,再值中最小的一个变量剔除,建立新的回归方程,再对新的回归方程进行显著性检验,如果还有不显著的变量再对新的回归方程进行显著性检验,如果还有不显
26、著的变量再剔除,直到保留的自变量对因变量的影响都显著为止。剔除,直到保留的自变量对因变量的影响都显著为止。 在上例中,在上例中,x3的的| t |=0.666625,最小最小,可以剔除可以剔除。年份年份yx1x2x4x51978197919801981198219831984198519861987198819891990199119921993231298343401445391554744997131014421283166021782886338330103350368839414258473656527020785993131173813176143841655720223248821
27、88821952531279930543358390548795552638680389005966310969129851594914.8916.0019.5321.8223.2722.9126.0227.7232.4338.9137.3847.1950.6855.9183.6696.08180.92420.39570.25776.71792.43947.701285.221783.302281.952690.233169.482450.142746.203335.653311.504152.70民航客运量的有关数据民航客运量的有关数据(去掉去掉3)计算步骤计算步骤: 第一步第一步:输入原始
28、数据输入原始数据 打开打开EXCEL软件,输入有关统计数据软件,输入有关统计数据第二步第二步: 进行线性回归分析进行线性回归分析 单击菜单中的单击菜单中的“工具工具 数据分析回归数据分析回归”,在,在 “回归回归”对话框中的对话框中的“Y值输入区域值输入区域”输入输入“B2:B17”, 在在“X值输入区域值输入区域”输入输入“C2:F17“ ,在在“输出区域输出区域” 选取单元格选取单元格A19,单击单击“确定确定”按钮按钮. 即获得多元线性回归分析结果即获得多元线性回归分析结果 案例案例4:新的回归方程为新的回归方程为:Y= -152.985+0.514703X1-0.76209X2+15.
29、70465X4+0.349221X53. 多元回归中的虚拟变量多元回归中的虚拟变量在调查问卷中的二项式问题,只有用在调查问卷中的二项式问题,只有用“是是” 或或“否否”, “有有”或或“无无”等肯定或否定的答案来回答等肯定或否定的答案来回答. 在多元回归分析中对此类答案在多元回归分析中对此类答案通常用通常用0和和1予以赋值,由于予以赋值,由于0和和1只是它们的假设值,因而称只是它们的假设值,因而称这种变量为虚拟变量这种变量为虚拟变量虚拟变量在多元回归分析中通常可以提供有价值的信息,如虚拟变量在多元回归分析中通常可以提供有价值的信息,如果能够恰当地为其赋值,虚拟变量也可以作为回归模型中的果能够恰当地为其赋值,虚拟变量也可以作为回归模型中的解释变量解释变量案例案例: 从某行业的大量工人中随机抽取从某行业的大量工人中随机抽取15个作为样本,把这些工人个作为样本,把这些工人的学历的学历“是大专以上学历是大专以上学历”赋值为赋值为1,“不是大专以上学历不是大专以上学历”赋值赋值为为0. 试以学历和工龄为自变
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025授权许可合同范本
- 2025年订购户外全彩LED电子显示屏委托制作合同
- 《钢结构设计原则》课件
- 《深入了解性传播疾病》课件
- 《深入探索中医养生》课件
- 小升初-语文基础卷06
- 天津市部分区2025届高三下学期3月一模试题 政治 含解析
- (二统)曲靖市2024-2025学年高三年级第二次教学质量监测政治试卷(含答案)
- 2025年内江道路货物运输驾驶员考试
- 沈阳工业大学《内耳前庭功能评估与康复》2023-2024学年第一学期期末试卷
- 彩色手绘卡通儿科小儿护理高热惊厥健康宣教教案PPT课件讲义
- 食品添加剂、食品污染物的本底与转化来源
- DB43∕T 498-2009 博落回叶-行业标准
- 大庆油田第五采油厂杏四聚联合站工程转油放水站二期工程施工组织设计
- 心力衰竭病人的护理查房pptppt(ppt)课件
- 大年初一没下雪 短文小说
- 中小学生守则ppt课件(18页PPT)
- 应急物资领用(返还)登记表
- 二次函数的应用——桥洞问题
- 工资表模板(自动生成工资条)
- 《天然高分子》PPT课件.ppt
评论
0/150
提交评论