




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第07章 回归分析回归分析与相关分析的区别回归分析中,变量Y称为因变量,处于被解释的地位。而在相关分析中,X与Y处于平等地位;相关分析中,X和Y全是随机变量,而在回归分析中,因变量Y是随机变量,自变量X可以是随机变量,也可以是非随机的。通常回归模型中假定X是非随机的精确变量;相关分析的研究是为了刻画两变量间线性相关的密切程度。而回归分析不仅可以揭示X对Y的影响大小,还可以由回归方程进行预测和控制。2Outline第一节 回归分析的基本原理第二节 一元线性回归分析第三节 多元线性回归分析第四节 路径分析31.相关和回归1.1 散点图 scatter diagram4学习分数和行为分数的关系012
2、345678012345678行为分数学习分数r 0.78*0.78*均值以上均值以上均值以下均值以下均值以上均值以上7 71 1均值以下均值以下2 21010行为分数行为分数学习学习儿童儿童行为行为学习学习快乐快乐1 12 21 12 22 22 22 23 33 32 23 34 44 42 24 45 55 52 24 47 76 63 33 33 37 73 34 45 58 84 42 23 39 94 43 34 410104 44 45 511114 45 56 612125 54 44 413135 55 55 514145 56 66 615156 64 44 416166
3、66 65 517176 66 66 618186 67 77 719197 76 64 420207 77 77 7M ean4.254.254.34.34.754.755快乐分数和行为分数的关系012345678012345678行为分数快乐分数r 0.380.38均值以上均值以上 均值以下均值以下均值以上均值以上6 65 5均值以下均值以下3 36 6行为分数行为分数快乐快乐儿童儿童行为行为学习学习快乐快乐1 12 21 12 22 22 22 23 33 32 23 34 44 42 24 45 55 52 24 47 76 63 33 33 37 73 34 45 58 84 42
4、23 39 94 43 34 410104 44 45 511114 45 56 612125 54 44 413135 55 55 514145 56 66 615156 64 44 416166 66 65 517176 66 66 618186 67 77 719197 76 64 420207 77 77 7M ean4.254.254.34.34.754.751.2 平方和、积矩和、协方差sum of squares sum of products covariance62222cov1 1covXxxXYxyXYXYXXXYXYXSSXXXlNXYSPXXYYXYlNSPNSSSN
5、rS S 第一节 回归分析的基本原理一、回归分析的意义二、回归分析的基本原理三、回归分析的主要内容一、回归分析的意义 regression analysis 回归分析:确定变量之间数量关系的可能形式,并用一个数学模型来表示这种关系形式 它可以从一个变量的变化来预测或估计另一个变量的变化 只有一个自变量的线性回归叫一元线性回归或简单线性回归 寻找一条最佳拟合直线best-fitting line,使得预测值predicted value和观测值observed value之间的误差最小8二、回归分析的基本思想(一)回归分析的数学模型(二)最佳拟合回归线 the regression line10
6、的值)时(截距对应的变化量)变化一个单位时(回归线的斜率的预测值YXaYXbYYbXaY0interceptslope从行为分数预测学习分数012345678012345678行为学习学习预测 学习最佳拟合直线 best-fitting line1120,residualYY-YY-YXYY-最小二乘估计:的直线,对所有经过:残差之间的误差最小目标:预测值和观测值第二节 一元线性回归分析一、一元线性回归的模型及性质二、一元线性回归方程的建立三、一元线性回归方程的有效性检验四、回归方程有效性的指标五、一元线性回归分析的估计与预测二、一元线性回归的数学模型 从X预测YY=0+1X+Y=a+bX+e
7、 Y与X的关系分为两部分 0+1X是由于X的变化引起线性变化的部分; 是全体一切随机因素造成的部分 N(0, s2)13一元线性回归的基本假设 X与Y在总体上具有线性关系 变量X没有测量误差(看成精确变量) (Xi,Yi) 和 (Xj,Yj) 彼此独立; 与某一个Xi值对应的Y值构成变量Y上一个子总体,这样的子总体服从正态分布,且它们的方差相等 i 是Xi对应Y的子总体的平均数的无偏估计14小结15寻找一条最佳拟合直线寻找一条最佳拟合直线bXaY最小使2YYSSe用方差分析用方差分析检验回归方程有效性检验回归方程有效性有效性高低指标:有效性高低指标:决定系数决定系数r2回归估计的标准误回归估计
8、的标准误SYX回归线的求解16 XYXXYeeeeSSrSXXNYXXYNbXbYNXbYaXYYaXbYXbNaXYYaXbYaXYXbYaXYXbaXXYbXbSSYXbNaXbYNaXbYNabXYaaSSabXbXYaYXbaYbXaYYYSSYYSSbXaY222222222222222cov0022222200222222222 ;令令正规方程组正规方程组 normal equationsQ17XYNXbYaXXNYXXYNb7532. 00987. 10987. 120857532. 0867532. 08541920868540920222 从行为分数预测学习分数0123456
9、78012345678行为学习学习预测 学习儿童儿童行为行为X学习学习YXYX*X1 12 21 12 24 42 22 22 24 44 43 32 23 36 64 44 42 24 48 84 45 52 24 48 84 46 63 33 39 99 97 73 34 412129 98 84 42 28 816169 94 43 31212161610104 44 41616161611114 45 52020161612125 54 42020252513135 55 52525252514145 56 63030252515156 64 42424363616166 66 636
10、36363617176 66 63636363618186 67 74242363619197 76 64242494920207 77 749494949Mean4.254.254.34.3Total85858686409409419419对回归系数的解释180tcoefficien regression edStandardiz0 , 1slopecov0intercept 2arbYXSSYXYYXSSrSbYXXbYabXaYXYXYXXY此时系数表示),称为标准回归(一般改用此时都转化成标准分数后,和当的变化率的估计的变化量,即对变化一个单位时回归线的斜率的值)时(截距2.4 从给定
11、的X来估计对应的Y 无穷大的样本 取给定X对应的所有Y的均值作为估计值 对应于某个X的所有Y称为Y的条件分布conditional distribution 有限样本 19从行为分数预测学习分数012345678012345678行为学习学习预测 学习YY估计用五、一元线性回归的估计与预测(一)估计因变量主值和主值区间(二)单个因变量实测值的预测五、预测的准确性 如果需要你去猜测某个班的每个学生的某次考试的成绩,而只告诉你该班的平均分,怎样猜才能误差最小? 标准差作为误差的度量2122211YYYYYSNYYSSSNdf估计的标准误 standard error of estimate22re
12、sidualerrorXYXYerrorXYSSSSbaNdfSYXSdfSSNYYS也被表示成有时都是从样本数据估计的和,因为或误差方差称为残差方差的标准差预测的其下标表明为从22anceerror vari varianceresidual22三、回归有效性的检验(一)误差平方和(二)因变量变异的分解误差平方和 相关越高,误差越小 相关越高,从X预测Y就越准确,误差就越小24221rSSYYSSYe222222121121121112rSNNrSSNNrSNNNrSSNSSSYYXYYYeXY因变量变异的分解25无关与有关与XXSSSSrSSrSSSSeYYYe221对r的显著性的检验26
13、22212212100rNrNrrSrtNrSrrr来估计其标准误可用的正态分布,近似服从均值为时,当对回归的有效性检验 22212121XYrerXYeeerrrrreYereYYSSSMSMSFSdfSSMSSSdfSSMSNNdfNdfNdfQUSSSSSSSSrSS27对r的显著性检验28 2222222212212 , 1 , 1trNrNSSrSSrNSSSSrSSSMSMSFntnFFntnYYeYXYrer检验量,即为自由度的以检验量的平方等于为自由度的以四、回归有效性的指标- -决定系数(测定系数)r2coefficient of determination 衡量回归方程有效
14、性高低的指标 回归平方和在总离差平方和中所占的比例 因变量的变异中可以从自变量的变异来解释的比例29YX SSrSS2 YeYYYSSSSSSSSSSr2五、一元线性回归的估计与预测(一)估计因变量主值和主值区间(二)单个因变量实测值的预测五、预测的准确性 如果需要你去猜测某个班的每个学生的某次考试的成绩,而只告诉你该班的平均分,怎样猜才能误差最小? 标准差作为误差的度量3122211YYYYYSNYYSSSNdf估计的标准误 standard error of estimate32residualerrorXYXYerrorXYSSSSbaNdfSYXSdfSSNYYS也被表示成有时都是从样
15、本数据估计的和,因为或误差方差称为残差方差的标准差预测的其下标表明为从22anceerror vari varianceresidual22六、可化为线性回归的一元曲线回归第三节 多元线性回归分析一、多元线性回归分析的意义二、多元线性回归方程的建立三、多元线性回归方程解题步骤四、多元线性回归方程的有效性检验五、自变量显著性检验六、逐步回归法多元线性回归的数学模型 从X1, X2, , Xk(凭经验选取)预测YY=0+1X1+ 2X2 + + kXk+ N(0, s2) 根据样本数据建立的回归方程 =b0+b1X1+ b2X2 + + bkXk bi称为(偏)回归系数 偏回归系数表示其它自变量假
16、设不变时,某一个自变量变化而引起因变量变化的比率35标准回归方程、标准偏回归系数 把所有原始数据转换成标准分数,以标准分数建立的回归方程为标准回归方程Y = 1Z1+ 2Z2 + + kZk 标准回归方程的回归系数称为标准(偏)回归系数,其大小可直接反映对应的变量在预测时做的贡献 bi=iSY/SXi36偏回归系数的计算 基本原理 最小二乘法:预测值和观测值的误差平方和最小 一般借助于计算机 Excel SPSS SAS Minitab37多元测(决)定系数r2 其中 r 称为复相关系数 multiple correlation coefficient r 实际上就是预测值和观测值Y之间的相关
17、系数38222YYYYr多元线性回归方程的检验 方差分析39ereeerrrerterrYtMSMSFdfSSMSdfSSMSkNdfSSSSYYSSkkdfYYSSYYSSSS1 , ,222为自变量个数)(偏回归系数的显著性检验 回归方程显著并不意味着所有的回归系数都显著 某个偏回归系数不显著意味着对应的自变量在回归方程中没什么贡献 可以去掉该变量,重新建立回归方程 检验方法401kNtSbtjbj选择有效自变量的方法 逐步回归 stepwise regression 对不显著变量,只剔除对回归贡献最小的那个变量;然后重新建立新的回归方程,如仍有不显著变量,仍仅剔除对回归贡献最小的那个变量
18、,重新建立新的回归方程,直至所有变量都显著 前进法 forward regression 逐步加入自变量,检验显著就保留 后退法 backward regression 将所有自变量引入回归方程,逐渐剔除那些对回归方程作用不大的自变量41工具-数据分析-回归42Excel的多元回归结果43SUMMARY OUTPUT回归统计Multiple R0.94121828R Square0.885891851Adjusted R Square0.864496573标准误差0.241797772观测值20方差分析dfSSMSFSignificance F回归分析3 7.262541 2.420847 4
19、1.405959.09596E-08残差16 0.935459 0.058466总计198.198Coefficients 标准误差t StatP-valueLower 95%Upper 95%Intercept-1.612500394 0.182461 -8.83749 1.49E-07-1.999300963 -1.2256998能力层次X10.283697977 0.066146 4.288935 0.0005640.143473729 0.42392223内容深度X20.205023121 0.063563 3.225529 0.0052860.070276398 0.33976984
20、题目类型X30.004764564 0.040131 0.1187270.90697-0.080308309 0.08983744应用多元回归的注意事项 多重共线性 Multi-collinearity X1, X2, , Xk之间存在密切的线性关系,称它们之间存在着多重共线性。此时对回归系数的估计不稳定 因果关系 回归分析能表现出变量彼此关联或有联系,但不能证明其因果关系 回归系数的大小 计量单位相同或数据标准化时才能直接比较 样本容量 r2 受 n 对于自变量个数 k 的影响。一般观测数n至少等于自变量个数 k 的1015倍。44第四节 路径分析一、基本原理二、案例分析2.7 样本回归线和
21、总体回归线 根据样本数据的回归分析结果为样本回归线 = a + bX 不同的样本对应于不同的样本回归线 所有样本回归线都是总体回归线 = a X 的一个估计 所有样本回归线会在总体回归线附近波动 对给定X,对应的总体回归线的也称为主值,而某条样本回归线对应的i只是的一个点估计 所有i的平均值将为4647iX2.8 回归分析的应用 预测 已知X0,预测总体回归线对应的0(主值) 已知X0,预测新的观测值Y0 控制 已知Y的范围,控制X的范围483.3 偏回归系数的计算 基本原理 最小二乘法:预测值和观测值的误差平方和最小 一般借助于计算机 Excel SPSS SAS Minitab493.4
22、多元测(决)定系数r2 其中 r 称为复相关系数 multiple correlation coefficient r 实际上就是预测值和观测值Y之间的相关系数50222YYYYr3.5 多元线性回归方程的检验 方差分析51ereeerrrerterrYtMSMSFdfSSMSdfSSMSkNdfSSSSYYSSkkdfYYSSYYSSSS1 , ,222为自变量个数)(3.6 偏回归系数的显著性检验 回归方程显著并不意味着所有的回归系数都显著 某个偏回归系数不显著意味着对应的自变量在回归方程中没什么贡献 可以去掉该变量,重新建立回归方程 检验方法521kNtSbtjbj3.7 选择有效自变量
23、的方法 逐步回归 stepwise regression 对不显著变量,只剔除对回归贡献最小的那个变量;然后重新建立新的回归方程,如仍有不显著变量,仍仅剔除对回归贡献最小的那个变量,重新建立新的回归方程,直至所有变量都显著 前进法 forward regression 逐步加入自变量,检验显著就保留 后退法 backward regression 将所有自变量引入回归方程,逐渐剔除那些对回归方程作用不大的自变量533.8 Excel:工具-数据分析-回归54Excel的多元回归结果55SUMMARY OUTPUT回归统计Multiple R0.94121828R Square0.8858918
24、51Adjusted R Square0.864496573标准误差0.241797772观测值20方差分析dfSSMSFSignificance F回归分析3 7.262541 2.420847 41.405959.09596E-08残差16 0.935459 0.058466总计198.198Coefficients 标准误差t StatP-valueLower 95%Upper 95%Intercept-1.612500394 0.182461 -8.83749 1.49E-07-1.999300963 -1.2256998能力层次X10.283697977 0.066146 4.288
25、935 0.0005640.143473729 0.42392223内容深度X20.205023121 0.063563 3.225529 0.0052860.070276398 0.33976984题目类型X30.004764564 0.040131 0.1187270.90697-0.080308309 0.089837443.9 应用多元回归的注意事项 多重共线性 Multi-collinearity X1, X2, , Xk之间存在密切的线性关系,称它们之间存在着多重共线性。此时对回归系数的估计不稳定 因果关系 回归分析能表现出变量彼此关联或有联系,但不能证明其因果关系 回归系数的大小
26、 计量单位相同或数据标准化时才能直接比较 样本容量 r2 受 n 对于自变量个数 k 的影响。一般观测数n至少等于自变量个数 k 的1015倍。56P229第1题57SUMMARY OUTPUTSUMMARY OUTPUT回归统计回归统计Multiple RMultiple R0.9407380270.940738027R SquareR Square0.8849880360.884988036Adjusted R SquareAdjusted R Square0.8799875160.879987516标准误差标准误差4.3541672164.354167216观测值观测值2525方差分析方
27、差分析dfdfSSSSMSMSF FSignificance FSignificance F回归分析回归分析1 1 3355.3083355.308 3355.3083355.308 176.9792176.9792 2.75E-122.75E-12残差残差2323 436.0518436.0518 18.9587718.95877总计总计24243791.363791.36CoefficientsCoefficients标准误差标准误差t Statt StatP-valueP-value Lower 95%Lower 95%Upper 95%Upper 95%InterceptIntercept-8.95230433-8.95230433 5.7634035.763403-1.5533-1.5533 0.1340040.134004 -20.8748-20.8748 2.9701882.970188校内英语成绩X校内英语成绩X0.99256
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 初中物理教学反思大全
- 湖北省“黄鄂鄂”2025年高三下学期4月联考试题 物理 含解析
- 电力电缆工岗位技能测试题
- 江苏省南京十校下学期2025年高考考前模拟英语试题含解析
- 电工中级模拟习题+参考答案
- 工业分析检验试题库(附答案)
- 职业技术学院2024级动漫制作技术专业人才培养方案
- 2025届青海省海东市高三下学期三模历史试题(原卷版+解析版)
- 河南省信阳市罗山县2024-2025学年高二下学期4月期中地理试题(原卷版+解析版)
- 航空物流中的航空货运定价策略考核试卷
- 2025届河北省“五个一”名校联盟高三下学期4月联考地理试题(含答案)
- 江苏省常州第一中学2025届高三下学期联合考试语文试题含解析
- 机动车安全知识培训课件
- 山东开放大学招聘笔试真题2024
- 高三下学期《积极调整成为高考黑马!》主题班会课件
- 委托代签工程合同协议
- 2025年河北省唐山市中考一模历史试题(原卷版+解析版)
- 儿童支气管哮喘诊断与防治指南(2025)解读
- 2024年中国食品级双氧水行业调查报告
- 中国低空经济城市发展指数(LCDI) 2025(发布版)
- 2025中考数学二轮复习-二次函数与三角形面积【课件】
评论
0/150
提交评论