




已阅读5页,还剩87页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第八章 回归和相关分析 1 1 导 言 2 在自然界和人类社会中,经常会遇到 一些变量共处于一个统一体中,他们 相互联系,相互制约,在一定条件下 相互转化。社会经济现象尤其如此。 例如某生产厂家的生产费用由所生产 的产品数量和各种生产投入要素的价 格等因素所决定。 3 在社会经济现象中,变量之间的关 系大致可以分为两种: 1).函数关系 2).统计关系。 4 函数关系:变量之间依一定的函数形 式形成的一一对应关系称为函数关系 。若两个变量分别记作y和x,则当y 与x之间存在函数关系时,x值一旦被 指定,y值就是唯一确定的。函数关 系可以用公式确切的反映出来,一般 记为y=f(x)。 5 例如,某种商品的销售额(y) 与销售量(x)之间的关系,在销 售价格(p)一定的条件下,只要 给定一个商品销售量,就有一 个唯一确定的商品销售额与之 对应,用公式表示为y=p(x)。 6 统计关系:两个变量之间存在某种依存 关系,但变量Y并不是由变量X唯一确定 的,它们之间没有严格的一一对应关系 。两个变量之间的这种关系就是统计关 系,也称为相关关系。 7 相关关系与函数关系有十分密切的联 系。在实际中,由于观察和测量误差 等原因,函数关系往往是通过相关关 系表现的,而在研究相关关系时,又 常用函数关系作为工具,以相应的函 数关系数学表达式表现相关关系的一 般数量关系。 8 例如:同样收入的家庭,用于食 品的消费支出往往并不相同。因 为对家庭食品费用的影响,不仅 有家庭收入的多少,还有家庭人 口,生活习惯等因素,所以,家 庭食品费用支出与家庭收入之间 不是函数关系,而是相关关系。 9 在含有变量的系统中,考察一些变 量对另一些变量的影响,它们之 间可能存在一种简单的函数关系 ,也可能存在一种非常复杂的函 数关系。有些变量之间的关系是 非确定性的关系,这种关系无法 用一个精确的数学来表示。 10 我们需要区分两种主要类型的变量。 一种变量相当于通常函数关系中的自 变量,它或者能控制或者虽不能控制 但可观测,这种变量称为自变量。自 变量的变化能波及另一些变量,这样 的变量称为因变量。人们通常感兴趣 的问题是自变量的变化对因变量的取 值有什么样的影响。 11 回归分析正是研究自变量的变动对 因变量的变动的影响程度,其目 的在于根据已知自变量的变化来 估计或预测因变量的变化情况。 12 回归的内容包括如何确定因变量与自 变量之间的回归模型;如何根据样本 观测数据估计并检验回归模型及未知 参数;在众多的自变量中,判断哪些 变量对因变量的影响是显著的,哪些 变量的影响是不显著的;根据自变量 的已知值或给定值来估计和预测因变 量的平均值等等。 13 线性回归分析是研究变量与变量之间 的线性相关关系。从分析的内容上看 ,线性回归是建立变量间的拟合线性 相关模型,主要用于估计和预测。线 性回归模型应用领域极为广泛,在许 多领域里都有应用非常成功的例子, 它是现代应用统计分析方法中的重要 内容之一。 14 一元线性回归模型 15 8.2.1 一元线性回归模型的数学表示式 如果两个变量之间存在相关关系, 并且一个变量的变化会引起另一 个变量按某一线性关系变化,则 两个变量间的关系可以用一元线 性回归模型描述。 16 其数学模型为: y= (8-1) 其中,y 为因变量, x为自变量, 为模 型参数, 为回归截距, 为回归系数 , 为随机误差项,且N(0, ). 17 在实际问题中,(8-1)中的模型参 数 是未知的,通常只能在自 变量的一些点上对因变量进行观 测,得到一定量的数据,由数据 出发对模型进行推断。 18 8.2.2 回归系数 的最小二乘估计。 假定( ), ( ), ,( )为n次 独立试验所得到的样本观测值,则有 , i=1,2,n (8-2) 其中i ,i=1,2,n为随机误差项,对i ,i=1,2,n的基本假定是i ,i=1,2,n相 互独立,服从N(0, )分布。 19 记 Q( )= Q( )是直线y= 对于所有数据 点的偏差平方和。 取直线y= 使得 Q( )达到最小 即 Q( )=Q( ),z用y=来估计 回归直线,这种方法称为最小二乘法。 20 为求与 分别对应的最小二乘估计 , 注意到Q( )是 的非负二次函数,因 此最小值点存在且唯一,应满足以下方程 组: 21 求解方程组得: 其中 , 22 8.2.3利用最小二乘法所得到的估计量 有如下性质: (1) 分别是 的无偏估计。 (2) 和 的最小二乘估计 和 为“方差 最小”线性无偏估计 (3) 的无偏估计为 : 23 在实际中,方差 是未知的,因此,可用估 计量 来估计 。 24 例题1、在某类企业中随机抽取10 个企业,搜集它们的产量和生产 费用情况,获得数据如表1所示: 25 表1 企业产量和生产费用 26 我们可作出散点图,易看出变量x 与y之间的关系近似可看作是线性 关系,根据表1的数据,利用最小 二乘法,求一元线性回归方程, 27 以下列出的为计算表 28 29 = =134.7909+0.3978x为所求的一 元回归模型。 30 8.2.4 一元线性回归模型的检验 我们根据样本观测值,利用最小二 乘法建立起一元线性回归模型 = ,该模型是否满足回归模型的基 本假设,还需要进行统计检验。 31 统计检验应包括两方面的内容:一 是回归方程的显著性检验,即反映 回归模型 = 对样本观测 值的拟合程度如何;一是回归系数 的显著性检验,即检验变量y与变 量x之间是否能用线性关系来描述 ;以下介绍三种检验的方法: 32 (1)回归模型的拟合程度的测度 变量y的各个观测点聚集在回归直线 = 周围的紧密程度,称为回归直线 对样本数据点的拟合程度,常用可决系数 R2来表示。 33 总的离差平方和 SST= = = + 34 因为 =0 故 SST= 记 SSR= ,SSE= 则 SST=SSR+SSE (8-5) SSR称为回归平方和, SSE称为残差平方 和 35 (8-5)可作如下解释:因变量的总变化量 (有SST表示)可分成两部分之和,其中 一部分是由自变量所引起的变化(由SSR 刻画),另一部分是随机误差所引起的变 化(由SSE刻画)。变量y的各个观测值点 与回归直线越靠近,SSR在SST中所占的 比重越大,可见,比值SSR/SST的大小, 能反映回归模型拟合程度的优劣。 36 由此,可定义统计量: R2= R2称为“可决系数”,显然,0R21。当R2接近 于1时,回归平方和SSR在总的平方和SST中所 占的比重大,说明自变量对因变量的影响较大; 反之,当R2接近与0时,回归平方和SSR在总的 平方和SST中所占的比重小,说明自变量对因变 量的影响较小。综上所述,R2越接近与1,说明 模型越有效,R2越接近与0,说明模型越无效。 应该注意的是,R2通常只用于模型有效性的一 个大致的判断。 37 R2称为“可决系数”,显然,0R21。当R2接近 于1时,回归平方和SSR在总的平方和SST中所 占的比重大,说明自变量对因变量的影响较大; 反之,当R2接近与0时,回归平方和SSR在总的 平方和SST中所占的比重小,说明自变量对因变 量的影响较小。综上所述,R2越接近与1,说明 模型越有效,R2越接近与0,说明模型越无效。 应该注意的是,R2通常只用于模型有效性的一 个大致的判断。 38 可决系数R2只说明了回归方程对样本观察 值拟合程度的好坏,却不能表示回归直线 估计值与变量y的各实际观察值的绝对离差 的数额。估计标准误差则是反映回归估计 值与样本实际观察值的平均差异程度的指 标,用Syx表示估计标准误差,其计算公式 为: Syx = 39 若估计标准误差Syx小,表示各实际观察 值与回归估计值平均差异小,实际观察点 靠近回归直线,回归直线的拟合程度好, 代表性高;若样本观察点全部落在直线上 ,则Syx=0,说明样本实际值与估计值没 有差别。若Syx大,则说明回归直线拟合不 好,代表性差。 40 估计标准误差也可化简为 Syx = 41 (2)回归系数的显著性检验 一元线性回归模型中,一次项系数 是一个 关键的量,通过 可反映自变量x的变动对 因变量y的影响。若 =0意味着y不随x变 动而变动,因此y与x之间不存在线性关系 ;若 0,说明变量y与x之间存在线性关 系;当 0时,x对y的影响为正效应;当 = 45 假设的检验决策规则是: 若|t| , 则拒绝接受原假设H0; 若|t| 时说明变量y与x 之间存在线性关系;|t| , 则拒绝接受原假设H0; 若|t| (1,n-2)时, 则拒绝接受原 假设H0 若F (1,n-2)时,回归方 程的回归效果是显著的; F (1,8)=11.26, 所以,拒绝接受H0,即生产费用和参量之 间存在着十分显著的线性关系。 56 825 一元线性回归模型的应用 回归模型在应用领域里一项重要的研究内 容是如何利用回归模型进行预测,预测就 是在确定自变量的某一个值时,求相应的 因变量y的估计值,其中可分为点预测和区 间预测。 57 (1)点预测 点预测是将自变量的预测值代入回归模型 =,所得到的因变量y的值作为与相对应的 的预测,不难验证,是无偏预测。 58 (2)区间预测 类似于对参数作置信区间估计,可对预测 作指定置信水平的预测区间,这样可以以 相当大的概率保证预测的“方向”及精度。 59 对于与 相对应的值为 ,由于样本的不得 到的回归模型的 , 会不同,通过 = 预测的 ,这个 与 之 间总存在一定的抽样误差,可证明 ( ) N0, 60 其中 ,因此, 的概率为1- 的 预测区间为 61 因而,对于给定的置信水平1- ,有 , 为 的置信水平100(1 - )%的预测 区间。 62 例题3、依据例题1中所建立的回归模型,给 定x0=50(千个)时,试预测y0,并求 =0.05时y0的预测区间。 63 解:当x0=50时, =134.7909+0.397850=154.6809 (千元 ) = (8)=2.306 =26.3301 所以,(128.3607,181.0209)为y0的置信 水平95%的预测区间。 64 3 多元线性回归模型及其应用 一元线性回归将影响因变量的自变量限制在一个 ,但在实际中,社会经济现象的复杂性决定了某 一现象的变动往往受多种因素的影响。如某种产 品单位成本的高低受产品原材料消耗量,原材料 价格,产品产量等多种因素影响;企业的利润受 产品销售收入,产品销售成本,期间费用等因素 影响,这就需要研究两个或两个以上自变量对因 变量的影响。一个因变量与多个自变量之间的线 性相关关系称为多元线性回归。 65 8.3.1多元线性回归模型的数学表示式为: y= (8-6) 其中,y为因变量 , ,i=1,2,n为自变 量. ,i=0,1,,k为回归参数, 为随 机变量,且 66 8.3.2 参数的最小二乘估计 实际上,回归参数 , , 通常是未知 的,需要对其进行估计。 假定对于自变量 , , +和因变量y已得 到n次观测,第i 次观测值为( ),i=1,2,n 67 于是有 = i=1,2,n 其中, 为相互独立的随机变量,且 。 68 回归参数 , , 常用最小二乘法来估 计, 记 Q( , , )= 69 求它的最小值点( ),即 Q( )= Q( , , ) 则 就是 , , 的最小二乘估计 。 70 令 Q对 , , 的一阶偏导数为零,即 可求出最小二乘估计。 (j=1,2,n) 71 将上述方程组整理可得到 (8-7) 方程组(8-7)称为“正规方程组”。 72 记 73 则模型(8-6)可表示为 Y=X + 正规方程组(8-7)可表示为 (XTX) =XTY 74 当k+1阶方阵XTX满秩时,(即等价于 r(X)=k+1),可解出 的唯一最小二乘估 计 这样就得到了y的估计式 可以看出,最小二乘估计是y的观测值的线 性函数,且是 的无偏估计。 75 因为 E( )=(XTX)-1XTE(y) =(XTX)-1XTX = 类似于一元线性模型,可证明最小二乘估 计 为 的“方差最小”线性无偏估计,“方 差最小”可理解为:对 的每个分量,最小 二乘估计的方差最小。 76 8.3.3 多元线性回归模型的检验 多元线性回归模型的检验包括两 个方面:对回归模型的拟合程度 的评价,和回归线性相关关系的 检验,方法和一元线性回归类同。 77 8.3.4 多元线性回归模型的应用 在多元线性回归模型中,预测的方法与一 元线性回归模型的情况非常类似,建立了 线性回归模型 之后,便可用它对有关变量进行预测。 78 给定 , , , 对应的因变量记为 y0,则y0的点估计可由模型 求得。 79 若记 ,则 可证明 N 于是 N(0,1) 用 代替 ,便有 t(n-k-1) 80 对于给定的 ,的置信度为100(1- ) %的置信区间为 81 4 回归分析中的一些特殊问题 82 前面我们介绍了线性回归模型的建立 和应用,一元线性回归分析在实际中 应用并不广泛,而更多的是多元线性 回归模型,但在实际中,正确应用线 性回归模型分析实际问题并不是一件 容易的事。由于有多个自变量,以下 我们来介绍回归分析中的一些特殊问 题。 83 8.4.1 自变量的选择问题 在建立一个回归模型时,我们要将所有可 能对因变量产生影响的自变量考虑到模型 中去,而通常在所有备选的自变量中,只 有一部分真正对因变量有影响,这样的变 量称为有效变量,而其它的则可能对因变 量没有影响,称为无效变量。因此需要将 有效变量保留在模型中,而无效变量应从 模型中去掉,这样就产生了自变量的筛选 问题,具体方法略。 84 8.4.2多重共线型问题 在许多场合,如社会研究,时常分析等领 域中,自变量是随机的,在这种情况下, 自变量之间就会有很强的统计相关性,即 多重共线性。由于样本数据间存在着线性 相关关系而产生的问题就称为多重共线性 问题。因此检验多重共线型问题是必要的 ,具体方法略。 85 在多重共线性现象中,一种极端情况是自 变量间的相关系数为,这种情况称为完 全的多重共线性现象。此时,某个自变量 可表示为
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 【正版授权】 ISO 80000-7:2019/AMD1:2025 EN Amendment 1 - Quantities and units - Part 7: Light and radiation
- 【正版授权】 ISO 17666:2025 EN Space systems - Programme management - Risk management
- 【正版授权】 IEC 60068-3-14:2025 EN Environmental testing – Part 3-14: Supporting documentation and guidance – Developing a climatic sequential test
- 校园师生消防知识培训课件
- 绝食减肥测试题及答案
- 甲乳外科考试题及答案
- 自律作息测试题及答案
- 桂林社工面试题及答案
- 胰腺炎考试试题及答案
- 锁骨护理试题及答案
- 2025年云南省高校大学《辅导员》招聘考试题库及答案
- 消费品市场2025年消费者对绿色包装认知及需求调研可行性研究报告
- 台球厅消防知识培训课件
- 充电桩运维服务协议
- 2025至2030中国防砸安全鞋行业运营态势与投资前景调查研究报告
- 2025年医疗器械仓库管理培训试题及答案
- 2024年湖南省古丈县事业单位公开招聘工作人员考试题含答案
- 卵巢性索间质肿瘤课件
- 2025甘肃行政执法资格考试模拟卷及答案(题型)
- 2025-2026年秋季第一学期学校德育工作安排表:德润心田、智启未来、行塑栋梁
- 成人零基础英语教学课件
评论
0/150
提交评论