版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第9章 一元线性回归9.1 变量间关系的度量变量间关系的度量 9.2 一元线性回归一元线性回归9.3 利用回归方程进行估计和预测利用回归方程进行估计和预测9.4 残差分析残差分析9.1 9.1 变量间关系的度量变量间关系的度量一.一.变量间的关系变量间的关系二.二.相关关系的描述与测度相关关系的描述与测度三.三.相关系数的显著性检验相关系数的显著性检验变量间关系之函数关系1.是一一对应的确定关系;2.设有两个变量 x 和 y ,变量 y 随变量 x 一起变化,并完全依赖于 x ,当变量 x 取某个数值时, y 依确定的关系取相应的值,则称 y 是 x 的函数,记为 y = f (x),其中 x
2、 称为自变量,y 称为因变量;变量间关系之相关关系(correlation)1.变量间关系不能用函数关系精确表达;2.一个变量的取值不能由另一个变量唯一确定;3.当变量 x 取某个值时,变量 y 的取值可能有几个;相关关系的描述之散点图(scatter diagram)yyyy-M-d用散点图描述变量间的关系(例题分析)【例例9-1】为研究销售收入与广告费用支出之间的关系,某医药管理部门随机抽取20家药品生产企业,得到它们的年销售收入和广告费用支出(万元)的数据如下。绘制散点图描述销售收入与广告费用之间的关系。 yyyy-M-d散点图(销售收入和广告费用的散点图)相关关系的测度之相关系数(co
3、rrelation coefficient)1.对变量之间关系密切程度的度量;2.对两个变量之间线性相关程度的度量称为简单相关系数;3.若相关系数是根据总体全部数据计算的,称为总体相关系数,记为 ;4.若是根据样本数据计算的,则称为样本相关系数,记为 r;相关系数 (计算公式) 样本相关系数的计算公式:或展开为:2222nxyxyrnxxnyy 简写的离差平方和22211222111111()1()1()()nnxxiiiiinnyyiiiiinnnxyiiiiiiiiiLxxxxnLyyyynLxxyyx yxyn其中:相关系数(取值及其意义)1. r 的取值范围是 -1,1;2. |r|=
4、1,为完全相关:ur =1,为完全正相关ur =-1,为完全负正相关3. r = 0,不存在线性线性相关关系;4. -1r0,为负相关; 0r1,为正相关;5. |r|越趋于1表示关系越密切;|r|越趋于0表示关系越不密切(0.8-0.5-0.3)。相关系数的显著性检验(检验的步骤)1.检验两个变量之间是否存在线性相关关系;2.采用R.A.Fisher提出的 t 检验;3.检验的步骤为:n提出假设:H0: ;H1: 0n 计算检验的统计量:n 确定显著性水平,并作出决策; 若P值,不拒绝H022 (2)1ntrt nryyyy-M-d相关系数的显著性检验(例题分析)【例例9-3】检验销售收入与
5、广告费用之间的相关系数是否显著 (0.05)1.提出假设:H0: ;H1: 02.计算检验的统计量:3. 用Excel中的【TDIST】函数得双尾P=2.743E-090.05,拒绝H0,销售收入与广告费用之间的相关系数显著 。20.9306 20210.78910.9306tyyyy-M-d相关系数的显著性检验(SPSS输出结果)9.2 9.2 一元线性回归一元线性回归一.一.一元线性回归模型一元线性回归模型二.二.参数的最小二乘估计参数的最小二乘估计三.三.回归直线的拟合优度回归直线的拟合优度四.四.显著性检验显著性检验什么是回归分析?(Regression)1.是分析变量之间关系的基本方
6、法;2.就是从一组样本数据出发,确定变量之间的数学关系式;3.对该关系式的可信程度进行各种统计检验,并从影响某一特定变量的诸多变量中找出哪些变量的影响显著,哪些不显著;4.利用所求的关系式,根据一个或几个变量的取值来预测或控制另一个特定变量的取值,并给出这种预测或控制的精确程度。一元线性回归1.涉及一个自变量的回归;2.因变量y与自变量x之间为线性关系; 被 预 测 或 被 解 释 的 变 量 称 为 因 变 量(dependent variable),用y表示; 用来预测或用来解释因变量的一个或多个变量称为自变量(independent variable),用x表示 ;3.因变量与自变量之间
7、的关系用一线性方程来表示。一元线性回归模型1.描述因变量 y 如何依赖于自变量 x 和误差项 的方程称为回归模型;回归模型;2.一元线性回归模型可表示为: y = b b + + b b1 1 x + + y 是 x 的线性函数(部分)加上误差项; 线性部分反映了由于 x 的变化而引起的 y 的变化; 误差项 是随机变量; 反映了除 x 和 y 之间的线性关系之外的随机因素对 y 的影响 是不能由 x 和 y 之间的线性关系所解释的变异性b0 和 b1 称为模型的参数;yyyy-M-d一元线性回归模型(基本假定) 1.因变量y与自变量x之间具有线性关系;2.在重复抽样中,x的取值是确定的,即假
8、定x是非随机的,而假定y是随机的;3.误差项 满足:l正态性正态性。 是一个服从正态分布的随机变量,且期望值为0,即 N(0 , 2 ) 。对于一个给定的 x 值,y 的期望值为E(y)=b0+ b1x;l方差齐性方差齐性。对于所有的 x 值, 的方差一个特定的值2 ;l独立性。独立性。独立性意味着对于一个特定的 x 值,它所对应的与其他 x 值所对应的不相关;对于一个特定的 x 值,它所对应的 y 值与其他 x 所对应的 y 值也不相关。回归方程 (regression equation)1.描述 y 的平均值或期望值如何依赖于 x 的方程称为回回归方程;归方程;2.一元线性回归方程的形式如
9、下: E( y ) = b b0+ b b1 x估计的回归方程(estimated regression equation)统计量 和 代替参数 和 估计的估计的回归方程;回归方程;参数 和 是其中: 是估计的回归直线在 y 轴上的截距, 是直线的斜率,它表示对于一个给定的 x 的值, 是 y 的估计值,也表示 x 每变动一个单位时, y 的平均变动值 。参数的最小二乘估计(method of least squares)1. 使因变量的观察值与估计值之间的离差平方和达到最小来求得 和 的方法。即:2. 用最小二乘法拟合的直线来代表x与y之间的关系与实际数据的误差比其他任何直线都小;0b1b最
10、小二乘估计(图示) 最小二乘法 设点i的观测值为(xi , yi),把xi代入待定的直线有 yi到待定直线的距离为: 则n个点的铅直距离平方和为: 为使Q最小,通过分别对 , 求导,建立方程组后求出 , 的值。201011(,)()niiiQyxbbbb+0b1b0b1b最小二乘法 (计算公式)回归直线的拟合优度之变差1.因变量 y 的取值是不同的,y 取值的这种波动称为变差。2.对一个具体的观测值来说,其变差的大小可以通过该实际观测值与其均值之差 来表示;3.对于n次观测的总变差,可以用这些离差的平方和表示;4.变差来源于两个方面:由于自变量 x 的取值不同造成的;除 x 以外的其他因素的影
11、响;y变差的分解(图示) 离差平方和的分解 (三个平方和的关系) 其中:离差平方和的分解 (三个平方和的意义)1.总平方和总平方和(SST)反映因变量的 n 个观察值与其均值的总离差;2.回归平方和回归平方和(SSR)反映自变量 x 的变化对因变量 y 取值变化的影响,或者说,是由于 x 与 y 之间的线性关系引起的 y 的取值变化,也称为可解释的平方和;3.残差平方和残差平方和(SSE)反映除 x 以外的其他因素对 y 取值的影响,也称为不可解释的平方和或剩余平方和;判定系数 (coefficient of determination)1. 回归平方和占总离差平方和的比例:估计标准误差(st
12、andard error of estimate)1.实际观测值与回归估计值离差平方和的均方根;2.反映实际观测值在回归直线周围的分散状况;3.是对误差项的标准差的估计,是在排除了x对y的线性影响后y随机波动大小的一个估计量;4.反映了用估计的回归方程预测y时预测误差的大小 ;5.计算公式为:显著性检验之线性关系检验1. 检验自变量与因变量之间的线性关系是否显著;2. 将回归均方(MSR)同残差均方(MSE)加以比较,运用F检验来分析二者之间的差别是否显著; 回归均方:回归平方和SSR除以相应的自由度(自变量的个数k) 残差均方:残差平方和SSE除以相应的自由度(n-k-1)线性关系的检验 (
13、F检验) 1.提出假设 H0:b1=0 线性关系不显著显著性检验之回归系数的检验回归系数的检验(样本统计量 的分布)是根据最小二乘法求出的样本统计量,它有自己的抽样分布;的分布具有如下性质:分布形式:正态分布数学期望:标准差:由于未知,需用其估计量se来代替,得到 的估计的标准差:回归系数的检验 (t检验) 1.提出假设 H0: b1 = 0 (没有线性关系) H1: b1 0 (有线性关系) 2.计算检验的统计量:用SPSS进行回归分析第第1步步:点击:点击【分析】菜单,选择【回归 线性】选项,进入主对话框;第第2步:步:在主对话框中将因变量(本例为销售收入)选入【因变量】框中,将自变量(本
14、例为广告费用)选入【自变量】框中;第第3步:步:点击【保存】按钮,弹出线性回归:保存窗口; 在【预测值】标签下选中【非标准化】,输出点预测值; 在【预测区间】下选中【均值】和【单值】,输出置信区间和预测区间; 在【预测区间】中选择所要求的置信水平,默认值95%,一般不用改变; 在【残差】下选中【非标准化】和【标准化】,输出残差和标准化残差) ; 点击【继续】回到主对话框,点击【确定】。yyyy-M-d参数的最小二乘估计(SPSS输出结果)参数的最小二乘估计(SPSS输出结果) 参数估计结果: 其中,1221()eniistxxb02211( )()eniixtsnxxb+9.3 9.3 利用回
15、归方程进行预测1.根据自变量 x 的取值估计或预测因变量 y的取值;2.估计或预测的类型:点估计y 的平均值的点估计y 的个别值的点估计区间估计y 的平均值的置信区间置信区间估计y 的个别值的预测区间预测区间估计点估计区间估计1.点估计值与实际值之间是有误差的,点估计不能给出估计的精度,因此需要进行区间估计;2.对于自变量 x 的一个给定值 x0,根据回归方程得到因变量 y 的一个估计区间;3.区间估计有两种类型:置信区间估计(confidence interval estimate)预测区间估计(prediction interval estimate)置信区间估计1.利用估计的回归方程,对
16、于自变量 x 的一个给定值 x0 ,求出因变量 y 的平均值的估计区间 ,这一估计区间称为置信区间置信区间(confidence interval);2.在1-置信水平下的置信区间为:2002211eniixxytsnxx+预测区间估计1.利用估计的回归方程,对于自变量 x 的一个给定值 x0 ,求出因变量 y 的一个个别值的估计区间,这一区间称为预测区间预测区间(prediction interval) ;2. y0在1-置信水平下的预测区间为:置信区间、预测区间、回归方程用SPSS做区间图 第1步:点击【Graphs】【Interactive-Scatterplot】;第2步:点击【2D
17、Coordine】,将各坐标轴变量拖入相应坐标轴;第3步:点击【Fit】,在【method】下选择【Regression】,在【Prediction Lines】下选择【Mean】和【Individual】,点击【确定】。yyyy-M-d置信区间和预测区间9.4 9.4 残差分析残差分析一.一.残差与残差图残差与残差图二.二.标准化残差标准化残差残差(residual)1.因变量的观测值与根据估计的回归方程求出的预测值之差,用e表示;2.反映了用估计的回归方程去预测而引起的误差; 3.确定有关误差项的假定是否成立 ;4.检测有影响的观测值;残差图(异方差判定)yyyy-M-d残差图(例题分析)销售收入与广告费用回归的残差图销售收入与广告费用回归的残差图标准化残差(standardized residual)残差除以它的标准差后得到的数值。计算公式为: 是残差的标准差的估计;用来直观地判断误差项服从正态分布这一假定是否成立 : 若假定成立,标准化残差的分布也应服从正态分布; 在标准化残差图中
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 护理课件制作软件和使用技巧分享及经验
- 护理管理技巧与团队协作
- 护理工作中的法律法规知识
- 部编版二年级语文下册《羿射九日 第2课时》
- 护理规范操作培训
- 护理基本礼仪规范
- 护理基本护理教育学
- 炼钢厂长岗位职责与要求
- 基于核酸技术的物种鉴定研究
- 客户服务工程师日常工作流程与规范
- 2026年中考数学压轴题专项练习-海盗埋宝模型(学生版+名师详解版)
- 银行心理测试题目及答案
- 江苏镇江2019-2024年中考满分作文46篇
- 2024年课程设计混凝土结构电大
- 2025年高级(三级)中式烹调师(中式烹调)《理论知识》真题卷(答案和解析附后)
- 人工智能训练师培训课件
- 铝电解工(铝电解操作工)职业资格(技师)考试题库-上(单选题)
- 水电站大坝安全现场检查技术规程 -DL-T 2204
- 水产加工厂管理制度
- 重庆市制造业领域吸纳高校毕业生急需紧缺岗位目录(2024-2025)征
- 《食品安全监测与风险评估》课件
评论
0/150
提交评论