版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、回归分析,回归分析是最灵活和最常用的统计分析方法之一,用于分析一个因变量与一个或多个自变量间的关系 特别是: 定量描述和解释相互关系; 估计或预测因变量的值;,定义,例子:研究产品销量与价格及其他影响销量的变量因素,如广告、促销等之间的关系。,作用,此时的回归分析能回答的问题: 价格如何营销销量? 若价格和广告支出同时变化一定值,则销量预期为多少? 回归分析主要用于研究因果关系。 最简单的情况只有两个变量,一个因变量,一个自变量;,注意事项,但在许多问题中,并非只存在简单因果关系,所研究的变量受多个因素的影响; 回归分析中的因果关系通常是一个假设,是研究者的猜测。因此需要统计学之外的知识,即理
2、论和逻辑思考,或者进行试验,分清因变量、自变量 例子:研究产品销量与产品知名度之间的关系。 不能用回归分析,也不能用其他统计分析方法肯定地证明因果关系,只能证明变量的相关关系,这是因果关系的必要而非充分条件,应用领域,回归分析中变量可选名称,应用实例,一家人造黄油生产厂的销售主管对该品牌的产品销量不满意。他发现各地区的销量相差很大,想知道为什么会有这么大的差异,于是他决定调查销量取决于哪些可以影响它的基本因素。 为此,他在10个大小基本相同的地区进行抽样调查,收集研究期间有关销量、价格、促销支出及代理拜访次数的数据。,分析过程,(1)建模; (2)估计回归函数; (3)检验回归函数; (4)检
3、验回归系数; (5)检验模型前提。,(1)建模,从专业知识和观点出发,猜测完整的因果关系; 做散点图直接观察;,(2)估计回归函数,简单回归 因变量Y的估计值 常数 回归系数 自变量,常数b0,回归直线与Y轴的交点; 回归系数b1, 几何意义是斜率,实际意义为当X变化一个单位时,Y大约变化多大,是X对Y的影响尺度;,残差: 观察值与估计值的偏差; 对应xk的因变量Y的观察值; 对应xk算出的Y的估计值; k为观察次数,最小二乘法(最小二乘估计),把销量和拜访次数数据代入b1和b0公式,可得: b1=18.881,b0=39.5 估计的回归方程为: 多做一次拜访,预期增加销量为18.881个单位
4、,多元回归函数的目标函数: J:自变量的个数; K:观察次数;,假设销售主管认为所有三个变量对解释销量都很重要,则 用最小二乘法进行多元回归分析,得:,回归系数的意义: 说明了自变量变化对因变量Y的边际作用,具有重要的实际意义 在例子中回归系数为销售主管提供了针对措施执行效果的重要信息 但回归系数不能作为衡量重要性的标准。仅当变量计量单位相同时,回归系数才能相互比较;,使回归系数能够相互比较的一个方法是将它们标准化 标准化回归系数又称为值,公式如下: 通过标准化消除回归系数中变量不同计量单位影响,可以作为衡量变量重要性的标准;,在例子中,Y的标准差为449.23,拜访次数的标准差为13.99,
5、价格的标准差为1.55,支出的标准差544.29 按照回归系数标准化公式,得:,(3)检验回归函数,估计出回归函数后,要检验其准确性,即确认回归函数作为反映现实的模型是否适用; 检验过程分为两部分: 整体检验回归函数,验证回归模型是否能解释因变量Y及解释的有效程度; 检验回归系数,模型中各变量是否及怎样有助于解释因变量Y,决定系数(R2),用于评价回归函数与实际数据的拟合度,它以残差为基础,即Y的观察值与估计值之间的离差,考虑观察值与平均值的总离差: 例如:,总标准差分解: 总离差平方和=已解释离差平方和+未解释离差平方和 决定系数(或相关系数),决定系数是一个标准化的0,1之间的值,,对于销
6、售和拜访次数的回归,其决定系数R2=0.3455 说明销售量Y的波动很大程度上归因于未记入方程的影响因素 决定系数大小受回归自变量个数的影响,引入修正决定系数,修正决定系数: K:观察值个数; J:回归自变量个数;,F统计量 回归分析不只用于描述现有数据,更多是用于在抽样数据的基础上,研究估计模型是否能从抽样推断出总体,此时用到F统计量,F统计量:,F检验的步骤: 计算实际F值; 给定显著性水平; 查出理论F值; 比较两个F值得出结论。 F=4.223 0.05(0.95) F理论=5.32 FF理论,回归关系不显著,估计剩余标准差 该整体性指标说明了运用回归函数估计因变量Y时,会犯的平均误差
7、 s=385,而平均值,(4)检验回归系数,回归系数的t检验 在对回归函数整体检验后,检验各回归系数是否显著 采用的t统计量,t检验步骤: 计算t值; 给定显著水平; 查出理论t值; 比较两个t值,做出判断。 b1=18.881,sb1=9.187,t=2.055,0.05(0.95),t理论=2.306(K-J-1),拜访次数对销售量影响不显著,回归系数的置信区间 若通过t检验,回归系数真值不为零,可对该真值构建一个置信区间 根据显著性水平和未解释标准差的自由度(K-J-1),确定t值(双侧),(5)检验模型前提,随机误差项是一个随机量,随机模型是回归分析的基础 随机误差项存在原因特别有如下
8、两条: 由于未考虑到的影响量; 数据误差:测量误差和选择误差 进行回归时,会做一系列假设,线性模型假设: A1:模型对参数是线性的、模型包含重要解释变量、待定参数个数(J+1)小于观察次数K A2:随机误差期望值为0 A3:解释变量与随机误差项相互独立 A4:随机误差项的方差恒定 A5:随机误差项相互独立(无自相关),A6:解释变量X间不存在线性相关(无完全共线性); A7:随机误差项服从正态分布; 未发现非线性的后果是参数估计值有偏 随机误差项期望值不为0,造成对b0估计不准 自变量选择错误,估计值有偏,异方差性,残差的标准差非恒定,则存在已方差性,异方差性导致估计非有效,以及回归系数的标准差有偏,置信区间不准确; 自相关,总体残差相互独立,不满足该条件的情况称为自相关。自相关主要出现在时间序列分析中; 共线性,一个自变量不能是其余自变量的线性函数,否则会出现共线性。随着共线性的增强,回归参数的估计越来越不可信,回归系数标准差变大;,随机误差项的非正态分布,只对统计检验(t、F检验)有意义,检验无效;,异方差检验 Goldfeld/Quandt检验将抽样数据分成两部分,检验一组观察值自相关的计算方法是Durbin/W
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 教育课程质量监督考核制度
- 制造业供应链协同效率制度
- 山区初二英语语法知识点梳理习题真题
- 2.《婴幼儿行为观察与指导》(第二版)试卷及答案
- 高危胸痛患者识别与急救护理知识考核试题
- 阑尾炎护理相关考核试题
- 返岗安全专项考试试题
- 护理创新与改进:护理主管护师的实践方法
- 2026年高职(食品检测技术)阶段测试试题及答案
- 2026年高职(社区护理)综合能力测试试题及答案
- 货车检车员:中国铁路兰州局集团有限公司编
- 工业区位因素与工业布局导学案 高中地理湘教版(2019)必修二+
- 电力施工道路施工方案
- 第一单元项目一探秘鸟类研究-认识数据、信息与知识课件沪科版(2019)高中信息技术必修1
- 日本跌宕50年一个制造业强国的沉浮史
- 电生磁 电磁铁的应用浙教版 八年级科学下册【思维导图+知识提要+典例提升】
- IE改善四大原则及ECRS技法课件
- 2023届浙江省名校协作体高三(上)开学考试物理试题
- YS/T 902-2013高纯铼及铼酸铵化学分析方法铍、钠、镁、铝、钾、钙、钛、铬、锰、铁、钴、镍、铜、锌、砷、钼、镉、铟、锡、锑、钡、钨、铂、铊、铅、铋量的测定电感耦合等离子体质谱法
- LY/T 2787-2017国家储备林改培技术规程
- LY/T 1821-2009林业地图图式
评论
0/150
提交评论