《统计学-基于Python》 课件 第10章 回归分析(Python-1)_第1页
《统计学-基于Python》 课件 第10章 回归分析(Python-1)_第2页
《统计学-基于Python》 课件 第10章 回归分析(Python-1)_第3页
《统计学-基于Python》 课件 第10章 回归分析(Python-1)_第4页
《统计学-基于Python》 课件 第10章 回归分析(Python-1)_第5页
已阅读5页,还剩26页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

StatisticswithPython

统计学

基于Python

2023/12/19

课程内容描述统计、推断统计、其他方法使用软件

Python

语言学分与课时3学分,1~17周,每周3课时课程简介贾俊平2023/12/1910.1变量间的关系10.2一元线性回归10.3多元线性回归第10章回归分析变量间的关系——回归建模需要清楚的问题建立回归模型时,首先需要弄清楚变量之间的关系分析变量之间的关系需要解决下面的问题变量之间是否存在关系如果存在,它们之间是什么样的关系变量之间的关系强度如何样本所反映的变量之间的关系能否代表总体变量之间的关系

10.1

变量间的关系变量间的关系——函数关系与相关关系函数关系对应的确定关系设有两个变量x和y,变量y随变量x一起变化,并完全依赖于x,当变量x取某个数值时,y依确定的关系取相应的值,则称y是x的函数,记为y=f(x),其中x称为自变量,y称为因变量各观测点落在一条线上

10.1

变量间的关系

相关关系的描述——散点图——例题分析【例10-1】

为研究上市公司各项指标之间的关系,随机抽取25家上市公司,得到4项财务数据如表10-1所示。绘制4个变量的散点图分析它们之间的关系

10.1

变量间的关系样本编号每股收益(元)每股净资产(元)每股现金流量(元)总股本(亿股)10.885.861.502.2821.1411.134.959.0934.8817.301.937.3743.238.081.801.4557.8319.974.136.32…………………………2115.6529.8212.905.39221.669.570.954.45231.2510.962.586.79240.477.351.482.53256.8613.9422.806.43关系强度的度量——相关系数——性质与解读度量变量之间线性关系强度的一个统计量若相关系数是根据总体全部数据计算的,称为总体相关系数,记为

若是根据样本数据计算的,则称为样本相关系数,简称为相关系数,记为r也称为Pearson相关系数(Pearson’scorrelationcoefficient)样本相关系数的计算公式

性质1:r的取值范围是[-1,1]|r|=1,为完全相关;r=0,不存在线性相关关系-1

r<0,为负相关;0<r

1,为正相关|r|越趋于1表示关系越强;|r|越趋于0表示关系越弱性质2:r具有对称性。即x与y之间的相关系数和y与x之间的相关系数相等,即rxy=ryx性质3:r数值大小与x和y原点及尺度无关,即改变x和y的数据原点及计量尺度,并不改变r数值大小性质4:仅仅是x与y之间线性关系的一个度量,它不能用于描述非线性关系。这意为着,r=0只表示两个变量之间不存在线性相关关系,并不说明变量之间没有任何关系性质5:r虽然是两个变量之间线性关系的一个度量,却不一定意味着x与y一定有因果关系

10.1

变量间的关系相关关系——相关系数检验

10.1

变量间的关系

每股收益每股净资产每股现金流量总股本每股收益1.0000000.8862920.5989710.254539每股净资产0.8862921.0000000.4821340.521195每股现金流量0.5989710.4821341.0000000.147115总股本0.2545390.5211950.1471151.000000

每股收益每股净资产每股现金流量总股本每股收益03.76E-090.001557960.21949每股净资产3.76E-0900.014660.00754821每股现金流量0.001557960.0146600.482835总股本0.219490.007548210.4828350什么是回归分析因变量(dependentvariable)也称响应变量(responsevariable),用y表示如果分析的目的是想利用其余变量解释因变量时,因变量也称为被解释变量如果分析的目的是想利用其余变量来预测因变量时,因变量也称为被预测变量自变量(independentvariable)用来预测或解释因变量的一个或多个变量称为,用x表示当用自变量解释因变量时,自变量也称为解释变量(explainingvariable)当用自变量预测因变量时,自变量也称为预测变量(predictorvariable)

10.2

一元线性回归回归分析如果特别关注其中的某个变量,比如,特别关注每股收益,而将其余变量看作是影响每股收益的因素,分析的目的是想利用其余变量来解释或预测每股收益,这就是回归分析只涉及一个自变量时称为一元回归,涉及多个自变量时则称为多元回归。如果因变量与自变量之间是线性关系,则称为线性回归(linearregression);如果因变量与自变量之间是非线性关系,则称为非线性回归(nonlinearregression)。本章主要介绍线性回归模型估计——回归模型与回归方程

模型假定——因变量x与自变量y之间为线性关系在重复抽样中,自变量x的取值是固定的,即假定x是非随机的误差项

满足正态性。是一个服从正态分布的随机变量,且期望值为0,即

~N(0,

2)。对于一个给定的x值,y的期望值为E(y)=

0+

1x方差齐性。对于所有的x值,

的方差一个特定的值,的方差也都等于2都相同。同样,一个特定的x值,y的方差也都等于

2独立性。独立性意味着对于一个特定的x值,它所对应的ε与其他x值所对应的ε不相关;对于一个特定的x值,它所对应的y值与其他x所对应的y值也不相关

10.2

一元线性回归参数的最小二乘估计

10.2

一元线性回归参数的最小二乘法估计——例题分析

10.2

一元线性回归

dfsum_sqmean_sqFPR(>F)每股净资产1272.995423272.99542384.2331590.00000Residual2374.5418413.240950NaNNaN模型评估和检验——拟合优度——误差分解总平方和(SST—totalsumofsquares)反映因变量的n个观察值与其均值的总误差回归平方和(SSR—sumofsquaresofregression)反映自变量x的变化对因变量y取值变化的影响,或者说,是由于x与y之间的线性关系引起的y的取值变化,也称为可解释的平方和残差平方和(SSE—sumofsquaresoferror)反映除x以外的其他因素对y取值的影响,也称为不可解释的平方和或剩余平方和

10.2

一元线性回归模型评估和检验——拟合优度——决定系数R2——残差的标准误

残差的标准误实际观察值与回归估计值误差平方和的均方根反映实际观察值在回归直线周围的分散状况对误差项

的标准差

的估计,是在排除了x对y的线性影响后,y随机波动大小的一个估计量估计的回归方程预测y时预测误差的大小计算公式为

10.2

一元线性回归模型评估和检验——模型检验——F检验——t检验

10.2

一元线性回归回归预测——置信区间和预测区间

10.2

一元线性回归回归预测——置信区间和预测区间——例题分析

10.3

一元线性回归

ObsDepVarPopulationPredictedMeanciMeanciPredictciPredictciResidualValue95%low95%upp95%low95%upp010.881.070.12.04-2.784.92-0.19121.143.532.794.28-0.277.33-2.39234.886.425.477.362.5710.26-1.54343.232.111.272.95-1.715.921.12457.837.676.528.813.7711.560.16

模型诊断——残差与标准化残差残差—因变量的观测值与预测值之差,用e表示反映了用估计的回归方程去预测而引起的误差可用于确定有关误差项

的假定是否成立

标准化残差—残差除以它的标准差残差图—模型诊断工具

10.2

一元线性回归模型诊断——例题分析

10.2

一元线性回归多元线性回归模型及其假定

10.3

多元线性回归多元线性回归模型的估计方程

10.3

多元线性回归

参数的最小二乘估计——例题分析【例10-5】

沿用例10-1。建立多元线性回归模型

10.3

多元线性回归模型估计参数的最小二乘估计——例题分析【例10-5】——方差分析表

10.3

多元线性回归

dfsum_sqmean_sqFPR(>F)每股净资产1.0272.995423272.995423128.2290922.105681e-10每股现金流量1.013.34230713.3423076.2670352.062595e-02总股本1.016.49124016.4912407.7461251.114149e-02Residual21.044.7082942.128966NaNNaN自变量的相对重要性——标准化回归系数

10.3

多元线性回归模型的拟合优度——多重决定系数——估计标准误差

估计标准误差——对误差项

的标准差

的一个估计值,计算公式为

详见Python输出

10.3

多元线性回归模型的显著性检验——线性关系检验(F检验)检验因变量与所有自变量之间的线性关系是否显著也被称为总体的显著性检验检验方法是将回归均方(MSR)同残差均方(MSE)加以比较,应用F检验来分析二者之间的差别是否显著如果是显著的,因变量与自变量之间存在线性关系如果不显著,因变量与自变量之间不存在线性关系

10.3

多元线性回归模型的显著性检验——回归系数检验(t检验)

详见Python输出

10.3

多元线性回归共线性分析——多重共线性的识别

10.3

多元线性回归多重共线性的识别——例题分析【例10-5】VIF统计量

10

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论