版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
StatisticswithPython
统计学
基于Python
2023/12/19
课程内容描述统计、推断统计、其他方法使用软件
Python
语言学分与课时3学分,1~17周,每周3课时课程简介贾俊平2023/12/1910.1变量间的关系10.2一元线性回归10.3多元线性回归第10章回归分析变量间的关系——回归建模需要清楚的问题建立回归模型时,首先需要弄清楚变量之间的关系分析变量之间的关系需要解决下面的问题变量之间是否存在关系如果存在,它们之间是什么样的关系变量之间的关系强度如何样本所反映的变量之间的关系能否代表总体变量之间的关系
10.1
变量间的关系变量间的关系——函数关系与相关关系函数关系对应的确定关系设有两个变量x和y,变量y随变量x一起变化,并完全依赖于x,当变量x取某个数值时,y依确定的关系取相应的值,则称y是x的函数,记为y=f(x),其中x称为自变量,y称为因变量各观测点落在一条线上
10.1
变量间的关系
相关关系的描述——散点图——例题分析【例10-1】
为研究上市公司各项指标之间的关系,随机抽取25家上市公司,得到4项财务数据如表10-1所示。绘制4个变量的散点图分析它们之间的关系
10.1
变量间的关系样本编号每股收益(元)每股净资产(元)每股现金流量(元)总股本(亿股)10.885.861.502.2821.1411.134.959.0934.8817.301.937.3743.238.081.801.4557.8319.974.136.32…………………………2115.6529.8212.905.39221.669.570.954.45231.2510.962.586.79240.477.351.482.53256.8613.9422.806.43关系强度的度量——相关系数——性质与解读度量变量之间线性关系强度的一个统计量若相关系数是根据总体全部数据计算的,称为总体相关系数,记为
若是根据样本数据计算的,则称为样本相关系数,简称为相关系数,记为r也称为Pearson相关系数(Pearson’scorrelationcoefficient)样本相关系数的计算公式
性质1:r的取值范围是[-1,1]|r|=1,为完全相关;r=0,不存在线性相关关系-1
r<0,为负相关;0<r
1,为正相关|r|越趋于1表示关系越强;|r|越趋于0表示关系越弱性质2:r具有对称性。即x与y之间的相关系数和y与x之间的相关系数相等,即rxy=ryx性质3:r数值大小与x和y原点及尺度无关,即改变x和y的数据原点及计量尺度,并不改变r数值大小性质4:仅仅是x与y之间线性关系的一个度量,它不能用于描述非线性关系。这意为着,r=0只表示两个变量之间不存在线性相关关系,并不说明变量之间没有任何关系性质5:r虽然是两个变量之间线性关系的一个度量,却不一定意味着x与y一定有因果关系
10.1
变量间的关系相关关系——相关系数检验
10.1
变量间的关系
每股收益每股净资产每股现金流量总股本每股收益1.0000000.8862920.5989710.254539每股净资产0.8862921.0000000.4821340.521195每股现金流量0.5989710.4821341.0000000.147115总股本0.2545390.5211950.1471151.000000
每股收益每股净资产每股现金流量总股本每股收益03.76E-090.001557960.21949每股净资产3.76E-0900.014660.00754821每股现金流量0.001557960.0146600.482835总股本0.219490.007548210.4828350什么是回归分析因变量(dependentvariable)也称响应变量(responsevariable),用y表示如果分析的目的是想利用其余变量解释因变量时,因变量也称为被解释变量如果分析的目的是想利用其余变量来预测因变量时,因变量也称为被预测变量自变量(independentvariable)用来预测或解释因变量的一个或多个变量称为,用x表示当用自变量解释因变量时,自变量也称为解释变量(explainingvariable)当用自变量预测因变量时,自变量也称为预测变量(predictorvariable)
10.2
一元线性回归回归分析如果特别关注其中的某个变量,比如,特别关注每股收益,而将其余变量看作是影响每股收益的因素,分析的目的是想利用其余变量来解释或预测每股收益,这就是回归分析只涉及一个自变量时称为一元回归,涉及多个自变量时则称为多元回归。如果因变量与自变量之间是线性关系,则称为线性回归(linearregression);如果因变量与自变量之间是非线性关系,则称为非线性回归(nonlinearregression)。本章主要介绍线性回归模型估计——回归模型与回归方程
模型假定——因变量x与自变量y之间为线性关系在重复抽样中,自变量x的取值是固定的,即假定x是非随机的误差项
满足正态性。是一个服从正态分布的随机变量,且期望值为0,即
~N(0,
2)。对于一个给定的x值,y的期望值为E(y)=
0+
1x方差齐性。对于所有的x值,
的方差一个特定的值,的方差也都等于2都相同。同样,一个特定的x值,y的方差也都等于
2独立性。独立性意味着对于一个特定的x值,它所对应的ε与其他x值所对应的ε不相关;对于一个特定的x值,它所对应的y值与其他x所对应的y值也不相关
10.2
一元线性回归参数的最小二乘估计
10.2
一元线性回归参数的最小二乘法估计——例题分析
10.2
一元线性回归
dfsum_sqmean_sqFPR(>F)每股净资产1272.995423272.99542384.2331590.00000Residual2374.5418413.240950NaNNaN模型评估和检验——拟合优度——误差分解总平方和(SST—totalsumofsquares)反映因变量的n个观察值与其均值的总误差回归平方和(SSR—sumofsquaresofregression)反映自变量x的变化对因变量y取值变化的影响,或者说,是由于x与y之间的线性关系引起的y的取值变化,也称为可解释的平方和残差平方和(SSE—sumofsquaresoferror)反映除x以外的其他因素对y取值的影响,也称为不可解释的平方和或剩余平方和
10.2
一元线性回归模型评估和检验——拟合优度——决定系数R2——残差的标准误
残差的标准误实际观察值与回归估计值误差平方和的均方根反映实际观察值在回归直线周围的分散状况对误差项
的标准差
的估计,是在排除了x对y的线性影响后,y随机波动大小的一个估计量估计的回归方程预测y时预测误差的大小计算公式为
10.2
一元线性回归模型评估和检验——模型检验——F检验——t检验
10.2
一元线性回归回归预测——置信区间和预测区间
10.2
一元线性回归回归预测——置信区间和预测区间——例题分析
10.3
一元线性回归
ObsDepVarPopulationPredictedMeanciMeanciPredictciPredictciResidualValue95%low95%upp95%low95%upp010.881.070.12.04-2.784.92-0.19121.143.532.794.28-0.277.33-2.39234.886.425.477.362.5710.26-1.54343.232.111.272.95-1.715.921.12457.837.676.528.813.7711.560.16
模型诊断——残差与标准化残差残差—因变量的观测值与预测值之差,用e表示反映了用估计的回归方程去预测而引起的误差可用于确定有关误差项
的假定是否成立
标准化残差—残差除以它的标准差残差图—模型诊断工具
10.2
一元线性回归模型诊断——例题分析
10.2
一元线性回归多元线性回归模型及其假定
10.3
多元线性回归多元线性回归模型的估计方程
10.3
多元线性回归
参数的最小二乘估计——例题分析【例10-5】
沿用例10-1。建立多元线性回归模型
10.3
多元线性回归模型估计参数的最小二乘估计——例题分析【例10-5】——方差分析表
10.3
多元线性回归
dfsum_sqmean_sqFPR(>F)每股净资产1.0272.995423272.995423128.2290922.105681e-10每股现金流量1.013.34230713.3423076.2670352.062595e-02总股本1.016.49124016.4912407.7461251.114149e-02Residual21.044.7082942.128966NaNNaN自变量的相对重要性——标准化回归系数
10.3
多元线性回归模型的拟合优度——多重决定系数——估计标准误差
估计标准误差——对误差项
的标准差
的一个估计值,计算公式为
详见Python输出
10.3
多元线性回归模型的显著性检验——线性关系检验(F检验)检验因变量与所有自变量之间的线性关系是否显著也被称为总体的显著性检验检验方法是将回归均方(MSR)同残差均方(MSE)加以比较,应用F检验来分析二者之间的差别是否显著如果是显著的,因变量与自变量之间存在线性关系如果不显著,因变量与自变量之间不存在线性关系
10.3
多元线性回归模型的显著性检验——回归系数检验(t检验)
详见Python输出
10.3
多元线性回归共线性分析——多重共线性的识别
10.3
多元线性回归多重共线性的识别——例题分析【例10-5】VIF统计量
10
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026江苏扬州市公共交通集团有限责任公司招聘2人备考题库附答案详解
- 2026四川九州光电子技术有限公司招聘高级销售经理1人备考题库含答案详解(精练)
- 2026江苏南京信息工程大学教学科研岗招聘73人备考题库(第一批)附答案详解(完整版)
- 2026江西南通市教育局部分直属学校春季招聘教师145人备考题库附答案详解(b卷)
- 2026山西淄博市市立医院合同制专业技术人员长期招聘备考题库含答案详解(巩固)
- 2026航天五院遥感卫星总体部校园招聘提前批笔试历年参考题库附带答案详解
- 2026海南保亭黎族苗族自治县菜篮子发展有限责任公司第二批招聘编外人员4人笔试历年参考题库附带答案详解
- 2026江西赣州信丰县谷山景区运营有限公司翠云楼分部招聘工作人员9人笔试历年参考题库附带答案详解
- 2026年中国华电集团有限公司“青年骏才”招聘和校园招聘笔试历年参考题库附带答案详解
- 2026云南曲靖罗平县选聘云南震东工业集团财务总监1人笔试历年参考题库附带答案详解
- 火力发电厂机组A级检修监理大纲
- 小狐狸买手套
- 气流组织课件
- 电离辐射危害及预防方法
- 系统解剖学课件:内脏神经
- GB/T 15587-2023能源管理体系分阶段实施指南
- 职业技能竞赛钢结构工程质量检测决赛钢结构焊缝质量检测理论题库多选题
- 数据库原理及应用-课件
- GB/T 1981.2-2009电气绝缘用漆第2部分:试验方法
- GB/T 19208-2008硫化橡胶粉
- 《内部控制》第四章-风险评估课件
评论
0/150
提交评论