版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第一节
相关分析基本问题一、相关关系与函数关系(一)函数关系指的是现象间存在的一一对应的确定关系,即对一个变量的任何一个值,另一个变量都有唯一确定的值与之相对应。xy(二)相关关系指的是现象之间存在的非确定性的数量依存关系,即现象之间虽然存在着数量依存关系,一个现象发生数量上的变化时,另一个现象数量水平也会相应地发现变化,但这种数量关系并不是严格一一对应。xy相关关系和函数关系既有区别,又有联系。二、相关关系的类型(一)按照相关关系涉及变量(或因素)的多少分为单相关和复相关(二)按照相关形式不同分为线性相关和非线性相关(三)按照相关现象变化的方向不同分为正相关和负相关(四)按相关程度不同分为完全相关、不完全相关和无相关xyxyxy完全正线性相关xyxyxyxyxy完全负线性相关非线性相关正线性相关负线性相关不相关三、相关分析的基本步骤第一步:判断确定现象之间有无关系以及相关关系的具体表现形式第二步:计算相关系数,确定相关关系的密切程度第三步:检测相关关系的显著性第二节
相关关系的测定一、相关关系的一般判断(一)定性判断(二)相关表和相关图年份城镇居民家庭人均可支配收入(元)城镇居民家庭人均消费性支出(元)199669565764199773596170199878376218199984286522200092797020200110465795220021171687132003131809713200414546106362005162941225420061826513349200720574140912008227271515820092461116683201027359178582011309712043720123455021545201337080252542014403932724220154371428661某省的城镇居民家庭人均可支配收入和人均消费性支出相关表某省城镇居民家庭人均可支配收入和人均消费性支出相关图(计量单位:元)二、相关系数的测定(一)皮尔逊直线相关系数简化公式:年份城镇居民家庭人均可支配收入(元)
城镇居民家庭人均消费性支出(元)
19966956576440094384483859363322369619977359617045405030541548813806890019987837621848730466614185693866352419998428652254967416710311844253648420009279702065138580860998414928040020011046579528321768010951622563234304200211716871310208150813726465675916369200313180971312801734017371240094342369200414546106361547112562115861161131244962005162941225419966667626549443615016051620061826513349243819485333610225178195801200720574140912899082344232894761985562812008227271515834449586651651652922976496420092461116683410585313605701321278322489201027359178584885770227485148813189081642011309712043763295432795920284141767096920123455021545744379750119370250046418702520133708025254936418320137492640063776451620144039327242110038610616315944497421265642015437142866112528869541910913796821452921合计4063042812407366441713109166366624985500752相关系数计算表当r=0时,表示两变量间无线性相关关系。0<|r|<0.3,表示两变量间存在微弱相关;0.3≤|r|<0.5,表示两变量间存在低相关(弱相关);0.5≤|r|<0.8,表示两变量间存在显著相关(中相关);
,表示两变量间存在高度相关;当|r|=1时,表示两变量存在完全线性相关,即为函数关系
判断相关关系密切程度的标准(二)斯皮尔曼相关系数由英国统计学家斯皮尔曼在皮尔逊积差法思想的基础上,推导出计算等级相关系数的方法,也被称为“等级差数法”1.相关系数不能解释两变量间的因果关系2.警惕虚假相关导致的错误结论3.注意不要在相关关系据以成立的数据范围以外,推论这种相关关系仍然保持第三节
回归分析一、回归分析的概述(一)回归的概念“回归”一词是由英国生物学家F.Galton在研究人体身高的遗传问题时首先提出的。
根据遗传学的观点,子辈的身高受父辈影响。一般而言,父辈身高者,其子辈身高也高,依此推论,祖祖辈辈遗传下来,身高必然向两极分化,而事实上并非如此,显然有一种力量将身高拉向中心,即子辈的身高有向中心回归的特点。2023/7/27191877年弗朗西斯•高尔顿爵士遗传学研究回归线平均身高平均身高回归:退回regression(二)回归分析和相关分析的联系和区别联系:(1)相关分析是回归分析的基础和前提
(2)回归分析是相关分析的深入和继续区别:(1)在相关分析中涉及的变量不存在自变量和因变量的划分问题,变量之间的关系是对等的;而在回归分析中,则必须根据研究对象的性质和研究分析的目的,对变量进行自变量和因变量的划分(2)在相关分析中所有的变量都必须是随机变量;而在回归分析中,自变量是给定的,因变量才是随机的(3)相关分析主要是通过一个指标即相关系数来反映变量之间相关程度的大小,由于变量之间是对等的,因此相关系数是惟一确定的。而在回归分析中,对于互为因果的两个变量(如人的身高与体重,商品的价格与需求量),则有可能存在多个回归方程。(4)相关分析的目的仅仅是判断现象之间存不存在相互依存关系,而回归分析的目的则在于根据自变量去估计或预测因变量(三)回归分析的主要内容1.根据研究目的和现象之间的内在联系,确定自变量和因变量2.确定回归分析模型的类型及数学表达式3.对回归分析模型进行评价与诊断2023/7/2723(四)回归分析模型的种类一个自变量两个及两个以上自变量回归模型多元回归一元回归线性回归非线性回归线性回归非线性回归二、简单线性回归分析(一)简单线性回归模型理论模型:估计模型:(二)简单线性回归模型的参数估计拟合回归直线的主要任务是估计待定参数
、
的值,常用的方法就是最小二乘法OLS(OrdinaryLeastSquares),用这种方法求出的回归直线是原始数据的“最佳”拟合直线用直线方程代入
分别求关于和的偏导并令它们等于0:整理可得出以下列两个方程式所组成的标准方程组为:
解得:回归系数
是回归直线的斜率,其含义为:自变量X每增加(或减少)一个单位,因变量Y
将平均增加(或减少)
个单位2023/7/27281.样本的拟合优度——可决系数r21.回归平方和占总离差平方和的比例反映回归直线的拟合程度取值范围在[0,1]之间r21,说明回归方程拟合的越好;r20,说明回归方程拟合的越差判定系数等于相关系数的平方,即r2=(r)2(三)线性回归模型的检验前面论证的OLS法已经使我们所估计的样本回归函数具有最小离差,为什么还要讨论拟合优度的问题。这是因为OLS估计式具有最小方差性和无偏性,只是反映了这样一个事实,即相对于一切样本回归函数来说,由OLS估计式所确定的样本回归函数具有某些特性,但它并不能说明单个样本回归函数具有较高的拟合程度。2023/7/2730因变量y的取值是不同的,y取值的这种波动称为离差。离差来源于两个方面由于自变量x的取值不同造成的除x以外的其他因素(如x对y的非线性影响、测量误差等)的影响对一个具体的观测值来说,离差的大小可以通过该实际观测值与其均值之差来表示。2023/7/2731xyy离差分解图2023/7/27322.估计标准误差Syx实际观察值与回归估计值离差平方和的均方根反映实际观察值在回归直线周围的分散状况从另一个角度说明了回归直线的拟合程度计算公式为3.模型整体拟合效果的显著性检验——F检验根据
,由方差分析原理可知,当随机误差项服从正态分布时,应该有:SSR~,SSE~
,所以,有F统计量:当回归方程拟合效果越好,表明方程解释部分所占比重越大,SSR与SSE相比的值也越大,F统计量也越大。因此,方程整体显著性检验的假设为:
(回归方程整体是不显著的)
(回归方程整体是显著的)
在给定显著性水平
之下,若:
,则拒绝原假设,认为回归方程整体是显著的。4.模型参数显著性的检验——t检验模型参数显著性检验主要是判断每一个自变量对于回归模型是否必要。在一元线性回归模型中,主要是检验模型系数理论值
和
是否显著地等于零。如果模型的误差项是符合建模假设的,则有:因此,截距项
的t检验为:在原假设成立时,t统计量为:在给定的显著性水平之下,若该t统计量值大于
,则拒绝原假设,认为截距项是显著的。否则,应该考虑拟合无截距项的直线回归模型。同样地,回归系数
的t检验为:在原假设成立时,t
统计量为:若该t统计量值大于
,则拒绝原假设,认为回归系数对方程的影响是显著的,或自变量是重要的。否则,说明该参数显著为零,该自变量对模型的影响是不重要的,应该考虑更换或变换该变量。(1)t检验不适用于检验理论的有效性(2)t检验不检验“重要性”(3)t检验不能扩展到检验整个总体(四)线性回归模型因变量的置信区间估计意义:根据回归估计标准误进一步对因变量y进行估计或推断,确定y的回归估计置信区间。两个假设:y的实际观测值在估计值周围呈正态分布即正态性;所有的正态分布具有相同的标准差,即同方差性。估计区间2023/7/2740三、多元线性回归分析
(概念要点)一个因变量与两个及两个以上自变量之间的回归描述因变量y如何依赖于自变量x1
,x2
,…,xp
和误差项
的方程称为多元线性回归模型涉及p个自变量的多元线性回归模型可表示为
b0,b1,b2
,,bp是参数
是被称为误差项的随机变量
y是x1,,x2,,xp
的线性函数加上误差项
说明了包含在y里面但不能被p个自变量的线性关系所解释的变异性2023/7/2741对于n组实际观察数据(yi;xi1,,xi2,,xip),(i=1,2,…,n),多元线性回归模型可表示为y1
=b0+b1x11+b2x12
++
bpx1p
+e1y2=b0+b1x21
+b2x22
++
bpx2p
+e2
yn=b0+b1xn1
+b2xn2
++
bpxnp
+en{……2023/7/2742四、非线性回归分析基本概念非线性模型及其线性化方法1. 因变量y与x之间不是线性关系2. 可通过变量代换转
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 广东省揭阳市产业园区重点名校2026年初三下学期四月调研测试语文试题含解析
- 人力资源管理模板库及员工培训计划制定器
- 乡村帮贫扶弱承诺书5篇
- 人力资源发展规划模板行业
- 物流管理人员提升供应链管理效率指导书
- 坚守信用的承诺书6篇范文
- 新型城镇化发展成果承诺函(8篇)
- 家校共育质量提升承诺书(4篇)
- 现代制造业技术创新责任书(9篇)
- 创新驱动科技持续进步承诺书范文6篇
- 楼面建筑防水施工方案
- 2025年上海可行性研究报告收费标准
- 吴忠水泥排水管施工方案
- 周哈里窗的课件
- DB63∕T 1887-2021 青海高原绿色勘查规范
- 美团城市合伙人合同协议
- 商用车汽车构造课件
- 2025年国企融媒体考试题库
- 第01讲戏剧的矛盾冲突(练习)(原卷版)
- 哮喘的中医护理
- 公路工程2018预算定额释义手册
评论
0/150
提交评论