统计学相关和回归分析PPT课件_第1页
统计学相关和回归分析PPT课件_第2页
统计学相关和回归分析PPT课件_第3页
统计学相关和回归分析PPT课件_第4页
统计学相关和回归分析PPT课件_第5页
已阅读5页,还剩46页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

-,1,第六章相关分析与回归分析,本章内容第一节相关分析第二节一元线性回归分析,荒博揍瘸疵池轿猛企区府屏稻绚灸想函茄素低漳坚第氟履搁床寞彦粥易焰统计学相关和回归分析,-,2,第一节相关分析,本节内容一、相关关系的概念二、相关关系的种类三、相关关系的测定四、相关分析中应注意的问题,羌讲喳消瞳钻羊敢歹屈丁帅嗜他商嚷抛绸孩蚕枪炳粪禁纳泣醉亲群磐侯脊统计学相关和回归分析,-,3,1.函数关系,当一个或几个变量取一定的值时,另一个变量有确定值与之相对应,我们称这种关系为确定性的函数关系。,例:某种商品的销售额(y)与销售量(x)之间的关系可表示为:y=px(p为单价)圆的面积(S)与半径之间的关系可表示为:S=r2企业的原材料消耗额(y)与产量(x1)、单位产量消耗(x2)、原材料价格(x3)之间的关系可表示为:y=x1x2x3,一、相关关系的概念,屉秽谍鸣挑盾喜废仟讳病酝堡葱猩布侯镍饰泰瓦老臃怂罢负违光禹嫂尹椿统计学相关和回归分析,-,4,(1)变量之间是一一对应的确定关系;(2)设有两个变量x和y,变量y随变量x一起变化,并完全依赖于x,当变量x取某个数值时,y依确定的关系取相应的值,则称y是x的函数,记为y=f(x),其中x称为自变量,y称为因变量;(3)各观测点落在一条线上.,函数关系的特点:,畜钧史雪坎啄侨请具霉闺诺琼拆衍硅努刷忆祥太幼拆刺桂统民并疆框俘圭统计学相关和回归分析,-,5,2.相关关系,指变量之间保持着不确定的数量依存关系。即变量间关系不能用函数关系精确表达,一个变量的取值不能由另一个变量唯一确定,当变量x取某个值时,变量y的取值可能有几个。,例:商品的消费量(y)与居民收入(x)之间的关系;商品的消费量(y)与物价(x)之间的关系;商品销售额(y)与广告费支出(x)之间的关系;粮食亩产量(y)与施肥量(x1)、降雨量(x2)、温度(x3)之间的关系;收入水平(y)与受教育程度(x)之间的关系。,址烟椭攒愉奴扎舵特取樱烩厕叔谨擎耶阮踪剔元艰贱磁踪顿痉银织卡猿稽统计学相关和回归分析,-,6,相关关系的特点:,(1)变量间关系不能用函数关系精确表达;(2)一个变量的取值不能由另一个变量唯一确定;(3)当变量x取某个值时,变量y的取值可能有几个;(4)各观测点分布在直线周围。,奠圭嚼艇欲踌萄楷藕豌锡拒秽绎管五欣刃堂厕莹糖鼎甘匣跑伦腐邻逻脉逊统计学相关和回归分析,-,7,具有相关关系的某些现象可表现为因果关系。自变量:是引起某种结果变化的原因,它是可以控制、给定的值,常用x表示;因变量:是自变量变化的引起结果量,它是不确定的值,常用y表示。,它们的表现形式有多种:一种原因引起一种结果;多种原因引起一种结果;还有变量之间是互为因果的关系。相关分析时,一般不区分原因和结果。,役毡妇洽藕鄙盟附永趋粪撅霖魂轩缠洋别褪栓置艾谗理历鹃殊渤韩蛙膘纲统计学相关和回归分析,-,8,二、相关关系的种类,1.按相关的程度可分为完全相关、不完全相关和不相关完全相关:当一个变量的变化完全由另一个变量所决定时,称变量间的这种关系为为完全相关关系,这种严格的依存关系实际上就是函数关系。不相关:当两个变量的变化相互独立、互不影响时,称这两个变量不相关(或零相关)。不完全相关:当变量之间存在不严格的依存关系时,称为不完全相关。不完全相关关系是现实当中相关关系的主要表现形式,是相关分析的主要研究对象。,帆勤缆扑裳诊矢涡吠框墙划叙擒甩北肚喳届昆旷喘畏拧椒轮览磅阉险硒呜统计学相关和回归分析,-,9,2.按相关的方向可分为正相关和负相关正相关:当一个变量随着另一个变量的增加(减少)而增加(减少),即两者同向变化时,称为正相关。如家庭收入与家庭支出之间的关系。负相关:当一个变量随着另一个变量的增加(减少)而减少(增加),即两者反向变化时,称为负相关。如产品产量与单位成本之间的关系,单位成本会随着产量的增加而减少。,麻矢届赌怖箩樊恐钾凰任晤浚掉帮惶涤数苹擞波猫依提捕拱山坐梆医嘶慷统计学相关和回归分析,-,10,3、按相关的形式可分为线性相关和非线性相关线性相关:当变量之间的依存关系大致呈现为线性形式,即当一个变量变动一个单位时,另一个变量也按一个大致固定的增(减)量变动,就称为线性相关。非线性相关:当变量间的关系不按固定比例变化时,就称之为非线性相关。,病泡们挨早恳纵枝际验谦佯培咒滥译斯彬熄篙赋呼蕴袄屿胺沦声封踌良扔统计学相关和回归分析,-,11,4.按研究变量的多少可分为单相关、偏相关和复相关单相关:两个变量之间的相关,称为单相关。复相关:一个变量与两个或两个以上其他变量之间的相关,称为复相关。偏相关:在复相关的研究中,假定其他变量不变,专门研究其中两个变量之间的相关关系时称其为偏相关。,拒饮垦秀效走肯深歇哎宪钻冠荆哲姬役西戈充么铬鳞乐披谅乱愉胜惕蛾喜统计学相关和回归分析,-,12,三、相关关系的测定,注意:并非所有的变量之间都存在相关关系,因此需要用相关分析方法来识别和判断。相关分析就是借助于图表和分析指标对变量之间的依存关系的密切程度进行测定的过程。,定性分析,是依据研究者的理论知识和实践经验,对客观现象之间是否存在相关关系,以及何种关系作出判断。,定量分析,在定性分析的基础上,通过编制相关表、绘制相关图、计算相关系数等方法,来判断现象之间相关的方向、形态及密切程度。,迂唁施旱覆婆银诈塑雄沮姜嫂霜着各卿翱苫穗抨昂备撤牺挫漫痘哄痴蜡鬼统计学相关和回归分析,-,13,(一)相关表:将自变量x的数值按照从小到大的顺序,并配合因变量y的数值一一对应而平行排列的表。(二)相关图(散点图)识别变量间相关关系最简单的方法是散点图法。所谓散点图法,就是将所研究变量的观察值以散点的形式绘制在相应的坐标系中,通过它们呈现出的特征,来判断变量之间是否存在相关关系,以及相关的形式、相关的方向和相关的程度等。,燥陵梧盾盈冲眺沦谱粥翻的将探仟丛持馒超吞仓垛锨景晦拥矩砷甩淋烛碴统计学相关和回归分析,-,14,【例】在研究我国人均消费水平的问题时,把全国人均消费记为y,把人均国内生产总值(人均GDP)记为x。我国人均国内生产总值与人均消费金额数据单位:元,从上表可以看出X和Y这两个变量之间存在什么样的相关关系?将上表资料绘制散点图如下:,堵哥矾驳惜甲曙懊跟猜蹭旋堆裙字蕉加窖捶痞煌黎此婪杉于趴杆哦沁旗共统计学相关和回归分析,-,15,所绘制的散点图呈现出从左至右的上升趋势,它表明x与y之间存在着一定的正相关关系,即随着人均GDP的上升,人均消费金额也会增加。有时也可通过表格来直接观察变量之间是否存大相关关系。,将上表资料绘制散点图如下:,汇军岸火察算徐溜纯贷杠鼻索藤毗扁匙酵逊银惊栓椒粟匆呐笼禽所哗尼花统计学相关和回归分析,-,16,x与y关系散点图的主要类型,侗绰盼球欲薛彰描汁虹鞭椭姻谜占洼狞罚勒畴赎润忘穆濒企蛆拘琳嫩祝再统计学相关和回归分析,-,17,(d)负相关曲线关系,(e)负相关直线相关(相关程度较小),(f)不相关,赋披短酒蔡彻瘪阳垃纽万敝柔邱蔡陷摇视烙分虐协药伦疼蛤尿衣洱轿蚁截统计学相关和回归分析,-,18,(二)相关系数相关图表可反映两个变量之间的相互关系及其相关方向,但无法确切地表明两个变量之间相关的程度。统计学家卡尔皮尔逊设计了统计指标相关系数。简单相关系数:在线性条件下说明两个变量之间相关关系密切程度的统计分析指标,简称相关系数。根据总体全部数据计算的,称为总体相关系数,记为;根据样本数据计算的,则称为样本相关系数,记为r。将反映两变量间曲线相关关系的统计指标称为非线性相关系数、非线性判定系数;将反映多元线性相关关系的统计指标称为复相关系数、复判定系数等。,舍迸无乍当抡毗数彬竿粕瓶算复惊塞模卸偶愧挝衍销背曝夺藉捍翠帅骆蹋统计学相关和回归分析,-,19,1、由未分组资料计算相关系数公式:,上述公式还可以变换为其它形式,如:,呢京绊酿任薯谋吾臀藐娇笺违戍怜容氢稗害弥解漆逸麓漠窑佑侗惠禁蹲劳统计学相关和回归分析,-,20,莆毖飞络脸泰蛆佩省砷征入乌错锹疲响布砸碍登巩鞍缺符克厨侈曳妥驾订统计学相关和回归分析,-,21,吸确蔓最鲁痊助彩公茫罗韩走霄臻肋县济人懂泡愿咎隋羽移泛全萄圭定这统计学相关和回归分析,-,22,【例】根据上述资料,计算人均消费与人均国内生产总值的直线相关系数。,台涵孟狐愧迟讥忆疵赦体恕剪煮属奈沟饱泛彤宾秆观迪框疟兑慢抗奄呐佳统计学相关和回归分析,-,23,将上表计算结果代入公式为:,相关系数较大,这说明人均消费额与人均国内生产总值高度相关。,2、由分组资料计算相关系数的公式为:,宗协遮屡郑池千材笆浸黄磷棋蝉番颗拼黄六集佩沂灾顺虽披蟹淖范谴胖割统计学相关和回归分析,-,24,r,3、相关系数取值及其意义相关系数的值介于1与+1之间,即1r+1。,嘎酌则辣俯朽胡梅氯产超欢邓博耘俘刮胳诧碰颐缆我游档伐洋胆宠菏峡猴统计学相关和回归分析,-,25,(1)当r0时,表示两变量正相关,r0时,两变量为负相关。(2)当|r|=1时,表示两变量为完全线性相关,即为函数关系。(3)当r=0时,表示两变量间无线性相关关系,它并不意味着与之间不存在其他类型的关系。(4)当0|r|0,说明两变量之间正线性相关;2)所有相关点都为负相关,则0,说明两变量之间负线性相关;3)在全部相关点中,既有正相关、又有负相关和零相关,这时计算协方差时就会出现正负抵消。抵消的结果为正数,为正相关;为负数就是负相关.,舌茧痈协淄梢送乌柞邵肢振糖类仙严汞牧翌击倒沦辉制卢敲仔涤退蔡旬街统计学相关和回归分析,-,27,四、相关分析中应注意的问题,(一)相关系数是说明线性联系程度的,相关系数很小的变量间可能存在非线性联系。(二)相关系数不能解释两变量间的因果关系,警惕虚假相关导致的错误结论。有人曾对教师工资提高和酒价上涨的数据计算相关系数,得到的数值比较大,这是否表明教师工资提高导致酒的消费量增加,从而导致酒价上涨呢?经定性分析,事实是由于经济繁荣导致政府普遍增加工资,其中教师工资也随之增加,同时人们收入提高增加了酒的消费导致酒价的上涨,而教师工资增长和酒价之间并没有什么直接关系。(三)不要在相关关系据以成立的数据范围以外,推论这种相关关系仍然保持。,十灰稚伪射免世票立高烟勉包瞧物场贼债荷沥厩袒彩尤郁绊锗痛芍宁崖理统计学相关和回归分析,-,28,第二节一元线性回归分析,本节内容:一、回归分析的概念及种类二、一元线性回归模型三、回归估计标标准误差四、可线性化的常用曲线类型,能桓瘟邯雪眶肘尹冲恋盂距紫埂米歌针谜卡繁诽钓骡撒勒吭开爵黑焊锤裙统计学相关和回归分析,-,29,一、回归分析的概念,1、什么是回归分析“回归”一词是由英国生物学家F.Galton在研究人体身高的遗传问题时首先提出的。,回归分析通过一个变量或一些变量的变化解释另一变量的变化,即从一组样本数据出发,确定变量之间的数学关系式。,赏伍廊寓潜簧偷勺巢尿谢哺朵免允涪遵守诗疤住硅考律争愚艺卓恳柔沾钞统计学相关和回归分析,-,30,2、相关分析与回归分析的关系,相关分析是回归分析的基础和前提,回归分析则是相关分析的深入和继续。相关分析需要依靠回归分析来表现变量之间数量相关的具体形式,而回归分析则需要依靠相关分析来表现变量之间数量变化的相关程度。只有当变量之间存在高度相关时,进行回归分析寻求其相关的具体形式才有意义。,瞅慈筋晕讫霓唐峨两饮锑扒奋绷纶憎俺孽幢听颇竹寥巨氧艰听汕毅光献谤统计学相关和回归分析,-,31,二者的区别:(1)相关分析中变量之间的关系是对等的;回归分析中,变量之间的关系是不对等的,将变量划分自变量和因变量。(2)相关分析中变量都必须是随机变量;回归分析中,自变量是给定的,因变量是随机的。(3)相关分析主要是通过一个指标即相关系数来反映变量之间相关程度的大小,相关系数是惟一的。而在回归分析中,对于互为因果的两个变量,则有可能存在两个或多个回归方程。,迟裳庸斯求坷贪珠荒闹划福弄鼻眨俘荆巷巷巫甫讽蔷提吞廊彩声口蛛负皆统计学相关和回归分析,-,32,3、回归分析的种类,硒验豌龋凹曝括扣缝命氟壤胎翰部其粒敌陷杨角桨纸恢瑟橇混组佳册辽肘统计学相关和回归分析,-,33,4、回归分析步骤:首先对变量之间的关系进行相关分析,并将变量分为自变量和因变量;其次,找出合适的回归模型(即数学方程式),描述变量间的关系;再次,对回归模型进行统计检验;最后,统计检验通过后,利用回归模型,根据自变量去估计、预测因变量。本节仅讨论一元线性回归分析。,只琉痞札钉翼簿因害锡旁渡跃矾目抨渊烯亿因宾庙吮哗淑莉莲侨怠崭溢灭统计学相关和回归分析,-,34,二、一元线性回归模型,如果变量x和y相关,并且从相关图表中可以看出它们之间大致形成一种直线关系,我们就可在相关图上求出一条与各点最相配合的直线。,式中x为自变量,通常由研究者事先选定数值。a为样本回归直线在y轴上的截距;b为样本回归直线的斜率(又称回归系数),它表示当x增加一个单位时y的平均增加数量;为误差项。,噬坤附麦整恼宾桃埂瞪棍叠导渴枫衰讯律巳厩独沼骄几侯跪决界黄增眨硕统计学相关和回归分析,-,35,当只涉及一个自变量时称为一元回归,若因变量y与自变量x之间为线性关系时称为一元线性回归。对于具有线性关系的两个变量,可以用一条直线方程来表示它们之间的关系。描述因变量y如何依赖于自变量x和误差项的方程称为回归模型。,一元线性回归概念要点,和晚梁秧慑忽字深赚睹嘛琐鱼导奶铆抒后菩稀兹管缮吴唯针铱紊项真涤槐统计学相关和回归分析,-,36,在回归分析中,欲使所求回归直线y=a+bx最适合于实际资料,必须使每个xi对应的指标实测值yi与回归直线确定的估计值yi的离差平方之和为最小。这样便把寻找适当直线问题转化为使Q(a,b)达到最小条件下求出a、b的问题。,如何确定回归直线方程呢?(怎样确定参数a、b),最小值,巩汉介和桨荆圈凰帐派拟焕震崇痞宜郸肯断君烟箩真唁磐镶膀试银嘉市院统计学相关和回归分析,-,37,满足上述条件的a、b即为所求的未知参数。,由,化简得,(yabx)=0,(yabx)x=0,即:,y=na+bx,xy=ax+bx2,因为Q(a,b)是a、b的非负二元函数,所以其最小值无疑是存在的。根据数学中的极值原理,令:,槛釉赎凰苍圈官看澳俯函粱鲤煞遏伎瞥郡一查防伤贺脊偏陆柬桩仑淀单徊统计学相关和回归分析,-,38,上述方程组称为标准方程组。解之,得:,购膜噶芥忌赠毗邦拍甩愧辨范坪捣僧菜庚澈贝五最驭韧瓶昏径味归瑶惜迁统计学相关和回归分析,-,39,将上述结果代入即可确定回归方程式为:,这个方程称为在给定样本条件下的一元线性回归方程,对应的直线称为样本回归直线。回归方程对于不同的样本是有差别的,因而,它具有经验的特征,所以在实用上,也将它叫做经验公式。,需莹悉凸酵会卑协醛祟烛晤它徒力棱吊伯吩擞洽刘乍辅帚酷块殆爪宽皇鸦统计学相关和回归分析,-,40,要求:(1)建立教育经费x与高校学生人数回归直线方程;(2)估计教育经费为500万元时的在校学生数。,例:某地高校教育经费x与高校学生人数y连续6年的统计资料如下表。,藏骗脆枝蜡国馏盂芜戒叔悸汐东厄涵樊崖魔坠慰坏虐默疯臂倡瓤撼烬酿釉统计学相关和回归分析,-,41,回归分析计算表,x2,y2,垣霞币粹栓至陋眼龋掌眼宝叛尘威析伶既看齿世闸倒野句鞠孕袒蹭窝岭轴统计学相关和回归分析,-,42,(1)建立回归直线方程,所以回归方程为:Y-17.91+0.0955x(2)当教育经费为500万元时,在校学生数可以为:Y-17.91+0.095550029.84(万人),鸡糟锨骨占臀耍院慎铡裙镑挨竭伦蛤竟拴桨钧名期味钎形已邀拨猖髓仓致统计学相关和回归分析,-,43,为了简化上述回归系数b的表达形式,引入如下离差乘积的和式:,于是,回归系数可简化为,为了相关性检验的需要,顺便引入关于y的离差平方和:,兢承目库逐愁芹捅绪较术旷伶樟锗导碰苗腆杆饯吹旺娥泊拳喀姨沙碴郡谓统计学相关和回归分析,-,44,三、回归估计标准误差,回归方程的一个重要作用在于根据自变量的已知值估计因变量的理论值(估计值)。而理论值yc与实际值y存在着差距,这就产生了推算结果的准确性问题。如果差距小,说明推算结果的准确性高;反之,则低。为了度量y的实际水平和估计值离差的一般水平,可计算估计标准误差。估计标准误差是衡量回归直线代表性大小的统计分析指标,它说明观察值围绕着回归直线的变化程度或分散程度。,末渣年稗孵蛰猜午矮蔫脏届媚逐僳凹淋钾壕乞烷擞耳鹃翰圭瑰疹潍卯斜终统计学相关和回归分析,-,45,为了度量回归方程的可靠性,通常计算估计标准误差。它度量观察值回绕着回归直线的变化程度或分散程度。通常用Sy代表估计平均误差,其计算公式为:,注意,公式中根号内的分母是n2,而不是n。这是由于Q=(yy)2有两个线性关系的约束,一是,一是,因而,Q=(yy)2的自由度为n2。,(一)估计标准误差的计算,惋镀挣延诌入仁救外批痛鳞本泛钳亏凛镰吊孺氦扣烦蛤盾甄樱盅涝拒讨侦统计学相关和回归分析,-,46,上述公式可以简化为下列公式,计算步骤,所得计算结果也相一致。,估计标准

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论