已阅读5页,还剩29页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
相关统计之回归分析,1,本讲内容:,2,回归分析,回归分析线性回归建立线性回归方程回归直线的特点绘制回归直线估计值的标准误差,3,回归分析,两个变量之间的相关关系:,4,相关关系:对于两个变量,当自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系。函数关系中的两个变量间是一种确定性关系,相关关系是一种非确定性关系函数关系是一种理想的关系模型,相关关系在现实生活中大量存在,是更一般的情况。,回归分析线性回归,回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法.两个具有线性相关关系的变量的统计分析:线性回归是分析两个连续型变量之间依存变化的数量关系的统计方法。是回归分析中最基本、最简单的情况,因此称为简单回归。两个变量的地位是不同的,其中一个是自变量,也称解释变量,用X表示,可以是服从正态分布的随机变量,也可以是能精确测量和严格控制的非随机变量?;另一个是因变量,用Y表示。线性回归通常的假设为:1.自变量与因变量之间的关系有线性趋势(Linear).每个观察个体之间相互独立(Independent).给定x值,对应的y服从总体平均数为、方差为的正态分布。(NormalDistribution).不同所对应的方差相等,均为。(Equalvariance)为了方便记忆以上称为LINE(线性假设),因为线性、独立、正态、等方差的首字母为LINE.,5,线性回归的概念,如果以变量x、y分别为横轴和纵轴,将成对的样本实测值绘制成散点图,各散点通常不会恰好在一条直线上。根据散点图所反映出两个变量的线性趋势,可以假定,对于自变量x的各个取值,相应的因变量y的总体平均数位于一条直线上,这时我们可以用某个适当的线性回归方程来描述y的总体均值依赖于x的数值变化。,6,线性回归的概念,回归方程大多数情况由样本得到,成为样本回归方程或经验回归方程。在回归方程中我们通常用来表示一个的样本估计值,即x确定时y的样本均值,则样本回归方程的一般表达式为a为回归直线在y轴上的截距,表示x值为0时y的平均水平。a0交点在原点上方;a=0,回归直线经过原点。b为回归系数,即直线的斜率,其统计意义是:x每变化一个单位,y平均变化b个单位。b0,表示直线从左下方走向右上方,即y随x的增大而增大;b=0,表示直线与x轴平行,即x与y无线性关系。,7,回归直线的实质,回归直线表示了一种特殊类型的均值,因此许多人称它为最优拟合直线。均值表示的是样本中较低得分和较高得分之间的均衡点:在样本中,每一个观测值和均值之间的差异的和始终是0,也就是说,回归线表示回归直线与每一个观测值Y之间距离总和最小。变量Y的每一个观测值和其预测值之间的差异总和,始终等于0,也就是说,,8,建立线性回归方程,从样本数据中求解a和b,实际上是拟合一条反映所有散点集中趋势的回归直线,使得各个实测值与对应的估计值最接近。实测值y与回归线上的估计值的纵向距离称为残差,就是各点残差要尽可能小。由于残差有正有负,通常要找一条各点残差平方和最小的直线。要保证各实测点距回归直线纵向距离平方和最小,通常用最小二乘法,推导出回归方程系数的计算公式是,9,估计值的标准误差,建立回归方程后我们可以根据它对给定的X进行相应Y的。预测除非两个变量之间具有完全的相关性,否则回归直线表示的仅仅是对Y值的估计。因此我们需要一种统计量来表示的精确度。类似于标准差用来描述观测值与均值之间典型的差异有多大。我们也可以对同样这么做使用的一个统计量称为估计值的标准误差(standarderrorofestimate).估计值的标准误差就是观测值围绕着回归直线波动的标准差,用估计值的标准误差我们就可以推断出的置信区间.,10,两个变量间相关的一个散点图。数据中间的直线表示了回归直线,外侧的曲线表示了95%置信度下置信区间的上限和下限。,绘制回归直线,方法一:直线一定通过点直线与纵坐标相交于截距a。方法二:在自变量实测范围内,取易于读数的x值代入回归方程得到一个点的坐标,连接此点与点,11,Regressiontothemean向均值回归,概念:向均值回归又叫趋中回归当某些被试在一个变量上的取值远离群体均值特别低或者是特别高的时候,这些被试在同一个变量上的另一次观测值或在其他相关的变量上的观测值,往往会比较靠近均值。用公式表达就是:一个球队在上一届联赛中表现出色,在下一届联赛的表现往往不如上一届;一个走红的文学作品(小说、电影或电视剧等),其续集(如果有的话)往往令人失望;高考状元在大学期间的成绩很难保持名列前茅;在一个场合表现得非常聪明(或愚笨)的学生在另一个场合往往表现得没那么聪明(或愚笨),12,历史回顾,回归分析最早是19世纪末期高尔顿(SirFrancisGalton)所发展。高尔顿是生物统计学派的奠基人,他的表哥达尔文的巨著物种起源问世以后,触动他用统计方法研究智力进化问题,统计学上的“相关”和“回归”的概念也是高尔顿第一次使用的。1855年,他发表了一篇“遗传的身高向平均数方向的回归”文章,分析儿童身高与父母身高之间的关系,发现父母的身高可以预测子女的身高,当父母越高或越矮时,子女的身高会比一般儿童高或矮,他将儿子与父母身高的这种现象拟合出一种线形关系。但是有趣的是:通过观察他注意到,尽管这是一种拟合较好的线形关系,但仍然存在例外现象:矮个的人的儿子比其父要高,身材较高的父母所生子女的身高将回降到人的平均身高。换句话说,当父母身高走向极端(或者非常高,或者非常矮)的人的子女,子女的身高不会象父母身高那样极端化,其身高要比父母们的身高更接近平均身高。高尔顿选用“回归”一词,把这一现象叫做“向平均数方向的回归”(regressiontowardmediocrity)。而关于父辈身高与子代身高的具体关系是如何的,高尔顿和他的学生KPearson观察了1078对夫妇,以每对夫妇的平均身高作为自变量,取他们的一个成年儿子的身高作为因变量,结果发现两者近乎一条直线,其回归直线方程为:这种趋势及回归方程表明父母身高每增加一个单位时,其成年儿子的身高平均增加0.516个单位。这样当然极端值就会向中心靠拢。,13,Regressiontothemean向均值回归,当相关系数小于1.0的时候,变量X与其均值之间的相对偏差,就会大于预测值和Y的均值之间的差异。在父辈身高与子代身高的例子中,表示的是该父辈的身高与父辈们的平均身高之间的差异,而表示的是孩子的身高与所有其他孩子们的平均身高之间的差异。高尔顿观察到的是特别高或者特别矮的父母们的孩子,倾向于高于或者低于孩子们的平均身高,但是这些孩子们趋向于比他们的父母接近于平均身高。,14,向均值回归。散点图表示r=0.5的数据,粗线表示数据的回归直线,另一条表示相关系数为r=1的回归线。阴影区表示向均值回归。,15,向均值回归的计算,1999年Campbell和Kenny将趋中回归刻画为“由于自变量与因变量不是完全相关,因变量(标准化的)预测值往往不像(标准化的)自变量那样极端”。他们将趋中回归定义为:趋中回归=完全相关的预测值-回归预测值(1)下面我们用数学式子表示一下:设X和Y是两个相关变量,X为自变量,Y为因变量。他们的皮尔逊相关系数为:由通常的一元回归方程,经过简单的变形可知,对给定的X,Y的均值的预测值是:(2)其中和分别是X和Y的样本均值,和分别是X和Y的样本标准差。如果X和Y完全相关,对给定的X,Y的预测值是(3)由Campbell和Kenny关于趋中回归的定义(1)及(2)、(3)可知,对给定的X,趋中回归由下式计算:(4),16,向均值回归的性质,两个变量的相关系数越小,趋中回归越大。向均值回归现象在r=0时,表现得最大,在r=1时消失。只要两个变量不是完全相关,趋中回归就存在离开平均值位置越远的自变量,相应的趋中回归越大,17,模拟向均值回归,1.随机生成两组0到100之间的数字,各50个(生成的随机数表r=0.147724)2.设想把这两组随机数当作给出的两次心理测验得分(其中一个在星期一测量,另一组在星期五测量)3.第一组数字表示的是测试1的得分情况,第二组数字表示的是测试2的得分情况。4.下图给出了测试1得分最高和得分最低的10个测量值,旁边是相应的测试2的测量值。,18,社会研究中均值回归,在社会科学研究中一定要注意均值回归这一现象,向均值回归是一个潜在的混杂变量。设想我们要去检验一种降低人们在公众场合表达意见时紧张感的新治疗方法的效果。我们首先挑选出那些在公众场合表达意见时会感到极度焦虑的人。然后我们会为这些受试者提供一个“练习场景”来帮助他们降低焦虑感。当场景练习完成后,我们重新评估这些受试者在公众场合演讲时的焦虑程度。紧张程度得分值的大幅下降,是否就意味着这种治疗环境很有效呢?事实并非如此,焦虑程度的降低,在可能反映了向均值回归这个现象之外并没有提供更多的信息。向均值回归是一个潜在的混杂变量,它导致了对该治疗环境能够缓解人们在公众场合演讲的恐惧感这个结论的内在效度,产生了严重的质疑。控制均值回归:设置两个组,一个控制组一个实验组。,19,思考,1.向均值回归是不是一种与马太效应相反的现象?2.我们在什么情形下需要想到向均值回归这一混杂变量的影响?,20,ResearchInAction:searchingshort-termmemory探索短时记忆,斯滕伯格研究短时记忆(1966)所用到的事件序列,实验目的:人们怎么从短时记忆中提取信息?,实验介绍:在每个试验中,斯腾伯格都向受试者提示一组随机选择的字母让他们记忆,字母的数量从1到6个之间,并且在每一个试验中都有所改变。当受试者有足够的时间记忆这些字母后,斯腾伯格给出单独的一个字母,让受试者来指出该探测字母是否属于刚才所记忆的那组字母。对于随机抽取的半数试验,探测字母是属于所记忆的字母组里的,而对其余的试验,探测字母不属于所记忆的字母组。(一个模拟实验),21,a.平行同步扫描将探测字母与记忆中所有项目比较,b.系列自中断扫描将探测字母逐个与记忆中的项目作比较,发现与探测数字相同的就中断扫描,c.系列全扫描将探测字母逐个与记忆中的所有项目进行比较,不论记忆中有没有探测字母,我们从短时记忆中获取信息的过程,并不受记忆大小的影响,因为这两个变量之间没有相关性,回归直线呈水平状。,1.预示在记忆大小和受试者的反应时间长度之间存在着正相关性2.预测当探测字母不属于受试者所记忆的那组字母时,受试者往往需要更长的时间用于搜索。回答“不是”的回归直线的斜率比回答“是”的直线的斜率要陡峭。,1.记忆规模的大小和反应时间长度之间存在着正相关性2.但是在肯定的试验和否定的试验之间并没有差异。指出随着所要求记忆的字母组长度的增加,受试者的反应时间长度也相应地增加,但是两条回归直线的斜率和截距并没有差异。,实验假设:,ResearchInAction:searchingshort-termmemory探索短时记忆,22,斯滕伯格(1966)对短时记忆所需要时间的研究试验结果,c.系列全扫描,第一,随着所记忆字母组的规模的增加,受试者所需要反应的时间也相应地增加第二,回答“是”和“不是”的试验之间并没有任何差异,两组数据都呈现出同样的趋势,ResearchInAction:searchingshort-termmemory探索短时记忆,实验结果,23,实验启发:首先:人们常识一般认为,做出“否”的反应时间比做出“是”的反应时间要长,因为做出“是”反应后,被试者就可以停止扫描,而做出“否”反应则需要扫描记忆中的所有项目。这个实验的结果证明做出“是”、“否”反应所用的时间几乎相等。所以说不能未经实证检验就轻信对数据所作出的常识性解释。需要说明的是,其他研究者用不同的试验方法和不同的实验对象都重复得到了这些研究结果。其次:我们能在许多不同的应用研究中使用相关和回归的分析方法。,ResearchInAction:searchingshort-termmemory探索短时记忆,24,短时记忆相关的研究成果,短时记忆成绩,随文化水平的升高而提高,文化因素对短时记忆的影响非常显著要使信息保持在短时记忆中,必须对信息进行有意识的复习和运用一定的记忆方法。以词为组块测量短时记忆容量比以其他单位测量更接近恒定。视觉短时记忆容量比听觉大。小学儿童短时记忆能力随年龄增长呈上升发展趋势,1岁年龄段是迅速发展时期。凡运用记忆策略识记材料,其效果总比机械识记好,学中、高年级儿童的意义识记和机械识记效果均优于低年级。小学各年龄段儿童具体词的记忆效果均优于抽象词,但这种差别随年龄增长而缩小。,25,研究背后的统计学,皮尔逊简单相关系数,XY表示每一对得分的交叉乘积,N代表组数,由,得出,其中,26,重复做斯滕伯格实验的数据,假定有位学生去重复斯腾伯格(1966)的实验,下表是该学生所收集的数据。因变量描述的是平均反应时间,用接近1/100秒的精度来测量,要求受试者对每种实验条件都作出正确的反应。,27,1.计算“记忆字母组大小”和“受试者反应时间”在两种条件下的相关系数。,28,斜率:截距:回归方程:实例:步骤1:计算斜率:步骤2:计算截距:步
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年江苏安全技术职业学院单招职业适应性测试模拟测试卷附答案
- 2026年大冶电工理论考试试题及答案(易错题)
- 2026年威海职业学院单招职业适应性考试题库及答案1套
- 2026年心理健康素养考试题库及参考答案一套
- 2026年电工基础知识测试题完整参考答案
- 2026四川阿坝州阿坝县国有资产管理中心招聘阿坝文商旅发展有限公司总经理1人笔试模拟试题及答案解析
- 2026国新新格局(北京)私募证券基金管理有限公司相关岗位招聘1人笔试备考题库及答案解析
- 2026重庆奉节县竹园镇人民政府全日制公益性岗位招聘5人笔试备考题库及答案解析
- 2025广西百色政协西林县委员会办公室招聘编外聘用人员4人(公共基础知识)综合能力测试题附答案
- 2025年河南豫能控股股份有限公司及所管企业第二批社会招聘18模拟试卷附答案
- 认知障碍老人的护理课件
- 麻醉科业务学习课件
- 绿色低碳微晶材料制造暨煤矸石工业固废循环利用示范产业园环境影响报告表
- 2025吉林检验专升本试题及答案
- 军人婚恋观教育
- 硫化氢(CAS号:7783-06-4)理化性质与危险特性一览表
- QHBTL01-2022 热力入口装置
- 广告标识牌采购投标方案
- 计算机应用专业发展规划
- 结算审核实施方案
- 企业管理的基础工作包括哪些内容
评论
0/150
提交评论