版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第九章双变量回归与相关单变量univariate 计量资料第一节直线回归一、 直线回归的概念散点图scatterplot自变量independentvariable X应变量dependentvariable Y直线回归linearregression简单回归simpleregression 直线回归方程linearregressionequationY=a+bX经验回归方程,样本回归方程回归方程的预测值predictedvaluea常数项constantterm 是回归直线在Y轴上的截距intercept 当X取值为0时相应Y的均数估计值。b回归系数coefficientofregression 是直线的斜率slope 当X变化一个单位时Y的平均改变的估计值。b>0时直线从左下方走向右上方,Y随X的增大而增大b<0时直线从左上方走向右下方,Y随X的增大而减小b=0时直线与X轴平行,Y与X无直线关系二、 直线回归方程的求法残差residual剩余值 “最小二乘”leastsumofsquaresLxy为X与Y的离均差交叉乘积和,离均差积和三、 直线回归中的统计推断(一) 回归方程的假设检验1、 方差分析SS总=SS回+SS残 V总=V回+V残, V总=n-1, V回=1, V残=n-2 F=【SS回/SS回】/【SS残/V残】=MS回/MS残2、 t检验(二) 总体回归系数B的可信区间(三) 利用回归方程进行估计和预测1、 总体均数的可信区间2、 个体Y值得预测区间第二节直线相关一、 直线相关的概念直线相关linearcorrelation简单相关simplecorrelation 散点图 双变量正态分布资料比variatenormaldistribution正相关positivecorrelation 两变量X、Y同时下革算大或减小,变化趋势是同向的负相关negativecorrelation X、Y间呈反向变化完全正相关perfectpositivecorrelation 在一条直线上,X、Y是同向变化完全负相关perfectnegativecorrelation 在同一直线上,X、Y呈反向变化零相关zerocorrelation 两变量间没有直线相关关系二、 相关系数的意义与计算相关系数correlationcoefficientPeason积差相关系数coefficientofproductmomentcorrelationr表示样本相关系数,p表示总体相关系数相关系数没有单位,其值为-1《r《1r值为正 正相关r值为负 负相关r绝对值等于1——完全相关r=0 零相关三、 相关系数的统计推断(一) 相关系数的假设检验(二) 总体相关系数的可信区间四、决定系数coefficientofdetermination 回归平方与总平方和之比五、 直线回归于相关应用的注意事项1、 根据分析目的选择变量及统计方法2、 进行相关、回归分析前应绘制散点图3、 用残差图考察数据是否符合模型假设条件4、 结果的解释及正确应用第三节秩相关秩相关rankcorrelation等级相关——是用双变量等级数据作直线相关分析,对原变量分布不作要求,属于非参数统计方法。1、 不服从双变量正态分布二而不宜作积差相关分析 原始数据的基本统计描述,直观的散点图2、 总体分布型未知3、 原始数据是用等级表示一、 Spearman秩相关二、 相同秩较多时Rs的校正第九章双变量回归与相关单变量资料散点图变量间关系问题:1、 依存关系:应变量Y随自变量X变化而变化——回归分析2、 互依关系:应变量Y与自变量X间的彼此关系——相关分析第一节直线回归两变量的散点图回归一一两个变量或多个变量之间某种数量依存关系直线回归用直线方程来描述两变量间的回归关系一一直线回归方程Y=a+bX直线回归模型的四个假设1、线性linearity 反应变量均数与X间呈直线关系2、独立independenc 个观察值之间彼此独立3、正态normality 对于任何给定的XY服从正态分布4、标准差相等equalstandarddeviation 对于任何X值,随机变量Y的标准差相等直线回归方程:Y=a+bXa常数项,回归直线在Y轴上的截距intercept 其统计意义是当X=0时相应的均数估计值b斜率slope,回归系数regressioncoefficient 当X变化一个单位时Y的平均改变的估计值(b个单位)b>0,Y随X的增大而增大(减少而减少)——斜上b<0,Y随X的增大而减少(减少而增大)——斜下b=0,Y与X无直线关系IbI越大,表示Y随X变化越快,直线越陡峭。二、直线回归方程的求法回归系数与截距的计算残差剩余值一一最小二乘法原理1、 绘制散点图2、 计算X、Y、Lxx、Lyy、Lxy3、 求回归系数b和截距a4、 列出回归方程三、直线回归中的统计推断(一) 回归方程的假设检验1、 方差分析法SS总=、,回+SS残F=MS回/MS残2、t检验 t=F平方根(二) 总体回归系数的可信区间(三) 利用回归方程进行估计与预测1、 总体均数的可信区间2、 个体Y值的预测区间第二节直线相关linearcorrelation一、 直线相关的概念直线相关分析:描述两变量间是否有直线关系以及直线关系的方向和密切程度的分析方法。条件:两变量X、Y都来自正态分布的随机变量散点呈椭圆形分布一一XY同时增减一一正相关 XY此增彼减一一负相关散点在同一条直线上一XY变化趋势相同——完全正相关 不同一一完全负相关XY变化互不影响或无直线相关关系 零相关二、 相关系数的意义与计算直线相关系数pearson积差相关系数一说明具有直线关系的两变量间相关的密切程度与相关方向的指标r样本相关系数,p总体相关系数r无单位,-1《r《1r值为正——正相关r一负——负相关IrI=1 完全相关IrI=0 零相关步骤:1、绘制散点图2、计算样本相关系数r的大小与样本量有关特别n=2,当两个点的连线不平行于横轴和纵轴时,r=1或r=-1样本相关系数大小不能直接评价两个变量之间的相关性三、 相关系数的统计推断(一) 相关系数的假设检验1、 t检验2、 查表法(二) 总体相关系数的可信区间 正态分布四、 决定系数coefficientofdeterminationR=SS回/SS总对直线回归的拟合优度检验等价于对总体回归系数的假设检验五、 直线回归与应用相关的注意事项1、 根据分析目的选择变量及统计方法2、 进行相关、回归分析前应绘制散点图3、 用残差图考察数据是否符合模型的假设条件4、结果的解释及正确应用直线相关与回归的区别与联系区1、资料要求不同别直线回归要求应变量Y服从正态分布,X可以是精确测量和严格控制的变量,一般称为I型回归;直线相关要求两个变量XY服从双变量正态分布,这种资料若要进行回归分析称为II型回归。2、 应用情况不同直线回归说明两变量间依存变化的数量关系,直线相关则是说明两变量的相关关系3、 r与b有区别(1) 、取值范围不同(2) 意义不同:r说明具有直线关系的两个变量间关系的密切程度与相关方向;b表示X每改变一个单位Y平均改变b个单位。(3) 回归系数与原度量单位有关,二相关系数无单位联1、r与b正负号一致系r为正时,b也为正,表示两变量是正相关,是同向变化。——负, 负, 负相一反向变化2、r与b的假设检验等价对同一组资料若同时进行r与b的假设检验,可得到相同的t值;可用r的假设检验代替b的假设检验3、 II型回归4、 可用回归解释相关决定系数:即相关系数的平方,是回归平方和与总的离均差平方和之比,反映应变量Y的总变异中可用回归关系解释的部分。越接近于"表明利用回归方程进行预测越有意义第三节等级相关Spearman等级相关Rs等级相关系数:说明2个变量相关关系的密切程度与相关方向的等级相一秩相 种非参数统计方法适用于:1、 双变量来自非正态总体2、 总体分布未知3、 数据一端或两端不确定的资料(开放型资料)4、 等级资料n《50 查rs界值表n>50 u检验第九章双变量回归与相关医学统计学工作的步骤(内容):1、 设计2、 收集资料:准确、完整、及时3、 整理资料:系统化、条理化4、 分析资料(1)统计描述一一变量的特征;集中趋势、离散趋势(2)统计描述 参数估计(样本统计量/总体参数) 假设检验(比较样本之间统计量的差别;不同样本是否属于同一总体)共同特点:研究的变量是单一的客观事物之间是相互联系的,仅对变量进行单独的研究是不够的。两个变量的关系是确定的、绝对稳定的,可以用数学函数式表述一一两个变量的关系是非确定的,表现为随机性的一种趋势。1、 依存关系一一因变量随自变量而定一一回归分析2、 相关关系一一因变量与自变量共变一一相关分析第一节直线回归一、 直线回归概念一一用来分析两变量呈直线依存关系的统计方法 要求因变量资料呈正态分布Y=a+bX二、 直线回归方程的求法残差 最小二乘法三、 回归直线的绘制四、 直线回归的统计推断由于抽样误差的存在,即使从回归系数B=0的XY总体中随机抽样,所得到的样本回归系数b也不一定=0.因此需要对B是否为0作假设检验。(一)Lyy的分析——SS总=SS回+SS剩SS总是Y的总变异,即未考虑影响因素时Y的变异SS回反映由于X与Y的回归关系而引起的Y的变异部分SS剩反映X对Y的线性影响之夕卜的一切因素引起的Y的变异部分,即考虑回归之后Y真正的随机误差。自由度:V总=n-1,V回=1,V剩=n-2(二) 方差分析一一F=MS回/MS剩(三) t检验 t2=F(四) 直线回归方程的应用1、 利用回归方程分析两变量的依存关系2、 利用回归方程进行预测3、 利用回归方程进行统计控制第二节直线相关一、 直线相关的概念一一用来分析两变量呈直线型相关关系的统计方法一一要求两变量资料都呈正态分布二、 根据散点图的分布——正相关、负相关、完全正相关、完全负相关、无相关(0相关)、非线性相关三、 相关系数的计算及意义r无单位,-1《r《1r>0 正相关r<0 负相关r=0 零相关
IrI=1完全相关IrI=1完全相关同一组资料,相关系数r与回归系数b的符号相同四、 相关系数的假设检验r不等于0原因:p=0由于抽样误差引起;p不等于0,存在相关关系1、 t检验2、 查r界值表五、 决定系数——在总平方和中回归平方和所占的比重。——其值大小反映了回归贡献的相对程度——也就是Y的总变异中回归关系所能解释的百分比。1、 回归平方和的大小决定了相关系数r绝对值的大小,回归平方和越接近总平方和,则r绝对值越接近1,说明相关的实际效果越好。2、 利用决定系数还可对回归或相关作假设检验。F值与回归系数的方差分析的F值一致,F与回归系数、相关系数的t检验的t2相等。第三节直线相关与直线回归的关系一、进行回归和相关分析时的注意事项(1) 做回归分析和相关分析时一定要有实际意义。 内在联系;Y正态分布;X正态分布、能精确测量和严格控制的非随机变量。(2) 在进行回归和相关分析前,应绘制散点图。 模型基本假设;异常点(3)直线回归方程用于预测时应尽量避免不合理的外延双变量小样本的直线回归方程经t检验只能推断总体两变量间有无直线关系,二不能推断相关的密切程度,要推断相关的密切程度样本含量必须很大。对结果应有正确解释。反映两变量间数量上影响大小的统计量应该是回归系数的绝对值,而不是假设检验的P值。P值越小只能说越有理由认为变量间的直线关系存在,而不能说关系越密切或越“显著气相关关系不一定是因果关系,也可能是伴随关系,有相关关系不能证明事物间确有内在联系。二、回归和相关的区别1、 资料要求不同回归要求因变量Y服从正态分布,X是可以精确测量和严格•控制的变量,一般称为I型回归。相关要求两个变量X、Y服从双变量正态分布,这种资料若进行回归分析称为II型回归。2、 应用情况不同回归用于表述两变量间的依存关系,是单向的。相关用于表述两变量间的相关关系,是双向的。3、 相关系数和回归系数的绝对值大小无直接关系-1《r《1,r无单位-&&<b<&&,b有单位三、回归与相关
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 互联网护理与医疗资源配置
- (2026年)甲状旁腺功能亢进症课件
- 生物质复合成型燃料及添加剂的性能、应用与优化策略研究
- 生物群系视角下全球大型陆生动物多样性与受威胁格局剖析
- 生物炭对新疆喀什与贵州开阳土壤持水及生产力影响的比较研究
- (2026年)皮肤性病学药疹课件
- 2026年建筑行业关键研判及央国企启示-
- 2026年汽车行业标准化SICAR
- 2026庐山云雾茶产业集团有限公司社会招聘工作人员16人备考题库及参考答案详解
- 生物功能化二氧化钛基纳米涂层:制备工艺与促成骨机制的深度剖析
- DBJ04-T344-2025 海绵城市建设技术标准
- GB/T 18344-2025汽车维护、检测、诊断技术规范
- 基层党建考试题及答案
- T/CSBME 073-2023一次性使用电动腔镜切割吻合器及组件
- 2025届高三部分重点中学3月联合测评语文试卷及参考答案
- 中国食物成分表2020年权威完整改进版
- 支付令异议申请书(2篇)
- 国家药监局医疗器械技术审评检查大湾区分中心员额制人员招考聘用16人高频500题难、易错点模拟试题附带答案详解
- 高电压技术教案
- 皮带通廊改造施工方案范文
- 小儿外科学:先天性直肠肛门畸形
评论
0/150
提交评论