已阅读5页,还剩37页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中医药统计学与软件应用,曹治清成都中医药大学管理学院数学与统计教研室czq9771,2,第8讲双变量相关与回归,直线相关秩相关直线回归曲线回归双变量相关与回归电脑实验,3,第8讲双变量相关与回归引言,世界上万事万物是相互联系的,相互联系着的事物(变量)间的关系有确定性关系和非确定性关系。确定性关系既变量间的函数关系,是指一个变量的每个可能取值,另外的变量都有完全确定的值与之对应;如路程速度时间的关系为。非确定性关系是指变量在宏观上存在关系,但并未精确到可以用函数关系来表达,也称随机性关系。在医药研究中,常常要分析变量间的非确定性关系,如糖尿病患者的血糖与胰岛素水平、降糖药剂量与疗效的关系等。本章介绍研究变量间的非确定性关系的统计分析方法相关(correlation)与回归(regression)。,相关分析是研究事物或现象之间有无相关、相关的方向和密切程度如何,一般不区别自变量或因变量。,4,第一节直线相关,一、直线相关的概念,直线相关是分析两个变量间是否存在线性相关关系的方法。(非确定关系,如身高和体重)适用于双变量正态分布资料直线相关的性质可由散点图说明,5,第一节直线相关,表8-115例健康成人凝血时间与凝血酶浓度测量值记录,6,7,第一节直线相关,正相关:x、y同向变化,即x增大y也增大。完全正相关负相关:x、y反向变化,即x增大,y减小。完全负相关零相关:x、y变化无规律,相关类型,8,第一节直线相关Pearson相关系数,相关系数是描述两个变量间相关关系的密切程度与相关方向的指标。总体相关系数,样本相关系数r,9,第一节直线相关Pearson相关系数,10,第一节直线相关总体相关系数检验,相关系数的假设检验,由于存在抽样误差,要判断总体X、Y间是否有相关关系,就要对相关系数进行检验。H0:0,H1:0t检验查附表7,相关系数r界值表。,11,第一节直线相关直线相关分析的步骤,考察资料是否满足双变量正态性作散点图(scatterplot),考察两变量间有无直线趋势计算相关系数r相关系数的假设检验与下结论,12,H0:0H1:0a=0.05据自由度15-213查t临界值表,P0.001,故拒绝H0,接受H1,差异有统计学意义。可以认为凝血酶浓度与凝血时间之间存在负相关。,13,第一节直线相关直线相关分析的注意事项,要有实际意义,不能把毫无关联的现象都去做相关分析。样本的相关系数接近零并不意味着两变量间一定无相关性,绘制散点图一个变量的数值人为选定时莫作相关两变量间存在直线相关关系,并不表示一定是因果关系,可能是伴随关系。相关系数的假设检验中,概率p不能说明相关关系的密切程度,14,第一节直线相关直线相关分析的注意事项,出现异常值时慎用相关分层资料盲目合并易出假象,15,不满足双变量正态分布,或总体分布类型未知,或等级资料,则进行等级相关分析,等级相关分析主要有Spearman法和Kendallstau-u法。Spearman等级相关即秩相关(rankcorrelation),是一种非参数统计方法。Spearman等级相关系数,或称秩相关系数,第二节秩相关,16,第二节秩相关,秩相关系数无量纲,且。表示变量和之间的相关程度。的符号表示相关方向,称为正相关,称为负相关。若的值越接近1,则相关性越强;若的值越接近0,则相关性越弱;当称为零相关;称为完全相关。,Pearson相关系数是度量变量间的线性相关关系指标,秩相关系数是作为双变量之间单调关系强弱的统计指标。因此,不管变量之间的关系是不是线性的,只要变量之间具有严格的单调增加(或减少)的关系,变量之间的秩相关系数就是1(或-1),即完全相关。,17,第二节秩相关,18,第二节秩相关秩相关假设检验,19,第二节秩相关,【例9-2】调查正常成年人脉象,记录各年龄组弦脉阳性率,资料见表9-2,试讨论年龄与弦脉阳性率之间是否存在秩相关关系?,20,第二节秩相关,21,第三节直线回归引言,“回归”一词最早由英国统计学家弗朗西斯高尔顿爵士(FrancisGalton,1822-1911,达尔文的表兄弟)和他的学生、现代统计学的奠基者之一卡尔皮尔逊(KarlPearson,1856-1936年)在研究父母身高与其子女身高的遗传问题时提出的。他们研究发现身材高的父亲,他们的孩子也高,但这些孩子平均起来并不像他们的父亲那样高。对于比较矮的父亲情形也类似,他们的孩子比较矮,但这些孩子的平均身高要比他们的父亲的平均身高高。高尔顿和皮尔逊把这种孩子的身高向中间值靠近的趋势称之为一种回归效应,而他们创立的研究计量变量依存关系的方法称为回归分析。,22,第三节直线回归概念,直线回归(linearregression)又称简单线性回归(simplelinearregression),是反映两变量间的线性依存关系,它采用最小二乘法原理找出最能描述变量间非确定性关系的一条直线,此直线为回归直线或经验直线,相应的方程为直线回归方程或经验方程。直线回归分析中两个变量的地位不同,其中一个变量是依赖另一个变量而变化的,因此分别称为因变量(dependentvariable)和自变量(independentvariable),习惯上分别用y来x表示。直线回归分型回归与型回归两种,y依存于x为型回归,y与x相互依存为型回归。,23,第三节直线回归应用条件,线性回归模型成立需要满足4个前提条件,即线性(linearity)、独立(independency)、正态(normal)和等方差性(equalvariance),简记为Line。,2.独立是指各例观测值yi(i=1,2,n)相互独立通常利用专业知识或残差分析来判断这项假定是否满足。,1.线性是指因变量的总体平均值与自变量具有线性关系。通过观察散点的分布来判断有无线性趋势。,24,第三节直线回归应用条件,3.正态是指因变量值服从正态分布即要求线性模型的随机误差项服从正态分布。如果该条件不成立,在正态分布假设下对总体回归系数的假设检验和可信区间估计的结论均无效。可通过专业知识、对变量进行正态性检验或利用残差分析来考察这一条件是否满足。,4等方差性是指对任意一组自变量x1、x2、xm值,因变量y具有相同方差如果该条件不成立,总体回归系数的估计有偏性,可信区间估计及假设检验的结论均无效。通常可利用(xi,yi)散点图或残差分析判断等方差性。,25,第三节直线回归应用条件,资料不满足这四个条件时,常用的处理方法有:修改模型或者采用曲线拟合,也可变量转换。常用的变量转换有对数转换、平方根转换、倒数转换等。变量转换对自变量或(和)因变量均适宜;如果方差不齐,可采用加权最小二乘法估计回归系数。,26,第三节直线回归一般步骤,1绘制散点图,看有无直线趋势,有无异常点有直线趋势无异常点方可考虑直线回归分析,否则,查找异常点的缘故,剔除过失误差所致的异常点,保留客观存在的异常点进行曲线回归。2考察资料是否满足直线回归分析的条件除线性外,可通过残差分析结果来考察资料是否满足其应用条件。3求回归系数b和常数项a4写出回归方程,27,第三节直线回归一般步骤,5对回归方程和回归系数进行假设检验6绘制回归直线7残差分析8统计预测,有必要时还可进行统计控制9回归分析效果评价,28,第三节直线回归直线回归模型,若随机变量y和确定性变量x(其值是可以精确测量或控制的)存在直线依存关系,则可设其回归模型为:,为待估参数,为随机误差。,29,第三节直线回归直线回归模型,实际中仅能获取有限的样本数据,用直线方程建立关于的近似表达式:,其中,是对应的随机变量y的总体均值的一个估计值,、分别是、的估计值。,b为回归系数(regressionoefficient),又称斜率(slope),表示当x变动一个单位时,y平均变动b个单位。,30,第三节直线回归直线回归方程的建立,参数一般只能通过样本数据来估计。当X取值为Xi时,Y的平均值的估计值应为a+bXi,而实际观察值却是Yi。两者之差称为残差(residual)。a和b取不同的数值获得不同的候选直线。如果我们得到了a和b的适宜值,能使所有n个数据点的残差平方和达到最小值,则称这一对a和b为和的最小二乘估计(leastsquaredestimation,LSE)。上述使回归残差平方和最小的策略称为最小二乘原则。最小二乘法:各个散点到直线的纵向距离平方和最小。,31,第三节直线回归直线回归模型,32,第三节直线回归直线回归模型的检验,(一)回归方程的假设检验:用样本资料建立的直线回归方程是否能反映总体上两个变量之间存在直线回归关系,即直线回归方程在总体中是否成立,这就需要进行直线回归方程的假设检验。回归方程的假设检验常采用方差分析。,33,第三节直线回归直线回归模型的检验,34,第三节直线回归直线回归模型的检验,(二)回归系数的假设检验:由于抽样误差的原因,即使x、y的总体回归系数为零,其样本回归系数b也不一定为零,因此需要进行是否为零的假设检验。回归系数的假设检验常采用t检验.,35,第三节直线回归直线回归模型的检验,在直线回归方程中,由于只有一个自变量,所以回归模型的方差分析等价于对回归系数进行的t检验,且。但在多元线性回归分析中回归模型的方差分析与(偏)回归系数的t检验是有区别的。,(三)总体回归系数的可信区间估计:回归系数b是总体回归系数的点估计,由于存在抽样误差,需要进行的(1-)可信区间估计。,36,第三节直线回归直线回归模型的检验,(四)回归方程的拟合优度,1决定系数(determiningcoefficient,R2)就是相关系数的平方r2,是回归平方和在总的离均差平方和中所占的比例,反映因变量的总变异中可由回归因素解释的部分。,37,第三节直线回归直线回归模型的检验,,值越接近于1,表示回归平方和在的总离均差平方和中所占的比重越大,模型对数据的拟合程度越好,表明利用回归方程进行预测也越有意义。反之,值越接近于0,表示回归平方和在y的总离均差平方和中所占的比重越小,模型对数据的拟合程度越差。所以,是评价回归效果的一个重要指标。,38,第三节直线回归直线回归模型的检验,2估计标准误差(standarderrorofemtimate)是残差平方和的均方根,即回归的剩余标准差,用来表示,是指扣除了x对y的线性影响后,y的变异,可用于说明估计值的精确性。它越小,表示回归方程的估计精度越高。若各观察点都落在回归直线上,则它等于0,此时用自变量来预测因变量是没有误差的。因此,也是考究回归直线拟合优度的一个统计量。,39,第三节直线回归绘制回归直线,可在坐标轴上任意取相距较远且易读的两值,根据所求直线回归方程算得对应值,用直线连接两点。应注意的是,回归直线可适当延长,但不应超过的实测值范围;另外,所绘回归直线必然通过(),据此可判断所绘图形是否正确。,40,第三节直线回归残差分析与异常值诊断,残差(residual)是因变量的观测值与根据回归方程求出的预测值之差,它反映了用回归方程去预测而引起的误差。,残差分析(residualanalysis)旨在通过残差深入了解数据与回归方程之间的关系,考察资料是否满足独立性、正态性和等方差性,检测有无异常值等。常用的是标准化残差与标准化残差图。,41,第三节直线回归残差分析与异常值诊断,标准化残差(standardizedresidual)是残差除以它的标准差后得到的数
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年东莞理工学院招聘备考题库含答案详解
- 2026年厦门熹海高级中学招聘非在编化学教师备考题库及1套参考答案详解
- 2026年库尔勒公共停车场服务管理有限公司招聘备考题库及1套参考答案详解
- 2026年上海科技大学新奇材料实验室招聘工程师2名备考题库完整答案详解
- 2026年中国医学科学院生物医学工程研究所招聘备考题库及一套参考答案详解
- 2025年葫芦岛市建昌县宣传部及社会工作部所属事业单位公开招聘高层次人才备考题库有答案详解
- 2026年东莞市厚街控股集团有限公司招聘14名工作人员备考题库及1套参考答案详解
- 2026年南昌市安义县总医院县人民医院院区编外合同制工作人员招聘备考题库参考答案详解
- 2026年南安市部分公办学校赴华中师范大学公开招聘编制内新任教师备考题库完整参考答案详解
- 2026年平江县县直(街道)单位公开遴选(选调)工作人员备考题库及参考答案详解
- 传感器与测试技术课程设计
- 社会实践-形考任务四-国开(CQ)-参考资料
- 2024年贵州贵安发展集团有限公司招聘笔试参考题库附带答案详解
- GB/T 43824-2024村镇供水工程技术规范
- DB3402-T 57-2023 医院物业服务规范
- 腰椎间盘突出患者术后护理课件
- 医院护理培训课件:《高压氧临床的适应症》
- 校服采购投标方案
- 固定修复基础理论-固位原理(口腔固定修复工艺课件)
- 合同能源管理培训讲义
- 剪映电脑版使用说明教程
评论
0/150
提交评论