版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第9章直线回归与相关学习目标掌握直线相关的定义,熟悉简单相关系数的计算;掌握直线相关分析的SAS程序(CORR过程以及选项);掌握直线回归的模型假设以及计算方法;了解直线回归应用的注意事项;掌握直线回归分析的SAS程序(REG过程以及选项)。概述在医学上,许多现象之间都存在着相互联系,例如身高与体重、体温与脉搏、年龄与血压、钉螺与血吸虫感染等。而有些事物的关系是互为因果的,如上述钉螺是因,感染血吸虫是果;但有时因果不清,只是伴随关系。例如父母的兄弟,兄高,弟也可能高,但不能说兄是因、弟是果,这里不是因果关系,而可能与社会条件、家庭经济、营养、遗传等因素有关。概述相关是解决客观事物或现象相互关系密切程度的问题,而回归则是用函数的形式表示出因果关系。有相关不一定因果关系;反之,有因果关系的,一定有相关。我们称“因”的变量叫因变量,习惯上用Y表示。以横轴代表自变量X,纵轴代表依变量Y,可以将一群观察事物的两种关系在坐标图上以P(X,Y)的方法定位,作出一群散点图,便可在图上看出两者的关系。相关分析和回归分析是研究现象之间相关关系的两种基本方法。所谓相关分析,就是用一个指标来表明现象间相互依存关系的密切程度。直线相关分析介绍设有两个变量x和y,变量y随变量x一起变化,并完全依赖于x,当变量x取某个数值时,y依确定的关系取相应的值,则称y是x的函数,记为y=f(x),其中x称为自变量,y称为因变量。各观测点落在一条线上。自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系叫做相关关系。当一个或几个相互联系的变量取一定数值时,与之相对应的另一变量的值虽然不确定,但它仍按某种规律在一定的范围内变化,变量间的这种相互关系,称为具有不确定性的相关关系。直线相关分析介绍与函数关系不同,相关变量间关系不能用函数关系精确表达,一个变量的取值不能由另一个变量唯一确定,当变量x取某个值时,变量y的取值可能有无数个,各观测点分布在直线周围。按相关程度划分可分为完全相关、不完全相关、和不相关:不相关如果变量间彼此的数量变化互相独立,则其关系为不相关,即没有任何相关关系。自变量x变动时,因变量y的数值不随之相应变动。完全相关如果一个变量的变化是由其他变量的数量变化所唯一确定,此时变量间的关系称为完全相关。即因变量y的数值完全随自变量x的变动而变动,它在相关图上表现为所有的观察点都落在同一条直线上,这种情况下,相关关系实际上是函数关系。所以,函数关系是相关关系的一种特殊情况。不完全相关如果变量间的关系介于不相关和完全相关之间,则称为不完全相关。大多数相关关系属于不完全相关,是统计研究的主要对象。正相关和负相关正相关:两个变量之间的变化方向一致,都是呈增长或下降的趋势。即自变量x的值增加(或减少),因变量y的值也相应地增加(或减少),这样的关系就是正相关。负相关:两个变量之间变化方向相反,即自变量的数值增大(或减小),因变量随之减小(或增大)。线形相关和非线形相关直线相关(或线性相关):当相关关系的自变量x发生变动,因变量y值随之发生大致均等的变动,从图像上近似地表现为直线形式,这种相关通称为直线相关。曲线(或非线性)相关。在两个相关现象中,自变量x值发生变动,因变量y也随之发生变动,这种变动不是均等的,在图像上的分布是各种不同的曲线形式,这种相关关系称为曲线(或非线性)相关。曲线相关在相关图上的分布,表现为抛物线、双曲线、指数曲线等非直线形式。单相关、复相关和偏相关单相关:两个因素之间的相关关系叫单相关,即研究时只涉及一个自变量和一个因变量。复相关:三个或三个以上因素的相关关系叫复相关,即研究时涉及两个或两个以上的自变量和因变量。在某一现象与多种现象相关的场合,当假定其他变量不变时,其中两个变量之间的相关关系称为偏相关。相关系数所谓相关分析,就是分析测定变量间相互依存关系的密切程度的统计方法。一般可以借助相关系数来进行相关分析。相关系数是表示两个变量(X,Y)之间线性关系密切程度的指标,用r表示,其值在-1至+1间。如两者呈正相关,r呈正值,r=1时为完全正相关;如两者呈负相关则r呈负值,而r=-1时为完全负相关。完全正相关或负相关时,所有图点都在直线回归线上;点子的分布在直线回归线上下越离散,r的绝对值越小。当例数相等时,相关系数的绝对值越接近1,相关越密切;越接近于0,相关越不密切。当r=0时,说明X和Y两个变量之间无直线关系。相关系数简单相关系数反映两个变量之间线性相关密切程度和相关方向的统计测定,它是其他相关系数形成的基础。简单相关系数的计算公式为:直线相关分析的SAS程序SAS系统中进行直线相关分析的过程步是CORR过程。CORR过程存在于SAS的base模块,可以计算Pearson积矩相关系数、Spearman秩相关系数、Kendall‘stau-b统计量、Hoeffding’s独立性分析统计量D以及Pearson,Spearman,以及Kendall偏相关系数。另外,它还对用于估计可靠性的Cronbach系数α进行计算。Corr过程的语句基本格式如下:PROCCORR<选项列表>;BY<DESCENDING>变量名-1<...<DESCENDING>变量名-n><NOTSORTED>;FREQ变量名;PARTIAL变量名(列表);VAR变量名(列表);WEIGHT变量名;WITH变量名(列表);直线相关分析的SAS程序CORR过程的几条语句中,BY语句、FREQ语句以及WEIGHT语句与以前所介绍的过程中的完全相同,大家可以参考以前的内容。下面简要介绍其余的几条语句。PARTIAL语句:用以对所指定的变量计算偏相关系数或类似的偏统计量,可计算的偏统计量与PROCCORR语句中指定的选项有关。但其中只有Pearson积矩相关系数、Spearman秩相关系数及Kendall’sTau-b可计算相应的偏统计量。直线相关分析的SAS程序VAR语句:VAR语句和其它过程中的也基本相同,这里VAR语句指定的变量必须为数值型变量,至少应指定两个变量(当然只指定一个变量也可以计算,但是你必须确定你确实需要证明“一个变量和它自身的相关系数为1”),可同时指定多个变量,此时SAS会对任意两个变量之间进行相关分析。直线相关分析的SAS程序WITH语句:WITH语句用来指定和VAR语句指定的变量进行相关分析的变量。当有WITH语句存在时,VAR语句中指定的变量之间不再进行相关性分析,而其中的每个变量都和WITH语句指定的所有变量进行相关性分析,相关分析也不会发生在WITH语句所指定的变量之间。输出结果的相关矩阵中,VAR语句指定的变量排列在行上,WITH语句指定的变量则排列在列上。如果需要,一个变量可以同时出现在VAR语句和WITH语句内。Pearson相关用于双变量正态分布的资料,其相关系数称为积矩相关系数。进行相关分析时,我们一般会同时对两变量绘制散点图,以更直观地考察两变量之间的相互变化关系。直线回归分析医学上,不少变量间虽存在一定关系,但这种关系不象函数关系那样十分确定。例如正常人的血压随年龄而增高,但这只是总的趋势,有些高龄人的血压却不一定偏高;一群正常人按年龄和血压两个变量在坐标上的方位点,并非集中在一条上升直线上,而是围绕着一条有代表性的直线上升。
直线回归分析的任务在于找出两个变量有依存关系的直线方程,以确定一条最接近于各实测点的直线,使各实测点与该线的纵向距离的平方和为最小。这个方程称为直线回归方程,据此方程描绘的直线就是回归直线。直线回归分析直线回归是用直线回归方程表示两个数量变量间依存关系的统计分析方法,属双变量分析的范畴。如果某一个变量随着另一个变量的变化而变化,并且它们的变化在直角坐标系中呈直线趋势,就可以用一个直线方程来定量地描述它们之间的数量依存关系,这就是直线回归分析。直线回归分析中两个变量的地位不同,其中一个变量是依赖另一个变量而变化的,因此分别称为因变量和自变量,习惯上分别用y和x来表示。其中x可以是规律变化的或人为选定的一些数值(非随机变量),也可以是随机变量。所谓回归分析,就是依据相关关系的具体形态,选择一个合适的数学模型,来近似地表达变量间的平均变化关系。直线回归分析相关关系能说明现象间有无关系,但它不能说明一个现象发生一定量的变化时,另一个变量将会发生多大量的变化。也就是说,它不能说明两个变量之间的一般数量关系值。回归分析,是指在相关分析的基础上,把变量之间的具体变动关系模型化,求出关系方程式,就是找出一个能够反映变量间变化关系的函数关系式,并据此进行估计和推算。通过回归分析,可以将相关变量之间不确定、不规则的数量关系一般化、规范化。从而可以根据自变量的某一个给定值推断出因变量的可能值(或估计值)。回归分析包括多种类型,根据所涉及变量的多少不同,可分为简单回归和多元回归。简单回归又称一元回归,是指两个变量之间的回归。其中一个变量是自变量,另一个变量是因变量。直线回归分析相关分析和回归分析有着密切的联系,它们不仅具有共同的研究对象,而且在具体应用时,常常必须相互补充。相关分析研究变量之间相关的方向和相关程度。但是相关分析不能指出变量间相互关系的具体形式,也无法从一个变量的变化来推测另一个变量的变化情况。回归分析则是研究变量之间相互关系的具体形式,它对具有相关关系的变量之间的数量联系进行测定,确定一个相关的数学方程,根据这个数学方程可以从已知量推测未知量,从而为估算和预测提供了一个重要的方法。应用直线回归的注意事项作回归分析要有实际意义,不能把毫无关联的两种现象,随意进行回归分析,忽视事物现象间的内在联系和规律;如对儿童身高与小树的生长数据进行回归分析既无道理也无用途。另外,即使两个变量间存在回归关系时,也不一定是因果关系,必须结合专业知识作出合理解释和结论。直线回归分析的资料,一般要求应变量Y是来自正态总体的随机变量,自变量X可以是正态随机变量,也可以是精确测量和严密控制的值。若稍偏离要求时,一般对回归方程中参数的估计影响不大,但可能影响到标准差的估计,也会影响假设检验时P值的真实性。应用直线回归的注意事项进行回归分析时,应先绘制散点图。若提示有直线趋势存在时,可作直线回归分析;若提示无明显线性趋势,则应根据散点分布类型,选择合适的曲线模型,经数据变换后,化为线性回归来解决。一般说,不满足线性条件的情形下去计算回归方程会毫无意义,最好采用非线性回归方程的方法进行分析。绘制散点图后,若出现一些特大特小的离群值(异常点),则应及时复核检查,对由于测定、记录或计算机录入的错误数据,应予以修正和剔除。否则,异常点的存在会对回归方程中的系数a、b的估计产生较大影响。应用直线回归的注意事项回归直线不要外延。直线回归的适用范围一般以自变量取值范围为限,在此范围内求出的估计值称为内插;超过自变量取值范围所计算的称为外延。若无充足理由证明,超出自变量取值范围后直线回归关系仍成立时,应该避免随意外延。直线回归分析的SAS程序REG过程涉及到较多的语句和选项,PROCREG<选项列表>;MODEL应变量列表=<自变量列表></选项列表>;BY变量名列表;VAR变量名列表;WEIGHT变量名;ADD变量名列表;DELETE变量名列表;MTEST<方程式<,...,方程式>></选项列表>;OUTPUT<OUT=数据集名>keyword=变量名列表<...keyword=变量名列表>;PLOT<y变量名*x变量名><=符号>
<...y变量名*x变量名><=符号></选项列表>;直线回归分析的SAS程序MODEL语句:用以指定所要拟合的回归模型。其最前面的标签为可选项,可以是不超过8个字符的字符串,用来对定义的模型进行标识,以便于在结果中分辨不同的模型,一般情况下系统会以默认的方式对模型进行标识,你可以省略此项。关键字model后所列的是模型表达式,和方差分析中anova过程的model语句相似。模型表达式中等号的左边为反应变量,等号的右边为自变量列表,自变量间以空格相分隔。这里所用到的所有变量必须存在于所分析的数据集中,而且是数值型的。如果要用到几个变量产生的综合变量,必须在数据步完成新变量的创建过程,model语句中的组合型变量将被视为非法。直线回归分析的SAS程序id语句:指定用以标识观测的变量。如果某一条model语句指定了cli,clm,p,r,或者influence选项,结果中会有针对每一条观测的输出,此时用id语句指定每一条观测的标识将会使结果更易于辨认或理解。如果没有id语句,SAS则用观测的编号来标识每一条观测。var语句:用来将那些未包括在model语句中但需要将其包含在交叉积和矩阵中的数值型变量。在随后的add语句中想交互地加入模型的变量以及要在plot语句中对其绘制散点图的变量也需在var语句中列出。另外,如果你只想利用procreg语句后的选项执行某些特定的功能,而并不会用到model语句的话,var语句则是必需的。直线回归分析的SAS程序add语句:用以将自变量交互地加入模型,以考察某个变量对模型拟合的影响。此处用到的变量必须为model语句或var语句中出现的变量,你可以交互地加入某个变量到模型中或将在delete语句中剔除的变量重新包含到模型中。对add语句的每一次执行都将改变模型的标签。mtest语句:用以在有多个应变量时进行模型的多重检验。其最前面的标签项和model语句的完全相同。语句中的方程式用以指定多重检验的假设模型,是一组以系数和变量名组成的线性方程式。此语句用在多元回归情况下,多个应变量对同一组自变量拟合线性模型时。直线回归分析的SAS程序output语句:用于将回归分析中产生的结果输出到指定的数据集中,它所对应的是最后一个model语句所定义的模型。新产生的数据集中,包括输入数据集(用以进行回归分析的数据集)的全部数据、回归分析过程中产生的各种统计量以及针对每一观测的回归诊断指标数据等。但如果输入数据类型为corr、cov或sscp等,output语句则会失效。plot语句:用以对两个变量绘制散点图,表达式中位置在前(在乘号“*”之前)的变量作为散点图的y轴,位置在后的变量作为散点图的x轴。等号后的符号为散点图中表示点的图形符号,此项内容可省略,SAS会用默认方式显示图形,但如需指定,符号要用单引号括起来。本章小节相关分析和回归分析是研究现象之间相关关系的两种基本方法。相关是解决客观事物或现象相互关
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 惠农市旅游攻略线路计划表
- 2026年人社部专项职业能力考核标准
- 2026年自动化专业知识技能大赛
- 2026年养老护理知识培训
- 2026年公共基础知识与能力素质
- 2026年乡村品牌策划师中级笔试模拟题
- 2026年咨询顾问招聘笔试高频考点
- 2026年人社部事业单位公开招聘仿真题
- 2026年眼部基础知识讲解
- 2026年小学生国防安全知识讲座
- 物业品质现场培训课件
- 肝恶性肿瘤病人的护理查房
- SL3000变频恒压供水控制系统
- 消防设施评估报告范本
- 2025年广东省中考地理试题卷(标准含答案)
- 劳务合同培训课件
- 辽宁省文体旅集团所属企业招聘笔试题库2025
- 闺蜜合伙开店合同协议书
- T/ZHCA 021-2022化妆品紧致功效测试体外人源成纤维细胞活性测试方法
- 2025光伏电站防雷装置检测技术规范
- 智慧农贸市场改造设计完整方案
评论
0/150
提交评论