医学统计学复习要点_第1页
医学统计学复习要点_第2页
医学统计学复习要点_第3页
已阅读5页,还剩12页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第一章 绪论1数据/资料的分类: 、计量资料,又称定量资料或者数值变量;为观测每个观察单位某项治疗的大小 而获得的资料。 、计数资料,又称定性资料或者无序分类变量;为将观察单位按照某种属性或者 类别分组计数,分组汇总各组观察单位数后而得到的资料O 、等级资料,又称半定量资料或者有序分类变量。为将观察单位按某种属性的不 同程度分成等级后分组计数,分类汇总各组观察单位数后而得到的资料。2、统计学常用基本概念: 、统计学(statistics )是关于数据的科学与艺术,包括设计、搜集、整理、分 析和表达等步骤,从数据中提炼新的有科学价值的信息。 、总体(population )指的是根据研究目的而确

2、定的同质观察单位的全体。 、医学统计学(medical statistics ):用统计学的原理和方法处理医学资料中 的同质性和变异性的科学和艺术,通过一定数量的观察、对比、分析,揭示那些困 惑费解的医学问题背后的规律性。 、样本(sample):指的是从总体中随机抽取的部分观察单位。 、变量(variable ):对观察单位某项特征进行测量或者观察,这种特征称为变 量。 、频率(frequency ):指的是样本的实际发生率。 、概率(probability ):指的是随机事件发生的可能性大小。用大写的 P表刁3、统计工作的基本步骤: 、统计设计:包括对资料的收集、整理和分析全过程的设想与安

3、排; 、收集资料:采取措施取得准确可靠的原始数据; 、整理资料:将原始数据净化、系统化和条理化; 、分析资料:包括统计描述和统计推断两个方面。第二章计量资料的统计描述1. 频数表的编制方法,频数分布的类型及频数表的用途R; 、求极差(range):也称全距,即最大值和最小值之差,记作精品文档 、确定组段数和组距,组段数通常取10-15组; 、根据组距写出组段,每个组段的下限为 L,上限为U,变量X值得归组统一定 为Lw X< U,最后一组包括下限。 、分组划记并统计频数。频数分布的类型包括对称分布和偏态分布;偏态分布主要分为右偏态分布(也称正偏态分布)和左偏态分布(也称负偏态分布) 频数

4、表的用途包括以下几个方面: 、描述频数分布的类型; 、描述频数分布的特征; 、便于发现一些特大或特小的离群值; 、便于进一步做统计分析和处理。2. 集中趋势指标的适用条件、计算方法和意义。统计学用平均数(average )这一指标体系来描述一组变量值的几种位置或者平均 水平。常用的平均数有算术均数、几何均数和中位数。 、算数均数,简称均数( mean),可用于反映一组呈对称分布的变量值在数量上 的平均水平。计算方法包括直接计算法和频数表法(公式见2-2 ) o 、几何均数(geometric mean ),可用于反映一组经对数转换后呈对称分布的变 量值在数量上的平均水平,在医学研究中常用于免疫

5、学的指标。(计算公式见于2-3) 、中位数(median),适用于各种分布类型的资料,尤其是偏态分布资料和一端或者两端无确切数值的资料o 、百分位数(percentile )是一种位置指标,是一个界值,其重要用途是确定医 学参考值范围 (reference range )。直接计算法(公式见于2-7、2-8)频数表法(2-9、2-10)(如3、离散趋势指标的适用条件、计算方法和意义。描述数据变异大小的常用统计指标有极差、四分位数间距、方差、标准差和变异系数。 、极差,一组变量值的最大值与最小值之差。 、四分位数间距(quartile range,QR是把全部变量值分为四部分的分位数后, 由第3

6、四分位数和第1四分位数相减而得。它一般和中位数一起描述偏态分布资料 的分布特征。QR=P5-P25。 、方差(varianee )也称均方差(mean square deviation )离均差平方和与样本含量的比值。计算公式为2-11医学参考值(referenee value)是指包括绝大多数正常人的人体形态、机能和代谢产物等各种生理及生化指标常数,也称正常值。由于存在个体差异,生物医学数据并非常数,而是在一定范围内波动,故采用医学参考值范围(medical referenee range )作为判定正常和异常的参考标准。通常 使用的医学参考值范围有 90% 95% 99% 、正态分布法:数

7、据服从或者近似服从正态分布,或者通过适当的变换转换为正 态分布,采用此方法之前一般要对资料进行正态性检验且要求样本含量足够大n > 100)计算公式为2-23、2-24 :双侧:单侧: 、标准差(standard deviation )是方差的正平方根,其单位与原变量值得单位相同。计算公式为2-13、2-14 、百分位数法:适用于偏态分布资料医学参考值范围的制定,所要求的样本含量)记作CV多用于观察指标单位不同100 )。 、变异系数( eoeffieient of variation时,或者均数相差较大时两者变异程度的比较。计算公式为2-164. 正态分布的图形,正态分布的特征,正态曲

8、线下面积的分布规律。正态分布的特征: 、在直角坐标的横轴上方呈钟形曲线,两端与X轴永不相交,且以 X= 为对称轴,左右完全对称。 、在X=u处,f (X)取最大值,远离,其值越小。 、正态分布有两个参数,位置参数和形态参数6,卩决定正态分布的曲线在坐 标轴上的左右移动,越大越右移;6决定曲线的弓背程度,越小峰值越高。 正态分布曲线下的面积分布有一定的规律。X轴与正态曲线所夹面积恒等于1或者 100%区间卩±6的面积为 68.27%;区间土 1.96 6的面积为95.00%,区间土 2.58 6的面积为99.00%。5. 医学参考值范围的意义和估计方法。比正态分布要多(不低于 计算公式

9、为2-25、2-26 : 双侧: 单侧:第三章总体均数的估计与假设检验1、基本概念: 抽样误差(sampling error):指的是由于个体变异产生、随机抽样造成的样本统计量与总体参数的差异。 标准误(standard error , SE :指的是样本统计量的标准差。 均数的标准误(standard error of mean, SEM :指的是样本均数的标准差。% SEM反映样本均数之间的离散程度,也反映样本均数与相应总体均数间的差异。均数的标准误的计算公式为3-1、3-2 统计推断(statistical inference ):通过抽样研究的方法从总体中随机抽取一个样本,用样本的信息

10、来推断总体的特征的统计学方法,包括参数估计和假设检验。2、标准差的用途: 、反映资料的离散趋势。标准差越小,说明变异程度越小,均数的代表性越好; 用于计算变异系数; 用于计算标准误; 结合均数和正态分布规律估计参考值范围。3、u分布与t分布:u分布(也称Z分布):指的是总体均数为 0,总体标准差为1的标准正态分布 N(0,12)。t分布:随机变量X服从总体均数为,总体标准差为b的正态分布N(y,b 2),则可以通过u变换将一般的正态分布转化为标准正态分布。但是通常获得的资料为样本的均数标准误,因此经过转换后并不是完全意义上的标准正态分布,而是服从 t分布。(计算公式为3-3)7、总体均数可信区

11、间的计算:根据总体标准差b是否已知以及样本含量n的大小而异,通常有t分布和u分布两类方法。A、单一总体均数的可信区间:a、总体标准差b已未知:按t分布双侧和单侧公式见 3-5、3-6、3-7 b、b已知或者未知,但 n足够大(如60)时:按u分布双侧和单侧公式见 3、8、3-9、3-10t分布主要用于总体均数的区间估计和t检验。4、可信区间:从固定样本含量的已知总体总进行重复随机抽样试验,根据每个样本可算得一个可信区间,则平均有1- a (如95%的可信区间包含了总体参数,而不是总体参数落在该范围的可能性为1- a。5、参考值范围和总体均数可信区间的区别见课本表3-26、标准差与标准误的区别和

12、联系:均数的标准误标准差丿意反映 X的抽样误反映一组数据的离散情义差大小况记 法x( S x )(S)x. -n(X )2计VN算S x S < nS (X 1X)2控制增加 n不能通过统计方法来控方法制B、两总体均数之差的可信区间:前提:两总体方差相等,但均数不等计算公式见于 3-12、3-13、3-14& t分布图的特征: 、单峰分布,以 0为中心,左右对称; 、t分布的曲线形态取决于自由度v的大小,自由度越小,贝Ut值越分散,曲线的峰部越矮而尾部翘得越高; 、当自由度逼近无穷的时候,样本标准误接近总体标准误,t分布逼近标准正态分布。(标准正态分布是t分布的特例)9、t检验的

13、适用条件t检验(t test/Student t-test)当6未知且样本含量较小时(如n v 60),理论上要求t检验的样本随机地取自正态分布的总体 ,两小样本均数比较式还要求两样 本所对应的两总体方差相等, 即方差齐性。在实际应用中,如与上述条件略有偏离, 对结果影响也不大。10、假设检验A、 假设检验的基本思想:利用小概率反证法的思想,从问题的对立面(H)出发简介判断要解决的问题 (H)是否成立。即在假设H成立的条件下计算检验统计量,然后根据获得的P值来判断。B、假设检验的基本步骤:建立检验假设,确定检验水准; 确定P值,做出推断结论。C、假设检验的错误I型错误:拒绝了实际上成立的H0,

14、这类“弃真”的错误;(a)H型错误:“接受”了实际上不成立的H0,这类“取伪”的错误。(B)注意:a越小,B越大;反之a越大,B越小; 若重点是减少I型错误,一般取a =0.05 ;若重点是减少H型错误,一般取B =0.10或者0.20甚至更高; 若要同时减小I型和n型错误,唯一的方法就是增加样本含量n ;计算检验统计量;拒绝H0,只可能犯I型错误;接受 H0,只可能犯n型错误。资 料 或 数 据计量资 料(已 知均数 和/或 标 准 差)两样 本(样 本含 量较 小,60)单样本t检验适用于已知样本均数和已知总体均 数的比较t分布(v=n-1 )对方差齐与否无要求 正态分布t值配对样本t检

15、验适用于配对设计的计量资料t分布(v=n-1 )对方差齐与否无要求 正态分布t值两样本t检验/成组t检验方差齐适用于任意两计量资料 的比较t分布(v=n 1+ n2-2 )方差齐 正态分布t值方差不齐Cochran&Cox近似t检验t分布方差不齐正态分布t '值(校正t值)Satterthwaite近似 t检验t分布方差不齐正态分布t'值(校正自由度)两样本的方差比较时,可以使用F检验,分子为较大的样本方差(自由度为n1-1 );分母为较小的样本方差(自由度为n2-1 )。F值满足F分布,统计值为F值。多样本完全随机设计 资料的方差分 析完全随机化分组方法将试验对象分

16、配到g个处理组中去,试验后比较各 组均数之间的差别F分布方差齐 正态分布F值与成组t检验意义相 同随机区组设计 资料的方差分 析随机分配的次数要重复多次, 且各个 处理组实验对象数量相同, 区组内均 衡F分布方差齐 正态分布F值与配对t检验意义相同拉丁方设计资料的方差分析可多安排一个已知的对实验结果有 影响的非处理因素,增加了均衡性, 减少了误差,提高了效率F分布方差齐 正态分布F值两阶段交叉设 计资料的方差 分析两种处理在全部实验过程中交叉进 行F分布方差齐 正态分布F值两个阶段之间一定要经过一段洗脱阶段以消除残留效应多样本的多重比较LSD-t检验/最小显著差异t检验,适用于一对或者几对在专

17、业上有特殊意义的样本均数间的比较,统计量为t值Dunnett-t检验适用于g-1个实验组与一个对照组均数差别的多重比较,统计量为Dunnett-t值SNK-q检验适用于多个样本均数两两之间的全面比较,统计量为q值多样本的方差比较Bartlett 检验,要求资料具有正态性,统计量为卡方;Levene检验,比Bartlett检验要求低,不需要资料具有正态性,统计量为F值。其他类型资料分类资料四格表资料通过两个样本的样本率来反映总体 率有无差异卡方分布无方差齐性要求无正态分布要求卡方值与两样本的u检验等价:u2-卡方值配对四格表资 料强调配对:即针对同一样本米取不 同的试验或者处理方法。卡方分布无方

18、差齐性要求无正态分布要求卡方值行X列表资料用于多个样本率的比较、两个或多 个构成比的比较以及双向无序分类 资料的关联性检验卡方分布无方差齐性要求 无正态分布要求卡方值可用来分析两个分类变量之间有无关系A. |-ZTTV-或者关联多样本率的多 重比较适用于多样本率两两之间的多重比 较(基本思想:对卡方值进行校正)卡方分布无方差齐性要求 无正态分布要求卡方值H0:H1频数分布的拟 合优度推断频数分布的拟合优度适用于正 态分布、二项分布、poisson分布和 负二项分布卡方分布无方差齐性要求 无正态分布要求卡方值推断某现象的频数分 布是否符合某一理论 分布不满足上述统 计方法的资料、 等级资料 秩检

19、验配对样本的检 验适用于配对样本差值的中位数和0比较;还可用于单个样本中位数和 总体中位数比较无方差齐性要求 无正态分布要求秩和(正秩 和或负秩 和)T值样本量n > 50时可用正态分布近似法两独立样本比 较适用于推断计量资料或等级资料的 两个独立样本所来自的两个总体分方差不齐正态分布秩和(正秩 和或负秩n1 > 10 或 n2-n1 > 10 可用正态分布近似法作U布是否有差别和)T值检验完全随机多样 本比较用于推断计量资料或者等级资料的 多个独立样本所来自的多个总体分 布是否有差别无方差齐性要求无正态分布要求H检验H值g=3且最小样本的例数 大于5或g> 3, H近

20、似 服从g-1的正态分布, 可用卡方分布法多变量资料的 处理回归 与相关双变量直线回 归用于对两变量总体间线性关系的估 计线性、独立、方差 齐性、误差服从均 数为0的正态分布回归方程 (回归系 数)双变量直线相 关用于判断 两个数值变量之间 有无线 性关系,双变量正态分布资料正态分布相关系数r相关系数求出后应做假 设检验多元线性回归用于分析一个应变量 与多个自变量 之间的线性关系正态分布多元回归方程回归方程求出后应做整 体假设检验以及各自变 量的假设检验总变异的大小一一SS总:各个观测值与总均数差值的平方和;组间变异的大小SS组间:各组均数与总均数的离均差平方和;组内变异的大小 SS组内:组内

21、个观测值与其所在组的均数的差值的平方和。 并有SS总=SS组间+SS组内第四章 多样本均数比较的方差分析由于组间与组内的离均差平方和的自由度不同,因此单纯的比较并无实际意义。MS组间=SS 组间 /V 组间; MS组内=SS 组内 /V 组内5、完全随机设计资料的方差分析:变异来源自由度MSF总变异N-1组间g-1MS组间MSa间/MS组内组内N-gMS组内完全随机设计资料:正态分布且方差齐:单因素方差分析成组t检验(意义相同t概念: 离均差平方和(sum of squares of deviation from mea n,SS)指的是各个观测值与总均数差值的平方。 均方差,简称均方(mea

22、nsquare, MS)指的是离均差平方和与自由度之间的比值。 方差分析的基本思想:设处理因素有g ( g> 2)个不同的水平,实验对象随机分为 g组,分别接受不同水 平的干预。方差分析的目的就是在 H0:卩仁卩2=卩g成立的条件下,通过分 析各处理均数之间的差别大小,推断 g各总体均数间有无差别。 方差分析的应用条件为:各个样本是相互独立的随机样本,均来自于正态分布 总体;相互比较的各个样本的总体方差相等,即具有方差齐性。 方差分析的变异分析: =F )非正态分布或/和方差不齐:变量转换t单因素方差分析秩和检验6、随机区组设计资料的方差分析:变异来源自由度MSF总变异N-1处理间g -

23、1MS处理MS处理/ MS误差区组间n -1MS区组MS区组/ MS误差误差(n -1)(g -1)MS误差随机区组设计资料:正态分布且方差齐:双向分类的方差分析配对t检验(意义相同t2 =F )非正态分布或/和方差不齐:变量转换t双向分类的方差分析Friedman M检验初衷:考虑环境因素对实验结果的影响。7、拉丁方设计资料的方差分析:可多安排一个已知的对实验结果有影响的非处理因素,增加了均衡性,减少了误差,提高了效率。完全随机设计只涉及一个处理因素;随机区组设计涉及一个处理因素、一个区组因素;如果实验研究涉及一个处理因素和两个控制因素,每个因素的类别数或水平数相 等,此时可采用拉丁方设计。

24、变异来源自由度MSF总变异N-1处理组g -1MS处理MS处理/ MS误差行区组g -1MS亍MS亍/ MS误差列区组g -1MS列MSj / MS误差误差(g -1)(g -2)MS误差8两阶段交叉设计资料的方差分析该设计不仅平衡了处理顺序的影响,而且能把处理方法间的差别、时间先后之间的差别和实验对象之间的差别分开来分析。9、 多样本均数间的多重比较方法:LSD-t检验、Dunnett-t检验、SNK-q检验三种。10、 多样本方差比较:Bartlett 检验、Levene检验第五章计数资料的统计描述1、基本概念: 、相对数(Relative number):是两个有关联的数据之比,用以说明

25、事物的相对 关系,便于对比分析。常用的相对数指标很多,按联系的性质和说明的问题不同,主要分为:率、构成、 相对比三类。 、强度相对数-频率(frequency ):是最常见的一种相对数,频率在实践中又称 为比率(proportion )。它表示事物内部某个组成部分所占的相对多少。 、结构相对数一构成比(constituentratio):说明某事物内部各组成部分所占的比重或分布,又称构成比。构成比可相加,和等于 100% 、优势相对数-比(ratio ):是指两个有关联的指标 A和B之比,简称比。A和B可以是性质相同,也可以是性质不相同。通常以倍数或百分数(%表示。 、率的标准化法:指的是消除

26、内部构成差别,使总体率能够直接进行比较的方法。采用统一标准调整后的率为标准化率,简称为标化率(sta ndardized rate)。标准化的基本思想:采用统一的 标准人口构成”,以消除人口构成不同对各组总率的影响,使算得的标准化率具有可比性。 、动态数列(dynamic series):是按时间顺序排列的统计指标(可以为绝对数,相对数或平均数),用以观察和比较该事物在时间上的变化和发展趋势。分析动态数列常用的指标有:绝对增长量、发展速度与增长速度、平均发展速度与 平均增长速度。 、发展速度:表示报告期指标的水平相当于基线期(或前一期)指标的百分之 多少或若干倍。 、增长速度:表示的是净增加速

27、度,增长速度=发展速度-(100%)。2、率的标准化的注意事项: .标准化后的标准化率,已经不再反映当时当地的实际水平,它只是表示相互比 较的资料间的相对水平。 .两样本标准化率是样本值,存在抽样误差。当样本含量较小时,比较两样本的 标准化率,需要作假设检验。 (但如果比较的两者是总体的参数,则可进行直接比较,无需进行 t 、F 检验)第六章 几种离散型变量的分布及其应用 连续型分布举例: u 分布、 t 分布和 F 分布; 常用离散型分布:二项分布、 Poisson 分布、负二项分布。1、基本概念 、 二项分布( binomial distribution): 是指在只会产生两种可能结果之一

28、的n次独立重复试验中,当每次实验的“阳性”的概率n保持不变时,出现“阳性”次 数X=0,1,2n的一种概率分布。 、 Poisson 分布( Poisson distribution ):是二项分布的一种极端形式,指的 是每次实验的“阳性”概率比较低的时候,出现阳性次数的相应概率满足以入为参 数的XP(入)。2、二项分布的适用条件: 、每次试验只会发生两种队里的额可能结果之一,即分别发生两种结果的概率之和很等于 1; 、每次试验产生某种结果的概率固定不变; 、重复试验是相互独立的,不相互影响。3、二项分布的性质 、样本率的标准差也称为率的标准误,可以用来描述样本率的抽样误差,率的标 准误越小,

29、则率的抽样误差就越小。 、当n =0.5时,二项分布图形是对称的,当冗工0.5时,图形是偏态的,随着n增大,图形趋于对称。当n无穷时,只要n不太靠近0或1, 二项分布则近似正态分布。 、利用二项分布的性质,可进行总体率的区间估计和差异推断。(当n< 50时可查表得到可信区间,50是可采用近似正态分布法)4、Poisson 分布的适用条件:普通性:才充分小的观测单位上X的取值最多为1 ;独立增量性:重复实验室相互独立的,不相互影响; 平稳性:每次试验阳性时间发生的概率都应相同。5、Poisson 分布的性质: 、总体均数入与总体方差b 2相等时 Poisson分布的重要特征; 、当n很大,

30、而n很小时,且 n n =入为常数时,二项分布近似Poisson分布; 、当入增大时,Poisson分布逐渐近似正态分布。一般而言,入20时,Poisson分布资料可作为正态分布处理。 、 Poisson 分布具备可加性。6、Poisson 分布的图形特点:当入越小,分布就越偏态;当入越大时,Poisson分布则越渐近正态分布。当入w1时,随X取值的变大,p(X值反而会变小;当入1时,随X取值的变大,P (X)值先增大后变小。第七章卡方检验x21、 x 2分布曲线的特点:x 2分布曲线的形状依赖于自由度的大小当自由度w2 时,曲线呈L形;随着自由度的增加,曲线逐渐趋于对称;当自由度t无穷时,x

31、 2分布趋近正态分布。2、x 2分布的基本性质:可加性;3、 x 2检验的原理:通过实际频数和理论频数满足f( x2),来推断实际频数与理 论频数的差异大小及有无统计学意义。4、几种常见的资料类型: 、普通四格表:自由度 =(行数-1 )(列数-1 )x 2可使用四格表专用公式;X: n > 40且所有的T> 5 t使用基本公式;Pa时,改用 Fisher确切概率法;n > 40但有1 w Tw 5 t四格表校正公式或者 Fisher确切概率法n v 40或Tv 1 Fisher 确切概率法 配对四格表资料:b+c v 40且1 w Tw 5要校正;5、Fisher 确切概率

32、法思想:四格表资料周边合计数不变的条件下, 计算表内 4个实际频数变动时的各种组合之 概率;再按照假设检验用单侧或双侧的累计概率依据所取得检验水准a做出推断。6、行x列表资料使用范围:多个样本率的比较;样本构成比的比较;双向无序分类资料的关联性检验;7、多个样本率的多重比较:多个实验组间的两两比较与实验组与同一对照组的比较均应对a进行校准,且方法相同。8拟合优度检验:适用范围:推断某一现象的频数分布是否符合某一理论分布;比较实际频数与理论频数的差异大小。第八章非参数检验1、非参数检验的适用范围: 不满足正态分布和方差齐性条件的计量资料; 对于分布不知道是否正态的小样本资料; 对于一端或两端是不

33、确定值得资料; 推断等级资料的等级强度差别。2、主要数据资料类型: 配对样本比较:(样本量50时可以采用近似正态法作 u检验)H0:样本总体中位数=人群总体中位数;H1:样本总体中位数工人群总体中位数。 两独立样本的比较:(n1> 10或n2-n1 > 10时,令n1+ n2=N,作近似正态分布检 验)H0:两样本总体分布位置相同;H1:两样本总体分布位置不同。 完全随机多个样本:H0:多个样本总体分布位置相同;H1:多个样本总体分布位置不全相同。注意:当完全随机的多个样本为两个样本时,使用完全随机多个样本的检验方法求得的统计值H (或HC)与使用两独立样本的 u检验求得的u值等价

34、。H=u2。第九章:双变量回归与相关1、 直线回归(linear regression):因变量Y随着自变量 X的变化而变化呈直线 趋势,但并非所有的对应点恰好全都在一条直线上,称为直线回归或者简单回归。注:a为常数项,是回归直线在 Y轴上的截距;b为回归系数(coefficient of regression),为直线的斜率;其统计意义是当X变化一个单位时 Y的平均改变的估计值。直线回归方程的求法基本原则: 最小二乘(least sum of squares )将实测值与假定回归线上的估计值的纵向距离称为残差( residual )或剩余值。为 了使各点残差尽可能的小,考虑到所有点之残差有正

35、有负, 所以通常取各点残差平 方和最小的直线即为所求,如此得到的回归系数最理想。统计推断的检验:方差分析F检验或者t检验两者等价:t=F2b离0越远,Y受X的影响越大,SS回就越大,回归效果越好;SS残越小,估计误差越小,回归作用越明显。2、 直线相关(linear correlation ):两个数值变量进行比较时,一个变量在增加 或者减少时,另一个变量也表现为增加或者减少,这两个变量之间的关系即为直线 相关。相关系数(correlation coefficient)又称为pearson积差相关系数,以符号 r表示样本相关系数,符号p表示其总体相关系数。用来说明具有直线关系的两变量间相关的密

36、切程度与相关方向。相关系数的统计推断:t检验决定系数(coefficient of determination):为回归平方和与总平方和之比。其数值大小反映了回归贡献的相对程度,也就是在Y的总变异中回归关系所能解释的百分比。3、残差图考察数据是否符合模型假设的基本要求: 、应变量与自变量关系为线性; 、误差服从均数为0的正态分布; 、方差相等; 、各观测对象独立。4、直线回归与直线相关的区别和共同点区别:相关系数无单位,回归系数有单位; 相关表示相互关系,没有依存关系,回归有依存关系; 两者对资料的要求不同: 当X和Y都是随机的,可以进行相关和回归分析; 当Y是随机变量,X是控制变量时,理论上

37、只能做回归分析。联系:均表示线性关系; 符号相同,共变方向一致; 假设检验结果相同; (tr=tb ) 可以互相换算(数值的相同不代表意义的相同)第十二章 重复测量设计资料的方差分析1、重复测量设计资料的数据特征: 、未设立平行对照的前后测量设计:(重复测量资料最常见的情况是前后测量设计)前后测量设计与配对设计 t 检验的区别:a、 配对设计中同一对子的两个实验单位可以随机分配处理,两个实验单位同期观 察实验结果,可以比较处理组间差别;前后测量设计不能同期观察实验结果,虽然 可以在前后测量之间安排处理, 但本质上比较的是前后差别, 推论处理是否有效是 有条件的,即假定测量时间对观察结果没有影响

38、。b、配对t检验要求同一对子的两个实验单位的观察结果分别是差值相互独立,差 值服从正态分布。 而前后测量设计前后两次观察结果通常与差值不独立, 大多数情 况第一次观察结果与差值存在负相关的关系。c、配对设计用平均差值推论处理的作用,前后测量设计出了分析平均差值外,还 可进行相关分析。 、设立平行对照的前后测量设计:虽然分为处理组和对照组, 但是不能进行差值均数 t 检验, 因为通常两组差值的方 差不会相等。 、重复测量设计:重复测量数据与随机区组设计数据相似,两者的差别是:a、重复测量设计中处理是在区组间随机分配,区组内的各时间点是固定的,不能 随机分配; 随机区组设计则要求每个区组内实验单位

39、彼此独立, 处理只能在区组内 随机分配,每个实验单位接受的处理是不相同的。b、重复测量设计区组内实验单位彼此不独立,而随机区组内实验单位彼此独立, 如果按照随机区组进行 t 检验则要求进行统计值的校正。第十五章 多元线性回归资料的分析适用范围:分析一个应变量与多个自变量之间的线性关系;1、 多元线性回归模型的一般形式:Y= B 0+3 1X1 + 3 2X2+ 3 mXm+ea、 偏回归系数3j的意义:表示在其他自变量保持不变的时候,Xj增加或减 少一个单位时Y的平均变化量。b、偏回归分布的应用条件 : 、Y与各个变量之间有线性关系; 、各例观测值Yi相互独立; 、残差e服从均数为0,方差为3

40、 2的正态分布。(等价于对任意一组自变量 XI、X2Xm值,应变量Y具有相同方差,并且服从正态分布)c、参数的计算方法:最小二乘法2、多元线性 回归方程 的假设检验及其评价: (对整体的假设检验)A、 可以将回归方程中所有的自变量作为一个整体来检验它们与应变量 Y之间是否 具有线性关系。假设检验方法:方差分析法: H0:3仁3 2= =3 m=0 H1:各3 j不全为0. 若拒绝H0,接受H1,即可确定所拟合的回归方程有统计学意义。1 )决定系数R2:即为偏回归平方和与残差平方和的比值,其值越接近1,说明拟合程度越好。2)复相关系数:决定系数开根号,可用来度量应变量与多个自变量之间的线性相 关

41、程度。B、各自变量的假设检验: 、使用方法为 偏回归平方和(SS回(Xj):表示在 m-1个自变量的基础上新增 加 Xj 所引起的回归平方和的增加量。其值越大,说明 Xj 越重要。偏回归平方和检验: H0: 3 j=0;H1 :3 j丰0注意 :单独分析各个变量的偏回归平方和,所有值的和小于总的回归平方和,其原 因是忽略了各个变量之间的相互作用成分。 、 t 检验法:对于同一资料,不同自变量的t 值间可以相互比较, t 的绝对值越大,说明该自变量对 Y 的回归所起的作用越大。 标准化回归系数:减少自变量观测单位不同对结果的影响。在有统计学意义的前提下,标准化回归系数的绝对值越大说明相应自变量对

42、Y的作用越大。3、自变量选择方法:A、全局择优法: 、校正决定系数 Rc选择法(当R2相同时,自变量个数越多,Rc越小,最优为Rc最大) 、Cp选择法:应选择 Cp最接近p+1的回归方程为最优方程。B、逐步选择法: 、前进法:(只选不剔)在有统计学意义的前提下,选取偏回归平方和最大的一 个自变量做 F 检验以决定是否选入。 、后退法:(只剔不选)选取回归平方和最小的一个自变量做F检验以决定是否剔除。 、逐步回归法:先选后剔,双向筛选。本质上是前进法,但每引入一个自变量进 入方程后, 要对方程中的每一个自变量做基于偏回归平方和的 F 检验, 看是否需要 剔除一些退化为不显著的自变量。注意: 为了

43、避免已经剔除的自变量再次入选, 选入自变量的检验水准要小于或 等于剔除自变量的检验水准。P的 logit 转换:logit P=ln(p/1-p)=3 0+ 3 1X1 + 3 2X2+ 3mXm回归系数3 j 表示自变量 Xj 改变一个单位时 logit P 的该变量。2、模型参数的意义: 、确定优势比(odds ratio , OR衡量危险因素作用大小的比数比例OR适用于分类指标而不适用于计量指标; 多变量调整后的优势比( adjust odds ratio ) O Rj :表示扣除了其他自变量影 响后危险因素的作用。用来对比某一危险因素两个不同暴露水平 Xj=c1 和 Xj=c0 之间的

44、发病情况。1 )3 j=0时,ORj=1,说明因素Xj对疾病的发生不起作用;2) 3 j >0时,ORj> 1,说明因素Xj对疾病发生起危险作用;3) 3 j v 0时,ORjv 1,说明因素Xj时一个保护因子。 、确定相对危险度(relative risk , RR 对于发病率很低的疾病存在优势比即等于两种暴露水平之间的相对危险度。2、logistic 回归方程的参数估计:主要方法有最大似然估计法(maximumlikelihood estimate , MLE和优势比估计法。3、logistic 回归的适用对象: 、比较各暴露因素的致病风险的大小; 、多因素的共同作用的评价;

45、、危险因素的筛选:多经文献报道选取,但统计学资料不能代替专业依据4、logistic 回归模型的假设检验:常用的检验方法有似然比检验( likelihood ratio test)、 Wald 检验和计分检验( score test )统计量为卡方值 logistic 回归模型变量的筛选与多元线性回归相同。第十六章 logistic 回归分析logistic 回归( logistic regression )属于概率型非线性回归。 适用对象:二分类或多分类影响因素之间的关系。1、表示方法:阳性概率P=1/1+exp(-Z) Z= 3 0+ 3 1X1+ 3 2X2+ 3 mXm第十七章 生存分

46、析1、生存分析资料与一般资料比较的不同:、同时考虑生存时间和生存结局; 、通常含有删失数据; 、生存时间的分布通常不服从正态分布。2、概念: 生存时间( survival time ),从起始事件到终点事之间所经历的时间跨度。完全数据 ( complete data ),在追踪观察中, 当观察到了某观察对象的明确结局时, 该观察对象所提供的关于生存时间的信息是完整的, 这种生存时间数据称为完全数 据。不完全数据( incomplete data ),在实际追踪观察中,由于某种原因无法知道观察 对象的确切生存时间,这种生存时间数据也称为截尾数据。生存率( survival rate )是指病人经历给定的时间之后仍存活的概率,若有截尾 数据,应用乘积极限法。生存概率( proba

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论