医学统计工作的基本步骤_第1页
医学统计工作的基本步骤_第2页
医学统计工作的基本步骤_第3页
医学统计工作的基本步骤_第4页
医学统计工作的基本步骤_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

*医学统计工作的基本步骤 1 设计主要指统计设计,是影响研究能否成功的最关键环节,是提高观察或实验质量的重要保证。内容包 括对资料搜集,整顿和分析全过程的设想与安排。实验设计的三大原则: 随机化,重复,对照。 2 搜集资料:目的指应采取措施使能取得准确可靠的原始数据。来源:统计报表,工作记录,专题调查或 实验研究,统计年鉴和统计数据专辑。要求:随机性和样本含量足够大 3 整顿资料:将原始数据净化,系统化和条理化,为下一步计算和分析打好基础过程。 4 分析资料:在表达数据特征的基础上,阐明事物的内在联系和规律性,包括两方面:统计描叙和统计推 断 17 均数的可信区间与参考值范围的区别?均数的可信区间与参考值范围的区别主要体现在含义,计算公 式和用途三个方面的不同。 (1)意义:均数的可信区间是按预先给定的概率,确定的未知参数的可能范围。 实际上一次抽样算得的可信区间要么包含了总体均数,要么不包含。但可以说:该区间可多大(如当 a=0.05 时为 95%)的可能包含了总体均数。而 参考值范围是指正常人的解剖,生理生化某项指标的 波动范围。均数的可信区间计算公式(1) 未知:X指均数可信区间的用途:估计总体均数,参考值 范围是指判断观察对象的某项指标是否正常。 7.假设检验与区间估计的关系:置信区间具有假设检验的主要功能;置信区间在回答差别有无统计学意义 的同时,还可以提示差别是否具有实际意义;假设检验可以报告确切的 P 值,还可以对检验的功效做出估 计。 1.标准差与标准误的区别:标准差是衡量观察值的离散趋势,描述正态分布资料的频数。标准误是样本均 数的变异程度,表示抽样误差的大小,用于总体均数区间估计。两者联系:两者都是变异指标。在样本含 量一定时,S 越大标准误也越大,即在抽取相同例数的前提下,标准差越大,抽到的样本均数的抽样误差 也越大。 2.P 值和 :P 值时从样本求得 H0 条件下随机抽样得到目前的统计量以及更极端统计量的概率,反映样 本信息是否支持 H0,也反映做出拒绝或不拒绝 H0 决定的理由充分程度。 时人为确定的小概率,容许 犯第二类错误的概率,用作门槛,称检验水平。在假设检验中,通常时将 P 与 对比来得到结论, 。 3.标准正态分布与 t 分布有何不同: t 分布为抽样分布,标准正态分布为理论分布。t 分布比标准正态分布 的峰值低,且尾部瞧得更高。随着自由度的增大,t 分布逐渐趋于标准正态分布。当自由度趋于无穷大时, t 分布趋近于标准正态分布。 4.假设检验中,当 P0.05 时,拒绝 H0 的理论依据。P 值是指从 H0 规定的总体随机抽得等于及大于现有 样本获得的检验统计量值的概率。当 P0.05 时,说明在 H0 成立的条件下,得到现有检验结果的概率小于 通常确定的小怪绿时间标准的 0.05。因小概率事件在一次试验中几乎不可能发生,现的确发生了,说明现 在样本信息不支持 H0,所以怀疑原假设 H0 不成立,拒绝 H0。 5.t 检验应用的条件:对单样本 t 检验要求资料服从正态分布;配对 t 检验要求差值服从正态分布;对两样 本 t 检验则要求数据均服从正太分布,且两样本对应的两总体方差相等。 6.I 型错误和型错误得区别与联系:I 型错误是指拒绝了实际成立的 H0 所犯的弃真的错误,其概率大小 用 表示,型错误是指接受了实际上不成立的 H0 所犯的取伪错误,其概率用 表示。当样本含量 N 确定时, 越小 越大,反之, 越大 越小。了解这两类错误的实际意义在于,若在应用中要重点 减少 ,则取 =0.05 ;若要在应用中要重点减少 ,则取 =0.10 或- 。20 甚至更高。 7.假设检验和区间估计有何联系:假设检验用于推断质的不同即判断两个或多个总体参数是否不等,而可 信区间用于说明量的大小即推断总体参数的范围。两者有联系也有区别,假设检验与区间估计的联系在于 可信区间也可以回答假设检验的问题,若算得的可信区间若包含了 H0,则按 水准,不拒绝 H0,若不 包含 H0,则按照 水准,拒绝 H0,接受 H1。也就是说在判断两个总体参数不等时,假设检验和可信区 间时完全等价的。 1.方差分析的基本思想和应用条件是什么。方差分析的基本思想时根据试验设计的类型,将全部测量值总 的离均差平方和及其自由度分解为两个或多个部分,除随机误差作用外,每个部分的编译可由某个因素的 作用加以解释。通过比较不同变异来源的均方,借助 F 分布做出统计推断,从而推论各种研究因素对试验 结果有无影响。应用条件:各样本是互相独立的随机样本,均服从正态分布;相互比较的各样本的具有方 差齐性。 2.SS 组间和 SS 组内各表示什么含义。SS 组间表示组内变异,指各处理组样本拘束大小不等,是由处理因 素和随机误差造成的,SS 组内表示组内变异,指各组处理组内变量值大小不等,是由随机误差造成的。 3.为什么在方差分析中的结果为拒绝 H0、接受 H1 之后,对多个样本均数的两辆比较要用多重比较的方法: 方差分析的备择假设 H1 时 g 各总体均数不全像等,拒绝 H0,接受 H1,只说明 g 各总体均数总的来说有 差别,并不能说明两辆总体均数有差别。若要进一步了解两辆总体均数不等,则需进行多个样本均数间的 多重比较。 1 常用的相对数有哪几种?简述各种相对数指标的含义,计算方法及特点。有强度相对数(率) 、结构相 对数、相似比。率的含义:某种现象实际发生得例数与可能发生的总体例数之比,说明某现象发生的频率 或强度。构成比的含义:食物内部某一部分的个体数与该事物各部分个体数的总和之比,用来说明个构成 部分在总体中所占比重或分布,又称百分比。相对比:是两个有关指标之比,说明两指标间的比例关系。 2.何为标注化法,描述直接标准化法与间接标准化法的区别?采用某影响因素的统一标准构成,然后计算 标准化率的方法称为标准化法,其目的时消除原样本内部某影响因素构成不同对合计率的影响,使通过标 准化后的标准化和纪律具有可比性。直接标准化法和间接标准化法的区别在于:如对死亡率的年龄构成标 准化,若已知年龄别死亡率,可采用直接法,选择一个标准年龄人口构成直接计算标准化率;若只有总的 死亡数和年龄别人口数而缺乏年龄别死亡率时,宜用间接法,选择一个标准年龄别死亡率,先计算标准化 死亡比,再用标准化死亡比乘以标准总死亡率得到标准化死亡率。 3.应用标准化率进行比较时要注意什么问题。标准化法只适用与因两组内不构成不同,并有可能影响两 组总率比较的情况,对与其他因其他条件不同而产生的可比性问题,标准化法不能解决;由于选择的标 准人口不同,算出的标准化率也不同,因此,当比较几个标准化率时,应采用同一标准人口;标准化后 的标准化率,已经不再反映当时当地的实际水平,他只是表示相互比较的资料间的相对水平;两样本标 准化率时样本值,存在抽样误差。比较两样本的标准化率,还应做假设检验。 4.相对数的动态指标有哪几种?各有何用处?相对数的动态指标及其动态数列分布指标有:绝对增长量、 发展速度与增长速度、平均发展速度与平均增长速度。绝对增长量时说明其相对数在一定时期增长的绝对 值;发展速度与增长速度均为相对比,说明某相对数在一定时期的速度变化;平均发展速度时各环比发展 速度的集合均数,说明某相对数在一个较长时期中逐期平均发展变化的程度。 1 二项分布、Poisson 分布和正态分布间的联系(1) ;当 N 很大, 很小,且 N= 为常数时,二项分 布近似 Poisson 分布(2)在 n 很大、 不接近 0 也不接近 1 时,二项分布 B(n,)近似正态分布,而相 应的样本率 p 的分布也近似正态分布 N(3)当 增大时,Poisson 分布渐进正态分布,当 20 时, Poisson 分布资料可做正态分布处理 2 二项分布的应用条件是什么?答:(1)每次实验只有发生两种互斥的可能结构之一,即两种互斥结果 的概率之和恒等于 1; (2)每次实验产生某种结果(如阳性)的概率固定不变;(3)重复实验是相互独 立的,即任何一次实验结果的出现不会影响其他实验结果出现的概率。 3.Poisson 分布的性质特征是什么?总体均数与总体方差相等;当 N 很大, 很小,且 N= 为常 数时,二项分布近似 Poisson 分布;当 增大时,Poisson 分布渐进正态分布,当 20 时,Poisson 分布资料可做正态分布处理;Poisson 分布具有可加性。即对于服从 poisson 分布的 m 个相互独立的随 机变量 X1X2Xm,它们之和也服从 poisson 分布,且其均数也这 m 个随机变量的均数之和。 问答: 1.对于四表格资料,如何正确选用检验方法?首先应分清时两样本率比较的四表格还是配对设计的四表 格资料;对于两样本率比较的四表格资料,应根据各格的理论值 T 和总例数 N 的大小选择不同的卡方 检验计算公式。 2.说明行 X 列资料卡方检验应注意的事项:行 X 列表中的理论频数不应小于 1,或 1T5 的格子数不 宜超过格子总数的 1/5。多个样本率比较,若所得统计推断为拒绝 H0,接受 H1,只能人为各总体率之间 总的来说有差别,但不能说明任两个总体率之间皆有差别。要进一步推断哪两个总体率之间有差别,需进 一步做多个样本率的多重比较对于有序的 RXC 表资料不宜用卡方检验。对于 RXC 表的资料要根据其分 类类型和研究目的选用恰当的检验方法。 3 说明 X2 检验的用途: 答:X 2 检验的用途比较的广,通常多用于推断两个总体率或构成比之间有无差别,推断多个总体率或构 成比之间有无差别,多个样本率比较的 X2 分割,两个分类变量之间有无关联性,频数分布拟合优度的 X2 检验。 4.两样本率比较的 u 检验与 X2 检验有何异同? 两样本率比较时,若对同一资料进行 t 检验与 X2 检验,在不校正的情况下 X2 =U2 ,但 u 检验通常用于大样 本,而 X2 检验用于或小样本。 1.直线回归分析中应注意哪些问题?两个变量的选择一定要结合专业背景,不能把毫无关联的两种现象 勉强作回归分析,其中哪一个作为应变量主要是根绝专业上的要求而定,同时直线回归要求至少对于每个 X 相应的 Y 要服从正态分布,X 可以是服从正态分布的随机变量也可以时能够精确测量和严格控制的非 随机变量进行直线回归分析前应绘制散点图,以检查数据是否满足模型基本假设,发现离散点并进行进 一步处理对结果应有正确解释。反映两变量间数量上影响大小的统计量应该是回归系数的绝对值,而不 是建设检验的 P 值。 P 值越小只能说约有理由人为变量间的直线关系存在,而不能说关系越密切或越显著。 直线回归用于预测时应尽量不合理的外延。结果中的决定系数可以表示两变量关系的实际效果。 2.简述直线回归与直线相关的区别与联系。两者的联系:对于即可做相关又可做回归分析的同一组数据, 算出的相关系数和回归系数正负号一致相关系数与回归系数得假设检验等价同一组数据的相关系数和 回归系数可以相互换算用回归解释相,当总平方和固定时,回归平方和的大小决定了相关的密切程度, 回归平方和越接近总平方和,则决定系数越接近 1,说明相关的效果越好。两者的区别:资料要求上: 相关要求 X、Y 服从双变量正态分布,这种资料进行回归分析为型回归;回归要求 Y 在给定某个 X 值 时服从正态分布,X 时可以精确测量和严格控制的变量,称为 I 型回归应用上:说明两变量间相互关系 用相关,此时两变量的关系是平等的;而说明两变量间依存变化的数量关系用回归,用以说明 Y 如何依 赖与 X 而变化意义上:相关系数说明具有直线关系的两变量间相互关系的方向与密切程度;回归系数 表明 X 每变化一个单位所导致 Y 的平均变化量。 3.直线相关与秩相关的区别与联系。联系:两者所决绝的应用问题相同,都可用来表示两个数值变量之 间的方向和密切程度。两个相关系数都没有单位计算上,用秩次做积差相关,得到就是秩相关系数。 区别:资料要求不同,积差相关要求 X、Y 服从双变量正态分布,秩相关可以时任意分布由于对资料 要求不同,两者分属于参数统计与非阐述统计方法,所以符合双变量正态分布条件时,积差相关的效率高 于秩相关。两者假设检验的方法不同。 4.描述曲线拟合时的注意事项:首先应绘制散点图,根据图形选用恰当的回归模型形式;求解回归方 程时注意,模型中对 Y 进行非线性转换后,应采用非线性最小二乘估计,如果仅对 X 进行变换,普通最 小 1:为什么要做多变量线性回归分析? 因为医学中很多疾病的预后都是由多重因素决定的。由于各个因素往往相互作用,多变量回归分析可以帮 助我们分析变量间的数量依存关系,找出危险因素的多面性本质,以及他们对结果变量的相对作用大小。 同事多变量回归还可以在医学干预研究中,对混杂因素进行校正。 2:多元线性回归可以实用哪些类型的自变量? 典型的多元线性回归所使用的自变量类型应该是连续的,但是如果自变量中含有分类变量,经过适当的处 理后任然适合做多元线性回归分析,二分类变量可以直接实用。如果自变量是一个名义分类变量,可以将 其转化为若干个 2 分类变量后进行分析。如果自变量是个有序分类变量,则可以根据不同级别赋予不同分 数后胺连续变量处理,也可以按名义分类变量的方式处理。 3:多元线性回归分析中如何筛选自变量?你认为选用哪种方法更好些? 回归分析中引入什么变量,理想的做法是由研究者根据理论和经验决定。在缺乏专业依据的情况下,可以 采用回归筛选技术。具体有两类做法:一是全局择优法,二是逐步选择法。理论上讲,由于全局择优法是 对自变量各种不同组合情况进行比较后,从中挑取的一个最优回归方程,这种方法最好。但是由于实际中 自变量的数目往往较大,采用逐步选择法比较好。逐步选择法有前进法,后退法和逐步回归法。后退法考 虑到了自变量的组合作用,理论上更好一些,但变量数目不能太多,而逐步回归法适合多种情况,更实用 些。 4:何谓多重共线性?它对资料分析有什么影响? 多重共线性指多元回归中一些自变量之间存在较强的线性关系,这种情况在实际应用中非常普遍。这些自 变量通常是相关的,如果这种相关程度非常高,所得到的回归方程可能不可靠。如将一些很有统计学意思 的自变量变得不显著,出现回归系数估计值的正负符号与客观实际不一致等问题。 5:如何评价所建立的多元线性回归方程的优劣?残差分析有何作用? 一般情况下评价的准则可以采用方差分析法和求决定系数 R 平方法。方差分析的 F 检验是吧所有的自变 量作为一个整体,检验他们对应变量 Y 的影响是否具有统计学意义。F 值越大,P 值越小,表示越有理由 拒绝自变量与应变量间没有线性关系的无效假设。决定系数越接近 1,说明模型对数据的拟合度越好。残 差分析是检查资料是否符合回归模型条件的一种简单而有效的方法。通过残差分析,常可以检查出数据模 型的错误,如应变量 Y 与自变量的非线性关系等。 6:如何看待回归分析中的离群值,应如何处理? 首先检查这些离群点是否由于观测错误引起,如果确系此类错误,需要讲这些点改正或者删除后重新建立 新方程。否则应仔细分析产生的原因,如果这些点对回归分析的结果影响很大,应该从专业角度决定其取 舍。 logistic 回归分析需注意的问题: 1.需要有足够的样本量来保障参数估计的稳定性。 2.多变量的 logistic 回归对自变量进行筛选不要完全依赖计算机和检验水平来筛选,临床与流行病学的意 义和生物学机制在模型结果解释中占更重要的地位。 3.logistic 回归模型的自变量可以是无序多分类变量,常用多个 0-1 假变量来代替,使结果更容易解释。 4.在大规模的队列研究和横断面研究、临床的诊断试验和疗效评价试验,不同暴露层或处理组的疾病(或 死亡)分布与研究总体人群中疾病(或死亡)的分布一致时,常数项才有意义。 logistic 回归与线性回归有什么不同?两种方法各有什么特点? logistic 回归属于概率型非线性回归,应变量 Y 是一个二值变量(服从二项分布) ,而线性回归的应变量一 般为连续变量(正态分布) 。线性回归对资料的分析比较细腻,既适合大样本资料又可用于小样本数据, 但要求对不痛的自变量取值,应变量 Y 服从正态分布和等方差,这一条件在实际中有时不能满足。 Logistic 回归则对资料几乎没什么限制,而且参数具有明确的实际意义,但是要求有较大的样本含量。 logistic 回归可以实用哪些类型的自变量? 可以使用连续变量,名义分类变量和有序分类变量。对名义分类变量须做化哑变量,有序分类变量可以按 照连续变量或哑变量两种方法处理。如果自变量中既有连续变量又有分类变量,最好将连续变量化为分类 变量处理。 logistic 回归的适用范围是什么?应注意哪些问题? 一般来讲,只要应变量是一个二值变量,样本含量又比较大,都可以考虑适用 logistic 回归分析。logistic 回归分析多用于流行病学的病因学研究。此外,logistic 回归也适合于临床试验评价及疾病的预后因素分 析,试验研究中药物的剂量反应分析等。应该注意的是 logistic 回归分析一般不能用于小样本,另外要对 自变量做合理的编码处理。 对有序自变量该如何处理? 如何自变量是一个有序变量,两种方法:一是对每一登记赋予一个分值,然后按连续变量处理,另一种方 法是将自变量用若干二分类的哑变量表示。如果方程中的变量不是很多,样本含量又比较大,用哑变量方 法比较好。但当自变量多,样本含量又不大的时候,将 K 个分类的有序变量化成 K-1 个哑变量后,自变 量的数目增多,建立的回归方程可能不稳定,这时按得分处理更合适一些。 用逐步回归法得到的回归方程是否最优?为什么? 不一定。逐步回归法是一种有进有出的双向筛选方法。虽然能够保证进入方程的每一个自变量具有统计学 意义,并可以将一些退化的不显著的自变量从方程中剔除,但是没有全面考虑不同自变量间的组合作用, 得到的只是一个局部最优的回归方程。 条件 logistic 回归主要用于哪种类型的资料? 主要用于配对资料分析。在流行病学的病例对照研究中,为了控制一些重要的混杂因素,常把病例和对 照按照年龄、性别等条件进行配对,形成多个匹配组。从原理上讲各匹配组的病例数和对照人是任意的, 但最常用的是每组中有一个病例和若干个对照,即 1:M 配对研究(一般 M 小于等于 3). 综合评价法的步骤:综合评价实质上就是一个科学研究与决策的过程,原则上包括设计、手机资料、整理 资料和分析资料几个基本阶段,但是在实施中应该注意以下几个环节:1;根据评价目标选择合适的评价指 标,考察各指标的内在联系,选择那些主要的能反映事物本质的评价指标。2 跟你据评价目的,确定诸评 价指标在对某事物的评价中的相对重要性或者个指标的权重。3;合理确定各个指标的评价等级及其界限。 4;根据评价目的,数据特征,选择适合的综合评价方法,并根据已掌握的历史资料,建立综合评价模型, 计算综合指标。5;确定综合指标的登记数量界限,在对同类事物综合评价的应用实践中,对选用的评价 模型进行考察,并不断修改补充,使之具有一定的科学性、实用性与先进性,然后推广应用。 TOPSIS 法步骤:TOPSIS 意为与理想方案相似性的顺序选优技术,是系统工程中有限方案多目标决策分 析的一种常用方法,可用于效率评价、卫生决策和卫生事业管理等多个领域。步骤:1 综合评价中,有些 是高优指标,有些是低优指标,首先要求所以指标的变化方向一致。2,同趋势化后的原始数据矩阵进行 归一化处理,并建立相应矩阵。3 据矩阵得到最优值向量和最劣值向量。4 分别计算诸评价对象与最优方 案及最劣方案的距离。5 计算诸评价对象与最优方案的接近程度。6 按接近程度的大小将各评价对象排序, 接近程度越大,表示综合效应越好。7 依接近程度对各评价对象进行排序。 秩和比法(RSR )步骤:其基本思想是,在一个 N 行 M 列的矩阵中,通过秩转换获得无量纲统计量 RSR,在此基础上运用参数统计分析的概念与方法,研究 RSR 的分布,以 RSR 值对评价对象的优劣直接

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论