医学统计学复习资料_第1页
医学统计学复习资料_第2页
医学统计学复习资料_第3页
医学统计学复习资料_第4页
医学统计学复习资料_第5页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

医学统计学复习资料导言医学统计学是将统计学的原理和方法应用于医学科研与实践的一门学科。它贯穿于医学研究的设计、数据收集、整理、分析及结果解释的全过程,是揭示医学现象内在规律、检验科研假设、评价诊疗效果、为循证医学提供依据的不可或缺的工具。本复习资料旨在梳理医学统计学的核心概念与关键方法,帮助读者巩固基础,提升应用能力。一、基本概念与研究设计1.1基本概念*总体与样本:总体是根据研究目的确定的所有同质观察单位某项指标值的集合。样本则是从总体中随机抽取的一部分具有代表性的观察单位的集合。统计学的核心思想之一便是通过样本信息推断总体特征。*变量与资料类型:*变量:观察对象的某项特征,其取值具有不确定性。*定量资料(数值变量资料):变量值是定量的,表现为数值大小,有度量衡单位。可分为连续型(如身高、体重)和离散型(如脉搏次数)。*定性资料(分类变量资料):变量值是定性的,表现为互不相容的类别或属性。可分为无序分类(如性别、血型)和有序分类(如疗效等级:治愈、显效、有效、无效)。*误差:*系统误差:由于仪器未校准、测量者操作不规范等固定原因造成的,可通过严格质控避免或减小。*随机误差:排除系统误差后,由各种偶然因素引起的误差,不可避免,但可通过合理设计和增大样本量来减小。抽样误差是随机误差的一种,指样本统计量与总体参数间的差异。*概率与频率:概率是描述随机事件发生可能性大小的数值,用P表示,取值范围[0,1]。频率是指在n次重复试验中,某事件发生的次数与n的比值。当n足够大时,频率可作为概率的估计值。小概率事件(通常P≤0.05或P≤0.01)在一次试验中被认为几乎不会发生。1.2研究设计的基本原则良好的研究设计是保证研究结果科学性和可靠性的前提,其重要性远大于后续的统计分析。*随机化原则:包括随机抽样(保证样本代表性)和随机分组(保证组间基线可比)。*对照原则:设立对照组,以排除非处理因素的干扰,常用对照形式有空白对照、安慰剂对照、标准疗法对照等。*重复原则:在相同条件下进行多次观察或实验,以保证结果的稳定性和可靠性,体现为足够的样本量。*均衡原则:在研究设计阶段,使实验组和对照组(或各实验组间)在非处理因素方面尽可能一致,以提高组间的可比性。1.3常用研究设计类型*观察性研究:研究者不施加任何干预措施,仅观察记录自然状态下研究因素与结局的关系。如横断面研究、队列研究、病例对照研究。*实验性研究:研究者对研究对象主动施加干预措施,并观察其效应。如随机对照试验(RCT)、非随机对照试验。*临床试验设计:针对药物或治疗方案的疗效和安全性评价,有其特殊要求,如盲法(单盲、双盲、三盲)、伦理考量等。二、统计描述统计描述是通过图表或计算统计指标来概括数据的基本特征,揭示数据的分布规律。2.1定量资料的统计描述*集中趋势指标:描述一组数据的中心位置或平均水平。*算术均数(均数):适用于对称分布,特别是正态分布资料。*中位数(M):适用于偏态分布资料、分布不明资料或有序分类资料。*几何均数(G):适用于等比级数资料或对数正态分布资料。*离散趋势指标:描述一组数据的变异程度或离散程度。*极差(R):简单但不稳定,易受极端值影响。*四分位数间距(IQR):即P75-P25,适用于偏态分布资料,比极差稳定。*方差(S²)与标准差(S):适用于对称分布,特别是正态分布资料,标准差是方差的平方根,与均数同单位。*变异系数(CV):用于比较度量衡单位不同或均数相差悬殊的两组或多组资料的变异程度。*正态分布:*特征:以均数为中心,左右对称,呈钟形曲线;有两个参数(μ,σ²);曲线下面积有一定规律(μ±1σ占68.27%,μ±1.96σ占95.00%,μ±2.58σ占99.00%)。*应用:许多医学现象近似服从正态分布;是许多统计方法的理论基础;可用于质量控制和医学参考值范围的制定。2.2定性资料的统计描述*绝对数:直接清点得到的频数。*相对数:*率:说明某现象发生的频率或强度。*构成比:说明某一事物内部各组成部分所占的比重或分布。注意:构成比不能代替率!*相对比:说明两个有关指标间的比例关系。*应用相对数的注意事项:分母不宜过小;注意率与构成比的区别;资料的可比性(即除研究因素外,其他条件应尽可能一致);合并率(合计率)的计算。2.3统计表与统计图*统计表:以表格形式清晰、简明地展示数据。结构包括标题、标目(横标目、纵标目)、线条、数字和备注。制作时应遵循重点突出、层次分明、简单明了的原则。*统计图:以图形形象地展示数据特征。常用类型:*直方图:适用于展示连续型定量资料的频数分布。*直条图:适用于比较相互独立的各组指标数值大小(定量或定性资料)。*百分条图/饼图:适用于展示定性资料的构成比。*线图:适用于展示某指标随另一连续型变量(如时间)变化的趋势。*箱式图:适用于展示连续型定量资料的分布特征(中位数、四分位数、极端值)。*散点图:适用于展示两连续型定量变量间的关系。三、统计推断统计推断是利用样本信息来推断总体特征的过程,包括参数估计和假设检验。3.1参数估计*点估计:用样本统计量直接作为总体参数的估计值。*区间估计:按一定的概率(可信度,通常取95%或99%)估计总体参数所在的范围,即可信区间(CI)。*总体均数的95%可信区间:当σ未知且n较小时,常用`X̄±tα/2,ν*S/√n`;当n足够大时,可用`X̄±Zα/2*S/√n`。*可信区间的含义:从总体中作多次随机抽样,每个样本可得到一个可信区间,平均有95%的可信区间包含了总体均数。3.2假设检验的基本思想与步骤*基本思想:小概率反证法思想。首先对总体参数或分布做出某种假设(H0),然后在H0成立的前提下计算检验统计量,根据检验统计量的大小或相应的P值来判断H0成立的可能性大小。若P值很小(如P≤α),则认为H0不大可能成立,从而拒绝H0,接受备择假设H1。*基本步骤:1.建立检验假设,确定检验水准(α):*H0(无效假设):通常为总体参数相等或总体分布相同。*H1(备择假设):与H0对立,通常为总体参数不等或总体分布不同(可分为单侧和双侧)。*α(检验水准,又称显著性水准):预先规定的拒绝H0的概率标准,通常取0.05。2.选择适当的检验方法,计算检验统计量:根据研究设计类型、资料类型、样本量大小等选择。3.确定P值,做出统计推断:*P值:指在H0成立的前提下,获得现有及更极端检验结果的概率。*推断结论:若P≤α,则拒绝H0,接受H1,差异有统计学意义;若P>α,则不拒绝H0,差异无统计学意义。*注意事项:*P值的含义:P值越小,拒绝H0的理由越充分,但P值的大小并不表示差异的大小,也不表示实际应用意义的大小。*I型错误与II型错误:*I型错误(α错误):H0为真时,拒绝H0,即“弃真”。*II型错误(β错误):H0为假时,不拒绝H0,即“存伪”。*检验效能(1-β):当H1为真时,正确拒绝H0的概率。*单侧检验与双侧检验:根据专业知识判断,若仅关心差别是否存在,不关心方向,则用双侧检验;若关心某一方向的差别,则用单侧检验。单侧检验更容易获得有统计学意义的结果,但需谨慎使用。3.3常用假设检验方法*t检验:适用于定量资料,要求资料近似正态分布,两独立样本t检验还要求两总体方差齐同(可用F检验或Levene's检验进行方差齐性检验)。*单样本t检验:推断样本所代表的总体均数与已知总体均数是否有差异。*配对t检验:适用于配对设计资料,检验配对差值的总体均数是否为0。*两独立样本t检验:比较两个独立样本所代表的总体均数是否有差异。若方差不齐,可采用t'检验或秩和检验。*方差分析(ANOVA):*基本思想:将总变异分解为组间变异和组内变异,通过比较组间变异与组内变异的大小来推断多个总体均数是否全相等。*应用条件:独立性、正态性、方差齐性。*单因素方差分析:用于完全随机设计,比较多个(≥3)独立样本的总体均数。若方差分析结果拒绝H0,需进一步作多重比较(如LSD-t检验、SNK-q检验等)。*χ²检验:适用于定性资料(分类变量资料)。*四格表χ²检验:用于两个独立样本率或构成比的比较。需注意校正公式的应用条件(n≥40且T≥5时用基本公式;n≥40但1≤T<5时用校正公式;n<40或T<1时用Fisher确切概率法)。*配对四格表χ²检验(McNemar检验):用于配对设计的两相关样本率的比较。*行×列表(R×C表)χ²检验:用于多个独立样本率或构成比的比较,以及双向无序分类资料的关联性分析。注意事项:理论频数不宜过小;对于有序的R×C表,χ²检验只能说明各组的构成不同,不能说明等级强度的差别,此时宜用秩和检验。*秩和检验:属于非参数检验方法,适用于:*偏态分布资料或分布类型不明的资料。*等级资料。*某些不便精确测量的资料。*各组方差明显不齐,且不易通过变换达到齐性。*配对设计符号秩和检验(Wilcoxon符号秩和检验)*两独立样本比较的秩和检验(Wilcoxon秩和检验/Mann-WhitneyU检验)*多个独立样本比较的秩和检验(Kruskal-WallisH检验)四、相关与回归分析4.1直线相关*概念:研究两个定量变量之间线性关联的方向和密切程度。*相关系数(Pearson积矩相关系数r):取值范围[-1,1]。r>0为正相关,r<0为负相关,r=0为无直线相关。|r|越接近1,相关越密切。*假设检验:对总体相关系数ρ是否为0进行t检验。*注意事项:相关不等于因果;异常点对相关系数影响较大;当两变量存在非线性关系时,r值可能很小甚至接近0。4.2直线回归*概念:研究一个应变量(Y)与一个自变量(X)之间的数量依存关系。*回归方程:`Ŷ=a+bX`,其中a为截距,b为回归系数(斜率),表示X每变化一个单位,Y的平均变化量。*回归系数的假设检验:检验总体回归系数β是否为0,常用t检验。*决定系数(R²):表示回归平方和占总平方和的比例,反映了自变量对因变量变异的解释程度。R²越接近1,回归效果越好。*相关与回归的区别与联系:*区别:相关反映关联关系,回归反映依存关系;r与b的意义不同;r无单位,b有单位;r对称,b不对称。*联系:r与b符号一致;r与b的假设检验等价;可用回归解释相关。五、研究中常见的统计学错误与注意事项*研究设计阶段:未遵循随机、对照、重复、均衡原则;样本量估计不足或过大;观察指标选择不当。*资料收集与整理阶段:数据录入错误;缺失值处理不当;未进行数据清洗。*统计分析阶段:*资料类型判断错误:误用定量资料的分析方法处理定性资料,或反之。*统计方法选择不当:如对偏态分布资料盲目使用均数和标准差描述,或使用t检验/方差分析;对率的比较误用χ²检验的条件。*误解P值:将P值的大小等同于差异的大小或实际意义的大小;P>0.05即认为“无差异”或“无效”。*多重比较问题:未校正α水准,增大了I型错误的概率。*因果推断

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论