医学统计学符号,公式,重点.doc_第1页
医学统计学符号,公式,重点.doc_第2页
医学统计学符号,公式,重点.doc_第3页
医学统计学符号,公式,重点.doc_第4页
医学统计学符号,公式,重点.doc_第5页
已阅读5页,还剩16页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第一章医学统计中的基本概念1、 医学统计学是研究医学数据的收集、整理、分析、解释和呈现其结果的一门学科。2、 个体:研究的基本观察单位。3、 变量:用于观察研究对象的指标。4、 观察值:个体变量的数值。5、 资料:又称为数据,由变量的观察值构成。 变异:个体观察值之间具有的差异。 变异和同质是对统计学数据的要求! 变异是统计学研究的真正对象! 统计学是研究变异规律的科学! 同质:个体观察值之间的变异在允许范围内。 异质:个体观察值之间的变异超出允许范围。一、总体、抽样、样本、参数、统计量总体:同质的个体所构成的全体研究对象。总体同时具有同质和变异两个特点。 有限总体:总体中的个体数量是有限的。 无限总体:总体中的个体数量是无限的。 样本:从总体中随机抽取的部分个体。 样本量:样本所包含的个体数目。 参数:刻画总体特征的指标。 统计量:刻画样本特征的指标。抽样:从总体中随机抽取部分个体的过程。抽样具有代表性、随机性、可靠性、可比性;原则:代表性:样本能充分反映总体特征。随机性:保证总体中每个个体都有相同的几率被抽样。 随机性是代表性的保证; 生活中随机性的例子(思考题); 计量资料:由连续变量的观察值构成的资料。对每个观察对象的观察指标用定量方法测定其数值大小所得的资料,一般有度量衡单位,例如年龄、身高、血糖。 计数资料:由离散变量的观察值构成的资料。先将观察对象的观测指标按性质或类别进行分组,然后计数各组的数目所得的资料,例如性别、患病、血型。 等级分组资料:由等级变量的观测值构成的资料。具有计数资料的特征,同时又具有半定量性质的资料,例如细菌培养阳性结果。二、3种设计类型:完全随机设计;配对设计;配伍组设计。三、 抽样误差、概率和小概率事件 抽样误差:由抽样引起的样本统计量与总体参数之间的差异。抽样误差的原因;抽样误差是不可避免的。 概率P:表示某事件发生的可能性大小的度量。v 小概率事件:统计学上习惯将P0.05或P0.01的事件称为小概率事件,表示该事件发生的可能性很小。“小概率事件”统计意义(两面性) 小概率事件几乎不会发生,或者说可以认为在一次试验中不会发生统计推断基础(正面:应用); 小概率事件偶然会发生,如果发生了统计推断发生错误(反面:警惕);第二章集中趋势的统计描述一、统计描述总体和样本具有同质和变异两个特征。集中趋势同质的统计描述;变异程度变异的统计描述;统计描述主要通过统计量和统计图表来刻画的频数表和直方图频数表:同时列出观察指标的可能取值区间及其在各区间内出现频数的统计表。直方图:以垂直条段代表频数分布的一种图形,条段的高度代表各组的频数,由纵轴标度;各组的组限由横轴标度,条段的宽度表示组距。频数表和直方图的用途1. 作为陈述资料的形式; 2. 便于观察数据的分布类型; 3. 便于发现资料中含有的异常值;4. 可用各组段的频率作为概率的估计值; 二、平均数平均数:描述一组观察值集中趋势或平均水平的统计指标。平均数类型 算数均数(均数):线性尺度上的平均水平; 几何均数:对数尺度上的平均水平; 中位数:顺序尺度上的平均水平; 百分位数:顺序尺度上的平均水平。均数的意义和应用均数代表每组观察值的平衡点,也就是重心。常用在对称分布,尤其是正态分布;在偏态分布时,易受极值影响;算术均数算数均数(均数):线性尺度上的平均水平几何均数及应用几何均数:对数尺度上的平均水平;1. 几何均数的对数等于各观察值对数的算术均数;2.几何均数主要应用在免疫学(抗体滴度、血清凝聚效价)、微生物学(细菌计数)等领域。观察值一般呈等比或对数正态分布。中位数中位数:将一组观察值从小到大按顺序排列,居中心位置的数值,记为M。中位数的精确计算1. 当观察例数n为奇数时,中位数是按顺序排列在第(n+1)/2项的观察值;2. 当观察例数n为偶数时,中位数是按顺序排列在第n/2和(n/2)+1项观察值的平均值;百分位数百分位数Px:指在一组数据中找到这样一个数值,全部观察值的x%小于Px ,其余(100-x)%大于Px。l 定量:频数表/图 集中趋势+离散程度 是否对称变异系数:两均数相差很大,或者不同变量间变异程度的比较l 定性:发病率、构成比l 相对数使用注意事项l 率的标化第三章 变异程度的统计描述自由度的理解样本方差S2是总体方差2的无偏估计。 E(S2)=2n-1 是自由度df自由度:已知 ,固定X1,X2,.,Xn-1后,Xn必然确定;所以只有n-1个独立(自由变化)个体。不同类型变异程度指标的比较正态分布及应用正态分布有两个参数 和 , 分别表示均数和标准差主要特征: 1.以为中心的对称分布 2.钟型曲线 3.曲线下面积分布有规律 4.两个参数决定位置和变异当=0,=1时,称为标准正态分布正态分布曲线下面积单侧95%=双侧90%=1.645 :68% 1.96:95% 2.58:99%二、医学参考值范围的制定方法 (一)选择一定数量的参照样本;(二)对选定的参照样本进行准确的测定;(三)决定取单侧范围还是双侧范围值;(四)选择适当的百分范围;(五)估计参考值范围的界限;(三)决定取单侧范围还是双侧范围值 有些指标过高或过低均属异常(A) ,故其参考值范围需要分别确定下限和上限,称作双侧参考值范围。有些指标仅在过高(B)或过低时为异常(C),只需确定其上限或下限,称作单侧参考值范围。(四)选择适当的百分范围 参考值的百分范围应根据资料的性质和研究目的选择,它与诊断阈值有确定的关系。百分范围的不同将导致不同的假阳性率和假阴性率。(五)估计参考值范围的界限参考值范围估计主要有百分位数法和正态分布法。 总结衡量变异程度的指标 极差、四分位数间距、方差和标准差、变异系数正态分布的特征和曲线下面积分布规律医学参考值范围的制定方法第四章 抽样误差与假设检验假设检验(基本步骤)1、 建立假设和确定检验水准;建立假设(反证法的假设命题)无效假设H0: d=0备择假设H1: d0确定检验水准(小概率事件定义)=0.05或=0.012. 选择检验方法和计算检验统计量;3. 确定P值和作出统计推断结论1)计算获得t值的概率P值,并与检验水准比较。2)若P,小概率事件发生,矛盾,拒绝H0 ,接受H1;认为d0,即治疗前后血清甘油三酯差异有显著统计学意义。3)若P ,不能拒绝拒绝H0 ;认为d=0,即治疗前后血清甘油三酯差异无显著统计学意义。假设检验(三个基本步骤)1. 建立假设和确定检验水准;3. 选择检验方法和计算检验统计量;4. 确定P值和作出统计推断结论。假设检验的思路1. 为了判断两组样本代表的总体之间的差异是由抽样误差还是总体之间本质差别引起的?2. 作假设。H0:抽样误差引起的; H1 :总体本质差别引起的。3. 利用反证法在H0条件下计算样本的统计量。4. 利用抽样分布原理,根据样本统计量大小判断抽样结果是否为小概率事件,决定是否拒绝H0 。假设检验的基本思想 反证法思想 小概率事件原理关于的说明1. 检验水准,显著性水平,即定义小概率事件;2. 界值是人为确定的,常用0.05,0.01;某些情况下可取0.1,0.001; P0.05,“差异没有显著统计学意义”; P0.05,“差异有显著统计学意义”; P0.01,“差异有极其显著统计学意义”; 错误的说法:“有显著差异”;“差异是否显著”由专业来决定,统计学只能给出“差异是否有统计学意义”,即是否有证据表明存在差异。3. 界值代表容许犯错的最大概率,是事先确定的,不能随便移动 。假设检验的两类错误1. 一般反证法能得到绝对矛盾;2. 假设检验的矛盾基于“小概率事件原理”“小概率事件(P)在一次试验中是不会发生的”;l 若小概率事件发生了,则我们犯了经验主义错误;l 因为小概率事件发生可能性为,则我们犯经验主义错误的概率为,这种错误称为型错误。l 若小概率事件没有发生,接受零假设时,还是有可能犯错误,这时候错误是教条主义,称为型错误。单侧还是双侧检验研究目的决定第五章 t 检验t分布特征 自由度不同,曲线形态不同,t分布是一簇曲线; 自由度越大,t分布越接近于正态分布;当自由度逼近时,t分布趋向于标准正态分布; 自由度较小时,曲线峰的高度低于标准正态曲线,且曲线峰的宽度也较标准正态分布曲线峰狭,尾部面积大于标准正态曲线尾部面积,而且自由度越小,t分布的这种特征越明显(翘尾低狭峰)。标准正态分布概率a、与u值关系标准正态分布中u值大小与尾部面积(概率a)有关,以ua (单侧)和ua/2(双侧)表示; P、自由度n与t值关系1. 在t分布中,t值与P、n的大小有关;2. 在t分布中,当自由度一定时P越小,|t|越大;3. 在P一定时,自由度越小,|t|越大,大于u值;4.在单侧时(尾部面积取单侧)t界值表示为ta,n ,双侧时表示为ta/2,n ,其意义为单样本 t检验原理在 H0 :m =m0的假定下,可以认为样本是从已知总体中抽取的,根据t分布的原理,单样本t检验的公式为:自由度nn-1样本来自总体的可能性越大: 样本均数与总体均数差别越大; 样本标准差越小; 样本量越大;单样t检验的应用条件:小样本资料(如n0.05,表明差异无统计学意义,按 a=0.05水准不拒绝H0,根据现有样本信息,尚不能认为该地难产儿与一般新生儿平均出生体重不同。配对样本均数t检验配对样本均数t检验:简称配对t检验,又称非独立两样本均数t检验,适用于配对设计计量资料均数的比较,其比较目的是检验两相关样本均数所代表的未知总体均数是否有差别。 配对设计:是将受试对象按某些重要特征相近的原则配对,每对中的两个个体随机地给予(两种处理中的)一种处理。 配对设计概述1. 应用配对设计可以减少实验的误差和控制非处理因素,提高统计处理的效率。 2. 配对设计处理分配方式主要有三种情况:两个同质受试对象分别接受两种处理,如把同窝、同性别和体重相近的动物配成一对,或把同性别和年龄相近的相同病情病人配成一对;同一受试对象或同一标本的两个部分,随机分配接受两种不同处理,如例5.2资料;自身对比(self-contrast)。即将同一受试对象处理(实验或治疗)前后的结果进行比较,如对高血压患者治疗前后、运动员体育运动前后的某一生理指标进行比较。 配对样本均数t检验检验步骤1. 建立检验假设,确定检验水准 H0:md=0,两种结核菌素的皮肤浸润反应总体平均直径差异为0; H1:md0,两种结核菌素的皮肤浸润反应总体平均直径差异不为0; a=0.05或0.01。2. 计算检验统计量3. 确定 P 值,作出推断结论 自由度计算为 =n-1=12-1=11, P=0.0010.01,差别有统计学意义,拒绝H0,接受H1, 可认为两种方法皮肤浸润反应结果的差别有统计学意义。两独立样本均数t检验1. 两独立样本均数t 检验又称成组t检验。 2. 适用于完全随机设计的两样本均数的比较,其目的是检验两样本所来自总体的均数是否相等。 3. 完全随机设计是将受试对象随机地分配到两组中,每组患者分别接受不同的处理,分析比较处理的效应。 两独立样本t检验原理两独立样本t检验的检验假设是两总体均数相等,即H0:1=2,也可表述为12=0, t统计量计算公式为 两独立样本t检验检验步骤1. 建立检验假设,确定检验水准 H0:m1=m2,两种疗法治疗后患者血糖值的总体均数相同; H1:m1m2,两种疗法治疗后患者血糖值的总体均数不同; =a0.05或0.01。2. 计算检验统计量3. 确定P值,作出推断结论两独立样本t检验自由度为 n =n1+n2-2=12+13-2=23; P=0.0010.01,按a=0.01的水准拒绝H0,接受H1,差异有统计学意义。t检验的应用条件 计量资料; 小样本(n0.05,“差异没有(显著)统计学意义”; P0.05,“差异有(显著)统计学意义”; P0.01,“差异有极其(显著)统计学意义”; 错误的说法:“有显著差异”;“差异是否显著”由专业来决定,统计学只能给出“差异是否有统计学意义”,即是否有证据表明存在差异。3. 界值代表容许犯错的最大概率,是事先确定的,不能随便移动 。t 检验中的注意事项 1. 假设检验结论正确的前提 作假设检验用的样本资料,必须能代表相应的总体,同时各对比组具有良好的组间均衡性,才能得出有意义的统计结论和有价值的专业结论。2. 检验方法的选用及其适用条件 应根据分析目的、研究设计、资料类型、样本量大小等选用适当的检验方法。3. 双侧检验与单侧检验的选择 需根据研究目的和专业知识予以选择。单侧检验和双侧检验中的t值计算过程相同,只是t界值不同,对同一资料作单侧检验更容易获得显著的结果。单双侧检验的选择,应在统计分析工作开始之前就决定,若缺乏这方面的依据,一般应选用双侧检验。4.假设检验的结论不能绝对化 假设检验统计结论的正确性是以概率作保证的,作统计结论时不能绝对化。在报告结论时,最好列出概率P的确切数值。当P 接近临界值时,下结论应慎重。5. 正确理解P值的统计意义 P是指在无效假设 H0 的总体中进行随机抽样,所观察到的等于或大于现有统计量值的概率。其推断的基础是小概率事件的原理,即概率很小的事件在一次抽样研究中几乎是不可能发生的,如发生则拒绝H0。因此,只能说明统计学意义的“显著”。假设检验中两类错误第六章 方差分析F分布的三个抽样分布的事实上,它们都是基于正态分布。分布函数F:F分布在的统计学家RAFisher姓的第一个字母的名称F分布的目的:方差分析,协方差分析和回归分析的分析。 (A)F分布的定义为:设X,Y两个独立的随机变量X的自由度的卡方分布M,Y服从卡方分布的N 2 独立自由的程度的各自的自由度,在另外的购买比例的量的统计分布的卡方分布F =(/米)/(Y / N)(米,n)的F分布服从自由度在F服从程度的自由米,第二自由度的F-n的密度函数的分布这样的条目, (II)F的性质为1的分布,这是一种非对称的分布; 2,具有两个自由度,即相应的分布是由F(n-1个,百万-1 m-1的1)中,n表示? - 1通常被称为作为分子的自由度,m-1的通常被称为作为分母的自由度; 3 F分布是一个自由度n -1个,和m-1是一个分布族的不同程度的参数,自由决定的F-分布的形状。 F分布的天然的互补性:F,DF1,DF2 =1/F1-,DF2,DF1多个样本均数的两两比较两独立样本均数t检验如采用多次t检验,累积型错误概率将大大增加。方差分析思想要说明甲组比乙组和丙组好,首先其次: 方差分析步骤 提出检验假设,确定检验水准。 H0: 三个组GSH值的总体均数相同; H1: 三个组GSH值的总体均数不全相同; 根据公式计算SS、MS及F值,列于方差分析表内。 确定P值,作出判断 分子自由度=k-1=2,分母自由度=n-k=33,F=23.85,P分母);第七章 相对数及其应用相对数的种类率(rate) 构成比(constituent ratio) 相对比(relative ratio) 率(通常针对二分类计数资料)概念:率是表示某种现象发生的频率和强度,常以百分率(%)、千分率()、万分率(/万)、十万分率(10万)等表示 。计算公式:注意:比例基数”通常依据习惯而定,治愈率、感染率用百分率,出生率、死亡率用千分率,某些疾病的死亡率用十万分率。保持率的整数位12位。构成比(通常针对多分类计数资料或等级资料)概念:又称构成指标,表示事物内部各个组成部分所占整体的比重,通常以100为比例基数,以百分比表示。 计算公式:注意:各组成部分的构成比之和为100%,某一部分比重增大,则其它部分相应减少。相对比概念:相对比是两个有关联指标之比,用以描述两者的对比水平,常用R表示。 计算公式: 注意:A大于B用倍数表示,A小于B时用百分数表示。相对比的种类1. 两类个体例数之比 两类同指标之比(男:女) 两类不同指标之比(人均收入)2. 两个率之比(相对危险度RR)3. 两个相对比之比(比值比OR)相对数使用应注意的问题1. 不要把构成比与率相混淆(例7.1);2. 使用相对数时分母不宜过小(投篮比较);3. 注意资料的可比性(医院治愈率比较);4. 要考虑抽样误差。率的标准化率的标准化,是为了在比较两个不同人群的患病率、发病率、死亡率等资料时,消除其内部构成(如年龄、性别、工龄、病程长短等)的影响。如年龄会影响死亡率,年龄越大,死亡率可能越大;病情越重,越难治愈,治愈率就越低。 标准化直接法的计算步骤1. 选取标准构成。标准构成选取方法有三种: (1)另外选取一个包含比较各组(如各地区)的有代表性的、较稳定的、数量较大的构成为标准。如世界的、全国的、全省的数据为标准构成。 (2)取比较各组的各层例数的合计为标准构成。 (3)从比较的各组(如各地区)中任选其一的构成作为标准构成。2. 在标准构成下,以原分层率计算各组的预期发生数。3. 计算标准化率。医学中常用的相对数指标1. 死亡统计指标 死亡率:表示某地某年每1000人中的死亡人数; 年龄别死亡率 死因别死亡率(十大死亡率) 死因构成2. 疾病统计指标发病率:“新发病率”,表示在某一时期内特定人群中患某病新病例的频率。患病率:“现患病率”,也称现患率,表示某一时点某人群中患某病的频率。第八章 卡方检验A:观察值;T:理论值;四格表的自由度为1是连续型分布的检验统计量2 值反映了实际频数与理论频数的吻合程度1. 若检验假设H0:1=2成立,四个格子的实际频数A 与理论频数T 相差不应该很大,即统计量2 不应该很大。2. 如果2 值很大,即相对应的P 值很小,若 P,则反过来推断A与T相差太大,超出了抽样误差允许的范围,从而怀疑H0的正确性,继而拒绝H0,接受其对立假设H1,即12 卡方检验步骤(1) 建立检验假设,确定检验水平。H0:1=2 即甲药与乙药的总体有效率相等 H1:12 即甲药与乙药的总体有效率不等 =0.05。(2)求检验统计量值(3) 确定P 值,作出推断结论 因为P=0.2510.05,按=0.05水准,接受H0,差异有统计学意义,可以认为甲乙两种药物治疗冠心病的总体有效率相等。四格表资料检验的应用条件:n40且所有T5,用基本公式所有情况,都可以用Fisher确切概率法配对四格表资料,用配对专用公式;关联性检验 Vs Kappa统计量Kappa0.75,一致性好;Kappa0.4,一致性差;n200,考虑用Kappa。行列表资料的2检验 行数或者列数大于2列联表资料称为行表资料或称RC表资料卡方检验统计量基本公式列联表资料检验的应用条件:1. T1,且5T1的格子数不能超过1/5,用基本公式;2. 所有情况,都可以用Fisher确切概率法;3. 两组或多组比较的等级分组资料 非参数检验实际应用中:对于行列表资料要根据其分类类型和研究目的选用恰当的检验方法。对于两组或多组比较的等级分组资料不宜用卡方检验。多个样本率间的多重比较1. 用四格表资料的卡方检验进行两两比较;2. 检验水准=/n,n为检验次数;这种多重检验校正方法称为Bonferroni方法。四格表专用公式:1) 这种校正称为连续性校正。 2) 如检验所得P值近于检验水准a时, 好改用四格表确切概率法。 第十章 线性相关与回归线性相关的基本概念把这种Y随着X变化而变化的关系称之为相关关系,如果这种变化呈现直线关系,又称之为直线相关(线性相关)或简单相关。线性相关系数相关系数就是说明具有直线关系的两个变量间相关密切程度和相关方向的统计量。相关系数r没有测量单位,其数值为-1r1 相关系数的显著性检验原因:由于根据样本资料计算出来的相关系数存在抽样误差。举例:假设在一个X与Y无关总体中作随机抽样,由于抽样误差的影响,所得的样本相关系数也常常不等于零。结论:要判断两个变量X与Y在总体是否真的存在相关关系,需要作总体相关系数是否为零的假设检验。 进行线性相关分析的注意事项1. 线性相关表示两个变量之间的相互关系是双向的,分析两个变量之间到底有无相关关系可首先绘制散点图,散点图呈现出直线趋势时,再作分析。2. 依据公式计算出的相关系数仅是样本相关系数,它是总体相关系数的一个估计值,与总体相关系数之间存在着抽样误差,要判断两个事物之间有无相关及相关的密切程度,必须作假设检验。3. 相关分析是用相关系数来描述两个变量间相互关系的密切程度和方向。而两个事物之间的关系既可能是依存因果关系,也可能仅是相互伴随的数量关系。要证明两事物间确实存在因果关系,必须凭借专业知识加以阐明。等级相关系数1 如果观测值是等级资料,则可以用等级相关来表达两事物之间的关系。2 常用的等级相关计算方法是Spearman等级相关系数。线性回归方程的显著性检验1 对线性回归方程要进行假设检验,就是要检验b是否为=0的总体中的一个随机样本。该假设检验通常用采用方差分析或者t检验,两者的检验效果等价。 2 t检验:3 方差分析:进行线性回归分析的注意事项 只有对两个有内在联系的变量进行回归分析才是有意义的。 作回归分析时,如果两个有内在联系的变量之间存在的是一种依存因果的关系,那么应该以“因”的变量为X ,以“果”的变量为Y 。 在回归分析中,要求自变量与因变量都服从正态分布。 回归方程建立后必须作假设检验,只有经假设检验拒绝了无效假设,回归方程才有意义。 使用回归方程计算估计值时,不可把估计的范围扩大到建立方程时的自变量的取值范围之外。线性相关与回归的区别与联系1. 线性相关表示两个变量之间的相互关系是双向的;回归则反映两个变量之间的依存关系,是单向的。 2. 如果对同一资料进行相关与回归分析,则得到的相关系数r与回归方程中的b正负号是相同的。3. 在相关分析中,求出r后要进行假设检验,同样,在回归分析中,对b也要进行假设检验。同一样本的这两种假设检验也是等价的。4.相关和回归可以互相解释。直线回归:研究两个变量之间的数量依存关系直线相关:研究两变量之间相互联系的方向和密切程度。 r是表示两个随机变量之间呈直线相关的强度和方向的统计量。直线回归:要求Y服从正态分布,X为人为控制或精确测量直线相关:要求X和Y都服从正态分布。 r=0.85,关系密切?,只能说程正相关。 总复习计量资料:由连续变量的观察值构成的资料。对每个观察对象的观察指标用定量方法测定其数值大小所得的资料,一般有度量衡单位,例如年龄、身高、血糖。计数资料:由离散变量的观察值构成的资料。先将观察对象的观测指标按性质或类别进行分组,然后计数各组的数目所得的资料,例如性别、患病、血型。等级分组资料:由等级变量的观测值构成的资料。具有计数资料的特征,同时又具有半定量性质的资料,例如细菌培养阳性结果。统计推断参数估计s未知,且n小 s未知,但n足够大 s已知 2用两种方法检验已确诊的肝癌患者120名, 得到如下资料甲法 乙法 合计 42 30 72 18 30 48 合计 60 60 120 (1)请解释表中42、18两个数字的意义。2c (2)请通过 检验说明两种方法检查的阳性检出率有无差别。解:(1).请解释表中42、18两个数字的意义。“42”表示两种方法检验结果一致的例数,“18”是指两者不一致的例数(4分)2c(2).请通过 检验说明两种方法检查的阳性检出率有无差别。1).检验假设:H0:两法检验结果无差别或一致, 的扣1分)a=0.05(2分,未给H0或aH1:两法检验结果有差别或不一致,2).计算统计量:因配对四格表b+c=4840,故可不用校正法(3分,用校正公式扣1分) 3).确定P值并作结论:自由度=1,界值 ,故PChapter 基本概念显著性检验(test of significance):计算P值医学统计工作的内容:1、实验设计:最关键最重要2、收集资料:最基础原始资料:实验数据现场调查资料医疗卫生工作记录报表 报告卡质量控制精度和偏倚3、整理资料(1) 资料的逻辑检查(坏数)(2) 一致性检查(3) 原始数据加工:频数分布表4、分析资料:统计描述(表、图、离散趋势、集中趋势)和统计推断统计描述类型的选择: 集中趋势 离散趋势对称、正态 , 对数正态 G S lgX偏态及其他 M Q,R单位不同或均数差别大 CV医学统计的资料类型:计量资料、计数资料、等级分组资料医学统计学的对象:有变异的事物总体和样本:总体(population)的特性:同质性、大量性、差异性。抽样总体样本参数统计量推断抽样的要求:代表性、随机性、可靠性、可比性。样本的三性:代表性、随机性、可靠性。可靠性(reliability):实验的结果要具有可重复性。即由科研课题的样本得出的结论所推测总体的结论有较大的可信度。两样本间具有:可比性。误差的类别:1、系统误差(system error):在资料的收集过程中,由于仪器初始状态没有调零、标准试剂未经矫正、标准指定偏高或偏低等原因,造成的观察结果的倾向性的偏大或偏小。必须克服。2、随机测量误差(random measurement error):在避免系统误差的情况下,由于各种偶然因素的影响造成对同一对象多次测量值的不一致。3、抽样误差(sampling error):由于抽样造成的的样本统计量与总体参数之间的差别。不可避免。样本含量越大,抽样误差越小。如均数的抽样误差:。概率(probability):P(A)小概率事件:P0.05(有统计学意义)或P0.01(有高度统计学意义)。Chapter 集中趋势的统计描述手工整理资料频数表(frequency table)的步骤:1、求极差(全距)2、确定组数、组距参考组距=全距 / 组数3、确定组段4、手工编制划记表直方图(histogram):高度:各组的频数 纵轴宽度:组距 横轴表示组限均数(average):适用:对称分布或偏度不大的资料,尤其适合正态分布。1、算术均数(mean):2、加权均数:3、几何均数:,中位数(median):观察值按照从小到大排列时,居中心位置的数值。适用于1、分布明显成偏态时,2、频数分布的一端或两端无确切数值时。不便于统计计算。M:中位数;LM:M所在组的上限;f L:M所在组之前积累的频数;fM:M所在组的频数;i:组距。百分位数(percentile):Px。在一组中找到这样一个数值P,全部观察值的x%小于P。P75、P25描述资料离散程度。众数:一组观察值中,出现频率最高的那个观察值。若为分组资料,则为频率最高组的组中值。适用于大样本,但粗糙。Chapter 离散程度的统计描述离散的表述指标:1、按间距计算:极差、四分位数间距2、按平均差距:离均差平方和、方差、标准差、变异系数极差(range,R):即全距。粗略。适用于任何分布。四分位数间距(quartile,Q):一组观察值按大小排序后,分成四个数目相等的段落,每个段落观察值的数目占总例数的25%。去掉两端含有极端数值的25%,取中间的50%的观察值的数据范围即为。越大则数据变异越大。适用于偏态分布。Q=P75 - P25离均差平方和(sum of square of deviation):方差(variance):样本方差 总体方差 标准差(standard deviations):适用于近似正态分布。p.s.1、可用于合并资料的直接计算2、与均数结合可以完整概括一个正态分布。变异系数(CV):用于均属相差交大或单位不同的几组数据观察值的比较。CV=正态分布(normal distribution):1、正偏态分布:高峰向左,长尾向右负偏态分布:高峰向右,长尾向左。2、和是正态分布总体的两个参数,对应样本统计量中的S和X。实际应用中和通常未知,可以将S和X作为总体参数的估计量使用。注意对比:2、是位置参数,是变异参数。描述方法:N(,2)3、曲线下面积的意义:X1X2出现的概率。 68.3%1.96 (单侧1.645) 95%2.58(单侧2.33) 99%标准正态分布(standard):是=0,=1的正态分布。对于任何参数为、的正态分布,都可以通过变量变换转化成标准正态分布:。医学参考值范围(reference value range)的制定方法:1、选择足够数量的正常人作为参照样本2、对选定的参照样本进行准确的测定3、决定取单侧范围还是双侧范围值4、选择适当的百分范围5、估计参考值范围的界限Chapter 抽样误差与可信区间中心极限定理:在样本含量很大的情况下(n50),无论样本测量量(X)服从什么分布,样本均数的抽样分布都近似服从以为均数的正态分布N(,2/n)标准误(standard error):样本均数之间变异的标准差。实际工作中总体标准差 未知,用样本的标准差S代替:标准差与标准误的区别:标准差标准误含义描述观察值的变异程度的大小的指标描述样本均数的抽样误差大小的指标公式()意义标准差较小,表示观察值围绕均数波动较小,说明样本均数代表性好小,表明样本均数围绕总体均数的波动较小,说明样本均数可靠性好应用1、表示观察值变异程度2、结合样本均数描述正态分布资料特征,确定医学参考值范围3、计算标准误4、计算CV1、估计样本均数抽样可靠程度2、估计总体均数的可信区间3、进行假设检验n趋于稳定()逐渐减小标准误(公式)的意义:1、与标准差的联系:在样本含量一定的情况下,标准误与标准差成正比。(1) 当观察值的变异(标准差)较小时,样本均数之间的抽样误差较小,抽到的样本均数与总体均属可能相差较小,用估计的可靠性较好(2) 当观察值的变异较大时,样本均数之间的抽样误差较大,抽到的样本均数与总体均属可能相差较大,用估计的可靠性较差。2、与样本含量的关系:与其平方根成反比,说明在同一总体中随机抽样,样本含量越大,标准误越小。3、标准误反映了样本均数间的离散程度,也反映了样本均数与总体均数的差异。参数估计(parameter estimation):指偶那个过样本参数估计总体参数,是统计推断的重要内容之一。常用方法有点估计、区间估计。点估计(point ):使用单一数值直接作为总体参数的估计值。适用于各种资料。区间估计(interval ):按照预先给定的概率计算出一个区间,使它能够包含总体参数。给定的概率(1-)称为可信度。计算得到的区间称为可信区间(confidence interval,CI)可信区间通常包括两个数值界定的可信限(confidence limit),分别为上限、下限。总体均数估计的95%可信区间表示:该区间有95%的概率包含总体均数。注意不可以说“总体均数有95%的概率落在这个区间里”。可信区间估计效果的比较:1、(1-)越接近1越好,概率2、区间宽度越窄越好,精确度但两者是矛盾的。一般选择(1-)=95%。t分布(t distribution):是以0为中心的对称分布;当时,t分布的极限分布就是标准正态分布。在正态分布的总体中进行抽样,服从自由度的t分布。t的大小与、自由度有关。可信区间的计算: ,若n50,则t分布接近标准正态分布,则简化 ,若已知,则可简化为 ,Chapter 假设检验假设检验(hypothesis test):目的:比较总体参数有无差别基本思想:首先对所需比较的总体提出一个无差别的假设,然后通过样本数据推断是否拒绝这一假设。基本方法:反证法和小概率事件。基本步骤:1、建立假设和确定检验水准无效假设(null hypothesis):H0:=0(或d=0),总体均数无差别。备择假设(alternative ):H0:0(或d0),总体均数有差别假设有单侧和双侧

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论