版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
统计学(Statistics):应用统计学的原理与方法,研究数据的搜集、整理与分析的科学,对不确定性数据作出科学的推断。医学统计学(MedicalStatistics):应用统计学的原理与方法,研究医学科研中有关数据的搜集、整理和分析的应用科学。同质(homogeneity):据研究目的所确定的所有研究对象的相同属性。例子:身高、体重、年龄、容貌……变异(variation):同质研究单位中变量值间的差异,整个统计学甚至是整个科学研究存在的基础。总体(population):是根据研究目的确定的同质研究单位的全体。统计学人员习惯将其叫做同质研究单位某种变量值的集合,包括有限总体和无限总体。样本(sample):是总体中抽取的一部分个体。包括随机抽样和非随机样本。样本含量(samplesize):样本中包含的研究单位数。观察单位(observedunit):也叫个体或研究单位,它是研究中的个体(individual),完全由研究目的确定。它可以是一个(群)人、一只动物和一个细胞。变量(variable):按特定目的确定的研究单位的某种特征或属性。变量值(valueofvariable):变量的观察或检测结果,也叫变量的观测值。资料(data):在特定目的指引下而确定的变量及其变量值。计量资料(measurement/quantitative/numericaldata):其特征是能够用数量衡量,通常具体计量单位。按照变量值是否连续又可分为连续型(continuous/interval)和离散型(discrete)两类按特定目的确定的研究单位的某种特征或属性(请举例)。要特别注意比值资料,如细胞凋亡率。计数资料(enumeration/qualitative/categorical/nominaldata):是将观察单位按某种属性或类别分组计数,分组汇总各组观察单位数后而得到的资料。其变量值是定性的,表现为互不相容的属性或类别。按变量值类别的多少又分为二分类和多分类两种类型(举例)。等级资料(ordinalcategorical/rank/semi-quantitativedata):是将观察单位按某种属性的不同程度分成等级后分组计数,分组汇总各组观察单位数后而得到的资料,其变量值具有半定量性质。(举例,如血清反应强度、疗效参数(parameter):根据总体中所有个体值计算出来的特征量/指标,一般用希腊字母表示。统计量(statistic):根据样本个体值计算出来的描述的特征量/指标,一般用拉丁字母表示。误差(error):泛指实际观测值与真值之差,也即样本指标/统计量与总体指标/参数之差。系统误差(systematicerror):由于仪器未校正、测量者感官的某种障碍、医生掌握疗效标准偏高或偏低等原因,使观察值不是分散在真值两侧,而是有方向性、系统性或周期性地偏离真值。非系统误差(nonsystematicerror):由于研究者偶然失误而造成的误差。例如:仪器失灵、抄错数据、点错小数点、写错单位等,亦称过失误差(grosserror)随机误差:是一类不恒定的、随机变化的误差,由于多种目前尚无法控制的因素引起。如:在同一条件下对某一实验进行多次重复,虽极力对其进行控制或消除系统误差后,但实验结果却不尽相同。抽样误差(samplingerror):由于抽样所造成的样本统计量与总体参数的差别。随机抽样误差不可避免,具有统计规律性,主要由个体差异(变异)频率(relativefrequency):一次随机试验有几种可能结果,在重复进行试验时,各种结果看来是偶然发生的,但当重复试验次数相当多时,将显现某种规律性。例如,投掷一枚硬币,结果不外乎出现“正面”与“反面”两种概率(probability)概率是度量随机事件发生可能性大小的一个数值。设在相同条件下,独立地重复n次试验,随机事件A出现f次,f/n则称为随机事件A出现的频率。当n逐渐增大时,频率f/n趋向于一个常数,则称该常数为随机事件A的概率,可记为P(A),简记为P。概率的取值范围:0≤P(A)≤1。频率是就样本而言的,而概率从总体的意义上说的,频率是概率的估计值。试验次数(样本含量)越多(越大),估计就越可靠。小概率事件:统计分析中的很多结论都基于一定置信程度下的概率推断,小概率是研究人员确定的统计判断或决策标准,习惯上将概率小于0.05或0.01定为小概率事件。研究人员认为小概率事件在一次试验中不可能发生,这即是统计决策必须付出的代价。算术均数:简称均数(mean)。可用于反映一组呈对称分布的变量值在数量上的平均水平或者说是集中位置的特征值。适用于对称分布,特别是正态分布或近似正态分布的资料。几何均数(geometricmean):可用于反映一组经对数转换后呈对称分布的变量值在数量上的平均水平。适用于成等比级数的资料,特别是对数正态分布资料。中位数(median):是将变量值从小到大排列,位次居于正中间的那个变量值。当数据个数为奇数时,取位次居中的变量值;当为数据个数为偶数时,取位次居中的两个变量值的平均值。各种分布类型的资料,特别是偏态分布资料和含有不确定数值的资料。百分位数(percentile)是一种位置指标,用来表示,读作第X百分位分数。总体参数一般是不知道的,统计工作的目的是:通过样本统计量估计推测总体参数。统计学方法的特点:1.用数量反映质量2.统计逻辑:用群体规律估算/推测个体3.手段:常通过部分个体估计总体按误差产生的原因分为:系统误差、非系统误差和随机误差。测量值=真值+随机误差+非随机误差医学统计工作的基本步骤1.设计(design)设计阶段主要涉及实验的三要素(对象对象、研究因素、实验效应)、四原则(对照、随机、重复和均衡)和设计方法。包括专业设计和统计设计。根据研究对象的不同可将医学科研设计分为:实验设计、调查设计和临床实验设计。2.收集资料(collectionofdata)(1)资料来源:第一手资料:统计报表(传染病报表、职业病报表、医院工作报表、死亡登记、疫情报告等);经常性工作记录(卫生监督记录、健康检查记录、病历等);专题调查、实验或临床试验。第二手资料:已公布的资料,特别是官方出版物,以及其他各种类型的数据。(2)对资料要求完整:观察单位及观察指标应尽可能地完整。准确:即真实、可靠;真实是统计学的灵魂;及时:即时限性3.整理资料(sortingdata)目的:通过对原始数据的条理化、系统化和数量化的处理,使得其能够满足统计分析的需要,特别是要满足统计软件的要求。因此,国外有些教材也把该阶段称作数据筛查(datascreening)评估数据质量,弥补缺失值或补做调查或实验,确保数据准确、可信。4.分析资料(analysisofdata)目的:揭示样本数据中潜藏的内在联系和规律,借以估计总体的特征,从而达到支持决策的目的。包括统计描述(统计图、表、统计指标)和统计推断(假设检验和置信区间)。资料的类型定量资料:可直接利用原始测量值进行分析,也可将其分为几类,完全取决于研究目的。无序资料:二项分类资料(赋值进行量化)和多项分类资料(必须采用哑变量)举行分析。有序数据:可直接进行量化处理。极差(range)也称全距,即最大值和最小值之差,记作R。编制频数表的步骤1.求极差2.确定组距(i)3.写组段(分为12个组段)组下限(L):每个组段的起点,组上限(U):每个组段的终点4.分组段划记并统计频数描述数据分布类型(1)对称分布:若各组段的频数以频数最多组段为中心左右两侧大体对称,就认为该资料是对称分布。(2)偏态分布:右偏态分布也称正偏态分布:右侧的组段数多于左侧的组段数,频数向右侧拖尾。左偏态分布也称负偏态分布:左侧的组段数多于右侧的组段数,频数向左侧拖尾。频数表和频数分布图用途1.描述数据分布类型2.描述频数分布的特征3.便于发现一些特大或特小的可疑值;4.便于进一步做统计分析和处理。集中趋势的描述统计上使用平均数(average)这一指标体系来描述一组变量值的集中位置或平均水平。常用的平均数有:算术均数、几何均数、中位数。算术均数:简称均数(mean)。可用于反映一组呈对称分布的变量值在数量上的平均水平或者说是集中位置的特征值。适用于对称分布,特别是正态分布或近似正态分布的资料。几何均数(geometricmean):可用于反映一组经对数转换后呈对称分布的变量值在数量上的平均水平。适用于成等比级数的资料,特别是对数正态分布资料。中位数(median):是将变量值从小到大排列,位次居于正中间的那个变量值。当数据个数为奇数时,取位次居中的变量值;当为数据个数为偶数时,取位次居中的两个变量值的平均值。各种分布类型的资料,特别是偏态分布资料和含有不确定数值的资料。百分位数(percentile)是一种位置指标,用来表示,读作第X百分位分数。离散趋势的描述常用统计指标:极差、四分位数间距、方差、标准差和变异系数。极差或全距(Range),用R表示:即一组变量值最大值与最小值之差。四分位数间距,用QR表示:QR=p75-p25下四分位数:QL=P25上四分位数;QU=P75方差(variance)也称均方差(meansquaredeviation),反映一组数据的平均离散水平。标准差:方差的开方变异系数(coefficientofvariation)记为,多用于观察指标单位不同时的变异程度的比较;或均数相差较大时变异程度的比较。医学参考值(referencevalue)是指包括绝大多数正常人的人体形态、机能和代谢产物等各种生理及生化指标常数,也称正常值。由于存在个体差异,生物医学数据并非常数而是在一定范围内波动,故采用医学参考值范围(medicalreferencerange)作为判定正常和异常的参考标准。双侧:即指标过高和过低都不正常,如:血清总胆固醇、血压、体重等等。单侧:即仅在指标值过低或过高才被认为不正常,如:血清转氨酶仅过高异常、肺活量。计算医学参考值范围的常用方法:正态分布法(当资料服从正态分布)百分位数法(当资料不服从正态分布)抽样误差:由于存在个体差异,抽得样本的均数不太可能恰好等于总体均数,因此通过样本推断总体会有误差。这种由个体变异产生的、抽样造成的样本统计量(statistic)与总体参数(parameter)的差异,称为抽样误差。(常考内容)标准误(standarderror,SE):表示样本统计量抽样误差大小的统计指标。均数标准误:说明均数抽样误差的大小,总体计算公式t分布:若某一随机变量X服从总体均数为、总体标准差为的正态分布,则可通过u变换()将一般正态分布转化为标准正态分布N(0,12),即u分布.t分布特征1单峰分布,以0为中心,左右对称2自由度越小,则t值越分散,t分布的峰部越矮而尾部翘得越高;3当逼近,逼近,t分布逼近u分布,故标准正态分布是t分布的特例参数估计:用样本统计量推断总体参数。总体均数估计:用样本均数推推断总体均数点估计:就是用相应样品统计量直接作为其总体参数的估计值。如用ˉX估计μ,S估计σ等。其方法虽简单,但未考虑抽样误差的大小。区间估计:是按预先给定的概率(1-α)所确定的包含位置总体参数的一个范围。该范围称为参数的可信区间(confidencebound/confidenceinterval,CI);预先给定的概率1-α称为可信度或置信度(confidencelevel),常取95﹪或99﹪,如果没有特别说明,一般取双侧95﹪。可信区间的两个要素1)准确度:用可信度(1-a)表示:即区间包含总体均数m的理论概率大小。它愈接近1愈好,如99%的可信区间比95%的可信区间要好。2)精确度:即区间的宽度。区间愈窄愈精确,如95%的可信区间比99%的可信区间要好。假设检验的步骤1.建立检验假设,确定检验水准1)m=m0:即检验假设,常称无效假设或零/原假设,用H0表示。2)m¹m0:即备择假设,常称对立假设,用H1表示。3)a:即检验水准,也称显著性水准。a是预先规定的概率值,它确定了小概率事件的标准。在实际工作中常取a=0.05。2.计算检验统计量:应根据变量和资料类型、设计方案、统计推断的目的、方法的适用条件等选择检验统计量。3.确定P值:按照所选择的统计方法计算P值。P值的含义是指从H0规定的总体中随机抽样,抽得等于及大于(或/和等于及小于)现有样本获得的检验统计量(如t、u)值的概率。4.下结论:将上述计算所得概率P与检验水准a进行比较,判断其是否为小概率事件,从而得出结论。一般来说,结论应包含统计结论和专业结论两部分。统计结论只说明有无统计学意义,而不能说明专业上的差异大小。必须将二者结合起来,才能得出符合客观实际的结论;若P≤a,则结论为按所取的a检验水准,拒绝H0,接受H1,有统计学意义(统计结论),可认为……不等或不同(专业结论);若P>a,则结论为按a检验水准,不拒绝H0,无统计学意义(统计结论),还不能认为……不等或不同(专业结论)。t检验和u检验的应用条件1.t检验应用条件样本含量n较小时(如n<60)(1)正态分布(2)方差齐性2.u检验应用条件样本含量n较大,或n虽小但总体标准差已知(1)方差齐性(homogeneityofvariance)总变异:全部测量值大小不同,这种变异称为总变异。离均差平方和:总变异的大小可以用离均差平方和(sumofsquaresofdeviationsfrommean,SS)表示,即各测量值Xij与总均数差值的平方和,记为SS总。组间变异:各处理组由于接受处理的水平不同,各组的样本均数(i=1,2,…,g)也大小不等,这种变异称为组间变异。其大小可用各组均数与总均数的离均差平方和表示,记为SS组间。完全随机设计:(completelyrandomdesign)是采用完全随机化的分组方法,将全部试验对象分配到g个处理组(水平组),各组分别接受不同的处理,试验结束后比较各组均数之间的差别有无统计学意义,推论处理因素的效应。随机区组设计(randomizedblockdesign)又称为配伍组设计,是配对设计的扩展。具体做法是:先按影响试验结果的非处理因素(如性别、体重、年龄、职业、病情、病程等)将受试对象配成区组(block),再分别将各区组内的受试对象随机分配到各处理或对照组。构成比:表示事物内部某一部分的个体数与该事物各部分个体数的总和之比,用来说明各构成部分在总体中所占的比重或分布。通常以100%为比例基数。相对比简称比(ratio),是两个有关指标之比,说明两指标间的比例关系。两个指标可以是性质相同,如不同时期发病数之比;也可以性质不同,通常以倍数或百分数(%)表示。应用相对数的注意事项1、计算相对数应有足够数量即分母不宜太小。2、不能以构成比代替率3.正确计算合计率4.注意资料的可比性动态数列(dynamicseries):是一系列按时间顺序排列起来的统计指标(可以为绝对数,相对数或平均数),用以观察和比较该事物在时间上的变化和发展趋势。常用的动态数列分析指标有:绝对增长量、发展速度与增长速度、平均发展速度与平均增长速度。二项分布(binomialdistribution)是指在只会产生两种可能结果如“阳性”或“阴性”之一的n次独立重复试验(常常称为n重Bernoulli试验)中,当每次试验的“阳性”概率保持不变时,出现“阳性”的次数X=0,1,2,…,n的一种概率分布。二项分布的适用条件1每次试验只会发生两种对立的可能结果之一,即分别发生两种结果的概率之和等于1;2每次试验产生某种结果(如“阳性”)的概率π固定不变;3重复试验是相互独立的,即任何一次试验结果的出现不会影响其它试验结果出现的概率。Poisson分布(Poissondistribution)作为二项分布的一种极限情况,已发展成为描述小概率事件发生规律性的一种重要分布。Poisson分布是描述单位面积、体积、时间、人群等内稀有事件(或罕见事件)发生数的分布。Poisson分布的适用条件假定在规定的观测单位内某事件(如“阳性”)平均发生次数为λ,而其样本计数为X(X=0,1,2,…)。则在满足下面三个条件时,有X~P(λ)。1.普通性在充分小的观测单位上X的取值只能为1个,不能同时取多个值。2.平稳性X的取值只与观测单位的大小有关,而与观测单位的位置无关。3.独立增量性在某个观测单位上X的取值与其他各观测单位上X的取值无关。卡方检验目的:推断两个总体率或构成比之间有无差别.。多个总体率或构成比之间有无差别;多个样本率的多重比较;两个分类变量之间有无关联性;频数分布拟合优度的检验。检验统计量:X2应用:计数资料X2分布的一个基本性质是可加性参数检验如果总体分布为已知的数学形式,对其总体参数作假设检验。如:t检验和F检验。非参数检验:对总体分布不作严格假定,又称任意分布检验(distribution-freetest),它直接对总体分布作假设检验。秩转换的非参数检验应用范围:对于计量资料:1.不满足正态和方差齐性条件的小样本资料;2.分布不明的小样本资料;3.一端或二端是不确定数值(如<0.5、>5.0等)的资料(必选);对于等级资料:若选行×列表资料的x2检验,只能推断构成比差别,而选秩转换的非参数检验,可推断等级强度差别。wilcoxon秩和检验,用于推断两个独立样本所来自的两个总体分布是否有差别。直线回归目的:研究应变量Y对自变量X的数量依存关系。特点:统计关系。X值和Y的均数的关系,不同于一般数学上的X和Y的函数关系。回归模型的前提条件:线性(linearity)独立(independent)正态(normal)等方差(equalvariance)残差(residual)或剩余值,即实测值Y与假定回归线上的估计值的纵向距离。直线回归方程的求法:原则:最小二乘法(leastsumofsquares),即可保证各实测点至直线的纵向距离的平方和最小.SS总=SS回+SS残,即,为的离均差平方和,表示未考虑与的回归关系时的总变异。直线相关(linearcorrelation)又称简单相关(simplecorrelation),用于双变量正态分布(bivariatenormaldistribution)资料。目的:研究两个变量X,Y数量上的依存(或相关)关系。特点:统计关系相关系数(correlationcoefficient)又称Pearson积差相关系数,用来说明具有直线关系的两变量间相关的密切程度与相关方向。相关系数没有单位,其值为-1≥r≥1。r值为正表示正相关,r值为负表示负相关,r的绝对值等于1为完全相关,r=0为零相关。秩相关适用条件:双变量计量资料:①资料不服从双变量态分布;②总体分布型未知,一端或两端是不确定数值(如<10岁,≥65岁)的资料;原始数据(一个或两个变量值)用等级表示的资料。曲线拟合:当发现散点图中应变量Y和自变量X间表现出非线性趋势时,可以通过曲线拟合方法来刻画两变量间数量上的依存关系。几种曲线拟合:对数曲线、指数曲线、抛物线、S型曲线统计表(statisticaltable)是表达统计分析结果中数据和统计指标的表格形式;统计图(statisticalgraph)是用点、线、面等各种几何图形来形象化表达统计数据。制表的基本要求(1)标题:概括表的主要内容,包括研究的时间、地点和研究内容,放在表的上方。(2)标目:分别用横标目和纵标目说明表格每行和每列数字的意义,注意标明指标的单位。(3)线条:至少用三条线,表格的顶线和底线将表格与文章的其它部分分隔开来,纵标目下横线将标目的文字区与表格的数字区分隔开来。部分表格可再用横线将合计分隔开,或用横线将两重纵标目分割开。其它竖线和斜线一概省去。(4)数字:用阿拉伯数字表示。无数字用“—”表示,缺失数字用“¼”表示,数值为0者记为“0”,不要留空项。数字按小数位对齐。(5)备注:表中数字区不要插入文字,也不列备注项。必须说明者标“*”号,在表下方说明。常用统计图1.直条图2.圆图和百分比条图3.线图4.直方图5.统计地图6.其他特殊分析图:箱式图茎叶图、误差条图线图是用线段的升降来表示数值的变化,适合于描述某统计量随另一连续性数值变量变化而变化的趋势,最常用于描述统计量随时间变化而变化的趋势。箱式图(boxplot)使用5个统计量反映原始数据的分布特征,即数据分布中心位置、分布、偏度、变异范围和异常值。箱式图的箱子两端分别是上四分位数和下四分位数,中间横线是中位数,两端连线分别是除异常值外的最小值和最大值。另外标记可能的异常值。多因素试验资料的方差分析设计类型:析因设计各因素各水平的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 山西管理职业学院《旅游接待业》2025-2026学年期末试卷
- 沈阳音乐学院《疾病学基础》2025-2026学年期末试卷
- 沈阳航空航天大学《马克思恩格斯论法》2025-2026学年期末试卷
- 临床VTE风险分层护理要点
- 上海工程技术大学《寄生虫学检验》2025-2026学年期末试卷
- 上海旅游高等专科学校《对外汉语教学概论》2025-2026学年期末试卷
- 上海商学院《海洋调查方法》2025-2026学年期末试卷
- 上海南湖职业技术学院《工程经济》2025-2026学年期末试卷
- 上海思博职业技术学院《秘书学概论》2025-2026学年期末试卷
- 山西应用科技学院《数字贸易学》2025-2026学年期末试卷
- 全自动集尘器
- 手术室护士与麻醉的护理配合试题
- 蜡疗操作评分标准
- 《针灸治疗》课件-第十节 耳鸣耳聋
- 磨煤机检修作业三措两案(2020版)
- 防震减灾科普先行防震减灾知识宣传课件
- 建筑工程制图与识图全套课件建筑施工图
- 福建省南平一中2023年中考物理自主招生试题(实验班含解析)
- GB/T 4169.2-2006塑料注射模零件第2部分:直导套
- GB/T 27663-2011全站仪
- GB/T 12265-2021机械安全防止人体部位挤压的最小间距
评论
0/150
提交评论