版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第一章绪论
医学统计学[学习要求]掌握:统计工作的基本步骤、统计资料的类型和统计学的基本概念:总体与样本、同质与变异、变量的类型、参数与统计量。熟悉:医学统计学的研究内容;医学统计学学习的目标与方法。了解:医学统计学的发展史;统计学和医学的关系。
第一节概述一、统计学、医学统计学的定义
统计学(statistics):统计学是处理数据中变异性的科学与艺术,内容包括数据的收集
(collection)、分析(analysis)、解释(interpretation)和表达(presentation),目的是求得可靠的结果。
统计学是帮助人们分析所占有的信息,达到去伪存真、去粗取精、正确认识世界的一种重要手段。
根据研究领域和研究对象的不同,统计学又分为:数理统计、经济统计、生物统计、卫生统计、医学统计……
医学统计学(medicalstatistics):用统计学的原理和方法研究医学领域中数据的收集、整理、分析和结果正确解释与表达的一门科学。
为何要学习医学统计学?
1.采用统计学方法,发现不确定现象背后隐藏的规律。
变异(variation)是个体间存在的差异,是绝对的,是社会和生物医学中的普遍现象。变异使得实验或观察的结果具有不确定性,如每个人的身高、体重、血压等各有不同。
2.用统计学思维方式考虑有关医学研究中的问题
如试验设计是否合理?样本含量是否满足要求?不同药物间临床疗效是否不同?发病的主要因素是什么?联合用药是否效果更好?如何能延长癌症病人的生存年限?………
3.科学研究和科研论文的需要二、统计学和医学统计学的发展简史
统计学“statistics”一词源于国家“state”,拉丁语中“statisticus”就是治国术的意思。
1.早期:早在奴隶社会,当时的统治阶级为了征兵和征税,需要了解土地、人口等数量,就有了原始的统计活动。公元前3050年古埃及人为修建金字塔筹集建筑费,对全国的人口和财产进行了普查。公元前2200年夏禹时代,“禹平水土,还为九州”,人口数1355万人,土地3431万顷。
2.近代:19世纪应用数学家为了解决赌徒们在博彩中出现的输赢概率问题逐渐形成和发展了概率论,从而为统计学的发展奠定了坚实的基础。
19世纪,比利时的凯特勒(Quetelet,1796—1874),把概率论的理论引入统计学中,使统计学的研究方法发生了质的飞跃。被称为数理统计学派创始人。
卡尔皮尔逊(KarlPrarson,1857-1936),英国生物学家和统计学家,现代统计科学的创立者,公认为统计学之父。他对统计学的最大贡献为:
导出一般化的频数曲线体系。包括正态分布、矩形分布、J型分布、U型分布等13种曲线及其方程式。提出卡方(χ2)检验。发展了相关和回归理论。重视个体变异性的数量表现和变异数据的处理。提出了“标准差”及其符号σ。
为了推广统计在生物学上的应用,于1901年创立统计的元老期刊《生物统计》,他的学生W.Gosset(1876-1937)关于Studentt分布的著名文章于1908年就发表在《生物统计》上。
1747年英国医生詹姆斯.林德(JamesLind,1716–1794)1747年对坏血病进行干预研究。
1840年法国医生皮尔.路易斯(PierreLouis,1787-1872)用临床对照方法证明放血对治疗伤寒、肺炎和扁桃体咽颊炎无效。
1854年,英国医生约翰·斯诺(JohnSnow,1813-1858)对1854年伦敦西部西敏市苏活区霍乱爆发的研究被认为是流行病学研究的先驱。
1948年,英国发表了评价链霉素治疗肺结核疗效的随机对照的临床试验告,第一次用生物统计方法进行临床干预试验。
1960年英国医生Doll和Hill发现吸烟与肺癌有关,相对危险度RR=1.66/0.77=23.7。
1948年郭祖超教授(1912-1999,我国医学统计学主要奠基人)编著的《医学与生物统计方法》一书,是我国第一部医学统计方法的教科书。1964年更名为《医用数理统计方法》,由出版。1988年10月,140万字的《医用数理统计方法》(第三版),由出版。
3.现代:计算机和统计软件如SAS、SPSS的出现,使统计学得到突飞猛进的发展。三、医学统计学的研究内容:
1.统计设计(statisticaldesign)包括实验设计和调查设计,它可以合理地、科学地安排实验和调查工作,使之能较少地花费人力、物力和时间,取得较满意和可靠的结果。
2.统计描述(descriptivestatistics)和参数估计(parameterestimation)
通过计算各种统计指标和统计图表来描述资料的集中趋势、离散趋势和分布特征况(如正态分布或偏态分布);利用样本指标来估计总体指标的大小。
3.假设检验(hypothesistest)
假设检验是统计学的主要内容,是通过统计检验方法(如t检验、u检验、F检验、χ2
检验、秩和检验等)来推断两组或多组统计指标的差异是抽样误差造成的还是有本质的差别。
4.相关与回归(correlationandregression)医学中存在许多相互联系、相互制约的现象。如儿童的身高与体重、胸围与肺活量、血糖与尿糖等,都需要利用相关与回归来分析。
5.多因素分析(multipleanalysis)
如多重回归、判别分析、聚类分析、正交设计分析、主成分分析、因子分析、logistic回归、Cox比例风险回归等,都是分析医学中多因素有效的方法。这些方法计算复杂,大部分需借助计算机来完成。
6.健康统计(healthstatistics)
研究人群健康的指标与统计方法,除了用上述的某些方法外,他还有其特有的方法,如寿命表、生存分析、死因分析、人口预测等方法。第二节统计工作的基本步骤统计设计搜集资料整理资料分析资料一、统计设计(statisticaldesign)
统计工作的第一步,也是关键的一步,是对统计工作全过程的设想和计划安排。
Fisher在他的著作中多次强调,统计学家与科学研究者的合作应该在实验设计阶段,而不是在需要数据处理的时候。“试验完成后再找统计学家,无异于请统计学家为试验进行“尸体解剖”。统计学家或许只能告诉你试验失败的原因。”
二、收集资料(collectionofdate)
是根据设计的要求,获取准确可靠的原始资料,是统计分析结果可靠的重要保证。资料收集必须满足及时、完整和准确的要求。医学资料的主要来源:
1.统计报表
2.医疗卫生工作记录
3.专题调查或实验研究
三、整理资料
整理资料(sortingdata)的目的就是将收集到的原始资料进行反复核对和认真检查,纠正错误,分类汇总,使其系统化、条理化,便于进一步的计算和分析。
1.审核2.分组(1)质量分组(2)数量分组3.汇总
四、分析资料分析资料(analysisofdata)是根据设计的要求,对整理后的数据进行统计学分析,结合专业知识,作出科学合理的解释。统计分析包括以下两大内容:1.统计描述(descriptivestatistics)将计算出的统计指标与统计表、统计图相结合,全面描述资料的数量特征及分布规律。2.统计推断(inferentialstatistics)包括总体参数的估计和假设检验。第三节统计资料的类型
一、定量资料定量资料(quantitativedata)亦称计量资料(measurementdata),是用定量的方法测定观察单位(个体)某项指标数值的大小,所得的资料称定量资料。定量资料一般有度量衡单位,其观察指标为数值变量(numericalvariable)。特点:表现为数值大小;有度量衡
单位;多为连续性资料。统计分析:常用均数、标准差进行统计描述;用t检验、F
检验进行假设检验。定量变量分类连续型变量(continuousvariable):在一个区间中任意取值。如血压、身高、体重。离散型变量(discretevariable):
只能取整数。如新生儿出生数、手术病人数。
二、定性资料定性资料(qualitativedata)亦称计数资料(enumerationdata)或分类资料(categoricaldata),是将观察单位按某种属性或类别分组,清点各组的观察单位数,所得的资料称为定性资料。定性资料的观察指标为定性变量(qualitativevariable),亦称分类变量(categoricalvariable)。特点:没有度量衡单位;多为间断性资料。统计分析:常用率、构成比进行统计描述;用卡方检验、
秩和检验进行假设检验。二分类变量:如男女、生死、有无等。常用0和1编码。
名义变量:如职业、地区等。常用多个0
和1“假变量”编码。等级变量:如优、良、中、差;检验结果
-、±、+、+++、++++等。常用1,2,3,4,┄,编码。无序变量有序变量定性变量
三、等级资料等级资料(rankeddata)亦称有序分类资料(orderedcategoricaldata),是将观察单位按属性的等级分组,清点各组的观察单位数,所得的资料为等级资料。等级资料的观察指标为有序分类变量,亦称为又称为半定量资料。变量转换定量变量有序变量血压值kpa<8低血压
8
正常血压12
轻度高血压15
中度高血压17
重度高血压二分类变量<12正常≥12异常变量转换不能以上相反的方向一、同质与变异(homogeneity&variation)
同质或同质性是指观察单位(研究个体)间被研究指标的主要影响因素相同或基本相同。
变异是指同质的各观察单位,其某变量值之间的差异。
同质事物个体间的差异来源于一些未加控制或无法控制的甚至不明原因的因素。变异是绝对的,同质是相对的。从本质上说,统计学就是研究变异的科学第四节统计学中的几个基本概念二、总体与样本(population&sample)
总体是根据研究目的所确定的同质观察单位某项变量值的集合(全体)。
如调查山东省12岁男孩的身高值,每个12岁男孩称为一个观察单位(个体),同质的基础是同地区、同年龄、同性别。山东省所有12岁男孩的身高值就构成一个总体。
有限总体(finitepopulation)有明确的空间范围。
无限总体(infinitepopulation)
没有明确的空间范围。目标总体(targetpopulation)
如目标为全国
12岁孩生长发育情况。研究总体(studypopulation)
实际研究山东省
12岁男孩情况。总体的分类:空间范围研究范围
样本是指从总体中随机抽取的部分有代表性的观察单位的变量值的集合。样本的例数称为样本含量。对样本的研究称为抽样研究(samplingstudy),医学研究中大部分是抽样研究,用样本研究的信息推断总体的特征。
如抽取1万名山东省12岁男孩做调查,分析各种生长发育指标,推论山东省12岁男孩的生长发育情况。三、参数与统计量(parameterandstatistic)参数:总体的统计指标,如总体均数、总体标准差,分别用希腊字母记为μ、σ。固定的常数
总体样本抽样sampling
统计量
参数
推断inference统计量:样本的统计指标,如样本均数、标准差,采用拉丁字母分别记为。参数附近波动的随机变量。四、误差(error)
误差泛指测量值与真值之差。医学研究中资料中主要存在系统误差和随机误差。系统误差随机误差随机测量误差抽样误差误差指数据搜集和测量过程中由于仪器不准确、标准不规范等原因,造成观察结果呈倾向性的偏大或偏小,这种误差称为系统误差。特点:具有累加性。1.系统误差(systemicerror)
2.随机测量误差(randommeasurementerror)
在消除了系统误差的前提下,由于非人为的偶然因素,对于同一样本多次测定结果不完全一样,结果有时偏大有时偏小,没有倾向性,这种误差叫随机测量误差。特点:没有倾向性,多次测量计算平均值可以减小甚至消除随机测量误差。3.抽样误差(samplingerror)
由于随机抽样所引起的样本统计量与总体参数之间的差异以及各样本统计量之间的差异称为抽样误差。
μσ特点:抽样误差是不可避免的,但有一定的规律性。
统计上可以计算并在一定范围内控制抽样误差。减少抽样误差的方法:
增加样本量n;
选择变异程度较小的研究指标;
改进抽样方法,增加样本的代表性。
样本量
n
相等的情况下:
整群抽样>单纯随机抽样>系统抽样>分层抽样五、频率与概率(frequency&probability)
频率:样本的实际发生率称为频率。设在相同条件下,独立重复进行n次试验,事件A出现m次,则事件A出现的频率为f=
m/n。概率:随机事件发生的可能性大小,用大写的P
表示,取值[0,1],即0≤P≤1
。必然事件P=1随机事件0<P<1不可能事件P=0
统计学上把P≤0.05或P≤0.01称为小概率事件(习惯),认为不大可能发生。CertainImpossible0.501通常我们把经常遇到的事件分为三种类型:频率与概率间的关系:
1.样本频率总是围绕概率上下波动;
2.样本含量n越大,波动幅度越小,频率越接近概率。
图抛硬币“正面”向上的频率摆动示意图第五节学习卫生统计学应注意的问题
1.重点掌握卫生统计学的基本知识、基本技能、基本概念和基本方法,掌握使用范围和注意事项。学习过程中必须注意结合专业、联系实际,如在阅读医学文献时,评价其统计设计和分析方法的优缺点等。对于书中所用的统计公式,只要求了解其意义、用途、应用条件和计算方法,不必深究其数学推导。
2.要培养科学的统计思维方法,提高分析问题、解决问题的能力。例如,由于事物存在个体差异,抽样误差不可避免,但这种误差是有规律性的,据此可引出统计推断的理论;通过假设检验的逻辑推理,就能理解统计结论的概率性。
3.掌握调查设计和实验设计的原则,培养搜集、整理、分析统计资料的系统工作能力。首先要重视原始资料的完整性和准确性,对数据处理持严肃、认真、实事求是的科学态度,反对伪造和篡改统计数据。能综合评价人群的健康状况和卫生部门的工作状况,为卫生决策提供科学、正确的统计信息。学习小结1.本章介绍了医学统计学的定义,医学统计学在医学科研中的地位和作用、医学统计学的基本内容和统计工作的基本步骤,尤其强调了统计设计是医学统计学的重要内容之一,统计设计和统计分析是统计学不可分割的两个重要组成部分。
2.介绍了统计学的若干基本概念,包括同质与变异、总体与样本、参数与统计量、变量的类型、系统误差与随机误差、概率与频率,它们是学习医学统计学的重要基础。3.学习医学统计学的目的是培养统计学逻辑思维方法,掌握统计设计方法和收集准确可靠的数据,运用统计分析方法正确分析数据、正确解释和表达研究结果。
ThankYou!
第二章数值变量资料的统计描述
医学统计学[学习要求]
掌握::常用的集中趋势指标和离散趋势指标以及各指标的适用条件;正态曲线下面积的分布规律;医学参考值范围的制定。熟悉:数值变量资料频数表的编制方法和用途。
了解:正态分布的概念及特征;质量控制的意义。
第一节频数分布表
频数是指变量值出现的次数或个数。频数分布就是变量在其取值范围内各组段的分布情况。频数分布可以用频数分布表、频数分布图来表示。编制频数分布表是统计分析资料的第一步。下面以例2.1,2013年某小学120名8岁健康男孩身高(cm)测量资料为例讲解如何编者频数分布表和频数分布图。例2.12013年某小学120名8岁男孩身高(cm)测量资料124.5126.2128.1130.6132.6125.4126.5128.4124.5129.5124.7127.8128.3131.7125.8126.8129.5125.6127.6129.8125.4120.3122.3118.2116.7121.6116.8121.6115.1122.0121.6118.7121.8124.5121.7122.7116.3124.0119.0124.5121.7124.9130.0123.5128.2119.7126.1131.3123.7114.7122.3122.8128.6122.0132.4122.0123.5116.2126.1119.1126.5118.4121.0119.1116.8131.1120.4115.2118.0122.3114.2116.9126.4114.3127.2118.3127.8123.0117.3123.2119.8122.1120.4124.8122.3114.4120.5115.0122.7116.8125.6121.1124.8122.7119.5128.2124.1127.3120.0122.7118.2127.1122.5116.3125.1124.5112.3121.3127.0113.4118.9127.6125.2121.5122.4129.1122.6134.5118.2132.9最小值最大值一、频数表的编制计算极差:即最大值和最小值之差,本例:R=134.5-112.3=22.2(cm)
确定组段和组距:分组的目的是反映数据分布的特征,组数通常根据观察例数的多少而定,一般以8~15个组数为宜。各组段的起点称为“下限”,终点称为“上限”。每个组段都是半开半闭区间,即只包括下限,不包括上限。为计算方便,组距i=R/10,再适当取整。本例组距i=R/10=2.22(cm),取整数为=2cm。各组段不能重叠,每个组段都是半开半闭区间,第一组段应包括所有观察值中的最小值,其下限一般取包括最小值的、较为整齐的数值。最后一个组段必须包括最大值,其余各个组段首尾相连绘制频数表统计出各组段内的数据个数,绘制频数表.见表2-1。用划记或分卡法将各观察单位归如各组段,然后清点各组段内观察值个数即得各组段频数。表2-1、120名8岁健康男孩身高(cm)资料频数分布组段频数f频率(%)累计频数累计频率(%)112~21.721.7114~75.897.5116~97.51815.0118~1411.73226.7120~1512.54739.2122~2117.56856.7124~1815.08671.7126~1512.510184.2128~108.311192.5130~54.211696.7132~32.511999.2134~13610.8120100.0最小组段包含最小值最大组段包含最大值相邻组段不能有重复数字二、频数分布图为了能更直观地了解频数分布情况,通常在编制频数分布表的基础上,绘制频数分布图。可以更加直观形象地表达频数分布的信息,并可与频数分布表互为补充。常见的频数分布图为直方图(histogram),是一种用垂直条段代表频数分布的图形,以身高组段为X轴,标度是各组的组距;以频数为Y轴,标度是各组频数大小。见图2-1。三、频数分布表和频数分布图的主要用途1.揭示频数分布的特征集中趋势离散趋势
2.揭示频数分布的类型对称分布:正态分布SymmetricNormaldistribution偏态分布Skeweddistribution正偏态分布Positivelyskewed负偏态分布Negativelyskewed资料分布正态分布:中间高、两边低、左右对称负偏态分布:长尾向左延伸正偏态分布:长尾向右延伸三、频数分布表和频数分布图的主要用途3.便于发现某些特大或特小的可疑值:在频数分布表的两端,连续出现几个组段的频数为0后,又出现一些特大或特小值,让人怀疑这些数据的准确性,对于这些数据需要进一步的检查和核对。4.便于进一步计算统计指标和做统计分析。5.大样本资料的陈述形式:描述一个大样本资料时,如将所有原始数据都罗列出来,往往显得过于冗长繁琐,令人毫无印象,也看不出数据的分布特征与类型。但是如果改用频数分布表描述,能让人快速判断出数据的分布特征和类型,令人印象深刻。§2.2集中趋势指标
集中趋势指标,主要用于描述一组同质数值变量的平均水平或集中趋势,亦称平均数。常用的主要有:算术均数几何均数中位数一、算术均数
简称均数,总体均数用μ表示,样本均数用表示。用于描述正态分布资料或近似正态分布资料。直接法常用于小样本资料。公式为:加权法用于频数表资料。公式为
二、几何均数
用于描述等比关系资料或对数正态分布资料,用G表示。直接法用于小样本数据。公式为:
加权法用于样本中有较多相同变量值或频数表资料。
有5个人的血清抗体效价为1:10,1:100,
1:1000,1:10000,1:100000。求平均血清抗体效价。5个人的平均血清抗体效价为1:1000抗体效价1:101:201:401:801:160合计人数59201065050人的血清平均抗体效价为1:41.70,即1:42计算几何均数对变量值的要求不能同时有正值和负值不能有0若全为负值,应先按正值计算,得出结果后再加负号。三、中位数及百分位数
中位数,用M表示,指将一组变量值按从小到大的顺序排列,位次居中的变量值。用于描述偏态分布资料或分布状态不明的资料、变量值中有个别过小或过大值、分布一端或两端无确定数据的资料平均水平。直接法
——先将变量值按从小到大的顺序排列。当n为奇数时,位置居中的变量值即为中位数。
当n为偶数时,位置居中的两个变量值的均数即为中位数。
中位数n为偶数n为奇数有7个人的血压(收缩压)测定值(mmHg)为:120、123、125、127、128、130、132,求中位数。某病患者8人的潜伏期(天)分别为5,6,8,9,11,11,13,>16。求中位数。8人的平均潜伏期为10天,即M=10(天)中位数7人血压的中位数为M=127(mmHg)频数表法先将变量值按从小到大的顺序列出频数表,并分别计算累计频数和累计频率,然后找出中位数所在组段,代入下列公式求中位数。式中L为中位数所在组段下限,i为该组段组距,为该组段的频数,为小于L的各组段累计频数。上限值Ui;fm中位数Md下限值L百分位数是一种位置指标,以表示。理论上有x%比小,有(100-x)%比大。百分位数计算公式如下:
表2-1120名8岁健康男孩身高(cm)资料频数分布组段频数f频率(%)累计频数累计频率(%)112~21.721.7114~75.897.5116~97.51815.0118~1411.73226.7120~1512.54739.2124~1815.08671.7126~1512.510184.2128~108.311192.5130~54.211696.7132~32.511999.2134~13610.8120100.0122~2117.56856.7122~2117.56856.7中位数的特点特定的百分位数(P50),在全部观察值中有一半比它大,有一半比它小,应用最广。不是由全部观察值计算出来的,因此不受特大值、特小值的影响,适用于描述偏态资料的集中位置。只受居中观察值波动的影响,因而不敏感。用中位数代替均数、几何均数会减低灵敏度。均数、几何均数和中位数的相异点平均数意义应用场合均数平均数量水平应用甚广,最适合对称分布,特别是正态分布几何均数平均增减倍数1、等比资料;2、对数正态分布资料中位数位次居中观察值水平1、偏态资料;2、分布不明资料;3、分布一端或两端出现不确定值§2.3离散趋势指标请比较以下3组数据的离散趋势:现有三组健康女大学生口腔体温测得值(℃)如下1组36.836.937.037.137.22组36.536.937.037.137.53组36.536.737.037.337.5三组均数均为37.0℃。一、极差极差也称全距,以R表示,是一组变量值中最大值和最小值的差。其优点是简单明了。但缺点是仅考虑了资料的最大值和最小值,不能反映组内其他数据的变异程度。上述资料R1=37.2-36.8=0.4℃R2=37.5-36.5=1.0℃R3=37.5-36.5=1.0℃
即第一组的离散趋势最小,第2、3组离散趋势相同。显然这样的判断过于简单,不能反映资料内部数据的变异度情况。二、四分位数间距
,称为下四分位数,有四分之一变量值比第25百分位数小。,称为上四分位数,有四分之一变量值比第75百分位数大。四分位数间距Q即为与之差。即Q=-适用于偏态分布资料,比全距稳定,但仍未考虑每个变量值的变异程度。表2-1120名8岁健康男孩身高(cm)资料频数分布组段频数f频率(%)累计频数累计频率(%)112~21.721.7114~75.897.5116~97.51815.0118~1411.73226.7120~1512.54739.2124~1815.08671.7126~1512.510184.2128~108.311192.5130~54.211696.7132~32.511999.2134~13610.8120100.0122~2117.56856.7122~2117.56856.7离均差之和离均差有正有负,正负相抵使得总体上
用反映离散趋势,数学上处理比较困难离均差平方和来反映变异三、方差
自由度=n-1限制条件的个数,用ν表示。(n-1):当选定时,n个变量值中能自由变动的变量值的个数。方差优点方差越大,资料的离散程度越大(全面考虑了每个观察值)。不受观察值个数的影响。方差缺点一些资料不适用于以平方表示。单位为原始单位的平方单位,不能跟均数结合起来用来反映资料的分布特点。四、标准差
标准差是方差的平方根,标准差的单位和变量单位一致。与方差一样,标准差只取正值。总体标准差记为σ,样本标准差用s表示。标准差的计算方法直接法加权法表3-2加权法计算标准差组段组中值频数ffxX2fX2112~11322261276925538114~11578051322592575116~1179105313689123201118~11914166614161198254120~12115181514641219615122~12321258315129317709124~12518225015625281250126~12715190516129241935128~12910129016641166410130~13156551716185805132~13333991768953067134~13613511351822518225合计-120147821823584
将数值代入计算式标准差的应用描述事物的变异程度:适用于对称分布资料
衡量均数的代表性:资料的均数相近,度量单位相同的条件下,标准差大,表示观察值离均数较远,均数代表性差,表明事物内部数据的变异度大;反之,标准差小,则反映均数的代表性较好,事物内部数据的变异度小结合样本均数描述频数分布特征:描述正态分布资料的分布特征和估计医学参考值范围计算变异系数和标准误标准差优点①根据全部数值计算;②适用于代数法处理;③受抽样变动的影响甚小。五、变异系数
变异系数表示数据分布的相对离散程度,用于比较均数相差悬殊的两组或多组资料的离散程度,或比较度量衡单位不同的两组或多组资料的变异程度。用CV表示。§2.4正态分布一、正态分布的概念和特征
正态分布的密度函数f(X)为:式中μ为总体均数,σ为总体标准差,π为圆周率,e为自然对数的底,μ、σ、π、e皆为常量,仅X为变量。以X为横轴,f(X)为纵轴,当μ、σ已知时,即可按上式绘出正态分布曲线的图形。(二)
正态分布的特征
⑴集中性:正态曲线在横轴上方均数处最高。⑵对称性:正态分布以均数为中心,左右对称。⑶正态分布有两个参数,即均数μ与标准差σ。μ是位置参数;σ是形状参数,决定曲线的高矮胖瘦。通常用N(μ,σ2)表示均数为μ、方差为σ2的正态分布,用N(0,1)表示均数为0,方差为1的标准正态分布。⑷
正态分布曲线下的面积有一定规律。
正态分布图形特点:钟型中间高两头低左右对称最高处对应于X轴的值就是均数曲线下面积为1标准差决定曲线的形状Xf(X)m
二、标准正态分布标准正态分布:指均数为0,标准差为1的正态分布。常称z分布或u分布。标准正态分布与正态分布的转换公式:即若x服从正态分布N(μ,σ2),则z就服从均数为0,标准差为1的正态分布。标准正态分布zΦ(z)三、正态曲线下面积的分布规律正态曲线下面积的意义:正态曲线下一定区间内的面积代表变量值落在该区间的概率。整个曲线下的面积为1,代表总概率为1。曲线下面积的求法:定积分法和标准正态分布法
一个服从正态分布的指标,只要求得其均数与标准差,就能全面掌握该指标频数的分布规律。正态分布曲线下的面积
μ±1.64σ范围内的面积为90%
μ±1.96σ范围内的面积为95%
μ±2.58σ范围内的面积占99%1.标准正态分布:求曲线下(z1,z2)范围内的面积。z≤0:①查表,分别求从-∞到z2与从-∞到z1的面积;②两者之差为所求面积。z2z1(2)z>0:利用正态分布的对称性求曲线下从-∞到z范围的面积。例:从-∞到z=1.76范围内的面积。1.76-1.76①查表,-∞到u=-1.76的面积为0.0392②可知从z=1.76到+∞范围内的面积也是0.0392③因曲线下总面积为1,故从-∞到z=1.76范围内的面积为:
1-0.0392=0.96082.非标准正态分布:求曲线下任意(x1,x2)范围内的面积。先作标准正态变换;再查标准正态分布表求得面积。例:已知110名7岁男童身高。现欲估计该地身高界于116.5cm到119.0cm范围内7岁男童比例及110名7岁男童中身高界于此值范围内的人数。(1)标准正态分布变换:(2)查表得:(3)求D:
估计该地身高界于116.5~119.0cm范围内的7岁男童比例为13.92%;
估计110名7岁男童中有15名男童的身高界于116.5~119.0cm范围内。正态分布的应用正态分布的判断和检验:经验法和正态性检验描述正态分布资料的频数(频率)分布范围医学参考值范围的制定(后)用于异常值的剔除用于质量控制:为了控制实验中的误差,实验室的质量控制中,常以作为上、下警戒限;以作为上、下控制限。(2s和3s是1.96s与2.58s的近似值)正态分布理论的其他应用正态分布的应用例:从某地随机抽取100名一年级男大学生,测得平均身高为166.2cm,标准差为5.3cm,现欲估计该地身高界于低于160cm,身高高于180cm,以及身高在165cm~175cm范围内的一年级男大学生的比例和人数。查标准正态分布表得:Φ(z1)=Φ(-0.02)=0.4920Φ(z2)=Φ(1.66)=0.04851-[Φ(z2)+Φ(z1)]=0.4595医学参考值范围的制定
正常值范围(或医学参考值范围):医学上常把绝大多数正常人的某指标值的波动范围称为该指标的正常值范围(或医学参考值范围)
。注意:正常人并非指没有任何疾病的人,而指同质前提下排除了足以影响所测指标的因素的人。正常值范围的确定步骤选定正常人群,并抽取一定的样本含量(一般大样本)。测定方法应统一、准确。决定是否分组制定医学参考值范围根据专业知识确定用单侧或双侧范围。根据需要确定可信度。6.按资料特点选定不同方法计算正常值范围上、下限。正态分布法:适于正态分布资料。对数正态分布的资料取对数后可用正态分布法估计。百分位数法:适于偏态分布资料或分布不明类型的资料。所需样本含量较大。正常值范围的确定步骤表1正常值范围的界值
正态分布法
百分位数法%双侧单侧
双侧单侧下限上限下限上限909599
P5~P95P2.5~P97.5P0.5~P99.5P10P90P5P95P1P99即成年男子第一秒肺通气量不低于3.05L。
对数正态分布法
适用于对数正态分布资料
双侧上界
双侧下界
单侧上界
单侧下界例:某市调查了200例正常成人血铅含量,估计该市成人血铅含量95%医学参考值范围。单侧上界
组段(ug/100g)频数累计频数累计频率(%)3~363618.08~397537.513~4712261.018~3015276.023~1817085.028~1618693.033~318994.538~619597.543~219798.548~119899.053~119999.558~621200100.0某市正常成人血铅含量频数表3.百分位数法
常用于偏态分布资料
双侧上界
P97.5
双侧下界
P2.5
单侧上界
P95
单侧下界
P5组段(ug/100g)频数累计频数累计频率(%)3~363618.08~397537.513~4712261.018~3015276.023~1817085.028~1618693.033~318994.538~619597.543~219798.548~119899.053~119999.558~621200100.0某市正常成人血铅含量频数表成人血铅正常值≤38.8ug/100gThankYou!
医学统计学第三章分类变量资料的统计描述【复习】变量的类型数值变量分类变量无序分类变量有序分类变量统计工作的基本步骤统计设计收集资料整理资料分析资料统计描述统计推断统计某年甲乙两地1~12岁儿童传染病发病情况,甲地发病人数为612人,乙地发病人数为1560人。请问:传染病发病严重程度是否为乙地高于甲地?怎样表示两地1~12岁儿童传染病发病强度?如何比较两地1~12岁儿童传染病发病强度?问题:什么是相对数?【导入新课】问题:甲地发病率是否低于乙地?【导入新课】某年甲、乙两地儿童传染病发病率(‰)问题:甲地发病率是否低于乙地?【导入新课】某年甲、乙两地儿童传染病发病率(‰)【教学目标】掌握:常用相对数的概念和计算;应用相对数应注意的问题;标准化率的计算和注意事项。熟悉:医学工作中常用的相对数指标。了解:率的标准化意义和基本思想。【重点与难点】重点:常用相对数的概念和计算;应用相对数应注意的问题。率的标准化意义和基本思想;医学工作中常用的相对数指标。难点:应用相对数应注意的问题标准化率的计算和注意事项。【教学内容】第一节常用相对数第二节率的标准化法第三节
医学工作中常用的相对数指标第一节常用相对数率比构成比绝对数---是研究事物现象的基本资料相对数---比较分析现象间的关系和发展相对数两个有关数据的比【教学内容】常用相对数率:又称频率指标或强度指标,说明一段时间(单位时间)内某个事件发生的频率或强度。常以100%、1000‰、10000/万、100000/10万等比例基数表示。原则上使算得的率至少保留1位整数。常用率:发病率、患病率、死亡率、病死率、治愈率等。【教学内容】常用相对数【教学内容】常用相对数率的计算公式:K为比例基数,取100%、1000‰、100000/10万等,原则:①保留1~2位整数②惯例例:治愈率、病死率、生存率等----%;粗死亡率、婴儿死亡率等----‰;
恶性肿瘤死亡率等----1/10万…………【教学内容】常用相对数率的计算:
表3-1某年某地男性肝癌死亡情况【教学内容】常用相对数构成比:又称构成指标或结构指标,说明某一事物内部各组成部分所占的比重或分布,常以百分数表示。常用来表示疾病或死亡的顺位、位次或所占比重。构成比特点:各组成部分的相对数之和为100%;某一部分所占比重增大,其它部分会相应地减少。【教学内容】常用相对数构成比计算:
某年某地前十位恶性肿瘤死亡人数和构成比项目率构成比定义发生某现象的观察单位数与可能发生某现象的观察单位数之比。表示某现象内部各组成部分所的比重或分布。意义反映某项指标的平均强度或水平,说明某现象发生的频率或强度。不能反应该现象的平均强度或平均水平。特点分率不能直接相加,某一部分率改变对其它无影响。合计必为100%,任一部分比重增减会影响其他部分。率和构成比的比较【教学内容】常用相对数【教学内容】常用相对数相对比:表示两个有联系的指标之比,通常用倍数、分数或百分表示。两个比较指标可以性质相同,也可以性质不同两个比较指标可以是绝对数、相对数或平均数等指标分类:对比指标:性别比、某两年发病率比;关系指标:卫生服务领域,描述卫生资源配备,人均床位数=某地医院总床位数/该地总人口医护比=某地(医院)医生人数/护士人数计划完成指标:用实际数达到计划数的百分之几或几倍说明计划完成的程度。第二节应用相对数的注意事项1.计算率和构成比时分母不宜过小-稳定性2.正确区分构成比和率3.资料对比应注意其可比性观察对象、研究方法、观察时间、地区、环境等资料内部构成解决:标化、多因素分析4.两样本率比较时应进行假设检验5.率不可直接平均【教学内容】相对数应用注意事项问题:患病率最高的年龄组?
病人最多的年龄组?
合计率是如何进行计算的?某年某市15岁以上居民高血压受检人数与患病人数统计【教学内容】相对数应用注意事项
某市1980年与1990年传染病的构成问题:与1980年相比,1990年------
痢疾发生减少,其它疾病发生增加?【教学内容】相对数应用注意事项问题:甲地发病率是否低于乙地?某年甲、乙两地儿童传染病发病率(‰)【教学内容】相对数应用注意事项【教学内容】率的标准化由于甲乙两地年龄构成不同,使总发病率与各年龄组发病率结果判断不一致。要消除年龄分布不同对性病率的影响,计算标化发病率,使标化发病率具有可比性。解决方法:率的标准化--计算标化率/调整率!某年甲、乙两地儿童传染病发病率(‰)第三节率的标准化法率的标准化的意义和基本思想【教学内容】率的标准化当两组资料内部各小组的率明显不同,而且各小组观察单位的构成比也明显不同时,则不能直接比较两组的总率。只有通过采用统一的标准消除其内部构成上的差别之后,才能进行比较。率的标准化!率的标准化法
:采用统一的“标准人口构成/标准人口数”,以消除人口构成不同对各组总率的影响,使算得的标准化率具有可比性。标准化率或调整率:采用统一标准调整后的率为标准化率,简称为标化率。常需标化的指标:死亡率、病死率、发病率……等。常见的混杂因素:年龄、性别、病情……等。率的标准化的意义和基本思想【教学内容】率的标准化已知样本各年龄组的率(发病率或死亡率)。用标准人口构成比或标准人口数进行标化。标准的选择:选择具有代表性、内部构成较稳定、数量较大的人群作为构成标准。将两组资料内部构成的各相应小组人数相加,成为两组共同标准。任选要比较的两组资料中任何一组的内部构成,作为两组的共同标准。标化率的计算【教学内容】率的标准化①选定标准组,且已知标准组的年龄别人口数;②计算被标化组的预期死亡人数。将被标化人口各年龄组的实际发病率与标准人口相应的年龄别人口数相乘,得被标化人口各年龄组的预期死亡人数,合计得总预期死亡人数;③计算标准化死亡率。用被标化人口的总预期死亡人数除以标准人口总数,得标准化死亡率。标化率的计算--用标准组年龄别人口数计算【教学内容】率的标准化用标准人口数进行计算:甲地的标化发病率某年甲、乙两地儿童传染病发病率(‰)【教学内容】率的标准化乙地的标化发病率①选定标准组,且已知标准组的年龄别人口构成比;②计算被标化人口各年龄组的分配发病率:用被标化人口各年龄组实际死亡率乘以标准人口相应年龄组的人口构成比,得被标化人口相应年龄组的分配死亡率。③计算标准化死亡率:被标化人口相应年龄组的分配死亡率之和即为标准化死亡率。标化率的计算--用标准组年龄别人口构成比计算【教学内容】率的标准化用标准人口构成比计算:用标准人口构成比计算结果与用标准人口数进行计算一致甲地标化发病率低于乙地,与各年龄组分别比较的结论一致【教学内容】率的标准化某年甲、乙两地儿童传染病发病率(‰)应用率的标准化时注意事项:1.当各比较组内部构成(如年龄、性别、职业、民族等)不同,并足以影响总率的比较时,应对率进行标准化,然后再作比较。2.标准化率只表明各标化组率的相对水平,而不代表其实际水平。根据选用的标准不同,所计算的标准化率也不同。但结论一般都一致。3.各年龄组对应的率出现明显交叉,如低年龄组死亡率甲地高于乙地,而高年龄组则甲地低于乙地,此时宜分别比较各年龄组死亡率,而不用标准化进行比较。4.标化常用作对总体的标化和比较。如是抽样研究,两样本标准化率的比较也应作假设检验。【教学内容】率的标准化第三节医学工作中常用的相对数指标死亡统计指标死亡率/死亡专率/死因构成与死因顺位疾病统计指标发病率/罹患率/患病率/病死率/生存率检验工作中常用的相对数指标【教学内容】医学常用相对数指标死亡统计指标粗死亡率和死亡专率常用的死亡专率主要有婴儿死亡率、新生儿死亡率、年龄别死亡率、死因别死亡率等。死因构成与死因顺位【教学内容】医学常用相对数指标死亡率死亡率是指在一定期间
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 公园落叶应急预案(3篇)
- 应急预案日语版(3篇)
- 应急预案事故控制(3篇)
- 专升本应急预案(3篇)
- 学校招聘活动策划方案(3篇)
- 按摩营销引流方案(3篇)
- 施工方案劳务用工(3篇)
- 木料场应急预案(3篇)
- 森林灾害应急预案(3篇)
- 油田测井施工方案(3篇)
- 2025年重庆标准化专业人员资格考试(标准化理论与综合应用)历年参考题库含答案详解(5卷)
- 物业电梯管理方案
- crrt专科培训汇报
- 建筑设计防火规范(1995修订本)
- 烟囱施工拆除方案(3篇)
- FZ∕T64005-2021卫生用薄型非织造布
- 2025年山东中考道德与法治真题解读及答案讲评(课件)
- 互联网医院应急预案
- 2025年四川省高考生物试卷真题(含答案解析)
- 塑料行业常识培训课件
- 公司月度工作汇报管理制度
评论
0/150
提交评论