医学统计学全套课件_第1页
医学统计学全套课件_第2页
医学统计学全套课件_第3页
医学统计学全套课件_第4页
医学统计学全套课件_第5页
已阅读5页,还剩343页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第一章绪论

医学统计学

医学统计学的学习要求可分为掌握、熟悉、了解三个层面。掌握层面涵盖统计工作基本步骤、统计资料类型和统计学基本概念。统计工作基本步骤是整个统计过程的框架,它指导我们如何有序地开展统计工作。统计资料类型的区分有助于我们根据不同的数据特点选择合适的分析方法。而总体与样本、同质与变异、变量的类型、参数与统计量这些基本概念,则是医学统计学的基石,理解它们能让我们更好地进行数据处理和分析。

熟悉层面要求我们了解医学统计学的研究内容以及学习的目标与方法。研究内容明确了医学统计学的研究范畴,而学习目标与方法则为我们指明了学习的方向和途径,帮助我们更高效地掌握这门学科。

了解层面涉及医学统计学的发展史以及统计学和医学的关系。了解发展史能让我们明白这门学科是如何逐步发展和完善的,而明确统计学和医学的关系,则能让我们更好地认识到医学统计学在医学领域中的重要性和应用价值。

该部分将介绍统计学和医学统计学的定义。统计学是处理数据变异性的科学与艺术,涵盖数据收集、分析、解释和表达,旨在获得可靠结果。

我们生活在信息爆炸时代,每天接触海量数据,这些数据存在变异性,如同每个人的身高、体重、血压等都有差异。统计学就像一位智慧的导航员,帮助我们从这些纷繁复杂的数据中找到规律,去伪存真、去粗取精。

以医学研究为例,不同患者对同一种药物的反应可能不同,这就是数据的变异性。通过统计学方法收集、分析这些数据,我们能了解药物的疗效和安全性,从而为临床治疗提供可靠依据。

所以说,统计学不仅是一门技术,更是一种认识世界的重要手段。它让我们在面对不确定现象时,能够透过表象看清本质,做出更准确的判断和决策。

统计学是一门应用广泛的学科,根据研究领域和研究对象的差异,可细分为数理统计、经济统计、生物统计、卫生统计、医学统计等多个分支。每一个分支都有其独特的应用场景和研究重点,它们共同构成了统计学的丰富体系。

其中,医学统计学具有重要的地位和价值。它运用统计学的原理和方法,聚焦于医学领域的数据处理。具体而言,涵盖了数据的收集、整理、分析,以及对结果的正确解释与表达。在医学研究和实践中,我们会面临大量的数据,比如患者的症状表现、检查指标、治疗效果等。医学统计学就像是一位精准的导航员,帮助我们从这些纷繁复杂的数据中提取有价值的信息,从而发现其中隐藏的规律和趋势。

例如,通过对大量患者数据的分析,我们可以了解某种疾病的发病特点、治疗方法的有效性等。医学统计学在医学领域中起着举足轻重的作用,为医学研究和临床实践提供了有力的支持和保障。

我们探讨为何要学习医学统计学,首先是采用统计学方法,能发现不确定现象背后隐藏的规律。在社会和生物医学领域,变异是普遍存在的,它是个体间绝对的差异。

这种变异使得实验或观察的结果充满不确定性。就像我们生活中,每个人的身高、体重、血压等都各不相同,这些差异看似随机,但实际上背后可能隐藏着一定的规律。如果没有统计学方法,我们很难从这些纷繁复杂且具有不确定性的现象中找到内在规律。

医学研究中,疾病的发生发展、治疗效果等也都存在着变异。比如不同患者对同一种药物的反应可能不同,有的患者疗效显著,有的则效果不佳。通过统计学方法对大量的数据进行收集、整理和分析,我们就能拨开不确定性的迷雾,发现这些现象背后隐藏的规律,从而更好地指导医学实践,提高医疗质量和效率。所以,学习医学统计学,掌握通过统计学方法挖掘规律的能力,对医学的发展和进步至关重要。

学习医学统计学,还能让我们运用统计学思维来思考医学研究中的各类问题。在医学研究里,试验设计是否合理至关重要,合理的设计能确保研究结果的可靠性和科学性;样本含量是否满足要求也不容忽视,如果样本量过小,研究结果可能缺乏代表性,而样本量过大则会造成资源浪费。

同时,我们也需要探究不同药物间临床疗效是否存在差异,这能为临床用药提供科学依据;明确发病的主要因素,有助于我们采取针对性的预防和治疗措施;了解联合用药是否效果更好,能为患者提供更有效的治疗方案;思考如何延长癌症病人的生存年限,更是医学研究者不懈追求的目标。

此外,科学研究和撰写科研论文也离不开医学统计学。在科研过程中,我们需要运用统计学方法来收集、整理和分析数据,以得出可靠的研究结论。在撰写论文时,准确运用统计学知识来呈现研究结果,能增强论文的可信度和说服力。所以,医学统计学在医学研究和论文撰写中都起着举足轻重的作用。

现在来了解统计学和医学统计学的发展简史。“统计学”一词源于“国家”,在拉丁语中,“statisticus”意为“治国术”,这体现出统计学从一开始就与国家治理相关。

统计学的发展可追溯到早期的奴隶社会。当时统治阶级为了征兵和征税,需要掌握土地、人口等数量信息,于是便有了原始的统计活动。这一时期的统计是出于实际的政治和经济需求而产生的。

公元前3050年,古埃及人为了筹集修建金字塔的建筑费,对全国的人口和财产进行了普查。这是一次大规模、系统性的统计活动,反映出当时人们已经具备了一定的统计能力和组织能力。

而在公元前2200年的夏禹时代,有“禹平水土,还为九州”的记载,同时记录了人口数1355万人和土地3431万顷。这表明在遥远的古代,我国也有了统计人口和土地的意识和实践。这些早期的统计活动为后来统计学的发展奠定了基础。

统计学在近代迎来了重要的发展阶段。19世纪,应用数学家们为解决赌徒在博彩中输赢概率问题,逐渐形成并发展了概率论。这一理论的诞生为统计学的发展奠定了坚实基础,使得统计学能够以更科学、更精确的方式去处理数据。

在这一时期,比利时的凯特勒发挥了关键作用。他把概率论的理论引入到统计学中,这一举措具有重大意义,使统计学的研究方法发生了质的飞跃。以往的统计学研究可能相对较为局限,而概率论的引入为其注入了新的活力和方法,让统计学能够更好地应对各种复杂的数据情况。

凯特勒也因此被称为数理统计学派创始人。他的贡献不仅仅是推动了统计学理论的发展,更对后续统计学在各个领域的应用产生了深远影响。正是因为他的创新和突破,统计学才得以在近代取得如此显著的进步,为现代统计学的发展奠定了重要基石。第9页

卡尔·皮尔逊,这位1857年至1936年间活跃的英国生物学家和统计学家,被誉为现代统计科学的创立者和统计学之父。他对统计学的贡献意义深远,极大地推动了统计学的发展。

他导出的一般化频数曲线体系,涵盖了正态分布、矩形分布、J型分布、U型分布等13种曲线及其方程式。这一体系为统计学提供了更全面、细致的数据分析工具,让我们能更精准地把握数据的分布特征。

卡方(χ²)检验的提出是他的另一重大贡献。卡方检验在统计分析中应用广泛,能够帮助我们判断变量之间是否存在关联,为研究提供了有力的验证手段。

相关和回归理论的发展也是他的重要成就。这使我们能够深入探究变量之间的关系,预测变量的变化趋势,在众多领域都有重要应用。

此外,他重视个体变异性的数量表现和变异数据的处理,提出了“标准差”及其符号σ。标准差的提出让我们能更好地衡量数据的离散程度,为数据的分析和解释提供了重要的参考。卡尔·皮尔逊的这些贡献,奠定了现代统计学的基础,对后续的科学研究和实践产生了深远影响。第10页

在统计学的发展历程中,有几个重要的事件值得我们关注。1901年,为了推广统计在生物学上的应用,相关人士创立了元老期刊《生物统计》。这份期刊意义非凡,它为统计在生物学领域的应用搭建了一个重要的交流平台。1908年,其学生W.Gosset关于Studentt分布的著名文章发表在《生物统计》上,这一成果进一步推动了统计学在生物学中的应用,为后续的研究提供了重要的理论基础。

时间再往前推移,1747年,英国医生詹姆斯·林德对坏血病进行干预研究。这是医学统计学早期应用的一个典型案例,它让人们开始认识到运用统计方法来研究疾病干预的重要性。

到了1840年,法国医生皮尔·路易斯用临床对照方法证明放血对治疗伤寒、肺炎和扁桃体咽颊炎无效。这一研究成果意义重大,它打破了传统的治疗观念,让人们明白不能仅凭经验治疗疾病,而需要通过科学的统计和对照实验来验证治疗方法的有效性。这些事件都充分体现了医学统计学在医学研究和实践中的重要价值。第11页1854年,英国医生约翰·斯诺对伦敦西部西敏市苏活区霍乱爆发展开研究,这一研究被视为流行病学研究的先驱。在当时,霍乱是一种令人恐惧的疾病,给人们的生命健康带来了巨大威胁。约翰·斯诺并没有盲目地应对,而是运用科学的方法去探究霍乱的传播原因。

他通过细致的调查和分析,发现霍乱的爆发与当地的水源有着密切的关系。他绘制了霍乱患者的分布地图,通过对地图的研究,找到了可能的污染源——一个被污染的水泵。这一发现具有重大意义,它打破了当时人们对霍乱传播的传统认知,为控制霍乱的传播提供了关键依据。

约翰·斯诺的研究方法和成果,为后来的流行病学研究奠定了基础。他的这种通过实际调查和数据分析来寻找病因的方法,成为了流行病学研究的重要手段。从那以后,流行病学逐渐发展成为一门独立的学科,为预防和控制各种疾病的传播发挥了重要作用。可以说,约翰·斯诺对1854年伦敦霍乱爆发的研究,是流行病学发展史上的一个重要里程碑。第12页1948年是医学统计学发展的一个关键节点。这一年,英国发表了评价链霉素治疗肺结核疗效的随机对照临床试验报告,这是首次运用生物统计方法进行临床干预试验。这种方法的运用具有重大意义,它标志着医学研究从传统经验模式向科学、严谨的统计模式转变,为后续的医学研究提供了新的思路和方法。

同样在1948年,我国医学统计学主要奠基人郭祖超教授编著了《医学与生物统计方法》,这是我国第一部医学统计方法的教科书。它的出现填补了我国医学统计领域的空白,为我国医学统计学的发展奠定了基础。1964年该书更名为《医用数理统计方法》,1988年10月出版了140万字的第三版,这体现了我国医学统计学在不断发展和完善。1960年,英国医生Doll和Hill发现吸烟与肺癌有关,通过计算得出相对危险度RR为23.7。这一发现引起了人们对吸烟危害的重视,也为公共卫生政策的制定提供了科学依据,从统计学角度揭示了吸烟与肺癌之间的关联,对预防医学的发展起到了推动作用。第13页

医学统计学的发展历程中,现代迎来了重大变革。计算机以及统计软件,像SAS、SPSS的出现,让统计学实现了突飞猛进的发展。这些工具极大地提升了统计工作的效率和准确性,为医学统计学的研究提供了强大的支持。

医学统计学的研究内容丰富多样,第一项便是统计设计。它涵盖了实验设计和调查设计两个方面。实验设计能够科学合理地规划实验流程,而调查设计则能有效指导调查工作的开展。通过统计设计,可以用较少的人力、物力和时间成本,获取满意且可靠的结果。这就好比建造一座大厦,统计设计就是坚实的地基,只有打好基础,后续的研究工作才能顺利进行。有了精准的统计设计,医学研究能够更加高效地推进,为医学的发展提供有力的保障。第14页

医学统计学的研究内容中,统计描述与参数估计以及假设检验占据重要地位。统计描述和参数估计,是通过计算统计指标和绘制统计图表,来呈现资料的集中趋势、离散趋势和分布特征,像判断是正态分布还是偏态分布。同时,利用样本指标去估计总体指标大小。这就好比我们想了解一个城市居民的平均收入,不可能去调查每一个人,这时就可以抽取一部分居民作为样本,通过计算样本的平均收入等指标,来推测整个城市居民的平均收入等总体指标。

假设检验则是统计学的核心内容。它借助多种统计检验方法,如t检验、u检验、F检验、χ²检验、秩和检验等,来推断两组或多组统计指标的差异,究竟是由抽样误差导致,还是存在本质差别。例如,我们比较两种药物对治疗某种疾病的效果,通过假设检验就能知道这两种药物的疗效差异,是因为抽样时的偶然因素,还是药物本身就有不同的治疗效果。这对于医学研究和实践有着至关重要的意义。第15页

医学领域存在着众多相互联系、相互制约的现象,相关与回归分析便是用于剖析这些现象的重要工具。像儿童的身高与体重、胸围与肺活量、血糖与尿糖等关系,都可以借助相关与回归分析来深入探究。这种分析能够帮助我们了解变量之间的关联程度和变化规律,对于医学研究和临床实践有着重要意义。

而多因素分析在医学中同样不可或缺。多重回归、判别分析、聚类分析等方法,都是面对多因素问题时的有效手段。这些方法能够综合考虑多个因素,揭示出复杂医学现象背后的本质。不过,这些方法的计算过程往往较为复杂,大部分情况下需要借助计算机才能完成。这也体现了现代计算机技术在医学统计学中的重要性,它使得我们能够处理更为复杂的医学数据,为医学研究和临床决策提供更准确的依据。第16页

健康统计作为医学统计学的重要组成部分,主要聚焦于研究人群健康的指标与统计方法。除了运用前面提及的一些统计方法外,它还有着自身独特的方法。

寿命表能清晰展示人群的生存和死亡情况,帮助我们了解不同年龄段的死亡风险等信息,对制定卫生政策和医疗规划具有重要意义。生存分析则重点关注个体从某个起始事件到终点事件的时间间隔,常用于研究疾病的治疗效果、患者的生存状况等,能为临床治疗方案的优化提供依据。

死因分析可以明确导致人群死亡的主要原因,从而有针对性地开展预防和控制措施,降低相关疾病的死亡率。而人口预测能够根据现有的人口数据和发展趋势,对未来的人口规模、结构等进行预测,有助于合理配置医疗资源和社会资源。

总之,健康统计的这些特有方法相互配合,为全面了解人群健康状况、制定有效的卫生策略提供了有力支持。第17页

统计工作包含统计设计、搜集资料、整理资料和分析资料这几个基本步骤,而统计设计是其中的首要且关键环节,它是对统计工作全过程的设想与计划安排。Fisher在著作里多次强调,统计学家应在实验设计阶段就与科学研究者展开合作,而非等到需要处理数据时才介入。他用“试验完成后再找统计学家,无异于请统计学家为试验进行‘尸体解剖’,统计学家或许只能告诉你试验失败的原因”这一形象的比喻,深刻地说明了统计设计的重要性。

如果在试验完成后才让统计学家参与,可能只能发现试验失败的原因,却无法从源头上保障试验的科学性和有效性。只有在实验设计阶段就让统计学家参与,才能合理、科学地安排实验和调查工作,以较少的人力、物力和时间投入,取得满意且可靠的结果。所以,我们必须重视统计设计,确保统计工作从一开始就走上正确的轨道。第18页

收集资料是统计工作中极为关键的一环,它依据设计要求获取准确可靠的原始资料,是确保统计分析结果可靠的重要保障。资料收集必须满足及时、完整和准确这三个要求。只有及时收集资料,才能保证数据的时效性;完整收集资料,才能避免数据缺失影响分析结果;准确收集资料,才能使分析结果真实可靠。

医学资料有着多种主要来源。统计报表是其中之一,它是由医疗卫生机构依据相关规定定期填报的,能反映一定时期内医疗卫生工作的基本情况,具有全面性和系统性的特点。医疗卫生工作记录也是重要来源,像病历、检查报告等,详细记录了患者的病情和治疗过程,为医学研究提供了丰富的一手资料。专题调查或实验研究则是针对特定问题进行的有目的的研究活动,通过精心设计和实施,能够获取针对性强、质量高的数据。这三种来源各有特点,相互补充,共同为医学统计提供了丰富的数据基础。第19页

整理资料在统计工作中起着承上启下的关键作用,其目的在于对收集到的原始资料进行细致处理,使其系统化、条理化,为后续的计算和分析奠定基础。

首先是审核环节。审核就像给资料进行一次全面的“体检”,要反复核对和认真检查,不放过任何一个可能存在的错误。这一步骤是保证资料质量的重要关卡,只有经过严格审核的资料,才能为后续的分析提供可靠的依据。

接着是分组,分组分为质量分组和数量分组。质量分组是按照资料的属性或类别进行划分,比如将患者按病情的轻重、治疗方式的不同等进行分组;数量分组则是依据数值的大小来划分,例如按年龄、收入等数值区间进行分组。通过合理的分组,可以让资料更具逻辑性和条理性,便于我们发现其中的规律和特征。

最后是汇总。汇总就是把经过审核和分组的资料进行整合,将分散的数据集中起来,形成一个完整的体系。汇总后的资料就像一幅清晰的画卷,能够让我们更直观地看到数据的全貌,从而为进一步的计算和分析提供便利。

总之,整理资料的每一个步骤都紧密相连,缺一不可。只有做好整理资料的工作,才能确保后续的统计分析得出科学、准确的结论。第20页

分析资料是统计工作的重要环节,它依据设计要求,对整理好的数据开展统计学分析,并结合专业知识给出科学合理的解释。这一过程包含两大核心内容。

统计描述是分析资料的首要内容,它将计算得出的统计指标与统计表、统计图相结合,能全面描述资料的数量特征和分布规律。通过统计描述,我们可以直观地了解数据的整体情况,比如数据的集中趋势、离散程度等,就像为数据绘制了一幅清晰的画像,让我们对数据有更深入的认识。

统计推断则是分析资料的另一关键部分,它涵盖总体参数的估计和假设检验。总体参数估计能帮助我们根据样本数据推断总体的特征,而假设检验则用于判断样本数据是否支持某种假设。这就好比我们通过局部来推测整体,通过已知来验证未知,从而为决策提供有力的依据。

总之,统计描述和统计推断相辅相成,共同构成了分析资料的完整体系,让我们能从数据中挖掘出有价值的信息。第21页

现在介绍统计资料类型中的定量资料。定量资料也叫计量资料,它是通过定量方法来测定观察单位某项指标数值大小而得到的资料。这意味着,我们是用具体的数值来描述和衡量研究对象的特征。

定量资料有两个显著特点。其一,它一般具有度量衡单位,比如长度用米、厘米,重量用千克、克等。这些单位让资料有了明确的衡量标准,使数据更加精确和可比。其二,其观察指标是数值变量。这表明它所反映的是具体的数量特征。

定量资料在医学、社会学等众多领域都有广泛应用。在医学研究中,像血压、身高、体重等数据都属于定量资料。通过对这些数据的分析,我们可以了解人群的健康状况、生长发育情况等。总之,定量资料为我们深入研究各种现象提供了重要的数据支持。第22页

定量资料具有鲜明的特点,表现为数值大小,且有度量衡单位,大多属于连续性资料。这种特性决定了其统计分析方法。常用均数和标准差进行统计描述,均数能反映数据的集中趋势,标准差则体现数据的离散程度,二者结合可全面展现数据的数量特征。在进行假设检验时,会用到t检验和F检验,这有助于我们从样本数据推断总体特征。

定量变量可分为连续型变量和离散型变量。连续型变量能在一个区间中任意取值,像血压、身高、体重这些常见的指标都属于连续型变量。它们的数值变化是连续的,在一定范围内可以取到任意值,这反映了事物的连续变化特性。而离散型变量只能取整数,例如新生儿出生数、手术病人数等。这些数据是一个个独立的个体计数,只能以整数形式存在。这种分类方式让我们能更精准地理解和分析不同类型的数据,从而为后续的统计工作打下坚实的基础。第23页

接下来我们要探讨的是定性资料。定性资料也被叫做计数资料或者分类资料,它是一种重要的数据类型。其获取方式是将观察单位按照某种属性或者类别进行分组,然后清点各个组里观察单位的数量,这样得到的资料就是定性资料。

定性资料的观察指标是定性变量,也称作分类变量。这意味着它关注的是事物的属性和类别,而不是具体的数值大小。与定量资料不同,定性资料更侧重于描述事物的特征和类别。在实际应用中,定性资料有着广泛的用途。比如在医学研究中,我们可以通过对患者按疾病类型、性别等属性进行分组,来分析不同组之间的差异。它能帮助我们从不同的角度去认识和理解数据,为后续的统计分析和研究提供重要依据。第24页

定性资料具有显著特点,没有度量衡单位,且多为间断性资料。这些特性决定了其统计分析方法,常用率和构成比进行统计描述,用卡方检验和秩和检验进行假设检验。

定性变量可分为无序变量和有序变量。其中,无序变量包含二分类变量和名义变量。二分类变量如男女、生死、有无等,常用0和1编码,这种编码方式简洁明了,能有效区分两种不同状态。名义变量像职业、地区等,常用多个0和1的“假变量”编码,能更好地对不同类别进行量化处理。

有序变量则包括等级变量,如优、良、中、差,检验结果-、±、+、+++、++++等,常用1、2、3、4等编码。这种编码方式体现了变量的有序性,便于在分析中体现出等级差异。通过对这些不同类型定性变量的合理编码和分析,能更深入地挖掘定性资料所蕴含的信息。第25页

等级资料是统计学中一种重要的资料类型,也被称作有序分类资料。它的形成方式是将观察单位按照属性的等级进行分组,然后统计每组的观察单位数量。

等级资料具有独特的性质,其观察指标属于有序分类变量,这意味着这些变量之间存在着明确的顺序关系。同时,它又被称为半定量资料,这表明它既具有定性资料的分类特征,又在一定程度上体现出定量的特点。

与定量资料和定性资料相比,等级资料有着自身的优势。它能够更细致地反映观察单位在属性等级上的差异,为研究提供更丰富的信息。例如在医学研究中,对于疾病的严重程度、治疗效果等方面的评价,等级资料可以更准确地描述情况。

在实际应用中,等级资料的分析方法也有其特殊性。我们需要根据其有序的特点,选择合适的统计方法来进行分析,从而得出科学合理的结论。总之,等级资料在统计学研究中有着不可忽视的地位和作用。第26页

在统计学中,变量转换是一项重要操作。这里以血压值为例,展示了定量变量向有序变量和二分类变量的转换。

将血压值这一定量变量转换为有序变量时,依据不同的血压范围划分出了低血压、正常血压、轻度高血压、中度高血压和重度高血压等不同等级。这种转换有助于更清晰地对血压状况进行分类和评估,能让我们更直观地了解个体血压处于何种水平。

同时,血压值还能转换为二分类变量,以12kPa为界限,小于12kPa为正常,大于等于12kPa为异常。这种二分类方式简洁明了,便于快速判断血压是否处于正常范围。

不过需要注意的是,变量转换有其方向性,不能逆向进行。因为这种转换是基于一定的逻辑和医学标准,逆向转换可能会导致信息丢失或错误解读。通过合理的变量转换,我们能更好地对数据进行分析和处理,为医学研究和临床实践提供更有价值的信息。第27页

在统计学里,同质与变异是两个重要概念。同质,即观察单位间被研究指标的主要影响因素相同或基本相同。比如研究一群同地区、同年龄、同性别的孩子的身高,这些相同因素就是同质的体现。

而变异指的是,即便观察单位是同质的,其某变量值之间仍存在差异。就像同样是上述那群孩子,他们的身高也不会完全一样。这种差异源于一些未加控制、无法控制甚至不明原因的因素。可能是孩子的饮食习惯、运动情况不同,也可能是一些未知的基因因素。

需要强调的是,变异是绝对的,同质是相对的。世界上不存在完全相同的个体,总会有各种因素导致变量值的差异。从本质上来说,统计学就是研究变异的科学。因为只有通过研究变异,才能发现数据背后的规律,才能进行合理的统计分析和推断,进而为决策提供依据。第28页

现在我们来探讨统计学中的总体与样本概念。总体是依据研究目的确定的同质观察单位某项变量值的集合,也就是全体。其关键在于“同质”和“研究目的明确”。只有满足这两个条件,才能精准界定总体范围。

举例来说,若要调查山东省12岁男孩的身高值,每个12岁男孩就是一个观察单位,这里的同质基础是同地区、同年龄、同性别。只有满足这些条件的观察单位才能包含在总体中。而这些男孩的身高值集合起来,就构成了一个总体。

明确总体概念对研究意义重大。它为研究划定清晰边界,让研究方向更明确,避免盲目性。同时,是抽样的基础,后续抽样及相关研究都围绕总体展开。所以在实际研究中,必须科学合理地确定总体范围,保证研究的准确性和有效性。第29页

总体可从空间范围和研究范围两个维度进行分类。从空间范围看,存在有限总体和无限总体。有限总体有着明确的空间范围,就像一个被划定边界的区域,所有元素都在这个清晰的界限内,这使得对其进行研究和统计时,范围相对明确和可控。而无限总体没有明确的空间范围,如同广阔无垠的宇宙,难以确定其边界,这给研究带来了一定的挑战,需要采用特殊的方法去探索和分析。

从研究范围看,分为目标总体和研究总体。目标总体是研究的目标指向,比如我们的目标是了解全国12岁孩子的生长发育情况,这个宏大的目标所涵盖的全体就是目标总体。而研究总体则是实际开展研究的对象集合,例如实际研究山东省12岁男孩的情况,这就是研究总体。明确这两种总体的区别很重要,因为在实际研究中,我们往往无法对目标总体进行全面研究,而是选择一个更具操作性的研究总体来开展工作,然后通过科学的方法将研究结果推广到目标总体。第30页

样本是从总体中随机抽取的部分有代表性的观察单位的变量值集合。样本的例数就是样本含量。在医学研究里,抽样研究极为常见,也就是对样本进行研究,再用样本研究所得的信息去推断总体的特征。

为什么要进行抽样研究呢?因为总体往往数量庞大,全面研究成本高、难度大。比如要研究山东省12岁男孩的生长发育情况,若对所有山东省12岁男孩进行研究,几乎是不可能完成的任务。所以,我们随机抽取1万名山东省12岁男孩进行调查,分析他们的各种生长发育指标,以此来推论山东省12岁男孩整体的生长发育情况。

抽样研究就像是通过观察一部分来了解整体,不过这要求抽取的样本具有代表性,这样才能保证推断结果的准确性。只有样本能很好地反映总体的特征,我们基于样本得出的结论才更可靠,才能为医学研究和决策提供有价值的依据。第31页

没有检测到内容第32页

在统计学里,参数和统计量是两个关键概念。参数是总体的统计指标,像总体均数、总体标准差,分别用希腊字母μ、σ表示,它们是固定的常数。这意味着,一旦总体确定,参数就不会改变,是总体的固有特征。

而统计量是样本的统计指标,例如样本均数、标准差,采用拉丁字母表示。它是参数附近波动的随机变量。因为样本是从总体中随机抽取的,不同的抽样会得到不同的样本,进而产生不同的统计量。

参数和统计量之间存在着紧密的联系。我们通过抽样的方式,从总体中获取样本,计算样本的统计量,然后利用这些统计量来推断总体的参数。这种从样本到总体的推断过程,是统计学的核心方法之一。

在实际研究中,我们往往无法直接获取总体的参数,只能通过样本统计量来估计总体参数。由于抽样的随机性,统计量会在参数附近波动,但随着样本含量的增加,统计量会越来越接近参数。理解参数和统计量的概念,对于正确运用统计学方法进行数据分析和推断至关重要。第33页

在医学研究里,误差是一个很关键的概念,它泛指测量值与真值之间的差异。在医学研究的资料当中,误差主要分为系统误差和随机误差两大类。

系统误差是由于数据搜集和测量过程中,仪器不准确、标准不规范等原因,导致观察结果出现倾向性的偏大或偏小,并且具有累加性。

随机误差又包含随机测量误差和抽样误差。随机测量误差是在消除系统误差的情况下,由非人为的偶然因素造成的,同一样本多次测定结果不完全相同,结果时大时小,没有倾向性,不过多次测量计算平均值可以减小甚至消除这种误差。

抽样误差则是因为随机抽样,使得样本统计量与总体参数之间,以及各样本统计量之间产生差异。抽样误差虽然不可避免,但有一定规律性,统计上可以计算并在一定范围内控制它,还能通过增加样本量、选择变异程度小的研究指标、改进抽样方法等方式来减少。

了解误差的分类和特点,对于准确分析医学研究资料、得出可靠结论有着至关重要的意义。第34页

在医学研究的数据搜集和测量工作里,系统误差是一个需要重点关注的问题。系统误差是指由于仪器不准确、标准不规范等原因,使得观察结果出现倾向性的偏大或偏小。

比如说,若测量血压的仪器没有校准准确,每次测量的血压值都比实际值高,这就是系统误差的体现。而且这种误差具有累加性,随着测量次数的增加,误差会不断累积,导致最终的结果与真实值偏差越来越大。

系统误差的存在会严重影响研究结果的准确性和可靠性。如果我们在研究某种药物对血压的影响时,测量血压的仪器存在系统误差,那么得出的药物效果结论就可能是错误的。所以,我们必须高度重视系统误差,在研究过程中要对仪器进行定期校准,规范测量标准,尽量减少系统误差的产生,以保证研究结果的科学性和有效性。第35页

在医学研究的数据测量中,随机测量误差是一个重要概念,它是在系统误差被消除的情况下产生的。由于非人为的偶然因素,在对同一样本进行多次测定时,结果会呈现出不一致性,有时偏大,有时偏小,并且没有固定的倾向性。

这种误差与系统误差不同,系统误差具有累加性,而随机测量误差没有倾向性。这就好比我们用同一把精准的尺子去多次测量一个物体的长度,每次测量结果可能会稍有不同,但不会总是偏向于比真实值大或者小。

随机测量误差虽然难以避免,但我们可以采取方法来减小它。多次测量并计算平均值就是一个有效的办法。通过多次测量,那些偶然产生的偏大或偏小的结果会相互抵消,最终得到的平均值能够更接近真实值,甚至可以在一定程度上消除随机测量误差。这就如同我们抛硬币,抛的次数越多,正面和反面出现的频率就越接近理论上的50%,从而使结果更加准确。所以,在医学研究中,我们要重视随机测量误差的特性,利用多次测量取平均值的方法来提高数据的准确性。第36页

抽样误差是统计领域的重要概念。由于随机抽样,样本统计量与总体参数之间会存在差异,各样本统计量之间也会有差异,这种差异就是抽样误差。

想象一下,总体就像一个大宝藏,我们没办法把整个宝藏都研究一遍,只能从中抽取一部分样本。但每次抽样,得到的样本统计量可能都不一样,和总体参数也会有偏差。比如,我们想了解一个城市所有人的平均身高,总体均数用μ表示,总体标准差用σ表示。但我们只能抽取一部分人来测量,得到的样本均数和标准差就可能和总体的不一样。

抽样误差是不可避免的,因为抽样本身就具有随机性。不过,它有一定的规律性,统计上可以计算并在一定范围内控制它。我们可以通过增加样本量、选择变异程度较小的研究指标、改进抽样方法等方式来减少抽样误差。所以,了解抽样误差,对于我们准确推断总体特征至关重要。第37页

抽样误差具有不可避免的特性,但它并非无迹可寻,而是存在一定的规律性,并且在统计学上能够对其进行计算,还可在一定范围内实现控制。

为了减少抽样误差,有三个可行的方法。其一,增加样本量n。样本量越大,抽样结果就越能代表总体,抽样误差也就会相应减小。其二,选择变异程度较小的研究指标。研究指标的变异程度小,数据的稳定性就高,抽样误差也会随之降低。其三,改进抽样方法,增强样本的代表性。不同的抽样方法产生的抽样误差不同。

在样本量n相等的情况下,各种抽样方法产生的抽样误差大小存在差异,具体表现为整群抽样的误差大于单纯随机抽样,单纯随机抽样的误差大于系统抽样,系统抽样的误差大于分层抽样。这意味着在实际研究中,我们可以根据具体情况选择合适的抽样方法,以降低抽样误差,提高研究结果的准确性。[学习要求]掌握:统计工作的基本步骤、统计资料的类型和统计学的基本概念:总体与样本、同质与变异、变量的类型、参数与统计量。熟悉:医学统计学的研究内容;医学统计学学习的目标与方法。了解:医学统计学的发展史;统计学和医学的关系。

第一节概述一、统计学、医学统计学的定义

统计学(statistics):统计学是处理数据中变异性的科学与艺术,内容包括数据的收集

(collection)、分析(analysis)、解释(interpretation)和表达(presentation),目的是求得可靠的结果。

统计学是帮助人们分析所占有的信息,达到去伪存真、去粗取精、正确认识世界的一种重要手段。

根据研究领域和研究对象的不同,统计学又分为:数理统计、经济统计、生物统计、卫生统计、医学统计……

医学统计学(medicalstatistics):用统计学的原理和方法研究医学领域中数据的收集、整理、分析和结果正确解释与表达的一门科学。

为何要学习医学统计学?

1.采用统计学方法,发现不确定现象背后隐藏的规律。

变异(variation)是个体间存在的差异,是绝对的,是社会和生物医学中的普遍现象。变异使得实验或观察的结果具有不确定性,如每个人的身高、体重、血压等各有不同。

2.用统计学思维方式考虑有关医学研究中的问题

如试验设计是否合理?样本含量是否满足要求?不同药物间临床疗效是否不同?发病的主要因素是什么?联合用药是否效果更好?如何能延长癌症病人的生存年限?………

3.科学研究和科研论文的需要二、统计学和医学统计学的发展简史

统计学“statistics”一词源于国家“state”,拉丁语中“statisticus”就是治国术的意思。

1.早期:早在奴隶社会,当时的统治阶级为了征兵和征税,需要了解土地、人口等数量,就有了原始的统计活动。公元前3050年古埃及人为修建金字塔筹集建筑费,对全国的人口和财产进行了普查。公元前2200年夏禹时代,“禹平水土,还为九州”,人口数1355万人,土地3431万顷。

2.近代:19世纪应用数学家为了解决赌徒们在博彩中出现的输赢概率问题逐渐形成和发展了概率论,从而为统计学的发展奠定了坚实的基础。

19世纪,比利时的凯特勒(Quetelet,1796—1874),把概率论的理论引入统计学中,使统计学的研究方法发生了质的飞跃。被称为数理统计学派创始人。

卡尔皮尔逊(KarlPrarson,1857-1936),英国生物学家和统计学家,现代统计科学的创立者,公认为统计学之父。他对统计学的最大贡献为:

导出一般化的频数曲线体系。包括正态分布、矩形分布、J型分布、U型分布等13种曲线及其方程式。提出卡方(χ2)检验。发展了相关和回归理论。重视个体变异性的数量表现和变异数据的处理。提出了“标准差”及其符号σ。

为了推广统计在生物学上的应用,于1901年创立统计的元老期刊《生物统计》,他的学生W.Gosset(1876-1937)关于Studentt分布的著名文章于1908年就发表在《生物统计》上。

1747年英国医生詹姆斯.林德(JamesLind,1716–1794)1747年对坏血病进行干预研究。

1840年法国医生皮尔.路易斯(PierreLouis,1787-1872)用临床对照方法证明放血对治疗伤寒、肺炎和扁桃体咽颊炎无效。

1854年,英国医生约翰·斯诺(JohnSnow,1813-1858)对1854年伦敦西部西敏市苏活区霍乱爆发的研究被认为是流行病学研究的先驱。

1948年,英国发表了评价链霉素治疗肺结核疗效的随机对照的临床试验告,第一次用生物统计方法进行临床干预试验。

1960年英国医生Doll和Hill发现吸烟与肺癌有关,相对危险度RR=1.66/0.77=23.7。

1948年郭祖超教授(1912-1999,我国医学统计学主要奠基人)编著的《医学与生物统计方法》一书,是我国第一部医学统计方法的教科书。1964年更名为《医用数理统计方法》,由出版。1988年10月,140万字的《医用数理统计方法》(第三版),由出版。

3.现代:计算机和统计软件如SAS、SPSS的出现,使统计学得到突飞猛进的发展。三、医学统计学的研究内容:

1.统计设计(statisticaldesign)包括实验设计和调查设计,它可以合理地、科学地安排实验和调查工作,使之能较少地花费人力、物力和时间,取得较满意和可靠的结果。

2.统计描述(descriptivestatistics)和参数估计(parameterestimation)

通过计算各种统计指标和统计图表来描述资料的集中趋势、离散趋势和分布特征况(如正态分布或偏态分布);利用样本指标来估计总体指标的大小。

3.假设检验(hypothesistest)

假设检验是统计学的主要内容,是通过统计检验方法(如t检验、u检验、F检验、χ2

检验、秩和检验等)来推断两组或多组统计指标的差异是抽样误差造成的还是有本质的差别。

4.相关与回归(correlationandregression)医学中存在许多相互联系、相互制约的现象。如儿童的身高与体重、胸围与肺活量、血糖与尿糖等,都需要利用相关与回归来分析。

5.多因素分析(multipleanalysis)

如多重回归、判别分析、聚类分析、正交设计分析、主成分分析、因子分析、logistic回归、Cox比例风险回归等,都是分析医学中多因素有效的方法。这些方法计算复杂,大部分需借助计算机来完成。

6.健康统计(healthstatistics)

研究人群健康的指标与统计方法,除了用上述的某些方法外,他还有其特有的方法,如寿命表、生存分析、死因分析、人口预测等方法。第二节统计工作的基本步骤统计设计搜集资料整理资料分析资料一、统计设计(statisticaldesign)

统计工作的第一步,也是关键的一步,是对统计工作全过程的设想和计划安排。

Fisher在他的著作中多次强调,统计学家与科学研究者的合作应该在实验设计阶段,而不是在需要数据处理的时候。“试验完成后再找统计学家,无异于请统计学家为试验进行“尸体解剖”。统计学家或许只能告诉你试验失败的原因。”

二、收集资料(collectionofdate)

是根据设计的要求,获取准确可靠的原始资料,是统计分析结果可靠的重要保证。资料收集必须满足及时、完整和准确的要求。医学资料的主要来源:

1.统计报表

2.医疗卫生工作记录

3.专题调查或实验研究

三、整理资料

整理资料(sortingdata)的目的就是将收集到的原始资料进行反复核对和认真检查,纠正错误,分类汇总,使其系统化、条理化,便于进一步的计算和分析。

1.审核2.分组(1)质量分组(2)数量分组3.汇总

四、分析资料分析资料(analysisofdata)是根据设计的要求,对整理后的数据进行统计学分析,结合专业知识,作出科学合理的解释。统计分析包括以下两大内容:1.统计描述(descriptivestatistics)将计算出的统计指标与统计表、统计图相结合,全面描述资料的数量特征及分布规律。2.统计推断(inferentialstatistics)包括总体参数的估计和假设检验。第三节统计资料的类型

一、定量资料定量资料(quantitativedata)亦称计量资料(measurementdata),是用定量的方法测定观察单位(个体)某项指标数值的大小,所得的资料称定量资料。定量资料一般有度量衡单位,其观察指标为数值变量(numericalvariable)。特点:表现为数值大小;有度量衡

单位;多为连续性资料。统计分析:常用均数、标准差进行统计描述;用t检验、F

检验进行假设检验。定量变量分类连续型变量(continuousvariable):在一个区间中任意取值。如血压、身高、体重。离散型变量(discretevariable):

只能取整数。如新生儿出生数、手术病人数。

二、定性资料定性资料(qualitativedata)亦称计数资料(enumerationdata)或分类资料(categoricaldata),是将观察单位按某种属性或类别分组,清点各组的观察单位数,所得的资料称为定性资料。定性资料的观察指标为定性变量(qualitativevariable),亦称分类变量(categoricalvariable)。特点:没有度量衡单位;多为间断性资料。统计分析:常用率、构成比进行统计描述;用卡方检验、

秩和检验进行假设检验。二分类变量:如男女、生死、有无等。常用0和1编码。

名义变量:如职业、地区等。常用多个0

和1“假变量”编码。等级变量:如优、良、中、差;检验结果

-、±、+、+++、++++等。常用1,2,3,4,┄,编码。无序变量有序变量定性变量

三、等级资料等级资料(rankeddata)亦称有序分类资料(orderedcategoricaldata),是将观察单位按属性的等级分组,清点各组的观察单位数,所得的资料为等级资料。等级资料的观察指标为有序分类变量,亦称为又称为半定量资料。变量转换定量变量有序变量血压值kpa<8低血压

8

正常血压12

轻度高血压15

中度高血压17

重度高血压二分类变量<12正常≥12异常变量转换不能以上相反的方向一、同质与变异(homogeneity&variation)

同质或同质性是指观察单位(研究个体)间被研究指标的主要影响因素相同或基本相同。

变异是指同质的各观察单位,其某变量值之间的差异。

同质事物个体间的差异来源于一些未加控制或无法控制的甚至不明原因的因素。变异是绝对的,同质是相对的。从本质上说,统计学就是研究变异的科学第四节统计学中的几个基本概念二、总体与样本(population&sample)

总体是根据研究目的所确定的同质观察单位某项变量值的集合(全体)。

如调查山东省12岁男孩的身高值,每个12岁男孩称为一个观察单位(个体),同质的基础是同地区、同年龄、同性别。山东省所有12岁男孩的身高值就构成一个总体。

有限总体(finitepopulation)有明确的空间范围。

无限总体(infinitepopulation)

没有明确的空间范围。目标总体(targetpopulation)

如目标为全国

12岁孩生长发育情况。研究总体(studypopulation)

实际研究山东省

12岁男孩情况。总体的分类:空间范围研究范围

样本是指从总体中随机抽取的部分有代表性的观察单位的变量值的集合。样本的例数称为样本含量。对样本的研究称为抽样研究(samplingstudy),医学研究中大部分是抽样研究,用样本研究的信息推断总体的特征。

如抽取1万名山东省12岁男孩做调查,分析各种生长发育指标,推论山东省12岁男孩的生长发育情况。三、参数与统计量(parameterandstatistic)参数:总体的统计指标,如总体均数、总体标准差,分别用希腊字母记为μ、σ。固定的常数

总体样本抽样sampling

统计量

参数

推断inference统计量:样本的统计指标,如样本均数、标准差,采用拉丁字母分别记为。参数附近波动的随机变量。四、误差(error)

误差泛指测量值与真值之差。医学研究中资料中主要存在系统误差和随机误差。系统误差随机误差随机测量误差抽样误差误差指数据搜集和测量过程中由于仪器不准确、标准不规范等原因,造成观察结果呈倾向性的偏大或偏小,这种误差称为系统误差。特点:具有累加性。1.系统误差(systemicerror)

2.随机测量误差(randommeasurementerror)

在消除了系统误差的前提下,由于非人为的偶然因素,对于同一样本多次测定结果不完全一样,结果有时偏大有时偏小,没有倾向性,这种误差叫随机测量误差。特点:没有倾向性,多次测量计算平均值可以减小甚至消除随机测量误差。3.抽样误差(samplingerror)

由于随机抽样所引起的样本统计量与总体参数之间的差异以及各样本统计量之间的差异称为抽样误差。

μσ特点:抽样误差是不可避免的,但有一定的规律性。

统计上可以计算并在一定范围内控制抽样误差。减少抽样误差的方法:

增加样本量n;

选择变异程度较小的研究指标;

改进抽样方法,增加样本的代表性。

样本量

n

相等的情况下:

整群抽样>单纯随机抽样>系统抽样>分层抽样五、频率与概率(frequency&probability)

频率:样本的实际发生率称为频率。设在相同条件下,独立重复进行n次试验,事件A出现m次,则事件A出现的频率为f=

m/n。概率:随机事件发生的可能性大小,用大写的P

表示,取值[0,1],即0≤P≤1

。必然事件P=1随机事件0<P<1不可能事件P=0

统计学上把P≤0.05或P≤0.01称为小概率事件(习惯),认为不大可能发生。CertainImpossible0.501通常我们把经常遇到的事件分为三种类型:频率与概率间的关系:

1.样本频率总是围绕概率上下波动;

2.样本含量n越大,波动幅度越小,频率越接近概率。

图抛硬币“正面”向上的频率摆动示意图第五节学习卫生统计学应注意的问题

1.重点掌握卫生统计学的基本知识、基本技能、基本概念和基本方法,掌握使用范围和注意事项。学习过程中必须注意结合专业、联系实际,如在阅读医学文献时,评价其统计设计和分析方法的优缺点等。对于书中所用的统计公式,只要求了解其意义、用途、应用条件和计算方法,不必深究其数学推导。

2.要培养科学的统计思维方法,提高分析问题、解决问题的能力。例如,由于事物存在个体差异,抽样误差不可避免,但这种误差是有规律性的,据此可引出统计推断的理论;通过假设检验的逻辑推理,就能理解统计结论的概率性。

3.掌握调查设计和实验设计的原则,培养搜集、整理、分析统计资料的系统工作能力。首先要重视原始资料的完整性和准确性,对数据处理持严肃、认真、实事求是的科学态度,反对伪造和篡改统计数据。能综合评价人群的健康状况和卫生部门的工作状况,为卫生决策提供科学、正确的统计信息。学习小结1.本章介绍了医学统计学的定义,医学统计学在医学科研中的地位和作用、医学统计学的基本内容和统计工作的基本步骤,尤其强调了统计设计是医学统计学的重要内容之一,统计设计和统计分析是统计学不可分割的两个重要组成部分。

2.介绍了统计学的若干基本概念,包括同质与变异、总体与样本、参数与统计量、变量的类型、系统误差与随机误差、概率与频率,它们是学习医学统计学的重要基础。3.学习医学统计学的目的是培养统计学逻辑思维方法,掌握统计设计方法和收集准确可靠的数据,运用统计分析方法正确分析数据、正确解释和表达研究结果。

ThankYou!

第二章数值变量资料的统计描述

医学统计学[学习要求]

掌握::常用的集中趋势指标和离散趋势指标以及各指标的适用条件;正态曲线下面积的分布规律;医学参考值范围的制定。熟悉:数值变量资料频数表的编制方法和用途。

了解:正态分布的概念及特征;质量控制的意义。

第一节频数分布表

频数是指变量值出现的次数或个数。频数分布就是变量在其取值范围内各组段的分布情况。频数分布可以用频数分布表、频数分布图来表示。编制频数分布表是统计分析资料的第一步。下面以例2.1,2013年某小学120名8岁健康男孩身高(cm)测量资料为例讲解如何编者频数分布表和频数分布图。例2.12013年某小学120名8岁男孩身高(cm)测量资料124.5126.2128.1130.6132.6125.4126.5128.4124.5129.5124.7127.8128.3131.7125.8126.8129.5125.6127.6129.8125.4120.3122.3118.2116.7121.6116.8121.6115.1122.0121.6118.7121.8124.5121.7122.7116.3124.0119.0124.5121.7124.9130.0123.5128.2119.7126.1131.3123.7114.7122.3122.8128.6122.0132.4122.0123.5116.2126.1119.1126.5118.4121.0119.1116.8131.1120.4115.2118.0122.3114.2116.9126.4114.3127.2118.3127.8123.0117.3123.2119.8122.1120.4124.8122.3114.4120.5115.0122.7116.8125.6121.1124.8122.7119.5128.2124.1127.3120.0122.7118.2127.1122.5116.3125.1124.5112.3121.3127.0113.4118.9127.6125.2121.5122.4129.1122.6134.5118.2132.9最小值最大值一、频数表的编制计算极差:即最大值和最小值之差,本例:R=134.5-112.3=22.2(cm)

确定组段和组距:分组的目的是反映数据分布的特征,组数通常根据观察例数的多少而定,一般以8~15个组数为宜。各组段的起点称为“下限”,终点称为“上限”。每个组段都是半开半闭区间,即只包括下限,不包括上限。为计算方便,组距i=R/10,再适当取整。本例组距i=R/10=2.22(cm),取整数为=2cm。各组段不能重叠,每个组段都是半开半闭区间,第一组段应包括所有观察值中的最小值,其下限一般取包括最小值的、较为整齐的数值。最后一个组段必须包括最大值,其余各个组段首尾相连绘制频数表统计出各组段内的数据个数,绘制频数表.见表2-1。用划记或分卡法将各观察单位归如各组段,然后清点各组段内观察值个数即得各组段频数。表2-1、120名8岁健康男孩身高(cm)资料频数分布组段频数f频率(%)累计频数累计频率(%)112~21.721.7114~75.897.5116~97.51815.0118~1411.73226.7120~1512.54739.2122~2117.56856.7124~1815.08671.7126~1512.510184.2128~108.311192.5130~54.211696.7132~32.511999.2134~13610.8120100.0最小组段包含最小值最大组段包含最大值相邻组段不能有重复数字二、频数分布图为了能更直观地了解频数分布情况,通常在编制频数分布表的基础上,绘制频数分布图。可以更加直观形象地表达频数分布的信息,并可与频数分布表互为补充。常见的频数分布图为直方图(histogram),是一种用垂直条段代表频数分布的图形,以身高组段为X轴,标度是各组的组距;以频数为Y轴,标度是各组频数大小。见图2-1。三、频数分布表和频数分布图的主要用途1.揭示频数分布的特征集中趋势离散趋势

2.揭示频数分布的类型对称分布:正态分布SymmetricNormaldistribution偏态分布Skeweddistribution正偏态分布Positivelyskewed负偏态分布Negativelyskewed资料分布正态分布:中间高、两边低、左右对称负偏态分布:长尾向左延伸正偏态分布:长尾向右延伸三、频数分布表和频数分布图的主要用途3.便于发现某些特大或特小的可疑值:在频数分布表的两端,连续出现几个组段的频数为0后,又出现一些特大或特小值,让人怀疑这些数据的准确性,对于这些数据需要进一步的检查和核对。4.便于进一步计算统计指标和做统计分析。5.大样本资料的陈述形式:描述一个大样本资料时,如将所有原始数据都罗列出来,往往显得过于冗长繁琐,令人毫无印象,也看不出数据的分布特征与类型。但是如果改用频数分布表描述,能让人快速判断出数据的分布特征和类型,令人印象深刻。§2.2集中趋势指标

集中趋势指标,主要用于描述一组同质数值变量的平均水平或集中趋势,亦称平均数。常用的主要有:算术均数几何均数中位数一、算术均数

简称均数,总体均数用μ表示,样本均数用表示。用于描述正态分布资料或近似正态分布资料。直接法常用于小样本资料。公式为:加权法用于频数表资料。公式为

二、几何均数

用于描述等比关系资料或对数正态分布资料,用G表示。直接法用于小样本数据。公式为:

加权法用于样本中有较多相同变量值或频数表资料。

有5个人的血清抗体效价为1:10,1:100,

1:1000,1:10000,1:100000。求平均血清抗体效价。5个人的平均血清抗体效价为1:1000抗体效价1:101:201:401:801:160合计人数59201065050人的血清平均抗体效价为1:41.70,即1:42计算几何均数对变量值的要求不能同时有正值和负值不能有0若全为负值,应先按正值计算,得出结果后再加负号。三、中位数及百分位数

中位数,用M表示,指将一组变量值按从小到大的顺序排列,位次居中的变量值。用于描述偏态分布资料或分布状态不明的资料、变量值中有个别过小或过大值、分布一端或两端无确定数据的资料平均水平。直接法

——先将变量值按从小到大的顺序排列。当n为奇数时,位置居中的变量值即为中位数。

当n为偶数时,位置居中的两个变量值的均数即为中位数。

中位数n为偶数n为奇数有7个人的血压(收缩压)测定值(mmHg)为:120、123、125、127、128、130、132,求中位数。某病患者8人的潜伏期(天)分别为5,6,8,9,11,11,13,>16。求中位数。8人的平均潜伏期为10天,即M=10(天)中位数7人血压的中位数为M=127(mmHg)频数表法先将变量值按从小到大的顺序列出频数表,并分别计算累计频数和累计频率,然后找出中位数所在组段,代入下列公式求中位数。式中L为中位数所在组段下限,i为该组段组距,为该组段的频数,为小于L的各组段累计频数。上限值Ui;fm中位数Md下限值L百分位数是一种位置指标,以表示。理论上有x%比小,有(100-x)%比大。百分位数计算公式如下:

表2-1120名8岁健康男孩身高(cm)资料频数分布组段频数f频率(%)累计频数累计频率(%)112~21.721.7114~75.897.5116~97.51815.0118~1411.73226.7120~1512.54739.2124~1815.08671.7126~1512.510184.2128~108.311192.5130~54.211696.7132~32.511999.2134~13610.8120100.0122~2117.56856.7122~2117.56856.7中位数的特点特定的百分位数(P50),在全部观察值中有一半比它大,有一半比它小,应用最广。不是由全部观察值计算出来的,因此不受特大值、特小值的影响,适用于描述偏态资料的集中位置。只受居中观察值波动的影响,因而不敏感。用中位数代替均数、几何均数会减低灵敏度。均数、几何均数和中位数的相异点平均数意义应用场合均数平均数量水平应用甚广,最适合对称分布,特别是正态分布几何均数平均增减倍数1、等比资料;2、对数正态分布资料中位数位次居中观察值水平1、偏态资料;2、分布不明资料;3、分布一端或两端出现不确定值§2.3离散趋势指标请比较以下3组数据的离散趋势:现有三组健康女大学生口腔体温测得值(℃)如下1组36.836.937.037.137.22组36.536.937.037.137.53组36.536.737.037.337.5三组均数均为37.0℃。一、极差极差也称全距,以R表示,是一组变量值中最大值和最小值的差。其优点是简单明了。但缺点是仅考虑了资料的最大值和最小值,不能反映组内其他数据的变异程度。上述资料R1=37.2-36.8=0.4℃R2=37.5-36.5=1.0℃R3=37.5-36.5=1.0℃

即第一组的离散趋势最小,第2、3组离散趋势相同。显然这样的判断过于简单,不能反映资料内部数据的变异度情况。二、四分位数间距

,称为下四分位数,有四分之一变量值比第25百分位数小。,称为上四分位数,有四分之一变量值比第75百分位数大。四分位数间距Q即为与之差。即Q=-适用于偏态分布资料,比全距稳定,但仍未考虑每个变量值的变异程度。表2-1120名8岁健康男孩身高(cm)资料频数分布组段频数f频率(%)累计频数累计频率(%)112~21.721.7114~75.897.5116~97.51815.0118~1411.73226.7120~15

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论