医学统计学 课件全套 第1-9章 绪论、统计表与统计图- 医学科研设计_第1页
医学统计学 课件全套 第1-9章 绪论、统计表与统计图- 医学科研设计_第2页
医学统计学 课件全套 第1-9章 绪论、统计表与统计图- 医学科研设计_第3页
医学统计学 课件全套 第1-9章 绪论、统计表与统计图- 医学科研设计_第4页
医学统计学 课件全套 第1-9章 绪论、统计表与统计图- 医学科研设计_第5页
已阅读5页,还剩353页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第一章绪论目

录第一节

医学统计学概念01第二节

医学统计学常用术语02第三节

统计资料的类型03第四节

医学统计工作的基本步骤04第五节

学习医学统计学的意义01学习目标知识目标能力目标素质目标

能够运用所掌握的基本概念,明确统计资料的类型,并根据资料性质进行有效的转换,便于进一步的统计分析。备统计学的思维,开展科研设计。掌握医学统计学、同质与变异、总体与样本、参数与统计量、概率与频率、误差等基本概念。第一节

医学统计学概念一、医学统计学的定义1.统计学的概念

统计学(statistics)是一门研究随机现象,以推断为特征的方法论科学。具体地说,是运用概率论和数理统计的基本原理,研究数据的收集、整理、分析,反映事物总体信息,并以此为依据,对总体特征进行推断的一门学科。2.医学统计学的概念

医学统计学(medicalstatistics)是应用数理统计的基本原理和方法,结合医学实际,研究统计设计的基本原理以及资料信息的收集、整理、分析的一门学科;以帮助人们透过偶然现象,分析和判断事物的内在规律。二、医学统计学主要内容

医学统计学的主要内容包括医学研究中的统计设计及统计分析方法的应用两个主要方面。

统计设计即制定计划,是对整个医学研究工作过程的系统计划与安排,是整个工作的关键。

统计分析主要分为统计学描述和统计学推断;统计学推断又分为参数估计和假设检验。

第二节

医学统计学常用术语一、变量与变量值1.变量(variable)

是根据研究目的所确定的观察单位的某项特征或属性。2.变量值(valueofvariable)

变量的观察结果或测量值。二、同质与变异1.同质(homogeneity)

是指事物的属性相同,即观察单位之间观察指标的影响因素相同。2.变异(variation)

是指在同质基础上的各观察单位之间的差异。三、总体与样本1.总体(population)

是指根据研究目的而确定的同质观察单位的全体。2.

样本(sample)

是指从总体中随机抽得的部分具有代表性的观察单位。四、参数与统计量1.参数(parameter)

是指描述总体某种特征的测量值或观察值,通常用希腊字母表示。

2.

统计量(statistic)

是指描述样本某种特征的变量值的统计指标,通常用拉丁字母表示。五、误差1.误差(error)

是指实际测量值和真实值之差。

2.系统误差(systematicerror)

是由于在测量过程中仪器、试剂等未经校准,测量方法、判断标准不统一或观察者主观偏见等原因,使观察结果倾向性的偏大或偏小。3.随机测量误差(randomerrorofmeasurement)

是排除了系统误差后还存在的测量方面的误差。4.抽样误差(samplingerror)

是由抽样所引起的样本指标(统计量)与总体指标(参数)的差别或两个样本统计量之间的差别。六、概率与频率1.概率(probability)

是指度量某一随机事件A发生可能性大小的一个数值,一般用P表示,记为P(A)。

2.

频率(frequency)

是指在相同条件下,独立的重复n次实验,随机事件A出现f次,f/n即为随机事件A出现的频率。第三节

医学资料的类型一、定量资料

定量资料(quantitativedata)亦称计量资料(measurementdata)或数值变量资料(numericalvariabledata),是指对每个观察单位用定量的方法测量某项指标数值大小所得的资料。

其观察值是定量的,表现为数值大小,一般有度量衡单位。

二、定性资料

定性资料(qualitativedata)又称分类变量资料(categoricalvariabledata),是将观察单位按某种属性、类别或性质进行分组,然后清点各组观察单位的数目所得的资料。

其变量值是定性的,表现为互不相容的类别或属性。

三、等级资料

等级资料(ordinaldata)是指将观察单位按测量结果某种属性的不同程度分组,所得各组的观察单位数组成的资料,也称为半定量资料。

它具有计数资料的特性,同时又兼有定量资料的性质。

四、资料类型间的转换各种统计指标和统计分析方法的选用与资料类型有密切联系。观察指标是选择定量指标、定性指标或者等级指标,应考虑指标的客观性和敏感性,一般用定量指标描述个体特征是最好的。

第四节

医学统计工作的基本步骤设计收集资料整理资料分析资料第五节

学习医学统计学的意义1.开展医学研究的重要工具2.推动医学科学的迅速发展3.提升医学生的专业素养4.便于科研成果的交流谢谢观看第二章统计表与统计图目

录第一节

统计表01第二节

统计图02学习目标知识目标能力目标素质目标掌握统计图表的基本结构、绘制要求以及常见统计图适用资料等基本知识。

能够根据资料性质和研究目的正确绘制统计表和统计图,理解统计图表在统计工作中的应用。根据临床资料特征和统计分析需求,能够运用统计图表进行统计资料描述。第一节

统计表

一、统计表的结构与编制要求统计表通常有标题、标目、线条、数字和备注五部分构成,如表2-1。其中,备注并非每个统计表的必要组成部分,确有必要时列出。表2-12023年某地居民慢性病及危险因素调查吸烟情况性别调查人数*吸烟人数吸烟率(%)男1134438.9女17721.1合计2904615.9注:统计来源为2023年某地居民慢性病及危险因素调查数据节选(下同)一、统计表的结构与编制要求1.标题标题置于表的正上方,简明扼要地概括表的主要内容,包括收集资料的时间、地点和主要事件。标题是统计表的总名称,不可缺少。如果表中所有数据指标的度量单位一致,可以将其标在标题后面,放于括号内。若同一篇报告或论文中有多个统计表时,标题前应加上序号。一、统计表的结构与编制要求2.标目标目用来说明表内数字涵义的文字,根据其位置与作用可分为横标目、纵标目和总标目。(1)横标目位于表的左侧,用于说明各行数字的意义,通常代表研究的对象,说明被研究事物的主要特征或分组。如表2-1的“男”和“女”。(2)纵标目位于表的上方,用于说明各列数字的意义,通常用以表达研究对象的各统计指标,如表2-1的“吸烟人数”、“吸烟率”。指标有单位时,注意标明指标的单位,统计学符号使用要规范、准确。(3)总标目必要时,可在横标目和纵标目上冠以总标目,如表2-1中的“性别”作为横标目的总标目。一、统计表的结构与编制要求3.线条统计表内的线条不宜过多,通常仅包括3条基本线,分别是顶线、底线和纵标目下的分割线。部分表格可再用横线将合计分隔开,或用横线将两重纵标目分隔开。统计表只使用横线,不允许使用竖线和斜线。4.数字表内数字必须准确无误,用阿拉伯数字表示。同一指标的小数位数要一致,并且位次对齐。数字为0者用“0”表示,无数字用“—”表示,数字暂缺或未记录用“…”表示,表内不留空格。一、统计表的结构与编制要求5.备注它不属于统计表固有的组成部分。表中数据区一般不插入文字或其他说明,若需对表中某个指标或数据进行说明或解释,应在其右上方用“*”号等符号标出,在统计表下方用文字说明。二、统计表的种类统计表按分组标志多少可分成简单表和复合表。1.简单表只按单一变量分组,由一组横标目和一组纵标目组成,如表2-1,仅按性别分组,可以比较不同性别居民吸烟率。2.复合表将两个或两个以上变量结合起来分组,即由一组横标目和两组或两组以上纵标目结合起来分组形成的表格形式,如表2-2中将性别和年龄分组结合起来分组,可以分析不同性别、不同年龄组的居民吸烟率。

表2-22023年某地不同性别、不同年龄居民的吸烟情况年龄男女调查人数吸烟人数吸烟率(%)调查人数吸烟人数吸烟率(%)18~13215.4

3013.230~201050.0

3500.040~231147.8

2700.050~23834.8

3700.060~23834.8

3000.070~11545.5

1715.9合计1134438.9

17721.1三、统计表的编制原则1.重点突出,简单明了统计表应简单明了,一切文字、数字和线条都尽量从简。一张统计表一般只表达一个中心内容,不要把过多的内容放在一个庞杂的大表里,可以用多个表格表达不同指标和内容。2.主谓分明,层次清楚统计表由左向右读,可构成完整的一句话。通常主语放在表的左边,作为横标目;宾语放在右边,作为纵标目。纵横标目不能颠倒。3.数据准确,格式规范表内数据准确可靠,确保正确无误;格式规范,文字和线条从简。第二节

统计图一、统计图的结构统计图没有统一的格式,大部分统计图通常由标题、图域、标目、刻度和图例5个部分组成。1.标题高度概括统计图,简明扼要地说明资料的时间、地点和主要内容,一般位于图的正下方。若同一篇报告或论文中有多个统计图时,标题前应加上序号。2.图域即制图空间,是整个统计图的视觉中心。除圆图外,一般用直角坐标系第一象限的位置表示图域,或者用长方形的框架表示。可用不同的线条(实线、虚线、点线)或颜色表示不同的事物。一、统计图的结构3.标目包括横标目和纵标目,分别表示横轴和纵轴数字刻度的意义,其中横标目内容通常为分组因素,纵标目一般为欲比较事物的统计指标,一般有度量衡单位。4.图例对图中不同线条、颜色或图案代表的指标进行说明。图例通常放在图域右上角或者横标目与标题之间的居中位置。5.刻度即横轴和纵轴上的刻度单位。刻度可在内侧或外侧,其数值按从小到大的顺序,横轴由左到右,纵轴由下向上。二、常用统计图及编制要求医学研究中常用统计图有直条图、圆图、百分条图、线图、直方图、散点图、箱式图和统计地图等。还有一些特殊的统计图,如Meta分析中的森林图,生存分析中的生存曲线图,聚类分析中的树形图。在实际应用中,应根据资料特征和分析目的选择适当的图形。二、常用统计图及编制要求

1.直条图直条图又称条图,用等宽直条的长短表示相互独立的统计指标的数值大小。主要适用于表示无连续关系、各自独立的统计指标之间的对比关系,指标可以是绝对数,也可以是相对数。按分组标志多少分为单式和复式两种。单式直条图具有1个统计指标和1个分组标志,见图2-4;复式直条图具有1个统计指标和2个分组标志,见图2-5。图2-42023年某地不同年龄居民的平均腰围二、常用统计图及编制要求

1.直条图直条图绘制一般以横轴表示分组标志,在横轴下方注明各直条所代表的事物名称;纵轴表示统计指标数值大小,注明标目和单位,尺度必须从“0”开始。各直条宽度须相等且间隔等距,间隔距离一般与直条等宽或为宽度的一半。各直条通常按长短顺序排列,也可按分组的自然顺序排列。图2-52023年某地不同性别不同年龄居民的平均腰围二、常用统计图及编制要求

2.构成图常用的构成图有圆图和百分条图,适合描述分类变量的各类别所占的构成比。圆图是以圆形总面积作为100%,将其分割成若干扇面表示事物内部各构成部分所占的比例;百分条图是以矩形总长度作为100%,将其分割成不同长度的段表示各构成的比例。各构成部分用不同的图案或颜色予以区分,并用图例加以说明。圆图见图2-6,百分条图见图2-7。图2-62023年某地居民慢性病及危险因素调查人群年龄构成比二、常用统计图及编制要求

2.构成图常用的构成图有圆图和百分条图,适合描述分类变量的各类别所占的构成比。圆图是以圆形总面积作为100%,将其分割成若干扇面表示事物内部各构成部分所占的比例;百分条图是以矩形总长度作为100%,将其分割成不同长度的段表示各构成的比例。各构成部分用不同的图案或颜色予以区分,并用图例加以说明。圆图见图2-6,百分条图见图2-7。图2-72023年某地居民慢性病及危险因素调查人群年龄构成比二、常用统计图及编制要求

3.线图用线段的升降来表示数值的变化,适用于描述某统计量随另一变量变化而变化的趋势,如常用于描述某个统计指标随时间变化而变化的趋势。通常横轴为时间或其他连续型数字变量,纵轴为统计指标。依据横轴、纵轴尺度类型,线图可分为普通线图和半对数线图。若横轴和纵轴均是算术尺度,称为普通线图,用于描述绝对变化趋势;若横轴是算数尺度,纵轴是对数尺度,称为半对数线图,用于描述相对变化趋势,特别适用于不同指标变化速度的比较。图2-82023年某地居民总胆固醇水平随年龄变化趋势二、常用统计图及编制要求

3.线图普通线图的纵轴一般以0作为起点,否则需要作特殊标记或说明,以防给读者错误印象。不同指标或组别可以用实线、虚线等不同的线段表示;相邻各测定值标记点间用短线连接,不应将折线修匀成光滑曲线。若只有一条折线,称为单式线图,见图2-8;若有两条及以上的线条,称为复式线图,见图2-9。图2-92023年某地不同性别居民总胆固醇水平随年龄变化趋势二、常用统计图及编制要求4.直方图直方图又称频数分布图,是以直方条的面积描述各组频数(或频率)的多少,面积的总和相当于各组频数(或频率)之和。直方图适用于描述连续型数值变量的频数分布类型和分布特征。横轴为数值变量,纵轴为频数或频率。绘制直方图时应注意纵轴刻度必须从“0”开始,而横轴刻度按实际范围制定。若各组段的组距不等时,要折合成等距后再绘图,即将频数除以组距得到单位组距的频数作为直方的高度,直方的宽为组距。如根据频数分布表2-3绘制成直方图2-10。二、常用统计图及编制要求图2-102023年某地居民空腹血糖(mmol/L)直方图频数组段()组中值(x)2.50~12.753.00~13.253.50~13.754.00~94.254.50~774.755.00~975.255.50~735.756.00~146.256.50~116.757.00~7.5067.25合计290—表2-32023年某地居民空腹血糖(mmol/L)的频数表二、常用统计图及编制要求

5.散点图散点图是用直角坐标系中各点的密集程度和趋势来表示两变量间的关系。例如:身高和体重的关系等,见图2-11。适用于双变量资料,均具有连续性变化的特征。绘制散点图时,横轴代表某一变量(自变量),纵轴代表另一变量(因变量);横轴与纵轴的起点,不一定从“0”开始。散点图是对两变量进行相关回归分析前初步判定两变量是否存在线性关系的必要步骤。图2-112023年某地居民身高与体重线性关系探索散点图二、常用统计图及编制要求

6.箱式图使用5个统计量反映原始数据的分布特征,用于比较两组或多组数据的平均水平和变异程度,主要适用于描述偏态分布的资料。对于箱式图,中间的横线表示中位数,箱体的长度表示四分位数间距,箱子两端分别是上四分位数和下四分位数,两端连线分别是最大值和最小值。箱式图特别适合两组或多组数据分布比较,见图2-12。图2-122023年某地不同性别居民糖耐量分布比较二、常用统计图及编制要求

7.统计地图用不同的颜色和花纹表示统计量的值在地理分布上的变化,适宜描述研究指标的地理分布。统计地图先绘制按行政区域或地理特征分区的地图,然后按各区域统计指标值分别标记不同颜色或花纹,并加上图例说明不同颜色或花纹的意义。注意颜色或花纹的选择最好与统计量数值增减的趋势一致,如颜色由浅入深代表统计量数值的增加。某年海南省人口增长率各地区分布情况三、统计图的绘制原则1.正确选择根据资料性质、分析目的选用适当的统计图。2.重点突出一个图通常只表示一个中心内容和主题。标题应说明资料的时间、地点和内容。3.准确美观可用不同的线条和颜色表达不同事物或者对象的统计量,并以图例方式加以说明,给人以清晰的印象。谢谢观看第三章

数值变量资料统计分析目

录第一节数值变量资料的频数分布01第二节数值变量资料的统计指标02第三节正态分布及其应用03学习目标知识目标能力目标素质目标了解频数分布的类型、频数分布表和频数分布图的用途,了解正态分布的应用;理解正态分布的概念;掌握描述集中趋势的统计指标、描述离散趋势的统计指标和正态曲线下面积分布规律。能编制频数表,绘制频数分布图;会计算医学数据的算数平均数、几何平均数、中位数和百分位数等描述集中趋势的统计指标;会计算医学数据的极差、方差、标准差和变异系数等描述离散趋势的统计指标;能绘制正态曲线和正态曲线下面积分布规律图。培养学生的统计思想;培养学生一切用数据说话、实事求是的科学精神;养成学生严谨、周密的理性思维习惯。数值变量资料的频数分布第一节案例3-1为保证人民群众健康,加强重大慢性病管理,预防慢性病,2023年某地开展居民慢性病及危险因素调研工作,随机抽取本地290名居民进行体检,得到体检数据见SPSS数据库。为开展心脑血管疾病的研究,现从数据库中取出290名居民的血清总胆固醇含量数据,见表3-1。对这组数据如何进行整理,可得到血清总胆固醇含量的分布情况?血清总胆固醇含量的分布情况如何?血清总胆固醇含量与该地心脑血管疾病的发病情况有无关系?不同性别、不同年龄的居民总胆固醇含量有无不同?表3-12023年某地290名居民血清总胆固醇含量(mmol/L)3.283.783.505.204.225.273.243.502.806.183.254.362.983.103.244.773.773.684.664.333.893.713.035.733.214.803.672.784.334.133.503.683.904.926.005.733.903.354.204.953.953.534.154.192.903.763.664.444.763.084.554.453.714.763.645.014.723.224.574.423.314.544.395.023.535.696.164.786.443.433.195.295.174.906.314.094.414.163.583.446.674.225.566.335.334.664.115.406.165.913.395.705.434.255.494.313.613.194.364.302.983.334.864.954.495.374.014.353.734.223.134.564.554.254.635.733.294.414.264.173.974.974.043.755.214.664.262.975.564.354.915.184.415.935.074.913.863.364.434.762.853.625.744.733.734.435.504.774.404.445.303.725.323.853.814.273.793.205.373.773.424.173.073.994.233.314.663.703.623.953.925.273.534.302.864.423.243.723.943.653.143.793.094.334.493.334.515.235.233.483.245.925.313.755.635.454.883.944.295.983.704.043.835.473.524.784.564.275.235.135.814.434.355.074.353.765.114.063.723.643.434.334.236.385.783.714.895.133.925.384.063.384.003.194.745.204.344.385.235.314.904.574.033.905.653.422.954.364.575.844.655.134.184.565.313.375.845.824.434.663.894.273.524.253.534.044.575.545.705.104.235.685.234.764.703.594.755.993.984.655.046.004.284.984.664.984.494.244.434.53当获得一组医学资料后,首先要判定资料的类型。案例3-1的研究指标为血清总胆固醇含量,它是有单位的连续变量,故该资料为数值变量资料。资料确定为数值变量资料后,先将其整理成频数表,作频数分布图,并判断其分布的类型;再根据资料的分布类型,用反映资料集中趋势和离散趋势的指标进行统计学描述;最后在对数值变量资料进行初步统计分析的基础上,进行假设检验、方差分析和相关性分析。一、数值变量资料的频数分布通过调查或实验所获得的原始数据通常是杂乱的,需要对原始资料进一步整理,使其更加条理化、系统化。如果观察例数较多,可以对数据进行分组,制作频数表或者频数分布图,显示数据的分布规律。所谓频数就是观察值的个数,频数表(frequencytable)即由组段和频数构成的表格。频数分布就是变量在其取值范围内各组段的分布情况。

编制案例3-1的频数表总胆固醇(nmol/L)划记频数频率(%)累计频率(%)2.7~正正134.484.483.1~正正正3110.6915.173.5~正正正正正正正正正4615.8631.033.9~正正正正正正正正正4716.2147.244.3~正正正正正正正正正正正5518.9766.214.7~正正正正正3211.0377.245.1~正正正正正3211.0388.285.5~正正正止196.5594.835.9~正正103.4598.286.3~6.7正51.72100.00合计-290100.00-表3-22023年某地290名居民血清总胆固醇含量(mmol/L)2.频数分布图的绘制将数值资料的频数表,以观察值为横轴,以各组频数为纵轴,每一组段画一直方,如下图所示,称为直方图。直方面积与该组段频数成正比。

2023年某地290名居民血清总胆固醇含量3.频数分布类型医学研究中常见数值变量资料的频数分布类型可以分为三种类型:(1)正态分布正态分布(normaldistribution)图形高峰位于中心,左右逐步下降,呈现左右对(如下图a)。(2)正偏态分布正偏态分布(skewedpositivelydistribution)图形高峰偏左侧,即频数主要集中在观察值较小的一端(如下图b)。(3)负偏态分布负偏态分布(skewednegativelydistribution)图形高峰偏右侧,即频数主要集中在观察值较大的一端(如下图c)。

常见的频数分布类型示意图4.频数分布表和频数分布图的用途(1)将原始数据以相对直观、有序的表格或图形的形式表达出来,以便揭示数值变量资料的分布类型;(2)揭示数值变量资料的两个重要特征,即集中趋势(centraltendency)和离散趋势(tendencyofdispersion)。如表3-2可见,150名病人尿酸含量向中央集中,以345~组段附近居多,为集中趋势;从中央到左右两侧,频数分布逐渐减少,为离散趋势。(3)便于发现资料中某些特大或特小的可疑值。数值变量资料的统计指标第二节

我们通过资料整理得到频数分布表或统计图形等,可以大致了解资料分布的形状和特征,但要对资料分布的特征和规律进行全面深入分析和定量研究,就需要了解反映资料分布特征不同侧面的统计指标。下面我们重点介绍数值变量资料分布的两个最重要数字特征:描述集中趋势的统计指标和描述离散趋势的统计指标。(一)描述集中趋势的统计指标描述集中趋势的指标也叫平均数(average),是一组用于描述数值变量资料平均水平或集中趋势的指标,又被称为变量分布的位置度量。常用的平均数有算数均数、几何均数和中位数等,其中应用最多的是算数均数。1.算术均数算术均数(arithmeticmean)简称为均数(mean),总体均数一般用希腊字母表示,样本均数用(读作x-bar)表示。适用于服从对称分布变量的平均水平描述,这时均数位于分布的中心,能够反映全部观察值的平均水平,特别是对服从正态分布或近似正态分布变量,均数具有非常重要的作用。均数的计算方法有直接法和加权法。(1)直接法对未经整理的原始数据,可采用直接法。直接法就是直接将所有原始观察值相加后,再除以总例数,其公式为:

式中

为观察值,

为样本含量,希腊字母

(读作sigma)为求和符号。例3-1

有10名30-40岁正常成年女子的血清甘油三酯(

)的测定值分别为1.36,2.11,1.70,0.72,1.65,1.54,1.35,1.15,2.70,1.42,求其算术均数。解:(2)加权法当观察例数较多,可以先将原始数据编制成频数分布表,再用加权法计算,其公式为:式中

为频数表资料中各组段的组中值(组段的中间值,即该组段下限和上限之和除以2),

为对应组段的频数。这里频数

起到“权重”的作用,即某个组频数越多,其权重就越大,其组中值对均数的影响也大,反之亦然。利用表3-2的资料,用加权法计算2023年某地290名居民血清总胆固醇含量的均数。

上述性质表明,均数是误差最小的总体数据的代表值,因此当数据分布为对称或近似对称时,均数是集中趋势的最好代表值。但是当数据分布的偏斜程度较大时,均数易受数据极端值的影响,不能很好地反映数据的集中趋势,此时需要考虑使用中位数等其它反映集中趋势的统计指标。

①②

例3-2有8份血清的某抗体效价分别为1:2,1:4,1:8,1:16,1:32,1:64,1:128,1:256,求8份血清的平均抗体效价。解:将各抗体效价的倒数代入公式得

其公式为:(2)加权法

当观察例数较多或者资料为频数表资料时,可采用加权法计算,例3-3某地34名8月龄儿童接种麻疹疫苗6个月后,血清血凝抑制抗体滴度的测定结果见下表,求平均滴度。解:按公式,几何均数为表3-4某地34名8月龄儿童接种麻疹疫苗后血清血凝抑制抗体滴度的计算表抗体滴度(1)频数()(2)滴度倒数(3)(4)(5)=(2)×(4)1:2.532.50.39791.19371:5.075.00.69904.89301:10.01410.01.000014.00001:20.0620.01.30107.80621:40.0440.01.60216.4084合计34()--34.3013()公式为:①几何均数常用于等比数列资料或对数正态分布资料。②所有观察值中不能有0。③观察值不能同时出现正值和负值,如果观察值全部为负值,则可以在计算时将负号去除,待得出结果后再冠以负号。④同一组资料求得的几何均数小于均数。(3)使用几何均数注意事项:

该10片药片直径的中位数为14.45。例3-4现从某药厂某日生产的药片中随机抽取10片,测得其直径分别为(单位:mm)

14.1,14.7,14.9,14.4,14.6,14.5,14.4,14.8,14.2,14.4

试计算其均值。解:因为

,为偶数,

所以

(2)频数表法当观察例数较多时,计算中位数和百分位数,可以先将数据编制成频数表,按照所分组段分别计算累计频数和累计频率,从累计频率中找到中位数或者某百分位数所在的组段,按照下列公式计算中位数或者百分位数:

例3-5为掌握某地区儿童体内铅的水平,该市妇幼保健所于2017年采取随机抽样的方式调查了该市308名6岁以下儿童的尿铅含量(

),现将资料编制成频数表(表3-5),试计算该资料的中位数及百分位数

。尿铅值()(1)例数(2)累计频数(3)累计频率(%)(4)=(3)/n0~27278.7725~548126.3050~9517657.1475~5523175.00100~3927087.66125~2129194.48150~1230398.38175~5308100.00合计308()--表3-52017年某市308名6岁以下儿童的尿铅含量频数表解:根据第(2)栏,计算出累计频数和累计频率,根据累计频率,找出中位数、

分别在50~、25~和150~三个组段中,代入公式得:③一般情况下,在例数较多时,分布在中间的百分位数较稳定,靠近两端的百分位数,仅在样本量足够大时才稳定,所以当样本量较小时不宜用靠近两端的百分位数来估计频数的分布范围。(3)中位数和百分位数的应用及注意事项①中位数和百分位数的计算对资料没有特殊的要求,所以任何资料均可以计算。描述数值变量集中趋势的指标有均数、几何均数、中位数等,在具体问题中,指标的选择要依据资料的分布类型。正态分布的资料选择均数,对数正态分布的资料选择几何均数,而偏态分布的资料则常选择中位数。②中位数只受到位置居中的变量值影响,与两端的极端值无关,因此,在对极端值的影响方面,中位数比均数具有较好的稳定性,但不如均数精确。(二)描述离散趋势的统计指标

描述数值变量资料离散趋势的指标也称为描述变异程度的统计指标,常用的有极差、四分位数间距、方差、标准差和变异系数等。

1.极差

极差反映变量分布的范围,极差越大,说明数据分布范围越大,离散程度越大,极差越小,说明数据分布范围越小,数据间离散程度越小。解:从集中趋势分析,上述三组资料的均数相等,即集中趋势相同,三个人的红细胞计数水平没有差别,但是我们容易看出,各组资料的离散程度是不同的,因此,需要计算三组资料极差,从而比较三组资料的离散程度。例3-6设甲、乙、丙三人,采某人的耳垂血,然后进行红细胞计数,每人数5个计数盘,结果见下表,试评价谁的计数更准确。根据极差定义,计算三组资料的极差得可以看出,丙的极差最小,说明丙的观察值比甲和乙的观察值更集中;甲的极差最大,说明甲的观察值比乙和丙的观察值更分散。观察者第一次第二次第三次第四次第五次甲4.44.65.05.45.65.0乙4.84.95.05.15.25.0丙4.94.95.05.15.15.0

四分位数间距(quartilerange)用

表示,就是上四分位数与下四分位数之差,即

。对来说,有25%的观察值大于它,称为上四分位数,记为

;对来说,有25%的观察值小于它,称为下四分位数,记为

,故有

2.四分位数间距四分位数间距反映了中间50%数据的离散程度,其数值越小,说明中间数据越集中,数值越大,说明中间数据越分散,它具有不受极端值影响的特点,在一定程度上克服了用极差描述离散程度的不足,但它只考虑中间50%数据的变异度,未考虑到所有数据的变异度。四分位数间距常与中位数联用描述偏态分布资料的特征。

3.方差

方差的大小反映所有观察值的变异情况,方差越大,观察值的变异度越大,即离散程度越大。方差适合于描述对称分布,尤其是正态分布资料的离散趋势。

4.标准差(2)标准差的用途①反映一组计量资料的离散程度,标准差越大,变量值分布越分散,均数的代表性越差,反之亦然。②用于计算变异系数和标准误。③结合均数与正态分布的规律,估计参考值范围。对频数表资料用加权法计算标准差的公式可以写成:

变异系数是无量纲的相对变异性的统计量,其大小反映了数据偏离其均值的相对离散程度。在比较不同总体,特别是不同量纲或者均数相差较大的两组数据的离散程度时,通常不能用方差、标准差等变异性统计量,而应该用变异系数。5.变异系数例3-7现有某高职学院刚入学的男大学生100人,测得其身高的均值为171.5cm,标准差为8.68cm;体重的均值为65.34kg,标准差为5.62kg,试比较身高与体重的变异程度。解:由于身高和体重的量纲不同,故不能直接由标准差比较其离散程度,而应该由变异系数比较其相对离散程度。可见,该学院男大学生体重的相对变异较大,或者说身高比体重分布相对更集中。描述数值变量离散趋势的指标有极差、四分位数间距、方差、标准差、变异系数等,但指标的选择要依据资料的分布类型。正态分布的资料常选择标准差,偏态分布的资料选择极差和四分位数间距,而不同性质和度量衡单位不同的资料之间的比较则常选择变异系数。正态分布及其应用第三节1.正态分布正态分布(normaldistributioncurve)是统计学中最重要的连续型分布之一,也是医学研究中常见的资料分布,是统计学原理的基础,许多统计学方法都依赖于正态分布。正态分布是数理统计中发展最为完善的一种分布,许多非正态分布的资料,当观察例数足够多时,也可以用正态分布作为它的极限分布形式。有时也将一些非正态分布资料通过数理转化为正态分布来处理。正态分布的曲线是以均数为中心,中间高,两边逐渐降低,左右完全对称的钟形曲线,曲线两端越来越接近横轴,但永远不会与横轴相交。

正态分布曲线的特点:(1)关于

对称。(2)在

处取得该概率密度函数的最大值,在

处有拐点,表现为钟形曲线。(3)曲线与横轴之间的面积为1。(4)

为曲线的位置参数,决定曲线在横轴上的位置,

增大,曲线沿横轴向右移;反之

减小,曲线沿横轴向左移。如右图所示。(5)

为曲线的形状参数,决定曲线的形状,当

恒定时,

越大,数据越分散,曲线越“矮胖”;

越小,数据越集中,曲线越“瘦高”。如右图所示。

正态分布曲线位置、形状与、关系示意图2.正态曲线下面积分布规律正态曲线下面积分布有一定的规律性,如下图所示:(1)正态曲线与横轴间所夹面积恒等于1或100%。(2)以直线为

对称轴,

范围内曲线下的面积相等,各占50%。(3)区间

的面积为68.27%。(4)区间

的面积为95%。(5)区间

的面积为99%。为了应用方便,对于任何一个服从均数为

,标准差为

的正态分布变量

,可以通过变量的标准化变换

,转化为均数为0,标准差为1的标准正态分布

。也就是将正态分布曲线的原点移动到0的位置,并使新的坐标的横轴尺度以

为单位。

的概率密度函数为:

标准正态分布曲线如下图所示:正态分布标准正态分布面积或概率(%)标准正态分布曲线下面积的规律与正态分布相似,具体如下:

医学参考值范围(referencerange)也称为正常值范围(normalrange),是“正常人”的解刨、生理生化等指标的波动范围,在临床上用作判定正常或异常的参考标准。所谓“正常人”不单纯指机体所有器官系统功能和器质均正常的人,也包括排除了可能影响所研究指标的疾病或因素的人,即符合特定正常标准的人群。(2)制定医学参考值范围。

3.正态分布的应用

(1)估计变量值的频数分布。

在正态分布中,均数加减一定倍数的标准差范围内包含一定比例的个体数。对于服从正态分布的指标,均可先作标准化转换,再借助标准正态分布曲线下的面积,估计任意范围内的频数比例。①确定一批样本含量足够大(至少在100例以上)的“正常人”。制定医学参考值范围的步骤:②根据研究目的和使用要求选用适当的百分界值,如95%或99%,常用95%。③根据指标的实际用途确定单侧或双侧界值,如红细胞计数过高或过低皆属不正常,需确定双侧界值;尿铅过高属不正常,需确定单侧上界;肺活量过低属不正常,需确定单侧下界。④根据资料的分布类型,选择适当的估计方法确定医学参考值范围:如资料为正态分布、近似正态分布或者经变量变换能转为正态分布,选用正态分布法;若资料不符合正态分布法的条件,则选用百分位数法。以制定95%的参考值范围为例,正态分布法、对数正态分布法和百分位数法的适用对象和界限值的计算公式见下表:三种参考值范围估计方法的适用对象和95%参考范围的计算方法适用对象双侧界限值单侧上限单侧下限正态分布法正态分布或者近似正态分布资料对数正态分布法对数正态或近似对数正态分布资料百分位数法非对称分布的资料解:因血红蛋白过高、过低均为异常,所以按双侧估计95%医学参考值范围该地健康女性血红蛋白的95%参考值范围为94.41~137.9()。例3-8调查某地120名健康女性血红蛋白,直方图显示,其分布近似于正态分布,117.4(),10.2(),试估计该地健康女性血红蛋白的95%参考值范围。(3)质量控制实验中的检测误差一般服从正态分布,为了控制实验中的检测误差,常以

作为上下警戒线,以

作为上下控制线。(4)正态分布理论的其它应用多种统计方法均要求分析的指标服从正态分布或近似正态分布。对于非正态分布的资料,可以先进行变量变换,使转换后的资料服从正态分布,然后就可按正态分布的方法进行统计处理。谢谢观看第四章定量资料的统计学推断目

录第一节

均数的抽样误差与标准误01第二节t分布02第三节总体均数置信区间估计03学习目标知识目标能力目标素质目标能进行总体均数的区间估计;根据不同的设计类型,选择对应的统计学方法进行统计推断。培养缜密的统计学思维,提升数据分析的能力。掌握均数抽样误差和标准误概念、计算公式和应用;t分布的特征;可信区间的概念及计算;假设检验的步骤及注意事项;t检验、z检验和方差分析的运用条件。第一节

均数的抽样误差与标准误一、均数的抽样误差

如要了解某地7岁男童身高的总体均数,抽得120名7岁男童,求出样本均数=119.43cm,估计该地岁男童身高的总体均数μ,由于抽样误差≠μ,与μ的差别称均数的抽样误差。

医学研究中常常从总体中随机抽取样本进行研究,目的是由样本的信息去推断总体。通常情况下样本均数不可能与总体均数μ正好相等,这种由个体变异产生的,随机抽样引起的样本均数与样本均数之间、样本均数与总体均数之间的差异称为抽样误差(samplingerror)。一、均数的标准误

中心极限定理:样本量n足够大(一般n≥100)的情况下,无论原始变量是什么分布,样本均数的分布近似正态分布。从均数为μ,标准差为σ的正态总体中抽取样本例数为n的样本,样本均数的均数仍等于原总体均数μ,样本均数的标准差为

,即标准误。标准误的计算:

标准误的计算:

某地成年男子红细胞数的抽样调查,n=144人,=5.38×1012/L,s=0.44×1012/L,求其标准误。标准误的应用:

1.反映抽样误差的大小,衡量样本均数的可靠性。均数标准误越小,说明样本均数间的离散程度越小,用样本均数估计总体均数越可靠;反之,均数标准误越大,说明样本均数间的离散程度越大,用样本均数估计总体均数的可靠性越小。2.进行总体均数的区间估计。3.用于均数的假设检验。第二节

t分布一、t分布的概念

对正态变量X采用z变换,z=(X-μ)/σ,则一般的正态分布N(μ,σ2)即变换为标准正态分布N(0,1)。样本均数服从正态分布,同样可作正态变量的z变换,即:z=(-μ)/一、t分布的概念

实际工作中由于理论的标准误往往未知,而用样本的标准误作为的估计值,此时就不是z变换而是t变换了,即t=(-μ)/

t分布于1908年由英国统计学家W.S.Gosset以“student”笔名发表,故又称studentt分布(Students’t-distribution)。t分布示意图二、t分布曲线的特征1.以0为中心,左右对称的单峰分布;2.t分布曲线是一簇曲线,其形态与自由度ν的大小有关。自由度ν越小,则t值越分散,曲线越低平;自由度ν逐渐增大时,t分布逐渐逼近z分布(标准正态分布),当ν趋近于∞时,t分布即为z分布。三、t分布曲线下的面积分布规律1.t分布曲线的两端尾部面积表示的含义

表示在随机抽样中获得的t值达到及超越横轴上该t值的概率,即P值。2.t分布曲线的两端尾部面积的表示方法

与正态分布类似,t分布曲线与横轴所包含的面积定义为1(100%),在横轴上0的左右截取一个范围,同样可以得到范围所夹面积与总面积的比值,以及范围外所夹的面积与总面积的比值,也就是t值落在范围内与范围外的概率。将范围外的面积称为尾部面积,并定义为α,则范围内为1-α。三、t分布曲线下的面积分布规律

当自由度为ν的t分布曲线下,双侧尾部合计面积为指定值α时,横轴上相应的t界值记为tα/2,ν;单侧尾部面积为指定值α时,则横轴上相应的t界值记为tα,ν。如单侧α=0.05,ν=9可查得tα,ν=1.833表示p(t≥1.833)=0.05由t分布的对称性p(t≤-1.833)=0.05第三节

总体均数置信区间的估计第三节

总体均数可信区间的估计

参数估计(parameterestimation)是指用样本统计量估计总体参数,是统计推断的一个重要内容。估计总体均数的方法有两种,即点值估计(pointestimation)和区间估计(intervalestimation)。参数估计

点值估计:用相应样本统计量直接作为其总体参数的估计值。其方法简单,但未考虑抽样误差的影响,无法评价参数估计的准确度,并不常用。区间估计:按预先给定的概率(1-α)估计总体参数所在范围,由此估计的区间称为总体参数1-α可信区间(CI),亦称置信区间。1-α称为可信度或置信度,常取95%或99%。可信区间的下限记为CL,上限记为CU。总体均数可信区间的计算

1.总体标准差σ已知95%的可信区间

总体标准差σ未知但样本含量n较大(n≥100)95%的可信区间总体标准差σ未知但样本含量n较小95%的可信区间例

某地健康男子中抽得26人的样本,求得血红蛋白均数为13.25g/dl,标准差为0.7g/dl,试估计该地健康男子血红蛋白总体均数的95%可信区间。

可信区间应用的注意事项

1.标准误越小,估计总体均数可信区间的范围也越窄,说明样本均数与总体均数越接近,对总体均数的估计也越精确;反之,标准误越大,估计总体均数可信区间的范围也越宽,说明样本均数距总体均数越远,对总体均数的估计也越差。可信区间应用的注意事项

2.可信区间具有两个要素:一是准确度,即可信区间包含μ的概率(1-α)的大小,一般而言概率越大,估计的准确度越高,反之越低。二是精密度,反映区间的长度,区间的长度越小,估计的精密度越好,反之越差。在样本量一定的情况下,二者是相互矛盾的,若考虑提高准确度,则区间变宽,精确度下降。3.标准误和标准差虽然都是说明离散程度的指标,但两者所代表的意义、计算方法及应用范围是不一样的。谢谢观看医学统计学高职高专“十四五”医学检验技术专业系列教材第四章定量资料的统计学推断李京山东第二医科大学目

录第四节

假设检验的基本思想与步骤04第五节t检验05第六节

方差分析06学习目标知识目标能力目标素质目标能够描述假设检验、方差分析的基本思想与步骤根据不同设计类型的资料能够合理运用t检验、方差分析解决问题。可以使用软件对实际资料进行t检验、方差分析具备统计学的思维,结合临床检验工作开展科研设计第四节

假设检验的基本思想与步骤一、假设检验的基本思想

由于随机变异和抽样误差的存在,从某一总体中随机抽得的样本,所得的样本均数与该总体均数往往不同。为了准确判断出某一样本是否来自总体均数,需要依赖于统计推断方法中另一个重要内容——假设检验(hypothesistest)。

假设检验又称为显著性检验(significancetest)。是通过利用小概率反证法的思想,从问题的对立面(H0)出发间接判断要解决的问题(H1)是否成立。即在假设H0成立的条件下计算检验统计量(teststatistic),然后根据获得的P值(P-value)来判断。

某社区医生测量40名服用降血脂药物的人群血尿酸平均含量(样本均数)为319.40μmol/L,标准差为15.76μmol/L,正常人血中尿酸的含量(总体均数μ0)为350μmol/L。

试问差异可由什么引起的?

(1)该样本来自总体均数为μ0的总体,其差异仅仅由于抽样误差引起,即该样本属于正常健康男性。

(2)该样本不是来自总体均数为μ0的总体,而是来自另外一个总体(肾功能受损高尿酸血症人群),其差异是由服用药物(本质差别)所致。统计上就是推断样本均数的差别,由(1)造成的概率大小,如果由1造成的概率很大(如P≤0.05),则认为差别无统计意义。如果由(1)造成的概率很小(如P>0.05)则认为样本均数的差别不是由(1)造成,而是(2)造成的,则认为差别有统计意义。

假设检验的基本思想包括小概率思想和反证法思想。

(1)小概率思想:是指小概率事件(发生的概率P≤0.01或P≤0.05)在一次试验中基本上不会发生。

(2)反证法思想:是指先提出假设(一般称之为原假设,记为H0),再用适当的统计推断方法计算检验统计量,确定假设成立的可能性大小。如果是小概率事件,则认为假设不成立,因此拒绝H0;反之,如果不是小概率事件,则还不能认为假设不成立,于是不拒绝H0。

虽然用了反证思想,但假设检验不是证明的过程,因为假设检验的结论是根据概率的大小而得出的,具有概率性。二、假设检验的基本步骤(1)建立检验假设,确定检验水准

首先建立检验假设,一是无效假设(nullhypothesis)或常称零假设,用H0表示;二是备择假设(alternativehypothesis)或常称对立假设,用H1表示。

规定检验水准a=0.05(2)计算检验统计量

可根据资料的类型、设计方案、统计推断目的、方法的适用条件选择检验统计量。(3)确定P值,作出推断结论

当P≤a时,拒绝H0,接受H1,差异有统计学意义(统计结论),可认为两总体不同或不等(专业结论);反之当P>a时,按所取水准,不拒绝H0,差异无统计学意义,尚不能认为两总体不同或不等。三、假设检验应注意的问题1.两类错误

对于任何一次假设检验,不论其结论是拒绝H0,还是接受H0,都有判断错误的可能,即可能犯两类错误。实际情况检验结果拒绝H0不拒绝H0H0为真第I类错误(a)结论正确(1-a)H0不真结论正确(1-β)第II类错误(β)I型错误:“实际无差别,但下了有差别的结论”,即拒绝实际上成立的H0,这类“弃真”错误称为假阳性错误。犯这种错误的概率是a(其值等于检验水准)。II型错误:“实际有差别,但下了不拒绝H0的结论”,即不拒绝实际上不成立的H0,这类“存伪”错误称为假阴性错误。犯这种错误的概率是β(其值未知)。2.单、双侧检验的选择

在进行假设检验时,选择单侧检验还是双侧检验取决于研究者的研究目的和假设方向。单侧检验适用于研究者只对某个方向的假设感兴趣的情况,而双侧检验则适用于对两个方向的假设都感兴趣或没有先验偏好的情况。如果相关专业知识或经验支持选择单侧检验就进行单侧检验,否则还是应该进行较为保守的双侧检验,因为如果选择单侧检验属于不当,所得的P值将小于实际P值,会增大I型错误的概率。3.提高检验效能的途径

当假设检验结果为“不拒绝”原假设H0时,仅仅意味着样本数据与原假设不存在矛盾,并不意味着原假设应该被接受。这种情况很可能是由于样本太小等原因使得检验效能1-β不足,发现不了真实存在的差别,研究者切忌因此而放弃原有的观点,得出组间“无差别”的结论。可以通过加大样本含量降低二类错误的概率β,提高检验效能1-β。当然,也可以适当增大一类错误的概率a,以减少二类错误的概率β,从而达到提高检验效能1-β的目的,检验效能还与样本量的大小、H0与H1的差异及标准差大小有关。4.有统计学意义不等于有实际意义

有无统计学意义是目前作统计结论时公认的一个统计学术语。只能说明这样大的差别由抽样误差造成可能性的大小,若可能性很小,如P≤0.05为有统计学意义;若可能性较大,如P>0.05为无统计学意义,这些都是统计结论,并不等于差别有无实际的专业意义。5.结论不能绝对化

由于统计结论具有概率性质,因此不要作出“肯定……”“一定……”的结论。假设检验的结论是根据P值大小和检验水准做出的,冒着犯错误的风险。拒绝H0,可能犯I型错误;不拒绝H0,可能犯II型错误。无论哪种错误,假设检验都不可能将其风险降为0。6.假设检验和置信区间的关系

假设检验的结论可以与置信区间的计算结果相呼应,即当假设检验拒绝原假设时,置信区间不包含假设的值;当假设检验未能拒绝原假设时,置信区间包含假设的值。当检验假设结论为拒绝H0时,可以报告确切的P值,能较为准确的说明检验结论的概率保证或犯I型错误的大小,而置信区间只能在预先给定的置信度95%或99%上进行推断。因此,假设检验和置信区间可以相互印证,帮助我们更全面地理解总体参数的估计和推断。第五节

t检验一、单样本t检验

单样本t检验(onesample/groupt-test)又称样本均数与总体均数比较的t检验,即已知的样本均数代表(未知总体均数µ)和已知总体均数µ0的比较,其目的是推断该样本是否来自某已知总体,或该样本的总体均数µ与已知总体的均数µ0是否相等。

其检验统计量公式为:二、配对样本均数检验

配对样本t检验,也称成对t检验(Paired/matchedt-test)适用于配对设计中两个连续变量均值间的比较。配对设计中数据都是成对出现,每个“对子”有两个数据。在科学研究中常见的配对设计主要有以下情形:(1)异源配对。每个“对子”来自两个具有某种相似特征的不同受试对象。(2)同源配对。每个“对子”来自同一个受试对象。

配对t检验是对每对数据的差值

进行检验。理论上,若两处理无差别,则差值d的总体均数

应为0。因此可将配对设计的均数比较看成是样本均数

与总体均数=0的比较。

其检验统计量公式为:三、两独立样本均数检验

两样本t检验又称成组t检验(two-samPle/grouPt-test),适用于完全随机设计两样本均数的比较。比较的目的是推断他们各自所代表的总体均数是否相等。当两个样本含量较小[n1≤50或(和)n2≤50)],且均来自正态总体,总体方差相等。

其检验统计量公式为:

四、两样本均数Z检验

前面提到,当两个样本含量较小[n1≤50或(和)n2≤50)],且均来自正态总体,总体方差相等时,采用两样本t检验。当两个样本含量较大(均大于50)时,其分布符合近似正态分布,可以采用z检验。其检验统计量公式为:

第六节

方差分析

方差分析(analysisofvariance,ANOVA)又称变异度分析,由英国统计学家R.A.Fisher首先提出,又称为F检验,它是检验两个或多个样本均数间差别显著性的方法,还可用于两个或多个研究因素的交互作用以及回归方程的线性假设检验等。它是一种非参数统计方法,通常用于推断多个总体均数是否相等。

方差分析需要满足以下基本假设和条件:

(1)独立观测性

(2)正态分布假设

(3)方差齐性方差分析用途:

(1)用于多个样本均数(或两个)的比较

(2)用于分析两个或多个研究因素间的交互作用

(3)用于方差齐性检验

(4)用于方程的拟合度检验一、方差分析的基本思想

方差分析的核心在于比较组间差异与组内差异。即将测量数据的总变异(即总方差)按照变异来源分为处理(组间)效应和误差(组内)效应,计算处理因素导致的变异与随机变异之间的比值F,如果F值接近1,则可以认为假设处理因素不起作用;如果F值远远大于1,且大于等于F界值表时,可认为处理因素有作用。

总变异:即每个变量值与其总均数的离均差平方和来表示,其大小与总的自由度有关。ν总=N-1组间变异:即每个实验组间的变异程度,即每个组的平均数和总均数的离均差平方和。它反映处理因素对实验效应的影响,同时也包括随机误差。ν组间=k-1组内变异:各组内个体间的变异程度,即每一组内的各个变量值与该组的均数之间的离均差平方和。仅反映随机误差。ν总=ν组间+ν组内三种变异存在以下关系:总变异为组间变异和误差变异之和。SS总=SS组间+SS组内ν总=ν组间+ν组内总变异、组间变异和误差变异均与各自的自由度有关,为消除样本量或组数对变异的影响,用变异程度除以自由度,得到均方(meansquareMS)其反映平均变异的大小。统计量F就是组间均方与组内均方的比值。若各组均数相同,则F等于1,说明仅由抽样误差影响,若各组均数不等,F大于1,说明有处理因素效应和抽样误差共同影响。二、方差分析的步骤(1)建立检验假设,确定检验水准

首先建立检验假设,一是无效假设(nullhypothesis)或常称零假设,用H0表示;二是备择假设(alternativehypothesis)或常称对立假设,用H1表示。

规定检验水准a=0.05,在实际工作中常取=0.05。(2)计算检验统计量F值

(3)确定P值,作出推断结论

以ν组间为ν1,ν组内为ν2查F界值表,判断F与F0.05,(ν1,ν2),进而判断P的大小,故按照a=0.05的检验水准,若P≤0.05,则拒绝H0,接受H1,差别具有统计学意义,若P>0.05,则接受H0,拒绝H1,差别无统计学意义。

变异来源离均差平方和SS自由度ν均方MSF总变异N-1

组间(处理组间)k-1SS组间/ν组间MS组间/MS组内组内(误差)SS总-SS组间N-kSS组内/ν组内三、完全随机设计资料的方差分析

完全随机设计资料的方差分析也称为单因素方差分析(one-wayanalysisofvariance)。研究的处理因素只有一个,采用完全随机化的方法,将全部受试对象随机分配到几个处理组中去,各组分别接受不同的处理水平,然后通过各组均数之间的比较,评价该处理所引起的变异是否具有统计学意义。

四、随机区组设计资料的方差分析

随机区组设计也称为配伍组设计,亦称为两因素方差分析(two-wayanalysisofvariance)。在设计中将性质相同或相近的受试对象归为一个区组,每个区组的例数就是处理组数;再按随机化的原则将每个对象分到不同处理组。随机区组设计将数据按照处理组和区组两个方向进行分组,故总体变异可拆分为处理组间变异、区组间变异和随机误差(含个体差异和随机测量误差)。可以确定处理组之间是否存在显著差异;区组之间是否存在显著差异以及处理和区组之间是否存在交互作用。五、多样本均数的两两比较

当P≤0.05,按a=0.05水准,拒绝H0,接受H1,说明多个总体均数不全相等。但不能得到三组总体均数全部不等,还是其中有某两个总体均数不等的结论。若要说明多个总体均数中哪些总体均数不等需进一步作两两比较。两两比较的方法很多,有多重比较、线性对比、正交对比等。

均数间两两比较——q检验亦称SNK检验(Student-Newman-Keuls)。常用于在研究设计阶段未考虑到是否进行均数的两两比较,但假设检验得出多个总体均数不全相等的结果,进行多个均数间的两两比较的探索性研究;需满足各组样本均来自于正态分布的总体;各组样本是方差齐的和因变量为连续数值型变量。

其公式为:

多个实验组和一个对照组比较——LSD-t检验即最小显著性差异(leastsignificantdifference)t检验,通常用于确定两个或多个组的均值之间是否存在显著差异。适用于一对或几对在专业上有特殊意义的样本均数间的比较,且满足各组样本均来自于正态分布的总体;各组样本是方差齐的和因变量为连续数值型变量。

其公式为:

谢谢观看第五章定性资料的统计描述第一节

常用相对数01第二节

医学常用的相对数指标02第三节

率的标准化03目

录学习目标知识目标能力目标素质目标掌握相对数的概念、计算方法和使用的注意事项;熟悉率的标准化概念和计算方法。能够运用相对数的理论对医学中的问题进行统计分析。培养对数据的初步处理能力,提高医学科研素养。第一节

常用相对数

一、率

二、构成比

三、相对比

绝对数是定性资料各类别的频数,反映事物在某时某地的实际水平。

相对数(relativenumber)是两个有关联的统计指标之比。常用相对数指标有率、构成比和相对比。一、率率(rate)是说明某现象发生频率或强度大小的指标。

计算公式:

比例基数

用“K”表示,可以是百分率(%)、千分率(‰)、万分率(1/万)、十万分率(1/10万)总体率用π表示,样本率用p表示。二、构成比构成比(constituentratio)表示某事物内部各组成部分在整体中所占的比重,常以百分数表示,计算公式:构成比的特点:事物内部某一部分所占比重增减,会影响其他部分随之减增,因为事物内部各构成比的总和是100%。

三、相对比相对比(relativeratio)是两个有关联的指标A与B之比,用来描述两者的对比水平,常以倍数或百分数表示,说明A是B的几倍或百分之几。计算公式:A与B两个指标:可

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论