版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第二章 计量资料的统计描述Descriptions of Measurement Data,Content,Frequency distribution Description of central tendency Measures of dispersion Normal distribution Range of reference value,Statistics lets you analyze a set of data and make conclusions that can be generalized beyond that set of data.,一、频数分布表(fre
2、quency table) 例2.1 某地150名正常成年男子红细胞数。 例2-2 某单位99年的职工体检资料中获得101名正常成年女子的血清总胆固醇的测量结果。 试编制频数分布表。,第一节 频数分布,表2.1 某地150名正常成年男子红细胞数(1012/L),例2-2 用直接法计算例2-1某单位101名正常成年女子的血清总胆固醇的均数。,频数分布表 (frequency table) 频数:在一批样本中,相同情形出现的次数称为该情形 的频数。,用途:1. 用于描述资料的分布特征. 2发现一些特大或特小的可疑值 3便于进一步做统计分析和处理,1. 频数表的编制步骤,(1)求极差(range):
3、即最大值与最小值之差 例2.1极差: R=5.883.79=2.09(1012/L) (2) 决定组数、组段和组距:根据研究目的和样本含量n确定。组距=极差/组数,通常分10-15个组,为方便计,组距参考极差的十分之一, 再略加调整。 本例i= R /10=2.09/10=0.2090.2。,(3) 列出组段:第一组段的下限略小于最小值,最后一个组段上限必须包含最大值,其它组段上限值忽略。 (4) 划记计数:用划记法将所有数据归纳到各组段,得到各组段的频数。,二、频数分布图,三、频数表和频数分布图用途,1描述频数分布的类型 (1)对称分布 :若各组段的频数以频数最多组段为中心左右两侧大体对称,
4、就认为该资料是对称分布,(2)偏态分布 : 1)右偏态分布(skewed to the right distribution)也称正偏态分布:右侧的组段数多于左侧的组段数,频数向右侧拖尾,2)左偏态分布 (skewed to the left distribution)也称负偏态分布:左侧的组段数多于右侧的组段数,频数向左侧拖尾,2. 描述计量资料分布的集中趋势和离散趋势,集中趋势(central tendency):变量值集中位置。本例在组段“4.7”。 平均水平指标 离散趋势(tendency of dispersion):变量值围绕集中位置的分布情况。离“中心”位置越远,频数越小;且围绕
5、“中心”左右对称。 变异水平指标,第二节 集中趋势的描述,计量资料(定量资料、数值变量资料) 总体:有限或无限个变量值 样本:从总体随机抽取的n个变量值: X1, X2, X3, Xn n为样本例数(样本含量、样本大小、样 本含量),一、描述集中趋势的特征数(平均指标),总称为平均数(average),反映资料的集中趋势( central tendency )。常用的有:1. 算术均数(arithmetic mean),简称均数 (mean)2. 几何均数(geometric mean)3. 中位数 (median),1 算术均数:简称均数(Mean) The mean is the aver
6、age. Add up the values, and divide by the number of values. 可用于反映一组呈对称分布的变量值在数量上的平均水平或者说是集中位置的特征值。,符号:总体 ; 样本适用条件:资料呈对称分布,尤其是正态或近似正态。计算: (1)直接法 (2)频数表法,1 均数(mean),为求和符号,读成sigma;f :“权数”,例:计算4,4,4,6,6,8,8,8,10的 均数。,例2-2 用直接法计算例2-1某单位101名正常成年女 子的血清总胆固醇的均数。,计算101名正常成年女子的血总胆固醇的均数。,2 几何均数(geometric mean):
7、变量对数值的算术均数的反对数。 可用于反映一组经对数转换后呈对称分布的变量值在数量上的平均水平。 Compute the logarithm of all values, compute the mean of the logarithms, and then take the antilog. It is a better measure of central tendency when data follow a lognormal distribution (long tail).,2. 几何均数(geometric mean),几何均数的适用条件与实例,适用条件:呈倍数关系的等比资料或
8、对数正态分布(正偏态)资料;如抗体滴度资料,例 血清的抗体效价滴度的倒数分别为:10、100、1000、10000、100000,求几何均数。,此例的算术均数为22222,显然不能代表滴度的平均水平。对同一资料,几何均数均数,例 某地5例微丝蚴血症患者治疗七年后用间接荧光抗体试验测得其抗体滴度倒数分别为,10,20,40,40,160,求几何均数。,(2)加权法,公式:,例2-5 69例类风湿关节炎(RA)患者血清EBV-VCA-lgG抗体滴度的分布见表2-4第(1)、(2)栏,求其平均抗体滴度。,故例类风湿关节炎患者血清EBV-VCA-lgG抗体的平均滴度为:1:150.6。,3. 中位数(
9、median,Md),中位数 是将一批数据从小至大排列后位次居中的数据值,反映一批观察值在位次上的平均水平。 The median is the 50th percentile. Half the values are higher than the median, and half are lower. 适用条件:适合各种类型的资料。尤其适合于大样本偏态分布的资料;资料有不确定数值;资料分布不明等。,中位数计算公式与实例,先将观察值按从小到大顺序排列,再按以下公式计算:,特点:仅仅利用了中间的12个数据,例2-6 7名病人患某病的潜伏期分别为2, 3, 4, 5, 6, 9,16天,求其中位
10、数,本例n=7,为奇数 例2-7 8名患者食物中毒的潜伏期分别为1, 2, 2, 3, 5, 8, 15, 24小时,求其中位数。 本例n=8,为偶数,均数、中位数二者关系,正态分布时: 均数中位数 正偏态分布时:均数中位数 负偏态分布时:均数中位数,小结: 集中趋势的描述平均数,平均数:描述一组变量值的集中位置或平均水平的指标体系。 不同的分布使用不同的指标 (算术)均数:正态或近似正态或观察值相差不大的小样本资料 几何均数:对数正态分布或等比级数资料 中位数 :一般偏态分布(传染病发病的潜伏期),Example If your data are sampled from a Gaussia
11、n distribution, the mean, geometric mean and median all have similar values. But if the distribution is skewed, the values can differ a lot as this graph shows:,The graph shows one hundred values sampled from a population that follows a lognormal distribution. The left panel plots the data on a line
12、ar (ordinary) axis. Most of the data points are piled up at the bottom of the graph, where you cant really see them. The right panel plots the data with a logarithmic scale on the Y axis. On a log axis, the distribution appears symmetrical. The median and geometric mean are near the center of the da
13、ta cluster (on a log scale) but the mean is much higher, being pulled up by some very large values.,第三节 离散趋势的描述,例2-11 三组同龄男孩的身高值(cm) What do you find out?,描述离散趋势的特征数(变异指标),反映数据的离散度( Dispersion )。即个体观察值的变异(variation)程度。常用的指标有: 1. 极差(Range) (全距) 2. 百分位数与四分位数间距 Percentile and Quartile range 3. 方差 Varia
14、nce 4. 标准差Standard Deviation 5. 变异系数 Coefficient of Variation,例:设甲、乙、丙三人,采每人的耳垂血,然后红细胞计数,每人数5个计数盘,得结果如下(万/mm3),甲,乙,丙,1.极差(Range, R),120,40,20,意义:反映全部变量值的变 动范围。 优点:简便,如说明传染病 的最长、最短潜伏期等。 缺点:1. 只利用了两个极端值 2. n大,R也会大 3. 不稳定 适用范围:任何计量资料; 是参考变异指标,2.百分位数与四分位数间距 Percentile and quartile range,百分位数 :数据从小到大 排列;
15、在百分尺度下,所占百分比对应的值。记为Px。 四分位间距: QP75 P25,Px,What are percentiles? Percentiles are useful for giving the relative standing of an individual in a group. The 80th percentile is a value where youll find 80% of the values lower and 20% of the values higher. Percentiles are expressed in the same units as th
16、e data. The median is the 50th percentile.,Quartiles 四分位数: Quartiles divide the data into four groups, each containing an equal number of values. Quartiles are divided by the 25th, 50th, and 75th percentile. One quarter of the values are less than or equal to the 25th percentile. Three quarters of t
17、he values are less than or equal to the 75th percentile. Interquartile range 四分位数间距: The difference between the 75th and 25th percentile is called the interquartile range. It is a useful way to quantify scatter.,百分位数的应用,确定医学参考值范围 (reference range): 如95参考值范围P97.5P2.5; 表示有95正常个体的测量值在此范围。,3 方差与标准差,(1)
18、方差(variance)也称均方差(mean square deviation),样本观察值的离均差平方和的均值。表示一组数据的平均离散情况。反映一组数据的平均离散水平。 总体方差用 表示。 样本方差用 S2 表示。,样本方差为什么要除以(n1)?,数理统计证明,n代替N后,计算出的样本方差对总体方差的估计偏小。对于样本资料,对离均差平方和取平均时分母用n-1代替n。分母为n-1,称为自由度(能自由取值的变量的个数)。,(2) 标准差,标准差 (standard deviation)即方差的正平方根;其单位与原变量X的单位相同。,标准差的公式还可以写成 : 利用频数表计算标准差的公式为,标准差
19、的计算,Variance: The variance equals the SD squared, and therefore is expressed in the units of the data squared. Because these units are usually impossible to think about, most scientists avoid reporting the variance of data. Mathematicians like to think about variances because you can partition varia
20、nces into different components - the basis of ANOVA. In contrast, it is not correct to partition the SD into components. Leave variances to the mathematicians, and report and think only about standard deviations.,What is the SD? The standard deviation (SD) quantifies variability or scatter, and it is expressed in the same units as your data. If the data are sampled from
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 科研资源监管责任主体明确
- 山语合院秋季红叶禅意茶会活动方案
- 2026年鄺拼音说课稿模板英语
- 科研档案管理在医学科研诚信体系建设
- 小学阅读兴趣2025说课稿
- 术后监护室护理工作质量评价
- 九年级历史上册第8课改变世界面貌的蒸汽革命讲义北师大版
- 支原体肺炎的护理职业发展
- 中国中车2025年度可持续发展报告
- 神经内镜机器人辅助脑功能区手术的安全性评价
- 波动光学及医学应用-课件
- 不同水质与底质条件对沉水植物的生长影响差异研究的开题报告
- 一年级-民族团结教育主题班会
- 小动物常规临床检查皮肤
- 三好三维构造识图题库
- TCCUA 003-2019 金融信息科技服务外包风险管理能力成熟度评估规范
- 湖北省建筑工程施工统一用表(2023年版全套)
- 烟草专卖违法行为课件
- YY/T 0634-2022眼科仪器眼底照相机
- GB/T 3934-2003普通螺纹量规技术条件
- GB/T 28387.2-2012印刷机械和纸加工机械的设计及结构安全规则第2部分:印刷机、上光机和印前机械
评论
0/150
提交评论