




已阅读5页,还剩113页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
医学统计学 福医卫生统计系 林征 2014.9 第二章. 计量资料统计描述 Chapter II. Description of Measurement Data,1,第二章提纲,频数分布集中趋势描述离散趋势描述正态分布医学参考值范围的制定,2,3,统计描述,统计描述就是用适当的表格、图形、数量化的指标,表达数据的数量特征,揭示其分布的规律性统计描述分为:形象化描述(统计图表)建立对资料的初步印象;数值化的描述(统计指标)给出分布规律及具体数值,4,统计描述,统计描述的思路:,计算相应统计指标绘制合适统计图表,判断类型,获取资料,分类汇总相应统计指标绘制合适统计图表,5,例21:某医院用随机抽样方法检查了138名成年女子的红细胞数 ,其测量结果如下,杂乱的原始数据,6,理想的描述结果,7,如何得到上述理想的结果?,频数分布表,分组划计,原始资料,8,第一节.频数分布(图、表),频数分布(Frequency Distribution)指的是对总数据按某种标准进行分组,统计出各个组内所含个体的个数。我们把各个类分组及其相应的频数全部列出来就是“频数分布”通常人们用图与表的形式展现频数分布,通过频数分布可以了解数据的分布规律对于定量变量,据其数值取值特征又可分为连续型与离散型,9,离散型资料频数分布(图、表),离散型定量变量(discrete variable)通常是指取值不连续的定量变量,通常只能取数轴上的整数值例如受检次数、新生儿数、手术病人数等,离散型资料频数分布(图、表),分组除了最后一段外均有确切的上限与下限,某医院1123名产后出血孕妇的人流次数,11,离散型资料频数分布(图、表),连续型定量变量的频数分布,连续型定量变量(continuous variable)通常是指取值连续的定量变量,可以取数轴上的任意数值例如身高、体重、血压、血清胆固醇值等例21:某医院用随机抽样方法检查了138名成年女子的红细胞数(严格来说,红细胞数是离散型数据,因其取值单位过大1012/L,通常将其作为连续型看待),13,求极差R:R=max-min确定组数:组数的确定应以能够显示数据的分布特征和规律为目的;对于100余例的数据通常分为1015组;有时依据经验公式:确定组距:组距i是一个组的下限与下一个组段下限之差列出组段:第一组段的下限略小于最小值,最后一个组段上限必须包含最大值统计出各组的频数并整理成频数分布表,连续型定量变量的频数分布,14,连续型定量变量的频数分布,分组除了最后一段外均为左闭右开区间,15,16,频数表与频数图的作用,频数表与频数图可以提供不同分组的观察人数、频率观察分布范围及有无可疑值确定分布的类型:对称或不对称分布,17,对称分布,该人群血红细胞介于3.075.46 1012/L间以“4.07”组段的频数最多从“4.07”组段向两端逐渐减少表现出以该段为中心基本对称的特点,18,不对称分布,分布不对称者称为偏态分布skewness distribution 偏态分布又分为正偏分布和负偏分布正偏分布positive skewness是指分布的长尾在峰的右侧,又称右偏分布right skewed所谓负偏分布negative skewness是指分布的长尾在峰的左侧,又称左偏分布left skewed,19,20,21,如何更精确?,了解了数据分布的形态(对称与否)、是否有异常值,仅仅意味着对数据有了初步认识,尚未得到数据的“精确”特征例如:教务处得到12与13两个年级的医学统计学学成绩,如何判断优劣?,第一节.集中趋势,1. 集中趋势(central tendency)是指同质的群体中数据向其中心值靠拢的倾向和程度2. 测量集中趋势就是寻找数据水平的代表值或中心值,该值通常称为:平均数3. 不同类型的数据用不同的集中趋势测量值4. 常见的平均数指标有:算术均数、几何均数、中位数,23,1.算术均数,算术均数arithmetic mean (总体均数 , 样本均数)简称均数,在已知各观察单位具体变量值时,可以采用直接法计算,公式如下:,24,算术均数,求138名女性红细胞数均数资料来源于整理后的频数表,无法取得原始数据采用加权法计算加权均数,作为算术均数的近似值,25,算术均数,加权均数(weighted mean),26,算术均数,27,算术均数,直接法计算的均数为:4.227028985加权法计算的均数为:4.225072464二者十分接近;可见加权法计算的结果是对直接法的良好近似;而且加权法的计算较直接法稳定,简便,28,算术均数小结,它是一组数据的均衡点所在;集中趋势的最常用指标易受极端值的影响用于定量数据,不能用于分类数据和等级数据适用于服从对称分布计量资料(正态或近似正态)的集中趋势描述,求平均创收比例?,假设某投资者拥有资金10万元,第一年创收5%,第二年为12%,第三年为37%,请问三年的平均创收比例?三年后拥有 10万(1+18%)3=164303.2元实际 10万1.051.121.37=161112.0元,求平均创收比例?,假设某投资者拥有资金10万元,第一年创收5%,第二年为12%,第三年为37%,请问三年的平均创收比例?,31,已知矩形边长为4和1,求平均边长已知长方体长、宽、高分别为4、1、2,求平均边长矩形平均边长为2,长方体平均边长也为2,平均边长?,32,2.几何平均数,上述例子可见平均边长、平均发展速度的平均指标的求法与算术均数有所差别将这种由n个数据相乘后开n次方求得的平均数称为几何平均数geometric mean,表示为G,33,几何平均数(直接法),将原始数据X取对数后得到的对数值视为一个新变量Y,求Y的算术均数为:求得Y的算术均数后将其换算为原数值X,即对其取反对数得几何均数G,34,平均抗体滴度,某地5例微丝蚴血症患者治疗7年后用间接荧光抗体试验测得其抗体滴度倒数分别为10、20、40、40、160,求其平均数?如果使用算术均数的直接法:倒数的平均数约为54,所以平均滴度的倒数为54比54大的有1个数据,而比它小的只有4个,而且大多数的数据在40以内,由于160的存在使得平均数偏向160一侧,从而偏离了大多数的观察对象集中的位置。,35,平均抗体滴度,从数据特征上来看,数据呈现倍数变化(而不是等间距变化),那么越往后数据的间距越大,越往后出现的数据将对算术均数的影响越大为了制约这种影响,将数据取公共底数的对数,那么转换后的对数值的含义为某底数的次方数,具有稀释倍数的含义求平均的稀释倍数可以考虑使用之前所述的几何均数,36,几何平均数(加权法),69例类风湿关节炎(RA)患者血清EBV-VCA-lgG抗体滴度的分布见右表,求其平均抗体滴度采用加权法计算加权几何均数,37,几何平均数与算术均数,从公式中可见,几何均数的对数值相当于原观察值对数转化后所求得的算术平均数算术平均数的使用条件是数据满足对称或近似对称分布;即意味着,如果数据在经对数转换后满足对称分布,就可以求其几何平均数,38,例:人群血铅含量平均值,39,几何平均数小结,适用于呈等比级数、或呈倍数变化的数据;例如医学上的抗体滴度、人口变化速度、细菌增长率、药物效价等常用于表示呈正偏态,但是经过对数转换后可以满足对称(正态)的数据的平均水平数据中不可以有0;不可同时有正负数在医学之外,它常用于计算事物变化的平均速度(经济学),40,对于某项风险较高的新手术术后的生存时间进行跟踪,共调查了7人, 6人死亡之前分别生存了5天、6天、10天、16天、25天、29天,还有一人术后30天随访时仍存活;求他们的平均生存时间?其中有不确定数值,无法使用算术均数或几何均数,问题:患者生存期,41,3.中位数,中位数median:观察值排序后处于中间位置上的值对于有奇数位数的数据 Me (n + 1)/ 2 位数对于有偶数位数的数据 Me n / 2 位数+ (n / 2 +1)位数 / 2,42,连续型资料中位数(直接法),某药厂观察9只小鼠口服高山红景天醇提取物(RSAE)后在缺氧条件下生存时间(分钟)如下: 原始数据: 49.1 60.8 63.3 63.6 63.6 65.6 65.8 68.6 69.0 排 序: 49.1 60.8 63.3 63.6 63.6 65.6 65.8 68.6 69.0 位 置: 1 2 3 4 5 6 7 8 9,43,离散型资料中位数(频数表法),试计算表2-2某医院1123名产后出血孕妇人工流产次数的中位数,百分位数(percentile),百分位数(percentile) X% PX (100-X)%50%分位数就是中位数,百分位数(Percentile),百分位数是一种位置指标,用Px表示第x百分位数对某医院细菌性痢疾治愈者的住院天数统计,119名患者的住院天数从小到大的排列如下,试求P5与P99患 者:1 2 3 4 5 6 7 8 9 116 117 118 119住院天数:1 1 2 2 2 3 4 4 5 39 40 40 42,45,连续型资料Px(直接法),将上述患者住院天数按照从小到大的顺序排列,则Px可以用以下公式计算:本例中P5=(119+1)0.05=6,故P5=3天本例中P99=(119+1)0.99=118.8P99=40*0.2+42*0.8=41.6天,46,118,119,118.8,118位数对其影响力为20%,119位数影响力为80%,47,连续型资料Px(频数表法),某地118名链球菌咽喉炎患者的潜伏期频数表见右表,求中位数及第75百分位数资料来源于整理后的频数表,无法取得原始数据如何计算中位数?,48,中位数(P50),49,75百分位数(P75),50,连续型资料Px(频数表法),频数表法计算的一般公式:,式中Lx、ix和fx分别为x百分位数所在组段的下限、组距和频数; 为小于Lx各组段的累积频数,n为总例数,51,中位数vs.算术平均数,4位职员月收入3000、3500、4000、4500;经理月收入2万,求该部门5位人员平均月收入?算术均数求得为7000,但是不论职员还是经理的收入均与此相区甚远,即算术均数作为这一组数据的集中位置不合理中位数求得为4000元,很好的体现了“少数服从多数”的原则:在4000附近的确人数占绝大多数,这应该是具有说服力的“集中位置”!能否总结一下为什么舍算术均数而取中位数?,52,中位数vs.算术平均数,对于偏态分布资料,算术均数受极端值的影响,偏离了“中心”位置,不再合理反映“集中点”所以对于偏态分布数据,多采用中位数反映平均水平而对于近似对称分布数据,二者均可以反映平均水平,但是算术均数对数据的变化反映较中位数灵敏,得到的指标更精确,53,正、负偏态的理解,对于正偏态数据有算术均数中位数,故算术均数减去中位数为正值,称这种数据分布为正偏态对于负偏态数据有算术均数0.98kg?,变异度间的比较问题,68,4.变异系数,变异系数coefficient of variation:标准差与其相应的均值之比它反映数据相对离散程度,没有量纲消除了数据水平高低和计量单位的影响,用于不同性质数据或均数相差较大时,离散程度的比较,69,频数分布表、图,分组划计,原始资料,分布类型,数值变量统计描述小结,算术均数与标准差,对数转换,几何均数与对数值标准差的反对数*,中位数与四分位数间距,思考:,有一份近似正态分布的定量数据,最适宜采用的平均水平指标是什么?如果是偏态数据又如何?正偏态分布中算术均数、中位数、众数间的大小关系如何?负偏态分布中三者关系如何?对数正态分布的资料,几何均数与算数均数、中位数的关系如何?,思考:,有一组偏态分布的数据如何表示该数据的变异程度?如果数据是近似正态分布,又该如何表达变异程度?标准差的含义是什么?有一份对数正态分布的数据,其变异程度如何表示?全国的出生资料显示,女孩与男孩的出生比例约为49比51。请问对于所有拥有三个孩子的家庭,平均而言有几个女孩?女孩的个数的变异度有多大?,第三节:定量资料的统计图表*,优点:简化数据,提取信息,直观表达缺点:一定程度上,丢失具体信息矛盾关系:简化完全寻求平衡:目的明确、重点突出,一、统计表(statistical tables),什么是统计表: 统计表就是以表格的形式,表达被研究对象的特征、内部构成及研究项目分组之间的数量关系统计表结构要求: 三大组成(线条、文字、数字)层次分明(避免层次过多或结构混乱),线 条,三线到五线、只有横线,文 字,标 题 (表号3w),注 释,纵标目(谓语、宾语),(主语)横标目,数 字,158.9 68.5 0.0 ,简单统计表,统计表格的种类,1、简单表:只有一个分组依据2、复合表:有两个或两个以上的分组变量,复合统计表,二、统计图(statistical graphs),统计图的结构和绘制原则按照资料的性质与分析目的选择适当的统计图构成统计图的主要有:标题(图下方)、标目(坐标轴上)、坐标轴(5:7)、图形、图例等坐标轴如果没有特殊要求最好从0开始,常用的定量资料统计描述统计图,直方图(histogram)、茎叶图(stem and leaf plot)、箱式图(box plot)直条图(bar chart),直方图(histogram),用矩形的宽度和高度来表示频数分布的图形,实际上是用矩形的面积来表示各组的频数分布在直角坐标中,用横轴表示数据分组,纵轴表示频数/频率/频率密度,横纵轴围成多个连续矩形,即直方图直方图下的总面积等于1,直方图(histogram),直方图(histogram),箱式图(box plot),用箱、线、点表示定量变量的分布形态及其特征值箱式图中包含有5个常用的描述统计量:除去极端值之外的最小值、最大值,中位数,以及两个四分位数,箱式图(box plot)的组成,8门课程考试成绩的箱线图,箱式图(box plot),英语统计学免疫学药理学诊断学营养学高等数学社会医学,直条图(bar chart),用宽度相同的条形的高度或长短来表示各独立分类定量数据的大小有单式条形图、复式条形图等形式绘制时,各类别可以放在纵轴,称为条形图,也可以放在横轴,称为柱形图有时也在条块上添加标准差称为误差条图,直条图,茎叶图(stem and leaf plot),类似于直方图(图形与作用),却有不同的呈现方式:,思考:,直方图与直条图有何区别?直方图与茎叶图在使用上有何区别?要比较男生与女生的统计学成绩的平均水平,直条图与箱式图应如何选择?,91,第四节.正态分布,德.莫阿弗尔(A. de. Moivre, 16671754)于1733年提出(The Doctrine of Chances,1738)C.F.高斯(Carl Friedrich Gauss,17771855)则将其成功推导(Theory of motion of the celestial bodies moving in conic sections around the sun ,1809)许多现象都可以由高斯分布来描述 :例如,在生产条件不变的情况下,抗压强度、口径、长度等指标;同一种生物体的身长、体重等指标;同一种种子的重量;测量同一物体的误差;弹着点沿某一方向的偏差;某个地区的年降水量;以及理想气体分子的速度分量,等等。 于是人们将正常现象的数值满足的分布称为“Normal Distribution”,92,10 Deutsche Mark,93,随着组段的无限细分、样本含量的无限增加,原本崎岖不平的直方图的轮廓逐渐变得平整,以至于形成一条光滑的连续曲线正态分布曲线,频数分布图 钟形曲线,94,正如数学曲线中 x 与 y 严格的对应关系,在正态分布曲线坐标轴上的点 x, y也有严格的数学对应关系: 上式中,f(x) = 随机变量 X 的概率密度函数 = 正态随机变量X的总体均数 = 正态随机变量X的总体方差 = 3.1415926; e = 2.71828x = 随机变量的取值 (- x ),Probability density function,95,正态分布的概念,如果随机变量X的概率密度函数满足: 则称X服从正态分布,记作xN(, 2),其中: 为分布的均数, 为分布的标准差。,96,方差相等、均数不等的正态分布图示,97,均数相等、方差不等的正态分布图示,1,98,正态分布的图形特征,单峰分布;高峰在均数处;两边沿横坐标轴无限延伸,理论上永远不与之相交以均数为中心,均数两侧完全对称;在ms处有拐点(在该范围内是凸的,其它范围内是凹的) ,表现为关于均数完全对称的钟形曲线。,99,正态分布的图形特征,正态分布有两个参数(parameter),总体均数决定了正态分布的高峰位置,所以它是正态分布的位置参数;而总体标准差决定了正态分布的分布跨度,所以它是正态分布的形状参数。总体均数增大,分布向横坐标右侧平移;反之,向右平移;如果总体标准差增大,分布变得矮胖,反之变得高瘦,100,正态分布曲线下面积的含义,曲线下面积是指由分布曲线与横坐标或者横坐标上的特定区间所围成的区域的面积,曲线下面积,曲线下面积,101,正态分布曲线下面积的含义,对于连续型的计量资料,x可以取某个区间或整条数轴上的任意点值;对于横坐标轴上的任意特定点,其所对应的曲线下面积都等于0(因为线的面积等于0),102,正态分布曲线下面积的含义,设定曲线下面积等于1,对于横坐标轴上的某个区间(axb)的曲线下面积,其含义为x取该区间值时对应的概率有多大;其数值的大小用分布函数式F(X)表示,103,曲线下的面积的计算,对于任意一个区间的曲线下面积,在知道变量值x对应的概率密度函数f (x)后,都可以根据微积分的方法求出其面积的大小,104,正态曲线下的面积规律,X轴与正态曲线所夹面积恒等于1(相当于x的所有取值都在横坐标轴上) 。对称区域面积相等,F(-, -X),F( +X,),F( +X,)F(-, -X),105,正态曲线下的面积规律,正态曲线下面积总和为1正态曲线关于均数对称;对称的区域内面积相等-1.96 +1.96内面积为95%-2.58 +2.58内面积为99%,106,虽然服从正态分布的指标,只要知道均数与标准差 , 就可用微积分的方法求得任意范围曲线下面积,但此积分是困难的,这给实际使用带来诸多不便例如:当=0,=1时,在(-1.96,1.96)范围内正态变量取值概率为0.95,而当=0, =1.96时,在 (-1.96, 1.96)范围内正态变量取值概率就不是0.95,而是0.68。这就是说P的大小不仅与区间上下限(x1, x2)有关,还与、 有关,而我们不可能针对每个不同的与都制一张表供研究者参考为了制一张可供不同的、 共同使用的表,考虑引进标准化变换与标准正态分布,计算曲线下面积的问题,107,标准正态分布,标准正态分布standard normal distribution是均数为0,标准差为1的正态分布记为N(0,1)标准正态分布是唯一的概率密度函数:,108,标准正态转换,若 xN(,2),作变换: 则u服从标准正态分布N(0,12),109,标准正态分布曲线下面积 f(u):附表1,u 0.00 0.02 0.04 0.06 0.08-3.00.0013 0.0013 0.0012 0.0011 0.0010-2.50.0062 0.0059 0.0055 0.0052 0.0049-1.90.0287 0.0274 0.0262 0.0250 0.0239-1.60.0548 0.0526 0.0505 0.0485 0.0465-1.00.1587 0.1539 0.1492 0.1446 0.1401 00.5000 0.4920 0.4840 0.4761 0.4681,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 工业互联网平台数字水印技术2025年数据安全防护与网络威胁情报分析报告
- 2025年浙江省保安员考试试题及答案解析必背(含答案)
- 计量仪器校正试题和答案
- 医疗美容行业2025年医疗美容行业市场趋势与市场监管研究报告
- 教育与培训行业报告:教育行业在线教育平台用户满意度研究
- 山东选调生笔试真题2024
- 2025-2030海外矿产资源并购对钢铁企业供应链安全影响
- 2025-2030民用无人机适航维修人员资质认证体系构建报告
- 2025-2030民宿行业政策环境与发展机遇全景分析报告
- 2024年嘉兴市第一医院招聘真题
- 城中村综合整治总体规划
- 人工智能实验学校申报材料
- 复杂网络上的演化博弈及其学习机制与演化动态综述
- 2024年江苏省成考(专升本)大学政治考试真题含解析
- 四年级数学(四则混合运算带括号)计算题与答案
- 2023年新高考全国Ⅱ卷英语试题真题及答案详解(含作文范文)
- 消毒隔离技术
- 2023年中国邮轮游船游艇行业发展报告
- 符合RBT214-2017防雷装置检测机构质量手册+检测作业指导书2021首版
- 中国铁路高速综合检测列车
- 2015年考研英语二真题及答案解析
评论
0/150
提交评论