




已阅读5页,还剩63页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
医学统计学 福医大流行病与卫生统计系 何保昌 2016.03 第4章. 定量资料统计描述,1,第一节 频数分布表和频数分布图 第二节 集中趋势的统计描述 第三节 离散趋势的统计描述 第四节 正态分布及其应用,本章内容,例 某医院用随机抽样方法检查了138名成年女子的红细胞数 ,其测量结果如下:,3,问题1:该138名正常女子的红细胞数的平均数是多少? 问题2:最高红细胞数是多少?最低红细胞数是多少?红细胞数的分布范围是多少? 问题3:红细胞数在3.474.27 占多大比例? 问题4:如何用一个直观的统计图来描述红细胞数的分布规律?分布是否对称?,4,【解析】此问题涉及如何对定量资料进行统计描述? 问题1 集中趋势 问题2 离散趋势 问题3,4 频数分布表和频数分布图,5,统计描述,统计描述就是用适当的表格、图形、数量化的指标,表达数据的数量特征,揭示其分布的规律性 统计描述分为:形象化描述(统计图表)建立对资料的初步印象;数值化的描述(统计指标)给出分布规律及具体数值,6,9,离散型资料频数分布(图、表),连续型定量变量的频数分布,连续型定量变量(continuous variable)通常是指取值连续的定量变量,可以取数轴上的任意数值 例如身高、体重、血压、血清胆固醇值等 例:某医院用随机抽样方法检查了138名成年女子的红细胞数,10,理想的描述结果,11,11,12,如何得到上述理想的结果?,频数分布表,分组划计,原始资料,频数表的编制方法: 1.求MAX、MIN、R R=MAX-MIN R=5.46-3.07=2.39 2. 求“组段”数,组段和组距 (1)“组段”数一般为10-15个; (2)组距一般为R/10取整; (3)第一组段要包括MIN,最末组段包括MAX,并同时写出上下限。 本例 i=2.39/12=0.199 0.20 3.列表划计,13,14,连续型定量变量的频数分布,分组除了最后一段外均为左闭右开区间,频数分布图,15,16,频数表与频数图的作用,揭示频数分布特征 揭示频数分布类型 便于发现一些特大或特小的离群值 便于进一步做统计分析和处理,16,揭示频数分布特征,(1)集中趋势 central tendency (2)离散趋势 tendency of dispersion (3)当集中趋势与离散趋势结合起来时能全面反映频数的分布。,17,揭示频数分布类型,对称分布:高峰位于中部,左右两侧的频数大体对称。正态分布为最常见的一种。 偏态分布:正偏态分布儿童疾病年龄分布;负偏态分布老年疾病年龄分布。 *分布类型不同采用的统计分析方法不同,18,19,19,近视眼Lasik术后1月裸眼视力,20,21,如何更具体、精确?,了解了数据分布的形态(对称与否)、是否有异常值,仅仅意味着对数据有了初步认识,尚未得到数据的“精确”特征 例如:教务处得到13与14两个年级的医学统计学成绩,如何判断优劣?,第二节 集中趋势的描述,算数均数 几何均数 中位数和百分位数,22,23,1.算术均数,算术均数arithmetic mean (总体均数 , 样本均数)简称均数,在已知各观察单位具体变量值时,可以采用直接法计算,公式如下:,直接法:,例4.3 利用例4.2的155名6月龄婴儿的SOS资料,计算均数。,设分组后的数据为:X1 ,X2 , ,XK 相应的频数为: f1 , f2, ,fK 计算公式为,对于频数表资料,用每个组段的组中值代替该组段观察值的实际取值:,加权法:,例如,对155名6月龄婴儿的SOS资料,利用表 4.2 求均数为:,27,算术均数,求138名女性红细胞数均数 资料来源于整理后的频数表,无法取得原始数据 采用加权法计算加权均数,作为算术均数的近似值,28,算术均数,算术均数的特性,各变量值与均数的离均差之和等于零:,各变量值与均数的离均差平方和最小:,30,算术均数小结,它是一组数据的均衡点所在;集中趋势的最常用指标 易受极端值的影响 用于定量数据,不能用于分类数据和等级数据 适用于服从对称分布定量资料(正态或近似正态)的集中趋势描述,30,31,假设某投资者拥有资金1000元,第一年他取得10的收益,第二年为20,第三年为40,求平均收益? 第一年末所拥有的资金为其原始的1.1倍 第二年末所拥有的资金为其原始的1.11.2倍 第三年末所拥有的资金为其原始的1.11.21.4倍 假设他三年来的投资收益是平均的,那么他的年平均收益a应该满足aaa= 1.11.21.4;所以: 即他的年均收益为22.7158488%,而不是(0.10.20.4) /3 =0.233333333333333333,新问题:平均发展速度,32,平均抗体滴度,某地5例微丝蚴血症患者治疗7年后用间接荧光抗体试验测得其抗体滴度倒数分别为10、20、40、40、160,求其平均数? 如果使用算术均数的直接法:倒数的平均数约为54,所以平均滴度的倒数为54 比54大的有1个数据,而比它小的只有4个,而且大多数的数据在40以内,由于160的存在使得平均数偏向160一侧,从而偏离了大多数的观察对象集中的位置!,33,几何平均数(直接法),将原始数据X取对数后得到的对数值视为一个新变量Y,求Y的算术均数为: 求得Y的算术均数后将其换算为原数值X,即对其取反对数得几何均数G,例4.4 对 26 个采样点空气中总粉尘浓度计算几何均数:,35,几何平均数(加权法),69例类风湿关节炎(RA)患者血清EBV-VCA-lgG抗体滴度的分布见右表,求其平均抗体滴度 采用加权法计算加权几何均数,36,人群血铅含量平均值的计算,36,37,对于某项风险较高的新手术术后的生存时间进行跟踪,共调查了7人, 6人死亡之前分别生存了5天、6天、10天、16天、25天、29天,还有一人术后30天随访时仍存活;求他们的平均生存时间? 其中有不确定数值,无法使用算术均数或几何均数,问题:患者生存期,37,三、中位数,是将一批数据从小至大排列后位次居中的数值。,不受极端值的影响,尤其适合于: 大样本偏态分布的资料;资料有不确定数值; 资料分布不明等。,未分组数据的中位数,1.61、1.91、2.24、2.24、2.30、2.60、2.84、3.15、3.33、3.75、3.75、3.75、3.81、4.42、6.42、6.42、14.76,M 3.33 g/g,例4.8 17名砷中毒患者发砷含量,1.61、1.91、2.24、2.24、2.30、2.60、2.84、3.15、3.33、3.75、3.75、3.75、3.81、4.42、6.42、6.42、14.76 、15.39,例4.9 18名砷中毒患者发砷含量,Px 所在组段的组距,Px 所在组段的下限,Px 所在组段的频数,fL 为小于 L 的各组段累计频数,计算中位数时,X=50, 即M=P50。,连续型资料Px(频数表法),42,43,中位数(P50),44,正、负偏态的理解,对于正偏态数据有算术均数中位数,故算术均数减去中位数为正值,称这种数据分布为正偏态 对于负偏态数据有算术均数中位数,故算术均数减去中位数为负值,称这种数据分布为负偏态,44,45,对于两组资料集中趋势的描述: 样本1:样本含量9,算术均数10.11,中位数9.9 样本2:样本含量9,算术均数10.11,中位数9.9,两个样本的资料相同或不同?,结论:两个样本完全一样!?,样本1: 8.9 9.4 9.6 9.7 9.9 10.4 10.9 11.0 11.2 样本2: 2.9 3.1 3.8 5.1 9.9 10.0 17.0 18.0 21.2,45,46,第三节、离散趋势的描述,集中趋势是数据分布的一个重要特征,但单有集中趋势指标还不能很好地描述数据的分布规律。而且还要看数据的离散趋势。,47,离散趋势: 反映一群变量值的变异程度或参差不齐的程度。 离散程度大,均数的代表性差, 离散程度小,均数的代表性好。,48,1.极差,极差range:一组数据的最大值与最小值之差 离散程度的最简单测度值 易受极端值影响 未考虑数据的分布 一般极差越大,则数据的变异性越大;但是它没有考虑除极值外其他数据的变异情况;而且样本的极差通常过小地估计了总体的极差,48,49,四分位数(quartile, Q):特定的百分位数,把一组观察值分为四等份。 下四分位数: QL = P25 上四分位数为:QU = P75 四分位数间距:QUQL,2.四分位数间距,50,M= P 50 48+12/24(118/2-53)=51(天) P 25 L i / f25 ( n25 % f L ) 36 12/32(11825%-21) 39.2(天) P 75 L i / f 75 ( n75 % f L ) 60 12/18(11875%-77) 67.7(天) Q= P 75 - P 25 =67.7-39.2=28.5 (天) 即该潜伏期的四分位数间距为28.5天。,51,四分位数间距越大,变量值的变异程度或离散程度越大; 四分位数间距比极差稳定,但仍未考虑每个观察值的变异; 四分位数间距常用于描述偏态分布资料、两端无确切值或分布不明确资料的离散程度。,四分位数间距的意义,52,53,离均差与离均差和: 为了克服全距、四分位数间距的缺点,人们考虑到用每个变量值与均数之间的差别来反映离散的程度,所以提出了离均差的概念,其数学表达式为 离均差可正可负,但是数学上可以证明,离均差与离均差和,54,离均差平方和与离均差平方和的平均值: 为了避免离均差和等于0的情况,人们考虑将离均差取平方后求其和,于是有了离均差平方和,其数学表达式为 前者称为SS总体,后者称为SS样本;但是SS不但和变异大小有关,还和观察值的个数有关,SS随观察例数增多而增大。为了解决这个问题,人们又引入了离均差平方和的平均值,其数学表达式为,离均差平方和与均方,55,3 .1方差,离均差平方和的平均值(MS),又可称为方差variance 它是反映数据离散程度的最常用的指标 在计算方差过程中利用到每个变量值,所以它表达的离散趋势信息比极差、四分位数间距更精确 但是由于在计算方差时用到算术均数,所以方差也只能用于反映对称或近似对称分布资料的离散趋势,56,总体方差通常用希腊字母s2 (sigma)表示,记作: 但是在实际研究中,通常只观察来自总体中的一个样本,所以总体均数是未知的;此时用样本均数作为总体均数的估计值,相应的方差称为样本方差,其公式为:,式中的 n-1 又称为自由度,总体方差与样本方差,57,自由度degree,of freedom, df:一组数据中可以自由取值的数据的个数 当样本数据的个数为 n 时,若样本均值x 确定后,只有n-1个数据可以自由取值,其中必有一个数据则不能自由取值 例如,样本有3个数值,即x1=2,x2=4,x3=9,则 x = 5。当 x = 5 确定后,如果x1=6,x2=7,那么x3则必然取2,而不能取其他值 样本方差用自由度去除,其原因可从多方面解释,从实际应用角度看,在抽样估计中,当用样本方差S2去估计总体方差2时,它是2的无偏估计值,58,3.2标准差,standard deviation,因方差的度量单位是原度量单位的平方,故将方差开方,恢复成原度量单位,得总体标准差。 标准差大,表示观察值的变异度大; 标准差小,表示观察值的变异度小 。,59,样本标准差(s):,60,标准差的计算,直接法 加权法,61,1985年通过十省调查得知,农村刚满周岁的女童体重均数为8.42kg,标准差为0.98kg;身高均数为72.4cm,标准差为3.0cm,试问身高与体重何者变异情况较大? 要反映变异程度本例题中宜采用标准差;从标准差的数值看来,身高变异程度大于体重 是否合理? 身高的单位是cm,而体重的单位是kg,能否认为3cm0.98kg?,变异度间的比较问题,61,62,4.变异系数,变异系数coefficient of variation:标准差与其相应的均值之比 它反映数据相对离散程度,没有量纲 消除了数据水平高低和计量单位的影响,用于不同性质数据或均数相差较大时,离散程度的比较,62,某地7岁男孩身高的均数为123.10cm,标准差为4.71 cm;体重的均数为22.29kg,标准
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- GB/T 30312-2025浸胶纱线、线绳和帘线热收缩试验方法
- 汉字的形体演变探析
- 社区活动开幕词范本
- 财务科技对传统银行的影响研究
- 金融科技在普惠金融中的应用探讨
- 成功源于勤奋演讲稿
- DB52T 453.6-2004 地产中药材有害生物无害化治理技术规程 玄参
- 军事理论-综合版知到智慧树见面课答案
- 水龙吟苏轼课件
- Ubuntu Linux 22.04系统管理与服务器配置 课件 项目3 软件包管理
- 缺血性心肌病病人护理查房
- 《社保新政策解》课件
- 《基于UG的汽车机加件工时计算及系统开发》
- 房产代理转让合同范例
- GB/T 7247.1-2024激光产品的安全第1部分:设备分类和要求
- 2023银行首届夏日音乐会系列(天籁之音乐动一夏主题)活动策划方案-106正式版
- 校服供货服务方案
- 呼吸机断电的应急演练
- 玉兰花的栽培与管理方法
- 早期子宫内膜癌患者保留生育功能治疗专家共识
- (完整)中医症候积分量表
评论
0/150
提交评论