数值变量资料的统计分析(一、二、三).ppt_第1页
数值变量资料的统计分析(一、二、三).ppt_第2页
数值变量资料的统计分析(一、二、三).ppt_第3页
数值变量资料的统计分析(一、二、三).ppt_第4页
数值变量资料的统计分析(一、二、三).ppt_第5页
已阅读5页,还剩45页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第二节 数值变量资料的统计分析,统计描述,一 数值变量资料的频数表 二 集中趋势 三 离散趋势 四 正态分布 五 抽样误差与参数估计 六 假设检验,本节结构,数值变量资料的描述方法:,1、频数表与频数分布 2、统计指标 、集中趋势指标:平均指标(算 术均数、几何均数、中位数、众 数、调和均数) 、离散趋势指标:变异指标(极 差、四分位间距、方差、标准差、 变异系数) 3、统计表、统计图,一 数值资料的频数分布 frequency distribution,(一) 、频数分布表 频数分布:指观察值在某组段出现的次数;频数表:为了解一组同质观察值的分布规律,在观察值个数(即样本含量,n)较多时,可编制频数分布表,简称频数表。,例7-1某校诊断学基础教研室为研究健康成年女性体温正常值,随机抽取102名健康(非排卵期)女大学生测试其体温,下列是测试午饭后休息一小时口腔温度()的结果,试编制频数分布表。,例7-1 120名健康成年女性的口腔温度测定结果(),1. 频数表的编制步骤,(1)求全距(range):即最大值与最小值之差,又称为极差。 本例极差: R=37.536.5=1.0() (2)确定组距和组限:根据研究目的和样本含量n确定。组距=极差/组数,通常分10-15个组,为方便计,组距参考极差的十分之一, 再略加调整。 本例i = R /10=1.0/10=0.1。 列出组限,即组界限。每个组段的起点称下限,终点称上限。第一组段的必须包含最小值,最后一个组段上限必须包含最大值,其它组段上限值忽略。 (3)列表归组:用划记法将所有数据归纳到各组段,得到各组段的频数。,(二)、频数分布图(直方图),(三) 频数分布特征,集中趋势(central tendency):变量值集中位置。本例在组段“37.0”。 平均水平指标 离散趋势(tendency of dispersion):变量值围绕集中位置的分布情况。离“中心”位置越远,频数越小;且围绕“中心”左右对称。变异水平指标 从不同角度说明被研究的事物。,(四) 频数分布类型 正态分布:集中位置在正中,左右两侧基本对称。, 偏态分布:集中位置偏向一侧,频数分布不对称。,正偏态分布 负偏态分布 分布类型不同,采用的统计方法不同。,正态分布:中间高、两边低、左右对称,正偏态分布:长尾向右延伸,负偏态分布:长尾向左延伸,(五)、频数分布表的用途,1、揭示资料的分布类型; 2、显示频数分布的两个重要特征; 集中趋势(Central tendency) 离散趋势(Tendency of dispersion) 3、根据频数分布的不同类型,选择适 当的统计方法,进行计算与分析; 4、利于发现某些特大或特小的可疑值。,二、 集中趋势指标,1、算术均数 2、几何均数 3、中位数,平均数(average),描述一组性质相同的变量值的集中趋势或者集中水平的指标称为平均数,它是样本变量值或者总体变量值的代表值。根据资料的频数分布不同,可分别计算算术均数、几何均数和中位数。,(一)算术均数 (arithmetic mean),算术均数是最常用的集中趋势指标,简称为均数(mean),是描述一组正态分布或者近似正态分布资料集 中趋势的指标。样本均数以x表示,总体均数以表示。,样本均数的计算方法,1.小样本不分组资料(直接法) 2.大样本分组资料(加权法) (weighting method),均数的特性,各观察值与均数之差(离均差) 的总和等于零 即 各观察值的离均差平方和最小, 即 以上两个特性表明均数是一组观 察值最理想的代表值。,均数的应用,1、均数反映一组同质观察值的平均水平,并可作为样本的代表值与其他样本进行比较。 2、均数适用于描述单峰对称分布,特别是正态分布或近似正态分布资料的集中趋势。 3、均数在描述正态分布特征方面具有重要意义。,(二)几何均数 (geometric mean),当变量值的变化呈等比级数关系,特别是变量值的频数分布呈偏态分布,但经过对数转换后呈正态分布,即对数正态分布资料,适合于用几何均数描述其集中趋势,以符号G表示。,几何均数的计算方法,1.小样本不分组资料(直接法) 或 2.大样本分组资料(加权法),应用几何均数注意事项,1、几何均数常用于等比级数资料,如抗体平均滴度和药物平均效价、卫生事业平均发展速度、人口的几何增长等,或用于对数正态分布资料; 2、观察值不能有0,因为0不能取对数,不能与任何其它数呈倍数关系; 3、观察值不能同时有正值和负值。若全是负值,计算时可把负号去掉,得出结果后再加上负号。 4、同一资料,几何均数均数。,血清的抗体效价滴度的倒数分别为:10、100、1000、10000、100000,求几何均数。,此例的算术均数为22222,显然不能代表滴度的平均水平。同一资料,几何均数均数,(三)中位数(median),把n个变量值由小到大顺序排列,位次居中的变量值称为中位数。适用于描述偏态分布资料和资料分布的末端无确切数据的开口资料的集中趋势,用符号M表示。中位数是一个特定的百分位数P50。,中位数的计算方法,1.小样本不分组资料 当n为偶数时: 当n为奇数时: 2.大样本分组资料(频数表法),中位数的应用,当数据分布对称时,理论上中位数等于算术均数,当数据经对数转换后分布对称时,理论上中位数等于几何均数。因此,中位数可用于任何分布的定量资料。此外,中位数还可用于所谓“开口资料”(即数据分布末端无确切数据的资料),也不受两端特大或特小值的影响。但对于能用算术均数或几何均数描述集中趋势的资料,应尽量使用算术均数或几何均数。,附:百分位数(percentile),把n个变量值由小到大顺序排列,第x百分位次相对应的变量值称为第x百分位数,常用以描述一组偏态分布资料在某百分位置上的水平,以符号Px表示。一个百分位数将总体或样本的全部变量值分为两部分,理论上有x%的变量值比它小,有(100x)%的变量值比它大。注意:样本含量过少,计算的百分位数误差较大,不稳定,宜慎用。,百分位数的计算,百分位数常用以描述一组偏态分布资料在某个百分位置上的水平。 计算公式:,百分位数的应用,1、确定医学参考值范围, (reference range):可用于任何分布类型的资料。如双侧95参考值范围P2.5P97.5;表示有95正常个体的测量值在此范围内。 2、中位数 M 与四分位数间距 Q 一起使用,描述偏态分布资料的基本特征。,运用平均数的注意事项: 平均数是描述一群同质变量值集中位置的特征值,用来说明某现象或事物数量的中等水平。 1同质的事物或现象才能求平均数 有人研究某药物的利尿作用,观察了二条狗、三头兔子用药前后的排尿滴数,曾将狗与兔子的排尿滴数加在一起求平均数。由于狗体大,排尿滴数较兔子的多,得到的平均数对狗来说似嫌少,而对兔子来说又显得太多,这是虚构平均数。 2用组平均数补充总平均数 如病人平均住院天数 。 3根据资料的分布选用适当的平均数 计量资料如是单峰对称分布,宜用均数,亦可用中位数。若是偏态分布则中位数的代表性常较均数为好。某些传染病的潜伏期、抗体滴度、细菌计数、率或比的变化速度及某些物质浓度等,其频数分布明显偏态,但经对数代换后近于正态分布的,应计算几何均数以描述其中等水平。,三、离散趋势指标,反映数据的离散度( Dispersion )。 即个体观察值的变异程度。常用的指标有: (一). 极差 (Range)(全距) (二). 四分位数间距 Quartile range (三). 方差 Variance (四). 标准差 Standard Deviation (五). 变异系数 Coefficient of Variation,(一)、全距(range),(1).符号:R (2).计算: R=最大值-最小值 (3).优点:简单明了 (4).缺点:不能反映组内所有数据的变异度,并易受个别特大或特小值的影响。样本含量越大,其抽样误差越大。,(二)、四分位数间距 (quartile interval),(1).适用资料:偏态分布资料,资料分布的末端无确切数据的开口资料 (2).符号:Q, (3).计算:Q=P75-P25, Qu上四分位数,QL下四分位数 (4).意义:其间包含了50的变量值。此间距越大,变量值的离散趋势越大。 (5).优缺点:比极差稳定,但仍未考虑到每个观察值的变异度。,(三)、方差(variance),(1).适用资料:正态分布或近似正态分布资料。 (2).符号:样本S2,总体2。 (3).意义:当两组或多组资料进行比较时,若各组均数相近,度量衡单位相同的条件下,方差小,说明变量值围绕在均数的周围,变异度小;反之,方差大,说明变量值远离均数,变异度大。 (4).计算: 直接法 加权法,样本方差为什么要除以(n1)?,自由度(degree of freedom,简记为DF) (1)定义:随机变量能自由取值的个数 (2)计算公式:=n-限制条件个数 例:有一四个(n=4)数据样本,受到 的条件限制,在自由确定4,2,5三个数据 后,第四个数只能是9, 因而 =n-1=3 。,(四)、标准差 (standard deviation),(1).适用资料:正态分布或近似正态分布资料。 (2).符号:样本S,总体。 (3).意义:当两组或多组资料进行比较时,若各组均数相近,度量衡单位相同的条件下,标准差小,说明变量值围绕在均数的周围,变异度小;反之,标准差大,说明变量值远离均数,变异度大。 (4).计算: 直接法 加权法,标准差的计算,因方差的度量单位是原度量单位的平方, 故将方差开方,恢复成原度量单位,得总体 标准差和样本标准差S。 总体标准差 样本标准差,样本标准差的计算方法,1.小样本不分组资料 2.大样本分组资料(加权法),标准差的应用,1、描述正态分布资料的变异程度; 2、衡量样本均数的代表性:单位相同,均数相近的条件下,标准差大,表示变量值离均数较远,均数的代表性差。文献中表示为:XS 或XSD; 3、结合均数描述正态分布的基本特征,可以概括地估计变量值的频数分布; 标准差与均数相结合,按照正态分布的规律性,制定医学参考值范围; 4、计算变异系数和标准误。,(五)、变异系数 (coefficient of variation),是描述一组正态分布或近似正态分布资料的离散趋势或变异程度(相对变异程度)的指标,以CV( )=S / x100表示。 适用于变量值单位不同或均数相差悬殊时,来比较两组或多组资料的变异程度大小。,变异指标小结,1极差较粗,适合于任何分布 2标准差与均数的单位相同,最常用, 适合于近似正态分布 3变异系数主要用于单位不同或均数相 差悬殊资料 4平均指标和变异指标分别反映资料的 不同特征,常配套使用。如正态分布资料:均数标准差;偏态分布资料:中位数(四分位数间距)。,正态分布 偏态分布 对数正态分布 或开口资料 集中趋势 均数 中位数 几何均数 离散趋势 标准差 四分位数间距 对数标准差 变异系数,数值变量资料的描述指标总结,复习思考题,各平均数的适用条件 标准差的应用,反映计量资料集中趋势的指标是: A.平均数 B.标准差 C.标准误 D.频率 E.全距 在列频数表时,分的组段数一般为: A.510个 B.1015个 C.1030个 D.1520个 E.20个,A,B,计算抗体滴度的平均滴度习惯上用: A.中位数 B.几何均数 C.众数 D.算术均数 E.百分位数 计算平均潜伏期宜用: A.算术均数 B.全距 C.离均差积和 D.中位数 E.变异系数,B,D,表示一组观察值分布的离散程度大小最常用的指标是: A.全距 B.离均差 C.方差 D.标准差 E.离均差平方和 计量资料的标准差这个指标: A.不会比均数大 B.不会比均数小 C.要比标准误小 D.不决定于均数 E.随着均数的变化而变化,D,D,在医学和卫生学研究中,下面( )不是近似正态分布: A.正常成人的血铅含量 B.正常成人的身高 C.正常成人的红细胞数 D.正常成人的血清总蛋白含量 E.正常成人的脉搏数 下列标准差的应用,错误的是: A.表示观察值分布的离散程度 B.估计观察值的频数分布情况 C.计算变异系数 D.计算标准误 E.表示观察值的集中趋势,A,E,变异系数是: A.标准误与平均数之比 B.标准差与平均数之比 C.两个标准差之比 D.两个平均数之比 E.两个标准误之比 比较两组观察值单位不同时的变异程度大小要用: A.离均差 B.标准差 C.标准误 D.变异系数 E.方差,B,D,变异系数越大说明: A.标准差越大 B.平均数越大 C.标准差,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论