(推荐课件)定量变量的统计描述_第1页
(推荐课件)定量变量的统计描述_第2页
(推荐课件)定量变量的统计描述_第3页
(推荐课件)定量变量的统计描述_第4页
(推荐课件)定量变量的统计描述_第5页
已阅读5页,还剩95页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、定量变量的统计描述:1、用统计表概括数据,用统计图直观地表达分布模式和分布之间的关系,用于描述定量数据统计指标的重要性和计算。2、3、4、统计、5、统计描述:从数据中获取信息的最基本方法,掌握数据的基本特征,为统计分析奠定基础,6、表2-2 120名18-35岁健康男性居民的血清铁含量(UMOL/L),7,目的:描述本问题1。这组居民的平均血清铁含量是多少?问题4。用表格/图表显示血清铁的分布?问题2。血清铁含量的范围?最高的是什么?最低是多少?问题3。血清铁含量主要集中在哪个范围?8、教学要求,了解频数分布表的编制方法和应用,掌握常用的统计描述指标数值变量数据的平均水平和变异程度,以及它们各

2、自的应用。9,第1节频率和频率分布,频率:重复观察随机变量,其中一个变量值出现的次数。频率分布表:变量值及其对应的频率系列被制成表格。实施例2-2某地区120名18-35岁健康男性居民血清铁含量抽样调查。频率表的编制:1。连续定量变量的频率分布;10.(2)连续变量频率表的编制方法:步骤11。找到范围(缩写为R ):是一组数据中的最大值(Xmax)和最小值(Xmin)之间的差值,也称为极端差值。全距离(r)=xmax-xmin=29.64 7.42=22.22(umol/l),12,2。设置组距离:将整个距离分成几段,称为组段。群体之间的距离称为群体距离。小写I.在原则:(1)中,“组”的数量

3、一般为8-15;(2)“组距离”一般用R/10四舍五入;(3)为便于计算,根据群体距离采用整数法。本示例:组距离(i)=总距离/预分组段=22.22 /10=2.222(umol/L),13,3。将总距离分成几段的过程。原则:(1)第一组数据段应该包括Xmin,最后一组应该包括xmax(2)每组用下限值加表示,上限值和下限值在最后一组中同时显示。注意:每组线段不能重叠,每组线段是半开半闭的区间。4。列表标记:根据预定的组段和组距,对原始数据进行标记排序。表2-3 120名18-35岁健康男性居民血清铁含量频数分布表,一个为阳性,一个为阳性,另一个为阳性,另一个为阳性,另一个为阳性,另一个为阳性

4、,最后一个为阳性,1 3 6 8 12 20 27 18 12 8 4 1,断面,标记,频数, 表2.2血清铁含量频率表段频率%累计频率累计频率% 6 1 0.83 1 0.83 8 3 2.50 4 3.33 10 6 5.00 10 8.33 12 8 6.67 18 15.00 14 12 10.00 30 25.00 16 20 16.67 50 41.67 18 27 22.50 7 64.17 20 18 18 特征:中间高、边、频率分布图:根据频率分布表绘制的直方图,以变量值为横坐标,频率为纵坐标。 17的频率为7,频率为7.3%。3次检查的频率为11次,频率为11.5%。对于超

5、过5次的检查,频率为12次,频率为12.5%。检查0次的频率为4,其频率为4.2%。检查0,3,2,0,1,5,6,3,2,4,1,0,6,5,1,3,3,4,7,2,离散数量变量的频率。纵坐标是频率,即在被统计的妇女中进行过k次产前检查的妇女的百分比。图中等宽矩形条的高度与相应检查次数的频率成正比。频率:每个组的频率除以病例总数的比率。频率描述每个组频率在整个人口中的比例,每个组频率的总和等于100%。累计频率:该组的频率与前一组的频率相加;累积频率:每组的累积频率除以病例总数。21、3的频率分布有两个特点,即集中趋势:血清铁含量集中在中部,即中部含量大多集中在18组,这是一个集中趋势。离散

6、趋势:频率分布从中部向两侧逐渐减小,血清铁含量值不均匀,最低接近6,最高接近30。这种现象被称为离散趋势。由于同质性,所有测量值趋向于相同值的趋势称为浓度趋势。离散趋势或变化程度是指观察值之间的不均匀程度。表2-2某处101名正常成年女性血清总胆固醇频率表,共140份,血清胆固醇值集中于中部,即中含量者多集中于中部,23份,频数分布,4份,频数分布类型,对称分布类型:指集中位置在中部,左右两侧频数分布一般对称。偏置分布型:指集中位置向一侧倾斜,频率分布不对称。偏斜度分布,正偏斜度分布:集中位置偏向小值侧。负偏度分布:集中位置偏向值大的一侧。24、25、26、27、(3)频率表的使用:1。揭示变

7、量的分布特征,图3.1某市100名8岁男童身高(厘米)的频数分布、分散趋势、集中趋势和分散趋势的结合能充分反映频数分布特征,集中28,2。揭示了分布类型、频率分布、偏度分布、正偏、负偏,集中在中间,末端较少,左右两侧基本对称,为对称(正态)分布。对称分布,集中部分在较小值的一侧(左侧),而较大值的方向逐渐减小,这是一个正的偏斜分布。集中部分在较大值的一侧(右侧),较小值的方向逐渐减小,呈负偏态分布。29,4。便于统计指标的进一步计算和统计分析。找到一些异常值或极值是很方便的。图3.1高(厘米)、高(厘米)、频、30、1的频率分布。集中趋势统计指数:反映整体内的同质性。二.离差的统计指标:反映人

8、口中个体之间的差异。三.分布模式的统计指标:反映峰值的模式。第二节描述了平均水平的统计指标,31,平均值:描述了一组同质测量数据的集中趋势;反映一组观察值的平均水平。常用的平均值有算术平均值、几何平均值和中位数。算术平均值:指平均值,总平均值用希腊字母表示,样本平均值用拉丁字母表示。1.计算方法1)直接法:适用于小样本数n的数据.X1、X2Xn是变量值,n是样本号。32,2)加权法:适用于变量较多的数据。K=1,2,3。fk是第k组的频率,X0k是第k组的组中值,组中值=(该组的下限低于该组的下限)/2。重量,即更多的频率,更大的重量,更大的效果,更少的频率,更少的重量和更少的效果。33,10

9、,10,10,15,10有三个,权重为3,在计算平均值时起3/5的作用。频率多,权重大,效果好,15有两个,权重为2,在计算平均值时,权重为2/5。试着找出它的算术平均值。实施例2-4为了找到120名18-35岁健康男性居民的血清铁含量平均值由于均值位于分布的中心,它能最好地反映数据的集中趋势。(2)几何平均数:(几何平均数也叫多重平均数,用G) 1表示。几何平均数的计算方法1)直接法:适用于样本数较少的数据。将X1、X2和X3Xn的n个观察值的乘积开成n次方对数形式:g=LG-1(LGX 1 LGX 2 LGX 3 LGXN)/n=LG-1(LGX/N),38、2-5 7例慢性迁延性肝炎患者

10、的HBsAg滴度数据为1: 16、1: 32、1: 32。找到平均滴度。7个乙型肝炎表面抗原样本的平均滴度为1: 64,39,2)加权法:适用于样本数较多的数据,其中X1和X2Xn为各组的滴度或倒数滴度。F1和f2fn是每组的频率。40、40、2-6 52例慢性肝炎患者HBsAg滴度数据见表,并计算平均滴度。52例慢性肝炎患者HBsAg滴度的几何平均数为1:119.74705,41,2)应用几何平均数的注意事项:1)几何平均数常用于等比数据或对数正态分布数据。2)观察值不能为0。3)观察值不能同时具有正值和负值。42,练习:1。8份血清样本的抗体滴度分别为:1:5、1:10、1:20、1:40

11、、1:80、13360160、13360320、1:640。2.血清抗体滴度为50,分别为5 1:10、9 1:20、20 1336040、10 1336080和6 1:160。43,中值(m):按从小到大的顺序排列一组变量值,中间等级的变量值为中值。(3)中值和百分位,百分位,Px):指数据从小到大排列后位于X%位置的值。有n个观察值X1、X2Xn,它们按照从小到大的顺序排列为X1X2X3Xn。这n个观察值平均分成100个相等部分,每个相等部分对应的值是一个百分点。对应于以前的X%位置的值称为X百分位,用Px表示。Px百分位将总体或样本的所有观察值分为两部分。理论上,X%的观测值小于它,而(

12、100-X)%的观测值大于它。44,1。中位数和百分位数的计算1)直接法:适用于小样本数n的数据。观测值按大小顺序排列。当n是奇数时,中间的数字是中位数。当n为偶数时,中间两个数的平均值为中间值。在实施例2-7中,制药厂观察到口服高山红景天醇提取物后9只小鼠的存活时间(分钟)如下:49.1、60.8、63.3、63.6、63.6、65.6、65.8、68.6和69.0 n为奇数,M=63.6(2)。一种疾病有8名患者,潜伏期由小到大分别为5、6、8、9、11、11、13和16天。46,2)频率表法计算中值和百分位数:适用于有大量样本病例的数据n .累计频率:该组的频率加到以前组的频率上;累积频

13、率:每组的累积频率除以病例总数。公式为l为百分位组的下限,I为组距离,fx为组频率,fL为百分位组前一组的累计频率,N为病例总数。链球菌性心绞痛50例,潜伏期(h ), 47,2-8。1 1 2 7 8 16 11 19 38 11 30 60 7 37 74 5 42 84 4 46 92 2 48 96 2 50 100,48,P25,P75。49、2。中值和百分比1)中值的应用通常用于描述偏斜分布数据的集中趋势,反映中间位置观察值的平均水平。在对称分布的数据中,中值和平均值在理论上是相同的。2)百分位可用于确定医学参考值的范围(详见下文)。3)分布在中间的百分位数是相当稳定和有代表性的,但是只有当有足够的样本时,靠近两端的百分位数才是稳定的。应用平均值1时的注意事项。平均值的计算和应用必须有均匀的基础,首先必须合理分组。不同的定性事物应该分别平均,以便分析和比较。2.根据数据分布,选择合适的平均值。对称分布数据,尤其是正态分布数据,应同时使用均值和中值,而偏斜分布数据应更好地表示中值,对数正态分布和等比序列数据应使用几何均值。51,4。mode是一组观测值中频率最高的观测值;如果是分组数据,模式是频率最高的段。16名高血压患者的发病年龄分别为42、45、48、51、52、54、55、55、58、58、58、58、61、62、62岁。频率最高的值

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论