定量资料的统计描述概述课件_第1页
定量资料的统计描述概述课件_第2页
定量资料的统计描述概述课件_第3页
定量资料的统计描述概述课件_第4页
定量资料的统计描述概述课件_第5页
已阅读5页,还剩70页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

资料辨认病例号年龄性别身高血型心电图尿WBC产前检查次数职业135女1.65A正常-0教师244男1.74B正常-3工人326男1.80O正常+2职员425女1.61AB正常+1农民541男1.71A异常++5工人645女1.58B正常++6工人750女1.60O异常++3干部828男1.76AB正常+++2干部931女1.62O正常+3军人2023/7/241变量类型定量quantitative(说明数量特征)计量资料

连续型变量continuousvariable

离散型变量discretevariable定性qualitative(说明类别)计数资料

分类变量categoricalvariable(或名义变量nominativevariable)

有序变量ordinalvariable等级资料2023/7/242研究总体统计描述样本统计推断随机抽样参数估计假设检验统计表统计图统计指标2023/7/243统计分析统计推断统计描述统计指标统计表统计图参数估计假设检验集中趋势离散趋势2023/7/244第二章定量资料的统计描述2023/7/245教学目的掌握描述定量资料的集中趋势、离散趋势的指标的计算、意义和适用条件.熟悉定量资料频数表的编制及用途;了解百分位数的计算、描述分布形态的指标2023/7/246第二章定量资料的统计描述频数分布表与频数分布图描述集中趋势的统计指标描述离散趋势的统计指标描述分布形态的统计指标统计内容的报告与中英文表达案例讨论电脑实验小结2023/7/247第一节频数分布表与频数分布图频数frequency频数分布frequencydistribution频数分布表frequencydistributiontable2023/7/2482023/7/2492023/7/2410

频数:对一个随机事件进行重复观察,某变量值出现的次数称频数。若将变量值分组,则某组段包含的变量值个数称为频数。频数分布表:将各变量值及相应的频数列成表格称为频数分布表,简称频数表。2023/7/24112023/7/2412

例2-11998年某山区96名孕妇产前检查次数资料如下:0,3,2,0,1,5,6,3,2,4,1,0,6,5,1,3,3,…,4,7等共96个数值离散型定量变量的频数分布仔细观察原始数据后回答:此资料为样本信息还是总体信息?指标?同质?变异?变量类型?数据类型?如何从纷繁复杂的数据中发现规律?2023/7/2413离散型定量变量的频数分布表2-11998年某地96名妇女产前检查次数分布检查次数频数频率(%)累计人数累计频率(%)(1)(2)(3)(4)(5)044.244.2177.31111.521111.52222.931313.53536.542627.16163.552324.08487.5>51212.596100.0合计96100

2023/7/2414离散型定量变量的频数分布例2-1(教材11页),仔细观察表2-1然后回答问题:原始数据怎样编制成频数分布表的?从频数分布表中得到哪些分布规律或信息?如何估计产前检查的平均次数?小结:离散型定量资料的频数分布表的编制2023/7/2415离散型定量变量的频数分布2023/7/2416离散型定量资料的频数分布例2-1(教材11页),仔细观察图2-1然后回答问题:频数分布图(直条图)如何绘制的?从直条图中可得到哪些分布信息?比较直条图与其的频数分布表2023/7/2417连续型定量变量的频数分布例2-2抽样调查某地120名18岁~35岁健康男性居民血清铁含量(μmol/L)。

2023/7/2418频数与频数分布数据如下:7.428.6523.0221.6121.3121.469.9722.7314.9420.1821.6223.0720.388.4017.3229.6419.6921.6923.9017.4519.0820.5224.1423.7718.3623.0424.2224.1321.5311.0918.8918.2623.2917.6715.3818.6114.2717.4022.5517.5516.1017.9820.1321.0014.5619.8919.8217.4814.8918.3719.5017.0818.1226.0211.3413.8110.2515.9415.8318.5424.5219.2626.1316.9918.8918.4620.8717.5113.1211.7517.4021.3617.1413.7712.5020.4020.3019.3823.1112.6723.0224.3625.6119.5314.7714.3724.7512.7317.2519.0916.7917.1919.3219.5919.1215.3121.7519.4715.5110.8627.8121.6516.3220.7522.1113.1717.5519.2612.6518.4819.8323.1219.2219.2216.7227.9011.7424.6614.1816.521.此资料为样本信息还是总体信息?指标?同质?变异?2.如何从纷繁复杂的数据中发现规律?2023/7/2419连续型定量变量的频数分布例2-2抽样调查某地120名18岁~35岁健康男性居民血清铁含量(μmol/L)。将数据适当分组,计数每组的频数,根据这些数据编制成的频数分布表(表2-2)则能显示出这组数据分布的特点。2023/7/2420频数与频数分布手工编制表2-2步骤。(1)计算全距(range,R),也称为极差

R=最大值-最小值=29.64-7.42=22.22(μmol/L)(2)确定组段数与组距:组段数一般可在10~15之间选择。组距=R/(预计的组段数)。如果分组过少误差大,组段过多则看不清分布规律。因此,分组要适当。较大样本时,一般取10组左右。本例如果预计取12个组段,则组距长度约为22.22/12=1.85,取整数2。各组组距可以相等,也可以不等。2023/7/2421(3)确定各组段的上下限

各组段的最小值称该组段的下限值,相邻较大组段的下限即为本组段的上限。上限=下限+组距。第一组段应包括最小值,但不一定等于最小值,注意选择整数。最后一个组段要包括最大值,同时要写出上、下限。注意数据归属

[

X1X2

)(4)列表划记

通过对频数表的观察可以看出两个重要的特征:一为集中趋势(centraltendency),观察值虽然大小不等,但向中间集中,所占比例较大;二为离散趋势(tendencyofdispersion),随着观察值逐渐变大或变小,频数越来越少,向两端分散,所占比例越来越小。2023/7/24222023/7/2423表2-2

120名正常成年男性血清铁含量(umol/L)频数表组段(1)频数(2)频率%(3)累积频数(4)累积频率%(5)6~1.81.88~32.543.310~65.0108.312~86.71815.014~1210.03025.016~2016.75041.718~2722.57764.220~1815.09579.222~1210.010789.224~86.711595.826~43.311999.228~301.8120100.0合计120100.0--2023/7/2424频数表的用途1.揭示频数的分布特征:一般从以下四个方面描述资料的分布特征⑴分布范围⑵高峰位置⑶变动趋势⑷是否对称2.提供分组数据,便于进一步计算分析3.便于发现某些特大或特小的可疑值4.样本含量足够大时,以频数作为概率的估计值

5.作为陈述资料的形式2023/7/2425109111113115117119121123125127129131133例数身高(cm)120名7岁男孩身高频数分布图2023/7/2426频数分布类型对称分布偏态分布正偏态分布负偏态分布2023/7/2427将频数分布表绘制成图可以看出:图形中间的直条最高(高峰在中央),两边对称(或基本对称)地逐渐减少。1.高峰位于中央的单峰分布,两侧逐渐下降并左右对称(或基本对称)。这种分布在统计学上称正态分布(normaldistribution)或近似正态分布。2.高峰位于左侧,尾部向右侧延伸的分布称正偏态分布(skewedpositivelydistribution)

或左偏态分布。3.高峰位于右侧,尾部向左侧延伸的分布称负偏态分布(skewednegativelydistribution)或右偏态分布。2023/7/2428频数分布的类型正偏态负偏态2023/7/2429连续型定量变量的频数分布

例2-2,仔细观察原始数据和表2-2,回答问题:原始数据怎样编制成频数分布表的?从频数分布表中得到哪些分布规律或信息?如何估计血清铁的平均水平?2023/7/2430

连续型定量变量的频数分布频数分布表中的一些基本概念:组段、上限、下限组距、频数、频率累积频数、累积频率2023/7/2431连续型定量变量的频数分布

频数分布表的编制步骤

1.求极差range=最大值-最小值;2.确定组段数、组距3.从小到大列出组段4.清点各组段包含的观察单位数(频数)5.整理成频数分布表2023/7/2432连续型定量变量的频数分布频数分布图:在表2-2的基础上,可以绘制出图2-2,称为直方图(频率直方图)。横轴:血清铁含量纵轴:频率密度,即频率/组距(直条面积等于相应组段的频数)。在组距相等时,直方图中矩形直条的高度与相应组段的频数成正比。2023/7/2433连续型定量变量的频数分布2023/7/2434第二节、描述集中趋势的统计指标算术均数几何均数中位数众数调和均数2023/7/2435第二节、描述集中趋势的统计指标集中趋势统计指标对于连续型定量变量,描述集中趋势常用的统计量为算术均数、几何均数和中位数。算术均数:适合描述对称分布资料的集中位置(也称为平均水平)。其计算公式为

2023/7/2436算术均数1)直接计算法:计算公式为

式中X1,X2和Xn为所有观察值,n为样本含量,∑(希腊字母,读作sigma)为求和的符号。2023/7/2437算术均数例2-3测得8只正常大鼠血清总酸性磷酸酶(TACP)含量(U/L)为4.20,6.43,2.08,3.45,2.26,4.04,5.42,3.38。试求其算术均数。算术均数=(4.20+6.43+2.08+3.45+2.26+4.04+5.42+3.38)/8=3.9075(U/L)2023/7/2438算术均数表2-3加权法计算均数组段组中值(XO)ffXO(1)(2)(3)(4)=(2)(3)6~7178~932710~1166612~13810414~151218016~172034018~192751320~211837822~231227624~25820026~27410828~3029129合计12022282023/7/2439算术均数2)加权频数表法:计算公式为加权均数=2228/120=18.57(μmol/L)直接法均数=18.61(μmol/L)。2023/7/2440几何均数(geometricmean,G)

适用于观察值变化范围跨越多个数量级、对数正态分布的资料。其频数图一般呈正偏峰分布。人们常用几何均数描述这类资料的集中位置。在医学研究中常适用于血清学、微生物学、免疫学的指标。其计算公式为:

2023/7/2441几何均数(geometricmean,G)例2-57名慢性迁延性肝炎患者的HBsAg滴度资料为1:16,1:32,1:32,1:64,1:64,1:128,1:512。试计算其几何均数。2023/7/2442几何均数(geometricmean,G)加权法计算几何均数。频数表资料例2-652例慢性肝炎患者的HBsAg滴度数据如表2-4。试计算滴度的几何均数。

2023/7/2443几何均数(geometricmean,G)表2-452例慢性肝炎患者的HBsAg滴度资料抗体滴度频数(f)滴度倒数(X)lgXf(lgX)1:162161.204122.408241:327321.5051510.536051:6411641.8061819.867981:128131282.1072127.393731:256122562.4082428.898881:51275122.7092718.96489合计52

108.069772023/7/2444几何均数(geometricmean,G)52例慢性肝炎患者的HBsAg滴度的几何均数为1∶119.74705。2023/7/2445中位数(median,M)一组数据从小到大排列,位置居中的数。

可用于各种分布的定量资料。中位数的原意是指在总体中有一半个体的数值低于这个数,一半个体的数值高于这个数。1.直接法:用于小样本资料(n<30)

奇数:

偶数:2023/7/24469例正常人的发汞值(mol/kg):1.11.83.54.24.8

5.65.97.110.5

M=?10例正常人的发汞值:1.11.83.54.24.85.65.97.110.516.3

M=?

例2-7某药厂观察9只小鼠口服高山红景天醇提物后在缺氧条件下的生存时间(分钟)如下:试求其中位数63.6、65.8、63.6、65.6、68.6、69.0、49.1、60.8、63.32023/7/2447百分位数(percentile)(一)定义百分位数用Px表示,是一个位置指标。一个百分位数Px将一组观察值分为两部分,理论上有x%的观察值比它小,有(100-x)%的观察值比它大。(二)适用条件

任何分布的资料,尤其用于偏态分布的资料或一端/两端无确定数值的资料。2.百分位数法计算中位数:大样本频数表资料2023/7/2448百分位数计算公式Lx:所求位数所在的组段的下限ix:

组距fx:所求位数所在组段的频数∑

fL:所求位数所在组段之前个组段的累积频数2023/7/2449百分位数法计算中位数:频数表资料例2-8试利用表2-2的频数表求例2-2中血清铁含量的中位数。从表2-2可判断出位于“18-”这个组段。将相应数据代入式(2-8)该组血清铁资料的中位数为18.74(μmol/L)如果按(2-7)式计算,

结果为18.99(μmol/L)。2023/7/2450练习题:根据下表计算中位数2023/7/2451众数、调和均数

众数(mode):总体中出现机会最高的数值。样本众数则是在样本中出现次数最多的数值。如例2-1产前检查次数的众数为4次调和均数(harmonicmean,H):

先求原始数据倒数的算术均数。该算术均数的倒数便称为原数据的调和均数。2023/7/2452众数、调和均数其计算公式为例2-10接受某种处理的5只小鼠生存时间(分钟)分别为49.1、60.8、63.3、63.6和63.6,试计算其调和均数。

2023/7/2453平均数应用的注意事项

同质的资料计算平均数才有意义根据资料的分布类型选用适当的平均数均数:单峰对称分布的资料几何均数:等比级数资料或近似倍数关系、对数正态分布中位数:理论上可用于任何分布资料,但当资料适合计算均数或几何均数时,不宜用中位数。(偏态分布、分布不明资料、有不确定值的资料)2023/7/2454第三节、描述离散趋势的统计指标离散趋势统计指标例2-11试观察三组数据的离散状况。A组:26,28,30,32,34;B组:24,27,30,33,36;C组:26,29,30,31,34。将三组数据分别点在直线上,如图2-4所示。2023/7/2455第三节离散趋势的描述

描述一群变量值分布特征时,除用平均数表示其集中位置外,还要说明变量值的分散或变异情况。说明变异情况的特征值称变异指标。变异指标又称离散指标。它用于描述一群计量资料变量值之间参差不齐的程度,即离散程度或变异程度。常用的描述离散程度的指标主要有极差(R)、四分位间距(Q)、方差(σ2或S2

)、标准差(σ或S)、变异系数(CV)和平均偏差。2023/7/2456第三节、描述离散趋势的统计指标极差四分位间距方差标准差变异系数2023/7/2457极差极差:一组变量值最大值与最小值之差极差反映个体变异范围,R越大,变异程度就越大。极差不能反映所有数据的变异大小,受样本含量的影响较大,N大,极差值相差也大,其稳定性较差。极差仅考虑两端数据,不能反映一组数据中其他数据的变异度,易受两端数值的影响,故不够稳定;若一端或两端数据不确切,全距难以计算。例2-11中三组数据的极差

A组R=34-26=8B组R=36-24=12C组R=34-26=82023/7/2458四分位数间距四分位数(quartile)是把全部变量值分为四部分的百分位数,即第1四分位数(QL=P25)、第2四分位数(M=P50)、第3四分位数(QU=P75)。四分位数间距(quartilerange)是由第3四分位数和第1四分位数相减而得,记为QR。它一般和中位数一起描述偏态分布资料的分布特征。2023/7/2459(一)定义:用Q

表示,是上四分位数QU(P75)和下四分位数QL(P25)之差。

Q=(QU-QL)=P75-P25

Q值越大,说明变异程度越大。(二)适用条件:常用于偏态分布资料的离散程度的描述(三)优缺点:未考虑每个观察值2023/7/2460方差A组:26,28,30,32,34B组:24,27,30,33,362023/7/2461方差离均差:每一个变量值与均数的差值离均差和:每一个变量值与均数的差值的和离均差平方和:离均差平方后相加得到的值方差(variance):离均差平方和再取平均值,也称均方差,用σ2,反映一组数据的平均离散水平。2023/7/2462方差:离均差平方和的均数,简称方差或均方差(meansquaredeviation)。总体方差和样本方差分别用σ2和s2表示。方差的优缺点:优点:考虑到每个观察值。缺点:度量单位为单位的平方,故难以解释,在科技报道中很少使用。2023/7/2463总体方差:

样本方差:

a.直接法:

b.频数表法:f为频数表各组段的频数,X为频数表各组段的组中值。2023/7/2464标准差方差计算公式为4、标准差:2023/7/2465(一)标准差的定义及计算

方差的平方根即为标准差,总体标准差σ(sigma)是总体中各变量值X与总体均数μ之差平方后相加,即Σ(x-μ)2(称离均差平方和),再用总体例数N平均后所得的平方根。

σ=2023/7/2466(一)标准差的定义及计算

当N固定后,若各变量值离均数近,Σ(x-μ)2就小,σ就小,表示变量值参差小;若各变量值离均数远,Σ(x-μ)2就大,σ就大,表示参差大。标准差的单位与均数的单位相同。实际工作中由于得不到μ常用作为μ的估计值;用样本标准差s作为总体标准差估计值σ,则:2023/7/2467(一)标准差的定义及计算2023/7/2468如

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论