高等教育统计描述一课件_第1页
高等教育统计描述一课件_第2页
高等教育统计描述一课件_第3页
高等教育统计描述一课件_第4页
高等教育统计描述一课件_第5页
已阅读5页,还剩93页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

统计描述(一)统计描述(一)1统计描述统计分析

统计描述统计推断统计描述统计统计描述统计推断2统计描述统计描述是统计分析的必经之路,通过计算相应的统计指标,必要时结合统计图表就可较全面地刻画出研究结果的特征。统计描述统计描述是统计分析的必经之路,通过计算相应的3统计描述在统计分析中,没有准确的统计描述,就得不出合理的统计推断结果。因此我们必须重视统计描述;否则,统计推断就成了“无源之水”。统计描述在统计分析中,没有准确的统计描述,就得不出合理4统计描述统计指标统计图表统计分布Poisson分布变异指标平均数指标统计表统计图正态分布t分布F分布x2分布二项分布相对数指标统计分析统计描述统计推断统统计指标统计图表统计分布Poisson分布变异指标平均数指5频数分布表与频数分布图

(frequencytableandfrequencydistribution)

频数分布表与频数分布图

(frequencytable6

用途:描述资料的分布特征

频数:在一批样本中,相同情形出现的次数称为该情形的频数。资料类型组段频数计数和等级观察结果的所有分类相同类别出现的次数计量根据观察结果重新划分分组统计频数分布表

(frequencytable)

用途:描述资料的分布特征

频数:在一批样本中,相同情形出7某地150名正常成年男子红细胞数(1012/L)

3.985.394.544.745.134.434.814.983.795.494.665.264.904.904.174.284.634.944.334.844.754.014.494.575.165.694.845.035.324.544.684.604.394.804.974.804.855.214.454.625.054.135.074.405.084.735.104.734.424.814.983.895.464.534.744.104.904.914.274.294.665.235.314.864.674.434.575.005.165.694.835.044.464.615.004.364.754.965.045.374.954.704.834.424.134.784.864.785.234.785.204.804.554.824.983.944.544.745.104.434.584.994.314.644.665.265.284.834.154.354.935.175.614.875.043.984.484.574.774.114.955.005.365.064.684.634.405.304.975.294.855.884.494.624.534.104.534.704.805.235.674.674.675.405.294.775.385.154.645.19某地150名正常成年男子红细胞数(1012/L)3.988

计量资料频数表的编制步骤(1)求极差(range):即最大值与最小值之差,又称为全距。本例极差:R=5.88-3.79=2.09(1012/L)(2)决定组段数和组距:根据样本含量n确定,组段数通常取8-15组。实际工作中,组距通常参考极差的十分之一,再略加调整。本例i=R

/10=2.09/10=0.209≈0.2。计量资料频数表的编制步骤(1)求极差(range):即最大9(3)确定各个组段的上限和下限:组段的左端点称为下限,右端点称为上限。第一组段把最小值包括进去,最后一个组段把最大值包括进去。本例:第一组下限可取3.7,则上限为3.9,依此类推……,共得11组。(4)列表整理:按照“下限≤X<上限”的原则,用划记法将所有数据归纳到各组段,得到各组段的频数。(3)确定各个组段的上限和下限:组段的左端点称为下限,右端点10组段(1)频数f(2)组中值X0(3)fX0(4)=(2)×(3)3.7~13.83.83.9~44.016.04.1~114.246.24.3~174.474.84.5~264.6119.64.7~324.8153.64.9~265.0130.05.1~185.293.65.3~105.454.05.5~45.622.45.7~5.9合计15.85.8150—719.8组段频数f组中值X0fX03.7~111频数分布图

(frequencydistribution)

计数资料

以类别或属性为横轴,以各直条的长短表示频数的多少频数分布图

(frequencydistribution12计量资料以组段为横轴,在各组段上分别绘制长方形,令长方形的高度等于相应的频数。这样的频数图因诸多长方形又名为频数直方图。计量资料13频数表和频数分布图用途第一:

描述资料分布的类型(1)对称分布:若各组段频数的分布以频数最多的组段为中心左右两侧大体对称,就认为该资料是对称分布(2)偏态分布:频数表和频数分布图用途第一:描述资料分布的类型14右偏态分布(正偏态分布):频数最多组段右侧的组段数多于左侧的组段数,高峰向左偏移,向右侧拖尾的分布。

115名正常成年女子血清转氨酶(mmol/L)含量分布右偏态分布(正偏态分布):频数最多组段右侧的组段数多于左侧的15[高等教育]统计描述一课件16左偏态分布(负偏态分布):左侧的组段数多于右侧的组段数,频数向左侧拖尾。

表101名正常人的血清肌红蛋白(μg/mL)含量分布左偏态分布(负偏态分布):左侧的组段数多于右侧的组段数,频数17[高等教育]统计描述一课件18第二:描述频数分布的集中趋势和离散趋势集中趋势(centraltendency):频数较集中的组段趋势。——平均水平指标离散趋势(tendencyofdispersion):频数由较集中的组段逐渐减少的趋势。

——变异水平指标

第二:描述频数分布的集中趋势和离散趋势集中趋势(centra19第三:便于发现一些特大或特小的可疑值第三:便于发现一些特大或特小的可疑值20计量资料常用的统计描述指标描述集中趋势的指标描述离散趋势的指标计量资料常用的统计描述指标描述集中趋势的指标21(一)、描述集中趋势的指标(平均水平指标)统称为平均数(average),反映资料的集中趋势。常用的平均数有:

1.算术均数(arithmeticmean),简称均数(mean)

2.几何均数(geometricmean)

3.中位数

(median)

(一)、描述集中趋势的指标(平均水平指标)统称为平均数(av221、算术均数(mean)

符号:总体均数,样本均数

适用条件:资料呈对称分布,尤其是正态分布或近似正态分布计算:(1)直接法1、算术均数(mean)符号:总体均数,样本均数

适23(2)频数表法该组段的组中值组段的频数(2)频数表法该组段的组中值组段的频数24表示求X的以10为底的反对数(即)符号:只适合于数据大于0的资料适用条件:数据呈倍数关系或服从对数对称分布(一种偏态分布)的资料计算:(1)直接法:(2)频数表法:2、几何均数(geometricmean)表示求X的以10为底的反对数(即)符号:25

血清的抗体效价滴度的倒数分别为:10、100、1000、10000、100000,求几何均数。解:特点:1、倍数关系

2、偏态分布算术均数为22222,显然不能代表滴度的平均水平。因此,平均抗体效价约为1:1000例血清的抗体效价滴度的倒数分别为:10、100、10026频数表资料的几何均数抗体滴度

⑴人数,f⑵滴度倒数,X⑶lgX⑷

f·lgX⑸1:4

1:81:161:32┇1:512

合计1562┇540481632┇5120.60210.90311.20411.5051┇2.70930.60214.51557.22463.0102┇13.546572.2471

频数表资料的几何均数抗体滴度人数,f滴度倒数,XlgX273.中位数(median)符号:M意义:中位数是将全部观察值由小到大排列后位次居中的数据值。适用条件:①偏态分布的资料;②分布类型不明的资料;③开口资料3.中位数(median)符号:M28计算:先将观察值按从小到大顺序排列,再按以下公式计算:特点:仅仅利用了中间的1~2个数据(n为奇数)(n为偶数)计算:先将观察值按从小到大顺序排列,再按以下公式计算:特点:29频数表资料的中位数对于频数表资料可通过百分位数法计算中位数。

百分位数:是一种位置指标,用表示。是一个界值,它将观察值分成两部分,有X%的观察值比它小,有(100-X)%的观察值比它大。

如:第25百分位数第50百分位数第75百分位数第50百分位数即中位数频数表资料的中位数对于频数表资料可通过百分位数法计算中位数30

频数表资料中百分位数计算方法:

百分位数该组的频数所在组段的下限该组段的组距总频数该组段之前的累计频数频数表资料中百分位数计算方法:百分位数该组的频数所在31潜伏期/h(1)频数,f(2)累计频数Sf(3)0~17176~466312~3810118~3213324~613930~013936~414342~48合计2145145—例4-8潜伏期/h频数,f累计频数Sf0~17176~466332均数、中位数二者关系正态分布:均数≈中位数右(正)偏态分布:均数>中位数左(负)偏态分布时:均数<中位数均数、中位数二者关系正态分布:均数≈中位数33【例】某地239名居民发汞(mol/kg)分布组段频数累积频数累积百分比1-20208.373-668635.985-6014661.097-4819481.179-1821288.7011-1622895.4013-623497.9115-123598.3317-123698.7419-3239100.00合计239【例】某地239名居民发汞(mol/kg)分布组段频数累积34Mean=6.69Median=6.00右偏态分布时中位数与均数的关系Mean=6.69Median=6.00右偏态分布时中位数与35小结:

集中趋势的描述——平均数

定义:描述一组变量值的集中位置或平均水平的指标体系。应用:均数:正态分布或对称分布资料(参数方法)中位数:偏态分布或未知分布资料(非参数方法)几何均数—变量值呈倍数(等比级数)关系,或资料呈对数正态分布。小结:集中趋势的描述——平均数定义:描述一组变量值的集中36(二)、描述离散趋势的指标(变异指标)反映数据的离散度,即个体观察值的变异程度。常用的指标有:

1.极差/全距(range)

2.四分位数间距(IQR,inter-quartilerange)

3.方差(variance)

4.标准差(standarddeviation)

5.变异系数(coefficientofvariation)

(二)、描述离散趋势的指标(变异指标)反映数据的离散度,即个371、极差/全距(range,

R)符号:R计算:意义:反映个体变异的范围。适用范围:任何计量资料,是参考变异指标缺点:1.只利用了两个极端值

2.n大,R也会大

3.稳定性差1、极差/全距(range,R)符号:R38一组性质相同的定量数据中,第75百分位数()与第25百分位数()之差,可看作中间一半观测值的极差。

多用于描述偏态分布资料的变异水平。2、四分位数间距(inter-quartilerange,IQR

)一组性质相同的定量数据中,第75百分位数()与第25百39潜伏期/h(1)频数,f(2)累计频数Sf(3)0~17176~466312~3810118~3213324~613930~013936~414342~48合计2145145—潜伏期/h频数,f累计频数Sf0~17176~466340反映一组数据的平均变异水平,前者是后者的平方。标准差最常应用,常结合均数描述正态分布的特征。

标准差计算如下:3、方差(variance)和标准差(standarddeviation,S)反映一组数据的平均变异水平,前者是后者的平方。标准差最41离均差

离均差平方和

总体方差总体标准差样本标准差变异与N有关离均差变异与N有关42频数表计算样本标准差的公式为:频数表计算样本标准差的公式为:43标准差的计算丙甲2乙2丙27.9115.8150.99标准差250051050550049549012604003136002916002500002116001936001251000270400260100250000240100230400125025026010025502525000024502524010025002500合计52056055105404500500349046024804401乙甲盘编号标准差的计算丙甲2乙2丙27.9115.8150.99标准差44组段(1)频数,f(2)组中值,X(3)

fX(4)=(2)×(3)3.7~13.83.83.9~44.016.04.1~114.246.24.3~174.474.84.5~264.6119.64.7~324.8153.64.9~265.0130.05.1~185.293.65.3~105.454.05.5~45.622.45.7~5.9

合计15.85.8150719.8组段频数,f组中值,XfX345标准差应用标准差是数据处理中最常用的统计指标,用途:(1)常用作为计量资料描述的专用符号。:平均水平;:变异度大小

(2)表示数据分布的离散程度,衡量变异度大小。(3)描述计量资料,尤其是正态分布的数据资料,并利用正态曲线下面积分布规律,制定各种参考值范围。标准差应用标准差是数据处理中最常用的统计指标,用途:465.变异系数(coefficientofvariation)符号:CV适用条件:①观察指标单位不同,如身高、体重

②同单位资料,但均数相差悬殊均数标准差变异系数青年男子身高170cm6cm3.5%体重60kg7kg11.7%

意义:挑选指标时变异系数越小,指标越好。计算:5.变异系数(coefficientofvariati47变异指标小结1.极差较粗,适合于任何分布2.标准差与均数的单位相同,最常用,适合于近似正态分布3.变异系数主要用于单位不同或均数相差悬殊的资料4.平均指标和变异指标分别反映资料的不同特征,常配套使用,如正态分布:均数、标准差;偏态分布:中位数变异指标小结1.极差较粗,适合于任何分布48统计描述思考题:一个服从正态分布的总体,若其中每个变量均加上一个常数,问:均数、方差、标准差、变异系数的变化?若是均乘以一个常数,这4个指标又是如何变化的?统计描述思考题:49统计描述(一)统计描述(一)50统计描述统计分析

统计描述统计推断统计描述统计统计描述统计推断51统计描述统计描述是统计分析的必经之路,通过计算相应的统计指标,必要时结合统计图表就可较全面地刻画出研究结果的特征。统计描述统计描述是统计分析的必经之路,通过计算相应的52统计描述在统计分析中,没有准确的统计描述,就得不出合理的统计推断结果。因此我们必须重视统计描述;否则,统计推断就成了“无源之水”。统计描述在统计分析中,没有准确的统计描述,就得不出合理53统计描述统计指标统计图表统计分布Poisson分布变异指标平均数指标统计表统计图正态分布t分布F分布x2分布二项分布相对数指标统计分析统计描述统计推断统统计指标统计图表统计分布Poisson分布变异指标平均数指54频数分布表与频数分布图

(frequencytableandfrequencydistribution)

频数分布表与频数分布图

(frequencytable55

用途:描述资料的分布特征

频数:在一批样本中,相同情形出现的次数称为该情形的频数。资料类型组段频数计数和等级观察结果的所有分类相同类别出现的次数计量根据观察结果重新划分分组统计频数分布表

(frequencytable)

用途:描述资料的分布特征

频数:在一批样本中,相同情形出56某地150名正常成年男子红细胞数(1012/L)

3.985.394.544.745.134.434.814.983.795.494.665.264.904.904.174.284.634.944.334.844.754.014.494.575.165.694.845.035.324.544.684.604.394.804.974.804.855.214.454.625.054.135.074.405.084.735.104.734.424.814.983.895.464.534.744.104.904.914.274.294.665.235.314.864.674.434.575.005.165.694.835.044.464.615.004.364.754.965.045.374.954.704.834.424.134.784.864.785.234.785.204.804.554.824.983.944.544.745.104.434.584.994.314.644.665.265.284.834.154.354.935.175.614.875.043.984.484.574.774.114.955.005.365.064.684.634.405.304.975.294.855.884.494.624.534.104.534.704.805.235.674.674.675.405.294.775.385.154.645.19某地150名正常成年男子红细胞数(1012/L)3.9857

计量资料频数表的编制步骤(1)求极差(range):即最大值与最小值之差,又称为全距。本例极差:R=5.88-3.79=2.09(1012/L)(2)决定组段数和组距:根据样本含量n确定,组段数通常取8-15组。实际工作中,组距通常参考极差的十分之一,再略加调整。本例i=R

/10=2.09/10=0.209≈0.2。计量资料频数表的编制步骤(1)求极差(range):即最大58(3)确定各个组段的上限和下限:组段的左端点称为下限,右端点称为上限。第一组段把最小值包括进去,最后一个组段把最大值包括进去。本例:第一组下限可取3.7,则上限为3.9,依此类推……,共得11组。(4)列表整理:按照“下限≤X<上限”的原则,用划记法将所有数据归纳到各组段,得到各组段的频数。(3)确定各个组段的上限和下限:组段的左端点称为下限,右端点59组段(1)频数f(2)组中值X0(3)fX0(4)=(2)×(3)3.7~13.83.83.9~44.016.04.1~114.246.24.3~174.474.84.5~264.6119.64.7~324.8153.64.9~265.0130.05.1~185.293.65.3~105.454.05.5~45.622.45.7~5.9合计15.85.8150—719.8组段频数f组中值X0fX03.7~160频数分布图

(frequencydistribution)

计数资料

以类别或属性为横轴,以各直条的长短表示频数的多少频数分布图

(frequencydistribution61计量资料以组段为横轴,在各组段上分别绘制长方形,令长方形的高度等于相应的频数。这样的频数图因诸多长方形又名为频数直方图。计量资料62频数表和频数分布图用途第一:

描述资料分布的类型(1)对称分布:若各组段频数的分布以频数最多的组段为中心左右两侧大体对称,就认为该资料是对称分布(2)偏态分布:频数表和频数分布图用途第一:描述资料分布的类型63右偏态分布(正偏态分布):频数最多组段右侧的组段数多于左侧的组段数,高峰向左偏移,向右侧拖尾的分布。

115名正常成年女子血清转氨酶(mmol/L)含量分布右偏态分布(正偏态分布):频数最多组段右侧的组段数多于左侧的64[高等教育]统计描述一课件65左偏态分布(负偏态分布):左侧的组段数多于右侧的组段数,频数向左侧拖尾。

表101名正常人的血清肌红蛋白(μg/mL)含量分布左偏态分布(负偏态分布):左侧的组段数多于右侧的组段数,频数66[高等教育]统计描述一课件67第二:描述频数分布的集中趋势和离散趋势集中趋势(centraltendency):频数较集中的组段趋势。——平均水平指标离散趋势(tendencyofdispersion):频数由较集中的组段逐渐减少的趋势。

——变异水平指标

第二:描述频数分布的集中趋势和离散趋势集中趋势(centra68第三:便于发现一些特大或特小的可疑值第三:便于发现一些特大或特小的可疑值69计量资料常用的统计描述指标描述集中趋势的指标描述离散趋势的指标计量资料常用的统计描述指标描述集中趋势的指标70(一)、描述集中趋势的指标(平均水平指标)统称为平均数(average),反映资料的集中趋势。常用的平均数有:

1.算术均数(arithmeticmean),简称均数(mean)

2.几何均数(geometricmean)

3.中位数

(median)

(一)、描述集中趋势的指标(平均水平指标)统称为平均数(av711、算术均数(mean)

符号:总体均数,样本均数

适用条件:资料呈对称分布,尤其是正态分布或近似正态分布计算:(1)直接法1、算术均数(mean)符号:总体均数,样本均数

适72(2)频数表法该组段的组中值组段的频数(2)频数表法该组段的组中值组段的频数73表示求X的以10为底的反对数(即)符号:只适合于数据大于0的资料适用条件:数据呈倍数关系或服从对数对称分布(一种偏态分布)的资料计算:(1)直接法:(2)频数表法:2、几何均数(geometricmean)表示求X的以10为底的反对数(即)符号:74

血清的抗体效价滴度的倒数分别为:10、100、1000、10000、100000,求几何均数。解:特点:1、倍数关系

2、偏态分布算术均数为22222,显然不能代表滴度的平均水平。因此,平均抗体效价约为1:1000例血清的抗体效价滴度的倒数分别为:10、100、10075频数表资料的几何均数抗体滴度

⑴人数,f⑵滴度倒数,X⑶lgX⑷

f·lgX⑸1:4

1:81:161:32┇1:512

合计1562┇540481632┇5120.60210.90311.20411.5051┇2.70930.60214.51557.22463.0102┇13.546572.2471

频数表资料的几何均数抗体滴度人数,f滴度倒数,XlgX763.中位数(median)符号:M意义:中位数是将全部观察值由小到大排列后位次居中的数据值。适用条件:①偏态分布的资料;②分布类型不明的资料;③开口资料3.中位数(median)符号:M77计算:先将观察值按从小到大顺序排列,再按以下公式计算:特点:仅仅利用了中间的1~2个数据(n为奇数)(n为偶数)计算:先将观察值按从小到大顺序排列,再按以下公式计算:特点:78频数表资料的中位数对于频数表资料可通过百分位数法计算中位数。

百分位数:是一种位置指标,用表示。是一个界值,它将观察值分成两部分,有X%的观察值比它小,有(100-X)%的观察值比它大。

如:第25百分位数第50百分位数第75百分位数第50百分位数即中位数频数表资料的中位数对于频数表资料可通过百分位数法计算中位数79

频数表资料中百分位数计算方法:

百分位数该组的频数所在组段的下限该组段的组距总频数该组段之前的累计频数频数表资料中百分位数计算方法:百分位数该组的频数所在80潜伏期/h(1)频数,f(2)累计频数Sf(3)0~17176~466312~3810118~3213324~613930~013936~414342~48合计2145145—例4-8潜伏期/h频数,f累计频数Sf0~17176~466381均数、中位数二者关系正态分布:均数≈中位数右(正)偏态分布:均数>中位数左(负)偏态分布时:均数<中位数均数、中位数二者关系正态分布:均数≈中位数82【例】某地239名居民发汞(mol/kg)分布组段频数累积频数累积百分比1-20208.373-668635.985-6014661.097-4819481.179-1821288.7011-1622895.4013-623497.9115-123598.3317-123698.7419-3239100.00合计239【例】某地239名居民发汞(mol/kg)分布组段频数累积83Mean=6.69Median=6.00右偏态分布时中位数与均数的关系Mean=6.69Median=6.00右偏态分布时中位数与84小结:

集中趋势的描述——平均数

定义:描述一组变量值的集中位置或平均水平的指标体系。应用:均数:正态分布或对称分布资料(参数方法)中位数:偏态分布或未知分布资料(非参数方法)几何均数—变量值呈倍数(等比级数)关系,或资料呈对数正态分布。小结:集中趋势的描述——平均数定义:描述一组变量值的集中85(二)、描述离散趋势的指标(变异指标)反映数据的离散度,即个体观察值的变异程度。常用的指标有:

1.极差/全距(range)

2.四分位数间距(IQR,inter-quartilerange)

3.方差(variance)

4.标准差(standarddeviation)

5.变异系数(coefficientofvariation)

(二)、描述离散趋势的指标(变异指标)反映数据的离散度,即个861、极差/全距(range,

R)符号:R计算:意义:反映个体变异的范围。适用范围:任何计量资料,是参考变异指标缺点:1.只利用了两个极端值

2.n大,R也会大

3.稳定性差1、极差/全距(range,R)符号:R87一组性质相同的定量数据中,第75百分位数()与第25百分位数()之差,可看作中间一半观测值的极差。

多用于描述偏态分布资料的变异水平。2、四分位数间距(inter-quartilerange,IQR

)一组性质相同的定量数据中,第75百分位数()与第25百88潜伏期/h(1)频数,f(2)累计频数Sf(3)0~17176~466312~3810118~3213324~613930~013936~414342~48合计2145145—潜伏期/h频数,f累计频数Sf0~17176~466389反映一组数据的平均变异水平,前者是后者的平方。标准差最常应用,常结合均数

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论