定量变量的统计描述_第1页
定量变量的统计描述_第2页
定量变量的统计描述_第3页
定量变量的统计描述_第4页
定量变量的统计描述_第5页
已阅读5页,还剩47页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、lzhmin 资料的类型:资料的类型: 定性资料定性资料 统计分析方法:统计分析方法:定量资料定量资料数值变量资料的数值变量资料的统计分析方法统计分析方法分类变量资料的分类变量资料的统计分析方法统计分析方法 统计分析:统计分析: - 描述统计描述统计 - 推断统计推断统计- 集中趋势指标集中趋势指标- 离散趋势指标离散趋势指标-可信区间估计可信区间估计 - 统计检验统计检验- 相对数(率、构相对数(率、构成比、相对比)成比、相对比)-可信区间估计可信区间估计 - 统计检验统计检验lzhminlzhmin频数频数(frequency)频率分布表频率分布表(frequency distributi

2、on table)频率分布图频率分布图(frequency distribution chart)集中趋势集中趋势(central tendency)离散趋势离散趋势(tendency of dispersion)正态分布正态分布(normal distribution) -正偏态分布正偏态分布(skewed positively distribution):若高峰位于左侧。:若高峰位于左侧。 -负偏态分布负偏态分布(skewed negatively distribution):若高峰位于右侧。:若高峰位于右侧。lzhmin离散型定量变量的取值是不连续的离散型定量变量的取值是不连续的(P11

3、,例例2-1)可用频数、频率;累计频数、累计频率来表示可用频数、频率;累计频数、累计频率来表示(P12,表表2-1)可用直条图可用直条图(bar chart)来表达各组频率的大小来表达各组频率的大小(P12,图图2-1)lzhminlzhmin连续型定量变量的取值是连续的(连续型定量变量的取值是连续的(P11,例例2-2; P12,表表2-2)。)。可用组段的频数、频率;组段的累计频数、累计频率来表示可用组段的频数、频率;组段的累计频数、累计频率来表示(P13,表表2-3)。)。可用直方图(可用直方图(histogram)来表达各组段频率的分布状况)来表达各组段频率的分布状况(P13,图图2-

4、2)lzhminlzhmin 描述变量的分布类型描述变量的分布类型(P14,图图2-3) - 正偏峰分布:左侧偏移的分布正偏峰分布:左侧偏移的分布 - 负偏峰分布:右侧偏移的分布负偏峰分布:右侧偏移的分布 揭示变量的分布特征揭示变量的分布特征 - 集中趋势(集中趋势(central tendency) - 离散趋势(离散趋势(tendency of dispersion) 便于发现某些极端值或离群值便于发现某些极端值或离群值 便于计算统计指标和进行统计分析便于计算统计指标和进行统计分析lzhminlzhmin计算极差,或称全距(计算极差,或称全距(range)决定组数、组段和组距决定组数、组段

5、和组距列表划记列表划记绘制频数分布图绘制频数分布图lzhminlzhmin算术平均数算术平均数(arithmetic mean)(arithmetic mean)几何平均数几何平均数(geometric mean)(geometric mean)中位数中位数(median)(median)众数众数(mode)(mode)调和均数调和均数(harmonic mean)(harmonic mean) lzhmin算术平均数算术平均数(arithmetic mean) 指一组同质的数值之和除以数值个数所得的商。指一组同质的数值之和除以数值个数所得的商。总体均数用希腊字母总体均数用希腊字母表示,样本均

6、数用表示,样本均数用 表示。表示。 - 适用条件:适用条件: 正态分布或近似正态分布资料。正态分布或近似正态分布资料。 - 计算方法:计算方法: * 直接法(直接法(P15,例例2-3) lzhminnxxxxnxni321式(式(2-1) * 频数表法或加权法(频数表法或加权法(P15,例,例2-4,表,表2-4)nnniiifffxfxfxfxffxf21332211 各组的权数越大,权数和组中值(各组的权数越大,权数和组中值(class mid-value) 乘积越大,作用也越大;反之依然。乘积越大,作用也越大;反之依然。式(2-2)lzhmin几何均数几何均数(geometric me

7、an) 指各观察值指各观察值x对数值均值的反对数。用对数值均值的反对数。用G表示。表示。 - 适用条件:适用条件: * 偏态分布资料;偏态分布资料; * 各观察值呈倍数关系或近似倍数关系资料。各观察值呈倍数关系或近似倍数关系资料。 如抗体的平均滴度、药物的平均效价等。如抗体的平均滴度、药物的平均效价等。 - 计算方法:计算方法: * 直接法(直接法(P16,例,例2-5)lzhmin)lg(lglglglglg121121nxnxxxxxxGinnn式(2-3, 2-4) * 频数表法或加权法(频数表法或加权法(P17,例,例2-6,表,表2-5)inniiifxfxfxffxfGlglglg

8、)lg(lg22111式(2-5)lzhmin中位数中位数(median)和百分位数和百分位数(percentile) 中位数是指一组数据中位置居中的数值。用中位数是指一组数据中位置居中的数值。用M表示。表示。 - 适用条件:适用条件: * 明显的偏态分布资料;明显的偏态分布资料; * 未知分布资料。未知分布资料。 - 计算方法计算方法 * 直接法(直接法(P17,例,例2-7) - n为奇数时,为奇数时, - n为偶数时,为偶数时, lzhmin2/1)(NXM2/ 12/2/)()(NNXXM式(2-6)式(2-7) * 频数表法(频数表法(P18,例,例2-8,表,表2-6))%(LxX

9、fxnfiLP百分位数是把数据从小到大分成百分位数是把数据从小到大分成100等份,等份, 各等份分成各等份分成1%的观察值,分割界限上的值。的观察值,分割界限上的值。 用用Px表示。中位数实际上就是表示。中位数实际上就是50百分位数,百分位数, 用用P50表示。表示。式(2-8)lzhmin众数众数(mode)(P18, 例例2-9) 指一组数据中出现频率最多的那个数据。一组数据可指一组数据中出现频率最多的那个数据。一组数据可以有多个或没有众数。以有多个或没有众数。调和均数调和均数(harmonic mean) 指变量倒数的算术平均数。调和平均数又称倒数平均指变量倒数的算术平均数。调和平均数又

10、称倒数平均数。数。lzhminlzhmin例(例(P19,2-10):试观察):试观察A、B和和C三组数据的离散状况。三组数据的离散状况。 A组:组: 24, 27, 30, 33, 36 B组:组: 26, 28, 30, 32, 34 C组:组: 26, 29, 30, 31, 34lzhmin极差或称全距极差或称全距(range) 指一组资料最大值和最小值之差。用指一组资料最大值和最小值之差。用R表示。表示。四分位数间距四分位数间距(quartile range) 指上四分位数指上四分位数QU(P75)和下四分位数)和下四分位数QL(P25)之差。用)之差。用Q表示。表示。 Q=P75

11、-P25lzhmin方差方差(variance) 指离均差平方和的均数。总体方差用指离均差平方和的均数。总体方差用2表示,表示,样本方差用样本方差用S2表示。表示。Nx22)(1)(22nxxS 式中式中 (n-1)称为自由度,用)称为自由度,用 或或 表示。表示。 自由度(自由度(degree of freedom):随机变量能):随机变量能“自由自由”取值的个数。取值的个数。 dfv式(2-9)限制条件的个数 nvlzhmin标准差标准差 (standard deviation)(P21,例例2-13,14) 指方差开平方的值。总体标准差用方差指方差开平方的值。总体标准差用方差表示,样本表

12、示,样本标准差用标准差用S表示。表示。 在实际计算中,样本标准差较总体标准差小,故英国在实际计算中,样本标准差较总体标准差小,故英国统计学家统计学家W.S.Gosset提出了校正方法,即提出了校正方法,即N用用n-1的自由的自由度代替。度代替。lzhminNx2)(1)(2nxxS 方差和标准差都表示资料变异的程度,方差和标准差都表示资料变异的程度, 值越大,说明变异程度就越大。值越大,说明变异程度就越大。式(2-12)变异系数变异系数(coefficient of variation) (P22,例例2-15) 指标准差除以算术均数,以百分数表示。指标准差除以算术均数,以百分数表示。 用用C

13、V表示。常用于比较度量单位不同或均数表示。常用于比较度量单位不同或均数 相差悬殊的两组(或多组)资料的变异程度相差悬殊的两组(或多组)资料的变异程度 (式(式2-16)。)。%100 xSCV式(2-16)lzhminlzhmin偏度系数偏度系数(coefficient of skewness,SKEW) 理论上,总体偏度系数为理论上,总体偏度系数为0时,分布是对称的;时,分布是对称的;取正值时,分布为正偏峰;取负值时,分布为负取正值时,分布为正偏峰;取负值时,分布为负偏峰。偏峰。3)()2)(1(SnnnSKEW式(2-17)lzhmin峰度系数峰度系数(coefficient of kur

14、tosis, KURT) 理论上,正态分布的总体峰度系数为理论上,正态分布的总体峰度系数为0;取负;取负值时,其分布较正态分布的峰平阔;取正值时,值时,其分布较正态分布的峰平阔;取正值时,其分布较正态分布的峰尖峭。其分布较正态分布的峰尖峭。) 3)(2() 1( 3)() 3)(2)(1() 1(24nnnSnnnnnKURT式(2-18)lzhminlzhmin统计表的基本结构统计表的基本结构-表号及表号及标题:位于统计表的上方中央,要简明扼要,必要时要表明时间、标题:位于统计表的上方中央,要简明扼要,必要时要表明时间、 地点。地点。- 标目:用简单的文字说明表格内的项目。标目:用简单的文字

15、说明表格内的项目。 。横标目:位于表的左侧,说明横行数字的涵义;。横标目:位于表的左侧,说明横行数字的涵义; 。纵标目:位于表的上侧,说明纵行数字的涵义。纵标目:位于表的上侧,说明纵行数字的涵义。- 线条:只用横线,不用竖线,斜线;线条不宜过多线条:只用横线,不用竖线,斜线;线条不宜过多,常用,常用“三线表三线表”。- 数字:用阿拉伯数字表示,小数位数要一致,上下要对齐数字:用阿拉伯数字表示,小数位数要一致,上下要对齐,表内不留空格,表内不留空格。 。数字暂缺或未记录用。数字暂缺或未记录用“”表示;表示; 。无数字用。无数字用“-”表示;表示; 。数字为零用。数字为零用“0”表示。表示。- 备

16、注:可用备注:可用“*”标注后,在表的下方用文字加以说明。标注后,在表的下方用文字加以说明。 lzhmin统计表的统计表的种类种类-简单表简单表(simple table):主辞仅有一个标志。(:主辞仅有一个标志。(P23,表,表2-7)lzhminlzhmin-复合表复合表(combinative table):又称组合表,主辞有两个以上的标志。:又称组合表,主辞有两个以上的标志。(P24,表,表2-8)lzhminlzhmin编制编制统计表统计表常存在常存在的的问题问题- 内容庞杂;内容庞杂;- 标题不确切,不精练,不完善,甚至缺标题;标题不确切,不精练,不完善,甚至缺标题;- 标目安排不

17、恰当,重复;标目安排不恰当,重复;- 计算指标不能说明研究事物的本质;计算指标不能说明研究事物的本质;- 数字不准确或数字位数未对齐。数字不准确或数字位数未对齐。lzhmin编制编制统计表统计表应注意的事项应注意的事项- 重点突出,简单明了;重点突出,简单明了;- 主谓分明,层次清楚。主谓分明,层次清楚。lzhmin描述定量变量的常用统计图描述定量变量的常用统计图 1)直方图)直方图(histogram) 用各直方的面积表示各组段的用各直方的面积表示各组段的频数,用以表示连续型定量变量的频数,用以表示连续型定量变量的频数分布。横轴常表示被观察的对频数分布。横轴常表示被观察的对象象(变量变量),

18、通常为连续型变量;纵,通常为连续型变量;纵轴表示频数或频率。以各矩形面积轴表示频数或频率。以各矩形面积代表各组段的频数或频率,各矩形代表各组段的频数或频率,各矩形之间不留空隙(之间不留空隙(P25,图,图2-5)。)。lzhmin 2)累计频率分布图)累计频率分布图(cumulative histogram) 可用于描述连续型变量的累计频率分布,其横轴为变量的可用于描述连续型变量的累计频率分布,其横轴为变量的组段,纵轴为各组段的累计频率组段,纵轴为各组段的累计频率(P25,图图2-6)。lzhminlzhmin 3)箱式图)箱式图(box plot) 可用于描述定量变量的平均水平和变异程度,还

19、可显示数可用于描述定量变量的平均水平和变异程度,还可显示数据中的离群值据中的离群值(outlier)或极端值或极端值(extreme case)(P26, 图图2-7)。lzhmin 4)线图)线图(line graph) 用线段的升降来表示某变量随另一个变量的变化而变化的用线段的升降来表示某变量随另一个变量的变化而变化的趋势。通常纵轴为统计指标,如频数或比率,横轴为时间或趋势。通常纵轴为统计指标,如频数或比率,横轴为时间或连续性变量连续性变量(P51,图图3-5)。)。lzhminlzhmin 5)半对数线图)半对数线图(semi-logarithmic line graph) 表示某事物发

20、展的相对速度(相对比)。纵轴为对数尺表示某事物发展的相对速度(相对比)。纵轴为对数尺度;横轴为算术尺度。也可把纵轴值转换成常用对数值表示度;横轴为算术尺度。也可把纵轴值转换成常用对数值表示(P53,图图3-7)。)。lzhmin 6)散点图)散点图(scatter diagram) 用点的位置表示两变量间的数量关系和变化趋势用点的位置表示两变量间的数量关系和变化趋势(P195,图图10-1)。lzhmin 7) 直条图直条图(bar chart) 用等宽直条的长短表示统计指标数值的大小。适用于相互用等宽直条的长短表示统计指标数值的大小。适用于相互独立,性质相似的各指标间比较。横轴为基线,表示分

21、组因素独立,性质相似的各指标间比较。横轴为基线,表示分组因素,纵轴表示频数或频率,必须从零开始。单式条图各直条的间,纵轴表示频数或频率,必须从零开始。单式条图各直条的间隔是半个或一个直条宽;复式直条图各组直条的间隔一般是一隔是半个或一个直条宽;复式直条图各组直条的间隔一般是一个直条图,同组直条间不留间隙,组内各直条的排列顺序要一个直条图,同组直条间不留间隙,组内各直条的排列顺序要一致(致(P26,图,图2-8)。直条所表示的类别应有图例说明。)。直条所表示的类别应有图例说明。lzhminlzhmin绘制绘制统计图统计图的基本要求的基本要求 1. 按资料的性质和分析目的选用适当的图形。按资料的性

22、质和分析目的选用适当的图形。 - 资料是连续性的,目的是用线段升降表达事物资料是连续性的,目的是用线段升降表达事物的动态变化趋势,选择普通线图;若指标的最大值的动态变化趋势,选择普通线图;若指标的最大值和最小值相差悬殊,可考虑选用半对数线图;和最小值相差悬殊,可考虑选用半对数线图; - 资料是连续性的,但分析的目的是用线段升降资料是连续性的,但分析的目的是用线段升降表达事物动态变化的速度,选择半对数线图;表达事物动态变化的速度,选择半对数线图; - 数值变量的频数表资料,其分析目的是用直方数值变量的频数表资料,其分析目的是用直方的面积表达各组段的频数或频率分布情况,宜选择的面积表达各组段的频数

23、或频率分布情况,宜选择直方图;直方图;lzhmin - 资料是相互独立的,目的是用直条的长短比较资料是相互独立的,目的是用直条的长短比较数值的大小,选用直条图;数值的大小,选用直条图; - 双变量连续性资料,目的是用点的密集程度和双变量连续性资料,目的是用点的密集程度和趋势表达两个变量的相互关系,选用散点图;趋势表达两个变量的相互关系,选用散点图; - 地区性资料,目的是用不同的颜色或纹线表示地区性资料,目的是用不同的颜色或纹线表示某事物在地域上的分布情况,选择统计地图。某事物在地域上的分布情况,选择统计地图。lzhmin 2.要有要有图号及图号及标题,概括统计图的主要内容。标题,概括统计图的

24、主要内容。标题一般位于图的下方,要简明扼要。标题一般位于图的下方,要简明扼要。 3.有纵轴和横轴为坐标的图形,一般以第一象限有纵轴和横轴为坐标的图形,一般以第一象限为准做图,两轴的交点为起点,纵横两轴应有刻度、为准做图,两轴的交点为起点,纵横两轴应有刻度、数量单位和标目。数量单位和标目。 4.图的纵横两轴的比例以图的纵横两轴的比例以7:10为宜;为宜; 5.在同一图内比较几个不同的事物时,须用不同在同一图内比较几个不同的事物时,须用不同的图案或颜色表示,并附图例说明。的图案或颜色表示,并附图例说明。lzhmin 例例2-1:某地进行冠心病危险因素:某地进行冠心病危险因素研究时,调查了居民的心理

25、得分值与研究时,调查了居民的心理得分值与其它冠心病的相关因素,结果如下表。其它冠心病的相关因素,结果如下表。表表2-1 2-1 不同心理分值的冠心病危险因素水平比较不同心理分值的冠心病危险因素水平比较危险因素危险因素心理分值心理分值p p值值1 1(252252人)人)2 2(253253人)人)3 3(252252人)人)4 4(253253人)人)S S% %S S% %S S% %S S% %年龄(岁)年龄(岁)35.235.26.56.537.037.06.36.336.536.56.86.837.837.86.56.50.050.05收缩压(收缩压(mmHg)mmHg)120.712

26、0.713.413.4121.2121.213.213.2121.1121.113.213.2120.4120.412.812.80.50.5舒张压(舒张压(mmHg)mmHg)78.8678.8610.210.277.9177.9110.510.578.278.2111178.478.410.610.60.390.39体力活动体力活动2.12.10.20.22.12.10.10.12.12.10.20.22.32.30.30.30.080.08体重指数体重指数23.123.13.23.224243.53.524.824.83.13.125.825.83.13.10.010.01吸烟率(吸烟率

27、(% %)70.870.869.469.470.770.771.171.10.410.41吸烟量吸烟量8 81 110102 215152 215152 20.0010.001饮酒率(饮酒率(% %)52.352.355.555.553.153.152.852.80.130.13饮酒量饮酒量60.160.17.57.578.278.28.58.579.379.36.86.8106.8106.810.210.20.0010.001受教育程度受教育程度4.54.50.80.84.24.20.90.93.53.50.80.83.43.40.80.80.050.05社会支持社会支持8.78.71.21

28、.27.57.51.11.17.07.01.21.27.07.01.21.20.050.05慢性疾患数构成(慢性疾患数构成(% %)0 081.681.679.379.377.577.573.973.90.180.181 115.115.116.216.216.516.515150.430.432 23.33.34.54.56 611.111.10.050.05问题:问题: 内容较多,层次复杂,缺乏条理。内容较多,层次复杂,缺乏条理。 特别是将两个不同类型资料(定量资料和特别是将两个不同类型资料(定量资料和 定性资料)的统计量放在一起。定性资料)的统计量放在一起。3.互不相容的内容分别占了不同的列,导致互不相容的内容分别占了不同的列,导致 表格中有许多空格。表格中有许多空格。4.纵横标目倒置。纵横标目倒置。5.小数点位数不一致。小数点位数不一致。6.标目缺单位。标目缺单位。表表2-1 2-1 某年某地居民不同心理分值的冠心病危险因素水平比较(某年某地居民不同心理分值的冠心病危险因素水平比较(X XS S)心理心理分值分值例数例数年龄年龄(岁)(岁)收缩压收缩压(mmHg)mmHg)舒张压舒张压(mmHg)mmHg)体力活动体力活动体重指数体重指数吸烟量吸烟量( (支支/ /天天) )饮酒量饮酒量( (克克/ /天天) )受教育受教育程度程度社会支持社会

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论