第2讲 计量的基本统计分析方法_第1页
第2讲 计量的基本统计分析方法_第2页
第2讲 计量的基本统计分析方法_第3页
第2讲 计量的基本统计分析方法_第4页
第2讲 计量的基本统计分析方法_第5页
已阅读5页,还剩73页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、measurment dataquantitative data, 定义定义:测定每个观察单位的某项指标量的大小,:测定每个观察单位的某项指标量的大小,所得的资料称为计量资料。其变量值是定量的,一所得的资料称为计量资料。其变量值是定量的,一般带有度量衡或其它单位。般带有度量衡或其它单位。 特点特点:每个观察单位的观察值之间有量的区别。:每个观察单位的观察值之间有量的区别。 某市某市110名健康男性工人的血红蛋白量名健康男性工人的血红蛋白量(g/L) 定义:定义:将观察单位按某种属性或类别分组计数,将观察单位按某种属性或类别分组计数,分组汇总得到各组观察单位数称为计数资料。分组汇总得到各组观察单

2、位数称为计数资料。 特点:特点:计数排列是无序分组,同组各观察单位之计数排列是无序分组,同组各观察单位之间没有量的差别,但各组间有质的不同,各组互不间没有量的差别,但各组间有质的不同,各组互不相容。相容。 二项分类和多项分类二项分类和多项分类enumeration data, qualitative data, unordered category data战期战期死亡人数死亡人数存活人数存活人数合计合计第一战期第一战期281442第二战期第二战期71623第三战期第三战期121022合计合计474087ranked data,semi-quantitative data, ordinal c

3、ategory data 定义:定义:将观察单位按某个指标量的大小分成等级或将观察单位按某个指标量的大小分成等级或某种属性的不同程度分成等级后分组计数,分类汇总各某种属性的不同程度分成等级后分组计数,分类汇总各组的观察单位数称为等级资料。组的观察单位数称为等级资料。 特点:等级特点:等级是是有序有序分组。同计数资料的区别是:分组。同计数资料的区别是:属属性性的的分组有程度的差别分组有程度的差别,各组按一定顺序排列;与计量,各组按一定顺序排列;与计量资料的区别是:资料的区别是:每个观察单位未确切定量每个观察单位未确切定量,所以又称为,所以又称为半定量资料。半定量资料。季节季节营养状况营养状况缺乏

4、缺乏不足不足适宜适宜合计合计夏季夏季57820冬季冬季119222某地居民体内核黄素营养状况调查结果某地居民体内核黄素营养状况调查结果*核黄素营养状况评价标准:缺乏为核黄素营养状况评价标准:缺乏为1000g。 某市某市110名健康男性工人的血红蛋白量名健康男性工人的血红蛋白量(g/L) xnxx(一)算术均数(一)算术均数(mean)将一组变量值按将一组变量值按大小顺序排列大小顺序排列,位次,位次居中居中的变量值即为中位数。的变量值即为中位数。中位数将变量值一分为二,一半比它小,一半比它大。符号为中位数将变量值一分为二,一半比它小,一半比它大。符号为M、Md。 为为偶偶数数为为奇奇数数nxxn

5、xMd/n/n/ )n(221221(二)中位数(二)中位数(median) u中位数将频数等分为二,所以中位数适合中位数将频数等分为二,所以中位数适合各种类型各种类型的资料,尤其适合于的资料,尤其适合于大样本偏态分布大样本偏态分布的资料。的资料。u由于中位数总处在居中的位置上,因而它不受特大由于中位数总处在居中的位置上,因而它不受特大或特小值的影响。或特小值的影响。 甲组甲组2628303234 乙组乙组2427303336丙组丙组26293031240123202428323640丙组丙组乙组乙组甲组甲组三组均数三组均数均为均为30 四分位数间距四分位数间距(Q)包括了全部变量包括了全部变

6、量值中值中居于中间居于中间水平的一半数据的分布范围。水平的一半数据的分布范围。 Q = P75 P25 缺点:缺点:比较稳定,但不能反映其余数比较稳定,但不能反映其余数据的变异情况,没有充分利用每个变量值据的变异情况,没有充分利用每个变量值的信息。的信息。 四分位数间距仅用来描述四分位数间距仅用来描述大样本偏态大样本偏态资料资料的变异情况。的变异情况。 50P25P100P0P75PQ方差方差分为样本方差和总体方差。样本方差符分为样本方差和总体方差。样本方差符号为号为 ,相应的总体方差符号为,相应的总体方差符号为 。2s2(一)方差的定义(一)方差的定义1)(22nxxs222() /1xxn

7、sn(二)标准差的定义(二)标准差的定义标准差即为方差的标准差即为方差的平方根平方根,样本标准差符号为,样本标准差符号为s,相应相应的总体标准差符号为的总体标准差符号为。 122nnxxs0123202428323640丙组丙组乙组乙组甲组甲组 三组同性别、同年龄儿童体重三组同性别、同年龄儿童体重甲组甲组2628303234 乙组乙组2427303336丙组丙组2629303124 方差或标准差属同类变异指标,它们多用来描方差或标准差属同类变异指标,它们多用来描述述均匀分布均匀分布或或近似正态分布近似正态分布的资料,大、小样本均的资料,大、小样本均可,其中以标准差的应用最广,通常与均数结合使可

8、,其中以标准差的应用最广,通常与均数结合使用。比如在许多医学研究报告中常用用。比如在许多医学研究报告中常用 的形式的形式表达资料。表达资料。sx (三)方差与标准差的应用(三)方差与标准差的应用%100 xsCV %69.30%1009 .188 . 51CV%40.21%10084. 4036. 12CVu变异系数可用于变异系数可用于不同类型资料间不同类型资料间变异程度的比较,如比变异程度的比较,如比较儿童的身高与体重的变异,比较同性别、同年龄的正较儿童的身高与体重的变异,比较同性别、同年龄的正常人的血压与血脂的变异等;常人的血压与血脂的变异等;u变异系数也可用于变异系数也可用于均数相差悬殊

9、时同单位资料间均数相差悬殊时同单位资料间变异程度变异程度的比较,如不同年龄段同性别儿童的体重变异大小比较等。的比较,如不同年龄段同性别儿童的体重变异大小比较等。 常用统计指标的特点及其应用场合常用统计指标的特点及其应用场合指标特点应用场合应用场合精确,易受极端值精确,易受极端值影响影响均匀分布的小样本数据或近似正均匀分布的小样本数据或近似正态分布数据态分布数据稳定,不受特大或稳定,不受特大或特小值的影响特小值的影响应用范围广,特别是大样本偏态应用范围广,特别是大样本偏态分布资料分布资料标准差与均数的比标准差与均数的比值,无单位值,无单位比较不同资料或同类资料均数相比较不同资料或同类资料均数相差

10、悬殊时变异程度差悬殊时变异程度sx CVQMd假设检验假设检验WhyWhatHowWhere依据依据随机样本随机样本对未知事物进行判断和决策对未知事物进行判断和决策 假设检验假设检验一是需要从全局的范围,即从总体上对问一是需要从全局的范围,即从总体上对问题作出判断,单纯比较样本会有风险;题作出判断,单纯比较样本会有风险;二是不可能或不允许对研究总体的每一个二是不可能或不允许对研究总体的每一个个体均作观察。个体均作观察。Why 假设检验假设检验(hypothesis testing)(hypothesis testing)亦称亦称显著显著性检验性检验(significance testing)(

11、significance testing):它是利用:它是利用小小概率反证法思想概率反证法思想,目的是通过考察一部分样本,目的是通过考察一部分样本对总体作出对总体作出二择一二择一的决策。的决策。What实例实例 通过以往大规模调查,已知某地一般新生儿的头围均通过以往大规模调查,已知某地一般新生儿的头围均数为数为34.50cm34.50cm,标准差为,标准差为1.99cm1.99cm。为研究某矿区新生儿的发。为研究某矿区新生儿的发育状况,现从该地某矿区随机抽取新生儿育状况,现从该地某矿区随机抽取新生儿5555人,测得其头围人,测得其头围均数为均数为33.89cm33.89cm,问该矿区新生儿的头

12、围总体均数与一般新,问该矿区新生儿的头围总体均数与一般新生儿头围总体均数是否不同?生儿头围总体均数是否不同? 假设检验的假设检验的目的目的就是判断差别是由哪种原就是判断差别是由哪种原因造成的。因造成的。 抽样误差造成的抽样误差造成的 本质差异造成的本质差异造成的How 根据根据变量和资料类型变量和资料类型、设计方案设计方案、统计推统计推断的目的断的目的、是否满足、是否满足特定条件特定条件等(如数据的分等(如数据的分布类型)选用适当的统计方法,选择并计算相布类型)选用适当的统计方法,选择并计算相应的统计量应的统计量( (如如t, u, ,Ft, u, ,F值值) )。2Where P P值概念值

13、概念 P P值概念值概念错误拒绝错误拒绝H H0 0的概率。的概率。在在H H0 0所所规定的总体中作随机抽样,得到绝对值规定的总体中作随机抽样,得到绝对值等于或等于或大于大于上一步计算出的检验统计量的概率。上一步计算出的检验统计量的概率。p 若若PP, ,结论为按所取结论为按所取检验水准拒绝检验水准拒绝H H0 0,接受,接受H H1 1,差别有统计学意义;差别有统计学意义; 其其统计学统计学依据是,在依据是,在H H0 0成立的情况下,得到现有统成立的情况下,得到现有统计量的概率计量的概率PPP,结论为按所取检验水准不拒绝,结论为按所取检验水准不拒绝H H0 0,差别没,差别没有统计学意义

14、。有统计学意义。 不拒绝不拒绝H H0 0,但不能下,但不能下“无差别无差别”或或“相等相等”的结论,的结论,只能下只能下“根据目前试验结果,尚不能认为有差别根据目前试验结果,尚不能认为有差别”的结的结论。论。 P P值和值和的关系的关系 P P和和本质相同,都为概率,本质相同,都为概率,P P是根据当前试验计算是根据当前试验计算的概率,的概率,是预先给定的概率,为检验水准,是定是预先给定的概率,为检验水准,是定义了的小概率上限。因此计算得到的义了的小概率上限。因此计算得到的P P值要与值要与进进行比较才能给出假设检验的结论。行比较才能给出假设检验的结论。P P值的意义:值的意义:如果总体状况

15、如果总体状况和和H0一致,统计量获得的一致,统计量获得的现有数值以及更不利于现有数值以及更不利于H0的数值的可能性(概率)有的数值的可能性(概率)有多大?多大?值的意义:值的意义:错误地错误地拒绝拒绝H H0 0 的概率或接受的概率或接受H H1 1 的风险。一般的风险。一般=0.05=0.05或或0.010.01(1 1)可比性可比性(2 2)正确选用假设检验方法正确选用假设检验方法(3 3)判断结论时不能绝对化,提倡使用精确判断结论时不能绝对化,提倡使用精确P P值。值。(4 4)单侧检验与双侧检验单侧检验与双侧检验(5 5)可信区间与假设检验各自不同的作用,要结合可信区间与假设检验各自不

16、同的作用,要结合使用。使用。9595CICI既能说明差别的大小,也具有检验的既能说明差别的大小,也具有检验的作用,建议使用。作用,建议使用。u样本均数与已知总体均数比较样本均数与已知总体均数比较u两样本均数比较两样本均数比较u配对样本均数比较配对样本均数比较u多个样本均数比较多个样本均数比较两组样本两组样本t-testt t 检验(检验(t-testt-test)源于)源于t t分布分布t t分布是英国统计学家分布是英国统计学家W.S.GossetW.S.Gosset于于19081908年以年以“Student”Student”笔名发表论文笔名发表论文提出的,所以又称提出的,所以又称“Stud

17、ents t-Students t-distribution”distribution”。qt t分布的发现使得小样本统计推断成为可能,它被认为是分布的发现使得小样本统计推断成为可能,它被认为是统计学发展历史中的里程碑之一。统计学发展历史中的里程碑之一。q以以t t分布为基础的检验称为分布为基础的检验称为t t 检验,在医学统计学中,检验,在医学统计学中, t t 检验是非常活跃的一类假设检验方法。检验是非常活跃的一类假设检验方法。应用:应用:1. 1. 小样本均数与总体均数的比较;小样本均数与总体均数的比较; 2. 2. 配对资料的比较配对资料的比较; ; 3. 3. 两样本均数的比较。两样

18、本均数的比较。 t检验(检验(t-test)主要用于)主要用于样本含量较小样本含量较小,总体标准差总体标准差未知的未知的正态分布正态分布资料。资料。样本均数与样本均数与已知总体均数比较已知总体均数比较样本与总体比较样本与总体比较正态或转换正态或转换后为正态后为正态非正态非正态单样本单样本t检验检验(均数)(均数)Wilcoxon符号秩符号秩和检验(中位数)和检验(中位数)例例 某地正常成年男子凝血酶时间某地正常成年男子凝血酶时间(TT)(TT)均数为均数为16.00s。某研究小组测得某研究小组测得3030例男性肺癌患者的凝血酶时间均例男性肺癌患者的凝血酶时间均数为数为18.39s,标准差为,标

19、准差为4.66s4.66s,问肺癌患者的凝血酶,问肺癌患者的凝血酶时间是否高于正常男子时间是否高于正常男子? ? 注意:注意:医学中一些医学中一些公认的生理常数公认的生理常数一般可看作总一般可看作总体均数体均数0 0。凝凝血血酶酶时时间间21.2221.2215.8015.8015.8315.8314.4614.4616.3416.3412.0612.0621.2121.2118.3718.3716.4016.4015.2715.2712.6712.6718.0818.0821.8521.8519.5519.5525.3325.3312.8012.8027.6527.6521.8021.801

20、7.3917.3918.0818.0819.6919.6922.6622.6611.3311.3312.5412.5429.8829.8825.2525.2518.0018.0019.3119.3114.1614.1616.8516.85T Te es st ts s o of f N No or rm ma al li it ty y.10230.200*.95930.297肺癌凝时StatisticdfSig.StatisticdfSig.Kolmogorov-SmirnovaShapiro-WilkThis is a lower bound of the true significanc

21、e.*. Lilliefors Significance Correctiona. 例例 SPSS SPSS操作结果操作结果正态性检验结果正态性检验结果P=0.2000.05P=0.2000.05,资料符合正态分布。,资料符合正态分布。O On ne e- -S Sa am mp pl le e S St ta at ti is st ti ic cs s3018.39434.66454.85162肺癌凝时NMeanStd. DeviationStd. ErrorMean基本统计描述基本统计描述均数均数标准差标准差标准误标准误单样本单样本t t检验结果检验结果P P值值自由度自由度t t值值与

22、总体均数差与总体均数差值的可信区间值的可信区间检验统计量检验统计量t=2.811t=2.811,P=0.0090.05P=0.0090.05P=0.2000.05,资料符合正态分布。,资料符合正态分布。基本统计描述基本统计描述P Pa ai ir re ed d S Sa am mp pl le es s T Te es st t9.400002.41293 .76303 7.67390 11.12610 12.3199.000平高 - 高原Pair 1Mean Std. DeviationStd. ErrorMeanLowerUpper95% ConfidenceInterval of theDifferencePaired DifferencestdfSig. (2-tailed)配对配对t t检验结果检验结果t t值值P P值值差

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论