




已阅读5页,还剩58页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第三章定量资料的统计描述,定量资料(quantitativedata)又称为计量资料、数值变量资料,它是通过测量每个观察单位某项指标值大小得到的资料,一般有度量衡单位。根据其变量取值的特点,可分为离散型定量资料(discretedata)和连续型资料(continuitydata)。离散型定量资料是指变量取值可以一一列举,为不连续的资料。连续型资料是指变量取值不能一一列举,而是连续性变化的资料。,表3-1某年某市120名1岁男童乳牙数(离散型)的频数分布,一、离散型定量资料,第一节频数分布表和频数分布图,图3-1某年某市120名1岁男童乳牙数的频数分布,二、连续型定量资料例3-2某市2000年l20名6岁女孩的身高(cm)资料(连续型)105.4113.2118.7119.0107.0106.8114.2101.2114.9114.1119.5104.3113.3112.2110.7112.7110.8115.6109.2116.0105.7127.8115.8118.5115.7116.7110.3118.0113.0118.5105.8118.9124.0117.5123.1113.7124.1125.3117.8108.7106.2103.8122.6104.0126.5116.0117.5110.3120.1113.2123.4112.4115.0128.1110.9125.1114.4110.2112.0116.4108.3110.9120.4108.2121.2112.3121.8117.0111.4117.2113.9116.1114.4118.8116.1108.4114.5109.0116.8110.8119.8114.1118.8116.7113.4122.2118.1121.2114.0116.7112.3121.1116.5110.3119.1118.4106.3115.3121.0107.5112.8121.6119.2113.5112.5123.1116.6129.5112.3126.8122.8121.1124.6125.7122.5121.0124.4120.9111.3112.5,频数表编制步骤:(一)求极差:一组变量值的最大值和最小值之差,亦称为全距,RXmaxXmin129.5101.228.3(cm),定组距:组距极差/组数1、确定组数:一般在815组左右2、确定组距(等距或不等距):组距极差/组数28.3/10=2.8333、确定各组段的上下限:连续型资料,各组段写为半开半闭型;离散型资料,既可写成上限开口型,也可写成上限闭口型,(二)划分组段:,表3-2某市120名6岁女孩身高频数分布,(三)列表划记,1、便于发现特大和特小的可疑值;2、揭示资料的分布类型;3、可以看到频数分布的两个特征:集中趋势和离散趋势,频数分布表的用途,第二节集中趋势的描述,一、算术均数(mean),总体均数用表示,样本均数用表示。适用条件:对称分布,特别是正态分布。,(二)加权法:,计算公式,(一)直接法:,表3-3某市120名6岁女孩身高(cm)均数的计算(加权法),(cm),适用条件:变量值的变化呈倍数变化关系,特别是对数对称分布、对数正态分布。,二、几何均数(geometricmean),几何均数用G表示。,(一)直接法:,对数形式:,(二)加权法:,(1)偏态分布资料,变量分布规律不清,有少数特小值或特大值,变量值一端或两端无确定值。,三、中位数和百分位数,(一)中位数(median,M),适用资料:,(2)所有资料。理论上对称分布资料的算术均数与M相等,对数对称资料宜用几何均数,n,,1.直接由原始数据计算中位数,当变量值较少时,将n个变量值从小到大排列后记为xi,即有x1x2xn,例3-6.测定7名成年男性红细胞数(1012/L):3.83,4.25,4.58,4.83,5.17,5.60,5.95,例3-7.测得某市某大学8名正常女子总胆固醇(mmol/L):2.58,3.02,3.41,3.87,4.25,4.73,5.13,5.71,2.用频数表计算中位数,适用条件是:样本含量(n)足够大(n100),计算公式:,众数:一组数据中出现的频数最多的数据,描述集中趋势的指标。,(二)百分位数(percentile)PX,将观察值从小到大排列后,等分成100份,位于第x百分位置上的数值称第百分之x位数,记为Px。有x的数据比Px小,有(100X)的数据比Px大,故百分位数是一个位置指标。,第三节离散程度的描述,例310:三组同性别、同年龄儿童的体重(kg)资料如下:甲组1618202224乙组1417202326丙组1619202124均数相同,都是20kg,然而这3组数据间参差不齐的程度(即变异)是不相同的,适用于各种分布类型R=极大值极小值极差可用于反映各种分布资料的变异程度,简单明了;缺点:只涉及最大值和最小值,不能反映组内其他数据的变异程度;样本较大时,抽样误差大,因此抽到最大值和最小值的可能性也越大。,一、极差(range)亦称全距,两端无确切值或分布不明确资料的离散程度。相对比较稳定,但只反映了居中间的50%数据的变异情况,仍未考虑到每个观察值的变异情况,不能代表全部观察值的离散程度。,二、四分位数间距(inter-quartilerange),四分位数间距QQUQL。,适用条件:各种分布类型,特别是偏态分布资料、,适用条件:对称分布资料,特别是正态分布资料(同均数)。,三、方差(variance)四、标准差(standarddeviation),总体标准差,样本标准差s,(二)加权法:,(一)直接法:,总体标准差,(1)描述变量值分布的离散程度,标准差大,变量值分散,标准差小,变量值集中。(2)概括地估计变量值的频数分布(3)计算正常值范围(4)计算标准误(统计推断中常用统计指标),应用:,适用于:多组资料之间变异程度的比较时,1.单位不同,2.均数相差较大。,五、变异系数(coefficientofvariation),计算公式:,datali3_2;inputx;cards;105.4113.2118.7119.0107.0106.8114.2101.2114.9114.1119.5104.3113.3112.2110.7112.7110.8115.6109.2116.0105.7127.8115.8118.5115.7116.7110.3118.0113.0118.5105.8118.9124.0117.5123.1113.7124.1125.3117.8108.7106.2103.8122.6104.0126.5116.0117.5110.3120.1113.2123.4112.4115.0128.1110.9125.1114.4110.2112.0116.4108.3110.9120.4108.2121.2112.3121.8117.0111.4117.2113.9116.1114.4118.8116.1108.4114.5109.0116.8110.8119.8114.1118.8116.7113.4122.2118.1121.2114.0116.7112.3121.1116.5110.3119.1118.4106.3115.3121.0107.5112.8121.6119.2113.5112.5123.1116.6129.5112.3126.8122.8121.1124.6125.7122.5121.0124.4120.9111.3112.5;procunivariatenormal;run;,TheSASSystem10:33Friday,September9,20123TheUNIVARIATEProcedureVariable:xMomentsN120SumWeights120Mean115.756667SumObservations13890.8StdDeviation5.94305941Variance35.3199552Skewness-0.0120427Kurtosis-0.4261725UncorrectedSS1612155.78CorrectedSS4203.07467CoeffVariation5.13409688StdErrorMean0.54252462BasicStatisticalMeasuresLocationVariabilityMean115.7567StdDeviation5.94306Median115.9000Variance35.31996Mode110.3000Range28.30000InterquartileRange7.85000NOTE:Themodedisplayedisthesmallestof3modeswithacountof3.TestsforLocation:Mu0=0Test-Statistic-pValue-Studentstt213.3667Pr|t|=|M|=|S|0.1500Cramer-vonMisesW-Sq0.018424PrW-Sq0.2500Anderson-DarlingA-Sq0.133502PrA-Sq0.2500Quantiles(Definition5)QuantileEstimate100%Max129.5099%128.1095%125.5090%123.7075%Q3119.9550%Median115.90,QuantileEstimate25%Q1112.1010%107.855%105.751%103.800%Min101.20ExtremeObservations-Lowest-Highest-ValueObsValueObs101.28126.545103.842126.8110104.044127.822104.312128.154105.41129.5108,第四节正态分布及其应用,一、正态分布的概念和特征正态分布(normaldistribution)是一种重要的连续型分布。在医学卫生领域中,有许多变量都近似服从正态分布,如测量误差、许多生化指标的值和人的身高、体重等。此外,许多分布可用正态分布近似,如大样本偏态资料的样本均数近似正态分布,还有些分布可由正态分布导出,因此,正态分布可以说是最重要的一种分布。,表3-7某地某年120名12岁女孩身高(cm)的频数分布,图3-3频数分布逐渐接近正态分布示意图,正态分布的概率密度函数:,正态分布具有下列特性:(1)正态密度函数曲线在横轴上方,且曲线在均数处最高。(2)正态分布以均数为中心,左右对称。(3)曲线下面积为1。(4)正态分布的两个参数和分别决定分布的位置和形状。,图3-4不同均数、不同标准差的正态分布示意图,二、正态曲线下面积的分布规律,若xN(,),则N(0,1),(z)=1(z),例3-17.z1=1.50,z2=0.31,求标准正态分布曲线下(1.50,0.31)区间内面积D。查附表1得(1.50)=0.0668和(0.31)=0.3783,则面积例3-18.已知某地某年120名7岁女孩身高=122.0cm,s=4.7cm,试估计该地7岁女孩身高介于118cm和124cm范围内的比例及120名7岁女孩介于此范围内的人数。,(z1)=(-0.8511)=0.1989(z2)=(0.4255)=1-(-0.4255)=1-0.3354=0.6646D=(z1)(z2)=0.6646-0.1989=0.4657,故估计该地某年身高界于118cm124cm范围内的7岁女孩所占比例为0.4657,即46.57%。估计120名7岁女孩中身高界于118cm124cm范围内的人数为12046.57%56名。,三、参考值范围,参考值范围(referencerange)也称为正常值范围。医学参考值是指包括绝大多数正常人的某指标值范围,由于存在着个体差异,正常人的解剖,生理,生化等各种指标并非常数,而是在一定范围内波动,故采用医学参考值范围(medicalreferencerange)作为判定正常和异常的参考标准。对于服从正态分布的指标,可根据正态分布的面积分布规律制定其参考值范围;对于不服从正态分布的指标,可先进行变量变换使之服从正态分布或直接利用百分位数法制定其参考值范围。,制定医学参考值范围的基本步骤:,1.从正常人群中抽样,样本含量要足够大:所谓“正常人”并不是指完全健康的人,而是指排除了影响所研究指标的疾病和有关因素的同质人群。3.确定是否需要分组制定参考值范围4.决定取双侧还是取单侧5.选定合适的百分界限6.对资料的分布作正态性检验7.根据资料的分布类型选用适当的方法来估计参考值范围。,(1)正态分布法:适用于正态或近似正态分布的资料。双侧参考值范围单侧参考值范围上限单侧参考值范围下限,例3-19某地调查156名正常成年男子的红细胞数,资料近似正态分布,计算得均数,s=0.441012L。下限:1.96s=5.38.960.44=4.521012L上限:1.96s=5.38+1.960.44=6.241012L的95%参考值范围为4.526.24(1012L)。(2)百分位数法:适用于任何分布类型的资料。但常用于经过数据转换仍然不呈正态分布或分布不明的资料。,例3-20用硫酸高锰酸钾硝酸消化法和无火焰原子吸收光谱法测得某市238名正常人的发汞值,一、最佳选择题11.以下指标中()可用来描述定量资料的离散程度。A.算术平均数B.几何平均数C.极差D.中位数2.偏态分布资料宜用()描述其分布的集中趋势。A.算术平均数B.中位数C.四分位数间距D.方差3.用均数和标准差可全面描述()资料的分布特征。A.正态分布B.偏态分布C.对称分布D.任何计量资料分布4.()可用于比较身高与体重的变异度。A.方差B.标准差C.变异系数D.全距,5.正态分布曲线下,在横轴上从均数到+的面积占总面积的比例为()。A.97.5B.95C.50D.不能确定(与标准差的大小有关)6.准正态分布的均数与标准差分别为()。A.0与1B.1与0C.1.96与2.58D.1与17.各观察值均加(或减)同一个数后,()。A.均数不变,标准差不一定变B.均数不变,标准差变C.均数变,标准差不变D.均数变,标准差也变,8.各观察值同乘以一个不等于0的常数后,()不变。A.均数B.标准差C.中位数D.变异系数9.()分布的资料,均数等于中位数。A.对称B.左偏态C.右偏态D.对数正态10.正态分布有两个参数和,()曲线的形状越扁平。A.越大B.越小C.越大D.越小,最佳选择题2,1.描述一组偏态分布资料的变异度,以()指标较好。A.全距B.标准差C.变异系数D.四分位数间距E.方差2.用均数和标准差可全面描述()资料的特征。A.正偏态分布B.负偏态分布C.正态分布D.对称分布E.对数正态分布3.各观察值均加(或减)同一数后,()。A.均数不变,标准差变B.均数变,标准差不变C.两者均不变D.两者均变E.以上都不对4.比较身高和体重两组数据变异度大小宜采用()。A.变异系数B.方差C.全距D.标准差E.四分位数间距5.偏态分布宜用()描述其分布的集中趋势。A.算术均数B.标准差C.中位数D.几何均数E.平均值,6.各观察值均乘以同一不等于0的数后,()不变。A.算术均数B.标准差C.中位数D.几何均数E.变异系数7.()分布资料,均数等于中位数。A.正偏态B.负偏态C.正态D.偏态E.对数正态8.
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 办公楼落成庆典仪式策划方案
- 橙绿扁平风消防安全教育模板
- 牛津高中英语模块一语法定语从句1
- 预测模型在商业决策中的应用案例
- 顾客行为数据挖掘新零售的核心竞争力
- 顾客行为分析数据科学的零售业密码
- 顾客体验优化新零售营销的关键
- 音乐产业的新媒体营销策略探讨
- 音乐、艺术与数学教育中文化多样性的体现
- 青少年在多元文化中的身份认同探索
- GB∕T 31564-2015 热喷涂 热喷涂沉积效率的测定
- 罪犯的权利与义务
- 施工管理人员年度安全培训考核记录表格
- 我国未成年人犯罪的现状、成因及对策研究
- 轧机主传动装置及主电机的选择
- 工程移交书及质量保修书水利工程
- 蓟中上元古界剖面研究生地质实习-中国科学院地质与地球物理研究所
- 管式加热炉温度控制系统设计++
- 水污染源自动监控系统运行作业指导书
- 载人氦气球观光游览项目商业实施计划书
- 《阿斯图利亚传奇》古典吉他谱
评论
0/150
提交评论