资料统计分析——单变量描述统计.ppt_第1页
资料统计分析——单变量描述统计.ppt_第2页
资料统计分析——单变量描述统计.ppt_第3页
资料统计分析——单变量描述统计.ppt_第4页
资料统计分析——单变量描述统计.ppt_第5页
已阅读5页,还剩51页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

项目八:调查资料的统计与分析,任务一单变量描述统计任务二单变量推论统计任务三双变量相关关系分析,任务一单变量描述统计,(一)频数分布所谓频数分布(frequencydistribution),就是指一组数据中取不同值的个案的次数分布情况,它一般以频数分布表的形式表达。频数分布表的作用有两方面,一是简化资料,即将调查所得到的一长串原始数据,以一个十分简洁的统计表反映出来。二是从频数分布表中,可以更清楚的了解调查数据的众多信息。,一、频数分布与频率分布,(二)频率分布所谓频率分布(percentagesdistribution),就是指一组数据中不同取值的频数相对于总数的比率分布情况,这种比率在社会调查中经常是以百分比的形式来表达。频率分布表除了频数分布表的优点之外,还有一个重要的优点就是十分方便地用于不同总体或不同类别之间的比较。,频数分布表和频率分布表实例,注意的是,对于一项有一定规模的调查样本来说,一般不宜对如年龄、收入、时间等定比变量做频数分布表或频率分布表。因为,此时类别很多,而每一类别中个案数不多,所得结果繁杂不适用。,二、集中趋势分析,集中趋势测量:用某一个典型的变量值或特征值来代表全体变量的问题,这个典型的变量值或特征值就称作集中值或集中趋势。众值(Mode)定类层次中位值(Median)定序层次均值(Mean)定距层次,(一)众数(mode),1、出现频次最多的变量值;2、众数的不唯一性;原始数据:4、5、7、8、19(无众值)原始数据:4、5、7、5、5、16(一个众值)原始数据:4、4、5、7、7、9(两个众值)3、主要应用于定类变量,当然也可以应用于定序和定距变量,1.单值分组资料(非连续取值)求众数,2.组距分组(连续取值)资料求众数,先找出众数组,代入公式组距分组资料众数求值公式:,解:找出众数组为222.5227.5代入组距分组资料众数求值公式:,练习:求下表众数,表X-X某人群月收入频数分布表,从分布来看,众数是具有明显集中趋势点的数值,一组数据分布的最高峰点所对应的数值及为众数。,(二)中位数(Median),把一组数据按顺序排列,处于中间位置的那个数值就是中位值。主要应用于定序变量,也可用于定距变量,但不可用于定类变量。,将各个个案由低至高排列起来,居序列中央位置的个案值就是中位数。Md位置=中位数=中间位置的值注意:先找位置,再找中位数,1.原始资料求中位数,个案数为奇数【例3】:甲地的5户人家的人数为:2,4,3,6,8,求中位值。解:Md的位置3,个案数为偶数【例4】:乙地的6户人家的人数为:2,4,3,6,8,5求中位值。解:Md的位置3.5,【例5】根据下表求中位值。,解:Md位置250.5中位值Md乙,先计算累计频数,然后求中间位置,中间位置最先落入的累计频数所对于的标志值即为中位数。,2.单值分组资料(非连续取值)求中位数,练习1:计算表9-7的中位数,先找出中位数所在组,利用公式,374.25,3、组距分组(连续取值)资料求中位数,练习:计算下表中位数,练习:计算下表中位数,(三)平均数(mean),1、原始资料求均值,【例6】某班10名学生年龄分别为20、21、19、19、20、20、21、22、18、20岁,求他们的平均年龄。,解:根据平均数的计算公式有:,29,某个变项值重复出现多次,可以先统计每个值(x)的次数(f),再求次数与相应变量值的乘积(fx),利用各乘积之和求出均值。(f也称为权数,f/n称为权重)公式:,2、单值分组资料求平均数,【例7】调查某年120名学生的年龄,结果如下表,求平均年龄。,解:根据公式得18.9岁,3、组距分组资料求均值,先求出组中值组中值=(上限+下限)/2计算组中值的和计算分组数据的均值,组中值,例8,众数、中位数和平均数的比较1,注:表示该数据类型最适合用的测度值,众数、中位数和平均数的比较2,平均数比中位数利用了更多的数据信息,对总体的描述更全面和准确。平均数很容易受到极端值变化的影响,而中位值不会受到这种影响。对于抽样调查来说,平均数是一种比中位数更为稳定的量度,它随样本的变化比较小。,众数、中位数和均值的关系,练习:,求下表(单项数列)所示数据的算术平均数。,表X-X某样本家庭人口数分布表,求下表所示数据的的平均数,4.4,某年级学生身高如下,求中位数,求下表中的众数,170.29,求下表的众数,表X-X某人群身高范围频数分布表,三、离散趋势分析,离散趋势分析(dispersiontendencyanalysis),指的是用一个特别的数值来反映一组数据相互之间的离散程度。常见的离散量数统计量有全距、标准差、异众比率、四分位差等。标准差、异众比率、四分位差分别与平均数、众数、中位数相对应,判定和说明平均数、众数、中位数代表性的大小。,例9,如果仅从集中趋势测量(平均分数)来看,这三个系的成绩都一致,不存在什么差别。但从直观上可看出,三个系选手之间的差距程度(离散程度)很不一样?,(一)全距(Range),又叫极差,它是一组数据中最大值与最小值之差。其意义在于一组数据的全距越大,在一定程度上说明这组数据的离散量数越大,而集中量数统计量的代表性越低。反之,一组数据的全距越小,则说明这组数据的离散量数越小,而集中量数统计量的代表性越高。,(二)标准差(standarddeviation),一组数据对其平均数的偏差平方的算术平均数的平方根。用S表示。1、原始资料求标准差:,【例10】:求标准差,并进行简单比较。中文系:78,79,80,81,82(80)数学系:65,72,80,88,95(80)英语系:35,78,89,98,100(80),解:根据公式S中文系1.414分S数学系10.8分S英语系23.8分,2、单值分组数据资料,计算标准差的公式为,3、组距分组资料标准差计算,S,组中值,标准差的实际应用,1.甲、乙、丙命中的总环数分别为93、93、91,所以丙理应先被淘汰。2.甲、乙命中环数的平均数均为9.3,计算标准差。S甲=,S乙=3.在总成绩相同的情况下,理应派发挥较稳定的甲参加比赛。,三、四分位差(Interquartilerange),将数据由低至高排列,然后分为四等分(即每个等分包括25的数据),第一个四分位置的值(Q1)与第三个四分位置的值(Q3)的差异,就是四分位差(简写为Q)。,Q1,Q2,Q3,Q4,25%,25%,25%,25%,解:Q1的位置=75.25Q3的位置225.75那么Q1不满意;Q3一般QQ3Q1一般不满意结论,有一半的家庭对住房评价在不满意到一般之间。,【例11】求下表的四分位差,例12,2、根据分组资料求四分位差有四步:计算向上累加次数求出Q1和Q3的位置Q1=Q3=参考累加次数分布,决定Q1和Q3属于哪一组从所属组中,计算Q1位置和Q3位置的数值。,指的是一组数据中非众数的次数相对于总体全部单位的比率。用VR表示。其意义是指众数所不能代表的其他数值在总体中的比重。异众比率越大,则众数代表性越小;异众比率越小,则众数代表性越大。,四、异众比率(variationratio),5、离散系数(coefficientofvariation),变差系数,它是一种相对的离散量数统计量,它使我们能够对同一总体中的两种不同的离散量数统计量进行比较,或对两个不同总体中的同一离散量数统计量进行比较。定义为:标准差与平均数的比值,记为CV。,同一总体中的两种不同的离散量数统计量

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论