




已阅读5页,还剩1页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
一、基本概念 1、众数 众数是一组数据中出现频数最多的数值,用Mo表示。例如,一个城市有多种产业,但如果以旅游业为最多,那么旅游业就是众数,这个城市也被称为旅游城市。 2、中位数 中位数是中心趋势的一种测量,是将一组数据排序后,处于中间位置的变量值,用Me表示。中位数处于中间位置,前后每部分均包括50%的数据,而且前面部分小于中位数、后面部分大于中位数。例如,在职工收入水平差异比较大的单位,要了解职工收入的一般水平,用职工收入分布的中位数作为收入水平的代表值要比用算术平均数更恰当,因为它排除了极端数据的影响。 3、四分位数 四分位数是将一组数据排序后,找出将该组数据等分为四等份的三个点,每份包括25%的数据,这三个点上的数据就是四分位数。第二个四分位数就是中位数,它前面包括50%数据,后面也包括50%数据,因而,平时所说的四分位数主要是指第一个四分位数和第三个四分位数。通常,我们将第一个四分位数称为下四分位数(QL),将第三个四分位数称为上四分位数(QU)。 4、均值 均值是集中趋势最主要的测量值,它是将全部数据进行加总然后除以数据总个数,也称为算数平均数。均值包含一组数据中所有数值,它是先将所有数值进行加总,然后进行平均,在均值中所有数值都有所体现。因而,我们说均值是集中趋势最主要的测量值。 二、基本方法 1、众数的计算 (1)众数的计算比较简单,就是找出频数最大的即可。 例如“甲城居民对交通满意度调查”,调查者在甲城市随机抽取统计500人调查,调查结果发现,选择“非常不满意”的有50人,“不满意”的有98人,选择“一般”的有204人,选择“满意”的有110人,选择“非常满意”的有38人。从调查结果可以看出,选择“一般”的居民最多,为204人,占总数的40.8%,因而众数为“一般”这一变量值,即Mo=“一般”。 对于数值型数据,计算众数时,最好先对数据进行排序,有利于计算各变量值频数,避免出错。 (2)对于分组数据,计算具体数值时,根据公式: 对于任意一组数据,基本都存在频数最多的数值,这个数值可能有一个,也可能是两个,或者三个甚至更多,不管存在几个,它们均是该组数据的众数。但是,有些数据组的分布没有明显的中心趋势,例如各变量值分布很均匀,即每个观察值出现的次数相同,其就可能不存在众数。 2、中位数的计算 (1)对于未分组数据,在计算中位数时首先要对所有数据进行排序,然后确定中位数的位置。具体公式为: n为奇数时,中位数位置=(n+1)/2 n为偶数时,中位数介于n/2和(n/2)+1之间, 其中,n为数据的个数,然后确定中位数的值。 从某个班级随机抽取11位同学,调查期末考试英语成绩,11位同学成绩分别为:98,87,90,89,87,95,83,72,91,93,85。 这是数值型数据,首先对数据进行排序,如下: 72,83,85,87,87,89,90,91,93,95,98 中位数位置=(11+1)/2=6,中位数为89,即Me=89。 再比如,假设从本班抽取10名同学,并进行排序: 72,83,85,87,87,89,90,91,93,95 数据个数为10,是偶数,因而中位数位于第5、6个数据中间, 中位数为Me=(87+89)/2=88 (2)对于分组数据,按照以下公式计算: 其中,L为中位数所在组的下限值,i为中位数所在组组距,fm为中位数所在组频数,Sm1为中位数所在组之前各组的累积频数。 3、四分位数的计算 (1)对于未分组的数据,首先将数据排序,然后确定四分位数的位置: QL=(n+1)/4,QU=3*(n+1)/4 (2)对于分组的定序数据,各四分位数的位置: QL=n/4, QU=3n/4 同样,当四分位数不在某一数值上时,可以根据四分位数的位置,按比例分摊四分位数位置两侧数值的差值。 4、均值的计算 未分组数据均值的计算,先加总然后除以数据总个数: = 分组数据均值的计算,假设原始数据分为N组,每组数据频数分别为f1,f2,f3,fN表示,各组的组中值分别为X1,X2,X3,XN表示,计算公式为: = 三、其他重点难点 1、中心趋势 也叫集中趋势,反映一组数据中各个数值向中心值集中的程度,是指一组数据向某一中心值靠拢的趋势。中心趋势的测量就是找出代表数据水平的代表值或者中心值。 2、众数的特点 (1)众数简单易懂,适用范围广,可以用于各种类型数据中心趋势的测量。 (2)众数不受数据中极端值的影响,它是根据数值出现频数多少来确定的,因而不论极端值为多大或多小,众数都不会受其影响。 (3)众数也有其缺点:首先,众数不稳定,前面我们讲到,对于一组数据,可能存在一个、两个甚至多个众数,也可能不存在众数。其次,众数只是一个很粗略的反映中心趋势的测量值,对于一些变化很多的数据组,众数并不能很好的反映数据的集中特征。 3、中位数和分位数的特点 中位数和分位数计算简单,而且都是位置代表值,可以用于定序变量中心趋势的测定,同时可以用于数值型变量中心趋势的测量,但是不可以用于测量定类变量中心趋势。同众数一样,中位数和分位数由于是位置代表,因而不受极端值的影响。但是由于在计算时不是所有数据都参与运算,因此,它没有利用数据中的所有信息。另外,对于已分组的数据资料确定中位数时,计算比较麻烦。 4、均值特征 (1)各数值之和等于均值的N倍(N是数据个数)。 (2)各变量值与均值之差的总和等于零,即(Xi)=0。 (3)各变量值与其均值的离差的平方和最小,即(Xi)*(Xi)=最小 同时,由于均值是利用了所有数值的特点,因而,均值容易受极端值的影响,这会降低平均数均值对研究对象整体水平的代表性。 5、三者的特点与适用场合 众数、中位数、均值各自有自己的特点,在实际应用中也有不同的使用场合。 (1)众数是根据数据出现频数判断,是数据分布的峰值。众数计算简单,可以用于定类数据、定序数据和数值型数据中心趋势的测量,但是主要用于定类数据中心趋势的测量。众数是位置代表值,不受极端值的影响。但是,如前面章节中讲到的,一组数据可以能一个、两个甚至多个数据,也可能没有众数存在,因而,众数具有不唯一性。 (2)中位数是根据数据的排列顺序判断,是一组数据中位于最中间位置的数值,将数据分为均等的两部分,可以适用于定序数据和数值型数据中心趋势的测量,但是主要适用于定序数据中心趋势测量,定序数据虽然也可以使用众数作为测量值,但以中位数为最优。同众数一样,中位数也是位置代表,不受极端值的影响,而且众数和中位数都没有利用所有数值的信息,因而其代表性均不如均值。其他四分位数、十分位数、百分位数等也是如此。 (3)均值是将所有数据加总后除以数据总个数求出,它利用所有数值的信息,而且具有很好的数学特征。均值主要适用于数值型数据中心趋势的测量,尽管数值型数据也可以使用众数和中位数,但是均值最佳。但是,由于均值利用所有数值的信息,因而容易受极端值的影响,尤其是在偏态分布中,均值的代表性较差,这时可以考虑用众数或者中位数等不受极端值影响的位置代表值来代替均值。 6、 众数、中位数和均值的关系 众数、中位数和均值都是中心趋势的测量度,众数是数据分布中的最高峰值,中位数始终是位于中间位置的数值,均值则是全部数据的算术平均值。众数适用于所有类型数据,中位数适用于定序数据和数值型数据,而均值则只适用于数值型数据。 一般情况下,众数、中位数和均值三者具有以下关系: (1)对于对称分布的数据,其众数、
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 农学概论试题(附答案)
- 2025年应急预案培训
- 2025年人工智能技术基础考试试题及答案
- 2024年驻马店市市直和经济开发区学校招聘教师真题
- 2025-2030特种车辆改装市场准入壁垒与政策合规性分析报告
- 2025-2030牛加工品行业社交媒体营销效果评估及策略优化报告
- 2025-2030海洋风电运维船舶专业化发展需求与装备技术升级研究报告
- 2024年江苏南京鼓楼医院招聘真题
- 2025-2030植保无人机推广效益与农户采纳意愿影响因素报告
- 2024年浙江开放大学招聘真题(行政管理岗)
- 民营中医院开办可行性报告
- 经皮冠状动脉介入治疗指南2025
- 幼教拍摄培训
- 主动脉瓣置换护理常规
- 船舶公司内务管理制度
- 食品供应链内部管理制度
- 护理职业素养课件
- 2025年云南中考数学试卷真题解读及复习备考指导
- 数字身份认证伦理-洞察及研究
- 生态旅游承载力研究-洞察及研究
- 乡村振兴培训试题及答案
评论
0/150
提交评论