03 描述统计学ⅱ:数值方法t_第1页
03 描述统计学ⅱ:数值方法t_第2页
03 描述统计学ⅱ:数值方法t_第3页
03 描述统计学ⅱ:数值方法t_第4页
03 描述统计学ⅱ:数值方法t_第5页
已阅读5页,还剩36页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

,3 描述统计学:数值方法,位置的度量变异程度的度量相对位置的度量和异常值检测探索性数据分析两变量间关系的度量加权平均数和使用分组数据,1,平均数,平均数(Mean):衡量数据集中心位置的量度。用所有数据值相加的和除以项数计算。如果数据来自某个样本,则其平均数以 表示;如果数据来自某个总体,则其平均数以希腊字母 表示。样本平均数 总体平均数,2,平均数,总体参数:用来概括总体数据的量度的数值。样本统计量:用来概括样本数据的量度的数值。,3,中位数,中位数(Median):衡量数据集中心位置的量度。中位数的值将所有的数据分为两个相等部分,一部分的值都大于或等于它,而另一部分的值都小于或等于它。奇数项:中位数是以递增顺序排列的所有数据项的正中央的那一项的数值。偶数项:中位数就以递增顺序排列的所有数据项的正中央的两项的平均值。,4,中位数,衡量数据中心位置时,平均数的应用要更加普遍。但在某些情况下,平均数往往会受到极端大的或极端小的数值的影响。例:在年收入及财产数据中,因为收入和财产中的少数极端值将会夸大平均数。在这种情况下,中位数成为更好的衡量中心位置的量度。,5,例:12名商学院毕业生的起始月薪数据样本,平均数:$2940中位数:$2905,6,众数,众数(Mode):用以衡量数据的位置的量度,定义为发生频数最高的数据值。有时发生频数最大的数据值可能会有两个或更多。如果在数据中恰有两个众数,我们称此数据是双众数的。如果在数据中有多于两个以上的众数,我们则称此数据是多众数的。在多众数的情况下,众数几乎从不被列报。因为列出3个或更多的众数,对于描述数据的位置并不能起多大作用。众数是衡量品质数据位置的重要量度,7,百分位数,百分位数(Percentile):至少有p%的数据项小于等于这个值,且至少有 (100-p)%的数据项大于等于这个值。第50百分位数即为中位数。,8,百分位数,计算第p百分位数第1步:以递增顺序排列原数据(即从小到大排列)第2步:计算指数i第3步:(1)若i不是整数,将i向上取整。大于i的毗邻整数指示第p百分位数的位置。 (2)若i是整数,则第p百分位数是第i项与第(i+1)项数据的平均值。,9,例:12名商学院毕业生的起始月薪数据,计算第 85百分位数,第1步:将12个数据以递增顺序排列。第2步:第3步:由于i不是整数,将其向上取整,则第85百分位数的位置是第11项。计算第 50百分位数?,10,四分位数,人们经常会将数据集划分为4个部分,每一个部分大约包含有1/4即25的数据项。这种划分的临界点即为四分位数(Quartiles):Q1 = 第1四分位数,即第25百分位数Q2 = 第2四分位数,即第50百分位数Q3 = 第3四分位数,即第75百分位数,11,3 描述统计学:数值方法,位置的度量变异程度的度量相对位置的度量和异常值检测探索性数据分析两变量间关系的度量加权平均数和使用分组数据,12,变异程度的度量,一个大型加工工厂定期向两个不同的供应商订货,两个供应商都指出订货后大约10天才能交货。二者交货所需工作日的数据直方图如下图所示。二者是否在按时供货的可靠性上是一致的?你更愿意向哪一个供货商订货呢?,13,级差,级差(Range):用以衡量变异程度的量度,定义为最大值减最小值的差,也称为全距。是衡量数据集变异程度的最简单的量度。但它却极少被单独使用,原因是级差仅仅是基于两个数据项的,因此极大地为极端数值所影响。,14,四分位点内距,四分位点内距(IQR):用以衡量变异程度的量度,定义为第 3四分位数与第1四分位数之差。也就是说,四分位点内距是在中间的50的数据的级差。对于上述的起薪数据,四分位数Q1 = 2865, Q3 = 3000。因此,四分位点内距为135。,15,方差,方差(Variance):用以衡量所有数据变异程度的量度,是建立在各数据值与平均数的平方离差基础上。如果数据集是总体,则离差的平方的平均值称为总体方差:分析的数据集是一个样本,则样本方差定义如下:,16,17,标准差,标准差(Standard deviation):用以衡量数据集变异程度的量度,取方差的正的平方根。总体标准差样本标准差对于起始月薪的数据集,样本标准差为,18,标准差系数,标准差系数:衡量数据集相对变异程度的量度,以标准差除以平均数再乘以100得到。对于前面的起薪数据,标准差系数为(165.65/2940)100=5.6。即样本标准差的值仅为样本平均数的 5.6。标准差系数可以用于有不同的标准差和不同的平均数的数据集的比较。,19,3 描述统计学:数值方法,位置的度量变异程度的度量相对位置的度量和异常值检测探索性数据分析两变量间关系的度量加权平均数和使用分组数据,20,Z分数,Z分数(z-Score):以距平均数的离差( )除以标准差 s 所得的值。Z分数是标准化的数值,指数据值 xi 距离平均数 的标准差的个数。,21,Z分数,z分数经常被称为是标准化的数值。比如,z1=1.2 表示 x1 比样本平均数大1.2个标准差。类似地,z2=-0.5 表示 x2 比样本平均数小0.5个标准差。两个不同数据集的项有相同的z分数,则可以说它们有相同的相对位置,因为它们都与平均数的距离有相同个数的标准差。,22,切贝谢夫定理,切贝谢夫定理(Chebyshers theorem)在任意一个数据集中,至少有(1-1/z2)的数据项与平均数的距离在 z 个标准差之内,其中z是任意大于1的值。z = 2,3,4个标准差时,这一定理的含义:至少75的数据项与平均数的距离在z=2个标准差之内。至少89的数据项与平均数的距离在z=3个标准差之内。至少94的数据项与平均数的距离在z=4个标准差之内。,23,例:假设100名学生在大学商学院统计学课程的期中考试中,平均分数为70,标准差为5,那么有多少学生的分数在6080之间?有多少学生的分数在58-82之间?,对于60-80之间,到60比平均数低两个标准差而80比平均数高两个标准差。利用切贝谢夫定理,至少有0.75即75的数据项与平均数的距离在两个标准差之内。对于58-82之间,我们由(58-70)/5=-2.4知,58比平均分低2.4个标准差,又由(82-70)/5=2.4知,82比平均分高2.4个标准差。应用切贝谢夫定理,z =2.4得到:即至少有82.6的学生的分数在5882之间。,24,钟形或山峰形分布,经验法则(Empirical rule),对于钟形分布(正态分布)的数据:约68的数据项与平均数的距离在1个标准差之内。约95的数据项与平均数的距离在2个标准差之内。几乎所有的数据项与平均数的距离在3个标准差之内。,25,例:液体清洁剂是在生产线上自动填充的,填充的重量呈钟形分布。如果平均填充的重量是16盎司,标准差是0.25盎司,我们利用经验法则可以得到下面的结论:大约68的清洁剂的填充重量在15.75盎司至16.25盎司之间(即与平均数的距离在1个标准差之内)。大约95的清洁剂的填充重量在15.50盎司至16.50盎司之间(即与平均数的距离在2个标准差之内)。几乎所有的清洁剂的填充重量在15.25盎司至16.75盎司之间(即与平均数的距离在3个标准差之内)。,26,异常值(Outlier)检测,可能是一个数据项被错误地记录了可能是一个数据项被错误地包含在这个数据集中可能就是一个反常的值,它被正确地记录并且的确属于这个数据集,利用 z 分数来检测异常值时,任何 z 分数小于-3或大于+ 3的值都可作为异常值。,27,3 描述统计学:数值方法,位置的度量变异程度的度量相对位置的度量和异常值检测探索性数据分析两变量间关系的度量加权平均数和使用分组数据,28,五数概括法,29,箱形图,画一个箱体,其边界恰好是第1和第3四分位数。这个方盒包含了中间的50%的数据。在方盒上中位数的位置画一条垂线。因此中位数将数据分为相等的两个部分。利用四分位点内距IQR =Q3-Q1,来设定界限。盒形图的界限定于低于Q1以下1.5个IQR和高于Q3以上1.5个IQR的位置。上、下限以外的数值作为异常值。画一条须线从方盒的边线出发,直至在上、下限之内的最大值和最小值。最后,任一异常值的位置以符号“ * ”标出。,30,箱形图(Box plot):一种用图形概括数据的方法。用一个以第 1和第3四分位数为边界的方盒来表明在中心位置的 50的数据。以一条横线(称为须线)从方盒两侧延伸以表明大于第 3四分位数和小于第1四分位数的数据值的位置。所有异常值的位置也予以标明。,31,3 描述统计学:数值方法,位置的度量变异程度的度量相对位置的度量和异常值检测探索性数据分析两变量间关系的度量加权平均数和使用分组数据,32,协方差,协方差(Covariance):用以衡量两变量间线性相关关系的数值量度。正值表示正相关,负值表示负相关。总体协方差样本协方差,33,例:一个音像设备商店数据的样本,34,35,36,相关系数,相关系数(Correlation coefficient):用以衡量两变量间线性相关关系的数值量度。其取值从1到+1。接近+1的值表示强的正线性相关,接近-1的值表示强的负线性相关,接近零的值表示几乎无线性相关关系。,37,3 描述统计学:数值方法,位置的度量变异程度的度量相对位置的度量和异常值检测

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论