ch05如何描述数据——数值方法PPT演示课件_第1页
ch05如何描述数据——数值方法PPT演示课件_第2页
ch05如何描述数据——数值方法PPT演示课件_第3页
ch05如何描述数据——数值方法PPT演示课件_第4页
ch05如何描述数据——数值方法PPT演示课件_第5页
已阅读5页,还剩40页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

心理统计,黄华hhsky,1,Ch05:如何描述数据数值方法,date200909,2,05如何描述数据数值方法,集中趋势的度量变异程度的度量相对位置的度量和异常值检测探索性数据分析附录:应用spss获得位置和变异的度量,3,平均数(均值),平均数(Mean):衡量数据集中心位置的量度。用所有数据值相加的和除以项数计算。如果数据来自某个样本,则平均数以表示;如果数据来自某个总体,则其平均数以希腊字母表示。样本平均数总体平均数Review:总体参数:用来概括总体数据的量度的数值。样本统计量:用来概括样本数据的量度的数值。,4,关于均值,Q:中国妇女平均生1.5个小孩。你的5岁的小侄子问你“可能吗?怎么有半个小孩?”你该如何跟他解释?均值的一些特质对极值敏感各变量值与其均值离差之和等于零。即各变量值与其均值的离差平方和最小,即练习,5,中位数(中数),中位数(Median):衡量数据集中心位置的量度。中位数的值将所有的数据分为两个相等部分,一部分的值都大于或等于它,而另一部分的值都小于或等于它。奇数项:以递增顺序排列的所有数据项的正中央的那一项的数值。偶数项:以递增顺序排列的所有数据项的正中央的两项的平均值。衡量数据中心位置时,平均数的应用要更加普遍。但在某些情况下,平均数往往会受到极端大的或极端小的数值的影响。例:在年收入数据中,因为收入中的少数极端值将会夸大平均数。在这种情况下,中位数成为更好的衡量中心位置的量度。,6,例:12名心理系毕业生的起始月薪数据样本,平均数:$2940中位数:$2905,7,众数,众数(Mode):用以衡量数据的位置的量度,定义为发生频数最高的数据值。有时发生频数最大的数据值可能会有两个或更多。如果在数据中恰有两个众数,我们称此数据是双众数的。如果在数据中有多于两个的众数,我们则称此数据是多众数的。在多众数的情况下,众数几乎从不被列报。因为列出3个或更多的众数,对于描述数据的位置并不能起多大作用。众数是衡量品质数据位置的重要量度,8,均值、中数与众数,众数是一组数据分布的峰值,它是一种位置代表值,不受极端值的影响。缺点是不具有唯一性;中位数是一组数据中间位置上的代表值,特点是不受数据极端值的影响;均值是对于数值型数据计算的,而且利用了全部数据信息,它具有良好的数学性质,应用比较广泛。缺点是易受极端数据的影响。对于偏态分布数据,均值代表性较差。当数据为偏态分布,特别是偏度较大时,应选择众数或中位数等位置代表值。,9,均值、中数与众数,Q:报告本市人均收入时你会选择哪种位置量数来说明?均值、中数还是众数?如果你是肇庆市长?如果你是人权领袖?如果你是尊重公正的统计学家呢?Why?,10,百分位数,百分位数(Percentile):至少有p的数据项小于等于这个值,且至少有(100-p)的数据项大于等于这个值。其中:第50百分位数即为中位数。计算第p百分位数第1步:以递增顺序排列原数据(即从小到大排列)。第2步:计算指数i第3步:(1)若i不是整数,将i向上取整。大于i的毗邻整数指示第p百分位数的位置。(2)若i是整数,则第p百分位数是第i项与第(i+1)项数据的平均值。,11,例:12名心理系毕业生的起始月薪数据,计算第85百分位数,第1步:将12个数据以递增顺序排列。第2步:第3步:由于i不是整数,将其向上取整,则第85百分位数的位置是第11项,即3130元。练习:计算第50百分位数?,12,四分位数,人们经常会将数据集划分为4个部分,每一个部分大约包含有1/4即25的数据项。这种划分的临界点即为四分位数(Quartiles):Q1=第1四分位数,即第25百分位数Q2=第2四分位数,即第50百分位数Q3=第3四分位数,即第75百分位数,13,05如何描述数据数值方法,位置的度量变异程度的度量相对位置的度量和异常值检测探索性数据分析附录:应用spss获得位置和变异的度量,14,变异程度的度量,校门口两家快餐店都宣称点菜后10分钟就能上菜,你常常光顾这两家店,几个月下来,发现他们两家的上菜时间的平均数都是10分钟左右。两家店上菜时间的数据直方图如下图所示。二者是否在按时上菜的可靠性上是一致的?单凭这一点,你更愿意去哪个快餐店消费呢?,15,全距,全距(Range):用以衡量变异程度的量度,为最大值减最小值的差。是衡量数据集变异程度的最简单的量度。但它却极少被单独使用,原因是全距仅仅是基于两个数据项的,因此极大地为极端数值所影响。,16,四分位点内距,四分位点内距(Interquartilerange,IQR):用以衡量变异程度的量度,定义为第3四分位数与第1四分位数之差。也就是说,四分位点内距是在中间的50的数据的全距。对于上述的起薪数据,四分位数Q1=2865,Q3=300。因此,四分位点内距为135。,17,离差平方和,SS:sumofsquares距离均值越远对SS的影响越大离散大的分布比离散小的分布,SS要大。Q:SS是离散程度的测度吗?数值离均值的距离分布中有多少的数值,18,方差,方差(Variance):用以衡量数据集变异程度的量度,是建立在距平均数离差的平方值的基础上的。如果数据集是总体,则离差的平方的平均值称为总体方差:分析的数据集是一个样本,则样本方差定义如下:,19,20,标准差,标准差(Standarddeviation):用以衡量数据集变异程度的量度,取方差的正的平方根。总体标准差样本标准差对于起始月薪的数据集,样本标准差为,21,方差和标准差,方差与标准差是表示一组数据离散程度的最好指标。其值越大说明离散程度大,其值小说明数据比较集中。反应灵敏。容易计算;简单明了;适合代数运算;受抽样变动的影响小,不同样本的标准差或方差比较稳定;具有可加性。可以把总变异分解为不同来源的变异。每个观测值加上相同常数C后,计算得到的标准差不变;每个观测值都乘以一个相同常数C后,计算得到的标准差是原来标准差的C倍,22,练习,10年后,你涉足房地产投资。肇庆三个地片的房子公布了它们去年的信息。你很想买一个公寓以获得有保证的投资回报(SD标准差)。A:销售价格的均值去年增高了700元,SD是400元;B:销售价格的均值去年增高了500元,SD是100元;C:销售价格的均值去年增高了700元,SD是80元;那么你认为哪个地片最有可能使你获益?哪一个最不可能?如果你的选择没有差错,哪个地片可以使你获得的收益最多?,23,标准差与基金或股票投资(简介),基金投资:风险控制(简介)风险是对基于历史数据得出的波动性的客观描述E.g.一个基金的年均收益20%,标准方差25中小盘与大盘基金的差别,24,标准差系数(变异系数),标准差系数(Coefficientofvariation):衡量数据集相对变异程度的量度,以标准差除以平均数再乘以100得到。对于前面的起薪数据,样本平均数为2940,样本标准差为165.65,标准差系数为(165.65/2940)100=5.6。它告诉我们样本标准差的值仅为样本平均数的5.6。可以用于有不同的标准差和不同的平均数的数据集的比较。,25,案例,同一个测试。7岁学生的平均分数是60分,SD4.02分,14岁的学生平均分数是80分,SD6.04分,问这两个年龄的测验分数哪一个离散程度更大?,26,偏态,峰度,偏态与峰度,27,偏态,数据分布偏斜程度的测度偏态系数=0为对称分布偏态系数0为右偏分布偏态系数0为左偏分布,28,偏态:案例,29,峰度,数据分布扁平程度的测度峰度系数=3扁平程度适中峰度系数3为尖峰分布,30,偏态分布中的众数、中数和均值,单峰分布条件下:如果分布是对称的,则Mo=Me=X如果分布是左偏的,则XMeMo如果分布是右偏的,则MoMeX,31,05如何描述数据数值方法,位置的度量变异程度的度量相对位置的度量和异常值检测探索性数据分析附录:应用spss获得位置和变异的度量,32,Z分数,Z分数(z-Score):以距平均数的离差()除以标准差s所得的值。Z分数是标准化的数值,指数据值xi距离平均数的标准差的个数。z分数经常被称为是标准化分数。比如,z1=1.2表示x1比样本平均数大1.2个标准差。z2=-0.5表示x2比样本平均数小0.5个标准差。两个不同数据集的项有相同的z分数,则可以说它们有相同的相对位置,因为它们都与平均数的距离有相同个数的标准差。,33,切贝谢夫定理,切贝谢夫定理(Chebysherstheorem)在任意一个数据集中,至少有(1-1/z2)的数据项与平均数的距离在z个标准差之内,其中z是任意大于1的值。z=2,3,4个标准差时,这一定理的含义:至少0.75,即75的数据项与平均数的距离在z=2个标准差之内。至少0.89,即89的数据项与平均数的距离在z=3个标准差之内。至少0.94,即94的数据项与平均数的距离在z=4个标准差之内。,34,练习,假设100名学生统计学课程考试,平均分数为70,标准差为5,那么有多少学生的分数在6080之间?有多少学生的分数在58-82之间?对于60-80之间,到60比平均数低两个标准差而80比平均数高两个标准差。利用切贝谢夫定理,至少有0.75即75的数据项与平均数的距离在两个标准差之内。对于58-82之间,我们由(58-70)/5=-2.4知,58比平均分低2.4个标准差,又由(82-70)/5=2.4知,82比平均分高2.4个标准差。应用切贝谢夫定理,z=2.4得到:即至少有82.6的学生的分数在5882之间。,35,钟形或山峰形分布,经验法则(Empiricalrule),对于钟形分布(正态分布)的数据:约68的数据项与平均数的距离在1个标准差之内。约95的数据项与平均数的距离在2个标准差之内。几乎所有的数据项与平均数的距离在3个标准差之内。,36,经验法则:案例,超市的小包装的海苔其重量呈正态分布(钟形分布)。如果平均重量是16克,标准差是0.25克,我们利用经验法则可以得到下面的结论:大约68的清洁剂的填充重量在15.75克至16.25克之间(即与平均数的距离在1个标准差之内)。大约95的清洁剂的填充重量在15.50克至16.50克之间(即与平均数的距离在2个标准差之内)。几乎所有的清洁剂的填充重量在15.25克至16.75克之间(即与平均数的距离在3个标准差之内)。,37,异常值(Outlier)检测,可能是一个数据项被错误地记录了可能是一个数据项被错误地包含在这个数据集中可能就是一个反常的值,它被正确地记录并且的确属于这个数据集,利用z分数来检测异常值时,任何z分数小于-3或大于+3的值都可作为异常值。,38,05如何描述数据数值方法,位置的度量变异程度的度量相对位置的度量和异常值检测探索性数据分析附录:应用spss获得位置和变异的度量,39,五数概括法,五数概括法(Five-numbersummary):是一种探索性数据分析的技术。用五个数据值:最小值、第1四分位数、平均数、第3四分位数和最大值来概括数据集。,40,探索性数据分析:箱型图显示,箱型图的绘制:第一、画数轴,度量单位大小和数据批的单位一致,起点比最小值稍小,长度比该数据批的全距稍长。第二、画一个矩形盒,两端边的位置分别对应数据批的上下四分位数(Q1和Q3),在矩形内部中位数位置画一条线段为中位线。第三、在Q31.5IQR(四分位距)和Q11.5IQR处画两条与中位线一样的线段,这两条线段为异常值截断点,称其为内限;在F3IQR和F3IQR处画两条线段,称其为外限。处于内限以外位置的点表示的数据都是异常值,其中在内限与外限之间的异常值为温和的异常值(mildoutliers),在外限以外的为极端的异常值(extr

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论