




已阅读5页,还剩79页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
描述统计,1,描述统计:描述一组数据的分布特征。,2,统计图表,条形图(棒图):表示分类变量等离散性数据资料,3,圆形图(饼图):表示分类变量等离散性数据资料,4,直方图:表示等比或等距变量等连续性数据资料,5,折线图:表示等比或等距变量等连续性数据资料,6,茎叶图:将每一数字分解为左边部分(称为茎)和右边部分(称为叶).如果数字是两位数,左边的一位就是茎,右边的一位就是叶茎叶图兼具次数分布表和直方图的双重优点,有非常高的实用价值。,7,历年真题,等距量表的特点是(B)(2007,全国统考)A.无绝对零点,无相同单位B.无绝对零点,有相同单位C.有绝对零点,无相同单位D.有绝对零点,有相同单位,8,次数分布表,简单次数分布表:依据每一个分数值在一列数据中出现的次数或总计数资料编织成的统计表。血型人数A143B182AB98O102,9,分组次数分布表:当数据量很大时,把所有数据先划分为若干组,将数据按数值大小划归到相应组别内,分别统计各组别中数据的个数,用列表形式呈现出来。,10,相对次数分布表:将次数分布表中各组的实际次数转化为频率比率(f/N)或百分比等项对此书来表示。累积次数分布表:把各组次数由下而上或由上而下累加在一起。,11,双列次数分布表:又称相关次数分布表,把有联系的两列变量用同一个表表示其分布。,12,集中量数,集中趋势与离中趋势是次数分布的两个基本特征。数据的集中趋势就是指数据分布中大量数据向某方向集中的程度。用于描述数据集中程度的统计量,就是集中量数。算术平均数、中数、众数、加权平均数、几何平均数、调和平均数等。,13,算术平均数,简称平均数(average)或均数、均值(mean)表示:、M、计算:例:有一组数据如下,计算它们的平均数:34,36,29,33,34,30解:=(34+36+29+33+34+30)/6=32.67,14,特点:1)在一组数据中每个变量与平均数之差(离差)的总和等于0。2)在一组数据中,每个数都加上一个常数C,所得平均数为原来的平均数加常数C。3)在一组数据中,每个数都乘上一个不为0的常数C,所得平均数为原来的平均数乘常数C。意义:1)应用最普遍的集中量数。2)是“真值”最佳无偏的估计值。,15,优点:1)反应灵敏。2)计算简单、严密。3)简明易懂。4)便于进一步统计。5)受抽样影响小。缺点:1)受极端值影响大。解决方法:修剪平均数,去除极端值。2)不能有缺失值。用中数等代替,16,应用原则:1)同质性。2)平均数与个体数值相结合。3)平均数与标准差、方差相结合。,17,中数,又称中点数、中位数、中值。数据排序后,中数刚好把数据的数目分成两半。表示:Md或Mdn计算:先将数据排序。数据个数为奇数:中间位置(第位置)的数就是中数。例:有一组数据如下,计算它们的中数:29,30,33,34,36解:Md=33,18,2)数据个数为偶数:位于中间的两个数的均值(第和位置数据的均值)就是中数。例:有一组数据如下,计算它们的中数:29,30,33,34,35,36解:Md=33.5,19,3)数据中间有数值相等的几个数:将中间重复的数看作连续体,利用中间分数的精确上下限进行插值。例:有一组数据如下,计算它们的中数:12,13,13,14,15,15,15,15,15,16解:12,13,13,14,15,15,15,15,15,16累积百分比中,第一个“15”的位置:40%,最后一个“15”的位置:90%15的精确上下限:14.5,15.5。,15.5Md=0.8,Md=14.7,20,优点:1)计算简单,容易理解。2)不受极端值影响。缺点:1)没有利用全部数据。2)不灵敏。3)受抽样影响大,不稳定。4)不能进一步代数运算。应用:当观测值中有极端值、缺失值。快速估计数据的集中趋势。,21,众数,又称范数、密集数、通常数。在次数分布中出现次数最多的数值。表示:Mo计算:找在次数分布中出现次数最多的数值。例:有一组数据如下,计算它们的众数:34,36,29,33,34,30解:Mo=34,22,优点:1)计算简单,容易理解。2)不受极端值影响。缺点:1)没有利用全部数据。2)不灵敏。3)受抽样影响大,不稳定。4)不能进一步代数运算。,23,应用:1)观测值中有极端值、缺失值。2)快速估计数据的集中趋势。3)数据不同质(命名型数据)。4)检查数据偏态(平均数-众数)。5)出现双峰分布。,24,平均数、中数、众数三者关系:,三者在偏态分布中:平均数永远在尾端,中数永远在中间。,25,历年真题,已知50个数据Xi(i=1,2,.50)的平均数为100。若Yi=Xi+10,则Yi的平均数为_;若Zi=10Xi,则Zi的平均数等于_。(浙大,2002)现有一列数据,他们是4、4、5、3、5、5、2.这列数据的平均数、众数和全距依次是(B)(2007,全国统考)A.4,4,2B.4,5,3C.5,4,4D.5,5,1,26,差异量数,数据的离中趋势是指数据分布中数据彼此分散的程度。差异量数就是对一组数据的变异性,即离中趋势特点进行度量和描述的统计量,也称为离散量数。离差、平均差、标准差、方差、变异系数、全距、四分位差、百分位差,27,离差与平均差,离差(deviation):一组数据中,某个数据到均值的距离。计算:离差=X-,例:统计考试平均分85,某同学考了80,则离差=8085=-5离差的缺点:一组数据中所有数据点的离差和必为0。无法反映一组数据的离中趋势。,28,平均差(averagedeviation或meandeviation):一组数据中,所有数据点到均值的离差的绝对值的平均值。符号:A.D.或M.D.计算:A.D.=例:30,32,34,35,29的平均差解:n=5,=32A.D.=(|30-32|+|32-32|+|34-32|+|35-32|+|29-32|)/5=(2+0+2+3+3)/5=2平均差的缺点:有绝对值,不利于进一步分析。,29,方差与标准差,和方(SS):离差的平方和。计算:SS=另一种计算公式:SS=,30,方差与标准差,方差:也称为变异数、均方。总体方差用2表示,样本方差用s2表示。标准差:方差的平方根。总体标准差用表示,样本标准差用s表示。计算:2=,=s2=,s=,31,注:总体的方差和样本的方差计算上有不同。原因:样本比其所属的总体变异性少,方差、标准差的计算需要校正。n-1是样本的自由度,利用自由度来校正样本,可以得到对总体参数的无偏差估计。自由度的概念:给定参数后可以自由变化的数值的个数。例:样本均值=4,样本个数n=5,其中4个数是5,4,6,2,则第5个数必为3,不可能自由变化。,32,33,方差与标准差的特点:1)在一组数据中,每个数都加上一个常数C,方差、标准差不变。2)在一组数据中,每个数都乘上一个不为0的常数C,所得标准差为原来的标准差乘常数C。,34,方差与标准差的优点:最常用的差异量数。反应灵敏,计算严密,意义明确,便于进一步统计,受抽样影响小。已知一组数据的均值、标准差,可以知道落在几个标准差范围之内数据的百分比(切比雪夫定理)。对于任何一个数据集合,至少有的数据落在平均数的h(h1)个标准差之内。,35,例:若某组数据的平均数为90,标准差为8,则根据切比雪夫定理,至少有75%的数据落在_之间。(浙大2002)解:=0.75,h=2,908*2=74,90+8*2=106,所以至少有75%的数据落在74106之间。,36,变异系数,变异系数(CV):又称差异系数、相对标准差,是标准差对平均数之百分比。计算:CV=*100%意义:不同质的数据之间的比较,如学生的身高和体重哪个离散程度大等。注意:一般用于具有绝对0点的等比数据。只能进行一般描述统计,尚无法进行推论统计。,37,历年真题,描述数据离中趋势的统计量有(A、B、C、D)(2007,全国统考)A.方差B.标准差C.平均差D.四分位差,38,相对量数,百分位数百分位数:又叫百分位点,指量尺上的一个点,在此点以下,包含了数据分布中一定百分比的数据个数。例:某次考试成绩中,某班级的P90=88.5,则表明小于等于88.5分的学生在该班中占了90%。,39,百分等级,百分等级:百分位数的逆运算,指任意分数在整个分布中所处的百分位置。例:某次考试成绩中,某班级某学生的P88.5=90,则表明该学生的成绩比全班90%的人要好,比10%的人要差。,40,历年真题,某考生在一项测验中得分60,经换算百分等级为70,这表明在所有考生中,得分低于该考生的人数占总人数的(D)(2007,全国统考)A.30%B.40%C.60%D.70%,41,标准分数,标准分数:又称z分数或基分数,以标准差为单位,表示一个原始分数在团体中所处位置的相对量数。,42,标准分数的特点:z分数的分布形状和原始分数的分布完全相同。z分数均值为0,标准差为1。所有原始分数转化为z分数之后,这些z分数之和也为0。标准分数的优点:可比,可加,明确,稳定。标准分数的应用:标准化(IQ)。可以计算概率(查Z分数表或公式计算)。比较不同质的变量之间的关系(确定在团体中的位置)。,43,历年真题,已知某次学业成就测验的平均分数是80,标准差为4.如果某考生得分为92,则该分数转换为标准分后是(C)(2007,全国统考)A.1B.2C.3D.4,44,数据描述小结,45,描述整个分布,用表:次数分布表用图:命名变量、顺序变量:棒图、饼图等距变量、等比变量:直方图、折线图,46,概括整个分布,集中趋势:等距变量、等比变量:相对正态、无缺失值:均值严重偏态、有缺失值:中数命名变量、顺序变量:众数离中趋势:与均值对应:标准差与中数对应:四分位差、全距,47,相对量数,与均值的相对位置:Z分数。与分布中其它值得相对位置:百分位等级。,48,Z分数、百分数相互转换,有一次测验成绩(正态)=80,=8,Tom得分X=84,Mary在第60个百分点上,John得分换算成Z分数是Z=0.75,将此三人分数从高到低排序。解:Tom:Z=(8480)/8=0.5Mary:P=0.6,Z=0.26John:Z=0.75所以:JohnTomMary,49,相关量数,双变量之间的因果关系,共变关系,相关关系。相关关系:两个变量之间发展的方向和大小存在一定的关系,但不能确定何者为因,何者为果,也不知道两者是否受某个其他因素的共同影响。,50,散点图通过点的散布形状和密度来显示两个变量的相关趋势和相关程度。,51,历年真题,用于描述两个变量之间相关关系的统计图是(D)(2007,全国统考)直方图B.线形图C.条形图D.散点图,52,相关类别,线性相关,非线性相关,53,正相关,负相关,零相关(无相关),54,相关系数,相关系数:两列变量间相关程度的数字表现形式,是用来表示相关关系强度的指标。表示:总体相关系数用,样本相关系数用r。-1r1注意:正负号表示相关方向,数值表示相关强弱样本量的大小线性、非线性,55,积差相关,又称为Pearson相关,积矩相关。计算前提:正态、连续变量成对、线性关系,56,积矩,积矩(SP):离差的乘积和。,57,SS和SP的对比,58,Pearson相关的计算,59,例:(2001北大)一位教育学教师让每个学生报告他们用于准备考试的时间和考试时答错的题目数:准备考试的小时数答错的题目数4501223233164计算用于准备考试的时间和考试时答错的题目数之间的积差相关系数,60,61,Pearson相关的特点:受极端值影响较大r2反映了两个变量之间的关系强度。,62,等级相关,又称Spearman相关。计算前提:等级变量或非正态连续变量,可以非线性成对,注:该公式只适用于没有重复等级或只有很少重复等级的情况。,63,64,65,肯德尔等级相关,两列等级变量:交错系数(),相容系数()多列等级变量:和谐系数(W),一致性系数(U)肯德尔和谐系数:K个评定者对n个事物进行等级评定,考察K个评定者之间的评分一致性。原理:被评价事物等级和的实际变异/被评价事物等级和的最大变异,66,肯德尔和谐系数W的计算,67,68,Ri=84,Ri2=1400,K=4,n=6,69,W的特点,0W1,评价完全不一致时为0,完全一致时为1。,70,肯德尔一致性系数,K个评定者对n个事物采用对偶比较法进行优劣评定,考察K个评定者之间的评分一致性。,71,72,U的特点,评价完全一致时为1。评价完全不一致时,U=-1/K(K是奇数),U=-1/(K-1)(K是偶数)。一致性系数U的正负号并不表示相一致的方向。,73,历年真题,由8名评价者对10种颜色进行喜爱程度的等级评定,若用肯德尔W系数衡量评定结果的一致性,则当评价结果完全一致时,W系数的值应等于_,而当评价结果完全不一致时,W系数的值应为_。,74,点二列相关,一列数据是正态等比或等距变量,另一列变量是二分命名变量(0、1变量,没有正态要求),考察两者之间的相关关系。,75,76,p=6/10=0.6q=4/10=0.4,77,二列相关,一列数据是正态等比或等距变量,另一列变量是人为划分的二分命名变量(原来分布是正态,人为划分成0、1分布),考察两者之间的相关关系。,78,点二列相关与二列相关的区别,二分变量的原始分布是否正态。只要不确定正态与否,即用点二列相关,实际研究中二列相关使用较少。,79,相关,相关:两个变量都是0、1二分变量,考察两个变量之间的相关关系。四
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 计算机一级考前冲刺练习试题及完整答案详解(考点梳理)
- 2025自考专业(人力资源管理)经典例题附答案详解【完整版】
- 2025年华为5G基站设备全球销售合同范本
- 2025房地产商房地产项目后期维护策划合同
- 考点解析人教版8年级数学下册《平行四边形》专项练习试卷(含答案详解)
- 2025年度混凝土浇筑技术指导和服务合同
- 2025安装承揽合同样式版
- 2024海南省五指山市中考数学考前冲刺练习AB卷附答案详解
- 2024-2025学年度一级建造师模考模拟试题及参考答案详解【巩固】
- 2025年远程协作工具对工作效率的提升
- 2025年阿托西班用药指导试题
- 拔牙后健康教育与护理指南
- 餐饮业食品安全管理与操作规范培训计划
- 拼多多培训课件
- 2025年铜化集团招聘笔试备考题库(带答案详解)
- 环卫车辆安全培训课件
- GB/T 45696-2025公共汽电车场站分类及等级划分
- (2025)中国石油化工集团中石化招聘笔试试题及答案
- 以桂为墨:高中桂花文化校本课程的开发与实践探索
- 2025年计算机二级JAVA考试中的真题练习试题及答案
- 数字政府效能评估体系-洞察阐释
评论
0/150
提交评论