数据清理与图表呈现ppt课件_第1页
数据清理与图表呈现ppt课件_第2页
数据清理与图表呈现ppt课件_第3页
数据清理与图表呈现ppt课件_第4页
数据清理与图表呈现ppt课件_第5页
已阅读5页,还剩59页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

教育测量与统计,第二讲数据清理与图表呈现,数据的整理心理和教育研究中收集的各种原始资料杂乱无章,只有经过整理分析才能从中提取出有用的信息。在对资料进一步分析之前,需要进行认真的整理。,审核资料,审核资料的目的,是为了剔除不合格的资料,以确保资料的可靠性和可信性。审核是对原始资料进行初步的审查和核实。不符合要求的数据主要有三种:缺失、可疑、失误。,审核资料,缺失:指数据不全或缺项未填;例如一份资料中未回答的问题占10以上,或者缺少关键性资料。可疑:指难以辨认或怀疑其真实性的数据;例如,有的被试填答的问卷全部选同一个选项(如全选A或全选B);有的被试填答的结果可以看到是一种规则的排列方式(如ABCDEDBCABCDE)。失误:指存在明确差错的数据或答案。,数据的分组,分组要以被研究对象的本质特性为基础分类标志要明确,要能包括所有的数据数据分组的标志性质类别:按事物的不同性质进行分类。数量类别:按数值大小进行分类,并排序。,统计表,统计表是用来表达研究变量与被说明的事物之间数量关系的表格。它可以将大量数据的分类结果清晰、概括、一目了然地表达出来,便于分析、比较和计算。,1、统计表的构成,表21统计表的格式,顶线,底线,表线,表号,标题,标目,标目,表注,注:,例:表2-2北京市四街道智力落后患者分布,统计表的种类,简单表:只按研究现象(或变量)的名称、地点、时序等列出数据的统计表。分组表:只按一个标志分组的统计表称为分组表。复合表:按两个或两个以上标志分组的统计表称为复合表。,简单表,表2-3各校学生数一览表,分组表,表2-4上海市区男幼儿20米跑步用时,复合表,表2-5某年级操行评定结果,例:表26中学生心理烦恼调查被试分布,统计图,统计图是整理和呈现数据的另一种方法,它把研究变量与被说明事物之间的数量关系用图形表现,直观、形象地表达出事物的全貌及其数据的分布特征,使人一目了然,便于理解和记忆,印象深刻。,统计图的构成,统计图一般由图号、标题、标目、图形、图注等几部分构成。统计图中的标目由基线和尺度线构成。对于有纵、横轴的统计图,一般以基线表示被观察的现象,而尺度线则表示其数量。,统计图的分类,条形图:用直条的长短来表示统计项目数值大小的图形,主要是用来比较性质相似的间断型资料。圆形图:是用于表示间断型资料比例的图形。圆形的面积表示一组数据的整体,圆中扇形的面积表示各组成部分所占的比例。各部分的比例一般用百分比表示。,单式条形图,图21某年级操行评定结果条形图,基线,尺度线,图形,复式条形图,图22某年级操行评定结果条形图,例:图2-3三项影响较大的SARS信息对不同文化程度民众的影响,圆形图,图24某年级操行评定结果圆形图,绘制圆形图的步骤,求出各组成部分所占的百分比求出各部分的中心角度以顺时针方向画出扇形标出不同颜色及百分比,线形图,线形图用来表示连续型资料。它能表示两个变量之间的函数关系;一种事物随另一种事物变化的情况;某种事物随时间推移的发展趋势等。基于线形图,既可对有关统计变量进行数量比较,又可分析发展的趋势。,例如:对有意义的词汇,小学一年级至初中三年级学生视觉、听觉记忆再现率的情况。,图25有意义的材料再现率比较线形图,次数分布表,一位研究者调查了151位大学生,问他们在过去一年中的应激程度,用的是0到10点量表。151个大学生的数据如下:4,7,7,7,8,8,7,8,9,4,7,3,6,9,10,5,7,10,6,8,7,8,7,8,7,4,5,10,10,0,9,8,3,7,9,7,9,5,8,5,0,4,6,6,7,5,3,2,8,5,10,9,10,6,4,8,8,8,4,8,7,3,8,8,8,8,7,9,7,5,6,3,4,8,7,5,7,3,3,6,5,7,5,7,8,8,7,10,5,4,3,7,6,3,9,7,8,5,7,9,9,3,1,8,6,6,4,8,5,10,4,8,10,5,5,4,9,4,7,7,7,6,6,4,4,4,9,7,10,4,7,5,10,7,9,2,7,5,9,10,3,7,2,5,9,8,10,10,6,8,3,用次数分布表整理,次数分布最简单的描述统计,描述统计的目的:简化和整理数据的表达。次数分布(FrequencyDistribution):是指一批数据在某一量度的每一个类目所出现的次数情况组织此类数据的第一种方法是:建立次数分布表次数分布表和次数分布图就是表达一组数据是如何在某一度量上分布的,例1:某个班的26个学生在一次测验中的分数如下(10分为满分):9,2,3,8,10,9,9,2,1,2,9,8,2,5,2,9,9,3,2,5,7,2,10,1,2,9将这些分数作成一个次数分布表,Xf102978271605240322812,简单次数分布表,例1:对于下面的次数分布表:a)此分布中共有几个分数(N=?)b)对这些分数求和X,N=f=14X=xf=33,每个分数的比率和百分率,Proportion=p=f/n,分组次数分布表(GroupedFrequencyTables),变量的值分布在一个较广的范围时,需要分组次数分布表简捷地描述数据常常以区间或类别的形式出现,而不是某一特定值.例如学生成绩,(A=90-99,B=80-89,.).编制分组次数分布表的步骤把所有数据按大小顺序排列求全距定组数定组距写出区间上下限统计每个区间的次数,分组的“惯常法则”(rulesofthumbs),分组次数分布表应该有大约10(5-15)个区间,目的是使这组数据易于直观感受和理解所有区间的宽度应该相等组距应该是个比较简单的数字,如2,5,10,20每个区间开始的分数应该是组距的倍数,例3:以下是22个同学的测验分数,编制分组次数分布表94,92,82,87,81,74,75,78,76,76,63,60,62,54,51,56,59,43,32,36,25,18,例3:以下是22个同学的测验分数,编制分组次数分布表94,92,82,87,81,74,75,78,76,76,63,60,62,54,51,56,59,43,32,36,25,18,分数的分布范围是18-942为组距,分38组5为组距,分16组10为组距,分9组,精确界限(RealLimits),对于一个连续型变量,每个分数实际对应量尺上的一段区间。分割这些区间的界限叫做精确界限(reallimits).分割两个邻近分数的精确界限位于两个分数的中间。每个分数有两个精确界限,一个在区间的顶端,称为精确上限(upperreallimit),另一个在区间的底端,称为精确下限(lowerreallimit).注意一个区间的精确上限也是高一个区间的精确下限,次数分布图,直方图(histogram),用一些垂直条画在每个分数之上垂直条的高度代表次数垂直条的宽度代表分数的精确区间.临近的垂直条连接在一起只有数据是等距或等比量度(连续变量)时,才能用直方图,直方图(histogram),棒图(条形图;bargraph),表达质性研究的数据(qualitativedata).用一些垂直条画在每个分数(或类别)之上垂直条的高度代表次数每个垂直条之间有一段空间。只有数据是命名或顺序量度(离散型变量)时,才能用棒图,棒图(条形图;bargraph),折线图(linegraph),又称次数分布多边图(frequencydistributionpolygon)在每一分数上面画点点的高度代表次数一条连续折线将这些点连接在一起表达数据的变化趋势,折线图(linegraph),茎和叶图(stemandleafdisplay),如何准确地用图表达数据,把复杂的观点传递得清晰,准确,高效.在最短的时间里用最少的笔墨和空间传递最多的信息.图形的实际差别与数据的差别成正比.标注清楚,详细,完全.测度单位要一致.,误导读者的图,次数分布的形状,用3个特征可以完整地描述一个分布:形状(shape)集中趋势(centraltendency)变异性(variability),对称分布(symmetricaldistribution),可以画一条垂直线穿过分布的中央,使得分布的一边恰是另一边的镜象。,偏态分布(skeweddistribution),分数堆积在分布的一端,而另一端成为比较尖细的尾端(tail)偏态分布尾端向右的称为正偏态(positivelyskewed)(因为其尾端指向正数)偏态分布尾端向左的称为负偏态(negativelyskewed).,双峰分布(bi-modaldistribution),矩形分布(rectangledistribution),一个分布中所有的值都是相同频次,百分位数(percentile),以上是描述观察的整体,而我们也可用次数分布来描述某一个别点在一个集合中的位置原始分数本身并不提供该点在一个集合中的位置的信息一个分数的等级(rank)或百分位数等级(percentilerank):某一分布中分数在某一值之下或等于该值的个体所占的百分比.当一个分数被其百分位数等级,该分数称为百分位数(percentile).,累计次数分布,cf=累积次数(cumulativefrequency)c%=cf/Nx100%累积百分比(cumulativepercentage),如何确定百分位数,对于连续型数据,必须考虑其精确上限和精确下限,如何确定百分位数,对于分数4,其对应的累积百分比是95%.但注意:分数4意味着一个人得分在3.5和4.5之间.累积百分比表明组距的精确上限。因此,95的百分位数是与4.5相对应(而不是4.0).找出分布中4分的精确上限和精确下限的累积次数.对于分数4.5,其对应的累积百分比是95对于分数3.5,其对应的累积百分比是70对于分数4.0,其对应的累积百分比是多少呢?,插值法(Interpolation),有时

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论