《统计学》辅修-第三章-数据的描述资料.ppt_第1页
《统计学》辅修-第三章-数据的描述资料.ppt_第2页
《统计学》辅修-第三章-数据的描述资料.ppt_第3页
《统计学》辅修-第三章-数据的描述资料.ppt_第4页
《统计学》辅修-第三章-数据的描述资料.ppt_第5页
免费预览已结束,剩余67页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、,第三章 数据的描述,本章分为两部分: 1. 数据的图表描述. 2. 数据的数字特征描述.,3.1 数据的图表描述,用收集到的数据来列表和作图,要求: 理解图形的意义; 学会用SPSS作图。,定性数据的图表描述 1. 频数、频率分布表: 例:最喜欢喝哪一种饮料? 原始数据见下表,原始数据见数据文件:饮料,饮料的频数、频率表 (画条形图用),用Excel建立频数表:先排序、再汇总。 用SPSS建立频数表: 分析 描述性统计 频率表,2.定性数据的条形图,用SPSS制作条形图(打开“饮料.sav” 文件) 1)选择菜单“图形”中的 “条形图”选项; 2)在对话窗口选择“简单条形图(Simple)”

2、 3)在弹出窗口的“类别轴” 框 输入定性变量名(饮料); 4)点击“确定(OK)”即可。,条形图可分为: 简单(Simple)条形图; 复杂(Clusered)条形图; 堆积(Stacked)条形图。,简单条形图,复杂条形图,堆积条形图,3. 定性数据的交叉表: 例:最喜欢喝哪一种饮料? 原始数据见“饮料”,饮料品种和性别的交叉表,交叉表的Excel命令,打开数据文件“饮料”; “数据” “数据透视表和数据透视图(P)”选项; “Microsoft Office Excel数据列表或数据库(M)”,选择“数据透视表(T)”,选择“下一步”; 选定区域“a2:b51”,“下一步”;,选择“现有

3、工作表”,键入“d5”,选择“完成”; 将项目“饮料”拖入行字段, 将项目“性别”拖入列字段, 然后将“饮料”拖入中间部分。,交叉表的SPSS命令,分析 描述性统计 交叉表,4.定性数据的饼图 饼图的形状为一圆饼,用不同颜色标出大小不等的扇区,见下图。 不同扇区代表定性变量的不同取值,这些取值通常为代表定性变量不同性质的某字符串。 扇区的面积大小代表占圆面积的百分比,即为定性变量取相应值的比例。,饼图的制作:(打开 language.sav 文件) 1)选择菜单“图形(Graphs)”中的 “饼图(Pie)”选项, 2)在对话窗口的“定义分区(Define Slices by)” 框中输入定性

4、变量名(语种)。 3)在对话窗口的“其他摘要函数(Variable)” 框中输入要统计的变量名(母语)。 4)点击“确定(OK)”即可。,母语,定量数据的图表描述 1. 直方图 直方图的解读直方图的形状为一个个矩形(直方),这也是其名字的由来,见下图。图的横坐标为变量(数据)的不同取值范围,纵坐标为落在相应范围内的数据个数。 图中还附带有三个数字特征,分别为均值、 (Mean)标准差(Std. Dev.) 和样本容量N。,2. 定量数据的分组 可以等距分组,也可以不等距分组; 组数不要太少(5个以上), 也不要太多(20个以下)。 不重不漏; 左开右闭 (ai, ai+1; 组中值:(ai+a

5、i+1)/2.,3. 定量数据的散点图 散点图由横坐标和纵坐标两个变量的取值来确定: 二维变量的每一组值由平面中的一个点来描述. 例如:美国不同年代男士(或女士)的初婚年龄: 可将不同年代作为横坐标, 初婚年龄作为纵坐标.,散点图的制作: 1)输入数据文件(例marriage.sav) ; 2)选择菜单“图形”中的 “散点图”选项, 3)在对话框中选择放置在 Y轴的变量名,和X轴的变量名; 4)点击“确定(OK)”即可。,散点图允许多个变量的图画在同一张图中. 一个变量的选简单散点图(Simple Scatter). 多个变量的选重叠散点图(Overlay Scatter).,4. 定量数据的

6、序列图 序列图的形状为一条折线; 折线的高度(纵坐标)代表变量的值; 而横向的位置为这些值(数据)的自然排序.,序列图的制作 1)输入数据文件(例sales.sav) ; 2)选择菜单“图形(Graphs)”中的 “序列图(Sequence)”选项, 3)在对话框中选择所要画序列图的变量名, 4)点击“确定(OK)”即可。,制作序列图的注意点: 在对话框中“时间轴标签(Time Axis Labels)” 一般不用人为选择,SPSS软件自动设定其为数 据的序号,见 sales.sav 的例子。,制作序列图的注意点: 时间轴也可以由某个时间变量来确定,见marriage.sav 的例子。 序列图

7、也允许多个变量的图画在同一张图中。,3.2 数据的数字特征描述,数据的数字特征描述就是借助某些公式,对数据(样本)进行运算,以此得到一些的量来描述数据某方面的性质。,钟形对称,数据的位置特征,位置特征是描述数据相对的位置, 常用的位置特征量有: 均值、中位数、众数。,平均数(均值),一组数据的“中心点”; 最常用的测量值; 用于数值型数据,不能用于定性数据。,平均数(均值)的计算公式,平均数的Excel计算,200个圆筒的内径数据放在A列的第1至第200个单元格上,然后在任意一个单元格上输入平均数函数名 “=average(a1:a200)”, 则显示 45.2915,推销员每获得一份订单平均

8、需向顾客提出4.6次成交要求; 把一个包裹送到一个陌生人那里去,平均经过6个人的手; 上海市平均每个家庭有多少人? 年份 1950 1960 1970 1980 1990 2000 2010人数 4.6 4.5 4.2 3.8 3.1 2.8 2.49 某路口早高峰时,一个绿灯2分10秒能通过250辆车,若有人闯红灯,最多通行120辆。,平均数有什么不足之处?,平均数受极端数据的影响大 2000年江苏省农民人均年纯收入增长了2.9%。 2000年江苏农民减收户达60%,平收和增收的农户只占1/3强。,中位数 (Me),中位数是将数据按递增的顺序排列后位于中间的数值。 在中位数左边有一半的数;

9、在中位数右边有一半的数。,假设有 n个数据:x1, x2, xn 。 首先将它们按由小到大的次序排列。 n为奇数,中间那个数为中位数; n为偶数,中间两个数的平均为中位数。,上海市人口年龄中位数,众数(Mo),众数:数据中出现次数最高的数据值。 在“最喜欢喝哪一种饮料”的例子中, “可口可乐”的频数最高,因而“可口可乐”是众数。 男性:“可口可乐”是众数; 女性:“杏仁露 ”是众数.,众数,“察觉得晚”和“判断失误”共占94.4%。,交通事故驾驶过程因素分析,Mo不满意,中心位置的度量,众 数: 数出现的频率; 中位数:数的顺序; 平均数:数的大小。,临终关怀医院病人收容时间 (670个病人记

10、录) 平均数:35.7天 中位数:17天 众 数:1天,某企业101位雇员的工资,众数、中位数和均值的关系,众数,中位数,均值,分组数据的平均数,1.先确定中位数所在的组; 2.采用下列近似公式计算:,分组数据的中位数,前一组的累积频数,例 计算50名工人日加工零件数的中位数:,分组数据的众数,1.相邻两组的频数相等时,众数组的组中值即为众数,2. 相邻两组的频数不相等时,众数采用下列近似公式计算(相似三角形的相似比),f,f-1,f+1,L,组距,例 计算50名工人日加工零件数的众数:,数据的尺度特征量,尺度特征量是描述数据的离散程度。 常用的尺度特征量有: 极差、方差(标准差)、变异系数

11、(1)样本极差(Sample Range),常记为,R = 样本最大值与最小值之间的差。,(2)样本方差(Sample Variance),常记为,样本方差越小,数据越集中;样本方差越大,数据越分散。 样本方差是一个非负的量。 样本方差等于零,则所有数据相同。,样本标准差(Standard Deviation): 样本方差的(非负)平方根,记为S. 注意:使用标准差的好处在于, 其量纲单位与X是一致的。,Excel函数,用SPSS计算均值和标准差: (1) 打开 Student.sav 数据文件; (2) 从菜单“分析”中选 “描述性统计”, 再选“描述性统计分析”; (3) 在对话窗口中选择

12、要分析的变量。,单个数学(math)成绩的分析:,数学(math)和物理(phys)成绩同时分析:,均值和标准差在实际问题中的应用,(一)一种简单的说法:数据中有 68% 落在 ( - S, + S ) 中; 95% 落在 ( - 2S, + 2S ) 中; 99% 落在 ( - 3S, + 3S ) 中;,- x,- x,- x,- x,- x,- x,均值和标准差在实际问题中的应用,(二) 数据的标准化(标准得分) 假设有两个班级上同一门课,但是由于两个任课老师的评分标准不同,使得两个班成绩的均值和标准差都不一样。,一班分数的均值和标准差分别为78.53和9.43,而二班的均值和标准差分别

13、为70.19和7.00。 问题:得到90分的一班的张颖是不是比得到82分的二班的刘疏成绩更好呢?,这种均值和标准差不同的数据不能够直接比较,但是可以把它们进行标准化,然后再比较标准化后的数据。 标准化(standardize): (原数据 - 均值)/ 标准差 一班张颖的标准得分是(90-78.53)/9.43=1.216,二班刘疏的标准得分是 (82-70.19)/7.00=1.687。因此我们可以回答:刘疏的成绩更好些。,如果进一步问: 以上的标准分1.216和1.687的含义? 用正态分布计算可得: “=normdist(1.216,0,1,1)” 0.888008 这相当于排名前12% “=normdist(1.687,0,1,1)” 0.95419

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论