[计算机软件及应用]数据的计量尺度.ppt_第1页
[计算机软件及应用]数据的计量尺度.ppt_第2页
[计算机软件及应用]数据的计量尺度.ppt_第3页
[计算机软件及应用]数据的计量尺度.ppt_第4页
[计算机软件及应用]数据的计量尺度.ppt_第5页
已阅读5页,还剩53页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据的计量尺度与类型:例子,定类尺度,定序尺度,定距尺度,定比尺度,精 确 程 度,良好,1980,134公斤,中国,国籍:,健康状况:,出生年份:,体重:,(1)定类尺度 (Nominal Scale),也称分类尺度 例如:性别、民族、职业 数据表现为“类别” 各类之间无等级次序 各类别可以用数字代码表示 根据定类尺度得到的数据为分类数据。,(2)定序尺度(Ordinal Scale),也称顺序尺度 例如健康状况、质量等级 可对等级、大小等排序 未测量出类别之间的准确差值 根据定序尺度得到的数据为顺序数据。,(3)定距尺度(Interval Scale),也称间隔尺度 例如年份、摄氏温度 数据表现为“数值” 可以进行加减运算 “0”是只是尺度上的一个点,不代表“不存在” 根据定距尺度得到的数据为间距数据。,(4)定比尺度 (Ratio Scale),也称比率尺度 例如体重、身高 数据表现为“数值” 可以进行加减、乘除运算 “0”表示“没有”或“不存在” 根据定比尺度得到的数据为比率数据。,四种计量尺度的比较,计量尺度,数学特性,四种计量尺度的比较,1、四种尺度所包含的信息量是依次递增的,级别由低到高。 2、根据较高层次的计量尺度可以获得较低层次的计量尺度。 3、不同的尺度数据对应着不同数据显示方法和分析方法。,8/20,数据的基本类型,问卷题目的类型大致可以分为单选、多选、排序、开放题目四种类型,他们的变量的定义和处理的方法各有不同,详细举例介绍如下:,9/20,3.2 统计图,3.2.1 线图(Line Chart),利用线形的升降起伏来表现描述的变量在一段时期内的变动情况,主要用于显示时间数列的数据。,1996年-2003年城乡居民人民币储蓄存款年底余额,双变项线形图(延伸线)输出结果,双变项线形图(复线图)输出结果,3.2.1 线图(Line Chart),3.2.2 条形图(Bar Chart),用宽度相同的条形高度或长短来表示数据变动的图形,条形的排列可以横排,也可以纵排。条形图有单式、复式等形式。,2003年我国就业人员情况(万人),3.2.3 圆形图(Pie Chart),也叫饼图,它是用圆形及圆内扇形的面积来表示数值大小的图形。主要用于总体内部的结构,各组成部分所占比例等。,2003年我国国内生产总值中各产业比重,3.2.4 直方图(Histogram),用来反映定量变量的分布状况。在统计分组的基础上,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图。 注意对不等距分组:纵轴必须表示为频数密度。 频数密度=频数/组距(面积之和=总频数) 手工绘制直方图时需要先对数据进行分组;用统计软件spss作直方图时统计软件可以自动进行分组。,直方图(等距分组),某会计师事务所对20家公司进行年终审计所需时间(天)的频数分布表,直方图(不等距分组),某会计师事务所对20家公司进行年终审计所需时间(天)的频数分布表,直方图与条形图的异同,都是用来反映数据的分布状况,适用于不同类型的数据。 条形图是用条形的高度表示各类别频数的多少,其宽度(表示类别)则是固定的。 直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或百分比,宽度则表示各组的组距,其高度与宽度均有意义。 直方图的各矩形通常是连续排列,条形图则是分开排列。,主要用于显示未分组的原始数据的分布。由“茎”和“叶”两部分构成,其图形是由数字组成的。 通常以数据的高位数值作树茎,低位数字作树叶,树叶上只保留一位数字。 树叶的竖列要对齐,以计算各组的次数。 原始数据: 24, 26, 24, 21, 27, 27, 30, 41, 32, 38 从小到大排序后的数据: 21, 24, 24, 26, 27, 27,30, 32, 38, 41,3 0 2 8,4 1,2 1 4 4 6 7 7,30,3.2.5 茎叶图 (Stem-and-Leaf Display),茎叶图,SPSS Statistics生成的一个茎叶图,40名教师的年龄的数据:40,41,48,51,37,35,36,50,33,42,28,33,36,29,28,29,34,35,27,36,28,29,34,26,35,40,27,43,45,39,42,41,48,55,43,42,42,51,52,64,常用的集中趋势的测度指标: 算术平均数 中位数 众数,集中趋势:一组数据向其中心值靠拢的倾向和程度。 集中趋势测度:寻找数据水平的代表值或中心值。,4.1.1 算术平均数(均值,Arithmetic Mean),总体均值常用 表示。样本均值常用 表示。样本均值的计算公式: 简单平均数: 加权平均数(分组数据) :,4.1 集中趋势的测定,算术平均数的性质,1、 所有的定量数据都有算术平均数。 2、计算算术平均数时使用了所有数据。 3、一组数只有一个均值。 4、各变量值与均值的离差之和等于零。,张村有个张千万, 九个邻居穷光蛋; 统计平均算资产, 个个都是张百万。,缺点: 易受极端值的影响。,一组数据按大小顺序排列后,处在数列中点位置的数值。 特点: 对一组数据是唯一的。 不受极端值的影响。 主要用于顺序数据,也可用数值型数据,但不能用于分类数据。,4.1.2 中位数(Median),4.1 集中趋势的测定,根据原始数据计算中位数,n为奇数时等于第(n+1)/2个数。 n为偶数时等于第n/2和n/2+1个数的平均值,1,2 ,5,9 ,11,中位数=5,1,2 ,5 , 9,11,18,中位数=(5+9)/2=7,一组数据中出现次数最多的变量值。 主要特点: 不受极端值的影响。 有的数据无众数或有多个众数。 对未分组定量资料很少使用。,4.1.3 众数(Mode),4.1 集中趋势的测定,众数的不惟一性,众数、中位数和算术平均数的关系,反映各变量值远离其中心值的程度(离散程度),从另一个侧面说明了集中趋势测度值的代表程度。,常用指标: 全距(极差) 四分位距 方差和标准差 离散系数,4.2 离散程度的测定,三个不同的曲线表示三个不同的总体,其均值相同,但离散趋势不同。,全距也称极差,是一组数据的最大值与最小值之差。 R=最大值最小值 组距分组数据可根据最高组上限 -最低组下限计算。 受极端值的影响。 全距=?,2,5,6,7,8,9,10,12,15,16,20,4.2.1 全距 (Range),4.2 离散程度的测定,等于上四分位数与下四分位数之差 反映了中间50%数据的离散程度,数值越小说明中间的数据越集中。 不受极端值的影响。 可以用于衡量中位数的代表性。,2,5,6,7,8,9,10,12,15,16,20,Q1=6, Q2=9, Q3=15,4.2.2 四分位距 (Inter-Quartile Range),4.2 离散程度的测定,方差是一组数据中各数值与其算术平均数离差平方的平均数,标准差是方差正的平方根。 总体方差和样本方差的符号不同,计算公式也不一样。 是反映定量数据离散程度的最常用的指标。,4.2.3 方差和标准差,4.2 离散程度的测定,方差的计算公式,样本方差用(n-1)去除,从数学角度看是因为它是总体方差2的无偏估计量。,标准差与其相应的均值之比,表示为百分数。 特点: 反映了相对于均值的相对离散程度; 可用于比较计量单位不同的数据的离散程度; 计量单位相同时,如果两组数据的均值相差悬殊,离散系数可能比标准差等绝对指标更有意义。,4.2.4 离散系数(Coefficient of Variation),4.2 离散程度的测定,偏态和峰度的类型,偏态,数据分布的不对称性称作偏态。 偏态系数(SK)是对数据分布的不对称性(偏斜程度)的测度。 偏态系数有多种计算方法,在统计软件中(如Excel等)通常采用以下公式:,4.3.1 偏态及其测定( Skewness ),4.3 分布形态的测定,偏态系数的含义,峰度:数据分布的扁平或尖峰程度。 峰度系数(K):数据分布峰度的度量值,对数据分布尖峰或扁平程度的测度。 统计软件(如Excel等)中常用以下公式计算,4.3.2 峰度及其测定( Kurtosis ),4.3 分布形态的测定,峰度系数的含义,峰度系数K0,与正态分布相比该分布一般为扁平、瘦尾,肩部较胖。,峰度系数K0,与正态分布相比该分布一般为尖峰、肥尾,肩部较瘦。,5.2.2 相关系数的计算,相关系数(Coefficient of Correlation)是用来衡量变量之间相关程度的指标,根据变量的多少和属性可以有多种不同的计算方法。 衡量两个定量变量之间线性相关程度的常用指标是皮尔逊(Pearson)相关系数。 通常以表示总体的相关系数,以r表示样本的相关系数。,r的取值范围为:-1r1; r越接近1,X与Y之间的线性关系越好; r =1为完全正相关关系; r =-1为完全负相关关系 r =0,两个变量之间不存在线性关系或不相关。,一般可按三级划分:|r|0.4为低度线性相关;0.4|r|0.7为显著性相关;0.7|r|1为高度线性相关。,相关系数r 的特征,5.2.3 相关系数的显著性检验,样本相关系数r受到抽样波动的影响,是一个随机变量。 相关系数非常高的样本也有可能来自无相关关系的总体。为了排除这种情况,需要对相关系数进行假设检验。,(1)Multiple R,又称为相关系数,它用来衡量变量x和y之间相关程度的大小。 R为0.9968,表示二者之间的关系是强正相关。,1. 回归统计表,实验任务二:使用Excel的分析工具库进行回归,R的取值范围为:-1R1; R越接近1,X与Y之间的线性关系越好; R =1为完全正相关关系; R =-1为完全负相关关系 R =0,两个变量之间不存在线性关系 或不相关。,一般可按三级划分:|r|0.4为低度线性相关;0.4|r|0.7为显著性相关;0.7|r|1为高度线性相关。,实验任务二:使用Excel的分析工具库进行回归,(2)R Square(拟合优度系数R2 ):用来说明用自变量解释因变量变差的程度,以测量对因变量的拟合效果。 拟合优度系数为0.9936,表明用自变量可解释因变量变差的99.36%。,实验任务二:使用Excel的分析工具库进行回归,决定系数的取值,R2的取值范围是0,1。 R2越接近于1,表明回归平方和占总离差平方和的比例越大,回归直线与各观测点越接近,回归直线的拟合程度就越好。 在一元线性回归中,相关系数r的平方等于判定系数,符号与自变量x的系数一致。因此可以根据回归结果求出相关系数。 所有的回归程序都会给出R2的值.,(3)Adjusted R Square (调整的拟合优度系数):仅用于多元回归才有意义,它用于衡量加入独立变量后模型的拟合程度。当有新的独立变量加入后,即使这一变量同因变量之间不相关,未经修正的R2也要增大,修正的R2仅用于比较含有同一个因变量的各种模型。 (4)标准误差:又称为标准回归误差或估计标准误差,它用来衡量拟合程度的大小,也用于计算与回归有关的其他统计量,此值越小,说明拟合程度越好。,实验任务二:使用Excel的分析工具库进行回归,实验任务二:使用Excel的分析工具库进行回归,Company Logo,拟合优度 1、决定系数 2、估计标准误差 显著性检验 3、t检验 4、F检验,季节指数,乘法模型中的季节成分通过季节指数来反映。 季节指数(季节比率):反映季节变动的相对数。 1、月(或季)的指数之和等于1200%(或400%) 。 2、季节指数离100越远,季节变动程度越大,数据越远离其趋势值。,因子分析,因子分析在一定程度上可被视为主成分分析的深化和拓展。 基本原理是将具有一定相关关系的多个变量综合为数量较少的几个因子,研究一种具有错综复杂关系的实测指标是如何受少数几个内在的独立因子所支配的。,SPSS因子分析操作,6、单击“得分”,选中“保存为变量”,“显示因子得分系数矩阵”,单击“继续”; 其余选项使用默认值。单击“确定” 。,Display factor score coefficient matrix,因子分析结果分析,除了“外貌”变量外其他变量的共同度都比较高。,变量共同度表,变量共同度:各变量中所含原始信息能被提取的公共因子所解释的程度。,变量的共同度越接近1,说明被变量公共因子解释的程度越高,因子分析的效果越好。,前4个因子的贡献率为81.49%。,旋转之后各因子的方差贡献率可能会发生变化!,SPSS因子分析操作,贡献率,旋转前后的因子载荷矩阵,旋转成分矩阵,每行都有一个较大的值。,因子含义的解释,第一个因子在外貌、自信心 、洞察力、推销能力、 工作魄力、志向抱负、理解能力、潜能等变量上有较大的系数,可以抽象为应聘者主客观工作能力因子; 第二个因子在简历格式、工作经验 、适应力变量上有较大的系数,可抽象为应聘者对客观环境的适应力因子; 第三个因子在兴趣爱好、诚信度、求职渴望度变量上有较大的系数,可抽象为应聘者的兴趣和诚信因子; 第四个因子在研究能力变量上系数较大,可抽象为应聘者的学习能力因子。,成分得分系数矩阵,FAC1-1-0.099简历格式分+0.016外貌分-0

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论