《SPSS统计描述》PPT课件.ppt_第1页
《SPSS统计描述》PPT课件.ppt_第2页
《SPSS统计描述》PPT课件.ppt_第3页
《SPSS统计描述》PPT课件.ppt_第4页
《SPSS统计描述》PPT课件.ppt_第5页
已阅读5页,还剩64页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1,统计描述,引 言,2,内容提要,统计概述与数据 集中趋势 指标介绍 在EXCEL和SPSS中的应用 变异程度 指标介绍 在EXCEL和SPSS中的应用 分布形状,3,什么是统计学?,收集数据 抽样设计;问卷调查 演示数据 图;表 统计描述 集中趋势;变异程度;分布形状 统计推断 统计估计:参数估计(点估计;区间估计);非参数估计 假设检验:参数检验;非参数检验 其他统计分析 相关分析;方差分析;因子分析;聚类分析;回归分析,4,统计学的研究方法,统计学是从一组数据中抽象出有用信息以支持决策的原理和方法。 统计学的研究领域或方法分为两部分: 统计描述 Descriptive Statistics 统计推断 Inferential Statistics,5,统计描述和统计推断,统计描述:整理、概括并提供数据的方法以便看出数据间有用的关系 例如:使用曲线图、饼图、条形图、表格等 统计推断:利用从总体的一个样本中获得的信息来推断总体的特征时使用的方法 例如:估计、检验、预测,6,统计描述,涉及Involves 收集数据 Collecting Data 演示数据 Presenting Data 把握数据特征 Characterizing Data 目标Purpose 描述数据 Describe Data,7,统计推断,涉及Involves 估计 Estimation 假设检验 Hypothesis Testing 目标 Purpose 确定总体 的特征 Make Decisions About Population Characteristics,8,数据来源,直接来源,间接来源,数值来源,试验,问卷调查,观察,出版物 (或网上),9,数据类型,数值数据,属性数据,数据类型,离散数据,连续数据,10,数据类型举例,数值数据 (定量的) 离散的(数出来的) 本月内买过几本书? _ 连续的 (测出来的) 从家到学校的距离? _ (公里) 属性数据 (定性的) 你喜欢参与式教学吗吗? _ 喜欢 _ 不喜欢,11,数据度量尺度,定类尺度Nominal 无等级次序排列 例如:男-女;从事工作的行业 定序尺度Ordinal 可作等级次序排列 例如:学校职位;班级排名 定距尺度Interval 没有真正的零点;例如,摄氏度C 定比尺度Ratio 存在真正的零点,倍数有意义 例,身高、体重,12,数据度量与信息含量,度量尺度的信息含量由弱到强排列: 定类尺度定序尺度定距尺度定比尺度 定类尺度和定序尺度用于属性数据 信息量低 定距尺度和定比尺度用于数值数据 信息量高,13,数据的统计描述,14,概括描述数值数据,一个变量的问题:解释数值数据的特征 集中趋势 变异程度 分布形状 两个以上变量的问题: 相关系数和回归,15,数值数据的特征和度量,16,均 值 (平均数),用于度量数据的集中趋势 是最常见的集中趋势的度量 如同平衡点 易受极端数值影响 公式 (样本均值),17,例:人均受教育年限(人力资本),18,几何平均数,常用于计算百分比、比率、指数、增长率等指标的平均数 几何平均数 算术平均数 公式(要求 xi 0 ),19,几何平均数的实际算法,为了避免零增长率或负增长率,几何平均数的计算一般改为如下公式。中国的GDP增长率计算用的是实际GDP的几何平均数。,20,例:高等学校招生数量的增长,1978年为40.2万人,2004年为447万人,增长率为:exp(ln(447/40.2)/26)-10.097,21,复利计算公式的应用,在已知初值、终值及期数的情况下,下列复利计算公式也可以用于计算几何平均数,即平均变化率: A(1+r)n = F 其中, A = 初值,r = 平均变化率 n = 期数,F = 终值,22,算术平均数和几何平均数的差别,示例:假设$1投入普通股票的投资组合,在连续的两个年度中得到正50%和负50%的回报。第一年末投资组合价值$1.5。第二年末投资组合价值$0.75。年度变化的算术平均数为0,而年度变化的几何平均数(复利回报)为负13.4%。显然,几何平均数更适合度量资产在不同时期的变化。,23,加权平均数,24,例:,已知2000年三次产业从业人员的平均受教育年限分别为6.9年、7.8年和12.1年,问全体从业人员的平均受教育年限是多少? 不能用简单算术平均! 要先查找各个产业的从业人员数量,或比重。例如,知道2000年三次产业比重分别为50、22.5和27.5。 全体从业人员的平均受教育年限是: 0.5*6.9+0.225*7.8+0.275*12.18.5,25,调和平均数,调和平均数:倒数的算术平均数的倒数。主要用来计算学习速度等平均。 公式:,26,调和平均数举例,一个学生阅读2页书,读第一页时的速度折合为每小时20页,读第二页时的速度折合为每小时40页,问该生平均每小时阅读速度是多少? 算术平均为: 调和平均为: 实际用时为:60/20+60/40=3+3/2=9/2分钟 按算术平均读,可以读 30/60*9/2=9/4页 按调和平均读,可以读 (80/3)/60*9/2=2页,27,中位数,用于度量数据的集中趋势Central Tendency 为排序序列的中间值 如果 n 是奇数, 即为排序序列居中位置的观测值 如果 n 是偶数, 则为排序序列两个居中位置的观测值的均值 中位数在序列中的位置: 不受数据极端值的影响,28,众数,用于度量数据的集中趋势 为出现次数最多的数值 可从排序数组中观察得到 不受极值的影响 一组数据可能没有众数或有多个众数 对数值数据和类型数据均适用,29,值域中点,用于度量数据的集中趋势 是最小和最大观测值的平均值 对数据的极端值非常敏感 常用于金融分析和气象预报,值域中点,X,X,最小值,最大值,2,30,四分位数,用于度量数据的非集中趋势 把排序数据等分为四个区间 第i个四分位数的位置,Q1 Q2 Q3,31,四分位数,Q1,first quartile, 第一四分位数是处于(n+1)/4 位置上的观测值。 25%的观测值比第一四分位数小。 Q2,second quartile, 第二四分位数就是中位数。处于2(n+1)/4 =(n+1)/2的位置上。50%的观测值比中位数小。 Q3。 third quartile, 第三四分位数是处于 3(n+1)/4位置上的观测值。75%的观测值比第三四分位数小。,32,中轴数,用于度量数据的集中趋势Central Tendency 是第一和第三四分位数的平均值 不受数据极端值的影响 Not Affected by Extreme Values,33,应用示例,假如某班1小组期末考试数学成绩为: 83,52,96,79,83,88,64,79,83,69 试用上述方法描述数学成绩的集中趋势,34,题解:均值,35,题解:中位数(Median),36,题解:众数,37,题解:值域中点(Midrange),38,题解:Q1,39,题解:Q3,40,题解:中轴数 (Midhinge),41,在EXCEL中计算集中趋势,直接利用函数: 平均值:average (注意EXCEL中用的不是mean) 中位数:median 众数:mode,42,在SPSS中计算集中趋势,观测量概述: analyzereports cases summarize 频数分析: AnalyzeDescriptive StatisticsFrequencies 描述统计量: analyze-descriptive statistics-descriptive,43,数值数据的特征和度量,44,全距(极差),度量数据的离散程度Measure of Dispersion 最大和最小观测值之差 不考虑数据如何分布取决于数据的极端值,全距,X,X,最小值,最大值,7,8,9,10,7,8,9,10,45,四分位间距,度量数据的离散程度Measure of Dispersion 为第三和第一四分位数之差 四分位间距=Q3 - Q1 包括排序数据处于中间位置50%的观测值 不受极值影响,46,方差和标准差,度量数据的离散程度Measures of Dispersion 是最为常用的变异程度的度量 涉及数据的分布状况 表示全部观测值相对于均值的平均变异程度,X,= 77.6,47,样本方差公式,分母是(n - 1)。如果是总体方差就用N,48,样本标准差公式,标准差为方差的平方根,49,变异系数,度量相对离散程度 (Measure of Relative Dispersion) 表现了标准差相对于均值的比率 用来比较两组或多组计量单位不同的数据的变异程度 公式,50,应用示例,假如某班1小组期末考试数学成绩为: 83,52,96,79,83,88,64,79,83,69 试用上述方法描述该数学成绩的波动程度(volatility).,51,题解:全距和四分位间距,全距X最大X最小965244 四分位间距Q3Q1836914,52,题解:样本方差(Sample Variance),53,题解:样本标准差(Sample Standard Deviation),54,题解:变异系数(Coefficient of Variation),55,在EXCEL中计算变异趋势,直接利用函数: 最大值:MAX 最小值:MIN 标准差:STDEV 方差:VAR 间接利用函数: 变异系数: STDEV/AVERAGE,56,在SPSS中计算变异趋势,观测量概述: analyzereports cases summarize 频数分析: AnalyzeDescriptive StatisticsFrequencies 描述统计量: analyze-descriptive statistics-descriptive,57,基尼系数,基尼系数是20世纪初意大利经济学家基尼根据洛伦茨曲线设计的判断收入分配平等程度的指标。收入分配越是趋向平等,基尼系数也越小,反之,收入分配越是趋向不平等,那么基尼系数也越大。联合国有关组织规定:若低于0.2表示收入绝对平均;0.2-0.3表示比较平均;0.3-0.4表示相对合理;0.4-0.5表示收入差距较大;0.6以上表示收入差距悬殊。,58,收入基尼系数的经验范围,59,基尼系数的图形表示,设实际收入分配曲线和收入分配绝对平等曲线之间的面积为A,实际收入分配曲线右下方的面积为B。并以A除以(A+B)的商表示不平等程度。这个数值被称为基尼系数或称洛伦茨系数。如果A为零,基尼系数为零,表示收入分配完全平等;如果B为零则系数为1,收入分配绝对不平等。该系数可在零和1之间取任何值。收入分配越是趋向平等,洛伦茨曲线的弧度越小,基尼系数也越小,反之,收入分配越是趋向不平等,洛伦茨曲线的弧度越大,那么基尼系数也越大。,60,基尼系数的计算公式,Gini系数的计算步骤: Step1:排序 Step2:计算比重 Step3:计算累积比重 Step4:计算2倍的梯形面积 Step5:计算基尼系数 注意:此公式没有按照人口加权,61,基尼系数的例子,计算我国各省人均GDP的基尼系数 (见课堂演示),62,泰尔(Theil)系数,泰尔(Theil)系数的优点 可以将区域差异按产业结构或地区结构进行多层次(组内组间)分解。 采用经济规模进行加权,63,泰尔(Theil)系数的计算公式,以省为单位的差异:,以地区为单位的差异:,以地区内的省份为单位的差异:,64,形状 Shape,表明数据是如何分布的 偏态Skew 与 对称Symmetry 左偏: 均值中位数 对称(零偏度) :均值 = 中位数,左偏的 均值 中位数 众数,对称的 均值中位数众数,右偏的 众数 中位数 均值,65,盒须图 Box-and-Whisker Plot,用5个度量值概括表述数据特征: Graphical Display of Data Using 5-Number Summary 最小值、第一四分位、中位数、第三四分位、最大值,66,数据分布状况与盒须图,右偏的 Right-Skewed,左偏的 Left-Skewed,对称的Symmetric,Q1 中位数 Q3,Q1 中位数 Q3,Q1 中位数 Q3,67,题解,68,题解,众数,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论