




已阅读5页,还剩54页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第三章基本统计分析,数据的审核与整理,数据清理与基本统计分析是进行其他分析的基础和前提。通过基本统计分析,用户可以对分析数据的总体特征有比较准确的把握,从而选择更为深入的分析方法对分析对象进行研究。,数据检查与清理,一是检查每个变量值的合理性(即发现奇异数据与错误数据);二是检查各变量值之间逻辑上的合理性。SPSS操作步骤:“Analyze”DescriptiveStatistics”Frequencies”,基本统计分析,基本统计分析通常有两种形式:一是通过一些特征量数来反映数据的分布情况;二是以统计图表的形式直观呈现数据的分布特征。本章主要介绍平均数、中位数、众数、方差、百分数、频数等基本概念,以及在SPSS中如何进行计算操作。,数据的描述性测度,中心测度(Centraltendency)平均数;中位数;众数变化测度(Dispersion)全距;方差与标准差;四分位数和四分位距;极值形态测度(Distribution)偏度;峰度,(一)中心测度,中心测度是指刻画数据集中趋势的数字,用来描述数据的中心位于何处。最常用的中心测度为平均数、中位数和众数,其中平均数和中位数只适用于定量数据,而众数既适用于定量数据,也适用于定性(分类)数据。,(1)算术平均数(M),总体算术平均数样本算术平均数,算术平均数的特性,所有观察值关于平均数的偏差和为零,即对极值非常敏感。所有观察值关于平均数的偏差平方和最小。,算术平均数的计算,利用原始数据进行计算利用频数分布表计算,用样本数据推断总体集中量时,算术平均数最接近于总体集中量的真值,它是总体平均数的最好估计值。在计算方差、标准差、相关系数以及进行统计推断时,都要用到它。,算术平均数的优缺点,优点反应灵敏严密确定简明易懂适合代数运算受抽样变动的影响较小,缺点易受极端数值的影响一组数据中某个数值的大小模糊不清或不够确切时无法计算,(2)加权平均数,加权平均数是不同比重数据(或平均数)的平均数。用表示。其计算公式有两种形式,(3)中位数,定义:中位数是把按从小到大(从大到小)排列的一组数据一分为二的数值。中位数的计算:1.用原始数据计算(分奇数个数据和偶数个数据)2.利用次数分布表计算,利用次数分布表计算中位数,(1)计算公式(由小向大计算)表示中位数所在组的下限;N表示总频数;中位数所在组的频数;表示小于中位数所在组下限的频数综合。,中位数的优缺点与应用,优点:不易受极端值影响缺点:不适合代数计算应用条件:一组数据中有特大或特小两极端数值时;一组数据中两端数据或个别数据不确切、不清楚时;当需要快速估计一组数据的代表值时;数据资料属于等级性质时。,(4)众数,众数的概念理论众数是指与频数分布曲线最高点相对应的横坐标上的一点。粗略众数是指一组数据中频数出现最多的那个数。,众数的计算方法(1)用观察法直接寻找众数在频数分布表中,频数最多一组的组中值就是粗略众数。当两个相邻的组的频数都是最多时,那么两分组的分组点就是众数。,(2)皮尔逊的经验法当频数分布呈正态或接近正态时,皮尔逊发现众数近似地等于3倍的中位数减去2倍的算术平均数。,众数的计算方法,众数的适用情况,当需要快速而又粗略地找出一组数据的代表值时。当需要利用算术平均值、中位数、众数三者关系来粗略判断频数分布的形态时。利用众数帮助分析解释一组次数分布是否确实具有两个次数最多的集中点时。,平均数、中位数、众数三者之间的关系,常用中心测度概括,(二)变化测度,变化测度是描述一组数据的变化程度或分散程度的数值。常用变化测度包括:(1)全距(全距=最高分-最低分)(2)方差与标准偏差(3)四分位差(4)极值,(2)平均差、方差与标准差,平均差(MD):就是每一个数据与该组数据的中位数(或算术平均数)离差的绝对值的算术平均数。,平均差的优缺点,与极差相比,平均差是利用全部数据信息计算的,意义明确,计算容易,较好地度量了次数分布的离散程度。但计算要用到绝对值,使它的应用大大受到限制。,方差,方差是指离差平方和的算术平均数。用表示。方差虽然避免了绝对值的麻烦,但却又使变量的单位变成原单位的平方。,标准差,标准差是指离差平方和平均后的方根,即方差的平方根。用表示。,方差与标准差的优缺点,优点:反映灵敏,严密确定,计算简单,用样本数据推断总体差异量时,方差与标准差是最好的估计量。缺点:易受极端数值的影响,有个别数据模糊不清时便无法计算。,(3)四分位差,百分位数:就是次数分布中相对于某个特定百分点的原始分数。百分位数的计算公式如下:Pm第m百分位数;LPm所在组的组下限;fPm所在组的次数;Fb小于L的累计次数。,百分位差,百分位差:是指两个百分位数之差。常用的有:,四分位差,若将从小到大排列的一组数据分成频数相等的四段,第一与第二段的分界点称为第一个四分位数。第三段与第四段的分界点称为第三个四分位数。则四分位差就是第三个四分位数(第75百分位数)与第一个四分位数(第25百分位数)的差。公式为:,极差、百分位差、四分位差,极差:最简单、最易理解的差异量数,但也是最粗糙、最不可靠的值。级差明显地受取样变动的影响,一般情况下主要用于对数据做预备性检查,了解数据的大概散布范围,以便确定如何进行统计分组。,百分位差与四分位差:与极差相比,避免了极端数据的影响,但由于没有把全部数据考虑在内,其稳定性会差一些。另外,它们也不适合代数方法运算,反应不够灵敏,应用不多。,(4)极值,极值是指位于数据总体分布之外的一些极端的数值。极值的产生可能主要有下列原因:(1)极值是真的测量结果;(2)可能是由于数据记录或录入误差造成的;(3)极值数据可能来自其他总体。,确定极值的方法,统计学上通常用四分位数和四分位距作为确定极值的工具,过程如下:(1)首先根据四分位数和四分位距确定数据分布的上、下限:下限=Q1-.1.5IQR;上限=Q3+1.5IQR(2)小于下限和大于上限的观察值就是潜在的极值。(3)确定了潜在的观察值后,可以用直方图、茎叶图等进一步检查这些观察值是否真的是极值。,(三)分布形态测度,偏度:是描述数据分布对称性的测度。,偏度是与正态分布相比较的量,偏度为0表示其数据分布与正态分布偏度相同,数据呈对称分布,此时平均数与中数相等;偏度大于0表示正偏差数值较大,数据呈正偏态(或右偏态),此时平均数大于中数;偏度小于0表示负偏差数值较大,数据呈负偏态(或左偏态),此时平均数小于中数。而偏度的绝对值数值越大表示分布形态的偏差程度越大。,峰度,峰度是描述数据围绕平均数分布的紧密程度,或者分散程度。,峰度,与平均数、标准偏差一样,峰度对极端值的存在非常敏感。统计学上,将数据分布分为三种类型,即常峰态、低峰态和尖峰态。峰度为0表示其数据分布与正态分布的趋缓程度相同,数据呈常峰态。峰度小于0表示比正态分布更加平坦,数据呈低峰态,即中间部分的数据较少,相当一部分数据分布在两端极端高或极端低的位置,而且这种分布的偏度指数一般不太高。峰度大于0表示比正态分布更加陡峭,数据呈尖峰态,即相当一部分数据分布在少数的位置,这个位置可以是靠中间的位置,也可以是靠某一端的位置,其他位置的数据分布明显较少。,分布,平均数,中位数,众数,离散程度,SPSS的基本统计分析,在SPSS的Analyze菜单中包括了一系列统计分析过程。其中Reports和DescriptiveStatistics命令项中包括的功能是对单变量的描述统计分析。DescriptiveStatistics包括的统计功能有:Frequencies:频数分析Descriptives:描述统计量分析Explore:探索分析Crosstabs:多维频数分布交叉表(列联表)Reports包括的统计功能有:OLAPCubes:OLAP报告摘要表CaseSummaries:观测量列表ReportSummariesinRow(Columns):行(列)形式输出报告,频数分析Frequencies,1、了解变量的取值分布情况对整体把握数据的特征是非常有利的。2、求分类(定类、定序)变量的频数和作Bar图3、求定距变量(连续变量)的分布情况和作直方图Histogram4、对连续变量进行分组(recode)后再求频数,如老中青(35,60)的比例,文化程度(中学、大学及以上)的人数及比例等5、Analyze+DescriptiveStatistics+Frequencies,描述统计分析过程Descriptives,1、功能:了解数据的基本统计特征和对指定的变量值进行标准化处理(标准化后的新变量的均值为0,标准差为1,目的是为了消除各变量间变量值在数量级上的差异,从而增强数据间的可比性)。2、描述统计分析过程通过平均值(Mean)、算术和(Sum)、标准差(StdDev)、最大值(Maximum)、最小值(Minimum)、方差(Variance)、范围(Range)、平均数标准误(S.E.Mean)等统计量对变量进行描述。3、一般是求定距变量的描述统计量,从中分析差异性(max,min)4、Analyze+DescriptiveStatistics+Descriptives,探索分析Explore,1.考察数据的奇异性和分布特征奇异性:数据的过大或过小(找出、分析原因、是否剔除)分布特征:数据是否来自正态分布总体考察方法:统计量和统计图形(箱图、茎叶图(频数、茎和叶)、方差齐次性检验(Spreadvslevel图)2.一般是考察定距变量3.Analyze+DescriptiveStatistics+Explore因(分析)变量(DependentList):定距变量分组变量(FactorList):分类变量标识变量(LabelCasesby):为方便查找输出观测量如id,多维频数分布表(交叉表,列联表),二维或多维交叉频数表(列联表),分析事物(变量)之间的相互影响和关系Analyze+DescriptiveStatistics+Crosstabs行变量(Row):需分类变量列变量(Column):需分类变量分层变量(Layer):条件(若有,需分类变量)Statistics选项:Chi-square复选项及其四种检验结果Correlations复选项:相关系数,SPSS的单变量描述统计命令AFrequencies:频数统计StatisticsSummarizeFrequencies,变量值,频数,百分比,有效百分比,累计百分比,BDescriptives:定距变量描述统计StatisticsSummarizeDescriptives,变量名,平均数,标准差,最小值,最大值,统计报表分析(Reports),OLAPCubes:在线分析处理CaseSummaries:观测值摘要分析ReportSummariesinRow:行形式输出报告ReportSummariesinColumns:列形式输出报告,OLAP报告摘要表OLAPCubes,OLAP(OnlineAnalyticalProcessing)在线分析处理过程以分组变量为基础,计算各组的总计、均值和其他统计量。而输出的报告摘要则是指每个组中所包含的各种变量的统计信息。Analyze+Reports+OLAPCubesSummaryVariables:要进行统计汇总的数值型变量GroupingVariables:分组变量(分类变量),注意:此分组变量在实际的运算过程中并不发挥分组的功能,而是确定进入统计的观测量的范围。如选择数学成绩作为摘要分析变量,而性别作为分组变量,要计算数学平均成绩,则结果中显示的并不是男生的数学平均成绩和女生的数学平均成绩,而是所有男女生观测量的数学成绩的总平均值。即所有性别有值(非MissingValue)的Case,才参与分析计算Statistics选项:Sum和、NumberofCases观测量数目、Mean均值、Median中位数、Maximum最大等等,CaseSummaries:观测量列表,个案简明统计报表用于按指定分组统计量不同,水平的交叉组合对变量进行记录列表,并计算相应的统计量。它主要为定量资料的描述服务,是一个比较常用的过程。查看或打印所需要的变量值Analyze+Reports+CaseSummariesVariables:要显示的变量名GroupingVariables:分组变量(分类变量)结果显示:多行或单行,行形式输出报告,Summary按行,如:sum、mean、max、min、count、stddev、variance、percentage(above,below,inside)等菜单:Analyze+Reports+ReportSummariesinRowsDataColumn:报告变量BreakColumn:分组变量及其Summary(多个交叉)Report:可对全部数据进行描述统计(Grand
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 街道办租赁合同(标准版)
- 2025卫生成人高考试题及答案
- 2025年教师招聘之《幼儿教师招聘》通关提分题库附答案详解【完整版】
- 2025-2030中国地板清洁剂市场销售趋势与未来发展决策规划报告
- 社区竞赛试题及答案
- 越南竞赛试题及答案
- 焊工竞赛试题及答案
- 2025全国护理自考试题及答案
- 高中竞赛试题及答案
- 医保竞赛试题及答案
- 引进新药申请表
- 浙江省医疗机构制剂许可证换发证检查标准
- 《上消化道出血诊疗指南》讲稿
- 公路工程危险性较大方案编制要点及模板
- 项目投资专项审计报告
- 寻乌一中电子画册课件
- 2021新高考语文Ⅰ卷现代文阅读Ⅱ小说《石门阵》赏析及试题详细解析
- 人力资源管理专业人才需求分析报告
- 河北省基础教育教学成果奖申请书
- 【课件】 体量与力量-雕塑的美感 课件-2022-2023学年高中美术人美版(2019)美术鉴赏
- 万玮:《班主任兵法》
评论
0/150
提交评论