版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、1,Spss 数据分析第9讲 描述性分析,2,教师信息,教师:张晓黎 电子信箱: 办公室:学院楼B420 电话: 67703854 答疑: 周四下午在学院楼B420,重点与难点,理解常用的描述性统计量 集中趋势:均值 离散趋势:标准差 分布形态:偏度、峰度 理解各种图形方法对数据统计特征的描述 茎叶图 箱图 了解假设检验,1.描述性统计分析概念,目的 通过变量的描述性统计分析,掌握和了解样本数据的统计特征和总体分布形态,进而更深入地揭示变量变化的规律。 方法 数据计算:计算描述性统计量的值,准确反映样本数据的统计特征。 图形绘制:绘制常见的统计图形,通过图形来直观展现数据的分布特征,比较数据分
2、布的异同,2.频数分析,频数分析是统计每一组中观测点的个数,而不考虑其实际取值。 了解变量取值的一般特征。如,哪些数值出现的频率高?变量取值的大致范围是什么? 考察数据是否符合建模所需的计量模型的假设。 评估数据的质量。如,有多少缺失值或者有多少数据录入错误? 形式 频数分布表 频数分布图,2.1频数分布表,频数(Frenquency):变量值落在某个区间或者某个取值点的个数。 百分比(Percent):各频数占总样本数的百分比。 有效百分比(Valid Percent):各频数占有效样本数的百分比。 累计百分比(Cumulative Percent):各百分比逐级累加起来的结果,最终取值是1
3、00,2.2 频数分布统计图,条形图(Bar Chart): 用条形的长度表示各类别频数的多少, 其宽度是固定的 各矩形通常是分开排列的; 主要用于展示分类数据。 饼图(Pie Chart): 直方图(Histograms): 用面积表示各组频数的多少,矩形的高度表示每一组的频数或频率,宽度表示各组的组距; 由于分组数据具有连续性,各矩形通常是连续排列; 主要用于展示数值型数据,示例1-频数分析,对语文成绩进行分数分段统计 数据文件:3-StudentScore.sav 步骤1:对“语文”成绩进行分段 TransformRecode Into Different Variables 结果保存为
4、 3-StudentScore_成绩分段.sav,示例1-频数分析,步骤2:对“分数分段”进行统计 Analyze Descriptive Statistics Frequencies 结果保存为 3-StudentScore_成绩分段.spo,示例2-P36-频数分析中的基本描述性统计量,客户满意度的频数统计分析 数据文件:HBAT_200.sav Analyze Descriptive StatisticsFrequencies 结果保存为: HBAT_200_frequency.spo,3.基本描述统计量,通过频数分析对数据的总体分布状况有了基本了解之后,通常还需要对定距变量的分布特征有
5、更为精确的认识,这就需要通过计算基本描述统计量等途径来实现。 变量分类 定类变量:变量的不同取值仅仅代表了不同类的事物,这样的变量叫定类变量。问卷的人口特征中最常使用的问题,而调查被访对象的“性别”,就是定类变量。对于定类变量,加减乘除等运算是没有实际意义的。 定序变量:变量的值不仅能够代表事物的分类,还能代表事物按某种特性的排序,这样的变量叫定序变量。问卷的人口特征中最常使用的问题“教育程度“,以及态度量表题目等都是定序变量,定序变量的值之间可以比较大小,或者有强弱顺序,但两个值的差一般没有什么实际意义。 定距变量:变量的值之间可以比较大小,两个值的差有实际意义,这样的变量叫定距变量。有时问
6、卷在调查被访者的“年龄”和“每月平均收入”,都是定距变量。 定比变量, 有绝对0点,如质量,高度。定比变量与定距变量在市场调查中一般不加以区分,它们的差别在于,定距变量取值为“0”时,不表示“没有”,仅仅是取值为0。定比变量取值为“0”时,则表示“没有”。 分类 描述集中趋势(Central Tendency)的统计量 描述离散趋势(Dispersion)的统计量 描述分布形态(Distribution)的统计量,3.1描述集中趋势的统计量,指一组数据向某一中心集中的程度,即在某一中心附近观测值数目较多,远离该中心的观测值数目较少。 平均值(Mean):即算术平均值 。易受极端值影响。 中位数
7、(Median):把变量的值有序排列,位于中间位置的值即中位数。是位置平均置,不易受极端值的影响。 众数(Mode):样本中出现次数最多的值,代表数据的集中程度。 求和(Sum):所有变量之和,反映变量的总体水平,3.2 描述离散趋势的统计量,反映的是一组资料中各个观察值之间的差异或离散程度。即考察所有数据相对于“中心值”分布的疏密程序。 方差(Variance): 样本方差越大,说明变量值之间的差异越大,样本方差没有单位。 标准差(std. deviation): 样本标准差越大,说明变量的观测值之间的差异越大,距离均值这个“中心”的离散程序越大,3.2 描述离散趋势的统计量,极差(Rang
8、e) 也称全距或跨度或范围,R最大值最小值 极差不考虑最大值与最小值之间的观测值,仅仅依靠端点值来确定,因而稳定性差。 最小值(Minimum) 一组资料中各个观测值的最小者。 最大值(Maximum) 一组资料中各个观测值的最大者。 均值标准误差(S.E.Mean,Standard Error of Mean,简称标准误): 样本数据是从总体数据中抽取出来的。虽然在一定程度上,样本数据可以反映总体数据的特征。但在不同次抽样中所得的样本均值是不同的,并且它们与总体均值间存在差异。均值标准误差就是描述这些样本均值与总体均值之间平均差异程度的统计量,3.3 描述分布形态的统计量,考察数据分布形态特
9、征的统计量,例如,数据分布是否对称、偏斜程度以及陡缓程度,主要有如下两种统计量,峰度(Kurtosis): 峰度值0,数据分布比标准正态分布更陡峭,为尖峰分布;峰度值0,数据分布比标准正态分布更平缓,为平峰分布,偏度(Skewness): 偏度值0,为正偏或右偏,右侧的尾部更长,分布的主体集中在左侧 ;偏度值0,为负偏或左偏,左侧的尾部更长,分布的主体集中在右侧。偏度绝对值越大,偏斜越大,示例3-P38-基本描述性统计量,计算客户满意度(X19)、推荐意愿(X20) 、购买意愿(X21)和购买水平(X23)的平均值、标准差、最大值和最小值。 数据文件: HBAT_200.sav 步骤 Anal
10、yzeDescriptive Statistics Descriptives 结果保存为: HBAT_200_descriptives.spo,示例4-P39-统计分组平均数,计算不同消费者类型(X1)的客户满意度(X19) 的平均值、标准差、最大值和最小值。 数据文件:HBAT_200.sav 步骤:AnalyzeCompare MeansMeans 结果保存为: HBAT_200_meansbygroup.spo 分析:消费类型在1年以下的客户满意度最低;客户的满意度随消费类型所涉及的时间增长而增加,4.探索性分析,数据探索性分析,可以帮助决定选择哪种统计方法进行数据分析,有如下三方面的考
11、察: 考察数据的正确性 考察数据中的一些异常值,分析这些值产生的原因,判断其正确性,再决定修改、删除或保留它们。 考察数据的分布特征 考察数据的正态分布特征可以为以后进行统计分析时采用正确的统计方法提供正确的依据。 考察变量之间数据的相互关系 变量与变量之间相关性的考察、方差齐性的考察,是一些统计分析过程必须事先了解的,茎叶图-描述频度分布,茎叶图(Stem-and-Leaf Plots)由数字构成,表达变量的频数分布。 在茎叶图中: 第1列表示频数,表示个案的个数 第2列表示茎叶图的茎,表达整数部分,其代表的数值与茎宽(Stem width)有关 当Stem=6,Stem width=10,
12、实际表达的值是60 第3列表示茎叶图的叶子,表达小数部分,其代表的数值也与茎宽有关, Each leaf表示每片叶子的个案数 茎叶图中第1行数据表示的意义 表示有2个小于或等于55的极端值(Extreme) 茎叶图中第4行数据表示的意义 共有8个个案 值为75、76、77的个案各有1个、值为78的个案有2个、值为79的个案有3个 茎叶图中最后1行数据表示的意义 表示有2个大于或等于94的极端值(Extreme,19,例4-1 茎叶图,绘制语文成绩的茎叶图 数据文件:4-Explore.sav 步骤:Analyze Descriptive Statistics Explore 结果保存为:4-E
13、xplore-Stem-Leaf.spo,4.2 箱图-描述数据分布,箱图(Boxplots) 显示了变量数据的中位数、25%百分位数和75%百分位数 并给出偏离总体分布的奇异个案和极端个案,奇异值和极端值,奇异值: 某个数据距离箱体主体边缘的距离超过箱主体高度的1.5倍,称为奇异值,在箱图中用表示。 奇异值分为上奇异值和下奇异值。 极端值: 某个数据距离箱体主体边缘的距离超过箱主体高度的3倍,称为极端值,在箱图中用表示。 极端值分为上极端值和下极端值,22,例4-2 箱图,绘制语文成绩的箱图 数据文件:4-Explore.sav 步骤:Analyze Descriptive Statisti
14、cs Explore 选择语文-因变量 Factor levels together:如果有多个因变量,则分别绘制探索图 Depedents together:如果有多个因变量,则将因变量作为整体绘制探索图 结果保存为:4-Explore-Box.spo,例4-2 分组箱图,按性别分组绘制语文成绩的箱图 数据文件:4-Explore.sav 步骤:Analyze Descriptive Statistics Explore 选择语文-因变量,性别-分类变量 Factor levels together:如果有多个因变量,则分别绘制探索图 Depedents together:如果有多个因变量,
15、则将因变量作为整体绘制探索图 结果保存为:4-Explore-BoxbyGroup.spo 分析 女生语文成绩整体好于男生成绩 女生的奇异低值个案是7号和9号;极端高值个案是6号,奇异高值个案是8号个案。男生的奇异低值个案是14号,极端低值个案是17号;奇异高值个案是18号,4.3 QQ图,通过正态分布检验的Q-Q概率图描述数据分布的正态性。 正态概率QQ图 反趋势正态概率QQ图。 正态概率QQ图 正态概率图以变量(语文成绩)的观测值为X轴坐标,以该变量分布的Z分数为纵坐标。 斜线为正态分布的Z分数的期望标准线。 若观测点离线越近,表示点越符合正态分布。反之,越不符合正态分布,4.3 QQ图,
16、反趋势正态概率QQ图 反趋势正态概率QQ图也是以变量(语文成绩)的观测值为X轴坐标,以该变量分布的Z分数与正态分布期望值的偏差为纵坐标。 水平直线为期望标准线。 若观测点离线越近,表示该点越符合正态分布。反之,越不符合正态分布,例4-3 QQ图与反趋势QQ图,绘制语文成绩的Q-Q概率图 数据文件:4-Explore.sav 步骤:Analyze Descriptive StatisticsExplore 结果保存为:4-Explore-QQ.spo,例4-4 数据的方差齐性检验,对不同性别的学生语文成绩进行正态性检验和方差齐性检验 数据文件:4-Explore.sav 步骤:Analyze D
17、escriptive StatisticsExplore 结果保存为:4-Explore-VT.spo,例4-4 数据的方差齐性检验,正态检验的零假设 H0:数据服从正态分布 方差齐性检验的零假设 H0:两样本方差齐性(相等,或无显著性差异)。 结果与分析 上图-KS检验的sig0.05,语文成绩按性别分开形成的两个样本是正态的 下图-方差齐性检验的sig0.05,说明两样本的方差差异不显著,方差是齐性的,5. 交叉列联表分析,通过频数分析,能够掌握单个变量的数据分布情况。 交叉列联表的用途 交叉列联表是两个或两个以上的变量交叉分组后形成的频数分布表。 了解和分析多个变量不同取值下的分布,掌握
18、多变量的联合分布特征,进而分析变量之间的相互影响和关系。 例如:不同地区和不同工作分类之间的关系 交叉列联表分析的两大基本任务: 根据样本数据,产生二维或多维交叉列联表 在交叉列联表的基础上,对两两变量间是否存在一定的相关性进行分析,例5-交叉列联表分析1,产生二维或多维交叉列联表,反映不同户籍和是否购房交叉分组下的分数频数分布情况。 数据文件: 4-crosstabulation1.sav 步骤:Analyze Descriptive StatisticsCrosstabs 结果: 4-crosstabulation.spo,结果1的参数设置,结果2的参数设置,例5-结果1,分析 未来3年不
19、买房的,本市户口占95%,外地户口占房5% 本市户口中,未来3年不买房的占75.7%,买房的占24.3% 未来3年的买房意愿,本市户口人数相差比较大,例5-交叉列联表分析2,在交叉列联表的基础上,对两两变量间是否存在一定的相关性进行分析 在交叉列联表的基础上做进一步的分析,可以得到行变量和列变量之间是否存在联系以及联系的紧密程度如何等更深层次的信息。 观测频数是分散在列联表的各个单元格中,不容易直接发现行、列变量之间的关系及关系的强弱程序。在此借助非参数检验方法和度量变量间相关程度的统计量等手段进行分析。 例如:户口与是否买房看法有没有显著性差异 方法: 检验和相关性检验。 检验原假设:列联表中的行变量和列变量独立 Pearson卡方统计量 若P值小于显著性水平(0.05),则拒绝原假设,说明列联表中的行变量和列变量不独立,存在依存关系,例5-结果2,从表中可以看出,在0.05置信度水平下, 双尾检验值为0.002,小于
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 某麻纺厂安全管理规章制度
- 2026年县乡教师选调考试《教育学》题库高频难、易错点100题模拟试题带答案详解(夺分金卷)
- 2026年县乡教师选调考试《教育学》练习题(一)带答案详解
- 2026年江苏省《保密知识竞赛必刷100题》考试题库含答案详解(基础题)
- 2026上半年温州泰顺县招聘卫生健康事业单位专业技术人员20人笔试参考题库及答案解析
- 2025年县乡教师选调考试《教育学》预测试题附答案详解(培优a卷)
- 2026年县乡教师选调考试《教育学》题库及参考答案详解(模拟题)
- 2026年中煤地质集团有限公司招聘考试备考试题及答案解析
- 2026年县乡教师选调《教师职业道德》综合练习附答案详解(完整版)
- 2026年资料员基础试题库含完整答案详解(典优)
- 2026年汽车销售店员工劳动合同三篇
- 5.1 拆盒子 课件 2025-2026学年三年级数学下册北师大版
- 2025急诊科护理指南
- 江苏省安全员c证考试题库及答案
- 四川省算力发展蓝皮书
- 格栅井施工方案(3篇)
- 软件供应链安全培训内容课件
- 人教版数学五年级下册全册教案
- JBL音响系列产品参数
- GB/T 42061-2022医疗器械质量管理体系用于法规的要求
- 《分数的意义》张齐华课件
评论
0/150
提交评论