《基本统计分析》PPT课件.ppt_第1页
《基本统计分析》PPT课件.ppt_第2页
《基本统计分析》PPT课件.ppt_第3页
《基本统计分析》PPT课件.ppt_第4页
《基本统计分析》PPT课件.ppt_第5页
已阅读5页,还剩46页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第四章 SPSS的基本统计分析,SPSS的基本统计分析,频数分析-对应表格法,计算描述统计量-对应数值法,探索性描述分析-结合,交叉分组下的频数分析,多选项分析,统计图-对应图形法,频数分析,目的 粗略把握变量的总体分布状况。 例: 对某个问题的总体看法,如新业务的使用愿望、教学效果等 对某事物的客观描述,如通话的漫游类型、大客户的行业分布 采用的方法 制作频数分布表:包括计算 频数、累计频数、百分比、累计百分比 绘制统计图形:条形图(品质数据)、饼图、 直方图(数量数据),频数分析,基本操作步骤 (1)菜单选项:Analyze-Descriptive Statistics-Frequenci

2、es (2)选择几个待分析的变量到variables框. (3)chart选项,选择所需要的图形 例:班级男女生频数分布表、成绩分布表,频数分析,应用举例 移动通话的漫游类型分析 特点:定类数据 使用频数、百分比、总数(不可缺少的) 不使用频数表中给出的累计频数和累计百分比 移动通话时间分析、移动客户话费分析 特点:定序数据、数量数据 除使用频数、百分比、总数外,还可以充分使用累计频数和累计百分比,频数分析,数据中存在缺失值 使用有效百分比(分母为有效样本数) 例:学生成绩得优率、得良率 Frequencies-Format 频数分布表输出按变量值、频数升序、降序输出,频数分析,频数分析中的其

3、他分析 计算中位数、分位数:适用于定序、定距数据 数据按升序排序后,找到若干个分位点上的变量值 quartiles:计算四分位数25%(QL)、50%(中位数)、75%(QU) cut points for n equal groups: n等份 percentile: 自定义百分位点 计算众数:适用于定类数据(但必须是数值型),频数分析,频数分析中的其他分析 分位数的应用 从一个侧面比较两组样本数据的集中趋势 例:( QL=50,QU=80) 和 (QL=70,QU=75) 的比较 在排除极端值影响的条件下,通过计算分位数差,比较两组样本数据的离散程度 例: ( QL=50,QU=80) 和

4、 (QL=70,QU=75) 的比较 分位数、中位数、众数的应用举例 不同类型的移动客户月话费比较(数据拆分) 利用分位数(不显示频数分布表),比较男女生成绩集中程度,计算描述统计量,目的 精确把握变量的总体分布状况,了解数据的集中趋势、离散趋势、对称程度、陡峭程度。 基本方法 计算基本描述统计量,计算描述统计量,描述集中趋势的统计量 均值(mean):表示某变量所有变量值集中趋势或平均水平的统计量。 适用于定距数据。 特点:利用了全部数据,易受极端值的影响。 描述离散程度的统计量 标准差(standard deviation-Std Dev):表示某变量的所有变量值离散趋势的统计量。 SPS

5、S中计算的是样本标准差。 方差(variance):标准差的平方。 SPSS中计算的是样本方差。 极差 (range):最大值(minimum)-最小值(minimum),计算描述统计量,描述对称程度的统计量 偏度(skewness):描述某变量所有变量值分布形态的偏斜程度和方向的统计量. 偏度为0表示对称; 大于0表示正偏差大(右偏),众数比均值小,极值大于均值; 小于0表示负偏差大(左偏)。,计算描述统计量,描述陡峭程度的统计量 峰度(kurtosis):描述某变量所有变量值分布形态陡缓程度的统计量。 峭度为0表示与正态分布峭度相同。 大于0表示比正态分布陡,尖峰。 小于0表示比正态分布缓

6、;平峰。,计算描述统计量,其他统计量 均值标准误差(S.E means) 中心极限定理认为:样本均值N(u,2/n) 反映样本均值与总体真值间的平均离散程度 样本数越大,样本均值的离散程度越小,对真值的估计越准确,计算描述统计量,基本操作步骤 (1)菜单选项:Analyze-Descriptive Statistics -Descripive (2)选择将参加计算的数值型变量名到Variables框。 仅适用于数值型变量 分析比较男生和女生的学习成绩 比较集中趋势 比较离散趋势 比较偏斜程度 比较陡峭程度 实现方式:数据拆分,其他功能 数据标准化处理 新变量的均值为0,标准差为1; 小于0表示

7、在平均水平下,大于0反之. 正态分布的数据标准化后呈标准正态分布(68%,95%,99%) save standardized values as variables选项 将变量作标准化后,结果存入名为“Z+原变量名”的新变量中. 数据标准化处理应用举例 快速找到移动话费出众的客户 网通集团企业效益评价,计算描述统计量,探索性描述分析,目的:在未知数据分布特点情况下,通过计算详尽描述统计量,辅助全面的统计图,认识数据分布。 基本操作步骤 (1)菜单选项:analyze-descriptive statistics-Explore (2)选择将参加计算的数值型变量名到Dependent list

8、框 (3)进行分组描述分析时,将分组变量选入Fact list框 描述统计量: M统计量:集中趋势的估计值,不受极端值影响。用于判断有无异常值。,探索性描述分析,相关图形 箱线图 茎叶图 直方图 正态分布图:检验变量是否符合正态分布 方差齐性检验:各组离散程度是否相同 H0:方差相等 举例:两班学生成绩分布情况,离散程度是否相同。,购买流行服装,交叉分组下的频数分析,针对定类数据和定序数据的频数分析(用于定类定序数据分析有custom tablelogisticloglinear) 目的:通过了解不同变量在不同水平下的数据分布情况 ,判断水平对变量是否有影响 例:女生的学习成绩比男生好吗?(两

9、变量) 不同专业的女生学习成绩都比男生好吗? (三变量) 分析的主要步骤 产生交叉列联表 分析列联表中变量间的关系,产生交叉列联表,什么是列联表 多个变量在不同取值下的数据分布频数表,列变量,行变量,工商管理,控制变量,频数,产生交叉列联表,基本操作步骤 (1)菜单选项: analyze-descriptive statistics- crosstabs (2)选择一个变量作为行变量到row框. (3)选择一个变量作为列变量到column框. (4)可选一个或多个变量作为控制变量到layer框. (5)是否显示各分组的条图(display clustered bar charts ),产生交叉

10、列联表,定距数据可做适当分组后再产生列联表 仅利用频数,信息利用不充分 进一步计算 cells选项:选择在频数分析表中输出各种百分比. row:行百分比(Row pct); column:列百分比(Col pct); total:总百分比(Tot pct);,分析列联表中变量间的关系,目的: 通过列联表分析,检验行列变量之间是否独立。 方法: 卡方检验:对品质数据的相关性进行度量(这里两变量均为定类数据或定序数据),分析列联表中变量间的关系,卡方检验基本步骤 (1)H0:行列变量之间无关联或相互独立 (2)构造卡方统计量 统计量服从(r-1)*(c-1)个自由度的卡方分布 count:观察(实

11、际)频数 expected count:期望频数 (期望频数反映的是H0成立情况下的数据分布特征),分析列联表中变量间的关系,卡方检验基本步骤 (3)计算卡方统计量的值,并得到该统计量值的概率P值 (4)决策。概率P与显著性水平比较,小于等于则拒绝H0,否则不能拒绝 实现步骤 statistics选项 cells选项,卡方检验的要求: 一般要求列联表中期望频数小于5的格子数不超过20%,否则会夸大卡方值,容易得出拒绝结论,可以采用精确检验。 N=40, T=5,Pearson卡方检验,若P,改用确切概率法检验 N40,或T5,确切概率法检验,分析列联表中变量间的关系,行列变量相关性的其他测度指

12、标 Nominal: phi系数:在22列联表中 ,通常-1,1,负号无实际意义 列联C系数(contingency coefficient), 通常为0,1) V系数 0,1 值越大表示行列变量的相关性越大,分析列联表中变量间的关系,Ordinal 反映定序变量一致性指标 行变量等级越高,列变量等级也越高或越低一致性高 行变量等级越高,列变量等级不定不一致 指标绝对值越大越相关,越接近0越无关,定序变量一致性检验,年龄与工资收入交叉列联表 低 中 高 青 400 0 0 中 0 500 0 老0 0 600 低 中 高 青 0 0 500 中 0 6000 老 400 0 0,一致,一致,应

13、用举例,受教育程度越高通信支出越高吗? 受教育程度越高通信支出比例越高吗?,多选项分析,什么是多选项问题? (1)即:在回答某些问题时,答案在两个以上 例如:请问您平时主要的休闲娱乐方式是: a.看电视、听广播b.玩游戏c.体育运动d.逛街购物e.经常去港澳游玩f.看书学习 g.喝酒聊天h.工作太忙,没时间休闲娱乐 又如:您经常浏览的网站?在下列品牌中您信任哪些品牌? (2)多选项问题不能直接处理。因为SPSS中的一个变量对每一个答案只能取一个值。,多选项分析,多选项问题的处理方法 (1)思路: 将一个问题定义成几个变量,用这几个变量来描述该问题的几个可能被选择的答案。 分别做频数分析或交叉分

14、组下的频数分析 (2)方法: 多选项二分法(multiple dichotomies method)和多选项分类法(multiple category method) 普通频数分析和交叉分组下的频数分析,多选项分析,多选项二分法 将每个答案作为一个变量,每个变量只有两个取值(0或1)。 例如:,多选项分析,多选项分类法: 预先估计多选项问题可能被选择的最多答案数.为每个答案建立一个变量,取值为多选项问题的可选答案. 例如:最多可选三个学校,多选项分析,多选项分析的基本思路 定义多选项变量集 多选项频数分析 多选项交叉分组下的频数分析,多选项分析,定义多选项变量集 目的:将已分解的变量定义为一个

15、集合,便于进行多选项分析 菜单选项:analyze-multiple response-Define Variable Sets 从原变量中选取被分解的变量(数值型)到variables in sets框 指定被分解的变量是按多选项二分法(dichotomies)分解还是按多选项分类法(categories)分解的. 为变量集命名。系统自动在名字前加字符$.,多选项分析,多选项频数分析 菜单选项:analyze-multiple response-frequencies 选择待分析的多选项变量集到tables for 框。 缺失数据处理:只要有一个变量含有缺失值就将该个案剔除 exclude

16、cases list wise within dichotomies:只用于二分变量多项选择的分析。 exclude cases list wise within categories:只用于分类变量多项选择的分析。,多选项分析,多选项交叉分析下的频数分析 菜单选项:analyze-multiple response-crosstabs 选择行变量并定义取值范围 选择列变量并定义取值范围 选择控制变量并定义取值范围 其他选项 常用分析指标: 应答人数百分比(percent of cases):选择该项的人占总人数的比例(较大) 应答次数百分比(percent of responses):选择该

17、项的次数占总应答次数的比例(较小),多选项分析,多选项分析实例 在某次市场调查中收集了北京、上海和广州三个城市的受访者对几种常见饮料的喜好情况,可选的饮料有茶、牛奶、咖啡、果汁、矿泉水。(数据是从原始数据库中抽出的一小部分资料),作以下分析: 采用二分法组织数据 受访人群中最受欢迎的饮料是哪种? 男、女喜爱的饮料有无差异? 三个城市的人群对饮料的喜好有无差异? 不同学历的消费者休闲方式有无差异?,统计图形的种类及用途,1、用于显示频数分布: ( Line和Area也能作,但不很适合) Bar( 不仅仅用于) Pie: Histogram: Boxplot: Error Bar:显示总体分布 2

18、、用于判断数据分布 P-P图 Q-Q图,统计图形的种类及用途,3、用于时间序列 Line Area Bar: High-low:类似K线图 4、用于观察数量变量之间关系 scatter,电信增值业务市场前景(以法国为例),统计图形的种类及用途,5、用于数据分析 Pareto分析重要因素 Control分析数据变异 统计图形在SPSS中分为一般统计图和交互式统计图,条形图,其他汇总方式的条图:各科成绩的均值、各省份移动收入比例 复式条图和堆积条图:两班男女生成绩均值,统计图的编辑,双击图形进入编辑状态 图形的转换: 条图、线图、面积图和饼图之间可互相转换 散点图和直方图之间可互相转换 2、图形的设置: 适用于复式和堆积图,统计图的编辑,3、图形坐标设置 Scale Axis:条图、

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论