统计学基础知识培训_第1页
统计学基础知识培训_第2页
统计学基础知识培训_第3页
统计学基础知识培训_第4页
统计学基础知识培训_第5页
已阅读5页,还剩39页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、. 统计学基础知识培训 2007年5月 . 根据测量尺度数据的分类 姓名性别级别年龄绩效分数月均收入 甲 乙 丙 丁 戊 戌 1 1 0 1 1 0 0 0 0 1 1 2 21 25 26 27 25 31 8.6 7.8 9.2 7.9 8.9 8.4 2479 2345 2547 2689 2776 3124 注:1.本表纯属虚构,如有雷同实属巧合;2.性别栏0代表男,1代表女;级 别栏0代表员工,1代表领班,2代表主管;3.绩效栏10分为满分。 1999年某公司员工情况明细表 . 数据的分类 根据数据测量的尺度:分为定类数据、定 序数据、定距数据、定比数据 根据描述对象与时间的关系:分

2、为截面数 据和时间序列数据 根据统计数据的收集方法:分为观测数据 和实验数据 .4 你想要干什么? 一.归纳、描述或者显示数据 二.观察变量和数据的分布 三.比较组间数据的不同 四.变量之间显著性关系的测度 五.相似数据分组的测度 六.相似变量的压缩测度 结束 . 你要归纳整理的是什么类型的数 据? 1.已分类数据(定类、定序) 2.连续、数值型数据(定距、定比) 返回 . 你想如何归纳整理数据? 1.分类计算频数和百分比 2.计算两分类变量下的频数和百分比 3.计算比率值:比率是各不同类别数值之 间的比值 返回 . 分类变量的图形及图表显示 员工级别频数 百分 (%) 累积百 分比 (%)

3、员工 领班 主管 经理助理 75 15 8 2 75% 15% 8% 2% 75.00% 90.00% 98.00% 100% 合计 100100% AnalyzeDescriptive StatisticsFrequencies 各级别员工人数表 0 10 20 30 40 50 60 70 80 员工领班主管经理助理 频数 频数 返回 . 两分类变量数据的图表及图形 显示 员工级别 3 0岁 30-39 岁 40-49 岁 49- 50岁 合计 员工 领班 主管 经理助理 47 7 2 20 5 2 1 6 2 3 1 2 1 1 75 15 8 2 合计 56 28 12 4100 An

4、alyzeDescriptive StatisticsCrosstabs 员工 领班 主管 经理助理 30岁 30-39岁 40-49岁 50-60 0 10 20 30 40 50 频数 员工级别 年龄段 各级别各年龄段频数 返回 . 比率值的计算及显示 AnalyzeReportsCase summaries 员工级别 30 岁 30-39 岁 40-49 岁 49-50 岁 0时为尖峰分布; 当K0时为扁平分布 . 与数据分布相关的测度量总结 定类定序定距和定比 集中趋势适用的统计 量 众数 中位数 分位数 众数 均值 加权平均 几何平均 中位数 分位数 众数 离散趋势使用的统计 量 异

5、众比率 四分位差 异众比率 全距 方差 标准差 四分位差 异众比率 用于比较不同组数据 的相对位置 标准分数: zi=(xi-x平均)/标准 差 用于比较不同组数据 相对离散程度 离散系数: V=标准差/x平均值 . 常见的数据分布正态分布 在社会经济问题中,有许多随机变量的概率分布服从正 态分布,如身高、体重等。正态分布记作XN(,), 为随机变量X的均值, 为随机变量X的标准差。 决 定了正态分布图形的中心位置, 决定了图形中峰的 陡峭程度, 当 较大,图形较缓,当 较小,图形趋 于陡峭。 所有的正态分布均能通过Z=(X- )/ 化成标准正态分 布XN(0,1)(均数为0,方差为1)。 随

6、机变量X处在一个正负一个之内的概率为68.26%; 2个之内的概率为95.45%; 3个之内的概率为 99.73%。 返回 . 你要比较什么类型的数据? 1.分类数据(定比、定序) 2.已分组的连续数值型数据(定距、定比) 返回 . 应用列联分析解决分类数据的 组间比较 频数分布表每次只能描述一个变量的情况,而列联表是由 两个以上的变量进行交叉分类的频数分布表,是反映两个 或多个变量联合分布的表格。可用于各组比例值是否一在 列联表中,可以计算以列合计为基数的列百分比或以行合 计为基数的行百分比。卡方统计量提供对列联表中观察到 的联系的统计显著性检验(拟合优度和变量联系),通过 系数、列联系数、

7、Cramers V和系数测量变量关系强度 的指标。 Analyze-Descritives-Crosstabs . 举例说明 某公司为了提高市场占有率,某行业有两个主要的竞争对手,A和 B公司同时开展了广告宣传。在广告宣传之前,A公司的市场占有 率为45%,B公司市场占有率为40%,其它公司为15%。广告战 后,随机抽取了200名消费者,其中102人准备买A公司产品,82 人买B公司产品,另外有16人准备买其它公司产品。问以广告战 前后各公司市场占有率是否发生了变化。 公司观察频率期望频率 A B 其它 102 82 16 90 80 30 合计 200200 检验观察值和期望值的 拟合优度:

8、计算卡方值为 8.18,而显著性0.05、自由 度为2时的卡方值5.99,因 此说明占有率发生了显著 的变化。 . 举例说明 列联表格的卡方检验还用于判断两个分类变量之间是否存在联系 的问题中。 一种原料来自不同的地区,原材料质量被分为三个不同的等级。 从这批原料中随机抽取500件进行检验,结果如下表: 地区一级二级三级合计 甲 乙 丙 52 60 50 64 59 65 24 52 74 140 171 189 合计 162188150500 计算卡方值为19.82大于显著性 为0.05、自由度为4的的卡方值为 9.488,所以地区和原材料等级之 间存在依赖关系,原材料的质量 受地区影响。存

9、在关系的假设成 立,可以计算系数、列联系数 Cramers V和系数测量变量关系强度 的指标。 返回 . 你想要比较多少组数据或多少 个变量? 1.一组数据或变量与一个已知数值进行比 较 2.两组数据或变量 3.三组或者三个以上变量 返回 . 应用单样本T检验检验一组数据 或变量与一已知数值是否相等 工作中经常碰到根据已有的知识或者给定的标准对单 个变量做出结论,比如新产品的份额是否超过了15% 等。这样的问题就可以转化为通过单样本T检验进行检 验的零假设。单样本T检验检验的是抽样总体均值是否 与给定假设一致。根据样本计算得出的T统计量值与给 定的0.05显著性水平下的临界值进行比较,从而得出

10、 结论。 SPSS实现:Analyze-Compare Means-One Sample T Test 返回 . 你的数据是如何组织起来的? 1.分成两不相关组的一个连续数值型变量 2.具有相关关系的两连续数值型变量 返回 . 你想要进行何种独立的样本检 验? 步骤:1.首先检测变量是否服从正态分布,方法 为通过Graphs-Interactive-Histogram(直方图) 进行观察 2.如果变量服从正态分布,那么应用独立样本T 检验进行两样本均数的比较:Analyze- Compare Means-Independent Samples T Test 3.如果变量不服从正态分布,那么应用

11、非参数双 独立样本检验进行两独立样本所在总体分布是 否相同的检验:Analyze-Nonparametric Tests- 2 Independent Samples 返回 . 你想要何种配对样本的检验 步骤:1.同样通过直方图观察变量是否服从正态 分布; 2.如果服从正态分布,那么应用配对样本的T检 验进行配对设计的差值均数与总体均数0进行 比较:Analyze-Compare Means-Paired Samples T Test. 3.如果不服从正态分布,那么应用双相关样本检 验:Analyze-Nonparametric Tests-2 Related Samples. 返回 . 方差

12、分析(ANOVA) 前面介绍的方法均为一个因素水平下,两组数据的比 较方法,当一个因素水平下,有三个或者三个以上的 组别时,就需要用到方差分析。方差分析适用于两组 或者两组以上均值差异的检验。方差分析必须有一个 定量(定距或定比尺度)的因变量,以及一个或者多 个自变量(定类),定类自变量称为因子,一个因子 成为单因子方差分析,若有n个自变量,成为n因子方 差分析。其原理为通过对数据误差来源的分析来判断 不同总体的均值是否相同。 方差分析的3个基本假定:1.每个总体都应该服从正态 分布;2.各个总体的方差2 ;3.观测值是相互独立的。 SPSS实现:AnalyzeCompare MeansOne

13、-Way ANOVA . 举例说明 观测值 行业 零售业旅游业航空公司家电制造业 1 2 3 4 5 6 7 57 66 49 40 34 53 44 68 39 29 45 56 51 31 49 21 34 40 44 51 65 77 58 下表为一年内,四个行业抽取的样本企业投诉次数表,问这几 个行业之间的服务质量是否有显著性差异。 下表为方差分析的结果表, 从F统计量值为3.4066大于给 定0.05水平下的F分布的临界 值3.1273,应该拒绝原假设, 说明各个行业的投诉之间的差 异是显著的。 差异源平方和 (SS) 自由度 (df) 均方 (MS) F统计 量 P值给定0.05水

14、平下 F分布的临界值 组间 组内 1456.608 2708 3 19 485.536 142.526 3.40660.0387653.1273 总计 4164.608 7 22返回 . 你有什么样的数据? 1.分类数据(定类、定序) 2.定序、等级顺序、或者非参数连续性数 据 3.连续数值型数据(定距、定比) 返回 . 分类数据(定类、定序) 应用前面讲过的列联分析,卡方对独立 性进行检验,进而计算通过系数、列联 系数、Cramers V和系数测量变量关系 强度的指标。 返回 . 定序、等级顺序、或者非参数 连续性数据 计算Spearman相关系数和Kendalls tau-b相关 系数,看

15、两变量的关系的密切程度。计算排序 的相关系数又称秩相关或者等级相关,记作r。 当|r|0.3,视为不相关;当0.3|r|0.5,视为低 度相关;0.5|r|0.8,视为中度相关;|r|0.8, 视为高度相关。 SPSS实现:Analyze-Correlate-Bivariate选 Spearman相关系数和Kendalls tau-b相关系数 返回 . 连续数值型数据(定距、定比) 1.两变量:计算Pearson相关系数来度量两变量关系 的密切程度,记作r。当|r|0.3,视为不相关;当 0.3|r|0.5,视为低度相关;0.5|r|0.8,视为中 度相关;|r|0.8,视为高度相关。 SPS

16、S实现Analyze-Correlate-Bivariate选择Pearson 项。 2.控制了一个或者两个的其他其变量的影响之后两变 量的相关,为偏相关,也记作r。 Spss实现Analyze- Correlate-Partial选择要分析的 两变量进入要分析的变量框;选择要控制的变量 进入要控制的变量框 . 测度变量的因果关系回归 分析 前面介绍的数值型变量的相关系数或者偏相关系数主要了 解两变量关系的密切程度,而回归分析主要度量一个因变 量,与一个、两个或两个以上的自变量的数量伴随关系, 是测度因变量和自变量的因果关系的方法。回归分为线性 回归和曲线回归。以一元线性回归为例:其回归方程形

17、式 为y=ax+b。回归直线的拟和优度的测度应用的是判定系数, 判定系数说明了因变量的数据变动中,有多少是由自变量 的的变动所决定的。而估计标准误用于测度各实际观测点 在直线周围的分散程度,其越小,说明回归直线对各观测 点代表性好,反之则代表性差。另外还用F检验检验线性关 系的显著性。应用T检验检验回归系数的显著性检验,检验 自变量对因变量的影响是否显著。 SPSS实现:Analyze-Regression-Linear 返回 . 你有什么类型的数据? 1.连续数值型数据(定距、定比) 2.分类数据(定类、定序) 返回 . 你想要判别分组还是判别已知 组的特征? 1.判别分组,应用聚类分析。聚

18、类分析是一组将 研究对象分成相对同质的群组的统计分析技术, 不区分自变量和因变量。聚类分析的主要目的 是根据聚类变量将对象分成相对同质的群组。 某一组的内部成员更加相似,与其它组的成员 不同。 当数据量小于200时,应用系统聚类分析将数据 分组,Analyze-Classify-Hierarchical Cluster; 当大于200个数据时应用K均数聚类法,又称快 速聚类法,Analyze-Classify-K-means Cluster。 . 已知分组的判别 2.判别已知组的特征应用判别分析。 判别分析是一种数据分析技术,适用于标准变 量或因变量为定类数据,预测变量或者自变量 为定距(或者定比数据)的情况。就像医生看 病的判断过程一样,有各种各样的病症的症状、 检测结果值分类储存在脑子里,医生根据现在 来的病人的症状、检测结果等判断病人得的是 什么病。判别分析就是构造判别函数,然后判 别新调查对象的组别。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论