已阅读5页,还剩40页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
统计学基础知识培训 2007年5月 根据测量尺度数据的分类 1999年某公司员工情况明细表 数据的分类 根据数据测量的尺度 分为定类数据 定序数据 定距数据 定比数据 根据描述对象与时间的关系 分为截面数据和时间序列数据 根据统计数据的收集方法 分为观测数据和实验数据 4 你想要干什么 一 归纳 描述或者显示数据二 观察变量和数据的分布三 比较组间数据的不同四 变量之间显著性关系的测度五 相似数据分组的测度六 相似变量的压缩测度 结束 你要归纳整理的是什么类型的数据 1 已分类数据 定类 定序 2 连续 数值型数据 定距 定比 返回 你想如何归纳整理数据 1 分类计算频数和百分比2 计算两分类变量下的频数和百分比3 计算比率值 比率是各不同类别数值之间的比值 返回 分类变量的图形及图表显示 Analyze DescriptiveStatistics Frequencies 返回 两分类变量数据的图表及图形显示 Analyze DescriptiveStatistics Crosstabs 返回 比率值的计算及显示 Analyze Reports Casesummaries 返回 如何整理连续数值型数据 1 描述连续数值型数据的统计量及数据分组法2 图表显示 返回 连续数值型数据统计量及数据分组法 1 统计量 度量集中趋势的统计量包括平均数 几何平均 度量离散趋势的统计量包括极差 方差和标准差等 3 数据分组 分组是根据统计分析的需要 将原始数据按照某种标准划分成不同的组别 形成分组数据 分组后计算数据出现的频数 形成频数分布表 各常用统计量的计算方法 平均值 mean 一组数据之和除以数据个数 几何平均值 用于计算比率的平均 实际应用中 主要用于社会经济现象的年平均增长率 极差 Range 也称全距 是一组数据的最大值和最小值之差 方差 各变量与其均值离差平方的平均数 标准差 std Deviation 即是方差的平方根 与方差不同的是 标准差具有与变量值一样的量纲 实际的意义要比方差清楚 SPSS实现 Analyze DescriptiveStatistics Descriptives 数据分组法 数据分组包括单变量分组和组距分组两种 单变量适合离散变量分组 一般数据都使用组距分组 数据分组的步骤 1 确定组数 可以按斯特奇斯 Sturges 提出的经验公式来确定组数K K 1 lgn lg2 n为数据的个数 对结果四舍五入即为组数 2 确定各组的组距 组距是上限与下限的差 组距 最大值 最小值 组数 3 根据分组整理成频数分布表 分组需要 不重不漏 因此习惯上规定 上组限不在内 若有的值过大 可以设置开口组 等距分组由于各组的组距相等 各组频数分布不受组距大小的影响 可以从频数分布中直接观察频数分布的特征和规律 而不等距分组就必须计算频数密度 频数密度 频数 组距 频数密度才能准确反映频数分布的实际情况 返回 连续数值型数据的显示方法 分组数据的图形显示 直方图这是406例汽车的马力的直方图 50 100 150 200 汽车马力 0 20 40 60 频数 未分组数据的显示方法 箱线图箱线图是由一组数据的5个特征值绘制而成的 它由一个箱子和两条线段组成 5个特征值为 最大值 最小值 中位数和两个四分位 下面是406例产地为美国 欧洲和日本三个地区的汽车马力值的箱线图 欧洲箱线图有两个离群点 连续数值型数据的显示方法 返回 你有何种数据 1 分类数据 定类 定序 2 连续数值型数据 定距 定比 返回 分类数据分布的统计量指标 1 集中趋势 计算众数 中位数众数是一组数据中出现次数最多的变量值 中位数是一组数据排序后 处于中间位置的变量值 2 离散趋势 异众比率 四分位差异众比率是指非众数组的频数占总频数的比率 用Vr表示 Vr fi fm fi 四分位差也称内距或者四分间距 计算方法 Qd QU Ql 四分位差反映的是50 数据的离散程度 其数值越小 说明中间数据越集中 反之 越分散 3 频数分布和百分比 返回 连续数值型数据分布的统计量指标 1 集中趋势 平均值 加权平均值 算术平均值简单均值就是一组数据值之和除以其数据个数 加权平均的均值与其各个数值的个数有关 几何平均是适用于特殊数据的一种平均数 只要用于比率的平均 2 离散趋势 极差 全距 方差 标准差极差也称全距 为一组数最大值减去最小值得到 方差是各变量值与其均值离差平方的平均数 它是测度数值型数据离散程度的最主要的方法 计算方法 s2 xi x平均 n 1 实际分析问题时 我们常用标准差 标准差为方差开根号 3 数据偏态与峰态的测度偏态及其测度 计算公式SK n xi x平均值 3 n 1 n 2 s3 如果数据分布是对称的 则偏态系数为0 如果偏态系数明显不等于0 表明分布是非对称的 当SK为正值时 可以判断为右偏 当SK为负值时 为左偏 SK越大 说明偏斜的程度就越大 峰态及其测度 计算方法 K n n 1 xi x平均值 4 3 xi x平均值 2 2 n 1 n 1 n 2 n 3 s4 标准正态分布的峰态为0 当K 0时为尖峰分布 当K 0时为扁平分布 与数据分布相关的测度量总结 常见的数据分布 正态分布 在社会经济问题中 有许多随机变量的概率分布服从正态分布 如身高 体重等 正态分布记作X N 为随机变量X的均值 为随机变量X的标准差 决定了正态分布图形的中心位置 决定了图形中峰的陡峭程度 当 较大 图形较缓 当 较小 图形趋于陡峭 所有的正态分布均能通过Z X 化成标准正态分布X N 0 1 均数为0 方差为1 随机变量X处在一个正负一个 之内的概率为68 26 2个 之内的概率为95 45 3个 之内的概率为99 73 返回 你要比较什么类型的数据 1 分类数据 定比 定序 2 已分组的连续数值型数据 定距 定比 返回 应用列联分析解决分类数据的组间比较 频数分布表每次只能描述一个变量的情况 而列联表是由两个以上的变量进行交叉分类的频数分布表 是反映两个或多个变量联合分布的表格 可用于各组比例值是否一在列联表中 可以计算以列合计为基数的列百分比或以行合计为基数的行百分比 卡方统计量提供对列联表中观察到的联系的统计显著性检验 拟合优度和变量联系 通过 系数 列联系数 Cramer sV和 系数测量变量关系强度的指标 Analyze Descritives Crosstabs 举例说明 某公司为了提高市场占有率 某行业有两个主要的竞争对手 A和B公司同时开展了广告宣传 在广告宣传之前 A公司的市场占有率为45 B公司市场占有率为40 其它公司为15 广告战后 随机抽取了200名消费者 其中102人准备买A公司产品 82人买B公司产品 另外有16人准备买其它公司产品 问以广告战前后各公司市场占有率是否发生了变化 检验观察值和期望值的拟合优度 计算卡方值为8 18 而显著性0 05 自由度为2时的卡方值5 99 因此说明占有率发生了显著的变化 举例说明 列联表格的卡方检验还用于判断两个分类变量之间是否存在联系的问题中 一种原料来自不同的地区 原材料质量被分为三个不同的等级 从这批原料中随机抽取500件进行检验 结果如下表 计算卡方值为19 82大于显著性为0 05 自由度为4的的卡方值为9 488 所以地区和原材料等级之间存在依赖关系 原材料的质量受地区影响 存在关系的假设成立 可以计算 系数 列联系数Cramer sV和 系数测量变量关系强度的指标 返回 你想要比较多少组数据或多少个变量 1 一组数据或变量与一个已知数值进行比较2 两组数据或变量3 三组或者三个以上变量 返回 应用单样本T检验检验一组数据或变量与一已知数值是否相等 工作中经常碰到根据已有的知识或者给定的标准对单个变量做出结论 比如新产品的份额是否超过了15 等 这样的问题就可以转化为通过单样本T检验进行检验的零假设 单样本T检验检验的是抽样总体均值是否与给定假设一致 根据样本计算得出的T统计量值与给定的0 05显著性水平下的临界值进行比较 从而得出结论 SPSS实现 Analyze CompareMeans OneSampleTTest 返回 你的数据是如何组织起来的 1 分成两不相关组的一个连续数值型变量2 具有相关关系的两连续数值型变量 返回 你想要进行何种独立的样本检验 步骤 1 首先检测变量是否服从正态分布 方法为通过Graphs Interactive Histogram 直方图 进行观察2 如果变量服从正态分布 那么应用独立样本T检验进行两样本均数的比较 Analyze CompareMeans IndependentSamplesTTest3 如果变量不服从正态分布 那么应用非参数双独立样本检验进行两独立样本所在总体分布是否相同的检验 Analyze NonparametricTests 2IndependentSamples 返回 你想要何种配对样本的检验 步骤 1 同样通过直方图观察变量是否服从正态分布 2 如果服从正态分布 那么应用配对样本的T检验进行配对设计的差值均数与总体均数0进行比较 Analyze CompareMeans PairedSamplesTTest 3 如果不服从正态分布 那么应用双相关样本检验 Analyze NonparametricTests 2RelatedSamples 返回 方差分析 ANOVA 前面介绍的方法均为一个因素水平下 两组数据的比较方法 当一个因素水平下 有三个或者三个以上的组别时 就需要用到方差分析 方差分析适用于两组或者两组以上均值差异的检验 方差分析必须有一个定量 定距或定比尺度 的因变量 以及一个或者多个自变量 定类 定类自变量称为因子 一个因子成为单因子方差分析 若有n个自变量 成为n因子方差分析 其原理为通过对数据误差来源的分析来判断不同总体的均值是否相同 方差分析的3个基本假定 1 每个总体都应该服从正态分布 2 各个总体的方差 2 3 观测值是相互独立的 SPSS实现 Analyze CompareMeans One WayANOVA 举例说明 下表为一年内 四个行业抽取的样本企业投诉次数表 问这几个行业之间的服务质量是否有显著性差异 下表为方差分析的结果表 从F统计量值为3 4066大于给定0 05水平下的F分布的临界值3 1273 应该拒绝原假设 说明各个行业的投诉之间的差异是显著的 返回 你有什么样的数据 1 分类数据 定类 定序 2 定序 等级顺序 或者非参数连续性数据3 连续数值型数据 定距 定比 返回 分类数据 定类 定序 应用前面讲过的列联分析 卡方对独立性进行检验 进而计算通过 系数 列联系数 Cramer sV和 系数测量变量关系强度的指标 返回 定序 等级顺序 或者非参数连续性数据 计算Spearman相关系数和Kendall stau b相关系数 看两变量的关系的密切程度 计算排序的相关系数又称秩相关或者等级相关 记作r 当 r 0 3 视为不相关 当0 3 r 0 5 视为低度相关 0 5 r 0 8 视为中度相关 r 0 8 视为高度相关 SPSS实现 Analyze Correlate Bivariate选Spearman相关系数和Kendall stau b相关系数 返回 连续数值型数据 定距 定比 1 两变量 计算Pearson相关系数来度量两变量关系的密切程度 记作r 当 r 0 3 视为不相关 当0 3 r 0 5 视为低度相关 0 5 r 0 8 视为中度相关 r 0 8 视为高度相关 SPSS实现Analyze Correlate Bivariate选择Pearson项 2 控制了一个或者两个的其他其变量的影响之后两变量的相关 为偏相关 也记作r Spss实现Analyze Correlate Partial选择要分析的两变量进入要分析的变量框 选择要控制的变量进入要控制的变量框 测度变量的因果关系 回归分析 前面介绍的数值型变量的相关系数或者偏相关系数主要了解两变量关系的密切程度 而回归分析主要度量一个因变量 与一个 两个或两个以上的自变量的数量伴随关系 是测度因变量和自变量的因果关系的方法 回归分为线性回归和曲线回归 以一元线性回归为例 其回归方程形式为y ax b 回归直线的拟和优度的测度应用的是判定系数 判定系数说明了因变量的数据变动中 有多少是由自变量的的变动所决定的 而估计标准误用于测度各实际观测点在直线周围的分散程度 其越小 说明回归直线对各观测点代表性好 反之则代表性差 另外还用F检验检验线性关系的显著性 应用T检验检验回归系数的显著性检验 检验自变量对因变量的影响是否显著 SPSS实现 Analyze Regression Linear 返回 你有什么类型的数据 1 连续数值型数据 定距 定比 2 分类数据 定类 定序 返回 你想要判别分组还是判别已知组的特征 1 判别分组 应用聚类分析 聚类分析是一组将研究对象分成相对同质的群组的统计分析技术 不区分自变量和因变量 聚类分析的主要目的是根据聚类变量将对象分成相对同质的群组 某一组的内部成员更加相似 与其它组的成员不同 当数据量小于200时 应用系统聚类分析将数据分组 Analyze Classify HierarchicalCluster 当大于200个数据时应用K均数聚类法 又称快速聚类法 Analyze Classify K meansCluster 已知分组的判别 2 判别已知组的特征应用判别分析 判别分析是一种数据分析技术 适用于标准变量或因变量为定类数据 预测变量或者自变量为定距 或者定比数据 的情况 就像医生看病的判断过程一样 有各种各样的病症的症状 检测结果值分类储存在脑子里 医生根据现在来的病人的症状 检测结果等判断病人得的是什么病 判别分析就是构造
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年麻醉科主治医师考试历年真题解析与模拟试卷
- 劳务员考试题库及答案解析(版)
- 安全两体系试题及答案
- 2025年模板工(高级)考试真题解析题库
- 全国10月自学考试2组织行为学试题答案
- 会计中级职称考试《中级会计实务》全真模拟试卷及答案
- 中级注册安全工程师-注安化工安全-全真模拟卷(一)
- 口腔诊疗器械消毒技术操作规范试题及答案
- 天津市编考试真题及答案
- G2电站锅炉司炉作业模拟考试题库6.2
- 王羲之吃墨水课件
- 2025年天翼云解决方案架构师认证考试笔试题库上(单选题)含答案
- (2021-2025)五年高考地理真题分类汇编专题08 人口(全国)(原卷版)
- 小学语文新课程标准(2025版)测试题题库及答案
- 2025年初中入团考试题及答案
- 风力发电设计计算模板
- 外国军事思想课件
- 2025新疆生产建设兵团草湖项目区公安局面向社会招聘警务辅助人员考试参考题库及答案解析
- 瑞茂通供应链课件
- 民法的相邻关系课件
- 《工程制图》期末考试
评论
0/150
提交评论