




已阅读5页,还剩93页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
统计的应用实例 例1 1 用统计识别作者1787 1788年 三位作者alexanderhamilton johnjay和jamesmadison为了说服纽约人认可宪法 匿名发表了著名的85篇论文 这些论文中的大多数作者已经得到了识别 但是 其中的12篇论文的作者身份引起了争议通过对不同单词的频数进行统计分析 得出的结论是 jamesmadison最有可能是这12篇论文的作者 现在 对于这些存在争议的论文 认为jamesmadison是原创作者的说法占主导地位 而且几乎可以肯定这种说法是正确 统计的应用实例 例1 2 用简单的描述统计量得到一个重要发现费舍 r a fisher 在1952的一篇文章中举了一个例子 说明如何由基本的描述统计量的知识引出一个重要的发现 20世纪早期 哥本哈根卡尔堡实验室的施密特 j schmidt 发现不同地区所捕获的同种鱼类的脊椎骨和鳃线的数量有很大不同 甚至在同一海湾内不同地点所捕获的同种鱼类 也发现这样的倾向然而 鳗鱼的脊椎骨的数量变化不大 施密特从欧洲各地 冰岛 亚速尔群岛以及尼罗河等几乎分离的海域里所捕获的鳗鱼的样本中 计算发现了几乎一样的均值和标准偏差值 由此 施密特推断所有各个不同海域内的鳗鱼是由海洋中某公共场所繁殖的 后来名为 戴纳 dana 的科学考察船在一次远征中发现了这个场所 统计的应用实例 例1 3 挑战者号航天飞机失事预测1986年1月28日清晨 载有7名宇航员的挑战者号进入发射状态 就在发射前 有冰片牢附在机壳上 几分钟后 正当电视新闻报道它已进入轨道时 航天飞机在毁灭性的爆炸声中化成碎片 机上的宇航员片骨未存推动航天飞机进入太空的两个固体燃料发动机是由thiokol公司制造的 失事前一天晚上 thiokol公司的经理们和国家航空航天局就如期发射还是推迟发射产生了争执 天气预报发射时的气温为310f 争执的结果采纳了thiokol公司经理们的建 按计划发射航天飞机 因为他们觉得没有确凿证据表明低温会对固体燃料火箭推进器的性能产生影响 统计的应用实例 例1 3 挑战者号航天飞机失事预测在此次失事前 该航天飞机24次发射成功 将航天飞机送入太空的两个固体燃料推进器由6只o型项圈密封 在几次飞行中 曾发生过o型项圈被腐蚀或气体泄漏事故 这样的事故是及其危险的 前24次发射中有一次发动机遭到了永久性破坏 根据23次飞行中发生腐蚀或泄漏事故的次数 因变量 及火箭连接处的温度 自变量 数据 进行线性回归得到的回归方程为当温度为310f时 o型项圈发生事故的预计次数为2 225次 结果显示连接处的温度与o型项圈事故之间有一定的相关性 如果当时那些经理们看到了回归的预测结果 也许推迟发射会成为其谨慎的选择 管理统计的描述 使用对象 管理类各专业 频数分布表的生成 例1 1 为研究人们对不同类型软饮料的偏好情况 一家调查公司在某超市随机调查了50名顾客 右表是顾客性别及其所偏好的饮料类型记录 生成频数分布表 观察不同性别的顾客及其所偏好的饮料类型的分布状况 并进行描述性分析 软件应用 几种常用的统计软件 software 典型的统计软件sasspssrminitabstatisticaexcel 1 spss概述 随着计算机的普及 数据库的广泛应用 积累了各种各样的数据 这些数据的特点是数据量大 杂乱无章 如何从这些数据中得到有价值的信息 这就是统计分析所研究的课题 而spss正是解决这样问题的工具及手段 1 spss的产生背景 20世纪60年代末 美国斯坦福大学的3位研究生研制开发了统计分析软件 社会科学统计软件包 statisticalpackageforsocialscience 1975年成立了spss软件公司 专门进行统计分析软件的研发 由于市场前景广阔 多家从事统计分析软件开发的公司相继出现 但spss公司始终处于市场领先的位置 2 spss的发展过程 1994 1998年间 spss公司兼并了多家从事统计分析软件研发的公司 对这一市场进行了整合 软件名称也改为 统计产品与服务解决方案 statisticalproductandservicesolutions 最新版本spss20 0 据不完全统计 现在的spss统计分析软件在全球拥有26万家以上的用户 广泛应用于社会的各个领域 是当今世界最流行的软件之一 我们现在使用的是spssforwindows17 0版 3 spss的应用领域 啤酒与尿布的故事 在美国的一家沃尔玛超市里 有一个有趣的现象 尿布和啤酒赫然摆在一起出售 匪夷所思 原来 沃尔玛请咨询公司进行一年一度的数据分析时发现 有相当数量购买尿布的购货单中也购买了啤酒 经公司调查发现 美国的妇女们经常会嘱咐她们的丈夫 在下班回家的路上务必为孩子购买尿布 而丈夫在买尿布的同时 大都顺手买回犒劳自己的啤酒 发现这一秘密后 超市将啤酒和尿布放在了相邻的柜台进行销售 其结果是啤酒和尿布的销量都大大提高 咨询公司发现这一秘密的手段就是关联分析和频数分析 这正是spss统计分析方法及应用中要讲的部分内容 spss统计分析方法在各行各业中有着广泛的应用 频数分析 科学经营的依据 房地产项目 不同户型数量的确定 经济预测 制定省市乃至于一个企业的发展规划 营销规划 预算的制定 上市公司是否被特别处理 st 判别分析 呼叫指纹识别 贷款客户的信用等级识别 诊病 聚类分析 市场的细分 手机使用者涉及各行各业 其使用什么品牌 什么功能 什么价位的手机 时间序列分析 北京乘客数量的发展预测 spss统计分析又称为数据分析 数据挖掘 是用定量的方法 研究系统中各个变量之间的相互关系 得到的结论用于决策 使得决策更科学 更优化 二 spss的主界面 用spss生成定性数据的频数分布表 生成频数分布表 spss 第1步 选择 analyze descriptivestatistics frequencies 进入主对话框第2步 将 饮料类型 或 顾客性别 选入 variable s 选中 displayfrequencytables spss生成的分布表 不同类型饮料的分布表 升序排列 汉字拼音字母 用spss生成定性数据的列联表 crosstabulation 交叉表 生成交叉频数分布表 spss 第1步 选择 analyze descriptivestatistics crosstabs 进入主对话框第2步 将 饮料类型 选入 row s 将 顾客性别 选入 column s 行列可以互换 第3步 若需要对列联表进行描述性分析 点击 cells 在 percentages 下选中需要的统计量 如 row column total 等 若需要图形 点击 displayclusteredbarchart 点击 ok 列联表的描述性分析 例题分析 spss 列联表的统计描述 行百分比 列百分比 列联表的描述性分析 例题分析 spss 列联表的统计描述 行百分比 列百分比 2009年7月26日至8月3日第13届世界游泳锦标赛在意大利罗马举行 本届游泳世锦赛金牌总数取得前三名的国家所获得奖牌的分布情况如下表所示 二 图形表示法 根据上面的数据 你认为可以选择哪些图形来展示三个国家所获得的奖牌情况 表示频次与频率的常用图形 饼形图条形图直方图茎叶图箱形图折线图 1 饼图 piechart 1 适用范围 适用于所有测度级别的数据 2 spss实现 analyze graphs chart frequencies descriptivestatistics pie 第1步 选择 graphs interactive pie clustered 进入主对话框 第2步 如果绘制简单饼图 将某个分类变量 如 饮料类型 选入 slice 部分 片 点击 pies 选择在饼图中要展示的内容 如 category count percen 等 点击 ok 如果要绘制复式饼图 将某个分类变量 如 饮料类型 选入 slice 将另一个分类变量 如 顾客性别 选入 cluster 点击 pies 点击 确定 用spss绘制饼图 pie 简单饼图 piechart 用圆形及圆内扇形的角度来表示数值大小的图形 主要用于表示一个样本 或总体 中各组成部分的数据占全部数据的比例用于研究结构问题 复式饼图 piechart 主要用于展示两个或多个分类变量的构成比较 比如 在男女分类的基础上又增加了饮料类型的分类 2 条形图 barchart 1 适用范围 适用于顺序级以上的数据 也可以 强行 用于名义级 2 spss实现 analyze graphs chart frequencies descriptivestatistics bar 复式条形图 barchart 饮料类型和顾客性别的条形图 spss的输出 2 spss实现 3 直方图 histogram 1 适用范围 适用于顺序级以上的数据 3 与条形图的关系 条形图是直方图的特例 1 23 茎节宽度为100 3 茎节 的宽度 确定原则 茎节是有变化的 123 12 3 茎节宽度为10 样本值 茎节 叶 表达 茎节 的宽度 4 茎节的长度 茎节长度 允许的最大叶值 最小叶值 1 茎节长度 4 茎叶图 1 适用范围 适用于顺序级以上的数据 2 基本含义 某班级男生的身高数据 单位 厘米 按照 样本数据集合中的 茎节 必须是有变化 的原则 显然 在本例中 应以百位数和十位数为 茎 节 也就是说 茎 节 的宽度是10 厘米 这样 叶 就只能是个位数了 5 spss实现 某商品价格 单位 元 stem and leafplotfrequencystem leaf1 0099 31 0099 53 0099 6777 0099 88899998 00100 000011115 00100 223334 00100 44551 00100 6stemwidth 0 1000eachleaf 1case s 箱形图 spss实现 图1男生身高数据普通箱形图 图2男生身高数据修正箱形图 多批数据箱线图 例题分析 例2 4 从某大学经济管理专业二年级学生中随机抽取11人 对8门主要课程的考试成绩进行调查 所得结果如表 试绘制各科考试成绩的批比较箱线图 并分析各科考试成绩的分布特征 用spss绘制多批数据箱线图 第1步 选择 graphs 下拉菜单 并选择 boxplot 第2步 在出现的对话框中选择 simple 在 datainchatare 中选择 summariesofseparatevariables 点击 define 返回主对话框第3步 在主对话框将所有变量 这里是11个学生 选入boxesrepresent 将 课程名称 选入 labelcasesby 点击 ok 未分组数据 多批数据箱线图 例题分析 median quart range 8门课程考试成绩的箱线图 11名学生考试成绩的median quart range箱线图 未分组数据 多批数据箱线图 spss绘制的箱线图 折线图 用spss绘制折线图的步骤是 选择graphs下拉菜单中的legacydialogs子菜单 选择line模块在linecharts界面选择simple 然后点击define 进入definesimpleline界面把需要绘制折线图的变量从左框选择移入categoryaxis 然后点击ok 一张好的图表应包括以下基本特征 显示数据让读者把注意力集中在图表的内容上 而不是制作图表的程序上避免歪曲强调数据之间的比较服务于一个明确的目的有对图表的统计描述和文字说明 鉴别图表优劣的准则 数据的描述统计量 哪名运动员的发挥更稳定 在2008年8月10日举行的第29届北京奥运会女子10米气手枪决赛中 进入决赛的8名运动员的预赛成绩和最后10枪的决赛成绩如下表 哪名运动员的发挥更稳定 最会的比赛结果是 中国运动员郭文珺凭借决赛的稳定发挥 以总成绩492 3环夺得金牌 预赛排在第1名的俄罗斯运动员纳塔利娅 帕杰林娜以总成绩498 1环获得银牌 预赛排在第4名的格鲁吉亚运动员妮诺 萨卢克瓦泽以总成绩487 4环的成绩获得铜牌 而预赛排在第3名的蒙古运动员卓格巴德拉赫 蒙赫珠勒仅以479 6环的成绩名列第8名由此可见 在射击比赛中 运动员能否取得好的成绩 发挥的稳定性至关重要 那么 怎样评价一名运动员的发挥是否稳定呢 一 集中趋势测度指标 平均数中位数和分位数众数用哪个值代表一组数据 也称为均值 常用的统计量之一消除了观测值的随机波动易受极端值的影响根据总体数据计算的 称为平均数 记为 根据样本数据计算的 称为样本平均数 记为 x 平均数 mean 简单算数平均数 simplemean 设一组数据为 x1 x2 xn 总体数据xn 样本平均数 总体平均数 加权算术平均数 weightedmean 设各组的组中值为 m1 m2 mk相应的频数为 f1 f2 fk 样本加权平均 总体加权平均 加权平均数 例题分析 加权平均数中权数对均值的影响 例 甲乙两组各有10名学生 他们的考试成绩及其分布数据如下 甲组 考试成绩 x 020100人数分布 f 118乙组 考试成绩 x 020100人数分布 f 811 排序后处于中间位置上的值 不受极端值影响 2 位置确定 3 数值确定 思考 什么测度级别的数据可以计算中位数 中位数 median 未分组资料中位数的计算 奇数个数据 例3 3 9个家庭的人均月收入数据原始数据 15007507801080850960200012501630排序 75078085096010801250150016302000位置 123456789 中位数 1080 例3 3 10个家庭的人均月收入数据排序 750780850960108012501500163020002800位置 12345678910 未分组资料中位数的计算 偶数个数据 未分组资料中位数的位置及数值确定 中位数组的上限 算法2 算法1 分组资料 刚好大于等于的累计数所在的组 50名学生统计学考试成绩分布表 四分位数 用3个点等分数 quartile 排序后处于25 和75 位置上的值 不受极端值的影响 方法2 较准确算法 spss的算法 方法1 定义算法 未分组资料四分位数位置的确定 未分组资料四分位数的计算 例 9个家庭的人均月收入数据原始数据 15007507801080850960200012501630排序 75078085096010801250150016302000位置 123456789 分组资料四分位数的计算 刚好大于等于或的累计数所在的组 众数 mode 一组数据中出现次数最多的变量值适合于数据量较多时使用不受极端值的影响一组数据可能没有众数或有几个众数 单项数列 某商品的价格 价格 单位 元 次数 频率 9 939 949 959 969 979 989 9910 0010 0110 0210 0310 0410 0510 06 10112344423221 3 3303 333 336 6710 013 3313 3313 336 6710 06 676 673 33 组距数列 某班组男职工的身高数据分组 众数组的上限 算法2 众数组次数与前一组次数之差 众数组次数与后一组次数之差 众数组的下限 算法1 众数组的组距 某工业企业有职工10000人 其中工人8000人 干部2000人 为了了解职工家庭生活状况 在工人和干部两个组均以5 的比例抽选职工进行调查 结果如下表 众数 中位数 平均数的特点和应用 平均数易受极端值影响数学性质优良 实际中最常用数据对称分布或接近对称分布时代表性较好中位数不受极端值影响数据分布偏斜程度较大时代表性较好众数不受极端值影响具有不惟一性数据分布偏斜程度较大且有明显峰值时代表性较好 仅仅知道数据的水平是远远不够的 还必须考虑数据之间的差距有多大 数据之间的差距用统计语言来说就是数据的离散程度 数据的离散程度越大 各描述统计量对该组数据的代表性就越差 离散程度越小 其代表性就越好 二 离散趋势的测度指标 极差和四分位差方差和标准差离散系数 离散趋势指标的使用 假定有两个地区每人的平均收入数据 其中甲地区的平均收入为5000元 乙地区的平均收入为3000元 你如何评价两个地区的收入状况 如果平均收入的多少代表了该地区的生活水平 你能否认为甲地区的平均生活水平就高于乙地区呢 极差和四分位差 一组数据的最大值与最小值之差离散程度的最简单测度值易受极端值影响未考虑数据的分布计算公式为 r max xi min xi 极差 表1某商品在抽样商店的单价 单位 元 某商品价格频数累计表 单位 元 离散测度指标 资料未分组的计算 资料分组 单项分组的计算 组距分组的计算 四分位差 quartiledeviation 也称内距或四分间距上四分位数与下四分位数之差 qd qu ql反映了中间50 数据的离散程度不受极端值的影响用于衡量中位数的代表性 25 75 方差和标准差 varianceandstandarddeviation 数据离散程度的最常用测度值反映各变量值与均值的平均差异根据总体数据计算的 称为总体方差 标准差 populationvarianceandstandarddeviation 记为 2 根据样本数据计算的 称为样本方差 标准差 samplevarianceandstandarddeviation 记为s2 s 样本方差和标准差 未分组数据 组距分组数据 未分组数据 组距分组数据 方差的计算公式 标准差的计算公式 总体方差和标准差 未分组数据 组距分组数据 未分组数据 组距分组数据 方差的计算公式 标准差的计算公式 自由度 degreeoffreedom 自由度是指一组数据中可以自由取值的个数当样本数据的个数为n时 若样本平均数确定后 则附加给n个观测值的约束个数就是1个 因此只有n 1个数据可以自由取值 其中必有一个数据不能自由取值计算离差平方和时 必须先求出样本均值 x 而 x则是附件给离差平方和的一个约束 因此 计算离差平方和时只有n 1个独立的观测值 而不是n个 样本标准差 例题分析 例3 5 计算计算9名员工的月工资收入的方差和标准差15007507801080850960200012501630 方差 标准差 1 也称标准化值2 对某一个值在一组数据中相对位置的度量3 可用于判断一组数据是否有离群点 outlier 用于对变量的标准化处理均值等于0 方差等于1计算公式为 标准化分数 standardscore 用spss对数据进行标准化 第1步 选择 analyze 下
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年新型汽车典当借款业务协议书
- 2025年度电力施工废弃物处理合同范本
- 2025年度保密协议范本:数据安全保密协议
- 2025版进口货物军事物资运输与安全保密合同
- 2025版铺面出租与品牌战略合作合同
- 2025版速冻粘玉米电商平台品牌形象设计与推广合同
- 2025茶青期货交易市场参与协议
- 2025船舶码头船舶垃圾收集与处理合同
- 2025年度城市景观改造土石方爆破作业合同
- 2025版商标注册代理及国际保护合同
- 企业微信办公使用教程
- 红十字应急救护创伤止血
- 2025-2026学年高二上学期开学入学教育主题班会【课件】
- 学堂在线 大学历史与文化 章节测试答案
- 大学澡堂管理办法
- 百货商场服务礼仪培训
- 汉语言文学转专业考试题目含答案
- 出租房屋安全管理办法
- 神经外科一般护理常规
- 2025年党建知识竞赛题库及答案(完整版)
- 寺庙安全隐患排查台账内容
评论
0/150
提交评论