第1章_统计和统计数据_第1页
第1章_统计和统计数据_第2页
第1章_统计和统计数据_第3页
第1章_统计和统计数据_第4页
第1章_统计和统计数据_第5页
已阅读5页,还剩67页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

作者贾俊平 统计学 第四版 生命科技学院 张为什么要学习统计学 当今社会 时代 被称为信息社会 信息社会的主要特征 信息在各个领域的重要性 信息数量庞大 信息处理和传输迅速 统计在信息社会中的重要作用 提供搜集信息的理论方法 提供加工处理信息的理论方法 你想过下面的问题吗 当你买了一台电视时 被告知三年内可以免费保修 你想过厂家凭什么这样说吗 说多了 厂家会损失 说少了 会失去竞争 也是损失 到底这个保修期是怎样决定的呢 大学排名是一个非常敏感的问题 不同的机构得出不同的结果 各自都说自己是客观 公正和有道理的 到底如何理解这些不同的结果呢 你如何理解下面说法 明天降水概率为40 该节目收视率是30 调查结果表明20 的观众喜欢某节目 抽样调查结果的误差为 3 支持率的95 置信区间为 25 30 某学校排名第一 某县是贫困县 为什么要学习统计学 经济管理类核心课程2 毕业论文需要生活和工作需要 学会统计 如虎添翼 不会统计 片面偏激 感悟统计 胖不是福 据统计 肥胖并发脑血栓和心衰的发病率比正常体重者高一倍 患冠心病者多2 5倍 高血压发病率多2 6倍 合并糖尿病者高4倍 合并胆石症者高4 6倍 超重25 和35 的肥胖症者的死亡率比正常人高28 和50 表明肥胖程度和死亡率呈正相关 美国每年因肥胖伴有冠心病 高血压 高血脂 糖尿病和脑血管意外而死亡的人数大约有30万人 统计思维总有一天会像读与写一样成为一个有效率公民的必备能力 H G Wells 统计名言 学习统计学的基础 1 预备知识概率论和数量统计2 统计软件Excel3 计算机基础知识 课程安排及考核 本课程学分3 0 48个学时重点学习第1 9章 其余章节了解最终成绩 平时成绩 30 终考成绩 70 平时成绩考核6次 100分 怎样学好统计学 课前预习 课上认真听讲 练习 课后及时复习重点理解统计学的概念 思想 方法和原理读懂统计软件输出的结果并作出合理的解释不必太在意计算问题和软件使用 第1章统计和统计数据 1 1统计及其应用领域1 2怎样获得统计数据 学习目标 统计学的含义统计学的研究内容统计的应用领域统计数据的类型获得统计数据的途径 你相信这样的一些统计结论吗 吸烟对健康是有害的 吸香烟的男性减少寿命2250天不结婚的男性会减少寿命3500天 不结婚的女性会减少寿命1600天身体超重30 会使寿命减少1300天每天摄取500毫升维生素C 生命可延长6年身材高的父亲 其子女的身高也较高第二个出生的子女没有第一个聪明 第三个出生的子女没有第二个聪明 依此类推学生们在听了莫扎特钢琴曲10分钟后的推理测试会比他们听10分钟娱乐磁带或其他曲目做得更好上课坐在前面的学生平均考试分数比坐在后面的学生高 1 1统计及其应用领域1 1 1统计学研究什么 1 1 2统计的应用 第1章统计和统计数据 1 1 1统计学研究什么 1 1统计及其应用领域 什么是统计 1 统计工作收集数据的活动2 统计数据对现象计量的结果3 统计学分析数据的方法与技术 什么是统计学 statistics 1 收集数据 取得数据2 处理数据 图表展示分析数据 利用统计方法分析数据数据解释 结果的说明得到结论 从数据分析中得出客观结论 收集 处理 分析 解释数据并从数据中得出结论的科学 Statistics的定义 不列颠百科全书 Statistics thescienceofcollecting analyzing presenting andinterpretingdata Copyright1994 2000EncyclopaediaBritannica Inc 不列颠百科全书 统计研究的过程 实际问题 统计数据的内在规律 一些例子 正常条件下新生婴儿的性别比为107 100投掷一枚均匀的硬币 出现正面和反面的频率各为1 2 投掷一枚骰子出现1 6点的频率各为1 6农作物的产量与施肥量之间存在相关关系 统计学的应用领域 2008年8月 统计方法 描述统计和推断统计 inferentialstatistics descriptivestatistics 描述统计 研究数据收集 整理和描述的统计学方法搜集数据 整理数据 展示数据 描述性分析描述数据特征找出数据的基本规律推断统计 研究如何利用样本数据来推断总体特征的统计学方法参数估计 假设检验对总体特征作出推断 描述统计 内容搜集数据整理数据展示数据目的描述数据特征找出数据的基本规律 推断统计 内容参数估计假设检验目的对总体特征作出推断 描述统计与推断统计的关系 反映客观现象的数据 描述统计 统计数据的搜集 整理 显示和分析等 统计学探索现象数量规律性的过程 理论统计与应用统计 理论统计研究统计学的一般理论研究统计方法的数学原理应用统计研究统计学在各领域的具体应用 第三节统计学与其他学科的关系 一 统计学与数学的关系二 统计学与其他学科的关系 统计学家是科学家 历史上著名的统计学家 JacobBernoulli 伯努利 1654 1705 EdmondHalley 哈雷 1656 1742 DeMoivre 棣美佛 1667 1754 ThomasBayes 贝叶斯 1702 1761 LeonhardEuler 欧拉 1707 1783 PierreSimonLaplace 拉普拉斯 1749 1827 AdrienMarieLegendre 勒让德 1752 1833 ThomasRobertMalthus 马尔萨斯 1766 1834 FriedrichGauss 高斯 1777 1855 JohannGregorMendel 孟德尔 1822 1884 KarlPearson 皮尔森 1857 1936 RonaldAylmerFisher 费歇 1890 1962 JerzyNeyman 内曼 1894 1981 EgonSharpePearson 皮尔森 1895 1980 WilliamFeller 费勒 1906 1970 统计学发展的历史线索 一般认为 统计学产生于17世纪中叶统计学的发展过程基本上沿着两条主线展开以 政治算术学派 为开端形成和发展起来的 以社会经济问题为主要研究对象的社会经济统计以概率论的研究为开端 并以概率论为基础形成和发展起来的 以方法和应用研究为主的数理统计今天 社会经济统计和数理统计仍然在以各自不同的方式发展着 政治算术 社会经济统计 政治算术学派产生于17世纪中叶的英国 代表人物主要是威廉 配第 WilliamPatty 1623 1687 和约翰 格朗特 JohnGraunt 1620 1674 17世纪中叶的政治算术学派可看作是统计学的开端19世纪 沿着约翰 格朗特所开创的人口统计以及沿着威廉 配第所开创的经济统计有了进一步的发展威廉 配第为以后经济统计的发展开拓了道路 约翰 格朗特为人口统计的发展开拓了道路政治算术学派则为后来的社会经济统计奠定了基础 概率论 数理统计 概率论起源于意大利文艺复兴时代 14 16世纪 概率论的真正历史是从17世纪中叶开始的古典统计时期的概率论基本上是独立发展的 它与统计学 主要是指政治算术 没有太多的联系从19世纪中叶到20世纪中叶 概率论的进一步发展为数理统计学的形成和发展奠定了基础20世纪50年代以后 统计理论 方法和应用进入了一个全面发展的阶段 统计学中的几个主要术语 总体 Population 所关心的所有元素的集合2 样本 Sample 总体的一部分3 参数 Parameter 总体的数字特征4 统计量 Statistic 样本的概括性测度值 统计学研究什么 物理学研究的是如热 光 电 运动规律那样的自然现象化学家测定物质的组成及化学元素之间的交互作用生物学家研究植物和动物的生活数学家则在给出的假定之下沉溺于他自己推演各种命题的游戏这些学科中的每一门都有它自己的问题 而且有解决这些问题的各自的方法 各学科为此而成为一门单独的学科 统计学研究什么 统计学没有固定的研究对象 是一门独特的学问统计学研究的是来自各领域的数据 由解决其他领域内的问题而存在并兴旺发达 按萨维奇 L J Savage 的说法 统计学基本上是寄生的 靠研究其他领域内的工作而生存 这不是对统计学的轻视 这是因为对很多寄主来说 如果没有寄生虫就会死 对有的动物来说 如果没有寄生虫就不能消化它们的食物 因此 人类奋斗的很多领域 如果没有统计学 虽然不会死亡 但一定会变得很弱 统计学研究什么 统计学是一门科学统计学提供一套方法和技术 这些方法和技术不能用于固定模式 使用者在给定的情况下必须根据所掌握的专门知识选择使用的方法 而且 如果需要还要进行必要的修正统计方法是通用的数据分析方法 不是为某个特定的领域而构造的统计学是一种技术如同工业生产过程中的质量控制程序一样 统计方法是为保证产品达到所希望的质量和保持其稳定性的的管理系统中建立起来的统计方法也能用于控制 减少和考察不确定性统计学是一门艺术作为归纳推理的统计方法不是没有争议的 不同的人对同一组数据的分析可能得到不同的结论一本印度小说 红色城堡 TheRedFort 说 使用数字讲故事取决于统计学家的技巧和他们的经验 在这个意义下 统计学也是一门艺术 统计是一种思维方式 统计思维总有一天会像读与写一样成为一个有效率公民的必备能力 H G Wells 在终极的分析中 一切知识都是历史 在抽象的意义下 一切科学都是数学 在理性的基础上 所有的判断都是统计学 C R Rao 1 1 2统计的应用 1 1统计及其应用领域 统计的应用领域 例1 1 用统计识别作者1787 1788年 三位作者AlexanderHamilton JohnJay和JamesMadison为了说服纽约人认可宪法 匿名发表了著名的85篇论文 这些论文中的大多数作者已经得到了识别 但是 其中的12篇论文的作者身份引起了争议 通过对不同单词的频数进行统计分析 得出JamesMadison最有可能是这12篇论文的作者 现在 对于这些存在争议的论文 认为JamesMadison是原创作者的说法占主导地位 而且几乎可以肯定这种说法是正确的 统计的应用领域 例1 2 用简单的描述统计量得到一个重要发现费舍 R A Fisher 在1952的一篇文章中举了一个例子 说明如何由基本的描述统计量的知识引出一个重要的发现 20世纪早期 哥本哈根卡尔堡实验室的施密特 J Schmidt 发现不同地区所捕获的同种鱼类的脊椎骨和鳃线的数量有很大不同 甚至在同一海湾内不同地点所捕获的同种鱼类 也发现这样的倾向然而 鳗鱼的脊椎骨的数量变化不大 施密特从欧洲各地 冰岛 亚速尔群岛以及尼罗河等几乎分离的海域里所捕获的鳗鱼的样本中 计算发现了几乎一样的均值和标准偏差值 由此 施密特推断所有各个不同海域内的鳗鱼是由海洋中某公共场所繁殖的 后来名为 戴纳 Dana 的科学考察船在一次远征中发现了这个场所 统计的应用领域 例1 3 挑战者号航天飞机失事预测1986年1月28日清晨 载有7名宇航员的挑战者号进入发射状态 就在发射前 有冰片牢附在机壳上 几分钟后 正当电视新闻报道它已进入轨道时 航天飞机在毁灭性的爆炸声中化成碎片 机上的宇航员片骨未存推动航天飞机进入太空的两个固体燃料发动机是由Thiokol公司制造的 失事前一天晚上 Thiokol公司的经理们和国家航空航天局就如期发射还是推迟发射产生了争执 天气预报发射时的气温为310F 争执的结果采纳了Thiokol公司经理们的建 按计划发射航天飞机 因为他们觉得没有确凿证据表明低温会对固体燃料火箭推进器的性能产生影响 统计的应用领域 例1 3 挑战者号航天飞机失事预测在此次失事前 该航天飞机24次发射成功 将航天飞机送入太空的两个固体燃料推进器由6只O型项圈密封 在几次飞行中 曾发生过O型项圈被腐蚀或气体泄漏事故 这样的事故是及其危险的 前24次发射中有一次发动机遭到了永久性破坏 根据23次飞行中发生腐蚀或泄漏事故的次数 因变量 及火箭连接处的温度 自变量 数据 进行线性回归得到的回归方程为当温度为310F时 O型项圈发生事故的预计次数为2 225次 结果显示连接处的温度与O型项圈事故之间有一定的相关性 如果当时那些经理们看到了回归的预测结果 也许推迟发射会成为其谨慎的选择 统计的误用与滥用 大约在一个世纪以前 政治家BenjaminDisraeli曾有一个著名的论断 有三类谎言 谎言 糟透的谎言和统计 他还说 图并没有说谎 是说谎者在画图 历史学家AndrewLang说 一些人使用统计 就像喝醉酒的人使用街灯柱 支撑的功能多于照明 统计滥用不好的样本过小的样本误导性图表局部描述故意曲解 案例 1936年美国总统选举的预测 案例 1936年美国总统大选即将举行 人们普遍看好民主党候选人罗斯福 FranklinRoosevelt 而美国颇有名气的杂志 文学摘要 LiteraryDigest 却刊登了相反的结论 共和党候选人兰登 AifLondon 将以 比 战胜罗斯福 此语一出举国哗然 文学摘要 并非想哗众取宠 它的确战绩辉煌 1920年 1924年 1928年和1932年曾连续四次对总统选举作出准确的预测 这次它一如既往 仍然以 电话簿和 汽车主登记表为抽样框 随机抽查了超过 万人次的选民进行调查 因此 文学摘要 极其自信地发表了预言 结果 罗斯福以 比 战胜兰登 文学摘要 杂志自断前程 只得 关门大吉 背景 美国刚刚度过1929 1933年经济大萧条 900万失业工人正翘首以盼新总统带来的就业机会 民主党是中下阶层的党 共和党是中上层阶层的党 经验 抽样框存在偏差时 样本量再多也无济于事 准确全面了解总体 案例 1936年美国总统选举的预测 被增长 因对国家统计局最新公布的居民收入增长数据表示不解 2009年7月29日 一位叫 夏余才 的网友在某大网站的博客上 发明了一个 被增长 的新词 所谓 被增长 也就是说实际没有增长 但在统计数据中却增长了 使我们都被统计数字 幸福 地笼罩着 这一感受得到了绝大多数人们的赞同 同时也得到了央行最新城镇储户问卷调查结果的印证 被就业 1 被就业 2 统计的误用与滥用 统计应用上的两个极端不用或几乎不用统计简单问题复杂化在统计应用中 这两个极端都是不可取的简单的方法不一定没用 复杂的方法也不一定有用 正如有的学者所说的 最简单的模型往往是最有用的统计应该恰当地应用到它能起作用的地方 不能把统计神秘化 更不能歪曲统计 把统计作为掩盖实事的陷阱 1 2怎样获得统计数据1 2 1变量与数据1 2 2数据的来源 第1章统计和统计数据 1 2 1变量与数据 1 2怎样获得统计数据 变量与数据 变量 variable 从一次观察到下一次观察会出现不同结果的某种特征观察一个企业的销售额 这个月和上个月有所不同 观察股票市场上涨股票的家数 今天与昨天数量不一样 观察一个班学生的生活费支出 一个人和另一个人不一样 投掷一枚骰子观察其出现的点数 这次投掷的结果和下一次也不一样 企业销售额 上涨股票的家数 生活费支出 投掷一枚骰子出现的点数 等就是变量数据 data 观察到的变量的结果 变量与数据 定量变量 quantitativevariable 或数值变量 metricvariable 可以用阿拉伯数据来记录其观察结果如 企业销售额 上涨股票的家数 生活费支出 投掷一枚骰子出现的点数 定量变量的观察结果称为定量数据或数值型数据 metricdata 分类变量 categoricalvariable 表现为不同的类别如 性别 企业所属的行业 学生所在的学院 等分类变量的观察结果就是分类数据 categoricaldata 顺序变量 rankvariable 或有序分类变量具有一定顺序的类别变量如考试成绩按等级 一个人对事物的态度顺序变量的观察结果就是顺序数据或有序分类数据 rankdata 分类变量和顺序变量统称为定性变量 qualitativevariable 1 2 2数据的来源 1 2怎样获得统计数据 数据的来源 寻找二手数据抽取样本总体 population 包含所研究的全部个体 数据 的集合样本 sample 从总体中抽取的部分元素的集合样本量 samplesize 构成样本的元素的数目概率抽样方法 2008年8月 抽样方法 概率抽样 probabilitysampling 根据一个已知的概率来抽取样本单位 也称随机抽样特点按一定的概率以随机原则抽取样本抽取样本时使每个单位都有一定的机会被抽中每个单位被抽中的概率是已知的 或是可以计算出来的当用样本对总体目标量进行估计时 要考虑到每个样本单位被抽中的概率 简单随机抽样 simplerandomsampling 从总体N个单位 元素 中随机地抽取n个单位作为样本 使得总体中每一个元素都有相同的机会 概率 被抽中抽取元素的具体方法有重复抽样和不重复抽样特点简单 直观 在抽样框完整时 可直接从中抽取样本用样本统计量对目标量进行估计比较方便局限性当N很大时 不易构造抽样框抽出的单位很分散 给实施调查增加了困难没有利用其他辅助信息以提高估计的效率 简单随机样本 simplerandomsample 由简单随机抽样形成的样本从总体N个单位中随机地抽取n个单位作为样本 使得每一个容量为n样本都有相同的机会 概率 被抽中参数估计和假设检验所依据的主要是简单随机样本 分层抽样 stratifiedsampling 将总体单位按某种特征或某种规则划分为不同的层 然后从不同的层中独立 随机地抽取样本优点保证样本的结构与总体的结构比较相近 从而提高估计的精度组织实施调查方便既可以对总体参数进行估计 也可以对各层的目标量进行估计 系统抽样 systematicsampling 将总体中的所有

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论