《统计和统计数据》PPT课件.ppt_第1页
《统计和统计数据》PPT课件.ppt_第2页
《统计和统计数据》PPT课件.ppt_第3页
《统计和统计数据》PPT课件.ppt_第4页
《统计和统计数据》PPT课件.ppt_第5页
已阅读5页,还剩38页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据分析 (方法与案例),2008年8月,统计思维总有一天会像读与写一样成为一个有效率公民的必备能力。 H. G. Wells,统计名言,第 1 章 统计和统计数据,1.1 统计及其应用领域 1.2 怎样获得统计数据?,2008年8月,学习目标,统计学的含义 统计学的研究内容 统计的应用领域 统计数据的类型 获得统计数据的途径,2008年8月,你相信这样的一些统计结论吗?,吸烟对健康是有害的,吸香烟的男性减少寿命2250天 不结婚的男性会减少寿命3500天,不结婚的女性会减少寿命1600天 身体超重30%会使寿命减少1300天 每天摄取500毫升维生素C,生命可延长6年 身材高的父亲,其子女的身高也较高 二个出生的子女没有第一个聪明,第三个出生的子女没有第二个聪明,依此类推 学生们在听了莫扎特钢琴曲10分钟后的推理测试会比他们听10分钟娱乐磁带或其他曲目做得更好 上课坐在前面的学生平均考试分数比坐在后面的学生高,2008年8月,不同原因引起的寿命损失,2008年8月,理解统计学对大众的必要性, 与其他任何科学领域相比,社会公众对统计学的理解是极为重要的(C.R.Rao) 在外出旅游时,需要关心一段时间内的详细天气预报 在投资股票时,需要了解股票市场价格的信息,了解某只特定股票的有关财务信息 如果你关心足球世界杯,在有关媒体上,可以看到详细的报道 如果你关心宏观经济形式,在有关媒体上可以看到有关报道,2008年8月,政治家或制定政策的人 理解统计学更重要,政策制定者在作出决策时希望寻求技术指导,但他们自己在了 解和解释信息时所需的专业技术知识却不足 在政府或工业部门中工作的统计学者们常常与他们的上司产生语言上的障碍。一个统计办公室的主管也是一个行政事务官,一次与一些统计学者开会,统计学者抱怨从其他部门收到的一些估计值没有给出标准误差(估计时的误差大小,表示估计的精度),这个主管马上问道:“对误差也有标准吗?” 一个统计顾问提交给茶叶委员会的报告中,含有标题为“饮茶人数的估计值(含标准误差)”的附表。不久,一封信被送到这个统计学者手中,问道什么是人们喝红茶时的“标准误差” 皇家委员会审查一份统计报告,报告中提到中产阶级家庭平均有2.2个子女,委员会评述说:“每一个成人女性有2.2个子女的数字是荒谬的。这是为了要求对中产阶级提供财政援助以便通过四舍五入被平均值提高到一个更合适的整数,2008年8月,政治家或制定政策的人 理解统计学更重要,政策制定者在作出决策时希望寻求技术指导, 但他们自己在了解和解释信息时所需的专业技 术知识却不足 健康大臣对一个统计学者的报告中提到的去年由于某种疾病,平均1000中死亡人数为3.2这个数字发生了兴趣。他问他的私人秘书,3.2个人是如何死法?他的秘书说:“先生,当一个统计学家说死了3.2个人时,意味着3个人已经死了,两个人正要死”,1.1 统计及其应用领域 1.1.1 统计学研究什么? 1.1.2 统计的应用,第 1 章 统计和统计数据,1.1.1 统计学研究什么?,1.1 统计及其应用领域,2008年8月,什么是统计学? (statistics),1. 收集数据:取得数据 2. 处理数据:图表展示 分析数据:利用统计方法分析数据 数据解释:结果的说明 得到结论:从数据分析中得出客观结论,收集、处理、分析、解释数据并从数据中得出结论的科学,2008年8月,统计方法,2008年8月,描述统计 (descriptive statistics),研究数据收集、整理和描述的统计学方法 内容 搜集数据 整理数据 展示数据 描述性分析 目的 描述数据特征 找出数据的基本规律,2008年8月,推断统计 (inferential statistics),研究如何利用样本数据来推断总体特征的统计学方法 内容 参数估计 假设检验 目的 对总体特征作出推断,2008年8月,统计学研究什么?,物理学研究的是如热、光、电、运动规律那样的自然现象 化学家测定物质的组成及化学元素之间的交互作用 生物学家研究植物和动物的生活 数学家则在给出的假定之下沉溺于他自己推演各种命题的游戏 这些学科中的每一门都有它自己的问题,而且有解决这些问题的各自的方法,各学科为此而成为一门单独的学科,2008年8月,统计学研究什么?,统计学没有任何固定的对象,是一门独特的学问 统计学研究的是来自各领域的数据,由解决其他领域内的问题而存在并兴旺发达。按萨维奇(L.J.Savage)的说法: 统计学基本上是寄生的。靠研究其他领域内的工作而生存。这不是对统计学的轻视,这是因为对很多寄主来说,如果没有寄生虫就会死。对有的动物来说,如果没有寄生虫就不能消化它们的食物。因此,人类奋斗的很多领域,如果没有统计学,虽然不会死亡,但一定会变得很弱,2008年8月,统计学研究什么?,统计学是一门科学 统计学提供一套方法和技术,这些方法和技术不能用于固定模式,使用者在给定的情况下必须根据所掌握的专门知识选择使用的方法,而且,如果需要还要进行必要的修正 统计方法是通用的数据分析方法。这些方法不是为某个特定的问题领域而构造的 统计学是一种技术 如同工业生产过程中的质量控制程序一样,统计方法是为保证产品达到所希望的质量和保持其稳定性的的管理系统中建立起来的 统计方法也能用于控制、减少和考察不确定性 统计学是一门艺术 作为归纳推理的统计方法不是没有争议的。不同的人对同一组数据的分析可能得到不同的结论 一本印度小说红色城堡(The Red Fort)说:使用数字讲故事取决于统计学家的技巧和他们的经验。在这个意义下,统计学也是一门艺术,2008年8月,统计是一种思维方式,统计思维总有一天会像读与写一样成为一个有效率公民的必备能力(H.G.Wells) 在终极的分析中,一切知识都是历史;在抽象的意义下,一切科学都是数学;在理性的基础上,所有的判断都是统计学(C.R.Rao),1.1.2 统计的应用,1.1 统计及其应用领域,2008年8月,统计的应用领域,【例1.1】用统计识别作者 17871788年,三位作者Alexander Hamilton,John Jay和James Madison为了说服纽约人认可宪法,匿名发表了著名的85篇论文。这些论文中的大多数作者已经得到了识别,但是,其中的12篇论文的作者身份引起了争议 通过对不同单词的频数进行统计分析,得出的结论是,James Madison最有可能是这12篇论文的作者。现在,对于这些存在争议的论文,认为James Madison是原创作者的说法占主导地位,而且几乎可以肯定这种说法是正确,2008年8月,统计的应用领域,【例1.2】用简单的描述统计量得到一个重要发现 费舍(RAFisher)在1952的一篇文章中举了一个例子,说明如何由基本的描述统计量的知识引出一个重要的发现。20世纪早期,哥本哈根卡尔堡实验室的施密特(J.Schmidt)发现不同地区所捕获的同种鱼类的脊椎骨和鳃线的数量有很大不同;甚至在同一海湾内不同地点所捕获的同种鱼类,也发现这样的倾向 然而,鳗鱼的脊椎骨的数量变化不大。施密特从欧洲各地、冰岛、亚速尔群岛以及尼罗河等几乎分离的海域里所捕获的鳗鱼的样本中,计算发现了几乎一样的均值和标准偏差值。由此,施密特推断所有各个不同海域内的鳗鱼是由海洋中某公共场所繁殖的。后来名为“戴纳(Dana)”的科学考察船在一次远征中发现了这个场所,2008年8月,统计的应用领域,【例1.3】挑战者号航天飞机失事预测 1986年1月28日清晨,载有7名宇航员的挑战者号进入发射状态。就在发射前,有冰片牢附在机壳上。几分钟后,正当电视新闻报道它已进入轨道时,航天飞机在毁灭性的爆炸声中化成碎片,机上的宇航员片骨未存 推动航天飞机进入太空的两个固体燃料发动机是由Thiokol公司制造的。失事前一天晚上,Thiokol公司的经理们和国家航空航天局就如期发射还是推迟发射产生了争执。天气预报发射时的气温为310F。争执的结果采纳了Thiokol公司经理们的建议:按计划发射航天飞机。因为他们觉得没有确凿证据表明低温会对固体燃料火箭推进器的性能产生影响,2008年8月,统计的应用领域,【例1.3】挑战者号航天飞机失事预测 在此次失事前,该航天飞机24次发射成功。将航天飞机送入太空的两个固体燃料推进器由6只O型项圈密封。在几次飞行中,曾发生过O型项圈被腐蚀或气体泄漏事故。这样的事故是及其危险的。前24次发射中有一次发动机遭到了永久性破坏。根据23次飞行中发生腐蚀或泄漏事故的次数(因变量)及火箭连接处的温度(自变量)数据,进行线性回归得到的回归方程为 当温度为310F时,O型项圈发生事故的预计次数为2.225次。结果显示连接处的温度与O型项圈事故之间有一定的相关性。如果当时那些经理们看到了回归的预测结果,也许推迟发射会成为其谨慎的选择,2008年8月,统计的应用领域,actuarial work (精算) agriculture (农业) animal science (动物学) anthropology (人类学) archaeology (考古学) auditing (审计学) crystallography (晶体学) demography (人口统计学) dentistry (牙医学) ecology (生态学) econometrics (经济计量学) education (教育学) election forecasting and projection (选举预测和策划) engineering (工程) epidemiology (流行病学) finance (金融) fisheries research (水产渔业研究) gambling (赌博) genetics (遗传学) geography (地理学) geology (地质学) historical research (历史研究) human genetics (人类遗传学),2008年8月,统计的应用领域,hydrology (水文学) industry (工业) linguistics (语言学) literature (文学) manpower planning (劳动力计划) management science (管理科学) marketing (市场营销学) medical diagnosis (医学诊断) meteorology (气象学) military science (军事科学) nuclear material safeguards (核材料安全管理) ophthalmology (眼科学) pharmaceutics (制药学) physics (物理学) political science (政治学) psychology (心理学) psychophysics (心理物理学) quality control (质量控制) religious studies (宗教研究) sociology (社会学) survey sampling (调查抽样) taxonomy (分类学) weather modification (气象改善),2008年8月,统计的误用与滥用,大约在一个世纪以前,政治家Benjamin Disraeli曾有一个著名的论断:“有三类谎言:谎言、糟透的谎言和统计” 。他还说:“图并没有说谎,是说谎者在画图” 历史学家Andrew Lang说,一些人使用统计“就像喝醉酒的人使用街灯柱支撑的功能多于照明” 统计滥用 不好的样本 过小的样本 误导性图表 局部描述 故意曲解,2008年8月,统计的误用与滥用,统计应用上的两个极端 不用或几乎不用统计 简单问题复杂化 在统计应用中,这两个极端都是不可取的 简单的方法不一定没用,复杂的方法也不一定有用。正如有的学者所说的,最简单的模型往往是最有用的 统计应该恰当地应用到它能起作用的地方。不能把统计神秘化,更不能歪曲统计,把统计作为掩盖实事的陷阱,1.2 怎样获得统计数据 1.2.1 变量与数据 1.2.2 数据的来源,第 1 章 统计和统计数据,1.2.1 变量与数据,1.2 怎样获得统计数据,2008年8月,变量与数据,变量(variable) 从一次观察到下一次观察会出现不同结果的某种特征 观察一个企业的销售额,这个月和上个月有所不同;观察股票市场上涨股票的家数,今天与昨天数量不一样;观察一个班学生的生活费支出,一个人和另一个人不一样;投掷一枚骰子观察其出现的点数,这次投掷的结果和下一次也不一样 “企业销售额”、“上涨股票的家数”、“生活费支出”、“投掷一枚骰子出现的点数”等就是变量 数据(data) 观察到的变量的结果,2008年8月,变量与数据,定量变量(quantitative variable)或数值变量(metric variable) 可以用阿拉伯数据来记录其观察结果 如“企业销售额”、“上涨股票的家数”、“生活费支出”、“投掷一枚骰子出现的点数” 定量变量的观察结果称为定量数据或数值型数据(metric data) 分类变量(categorical variable) 表现为不同的类别 如“性别”、“企业所属的行业”、“学生所在的学院” 等 分类变量的观察结果就是分类数据(categorical data) 顺序变量(rank variable)或有序分类变量 具有一定顺序的类别变量 如考试成绩按等级,一个人对事物的态度 顺序变量的观察结果就是顺序数据或有序分类数据(rank data) 分类变量和顺序变量统称为定性变量(qualitative variable),1.2.2 数据的来源,1.2 怎样获得统计数据,2008年8月,数据的来源,寻找二手数据 抽取样本 总体(population):包含所研究的全部个体(数据)的集合 样本(sample):从总体中抽取的一部分元素的集合 样本量(sample size):构成样本的元素的数目 概率抽样方法,2008年8月,概率抽样 (probability sampling),根据一个已知的概率来抽取样本单位,也称随机抽样 特点 按一定的概率以随机原则抽取样本 抽取样本时使每个单位都有一定的机会被抽中 每个单位被抽中的概率是已知的,或是可以计算出来的 当用样本对总体目标量进行估计时,要考虑到每个样本单位被抽中的概率,2008年8月,简单随机抽样 (simple random sampling),从总体N个单位(元素)中随机地抽取n个单位作为样本,使得总体中每一个元素都有相同的机会(概率)被抽中 抽取元素的具体方法有重复抽样和不重复抽样 特点 简单、直观,在抽样框完整时,可直接从中抽取样本 用样本统计量对目标量进行估计比较方便 局限性 当N很大时,不易构造抽样框 抽出的单位很分散,给实施调查增加了困难 没有利用其他辅助信息以提高估计的效率,2008年8月,简单随机样本 (simple random

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论