数据分析(方法与案例)ppt课件_第1页
数据分析(方法与案例)ppt课件_第2页
数据分析(方法与案例)ppt课件_第3页
数据分析(方法与案例)ppt课件_第4页
数据分析(方法与案例)ppt课件_第5页
已阅读5页,还剩52页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

*,云南农业大学经济管理学院授课教师:宁晶Email:jun-332014电话统计学,*,成绩计算,统计学,*,教材:统计学(第五版)教育部经济管理类核心课程教材贾俊平编著中国人民大学出版社参考书目:麦克拉夫商务与经济统计学,詹姆斯麦克拉夫(JamesT.McClave)(作者),乔治本森(P.GeorgeBenson)(作者),特里辛西奇(TerrySincich)(作者),易丹辉(译者),刘超(译者),郭春燕(译者),等(译者),中国人民大学出版社;第1版,统计学,本书图解,*,第一个故事发生在英国,二战前期德国势头很猛,英国从敦刻尔克撤回到本岛,德国每天不定期地对英国狂轰乱,后来英国空军发展起来,双方空战不断。为了能够提高飞机的防护能力,英国的飞机设计师们决定给飞机增加护甲,但是设计师们并不清楚应该在什么地方增加护甲,于是求助于统计学家。统计学家将每架中弹之后仍然安全返航的飞机的中弹部位描绘在一张图上,然后将所有中弹飞机的图都叠放在一起,这样就形成了浓密不同的弹孔分布。工作完成了,然后统计学家很肯定地说没有弹孔的地方就是应该增加护甲的地方,因为这个部位中弹的飞机都没能幸免于难。,两个统计小故事,*,第二个故事与德国坦克有关。我们知道德国的坦克战在二战前期占了很多便宜,直到后来,苏联的坦克才能和德国坦克一拼高下,坦克数量作为德军的主要作战力量的数据是盟军非常希望获得的情报,有很多盟军特工的任务就是窃取德军坦克总量情报。然而根据战后所获得的数据,真正可靠的情报不是来源于盟军特工,而是统计学家。统计学家做了什么事情呢?这和德军制造坦克的惯例有关,德军坦克在出厂之后按生产的先后顺序编号,1,2,N,这是一个十分古板的传统,正是因为这个传统,德军送给了盟军统计学家需要的数据。盟军在战争中缴获了德军的一些坦克并且获取了这些坦克的编号,现在统计学家需要在这些编号的基础上估计N,也就是德军的坦克总量,而这通过一定的统计工具就可以实现。,两个统计小故事,*,统计思维总有一天会像读与写一样成为一个有效率公民的必备能力。H.G.Wells,统计名言,*,假定你是市场部的新任经理,一次广告活动的统计结果摆到了你面前,声称某个结果是“统计显著”的。你如何解释这份报告而又不暴露你对该术语的无知?赶快学点统计,这对你和你的事业都非常有用。GudmundR.Iversen,第1章统计、数据和计算机,1.1统计及其应用领域1.2怎样获得统计数据?1.3统计与计算机,Statistics,*,学习目标,统计学的含义统计学的研究内容统计的应用领域统计数据的类型获得统计数据的途径了解一些常用的统计软件,*,怎样理解这样一些统计结论?,吸烟对健康是有害的,吸香烟的男性减少寿命2250天不结婚的男性会减少寿命3500天,不结婚的女性会减少寿命1600天身体超重30%会使寿命减少1300天每天摄取500毫升维生素C,生命可延长6年身材高的父亲,其子女的身高也较高第二个出生的子女没有第一个聪明,第三个出生的子女没有第二个聪明,依此类推学生们在听了莫扎特钢琴曲10分钟后的推理,要比他们听10分钟娱乐性的其他曲目后的推理做得更好上课坐在前面的学生平均考试分数比坐在后面的学生高漂亮的女性有损男性的智力。男性在看到漂亮女性时智力会下降,这就是为什么大学里的女孩子比男孩子学习好的原因中国科学院空间环境研究预报中心的专家称,在神舟七号载人航天飞行期间,飞船遭遇空间碎片的概率在百万分之一以下,*,理解统计学对大众的必要性,与其他任何科学领域相比,社会公众对统计学的理解是极为重要的(C.R.Rao)在外出旅游时,需要关心一段时间内的详细天气预报在投资股票时,需要了解股票市场价格的信息,了解某只特定股票的有关财务信息如果你关心足球世界杯,在有关媒体上,可以看到详细的报道如果你关心宏观经济形式,在有关媒体上可以看到有关报道,*,政治家或制定政策的人理解统计学更重要,政策制定者在作出决策时希望寻求技术指导,但他们自己在了解和解释信息时所需的专业技术知识却不足在政府或工业部门中工作的统计学者们常常与他们的上司产生语言上的障碍。一个统计办公室的主管也是一个行政事务官,一次与一些统计学者开会,统计学者抱怨从其他部门收到的一些估计值没有给出标准误差(估计时的误差大小,表示估计的精度),这个主管马上问道:“对误差也有标准吗?”一个统计顾问提交给茶叶委员会的报告中,含有标题为“饮茶人数的估计值(含标准误差)”的附表。不久,一封信被送到这个统计学者手中,问道什么是人们喝红茶时的“标准误差”皇家委员会审查一份统计报告,报告中提到中产阶级家庭平均有2.2个子女,委员会评述说:“每一个成人女性有2.2个子女的数字是荒谬的。这是为了要求对中产阶级提供财政援助以便通过四舍五入被平均值提高到一个更合适的整数,*,政治家或制定政策的人理解统计学更重要,政策制定者在作出决策时希望寻求技术指导,但他们自己在了解和解释信息时所需的专业技术知识却不足健康大臣对一个统计学者的报告中提到的去年由于某种疾病,平均1000中死亡人数为3.2这个数字发生了兴趣。他问他的私人秘书,3.2个人是如何死法?他的秘书说:“先生,当一个统计学家说死了3.2个人时,意味着3个人已经死了,两个人正要死”,1.1统计及其应用领域1.1.1统计学研究什么?1.1.2统计的应用,第1章统计、数据和计算机,1.1.1统计学研究什么?,1.1统计及其应用领域,*,什么是统计学?(statistics),1.收集数据:取得数据2.处理数据:图表展示分析数据:利用统计方法分析数据数据解释:结果的说明得到结论:从数据分析中得出客观结论,收集、处理、分析、解释数据并从数据中得出结论的科学,*,统计方法,*,描述统计(descriptivestatistics),研究数据收集、整理和描述的统计学方法内容搜集数据整理数据展示数据描述性分析目的描述数据特征找出数据的基本规律,*,推断统计(inferentialstatistics),研究如何利用样本数据来推断总体特征的统计学方法内容参数估计假设检验目的对总体特征作出推断,*,统计学研究什么?,物理学研究的是如热、光、电、运动规律那样的自然现象化学家测定物质的组成及化学元素之间的交互作用生物学家研究植物和动物的生活数学家则在给出的假定之下沉溺于他自己推演各种命题的游戏这些学科中的每一门都有它自己的问题,而且有解决这些问题的各自的方法,各学科为此而成为一门单独的学科,*,统计学研究什么?,统计学没有任何固定的对象,是一门独特的学问统计学研究的是来自各领域的数据,由解决其他领域内的问题而存在并兴旺发达。按萨维奇(L.J.Savage)的说法:统计学基本上是寄生的。靠研究其他领域内的工作而生存。这不是对统计学的轻视,这是因为对很多寄主来说,如果没有寄生虫就会死。对有的动物来说,如果没有寄生虫就不能消化它们的食物。因此,人类奋斗的很多领域,如果没有统计学,虽然不会死亡,但一定会变得很弱,*,统计学研究什么?,统计学是一门科学统计学提供一套方法和技术,这些方法和技术不能用于固定模式,使用者在给定的情况下必须根据所掌握的专门知识选择使用的方法,而且,如果需要还要进行必要的修正统计方法是通用的数据分析方法。这些方法不是为某个特定的问题领域而构造的统计学是一种技术如同工业生产过程中的质量控制程序一样,统计方法是为保证产品达到所希望的质量和保持其稳定性的的管理系统中建立起来的统计方法也能用于控制、减少和考察不确定性统计学是一门艺术作为归纳推理的统计方法不是没有争议的。不同的人对同一组数据的分析可能得到不同的结论一本印度小说红色城堡(TheRedFort)说:使用数字讲故事取决于统计学家的技巧和他们的经验。在这个意义下,统计学也是一门艺术,*,统计是一种思维方式,统计思维总有一天会像读与写一样成为一个有效率公民的必备能力(H.G.Wells)在终极的分析中,一切知识都是历史;在抽象的意义下,一切科学都是数学;在理性的基础上,所有的判断都是统计学(C.R.Rao),统计方法体系,1.1.2统计的应用,1.1统计及其应用领域,*,统计的应用领域,【例1-1】用统计识别作者17871788年,三位作者AlexanderHamilton,JohnJay和JamesMadison为了说服纽约人认可宪法,匿名发表了著名的85篇论文。这些论文中的大多数作者已经得到了识别,但是,其中的12篇论文的作者身份引起了争议通过对不同单词的频数进行统计分析,得出的结论是,JamesMadison最有可能是这12篇论文的作者。现在,对于这些存在争议的论文,认为JamesMadison是原创作者的说法占主导地位,而且几乎可以肯定这种说法是正确,*,统计的应用领域,【例1-2】用简单的描述统计量得到一个重要发现费舍(RAFisher)在1952的一篇文章中举了一个例子,说明如何由基本的描述统计量的知识引出一个重要的发现。20世纪早期,哥本哈根卡尔堡实验室的施密特(J.Schmidt)发现不同地区所捕获的同种鱼类的脊椎骨和鳃线的数量有很大不同;甚至在同一海湾内不同地点所捕获的同种鱼类,也发现这样的倾向然而,鳗鱼的脊椎骨的数量变化不大。施密特从欧洲各地、冰岛、亚速尔群岛以及尼罗河等几乎分离的海域里所捕获的鳗鱼的样本中,计算发现了几乎一样的均值和标准偏差值。由此,施密特推断所有各个不同海域内的鳗鱼是由海洋中某公共场所繁殖的。后来名为“戴纳(Dana)”的科学考察船在一次远征中发现了这个场所,*,统计的应用领域,【例1-3】挑战者号航天飞机失事预测1986年1月28日清晨,载有7名宇航员的挑战者号进入发射状态。就在发射前,有冰片牢附在机壳上。几分钟后,正当电视新闻报道它已进入轨道时,航天飞机在毁灭性的爆炸声中化成碎片,机上的宇航员片骨未存推动航天飞机进入太空的两个固体燃料发动机是由Thiokol公司制造的。失事前一天晚上,Thiokol公司的经理们和国家航空航天局就如期发射还是推迟发射产生了争执。天气预报发射时的气温为310F。争执的结果采纳了Thiokol公司经理们的建:按计划发射航天飞机。因为他们觉得没有确凿证据表明低温会对固体燃料火箭推进器的性能产生影响,*,统计的应用领域,【例1-3】挑战者号航天飞机失事预测在此次失事前,该航天飞机24次发射成功。将航天飞机送入太空的两个固体燃料推进器由6只O型项圈密封。在几次飞行中,曾发生过O型项圈被腐蚀或气体泄漏事故。这样的事故是及其危险的。前24次发射中有一次发动机遭到了永久性破坏。根据23次飞行中发生腐蚀或泄漏事故的次数(因变量)及火箭连接处的温度(自变量)数据,进行线性回归得到的回归方程为当温度为310F时,O型项圈发生事故的预计次数为2.225次。结果显示连接处的温度与O型项圈事故之间有一定的相关性。如果当时那些经理们看到了回归的预测结果,也许推迟发射会成为其谨慎的选择,*,统计的应用领域,actuarialwork(精算)agriculture(农业)animalscience(动物学)anthropology(人类学)archaeology(考古学)auditing(审计学)crystallography(晶体学)demography(人口统计学)dentistry(牙医学)ecology(生态学)econometrics(经济计量学)education(教育学)electionforecastingandprojection(选举预测和策划)engineering(工程)epidemiology(流行病学)finance(金融)fisheriesresearch(水产渔业研究)gambling(赌博)genetics(遗传学)geography(地理学)geology(地质学)historicalresearch(历史研究)humangenetics(人类遗传学),*,统计的应用领域,hydrology(水文学)industry(工业)linguistics(语言学)literature(文学)manpowerplanning(劳动力计划)managementscience(管理科学)marketing(市场营销学)medicaldiagnosis(医学诊断)meteorology(气象学)militaryscience(军事科学)nuclearmaterialsafeguards(核材料安全管理)ophthalmology(眼科学)pharmaceutics(制药学)physics(物理学)politicalscience(政治学)psychology(心理学)psychophysics(心理物理学)qualitycontrol(质量控制)religiousstudies(宗教研究)sociology(社会学)surveysampling(调查抽样)taxonomy(分类学)weathermodification(气象改善),*,统计的误用与滥用,你也许相信“数字会说话”,小心!数字可能经过加工,目的就是巧妙地误导你的判断。你也许只看统计结果不看过程,小心!任何统计过程中都可能有你意想不到的疏漏。你面前的数据来自有公信力的机关,小心!你觉得完全可信的数据,也可能存在陷阱。,*,统计的误用与滥用,大约在一个世纪以前,政治家BenjaminDisraeli曾有一个著名的论断:“有三类谎言:谎言、糟透的谎言和统计”。他还说:“图并没有说谎,是说谎者在画图”历史学家AndrewLang说,一些人使用统计“就像喝醉酒的人使用街灯柱支撑的功能多于照明”统计滥用不好的样本过小的样本误导性图表局部描述故意曲解,*,统计的误用与滥用,统计应用上的两个极端不用或几乎不用统计简单问题复杂化在统计应用中,这两个极端都是不可取的简单的方法不一定没用,复杂的方法也不一定有用。正如有的学者所说的,最简单的模型往往是最有用的统计应该恰当地应用到它能起作用的地方。不能把统计神秘化,更不能歪曲统计,把统计作为掩盖实事的陷阱,1.2怎样获得统计数据1.2.1变量与数据1.2.2数据的来源,第1章统计、数据和计算机,1.2.1变量与数据,1.2怎样获得统计数据,*,变量与数据,变量(variable)从一次观察到下一次观察会出现不同结果的某种特征观察一个企业的销售额,这个月和上个月有所不同;观察股票市场上涨股票的数量,今天与昨天数量不一样;观察一个班学生的生活费支出,一个人和另一个人不一样;投掷一枚骰子观察其出现的点数,这次投掷的结果和下一次也不一样“企业销售额”、“上涨股票的家数”、“生活费支出”、“投掷一枚骰子出现的点数”等就是变量数据(data)观察到的变量的结果,*,变量与数据,定量变量(quantitativevariable)或数值变量(metricvariable)可以用阿拉伯数据来记录其观察结果如“企业销售额”、“上涨股票的家数”、“生活费支出”、“投掷一枚骰子出现的点数”定量变量的观察结果称为定量数据或数值型数据(metricdata)分类变量(categoricalvariable)表现为不同的类别如“性别”、“企业所属的行业”、“学生所在的学院”等分类变量的观察结果就是分类数据(categoricaldata)顺序变量(rankvariable)或有序分类变量具有一定顺序的类别变量如考试成绩按等级,一个人对事物的态度顺序变量的观察结果就是顺序数据或有序分类数据(rankdata)分类变量和顺序变量统称为定性变量(qualitativevariable),1.2.2数据的来源,1.2怎样获得统计数据,*,数据的来源,寻找二手数据亲自调查,抽取样本总体(population):包含所研究的全部个体(数据)的集合样本(sample):从总体中抽取的一部分元素的集合样本量(samplesize):构成样本的元素的数目,*,概率抽样(probabilitysampling),根据一个已知的概率来抽取样本单位,也称随机抽样特点按一定的概率以随机原则抽取样本抽取样本时使每个单位都有一定的机会被抽中每个单位被抽中的概率是已知的,或是可以计算出来的当用样本对总体目标量进行估计时,要考虑到每个样本单位被抽中的概率,*,简单随机抽样(simplerandomsampling),从总体N个单位(元素)中随机地抽取n个单位作为样本,使得总体中每一个元素都有相同的机会(概率)被抽中抽取元素的具体方法有重复抽样和不重复抽样特点简单、直观,在抽样框完整时,可直接从中抽取样本用样本统计量对目标量进行估计比较方便局限性当N很大时,不易构造抽样框抽出的单位很分散,给实施调查增加了困难没有利用其他辅助信息以提高估计的效率,*,简单随机样本(simplerandomsample),由简单随机抽样形成的样本从总体N个单位中随机地抽取n个单位作为样本,使得每一个容量为n样本都有相同的机会(概率)被抽中参数估计和假设检验所依据的主要是简单随机样本,*,分层抽样(stratifiedsampling),将总体单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本优点保证样本的结构与总体的结构比较相近,从而提高估计的精度组织实施调查方便既可以对总体参数进行估计,也可以对各层的目标量进行估计,*,系统抽样(systematicsampling),将总体中的所有单位(抽样单位)按一定顺序排列,在规定的范围内随机地抽取一个单位作为初始单位,然后按事先规定好的规则确定其他样本单位先从数字1到k之间随机抽取一个数字r作为初始单位,以后依次取r+k,r+2k等单位优点:操作简便,可提高估计的精度缺点:对估计量方差的估计比较困难,*,整群抽样(clustersampling),将总体中若干个单位合并为组(群),抽样时直接抽取群,然后对选中群中的所有单位全部实施调查特点抽样时只需群的抽样框,可简化工作量调查的地点相对集中,节省调查费用,方便调查的实施缺点是估计的精度较差,用计算机生成随机数和简单随机样本,软件应用,生成两个指定数之间的随机数,Excel,抽取简单随机样本,Excel,*,用Excel生成个指定数之间的随机数,生成位于两个指定数之间的一个随机数(RANDBETWEEN函数)第1步:在Excel表格界面中,直接点击【fx】命令第2步:在复选框“函数分类”中点击【全部】选项,并在“函数名”中点击【RANDBETWEEN】选项,然后【确定】第3步:在【Bottom】输入要返回的最小整数(本例为1)在【Top】输入要返回的最大整数(本例为100)单

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论