




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
正确认识数理统计
发展数据分析观念
杨西广
安阳市教育教研室2015.111什么是统计学定义一:统计学是收集、分析、处理、解释数据的一门学科。
《大不列颠百科全书》定义二:统计学是关于数据收集、整理、分析和推断的学科。
第二种定义强调推断,统计推断可以说是统计学的核心内容。这里的推断兼有估计、判断和预测这些词的意义2一、学习统计的必要性二、统计调查三、数据的描述四、数字特征(平均数、中位数、众数、方差、标准差)五、变量的相关性
提纲3一、学习统计的必要性在抽象意义下,一切科学都是数学;在理性的世界里,所有判断都是统计学.
----著名统计学家
C.R.Rao4学者不能离开统计而研究;政治家不能离开统计而施政;企业家不能离开统计而执业.
----马寅初一、学习统计的必要性5
2010年6月3日,第64届联合国大会第90次会议通过决议,将2010年10月20日定为“世界统计日”。一、学习统计的必要性6
一、学习统计的必要性
二战期间,德国军队的豹式坦克属于一种较先进的坦克。盟军非常想知道这种坦克的年产量。当时盟军根据间谍活动收集的情报估计出德国的坦克的数目大约为18000辆.德军真的有那么多的豹式坦克吗?如果是真的,那太可怕了。案例一:德军有多少辆坦克?7一、学习统计的必要性
盟军的科学家不太相信这个数字,它们从统计学的角度来考虑这个问题.为了方便管理,德军的每一辆坦克都有编号,而且编号是从1开始连续编排的,这样,编号就指出了制造的顺序.
于是他们想从缴获坦克的编号来估计德军生产坦克的总数。8一、学习统计的必要性
在我们的问题中,我们考虑的总体是:1号坦克,2号坦克,…….,N号坦克.样本是被缴获的坦克,例如,可设为5号坦克,101号坦克,1783号坦克,……,n号坦克.
在统计学中用样本均值估计总体均值就能得到有效的估计。
估计出的是1942年德军的豹式坦克年生产量约为3400辆,情报部门高估了5倍多。9案例二:超市预知高中生顾客怀孕
明尼苏达州一家塔吉特门店被客户投诉,一位中年男子指控塔吉特将婴儿产品优惠券寄给他的女儿——一个高中生。但没多久他却来电道歉,因为女儿经他逼问后坦承自己真的怀孕了。塔吉特百货就是靠着分析用户所有的购物数据,然后通过相关关系分析得出事情的真实状况。
一、学习统计的必要性
10
在一家超市里,有一个有趣的现象:尿布和啤酒赫然摆在一起出售。
但是这个奇怪的举措却使尿布和啤酒的销量双双增加了。
案例三:啤酒与尿布
一、学习统计的必要性
11变量的相关性
谷歌的流感预测、低价飞机票的预测等等,都来自与数据分析。
马云说,我们还没搞清PC的时候,移动互联网来了,还没搞清移动互联网的时候,大数据时代来了
一、学习统计的必要性
122009年0.5亿元2010年9.36亿元2011年33.6亿元2012年191亿元2013年350.19亿元2014年571亿元2015年912.17亿13淘宝七年交易额
一、学习统计的必要性
14维克托·迈尔·舍恩伯格(英国)这本书具有非常前瞻性的指出了大数据目前为我们生活、思维、工作所带来的改变,大数据时代的开启是一个时代的重要的转型。
一、学习统计的必要性
维克托最具洞见之处在于,他明确指出,大数据时代最大的转变就是,放弃对因果关系的渴求,而取而代之关注相关关系。也就是说只要知道“是什么”,而不需要知道“为什么”。这就颠覆了千百年来人类的思维惯例,对人类的认知和与世界交流的方式提出了全新的挑战。
15
一、学习统计的必要性
《大数据时代》的目录第一部分大数据时代的思维变革第1章更多;不是随机样本,而是所有数据第2章更杂;不是精确性,而是混杂性第3章更好;不是因果关系,而是相关关系16第二部分大数据时代的商业关系第4章数据化:一切皆可“量化”第5章价值:“取之不尽,用之不竭”的数据创新第6章角色定位:数据、技术与思维的三足鼎立17第三部分大数据时代的管理变革第7章风险:让数据主宰一切的隐忧第8章掌控:自由与责任并举的数据管理结语已经发生的未来大数据的核心是预测(流感预测、机票预测、房价预测等)182012年3月22日,奥巴马政府宣布投资2亿美元拉动大数据相关产业发展,将“大数据战略”上升为国家战略。奥巴马政府甚至将大数据定义为“未来的新石油”。麦肯锡全球总裁认为:大数据是一种全新的生产资料,是新财富,其价值堪比石油。
得数据者得天下
一、学习统计的必要性
192001版课标六大核心概念数感、符号感、空间观念、统计观念、应用意识、推理能力
一、学习统计的必要性
202011版课标十个核心概念数感、符号意识、空间观念、
几何直观、数据分析观念、运算能力、推理能力、模型思想、应用意识和创新意识。
一、学习统计的必要性
21此次课标修订,将原“统计观念”改为“数据分析观念”,就是希望改变过去这一概念含义较“泛”,体现统计与概率的本质意义不鲜明的弱点,将数据分析作为该部分内容的核心。义务教育阶段,学生学习统计与概率的核心目标是发展数据分析观念22
一、学习统计的必要性
什么是数据?
数据与数有什么关系呢?
现在的数据不仅仅是数值,图是数据、声音是数据、视频是数据、语句也是数据。比如GOOGLE是用统计的方法来进行语句检索,此时统计处理的是语句。
只要蕴含着一定信息,无论是什么表现形式,就是数据,统计能帮助人们从这些数据中提取出大量的信息。
一、学习统计的必要性
23数据分析观念定位其一:让学生经历收集、整理、分析数据的过程,通过数据分析做出决策和推断,并体会数据中蕴涵着信息。我们不妨把这一要求称为“过程性”要求或“活动性”要求。24
一、学习统计的必要性
数据分析观念定位其二,根据问题的背景选择合适的数据分析方法。这体现了数据分析的“方法性”要求。即数据分析观念的培养要建立在一定方法的掌握上。25
一、学习统计的必要性
其三,通过数据分析体验随机性。这可视为数据分析的体验性要求数据的随机性具有的两层涵义:一方面对于同样的事情每次收集到的数据可能会是不同的;另一方面只要有足够的数据就可能从中发现规律。
数据分析是统计的核心。数据分析观念定位
一、学习统计的必要性
26二、统计调查(收集数据)1、普查2、抽样调查简单随机抽样抽签法随机数法系统抽样分层抽样27普查是最简单的调查方法,但这种调查方法的局限性很大。人们认识到需要在调查中进行抽查,但对抽查的结果的可靠性一开始是有怀疑的。
现在人们已经认识到抽查的重要性了。有时一个精心设计的抽样调查方案,其实施的效果甚至可以胜过普查。如敏感性调查。二、统计调查(收集数据)28总体情况是客观存在的,但是它并不总是能够用明确的一个数字或式子来表达。比如,全世界的人口数。说不出真实值,能够说出近似值也很好。用抽样调查方法,就是在借助理论尽量给出与真实值接近的估计值。二、统计调查(收集数据)让学生相信抽样方法有效292.“当样本容量足够大时,将由几个样本得到的估计值取平均数,该数与总体的真实值非常接近”这一点虽然已经被证明,但教学中仍应经常组织学生经历相关的验证活动,如用样本平均数估计总体平均数。让学生相信抽样方法有效二、统计调查(收集数据)30通过样本了解总体
通过样本了解总体是统计的基本思想,但重新抽样可能得到另一个样本、另一个结果,这是随机性的体现。如果结果变化较大,需要增加样本容量二、统计调查(收集数据)31对样本概念的分析“样本,也称子样,是指从被抽样总体中抽取并要对其进行调查或观察的部分单位所组成的集合体。”“从所研究对象的全体(即总体)中抽出的部分个体叫做总体的一个样本。”
二、统计调查(收集数据)32统计的基本思想是通过调查或观察样本来了解或推断总体的数量特征。因此,样本概念教学应呈现两层含义,一是样本与总体的部分与整体的关系,二是样本对了解总体的意义。两层中的第一层是基本的。对样本概念的分析二、统计调查(收集数据)对样本的要求1.样本容量合适2.有代表性3.随机性、
4.相互独立、5.与总体有相同性质二、统计调查(收集数据)34一次失败的民意调查
在1936年的美国总统选举前,一份颇有名气的杂志(LiteraryDigest
)的工作人员做了一次民意调查。调查兰顿(当时是堪萨斯州州长)和罗斯福(当时的总统)中谁将是下一届总统.
35
为了解选民意向,民意调查专家们根据电话簿和车辆登记簿上的名单给一大批人发了简单的调查表在收回的调查表中,兰顿非常受欢迎。于是该杂志预测兰顿
将赢得选举。但事实上是罗斯福赢得了这次选举候选人预测结果%选举结果%罗斯福4362兰顿573836一次失败的民意调查调查失败的主要原因
(1)方便样本。电话和汽车在1936年并不像现在那样普及,但是这些名单比较容易得到。(2)样本容量小。尽管发出的调查表大约有一千万张,但收回的比例并不高(约240万份)。(3)代表性差。抽样出现了问题。在经济大萧条时期由于电话和汽车并不普及,只是富裕阶层才会拥有,调查有电话和汽车的人们,并不能够反映全体选民的观点。只有当样本可以代表总体时,统计结果才是可信、精确的37广告数据的可靠性1、某减肥广告称,其减肥的有效率为75%.2、某化妆品公司的广告“现代研究证明,99%以上的人感染有螨虫······”.
我们应该考虑(1)数据怎样得到的;(2)总体是什么?样本容量是多少?(3)样本是如何选取的.38(一)简单随机抽样39二、统计调查(收集数据)随机数法40
即利用随机数表、随机数骰子、计算机产生的随机数进行抽取二、统计调查(收集数据)41424344
随机数表又称为乱数表。它是将0~9的10个自然数,按编码位数的要求(如两位一组,三位一组,五位甚至十位一组),利用特制的摇码器(或电子计算机),自动地逐个摇出(或电子计算机生成)一定数目的号码编成表,以备查用。二、统计调查(收集数据)192237367647150454670987097755800095328632948582226900566841735013155297276580891.任一起点顺序抽取。2.整体抽取:如共320人,取10人,需取3位数,大于320则舍去,如:(192),(237),(150),(097)45优点:这个表内任何号码的出现,都有同等的可能性。利用这个表抽取样本时,可以大大简化抽样的繁琐程序。缺点:不适用于总体中个体数目较多的情况二、统计调查(收集数据)(二)、系统抽样47二、统计调查(收集数据)48某校为了了解高一年级学对教师教学的意见,打算从高一年级500名学生汇总抽取50名进行调查。首先将这500名学生从1编号,然后按号码顺序以一定的间隔抽取。由于500/50=10,所以抽取的两个相邻号码之差可定为10,即从1到10中随机抽取一个号码,例如抽到6号,每次增加10,得到6,16,26,36,…,496.这样得到一个容量为50的样本,这种抽样方法是系统抽样。二、统计调查(收集数据)(三)、分层抽样49二、统计调查(收集数据)50
假设某地区有高中生2400人,初中生10900人,小学生11000人。此地区教育部门为了了解本地中小学生的近视情况及形成原因,要从本地区的中小学生抽取1%的学生进行调查。应当怎样抽取样本?由于样本容量与总体中的个体数的比是1:100,因此样本中各部分的个体数应该是抽取高中生24人、109名初中生和110名小学生。近视情况存在明显差异,学生人数相差较大。宜进行分层抽样。三种抽样方法的比较类别共同点各自特点相互联系适用范围简单随机抽样抽样过程中每个个体被抽取的概率相等,都是不放回抽样。从总体中逐个抽取总体中的个体数较少系统抽样将总体均分成几个部分,按事先确定的规则抽在起始部分采用简单随机抽样总体中个体数较多分层抽样将总体分成几层,分层进行抽取在各层抽样时采用简单随机抽样或系统抽样总体有差异明显的几部分组成51敏感性问题调查
要调查你在初中考试中做过弊吗?
可以另外设计一个无关的问题“你出生的月份是偶数吗?”被调查者掷一枚硬币,出现正面回答前一问题,出现反面回答后一问题,具体回答哪个问题,只有他自己知道。52
假如调查1000人,其中280人回答是,由于硬币的均匀性,估计约500人回答前一问题,500人回答后一问题。又出生月份奇偶是等可能的,回答后一问题500人中约250人回答是
从而回答前一问题的500人中约280-250=30人回答是。即约6%的人做过弊。53在调查中设计问题不简单一项意见调查询问人们:“你用计算机吗?”甲回答是,因为她觉得问题问的是“她是否曾用过计算机”。乙回答不,因为他认为问题的意思是“他是否在日常生活使用计算机”。丙回答不,因为他仅仅在计算机上玩游戏,他觉得这不算是“用”。54三、数据的描述《标准(2011年版)》附录2中的例38:“对全班同学身高的数据进行整理和分析条形统计图有利于直观了解不同高度段的学生数及其差异扇形统计图有利于直观了解不同高度段的学生占全班学生的比例及其差异折线统计图有利于直观了解几年来学生身高变化的情况,预测未来身高变化趋势5556三、数据的描述直方图、条形图、扇形图、散点图、茎叶图、盒形图……57三、数据的描述各种统计图的特长不同类数据在数量上的差别不同类数据在总量中所占的份额58三、数据的描述各种统计图的特长数据随时间的变化发展趋势两个变量之间的关联关系59三、数据的描述表达信息有一个体育记者在写一篇评论,他希望在文章旁配一个形象的图给读者留下奥运会男子100米冠军成绩提高得很快的印象,请你帮他设计这张图。6061三、数据的描述62三、数据的描述统计图的误导63
为了比较鸡蛋和鹌鹑蛋中各种维生素B的含量,学生甲用下面两幅直方图比较两种蛋的各种维生素B的含量,你认为合适呢?学生甲的两幅直方图的比较统计图的误导64学生乙的画法65为了使统计图更加美观和直观,丙对于两种蛋中的维生素B6的含量用上图的方式来描述,你认为这样的描述合适吗?误导:夸大差异因为面积比是相似比的平方66当然,还有比拉伸图表更隐蔽的手法。现在我们手上有一组罗坦提亚和美国的木匠平均周收入,如果做成条形图就像下面那样:看得出来,美国木匠的平均收入是罗坦提亚木匠的两倍67统计图的误导三、数据的描述但通常为了视觉效果,它会被做成更形象的卡通图。这其实却暗中改变了人们对这个统计事实的印象6869这就需要我们根据问题的背景和需要选择合适的统计图。从这个意义上说,统计学对结果的判断标准是“好坏”,而不是“对错”。三、数据的描述四、数据的代表
一个故事:某大学新聘来一位数学教授给研究生上课,期末15位学生考试成绩如下:
72,81,90,85,76,90,80,83,78,75,63,73,30,82,9070问:谁的意见对呢?:其实,他们3人是用3种指标来衡量的。
成绩上报后,院长很不满意,说:题目出得太容易,90分的就有3人;但系主任则相反,认为题目出得太难,因为平均分数只有76.5分;该教授则认为他的考题是合适的,因为从总体上看,80分是有代表性的,因为高于80分和低于80分的人数相等,都是7个人。71
数据特征反应数据集中趋势:
平均数、中位数、众数反应数据离散程度:
极差、方差、标准差72
平均数
设样本观测值为,如同那15个考试分数,n=15。则称为这组观测值的(算术)平均数。:如上述考分:(72+81+30+…+82+90)/15=76.5:能把30分从成绩单上剔除吗?
有代表性吗?73平均数的优点和缺点优点:算术平均数是一个良好的集中量数具有反应灵敏、确定严密、简明易解、计算简单、适合进一步演算和较小受抽样变化的影响缺点:算术平均数易受极端数据的影响,这是因为平均数反应灵敏,每个数据的或大或小的变化都会影响到最终结果。如:76.5
低分主要是受一个30分的“拖累”。74最佳近似值
在测量某物理量的过程中,因仪器和观察的误差,使得n次测量分别得到,共n个数据.我们规定所测量物理量的“最佳近似值”a是这样一个量:与其他近似值比较,a与各数据的差的平方和最小。依此规定,从推出a=
取得最小值75
关于中位数:
将,按升序排序(不合并同类)记成:
如n=2m+1,则Md
=ym+12.如n=2m,则Md=(ym+ym+1)/2在一个等差数列或一个正态分布数列中,中位数就等于算术平均数。
76中位数的优缺点优点:大于
Md和小于它的,各占50%(概率),不受极值的影响等(统计学理论还有一些优点)缺点:没有反应总体的整体状况,当样本量较大时,人工排序是不太容易的。缺乏敏感性77
关于众数:众数是指一组数据中出现次数最多的那个数据,一组数据可以有多个众数,也可以没有众数。众数是由英国统计学家卡尔·皮尔逊首先提出来的。男皮鞋号码/厘米销售量/双24.01224.58425.011825.554126.032026.510427.052合计1200如果我们计算算术平均数,则平均号码为25.65厘米,而这个号码显然是没有实际意义的,而直接用25.5厘米作为顾客对男皮鞋所需尺寸的集中趋势既便捷又符合实际
78当数值或被观察者没有明显次序(常发生于非数值性资料)时特别有用,由于可能无法良好定义算术平均数和中位数。例子:{鸡、鸭、鱼、鱼、鸡、鱼}的众数是鱼。众数是销售最常用的,代表最多的792.20C,90年代,联合国《统计月报》公布部分国家男女平均寿命(以下为男性记录)635961626764676767647474737373767368菲巴印越韩巴泰
罗
墨
俄
澳
意
法
英德日
美中:对连续型的观测记录则容易出现
无众数
普鲁士兵团1877~1894年间,士兵被马踢伤致死的人数纪录:0011201230
1040311294939291908988878685848382818079787780众数的优缺点优点:(1)计算简单,意义明确.
(2)众数粗糙,但众数不受个别数据的影响,可在数据缺陷较大或需要快速而粗略地寻求一组数据的代表值时用
缺点:没有反应整体的特性;最大的问题是可以出现多个众数,也可能不出现(观测值皆不同)81823.关于数据波动的度量:
方差:
标准差::A.要求一个常数a,使得以下平方离差最小答:B.要求一个常数
a,使得以下绝对离差最小
答:a=Md中位数82正态分布83标准差的用途一、生产过程中的质量控制图84真实异常值的记录
有人想了解目前我国城市“打工仔”
每日的收入,结果如下(元):
50,30,90,70,20,150,45,100,
60,80,70,35,40,500000问:用平均数能代表现状吗?
854.关于异常值的识别问题:
在考试分数问题时,发现平均数过低是因为出现了一个30分,能认为它无代表性把它剔除吗?
书中有题:调查员工月薪14人如下(千元):
8,6,2.5,1.7,2.5,4.6,4.2,2.5,5.1,
2.5,4.4,2.5,25,12.4问:代表性的月薪是多少?25,12.4是否太高了?
用中位数:Md1=6.3(14个数全用)
Md2=3.35(用12个数)
用平均数::如何判断25,12.4此二数是否异常值?86异常值的识别问题:已超出中学教学范围,以下只介绍2种方法,而且仅为老师备课用的.
原则:如果总体为正态分布,
则落入此区间,将占99%。区间外数据可视为异常值。实用中,用以下公式计算:872.一般分布:用
例如:考试分数可得:
用方法2:而最底端的值为:
30
分在区间内,不应去掉。8889
员工工资问题的上限:
方法1.
方法2.
可见2种方法都将12.4,25.0排除在外,可见此2数不能作为合适的样本加入计算。892.要进行异常值识别,删除“野值”。对学生可能有一定困难。但是:如果数据比较多(20~30以上),看出有点像正态分布,则可用第一种方法鉴别。如果数据比较多(20~30以上),有偏,则可用方法2。如果学生要算中位
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 曲阳烟叶公司管理制度
- 无尘车间规定管理制度
- 核酸采样精准管理制度
- 景区人员安全管理制度
- 天燃气企业消防管理制度
- 培训平台信息化管理制度
- 旅店酒店住宿管理制度
- 智慧校园日常管理制度
- 公司小蜜蜂团队管理制度
- 公司财务部日常管理制度
- 银行定期存单样本
- 商店消防安全检查整改报告范文4篇
- 初中数学课程标准解读与教材分析doc
- 江苏省盐城市2022-2023学年七年级下册生物期中试卷
- GA∕T 1781-2021 公共安全社会视频资源安全联网设备技术要求
- 基本药物和国家基本药物制度
- Photoshop二级考试试题及答案
- 伤口基础知识和湿性愈合理论
- 晶圆封装测试工序和半导体制造工艺流程
- 重力式桥台的计算公式
- 专家共识--缺血性卒中侧支循环评价知识讲解
评论
0/150
提交评论