




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、大数据与统计,李金昌,浙江工商大学,引言作为一门归纳分析的科学,统计可以从亚里士多德的“城邦政治形势”中计算出来,但作为一门数据分析的科学,它应该从配第政治算术中计算出来。300多年来,统计学围绕着如何收集、整理和分析数据这一主线发展,建立了一个庞大、多样、综合的应用方法体系,帮助解决了各领域大量复杂的实际问题。统计学的发展根据数据的类型和问题的性质而变化,这并不是因为我们可以做它背后的数学。不要做它,因为这个问题很难;不要因为困难而停止做这件事。(霍奇斯,1922-2000)饶:统计学的分析形式随着时代的变迁而改变,但统计分析的目的“从数据中提取所有信息”或“归纳和揭示”并没有改变。大数据时
2、代的到来迫使统计站在一个新的起点上。1998年,一篇发表在科学杂志上的关于计算机软件HiQ的文章首次正式使用了大数据这个词。2008年9月,自然杂志出版了大数据特刊。近年来,关于大数据的文献迅速增加,但大多来自计算机领域的学者,很少有基于统计视角的深入学术讨论。首先,对大数据的理解,即与大数据概念相关的最早学科:天文学、气象学和遗传学,从一开始就依赖于海量数据分析方法。然而,在现代意义上,大数据可以说是计算机和互联网结合的产物,前者实现了数据的数字化,后者实现了数据的网络化。大数据的初衷是所涉及的数据量如此之大,以至于无法通过当前的主流软件工具捕获、管理、处理和分类成能够帮助企业在合理的时间内
3、做出更积极的业务决策的信息。4V特性:体积、速度、多样性和价值。大数据自古就存在?人类进行的人口普查和工业普查等数据是大数据吗?在计算机技术和网络全面发展之前,人们很难想到大数据的概念。从统计学的角度来看,大数据不是以手工设计为主的有限的、固定的、不连续的、不可扩展的结构数据,而是基于现代信息技术和工具自动记录、存储和不断扩展的各类数据,大大超过了传统的统计记录和存储能力。最大的特点是基于数字化的数字化。在某种程度上,大数据不是一个严格的概念,而是一个比喻性的名称。(1)如何理解大数据的“大”和“全部”的含义,即大数据就是全部数据,数据量必须达到一定的规模。第二,“可伸缩性”的含义是,大数据是
4、其容量可以持续扩展的数据,任何数据一旦发生都可以被记录和吸收。第三是“待挖掘”的含义,即大数据是待挖掘的数据。大数据可能包含丰富而有价值的信息,但被大量数据隐藏和分散,导致低价值密度,只有通过挖掘才能发现。(2)如何理解大数据的“数据”历史告诉我们,数据的含义随着人类理解社会和自然现象的视野的改变以及认知能力和技术水平的提高而改变,经历了从传统的操作数据到现代数字数据的变化过程。将所有信息都视为数据是当今社会的一个特征,也是自然进化的结果。大数据中的数据实际上是可以通过数字手段记录的所有信息。除了结构化数据和非结构化数据的分类之外,大数据还可以分类如下:从大数据生成的方式或渠道来看,大数据可以
5、分为社交网络数据、人机交互数据和归纳数据(机器数据)。从功能的角度来看,大数据可以分为事务数据、过程数据和交互数据。必须指出的是,网络数据在大数据中扮演着特殊的角色,可以分为三类:自媒体数据、日志数据和富媒体数据。从时间维度来看,网络大数据也可以分为以用户数据和日志数据为代表的历史数据,以及以视频监控数据和流媒体数据为代表的流媒体数据,其中历史数据包含了大量有价值的信息。根据数据的分类,也有两种类型的数据库:关系数据库(SQL接口)和非关系数据库(NOSQL接口)。(3)大数据是好数据吗?首先,大数据不会自动产生好的分析结果,也不会自动呈现隐藏的秘密。如果数据不完整、选择不当或损坏,就会产生错
6、误的结论。其次,大数据是动态的,具有阶段性特征。相同的相关词在不同的时期可能有不同的含义,围绕相关词的话题会随着时间的推移而偏离,导致结论的偏颇。第三,对于我们关心的研究课题,我们可能会被许多无意义的、实际的内容甚至错误的信息所干扰,所以我们不能从一堆数据开始,大数据成为一个大难题甚至是一个大错误。第四,大数据中存在许多小数据问题,这些问题不会随着数据的增加而消失,反而会变得更加严重。(1)数据变化回顾历史,我们可以发现数据变化与统计分析方法的发展高度一致。有一种观点认为,数据变化的过程可以分为三个阶段:数据的生成、科学数据的形成和大数据的诞生。数据生成:数字的生成基于以下三个要素:数字、数量
7、和计量单位。数字源于人类祖先对“多”或“少”的理解,阿拉伯数字的产生实现了数字的抽象性和可计算性。在数的概念和数的基本逻辑关系形成后,人们把数的奥秘作为探索和研究的目标之一,不断建立起一个更加完整和抽象的数系统。在数字的基础上,测量、衡量和比较事物有一种精确的表达语言,在实践中表现为数量。它是客观事物反映差异程度的一种属性,是事物可以用数字表示的规定,包括尺度、关系、变化、界限和数量规律。在用数字表达事物的特征并采用科学的计量单位后,就产生了具有真实数据的数字。科学数据的形成:科学数据的形成得益于数据的科学研究,数据是基于科学设计,在科学研究过程中通过有针对性的观察和测量获得的,用于认识自然现
8、象和社会现象的变化规律或验证现有的理论假设。哲学家培根倡导的“实验观察-归纳分析”方法和笛卡尔倡导的数学演绎方法将数据的使用提升到科学方法论的地位,使数据成为科学研究的基本要素,使如何科学地收集数据成为一个研究课题。现代科学将数据融入自然科学研究范式的实践不仅提高了人类对事物理解的准确性,更重要的是,其逐渐形成的数学思维和方程表达式解决了不同物理量之间的数值关系表达问题,从而为相关事物之间开展定量研究提供了一种途径。17世纪的自然哲学家开普勒利用第谷的大量天文观测数据,推导出行星运动的三个定律;伽利略对地球表面物体运动的数据测量建立了自由落体运动定律;牛顿利用大量天文观测数据和实验测量数据建立
9、了牛顿力学体系。科学数据因其共享性和准确性而成为科学研究的通用语言。自然科学在科学地研究数据的同时,社会科学也在科学范式中研究数据,发现一般人、恩格尔系数和基尼系数等规律。就统计学而言,它的产生和发展过程就是研究科学数据的过程,每一种统计分析方法都是在科学数据的科学研究基础上形成的。大数据的诞生:自20世纪中期以来,生物基因测序研究所积累的大量数据在如何理解和处理方面面临着新的挑战。同样的问题逐渐扩散到各个学科,包括天文学、基本粒子、气象学和社会学。1966年,国际科学和技术数据委员会成立,以促进全球科学和技术数据的共享。面对海量数据和快速增长的数据,人们开始重新审视和定义数据。如果说计算机技
10、术的快速发展是产生大数据的基本因素,那么人类数据观念的深化、对数据多样性的追求和信息的不可获取性则是产生大数据的内在因素。以非结构化数据为主体的大数据正在改变着一切,以大数据为研究对象,通过挖掘和提取来探索现象内在规律的学科数据科学应运而生。概要:在数据生成之初,它的基本功能是反映事物或现象的大小或数量,便于计数和比较。大多数数据是自然获得和被动利用的;科学数据是为了研究和管理的目的,通常是积极获得和利用的;大数据的特征是丰富的数据资源和对数据的主动访问的结合,以及数据类型的多样性。当然,数据的演变是一个渐进的过程,它不是简单的形式取代另一种形式,而是一个从简单到复杂的各种形式相互包容、不断丰
11、富的过程。(二)统计分析方法的发展如果数据是表达事物特征的准确语言,是认识世界的重要工具,是治理国家的必要基础和科学研究的必要条件,那么数据分析是数据充分表达、功能最大化和有效满足不同需求的根本要求。在科学数据研究的基础上形成的一般方法是统计方法。纵观统计发展的历史,统计数据一般都经历了这样一个过程:只能收集到少量的数据,而且可以收集到尽可能多的数据。样本数据的科学使用、各类数据的综合利用和大数据的选择经历了不同的阶段。观测法、统计分组法、综合指数法、归纳推理法、模型方程法和数据挖掘法等大量的分析方法也相应产生,计算机及其软件的使用程度越来越深。佩蒂的政治算术和格兰特的自然观察和死亡表上的政治
12、观察开创了社会和经济现象数据分析的先例。然而,他们可以使用的数据资源非常有限,只能被视为原始数据,而不是真正意义上的科学数据。他们的分析方法现在看起来很简单,但在当时却非常引人注目,而且数据加方法的思想至今仍有影响,特别是他们所倡导的群体观察法和统计分组法已经成为统计学最基本的研究方法。特别是,Grante通过不完全但充分的注册数据初步发现了大数定律,提出了数据简化的概念,通过计算方法创建了生命表,讨论了数据的可信度,并提出了人口的计算公式。没有数据和方法相结合的“形状”,就不可能产生统计“学习”。随着数据分析的重要性和大量观测方法的影响,人们开始收集尽可能多的数据,包括登记数据、普查数据、测
13、量数据、实验数据和观测数据。统计学也进入了科学数据研究阶段。社会和经济领域的数据通常是登记数据和调查数据。为了科学地展示数据的意义,实现数据表达与现象内涵的统一,出现了一种用统计指标表达数据特征的方法统计指标法。随着劳动分工的细化和记录数据的增加,在社会和经济领域出现了一批又一批相关数据,以及从特别调查(如人口调查、工业调查等)中获得的数据。),逐渐产生了利用统计指标体系进行综合分析的各种方法,如综合评价法、主成分分析法、聚类评价法等。为了定量地找出经济运行过程中各个部门和环节之间的关系,人们研究并发明了投入产出分析法。为了科学地计算经济活动的结果,掌握经济总量的构成和去向,国民经济核算方法是
14、在经济原理和科学指标的基础上产生和发展起来的。为了掌握价格的综合变化,反映复杂现象的发展方向,产生了综合指数分析法。为了掌握社会经济现象的变化规律,预测未来的发展趋势,产生了时间序列分析法。基于实验数据,统计学产生了概率论、分布理论、回归分析方法、小样本分布理论和假设检验方法。众所周知,在14世纪,以骰子为工具的赌博在欧洲非常流行。围绕骰子的可能情况和赌博书籍的分布,以及拿球和扔硬币的实验,帕斯卡、费马、惠更斯、伯努利、德谟克利特等人共同研究和建立了概率论,发明了大数定律,发现了二项式分布和超几何分布,为正态分布理论的建立奠定了基础。随着概率论引入统计学,它有助于解决许多比赌博更复杂的实际问题
15、,如人口估计、人寿保险、生命表编制、产品质量控制等。同样,高尔顿通过遗传学实验数据(甜豆种植实验数据)和抽样观测数据(亲子高度观测数据)发现了回归现象,发明了广泛应用于各个领域的回归分析方法,提出了相关系数(相关指数)的初步概念,为模型方程法奠定了基础,极大地提高了人们进行统计分析的能力。戈斯特利用酿酒公司仅有的小样本实验数据,发明了著名的小样本“T”分布理论,推动了推断统计方法的发展。根据妇女人工品茶的实验数据和达尔文关于施肥方法对作物高度影响的实验数据,费希尔构建了假设检验的基本方法,并得到了广泛应用。根据观测数据,统计产生误差正态分布和最小二乘法。研究天文观测数据形成的误差正态分布和最小
16、二乘法在统计学中起着重要作用。开普勒的观测数据,继伽利略、辛普森、拉普拉斯等人之后,终于从高斯推导出著名的误差正态分布。凯特勒等统计学家将拉普拉斯中心极限定理和高斯误差正态理论应用于社会数据的时间研究,使得正态分布的应用一度流行。在误差理论的基础上,高斯、勒让德等人发现了最小二乘法,这种方法很快从天文学和大地测量学的数据研究和应用扩展到其他领域,特别是当与回归分析相结合时,它成为最常用的统计分析方法,并且仍然是主流。皮尔逊对生物观测数据的研究形成了皮尔逊分布族,提出了参数估计矩方法,发展了相关分析方法。数据采集需要输入,有些数据很难得到全部数据。人们自然会想:我们能不能先了解总体特征,然后通过
17、总体中某些个体的数据进行统计分析?随着概率论、中心极限定理和正态分布理论的出现和发展,这一愿望成为可能。经过拉普拉斯、凯尔、马哈拉诺比斯、波利、菲舍尔、尼曼等人的抽样实践和理论探索,随机抽样理论在20世纪迅速发展,并产生了各种具体的抽样方法。基于样本数据的归纳推理方法,包括参数估计和假设检验100年来,用抽样方法获得的数据得到了充分肯定。如今,人类已经进入了一个智能时代,并且出现了新的数据生成方式:电子的、数字的、多样化的、可存储的、可扩展的和兼容的大数据。这是一种基于科学技术的完全不同的数据,具有科学数据的特征,超越了科学数据。2007年,已故图灵奖获得者吉姆格雷在题为科学研究的第四种范式:密集数据挖掘的演讲中提到,几千年来科学的历史演变形成了四种关键的科学范式,第四种是近年来出现的数据挖掘或电子科学范式。显然,从第二种研究范式来看,我们都依赖于数据研究。新的研究范式需要新的数据研究方法,这对统计学来说既是机遇也是挑战。概要:以前,我们手中的数据量相对不足。对数据的研究是“从
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 绿色环保产业2025年资金申请政策实施效果创新报告
- 企业部门设置管理办法
- 2025年成人教育线上学习模式创新对学习者学习体验的优化策略
- 口才班自我介绍课件视频
- 企业安全存粮管理办法
- 人事行政考试管理办法
- 保险综合柜员管理办法
- 二手厂房管理办法细则
- 企业公开制度管理办法
- 企业年薪考核管理办法
- GB/T 9258.1-2000涂附磨具用磨料粒度分析第1部分:粒度组成
- GB/T 3304-1991中国各民族名称的罗马字母拼写法和代码
- GB/T 28733-2012固体生物质燃料全水分测定方法
- GB/T 1226-2017一般压力表
- GA 1517-2018金银珠宝营业场所安全防范要求
- 部编版二年级下册语文期末考试试卷质量分析
- 《铁路技术管理规程》(普速铁路部分)-14年新版
- 信息系统实施前现状和需求调研计划提纲共享
- 华北理工大学生物药剂学与药物动力学教案
- 太平人寿保险有限公司个人寿险业务人员管理办法XXXX版
- 湖北水文工程单元施工质量评定表印
评论
0/150
提交评论