大数据与统计学_第1页
大数据与统计学_第2页
大数据与统计学_第3页
大数据与统计学_第4页
大数据与统计学_第5页
已阅读5页,还剩46页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据与统计学浙江工商大学李金昌引言

作为归纳分析的科学,统计学可以从亚里士多德的“城邦政情”算起,但作为一门数据分析的科学则应从配第的《政治算术》算起。

300多年来,统计学围绕如何收集、整理和分析数据这一主线而发展,构建起了庞大、多元、融合的应用方法体系,帮助解决了各个领域大量复杂的现实问题。统计学的发展,是根据数据的型态和问题的本质来改变的,不是因为我们会做他背后的数学而发展的。不要因为(统计的)问题困难而去做它;也不要因为它难而不做。(贺吉士J.L.Hodges,1922-2000)

R.C.Rao:统计的分析形式随时代的推移而变化着,但是“从数据中提取一切信息”或者“归纳和揭示”作为统计分析的目的却一直没有改变。大数据时代的来临,迫使统计学站在一个新的起点上。

1998年,《科学》杂志刊登的一篇介绍计算机软件HiQ的文章《大数据的处理程序》中第一次正式使用了大数据(bigdata)一词。2008年9月《自然》杂志出版“bigdata”专刊。最近几年,关于大数据的文献迅速增加,但绝大多数出于计算机领域的学者之手,较少有基于统计学视角的深度学术讨论。一、对大数据的认识

最早与大数据概念有关的学科:天文学、气象学和基因学,一开始就依赖于海量数据分析方法。但从现代意义上看,大数据可以说是计算机与互联网相结合的产物,前者实现了数据的数字化,后者实现了数据的网络化。大数据的本意是,所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。

4V特点:Volume、Velocity、Variety、Value。大数据自古有之?人类曾经开展过的人口普查、产业普查等数据,是否属于大数据?在计算机技术与网络化未得到充分发展以前,人们自然难以联想出大数据这个概念。从统计学的角度看,大数据不是主要基于人工设计而获得有限、固定、不连续、不可扩充的结构型数据,而是主要基于现代信息技术与工具自动记录、储存、能连续扩充、大大超出传统统计记录与储存能力的一切类型的数据,最大特征是数字化基础上的数据化。一定程度上看,大数据并不是一个严格的概念,而是一个比喻式的称呼。(一)如何理解大数据的“大”一是“全体”的意思,即大数据就是全体数据,并且数据量必须达到一定的规模。二是“可扩充”的意思,即大数据就是可以不断扩充容量的数据,任何数据一旦发生就可以被记录、被吸收。三是“有待挖掘”的意思,即大数据就是有待挖掘的数据。大数据可能包含着丰富的、具有大价值的信息,但被超大量的数据所掩盖、所分散而导致价值密度低,只有挖掘才能发现。(二)如何理解大数据的“数据”历史告诉我们,数据的含义是随着人类认识社会与自然现象的视野的变化、以及认识能力与技术水平的提升而改变的,经历了从传统运算型数据到现代数字化数据的变化过程。把一切信息都看成数据是当今社会的一个特征,是一个自然进化的结果。大数据中的数据其实就是一切可以通过数字化手段记录的信息。大数据除了结构型数据与非结构型数据的分类外,还可作以下分类:如果从大数据产生的途径或渠道来看,大数据可以分为社交网络数据、人机交换数据和感应数据(机器数据)。如果从功能上看,大数据可以分为交易型数据、流程型数据和交互型数据。需要特别指出的是,网络数据在大数据中占有特殊的份量,又可分为自媒体数据、日志数据和富媒体数据三类。从时间维度上,还可以把网络大数据分为以用户数据、日志数据为代表的历史数据,以及以视频监控数据和流媒体数据等为代表的流式数据,其中历史数据蕴含着大量有价值的信息。基于数据的分类,储存数据与管理的方式——数据库也有两种类型:关系型数据库(SQL接口)和非关系型数据库(NOSQL接口)。(三)大数据是不是好数据?首先,大数据不会自动产生好的分析结果,不会自动把隐藏其中的秘密呈现出来,如果数据不完整、取舍不当或遭受破坏,那么就会产生错误的结论。其次,大数据是动态的,具有阶段性特征,同样的关联词在不同时段可能具有不同的含义,围绕关联词的话题会随着时间的推移而会发生某些偏离,从而导致有偏的结论。第三,对于我们所关心的研究主题,可能会受到大量没有实际意义、实际内容甚至虚假信息的干扰,让我们面对一堆数据无从下手,大数据变成了大迷惑,甚至变成了大错误。第四,大数据中有很多小数据问题,这些问题并不会随着数据的增加而消失,反而可能更严重。二、数据的变化与统计分析方法的发展(一)数据的变化回顾历史可以发现,数据的变化与统计分析方法的发展呈现高度吻合的关系。有一种观点认为,数据的变化过程可以分为三大阶段:数据的产生、科学数据的形成和大数据的诞生。数据据的的产产生生::数的的产产生生基基于于以以下下三三个个要要素素,,一一是是数数,,二二是是量量,,三三是是计计量量单单位位。。数起起源源于于人人类类祖祖先先对对“多”或“少”的认认识识,,阿阿拉拉伯伯数数字字的的产产生生实实现现了了数数的的抽抽象象性性和和可可计计算算性性。。数的的概概念念及及数数的的基基本本逻逻辑辑关关系系形形成成以以后后,,人人们们将将数数的的神神秘秘性性作作为为探探寻寻与与研研究究的的目目标标之之一一,,不不断断建建立立起起更更加加完完备备的的、、抽抽象象的的数数的的体体系系。。以数数为为基基础础,,测测量量、、计计量量和和比比较较事事物物就就有有了了精精确确表表达达的的语语言言,,这这在在实实践践中中就就表表现现为为量量,,它它是是客客观观事事物物所所具具有有的的能能体体现现差差异异程程度度的的一一种种属属性性,,是是事事物物可可以以用用数数来来表表现现的的规规定定性性,,包包括括量量的的规规模模、、量量的的关关系系、、量量的的变变化化、、量量的的界界限限与与量量的的规规律律。。在以以数数来来表表示示事事物物的的特特征征并并采采用用了了科科学学的的计计量量单单位位后后,,就就产产生生了了真真正正意意义义上上的的数数据据———有根根据据的的数数。。科学学数数据据的的形形成成::科学学数数据据的的形形成成得得益益于于对对数数据据的的科科学学研研究究,,是是在在科科学学研研究究过过程程中中基基于于科科学学设设计计、、通通过过有有针针对对的的观观察察和和测测量量获获得得的的、、用用以以认认知知自自然然现现象象和和社社会会现现象象的的变变化化规规律律或或用用以以验验证证已已有有理理论论假假设设的的数数据据。。哲学学家家培培根根所所倡倡导导的的“实验验观观察察-归纳纳分分析析”的方法思思想和笛笛卡尔所所倡导的的数理演演绎方法法,将数数据的使使用提高高到了科科学方法法论的地地位,使使数据成成为了科科学研究究的基本本要素,,并使如如何科学学收集数数据成为为了研究究课题。。近代科学学将数据据融于自自然科学学研究范范式的实实践,不不仅提高高了人类类认识事事物的精精确性,,更为重重要的是是其逐步步形成的的数学化化思维与与方程表表达式解解决了不不同物理理量之间间的数值值关系表表达问题题,从而而为开展展相关事事物之间间的定量量研究提提供了途途径。17世纪的自自然哲学学家开普普勒对第第谷大量量的天文文观察数数据的使使用,推推导出了了行星运运动三大大定律;;伽利略略对地球球表面物物体运动动的数据据测量建建立了自自由落体体运动规规律;牛牛顿利用用大量的的天文观观察数据据和实验验测量数数据,创创立了牛牛顿力学学体系。。科学数据据因其所所具有的的共享性性与精确确性等特特点而成成为了科科学研究究的普适适语言。。在自然科科学对数数据进行行科学研研究的同同时,社社会科学学领域也也对数据据进行了了科学范范式的研研究,并并发现了了例如平平均人、、恩格尔尔系数、、基尼系系数等定定律。就统计学学而言,,它的产产生与发发展过程程就是对对科学数数据进行行研究的的过程,,每一种种统计分分析方法法都是在在对科学学数据进进行科学学研究的的基础上上形成的的。大数据的的诞生::20世纪中期期开始的的生物基基因测序序研究所所积累的的大量数数据,面面临着如如何理解解和处理理的新挑挑战。同同样的问问题逐渐渐蔓延到到各个学学科领域域,包括括天文学学研究,,基本粒粒子研究究,气象象学研究究和社会会学研究究等。1966年,国际际科技数数据委员员会(CODATA)成立,,旨在促促进全球球科技数数据的共共享。面面对海量量数据、、快速增增加的数数据,人人们开始始重新审审视和定定义数据据。如果果说计算算机技术术等的快快速发展展,是大大数据产产生的基基础因素素,那么么人类对对数据理理念的深深化、对对数据多多样性的的追求、、对信息息的永不不满足,,是大数数据产生生的内在在因素。。以非结构构化数据据为主体体的大数数据,正正在改变变着一切切,而以以大数据据为研究究对象,,通过挖挖掘、提提取等手手段探寻寻现象内内在规律律的学科科——数据科学学也应运运而生。。总结:数数据产生生之初,,其根本本的功能能就是体体现事物物或现象象的量的的大小或或多少,,便于计计数与比比较,数数据大多多自然获获得、被被动利用用;科学学数据以以研究与与管理为为目的,,一般是是主动获获得、主主动利用用;而大大数据的的特征则则是丰富富的数据据资源与与主动获获得数据据相结合合,数据据类型多多样化。。当然,,数据的的演变是是一个渐渐进的过过程,它它不是简简单的一一种形式式代替另另一种形形式,而而是一个个由简单单到复杂杂的各种种形式相相互包容容、不断断丰富的的过程。。(二)统统计分析析方法的的发展如果说数数据是表表现事物物特征的的精确语语言、认认知世界界的重要要工具、、治理国国家的必必备依据据和科学学研究的的必备条条件,那那么数据据分析则则是让数数据充分分说话、、最大限限度发挥挥功能、、有效满满足不同同需要的的根本要要求。在在科学数数据研究究基础上上形成的的具有通通用性质质的方法法就是统统计方法法。纵观统计计学发展展史,统统计数据据大体上上经历了了这样一一个过程程:只能能收集到到少量的的数据—尽量多地地收集数数据—科学利用用样本数数据—综合利用用各类数数据—选择使用用大数据据,而统统计分析析经历了了不同阶阶段,相相应地产产生了大大量观察察法、统统计分组组法、综综合指标标法、归归纳推断断法、模模型方程程法和数数据挖掘掘法等分分析方法法,并且且借助计计算机及及其软件件的程度度也越来来越深。。配第的《政治算术术》和格朗特特的《关于死亡亡表的自自然观察察和政治治观察》,开启了了社会经经济现象象数据分分析的先先河。但但他们所所能运用用的数据据资源非非常有限限,只能能算是最最初级形形态的数数据而非非真正意意义上的的科学数数据。他们的分分析方法法现在看看来十分分简单,,但在当当时非常常了不起起,其数数据加方方法的思思想影响响至今,,特别是是他们所所倡导的的大量观观察法、、统计分分组法成成为了统统计学最最基本的的研究方方法。特别是,,格朗特特通过不不完整但但足够量量的登记记数据初初步发现现了大数数法则,,提出了了数据简简约的概概念,通通过推算算方法初初创了生生命表,,探讨了了数据的的可信性性问题,,并提出出了人口口数的推推算公式式。没有他们们这种将将数据与与方法相相结合的的“形”,就不可可能产生生统计的的“学”。随着数据据分析意意义的显显现,以以及受到到大量观观察法的的影响,,人们开开始尽可可能多地地收集数数据,包包括登记记数据、、普查数数据、测测量数据据、实验验数据和和观察数数据。统统计学也也进入到到了科学学数据研研究阶段段。社会经济济领域的的数据一一般都是是登记数数据与调调查数据据,为了了科学表表明数据据的意义义,实现现数据表表现与现现象内涵涵的统一一,就产产生了用用统计指指标来表表现数据据特征的的方法,,即统计计指标法法。随着分工工细化、、记录数数据增加加,在社社会经济济领域出出现了成成组、成成群相关关的数据据,以及及专门调调查获得得的数据据(例如如人口调调查、产产业调查查等),,逐渐产产生了各各种运用用统计指指标体系系进行综综合分析析的方法法,例如如综合评评价法、、主成分分分析法法、聚类类评判法法等。为了从数数量上弄弄清楚经经济运行行过程中中各部门门、各环环节之间间的关系系,人们们研究发发明了投投入产出出分析法法。为了科学学核算经经济活动动成果,,掌握经经济总产产出的构构成与去去向,在在经济学学原理和和科学指指标内涵涵的基础础上,产产生和发发展了国国民经济济核算法法。为了掌握握物价的的综合变变动,反反映复杂杂现象的的发展方方向,产产生了综综合指数数分析法法。为了掌握握社会经经济现象象变动规规律、预预测未来来发展趋趋势,产产生了时时间序列列分析法法。基于实验验数据,,统计学学产生了了概率论论、分布布理论、、回归分分析方法法、小样样本分布布理论和和假设检检验方法法。众所周知知,14世纪欧洲洲以骰子子为工具具的赌博博非常盛盛行,围围绕骰子子可能出出现的情情况和赌赌本分配配问题,,再加上上取球、、抛掷硬硬币等实实验,帕帕斯卡、、费马、、惠更斯斯、伯努努利、狄狄莫弗等等人共同同研究建建立了概概率论,,发明了了大数定定律,发发现了二二项分布布与超几几何分布布,并为为正态分分布理论论的建立立奠定了了基础。。随着概率率论被引引入到统统计学中中,帮助助解决了了人口推推算、寿寿命保险险、生命命表编制制、产品品质量控控制等诸诸多比赌赌博更为为复杂的的现实问问题。同样,高高尔顿通通过对遗遗传学实实验数据据(甜豌豌豆种植植的实验验数据))以及抽抽样观察察数据((亲子身身高的观观察数据据),发发现了回回归现象象,发明明了在各各个领域域得到广广泛应用用的回归归分析法法并提出出了相关关系数的的初步概概念(相相关指数数),奠奠定了模模型方程程法的基基础,极极大地提提高了人人们开展展统计分分析的能能力。戈赛特则则利用酿酿酒公司司仅有的的小样本本实验数数据,发发明了著著名的小小样本“t”分布理论论,推进进了推断断统计方方法的发发展。费歇尔基基于人为为的女士士品茶的的实验数数据和达达尔文关关于施肥肥方法影影响作物物高度的的实验数数据的研研究,构构建了假假设检验验的基本本方法并并得到了了广泛的的应用。。基于观察察数据,,统计学学产生了了误差正正态分布布和最小小平方法法。对天文观观察数据据研究而而形成的的误差正正态分布布和最小小平方法法在统计计学中具具有极重重要的地地位。开开普勒的的观察数数据,经经过伽利利略、辛辛普森、、拉普拉拉斯等人人的探求求,最终终由高斯斯导出了了著名的的误差正正态分布布。凯特勒等等统计学学家及时时地将拉拉普拉斯斯的中心心极限定定理与高高斯的误误差正态态理论运运用于社社会数据据的研究究,使正正态分布布的应用用盛行一一时。在误差理理论基础础上,高高斯、勒勒让德等等人发现现了最小小平方法法,并迅迅速从天天文学和和测地学学的数据据研究应应用扩展展到其他他领域,,尤其是是与回归归分析相相结合后后成为了了统计分分析最常常用的方方法,至至今仍为为主流。。皮尔逊对对生物观观察数据据的研究究,形成成了皮尔尔逊分布布族,提提出了参参数估计计矩法,,发展了了相关分分析法。。数据的获获得需要要投入,,并且有有些数据据难以得得到全体体数据。。人们自自然想到到:能否否通过总总体中部部分个体体的数据据来达到到认识总总体特征征、继而而进行统统计分析析的目的的?随着着概率论论、中心心极限定定理与正正态分布布理论的的产生与与发展,,这种愿愿望成为为了可能能。经过拉普普拉斯、、凯尔、、马哈拉拉诺比斯斯、鲍莱莱、费歇歇尔、尼尼曼等人人的抽样样实践与与理论探探求,随随机抽样样理论在在20世纪得到了迅迅速发展,并并产生了多种种具体的抽样样方式。基于样本数据据的归纳推断断方法—包括参数估计计与假设检验验在实践中得得到了广泛的的应用,抽样样调查数据一一度成为了统统计分析的主主要数据来源源,如何用尽尽量小的样本本得到尽量精精确的推断成成为了抽样研研究的核心问问题。用抽样法获取取数据已得到到了100年的充分肯定定。如今,人类迈迈入了智能化化的时代,数数据的产生有有了新的方式式——电子化、数字字化、多样化化、可保存、、可扩充、可可兼容的大数数据。这是一一种基于科学学技术而产生生的、既具有有科学数据的的特征又超越越于科学数据据的、完全不不一样的数据据。2007年,已故图灵灵奖获得者吉吉姆·格雷(JimGray)在题为《第四科学研究究范式:密集集型数据挖掘掘》的演讲中提到到,科学经历历几千年的历历史演变形成成了四个关键键性的科学范范式,第四个个就是近几年年出现的数据据挖掘或eScience范式。显然,从第二二个研究范式式开始都依赖赖于数据的研研究。新的研研究范式需要要新的数据研研究方法,这这对统计学来来说既是机遇遇又是挑战。。总结:之前,,我们手中的的数据量相对对不足,对数数据的研究是是“由薄变厚”,把“小”数据变“大”,而在“数据大爆炸”时代,我们要要做的是把数数据“由厚变薄”,去冗分类、、去粗存精。。大数据时代代,将呈现出出“一方面数据很很丰富、但另另一方面信息息又很匮乏”的现象,迫使使人们对数据据分析产生强强烈的需求。。所以,大数据据分析实际上上可以理解为为两个过程,,一是把数据据由大变小的的过程,比喻喻为物理过程程;二是从处处理过的数据据中提取价值值的过程,比比喻为化学过过程。三、统计学的的新发展——大数据分析(一)大数据据分析是数据据科学赋予统统计学的新任任务目前,人们对对大数据的研研究主要是将将其作为一种种研究方法或或一种新的知知识发现工具具,还没有把把数据本身作作为主要的研研究目标。大数据分析的的目的就是要要通过对历史史数据的分析析和挖掘,科科学总结与发发现其中蕴藏藏的规律和模模式,并结合合源源不断的的动态数据去去预测事物未未来的发展趋趋势。如果说说从商业的角角度看,大数数据要求我们们改变数据思思维、重视数数据资产、实实现数据价值值(数据变现现),那么统统计学的任务务就是通过大大数据分析去去帮助实现这这个目的。对于统计学来来说,开展大大数据分析就就是积极投身身于数据科学学研究之中。。数据科学(datascience或dataology)一词早在1960年就由彼得·诺尔提出。1996年,在日本东东京召开的题题为“数据科学,分分类和相关方方法”的分类国际联联合会上,第第一次将数据据科学作为会会议的主题词词。2001年,美国统计计学教授威廉廉.S.克利夫兰首次次将数据科学学作为一门独独立的学科,,认为数据科科学是统计学学领域扩展到到与以数据作作为先进计算算对象相结合合的部分,并并建立了数据据科学的6个技术领域。。2001年以后,国际际科技数据委委员会,以及有关学者者创办的了关于数据科科学的刊物,发表以统计计应用方法研研究所有与数数据有关的成成果。2012年由springer出版集团创办办了“EPJDataScience”。可以预见,数数据科学的产产生将催生一一批新的研究究方向,如地地理信息科学学、生物信息息科学、生命命组学等。数据科学的重重点是数据处处理技术问题题还是数据分分析问题?开展大数据分分析、发展数数据科学并不不是要否定原原来的统计分分析方法,而而是要补充、、完善和创新新统计分析方方法。事实上上,统计学业业已形成的一一些思想与方方法在大数据据分析中仍有有用武之地,,只是要求统统计学者具有有更加广阔的的视野,更加加重视统计分分布背后的知知识和规律。。(二)大数据据分析面临的的挑战对于习惯于结结构化数据研研究的统计学学来说,大数数据分析显然然是一种崭新新的挑战。挑挑战来自于大大数据的复杂杂性、不确定定性和涌现性性,其中复杂杂性最为根本本。复杂性是大数数据区别于传传统数据的根根本所在,它它主要表现为为类型复杂性性、结构复杂杂性和内在模模式复杂性三三个方面,从从而使得大数数据的存储与与分析产生多多方面的困难难。另外,网网络大数据通通常是高维的的。复杂性必然带带来不确定性性。大数据的的不确定性表表现为数据本本身的不确定定性、模型的的不确定性和和学习的不确确定性,从而而给大数据建建模和学习造造成困难。大数据的不确确定性与传统统数据的不确确定性有何不不同?是否存在“可能世界模型型”?——在一定的结构构规范下将数数据的每一种种状态都加以以刻画?针对学习的不不确定性,非非参模型方法法的提出为自自动学习提供供了一种思路路,但如何分分布式、并行行地应用到网网络大数据的的处理上?涌现性是网络络大数据有别别于其它数据据的关键特性性,是大数据据动态变化、、扩展、演化化的结果,表表现为模式的的涌现性、行行为的涌现性性和智慧的涌涌现性,其在在度量、研判判与预测上的的困难使得网网络数据难以以被驾驭。模式的涌现性性——社会网络模型型的变化行为的涌现性性——有较大相似性性的个体之间间容易建立社社会关系,使使得网络在演演化过程中自自发地形成相相互分离的连连通块。智慧的涌现性性——对来自大量自自发个体的语语义进行互相相融合和连接接而形成通用用语义,整个个过程随着数数据的变化而而持续演进。。总结:在大数数据环境下,,传统的高维维表达、结构构描述和群体体行为分析方方法不能准确确表示网络大大数据在异构构性、交互性性、时效性、、突发性等方方面的特点,,传统的“假假设-模型-检验”的统统计方法受到到了质疑,而而从“数据””到“数据””的第四范式式还没有真正正建立,急需需一个新的理理论体系来指指导,建立新新的分析模型型。(三)大数据据分析的突破破口大数据分析涉涉及三个维度度——时间、空间和和数据本身,,其中时间维维度又包含生生命周期、数数据的时间态态、流化与增增量、时效等等元素,空间间维度又包含含三元空间、、粒度、数据据传输与迁移移、数据空间间等元素,数数据维度则体体现为多源、、异质、异构构。如何从三个维维度的整体上上对大数据的的特性与复杂杂性进行深入入的解析,系系统掌握大数数据的不确定定性特征,继继而构建高效效的大数据计计算模型,成成为了大数据据分析的突破破口,具体表表现为以下几几个方面:首先,要系统统了解大数据据的基础性问问题。大数据据的基础性问问题包括:大大数据的内在在机理——大大数据的演化化与传播规律律、生命周期期,数据科学学与社会学、、经济学等之之间的互动机机制,以及大大数据的结构构与效能的规规律性等等。。将与计算机机科学、统计计学、人工智智能、数学、、社会科学等等有关,离不不开对相关学学科领域知识识与研究方法法的借鉴。同时,由于大大数据往往以以独特的、复复杂关联的网网络形式出现现,因此还必必须对大数据据背后的网络络进行深入的的分析,例如如能刻画出大大数据背后网网络共性的网网络平均路径径长度、度分分布、聚集系系数、核数、、介数等性质质和参数,这这是开展复杂杂网络数据分分析的基础。。其次,要深入入研究大数据据的复杂性规规律。包括数数据的时间规规律、空间规规律和数据本本身规律。再再复杂的数据据也有规律可可循。只有掌掌握数据的复复杂性规律,,才能找到大大数据分析的的切入口,才才能理解大数数据复杂模式式的本质特征征和生成机理理,进而简化化大数据的表表征,指导大大数据计算模模型和算法的的设计。就统计学而言言,就是要研研究大数据在在时空维度上上的数据分布布、内在结构构、动态变化化和相关相联联的复杂性规规律,对表现现多元变量分分布规律的方方法加以改进进,关注大数数据处理的可可扩展性,探探索多型态关关联数据之间间的多维、异异构、隐性的的关联特征,,并基于统计计设想和大数数据驱动相结结合的方式去去探索大数据据复杂模式的的生成机理及及其背后的物物理意义,最最终形成大数数据计算与分分析的方法论论。再次,要科学学度量大数据据的复杂性特特征。数据分分析的前提是是研究对象特特征的度量与与计算,但大大数据的复杂杂性导致了大大数据分析计计算的复杂程程度猛烈激增增,单靠传统统的数据计算算模式基本不不行,亟需建建立面向大数数据计算分析析的复杂性度度量理论,探探索大数据高高效计算模型型和方法。因因此,我们要要寻找科学度度量复杂性特特征的方法。。就统计学而言言,需要运用用各种统计方方法剖析异构构关联大数据据的复杂性特特征的基本因因素,以及这这些因素之间间的内在联系系、外在指标标和度量方法法,进而研究究基于先进计计算技术的数数据复杂性度度量模型,寻寻求近似计算算理论和优化化算法框架,,构建寻找面面向计算的数数据内核或者者数据边界的的基本方法。。总之,研究究有效易行的的数据表示方方法是开展大大数据分析必必须解决的技技术难题之一一。第四,大胆创创新大数据的的计算模式。。大数据计算算模式即数据据密集型计算算模式。面对对大数据,传传统的“假设设—采样—验验证”的模式式已经难以有有效分析大数数据的内在规规律、提取其其蕴含的真实实价值,因为为数据的可计计算性与可度度量性基础已已经发生了很很大的变化,,需要重新定定义和构建。。为此,需要要突破传统的的“数据围绕绕机器转”的的计算模式,,发展以数据据为中心的、、推送式的大大数据计算理理论与模式,,设计可行的的、有利于深深度分析的计计算算法。就统计学而而言,需要要研究针对对大数据的的非确定性性理论,突突破传统的的“独立同同分布”假假设,在探探讨分布式式、流式算算法的基础础上,构建建大数据分分析的计算算框架。总总之,要基基于数据的的智能方法法,着力研研究解决复复杂问题的的“海量数数据+简单逻辑””的方法。。(四)需要要达成的几几点共识要把数据处处理技术的的突破与统统计分析方方法的创新新相结合。。要把碎片化化数据处理理与整体统统计分析相相结合。要把大数据据分析与小小数据研究究相结合。。要把时空维维度和数据据维度相结结合。要把相关关关系的发现现与因果规规律的研究究相结合。。要把探索性性分析与验验证性分析析、抽样分分析与全数数据分析相相结合。四、改变统统计思维统计思维的的变化应该该以一个永恒恒不变的主主题为前提提,那就是是通过数据据分析揭示示事物的真真相,这个真相相就是事物物的生存规规律、联系系规律和发发展规律。。也就是说说要以数据据背后的数数据去还原原事物的本本来面目,,达到求真真的目的。。首先,认识识数据的思思维要变化化从来源上看看,传统的数数据收集具具有很强的的针对性,,数据的提提供者大多多确定,身身份特征可可识别,有有的还可以以进行事后后核对;但大数据通通常来源于于物联网,,不是为了了特定的数数据收集目目的而产生生,而是人人们一切可可记录的信信号,并且且身份识别别十分困难难。从某种种意义上讲讲,大数据据来源的微微观基础是是很难追溯溯的。从类型上看看,传统数据据基本上是是结构型数数据,格式式化、有标标准;但大数据更更多的是非非结构型数数据或异构构数据,包包括了一切切可记录、、可存储的的标识,多多样化、无无标准,并并且不同的的网络信息息系统有不不同的数据据识别方式式,相互之之间也没用用统一的数数据分类标标准。而且且,现在有有的数据库库是非关系系型的数据据库,不需需要预先设设定记录结结构。结构化数据据,可用二维维表结构来来逻辑表达达实现的数数据,如数数字、符号号。可直接接计数、计计量、计算算的数据。。特点:先先有结构、、再有数据据;非结构化数数据,不方便用用数据库二二维逻辑表表来表现的的数据,包包括所有格格式的办公公文档、文文本、图片片、XML、HTML、各类报表表、图像和和音频/视频信息等等等,特点点:先有数数据、再有有结构;半结构化数数据,介于完全全结构化数数据和完全全无结构的的数据(如如声音、图图像文件等等)之间的的数据,例例如HTML文档。它一一般是自描描述的,数数据的结构构和内容混混在一起,,没有明显显的区分。。从量化方式式上看,传统数据据的量化处处理方式已已经较为完完善,但大大数据

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论