版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大数据时代与大数据
——数据分析的新理念
/大数据-数据分析新理念-朱老师大数据时代与大数据
——数据分析的新理念
第一部分:大数据与大数据时代一、大数据产生的背景二、国内发展现状三、大数据概念的界定第二部分:数据分析的新理念四、如何理解大数据和分析大数据
五、大数据对统计学科和统计研究工作的影响
大数据-数据分析新理念-朱老师一、大数据产生的背景1955年信息公开1965年摩尔定律1973年最小数据集1980年标准数据接口1988年普适计算2000年数据驱动1955年,约翰•摩斯提出《自由信息法》草案,几经周折,直到1965年才被参议院投票通过,直到次年7月4日才被美国总统签字通过。摩尔定律:同一个面积集成电路上可容纳的晶体管数目,一到两年将增加一倍,亦即计算机硬件的处理速度和存储能力将提升一倍。最小数据集的概念起源于美国医疗领域,指代国家的管理层面针对某个业务管理领域强制搜集的数据指标。一些领域的最小数据集甚至被上升到立法高度。数据在不同信息管理系统之间的共享也使数据接口的标准化越来越得到强调。大数据-数据分析新理念-朱老师返回主机型计算阶段(MainframeComputing)个人型计算阶段(PersonalComputing)普适计算阶段(UbiquitousComputing)大数据-数据分析新理念-朱老师二、国内发展现状近年来,对大数据的研究和应用不仅引起了我国自然科学和人文社会科学界的广泛重视,也受到我国中央政府的高度关注:这些是大数据产业的重要组成部分,与大数据产业发展密切相关。《“十二五”国家战略性新兴产业发展规划》明确提出支持海量数据存储、处理技术的研发与产业化《物联网“十二五”发展规划》提出将信息处理技术列为四项关键技术创新工程之一大数据-数据分析新理念-朱老师2013年2月国家统计局召开的以大数据为主题的工作会议2013年3月26日科研所又举办了“大数据在政府统计工作中的应用研究”课题研究专家咨询会2013年3月4日国家统计局科研所重点讨论部署了“大数据在政府统计中的应用”的研究工作2012年12月国家统计局在上海开展了大数据应用的调研活动2012年11月国家统计局总统计师鲜祖德会见美国华裔大数据专家时,提出国家统计局十分重视大数据在统计中的应用,并成立了课题组研究如何通过对大数据处理推进统计方法制度改革,改进政府统计工作我国国家统计局科研所于2012年8月就召开了大数据应用研究座谈会,提出了在大数据时代运用现代信息技术建立统计云架构的研究目标。2013年4月11日,国家统计局总统计师鲜祖德率领大数据课题组赴百度公司调研,就大数据在政府统计中的应用及相关合作事宜,与百度公司有关领导和专家进行了深入交流2013年5月2日国家统计局科研所青年学术沙龙深入研讨大数据应用2013年8月6日,国家统计局总统计师鲜祖德主持召开了“大数据在政府统计中的探索与应用研究”课题报告座谈会2013年10月28日-29日,“第十七次全国统计科学讨论会”在浙江省杭州市召开。主题是:大数据背景下的统计。2013年11月19日,国家统计局与阿里、百度等11家企业签署了大数据战略合作框架协议。大数据-数据分析新理念-朱老师2013年11月19日下午,国家统计局与上海钢联电子商务股份有限公司、山东卓创资讯集团有限公司、58同城信息技术有限公司、天云融创数据科技(北京)有限公司、中国联合网络通信有限公司、天脉聚源(北京)传媒科技有限公司、百度在线网络技术(北京)有限公司、阿里巴巴(中国)有限公司、纽海信息技术(上海)有限公司、昆明泛亚有色金属交易所股份有限公司和南京擎天科技有限公司共11家企业在京签订了大数据战略合作框架协议,共同推进大数据在政府统计中的应用,不断增强政府统计的科学性和及时性。
大数据-数据分析新理念-朱老师
《大数据在政府统计中的探索与应用》2013年10月1日出版大数据-数据分析新理念-朱老师
2014年2月25日,国家统计局局长马建堂赴北京市中关村,考察中关村国家自主创新示范区、中关村数海大数据交易平台和京东商城。他说,统计部门要孜孜不倦推动大数据在政府统计中应用,不断加大与各类企业在大数据应用中合作力度,努力打造政府统计数据来源第二轨,使统计数据更加真实准确,为社会提供更加优质统计服务。大数据-数据分析新理念-朱老师
2014年3月22日,国家社科基金重大项目《大数据与统计学理论的发展研究》开题研讨会在厦门大学举行。中国统计学会副会长兼秘书长、国家统计局统计科学研究所所长潘璠作为子课题五《大数据下的统计方法实际应用探索》的负责人,介绍了大数据在政府统计中的研究进展及相关应用动态。大数据-数据分析新理念-朱老师
2014年4月4日上午,马建堂在浙江省副省长朱从玖的陪同下,来到阿里巴巴集团,对集团的电子商务业务进行调研。听取了阿里巴巴集团近年来业务发展状况和大数据应用情况的报告,深入了解了天猫和淘宝网两个网上零售交易平台的运营模式、商家规模、交易体量、发展速度和大数据业务,与阿里巴巴有关负责人探讨了利用网络平台日常交易产生的大数据完善贸易统计的构想。
大数据-数据分析新理念-朱老师
2014年5月8日,国家统计局局长马建堂赴上海调研大数据在统计工作中的应用。马建堂强调,统计部门要顺势而为,以更加积极开放的心态拥抱大数据时代,以大数据利用为引擎,助力进一步提升统计数据搜集能力、完善统计制度方法、加强经济形势分析、提高统计数据质量,更好地服务经济社会发展。大数据-数据分析新理念-朱老师
2014年5月20日,是北京入夏以来最热的一天。下午2点多,国家统计局局长马建堂一行来到了位于上地十街的百度公司调研大数据生产及应用情况。大数据-数据分析新理念-朱老师
2014年7月9日下午,科研所所长潘璠、数管中心副司级干部李金宽等一行4人到访中国联通公司,与联通研究院、集团客户事业部等部门负责人就大数据合作事宜进行深入座谈交流。
大数据-数据分析新理念-朱老师
2014年8月22日,国家统计局统计科研所所长潘璠一行,在深圳市统计局总统计师胡卫东等的陪同下,分别到访总部设在深圳的顺丰速运有限公司和阿里巴巴一达通企业服务有限公司,与企业相关负责人就大数据合作事宜进行深入沟通。
大数据-数据分析新理念-朱老师2014年9月27-28日第十五次全国中青年统计科学研讨会日前在天津财经大学举行,来自全国的统计专家、学者、中青年统计科研人员、统计工作者及大专院校师生,以“大数据的统计展望”为主题进行了广泛而深入的交流。徐一帆向大会致辞,国家统计局副局长、中国统计学会副会长李强作了“全面推进和深化统计改革”的专题报告,总统计师鲜祖德主持了会议开幕式。大数据-数据分析新理念-朱老师
国家统计局2014年9月29日召开“大数据与统计建模”视频报告会,来自全国统计建模大赛的5支获奖代表队就各自利用大数据进行统计建模的论文成果进行了主题汇报。国家统计局副局长、全国统计建模大赛组委会主任委员张为民要求国家统计局各有关专业司、各省统计局、国家统计局各调查总队要充分重视大数据时代为统计系统带来的机遇和挑战,深入研究大数据在统计工作当中的应用,奋力推进统计事业改革发展。国家统计局副局长徐一帆、许宪春、李强,党组纪检组长高建华,总统计师鲜祖德,总经济师李晓超一同出席了此次报告会。
大数据-数据分析新理念-朱老师
2014年9月30日,国家统计局在京举行大数据应用报告会,与6家企业签署大数据战略合作框架协议。国家统计局局长马建堂作重要讲话。他强调,统计部门将携手合作企业共同开发利用大数据,共同推进大数据产业化,积极构建由结构化数据和大数据为基础来源的现代化政府统计,奋力抢占大数据开发应用制高点,生产更多、更好、更有价值的统计产品,为国家宏观调控、人民生活改善、社会福祉提升提供坚实数据支撑。
国家统计局与上海航运交易所、北京易观网络信息咨询有限公司、北京搜房网络技术有限公司、北京数海科技有限公司、浪潮集团有限公司、深圳市腾讯计算机系统有限公司共6家企业签署合作协议。大数据-数据分析新理念-朱老师
厦门大学数据挖掘研究中心于2014年6月6日向国家统计局统计科学研究所提交《厦门大学数据挖掘研究中心关于合作成立大数据实验室的建议》,倡议联合国家统计局统计科学研究所和台湾辅仁大学商学研究所成立“厦门大学数据挖掘研究中心大数据实验室”。2014年10月17日正式举行了揭牌仪式。该实验中心将联合厦门沸腾网络科技有限公司,共同推动数据挖掘和大数据研究与应用。大数据-数据分析新理念-朱老师
由中国国家统计局和联合国统计司联合主办的“大数据和官方统计”国际会议2014年10月28日在京开幕。国家统计局局长马建堂出席会议并致辞,联合国统计司司长斯特芬﹒施万斯特,联合国大数据全球工作小组主席、澳大利亚统计局副局长特雷弗﹒萨顿也分别在开幕式上致辞。国家统计局副局长谢鸿光主持开幕式,副局长李强做主旨发言。这次会议讨论的主要内容包括:大数据和国际统计发展;手机、全球定位系统和其他跟踪装置;卫星影像和其他地理空间信息;Twitter和其他社交媒体;网络交易和扫描数据;大数据来源的共性及隐私问题;发展中国家引入创新;未来之路——大数据的应用。大数据-数据分析新理念-朱老师
来自联合国统计司、联合国全球脉动行动、联合国欧洲经济委员会、联合国亚太经社会、联合国亚太统计研究所、欧盟统计局、海湾阿拉伯国家合作委员会统计中心、国际货币基金组织、国际电信联盟、世界银行、万国邮政联盟等11个国际组织,以及澳大利亚、孟加拉国、加拿大、哥伦比亚、丹麦、埃及、德国、印度、印尼、爱尔兰、意大利、日本、马来西亚、墨西哥、摩洛哥、荷兰、阿曼、巴基斯坦、菲律宾、韩国、新加坡、坦桑尼亚、泰国、阿拉伯联合酋长国、美国、越南和中国等27个国家的近120位代表参加研讨会。大数据-数据分析新理念-朱老师国家统计局局长马建堂为经济发展新常态提供更加优质的统计保障
——2015年元旦献辞
(2014)研究应用大数据迈出实质性步伐,在价格统计、贸经统计、建设领域统计、交通运输统计和经济监测分析应用中取得初步成果。
(2015)继续深化重点领域统计改革,不断巩固和拓展统计生产方式变革成果,加快利用大数据、云计算奋力打造数据生产新兴之轨,大力推进依法统计,深入开发利用三经普资料,全面启动第三次全国农业普查,认真做好全国1%人口抽样调查,扎实开展各项常规统计调查,持之以恒夯实统计业务基础和基层基础,坚决打造廉洁统计,为党和政府以及社会各界提供更加优质统计服务。大数据-数据分析新理念-朱老师国内各地制定云计算“十二五”规划云计算、物联网园区中国各地制定或公布了云计算、物联网等产业规划;这些工程的初始着眼点在房地产,政绩工程居多,大数据作为核心内容端,使得政绩工程变为使用工程。
云计算、物联网、社交化媒体、GIS为大数据提供了丰富的数据来源。因此大数据中包括的每个用户的身份、地点、时间、喜好、厌恶、社会关系等等大量的信息。伴随数据挖掘和分析的技术发展,我们即将步入基于大数据的智能化时代。云计算、物联网从政绩工程变成实用工程大数据-数据分析新理念-朱老师
广东省政府于2月26日印发了《广东省经济和信息化委员会主要职责内设机构和人员编制规定》。《规定》明确了广东省经济和信息化委员会16项职责。根据职责,广东省经济和信息化委员会设21个内设机构,其中包括成立广东省大数据管理局。其具体职责是:研究拟订并组织实施大数据战略、规划和政策措施,引导和推动大数据研究和应用工作;组织制定大数据收集、管理、开放、应用等标准规范;推动形成全社会大数据形成机制的建立和开发应用;承担企业情况综合工作,负责企业数据收集和存储;组织编制电子政务建设规划并组织实施;组织协调政务信息资源共享;组织协调省级重大电子政务项目建设,组织协调网上办事大厅等电子政务一站式服务建设;负责统筹政务信息网络系统、政务数据中心的建设、管理;统筹协调信息安全保障体系建设;承担信息安全等级保护、应急协调和数字认证相关工作。大数据-数据分析新理念-朱老师2014.10.13福建省人民政府《关于支持大数据产业重点园区加快发展十条措施的通知》(闽政〔2014〕52号)各市、县(区)人民政府,平潭综合实验区管委会,省人民政府各部门、各直属机构,各大企业,各高等院校:为推动数字福建(长乐)产业园、中国国际信息技术(福建)产业园(以下简称园区)加快建设成为全省大数据产业重点园区和“数字福建”建设的重要承载基地,现提出如下措施:大数据-数据分析新理念-朱老师一、完善园区发展规划二、引进培育产业龙头三、推动资源汇聚开发四、建设大数据创新平台五、加强人才引进培养六、做好园区用地保障七、确保园区用电需求八、强化园区网络支撑九、实施财税优惠政策十、提高安全保障能力本通知确定的相关优惠政策自印发之日起施行。园区所在市、县政府要主动靠前服务,积极创新园区运作模式、资本运作模式、产业协作模式,及时为入园企业解决具体问题,为园区发展营造良好环境。省直有关部门要按照职责分工,加强指导和服务,大力支持园区发展,确保赋予入园企业的各项优惠政策落实到位。大数据-数据分析新理念-朱老师大数据-数据分析新理念-朱老师三、大数据概念的界定
我们查阅了大量的关于大数据方面的资料,对大数据概念的定义众说纷纭,对大数据的理解决于定义者的观点和背景。比较有代表性的定义主要有以下几种。
维基百科给出的定义是,大数据指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。
大数据科学家JohnRauser提出一个简单的定义是,大数据指任何超过了一台计算机处理能力的数据。大数据-数据分析新理念-朱老师
美国咨询公司麦肯锡的报告是这样定义的,大数据是指无法在一定时间内用传统数据库软件工具对其进行抓取、管理和处理的数据集合。
Gartner公司的MervAdrian(2011)认为,大数据超出了常用硬件环境和软件工具在可接受的时间内为其用户收集、管理和处理数据的能力。
IDC(InternationalDataCorporation,2011)对大数据概念的描述为:大数据是一个看起来似乎来路不明的大的动态过程;但是实际上,大数据并不是一个新生事物,虽然他确确实实正在走向主流并引起广泛的注意;大数据并不是一个实体,而是一个横跨很多IT边界的动态活动。大数据-数据分析新理念-朱老师
还有一些学者如格雷布林克(Grobelink.M)(2012)、Forrester的分析师布赖恩·霍普金斯(BrianHopkins)、鲍里斯·埃韦尔松(BorisEvelson)(2012)和Oracle(甲骨文)的刘念真(2013)等虽未给出大数据的具体定义,但是他们概括了大数据的特点。格雷布林克(2012)认为大数据具有三个特点,即多样性(Variety)、大量性(Volume)、高速性(Velocity),又称3V特点。布赖恩·霍普金斯(BrianHopkins)、鲍里斯·埃韦尔松(BorisEvelson)(2012)认为,除了格雷布林克给出的三个特性外,大数据还具有易变性(Variability)的特点,即4V特点。刘念真则认为大数据除了Grobelink.M给出的特点外,还具有真实性(Veracity)和价值性(Value),即五V特点。大数据-数据分析新理念-朱老师大数据科学研究还刚刚起步,既然是研究,我们就要理解其的内在的涵义。这些对大数据概念的表达方式虽然不同,但从各自的角度描述出了对大数据的理解。从表面看我们可以从两个角度来理解,如果把“大数据”看成是形容词,它描述的是大数据时代数据的特点;如果把“大数据”看成是名词,它体现的是我们科学研究的对象。大数据-数据分析新理念-朱老师
1、“大数据时代”的定义格雷布林克(Grobelink.M)在《纽约时报》2012年2月的一篇专栏中所称,“大数据时代”已经降临,在商业、经济及其他领域中,管理者决策越来越依靠数据分析,而不是依靠经验和直觉。“大数据”概念之所以被炒得如火如荼,是因为大数据时代已经到来。理解大数据,必须首先理解大数据的时代背景,这样就有必须澄清大数据时代的含义。大数据-数据分析新理念-朱老师
我们可以这样来定义大数据时代,大数据时代是建立在对互联网、物联网等渠道广泛大量数据资源收集基础上的数据存储、价值提炼、智能处理和分发的信息时代。在这个时代,可以致力于让人们能够从几乎任何数据中获得可转换为推动人们生活方式变化的有价值的知识。大数据-数据分析新理念-朱老师广泛性计算机技术不仅促进自然科学和人文社会科学各个领域的发展,而且全面融入了人们的社会生活中人们在不同领域采集到的数据量之大,达到了前所未有的程度,数据的产生、存储和处理方式发生了革命性的变化人们的工作和生活基本上都可以用数字化表示,在一定程度上改变了人们的工作和生活方式大数据-数据分析新理念-朱老师大数据-数据分析新理念-朱老师2、“大数据”的定义我们认为大数据定义之所以众说纷纭,没有形成统一的定义。主要是因为大数据如其名一样,所涉内容太“大”,大家看它的角度不一样,于是出现了仁者见仁,智者见智的局面。在了解大数据的历史沿革和大数据所处的时代背景后,我们就可以进一步充分了解大数据的内涵。
这里我们需要提及的是,大数据也是数据,统计学应该随时地关注大数据分析,哪里有数据,哪里就有统计分析。因此,鉴定“大数据”应该在现有科学技术的基础上引入统计学的思想。大数据-数据分析新理念-朱老师
我们可以这样来定义“大数据”,大数据指那些超过传统数据系统处理能力、超越经典统计思想研究范围、不借用网络无法用主流软件工具及技术进行单机分析的复杂数据的集合。对于这一数据集合,在一定的条件下和合理的时间内,我们可以通过现代计算机技术和创新统计方法,有目的地进行设计、获取、管理、分析,揭示隐藏在其中的有价值的模式和知识。大数据-数据分析新理念-朱老师半结构化数据结构化数据非结构化数据我们认为大数据的基本特征可以体现在以下四个方面1.大量性2.多样性
最小的基本单位是Byte,所有单位:Byte、KB、MB、GB、TB、PB、EB、ZB、YB、DB、NB。按照进率1024(2的十次方)大数据-数据分析新理念-朱老师大数据规模巨大,数据在不断更新变化,这些有价值的信息可能转瞬即逝,因此,在大数据时代,对数据的接收和处理思想都需要转变,如何通过强大的机器算法更迅速地完成数据的价值“提纯”成为目前大数据背景下亟待解决的难题。3.价值性
处理时效性高,因为大数据有价值信息存在时间短,要求能迅速有效地提取大量复杂数据中的有价值信息。在如此海量的数据面前,处理数据的效率就是企业的生命。4.高速性大数据-数据分析新理念-朱老师四、如何理解大数据和分析大数据
维克多(VikorMayer-Schǒnberger)在其《大数据时代》一书中提到传统的数据分析思想应作三大转变:一是转变抽样思想;二是转变数据测量的思想;三是不再探求难以捉摸的因果关系。毫无疑问,上述三个转变均与统计研究工作息息相关,从统计研究工作角度如何理解?大数据-数据分析新理念-朱老师1、转变抽样调查工作思想
大数据时代,我们面对的数据样本就是过去资料的总和,样本就是总体,通过对所有与事物相关的数据进行分析,既有利于了解总体,又有利于了解局部。总的来讲,传统的统计抽样调查方法有以下几个方面的不足可以在大数据时代得到改进。(1)抽样框不稳定,随机取样困难。(2)事先设定调查目的,会限制调查的内容和范围。(3)样本量有限,抽样结果经不起细分。(4)纠偏成本高,可塑性弱。大数据-数据分析新理念-朱老师2、转变对数据精确性的要求在大数据时代,由于数据来源广泛和数据处理技术的不断进步,数据的不精确性是允许的,我们应该接受纷繁芜杂的各类数据,不应一味追求数据的精确性,以免因小失大。(1)大数据时代,数据规模大,数据不精确性在所难免,盲目追求数据的精确性不可取。(2)大数据时代,数据不精确性不仅不会破坏总体信息,还有利于了解总体。大数据时代,越来越多的数据提供越来越多的信息,也会让人们越来越了解总体真实情况。(3)大数据时代,允许不精确性是针对大数据,而不是统一标准。大数据的不精确性是偶然产生的,而不是为了不精确性而制造不精确。大数据-数据分析新理念-朱老师3、转变数据关系分析的重点在大数据时代,分析数据不再探求难以琢磨的因果关系,转而关注事物的相关关系。需要注意的是,大数据时代事物之间大数据的相关分析与传统统计学相关分析并不完全相同,主要表现在以下几个方面。(1)分析思路不同。传统统计分析是一个“先假设,后关系”的分析思路。大数据关系分析往往是直接计算现象之间的相依性,是既关联又关系。(2)关系形式不同。大数据时代,现象的关系很复杂,不仅可能是线性关系,更可能是非线性函数关系。更一般的情况是,可能知道现象之间相依的程度,但并不清楚关系的形式。譬如半结构化数据变量和非结构化数据变量之间可能存在某种关联关系,但没法知道变量之间关系的形式。(3)关系目的不同。大数据处理的是流式数据,由于数据规模的不断变化,变量间的因果关系具有时效性,往往存在“此一时,彼一时”的情况,探寻因果关系往往有点得不偿失。
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 中国移动转正工作总结
- 体育与健康人教版1~2年级全一册3.2坐立行我最美课件(共22张)
- 超声引导下肾疾病经皮穿刺活检术实践指南课件
- 高清产品图汽车涡轮增压器轴承总失效?选择东晟这款氟橡胶TC油封
- 2026年重组人胰岛素行业分析报告及未来发展趋势报告
- 2026年景区景点旅游行业分析报告及未来发展趋势报告
- 2026年生态材料行业分析报告及未来发展趋势报告
- 2026年大豆酸奶行业分析报告及未来发展趋势报告
- 2026年隆胸材料行业分析报告及未来发展趋势报告
- 2026年化合物太阳能电池行业分析报告及未来发展趋势报告
- 2025年下半年浙江杭州市萧山区国有企业招聘人员笔试历年参考题库附带答案详解
- 2026年70周岁以上驾驶人三力测试模拟题
- 2026年《中华人民共和国保守秘密法》培训课件
- 钱币发展演变与钱币文化
- 2023年副主任医师(副高)-眼科学(副高)考试历年高频考点参考题库带答案
- 贵州医科大学考博英语真题
- 浙江省教师资格认定体检标准
- 四百米障碍完整的教案
- 轻钢龙骨硅酸钙板防火墙施工方案
- 《材料分析测试技术》全套教学课件
- 2021一级消防工程师继续教育考试石油化工类答案
评论
0/150
提交评论