大数据应用的技术演变_第1页
大数据应用的技术演变_第2页
大数据应用的技术演变_第3页
大数据应用的技术演变_第4页
大数据应用的技术演变_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1统统计计调调研研第 18 期南京市统计局 2013 年 12 月 23 日大数据应用的技术演变、关键技术需求及管大数据应用的技术演变、关键技术需求及管理创新的研究理创新的研究 摘要:摘要:大数据浪潮汹涌来袭,与互联网的发明一样,这绝不仅仅是信息技术领域的革命,更是在全球范围启动透明政府、加速企业创新、引领社会变革的利器,在统计工作中,大数据的应用不可避免,如何能让政府统计抓住大数据这个利器,实现统计工作的跃升,将是我们面临的一项紧迫任务。关键字:大数据关键字:大数据 统计统计 创新发展创新发展一、大数据的概念一、大数据的概念 1、大数据的概念。、大数据的概念。“大数据”是一个涵盖多种技术的概

2、念,简单地说,是指无法在一定时间内用常规软件工具对2其内容进行抓取、管理和处理的数据集合。“大量化(Volume)、多样化(Variety)、快速化(Velocity)、价值密度低(Value)”是“大数据”的显著特征。 2 2、大数据的价值体现。、大数据的价值体现。大数据在 5 个方面创造价值,一是先见之明,通过已经发生的,正在发生的事件或实验结果发现或预测需求,洞察变化倾向;二是英明决策,通过自动算法代替来生成支持人类的决策;三是一目了然,能够及时有效的发现数据之间的关系;四是有的放矢,能够细化人群,定制行动;五是推陈出新,提供创新的商业模式、产品和服务。二、大数据的发展演变二、大数据的发

3、展演变大数据,IT行业的又一次技术变革,大数据的浪潮汹涌而至,对国家治理、企业决策和个人生活都在产生深远的影响,并将成为云计算、物联网之后信息技术产业领域又一重大创新变革。未来的十年将是一个“大数据”引领的智慧科技的时代。数据技术发展历史如图所示:3 大数据技术描述了一种新一代技术和构架,用于以很经济的方式、以高速的捕获、发现和分析技术,从各种超大规模的数据中提取价值,而且未来急剧增长的数据迫切需要寻求新的处理技术手段。目前,IT专业人员对云计算中诸多关键技术最为关心的是大规模数据并行处理技术。大数据并行处理没有通用和现成的解决方案,对于应用行业来说,云计算平台软件、虚拟化软件都不需要自己开发

4、,但行业的大规模数据处理应用没有现成和通用的软件,需要针对特定的应用需求专门开发,涉及到诸多并行化算法、索引查询优化技术研究、以及系统的设计实现,这些都为大数据处理技术的发展提供了巨大的驱动力。4三、大数据应用的核心技术需求三、大数据应用的核心技术需求(一)分析技术(一)分析技术分析技术意味着对海量数据进行分析以实时得出答案,由于大数据的特殊性,大数据分析技术还处于发展阶段,老技术会日趋完善,新技术会更多出现。大数据分析技术涵盖了以下的的五个方面1 1、可视化分析。、可视化分析。数据可视化无论对于普通用户或是数据分析专家,都是最基本的功能。数据图像化可以让数据自己说话,让用户直观的感受到结果。

5、2 2、数据挖掘算法、数据挖掘算法。图像化是将机器语言翻译给人看,而数据挖掘就是机器的母语。分割、集群、孤立点分析还有各种各样五花八门的算法让我们精炼数据、挖掘价值。这些算法一定要能够应付大数据的量,同时还具有很高的处理速度。3 3、预测分析能力。、预测分析能力。数据挖掘可以让分析师对数据承载信息更快更好地消化理解,进而提升判断的准确性,而预测性分析可以让分析师根据图像化分析和数据挖掘的结果做出一些前瞻性判断。4 4、语义引擎。、语义引擎。非结构化数据的多元化给数据分析带来新的挑战,我们需要一套工具系统的去分析,提炼数据。语义引擎需要设计到有足够的人工智能以足以从数据中主动地提5取信息。5 5

6、、数据质量和数据管理。、数据质量和数据管理。数据质量与管理是管理的最佳实践,透过标准化流程和机器对数据进行处理可以确保获得一个预设质量的分析结果。(二)(二)存储数据库存储数据库存储数据库(In-Memory Databases)让信息快速流通,大数据分析经常会用到存储数据库来快速处理大量记录的数据流通。比方说,它可以对某个全国性的连锁店某天的销售记录进行分析,得出某些特征进而根据某种规则及时为消费者提供奖励回馈。 NoSQL数据库是一种建立在云平台的新型数据处理模式,NoSQL在很多情况下又叫做云数据库。其在处理海量数据同时请求时,它也不会有任何问题。比方说,如果有1000万人同时登录某个Z

7、ynga游戏,它会将这些数据分布于全世界的服务器并通过它们来进行数据处理,结果与1万人同时在线没什么两样。(三)(三) 分布式计算技术分布式计算技术如果想要同时处理实时分析与NoSQL数据功能,那么你就需要分布式计算技术。分布式技术结合了一系列技术,可以对海量数据进行实时分析。更重要的是,它所使用的硬件6非常便宜,因而让这种技术的普及变成可能。SGI的Sunny Sundstrom解释说,通过对那些看起来没什么关联和组织的数据进行分析,我们可以获得很多有价值的结果。比如说可以分发现一些新的模式或者新的行为。运用分布式计算技术,银行可以从消费者的一些消费行为和模式中识别网上交易的欺诈行为。 分布

8、式计算技术让不可能变成可能,分布式计算技术正引领着将不可能变为可能。Skybox Imaging就是一个很好的例子。这家公司通过对卫星图片的分析得出一些实时结果,比如说某个城市有多少可用停车空间,或者某个港口目前有多少船只。它们将这些实时结果卖给需要的客户。没有这个技术,要想快速便宜的分析这么大量卫星图片数据将是不可能的。(四)(四) Hadoop-Hadoop-大数据处理的核心技术大数据处理的核心技术大数据不同于传统类型的数据,它可能由TB甚至PB级信息组成,既包括结构化数据,也包括文本、多媒体等非结构化数据。这些数据类型缺乏一致性,使得标准存储技术无法对大数据进行有效存储,而且我们也难以使

9、用传统的服务器和SAN方法来有效地存储和处理庞大的数据量。这些都决定了“大数据”需要不同的处理方法,而Hadoop目前正是广泛应7用的大数据处理技术。Hadoop是一个基于Java的分布式密集数据处理和数据分析的软件框架。该框架在很大程度上受Google在2004年白皮书中阐述的MapReduce的技术启发。Hadoop主要组件包含如下图:四、统计工作如何在大数据时代开拓创新四、统计工作如何在大数据时代开拓创新(一)大数据形势下的统计工作(一)大数据形势下的统计工作在政府统计发展历程中,现代信息技术得到了广泛运用,尤其是最近几年,我国建立了以基本单位名录库、企业一套表制度、统一的数据采集处理软

10、件和联网直报系统为核心的统计四大工程,全力推动计算机技术、网络技术、数据库技术、空间信息技术等现代信息技术在统计工作中的应用。统计数据生产方式正在发生着深刻变革。数据采集实现电子化。数据采集实现电子化。随着计算机在企业中的普及和企8业生产经营信息化水平的提高,国家统计局在2011年开始全面推行企业一套表制度,将所有面向企业的统计调查整合成统一的报表,由企业通过网络在线填写数据,实现了在线审核,实时上报。在价格调查和住户调查中大力推行手持电子终端,全面推行调查员直接调查和住户记账的电子化,不断加大手机和平板电脑等手持电子设备采集数据的力度,使住户、价格等调查的数据采集方式、汇总方式、上报方式和数

11、据审核方式发生根本性转变,有效减轻了采价员和记账户的工作量,大大促进了数据采集的规范化。数据处理实现网络化。数据处理实现网络化。我国已建成以国家统计局为中心,连接各省级、市级、县级统计机构和大部分乡镇、街道统计站的统计业务专网。依托业务专网,通过实施统计四大工程,建立起了以国家统计数据中心为核心,13个省级分节点数据中心组成的全国统一的统计联网直报体系。国家统计局各专业,各省、市、县、乡镇级统计机构可以按权限到国家数据中心获取企业等调查对象的原始数据,通过国家统计局开发的能够支持各专业、各地区进行数据处理、分析的统一的统计业务应用软件平台,实现在线加工数据。9资料存储实现数据库化。资料存储实现

12、数据库化。目前,已基本建成以统计业务流程为基础,与统计软件平台对接,能够方便管理和处理不同类别及统计业务的统计数据库体系,包括元数据库、基本单位名录库、经济地理信息库、专业原始数据库和国家数据库等。空间信息技术广泛应用空间信息技术广泛应用。近年来,统计部门积极探索遥感(RS)、地理信息系统(GIS)和全球定位系统(GPS)为代表的空间信息技术在统计中的应用。在“三农”调查领域,国家统计局已在江苏等地开始利用遥感技术进行农作物对地抽样调查和农作物播种面积遥感测量。在投资统计领域,正在探索利用遥感和全球定位系统开展投资项目调查和监测。在普查领域,通过使用国土资源部门提供的高分辨率卫星遥感影像资料和

13、相关地理数据,对普查小区进行了无缝划分和统一管理,确保了对所有普查小区的完整覆盖、不重不漏。在普查资料开发利用中,构建起适应国家、省、市、县、乡镇应用需要的5级基本单位统计空间信息系统和人口地理信息系统。( (二二) )大数据时代统计发展面临的难题大数据时代统计发展面临的难题 在初步了解了大数据技术及统计信息化发展状况后,对比我们的统计工作,不难发现,目前统计工作在技术应用方10面已经不能有效地合上新技术发展节拍,在大数据应用方面与一些国内公司的差距也在不断扩大,归纳原因主要是我们对数据多样性需求不足,导致相关应用得不到及时有效开发。1 1、数据采集、收集方式有待改进。、数据采集、收集方式有待

14、改进。一是统计数据的采集方式信息化程度依然不高,依然是调查单位定期录入繁多的指标数据,继续遵循着“我布置,你填报”的模式,给调查对象的任务多,为调查对象提供的服务少,调查对象的配合度整体不高,源头数据质量难以保证;二是数据来源方式较少,不能有效、及时整合各部门行政记录和企业的原始会计记录等。2 2、缺乏有效的数据分析、挖掘工具。、缺乏有效的数据分析、挖掘工具。海量的数据收集完成后,仅仅在完成简单叠加汇总后就束之高阁,缺乏开发欲望和有效的数据开发手段。缺乏单个指标特性挖掘工具,不能有效地发掘关联指标间相关性关系,无法揭示其中蕴藏的社会发展趋势及商业价值;数据处理平台建设滞后于社会发展需要,信息化

15、程度有待进一步提高。3 3、社会对政府统计数据需求不足。、社会对政府统计数据需求不足。目前,我们常规统计数据发布后在社会中能引起反响的不多,甚至还没有民间统计数据吸引眼球。导致出现这种情况的原因复杂,但主要有11以下几种原因:一是政府统计数据在公信力方面有待提高,政府统计数据公信力不强,使数据失去了意义,自然吸引不了目光。二是不能有效及时统计社会关注点,主动性不强,给人们的感受就是统计数据与他们无关。三是对宏观数据的解读不够,通过观察我们不难发现,每次宏观数据发布后往往是媒体和机构在解读数据,统计本身对数据的解读较少,致使调查对象不能有效地理解宏观数据对自身的影响,关注需求降低。(三)统计工作

16、如何适应大数据革命(三)统计工作如何适应大数据革命面对迅猛发展的大数据革命浪潮,我们不能坐以待毙,要主动出击,抓住这一促进统计大发展的良机,力争在大数据时代占有一席之地,以巩固我们统计的阵地,促进社会经济又好又快发展。1 1、加大统计信息化系统投入、加大统计信息化系统投入。要进一步完善统计信息系统体系建设,使系统更加安全、稳定、高效,切实做到“提高统计能力,提高统计数据质量,提高统计公信力”,为加速统计工作现代化,提升国家软实力做出更大的贡献。2 2、运用多种技术提高统计信息化水平。、运用多种技术提高统计信息化水平。积极运用遥感、地理信息技术、全球定位系统、物联网、云计算等技术,力争早日实现统

17、计调查项目设计、工作布置和统计数据采集、12上报、汇总、处理、发布的电子化、网络化和无纸化。3 3、扩大原始数据来源。、扩大原始数据来源。争取在不久的将来,实现主要通过整理各部门行政记录和搜集企业会计财务与经营记录来采集原始数据,在价格调查中尝试利用电子商务的交易数据,在企业调查中考虑直接利用企业的电子化生产经营及财务会计数据,在批发零售业统计中利用大型商场、超市的电子化交易数据。4 4、在提供信息服务上下功夫。、在提供信息服务上下功夫。既要为党政领导提供决策数据,又要为普通民众和调查对象提供服务,让普通民众关心的衣食住行都能在统计中找到答案,重新树立统计的地位。主动为调查对象提供国际国内相关

18、宏观经济信息、行业运行信息和统计咨询服务功能,使调查对象在为政府提供资料的同时,能够及时获得信息服务。5 5、深入数据挖掘。、深入数据挖掘。引入商业公司对海量的统计数据进行开发,对外提供有价值的商业信息服务。引入有能力的商业公司对海量数据进行有效开发和分析,实现对规模化、多样化、高速化的海量数据进行有效的整合和管理,并应用先进的分析方法对数据进行智慧洞察;对数据进行技术的分析与预测,实现大数据的清晰呈现;利用商业公司提供的丰富开发工具来开发分析应用,向社会提供从大数据开发中产生的商业价值。13 6 6、将行政数据向民间开发。、将行政数据向民间开发。使民间机构能够通过对数据的分析摸清行业发展趋势,形成制定决策的依据,以便不断创造新商务,推动商业成功。五、参考文献五、参考文献1. 于薇:“大数据”背景下的信息处理技术分析与研究 , 数字图书馆论坛 ,201

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论