大数据及其特点_第1页
大数据及其特点_第2页
大数据及其特点_第3页
大数据及其特点_第4页
大数据及其特点_第5页
免费预览已结束,剩余1页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、大数据及其特点(1)胡经国一、大数据定义据了解,目前大数据这一概念尚无大家公认的统一定义。下面仅介绍关于 大数据定义的一些常见表述,供读者参考。1、表述1大数据(Big Data)是指一个数据集,它的尺寸大到已经无法由传统的数据 库软件工具去采集、存储、管理和分析。Big Data referes to datasets whose size is beyond the ability of typical database software tools to capture, store, man age, and an alyze.MGI May,2011大数据是指一个数据集,它的尺寸的增

2、长已经让现有的数据库管理工具相 形见绌,这些困难包括:数据采集、存储、搜索、分享、分析和可视化。Big data are datasets that grow so large that they become awkward to work with using on-hard database management tools. Difficulties include capture, storage, search, shari ng, an alytics, and visualiz ing. Wikipedia2、表述2大数据是指需要用新的处理模式处理才能使其具有更强的决策力、洞察

3、发 现力和流程优化能力的海量、高增长率和多样化的信息资产。从数据的类别上 看,大数据是指无法使用传统流程或工具处理或分析的信息。它定义了那些超 出正常处理范围和大小、迫使用户采用非传统处理方法的数据集。3、表述3大数据是指所涉及的资料量规模巨大到无法通过目前主流软件工具,在合 理时间内达到掘取、管理、处理、并整理成为帮助企业经营决策达到更积极目 的的资讯。4、表述4美国咨询公司麦肯锡给出的大数据定义:大数据是指其大小超出常规数据 库工具的采集、存储、管理和分析能力的数据集。由于传统数据库有效工作的数据上限一般为10100TB;因而10100TB通常成为大数据的“门槛”。无独有偶,IDC (国际

4、数据公司)在给大数据做定义时,也把大数据的 “门槛”设在100TB。其实,这种方法未必科学。不管怎样,有一个简单明晰 的数值来指导对大数据的判断总是好事。5、表述5维基百科给出的大数据定义:所谓大数据在当今的互联网业界是指这样一种现象:一个网络公司日常运营所生成和积累的用户网络行为数据增长如此之快,以至于难以使用现有的数据库管理工具来驾驭,困难存在于数据的获取、 存储、搜索、共享、分析和可视化等方面。”这些数据量是如此之大,已经不能 用我们以所熟知的多少 G和多少T为单位来衡量,而要以P、E或Z为计量单 位来衡量,所以称之为大数据。6、表述6国际数据公司(IDC)是从大数据的4V特点来定义的,

5、即:海量的数据规 模(Volume)、快速的数据流转和动态的数据体系( Velocity )、多样的数据 类型(Variety)、巨大的数据价值(Value)。7、表述7大数据是指以多元形式、从许多来源搜集而来的往往具有实时性的庞大数 据组。在企业对企业销售的情况下,这些数据可能来源于社交网络、电子商务 网站、顾客来访纪录,还有许多其他来源。这些数据并非公司顾客关系管理数 据库的常态数据组。8表述8大数据是指所涉及的数据量规模巨大到无法通过人工、在合理时间内达到 掘取、管理、处理、并整理成为人类所能解读的信息。大数据的特征,除了巨 大、快速、多样多变之外,没有其他。因此,大数据本质上还是数据。

6、9、表述9故名思意,大数据便是数量巨大,类型众多,结构复杂的数据集合。数据 具有较小的价值;而数据集合因为数量众多,量变引起质变,所以其价值无可 估量。10、表述10大数据是指所有数据的集合,具有 4V特点,即:数据量大(Volume)、 数据类型多样(Variety )、生成速度快(Velocity )、蕴含巨大价值(Value)。、大数据到底有多大据报道,有记者就大数据有关问题对有关专家进行了访谈。现将其访谈录 介绍如下,供读者参考。记者:对于大数据有一个形象的说法:现在即使是一个孩子也可以把一个 小小的存储器放入书包,随身携带 TB级的数据去学校上课,甚至把整个人类 文明背上都不是问题。

7、经过大量数据的训练和装备,未来的电子产品或者机器 可以成为大有裨益的终身数据伴侣:它可以预测你是想要一包方便面还是一颗 感冒药;你想去旅游还是选择最不堵车的路线去看球赛;甚至还能以你的名义饱蘸激情投入工作。大数据这个概念,看似从字面就能理解;但是确实以前没 有这么火过。首先,我们想知道的是,大数据到底有多大?专家:互联网搜索、电子商务交易平台和微博等社交网站所产生的各种数 据内容,经常被用来证明大数据之大。其实,在传统产业和我们的生活中,大 数据比比皆是。以北京市交通智能化分析平台为例,它的数据源是路网摄像头/传感器、地面公交、轨道交通、出租车以及省际客运、旅游、化学危险品运输、停车、租 车等

8、运输行业等。4万辆浮动车每天产生2000万条记录;交通卡刷卡记录每天 1900万条;手机定位数据每天1800万条;出租车运营数据每天100万条;高 速ETC (Electronic Toll Collection,(不停车)电子收费(系统)数据每天 50万条这些信息,从数据体量和速度上,都达到了大数据的规模。发掘这些形态各异、快慢不一的数据流之间的相关性,是大数据做前人之 未做、前人所不能做的机会。这也正是大数据最主要的特证。比如,交通状况与其它领域的数据都存在较强的关联性。研究发现,可以 从供水系统数据中发现,晨洗的高峰时间加上一个偏移量,通常是4045分钟,这就是交通早高峰时间。同样,可以

9、从电网数据中,统计出傍晚办公楼集 中关灯的时间加上偏移量来估计出晚上的堵车时间。国外的研究甚至发现了交 通事故率与睡眠质量的关联,以及与社交网络情感波动的相关性。记者:IT业界所指的数据诞生不过60多年。而一直到个人电脑普及以前,由于存储、计算和分析工具的技术和成本限制,因而许多自然界和人类社 会值得记录的信息,并未形成数据。大数据到底有没有一个门槛”关于大数据的一些定义准确吗?专家:国际数据统计机构(IDC)对全世界每年创建和复制的信息的体量 做了估计和预测:2011年为1.8ZB, 2012年为2.8ZB。按照每两年翻一番的速 度,2020年将达到40ZB。这个数据怎么算出来的呢? IDC

10、秘而不宣。1.8ZB是 什么概念?它相当于4500亿张DVD,或6500万年的高清视频,或1130亿台 装满数据的iPad。如果把这些iPad覆盖到足球场并往上堆叠,其高度可达到 10.3公里,比珠穆朗玛峰还高。思科公司也有一个类似的预测:2016年数据移动的总量达到1.3ZB。其实,所有这些数据加起来都不如谷歌的前CEO施密特的下述说法有感染力:从人类文明曙光到2003年数以万年计的时间长河里,人类一共产生了 5EB (天知道他是怎么算出来的),而到 2010年每两天人类就能 产生5EB的数据。这类数据的预测对于存储和网络企业的投资者来说无疑能提升信心;但是 对其他人来说没有太大意义。他们更

11、关心的是个体行业、企业和个人数据的状 况。美国咨询公司麦肯锡对大数据的定义就是从个体数据集的大体量入手的: 大数据是指那些很大的数据集,大到传统的数据库软件工具已经无法采集、存 储、管理和分析。传统数据库有效工作的数据上限,一般来说为10100TB ;因此,10100TB通常就成为大数据的“门槛”。无独有偶,IDC在给大数据 做定义时,也把其 门槛”设在100TB。其实,这种方法未必科学。不管怎样,有一个简单明晰的数值来指导企业对大数据的判断总是好事。三、大数据的4V特点1大数据4V特点解读(1)大数据的4V特点是指大数据在 Volume (大量)、Variety (多样)、 Velocity

12、 (高速)、Value (价值)这4个方面(层面)的特点。、Volume (大量)Volume (大量)是指大数据的体量(规模、容量或尺寸)巨大,从TB级别跃升到PB级别。二进制信息最小基本单位为Bit (比特),按顺序其所有单位为: Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。其中,1 Byte (字节)=8bit其它按照进率1024 (=210)来计算,即:1KB ( Kilobyte,千字节)=1024Bytes=1024B1MB (Megabyte,兆字节,简称兆)=1024KB1GB (Gigabyte,吉字节)=1024MB1TB (Terabyte

13、,太字节)=1024GB1PB (Petabyte,拍字节)=1024TB1EB ( Exabyte,艾字节)=1024PB1ZB (Zettabyte,泽字节)=1024EB1YB (Yottabyte,尧字节)=1024ZB1BB ( Brontobyte) =1024YB1NB=1024BB1DB=1024NB(2)、Variety (多样)Variety (多样)是指大数据类型繁多,如网络日志、视频、图片、地理位 置信息等等。、Velocity (高速)Velocity (高速)是指大数据处理速度快,要求满足1秒定律。所谓1秒定律,或称秒级定律,是指对大数据处理速度有一定要求,一般要求

14、在秒级时间 范围内给出分析结果,时间太长就失去价值了。这个速度要求是大数据处理技 术和传统数据挖掘技术之间的最大区别。、Value (价值)Value (价值)是指大数据价值密度低。以视频为例,在连续不间断视频监 控过程中可能有用的数据仅仅只有一两秒。2、大数据 4V 特点解读( 2) 虽然对大数据的特点有不同说法,但是业界一般认为,大数据具有 4V 特 点,即:大数据在 Volume (容量)、Variety (种类)、Velocity (速度)和最 重要的Value (价值)这4个方面(层面)的特点。、Volume (容量)Volume (容量)是指大数据巨大的数据量与数据完整性。IT业界

15、所指的数据诞生不过 60 多年。而一直到个人电脑普及之前,由于存储、计算和分析工具 的技术和成本限制,许多自然界和人类社会值得记录的信号并未形成数据。几 十年前,气象、地质、石油物探、出版业、媒体业和影视业是大量、持续产出 信号的行业,但是那时 90%以上采用的是存储模拟信号,难以通过计算设备和 软件进行直接分析。拥有大量资金和人才的政府和企业,也只能把少量最关键 的信号,进行抽取、转换、装载到数据库中。尽管业界对达到怎样的数量级才算是大数据并无定论,但是在很多行业的 应用场景里,数据集本身的大小并不是最重要的,而是否具有完整性才是最重 要的。、 Variety (种类)Variety (种类

16、)意味着要在海量、种类繁多的数据之间发现其内在关联。 在互联网时代,各种设备通过网络连成了一个整体。进入以互动为特征的 Web 2.0 时代,个人计算机用户不仅可以通过网络获取信息,而且已成为信息的制造 者和传播者。在这个阶段,不仅是数据量开始爆炸式增长,数据种类也开始变 得繁多。这必然促使我们对海量数据进行分析、处理和集成,找出原本看来毫无关 系的那些数据之间的关联性,把似乎没有用的数据变成有用的信息,以支持我 们做出正确的判断。、Velocity (速度)Velocity (速度)可以理解为更快地满足实时性需求。数据的实时化需求正 越来越清晰和迫切。对普通人而言,开车去吃饭,会先用移动终端中的地图查 询餐厅的位置,预计行车路线的拥堵情况,了解停车场信息甚至是其他用户对 餐厅的评论。吃饭时,会用手机拍摄食物的照片,编辑简短评论发布到微博或 者微信上。还可以用 LBS (基于位置的服务)应用查找在同一间餐厅吃饭的 人,看有没有好友在附近 。如今,通过各种有线和无线网络,人和人、人和各种机器、机器和机器之 间产生无处不在的连接。这些连接不可避免地带来数据交换。而数据交换的关 键是降低延迟,以近乎实时(这意味着小于 250 毫秒)的方式呈献给用户。、Value (价值)比前面3个特点更重要的就是 Value (价值)。它是

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论