版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、大数据分类大数据分类大数据分类按产生主体划分最里层:少量企业应用产生的数据 关系型数据库关系型数据库中的数据中的数据 数据仓库中的数据仓库中的数据数据 微博、微信微博、微信 电子商务在线交电子商务在线交易日志数据易日志数据 呼叫中心评论、呼叫中心评论、留言或者电话投留言或者电话投诉等诉等 企业应用的相关企业应用的相关评论数据评论数据 应用服务器日志应用服务器日志 传感器数据(天传感器数据(天气、水、智能电气、水、智能电网等)网等) 图像和视频(摄图像和视频(摄像头监控数据等)像头监控数据等) RFID、二维码或、二维码或条形码扫描数据条形码扫描数据次外层:大量人产生的数据最外层:巨量机器产生的
2、数据大数据分类按数据来源划分 通过服务器和数据中心数量,以及各行业数据梳理,大通过服务器和数据中心数量,以及各行业数据梳理,大致判断国内致判断国内20132013年一年产生的数据总量以及大致分布,数年一年产生的数据总量以及大致分布,数据主要分布在以下行业:据主要分布在以下行业:1 1、BATBAT为代表的互联网公司。为代表的互联网公司。2 2、电信、金融、保险、电力、石化系统。、电信、金融、保险、电力、石化系统。3 3、公共安全、医疗、交通领域。、公共安全、医疗、交通领域。4 4、气象、教育、地理、政务等。、气象、教育、地理、政务等。5 5、其他,商业销售、制造业、农业、物流和流通等领域。、其
3、他,商业销售、制造业、农业、物流和流通等领域。阿里巴巴 目前保存的数目前保存的数据量为据量为近百近百PB 拥有拥有90%以上以上的的电商数据电商数据 交易数据、用交易数据、用户浏览和点击户浏览和点击网页数据、购网页数据、购物数据物数据 2013数据总量接数据总量接近近一千个一千个PB 中文网页、百度中文网页、百度推广、百度日志、推广、百度日志、UGC 以以70%以上的搜以上的搜索市场份额坐拥索市场份额坐拥庞大的庞大的搜索数据搜索数据腾讯 总存储数据量经总存储数据量经压缩处理以后在压缩处理以后在100PB左右左右 数据量月增数据量月增10% 大量大量社交社交、游戏、游戏等领域积累的文等领域积累的
4、文本、音频、视频本、音频、视频和和关系类数据关系类数据 添加标题百度BAT为代表的互联网公司大数据分类按数据来源划分电信行业 用户上网记录用户上网记录、通话通话、信息信息、地理位置地理位置 运营商拥有的运营商拥有的数据数量都在数据数量都在10PB以上以上 年度用户数据年度用户数据增长增长约数十约数十PB 开户信息数据开户信息数据,银行网点和在线银行网点和在线交易数据、自身交易数据、自身运营的数据运营的数据 金融系统每年产金融系统每年产生数据达生数据达数十数十PB 保险系统保险系统数据量也接近接近PB级别电力与石化 仅国家电网采集仅国家电网采集获得的数据总量获得的数据总量就上就上10个个PB级别
5、级别 石油化工、智能石油化工、智能水表等领域每年水表等领域每年产生和保存下来产生和保存下来的数据量也达到的数据量也达到数十数十PB级别。级别。金融与保险电信、金融、保险、电力、石化系统大数据分类按数据来源划分公共安全 北京:北京:50万个万个监控摄像头,监控摄像头,每天采集视频每天采集视频数据量数据量约约3PB 整个视频监控整个视频监控每年保存下来每年保存下来的数据的数据在数百在数百PB以上以上 仅广州中山大学仅广州中山大学医院医院2013年数据年数据量为量为1000个个TB 整个医疗卫生行整个医疗卫生行业一年能够保存业一年能够保存下来的数据就可下来的数据就可达到达到数百数百PB交通 航班往返
6、一次能航班往返一次能产生数据就达到产生数据就达到TB级别级别 列车、水陆路运列车、水陆路运输产生的各种视输产生的各种视频、文本类数据,频、文本类数据,每年保存下来的每年保存下来的也达到也达到数十数十PB。 添加标题医疗卫生公共安全、医疗、交通领域大数据分类按数据来源划分气象与地理 中国气象局保中国气象局保存的数据约存的数据约45PB,每年,每年约增约增数百个数百个TB 各种地图和地各种地图和地理位置信息每理位置信息每年年约数十约数十PB 北京市政务数据北京市政务数据资源网涵盖旅游、资源网涵盖旅游、教育、交通、医教育、交通、医疗等门类,一年疗等门类,一年上线公布了上线公布了余个余个数据包数据包
7、政务数据多为结政务数据多为结构化数据构化数据政务与教育气象、教育、地理、政务等领域大数据分类按数据来源划分商业销售、制造业、农业、物流和流通等领域大数据分类按数据来源划分其他传统行业线下商业销售、农林牧渔业、线下餐饮、食品、科研、物流运输等行业数据量剧增行业数据量还处于积累期,整个体量都不算大,多则达到PB级别,少则百TB甚至数十TB级别。制造业制造业的存储数据类型:产品设计数据:以文件为主,非结构化,共享要求较高,保存时间较长。企业生产环节的业务数据:数据库结构化数据生产监控数据:数据量非常大大数据分类按存储形式划分 大数据不仅仅体现在数据量大,也体现在数据类型多。如此海量的数据中,仅有20
8、%左右属于结构化的数据,80%的数据属于广泛存在于社交网络、物联网、电子商务等领域的非结构化或半结构化的数据。大数据分类按存储形式划分结构化数据即行数据,可用二维表结构来逻辑表达实现主要存储在关系型数据库中先有结构再有数据,结构一般不变处理起来较方便大数据分类按存储形式划分非结构化数据相对于结构化数据而言,不方便用数据库二维逻辑表来表现非纯文本类数据,没有标准格式包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息存储在非结构数据库中非结构化WEB数据库:突破了关系数据库结构定义不易改变和数据定长的限制大数据分类按存储形式划分半结构化数据介于完全结构化数据和完全
9、无结构的数据之间格式较为规范,一般都是纯文本数据包括日志数据、XML、JSON等格式的数据一般是自描述的,数据的结构和内容混在一起,没有明显的区分数据模型主要为树和图的形式。新周刊微博案例分享作为国内新锐媒体代表的“新周刊”是新浪微博的第一批受益媒体,他们开通了新浪微博后,截止到2010年11月19日,粉丝数已经达到了878966人,发表微博6488条。封新城新周刊主编、媒体微博交相呼应截止到2010年11月,封新城的微博粉丝数已接近36万都市快报微博案例分享微博话题征集:都市快报通过在新浪微博上进行写给100岁新中国的信,并通过整版选取内容刊登,极富新意版面整体合作:推出微生活栏目,此栏目是都市快报和新浪网合作推出
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 初中模拟跑步考试题及答案
- 纳米级轻质碳酸钙项目可行性研究报告立项申请报告范文
- 中国氯硝柳胺项目创业计划书
- 中国锂电池后处理系统项目创业计划书
- 中国针状焦项目投资计划书
- 2025年2月建筑工程安全生产技术模拟题(附参考答案)
- 中国水泥制造项目创业计划书
- 2025年仓储安全管理员考试押题预测专项训练试卷
- 2025年房屋建筑工程施工合同索赔处理
- 呼吸三基考试试题及答案
- 涵洞内布放光缆施工方案
- 2025年前程无忧笔试题及答案
- 2025江苏苏州市相城城市建设投资(集团)有限公司人员招聘考前自测高频考点模拟试题及答案详解(夺冠)
- 婚庆车队合同(标准版)
- 荆州市城市发展控股集团有限公司招聘笔试
- 2025年国家公务员考试《行测》真题卷(行政执法)及答案
- 2025至2030中国脑深部电刺激(DBS)设备市场应用规模与重点企业发展调研报告
- 屋顶彩钢加固施工方案
- 茶叶生产企业质量管理体系手册
- 车间高温烫伤安全培训课件
- 财税咨询公司知识培训课件
评论
0/150
提交评论