




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、大数据的挑战大数据时代大数据时代 n每天,有海量数据产生:新浪微博用户发博量超过1亿亿条;百度大约要处理数十亿十亿次搜索请求;淘宝网站的交易达数千万千万笔;联通的用户上网记录一天达到10TB。每年,互联网上的数据每年将增长50%,每两年便将翻一番。目前世界上90%以上的数据是最近几年才产生的。n随着物联网的发展,机器和机器、现有智能设备网络中产生的数据,数量会更大。数据的变化n总量迅速增加n形态迅速变化n非结构数据、图像、轨迹、网络等数据日益增长n数据之间的联系日益增强什么是大数据?n“大数据”是一个含糊的词汇n大多数公司感兴趣的是所谓的“现实数据”,诸如网页搜索记录、信用卡消费记录和移动电话
2、与附近基站的通信记录等等n虽然这类数据的规模很大,但却相对容易采集。它们往往是由于不同的用途被搜集起来并杂乱的堆积在一起,而且可以实时的更新。大数据的4V特点VolumeVolume海量的数据规模海量的数据规模Variety多样的数据类型多样的数据类型ValueVelocity快速的数据流转快速的数据流转巨大的数据价值巨大的数据价值大数据的特征n稠密与稀疏共存:局部稠密与全局稀疏n冗余与缺失并在:大量冗余与局部缺失n显式与隐式均有:大量显式与丰富隐式n静态与动态忽现:动态演进与静态关联n多元与异质共处:多元多变与异质异性n量大与可用矛盾:量大低值与可用稀少流感预测n可以比疾病中心更早的预测流行
3、趋势n利用5000万搜索关键词的数据,并和疾病控制中心里面每天 报告的传染病、流感的患病人数进行对比,找到100个最有关联的数据,通过非常简单的多变量的线性回归找到45个,用45个最关联的关键词进行预测大数据的价值n只要有足够多数据, 数字自己就能说话n数据分析可以生成惊人准确的结果n数据更全,可以彻底淘汰过去那种抽样统计的方法;长尾特征n不用寻找现象背后的原因,只需要知道两者之间有统计相关性就行了n不再需要科学的或者统计的模型,”理论被终结了”大数据存储n键值模型n列式模型n文档模型n图形模型键值存储n主要思想来自于数据结构中的哈希表:一个特定的key 和一个 value 指针,指向特定的数
4、据n数据模型简单,易于实现,非常适合通过 key 对数据进行查询和修改等操作n不利于批量数据的查询、更新操作,也不支持特别复杂逻辑的数据操作nDynamoDB 是亚马逊的key-value模式的存储平台列式存储n在存储数据时,主要围绕这“列”而非“行”进行存储,同一列的数据会尽最大的可能存放在硬盘的同一个页上n对于同一列数据进行海量数据分析的时候,将会大量的减少硬盘的I/O操作nHBase是一个面向列存储的、分布式的基于 Google BigTable的开源实现文档存储n文档数据库可以看作是键值数据库的升级版,主要是以 JSON 或者类 JSON 格式的文档来进行存储,允许嵌套键值nMongo
5、DB、CouchDB图存储n由于关系数据库的特点,数据库的性能在对文件树这样的递归结构和社交网络结构查询时会受到极大的影响n为了解决性能的缺陷,人们提出了图形模型n采用图结构存储数据进行各种复杂的运算,如最短路径计算、测地线、集中度测量等n Neo4j 、GraphDB大数据大数据与云计算与云计算大数据储存大数据储存大数据处理大数据处理数据分享数据分享数据检索数据检索数据分析数据分析数据展现数据展现分布式软件架构并行计算框架分布式存储横向扩容(Scale-out) 架构大数据处理的平台解决方案企业的资料云 硬件与软件一体 / 储存与运算合一Big Data 运算与储存,单一架构解决Etu Ap
6、plianceMapReduce 模型n首先将用户的原始数据源进行分块,然后分别交给不同的 Map 任务区处理。nMap 任务从输入中解析出 Key/Value 对集合,然后对这些集合执行用户自行定义的Map 函数得到中间结果,并将该结果写入本地硬盘。nReduce 任务从硬盘上读取数据之后,会根据 key 值进行排序,将具有相同 key 值的组织在一起。n最后用户自定义的 Reduce 函数会作用于这些排好序的结果并输出最终结果。Hadoopn是目前最为流行的大数据处理平台n已经发展成为包括文件系统(HDFS)、数据库(HBase、Cassandra)、数据处理(MapReduce)等功能模
7、块在内的完整生态系统(Ecosystem)。n已经成为大数据处理工具事实上的标准HIVEn建立在 Hadoop 基础之上的数据仓库n支持类似于传统RDBMS中的SQL语言来帮助查询 Hadoop 中的数据n方便为 Hadoop 与其他 BI 工具结合大数据下的算法n算法不再重要?n一战时发明的一个算法,当时没法达到预期一战时发明的一个算法,当时没法达到预期的目标,而现在还是用这个算法,提前的目标,而现在还是用这个算法,提前3天天预报准确率达到预报准确率达到95%n简单算法有时效果甚至更好简单算法有时效果甚至更好n对算法的效率、并行性要求更高对算法的效率、并行性要求更高大数据的应用n预测n电影票
8、房n选举n股市n交通n经济n预警n流感n安全n情绪大数据的其他应用场景n医疗n教育nMooc平台数据分析n体育n环境n救灾n舆情与空间有关的大数据研究n签到n网上地理内容n社交网络分析n查询数据n手机n比利时研究者通过获取手机记录,完成了高质量的人口调查n疾病追踪众包GISn以用户为中心n依托小型、非专业设备n只要有足够的测试员及共同开发者,所有问题都会在很短时间内被发现,而且能够很容易被解决n众包方案中的地理信息有时是模糊不清大数据的安全与隐私保护n隐性的数据暴露n数据公开与隐私保护的矛盾n数据动态性大数据的失败n乐购n即便是富有且数据详实的忠诚度计划与分析能力,也无法匹敌更低的价格与更简单
9、的购物体验的竞争优势nI2的失败n最高市值曾达到300亿美元;NIKE认为使用i2造成预测不准;2010年公司仅以6亿美元卖给JDA;又被索赔2.46亿美元谷歌流感预测不准n2013 年 2 月,自然杂志指出 “谷歌流感趋势” 对 2012 年底美国流感类疾病患者数目的估计比美国疾病控制与预防中心给出的数据高了约一倍。 不仅如此, “谷歌流感趋势” 在 2008-2009 年间对瑞士、 德国、 比利时等国的流感类疾病患者数目的估计也都失过准n因为媒体对那段时间的美国流感类疾病作了渲染, 使得很多非患者也进行了有关流感的搜索, 从而干扰了 “谷歌流感趋势” 的估计n只要存在这种误差, 数据量再大
10、也无济于事大数据的局限n不是所有的数据都有价值n不是所有的规律都是真的n2006-2011 年间, 美国的犯罪率和微软 IE 浏览器的市场占有率就明显相关 (同步下降), 但却是毫无价值的相关性n具有系统性偏差n推特中年轻的,居住在大城市或者城镇的,黑色皮肤的用户比例偏高n滞后与不够准确有时候,数字是会骗人的什么是可预测的?n足球:棒球n棒球:运动员具有相当的独立性,场上的随机因素也比较少n足球:运动员相互依赖,具有连锁反应城市计算n城市计算的基本框架包括城市感知及数据捕获、数据管理、城市数据分析和服务提供。城市感知n利用城市现有的资源(如手机、传感器、车辆和人等),在不干扰人们生活的前提下自
11、动感知城市n人作为传感器参与到城市感知过程n手机数据n社交网络n公交刷卡n数据更加丰富,但也更加随机、无序、难以预测、不可控海量异构数据的管理n气象是时序数据,兴趣点是空间点数据,道路是空间图数据,人的移动是轨迹数据(时间+ 空间),交通流量是流数据,社交网上用户发布的信息是文本或图像数据n如何管理和整合大规模的异构数据是一个新的挑战异构数据的协同计算n从不同的数据源中获取相互增强的知识n提高对大数据的分析效率n数据维度的增加也容易导致数据稀疏性问题虚实结合的混合式系统n云加端模式:信息产生在物理世界,通过终端设备被收集到云端(虚拟世界)分析和处理,最后云再将提取的知识作为服务提供给物理世界的
12、终端用户n这对系统的设计和搭建提出了更高的要求利用轨迹数据优化道路规划利用兴趣点数据和人们的移动模式研究城市功能分区利用群体感知监控空气质量37 智慧城市需要打造一个统一平台一个统一平台,设立城市数据中心城市数据中心,构建三张基础网三张基础网络络,通过分层建设,达到平台能力及应用的可成长、可扩充,创造面向未来的智慧城市系统框架。建立智慧城市框架建立智慧城市框架网络层网络层Network通讯网通讯网 互联网互联网物联网物联网手机手机摄像头摄像头RFIDRFID传感器网络传感器网络视频电话视频电话internetinternet呼叫中心呼叫中心无线网关无线网关感知层感知层Perception应急指
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 小学五年英语阅读教学设计
- 2025届福建省厦门市思明区夏门一中高三第一次调研测试英语试卷含解析
- 工业废水中级模拟试题与答案
- 桥隧中级工题库+答案
- 山西省2024-2025学年高二下学期期中联合考试英语试题(原卷版+解析版)
- 糖果与巧克力行业绿色发展考核试卷
- 航标器材多功能集成设计考核试卷
- 游乐设备材料腐蚀防护与耐用性考核试卷
- 船舶港口自动化考核试卷
- 收养儿童的跨文化沟通与语言教学考核试卷
- 固定资产情况表
- 自动交换光网络(ASON)课件
- 标签打印管理办法及流程
- DB37T 4074-2020 山东省美丽村居建设标准
- 水电工程达标投产规划
- GB∕T 40499-2021 重型汽车操纵稳定性试验通用条件
- 工作计划与目标管理讲义通用PPT课件
- 大客户销售管理培训方案(共31页).ppt
- 六年级下册经典诵读DOC
- 肿瘤科护士的职业防护ppt课件
- 基于单片机的无线射频收发系统
评论
0/150
提交评论