大数据技术的发展35_第1页
大数据技术的发展35_第2页
大数据技术的发展35_第3页
大数据技术的发展35_第4页
大数据技术的发展35_第5页
已阅读5页,还剩30页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据技术发展数据库技术发展历史无库时代层次状数据库网状数据库关系型数据库分布式数据库层次型数据库

关系型数据库之父:E.F.Codd关系型数据库

1970年,Codd划时代的论文《用于大型共享数据库的关系数据模型》关系与关系代数

SQL之父唐·钱伯林(DonChamberlin),是IBMFellow,ACM及IEEE特别会员。

他是SQL关系数据库语言的发明人之一,也是XQuery语言的设计基础Quilt

语言的发明人之一。Don拥有加利福尼亚大学博士学位。他目前在

IBMAlmaden研究中心工作,在过去几年中,他代表IBM参与W3CXMLQuery

工作组的工作。左起EdOates、BruceScott、BobMiner、LarryEllison

Oracle

CEOLarryEllison变化来了之一:数据量爆炸增长全球每秒钟发送290万封电子邮件,一分钟读一篇的话,足够一个人昼夜不息的读5.5年…每天会有2.88万个小时的视频上传到Youtube,足够一个人昼夜不息的观看3.3年…推特上每天发布5千万条消息,假设10秒钟浏览一条信息,这些消息足够一个人昼夜不息的浏览16年…每天亚马逊上将产生6.3百万笔订单…每个月网民在Facebook上要花费7千亿分钟,被移动互联网使用者发送和接收的数据高达1.3EBGoogle上每天需要处理24PB的数据…大数据时代到来变化来只二:非结构化类型增加成主流大数据来源TBPBZBEB大量新数据源的出现则导致了非结构化、半结构化数据爆发式的增长根据IDC监测,人类产生的数据量正在呈指数级增长,大约每两年翻一番,这个速度在2020年之前会继续保持下去。这意味着人类在最近两年产生的数据量相当于之前产生的全部数据量数据量增加数据结构日趋复杂这些由我们创造的信息背后产生的这些数据早已经远远超越了目前人力所能处理的范畴大数据时代已经来临..大数据的兴起“大数据或称巨量数据、海量数据、大资料,指的是所涉及的数据量规模巨大到无法通过人工在合理时间内达到截取、管理、处理、并整理成为人类所能解读的信息。”(维基百科)“大数据是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。”(百度百科)“大数据是人们获得新认知、创造新价值的源泉,还是改变市场组织机构,以及政府与公民关系的方法

。”(《大数据时代》)“大数据是数据量在10TB以上、需要采用新兴的大数据技术加以收集、处理和应用,以展现更多社会、商业价值的数据。”(个人总结)大数据的诠释非结构化处理案例(BigTable)数据变革的现实驱动力数据量爆炸性增长

需要分布式存储数据类型增加需要半结构化存储数据模型日渐复杂弱化关联的需求PC服务器成本下降PC服务器大行其道数据变革的理论驱动力-CAP理论CAP(Consistency,Availability,Patitiontolerance)又叫做布鲁尔定理(Brewer'stheorem),它指出对于一个分布式计算系统来说,不可能同时满足以下三点理论论述的是在任何分布式系统中,只可能满足一致性,可用性及分区容忍性三者中的两者,不可能全部都满足。所以不用花时间精力在如何满足所有三者上面。对于分布式数据系统,分区容忍性是基本要求对于大多数web应用,牺牲一致性而换取高可用性,是目前多数分布式数据库产品的方向。变革的方向NOSQL?NEWSQL?Nosql是notonlysql,并不是没有sql,是一种菲关系型数据库Nosql希望从内核与理念上打破关系模型、设计出一套更适合分布式存储,支持多样化数据的存储体系。

MongoDB

Hbase

RedisNEWSQL希望以尽可能兼容原有体系的基础上,逐渐过渡到分布式存储VoltDB

MEMsql变革方法纵向扩展(很难分布式部署、无Master架构)

---

横向扩展分库分表—分片行式存储----列式存储ACID-BASE无需预定义模式、不需建立确定的列NoSQL数据模型及分类NoSQL运动两个核心理论基础:Google的BigTable

BigTable提出了一种很有趣的数据模型,它将各列数据进行排序存储。数据值按范围分布在多台机器,数据更新操作有严格的一致性保证。Amazon的Dynamo Dynamo使用的是另外一种分布式模型。Dynamo的模型更简单,它将数据按key进行hash存储。其数据分片模型有比较强的容灾性,因此它实现的是相对松散的弱一致性:最终一致性。NoSQL数据模型及分类

类型部分代表特点列存储HbaseCassandraHypertable顾名思义,是按列存储数据的。最大的特点是方便存储结构化和半结构化数据,方便做数据压缩,对针对某一列或者某几列的查询有非常大的IO优势。文档存储MongoDBCouchDB文档存储一般用类似json的格式存储,存储的内容是文档型的。这样也就有有机会对某些字段建立索引,实现关系数据库的某些功能。key-value存储TokyoCabinet/TyrantBerkeleyDBMemcacheDBRedis可以通过key快速查询到其value。一般来说,存储不管value的格式,照单全收。(Redis包含了其他功能)图存储Neo4JFlockDBInfoGrid图形关系的最佳存储。使用传统关系数据库来解决的话性能低下,而且设计使用不方便。对象存储db4oVersant通过类似面向对象语言的语法操作数据库,通过对象的方式存取数据。xml数据库BerkeleyDBXMLBaseX高效的存储XML数据,并支持XML的内部查询语法,比如XQuery,Xpath。NoSQL应用现状

大数据应用领域29综合来看,未来几年大数据在商业智能,公共服务和市场营销三个领域的应用非常值得看好,大多数大数据案例和预算将发生在这三个领域。数据来源:CCWResearch,2012/4制造行业最关注的大数据应用场景大数据应用前景在河北廊坊郊区,农田里安装了内置摄像头的传感器,通过传感器、摄像头等终端应用收集、采集农产品的各项指标,并将数据汇聚到云端进行实时监测、分析和管理,比如每天的气温、湿度、雨量等信息,还向农民发放智能手机和平板电脑,让大家随时记录工作成果和现场注意到的问题。农业管理采用条形码及RFID技术进行记录、监督,从而实现针对生产、收获、库存、流通和食品安全等的管理,再根据不同地区、不同作物类型进行相应的数据信息调整,以便监控管理软件能够很好地帮助农户种植和管理作物。粮食安全、农业结构调整等方面的管理问题,都可通过大数据研究预测和解决。两会期间,通过“网友热搜的两会关键词”,了解老百姓关注的热点、精神和解读,为制定工作目标提供决策依据。创建环境监控物联网系统,利用大数据手段监控、评估、分析诱因(地域气象条件、生产生活方式、植被治理模式,城市建设方式),找到解决方案。政府治理大数据提高政府社会治理水平2009年,Google不借助任何医疗手段,仅通过5000万条用户检索关键词,比美国疾控中心提前数周预测H1N1流感的爆发!中英人寿保险有限公司分析客户多种生活数据(爱好、常浏览网站、常看节目等),找出更有可能患高血压、糖尿病和抑郁症的人。医疗健康通过大数据预测疾病,定位患者商业营销淘宝、亚马逊等电商企业,通过客户商品浏览与购买行为,进行偏好分析,并准确的预测客户的产品购买意向,进行相关推送。精准营销:北美折扣零售商Target在完全不和准妈妈对话的前提下,仅分析顾客的购买习惯,并进行“怀孕趋势”评分,能较准确地预测预产期,以便在孕期寄送相应的优惠券。通过客户行为特征分析,进行产品推荐,实现精准营销。交易风险监控:交易所对于实时交易数据进行及时扑捉,对金融期货等异常交易行为、持仓、资金、行情风险进行监控,及时制止扰乱市场的行为。同时通过对海量交易数据的存储进行交易反演,旨在挖掘风险监控的最优阀值,提升风控可靠性。风险溢价计量:在小微企业业务方面,银行可以在准确计量风险溢价的基础上,构建自动审批模

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论