已阅读5页,还剩36页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大数据与hbase应用关于hadoop与hbase的介绍和开发应用,周勇沂2014年10月16日,目录,2,大数据与HADOOP介绍,1,HDFS介绍,2,Hbase介绍,3,Hbase应用,4,3,1、WINDOWS进程间通信方式,第一章大数据与HADOOP介绍,第一章HADOOP介绍,4,1、大数据的背景与定义,日益信息化的时代,5,大数据的定义与特征,“Bigdataisdatathatexceedstheprocessingcapacityofconventionaldatabasesystems”OReillyRadar,“WhatIsBigData?”,January2012所谓大数据,就是用现有的一般技术难以管理的大量数据的集合-野村综合研究所大数据顺应大规模信息化到新阶段而诞生的数据库革命性运动NoSQL(NoSQL=NotOnlySQL)不同的NoSQL场景不同,可比性不高原则:解放思想,事实求是,6,大数据的挑战,7,一个关系型数据库的表数据量上亿时分区分表分库导致上层复杂度提高,成本倍增IO天花板,非线性单机计算,大数据对系统的需求,Highperformance高并发读写的需求高并发、实时动态获取和更新数据HugeStorage海量数据的高效率存储和访问的需求类似SNS社会性网络服务网站,海量用户信息的高效率实时存储和查询HighScalability进门后可以通往各个层楼,每个楼层就是一个销售分区(HRegion)5,关于一个销售分区(Hregion)a,每层楼根据商品木箱(列族ColumnFamily)的规格多少,分为多个专卖店(Store)b,每个专卖店(Sotre),由促销仓(放内存上的Memstore)和0个或多个普通仓(放hfile上的Sotrefile)组成,HRegionServer入库过程简介,31,Hstore分流简介,32,Client写入-存入MemStore,一直到MemStore满-Flush成一个StoreFile,直至增长到一定阈值-出发Compact合并操作-多个StoreFile合并成一个StoreFile,同时进行版本合并和数据删除-当StoreFilesCompact后,逐步形成越来越大的StoreFile-单个StoreFile大小超过一定阈值后,触发Split操作,把当前RegionSplit成2个Region,Region会下线,新Split出的2个孩子Region会被HMaster分配到相应的HRegionServer上,使得原先1个Region的压力得以分流到2个Region上,hfile文件格式,33,hfile文件由6部分组成:datablock,metablock(可选),fileinfo,datablockindex,metablockindex,trailer。datablock存储了表数据,metablock存储了布隆过滤器索引数据,fileinfo存储了本文件的相关信息,index存储了datablock和metablock的索引数据,trailer存储了本文件的相关信息。,34,1、WINDOWS进程间通信方式,第三章HBASE的应用,HBaseShell,35,Hbase编程,36,封装好的HbaseDAO例子importcom.etrans.lib.db.hbase.dao.TrackDaoImpl;privateGpsTrackvo=newGpsTrack();方式一TrackDaoImpltrackDao=newTrackDaoImpl();trackDao.openTable(false,1024*1024*32);trackDao.insert(vo);/增、改为同一接口trackDao.list(startKey,endKey,selectedColSet,filter);trackDao.closeTable();trackDao=null;方式二TrackDaoImpltrackDao=newTrackDaoImpl();trackDao.insert(vo);trackDao.list(startKey,endKey,selectedColSet,filter);trackDao=null;,Hbase编程,37,TrackDaoImpl操作对象如何初始化初始化表名StringCONST_TABLE_NAME=“track;对象与hbase表字段映射关系OverridepublicvoidinitSchema()addHbaseCol(newHbaseCol(artistName,an);addHbaseCol(newHbaseCol(year,ye,true);addHbaseCol(newHbaseCol(downCount,dc,HbaseColType.LONG);如何生成rowkeyOverridepublicbytegetRowKey(Trackvo)如何读取key数据OverridepublicvoidreadRowKeyFromResult(Trackvo,byterowkey),Hadoop技术哪家强?美国找CLOUDERA,38,在Hadoop生态系统中,规模最大、知名度最高的公司则是Cloudera。2008年成立的Cloudera是最早将Hadoop商用的公司,为合作伙伴提供Hadoop的商用解决方案,主要是包括支持,咨询服务和培训。Cloudera的客户中倒是有很多知名公司,如AOL、哥伦比亚广播公司、eBay、Expedia、摩根大通、Monsanto、诺基亚、RIM和迪士尼等。Cloudera企业解决方案包括Hadoop软件发行版、Cloudera管理器。2014年英特尔7.
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024-2030年全球与中国婴儿护肤品行业消费需求及营销前景预测报告
- 2024-2030年全球与中国二氧化硅防粘剂市场供需现状及前景规划分析报告版
- 2024-2030年免疫治疗药行业市场现状供需分析及重点企业投资评估规划分析研究报告
- 2024-2030年光电子学行业市场现状供需分析及重点企业投资评估规划分析研究报告
- 2024-2030年保温杯项目商业计划书
- 2024-2030年保险中介项目商业计划书
- 2024-2030年便携式移动放大器行业市场现状供需分析及重点企业投资评估规划分析研究报告
- 2024-2030年供应链金融行业市场发展分析及前景趋势与投资研究报告
- 2024-2030年伯乐转膜仪行业市场现状供需分析及重点企业投资评估规划分析研究报告
- 2024-2030年云服务行业市场深度调研及前景趋势与投资研究报告
- 2023年安徽宣城中学高一自主招生考试数学试卷真题(含答案详解)
- 超星尔雅学习通《形势与政策(2024春)》章节测试题带答案(b卷)
- 《鸿门宴》(教学课件)- 统编版高中语文必修下册
- 2023年上海申康医疗卫生建设工程公共服务中心工作人员招聘考试真题及答案
- 专项施工方案验收标准
- 2024年山东省菏泽市市属事业单位招聘77人历年公开引进高层次人才和急需紧缺人才笔试参考题库(共500题)答案详解版
- 电梯工程-施工方案(直梯)
- 第11课《主动学习 高效学习》第2框《高效学习之道》-【中职专用】《心理健康与职业生涯》同步课堂课件
- SaaS创业路线图(to B产品、营销、运营方法论及实战案例解读)
- 2024年北京市西城区中考一模语文试题
- 消费品以旧换新风险评估与应对策略
评论
0/150
提交评论