项目11 Sqoop安装部署_第1页
项目11 Sqoop安装部署_第2页
项目11 Sqoop安装部署_第3页
项目11 Sqoop安装部署_第4页
项目11 Sqoop安装部署_第5页
已阅读5页,还剩13页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Hadoop大数据技术——Sqoop安装部署Sqoop概述ApacheSqoop(SQL-to-Hadoop)项目旨在协助RDBMS与Hadoop之间进行高效的大数据迁移。用户可以在Sqoop的帮助下,轻松地将RDBMS中的数据导入到Hadoop或者与其相关的系统(如HBase和Hive)中;同时也可以将数据从Hadoop系统导出到RDBMS。因此,可以说Sqoop就是一个桥梁,连接了RDBMS与Hadoop。湖南软件职业技术大学Sqoop的优势湖南软件职业技术大学Sqoop可以高效地、可控地利用资源,可以通过调整任务数来控制任务的并发度。另外它还可以配置数据库的访问时间。Sqoop可以自动地完成数据库与Hadoop系统中数据类型的映射与转换。Sqoop支持多种数据库,比如,MySQL、Oracle和PostgreSQL等数据库。Sqoop架构及工作机制湖南软件职业技术大学SqoopImport流程湖南软件职业技术大学SqoopExport流程湖南软件职业技术大学HBase逻辑模型表HBase

是一种列式存储的分布式数据库,其核心概念是表(Table)。与传统关系型数据库一样,HBase

的表也是由行和列组成,但

HBase

同一列可以存储不同时刻的值,同时多个列可以组成一个列簇(ColumnFamily),这种组织形式主要是出于HBase存取性能的考虑。行健Rowkey

既是

HBase

表的行键,也是

HBase

表的主键。HBase

表中的记录是按照RowKey的字典顺序进行存储的。在HBase中,为了高效地检索数据,需要设计良好的Rowkey来提高查询性能。因为Rowkey

会被冗余存储,所以长度不宜过长,Rowkey

过长将会占用大量的存储空间同时会降低检索效率。其次

Rowkey

应该尽量均匀分布,避免产生热点问题(大量用户访问集中在一个或极少数节点,从而造成单台节点超出自身承受能力)。另外需要保证Rowkey的唯一性。湖南软件职业技术大学HBase逻辑模型列簇HBase表中的每个列都归属于某个列簇,一个列簇中的所有列成员有着相同的前缀。比如,列anchor:和anchor:my.look.ca都是列簇anchor的成员。列簇是表的schema的一部分,必须在使用表之前定义列簇,但列却不是必需的,写数据的时候可以动态加入。一般将经常一起查询的列放在一个列簇中,合理划分列簇将减少查询时加载到缓存的数据,提高查询效率,但也不能有太多的列簇,因为跨列簇访问是非常低效的。单元格HBase中通过RowKey和Column确定的一个存储单元称为单元格(Cell)。每个单元格都保存着同一份数据的多个版本,不同时间版本的数据按照时间顺序倒序排序,最新时间的数据排在最前面,时间戳是

64

位的整数,可以由客户端在写入数据时赋值,也可以由RegionServer自动赋值。湖南软件职业技术大学HBase物理模型湖南软件职业技术大学HBase物理模型湖南软件职业技术大学HBase物理模型湖南软件职业技术大学HBase物理模型湖南软件职业技术大学HBase基本构架湖南软件职业技术大学湖南软件职业技术大学HBaseshell操作HBaseshell操作1.创建course表hbase(main):002:0>create'course','cf'2.查看HBase所有表hbase(main):003:0>list3.查看course表结构hbase(main):004:0>describe'course'4.向course表插入数据hbase(main):005:0>put'course','001','cf:cname','hbase'hbase(main):006:0>put'course','001','cf:score','95'hbase(main):007:0>put'course','002','cf:cname','sqoop'hbase(main):008:0>put'course','002','cf:score','85'hbase(main):009:0>put'course','003','cf:cname','flume'hbase(main):010:0>put'course','003','cf:score','98'湖南软件职业技术大学HBaseshell操作5.查询course表中的所有数据hbase(main):011:0>scan'course'6.根据行键查询course表(1)查询整条记录hbase(main):012:0>get'course','001'(2)查询一个列簇数据hbase(main):013:0>get'course','001','cf'(3)查询列簇中其中的一个列hbase(main):014:0>get'course','001','cf:cname'7.更新course表数据hbase(main):015:0>put'course','001','cf:score','99'hbase(main):016:0>get'course','001','cf'8.查询course表总记录hbase(main):017:0>count'course'湖南软件职业技术大学HBaseshell操作9.删除course表数据(1)删除列簇中的一个列hbase(main):021:0>delete'course','003','cf:score'(2)删除整行记录hbase(main):022:0>deleteall'course','002'hbase(main):023:0>scan'course'10.清空course表hbase(main):024:0>truncate'course'hbase(main):025:0>scan'course'11.删除cou

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论