版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
Hadoop大数据技术——Sqoop安装部署Sqoop概述ApacheSqoop(SQL-to-Hadoop)项目旨在协助RDBMS与Hadoop之间进行高效的大数据迁移。用户可以在Sqoop的帮助下,轻松地将RDBMS中的数据导入到Hadoop或者与其相关的系统(如HBase和Hive)中;同时也可以将数据从Hadoop系统导出到RDBMS。因此,可以说Sqoop就是一个桥梁,连接了RDBMS与Hadoop。湖南软件职业技术大学Sqoop的优势湖南软件职业技术大学Sqoop可以高效地、可控地利用资源,可以通过调整任务数来控制任务的并发度。另外它还可以配置数据库的访问时间。Sqoop可以自动地完成数据库与Hadoop系统中数据类型的映射与转换。Sqoop支持多种数据库,比如,MySQL、Oracle和PostgreSQL等数据库。Sqoop架构及工作机制湖南软件职业技术大学SqoopImport流程湖南软件职业技术大学SqoopExport流程湖南软件职业技术大学HBase逻辑模型表HBase
是一种列式存储的分布式数据库,其核心概念是表(Table)。与传统关系型数据库一样,HBase
的表也是由行和列组成,但
HBase
同一列可以存储不同时刻的值,同时多个列可以组成一个列簇(ColumnFamily),这种组织形式主要是出于HBase存取性能的考虑。行健Rowkey
既是
HBase
表的行键,也是
HBase
表的主键。HBase
表中的记录是按照RowKey的字典顺序进行存储的。在HBase中,为了高效地检索数据,需要设计良好的Rowkey来提高查询性能。因为Rowkey
会被冗余存储,所以长度不宜过长,Rowkey
过长将会占用大量的存储空间同时会降低检索效率。其次
Rowkey
应该尽量均匀分布,避免产生热点问题(大量用户访问集中在一个或极少数节点,从而造成单台节点超出自身承受能力)。另外需要保证Rowkey的唯一性。湖南软件职业技术大学HBase逻辑模型列簇HBase表中的每个列都归属于某个列簇,一个列簇中的所有列成员有着相同的前缀。比如,列anchor:和anchor:my.look.ca都是列簇anchor的成员。列簇是表的schema的一部分,必须在使用表之前定义列簇,但列却不是必需的,写数据的时候可以动态加入。一般将经常一起查询的列放在一个列簇中,合理划分列簇将减少查询时加载到缓存的数据,提高查询效率,但也不能有太多的列簇,因为跨列簇访问是非常低效的。单元格HBase中通过RowKey和Column确定的一个存储单元称为单元格(Cell)。每个单元格都保存着同一份数据的多个版本,不同时间版本的数据按照时间顺序倒序排序,最新时间的数据排在最前面,时间戳是
64
位的整数,可以由客户端在写入数据时赋值,也可以由RegionServer自动赋值。湖南软件职业技术大学HBase物理模型湖南软件职业技术大学HBase物理模型湖南软件职业技术大学HBase物理模型湖南软件职业技术大学HBase物理模型湖南软件职业技术大学HBase基本构架湖南软件职业技术大学湖南软件职业技术大学HBaseshell操作HBaseshell操作1.创建course表hbase(main):002:0>create'course','cf'2.查看HBase所有表hbase(main):003:0>list3.查看course表结构hbase(main):004:0>describe'course'4.向course表插入数据hbase(main):005:0>put'course','001','cf:cname','hbase'hbase(main):006:0>put'course','001','cf:score','95'hbase(main):007:0>put'course','002','cf:cname','sqoop'hbase(main):008:0>put'course','002','cf:score','85'hbase(main):009:0>put'course','003','cf:cname','flume'hbase(main):010:0>put'course','003','cf:score','98'湖南软件职业技术大学HBaseshell操作5.查询course表中的所有数据hbase(main):011:0>scan'course'6.根据行键查询course表(1)查询整条记录hbase(main):012:0>get'course','001'(2)查询一个列簇数据hbase(main):013:0>get'course','001','cf'(3)查询列簇中其中的一个列hbase(main):014:0>get'course','001','cf:cname'7.更新course表数据hbase(main):015:0>put'course','001','cf:score','99'hbase(main):016:0>get'course','001','cf'8.查询course表总记录hbase(main):017:0>count'course'湖南软件职业技术大学HBaseshell操作9.删除course表数据(1)删除列簇中的一个列hbase(main):021:0>delete'course','003','cf:score'(2)删除整行记录hbase(main):022:0>deleteall'course','002'hbase(main):023:0>scan'course'10.清空course表hbase(main):024:0>truncate'course'hbase(main):025:0>scan'course'11.删除cou
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026河南郑州一中教育集团优胜实验中学教师招聘备考题库完整参考答案详解
- 2026年陕西农林职业技术大学招聘备考题库(64人)及答案详解(名师系列)
- 2026中国邮政集团有限公司湖南省分公司招聘备考题库完整答案详解
- 2026四川达州市上半年招聘卫生类人才688人备考题库及答案详解(考点梳理)
- 2026北京语言大学事业编制人员招聘11人备考题库(第三批)附答案详解
- 2026河北廊坊霸州市幼儿园招聘见习岗位教师备考题库及答案详解(考点梳理)
- 2026四川遂宁射洪绿然学校高中部名优教师招聘14人备考题库附答案详解(达标题)
- 2026广东深圳市南山外国语学校(集团)大冲学校招聘备考题库及完整答案详解1套
- 2026洛阳理工学院招聘高层次人才80人备考题库有完整答案详解
- 2026北京大学经济学院招聘劳动合同制人员2人备考题库附答案详解(研优卷)
- 2025年高职(软件技术)应用软件系统开发设计综合测试题及答案
- 量子传感十年突破:量子传感与非常规油气勘探技术报告
- 担保人提请诉讼申请书
- 钢结构安装安全带使用方案
- 2025碳排放核算员职业技能竞赛测试卷及参考答案
- 2025年水利工程质量检测员考试(金属结构)经典试题及答案一
- 2025年下学期高中数学四川版配套试卷
- 【《礼器碑》的风格特征分析5600字(论文)】
- 十年(2016-2025)高考英语真题分类汇编:专题14 阅读理解说明文(全国)(原卷版)
- 《涉外法治概论》课件 杜涛 第7-10章 对外贸易与经济制裁法律制度-涉外应急管理法律制度
- 感控知识培训手卫生课件
评论
0/150
提交评论