版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、高级软件人才实作培训专家!Hadoop深入浅出讲师:吴超博客:QQ:3774 86624北京传智播客教育 课程安排高级软件人才实作培训专家!l HBASE基础知识*l HBASE的伪分布的搭建*l HBASE Shell*l HBASE的批量导入*l HBASE的Java客户端*加深拓展l HBASE的集群的搭建*l HBASE的表设计*l HBASE的底层存储模型*高级软件人才实作培训专家!HBASE基础知识 HBase简介HBase Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技
2、术可在廉价PC Server上搭建起大规模结构化存储集群。HBase利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理HBase中的海量数据,利用Zookeeper作为协调工具。高级软件人才实作培训专家!复习HBASE基础知识逻辑数据模型将逻辑模型中的一个Row分割为根据Column family存储的物理模型物理数据模型HBASE中的每一张表,就是所谓的BigTable。稀疏表。RowKey 和 ColumnKey 是二进制值byte ,按字典顺序排序;Timestamp 是一个 64 位整数;value 是一个未解释的字节数组byte。表中的不同行可以
3、拥有不同数量的成员。即支持“动态模式“模型高级软件人才实作培训专家!数据模型行Row KeyTime StampColumn ContentsColumn AnchorColumn “mime”my.look.ca“n. www”T9CNNT8CNN.COMT6“. “Text/htmlT5“. “行t3 键“. “列列 字符串、整数、二进制串甚至串行化的结构都可以作为行键 表按照行键的“逐字节排序”顺序对行进行有序化处理 表内数据非常稀疏,不同的行的列的数完全目可以大不相同 可以只对一行上“锁” 对行的写操作是始终是“原子”的族高级软件人才实作培训专家!Row
4、KeyTime StampColumn ContentsColumn AnchorColumn “mime”my.look.ca“n. www”T9CNNT8CNN.COMT6“. “Text/htmlT5“. “t3有“. “标签数据模型列l列必须用l任意一列族(family如下形式)来定义“族:标签”其中,族和标签都可为任意形式的串l 物理上将同“族”数据存储在一起l 数据可通过时间戳区分版本级软件人才实作培训专家!础知识高HBASE基表是存放数据的。表由行和列组成数据模型1. Row Key: 行键,Table的主键,Table中的记录按照Row Key排序
5、2. Timestamp: 时间戳,每次数据操作对应的时间戳,可以看作是数据的version number3. Column Family:列簇,Table在水平方向有一个或者多个Column Family组成,一个Column Family中可以有任意多个Column组成,即Column Family支持动态扩展, 无需预先定义Column的数量以及类型,所有Column均以二进制格式存储,用户需要自行进行类型转换。高级软件人才实作培训专家!HBASE基础知识参数hbase.hregion.max.filesize 物理存储Table 在行的方向上分割为多个HRegion,一个region由
6、startkey,endkey)表示,每个HRegion分散在不同的RegionServer中高级软件人才实作培训专家!HBASE基础知识 架构体系 Client包含访问hbase 的接口,client 维护着一些cache 来加快对hbase 的访问,比如regione 的位置信息 Zookeeper 保证任何时候,集群中只有一个running master 存贮所有Region 的寻址入口 实时监控Region Server 的状态,将Region server 的上线和下线信息, 实时给Master 存储Hbase 的schema,包括有哪些table,每个table 有哪些column
7、family Master 可以启动多个HMaster,通过Zookeeper的Master Election机制保证总有一个Master运行 为Region server 分配region 负责region server 的负载均衡 发现失效的region server 并重新分配其上的region高级软件人才实作培训专家!HBASE基础知识高级软件人才实作培训专家!HBASE基础知识 架构体系 Region Server 维护Master 分配给它的region,处理对这些region 的IO 请求 负责切分在运行过程中变得过大的region可以看出,client 访问hbase 上数据的
8、过程并不需要master 参与,寻址访问zookeeper 和region server,数据读写访问regioneserver。HRegionServer主要负责响应用户I/O请求,向HDFS文件系统中读写数据, 是HBase中最核心的模块。ST系统架构l-高级软件人才实作培训专家!HBASE与相关软件l hadoop.1.1.2l hbase-0.94.2-security.tar.gzl JDK6l RHEL6.3前提条件:本机或集群环境下hadoop.1.1.2 已经安装成功高级软件人才实作培训专家!本地伪分布模式搭建(一)l 把hbase-0.94.2-security.tar.gz
9、复制到/usr/locall 解压hbase-0.94.2-security.tar.gz与重命名#cd /usr/local#tar -zxvf hbase-0.94.2-security.tar.gz #mv hbase-0.94.2-security hbase修改/etc/profile文件。#vi /etc/profile增加export HBASE_HOME=/home/hbase修改exportPATH=$JAVA_HOME/bin:$PATH:$HADOOP_HOME/bin:$HBASE_HOME/bin保存退出#source /etc/profile高级软件人才实作培训专家
10、!本地伪分布模式搭建(二)l 修改$HBASE_HOME/conf/hba se-env.sh文件exportJAVA_HOME=/usr/local/jdkexportHBASE_MANAGES_ZK=true保存后退出修改$HBASE_HOME/conf/hbase-site.xmlhbase.rootdirhdfs:/hadoop0:9000/hbasehbase.cluster.distributedtruehbase.zookeeper.quorumhadoop0dfs.replication1注意:$HBASE_HOME/conf/hbase的hbase.rootdir的主机和端与
11、$HADOOP_HOME/conf/core-site.xml的的主机和端一致高级软件人才实作培训专家!本地伪分布模式搭建(三)l 在$HBASE_HOME/conf/regionservers文件增加localhost保存退出先启动Hadoop,后启动HBASE#cd $HBASE_HOME/bin #./start-hbase.sh停止#cd $HBASE_HOME/bin#./stop-hbase.sh高级软件人才实作培训专家!查看hdfs目录,你会发现在根目录下多了一个hbase的目录#hadoop fs -ls /本地伪分布模式搭建(四)l #jpsWe
12、b Consolehttp:/hadoop0:60010/master-status高级软件人才实作培训专家!#$HBASE_HOME/bin/hbase shellHBASE Shell名称命令表达式创建表create 表名称, 列族名称1,列族名称2,列族名称N添加记录put 表名称, 行名称, 列名称:, 值查看记录get 表名称, 行名称查看表中的记录总数count 表名称删除记录delete 表名 ,行名称 , 列名称删除一张表先要屏蔽该表,才能对该表进行删除,第一步 disable 表名称 第二步drop 表名称查看所有记录scan 表名称查看某个表某个列中所有数据scan 表名称
13、 , COLUMNS=列族名称:列名称更新记录就是重写一遍进行覆盖l hbase提供了一个shell的终端给用户交互高级软件人才实作培训专家!HBASE Shell的DDL操作#$HBASE_HOME/bin/hbase shellquitl 创建表create users,user_id,address,info 表users,有三个列族user_id,address,info l 列 出 全 部 表listl得到表的描述describe usersl创建表create users_tmp,user_id,address,infoexists usersis_enabled usersis_
14、disabled usersdisable users_tmpl删除表drop users_tmp高级软件人才实作培训专家!HBASE Shell的DML操作l 添加记录l 获取一条记录1. 取得一个id的所有数据get users,xiaoming2. 获取一个id,一个列族的所有数据put users,xiaoming,info:age,24;put users,xiaoming,info:birthday,1987-06-17; put users,xiaoming,info:company,alibaba; put users,xiaoming,address:contry,china
15、;put users,xiaoming,address:province,zhejiang; put users,xiaoming,address:city,hangzhou; put users,zhangyifei,info:birthday,1987-4-17; put users,zhangyifei,info:favorite,movie;put users,zhangyifei,info:company,alibaba; put users,zhangyifei,address:contry,china;get users,xiaoming,infoput users,zhangy
16、ifei,address:province,guangdong3. 获取一个id,一个列族中一个列的所有数据get users,xiaoming,info:ageput users,zhangyifei,address:city,jieyang; put users,zhangyifei,address:town,xianqiao;高级软件人才实作培训专家!HBASE Shell的DML操作l 更新记录put users,xiaoming,info:age ,29get users,xiaoming,info:ageput users,xiaoming,info:age ,30get user
17、s,xiaoming,info:agel获取单元格数据的版本数据get users,xiaoming,COLUMN=info:age,VERSIONS=1get users,xiaoming,COLUMN=info:age,VERSIONS=2get users,xiaoming,COLUMN=info:age,VERSIONS=3l获取单元格数据的某个版本数据get users,xiaoming,COLUMN=info:age,TIMESTAMP=1364874937056l全表扫描scan users高级软件人才实作培训专家!HBASE Shell的DML操作l 删除xiaoming值的i
18、nfo:age字段delete users,xiaoming,info:ageget users,xiaomingl删除整行deleteall users,xiaomingl统计表的行数count usersl清空表truncate users高级软件人才实作培训专家!HBASE基础知识HBase中有两张特殊的Table,-ROOT-和.META.1. .META.:记录了用户表的Region信息,.META.可以有多个regoin2. -ROOT-:记录了.META.表的Region信息,-ROOT-只有一个region Zookeeper中记录了-ROOT-表的locationClient
19、访问用户数据之前需要首先访问zookeeper,然后访问-ROOT-表, 接着访问.META.表,最后才能找到用户数据的位置去访问高级软件人才实作培训专家!HBASE的Java_API(一)/hbase操作必备private static Configuration getConfiguration() Configuration conf = HBaseConfiguration.create();conf.set(hbase.rootdir, hdfs:/hadoop0:9000/hbase);/使用eclipse时必须添加这个,否则无法定位conf.set(hbase.zookeeper
20、.quorum, hadoop0); return conf;高级软件人才实作培训专家!HBASE的Java_API(二)/创建一张表public static void create(String tableName, String columnFamily) throws IOExceptionHBaseAdmin admin = new HBaseAdmin(getConfiguration(); if (admin.tableExists(tableName) System.out.println(table exists!);elseHTableDescriptor tableDes
21、c = newHTableDescriptor(tableName);tableDesc.addFamily(new HColumnDescriptor(columnFamily); admin.createTable(tableDesc);System.out.println(create table success!);高级软件人才实作培训专家!HBASE的Java_API(三)/添加一条记录public static void put(String tableName, String row, String columnFamily, String column, String data
22、) throws IOExceptionHTable table = new HTable(getConfiguration(), tableName); Put p1 = new Put(Bytes.toBytes(row); p1.add(Bytes.toBytes(columnFamily), Bytes.toBytes(column),Bytes.toBytes(data);table.put(p1); System.out.println(put+row+,+columnFamily+:+column+,+data+);高级软件人才实作培训专家!HBASE的Java_API(四)/读
23、取一条记录public static void get(String tableName, String row) throws IOException HTable table = new HTable(getConfiguration(), tableName);Get get = new Get(Bytes.toBytes(row); Result result = table.get(get); System.out.println(Get: +result);高级软件人才实作培训专家!HBASE的Java_API(五)/显示所有数据public static void scan(St
24、ring tableName) throws IOException HTable table = new HTable(getConfiguration(), tableName); Scan scan = new Scan();ResultScanner scanner = table.getScanner(scan); for (Result result : scanner) System.out.println(Scan: +result);高级软件人才实作培训专家!HBASE的Java_API(六)/删除表public static void delete(String table
25、Name) throws IOException HBaseAdmin admin = new HBaseAdmin(getConfiguration(); if(admin.tableExists(tableName)try admin.disableTable(tableName); admin.deleteTable(tableName); catch (IOException e) e.printStackTrace();System.out.println(Delete +tableName+ 失败);System.out.println(Delete +tableName+ 成功)
26、;高级软件人才实作培训专家!HBASE的Java_API(七)public static void main(String args) throws IOException String tableName=hbase_tb;String columnFamily=cf;HBaseTestCase.create(tableName, columnFamily); HBaseTestCase.put(tableName, row1, columnFamily, cl1, data); HBaseTestCase.get(tableName, row1); HBaseTestCase.scan(t
27、ableName); HBaseTestCase.delete(tableName);高级软件人才实作培训专家!练习详单入库lHBASE表定义为:create wlan_log, cfRowKey 设 计 : msisdn:日期时间串(yyyyMMddHHmmss) 源文件数据增加一个字段rowkey高级软件人才实作培训专家!HBASE结合MapReduce批量导入static class BatchImportMapper extends Mapper SimpleDateFormat dateformat1=new SimpleDateFormat(yyyyMMddHHmmss);Text
28、 v2 = new Text();protected void map(LongWritable key, Text value, Context context) throws java.io.IOException,InterruptedException final String splited = value.toString().split(t); try final Date date = new Date(Long.parseLong(splited0.trim(); final String dateFormat = dateformat1.format(date);Strin
29、g rowKey = splited1+:+dateFormat; v2.set(rowKey+t+value.toString(); context.write(key, v2); catch (NumberFormatException e) final Counter counter = context.getCounter(BatchImport, ErrorFormat); counter.increment(1L);System.out.println(出错了+splited0+ +e.getMessage();高级软件人才实作培训专家!HBASE结合MapReduce批量导入st
30、atic class BatchImportReducer extends TableReducerprotected void reduce(LongWritable key, java.lang.Iterable values, Context context) throws java.io.IOException ,InterruptedException for (Text text : values) final String splited = text.toString().split(t);final Put put = new Put(Bytes.toBytes(splite
31、d0); put.add(Bytes.toBytes(cf), Bytes.toBytes(date),Bytes.toBytes(splited1);/省略其他字段,调用put.add(.)即可context.write(NullWritable.get(), put);高级软件人才实作培训专家!HBASE结合MapReduce批量导入public static void main(String args) throws Exception final Configuration configuration = new Configuration();/ 设 置 zookeeper conf
32、iguration.set(hbase.zookeeper.quorum, hadoop0);/设置hbase表名称configuration.set(TableOutputFormat.OUTPUT_TABLE, wlan_log);/将该值改大,防止hbase超时退出configuration.set(dfs.socket.timeout, 180000);final Job job = new Job(configuration, HBaseBatchImport);job.setMapperClass(BatchImportMapper.class); job.setReducerClass(BatchImportReducer.class);/设置map的输出,不设置reduce的输出类型job.setMapOutputKeyClass(LongWritable.class); job.setMapOutputValueClass(Text.class);job.setInputFormatClass(TextInputFormat.class);/不再设置输出路径,而是设置输出格式类型job.setOutputFor
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 商业管理绩效考核评估体系指南
- 智慧景区建设实施方案
- 大数据在财务分析中的应用与前景探讨
- 深静脉血栓形成患肢抬高个案护理
- 神经母细胞瘤脊髓压迫综合征个案护理
- 2026校招:中国航空工业笔试题及答案
- 2026校招:中国国铁笔试题及答案
- 2026校招:中国电力建设试题及答案
- 2026校招:修正药业试题及答案
- 2026年大学大一(风景园林)园林植物学基础测试题及答案
- 2025年海关总署公开遴选公务员面试模拟题及答案
- 中老年化妆课件
- 电机与电气控制技术习题汇编
- 腹腔引流管相关感染及预防
- 服装设计基础(第三版)课件:服装设计与面料
- 巡察临时支部管理办法
- 急腹症的鉴别诊断及抢救处理
- 静脉留置针课件
- 患者安全专项行动方案(2023-2025年) 2
- 种植多肉教学课件
- 语文●全国Ⅰ卷丨2024年普通高等学校招生全国统一考试语文试卷及答案
评论
0/150
提交评论