细细品味Hadoop-Hadoop集群(第13期)-Hive简介及安装_第1页
细细品味Hadoop-Hadoop集群(第13期)-Hive简介及安装_第2页
细细品味Hadoop-Hadoop集群(第13期)-Hive简介及安装_第3页
细细品味Hadoop-Hadoop集群(第13期)-Hive简介及安装_第4页
细细品味Hadoop-Hadoop集群(第13期)-Hive简介及安装_第5页
已阅读5页,还剩46页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

——Hadoop集群(第13期)精华集锦csAxp虾皮工作室ogscomxiapi河北工业大学——软件工程与理论实验室编辑:虾皮1Hadoop集群(第13期)Hive装Hive是一个构建在Hadoop上的数据仓库平台,其设计目标是使Hadoop上的数据操HiveeHive是基于Hadoop文件系统上的数据仓库架构。它为数据仓库的管理提供了许多功cecache不提供实时的查询功能和记录级的更新,但Hive能更好地处理不变的大规模数据集(例如网络日志)上的批量任务。MapReduce和用户定义的函数库),并且拥有良好的容错性和约束的数据输入格式。QL河北工业大学——软件工程与理论实验室编辑:虾皮2图2-2Hive的体系结构(2)图2-3Hive的体系结构(3)河北工业大学——软件工程与理论实验室编辑:虾皮3图2-4Hive的体系结构(4)用户接口WUI问Hive。Thrift服务器t元数据存储(Metastore)解析器HDFSMapReduce调用执行。HadoopeHDFSMapReduce河北工业大学——软件工程与理论实验室编辑:虾皮4Hive的存储结构apReduceHive。Hadoop系统中常用的文件存储格式有支程师发表的RCFile:AFastandSpaceefficientDataPlacementStructureinMapReducebasedWarehouseSystems一文,介绍了一种高效的数据存储结构——RCFile(RecordColumnarRCFileMapReduceFastdataloading、Fastqueryprocessing、Highlyefficientstoragespaceutilization和Strongadaptivitytohighlydynamicworkloadpatterns。1)数据仓库的需求FastdataloadingFacebook天大acebookFastqueryprocessing要求底层存储结构能够随着查询数量的增加而保持高速的查询处理。HighlyefficientstoragespaceutilizationStrongadaptivitytohighlydynamicworkloadpatterns)MapReduce存储策略要想设计并实现一种基于MapReduce数据仓库的高效数据存储结构,关键挑战是在这些数据库导向的存储结构到基于MapReduce的数据仓库系统并不行存储高适应能力,这是因为行存储保证了相同记录的所有域都在同一个集群节点,即同一个码和利用列相关性能够获得一个较好的压缩比,但是复杂数据存储实现会导致解压开销增河北工业大学——软件工程与理论实验室编辑:虾皮5列存储CD的op河北工业大学——软件工程与理论实验室编辑:虾皮6PAX混合存储际的页内容,该限制使得大规模数据扫描时不易实现快速查询处理;再次,PAX用固定的le存储;第二,RCFile在每个行组中利用一个列维度的数据压缩,并提供一种Lazy解压 (decompression)技术来在查询执行时避免不必要的列解压;第三,RCFile支持弹性的行3)RCFile的设计与实现RCFile(RecordColumnarFile)存储结构遵循的是“先水平划分,再垂直划分”的设le数据格式河北工业大学——软件工程与理论实验室编辑:虾皮7个行组。对于一张表,所有行组大小都相同。一个HDFS块会部分是行组头部的同步标识,主要用于分隔HDFS块中压缩方式e对于所有元数据头部,RCFile使用RLE(RunLengthEncoding)算法来压缩数据。由RLEzipRCFile用不同的算法来压数据追加mnholderRCFile提供两个参数来控制在刷写到磁盘之前,内存中缓存多少个记录。一个参数是CFilecolumnholder数据读取和Lazy解压E行组大小河北工业大学——软件工程与理论实验室编辑:虾皮8k选择使用小行组。需要注意的是,当行组的大小超过4MB,数据的压缩比BHive的数据存储表(Table)所有的表数据(除了外部表)都保存在这个目录中。分区(Partition)Hive中每个分区都对应数据库中相应分区列的一个索引,但是分区的组织方式和传统“/datawarehouse/htable/ds=20100301/city=Beijing”“/datawarehouse/htable/ds=20100301/city=Shanghai”桶(Bucket)桶对于指定列进行哈希(hash)计算时,根据哈希值切分数据,每个桶对应一个文件。“/datawarehouse/htable/ds=20100301/city=Beijing/part-00000”河北工业大学——软件工程与理论实验室编辑:虾皮9“/datawarehouse/htable/ds=20100301/city=Beijing/part-00010”外部表(ExternalTable)HDFS1)创建表的操作(CreateTable)包含两个步骤:表创建过程和数据加载步骤(这两个后的数据访问将会直接在数据仓库目录中完成。删除表时,表中的数据和元数据将会被同2)外部表的创建只有一个步骤,加载数据和创建表同时完成,实际数据存储在创建语仅会删除元数据,表中数据不会被删除。.3Hive的元数据存储由于Hive的元数据可能要面临不断的更新、修改和读取,所以它显然不适合使用SingleUserMode接到一个In-memory(内存)数据库Derby,一般用于单元测试。MultiUserMode河北工业大学——软件工程与理论实验室编辑:虾皮10RemoteServerModeJava,在服务器启动一个MetaStoreServer,客户端Hive是一个客户端工具,需要在哪台机器上运行就将其安装在哪台机器上,根据“元ve河北工业大学——软件工程与理论实验室编辑:虾皮113.1先决条件Hive的稳定版本ebruaryreleaseavailableThisreleaseisthelatestreleaseofHiveanditworkswithHadoop0.20.1and0.20.2katthecompleteJIRAchangelogforthisreleaseHIVEPassinguseridentityfrommetastoreclienttoserverinnon-securemodeHIVEMakeasingleHivebinaryworkwithboth.20.xand0.23.0HIVEMakeHiveworkwithHadoop0.0VEInsertintotablewipesouttablecontentVEHiveMetaStoreisnotchangingfromDerbytoMySQLrcgihive元数据库HiveDerby果要支持多用户Hadoop安装Hive,并设置了HADOOP_HOME环境变量,本实验采用的3.2集群环境ipHadoop集群:称IP地址ppp河北工业大学——软件工程与理论实验室编辑:虾皮12称IP地址p3.2内嵌模式安装河北工业大学——软件工程与理论实验室编辑:虾皮13dusr/usr”目录tar–zxvfhbase-0.8.1.tar.gzz“hive-0.8.1”文件夹重命名“hive”chown–Rhadoop:hadoophive#将文件夹“hive”权限分配给hadoop用户rm–rfhive-0.8.1.tar.gz#删除“hive-0.8.1.tar.gz”安装包重命名为“hive”。河北工业大学——软件工程与理论实验室编辑:虾皮14河北工业大学——软件工程与理论实验室编辑:虾皮15在“/etc/profile”文件尾部添加以下内容,并使其有效(source/etc/profile):sethiveenvironmentexportHIVEHOMEusrhive1)配置hive-conf.shsethiveenvironmentxportHADOOPHOMEusrhadoopexportHIVEHOMEusr/hive河北工业大学——软件工程与理论实验室编辑:虾皮162)配置hive-default.xml和hive-site.xml所以我们要复制两个“hive-default.xml.template”,并分别命名为“hive-default.xml”和出现如下错误:Exceptioninthread"main"java.lang.NoClassDefFoundError:org/apache/hadoop/hive/conf/HiveConf河北工业大学——软件工程与理论实验室编辑:虾皮17出现如下警告:解决的办法就是在perties中将log4j.appender.EventCounter的值修改为表现正常:河北工业大学——软件工程与理论实验室编辑:虾皮183.3独立模式安装Hive仓库规划,我们将把ERhiveIDENTIFIEDBYhadoopive河北工业大学——软件工程与理论实验室编辑:虾皮19xmlversion="1.0"?>?xml-stylesheettype="text/xsl"href="configuration.xsl"?>nfigurationropertynamehivemetastorelocal</name>valuetrue</value>propertyropertyname>javax.jdo.option.ConnectionURL</name>erEncodingUTFvaluepropertyropertynamejavax.jdo.option.ConnectionDriverName</name>valuecommysqljdbc.Driver</value>propertyropertynamejavax.jdo.option.ConnectionUserName</name>valuehivevalue>propertyropertyname>javax.jdo.option.ConnectionPassword</name>valuehadoop/value>property>configuration里面的配置参数非常之多,但是并不是我们都需要的,我们知道,Hive系统会加载两个配河北工业大学——软件工程与理论实验室编辑:虾皮20Windows行操作是非常方便的,弄好之后在上传上去,覆盖原来的即tables河北工业大学——软件工程与理论实验室编辑:虾皮21nltcharactersetlatinutf8。修改字段注释字符集河北工业大学——软件工程与理论实验室编辑:虾皮22altertableCOLUMNSmodifycolumnCOMMENTvarcharcharactersetutf8;修改表注释字符集1)在Hive上建立数据表2)从MySQL数据库上查看元数据信息usehive;//使用hive数据库库ive表select*fromtbls;//查看hive的元数据信息从作图中我们可以看出里面已经存在很多3.4远程模式安装lropertymehivemetastorelocalnamevaluelocalvalueproperty>ropertyamehivemetastoreurisnamedescriptionJDBCconnectstringforaJDBCmetastore</description>property河北工业大学——软件工程与理论实验室编辑:虾皮23性民性民专男汉基本信息xieyaowei986@163.com河北工业大学(211工程)求职意向编程语编程语言个个人经历1)担

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论