讲义-hive英文名称为DataWarehouse可简写或DWH数据_第1页
讲义-hive英文名称为DataWarehouse可简写或DWH数据_第2页
讲义-hive英文名称为DataWarehouse可简写或DWH数据_第3页
讲义-hive英文名称为DataWarehouse可简写或DWH数据_第4页
讲义-hive英文名称为DataWarehouse可简写或DWH数据_第5页
免费预览已结束,剩余15页可下载查看

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据仓库-英文名称为Data Warehoue,可简写为DW或DWH。数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持(Deciinpt)。可以理解为 数据仓库是面向的(Subject-Oriented)、集成的(Integrated)、非易失的(Non-Volatile)和时变的(Time-Variant)数据集合,用以支持管理决策。面向集非易失时变数据库与数据仓库的区别实际讲的 OLTP(On-LineTransactionProcessing,),也可以称面向交易分析型处理,叫联机分析处理OLAP(On-Line yticalProcessing)一般针对某些的历史数据进行分析,支持管理决策。数据库设计是尽量避免冗余,一般针对某一业务应用进行设计,比如一张简单的Use记录用户名、等简单数据即可,符合业务应用,但是不符合分析。数据仓库在设计是有意引入冗余,依照分析需求,分析维度、分析指标进行设计。按照数据流入流出的过程,数据仓库架构可分为三层——源数据、数据仓库、数据应用

:也称为细节层,DW层的数据应该是一致的、准确的、干净的数据即对源系统数据进行 (去除了杂质)后的数据

Extra,转化Transfer装载Load)的过程,ETL是数据仓库的流水线,也可以认为是数据仓库的元数据(MetaDate),主要记录数据仓库中模型的定义、各层级间的映射关系、数据仓库的数据状态及ETL的任务运行状态。一般会通过元数据资料库(MetadataRepository)来统元数据可分为技术元数据和业务元数据。技术元数据为开发和管理数据仓库的IT人员使用,HiveHive其本质是将SQL转换为MapReduce的任务进行运算,底层由HDFS来提供数据的,说白了Hive用户接口:包括CI、CODC、WeGUI。其中,CLI(mmandlineinerae为s命令行;CDC是ive的JA实现,与传统数据库DC类似;WeGI是通过浏览器访问ive。元数据:通常是在关系数据库如mysql/derby中。Hive将元数据在数据库中。Hive中的元数据包括表的名字,表的列和分区及其属性,表的属性(是否为外部表等),表的数据所在等。解释器、编译器、优化器、执行器:完成HQL查询语句从词法分析、语法分析、编译、优化以及查询计划的生成。生成的查询计划在HDFS中,并在随后有MapReduce调用执Hive与Hadoop的关Hive这里我们选用hive的版本是2.1.1地址为:apache-hive-2.1.1-之后,将我们的安装包上传到第三台机器的/export/sowares 将我们的hive的安装包上传到第三台服务器的/export/sowarescdcdtarzxvfapachehive2.1.1bin.tar.gzC第二步:安装yumyuminstallmysqlmysql-servermysql-/etc/init.d/mysqld/etc/init.d/mysqldgrantgrantallprivilegeson*.*grantroot@identifiedby123456flushcd/export/servers/apachehive2.1.1cd/export/servers/apachehive2.1.1bin/confcphiveenv.sh.templatehiveenv.shHADOOP_HOME=/export/servers/hadoopexportHIVE_CONF_DIR=/export/servers/apachehive2.1.1修改hive-cdcd/export/servers/apachehive2.1.1vimhive<?xmlversion="1.0"encoding="UTF8"<?xmlstylesheettype="text/xsl" 将我们准备好的mysql-connector-java-5.1.38.jar这个jar sudovimexportHIVE_HOME=/export/servers/apachehive2.1.1exportHivecdcd/export/servers/apachehive2.1.1bin/ createdatabaseifnotexistscdcd/export/servers/apachehive2.1.1bin/hivee"createdatabaseifnotexistscdcd/export/serversvimhive.sqlcreatedatabaseifnotexistsmytest;usemytest;createtablestu(idint,name通过hive-f来执行我们的 bin/hivefHive创建数据库createcreatedatabaseifnotexistsmyhive;usemyhive; createdatabasemyhive2location createdatabasefoowithdbproperties describedatabaseextended alterdatabasefoosetdbproperties查看数据库详细信 descdatabaseextended删除数据库 dropdatabase dropdatabasemyhive创建表的语法createcreate[external]table[ifnotexists]table_name(col_namedata_type[comment'字段描述信息']col_namedata_type[comment'字段描述信息[comment'表的描述信息[partitionedby(col_namedata_type,...)][clusteredby(col_name,col_name,...)][sortedby(col_name[ascdesc],...)intonum_bucketsbuckets][rowformatrow_format][storted [location'指定表的路径createEXISTS选项来忽略这个异常。(LOCATION),Hive创建内部表时,会将数据移动到数据仓库指向的路径;若创建外部表示注释,默认不能使用中文partitioned 下 clusteredbyHive可以进一步组织成桶,也就是说桶是更为细粒度的数据范围划分。Hive也是针对某一列进行桶的组织。sorted stortedas指定表文件的格式,常用格式:SEQUENCEFILE,TEXTFILE,RCFILE,如果文件数据是纯文本,可以使用STOREDASTEXTFILE。如果数据需要压缩,使用stortedas创建表时,如果没有使用external关键字,则该表是内部表(managedtable)1字节的有符号整数-4个字节的带符号整数18字节带符号整数4字节单精度浮点数8字节双精度浮点数‘2016-03-key-value,key必须为原始类型,value可以任意类字段集合,类型可以不同建表入门useusecreatetablestu(idint,nameinsertintostuvalues #插入数select*from createtableifnotexistsstu2(idint,namestring)rowformatdelimitedfieldsterminatedby'\t'; createtableifnotexistsstu2(idint,namestring)rowformatdelimitedfieldsterminatedby'\t'location'/user/stu2'; createtablestu3asselect*fromstu2;# createtablestu4like descformatted. droptable每天将收集到的日志定期流入HDFS文本文件。在外部表(原始日志表)的基础上做大量 createexternaltableteacher(t_idstring,t_namestring)rowformatdelimitedfieldsterminatedby'\t'; createexternaltablestudent(s_idstring,s_namestring,s_birthstring,s_sexstring)rowformatdelimitedfieldsterminatedby'\t'; loaddatalocalinpath'/export/servers/hivedatas/student.csv'intotable loaddatalocalinpath'/export/servers/hivedatas/student.csv'overwriteintotablestudent;cdcdhdfshdfspputtecher.csvloaddatainpath'/hivedatas/techer.csv'intotable件,这样每次操作一个小的文件就会很容易了,同样的道理,在hive当中也是支持这种思想unionunion createtablescore(s_idstring,c_idstring,s_scoreint)partitionedby(monthstring)rowformatdelimitedfieldsterminatedby'\t'; createtablescore2(s_idstring,c_idstring,s_scoreint)partitionedby(yearstring,monthstring,daystring)rowformatdelimitedfieldsterminatedby'\t'; loaddatalocalinpath'/export/servers/hivedatas/score.csv'intotablescorepartition(month='201806'); loaddatalocalinpath'/export/servers/hivedatas/score.csv'intotablescore2partition(year='2018',month='06',day='01'); select*fromscorewheremonth='201806'unionallselect*fromscorewheremonth='201806'; showpartitions altertablescoreadd altertablescore

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论