大数据资料.doc_第1页
大数据资料.doc_第2页
大数据资料.doc_第3页
大数据资料.doc_第4页
大数据资料.doc_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1.大数据全景2.linux系统与windows系统的本质区别Windows操作系统倾向于将更多的功能集成到操作系统内部,并将程序与内核相结合;而Linux不同于Windows,它的内核空间与用户空间有明显的界限。3. 虚拟机概念与类型虚拟机(Virtual Machine)指通过软件模拟的具有完整硬件系统功能的、运行在一个完全隔离环境中的完整计算机系统。4. docker基本知识(概念、架构、docker容器和虚拟化实现原理)容器:Docker 容器是一个开源的应用容器引擎,让开发者可以打包他们的应用以及依赖包到一个可移植的Docker容器中,然后发布到任何流行的Linux机器上,也可以实现虚拟化。Docker容器是完全使用沙箱机制,相互之间不会有任何接口。不像虚拟机,Docker容器几乎没有性能开销,可以很容易地在机器和数据中心中运行。他们不依赖于任何语言、框架以及系统。架构:Docker采用Client/Server架构模式。Docker Daemon是docker的核心守护进程,也就是Server端,Server端可以部署在远程,也可以部署在本地,客户端向服务器发送请求,服务端负责构建、运行和分发容器。客户端和服务器可以运行在同一个 Host 上,客户端可以通过 socket 或 REST API 与远程的服务器通信。docker CLI 实现容器和镜像的管理,为用户提供统一的操作界面,这个 客户端提供一个只读的镜像,然后通过镜像可以创建一个或者多个容器(container),这些容器可以只是一个RFS(Root File System),也可以是一个包含了用户应用的RFS。容器在docker Client中只是一个进程,两个进程是互不可见的,从而实现容器之间的个隔离。用户不能与server直接交互,但可以通过与容器这个桥梁来交互,由于是操作系统级别的虚拟技术,中间的损耗几乎可以不计。虚拟化实现原理:5.数据仓库概念与特点概念:数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。特点:面向主题、集成性、稳定性和时变性6. OLAP概念与类型概念:使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业维特性的信息进行快速、一致、交互的存取,从而获得对数据更深入了解的一类软件技术类型:ROLAP、MOLAP、HOLAP7. OLAP基本功能切片、切块、钻取、旋转8. OLAP最典型的数据模式以及它们的区别ROLAP的优势: (1)处理高基数列具有更好的扩展性; (2)擅长处理非聚合类的原始数据,生态圈内用于原始数据入库的ETL工具众 多,同时比MOLAP入库速率更高; (3)由于数据存储在关系型数据库中,所以支持标准SQL接口,查询便捷;MOLAP的优势:由于MOLAP不采用关系型数据库进行数据存储,所以必须采用特殊的存储手 段,例如:压缩存储、索引(例如位图索引)以及缓存技术等,查询速率更快;MOLAP的劣势:(1)数据导入较慢,需要使用定制的ETL入库工具; (2)由于没有维度表和事实表,所以对于更新操作以及明细查询,效率要比 ROLAP低很多。HOLAP充分利用了ROLAP与MOLAP的各自优势,从纵向角度,既允许用户将部分 数据(比如聚合类数据)使用MOLAP进行存储,从而获得更快的查询性能;又允 许部分数据(比如原始数据)使用ROLAP进行存储,使用户能够查看细粒度数 据。从横向角度,使用MOLAP存储最近较热的数据,从而提升查询性能;而使用 ROLAP存储历史较冷的数据。9. 列举多维分析领域中的核心概念(解释事实表、维度表概念)事实数据表:数据仓库架构中的中央表,它包含联系事实与维度表的数字度量值和键。事实数据表包含描述业务(如银行事务或产品销售)内特定事件的数据。维度表:数据仓库中的表,其条目描述事实数据表中的数据。维度表包含创建维度所基于的数据。维(Dimension):是人们观察数据的特定角度,是考虑问题时的一类属性,属性集合 构成一个维(时间维、地理维等)。 维的层次(Level):人们观察数据的某个特定角度(即某个维)还可以存在细节程度不 同的各个描述方面(时间维:日期、月份、季度、年)。 维的成员(Member):维的一个取值,是数据项在某维中位置的描述。(“某年某月 某日”是在时间维上位置的描述)。 度量(Measure):多维数组的取值。(2000年1月,上海,笔记本电脑,0000)。 OLAP的基本多维分析操作有钻取(Drill-up和Drill-down)、切片(Slice)和切块 (Dice)、以及旋转(Pivot)等。 钻取:是改变维的层次,变换分析的粒度。它包括向下钻取(Drill-down)和向上钻取 (Drill-up)/上卷(Roll-up)。Drill-up是在某一维上将低层次的细节数据概括到高层次的汇 总数据,或者减少维数;而Drill-down则相反,它从汇总数据深入到细节数据进行观察或增 加新维。 切片和切块:是在一部分维上选定值后,关心度量数据在剩余维上的分布。如果剩余的 维只有两个,则是切片;如果有三个或以上,则是切块。 旋转:是变换维的方向,即在表格中重新安排维的放置(例如行列互换)。10. hdfs体系结构11. hdfs读流程,结合图进行描述客户端通过调用FileSystem对象的open()方法来打开希望读取的文件,对于HDFS来说,这个 对象时分布文件系统的一个实例; DistributedFileSystem通过使用RPC来调用NameNode以确定文件起始块的位置,同一 Block按照重复数会返回多个位置,这些位置按照Hadoop集群拓扑结构排序,距离客户端近的排 在前面(详见第三章) 前两步会返回一个FSDataInputStream对象,该对象会被封装成DFSInputStream对象, DFSInputStream可以方便的管理datanode和namenode数据流,客户端对这个输入流调用read() 方法 存储着文件起始块的DataNode地址的DFSInputStream随即连接距离近的DataNode,通 过对数据流反复调用read()方法,将数据从DataNode传输到客户端 到达块的末端时,DFSInputStream会关闭与该DataNode的连接,然后寻找下一个块的佳 DataNode,这些操作对客户端来说是透明的,客户端的角度看来只是读一个持续不断的流 一旦客户端完成读取,就对FSDataInputStream调用close()方法关闭文件读取。12. hbase存储机

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论