付费下载
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、Hadoop数据分析第11周法律【】和幻灯片为炼数成金网络课程的教学资料,所有资料只能在课程内使用,不得在课程以外范围散播,违者将可能被责任。法律和经济课程详情炼数成金培训NZZV KJ JGZGMX IT*:-;8;专业数据分析社区.GJUUV6OMUUQKKVKX.HGYK.OK9WUUVXU)NQG)GYYGTJXG*:-;8;专业数据分析社区36OM.GJUUV客户端使用类似于972的面向数据流的语言6OM 2GZOT6OM 2GZOT可以完成排序,过滤,求和,聚组,关联等操作,可以支持自定义函数6OM自动把6OM 2GZOT为3GV 8KJIK作业上传到集群运行,减少用户编写0GG程
2、序的苦恼三种运行方式:-XTZ YNKRR,方式,*:-;8;专业数据分析社区4参考书*:-;8;专业数据分析社区.OK数据仓库工具。可以把.GJUUV下的原始结构化数据变成.OK中的表支持一种与972几乎完全相同的语言.OK72。除了不支持更新、索引和事务,几乎972的其它特征都能支持可以看成是从972到3GV 8KJIK的器提供YNKRR、0*() 5*()、:NXOLZ、=KH等接口*:-;8;专业数据分析社区6参考书*:-;8;专业数据分析社区.HGYK-UUMRK (OMZGHRK的开源实现列式数据库可集群化可以使用YNKRR、KH、GVO等多种方式适合高读写(OTYKXZ)的场景.
3、72查询语言4U972的典型代表产品*:-;8;专业数据分析社区8UUQKKVKX-UUMRK )NHH_的开源实现用于协调分布式系统上的各种服务。例如确认消息是否准确到达,防止单点失效,处理负载均衡等应用场景:.HGYK,实现4GSKTUJK自动切换工作原理:程者,跟随者以及过*:-;8;专业数据分析社区9参考书*:-;8;专业数据分析社区9WUUV用于在.GJUUV和关系型数据库之间交换数据通过0*()接口连入关系型数据库*:-;8;专业数据分析社区11XU数据序列化工具,由.GJUUV的创始人*UM )ZZOTM主持开发用于支持大批量量数据的应用。支持二进制序列化方式,可以便捷,快速地处
4、理大动态语言友好,XU提供的机制使动态语言可以方便地处理 XU数据。:NXOLZ接口*:-;8;专业数据分析社区12)NQG架构在.GJUUV之上的与分析框架主要进行日志和分析通过安装在收集节点的“”最原始的日志数据将数据发给收集器收集器定时将数据写入.GJUUV集群指定定时启动的3GV 8KJIK作业队数据进行加工处理和分析.GJUUV基础管理中心(./))最终展示数据*:-;8;专业数据分析社区13)GYYGTJXG4U972,分布式的1K_ GRK型数据库,由,GIKHUUQ贡献与.HGYK类似,也是借鉴-UUMRK (OMZGHRK的体系只有顺序写,没有随机写的设计,满足高负荷情形的性
5、能需求*:-;8;专业数据分析社区14.HGYK简介.(GYK是一个分布式的、面向列的开源数据库,该技术来源于)NGTM KZ GR所撰写的-UUMRK“(OMZGHRK:一个结构化数据的分布式系统”。就像(OMZGHRK利用了-UUMRK文件系统(,ORK 9_YZKS)所提供的分布式数据.(GYK在.GJUUV之上提供了类似于(OMZGHRK的能力。.(GYK是VGINK的.GJUUV 项目的子项目。一样,.(GYK不同于一般的关系数据库 它是一个适合于非结构化数据同的是.(GYK基于列的而不是基于行的模式的数据库 另一个不*:-;8;专业数据分析社区15(OM :GHRK的想法学生表的例
6、子9 Y YT YJ YG 存放为关系的学生表以HOMZGHRK方式存放学生表(OMZGHRK 无所不包的大表*:-;8;专业数据分析社区16.HGYK逻辑模型以表的形式存放数据表由行与列组成,每个列属于某个列族,由行和列确定的单元称为元素每个元素保存了同一份数据的多个版本,由时间戳来标识区分*:-;8;专业数据分析社区17行键行键是数据行在表里的唯一标识,并作为检索的主键表里的行只有三种方式 通过单个行键 给定行键的范围 全表扫描行键可以是最大长度不超过 1(的任意字符串,并按照字典序对于经常要一起的行,要对行键值精心设计,以便它们能放在一起*:-;8;专业数据分析社区18列族与列列表示为列
7、族$ 限定符$.HGYK在磁盘上按照列族形数据,这种列式数据库的设计非常适合于数据分析的情列族里的元素最好具有相同的读写方式(例如等长的字符串),以提高性能*:-;8;专业数据分析社区19时间戳对应每次数据操作的时间,可由系统自动生成,也可以由用户显式的赋值.HGYK支持两种数据版本回收方式: 每个数据单元,只保存指定时间长度的版本(例如 天)指定个数的版本 常见的客户端时间查询:“某个时刻起的元素由 行键,列族 限定符,时间戳唯一决定元素以字节码形式存放,没有类型之分数据”或“给我全部版本的数据”*:-;8;专业数据分析社区20.HGYK物理模型*:-;8;专业数据分析社区218KMOUT和
8、8KMOUT服务器表在行方向上,按照行键范围划分成若干的8KMOUT每个表最初只有一个XKMOUT,当XKMOUT数增加到超过某个阈值时,开始成两个物理上所有数据存放在.*,9,由8KMOUT服务器提供XKMOUT的管理一台物理节点只能跑一个.8KMOUT9KXKX一个.XKMOUTYKXKX可以管理多个8KMOUT实例一个8KMOUT实例包括.RUM日志和存放数据的9ZUXK.SGYZKX作为总控节点UUQKKVKX负责调度*:-;8;专业数据分析社区22.2UM用于恢复预写式日志,所有更新操作,操作先进日志,数据才会写入*:-;8;专业数据分析社区23 855: 和 3+: 表.(GYK中
9、有两张特殊的:GHRK, 855: 和 3+: 3+: : 855: :UUQKKVKX中了用户表的8KMOUT信息, 3+: 可以有多个XKMUOT了 3+: 表的8KMOUT信息, 855: 只有一个XKMOUT了 855: 表的RUIGZOUT*:-;8;专业数据分析社区243KSYZUXK与YZUXKLORK一个XKMOUT由多个YZUXK组成,每个YZUXK包含一个列族的所有数据9ZUXK包括位于把内存的SKSYZUXK和位于硬盘的YZUXKLORK写操作先写入SKSYZUXK,当SKSYZUXK中的数据量达到某个阈值,.XKMOUTYKXKX会启动LRGYNIGINK进程写入YZU
10、XKLORK,每次写入形成单独一个YZUXKLORK当YZUXKLORK文件的数量增长到一定阈值后,系统会进行合并,在合并过程中会进行版本合并和删除工作,形成更大的YZUXKLORK当YZUXKLORK大小超过一定阈值后,会把当前的XKMOUT分割为两个,并由.SGYZKX分配到相应的XKMOUT服务器,实现负载均衡客户端检索数据时,先在SKSYZUXK找,找不到再找YZUXKLORK*:-;8;专业数据分析社区25图解*:-;8;专业数据分析社区26.HGYK Y 5XGIRK索引不同造成行为的差异.HGYK适合大量同时又有读的情况.HGYK的瓶颈是硬盘传输速度,5XGIRK的瓶颈是硬盘寻道
11、时间.HGYK很适合寻找按照时间排序ZUV T的场景*:-;8;专业数据分析社区27传统数据库的行式数据存放在数据文件内数据文件的基本组成:块 页块内结构:块头、数据区*:-;8;专业数据分析社区行式读某个列必须读入整行行不等长,修改数据可能导致行迁移行数据较多时可能导致行链*:-;8;专业数据分析社区5XGIRK行式的路径全表扫描行标识*:-;8;专业数据分析社区行标识:(树索引*:-;8;专业数据分析社区(树索引原理:结点*:-;8;专业数据分析社区(树索引原理:树形利用(树进行查询GIIKYY VGZN(树结点(树删除合并结点*:-;8;专业数据分析社区(树索引的弱点空间代价,创建时间代
12、价,重复值多时影响效率代价*:-;8;专业数据分析社区(OM:GHRK的293索引*:-;8;专业数据分析社区35网络参考资源NZZV OHS IUS JKKRUVKXUXQY IT UVKTYUXIK UY IT UUQKKVKX NZZV GMGVVRK OZK_K IUS HRUM NZZV UUQKKVKX GVGINK UXM JUI X UUQKKVKX5KX NZSR*:-;8;专业数据分析社区UUQKKVKX的用途用来解决分布式应用中经常遇到的一些数据管理问题,如:命名空间 4GSK 9KXOIK 配置推送 =GZIN 集群管理 -XUV SKSHKXYNOV 使用UUQKKV
13、KX提供分布式锁机制,从而实现分布式的一致性处理。典型的几个场景: (GXXOKX 7KK2UIQ 6)*:-;8;专业数据分析社区命名空间*:-;8;专业数据分析社区数据结构特点每个子目录4GSK9KXOIK 都被称作为 TUJK,这个 TUJK 是被它所在的路径唯一标识,如9KXKX 这个 TUJK 的标识为 4GSK9KXOIK 9KXKX TUJK 可以有子节点目录,并且每个 TUJK 可以能有子节点目录数据,注意 +6.+3+82 类型的目录节点不TUJK 是有版本的,每个 TUJK 中多份数据的数据可以有多个版本,也就是一个路径中可以TUJK 可以是临时节点,一旦创建这个 TUJK
14、 的客户端与服务器失去联系,这个 TUJK 也将自动删除,UUQKKVKX 的客户端和服务器通信采用长连接方式,每个客户端和服务器通过心跳来保持连接,这个连接状态称为 YKYYOUT,如果 TUJK 是临时节点,这个 YKYYOUT 失效,TUJK 也就删除了TUJK 的目录名可以自动,如 VV 已经存在,再创建的话,将会自动命名为 VV TUJK 可以被,包括这个目录节点中的数据的修改,子节点目录的变化等,一旦变化可以通知设置性实现的的客户端,这个是 UUQKKVKX 的特性,UUQKKVKX 的很多功能都是基于这个特*:-;8;专业数据分析社区UU1KKVKX 基本的操作示例 创建一个与服
15、务器的连接UU1KKVKX Q # TK UU1KKVKX RUIGRNUYZ )2/+4:E658: )ROKTZ(GYK )544+):/54E:/3+5;: TK =GZINKX a 所有被触发的事件VHROI UOJ VXUIKYY =GZINKJ+KTZ KKTZ a9_YZKS UZ VXOTZRT 已经触发了 KKTZ MKZ:_VK 事件! !cc ! 创建一个目录节点Q IXKGZK ZKYZ8UUZ6GZN ZKYZ8UUZ*GZG MKZ(_ZKY /JY 56+4E)2E;49,+ )XKGZK3UJK 6+89/9:+4: !*:-;8;专业数据分析社区UU1KKVK
16、X 基本的操作示例 创建一个子目录节点Q IXKGZK ZKYZ8UUZ6GZN ZKYZ)NORJ6GZN5TK ZKYZ)NORJ*GZG5TK MKZ(_ZKY /JY 56+4E)2E;49,+ )XKGZK3UJK 6+89/9:+4: !9_YZKS UZ VXOTZRT TK 9ZXOTM Q MKZ*GZG ZKYZ8UUZ6GZN LGRYK TRR ! 取出子目录节点列表9_YZKS UZ VXOTZRT Q MKZ)NORJXKT ZKYZ8UUZ6GZN ZXK ! 修改子目录节点数据Q YKZ*GZG ZKYZ8UUZ6GZN ZKYZ)NORJ6GZN5TK SUJ
17、OL_)NORJ*GZG5TK MKZ(_ZKY !9_YZKS UZ VXOTZRT 目录节点状态:A Q KOYZY ZKYZ8UUZ6GZN ZXK C !*:-;8;专业数据分析社区UU1KKVKX 基本的操作示例 创建另外一个子目录节点Q IXKGZK ZKYZ8UUZ6GZN ZKYZ)NORJ6GZN:U ZKYZ)NORJ*GZG:U MKZ(_ZKY /JY 56+4E)2E;49,+ )XKGZK3UJK 6+89/9:+4: ! 9_YZKS UZ VXOTZRT TK9ZXOTM Q MKZ*GZG ZKYZ8UUZ6GZN ZKYZ)NORJ6GZN:U ZXK TR
18、R ! 删除子目录节点Q JKRKZK ZKYZ8UUZ6GZN ZKYZ)NORJ6GZN:U !Q JKRKZK ZKYZ8UUZ6GZN ZKYZ)NORJ6GZN5TK ! 删除父目录节点Q JKRKZK ZKYZ8UUZ6GZN ! 关闭连接Q IRUYK !*:-;8;专业数据分析社区配置管理*:-;8;专业数据分析社区集群管理UUQKKVKX 能够很容易的实现集群管理的功能,多台 9KXKX 组成一个服务集群,那么必须要一个“总管”知道当前集群中每台机器的服务状态,一旦有机器不能提供服务,集群中其它集群必须知道,从而做出调整重新分配服务策略。同样当增加集群的服务能力时,就会增加一
19、台或多台 9KXKX,同样也必须让“总管”知道。UUQKKVKX 不仅能够帮你当前的集群中机器的服务状态,而且能够帮你选出一个“总管”,让这个总管来管理集群,这就是 UUQKKVKX 的另一个功能 2KGJKX +RKIZOUT。它们的实现方式都是在 UUQKKVKX 上创建一个 +6.+3+82 类型的目录节点,然后每个 9KXKX 在它们创建目录节点 的父目录节点上调用 MKZ)NORJXKT 9ZXOTM VGZN HUURKGT GZIN 方法并设置 GZIN 为 ZXK,由于是 +6.+3+82目录节点,当创建它的 9KXKX 死去,这个目录节点也随之被删除,所以 )NORJXKT 将会变化,这时 MKZ)NORJXKT上的 =GZIN 将会被调用,所以其它 9KXKX 就知道已经有某台 9KXKX 死去了。新增 9KXKX 也是同样的原理。UUQKKVKX 如何实现 2KGJKX +RKIZOUT,也就是选出一个 3GYZKX 9KXKX。和前面的一样每台 9KXKX 创建一个+6.+3+82 目录节点,不同的是它还是一个 9+7;+4:/2 目录节点,所以它是个
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年铜陵市铜官区中小学新任教师公开招聘31名笔试参考题库及答案解析
- 吉林省四平市铁西区2025-2026学年初三下学期三模考试语文试题理试题含解析
- 2026届天津市蓟州区上仓镇初级中学初三下学期联考期末试卷语文试题含解析
- 江西省赣州市兴国县达标名校2025-2026学年初三3月线上考试英语试题含解析
- 安徽省亳州市涡阳县石弓中心校2025-2026学年高中毕业班第二次中考模拟考试英语试题含解析
- 医疗意外防范安全系统承诺书范文4篇
- 新产品研发及交付时间承诺函(5篇)
- 个人未来目标承诺书3篇
- 职场礼仪商务场合商务礼仪指导书
- 教育培训机构课程体系设计与开发指导
- (正式版)DB51∕T 2890-2022 《川西高原苹果生产技术规程》
- 广东省广州市广附大联盟校2025-2026学年九年级上学期期末语文试题(含答案)(含解析)
- 勒索病毒应对方案
- 2025年四平市基层专干面试题库及答案
- 数学教师专题培训讲座
- 中广核新能源(深圳)有限公司招聘笔试题库2026
- (新教材)2026年春期部编人教版三年级下册语文 第三单元 核心素养教案(反思无内容)
- 共线生产风险管理制度
- 上海上海市宝山区2025年青年储备人才招聘28人笔试历年参考题库附带答案详解
- 2026年武汉武昌古城文旅投资发展集团有限公司招聘备考题库及答案详解参考
- 道路交通安全设施设置方案
评论
0/150
提交评论