



下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、论文阅读成果和创新点论文阅读成果和创新点厦门大学数据库实验室厦门大学数据库实验室罗道文罗道文2015-03-07 SAND_JOIN algorithm目目 录录 基于基于Locality-Aware的的reduce任务调度任务调度 SAND_JOIN算法算法不足之处不足之处 SAND_JOIN算法改进算法改进SAND_JOIN algoririthm简单的范围分区思想:在执行reduce-join连接之前,先运行一个job,统计键值的分布情况,即抽样思想,接着利用样本的键值分布情况,对所有数据进行分区。分为:简单范围分区和虚拟处理器范围分区。思想:Map端采样:每个Mapper随机选取X个样
2、本,有n个Mapper。 Reduce端统计分布:只需要一个Reducer对样本所有key值统计分析,构造出分区序列。 SAND_JOIN algoririthm若执行的Join连接有N个Reduce,则可以根据步长n*x/N获得一个分区序列。例如: Sample:1,3,3,4,5,5,6,6,6,6,8,9,9,10,10,5个Reducer,步长为3, 分区序列为:3,5,6,9 Join Partition: key3 3key5 5key6 6key9 9 键为6的有两个可选Reducer 解决: build relation: 随机选择一个可选Reducer probe relat
3、ion: 需发送到每个可选Reducer 适合一个大表一个小表的情况! SAND_JOIN algoririthm倾斜键存在大小表的情况 Samples: 1, 3, 3, 4, 5, 5, 6, 6, 6, 6, 6, 6, 9, 10, 10, 5个Reducer,步进3 分区序列: 3, 5, 6, 6 - 键为6的有两个可选Reducer 3 和 4 R join S,对于键6,若 R.6 = S.6 可将所有的S.6传输到3和4上,然后R.6可以随机分配到3或4上其实就是x*y=x*(y1+y2)=x*y1+x*y2SAND_JOIN algoririthm论文具体实现: 1.将小表
4、S加载到每一台机器,建立哈希表,的形式。 2.当R表某个键值key分配到某个Reducer上时,从哈希表中检索key的value值,即tuplelist,与R表中的元组做Join操作。SAND_JOIN algoririthm虚拟处理器范围分区 实际是N个Reducer,但假定分成 *N 个分区(为整数)。 例如Samples: 1, 3, 4, 4, 5, 5, 6, 6, 6, 6, 6, 6, 9, 10, 10, 11, 11, 11, 15, 16, 5个ReducerJoin Partition: 1,3,4,4, 5,5,6,6, 6,6,6,6, 9,10,10,11,11,1
5、1, 15,16 = 2,则分成2*5=10个分区Samples: 1, 3, 3, 4, 5, 5, 6, 6, 6, 6, 6, 6, 9, 10, 10, 11, 11, 11, 15, 16, 10个ReducerJoin Partition: 1,3,3, 4, 5,5, 6,6, 6,6, 6,6, 9,10,10, 11, 11,11, 15,16 采用虚拟范围分区,数据分配更加均衡 处理方式: 轮叫调度 或 当某一节点完成时,将下一剩余任务分配给该节点 论文的实验结果表明虚拟范围分区优于简单范围分区SAND_JOIN algoririthmLocality-Aware的的reduce任务调度任务调度思想:尽量将某个key分配给所有节点中该key最大的节点。 优点:减少数据量的传输。“Hadoops framework adopts a pull scheduling strategy rather than a push one” 意思就是说JobTracker并不是把map和reduce任务push给TaskTracer,而是TaskTracker通过请求向JobTracker pull一个map或者reduce任务。基于位置感知的reduce任务调度Locality-Awa
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 内蒙古大学数学试卷
- 奶粉品尝活动方案策划(3篇)
- 米字支撑施工方案(3篇)
- 鹤壁路面开槽施工方案(3篇)
- 感恩业主品牌活动策划方案(3篇)
- 挖碴装车施工方案(3篇)
- 药械知识考试题库及答案
- 北京市门头沟区2023-2024学年八年级下学期期中考试道德与法制考题及答案
- 新材料作文题目及答案
- 写好友作文题目及答案
- 奶茶店饮品制作手册
- 初中化学课程标准(2022年版)考试题库(含答案)
- 人教版小学英语3-6年级单词(带音标)
- 部编人教版六年级上册语文全册教学课件+单元复习课件
- 酒店消防安全管理制度(2022版)
- 2024环氧磨石地坪施工技术规程
- 人教部编七年级语文全册专项知识点梳理归纳字词、文言文、古诗词
- 国家基本公共卫生服务规范第三版测试
- 2022年版初中物理课程标准解读-课件
- 人教版六年级上册数学全册教案教学设计含教学反思
- 输配电绝缘子维护与更换
评论
0/150
提交评论