用 mapreduce 处理 Theta-joins

上传人：t*** IP属地：河南上传时间：2020-04-02 格式：DOCX 页数：14 大小：50.45KB 积分：15 举报 版权申诉

已阅读5页，还剩9页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

用 mapreduce 处理 Theta joins 摘要对于许多数据分析任务来说连接是基本的 job 但是 mapreduce 范式不直接支持它们在等值连接方面有进展一般来说不能充分理解 mapreduce 里的连接算法的实现我们研究这个问题任何吧任意连接条件映射到 map 和 reduce 函数例如一个只基于 key 等值的控制数据库的并行的基本结构我们提出的连接模型简化了 mapreduce 里的连接的创建和推理使用这个模型我们导出一个惊人的简单的随机算法叫做 1 bucket theta 这个算法是用来在一个单 mapreduce job 实现任意的连接的 theta joins 该算法仅仅需要最小的概率输入基数我们有证据表明对于各种各样的连接问题它或者接近最优的或者是最佳的可能的选择对于 1 bucket theta 不是最佳选择的问题我们显示通过使用附加的输入概率如果来达到更好地性能所有的算法被制作成 memory aware 它们都不需要对 mapreduce 环境做任何的修改实验显示我们的方法的高效性 1 前沿非常大的数据集在许多学科形成一个挑战英特网公司想分析 TB 级的应用日志和点击流量数据科学家必须处理大规模实验和传感器收集的数据集例如大型强子碰撞型加速装置国家虚拟天文台零售商想找到顾客和销售数据里的模式当处理这个分析并行计算对确保合理的响应时间是必要的 Mapreduce 已经显示作为最流行的用于并行处理的范式 Mapreduce 在数据管理研究方面已经有很大的影响 Mapreduce 成功的一个主要的原因是免费开源的实现的可用性 hadoop 和一个活跃的开发者团体这个团体一直改进 mapreduce 并添加特性最近添加了 database inspired high level 语言 PigLatin 和对 SQL 查询的支持 Hive Mapreduce 被设计用来处理单个的输入数据集因此不直接支持连接但是最近的研究显示等值连接已经通过使用 mapreduce s key equality 基于数据库管理实现了但是在许多应用中更复杂的连接位置也不要被支持对于空间数据 band joins 和空间连接很常见数据集间的关联分析也需要相似的连接甚至大家很少关注传统的非等值连接谓词 Map reduce merge 扩展支持各种连接位置但是它需要对 mapreduce 做基本的改变它如何使用它不仅添加一个新的合并阶段而且需要用户写代码这些代码明确的必须明白这个实现的分布式特性本人我们提出允许在 mapreduce 里的任意 theta joins 的高效的并行执行不必要对 mapreduce 环境进行任何的修改同时用户也不必要写任何的有专门目的的代码来管理数据流所有的事情通缩简单的指定合适的连续的 map 和 reduce 函数来实现特别的我们做了如下主要贡献 1 我们提出了一个 reducer centered 代价模型和一个连接模型连接模型简单了 mapreduce 里可能的 theta join 的实现的创建和推理 2 我们提出了一个叫做 1 bucket theta 的随机算法用来计算一个 mapreduce 任务里的任何的 theta join 包括笛卡尔积这个算法仅仅需要最小的输入概率输入集的基数 3 对于一个流行的非等值连接的类包括非等值和 band joins 我们提出算法该算法在 1 bucket theta 上改进只要充分的详细的输入是有效的本人剩下的部分组织如下我们在第二部分研究了 mapreduce 和一种普通的等值实现在第三部分我们提出了一个定性的 mapreduce 代价模型和一个连接模型使用这个连接模型我们到处 1 bucket theta 算法同时在第五部分证明它的性能第六部分显示代表性的实验结果第七部分讨论了相关工作第八部分总结了本文 2 mapreduce 和 joins 2 1 mapreduce 综述 Mapreduce 被提出用来在分布式并行架构上简化大规模数据处理尤其是商业硬件集群这个编程模型的主要观点就是隐藏数据分布和负载均衡的细节让用户注意力集中在数据处理方面一个 mapreduce 程序有 2 个基元组成 Map 和 reduce Map 函数被应用于单条的输入记录为了计算许多中间结果对于每一个 key reduce 处理带这个 key 的所有值得列表任何 reduce 产生的输出写到分布式文件系统里的一个文件中 Mapreduce 构架的综述在图 1 给出输入记录可能给分配到分布式文件系统上的多个物理位置上一旦 mapreduce 工作被初始化这些记录被转移到 mapper 节点上对于每一个输入记录执行一个新的 map 的实体它把记录解析成一个类型 k1 v1 key value 对然后输入一个新的类型 k2 v2 key value 对这些 map 的输出在 mapper 节点局部收集基于一个函数类型 k2 的 keys 被分配到 reducer 节点 Mapper 节点对他们的中间输出进行洗牌来为每一个 reducer 节点创建一列 key value 对这些列被转移到合适的 reducer 节点上一旦 map 阶段完成每一个 reducer 节点对对它的输入根据 key 排序然后每一个 k2 list v2 的类型对的结果调用一个 reduce 函数来处理 Reduce 的输出类型 list v2 根据以前的 mapreduce 论文然后被传送给 dfs 节点注意到 reduce 也能产生不同类型 list v3 的输出 2 2 等值连接的例子考虑数据集 S 和 T 的在共同属性 A 上的等值连接也就是连接条件 S A T A 通常这个通过把连接属性作为 key 确信所有相同连接属性值的对在一个单个的 reduce 函数调用一起处理更详细对于数据集 S 的每一个输入元组 S map 输出 key value 对 s A s 注意到 s 也通过添加一个属性原点表明这个元组来自数据集 S 来扩充来自数据集 T 的原则相似地处理对于每一个连接属性值 reduce 然后计算相应的元组有 S 符号标志的元组和有 T 符号标志的元组间的笛卡尔积这个是在文献中常见的实现见第七部分我们因此参考它作为标准的等值连接实现这种算法有两个问题第一 reducer 节点的数目受输入数据集的不同的 A 值得个数的影响原因是所有 A 值相同的元组必须被同一个 reduce 调用处理固有地限制并行第二个问题是由数据斜交引起的如果某些 a 值出现次数非常频繁处理它的 reducer 接到过分的大量的工作份额不但处理输入而且把大量的结果写到 DFS 因此延迟了工作的完成时间 2 3 非等值连接的例子考虑到数据集 S 和数据集 T 连接非等值连接条件是 S A T A 非等值连接对于 mapreduce 来说有固有的困难因为数据集 T 中的每个元组必须不但和数据集 S 中有相同 A 属性值的元组连接而且要和数据集 S 中有不同更小 A 属性值的元组连接基于计算模式任何把非等值连接条件映射到 key equality 这点还不是很明显有人可能会考虑到如下的天真的方法假设属性 A 的值域的值是非负整数为了确保数据集 T 的一个元组和数据集 S 中所有 A 属性值等于或小于该元组 A 值的元组进行连接我们使 map 输出的数据集 T 的每一个元组都以较小的 A 属性值作为 keys 更精确地说对于数据集 S 的输入到 Map 每一个的元组而言 map 仅仅输出 s A s 但是对于数据集 T 中的每个元组 t map 输出 a t a T A 也就是只输出 a 值比 s A 要小于或等于的 T 的元组 t 输出形式是 a t 但是这种方法也有两个主要的问题第一个问题根据连接属性的值产生大量的 T 元组的副本第二个问题如果属性值 A 不是整数或者可以等于复制我们不能穷举所有比给定 t A 更小的值针对这些状况 map 函数需要知道数据集 S 的属性 A 不同取值的集合来产生正确的 T 副本 3 preliminary 在下面的分析里我们一般假设所有的 reducer 节点都有近似相同的计算能力事实上这点不但对于云中创建的虚拟机集群有效而且对于运行在商品硬件上的物理集群也有效 3 1 优化目标对于已知的连接操作和它的输入和已知处理节点的数目我们想最小化工作完成时间工作的完成时间包括 mapreduce 的所有阶段从第一个数据元组被传送到 mapper 节点到最后一个输出元组写回到 DFS 中用户需要短的工作完成时间正如我们上面讨论的也固有的带来一个负载均衡方法这和当前关于分布式并行系统的工作一致当前的分布式并行系统中负载均衡思想起了核心作用 3 2 mapreduce 代价模型对于一个给定的连接问题相互矛盾的 mapreduce 实现仅仅在它们的 map 和 reduce 函数有不同既然把输入从 dfs 传递到 mapper 节点和每一个 mapper 本地的读输入元组不受具体的 map 和 reduce 函数的影响因此我们在最优化的时候没必要考虑这些代价 Map 和 reduce 函数影响从产生 map 函数输出到把最后的连接结果写回到 dfs 的代价为了分析这些 mapreduce job 阶段的完成时间考虑一个单个的 reducer Mapper 输出的子集作为 reducer 的输入 Ruducer 根据输入元组的 key 对元组进行排序读一个 key 的相应的 value list 对这个列表计算连接然后把局部产生的连接结果元组写到 dfs 图 2 说明了这个过程由于 Mapreduce 的特性在 mapper 节点之间平衡负载很容易另一方面当使用标准的等值连接算法可能对于某些 reducer 接到了更大的工作份额这将延迟工作的完成因此为了是工作完成时间更少我们需要将任何节点分配到的最大的工作份额最小化也就是 reducers 间的负载均衡如图 2 所示 reducer 的一些时间花在任务上这些任务的持续根据输入的大小而其他的根据输出的大小或者根据输入和输出的大小通常代价是单调的也就是输入越大处理所花地时间也越多输出大小也类似我们因此能通过算法的 max reducer input 和 max reducer output 评估连接算法的质量也就是任何 reducer 分配的最大输入大小和任何 reducer 最大的输出大小我们在下述情况间区分如果 reducer input 相关代价控制工作完成时间那么我们说这个连接问题是 input size 控制的如果 reducer output 相关代价支配工作完成时间然后连接问题是 output size 控制的如果既不控制其他的我们有一个 input output 均衡问题注意连接问题种类取决于特殊的选择的连接实现对于 input size 控制的问题通过最小化 max reducer input 来实现最小化工作完成是加你对于 output size 控制的问题我们需要最小化 max reducer output 对于 input output balanced 问题我们必须两个都最小化注意我们定性的代价模型没有做关于那种类型代价控制的假定也就是我们的定性代价模型包括这些网络传输时间 CPU time 或者本地的 I O 时间控制所有这些代价随着 input 大小或者 output 大小或者两者的大小的增加而增加因此不论网络 cpu 或者本地 I O 是否是瓶颈最小化 input 大小或者最小化 output 大小或者最小化两者的大小可以最小化工作完成时间 3 3 theta join model 我们用连接矩阵 M 给两个数据集 S 和 T 间的连接建立模型然后使用这个代表在 mapreduce 里创建和推理关于不同的连接实现图 3 显示一个例子数据集和一种连接谓词的相应矩阵对于第 i 行第 j 列如果 S 的第 i 个元组和 T 的第 j 个元组满足连接条件那么矩阵实体 M i j 被设置为 true 图片中的阴影否则就设置为 false 不涂因为任何 theta join 是笛卡尔积的一个子集这个矩阵能表示任何的连接条件 3 4 把连接矩阵单元格映射到 reducers 我们的目标是使得每一个连接输出元组恰巧被一个 reducer 输出也就是每个 reducer 不输出相同的结果元组以避免昂贵的后处理或者消除副本因此给定 r 个 reducers 我们想把每个矩阵单元以 M i j true 的方式映射到恰巧一个 reducer 上如果这个矩阵单元被映射到 reducer R 我们也称 reducer R 覆盖一个连接矩阵单元有很多可能的映射可以覆盖所有的真值矩阵单元我们的目的是找到从连接矩阵单元到 reducers 的映射这个映射最小化工作完成时间因此我们想找这样的映射或者平衡 reducer 输入份额对于 input size 控制的连接或者平衡 reducer 输出份额对于 out size 控制的连接或者在两者之间取得折衷对于 input output 均衡连接图 4 显示在选择不同映射中的折衷左边的图是映射在 mapreduce 里被标准等值连接实现使用的映射连接属性值相同的所有元组都被映射到同一个 reducer 中这样导致了 reducer 输入和输出负载都不均衡例如 reducer R2 接受 5 个输入元组同时创建 6 个输出元组当 reducer R3 输入 3 个元组输出 2 个元组其他两幅图对应新的等值连接算法我们在以前的文献里没见过这些算法使用我们的 theta join 实现的公式化作为从 true 矩阵实体到 reducers 集合的映射容易想出更多的算法中间的图代表一个非常细粒的映射即使数据集 S 的第五 S5 第六元组 S6 和数据集 T 的第六个元组 T6 都有相同的连接属性值 R2 产生 S5 和 T6 的连接结果 R1 产生 S6 和 T6 的连接结果这个例子也说明了斜交是如何高效处理的例如把有连接至 7 的输出元组分成许多小片更好地输出负载平衡的下降趋势是每一个 reducer 更大的输入大小是因为了使得每一个 reducer 能产生希望的结果而复制元组引起的例如 S 的第二和第三个元组必须送到所有的 3 个 reducer 同时注意 R2 和 R3 都能产生输出 S2 T2 和 S3 和 T2 因为他们都有相应的输入元组为了执行 matrix to reducer 映射和避免副本输出算法必须把映射相关的信息传递给每一个 reducer 右边的映射表明我们如何能实现输出和输出的最好极大的输出块被有效的打破而输入副本保持低 reducer 输入和输出都很均衡即使映射不仅仅覆盖了 true 单元格而且覆盖了这些对连接输出没有贡献的单元格比如 M 2 1 这也实现了这些不影响连接结果因为 reduce 消除他们我们新算法代表了这个基本思想的实际实现当最小化 reducer 输入元组的副本时平衡输入和输出代价引理 1 假如一个 reducer 非配给了连接矩阵的 c 个单元格那么这个 reducer 至少接受 2 输入元组个证明考虑 reducer 从数据集 S 中接受 m 个元组从 T 中接受 n 个元组这个 reducer 最多覆盖 m n 个连接矩阵 M 的单元格因此为了覆盖 c 个矩阵单元格 m n c 考虑满足 m n c 的所有可能的非负值 m 和 n 都当 m n 时 m n 的和取得最小值 4 1 bucket theta 算法第二部分的例子显示和 mapreduce 里实现连接的挑战数据斜交和用 key 相等的方式基于数据流控制实现非等值连接的困难现在我们介绍 1 bucket theta 算法这个歌算法处理这些挑战提供关于该方法性能的强壮的分析结果 4 1 笛卡尔积的实现既然笛卡尔积组合 S 的每个元组和 T 的每个元组相应的连接矩阵的所有单元格都是 true 我们解释 1 bucket theta 执行 matrix to reducer 映射现实用来计算笛卡尔积是接近优化的讨论这些结果如何扩大到 theta joins 的处理 4 1 1 分析结果我们第一次考虑平衡 reduces 的输出相关的代价既然 r 个 reducers 产生 S T 输出元组 max reducer output 的下级的繁殖是 S T r 通常 S 表示集合 S 的基数和引理 1 一起暗示 max reducer input 的下一级范围是给我们以下的引理 2 引理 2 笛卡尔积 ST 的任何一个 matrix to reducer 映射 S T r 分别 2 是 max reducer output 和 max reducer input 的更低的范围为了匹配 max reducer output 的 lower bound matrix to reducer 映射必须划分矩阵以致 S T r 个矩阵单元格被映射到 r 个 reducers 注意如果单元格 M i j 分配给 reducer k 然后 reducer k 接受 S 的第 i 个元组和 T 的第 j 个元组来做连接因此 S 的第 i 个元组必须分到每个 reducer 这些 reducer 在矩阵中对应的区域和第 i 行交叉类似的 T 的第 j 个元组必须被送到所有的 reducers 这些 reducers 的范围和矩阵 M 的第 j 列交叉图 4 所示根据每行每列分配的 reducers 的不同数目输入元组可能被复制许多次正如下面的理论所示对于一些特别的情况我们能用 square based matrix to reducer 映射匹配两个 lower bounds 引理 1 笛卡尔积 ST 假设 S 和 T 是的倍数也就是 S cS 和 T cT cS cT是大于 0 的整数在这些条件下对于 max reducer output 和 max reducer input 相应的 matrix to reducer 映射匹配 lower bounds 对于其他的例子这些例子中 S T 和 r 不满足引理 1 需要的属性已知 max reducer output 最小化 max reducer input 可以作为整数线性编程问题被公式化这些问题一般都是 NP hard 的因此解决起来时昂贵的但是我们总能找到一个解决方案这个解决方案接近最优化低代价不是一般性让 S T 我们先考虑一种极端情况 S 要远远小于 T 更精确 S 也就是匹配 lower bounds 的最优化方块的边长度要比连这暗示接矩阵要长因此 lower bound 不紧密因为矩阵的划分不比 S 个元组还要多显而易见最优化的矩阵划分成 r 个区域将由 S T r 个矩阵组成引理 2 ST 考虑 matrix to reducer 的映射这些映射完美的平衡所有的输出每个 reducer S T r 元组让 S T r 在这个条件下通过把矩阵划分成 r 个矩阵的单行 0 盖连接矩阵 S T 个单元格中的 x S T 个有 2中的一个 max reducer input 值证明如果如果矩阵的 x S T 个单元格必须被 r 个区域覆盖一个区域对应一个 reducer 遵循 pigeonhole 原理至少有一个 reducer 必须覆盖 x S T 个单元格或者更多的单元格这和引理 1 一起推出至少 2输入元组需要被送到那个 reducer 正如我们在 section4 1 1 所示 1 bucket theta 事实上证明了 max reducer input 值至多是 4 一般非常接近 2 使用不同的 matrix to reducer 映射 1 bucket the 与其他任何 theta join 算法的 max reducer input 比率最大是 4 2 2 例如和任何的其他的连接实现对比这些连接实现的 matrix to reducer 映射必须覆盖 50 或者更多的连接矩阵单元格 1 bucket theta 的 max reducer input 至多是那种算法的 3 倍注意实际上有一个十分松散的最大值范围例如当 100 个 reducer 节点参与工作输入的大小差不多一样例如其中一个至多比其余的大 4 倍 max reducer input 接近 2 5 而不是 4 然后至少覆盖矩阵 50 的任何映射的最坏情况下的比率仅仅是 1 25 1 8 0 5 总之除非 x 非常小没有其余的 matrix to reducer 映射将导致更低例如使用 1 bucket theta 大于 3 的因子不同的规定提高 1 bucket theta 的工作完成时间的唯一方式是找到一个 matrix to reducer 映射这个映射不给任何的 reducer 分配百分比非常大的连接矩阵单元格例如至少 50 回想起正确性值是 true 的所有连接矩阵单元格必须分配给 reducer 见 section3 4 这意味着对于产生很多笛卡尔积的任何连接 1 bucket theta 也被证明接近最优根据 max reducer input 和 max reducer output 对于有每一个选择条件的连接通常比 1 bucket theta 有更低的 max reducer input 的 matrix to reducer 映射存在为了提高 1 bucket theta 我们必须找到这样的一个映射因为引理 3 该映射的必要条件是仅仅覆盖相对很小的百分比的连接矩阵单元格例如少于 50 正如下面的讨论所示实际上由于需要输入统计和连接条件找到有这种属性的映射通常很难输入统计仅仅知道 S 和 T 的基数判断任何矩阵单元格是不是连接输出是做不到的不妨假设 s t 是由满足连接条件的一个 S 元组和一个 T 元组组成的对如果连接算法假设一些矩阵单元 M i j 不是连接结果的部分很容易通过新建集合 S 和 T s 和 t 分别分配到矩阵 M 的第 i 行好第 j 列创建一个反例为了确定不需要被覆盖的矩阵单元格需要更多详细的输入统计连接条件如果连接条件是一个用户自定义的黑盒函数然后知道我们实际上评价矩阵单元格的连接条件时才知道那些连接矩阵单元格的值是 false 但是这违背算法的目的为了找到有效率的连接算法我们实际上必须计算所有单元格的连接因为没有任何 reducer 覆盖它们我们实际上把这些单元格作为候选者即使连接条件不包含用户自定义的函数实际上确定连接矩阵的大的区域通常是很难的这个算个不确定整个区域不包含连接结果元组 5 2 M Bucket I 和 M Bucket O 对输入大小控制的连接我们想找到这样一个映射最小化 max reducer input 一般找到一个所有候选单元格的最优化覆盖是一困难的问题因此我们提出一个快速的启发式方法因为需要更详细的输入统计学信息 multiple bucket 直方图和最小化 max reducer Input 算法 3 显示 M bucket I 的伪代码给定的期望的区域的数目 r 每个区域的最大的输入大小 maxInput 和一个连接矩阵 M 该算法把覆盖问题分写成一步步覆盖连接矩阵的子区域为了保存相似的子问题 M Bucket I 仅仅考虑矩阵水平的部分从第一行开始尝试覆盖一块连续行的所有候选单元格然后从下一行这一行也没有被覆盖开始重复相同的处理继续覆盖一块块的连续行直到要么覆盖所有的候选单元格或者用尽 r 个区域不能覆盖所有的候选单元格在 while 循环的每一次执行 M Bucket I 覆盖一块行如图 4 所示块里的行数在不同的算法 4 间变化在行 rowS开始的所有块由 i 个行组成 i 1 maxInput 1 算法 4 计算一个核核定义为块里每个区域覆盖的候选单元格的平均数目直观地我们覆盖尽可能多的候选单元格从 rowS开始的可能的 maxInput I 块中选择有最高核的块现在这个块的所有候选单元格都被覆盖在右下块的下一个行该过程继续我们的算法不考虑多于 maxInput 1 行为了减少搜索空间见 for 循环限制实际上这工作的非常好因为更高的块通常高瘦得区域这些区域有一个低分给定的 M 的行的独特块的第一行 rowf 和最后一行 rowl M Bucket I 分配候选单元格在图 5 所示的块中一列接一列通过创建一个新的区域这个区域有初始化 maxInput 的输入能力开始 M bucket I 循环访问每一个列 Ci 分配 Ci 中的所有候选单元格在 row f 和 row l 之间给区域只要输入能力不被超过当在列 Ci 添加候选单元格将导致该区域接受的输入超过他的输入限制创建一个新的区域 ci 和下一步的列分配给这个区域知道该区域达到输入大小限制等等一旦这个块所有的列被覆盖算法 5 返回新建的覆盖区域的集合我们使用 M Bucket I 在一个搜索中为了找到最小的 maxinput 值 M bucket i 为它找到一个至多使用 r 个区域的覆盖一个 reducer 一个区域该二元搜索的 maxinput 的上下限是 S T 和 2 前者很明显因为我们能覆盖 S 行 T 的整个矩阵后者从引理 1 和 max reducer output 至少是 number of candidate cells r 事实中推断回想起 M bucket i 是为最小化 max reducer input 对于输出大小控制的连接我们应该最小化 max reducer output 而不是 max reduer input 对于这个问题我们开发了一个叫做 m bucket o 的启发式算法 M bucket o 像 m bucket i 一样处理但是不是输入大小限制 maxinput 它通过面积限制区域也就是区域包含的候选单元格的数目注意于 M bucket o 相比 m bucket i 更好地使用了输入直方图因为 m bucket o 确切的知道从每个桶的每个数据集来的输入元组的数目另一方面每个桶实际的输出大小可以使 0 到这个通的计数的乘积之间的任何值因此 m bucket i 能可靠地平和输入相关的代价用公平的粗粒度的直方图 M bucket O 能显示输出代价不均衡对于非常细粒度的直方图例如每个桶包含 5 个不同属性值的平均值实验支持这个观测这部分描述的 m bucket i 算法能用来做任何的 theta 连接对于任何类型的连接我们通过探讨连接矩阵中候选单元格的位置的特性来进一步提高 m bucket i 算法尤其对于等值连接 band joins 和非等值连接连接矩阵有下面的单调性如果 cell i j 不是一个候选单元格也就是它的值是 false 那么或者所有的单元格 k l ki lj 或者所有的单元格 k l ki lj 也是 false 不是候选单元格因此我们基于单调性修剪搜素空间很快地找到所有的候选单元格 5 3 全局算法给定 2 个输入数据集 S 和 T 以及一个连接条件我们常常在不同的 mapreduce 实现之间选择对于等值连接有标准的算法 section2 2 M Bucket 算法和 1 bucket theta 我们能计算 section5 1 所示的统计信息使用 m bucket 算法根据连接条件我们考虑了所有应用算法从他们相应的 matrix to reducer 映射我们能给每个算法评估 max reducer input 和 max reducer output 然后我们使用传统的数据库代价评估因为接受输入最大和输出最大的 reducer 决定工作完成时间局部的 reducer 计算直接听从代价分析包括 cpu 和 I O 代价对于 DFS 数据转移我们通过一个平均延迟和转移时间的 disk like 模型细节留给将来的工作 5 4 扩展内存给定 r 个 reducers 使用前面 section 提出的算法在连接矩阵中创建 r 个部分每一部分分给一个 reducer 有些时间这些换分因为太大而不适合放在内存中连接算法会把数据存入本地硬盘和从本地硬盘读取数据如果连接实现假设数据适合放在内存在就不用我们可以通过使算法 memory aware 避免这种情况而不是让 reducer 数目驱动矩阵的划分区域不能超过规定的输入大小给定内存限制 m 1 bucket theta 用边长为 m 2 的正方形覆盖整个矩阵 M bucket I 不对输入大小执行一个二元搜索但是对于输入限制 m 立即运行启发式如果有必要选择超过 r 个区域 M bucket O 类似的扩充 6 实验我们讨论连接真实和复杂数据的算法的结果用 10 台电脑的集群来做实验运行 hadoop0 20 2 一台电脑作为头结点而其他 9 台作为工作结点每台机器的配置单核 Xeon 2 4G Hz CPU 8MB cache 8 GB 内存和 2 个 250GB 7 2K RPM 硬盘所有的电脑连在同一个 GB 交换机的网络里总之因此这个集群有 36 个核配个核有 2GB 内存用于 map 和 reduce 任务每个核允许同时运行一个 map 和一个 reduce 任务分布式文件系统块的大小设置为 64MB 所有的电脑作为 dfs 的存储结点我们提出下面数据集的结果云这是一个包含船和土地状况的扩展的云报告的真实数据集有 382 百万条记录每天记录有 28 个属性总数据量为 28 8GB 云 5 1 云 5 2 从云中随机的选出 2 个样本集每个有 5 百万条记录这些样本集用于输出大小控制的连接的实验合成的对于固定的这是这是数据集的一对每个连接输入一个每个数据集包含 5 百万条记录每条记录有一个 1 到 1000 之间的整数每个数据集另一个数据集我们在同一个范围里使用 Zipf 分布通过选择一个 0 到 1 0 间的值为是常用的 Zipf 斜交参数 6 1 1 bucket theta vs 标准等值连接表 1 显示了关于 synth 的多个值得等值连接计算结果因为所有实验的输出要比输入大很多所以

人人文库> 全部分类> 应用文书 > 技术指导

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

用 mapreduce 处理 Theta-joins

文档简介

温馨提示

最新文档

评论

用 mapreduce 处理 Theta-joins

文档简介

温馨提示

最新文档

评论

相关文档