高效分配网格资源设计方案_第1页
高效分配网格资源设计方案_第2页
高效分配网格资源设计方案_第3页
高效分配网格资源设计方案_第4页
高效分配网格资源设计方案_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

高效分配网格资源设计方案高效分配网格资源设计方案 摘要 介绍了基于集群技术的作业管理系 统 PBS 重点研究了 PBS 系统的体系结构 工作原理 着重从 系统各进程的运行机制 安全策略 调度策略和通信策略等方 面进行阐述 并分析讨论了 PBS 与网格计算环境的融合 最后 给出实现方案 关键词 网格资源 安全策略 1引言 网格是一个集成的计算与资源环境 充分吸收各种计算资源 并将它们转化成一种随处可得的 可靠的 标准的同时还是经 济的计算能力 与传统的网络资源不同 网格资源具有异构性 动态性和自治性的特点 网格资源的这些特性给网格资源自身的管理带来了实现上的 困难和不可控性 同时为了满足高性能计算的目的 必须提供 高效的资源管理服务 网格系统的资源管理负责决定作业请求 CPU 服务等待时间 作业的内存分配 以及怎样平衡计算负载 等多方面的问题 资源管理同时负责在所有提交给系统的作业 之间分配资源 作业间资源管理 以及把资源绑定给由一个单 一作业提出的多个请求 作业内资源管理 如果没有作业间资 源管理 资源将可能在用户间错误的分配 这对一些用户将失 去公平性 糟糕的作业内资源管理将导致用户程序运行性能的 下降 原因是程序请求到的资源可能早已超负荷或者根本就请 求不到满足系统要求的资源 由于存在的以上问题 网格资源的管理在网格计算环境中处 于一个很重要的地位 也是网格研究的主要研究课题之一 目 前我们对于网格计算环境底层的资源 主要是通过采用作业管 理系统进行管理 2PBS作业管理系统分析 PBS PortableBatchSystem 作业管理系统最初由 NASA 的 Ames 研究中心开发 为了提供一个能满足异构计算网络需要的 软件包 特别是满足高性能计算的需要 它力求提供对批处理 的初始化和调度执行的控制 允许作业在不同主机间的路由 PBS 的独立的调度模块允许系统管理员定义资源和每个作业可 使用的数量 调度模块存有各个可用的排队作业 运行作业和 系统资源使用状况信息 使用它提供的 TCL BACL C 三种过程 语言 调度策略可以很容易被修改 以适应不同的计算需要和 目标 即系统管理员可以方便地实现自己的调度策略 对于PBS 作业管理系统来说 它主要有以下特征 易用性 为所有的资源提供统一的接口 易于配置以满足 不同系统的需求 灵活的作业调度器允许不同系统采用自己的 调度策略 适配性 可以适配各种管理策略 并提供可扩展 的认证和安全模型 支持广域网上的负载的动态分发和建立在 多个物理位置不同的实体上的虚拟组织 灵活性 支持交互和批处理作业 一个PBS 作业管理系统主要有 4 个部分组成 控制台 服务 进程 调度进程 执行进程 PBS的工作过程实际上就是服务进程 调度进程 执行进程 这三个进程之间 相互通信相互调用的过程 三个进程分别执 行各自的职能 同时为其他进程提供服务 共同完成作业的运 行 在 PBS 工作过程中 首先由用户产生事件 这里指作业的 提交 事件通知服务进程开始一个调度周期 然后服务器进程 发送一个调度命令给作业调度进程 调度进程开始启动调度工 作 在收到服务器进程的调度命令后 作业调度进程向执行进 程请求可利用的资源信息 执行进程根据本地资源信息返回给 作业调度器一个资源信息 其后 得到资源信息后 调度进程 向服务器进程请求作业信息 服务器进程接收请求 并发送作 业信息至作业调度进程 调度进程产生执行作业的策略 作业 调度器发送执行作业请求至服务进程 最后 服务器进程接收 请求后 发送作业至执行进程执行作业 3PBS与网格环境结合 网格计算环境为用户提供了强大的计算资源 将PBS 融入到 网格的计算环境中可以使 PBS 访问到更多的计算资源 使 PBS 的资源提供能力得到很大的增强 使用户可以调用不同的管理 域的资源如同使用本地资源一样 同时 PBS 融入到网格计算环 境也扩展了网格计算环境自身的计算资源 下面以 PBS 与目前 全球重要的网格计算项目 Globus 之间的结合 介绍它们之间资 源调度 数据传输 安全认证等方面的解决方案 Globus项目是美国 Argonne 国家实验室等科研单位的研发项 目 发起于 20 世纪 90 年代中期 Globus 项目是目前全球重要 的网格计算项目之一 其最初的目的是希望把美国境内的各个 高性能计算中心通过高性能网络连接起来 方便美国的大学和 研究机构使用 提高高性能计算机的使用效率 PBS与 Globus 的结合 主要目的是可以达到彼此计算资源的 相互调用 PBS 对 Globus 资源调用的实现 可以为用户提供访 问网格计算资源建立一个门户 用户通过提交作业 可以像调 用 PBS 资源一样调用远端的不同管理域下的资源 Globus 则负 责提供与底层不同资源管理者的接口 以及相应的数据传输 安全认证 资源调度等策略 Globus 对 PBS 资源调用的实现 则扩展了网格计算环境下底层的计算资源 通过结合 目的 是实现网格计算环境的基本模型 当PBS 调用 Globus 资源时 首先需要解决的是资源的发现 PBS 要对 Globus 资源进行调度使用 那么在提交的作业当中必 须对作业的可用资源说明进行描述 使其可以寻找到 Globus 的 资源 并加以利用 为了达到资源指定的目的 在作业资源需 求描述中我们加入特定的参数 Lsite globus resourcename 这个参数仅仅是标记了作业对资源需求的期望 并未分配 Globus 资源 其次需要提供一个资源请求信息的接收端口 申 请得到 Globus 资源的作业会像正常的 PBS 提交作业一样 将自 己的资源请求发送到 PBS 服务器上等待服务进程的处理 之后 调度进程会根据作业的资源请求将作业传送到与它资源匹配的 执行节点 并由各节点的执行进程运行 为了提供一个专门的 接收 Globus 资源请求的端口 在启动服务进程的同时要启动一 个 pbs mom globus 进程 当调度器发现了作业特定的Globus 资源请求 直接将 作业发送到 pbs mom globus 进程进行处理 为了可以利用 Globus 资源 PBS 作业必须以 Globus 作业的形式进入到 Globus 进行资源的利用 通过 pbs mom globus 进程将作业中 PBS 的 参数全部映射成 GlobusRSL 的形式 在整个资源调度的过程中 PBS实际充当了网格计算环境的 入口点 通过提交 PBS 作业可以实现对网格计算资源的调用 用户可以像使用本地资源一样去使用远端不同资源管理者下的 资源 而 Globus 作为一种中间件 由它来负责规划网络间通信 的安全协议 并实现对不同的远端资源管理者的通信接口 此 外 PBS 通过文件 stagein 和 stageout 配合 Globus 的 GASS 服务 来进行数据的传输 可以解决 PBS 与 Globus 数据传输的问题 全局二级存储服务 GASS GlobalAccesstoSecondaryStorage 主 要用来支持网格环境下的远程 I O 问题 并针对网格计算环境 中的文件访问模式进行了优化支持 当Globus 调用 PBS 资源时 相对 PBS 对 Globus 资源的调用要 简单一些 Gloubs 在本地提交 Globus 作业时 通过在命令行参 数中添加 PBS 服务器的名称及路径来指定需要调用的 PBS 资源 并在命令结尾添加 jobmanager PBS 参数开启 Gloubsy 与 PBS 之 间的端口 Globus 提交作业的请求被送到 GRAM Gatekeeper 判断作业需要调用的资源 并根据 RSL 描述解析出的任务分配 参数传递给新创建的任务管理者 任务管理者接到需要调用 PBS 资源的请求 则将作业资源信息的描述发送到 jobmanager PBS 端口 jobmanager PBS 端口会产生一个新的用 PBS 脚本语 言描述资源信息的作业脚本 任务管理者将这个脚本发往 PBS 服务器进行执行 4PBS系统测试与分析 硬件环境的配置方面 首先要选择一组适合实验过程的主机 搭建实验环境 出于对实验稳定性与兼容性的考虑 我们选取 了 8 台硬件与软件配置完全一样的主机 硬件配置为 CPUP 400MHZ 内存 128SDRAM 操作系统为 Linux9 0 这样便 于对 PBS 系统整体性能测试 其次对于主机间的通信 为了提 供一个快速稳定的网络环境 我们采用以太网的技术用 5 类双 绞线和一台百兆交换机将这 8 台机器组成一个小型局域网环境 并进行了相应的网络设置 软件环境的配置主要是对 PBS 系统 的安装和配置 主要包括 系统安装 服务器配置 执行节点 配置 进程启动 建立作业队列 实验的内容是提交一个矩阵 相乘的并行作业 矩阵运算在科学与工程计算中是最基本的核 心问题之一 用它来进行测试具有代表性 本作业要完成 A B 两个 1000 1000 矩阵相乘目的是为了对搭建的 PBS 系统环境进 行测试 检验 PBS 系统的正确运转及相关性能的测试 并对实 验结果进行分析 首先采用并行行列划分算法 通过MPI 编写实现矩阵相乘的 并行程序 pjob c 程序代码见附录 并在 linux 下用 mpiccpjob c 进行编译 生成 a out 执行文件 将参与运算的矩 阵文件 A dat B dat 拷贝到本地 并在单机下直接运行命令 out 记录运行产生的结果 然后 编写作业提交脚件 在脚 本中对作业进行资源需求的描述 之后 运行命令 qsubparallel job 向 PBS 服务器提交作业 通过监控命令 qstat 可 以看到作业已经分配到执行队列中处于执行状态 并且服务器 分别将并行作业的子进程传输到各台执行节点上运行 8 台执 行节点都处于运行状态 各节点的并行程序的子进程运行结束 后 在标准输出文件中产生运算结果 记录运行时间 再逐步 减少执行节点的数目继续实验 直到只剩下单机运行 记录单 机运行产生的结果及运行时间 Fig 3connectionbetweonJobtimeandnode5 结束语 提出了一种适合集群环境下的高效资源分配与利用方案 并 给出了详细的设计过程 深入分析了 PBS 系统的内部运行机制 安全机制 调度策略等方面问题 提出了改进方案 研究 PBS 系统与网格计算环境的融合问题 并将 PBS 集群计算环境融入 到了网格计算环境 将 PBS 系统作为网格计算环境的低层资源 并通过 globus 对

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论