面向Hadoop科学工作流的可视化支撑环境的研究与实现-中期报告_第1页
面向Hadoop科学工作流的可视化支撑环境的研究与实现-中期报告_第2页
面向Hadoop科学工作流的可视化支撑环境的研究与实现-中期报告_第3页
面向Hadoop科学工作流的可视化支撑环境的研究与实现-中期报告_第4页
面向Hadoop科学工作流的可视化支撑环境的研究与实现-中期报告_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

北京航空航天大学本科毕业设计(论文)中期报告论文题目:面向 Hadoop 科学工作流的可视化支撑环境的研究与实现专业名称:学生姓名:指导教师:北京航空航天大学计算机学院2012 年 4 月 12 日目录1、课题背景和意义 .12、研究目标和内容 .22.1、用户交互界面的设计与实现 .22.2、工作流 XML 描述脚本的动态生成与解析 .22.3、监视系统的研究与实现 .23、工作进展 .33.1 用户交互界面的工作进展 .33.2 XML 脚本生成器与解析器的工作进展 .43.3 Hadoop 监视系统的工作进展 .64、下一步计划 .75、主要参考文献 .7北京航空航天大学计算机学院 本科毕业设计(论文)开题报告01、课题背景和意义本课题来源于软件开发环境国家重点实验室承担的工信部“唯实” 人才培育基金“面向科研群组的科技资源云共享机制研究” 的后续研究工作。工作流 1(Workflow),是对工作流程及其各个步骤之间业务规划的抽象、概括和描述。为了减少科研人员在科研计算环境工作上的精力投入,各个科研组织亟须一种类似于管理业务流程的工作流管理平台来对复杂的科学计算流程进行定义和自动化管理。科学工作流(Scientific Workflow, SWF)技术正是在这种需求下应运而生,它作为一种促进和保障协同开发的技术路线,为科研人员提供一个科学计算流程定义和自动运行的管理平台。SWF 是工作流技术在科学研究领域的应用,如今已经成为网络基础设施之上进行大规模科学计算和协同研究的有效方法。相对于以过程为中心,面向控制流的商业工作流,SWF 通常是围绕试验进行的,以数据为中心,面向数据流的分析管道。SWF 趋向于建立一个以数据流为导向的可执行模型,而业务工作流则把重点放在控制流的模式与活动。工作流应用到科学研究领域,不仅仅在于它能够对一些重复性任务进行自动控制,同时,它能够在不同层面对复杂的分析过程进行跟踪 2。Hadoop3是一个云计算环境下的分布式系统基础架构,用户可以在不了解分布式底层细节的情况下开发分布式程序。Hadoop 技术的两大核心是MapReduce4和 HDFS5。MapReduce 是由 Google 公司开发的一种可用于数据处理的编程模型,它的任务过程被分为两个处理阶段:map 阶段和 reduce 阶段,每个阶段都以键/值对作为输入和输出,并由程序员选择它们的类型,同时还需具体定义两个函数:map 函数和 reduce 函数。HDFS(Hadoop Distributed File System)是 Hadoop 实现的一个分布式文件系统,它有着高容错性的特点,并且设计用来部署在低廉的硬件上。Hadoop 能够对大量数据进行分布式处理,而且其处理方式是可靠的、高效的和可伸缩的,将 Hadoop 应用于科学工作流可以大大提高科学计算的效率。本课题研究的面向 Hadoop 科学工作流的可视化支撑环境,其意义主要体现在以下 2 点:1、科研人员可以在交互界面实现对科学计算流程的灵活定制,且 Hadoop平台上的计算过程对于用户都是透明的,科研人员无需关心数据计算的具体实现,这大大提高了科研工作的效率;2、通过监视系统的信息反馈,科研人员可以在交互界面实时查看作业中各个任务在 Hadoop 平台上的运行状态。北京航空航天大学计算机学院 本科毕业设计(论文)开题报告12、研究目标和内容科学工作流的可视化支撑环境的研究目的是为科研人员提供一个科学计算流程定义以及作业运行状态监测的管理平台,该管理平台结构如图 3-1 所示, 关系数据库用户交互界面工作流 X M L描述脚本X M L 脚本生成器X M L 脚本解析器H a d o o p平台作业解析信息用户科学工作流引擎监视系统作业运行状态信息作业解析信息程序执行监视数据任务运行状态面向 H a d o o p 科学工作流的可视化支撑环境提交作业图 2-1 可视化支撑环境系统结构图该可视化支撑环境系统的研究内容主要包括以下 3 部分:2.1、用户交互界面的设计与实现对科研人员的科学计算工作流程进行调研,针对用户需求进行分析,设计功能完善且用户友好型的交互界面,并用相关的 Web 技术加以实现;2.2、工作流 XML 描述脚本的动态生成与解析研究并实现科学工作流 XML 描述脚本的生成器与解析器,利用 XML 脚本生成器根据作业提交信息动态生成工作流 XML 描述脚本,该脚本提供了作业内部多个任务的先后执行顺序,并利用 XML 脚本解析器对该 XML 描述脚本进行解析,将得到的解析结果存入关系数据库,为 Hadoop 平台的程序执行提供依据;2.3、监视系统的研究与实现为了能够实时地查看作业的运行状态,包括作业内部各个任务的运行状态(包括开始时间、等待时间、执行时间、完成百分比和执行结果等) ,我们需要北京航空航天大学计算机学院 本科毕业设计(论文)开题报告2设计一个监视系统来对这些数据进行监测,并将这些数据存入关系数据库。3、工作进展3.1 用户交互界面的工作进展WireIt 是一个可以用于开发数据流应用、可视化编程语言、图形化建模以及图形化编辑器的开源 javascript 库。同时,WireIt 自身调用了 YUI 和InputEx,YUI 和 InputEx 都是开源的 javascript 库。由于是在 WireIt 基础上开发交互界面,我首先对 WireIt 的源代码进行了研究,其源代码的简要 UML 类图如下图所示:图 3.1 WireIt 源代码 UML 类图WireIt 是一个可以灵活定制的开源工具,如下图是一个自定义的工作流:北京航空航天大学计算机学院 本科毕业设计(论文)开题报告3图 3.2 自定义的工作流3.2 XML 脚本生成器与解析器的工作进展XML 脚本的生成由交互界面内的 javascript 代码来完成,由于交互界面还处于前台的设计编码阶段,故 XML 脚本生成器会在后期的工作中完成。在前段时间的工作中,我完成了 XML 脚本解析器的代码编写,其 UML 类图结构如下图所示:北京航空航天大学计算机学院 本科毕业设计(论文)开题报告4图 3.3 XML 脚本解析器 UML 类图在完成了 XML 脚本解析器的同时,我还完成了工作流数据库表的设计,并实现了从工作流 XML 描述脚本到数据库的存储,其表设计如下所示。Workflow 表(用于存储当前最大的工作流编号): 北京航空航天大学计算机学院 本科毕业设计(论文)开题报告5Block 表(用于存储工作流中的作业):Connector 表(用于存储工作流中作业之间的联系):3.3 Hadoop 监视系统的工作进展在 Hadoop 监视系统方面,我前段时间主要学习了 Hadoop 平台的工作机制,包括 Hadoop 运行 MapReduce 作业的工作原理、MapReduce 的 shuffle 和排序机制以及状态更新在 MapReduce 系统中的传递过程。该监视系统的实现依赖于状北京航空航天大学计算机学院 本科毕业设计(论文)开题报告6态更新在 MapReduce 系统中的传递。图 3.4 状态更新在 MapReduce 系统中的传递过程经过学习并仔细研究,我总结出了 4 种方法可以从 Hadoop 系统中获取工作流的运行状态,并准备在后期的工作中加以实现:1、 通过 Hadoop Java API 编程获取状态2、 通过 Hadoop 内置的计数器获取状态3、 通过编写自定义的 Java 计数器获取状态4、 通过编写自定义的 Streaming 计数器获取状态4、下一步计划日期 天数 计划安排4-16 4-22 7 天 完成用户交互界面的代码编写北京航空航天大学计算机学院 本科毕业设计(论文)开题报告74-23 5-06 14 天 完成监视系统的代码编写5-07 5-13 7 天 对可视化支撑环境系统进行整合和测试5-14 5-31 18 天 撰写毕业论文,准备毕设答辩5、主要参考文献1 Workflow: /wiki/Workflow2 张卫民, 刘灿灿, 骆志刚. 科学工作流技术研究综述J. 国防科技大学学

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论