开题报告数据交换平台数据交换节点集群研究_第1页
开题报告数据交换平台数据交换节点集群研究_第2页
开题报告数据交换平台数据交换节点集群研究_第3页
开题报告数据交换平台数据交换节点集群研究_第4页
开题报告数据交换平台数据交换节点集群研究_第5页
已阅读5页,还剩15页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

研究生学位论文开题报告报告题目 数据交换平台中数据交换节点集群研究与实现 学生姓名朱蕾 学号 2011E8015070012 指导教师叶丹 职称副研究员 学位类别工学硕士 学科专业计算机软件与理论 研究方向网络分布式计算与软件工程 培养单位软件研究所 填表日期2013 年 6月20 日 研究生院制填 表 说 明1.本表内容须真实、完整、准确。2.“学位类别”名称填写:哲学博士、教育学博士、理学博士、工学博士、农学 博士、医学博士、管理学博士,哲学硕士、经济学硕士、法学硕士、教育学 硕士、文学硕士、理学硕士、工学硕士、农学硕士、医学硕士、管理学硕士 等。3.“学科专业”名称填写: “二级学科”全称。7目录1. 选题的背景及意义42. 国内外本学科领域的发展现状与趋势62.1 数据交换相关工作62.1.1 数据交换技术62.1.2 数据交换平台产品82.2 集群技术112.2.1 集群分类112.2.2 集群框架122.2.3 负载均衡技术133. 课题主要研究内容、预期目标143.1 课题研究内容143.1.1 集群管理143.1.2 负载均衡143.1.3 失效恢复153.1.4 集群监控163.2 课题预期目标174. 拟采用的研究方法、技术路线、实验方案及其可行性分析174.1 研究方法174.2 技术路线174.3 实验方案184.4 可行性分析185.已有科研基础与所需的科研条件186. 研究工作计划与进度安排19参考文献201.选题的背景及意义随着信息技术应用的快速深入,企业信息化水平不断提高,大中型企业和机 构纷纷建立起庞大而复杂的信息系统,这些信息系统的建设通常具有阶段性和分 布性的特点,导致了“信息孤岛”的存在和数据不一致等问题;此外,企业中分 布的数据、信息和知识通常具有独立性和异构性,降低了信息的利用效率,很难 实现企业商务智能的要求。随着企业对系统整合需求的持续增强,越来越多的企 业在重视应用集成的同时,将数据集成作为重要支撑技术之一1。数据集成(Data Integration)是将不同来源、格式的数据在逻辑上或物理上 集成共享,是通用的数据整合、数据同步、数据迁移的解决方案。目前三种主要 的数据集成方法包括联邦数据库、数据仓库和数据集成中间件系统。其中,数据 集成中间件提供了一种轻量级的数据集成方案,是目前比较流行的数据集成方法。 在这些数据集成方法中,ETL 即跨操作系统、跨数据源的数据抽取(Extract)、转 换(Transform)和装载(Load)是一项极其重要的技术,它从分布式异构的数据源(包 括数据库、应用系统、文件以及 Web 服务等)中抽取数据,并按照一定的规则 进行转换,最终加载到目标数据源中,从而解决数据一致性与信息集成化问题, 实现数据、信息和知识的共享和集成。数据交换平台基于统一的中间件平台,通过提供客户接入端软件和前置交换 节点部署在应用系统上,用统一的方式实现各系统间不同结构和格式的数据的相 互交换。数据交换平台是一个分布式系统,由分布在广域网中各机构、组织的局 域网内的数据交换节点组成,如图 1-1 所示。图 1-1数据交换平台结构图一个数据交换节点包含数据传输、数据 ETL、监控、路由等子系统,对应一个或多个数据源。一个数据交换平台属于一或若干个公司、组织。一个机构或组织的某一个分支拥有一个数据交换节点,每一个数据交换节点位于公司或组织 的一个分支的局域网内,和该机构或组织的其他分支,以及其他机构和组织的进 行数据交换。一个数据交换平台的各个数据交换节点是强连通的。不同的数据交 换节点之间可以进行数据交换。数据交换节点要采取集群的形式,原因如下:1. 高性能需求。数据交换平台的并发处理较大、数据量大。一个公司或组 织通常会有一个中心。当数据向中心的数据交换节点汇总时,受网络带 宽、机器 CPU 处理能力、内存、程序处理的极限等因素影响,中心的负 载会很大。单机模式会出现机器死机、程序崩溃、处理速度低于要求等 一系列问题。采取集群的方式可以大大提高数据交换节点的处理能力。2. 高可用性需求。数据交换的时间具有不确定性, 数据交换节点需要保持724的连续不断的运行。在单机的情况下,一旦机器出现故障,需要人工干预程序的运行,把未完成的任务重新完成。采用集群的方式,一 台机器的故障不会影响数据交换节点的正常运行,保证了系统的高可用 性。而且,工作人员只需将故障机器替换或重启,重新安装或运行程序, 不需要关注任务的执行状况,大大降低了管理成本和系统整体效率。OnceDI2.0(Open Network Computing Environment Data Integration)是中科院软件所软件工程技术中心自主开发的数据集成中间件,实现了基于中间件技术 的数据集成方案。提供了跨平台、跨数据源的异构数据集成。OnceDI2.0 不仅实 现了跨数据源的数据抽取、转换和加载,而且支持复杂网络环境下的数据高效、 安全传输,因此能够有效支持广域网环境下的企业信息系统之间的数据的迁移、 交换和同步。DI3.0 是在 DI2.0 基础上,增加了控制中心,便于任务的管理。然 而 DI3.0 存在一些问题:1.不能适应复杂、不稳定的网络状况,广域网范围内可 用性差。2.数据交换节点采取单机模式,由于带宽、CPU 等资源限制,数据汇总 的节点、或热点交换节点性能会出现瓶颈。3. 数据交换节点采取单机模式,可 靠性差。一旦机器出现故障,整个数据交换节点就不能继续工作了。4. 基于 C/S 结构。5.不能灵活配置数据交换的路由。软件工程技术中心正在构建 OnceDeep 数据交换平台,解决上述问题。本课题主要解决问题 2、3,即研究如何根据数据交换的特点,构建 OnceDeep 数据交换平台的数据交换节点集群,满足数据汇总节点或热交换节点的高可靠性、 高性能需求。2.国内外本学科领域的发展现状与趋势2.1 数据交换相关工作2.1.1 数据交换技术为了实现异构系统间的数据交换与共享,工业和学术界提出了各种解决方案, 总结起来可以分为以下四种:基于点对点的应用接口、数据转移工具、使用联邦 数据库和基于统一的中间件形式。基于点对点的应用接口点对点的应用系统数据交换的出发点很简单,当两个系统之间需要相互协作 时,为这两个系统开发相应的连接组件(Adapter)将二者互联,如图 2-1。系统 1系统 2系统 4系统 3图 2-2 点对点应用接口结构任何一个系统的升级或改动都将影响到其它与之相关的应用系统的修改;同 时当一个新的应用系统需要纳入整个应用集成体系时整个工作变得非常复杂。数据转移工具很多数据库系统的管理系统都提供了将外部文件中的数据存入到数据库的 工具。常见的有 ORACLE 导入导出工具2、SQL Server 的 DTS3工具等。使用 上述的工具的确可以完成一些数据交换的任务,这些工具有一个很大的缺点就是 仅仅提供自己的 DBMS 访问异构数据库的机制,通用性不好;它只解决了对关 系数据库中数据共享的问题,没有涉及到其他数据(例如文件系统中的文件、业 务中的消息)。联邦数据库联邦数据库4, 5是分布式数据集成系统的一种特殊形式,它是多个互相协 作的自治数据库的集合。根据组织方式的不同,它分为紧耦合和松耦合的两种。 在紧耦合的联邦数据库中,管理和操作针对整个联邦,而在松耦合的联邦数据库 中,组件数据库有某种程度的管理独立性。在联邦数据库中,根据用户的需求可 以构建多个联邦模式,每个联邦模式仅覆盖有限的局部模式,与使用统一的全局 模式相比,降低了模式构建的复杂性。联邦数据库将各个应用系统中的异构数据 库联合在一起,对外提供一个统一的数据访问模式。基于统一的中间件模型数据交换中间件是在各应用间起到桥梁作用的平台,如图 2-2 所示,它实际 上起到了一个 Application Hub 的作用,它提供克服传统点对点缺点,采用了Enterprise Service Bus(ESB,企业服务总线)的模块架构6。ESB 的前身是11EAI(Enterprise Application Integration, 企业应用集成)。企业服务总线(ESB)的 出现改变了传统的软件架构,可以提供比传统中间件产品更为廉价的解决方案, 同时它还可以消除不同应用之间的技术差异,让不同的应用服务器协调运作,实 现了不同服务之间的通信与整合。图 2-2 数据交换中间件结构模型数据交换平台就是这样一类中间件,它通过提供客户接入端软件部署在应用 系统上,根据事先达成的协议,用统一的方式实现各系统间不同结构和格式的数 据的相互转换,并由协调引擎协调各个业务系统间进行数据传输和消息通信。这 种方式实现了数据抽取、数据清洗、转换,数据路由、数据可靠传输和存储等工 作,在保证了业务系统的有效协同的同时,又能保证各应用系统的相互独立性和 低耦合性,从整体上提高了系统运作效率和安全性。2.1.2 数据交换平台产品目前数据交换平台在电力、物流、政务、医疗等众多领域得到了广泛的应用。 在工业界,国内外很多厂商都提出了自己的数据交换平台解决方案。例如国外的IBM Message Broker+WebSphere MQ 数据交换平台解决方案、Chainbuilder 基于Chainbuilder Connect 的数据交换平台解决方案、Talend,国内的英创思数据交换 平台、中科软数据交换平台、金蝶数据交换平台、中科院软件所软件工程技术中 心的 OnceDI3.0 等。IBM 的数据交换平台方案使用 IBM 公司的 WebSphere MQ 和 Message Broker通讯中间件7。WebSphere MQ 采用异步的消息机制在不同的服务器节点之间保证可靠的信息传递服务。Message Broker 位于数据交换平台的核心,如图 2-3, 它提供了基于 Application Hub 的通讯连接和应用整合方式,起到一个交通和通 讯枢纽的作用,能够有效地提供数据路由、加工处理和格式转换等功能。MQMQMessage BrokerMQMQMQ图 2-3 Message Broker 通信结构IBM 的解决方案中,数据汇总的中心使用高性能的服务器,服务器进行双 机热备份,运行 Message Broker。其他数据交换节点使用 PC 机,安装 WebSphere MQ Server,MQ Server 之间可以通过自身的群集功能,实现负载均衡。这个解 决方案的缺点在于,数据汇总的中心使用高性能服务器造价会很高,如果中心使 用普通 PC 机上,Message Broker 的性能会形成整个系统的瓶颈。ChainBuilder Connect 是一个遵从 Java Business Integration (JBI, Java 业务集 成) 的 ESB 平台,是面向服务架构(SOA)的企业服务总线(ESB)的产品实现。 ChainBuilder Connect 的 ETL 设计工具是一组自定义的 Eclipse 插件。由 ChainBuilder Connect 构建数据交换的平台,各组织机构的前置机(数据交换的 基础部分,设立在各交换部门内部,存放由提供方业务系统提供的数据和接收方 业务系统接收的数据)作为交换节点,构成数据交换体系8。图 2-4基于 ChainBuilder Connect 的数据交换平台数据交换中心提供数据的采集分发服务,实现交换节点之间的数据的映射转 换和路由功能。系统整体应用架构如下图:图 2-5 基于 ChainBuilder Connect 的数据交换平台应用架构此解决方案中,数据交换中心没有采取集群的方式,可靠性和性能面临很大 挑战。中科软数据交换平台由企业服务器总线、数据交换处理部件(包括适配器和 桥接子系统)、运行支撑环境、规则库、管理组件(包括管理服务器和管理工具) 等组成9。采用“一次抽取,并发路由”的机制减轻对数据源如数据库的压力,同时也提高处理的性能,但数据交换节点不支持集群。金蝶数据交换平台使用 Apusic ESB、Apusic JavaEE 应用服务器、Apusic pusic 消息中间件,提供面向 SOA 的基础架构。数据交换将从分支业务系统中前 置交换数据库获取数据封装成统一的数据模型方式发送到中心,在中心完成数据 清洗、汇总等操作写入到数据中心的统一数据库10。分支运行 Apusic ESB Client, 中心运行 Apusic ESB Server。Apusic ESB Server 本身没有集群机制,只能通过将 运行 Server 的服务器进行双机热备份来保证系统的可靠性。OnceDI2.0(Open Network Computing Environment Data Integration)是中科 院软件所软件工程技术中心自主开发的数据集成中间件,实现了基于中间件技术 的数据集成方案。提供了跨平台、跨数据源的异构数据集成。使用 OnceMQ, OnceFileTrans 中间件,保证了数据的可靠传输,使用 OnceDI 中间件实现数据的 ETL 功能。DI3.0 在 DI2.0 基础上,增加了控制中心,便于任务的管理。而 DI3.0 存在一些问题:1.不能适应复杂、不稳定的网络状况,广域网范围内可用性差。 2.数据交换节点采取单机模式,由于带宽、CPU 等资源限制,数据汇总的节点、 或热点交换节点性能会出现瓶颈。3. 数据交换节点采取单机模式,可靠性差。 一旦机器出现故障,整个数据交换节点就不能继续工作了。4. 基于 C/S 结构。 5.不能灵活配置数据交换的路由。软件工程技术中心正在构建 OnceDeep 数据交 换平台,解决上述问题。其中,数据交换节点采取单机模式,可靠性可性能较差, 是一个重点要解决的问题。综上,现有的数据交换平台产品中,绝大部分产品的数据交换节点不支持集 群模式。为了满足数据交换平台系统高性能、高可靠性的需求,根据数据交换平 台的特点,将数据交换节点集群化,是一个趋势。本课题专注于将 OnceDeep 数 据交换平台的数据交换节点改造成集群模式。2.2 集群技术集群是这样一种技术:它将多个系统连接到一起,使多台服务器能够像一台 机器那样工作或者看起来好像一台机器。采用集群系统通常是为了提高系统的稳 定性和网络中心的数据处理能力及服务能力。2.2.1 集群分类集群计算机按功能和结构可以分成以下几类:高可用性集群、负载均衡集群、 高性能计算集群、网格计算11。高可用性集群一般是指当集群中有某个节点失效的情况下,其上的任务会自动转移到其他正常的节点上。还指可以将集群中的某节点进行离线维护再上线, 该过程并不影响整个集群的运行12。高可用性集群有三种工作方式。 主从方式:主机工作,备机处于监控准备状况;当主机宕机时,备机接管主机的一切工作,待主机恢复正常后,按使用者的设定以自动或手动方式将服务切 换到主机上运行,数据的一致性通过共享存储系统解决。双机双工方式(互备互援):两台主机同时运行各自的服务工作且相互监测情 况,当任一台主机宕机时,另一台主机立即接管它的一切工作,保证工作实时, 应用服务系统的关键数据存放在共享存储系统中。集群工作方式(多服务器互备方式):多台主机一起工作,各自运行一个或几 个服务,各为服务定义一个或多个备用主机,当某个主机故障时,运行在其上的 服务就可以被其它主机接管。负载均衡集群运行时,一般通过一个或者多个前端负载均衡器,将工作负载 分发到后端的一组服务器上,从而达到整个系统的高性能和高可用性。但是整个 系统中负载均衡调度器将是最大的瓶颈,所以对后台实际服务器的支持数量将会 由主负载均衡调度器本身的性能来决定。节点的高可用性是通过负载均衡调度器通过不断监视节点的状态以及节点 上的应用程序的运行状态来实现,当发现节点已经失效时,负载均衡调度器可以 重新配置系统并且将工作负载交给那些运行正常的节点来完成。高性能计算集群采用将计算任务分配到集群的不同计算节点而提高计算能 力,因而主要应用在科学计算领域。比较流行的 HPC 采用 Linux 操作系统和其 它一些免费软件来完成并行运算。在科学计算领域中,人们开始把注意力投向通 过普通 PC 机或工作站的集群来代替昂贵的超级计算机。网格计算或网格集群是一种与集群计算非常相关的技术。网格计算是针对有 许多独立作业的工作任务作优化,在计算过程中作业间无需共享数据。网格主要 服务于管理在独立执行工作的计算机间的作业分配。资源如存储可以被所有结点 共享,但作业的中间结果不会影响在其他网格结点上作业的进展。2.2.2 集群框架因为数据交换平台 OnceDeep 是使用 java 开发的程序,所以本文关注了几个 开源的 Java 集群框架。Shoal 是 Glassfish 的群集子项目,支持容错及分布式状态缓存。很好的抽象 了集群的两个最重要功能:群集节点管理和共享状态数据。而且,这一切是作为 一个类库来提供,可以嵌入到任意的 Java 应用中。集群的目标无外伸缩性与高14可靠性,实现无外 Load Balancer 与 Failover,而 Shoal 对这两点实现提供了很好 的支持13。OpenRDS 是一个 Java 的集群框架,使得基于分布式系统的应用易于开发和 管理。Terracotta 是一个 JVM 级的开源群集框架,提供:HTTP Session 复制,分布 式缓存,POJO 群集,跨越群集的 JVM 来实现分布式应用程序协调。采用代码 注入的方式,所以不需要对原程序进行修改14。2.2.3 负载均衡技术集群的负载均衡策略是提高集群整体性能的关键,其目的是根据处理机的性 能来分配与其相称的任务,以最小化应用程序的执行时间。该策略将用户的请求 按照一定的算法分发到集群的某个节点服务器上以实现对用户请求的并行处理, 最大限度地利用各节点的处理能力,实现集群系统的负载均衡,提高集群系统的 整体性能。负载均衡算法设计的好坏直接决定了集群在负载均衡器上的表现,不好的设 计算法会导致集群的负载失衡。有些简单平衡方法可以独立使用,有些则必须和 其它方法组合使用。一个好的负载均衡算法一般只在某些特殊的应用环境下才能 发挥最大效用15。负载均衡算法分为静态负载均衡算法和动态负载均衡算法。静态负载均衡算 法包括轮转法、散列法、最少连接数法、最快响应法等。动态负载均衡算法包括 加权轮转、加权最少连接数法、服务类型等。还有更多更复杂的负载均衡技术,如具备内容感知能力的网络负载均衡技术、Web 应用服务器自适应负载平衡技术等。3.课题主要研究内容、预期目标3.1 课题研究内容图 3-1 OnceDeep 数据交换节点集群结构数据交换节点集群由主节点、备份节点、工作节点构成。主节点负责监控、 调度、失效任务的恢复等功能;备份节点与主节点保持热备份,当主节点故障时 切换到备份节点;工作节点执行具体的数据传输、数据 ETL 等工作。主节点和 备份节点同时也可以作为工作节点。数据交换节点集群需要解决的问题3.1.1 集群管理当要提高集群处理能力时,要加入新的机器;当某台机器出现无法恢复的故 障时,机器退出集群。集群要有一个主节点,保存其他各个节点的状态信息,管 理机器加入和退出节点。集群要具有一定的动态扩展能力。当主节点出现故障时,主节点的任务要能够自动切换到其他正常运行的节点。即至少有一个备用节点,热备份主节点的数,当系统检测到主节点故障时,能够自动启用备用节点作为主节点,同时选出其他备份节点。3.1.2 负载均衡数据交换节点需要进行的工作有:数据发送和接收数据 ETL元数据管理、路由配置、消息管理、监控、日志。其中数据发送和接收、数据 ETL 对带宽、 内存、CPU 的等资源的使用率比较高。在分部的数据交换节点向总部的数据交 换节点进行数据汇总的场景下,总部的数据交换节点需要处理大量的数据接收和 数据 ETL 工作,如何设计一个负载均衡算法,能将这些工作合理地分配给每一 个机器,使数据交换节点的吞吐量、效率达到最优,是一个重要研究问题。常用的负载均衡算法有:轮询算法、Hash 散列算法、最少链接算法、最快 链接算法、观察模式、预测模式等。数据交换节点具有一些特点,使得单独使用 某一种算法不能达到较好的效果。例如,不同的数据交换任务需要的资源、完成 的时间不同,所以轮询法、Hash 散列算法、最少连接数法不能合理分配资源。 学术界已经提出了一些更复杂,可以囊括更多因素的算法,如基于多参数的负载 均衡算法、基于内容请求的负载均衡算法、基于遗传算法的负载均衡算法、基于 动态反馈的负载均衡算法、自适应负载算法、具备内容感知能力的网络负载均衡 技术等。但以上算法各具特点,不一定能适应数据交换节点的应用特点,而且算 法需要调整一些参数。总之,已有的负载均衡算法不能直接应用于数据交换节点 集群,需要进行设计、测试和调优,确定最适合数据交换节点集群的负载均衡算 法。3.1.3 失效恢复为保证系统的容错性,需要对失效的任务进行恢复,使得不论出现任务故障 都能保证任务自动恢复,正确完成。设计合适的失效恢复策略,针对不同的失效 类型采取合适的恢复方式,保证以最快的速度、最低的资源消耗恢复或迁移中断 的任务,是一个重要研究内容。首先要识别任务失效的类型,以及失效时任务所处的状态、数据的状态。不 同的任务失效类型、不同的状态、不同的数据情况,需要的任务恢复方式是不同 的。任务有数据发送和接收、数据 ETL、消息管理、元数据管理、路由配置、监 控、日志管理等类型,不同任务有不同的流程和特点,要根据这些特点设计恢复 策略。下面以数据接收为例。数据接收的流程是:发送端使用数据交换平台渠道适 配器将数据发送到接收端后,接收端列出所有收到的数据,用户创建接收任务, 接收任务部署到接收端的 DI 服务器上,DI 执行接收任务的命令将数据保存到目 的数据源。在上述过程中,若出现硬件故障,则将整个任务迁移到其他机器。即 用负载均衡算法选出一台合适的机器,通知数据发送端将数据重新发送给这个正 常运行的机器。若出现非硬件故障,但在一定时间内程序无法重启或响应,也通15知数据发送端将数据重新发送给另一个正常运行的机器。因为这两种方式需要重 新执行任务,消耗的资源和等待时间相对较长,所以尽量避免上面两种恢复方法。 当出现其他故障时,重新启动程序,让程序从故障前的时间点开始继续向下执行。 渠道接收数据过程程序故障时,因为渠道有断点续传的功能,程序启动后可以从 断点开始接收;用户创建接收任务过程出错时,程序重启后从用户创建接收任务 开始进行;接收任务部署到接收端的 DI 服务器过程程序故障时,程序重启后从 部署阶段开始进行,不再需要用户重新创建任务;DI 服务器将数据保存到目的 数据源过程程序故障时,重启程序后程序可以将未保存的数据进行保存,不需要 重新保存已经保存的数据。类似地,在数据发送、数据 ETL 过程中出现故障时,也需要根据任务执行 的流程,设计每一步出现故障时合适的恢复方法。而元数据管理、路由配置、监控、日志管理这些工作消耗的资源较少,执行 步骤简单,每一次执行所需的时间也较短,而且基本只在主节点运行,所以恢复 策略相对简单。只需将主节点的信息,在其他节点进行热备份,当主节点出现故 障时,切换到热备份的机器,启动主节点管理程序即可。为方便用户管理,以上故障类型监测判断、程序启动、任务切换等工作,均 由系统自动完成。3.1.4 集群监控监控系统需要收集计算资源在执行过程中的信息,通过这些信息来了解被监 视系统的运行状态,对系统进行配置和管理,从而保证系统正常和高效运行。对于数据交换节点集群的监控,监控对象主要包括系统状态和性能、数据接 收发送和 ETL 运行时的状态和行为、元数据和路由信息。监控得到的重要数据 指标应该被存储下来,以进行一段时间内的统计和分析。集群中的每个节点上,运行一个监控进程,对本节点的系统状态和性能、数 据接收发送和 ETL 运行时的状态和行为进行监控。集群的主节点收集各个节点 的监控信息,进行汇总,对外提供该集群统一的状态信息。主节点根据各个节点的监控信息,提供集群管理、失效恢复、负载均衡服务。 主节点还需要对元数据、路由信息进行监控管理。当该数据交换节点的元数据、 路由信息发生变化时,主节点要通知其他数据交换节点;当其他数据交换节点的 元数据、路由信息发生变化时,主节点收到通知后要通知本集群内的其他机器。至少有一个备份节点,监视主节点的运行状态。当主节点宕机时,能自动接 替主节点的工作。系统状态和性能监控方面,主要监控以下数据:CPU 占用率、内存使用、16虚拟内存使用、缺页中断数、线程数、磁盘 I/O。数据接收发送方面,主要监控 一下数据:总发送/接收数据量、已发送/接收数据量、未发送/接收数据量、数 据发送/接收平均速度、发送/接收瞬时速度、运行状态(新建、就绪、正在执行、 挂起、错误等)。ETL 方面,由于执行期间需要与服务器、数据源、数据转换组 件、数据传输信道等众多组件进行交互,其执行情况与运行环境密切相关,因此, 为了能够更加准确地反映 ETL 过程的运行情况,需要从更细的粒度上收集 ETL 过程运行时的行为信息,如任务调度情况、连接服务器和数据源情况、抽取或加 载数据效率、进行数据转换、数据传输进度等。3.2 课题预期目标一、构建一个具有高可用性、高吞吐率、高性能、容错性强、扩展性好、部 署快捷方便的 OnceDeep 数据交换节点集群。二、设计适合数据交换平台应用场景的负载均衡算法,写一篇论文。 三、对研究和实现过程中遇到的难点和解决方式进行总结,写一篇论文。4. 拟采用的研究方法、技术路线、实验方案 及其可行性分析4.1 研究方法本课题拟采用的方法是文献研究法、实验对比法。 一、学习已有的研究成果,选择出适合本课题应用特点的研究成果。可以通过查找文献、查相关技术报告和用户手册来完成。 二、试用和对比已有的相关工具。将第一步中查找到的相关产品进行试用,详细了解它的功能和实现过程。对于能够利用的模块予以改进和利用,节省开发 的工作量三、实验测试性能和功能。对集群的性能进行测试,找出瓶颈,对需要改进 处进行改进。4.2 技术路线利用开源框架实现集群目前已有一些成熟的集群开源框架。可以利用合适的20框架,基于目前已有的 OnceDeep 单机程序,在最小的代码改动下实现集群。 本课题拟采用负载均衡集群方案。对集群的管理,参考开源工具 zookeeper。Zookeeper 分布式服务框架是 Apache Hadoop 的一个子项目,它主要是用来解决 分布式应用中经常遇到的一些数据管理问题,如:统一命名服务、状态同步服务、 集群管理、分布式应用配置项的管理等。Zookeeper 采用 Paxos 算法,能够保持 系统数据的强一致性。负载均衡方面,参考开源工具 Apache Camel、HAProxy。 集群监控方面,参考宁静的工作“分布式数据集成监视系统的设计与实现”。 因为数据交换平台 OnceDeep 是使用 java 开发的程序,所以可以利用已有的开源 Java 集群框架,如 Shoal 集群框架、OpenRDS 集群框架。Terracotta 集群框 架是 JVM 级的,可能将一个数据传输/ETL 任务分配到不同的机器上,不适合数 据交换平台的应用场景。4.3 实验方案一、试用已有工具 二、集群构建完成后,采用不同请求频率、不同数量的数据交换请求对集群进行测试,得到集群的吞吐量、响应时间信息。 三、模拟机器故障、程序崩溃等情况,统计在出错情况下数据的准确性和任务执行情况,得到集群的容错能力信息。 四、调整集群的负载均衡算法或某些模块,测试集群的性能等信息,进行比较,选择最恰当的方案。4.4 可行性分析数据交换平台的基本功能已经实现。本研究只需专注交换节点集群方面的工 作。在集群方面,目前已经有很多成熟的研究和工作,开源工具也很多。可以参 考这些工具的实现。5.已有科研基础与所需的科研条件小组科研基础方面:罗后启师兄的工作“基于 HDFS 的数据交换平台设计与 实现”对数据交换平台集群有启发。宁静师姐的工作“分布式数据集成监视系统的设计与实现”可监控 DI、服务器性能等信息,在此基础上改动,可用于监控 数据交换平台节点。谭红星等的工作“数据集成技术研究及数据集成中间件产品 A2E-DI 的研制”,已经完成了数据交换节点数据集成方面的工作。李松领、时俊 玲已经完成了数据交换平台路由、数据交换等工作。上述工作已经完成数据交换平台最基本的功能。本研究将在上述成果的基础 上,专注于集群方面的研究和开发。个人科研基础方面:本人完成了研究生课程分布式操作系统、网络分布式计 算等课程,对集群理论方面有一定基础。研二期间参与小组的开发任务,具备相 应的工程开发能力。科研条件:1.需要下载文献。软件所购买的数据库可满足此需求。2.需要下 载相关工具进行调研。工具基本都是开源的,可从 web 上免费获得。3.需要至少 3 台 PC 集,进行集群的实验。实验室有 PC 机可供使用,也可以采用虚拟机的 方式。科研条件能够满足本课题需求。6.研究工作计划与进度安排2013 年 5 月-2013 年 6 月 20收集相关资料、完成初期调研和开题报告2013 年 6 月 20-2013 年 7 月 20 日 试用相关工具,研究难点,提出具体解决 方案。2013 年 7 月 20 日-2013 年 10 月 20 实现集群2013 年 10 月 20 日-2013 年 11 月 20 日 实验。对节点性能、可靠性等进行测 试,设计和改进负载均衡算法2013 年 11 月 20 日-2013 年 1 月 30 日

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论