【基金标书】2011CB302500-高通量计算系统的构建原理、支撑技术及云服务应用_第1页
【基金标书】2011CB302500-高通量计算系统的构建原理、支撑技术及云服务应用_第2页
【基金标书】2011CB302500-高通量计算系统的构建原理、支撑技术及云服务应用_第3页
【基金标书】2011CB302500-高通量计算系统的构建原理、支撑技术及云服务应用_第4页
【基金标书】2011CB302500-高通量计算系统的构建原理、支撑技术及云服务应用_第5页
已阅读5页,还剩24页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

项目名称: 高通量计算系统的构建原理、支撑技术及云服务应用 首席科学家: 李国杰 中国科学院计算技术研究所 起止年限: 托部门: 中国科学院 二、预期目标 总体目标: 本项目探索面向高通量计算的系统结构新模型新机制,重点研究适应高通量并行处理计算模式的微处理器芯片和 节点 原型的新结构设计方法,设计可扩展、高效能、高可靠的芯片结构与系统结构,并研究面向高通量应用模式的软件支撑技术、软件设计方法与开发环境。本项目的总体目标是通过探索高通量计算的新模型、新结构和新 的设计方法,为 5以后我国研制达到当时国际先进水平的可扩展、高效能、高可靠的高通量计算系统奠定技术基础并培养高水平人才,从而为国产高通量 计算 系统的研制和应用的可持续发展提供强大的后劲。同时,这些成果对未来信息技术的发展,也将产生巨大的推动作用。 项目五年预期目标: 本项目 将在高通量计算系统构建原理、支撑技术及云服务应用的研究方面,提出一批创新方法和关键技术, 在 要学术刊物和重要学术会议(如)上 发表学术论文百篇以上 ,并申请 国内外 发明专利 百件以上 。研制采用基于 2015 年主流工艺技术的 千线程芯片原型 ,研制 满足高通量计算 需求的万线程节点原型 , 研制 移动云服务平台原型 。体现 出如下 几个方面的创新和贡献: 面向高通量计算的可扩展、高效能并行微结构: 提出大规模线程并行的体系结构,构造 千线程芯片的原型,展示其可扩展、高通量的特性。 在 千线程芯片原型 的后硅 ( 调试、失效预测和检测、面向 高通量 应用的测试等方面提出创新方法,为确保能耗约束下的 千线程芯片原型 的可靠处理能力提供关键技术支持。 面向 数据并发处理的新型系统结构:支持海 量并发请求和数据并发流动的高效能、可扩展的并行系统结构,提出面向 高通量计算系统 应用的计算机系统执行模型,开发支持高并发、海量数据流动、低功耗 、应用感知 的 数据通道和 存储系统。 相关技术集成在一个万线程节点原型中。 与现有同规模系统相比,效能比 可 提高 1数量级。 高通量计算系统的可靠性设计方法 和支撑环境 :提出低开销的高通量处理芯片的在线故障检测和容错方法,提出软硬件协调的高通量计算系统的失效检测和恢复方法,为高通量计算系统建立从芯片级到系统级的故障自预测、自检测、自定位、自隔离和自愈合的可靠性保障框架,并在 高通 量计算系统 原型 中集成,为数据中心应用提供透明的 5S 可靠性保证支持。 面向亿级并发负载的编程模型与支撑环境:提出易编程的计算并行模式和数据并行模式的编程抽象及其表示方法;提出通过编程语言和运行时系统协同映射高层编程抽象到底层执行模型,充分挖掘和利用体系结构并行性以及局部性的方法;力求为学术界和产业界提供开源的 高通量计算系统 编程环境;并集成到 高通量计算系统 原型 中,通过关键应用 (如移动服务)展示 高通量计算系统 编程模型可编程性和性能。 高通量 计算 系统的云计算服务环境:实现能力服务流动机制、资源虚拟化及其提供机制和面 向领域的能力服务提供机制与原理,在移动服务领域示范应用,实现移动服务从 “瘦客户端 富网络 ”到 “瘦客户端 富云能力 ”的重大转变 ,并研制针对移动服务的云计算平台。 高效可扩展移动服务关键技术及应用:提出支持大规模并发的移动服务请求分发机制;提出服务资源共享与隔离机制;提出服务资源需求预测模型及智能高效的服务资源调度策略;提出移动网络服务的按需聚合、智能协同机制;建立移动网络环境下服务运行的自适应机制;提出移动服务交付机制, 提供 支持大规模并发的移动 云 服务应用 示范 。 通过本项目的研究, 也将 在高通量 计算系统的 构建原理、支撑技术及云服务应用 等方面,培养一批 创新型 人才。 三、研究方案 本项目的研究,围绕新型应用(如物联网、三网融合、云计算等)对计算机系统所带来的技术挑战和应用发展的重大需求,重点从处理芯片和系统的设计方法、配套软件、服务提供、应用模式和可靠性等方面开展工作,提出并实现有助于解决重大科学问题的高通量计算系统的创新结构和设计方案。主体研究思路是构造数据中心所需的原型硬件系统,在系统设计中将以构建海量数据的高效流动通路为核心问题开展,其核心是面向海量请求处理的芯片设计,并在此基础上构建高通量硬件研究平 台。基于硬件平台的执行模型,构建适应亿级并发线程的编程语言和编程环境,进而研究云计算服务平台,包括硬件系统资源能力部署、监控、调度和可用能力的提供等,从而为上层按需聚合、智能协同的移动服务负载提供可用的服务接口。并在芯片到系统的各层面进行 5S 可靠性设计。这样,总体构建出面向 数据、亿级并发请求的新型高效能高通量计算系统结构,探索出具有普适意义的高通量计算研究方法。总体研究方案如下图所示。 1 . 请 求 驱 动 的 处 理 芯 片2 . 面 向 海 量 数 据 处 理 的系 统 结 构4 . 可 扩 展 易 用 的 编 程 语 言和 编 程 环 境5 . 资 源 管 理 、资 源 能 力 部 署 、 监 控 、 调 度 和可 用 能 力 提 供 平 台 的 基 础 架 构3 片 到系 统级 的5 S 可靠 性6 . 移 动 服 务 负 载 的 调 度 管 理服 务 按 需 聚 合 、 智 能 协 同高 可 靠 移 动 服 务 应 用高效能高通量计算系统执 行 模 型亿 级 并 发 线 程云 计 算 服 务亿 级 请 求E B 级 数 据图 1. 总体研究方案 从技术途径上,本项目除加强理论分析 和创新外,在处理器芯片的设计中将重点依靠已有的先进 具和仿真验证环境,并充分利用已经建立起来的与国内外重要半导体公司的合作关系,结合软件支撑环境、新型存储体系及可靠性计算等研究成果,以应用特征等为输入,对设计空间中的可能方案进行详尽的定量分析和模拟,从而保证新型高通量计算系统的可实现性并进行持续改进。 1 面向高通量计算的可扩展、高效能并行微结构 在新型高效能片上并行处理体系结构方面,一切从可在未来芯片上实现出发,随时通过各种形式的模拟、仿真和试流片进行验证和分析。这种体系结构前沿研究与芯片物理实现能 力兼具的科研组织,是许多国内外大学里的研究工作所不具备的。 在具体研究途径上,分析适应不同应用要求的结构特征并加以抽象提炼,进行模拟分析。同时针对高通量应用的需求,研究指令系统、互连结构、编程模型等问题,进行实验研究和性能分析。研究方案包含如下三个方面。 面向高通量应用请求驱动的可扩展处理芯片微体系结构 。请求驱动的处理芯片中,请求通过 I/O 接收,通过增加新的硬件特征和扩展现有的指令系统等机制,强化处理芯片的 I/O 数据处理能力,以便高效收发请求。请求在处理芯片内部体现为线程,而高通量应用的特点是线程之间通信需 求较低,因而通过提出新型的片上互连结构和片上存储系统结构等相关技术,满足应用对高通量、高效能和可扩展性设计等需求 , 同时避免带宽和片上资源的浪费。 面向高通量应用的高效能片上资源 分配和 管理机制 。 通过高效的运行时管理机制,以较小的开销实现线程切换和调度,最大效率的使用片上的计算资源。对于线程状态的保存,可以通过最优 效能 的方式存储或借助于新型的存储技术,控制对处理芯片的能耗和片上硬件资源的浪费。同时,通过片上存储资源的复用机制,利用线程之间的相似性对不同线程同时取值;而线程之间的相互干扰和对共享资源的竞争访问, 则可以通过对片内共享资源或处理器核进行分区管理,使不同的线程在不同的分区内执行。 高通量处理芯片的设计、验证和测试方法 。使用 2015 年主流工艺技术进行高通量处理芯片的结构设计,包括时钟域设计、片上核间互连、电源网络和 成 千线程芯片原型的 设计。通过设计嵌入式硬件结构(如扫描链、跟踪缓冲区等)获取对电路内部信号的实时跟踪和调试,在可接受的硬件开销下实现对芯片功能 电气 调试和定位。设计时延测量电路和时延生成电路,用于性能分级、老化引起的失效预测和检测。 创新性: 为了适合高通量应用的需求, 并且满足请求驱动的可扩展、高效能和高可靠特征,需要设计新的指令系统结构,在新的指令类型与已有指令系统的应用层兼容方面有重要创新。另外,在微体系结构的片上资源管理和大规模线程级并行的执行模型方面,也会提出并实现适于高通量应用的新方法。最终形成的可扩展、高效能、高可靠的高通量处理芯片,也是一个重要的创新亮点。 可行性: 在十一五期间 973 项目的支持下,我们提出并实现了可执行的片上大规模并行处理芯片体系结构,以及配套的软件工具等。这些工具为本项目拟开展的体系结构研究工作建立了很好的平台 。 2 面向 数据并发处 理的新型系统结构设计 及 评价 方法 在 之外的数据通路上引入智能性,通过 增加并发性、 减少 和容忍 同步和调度开销、自适应调度缓解竞争来提高系统效率;通过数据驱动计算和轻量级线程机制提高系统可扩展性;通过减少额外计算和数据移动操作 及结合新器件新工艺 来降低系统功耗。研究方案包含如下三个方面。 研制支持高 并发访问 的新型数据通道和 自适应的 内 存控制器 。高效的 数据通道和 存储控制器是 提高系统数据通量 的关键所在。 数据通道和 存储控制器的结构 和数据的组织方法 要适应海量并发 数据 访问的压力,实现有效的调度策略, 减小和容忍 并发访问的延 迟 。研究新型存储器件与传统存储系统的优势互补和有机结合,以及有效降低存储系统无效功耗的调度方法。 处理 非结构化数据的文件系统 。开发面向高强度负载的应用负载特征感知和预测方法。以应用负载特征和数据副本为基础,研究面向数据高效访问的副本组织、管理原理和方法。并以此来动态满足高通量应用的高性能共享需求,使得适合的数据副本在适合时刻放置在适合的层次和介质上,提高外部存储服务的效用。同时,研究面向数据高可靠性的高效数据副本机制,用以兼顾 海量数据和亿级并发度的环境下数据可靠性和存储成本。 应用特征分析和系统 评估 。针对 高通量计算系统 的特点,将 高通量计算系统动识别的结果作为系统的动作状态空间集,通过统计学习的方法建立 征指标和动作状态空间集的映射关系,以此为基础建立高通量计算系统 动识别模型。在负载产生工具的支持下,通过重放可控制和可重复的 而获得代表性 高通量计算系统 应用的主要性能指标,进一步构建性能分析模型。 创新性: 提高数据访问通路的并发性的系统设计方法 , 实现 访存 和 计算 融合的 执行机制 ,开发 海量数据的 寻址和数据表达机制 ,通过 综合评价辅助系统优化的方法 。 传统的计算机系统注重高带宽和大容量设计,忽略了对并发性的支持以及数据自身特征与数据访问的内在联系。新的系统设计将数据并发访问和有效组织作为设计重点,从结构上对提高系统的吞吐能力和降低能耗提供支持。 可行性: 我们在曙光高性能计算系统的研制过程中掌握了大量系统结构设计的关键技术, 自主研制 过通信控制器、系统网络、 内存 控制器、并行文件系统等 ,已在 网络服务、网络安全、 资源勘探、空天信息、非线性视频编缉、视频监控、数字风洞、核模拟、建筑设计等十多个领域应用,积累了深厚的技术基础 。 3 高通 量计算系统的可靠性设计方法 大规模高通量计算系统的可靠性设计方法不同于传统的完全依赖软件的可靠性保障方法,我们将采用从芯片到系统级的跨层的可靠性保障技术,通过芯片级的故障症状监测,硬件检查点和线程迁移技术,有效容忍片上固定型故障和瞬态故障,通过软硬件协同设计,实现高效的低开销的系统级计算和存储节点的故障自检测,自定位和自恢复,通过建立从芯片级到系统级故障的自预测,自检测,自定位,自隔离和自愈合支撑环境, 即 5S 框架,为亿级用户和并发负载提供稳定、可靠、有质量保证的服务。研究方案包含如下三个方面 : 高通量处理 芯片的故障检测和容错方法 。传统的检测芯片失效的方法采用双模冗余比较执行,当执行的轨迹或结果不同时就可以检测出故障。这种方法对系统吞吐率损失太大。由于大部分的芯片级故障都能被系统和软件屏蔽,因此我们采用基于系统症状的故障预测和检测方法,通过预定义一些系统级的故障症状,预测和检测故障的发生。由于大部分的芯片故障能够被系统和软件所屏蔽,因此基于系统级症状的检测方法对吞吐率的影响很小。由于高通量处理芯片上含有大量的硬件线程处理并发请求,当芯片上发生故障时,可以采用基于轻量级硬件检测点的线程迁移方法。这种方法只有当检 测到故障时才会占用其他计算资源,因此有效地提高了芯片计算能力的利用率,同时保证了计算的可靠性。 高通量处理系统的失效检测和恢复方法 。在芯片级容错方法的基础之上,高通量计算系统必须具备系统级的故障检测和跟踪、容错处理和自动恢复方法,保证应用程序高效、可靠、稳定的运行。完全依赖软件层次的容错方法,存在着效率低、开销大等问题。超大规模分布式的硬件系统使得软件层次的故障跟踪与诊断变得非常困难,必须借助硬件的支持。我们将采用软硬件协同的系统级故障检测和容错方法,通过板级专用硬件支持高效的节点健康状态检查协议和数据副本 校验方法,此外,基于程序语义挖掘和分析的软件级故障检测和诊断方法,挖掘软件级容错的灵活性高,可控性强,成本低等优势。 从芯片级到系统级的故障自预测、自检测、自定位、自隔离和自愈合支撑环境 。借助从芯片到系统级故障检测和容错方法的支持,构建系统可靠性支撑环境,实现智能高效的故障管理机制。基于系统行为和症状的故障预测和自检测,故障部件的隔离,替换部件的自动识别,以及系统的自组建和自愈合。这种从芯片级到系统级的故障自预测、自检测、自定位、自隔离和自愈合支撑环境我们称之为 5S 框架,能够极大的提高故障管理的效率。 创新性: 目前完全依赖软件的故障检测和恢复方式,开销大,对系统吞吐量影响严重,不适合应用于高通量 计算 系统,我们将打破这种框架,采用故障分级、从芯片到系统跨层的故障自预测、自检测、自定位、自隔离和自愈合的可靠性保障框架,来实现高通量 计算 系统对可靠性的不同层次的需求。这一新的可靠计算框架能够大大提高系统的吞吐率,同时能保障高通量计算环境中的各种应用负载的服务质量。 可行性: 我们已经在多核系统中,掌握了通过故障检测、故障定位并使用备份处理核和线程迁移等线程恢复方法实现的可靠性保障框架,可望在服务器单节点的侦测( 检测)技术、线程迁移等方面取得突破。已经掌握了多核处理器中的备份替换和虚拟化技术,可望在高通量计算系统的故障管理和容错方面取得突破。本研究将与高通量计算系统结构等研究课题相结合,将高可靠性计算技术应用到实际的高通量计算 系统 中,进行原型系统验证。 4 面向亿级并发负载的编程模型与支撑环境 面向亿级并发负载的编程模型与支撑环境的研究方面,我们将基于当前国内外比较成熟的支持大规模分布式数据并行编程模型的开源平台展开我们的工作,同时参考我们在多核、众核并行编程模型设计与实现方面积累的技术经验。具体研究工作包括用户 级抽象编程语言和编程接口的设计、编译器的设计和实现以及支撑系统的设计和实现,在各个 层面都要考虑对 高通量计算系统 易编程性和可靠性的支持。 在具体研究途径上,我们的研究方案包含如下三个方面: 本项目拟研究的 高通量计算系统 编程语言和编程接口的设计可以参照 擅长并行数据处理的语言特性 ,支持结构化和非结构化的数据,支持声明式、面向过程和面向对象的编程风格,支持程序的正确性验证 ,支持云计算服务环境中应用程序的编程 。 本项目拟研究的 高通量计算系统 编译器可以基于 实现, 译器是一个非常健壮的开源的编译技术研究平台,其良好的软件架构、中间表示非常有利于设计和实现新的程序语言,或是扩展已实现了的语言。丰富的程序分析技术可以获取大量的程序信息,这为通过语言层面上的程序分析和验证、缺陷检测来提高 高通量计算系统 应用的可靠性提供了很好的基础设施。 本项目拟研究的支撑系统中,运行时系统是核心部件,其为典型的数据流执行引擎系统,对高层的编程模型和编程语言提供语义上的支撑,利用用户制导的或 高通量计算系统 编译器自动分析获取的应用特征来提高任务调度 、故障监测和容错、性能监测和分析的效率,实现时可以参考 充分利用云计算服务环境提供的高效服务 。在挖掘体系结构并行性来提高 高通量计算系统 应用性能的技术方案可以参考我们提出的多核、众核集群上的统一编程模型 创新性: 将 高通量计算系统 应用中的计算并行模式和数据并行模式进行抽象,提出适用范围更广,支持应用更多,更易被程序员掌握的编程抽象及其表示方法,是 高通量计算系统 易编程的关键和难点所在,是一个创新之处。通过编程语言和运行时系统协同映射高层编程抽象到底层执行模型, 充分利用 云计算服务环境提供的高效服务, 充分挖掘和利用体系结构并行性以及局部性,是提高 高通量计算系统 应用性能的重要途径,这也是一个创新之处。面向软件容错的程序分析技术是针对将来 高通量计算系统 应用的特征而提出的研究,要利用程序本身的信息来减少容错的代价,是一个比较有特色的创新处。面向 高通量计算系统 编程模型的程序正确性保证技术,将程序分析技术、缺陷检测技术与编程模型的研究相结合,有效的屏蔽复杂的并行控制,使得程序员能够高效的编写正确的 高通量计算系统 应用,这是 另 一个创新之处。 可行性: 通过近几年针对 字信号处理、 腾芯片、超标量龙芯处理器、多线程网络处理器、曙光 群等不同类型体系结构进行的优化编译技术研究及动静态结合的二进制编译技术研究,我们在串行程序的自动并行化、任务级、线程级和指令级的并行编程模型和编程语言的设计和实现、数据流模型的设计和实现、迭代编译优化、应用程序和负载的行为分析、面向同构 /异构的多核 /众核的多层并行体系结构的统一编程、高级语言的源源翻译、二进制翻译、支持程序可靠性的程序分析、缺陷检测技术、故障监测技术、并行程序通信切片方面已经有了多年的技术积累,构建了相对成熟的编译基 础设施和系列编程工具。这为我们成功开发出易编程、高可靠的 高通量计算系统 编程环境提供了坚实的基础。 5 高通量 计算 系统的云计算资源管理与能力提供 面向高通量系统的云计算平台不同于高性能计算平台,它的应用范围和应用面会更广,不再针对 特定 的领域和对象,这样就对计算平台的基础架构和服务模型提出了要求。同时,伴随 着 虚拟化的引入,如何高效可靠的管理、调度和使用云平台中的虚拟资源,为用户提供快捷可靠的服务也是研究的重点。研究方案包含以下几个方面 : 适应高通量 计算 系统的云计算基础架构模型研究。 传统的云计算服务模型包括三种 形式: 供了基础资源层面的服务和共享,供了应用开发环境层面的服务和共享,而 供了软件层面的服务和共享。这三种形式都是面向 某种 服务对象和需求的模型,之间的兼容性不强,研究大规模分布式环境下基于服务 能力流动调度机制与方法,探讨 理论上的统一化,实现三种服务模型的统一,将有助于解决云计算平台管理复杂性问题。 云计算环境中资源管理、虚拟化及其可用能力提供机制研究 。通过引入资源虚拟化,保证平台按序、动态的高可扩展性、配置和部 署的灵活性、应用的透明性和广泛性。同时建立以虚拟机为基础构件的虚拟化可信计算平台,满足全球分布式重并发 务和应用对计算的可靠性和可信性的要求 。虚拟化技术的引入也有助于提供更好的灾备方案。 云计算资源能力部署、监控、提供和优化调度技术研究 。采用合适的调度和资源管理算法,将系统软硬件资源进行快速的虚拟化封装,解决由于用户需求的不可预测性,软硬件故障,服务异构性,以及 突等造成的资源使用率和用户满意率之间的矛盾。对于用户需求保证足够的 存、带宽等资源,使其可以在预定的时间内达到预期 的使用效果。 创新性: 目前的存在的几种云计算服务模型具有一定的局限性,模型之间的兼容性不强,每种服务模型仅适用于特定的服务对象和领域,本项目将探求在单一结构下满足多种服务的理论和方法,并保证系统的可靠性和灵活性,同时采用高效的调度算法对资源进行分配。 可行性: 我们已经实现了分布式多任务环境下对于虚拟集群进行规划调度的可扩展性算法,可以解决大规模任务和虚拟机数量下的资源规划,实现了最小化总执行时间和执行成本等多个目标。同时,我们对于云计算服务框架及资源虚拟化都已展开研究,可望在服务模型和云计算服务可靠 性方面得到突破。 6 高效可扩展移动服务关键技术及应用 紧密结合移动网络的特点与用户个性化的服务需求,研究以用户为中心的可变、可适的移动服务按需聚合与智能协同方法。同时针对移动服务创新的需求,研究支持大规模并发的服务执行技术、安全可控的能力开放技术和柔性化服务生成技术。为了适合高效可扩展资源利用的需求,需要在有限的计算、网络等资源约束下设计高效的资源分配、管理与调度策略,在网络资源共享与隔离机制上有所创新。具体研究方案可以从如下三个方面进行 : 移动服务资源的高效管理及调度机制 。在支持大规模并发的移动服务请 求分发机制的研究方面,拟采用基于服务资源状态反馈信息,研究面向动态负载均衡的服务请求分发机制。当前的服务请求分发基本都是单一的决策机构完成的,难以满足多地域、超大规模的并发服务请求,拟基于群决策理论等研究分布式的服务请求分发技术。在服务资源提供机制方面,为高效的利用有限的服务资源并满足移动服的资源需求,拟基于用户行为模型与服务层叠网等技术研究服务资源的提供模型,同时为了减少或避免共存服务间相互干扰,拟采用网络虚拟化等技术研究服务资源的隔离机制。在智能高效的资源调度策略研究方面,拟采用混合结构的服务资源层次架 构实现服务资源池 /簇的高效组织,并借鉴云计算、网格计算等先进理念和相关技术,实现基于多属性决策理论,兼顾效用计算、并行计算等优势的智能高效的服务资源调度策略及服务资源的自优化问题,满足资源效用的最大化利益。 移动服务动态聚合、智能协同机制 。首先引入服务聚类的概念,实现面向异构网络的网络服务的分类别组织,构成服务聚类;然后引入面向用户需求的服务域概念,形成面向用户需求的服务域;最后,提出分布式、层次化的网络信息服务组织模型。在针对大规模网络服务聚合 基于 算的网络服务可替换验证与相容性形式化分 析研究的基础之上,引入类型系统理论,定义类型的互模拟关系,将类型互模拟关系扩充到区分传输能力的通道类型上,给出基于类型化进程演算的服务聚合行为相容性检测算法,对复杂服务协同过程的服务之间的控制流、数据流、状态变迁等动态行为进行相容性分析。针对移动服务自适应的上下文感知模型与方法,对于具有因果关系的离散型的不确定性的服务上下文信息,采用贝叶斯网络的理论和方法进行相应的推理。对于连续性的动态变化上下文信息的预测,采用动态贝叶斯网络、隐马尔可夫模型和粒子滤波等算法来进行相应的建模和推理。对于缺乏训练样本和先验知识 的服务上下文预测情况,采用在线的机器学习的方法来自动的分析、挖掘服务上下文信息间的依赖或因果关系,自动形成相关上下文信息间的拓扑结构和结点间的度量值。根据领域用户需求,在这些高层抽象的上下文之间建立逻辑关系,在小基数较关系中进行语义推理,根据推理的结果做出对应的决策,提高自适配行为的准确度,满足用户的需求。 综合移动互联网业务数据中心构建方法 。使用多视点多纬度分析的方式建立基于虚拟化资源的服务运行控制模型。从服务交付的视角进行分析,包括准备、创建、运行等,明确服务运行控制的时间维要求;从企业能力、业务结构的 角度进行需求维度的分析;从面向服务体系结构、虚拟化和效用计算等技术纬度进行分析;从运行环境、利益相关方等空间纬度进行分析,建立运行控制模型。以安全可控作为服务开放的研究重点,主要从用户身份管理与敏感性信息的控制出发,使用访问控制与数据处理有机集成的技术思路进行研究。基于复杂服务与子服务间依赖的分离解耦、服务之间独立自组织的思想,以及反馈控制的理论和方法进行可靠服务运行控制机制的研究。对于服务生成,拟采用本体论和需求工程结合的方法研究服务自动与半自动生成的工具和算法。 创新性 :着眼于未来移动服务需求, 应对多样多变的用户需求与网络异构性问题,为用户提供可变可适的移动服务是一个难点,也是一个创新之处。如何在有限服务资源条件约束下,提出可靠保证移动服务质量的高效服务资源管理及调度机制是一个难题,也是一个创新之处。面对大规模用户服务并发请求,提出面向动态负载均衡的分布式服务请求分发机制与服务运行控制机制,是另一个创新。基于上述研究内容,实现一个以用户为中心支持大规模并发的高效的移动服务应用系统。 可行性 :在 近 几年的研究中,我们已经掌握了服务资源消耗信息的获取机制,在集中式以及分布式服务请求分发机制方面也提出了相 关算法,为进一步研究基于反馈信息的分布式负载均衡分发机制提供了基础。中国移动于 2002 年开始建设 前已建设机架数约为 4310 架,超过万台主机,在高效资源调度方面积累了深厚的经验。在柔性化的移动服务提供技术方面,我们已经构建了服务关系本体,提出了基于本体的上下文建模方法;提出了一种用于 知的服务选择的遗传算法,高效地从所有组合路径中选出满足用户 求的组合方案;提出了一种基于移动服务关系本体的服务智能化生成方法,进而在服务执行过程中挖掘服务的动态语义,引导后继服务的匹配。上述研究都为高效可扩 展移动服务关键技术及应用提供了坚实的基础。 课题设置: 本项目围绕着效能、可靠性和可适性三个科学问题,从芯片、系统 、 云计算平台 到移动 应用,结合可靠性设计和并行编程等支撑技术,共部署 6 项课题: 1 . 面 向 高 通 量 计 算 的 可 扩展 、 高 效 能 并 行 微 结 构2 . 面 向 E B 级 数 据 并发 处 理 的 新 型 系 统结 构 设 计 及 评 价 方 法4 . 面 向 亿 级 并 发 负 载 的 编程 模 型 与 支 撑 环 境5 . 云 计 算 模 式 下 高 通 量 系统 的 资 源 管 理 与 能 力 提 供3 量计 算 系统 的 可靠 性 设计 方 法6 . 高 效 可 扩 展 移 动 服 务 关 键 技 术 及 应 用高效能高通量计算系统亿 级 请 求百 亿 亿 级 数 据图 2. 各课题关系图 课题一: 面向高通量计算的可扩展、高效能并行微结构 主要研究请求驱动的新原理、面向高通量应用的片上大规模线程级并行的新型体系结构, 体现 其高通量、高扩展、高效能、高可靠的特性,并完成 千线程芯片原型 。课题由计算所和中国科大承担,学术骨干包括李 国杰、 范东睿 、李华伟、安虹 、 姚新 、张浩、张军超、吕涛 等,经费比例为 25%。 课题二:面向 数据 并发处理 的新型 系统结构设计 及 评价 方法 应对 数据并发处理的挑战,主要研究 新型高通量数据通道和智能存储控制器结构设 计, 支持海量存储的低能耗和可扩展的存储系统结构,提出 结合 新型存储器件的存储体系设计新方法 ,研究高通量计算系统的应用性能模型和评价方法,实现 高通量计算系统 万线程节点原型 。本课题由计算所承担,学术骨干包括徐志伟、 陈明宇 、孙凝晖、詹剑锋 、谭光明、包云岗、韩晓明、张文力 等,经费比例为 25%。 课题 三:大规模高通量计算系统的可靠性设计 主要研究并提出高通量计算系统的 5S(自预测、自检测、自定位、自隔离、自愈合)可靠性设计新原理和新方法,包括低开销的芯片级故障检测和容错方法,软硬件协同的系统级失效检测和恢复方法,以及从芯片到系统级的可靠计算支持环境,并在 高通量计算系统 原型中集成,提高系统的故障管理效率和系统可靠性。本课题由计算所承担,学术骨干包括李晓维、 韩银和 、胡瑜 、张磊、闵应骅、沈理、高文 等,经费比例为 20%。 课题四:向亿级并发负载的编程模型与支撑环境 研究面向亿级并发负载的编程模型与支撑环境,主要 解决 高通量计算系统 应用的易编程性和可靠性问题。易编程方面,主要研究编程抽象与编程模型、编程语言与编程接口以及运行时系统等支撑环境。可靠性方面,主要研究面向软件容错机制的程序分析、性能监测与分析,故障监测与容错、缺陷检测技术、调试以及与编程模型结合的软件开发正确性保证。本课题由计算所承担,学术骨干包括吴承勇 、 乔如良、 陈莉 、武成岗、崔慧敏、唐生林、霍玮 等,经费比例为 10%。 课题五:高通量 计算 系统的云计算服务环境 主要研究面向应用具有高可用性的云计算服务平台。在确保高灵活性、高扩展性和高可靠性的前提下,建立合理 的云计算服务模型,解决资源灵活性和可靠性之间的矛盾,提供高效的资源调度和管理方案。本课题由计算所和清华大学承担,学术骨干包括黄铠、 武永卫 、温冬婵 、毕经平 、白晓颖、杨吉江 、徐伟平、张冬艳、刘连丞 等,经费比例为 10%。 课题六:高效可扩展移动服务关键技术及应用 主要研究如何智能化的调度通过虚拟化技术获得的各种虚拟资源,开展移动服务资源的高效管理与调度机制研究,开展柔性化的移动服务提供技术以及支持大规模并发的移动服务方面的研究,实现一个支持大规模并发的移动服务应用示范系统。由北京邮电大学和中国移动通信有限公司研究 院承担,学术骨干包括宫云战、 双锴、 杨志强、商彦磊、章洋、刘传昌、张炎、武威等,经费比例 10%。 四、年度计划 研究内容 预期目标 第 一 年 1. 研究适应高通量应用的访问模式,将处理芯片的结构由以控制驱动和数据驱动为特征的核心集中处理模式转变为以网络请求驱动为特征的外围分布处理模式的微体系结构设计的方法 ; 2. 研究高通量处理芯片的处理器核的基本结构、适应高通量需求的新型指令系统结构、新的硬件特征,以及增强高通量处理芯片I/O 能力的新方法 ; 3. 对电路级和指令级常见的故障类型进行建模;利用模拟器和真 平台,研究指令级故障注入方法和故障传播 方法; 4. 全面分析和研究高通量系统应用负载的特征、数据通路的访问特性、海量数据的存储结构模式,总结出高效能、高通量应用对体系结构的需求 ; 5. 跟踪新型存储器件的进展,展开存储器件功耗特性的研究 ; 6. 研究覆盖数据中心体系结构各个层次的端到端 (术,包括植入式和硬件侦听等方法; 7. 通过故障注入,并运行高通量系统的基准评估程序,分析和评估指令级故障对系统和应用的影响; 8. 基于故障注入和传播分析及其对应用的危害和影响,对数据和计算(指令执行)的关键性进 行分类; 1. 针对应用的高通量需求,扩展已有的指令系统,提出新的硬件特征,确定处理器核的基本结构; 2. 完成面向高通量应用的并行体系结构模拟器的设计,并用国际通用的测试程序组分析和验证该体系结构的效率, 以及应用对高通量需求的性能满足情况; 3. 基本确立高通量计算系统的需求特征,确立从体系结构角度优化系统的切入点 ; 4. 初步建立高通量应用 择几个代表性的应用负载作为后续集中研究的目标。基本准备好相关分析和研究工具 ; 5. 针对不同的电路级和指令级故障模型,提出故障注入方法; 6. 提出有效的故障传播跟踪方法,提供包括模拟器 和仿真器 在内的工具链 ; 7. 提出数据和计算的关键性和敏感性评价指标; 8. 提出完备的具有较高故障覆盖率的故障症状集合; 9. 提出面向高通量计算系统体系结构和超大规模并行性的调度策略 ; 10. 提出复杂存储 体系结构下的效能优化方法 ; 11. 提出运行时存储和调度 的优化方法; 12. 确定高通量系统的功能优势和 研究内容 预期目标 9. 基于故障传播和在指令执行过程中的故障分类,研究指令级故障症状的选择方法,构造故障症状集合;评估故障症状集的完备性和故障覆盖率;高通量计算系统的功能分析、接口调研、使用案例制定; 10. 发掘应用并行性,考虑负载平衡的调度策略研究 ; 11. 面向程序输入和程序行为,针对复杂存储体系结构的效能优化方法研究 ; 12. 运行时效能优化方法研究 ; 13. 云计算服务环境需求调研、移动服务特点分析;基于高通量计算系统的云服务模型方案设计; 14. 云计算服务环境管理复杂性分析; 研究云计算平台基础架构中层次化的分布式管理和组织模型研究用于层次化结构的 信息交互机制 ; 15. 研究 基于有限共享服务资源的服务提供模型 和基于层叠网络和网络虚拟化技术的映射模型 ; 16. 针对面向移动网络的融合服务,研究移动服务资源组织模型 ; 17. 基于云计算技术的应用运行引擎总计架构设计与关键技术研究 ; 18. 基于云计算的移动互联网应用开发引擎总计架构设计与关键技术研究 ; 19. 移动互联网能力开放引擎总计架构设计与关键技术研究 。 性能优势,测试分析典型应用案例的相关运行时间消耗等; 13. 确定移动云计算服务的功能需求和性能需求特点; 14. 基于上述结果和移动运服务功能需求,完成针对高通量计算系统的移动云计算服务环境设计; 15. 提出云计算平台基础架构中层次化的分布式管理和组织模型 16. 提出适用于层次化结构的信息交互机制 ; 17. 提出基于层叠网络和网络虚拟化技术的映射模型 ; 18. 提出高效的移动服务资源组织模型 ; 19. 完成基于云计算的移动互联网应用运行引擎总计架构设计与关键技术研究报告 ; 20. 完成基于云计算的移动互联网应用开发引擎总计架构设计与关键技术研究报告 ; 21. 完成移动互联网能力开放引擎总计架构设计与关键技术研究报告 ; 22. 在 重要国际学术刊物和学术会议发表论文 10 篇以上,申请国内外发明专利 10项以上。 研究内容 预期目标 第 二 年 1. 研究满足高通量应用中海量线程处理需求的单片可扩展至千线程的并行处理芯片结构 ; 2. 研究处理器核之间的互连通信和同步机制(如共享内存、消息传递等)、片上存储器的组织形式(局部 /全局、 寻址便签式存储器等)和高效支持多线程并行的基本机制等 ; 3. 针对高 通量应用的访存特征和通信模式,研究请求驱动的高通量处理芯片中,能同时满足应用的高通量、低能耗需求和大规模可扩展需求的互连结构和片上存储结构等相关技术 ; 4. 研究采用包交换和异步应答方式的 并发 存储访问模式,同时支持多种数据延迟、粒度、位宽的大量并发数据访问,从而在硬件上支持大量软件线程发出的对海量数据的不同模式、粒度和位置的数据访问请求 ; 5. 研究软件如何有效利用 数据通道和 存储体系中提供的并发性支持来实现高通量。研究新型的软件可控制的存储系统调度机制 ,将应用程序的访存特征与硬件访存并发性相结合 ; 6. 研究将非 易失性存储器件加入高通量系统的整个访存体系的存储结构带来的存储结构设计的变化。研究 3D 封装等新型工艺技术对结构的影响 ; 7. 研究如何降低 术的性能开销,研究利用 息实时调控系统的方法 ; 8. 研究能够刻画请求服务过程中高通量计算系统多个部件交互1. 提出单片扩展至千线程的并行处理芯片结构设计方法,并完成单片千线程体系结构模拟器的设计,并用国际通用的测试程序组分析和验证该体系结构的效率,以及应用对高通量需求的性能满足情况 ; 2. 提出单片千线程处理芯片中的片上互连结构和同步机制,设计适合于高通 量需求的片上存储系统结构,以及底层硬件对多线程并行进行支持的设计方法等 ; 3. 提出基于数据关键性的分级保护策略; 4. 提出用于高通量处理芯片的嵌入式存储器的高效编码保护方法;提出利用片上存储层次结构以及数据包含关系的数据冗余存取方法; 5. 针对片上网络路由器的结构,提出切分数据通路的专用容错设计方法; 6. 针对高通量处理芯片硬件线程间的同构性,提出线程间硬件资源共享和互为备份的容错设计方法; 7. 提出基于故障覆盖率的选择性指令回卷方法;提出因指令执行未回卷导致执行出错时的故障恢复方法; 8. 精确高效的面型大规模程序的程序技术分析技 术 ; 9. 面向超大规模并行度的程序检测技术 ; 10. 构建面向超大规模并行度的程序开发环境 ; 11. 分别提出计算能力虚拟化、存储 研究内容 预期目标 的性能模型; 9. 基于数据关键性分析,研究片上嵌入式存储器的高效编码保护方法; 10. 利用片上存储层次结构中的数据包含关系,研究数据的冗余存储方法; 11. 研究针对微体系结构级部件的功能和结构特点的专用容错设计方法; 12. 研究基于故障症状覆盖率分析的选择性 指令回卷方法;评估故障覆盖率对指令回卷开销的影响; 13. 面向高通量计算系统,程序容错和检测的基础技术研究,面向大规模程序的精确程序分析技术研究 14. 面向超大规模并行度的提高程序可靠性的技术研究, 面向超大规模并行度的程序调试和开发环境的构建 15. 虚拟化方法研究,评测高通量计算系统的不同虚拟化方法及其迁移开销,提出体现高通量系统特点的虚拟化机制; 16. 研究不同虚拟化程度对移动服务的影响;虚拟资源的提供方法和使用模式研究; 基于虚拟机的容灾机制和高性能迁移方法研究; 17. 研究 适应多变用户并发请求的服务请求分发策略 ; 研究单目标的复杂 资源调度分配策略及相关算法 ; 研究具有条件约束的虚拟网络资源映射算法 ; 18. 针对移动服务多样性和多变性资源虚拟化和通信(网络)资源虚拟化的方法; 12. 给出不同服务对虚拟化方法或不同资源对虚拟化方法的性能开销分析; 13. 提出客户端形式和专用通信协议的虚拟资源的提供模型; 14. 提 出基于所选定虚拟的快照及迁移方式,并尝试应用级的快照及迁移方法; 15. 提出 适应多变用户并发请求的服务请求分发策略 ; 提出单目标的资源调度分配策略及相关算法 ; 提出具有条件约束的虚拟网络资源映射算法 ; 16. 提出服务多样性和多变性环境下的移动服务的聚合机制 ; 17. 完成移动互联网业务安全机制及安全技术研究报告 ; 完成移动互联网能力开放适配、封装、集成关键技术研究报告 ; 完成移动互联网能力接入和访问机制研究报告 ; 18. 在 重要国际学术刊物和学术会议发表论文 20 篇以上,申请国内外发明专利 20项以上。 研究内容 预期目标 带来的复杂性,深入研究移动服务的动态聚合机制和方法 ; 19. 移动互联网业务安全机制及安全技术研究; 移动互联网能力开放适配、封装、集成关键技术研究 ; 移动互联网能力接入和访问机制研究 。 第 三 年 1. 研究满足高通量应用中数据访问需求的高效使用带宽的数据传输机制,研究处理器芯片中线程处理的数据在不同存储层次间高效的流式传输机制 ; 2. 研究适合于高通量应用访存行为特征的片上存储系统和片上资源管理策略,缓解应用程序的高通量需求导致的内存墙更为严重的解决 机制 ; 3. 基于千线程芯片的结构设计和需求,结合之前的体系结构研究,开展万线程原型体统的结构设计 ; 4. 研究在数据通道上 对 数据 请求的标注机制,支持对数据访问的质量控制和调度及对数据请求的感知 研究对亿级并发访存一致性的有效支持 ; 5. 研究数据驱动的执行模型, 通过1. 提出基于预取或其他技术的数据传输机制,异步地从片外内存读取数据,降低处理器核访存的平均访问延迟 ; 2. 提出适合于高通量需求的片上存储系 统的结构分层设计方法,以及相应的片内缓存管理方法 ; 3. 完成万线程原型系统的总体设计 ; 4. 建立起数据通道上的数据感知的智能性的体系结构支持方法 ; 5. 建立起基于新型数据通道和存储体系的高通量、高并发软件设计方法 ; 6. 建立高通量计算系统性能推演和预测模型 ; 7. 提出高通量处理芯片的轻量级硬件检查点设计方法;提出硬件线程间检查点的共享设计方法; 研究内容 预期目标 轻量级并行和消息驱动计算的方式提高系统的吞吐性能 ; 6. 研究统一不同存储层次、本地和远程存储、存储和 I/O 访问的存储体系 ; 7. 研究数据密 集型服务的运行时性能模型,及其性能模型改变的机制与策略;研究高通量系统性能推演方法,研究限制高通量计算系统可扩展性的关键因素; 8. 研究高 通量处理芯片中硬件线程共享硬件检查点方法;研究硬件线程共享检查点的同步和互斥协议;研究支持高速线程迁移的高吞吐量低延迟片上互连设计方法; 9. 评估复用功能片上网络时线程迁移对片上通信流量以及系统性能的影响; 10. 针对私有高速缓存结构,研究缓存数据迁移对线程迁移的影响; 11. 对新型高通量计算系统应用的数据模式和计算模式进行抽象提出适 用范围更广,支持应用更多,更易被程序员掌握的编程模型和编程接口; 12. 设计面向高通量计算系统的编程语言,支持各种高通量计算系统编程模式的表达,支持正确性验证、缺陷检 测、故障监测和容错的表达,方便向 高通量计算系统体系结构进行映射; 13. 要充分参考云计算应用程序与云计算服务环境之间抽象的服务关系,定义出足够抽象的高通量计算系统编程接口库和高通量计算系统编程框架,以达到代码复用的目的,从而减轻程序员8. 提出支持高速线程迁移的片上互连结构设计方法;提出私有高速缓存高通量处理芯片中,缓存间数据的高效迁移和共享方法; 9. 提出针对 应用软件流化方法和按需部署机制;提出 境下的自动安装和部署方法,研究应用自动部署及其高效启动机制; 10. 提出通用的应用自动部署语言,支持物理系统环境和虚拟系统环境下的统一高效自动部署机制; 11. 分别提出针对高通量计算机系统的高数据不发 作和高数据聚合带宽的不同数据提供机制; 12. 给出基于社区的用户级别

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论