【毕业学位论文】（Word原稿）Bighive：一个针对时间维度优化的分布式结构化数据存储系统-计算机科学与技术网络与分布式系统

上传人：O*** IP属地：江苏上传时间：2016-07-09 格式：DOC 页数：53 大小：1.20MB 积分：20 举报 版权申诉

【毕业学位论文】（Word原稿）Bighive：一个针对时间维度优化的分布式结构化数据存储系统-计算机科学与技术网络与分布式系统_第2页

【毕业学位论文】（Word原稿）Bighive：一个针对时间维度优化的分布式结构化数据存储系统-计算机科学与技术网络与分布式系统_第3页

【毕业学位论文】（Word原稿）Bighive：一个针对时间维度优化的分布式结构化数据存储系统-计算机科学与技术网络与分布式系统_第4页

【毕业学位论文】（Word原稿）Bighive：一个针对时间维度优化的分布式结构化数据存储系统-计算机科学与技术网络与分布式系统_第5页

已阅读5页，还剩48页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

北京大学硕士研究生学位论文题目：一个针对时间维度优化的分布式结构化数据存储系统姓名：学号： 10648182 院系：信息科学与技术学院专业：计算机系统结构研究方向：计算机网络与分布式系统导师姓名：李晓明教授二 00 九年六月北京大学硕士学位论文 I 版权声明任何收存和保管本论文各种版本的单位和个人，未经本论文作者同意，不得将本论文转借他人，亦不得随意复制、抄录、拍照或以任何方式传播。否则，引起有碍作者著作权之问题，将可能承担法律责任。北京大学硕士学位论文 - 2 - 摘要 “中国息博物馆 ”(4，是一个针对中国互联网信息的搜集、存储与历史浏览服务的海量信息系统， 5 年来已经积累超过 25 亿中国互联网上出现过的网页，数据量已经超过 30随着数据量的持续增长，现有的储和服务系统已不能满足要求，使得其中的数据存储和访问变得越来越困难。为解决这一问题，本文首先分析了据特征及其访问特性。在数据上，网页历史数据规模庞大，具有空间和时间两个方面的维度，我们发现数据在这两个维度上无界增长，表现出高度的不平衡性。其次，在访问上，的所有请求都带有时间和空间两方面维度的约束。本文工作通过具体分析数据和访问特点，针对访问性能优化而设计了一种带时间索引的数据存储格式实验表明其对据存储和访问需求的有效性。在此基础上，我们设计并实现一个的分布式结构化数据存储系统评测验证了其可行性。不失一般性，本文所研究的针对时间维度优化的分布式结构化数据存储技术，不仅能处理好的数据，也能很好的作为一个通用的结构化数据存储系统。关键词：中国网页信息博物馆、分布式、结构化数据、存储系统北京大学硕士学位论文 - 3 - on 4 is a on or on .5 is 0As of to of an is in a on to on To a to in 京大学硕士学位论文 - 4 - 目录第一章引言 . - 作背景与动机 . - 题描述 . - 语定义 . - 文结构 . - 第二章相关工作与研究 . - 10 - 关系统 . - 10 - 期相关研究 . - 12 - 第三章数据模型与存储设计 . - 13 - 据模型 . - 13 - 数据特征 . - 13 - 访问特征 . - 15 - 储方案在用上的不足 .7 - 储设计 .7 - 时间维度索引的存储格式 (. - 18 - 理 . - 22 - 有效性 . - 23 - 第四章计与实现 .5 - 系结构 .5 - 数据的管理 .5 - 后台数据的存储 . - 27 - 控节点 . - 28 - 动流程 . - 29 - 要功能 . - 30 - 载均衡 . - 30 - 务节点 . - 31 - 点初始化 . - 32 - . - 33 - 存管理 . - 37 - 裂 . - 38 - 户端 (口与实现 . - 39 - 误处理与恢复 . - 41 - 第五章实验 . - 43 - 机读实验 . - 43 - 扩展性实验 . - 44 - 验 . - 45 - 第六章总结与未来工作 . - 47 - 文贡献 . - 47 - 来工作 . - 47 - 北京大学硕士学位论文 - 5 - 图表目录图表 3网页的版本数 . - 14 - 图表 3网页抓取时间的间隔 . - 15 - 图表 3构 . - 19 - 图表 3引详细结构 .0 - 图表 3的查找算法 . - 22 - 图表 3页不同版本数时找与顺序查找的性能对比 . - 23 - 图表 3同网页版本数目所占的比例 . - 24 - 图表 4统总体结构图 .5 - 图表 4的元数据 . - 29 - 图表 4据的写操作流程 . - 33 - 图表 5机读响应时间 . - 43 - 图表 5户端数目与总的随机读速度 . - 44 - 图表 5统可扩展性 . - 45 - 图表 5取效率 . - 46 - 北京大学硕士学位论文 - 6 - 第一章引言工作背景与动机随着现代社会向信息化的快速推进，数据的海量性在各方面的体现越来越突出，从网络流量数据，到移动通信用户行为记录；从搜索引擎的日志数据，到银行的客户操作记录，等等。这些海量信息与生俱来的数字化与网络化性质，在给人们带来了改善服务机遇的同时也提出了许多新的技术挑战，结构化数据的存储和访问就是其中的问题之一。以往当人们需要存储结构化数据时，数据库通常是首选的解决方案，在数据规模不大时，其可以提供便捷、稳定的服务。然而随着数据量的增长，特别是当代来临后，针对动辄的庞大数据，传统的数据库在处理海量的数据时显的力不从心。针对这种情况，以代表的搜索引擎公司做出了巨大努力，开发了一系列的数据处理基础设施来存储和处理这些海量数据，这也引发了现在工业界所谓的云计算 (热潮。代表性的系统包括 1、、等。所谓云计算，狭义的讲可以认为是一种数据处理的基础设置，其有以下几个特征 : 第一，超大规模。 “ 云 ” 应该具有相当的规模，规模不仅仅指服务器的数量规模，也是指处理的数据规模。布在世界各地的机房中拥有上百万台服务器，公司的 “云 ”中也至少拥有几十万台服务器。这些 “ 云 ”中存储和处理着 P 量级的数据。第二，虚拟化 (所谓虚拟化是指用户可以在任意位置、使用各种终端获取所需的服务。而提供服务的应用程序则在 “ 云 ” 中某处运行，用户无需了解、也不用关心应用运行的细节。第三，高可靠性 ( “ 云 ” 的内部使用数据的多副本容错、计算节点同构可互换等措施来保障服务的高可靠性，使用云计算比使用本地计算更加可靠。第四，可扩展性 (。 “云 ”的规模可以动态配置和伸缩，以满足应用和用户规模增长的需要。并且随着 “云” 规模的增长，计算和存储能力也随之线性增加。 “ 中国息博物馆 ” (亦称 4，是北京大学网络实验室在北京大学硕士学位论文 - 7 - 973 项目支持下从 2002 年 1 月 18 日正式投入运行的针对中国互联网信息的搜集、存储与历史浏览服务的海量信息系统，它平均每天搜集约 150 万网页，几年来已经积累超过 25 亿中国互联网上出现过的网页，数据量已经超过 30前全部存放在北京大学网络实验室维护的一个海量数据仓储系统中，并通过。然而随着据的急剧增长，存储和利用这些数据越来越困难，具体表现在 : 1. 数据的存储变得越来越困难，随着硬盘的增多，不可避免地会有磁盘出错，处理这些错误需要耗费大量时间和精力。 2. 数据的利用也越来越困难，由于数据散落在很多台服务器上，对数据的访问需要涉及到大量的编程工作，使得分析人员的精力不能集中在分析数据的逻辑上。从宏观上来看，海量数据源于目前还在不断膨胀的模，存储并利用海量的数据内容也是当前的热点研究问题。是其中代表性的系统，它是一个大规模的结构化数据存储系统，能够实现空间维度和小范围时间维度上的高性能数据访问，比较接近我们的实际需求，将成为本系统在技术上的主要借鉴对象。本文的工作是实现一种通用的并且针对统需求做优化调整的存储系统。问题描述首先，作为一个结构化数据的存储系统，本系统需要解决以下三个方面的问题。如何表达数据。数据的表达方式直接影响到系统的目标和用户对系统的理解，不同的系统表达方式有很大不同，如关系型数据库中通常用表格(而 B5则采用。在本系统中，数据具有时间轴上的特性 (见第三章具体分析 )，因此如何把时间纬度的信息加入其中是研究的问题之一。北京大学硕士学位论文 - 8 - 如何有效的组织和存储这些数据。好的组织和存储数据方式可以有效的利用存储空间。并且本系统中，数据有增量的特点，不可避免地会导致数据的移动和重组，在考虑组织和存储时，需要尽量保证这一过程的高效。另外，作为一个分布式的存储系统，如何把数据划分开分配到各个服务节点上去也是数据组织面临的问题之一，好的划分可以有效的平衡各个服务节点的负载，保证服务的质量。如何高效的访问这些数据。访问数据的效率高低直接影响到数据的利用，它是整个存储系统的最终目的。在实际应用中，有些系统宁可浪费一些存储空间来保证高效的访问。在系统中，不同的访问类型具有不同的特点，并且它们对数据组织和资源分配的需求可能会有矛盾，当不能保证所有的访问都有效时，我们需要具体问题具体分析，找出主要和次要的访问方式，在保证主要访问类型高效的同时尽量保证次要访问类型的高效。其次，分布式系统的设计和实现本身有很多难点，比如，如何保证系统的一致性；如何保持系统的可用性；如何提高系统的可扩展性；如何平衡各台机器的负载；如何调度各种资源；如何处理系统错误等等。再者，由于本文工作的一个重要目标是为了支持中国网页信息博物馆的建设( 而数据和访问有其自身的特点，因此如何针对这些特点做出相应的优化策略，使得使用和访问更加有方便和高效也是本文的工作重点之一。语定义的是列优先存储的数据库，与之相对的指行优先存储的数据库。 624, 是一个类分布式文件系统，一个类似的分布式锁系统，提供一个全局的锁以及存储少量元数据的服务。本系统中有一台负责全局调度的节点，称为集群中负责存储数据的节点称为北京大学硕士学位论文 - 9 - 的一种存储格式，组成数据块。样指其中的数据块。本文结构本文第一章介绍工作背景和动机，同时也描述了当前面临的问题。第二章介绍了一些相关的系统以及最近的研究，主要是一些数据库系统和类第三章介绍数据和访问特征以及目前系统的不足，并且给出了本系统的存储设计方案及评测。第四章介绍整个系统的设计与实现，以及在实现中遇到的具体问题及解决方案。第五章是对系统的一些评测和实验，包括随机读、和系统吞吐率等；第六章是总结与未来工作。北京大学硕士学位论文 - 10 - 第二章相关工作与研究相关系统一个可扩展的分布式文件系统，用于大型的、分布式的、对大量数据进行访问的应用。与传统的分布式文件系统，不同，硬件错误不再被当作异常，而是将其作为常见的情况加以处理。按照传统的标准，文件都非常大。大部分文件数据是通过追加 (数据完成的，而不是改写 (存在的数据。数据的读取主要是连续流方式的读操作和对少量数据的随机方式的读操作。相关数据库系统传统的数据库管理系统一直是存储结构化数据的主流产品，此类研究较多，产品较成熟，如等，这里不作叙述。然而传统的数据库系统都是面向行存储的，即系统会把同一行的数据存储在一起，这对于稀疏的数据表格来说是非常浪费空间和时间的。 0是一个针对读优化的数据库管理系统。与传统的面向行优先存储 (关系型数据库不同的是，储时是按照列优先存储 (即把同一列的数据优先存储在一起，并且在此基础上对读操作进行了优化 11。类统是发的一个分布式结构化数据存储系统，此后的一系列类系统都以其为原型。不同于传统的关系型数据库，它是建立在基础设施之上的存储系统，实现了一种新型的数据模型，具有重要的参考价值。在，每个一个多维的稀疏表。为了管理巨大的系北京大学硕士学位论文 - 11 - 统把表格进行水平分割，分割后的表单元称为个概有 100B，每个机器存储 100 个左右的存储数据的格式称之为按照列优先的方式进行存储。件不可修改，一旦创建后，要想写入新的数据，只能重新合并生成一个更大的件。系统底层的数据存储在由于一种分布式的文件系统，本身就可以提供一定的负载均衡能力。在数据模型上，它在关系数据模型的基础上作了改进。样使用一个表格来表达数据，但是这个表格是一个稀疏的，长期存储的，多维度的，排序的映射表。表的索引是行关键字 (列 (键字 (时间戳(每个值是一个自解释的字符数组，用户在表格中存储数据，每一行都有且仅有一个可排序的主键和任意多的列。由于是稀疏存储的，所以同一张表里面的每一行数据都可以有截然不同的列。列名字的格式是 :，都是由字符串组成，每一张表有一个合，这个集合是固定不变的，相当于表的结构，只能通过改变表结构来改变。但是相对于每一行来说都是可以改变的。在，不仅行（数量可以任意增减，同时列（数量在一定约束条件下也可以扩展，而且在每个单元 (还引入一个时间标签，可以存储多个不同时间版本的网页数据。在事务支持上，提供跨行的事务支持。各个产品中应用广泛，取得了巨大成功，在其之后，出现了很多类似的系统。在开源社区， 2是开源的云计算平台 3下的子项目，它是基于一个开源实现，实现语言是 4也是一个类似的项目 ,C+实现。这些系统总的来说架构上与类似，虽然在实现细节上各有特点，但都可以归结为类统。除了，各大公司也纷纷开始研究了适合自身需求的存储系统，如 5， 6，它们在实现上都各有特点。据服务，特别是针对写进行优化，保证数据的写入一定成功；而了保证操作的低延迟，在一定程度上牺牲了数据的一致性。这些系统共同之处在于从自身应用的需求出发，进而对某方面的性能进行优化。北京大学硕士学位论文 - 12 - 近期相关研究近期，对结构化数据存储的研究各有侧重。有的研究侧重于研究基础设施的底层架构，如文献 17 研究的是如何给此类分布式基础设施软件再提供一种基础服务，它主要的贡献在于提出了一种叫做 ”技术来保证系统的可靠性和稳定性。另外一些研究侧重在数据的物理存储方面，如文献 18阐述了面向列的存储和面向行的存储究竟有多大不同。还有一些研究是针对系统本身的优化，如文献 19主要研究的是针对类种把表水平划分开的系统，在批量插入 (情况下，如何采样输入数据来预测表的分裂，并且根据现有服务器的负载提前预测每个待插入数据最终所在的机器位置，以降低表的分裂带来的网络和磁盘的负载。这个问题在本文的后续工作同样需要加以思考。北京大学硕士学位论文 - 13 - 第三章数据模型与存储设计数据模型和存储的设计是本文研究的首要问题。与统相类似，本系统首先需要面对的是巨大、稀疏、可排序的表格数据，并且经给出了很好的解决模型。在此基础上，本系统更多地考虑支持数据特点。因此，我们的设计宗旨是在不妨碍通用性的情况下，更多地针对访问特点加以优化。据模型数据特征数据不同于通用的存储系统所针对的数据，它有其自身的独特性。 1. 页历史数据规模庞大，具有空间和时间两个方面的维度，并且在这两个维度上无界增长。在空间维度上，由于增长，会不断有新的入；在时间维度上，有些应的网页内容会经常发生变化，出现较多版本。所谓新的版本是指页面内容已经改变，如果被回的页面内容没有变化，统不会存储此页面。截止 2008 年为止，中国的网页数目已接近百亿 , 而这个数目还在不断增长。 2. 页数据在两个维度上均表现出高度的不均衡性。在空间维度上，由于互联网结构本身的特点，大站点和小站点的网页数目相差很大。在时间维度上，少量页面会有非常多的版本，大多数页面的版本数很少。这也是由网站的特点和身的机制所决定的 ,对于某个特定站点来说，其首页可能每天都在发生变化，而内部子页面的内容则很少改动。下图描述的是止 2008 年 12 月为止，其内部网页版本数的分布状况。北京大学硕士学位论文 - 14 - 图表 3网页的版本数可以看出网页版本数之间是一个近似系。大部分的网页的版本数都非常少；少量的网页有很多的版本数。这也可以反映出大多数的网页从产生到消亡的过程中，它的内容都没有变过。而有少量的应的网页改动频率非常频繁。这也与人们对网页生命周期的研究相符。这个特点对本系统存储的设计是一个重要的启发，即我们必须要满足好大部分有少量版本的网页的存取需求，在此基础上处理那些极端多版本的网页。 3. 持续不断的增量存储过程。由于持续增长和页数据将会分批、持续地加入到系统中来。加入的网页中一部分是新产生的页面，它们没有历史版本；另一部分页面的经存在，抓回来的是新的版本。无论哪种情况，要处理增量的网页无外乎两种方式，第一种方式是和原先的网页做合并，生成一批新的数据，这种办法的优点是新生成耗费的数据可以按照系统的要求组织和存储，缺点是数据的移动和重组需要大量的资源；第二种方式是单独存储，同时维护多批数据，优点是只需要存储当前的数据，但是由于数据的组织较为杂乱，对数据的访问将会较为困难 (见本文下一节对统访问特征的分析 )。下图描绘的是网页抓取的间隔。北京大学硕士学位论文 - 15 - 图表 3网页抓取时间的间隔在图中，横轴是该应网页的内容发生变化的时间间隔，单位为周，纵轴是数目。可以看出，大部分网页内容的变化时间间隔都是 1 周或者几周之内，小部分的变化间隔是几十周、上百周。也就是说，对于大部分内容发生变化的言，它的变化都是在短时间内完成的。这个特点对我们的缓存设计具有重要的作用，它意味着增加了一个版本的网页在很短的时间内可能会再次增加版本。访问特征由于数据有极大的研究价值，如何更好的利用上这些庞大的数据是一个极具挑战的课题，也是整个系统设计的目点所在。根据目前对况来分析，对其数据的访问可以分为以下几种类型 : 1. 访问某时某如访问。当然这个时间点的网页在系统中可能没有存储，很自然的我们会用这个时间点以前最近的时间版本加以代替。比如 2007 年 9 月 1 号以前，系统存储的最近网页版本是在 2007 年 8 月 15 号，我们会返回这个页面数据。这是基于这样一个假设：北京大学硕士学位论文 - 16 - 统会记录网页每次内容的变化，即在两个版本时间段内，页面的内容没有变化。 2. 访问某如访问。这种访问需要读取该网页的所有版本数据并返回。 3. 访问某时某如要求访问符合 *名的 2008 年 7 月的所有页面。范围必须是一个连续的间，它返回的内容是按照字符序从小到大的顺序排列。假设我们存在一个系统可以保证以上每一种访问类型的高效，在目前磁盘作为主要存储介质的情况下，需要系统满足以下几个特性。首先，第一种类型的访问要求系统可以随机的定位某时对应的页面内容，所以需要系统有一个在空间和时间上的二维索引，有了索引才能快速的实现磁盘定位，减少寻道时间。其次，要想保证第二种类型的高效访问，要求系统需要把某一个时间上的所有数据连续存储在一起，否则即使有网页数据在空间和时间上的二维索引，但数据分散存储在磁盘的不同地方，要想把它们全部读取出来，也会需要磁盘的多次寻址访问，寻址的次数则是与存储的片段数目相关。又由于若不重组数据，数据的片段会越来越多，最终导致这种访问的效率极其低下。最后，第三种类型的访问最为复杂。理想情况下，要想保证空间和时间上的访问最优，需要系统把某时间点 (T)上的网页数据按照空间上顺序存储组织，这样读取时可以做到一次寻址、顺序读取，将寻道时间减到最小，并充分利用文件系统的缓存特性。然而，问题在于由于请求的时间点 T 是不可预知的，所以系统很难预先对数据做优化而将 T 时间点上的数据都集中存储起来。可以看出，第 2 种访问类型和第 3 种访问类型对数据组织的要求是有冲突的，前者要求系统将数据的不同版本的数据存储在一起，后再要求系统将同一时间点北京大学硕士学位论文 - 17 - 上的数据存储在一起。储方案在用上的不足在现有的存储系统中，我们的需求比较相近的系统，特别是其针对成片数据访问上的设计考虑。在数据已经有了时间戳的概念，但是在实现时，并没有作为重点来优化。在存储时，数据是按照三元组的顺序组织在一起，这样不同的数据版本会被组织在一起。然而它允许存储的最大版本数目是有限的，不能满足并且机访问的实现上是低效的，特别是当数据的版本很多时针对某一个特定版本的访问需要读取所有的版本的数据。而在种随机读取的访问是一种很常见的操作，低效的访问是不能接受的。因此我们需要一种改进的存储技术来满足储设计在，主要的数据模型是参照了的设计，如行、列的定义。并且由于面对的数据集的特殊性，需要充分考虑数据特点，在时间戳上做了一些改变。这些改变的目的主要是为了满足时间轴上无限增长的特点。以下是一些基本的数据定义。数据行在系统中，用户表的每一行有一个唯一的键值，称为值被强制解释为字符串型，间也是按照字符序进行比较的。大小限制是 64K。作为一个分布式的有序表，在数据的划分上，本系统采用的是水平划分的方式。表划分后的单元，称之为范围 ( 一个前闭后开的空间表示。即每个一个数据行的有序集合，这些数据行的属于间。在实际存储时，各个网页的了使相同域名下的网北京大学硕士学位论文 - 18 - 页连续存放。系统中对了一个特殊处理，把的域名按照单词翻转作为实际的则存储时相应的这点在文献 1中也有提及。数据列在，用于表中的列可以无限增加，系统并不把表的结构 (为元数据来维护，用户要想操作数据必须指定数据相应的列。在实现时，由于采用存储方式，添加删除列的数据非常地容易。插入数据时，若系统发现一个原表中找不到时，则会自动建立相应的列。不同于是，本系统中目前没有所谓的概念，因为系统中暂时没有这方面的需求，取而代之的是可无限增长的列。数据单元 ( 时间戳 (在本系统中，我们把每一个对应的值称为数据单元 ( 每一个数据单元中可拥有一系列的值 ( 每个值中都有一个时间戳 (大小为 64标签，它用来标示不同版本。与同的是，本系统对时间戳的定义更加严格。同一个，任意两个时间戳是不能相等的。当某一个有两个或者更多地统将以新加入的数据覆盖旧的数据。这保证了映射到时间轴上的数据不会出现重复。时间维度索引的存储格式 (鉴于描述的数据有大量版本时效率低下，不能满足统的需求，本系统对其进行了改进，设计了带时间索引的称之为在，数据按照的三元组顺序存储，其中是按照字符的从小到大顺序排列，而按照从大到小的顺序排列，即从新到旧的顺序，这是为了方便的读取最新数据。此外，一的，不会出现相同的三元组。即北京大学硕士学位论文 - 19 - 对某一个来说，其在时间轴上可以有很多版本的数据，然而在某个时间点上只能有一个数据。和一样，在数据是按照单位存储在一起的。为了充分利用文件系统的缓存，数据的读取以单位。当读取一个，首先会查找该于的将整块内容读入内存。由于磁盘读取数据的主要时间花费在寻道上，因此读取一个读取一个小块数据在时间上不会太大的区别。并且由于缓存在内存中，若读取相邻的下一个值时在不用再进行磁盘操作，这也是类统适用于连续大

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

【毕业学位论文】（Word原稿）Bighive：一个针对时间维度优化的分布式结构化数据存储系统-计算机科学与技术网络与分布式系统

文档简介

温馨提示

最新文档

评论

【毕业学位论文】（Word原稿）Bighive：一个针对时间维度优化的分布式结构化数据存储系统-计算机科学与技术网络与分布式系统

文档简介

温馨提示

最新文档

评论

相关文档