华工srp结题报告_第1页
华工srp结题报告_第2页
华工srp结题报告_第3页
华工srp结题报告_第4页
华工srp结题报告_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1 / 7 华工 srp 结题报告 *大学 “学生研究计划”项目结题报告书 项目编号: 项目名称: 起止时间: 学生姓名: 学院专业: 联系电话: 电子信箱: 指导教师: 华南理工大学广州学院教务处制 年 月 日 SRP 项目结题感想 伴随着时间的推移,我们的 SRP 项目也要结题了,在这一年的实验探究过程中,大家一起劳动、一起找数据、一起分析数据,在 这样的过程中感悟到了很多,也学到了很多。 其实在做 SRP 的过程中,其本身就是一个学习和积累经验的机会,作为一个金融学专业的学生,能亲身的投入到与金融有关的实验中是一个非常难得的机会,这样也为自己的学习打下了良好的基础,在实践中学习,在学习中深化2 / 7 实践,这样的实践和学习相结合,会让自己的专业知识更加扎实,更具有说服力,也为自己以后的工作奠定了基础,为自己理解知识开辟了一条捷径。这样的 SRP 项目的参加是非常必要和有意义的。 在做项目的过程中,虽然会占用自己的一些业余时间,但是我们辛苦的每一 分钟都是充实而踏实的,在和指导老师的交流过程中也学到了很多平时在书本上学不到的知识,每一次分析数据的时候,大家的认真、仔细,总是感染着我,从他们的身上我也看到了很多自己身上的不足,对提升自己也起到了积极的作用。 指导老师对我们的实验也是很关心,给了我们很多的指导,在实践探究过程中我们也会和老师一起讨论实验的数据,分析结果和原因,在这样一个过程中,更是让自己的专业知识得到了丰富和提升。 在实验的最后阶段,我们搜集了最新的相关数据,并加以分析。在看到那些收获的成果时,心里的满足和兴奋溢于言表,在一 点一滴的积累中,收获的不仅仅是果实,还有很多知识和对面对实验的态度。 这期 SRP 已经结束了,回想起来真是有很多的感想,其中的快乐、收获、积累、学习,都让自己觉得付出的实践和努力是值得的。在以后的学习过程中,一定会再次积极的投入到其它的 SRP 项目。 SRP 是一个深入学习的平台,是实践和学习的相辅相成,在这样一个过程中,我们能够更好3 / 7 的学习,更好的提升自己,锻炼自己,为以后的学习工作打下基础,更好的为自己的工作服务,创造更多的价值。 SRP 结题报告 基于分布式存储的实验数据 采集和管理系统 1.绪论 研究背景 在信息技术不断发展下,人们认识到了数据本身的价值,“大数据”在商业应用中取得了巨大的成功。在智能信息处理的研究中,我们主要通过算法对数据进行理解和感知,在研究过程中会采集和产生大量数据,如声音、视频、算法结果等,以往这些数据大部分会被作为无用数据丢弃,只保留部分实验结果。本项目拟使用当前非关系数据库、分布式文件系统等技术,建立智能信息处理中实验产生数据的采集及存储平台,将数据存储,以便后续更强大的算法和计算资源进行分析处理。 学生参与研究主要内容 开发基于分布式存储的实验数据采集和管理系统,用于采集和存储各类试验中产生的数据,方便随时获取和查阅,同时为后续更大规模的算法统计和处理做准备,详细包括: 、智能信息处理相关研究中各个环节数据的高效、方便的采集; 4 / 7 、采集到数据的智能化处理,如标记、分类、压缩等; 、搭建分布式存储系统,用于存储相关数据,并尽量能适应未来大规模并行算法的一些需求特点; 、开发 Web 应用,能进行方便的数据查阅和获取。 预期目标 搭建基于分布式存储的实验数据采集和管理系统的小规模示范系统。 2.分布式文件系统概述 分布式文件系统简介 分布式文件系统是一种允许文件通过网络在多台主机上分享的文件系统,可让多机器上的多用户分享文件和存储空间。 在这样的文件系统中,客户端并非直接访问底层的数据存储区块,而是通过网络,以特定的通信协议和服务器沟通。借由通信协议的设计,可以让客户端和服务器端都能根据访问控制列表或是授权,来限制对于文件系统的访问。 相对地,在一个分享的磁盘文件 系统中,所有节点对数据存储区块都有相同的访问权,在这样的系统中,访问权限就必须由客户端程序来控制。 分布式文件系统可以包含的功能有:透通的数据复制与容错。也就是说,即使系统中有一小部份的节点脱机,5 / 7 整体来说系统仍然可以持续运作而不会有数据损失。 综上所述,分布式文件系统所拥有的透通的数据复制以及可靠的容错性,十分适合用于实验数据采集和管理系统。 分布式文件系统的选择 当前比较流行的分布式文件系统包括: Lustre: lustre 是一个大规模的、安全可靠的,具备高可用性的集群文件系统,它是由 SUN 公司开发和维护。该项目主要的目的就是开发下一代的集群文件系统,可以支持超过 10000 个节点,数以 PB 的数量存储系统。 Hadoop: hadoop 并不仅仅是一个用于存储的分布式文件系统,而是设计用来在由通用计算设备组成的大型集群上执行分布式应用的框架。 NFS:网络文件系统是 FreeBSD 支持的文件系统中的一种,也被称为 NFS。 NFS 允许一个系统在网络上与它人共享目录和文件。通过使用 NFS, 用户和程序可以象访问本地文 件一样访问远端系统上的文件。 在实际搭建中,主要考虑使用 Apache Hadoop, Hadoop 可以配合云计算处理 OpenStack 使用,开源,文档资料比较丰富,现在已经广泛投入生产使用,也能够满足项目后续更大规模的算法统计和处理的要求。 Hadoop 简述及安装 6 / 7 关于 Apache Hadoop Apache Hadoop是一款支持数据密集型分布式应用并以 Apache 许可协议发布的开源软件框架。它支持在商品硬件构建的大型集群上运行的应用程序。 Hadoop是根据 Google公司发表的 MapReduce 和 Google 档案系统的论文自行实作而成,由开源社区维护。 Hadoop 框架透明地为应用提供可靠性和数据移动。现在普遍认为整个 Apache Hadoop“平台”包括 Hadoop 内核、MapReduce、 Hadoop 分布式文件系统以及一些相关项目,有Apache Hive 和 Apache HBase 等等。 Hadoop 基础架构 Hadoop 被定位为一个易于使用的平台,以 HDFS、MapReduce 为基础,能够运行上千台 PCServer 组成的系统集群,并以一种可靠、容错的方式分布式处理请求。 下图显示 Hadoop 部署结构示意图 在 Hadoop 的系统中,会有一台 master,主要负责NameNode 的工作以及 JobTracker 的工作。 JobTracker 的主要职责就是启动、跟踪和调度各个 Slave 的任务执行。还会有多台 slave,每一台 slave 通常具有 DataNode 的功能并负责 TaskTracker 的工作。 TaskTracker 根据应用要求来结合本地数据执行 Map 任务以及 Reduce 任务。 Hadoop 处理流程 7 / 7 Hadoop 主要靠 MapReduce 进行处理处理。 MapReduce是由 Google 在一篇论文中提出并广为流传的。它最早是Google 提出的一个软件架构,用于大规模数据集群分布式运算。任务的分解与结果的汇总是其主要思想。 Map 就是将一个任务分解成多个任务, Reduce 就是将分解后多任务分别处理,并将结果汇总为最终结果。 下图所示 Hadoop 处理流程: 上图就是 MapReduce 大致的处理流程。在 Map 之前,可能还有对输入数据的 Split 过程以保证任 务并行效率;在Map之后可能还有 Shuffle过程来提高 Reduce的效率以及减小数据传输的压力。 Hadoop 的安装 安装环境: ubuntu + 首先通过虚拟机 Virt

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论