




全文预览已结束
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大数据工程实验室申请书1工程实验室拟突破的技术方向 大数据工程实验室拟突破的技术方向为:R语言与Hadoop分布式计算平台交互技术。R语言是一种自由免费软件编程语言与操作环境,主要用于统计分析、绘图、数据挖掘。R本来是由来自新西兰奥克兰大学的Ross Ihaka和Robert Gentleman开发(也因此称为R),现在由“R开发核心团队”负责开发。R的源代码可自由下载使用,可在多种平台下运行,包括UNIX,Linux,Windows和MacOS。R主要是以命令行操作为主,同时支持GUI的图形用户界面。R内建多种统计学及数字分析功能,R比其他统计学或数学专用的编程语言有更强的物件导向功能。R的另一强项是绘图功能,制图具有印刷的素质,也可加入数学符号。虽然R主要用于统计分析或者开发统计相关的软体,但也有人用作矩阵计算。其分析速度可媲美GNU Octave甚至商业软件MATLAB。CRAN为Comprehensive R Archive Network的简称,它除了收藏了R的执行档下载版、源代码和说明文件,也收录了各种用户撰写的软件包。全球有超过一百个CRAN镜像站,上万个第三方的软件包。R的行业应用非常广泛,例如:统计分析,应用数学,计量经济,金融分析,财经分析,人文科学,数据挖掘,人工智能,生物信息学,生物制药,全球地理科学,数据可视化。Hadoop是一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有着高容错性的特点,并且设计用来部署在低廉的硬件上。而且它提供高传输率来访问应用程序的数据,适合那些有着超大数据集的应用程序。HDFS放宽了可移植操作系统接口的要求,这样可以以流的形式访问文件系统中的数据。自2006年,Hadoop以MapReduce和HDFS独立发展开始,到今年2013年不过7年时间,Hadoop的家族已经孵化出多个Apache的顶级项目。特别是最近1-2年,发展速度越来越快,并且融入了很多新技术(YARN, Hcatalog, Oozie, Cassandra)。Hadoop家族的强大之处,在于对大数据的处理,让原来的不可能(TB,PB数据量计算)成为了可能。R语言的强大之处,在于统计分析,在没有Hadoop之前,我们对于大数据的处理,要取样本,假设检验,做回归,长久以来R语言都是统计学家专属的工具。所以,hadoop重点是全量数据分析,而R语言重点是样本数据分析。 两种技术放在一起,恰好是取长补短。以计算机开发人员的思路,所有事情都用Hadoop去做,没有数据建模和证明,“预测的结果”一定是有问题的;以统计人员的思路,所有的事情都用R去做,以抽样方式,得到的“预测的结果”也一定是有问题的。所以R语言与Hadoop的结合,是产界业的必然的导向,也是产界业和学术界的交集,同时也为交叉学科的人才提供了无限广阔的想象空间。目前,通常有两种方法将R语言与大数据处理平台相结合使用。第一种方法是,在Hadoop上用MapReduce处理PB、TB量级的数据,缩小数据容量到GB量级,然后将其加载到R中进行处理。在R中,GB级别的数据可以利用MPI并行处理框架构建的集群计算。R包Rmpi、snow、snowfall都可以实现多种MPI支持的并行编程模式。第二种方法是,直接使用支持Hadoop的R包,在R中操作存放在HDFS中的数据,并利用R语言完成MapReduce算法,用来替代Java的MapReduce实现。R包Rhadoop使得R语言具有处理高达TB甚至PB级的大数据的能力。在GitHub社区可以找到该项目与开源实现代码。Rhadoop包含有三个包,分别是rhdfs,rmr以及rHBase,分别对应Hadoop系统架构中的HDFS, MapReduce和Hbase三个部分。除了Rhadoop之外,还有从R中进行Hive查询的Rhive包,能够直接从Hive中进行查询。将R和结合起来,其既能够利用分布式计算打破数据量的限制,又能够利用R中的众多优秀的免费扩展包,快速实现所需的数据处理分析。综上所述,R语言与Hadoop的交互使用技术就成了本项目急需突破的技术方向。2工程实验室的主要功能与任务大数据工程实验室的主要功能如下:(1)为统计学学科与大数据有关的课程教学提供支持。统计学专业的就业前景非常广阔。整个世界已经迎来了大数据时代,就业市场对熟悉并且能够分析大数据的应用型人才思贤若渴,所以对大数据挖掘等与大数据相关的课程的理论学习和实践操作显得尤为重要。一个功能齐全、技术先进的大数据工程实验室将对大数据的学习者提供一个良好的实践环境,为学习者将来从事大数据处理做好充足的准备。(2)为统计学学科大数据相关科研课题的研究提供支撑。在保证完成学校教学任务的前提下,大数据工程实验室打算面向学校及社会开放,为大数据相关科研课题研究提供支持。为大数据的相关科研课题的研究提供大量、详实的数据。为大数据的相关科研课题的研究提供数据处理与分析工具。(3)在一定程度上为社会提供相关服务。可以为社会有关单位和个人提供大数据的采集、准备、存储、分析与挖掘以及大数据的展示与可视化等一系列服务。可以进行大数据分析与挖掘的设计、开发、培训,真正实现产、学、研的有机结合。工程实验室的任务如下:(1)培养统计学学科学生对大数据的分析与挖掘能力,尤其培养学生面对复杂大数据时分析与挖掘方法的创新。(2)以实验室为基地建立学术氛围浓厚的大数据分析科研团队。提倡科研团队先根据数据特点构建缜密的大数据分析模型,然后依托于功能齐全的大数据工程实验室对模型进行实践验证,继而最终修正完善模型。(3)把自主研发的大数据分析与挖掘的技术应用到企业中,通过我们对模型的预测和决策确保企业的最终决策能应对日益增加的复杂性,跟上日益加快的步伐。3工程实验室的近期和中期目标大数据工程实验室的近期目标如下:(1)建立先进稳定的Hadoop与R的交互平台;(2)组建具有行业领先水平,结构合理的大数据分析与挖掘创新团队。力争使该团队成员人人熟练掌握Hadoop与R的交互技术,利用R语言对复杂大数据进行建模最终用于预测和理论上的决策;大数据工程实验室的中期目标(1)自主研制开发基于Hadoop与R交互平台的大数据分析与挖掘技术,尤其针对复杂数据,例如基于物联网和云计算的大数据。主要针对不同
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年上半年合肥滨湖投资控股集团有限公司招聘14人考前自测高频考点模拟试题及答案详解(名师系列)
- 国家能源集团2025秋招发布网站//笔试历年参考题库附带答案详解
- 2025年晋江市林业和园林绿化局公开招聘1人考前自测高频考点模拟试题及答案详解参考
- 2025贵州雍福产业发展投资(集团)有限公司第一批招聘5人模拟试卷及完整答案详解一套
- 2025贵州遵义教育发展集团实训服务有限公司招聘总环节人员及笔试历年参考题库附带答案详解
- 2025福建闽侯大禹水利建设投资有限公司公开招聘25名工作人员笔试历年参考题库附带答案详解
- 2025福建福州建工福厝置地有限责任公司第二批招聘1人笔试历年参考题库附带答案详解
- 2025福建省水利投资集团(长汀)水务有限公司招聘3人笔试历年参考题库附带答案详解
- 2025甘肃兰州顺丰速运有限公司招聘40人笔试历年参考题库附带答案详解
- 2025湖北荆州市兴质市政园林有限公司招聘笔试历年参考题库附带答案详解
- DZ∕T 0338.1-2020 固体矿产资源量估算规程 第1部分 通则(正式版)
- 银行理财推广营销方案
- 医院培训课件:《中医护理技术质量与安全管理》
- 历史课程中的跨学科教学与学科整合
- 移情训练法移情训练法
- 《大卫 科波菲尔(节选)》《复活》《老人与海》《百年孤独》 统编版高中语文选择性必修上册
- 展厅施工方案表
- 深圳南山风险投资基金
- 食品安全风险“日管控、周排查、月调度”记录表
- 监护仪使用及报警设置
- 通过模拟实验探究膜的透性 说课课件
评论
0/150
提交评论