分布式框架RHadoop在肿瘤纯度检测中的应用_第1页
分布式框架RHadoop在肿瘤纯度检测中的应用_第2页
分布式框架RHadoop在肿瘤纯度检测中的应用_第3页
分布式框架RHadoop在肿瘤纯度检测中的应用_第4页
分布式框架RHadoop在肿瘤纯度检测中的应用_第5页
已阅读5页,还剩64页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

本科生毕业设计(论文)论文题目 分布式处理框架 RHadoop 在肿瘤纯度检测中的应用作者姓名 杨亚南专 业 信息与计算科学指导教师 李玉双副教授2017 年 6 月燕山大学本科生毕业设计(论文)分布式处理框架 RHadoop 在肿瘤纯度检测中的应用学院 : 理学院专业 : 信息与计算科学姓名 : 杨亚南学号 : 130108010020指导教师 : 李玉双答辩日期 : 2017年 6月燕山大学毕业设计( 论文) 任务书学院:理学院 专业(方向):信息与计算科学系学号130108010020学生姓名杨亚南专 业班 级信息与计算科学13级题目名称 分布式处理框架 RHadoop在肿瘤纯度预测中的应用题目性质1.理工类:工程设计 ( );工程技术实验研究型();理论研究型( );计算机软件型( ) ;综合型( )。2.文管类( );3.外语类( );4.艺术类( )。题目类型 1.毕业设计( ) 2.论文( )题目题目来源 科研课题( ) 生产实际( )自选题目( ) 主要内容1、收集 R语言相关书籍、文献,学习掌握其基本语法与操作。2、学习 Hadoop分布式框架的基本原理,环境搭建及其在肿瘤纯度预测中的应用。3、熟悉 RHadoop包的常用 API接口的原理和调用。4、根据 API接口进行肿瘤纯度预测的应用。5、对其中测试出来的问题进行修改和完善,完成应用。基本要求1、通过编码熟悉 R语言进行肿瘤纯度预测数据操作与运算。2、掌握利用 ODBC进行 MySQL数据库的增删改查操作,能够对数据库事务有较深入的理解。3、掌握分布式处理框架 Hadoop的基本原理与环境搭建。4、了解 RHadoop包的接口处理流程,将问题转换为分布式框架的MapReduce编程范式。5、使用 RHadoop进行小规模肿瘤纯度预测数据的操作与处理,检验学习效果。6、使用 RHadoop进行大规模肿瘤纯度预测数据的操作与处理,达到应用目的。7、对应开发工具和环境的使用:如 Rstudio,Linux 服务器。8、对信息与计算科学及相关学科、行业的国际状况有基本了解,并能表达自己的观点。9、具备能够选择合适的途径实现自身发展的能力,能够选择合适的方式、不断学习、实现自身发展的需要。参考资料1 岳宗胜,李敬改,周磊等. 基于 RHadoop 搭建大数据统计分析平台J. 科技创新与应用,2015(4):21-22.2 深圳国泰安教育技术股份有限公司,陈工孟,须成忠. 大数据分析:R 基础及应用M. 清华大学出版社, 2016.3 Garry Turkington. Hadoop 基础教程M. 人民邮电出版社, 2014.4 萨米尔瓦德卡,马杜西德林埃. 深入理解 HadoopM. 机械工业出版社,2016.5 Xiaoqi Zheng,Nianqian Zhang,Hua-Jun Wu and Hao Wu. Estimating and accounting for tumor purity in the analysis of DNA methylation datafrom cancer studies.Genome Biology.6 Jones PA.DNA methylation and cancer. Cancer Res.1986;46:461-6.7 Kulis M,Esteller M.DNA methylation and cancer.Adv Genet.2010;70:27-56.8 Laird PW.The power and the promise of DNA methylation markers.Nat RevCancer.2003;3:253-66.9 Bibikova M,Barnes B,Tsan C ,Ho V ,Klotzle B,Le JM,et al.High density DNA methylation array with single CpG site resolution.Genomics.2011;98:288-95.10 Lister R,Pelizzola M,Dowen RH,Hawkins RD,Hon G,Tonti-Filippini J,et al.Human DNA methylomes at base resolution show widespread epigenomic differences.Nature.2009;462:315-22.11 Meissner A,Gnirke A, Bell GW,Ramsahoye B,Lander ES,Jaenisch R.Reduced representation bisulfite sequencing for comparative high-resolution DNA methylation analysis.Nucleic Acids Res.2005;33:5868-77.12 Cancer Genome Atals Research Network.Comprehensive genomic characterization.13 Cancer Genome Atlas Research Network,Weinstein JN,Collisson EA,Mills GB,Shaw KR,Ozenberger BA,et al.The Cancer Genome Atlas Pan-Cancer analysis project.Nat Genet.2013;45:1113-20.14 周扬. RHadoop 安装 OL. /hxpjava1/article/details/19238127,2014-02-15. 15 博客. r3.3.1 源码安装 OL. /infodetail-1742059.html,2016-09-05. 周 次 1 3周 4 5周 6 7 周 8 15周 16 17周应完成的内容收集 R语言开发相关书籍、文献,学习掌握其基本操作学习 Hadoop分布式框架的原理与简单应用深入学习RHadoop支持包,并进行实际问题的建模与运算根据肿瘤纯度预测应用的过程和结果,不断修改和完善程序。撰写论文制作 PPT,准备答辩指导教师:李玉双职称:副教授 2017 年 2月 28日 燕山大学本科生毕业设计(论文)摘 要R 是一门广泛应用于统计分析、应用数学、生物信息等领域的编程语言,其集成了大量用于数学计算的函数,具有功能强大的数据统计分析功能。Hadoop 是当前非常流行的大数据分布式处理框架,通过 HDFS 和 MapReduce 实现了对海量数据的并行计算和分布式存储。本文介绍了基于 R 和 Hadoop 搭建大数据分析处

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论