版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
序号:编码:第十届“挑战杯”广东大学生课外学术科技作品竞赛作品申报书作品名称:DNA压缩及模式匹配研究平台学校全称:华南农业大学申报者姓名(集体名称):刘少鹏类别:□自然科学类学术论文 □哲学社会科学类社会调查报告和学术论文□科技发明制作A类科技发明制作B类说明1.申报者应在认真阅读此说明各项内容后按要求详细填写。2.申报者在填写申报作品情况时只需根据个人项目或集体项目填写A1或A2表,根据作品类别(自然科学类学术论文、哲学社会科学类社会调查报告和学术论文、科技发明制作)分别填写B1、B2或B3表。所有申报者可根据情况填写C表。3.表内项目填写时一律用钢笔或打印,字迹要端正、清楚,此申报书可复制。4.序号、编码由第十届“挑战杯”广东大学生课外学术科技作品竞赛组委会填写。5.学术论文、社会调查报告及所附的有关材料必须是中文(若是外文,请附中文本),请以4号楷体打印在A4纸上(文章版面尺寸14.5×22cm),附于申报书后,论文不超8000字,调查报告不超15000字。6.作品申报书须按要求由各校竞赛组织协调机构统一寄送。7.其他参赛事宜请向本校竞赛组织协调机构咨询。A1.申报者情况(个人项目)说明:1.必须由申报者本人按要求填写,申报者情况栏内必须填写个人作品的第一作者(承担申报作品60%以上的工作者);2.本表中的学籍管理部门签章视为对申报者情况的确认。姓名刘少鹏性别男出生年月1984年9月申报者情况学校全称华南农业大学专业计算机应用现学历硕士生年级二年级学制3年入学时间2007年9月作品全称DNA压缩及模式匹配研究平台毕业论文题目基于多核技术的DNA序列模式匹配研究通讯地址华南农业大学研究生宿舍6栋904邮政编码510642单位电话常住地通讯地址广东省潮州市潮安县磷溪镇溪口四村邮政编码521000住宅电话合作者情况姓名性别年龄学历所在单位资格认定学校学籍管理部门意见是否为2009是□否若是,其学号为:2007242019(部门盖章)年月日院系负责人或导师意见本作品是否为课外学术科技或社会实践活动成果是□否负责人签名:年月日B3.申报作品情况(科技发明制作)说明:1.必须由申报者本人填写;2.3.本表必须附有研究报告,并提供图表、曲线、试验数据、原理结构图、外观图(照片),也可附鉴定证书和应用证书;4.作品分类请按照作品发明点或创新点所在类别填报。作品全称DNA压缩及模式匹配研究平台作品分类(B)A.机械与控制(包括机械、仪器仪表、自动化控制、工程、交通、建筑等)B.信息技术(包括计算机、电信、通讯、电子等)C.数理(包括数学、物理、地球与空间科学等)D.生命科学(包括生物、农学、药学、医学、健康、卫生、食品等)E.能源化工(包括能源、材料、石油、化学、化工、生态、环保等)作品设计、发明的目的和基本思路,创新点,技术关键和主要技术指标一、目的生物信息学(Bioinformatics)是20世纪80年代末随着人类基因组计划的启动而兴起的一门新的交叉学科,其实质就是利用计算机科学和网络技术来解决生物学问题。二十世纪末生物信息学迅速发展,在信息的数量和质量上都极大地丰富了生物科学的数据资源,包括NCBI,EMBL,GDB等DNA数据库的数据量,每年以两到三倍的数量增加。存储DNA数据需要耗费巨大的空间。因此,如何对DNA数据进行压缩,以减少存储空间将是生物学家和计算机专家面临的挑战。通常DNA序列长度可达到上千万个碱基对,并且具有特殊性,仅由A、C、G、T四个字母组成,这导致传统的数据压缩算法在DNA序列压缩效果不理想。于是,必须研究专门针对DNA序列数据的压缩算法:DNA压缩算法。在生物学家对DNA序列数据的使用中,序列比对是生物信息学中最基本、最重要的操作之一。从实现的理论和技术上讲,DNA序列比对的实质是一种特殊的模式匹配,而直接在压缩后的DNA数据上进行序列比对其实质则是一种特殊的压缩模式匹配,即DNA压缩模式匹配。为了更好地研究DNA压缩算法和DNA压缩模式匹配算法,需要建立一个相关的研究平台,即DNA压缩及模式匹配研究平台。该平台主要用于管理和增加DNA压缩算法和DNA压缩模式匹配算法,存储DNA序列数据、DNA压缩数据,能实现各算法效果的比较试验,验证算法有效性,从而为生物信息学研究人员提供方便。二、基本思路采用Java面向对象编程技术,建立一个不依赖具体操作系统的DNA压缩和DNA压缩模式匹配研究的专用平台;并利用该平台,结合DNA序列数据的特点,研究DNA序列数据压缩现有算法和提出新的算法,以有效减少DNA数据所占用的存储空间;研究出专门针对DNA压缩数据的压缩模式匹配算法,以解决在不对DNA序列压缩数据解压缩或最小解压缩的情况下实现序列比对功能。该平台主要由DNA序列获取、DNA序列压缩、DNA压缩模式匹配三大模块组成。在实现中遵循模块化的系统开发原则,使得平台构建符合高内聚、低耦合特点。三、创新点1、可扩展利用面向对象的Java技术而建立的专业的生物信息学研究平台,可持续地开展DNA压缩算法和DNA压缩模式匹配算法的研究。具体地说,平台的可扩展性体现在以下两方面:一是有意义明确的包,尤其是包matching和compress,分别管理匹配和压缩算法,平台使用人员能够自己开发新算法,并加入到其中。二是GUI界面都是用Swing组件写成的,每个面板的功能都是相当明确,其中负责压缩信息处理的CompressPanel和负责模式匹配的MatchingPanel就是很好的体现,它们分别调用包matching和compress里面管理的算法,若平台使用人员需要研究自己开发的新算法,在相应的面板调用即可。举例说明,如果平台需要增加一个新的压缩算法,那么我们要把这个压缩算法设计为一个类,接着把它放到包compress中,再在树状选择压缩算法面板CompressPanel中,为用户增加一个新的选项,即可完成扩展。如果平台需要增加一个新的匹配算法,那么我们要把这个匹配算法设计为一个类,把它放到包matching中,再为用户在树状选择匹配算法面板MatchingPanel增加一个新的选项,即可完成扩展。2、减少DNA序列存储空间参考文本压缩算法思想,根据DNA序列数据特点,研究专门用于压缩DNA序列数据的DNA压缩算法。DNA压缩算法可以高效地压缩DNA序列数据,极大地减少DNA序列数据所占用的存储空间。3、DNA序列比对研究利用压缩模式匹配的思想,根据DNA序列数据的特点,专门研究在对DNA序列压缩数据不解压缩或最小解压缩的情况下,直接在DNA压缩数据中实现DNA的模式匹配,能有效缩短匹配搜索时间,为DNA序列比对研究提供高效率的帮助。目前我们采用多线程技术,设计了基于BM匹配的MTd-BM及MTd-Hosrpool压缩模式匹配等算法,并已将它们集成到平台。4、直接使用压缩DNA数据研究不是把DNA序列数据压缩减小存储空间作为唯一目标,而是把直接有效地利用DNA序列压缩数据作为更重要的目标。四、技术关键1、面向对象的Java技术使得该平台不依赖操作系统和具体机型,因此可运行在小型机、高级服务器、PC台式机、笔记本电脑和Unix、Solaris、Windows和Linux等环境。2、多线程技术在Java中,程序通过流控制来执行程序流,程序中单个顺序的流控制称为线程,多线程则指的是在单个程序中可以同时运行多个不同的线程,执行不同的任务。多线程意味着一个程序的多行语句可以看上去几乎在同一时间内同时运行。3、Swing技术Swing组件被称为轻量级组件,是由纯Javacode开发的,它不需要那些关于各种平台的复杂的GUI功能,解决了Java因为窗口类而无法跨平台的问题,并且不会占有太多的系统资源。Swing组件对比AWT组件具有更大强度的可移植性和灵活性。4、Log4j写日志技术Log4j是Apache的一个开放源代码项目,通过使用Log4j,可以对日志信息的级别、输送目的地和输出格式进行控制。具备详细的日志记录功能,才能更好地保证平台的正常运行。五、主要技术指标1、软件平台用户界面友好、可扩展性、可维护性以及健壮性。2、DNA序列数据压缩算法压缩比,该值越小,算法的压缩效果越明显。其计算方法为:DNA序列数据压缩前后的字符总数的百分比值。3、DNA序列压缩模式匹配算法算法运行效率(越快越好)、搜索比较字符操作次数(越少越好)。作品的科学性先进性(必须说明与现有技术相比、该作品是否具有突出的实质性技术特点和显著进步。请提供技术性分析说明和参考文献资料)作品的科学先进性体现在下面四点:1、研究DNA压缩算法和DNA压缩模式匹配算法具有重要意义,该平台为生物信息学相关研究人员的工作提供便捷。开发新算法,再通过平台集成,验证,比较分析一系列处理,研究人员将从中获益。该作品的实质性技术特点和显著进步体现在自己开发的DNA压缩模式匹配算法,已集成在平台上。作者通过平台的使用,能够对开发的新算法与传统算法进行比较分析,并取得一定成果,已分别在中文核心期刊和国际会议发表学术论文两篇。(1)刘少鹏,林丕源,张丽霞,刘吉平.基于多线程技术的d-BM改进算法.计算机应用研究,2008,25(11):3299-3301(中文核心期刊)(2)LinPiyuan;LiuShaopeng;ZhangLixia.CompressedPatternMatchinginDNASequencesusingMultithreadedTechnology.The3rdInternationalConferenceonBioinformaticsandBiomedicalEngineering(iCBBE2009),June11-13th,2009,Beijing,2、采用java面向对象编程技术,具有良好的平台无关性及功能可扩展性。3、目前国内外针对DNA压缩算法和DNA压缩模式匹配算法的平台不多。4、参考文献如下,主要有DNA压缩算法和DNA压缩模式匹配算法等国内国外论文,请查阅。[1]DonAdjeroh,YongZhang,AmarMukherjee,MattPowell,TimBell,“DNASequenceCompressionUsingtheBurrows-WheelerTransform,”csb,pp.303,IEEEComputerSocietyBioinformaticsConference(CSB'02),2002.[2]ChenX.,KwongS.andLiM,“AcompressionalgorithmforDNAsequencesanditsapplicationsingenomecomparison”,InProceedings,10thWorkshoponGenomeInformatics(GIW’99),pp.52-61,1999.[3]ZivJ,LempelA.AUniversalAlgorithmforSequentialDataCompression[J].IEEETrans.InformationTheory,1977,IT-23(3):337-343.[4]BurrowsM.andWheelerD.J,“Ablock-sortinglosslessdatacompressionalgorithm”,TechnicalReport,DigitalEquipmentCorporation,PaloAlto,[5]TaoTao,AmarMukherjee,“PatternMatchinginLZWCompressedFiles,”IEEETransactionsonComputers,vol.54,no.8,pp.929-938,Aug.,2005.[6]T.Bell,M.Powell,A.Mukherjee,andD.Adjeroh,“SearchingBWTCompressedTextwiththeBoyer-MooreAlgorithmandBinarySearch”,Proc.DataCompressionConf.,pp.112-121,Apr.2002.[7]CHENLei,LUShiyong,RAMJ.CompressedPatternMatchinginDNASequences:IEEEComputationalSystemsBioinformaticsConference,2004[C].Washington,DC[8]BOYERRS,MOOREJS.AFastStringSearchingAlgorithm[J].CommunicationsoftheACM,1977,20(10):762–772.[9]Knuth,D.E.,MorrisJr,J.H.,Pratt,V.R.:Fastpatternmatchinginstrings.SIAMJournalonComputing6,323–350(1977)[10] 张丽霞,张义青,林丕源,刘吉平.基于字符和0/1码的DNA压缩模式匹配算法.计算机应用研究,2007,24(9):22-24[11] (英)T.K.Attwood,D.J.Parry-Smith著,罗静初等译.生物信息学概论[M].北京:北京大学出版社,2002.4[12] GonzaloNavarro,MathieuRaffinot柔性字符串匹配[M].中科院计算所网络信息安全研究组译.北京:电子工业出版社,2007.3[13] 生物信息学-智能化算法及其应用[M].王翼飞史定华主编.北京:化学工业出版社,2006.5作品在何时、何地、何种机构举行的评审、鉴定、评比、展示等活动中获奖及鉴定结果华南农业大学2009年“挑战杯”校内大学生课外学术科技作品竞赛二等奖作品所处阶段()A实验室阶段B中试阶段C生产阶段D平台可初步应用,辅助DNA压缩算法及压缩模式匹配算法研究(自填)技术转让方式作品可展示的形式□实物、产品□模型□图纸磁盘现场演示□图片□录像□样品使用说明及该作品的技术特点和优势,提供该作品的适应范围及推广前景的技术性说明及市场分析和经济效益预测一、使用说明平台已制作成exe安装文件,用户运行该exe文件即可进行安装。成功安装后,即可点击桌面快捷方式启动平台,接着按照下面的步骤依次进行操作:读入DNA、读入Pattern、压缩DNA、压缩Pattern、模式匹配、报告算法分析结果。二、技术特点和优势界面友好,流程固定,具有易操作性和实用性;支持使用者进行二次开发;详细的日志记录保证可维护性;目前国内外同类型的平台不多,因此具有一定优势。三、适用范围及推广前景DNA压缩算法及其DNA压缩模式匹配算法的研究,有助于将DNA序列数据从较为高端的工作平台(专用的存储容量较大的服务器)迁移到更简易的工作平台(普通的存储容量较小的计算机,如笔记本电脑或PDA)上,使得生物学家可以随时随地开展研究工作;DNA压缩算法及其DNA压缩模式匹配算法的研究,还可以为在普通工作平台上建立专门的二级数据库提供新的方法。由于DNA数据库的数据量在以每年两到三倍的数量增加,因此将来使用压缩的DNA数据会成为必然的趋势,而要直接使用DNA压缩数据,DNA压缩模式匹配又是必须解决的问题。因此DNA压缩和DNA压缩模式匹配就有良好的应用前景。四、市场分析和经济效益预测该平台比较专注,研究机构和高校的生物信息学相关研究人员是平台的潜在用户。通过二次开发,平台使用者还可以进行新算法的设计实现,并集成到平台,再与传统算法比较分析,从而获得更优算法。该平台将对科研工作起到良好的辅助作用,具有一定的经济效益。专利申报情况□提出专利申报申报号申报日期年月日□已获专利权批准批准号批准日期年月日未提出专利申请科研管理部门签章年月日C.当前国内外同类课题研究水平概述说明:1.申报者可根据作品类别和情况填写;2.填写此栏有助于评审。DNA数据量巨大,并且由于其具有特殊性,只包含A、T、C、G四个字符,使得应用传统的压缩算法效果不理想。为了更好地对DNA数据进行压缩,减小DNA数据所占用的空间,计算机专家经过多年不断努力,开发了多个专门针对DNA数据的压缩算法。1993年GrumbachS.和TahiF.从经典的基于字典压缩的LZ系列算法中提出BioCompress算法,从搜索和编码两方面针对DNA序列进行改进。1999年ChenX.,KwongS.和LiM.对BioCompress算法进行改进,提出GenCompress算法,使得序列数据压缩的速度和压缩率提高到实用层次。2001年SatoH.,YoshiokaT.,KonagayaA.和ToyodaT.提出Cfect算法,引入后缀树数据结构,提高搜索重复字符串速度,并提高序列数据的压缩率。2002年,ChenX.,LiM.,MaB.和TrompJ.以生物数据序列比对为基础,提出DNACompress算法,获得了较高数据压缩率。2005年Kordi,G.和Tabus,I.,ShengBao,ShiChen,ZhiqiangJing和RanRen,JieLiu,ShengBao,ZhiqiangJing和ShiChen均尝试进一步改进算法,提高DNA数据的压缩率。压缩模式匹配(Compressedpatternmatching)思想于1992年由Amir和Benson首先提出,即给定文本T,根据某种压缩算法进行压缩得到压缩串Z,给定模式串P,仅仅使用P和Z寻找P在T中的所有出现。因为DNA序列数据及其压缩算法的特殊性,DNA压缩模式匹配算法也需要进行专门研究,以具有更好的适应性。DNA压缩模式匹配是生物信息学中一个新的研究领域,主要致力解决下面的问题:对给定的压缩格式的DNA序列文件F和一个DNA模式P,在不解压缩或最小解压缩的情况下找出P在F中所出现的位置。2004年CHENLei,LUShiyong在BM算法的基础上,提出d-BM压缩模式匹配算法;2005年TaoTao,AmarMukherjee提出基于LZW算法的压缩模式匹配算法。通过近年来对IEEE、Elsevier、Springer、ISIWebofScience等重要数据库和《生物化学与生物物理学报》、《自然科学进展(PROGNATSCI)》、BiologicalReviews、Bioscience、BiologicalBulletin等杂志的跟踪检索,不难发现:由于研究的难度和复杂性,国内外有关DNA压缩模式匹配的研究工作开展得不多,只有极少的报道。因此,开展DNA压缩模式匹配算法与DNA压缩算法研究同样是有重大意义的。D.推荐者情况及对作品的说明说明:1.由推荐者本人填写;2.推荐者必须具有高级专业技术职称,并是与申报作品相同或相关领域的专家学者或专业技术人员(教研组集体推荐亦可);3.推荐者填写此部分,即视为同意推荐;4.推荐者所在单位签章仅被视为对推荐者身份的确认。推荐者情况姓名刘才兴性别男年龄45职称教授工作单位华南农业大学信息学院通讯地址广州市天河区五山路483号邮政编码510642单位电话住宅电话推荐者所在单位签章刘才兴老师是教授,硕士生导师(签章)年月日请对申报者申报情况的真实性作出阐述该平台已有软件安装版本,可以运行。请对作品的意义、技术水平、适用范围及推广前景作出您的评价该作品能为生物信息学领域研究人员研究DNA序列数据压缩和压缩模式匹配算法提供便利。目前国内外同类平台开发较少,因此该作品具有现实意义。其适用范围比较专注,主要为科研机构与高校相关研究人员服务。由于具备实用性和科学性,该作品有一定推广潜力。其它说明刘才兴教授简介:1985年毕业于南京大学计算机科学系计算机软件专业。目前主要从事软件工程、计算机网络与信息安全、嵌入式系统与无线
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026江苏徐钢钢铁集团有限公司招聘177人考试模拟试题及答案解析
- 2026福建泉州晋江市招聘编制内卫生类高层次人才81人考试参考题库及答案解析
- 2026年潮州市党校系统事业单位人员招聘考试备考试题及答案详解
- 2026上半年广东深圳市龙岗区第二外国学校(集团)赴北京面向2026年应届毕业生招聘教师20人(编制)考试模拟试题及答案解析
- 2026江西省通信产业服务有限公司南昌分公司专职司机招聘1人考试备考试题及答案解析
- 企业管理-药房岗位职责
- 2026年度虎林市社区卫生服务中心公开招聘医学毕业生7人考试参考题库及答案解析
- 2026年阿克苏市审计系统事业单位人员招聘考试备考试题及答案详解
- 2026江西工业职业技术学院高层次人才引进考试备考题库及答案解析
- 2026 增肌期桂花茶课件
- 小米SU7 新车上市传播分析报告-营销策划方案培训课件
- 4.4.1 叠合板生产及质量控制(装配式混凝土建筑构件生产与管理)
- 妇科常见化疗药物及护理
- 空乘面试常用英语
- 少年司法制度
- GB/T 12230-2023通用阀门不锈钢铸件技术条件
- 华北理工选矿学课件02磁电选矿-5电选机
- 云南省地图含市县地图矢量分层地图行政区划市县概况ppt模板
- JJF 1903-2021冲击响应谱试验机校准规范
- GB/T 3768-2017声学声压法测定噪声源声功率级和声能量级采用反射面上方包络测量面的简易法
- 装配式建筑预制混凝土构件连接方式全解课件
评论
0/150
提交评论