12008243836_李崎_DNA序列数值化映射方法的研究_学生提交开题报告_1332729388172_第1页
12008243836_李崎_DNA序列数值化映射方法的研究_学生提交开题报告_1332729388172_第2页
12008243836_李崎_DNA序列数值化映射方法的研究_学生提交开题报告_1332729388172_第3页
12008243836_李崎_DNA序列数值化映射方法的研究_学生提交开题报告_1332729388172_第4页
12008243836_李崎_DNA序列数值化映射方法的研究_学生提交开题报告_1332729388172_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

毕 业 设计( 2012 届) 题 目 DNA数值化映射方法的研究 学 院 物理电气信息学院 专 业 电子信息工程工程 年 级 2008级 学生学号 12008243846 学生姓名 李崎 指导教师 马玉韬 2011年11月28日毕业设计开题报告论文题目DNA序列数值化映射方法的研究选题方向电子信息工程学生姓名李崎专业电子信息工程年级、班级08级电子一班一、选题的来源、目的、意义和基本内容1选题的来源来自物电学院毕业设计选题指南。2题目的目的探讨当前主要的DNA序列映射方法对基因预测准确率的影响,寻找有效的映射方法。3题目的意义生物信息学中一个具有挑战性的研究任务是提高识别或预测DNA序列中的可变剪切位点,即蛋白质编码区(外显子)的边界的准确率。这方面的研究对揭示DNA序列的结构具有重要意义。在使用数字信号处理技术预测编码区时都需要采用一定的数值化映射方法将DNA序列转换成数值信号,在已有的研究中采用了10种方法。但至今为止编码区的预测准确率仍然不能达到像原核生物那样高的准确率,所以新的映射方法仍是研究的一个重要内容,为研究在较大DNA测试集上进行编码区预测时现有映射方法的优劣,以近似相关系数AC作为碱基层的预测准确率测度,使用Chebyshev窗FIR窄通带滤波器作为预测算法的核心,研究当前各种映射方法对预测准确率的影响。4题目的基本内容(1)完成相关数据集的采集和处理。(2)研究以发现的几种DNA映射方法。(3)寻找最有效的映射方法来研究讨论DNA数值化映射方法对基因预测结果的影响二、国内外研究综述有关研究表明,DNA序列数值化映射方法的优劣会直接影响到最终分析结果的生物学意义的解释。DNA序列由碱基adenine (A),thymine (T),cytosine (C)和guanine (G)组成,已有的研究中采用了十多种映射方法,其中Voss法、Z曲线法、正四面体(Tetrahedron)法、复数法和EIIP(Electron-ion interaction potential)法的研究和应用较多,其它还有实数法、FNO(Frequency of Nucleotide Occurrence),SW法,嘌呤嘧啶法(RY法),KM(Hybrid Method)法,基于复域的映射法和PN法,但至今为止编码区的预测准确率仍然不能达到像原核生物那样高的准确率,所以新的映射方法仍是研究的一个重要内容。至今为止研究者依旧在寻找新的映射方法来对真核生物的外显子进行预测,并提高预测的准确率。3、 参考文献 1 Sitanshu S S, Ganapati P. “Identification of protein-coding regions in DNA sequences using a time-frequency filtering approach J.” Genomics, Proteomics & Bioinformatics, 2011, 9: 45-55.2 B D Silverman and R Linsker. “A measure of DNA periodicity J.” Journal of Theoretical Biology, 1986, 118: 295-300.3 胡广书. 数字信号处理:理论算法与实现(第二版)M, 北京:清华大学出版社,2003: 296-312.4 马宝山,朱义胜. 一种用于基因预测的FIR数字滤波器J. 电子学报. 2007,35(9):17101713. 四、指导教师意见 指导教师签名 年 月 日五、学院毕业论文领导小组审核意见 领导小组组长签名 年 月 日一 毕业设计的背景1.1 毕业设计的背景基于创新项目及对项目的了解程度和爱好选择项目的部分作为毕业设计题目。1.2 毕业设计的目的 探讨当前的主要DNA序列映射方法对基因预测准确率的影响,寻找有效的映射方法。1.3毕业设计的意义生物信息学中一个具有挑战性的研究任务是提高识别或预测DNA序列中的可变剪切位点,即蛋白质编码区(外显子)的边界的准确率。这方面的研究对揭示DNA序列的结构具有重要意义。在使用数字信号处理技术预测编码区时都需要采用一定的数值化映射方法将DNA序列转换成数值信号,在已有的研究中采用了10种方法。但至今为止编码区的预测准确率仍然不能达到像原核生物那样高的准确率,所以新的映射方法仍是研究的一个重要内容,为研究在较大DNA测试集上进行编码区预测时现有映射方法的优劣,以近似相关系数AC作为碱基层的预测准确率测度,使用FIR窄通带滤波器作为预测算法的核心,研究当前各种映射方法对预测准确率的影响。1859年达尔文进化论的发表和1865年孟德尔遗传定律的发现,是十九世纪生命科学发展的里程碑,1953年DNA双螺旋结构模型的提出和1972年DNA重组技术的诞生,则开辟了二十世纪分子生物学和现代生物技术的新纪元。有关研究表明,DNA数值化映射方法的优劣会直接影响到最终分析结果的生物学意义的解释。 DNA序列由碱基adenine (A),thymine (T),cytosine (C)和guanine (G)组成,已有的研究中采用了十多种映射方法,其中Voss法、Z曲线法、正四面体(Tetrahedron)法、复数法和EIIP(Electron-ion interaction potential)法的研究和应用较多,其它还有实数法、FNO(Frequency of Nucleotide Occurrence),SW法,嘌呤嘧啶法(RY法),KM(Hybrid Method)法,基于复域的映射法和PN法,但至今为止编码区的预测准确率仍然不能达到像原核生物那样高的准确率,所以新的映射方法仍是研究的一个重要内容。至今为止研究者依旧在寻找新的映射方法来对真核生物的外显子进行预测,并提高预测的准确率。二 毕业设计方案及介绍2.1 毕业设计方案数值化映射窄通带滤波器计算功率谱密度DNA序列滑动滤波和幅度归一化分类结果分析2.2 DNA序列的几种映射方法2.2.1 Voss法Voss法是应用最为广泛且较早提出的一种将DNA序列映射为二进制数字序列的DNA序列数值化表示方法。这种方法将一个长度为 的DNA序列表示为四个长度为 的二进制数字序列 。在这四个数字序列中,以为例,分别用1和0表示碱基在序列中时刻的出现和缺失。(1)式给出了一个长度N=12碱基序列及其Voss法映射得到的四个数值序列。.这种表示方法的主要优点是不会引入相关;可以证明任何维数小于4的表示方法其本身就会引入相关。2.2.2 Z曲线法曲线(三维)法是天津大学的张春霆院士于1994年提出。曲线法是将DNA序列转换成与其等价的三维表达式。这种方法先将DNA序列用Voss法映射为四个二进制数字序列和,然后利用关系式:将之转换为公式这实际上是三个由1和1构成的数值序列。2.2.3 正四面体法Tetrahedron法将DNA序列中的每一个碱基映射为三维向量空间中正四面体的一个顶点(公式(4),各点在三维空间的坐标用三基色r、g和b表示后,可以统一为公式(5)。公式(5)中和为由Voss法映射得到的四个数值序列。这就是说正四面体法将一个DNA序列映射为3个实数序列。,.2.2.4 复数法复数表示法有两种,一种(Complex1)是将DNA序列按照,和实现数值映射,其依据是双螺旋DNA结构中表现出的配对和配对互补原则。这种表示法能够从复数的数学性质方面展示核酸的一些互补特征。另外一种(Complex2)是将DNA序列按照,和实现数值映射,这种映射方法将嘌呤(或)落在实轴上而将嘧啶(或)落在虚轴上。2.2.5 EIIP法EIIP映射方法是将电子离子作用势赋予四种碱基,即令,和,从而得到一个或四个实数序列。2.2.6实数法实数映射法有几种不同的表示。RN1(Real Numbers 1)是令,和10;RN2(Real Numbers 2)是令,和;这两种前者是使得嘌呤(或)大于嘧啶(或),后者是使得嘌呤小于嘧啶。RN3(Real Numbers 3)是令,和,这种方法在一定的意义上满足碱基互补性。这种方法的缺点是不能充分反映原始DNA序列所表示的结构特点。2.2.7 FNO法FNO法将DNA序列中的碱基映射为该碱基在序列集中出现的频率(即碱基出现的次数与DNA序列所有碱基的数目的比值)值,从而得到一个数值序列。2.2.8 PN法 PN法(M. A., 2007) 利用了真核生物序列编码区富含碱基“C”和“G”,而非编码区富含“A”和“T”的统计特征,且在DNA双螺旋结构中“A”和“T”互补,“C”和“G”互补。因此在将DNA序列映射为数值序列时,将“A”和“T”映射为1,将“C”和“G”映射为0,得到一个序列;而将“C”和“G”映射为-1,“A”和“T”映射为0得到序列。2.2.9 SW法 SW法利用DNA双螺旋结构中“A”和“T”互补,“C”和“G”互补。因此在将DNA序列映射为数值序列时,将“A”和“T”映射为-1,将“C”和“G”映射为1.得到两个序列,。2.2.10嘌呤嘧啶法 SW法利用DNA双螺旋结构中嘌呤和嘧啶的化学分子结构不同。因此在将DNA序列映射为数值序列时将“A”和“G”映射为1,“T”和“C”映射为1。得到两个序列,。2.2.11 基于复域的映射法复域映射法利用DNA双螺旋结构中“A”和“T”互补,“C”和“G”互补,且利用数学中关于复域的概念。令A=1,T=i,C=1,T=i。2.3 预测结果与分析在ALLSEQ和HMR195两个较大的DNA序列集上对当前主要的DNA序列数值映射方法进行了编码区预测对比研究。仿真结果表明,Voss法和Z-curve法任然是预测效果最佳的映射方法,PN法的效果好于、复数法和EIIP法。EIIP法和实数法不能在较大的DNA序列测试集上取得较高的预测准确率,因而其应用范围会受到很大限制。实验结果使得今后的研究可以直观简便地用预测结果的AC值来比较验证新映射方法的有效性。三 毕业设计的进度安排(1)查阅并整理相关资料。(2011年十月底至十一月底)(1) 完成开题报告。(2011年十一月底至十二月底)(2) 完成FIR窄通带滤波器的设计。(2011年12月底至2012年1月初)(4)完成滑动傅里叶变换算法的整理和编程实现和实验验证所需的DNA序列数据集的收集和处理。(2012年1月初至2012年2月初)(5)根据不同的序列集选择不同的非编码率应用到DNA序列谱分析中,并对不同的映射方法得出的结果进行分析。(2012年2月初至2012年3月初)(6)完成论文的撰写、修改及答辩的准备工作。(2012年3月初至2012年5月初)四 参考文献1 Sitanshu S S, Ganapati P. “Identification of protein-coding regions in DNA sequences using a time-frequency filtering approach J.” Genomics, Proteomics & Bioinformatics, 2011, 9: 45-55.2 R F Voss. “Evolution of long-range fractal correlations and 1/f noise in DNA base sequences J.” Physics Review Letter, June 1992, 68(25): 3805-3808.3 M Akhtar, J Epps and E Ambikairajah. “Signal processing in sequence analysis: advances in Eukaryotic gene predictionJ.” IEEE Journal of Selected Topics in Singal Processing, June, 2008, 2(3): 310321.4 Zhang R, Zhang C T. “Z curves, an intuitive tool for visualizing and analyzing the DNA sequences J.” Journal of Biomolecular Structure & Dynamics, 1994, 11(4): 767-782.5 B D Silverman and R Linsker. “A measure of DNA periodicity J.” Journal of Theoretical Biology, 1986, 118: 295-300.6 Anastassiou D. “Genomic signal processing J.” IEEE Signal Processing Magazine, 2001, 18(4): 8-20.7 M K Hota, V K Srivastava. DSP technique for gene and exon prediction taking Complex indicator sequenceC. Proc. 2008 IEEE Region 10 Conference(TENCON 2008), Hyderabad, India, Nov, 2008: 16.8 Achuthsankar S Nair and Sivarama Pillai Sreenadhan. “A coding measure scheme employing electron-ion interaction pseudopotential(EIIP)J.” Bioinfomation, 2006, 1(6): 197-202.9 K D Rao and M N S Swamy. “Analysis of Genomics and Proteomics Using DSP Techniques J.” IEEE Transactions on Circuits and Systems-I: Regular Papers, 2008, 55(1): 370-378.10 P D Cristea. “Genetic signal representation and analysis C.” In Proc. SPIE Conference, International Biomedical Optics Symposium (BIOS02), 2002, 4623: 77-84.11 G L Rosen. “Signal processing for biologically-inspired gradient source localization and DNA sequence analysis.” PhD thesis, Georgia Institute of Technology, Aug., 2006.12 N Chakravarthy, A Spanias, L D Iasemidis, and K Tsakalis. “Autoregressive modeling and feature analysis of DNA sequences J.” EURASIP JASP, 2004, 1: 13-28.13 M Akhtar, J Epps, and E Ambikairajah. “On DNA numerical representations for period-3 based exon predictionC.” Proc. IEEE International Workshop on Genomic Signal Processing and Statistics( GENSIPS 2007), Tuusula, Finland, Jun,2007:14.14 Chen Bo,Ji Ping, Visualization of the protein-coding regions with a self adaptive spectral rotation approachJ. Nucleic Acids Research. 2011,(39), doi: 10.1093/nar/gkq891.15 马宝山,朱义胜. 一种用于基因预测的FIR数字滤波器J. 电子学报. 2007,35(9):17101713. 16 Mena-Chalco J. P., Carrer H., Zana Y., etal. Identification of protein coding regions using the modified Gabor-Wavelet transform J. IEEE/ACM Transactions on Computational biology and bioinformatics, April-June, 2008, 5(2): 198-206.17 马玉韬,车进,刘大铭. 基于傅里叶分析的蛋白质编码区预测中功率谱密度计算方法研究J. 宁夏大学学报(自然科学版). 2011,32(2):134-138.18 Ma Yutao,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论