




已阅读5页,还剩62页未读, 继续免费阅读
(计算机科学与技术专业论文)基于新型特征的基因识别方法研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
b y h e h a i f e n g n o v e lf e a t u r e s b s ( c h a n g s h au n i v e r s i t yo fs c i e n c e & t e c h n o l o g y ) 2 0 0 8 at h e s i ss u b m i t t e di np a r t i a ls a t i s f a c t i o no ft h e r e q u i r e m e n t sf o rt h ed e g r e eo f m a s t e ro fe n g i n e e r i n g l n c o m p u t e ra p p l i c a t i o nt e c h n i q u e s i nt h e g r a d u a t es c h o o l o f h u n a nu n i v e r s i t y s u p e r v i s o r p r o f e s s o rl u oj i a w e i m a y ,2 0 1 1 i 湖南大学 学位论文原创性声明 本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所取 得的研究成果。除了文中特别加以标注引用的内容外,本论文不包含任何 其他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡献 的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法 律后果由本人承担。 作者签名: 逝6 蠢 1 日期:加年s 月;j 日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学 校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被 查阅和借阅。本人授权湖南大学可以将本学位论文的全部或部分内容编入 有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编 本学位论文。 本学位论文属于 1 、保密口,在年解密后适用本授权书。 2 、不保密讲 ( 请在以上相应方框内打“ ) 作者签名: 导师签名: 日期:加,年f 月引日 日期: 加f 年f 月歹p 日 基十新型特衙的琏w 识别方法研究 摘要 人类基因组以及多种模式生物的作图和测序工作的快速进展,预示了后基因 组学时代的到来,同时也带来了大量的基因数据。生物信息学为高效地处理这些 数据提供了重要理论支持。基因识别是生物信息学的关键组成部分,大量的算法 被应用于解决基因识别问题。但是仍有一些问题没有得到有效地解决,比如真核 生物短基因识别。本论文主要致力于人类短基因编码区识别算法的研究。 有效地对生物信息进行提取是基因识别算法的性能保证。在论文中,我们尝 试从新的途径来提取生物信息。首先将终止密码子相位分布信息与碱基偏性信息 相结合,提出两个混合性质特征。接着将用于蛋白质序列信息提取的伪氨基酸组 成特征引入到d n a 中,给出了一组伪碱基组成特征,该特征可以提取不同位置 上碱基间的相互作用信息。将改进的终止密码子变量和两个混合性质特征进行识 别时,取得较理想的效果。特别当序列长度为1 9 2 b p 时,识别效果达到9 2 7 3 。 同时本文提出的一个1 5 维特征向量,其中包含混合特征、伪碱基组成特征和其他 统计特征等。同样在序列长度为1 9 2 b p 时,基于该特征向量的方法识别效果达到 9 5 6 5 。由此可得,混合两种性质的特征提取方式以及伪碱基组成特征能有效地 提高编码区识别精度。 在基因识别中,识别方法的选择对识别效果的影响很大。为了在短基因编码 区识别中获得更高的精确度,必须选择精细的模型,径向基函数神经网络是一个 较理想的选择。为了解决神经网络中可能存在的记忆变形和记忆丢失问题,结合 k - 均值的聚类结果和样本类别标记,获得一些启发式信息。并给出基于启发式信 息的样本筛选机制,用于降低神经网络的样本集规模。同时对单个数据集进行多 组实验,并采用投票法进行统计,取得不错的识别精度。 关键词:基因识别;编码区识别;生物信息提取;径向基函数神经网络 1 1 硕l :学位论文 a b s t r a c t t h e r a p i dp r o g r e s so fh u m a na n d av a r i e t yo fm o d e l o r g a n i s mg e n o m e - s e q u e n c i n g p r o j e c t sn o to n l yi n d i c a t et h ep o s t g e n o m i c se r a ,b u ta l s ob r i n gal o to fg e n e t i cd a t a b i o i n f o r m a t i c sc a np r o v i d et h e o r e t i c a ls u p p o r tf o rt h ee f f i c i e n tp r o c e s s i n go ft h e s e d a t a g e n er e c o g n i t i o ni sa ni m p o r t a n tc o m p o n e n to fb i o i n f o r m a t i c s al a r g en u m b e r o fa l g o r i t h m sh a v eb e e na p p l i e dt og e n er e c o g n i t i o n b u tt h e r ea r es t i l ls o m ep r o b l e m s h a v en o tb e e ne f f e c t i v e l ys o l v e d ,s u c ha ss h o r te u k a y o t i cg e n er e c o g n i t i o n i nt h i s p a p e r , w ef o c u s e d o ns h o r tc o d i n gr e g i o nr e c o g n i t i o no fh u m a ng e n e e f f e c t i v ee x t r a c t i o no fb i o l o g i c a li n f o r m a t i o na f f e c tt h ep e r f o r m a n c eo fg e n e r e c o g n i t i o n i nt h i ss t u d y , w et r yt os o l v et h ei s s u eu s i n gn e wm e t h o d s w er e c e i v e d t w on e wf e a t u r e sb yi n t e g r a t i n gt h ei n f o r m a t i o no ft h ed i s t r i b u t i o n so fs t o pc o d o n sa n d t h ei n f o r m a t i o no fb a s ec o m p o s i t i o n a lb i a s a n dt h ep s e u d o - b a s ec o m p o s i t i o nf e a t u r e s , w h i c hc a ne x t r a c tt h ei n f o r m a t i o no ft h eb a s e si n t e r a c t i o ni nd i f f e r e n tp o s i t i o n s ,w e r e g i v e nb yt r a n s p l a n t i n gp s e u d o - a m i n oa c i dc o m p o s i t i o nt ot h ed n as e q u e n c e ,t h e a v e r a g ea c c u r a c ya c h i e v e db yt h r e en e wf e a t u r e s w a sa s h i g ha s9 2 7 3 f o rt h e f r a g m e n t sw i t hl e n g t ho f1 9 2b a s ep a i r s a n d a1 5 - d i m e n s i o n a lf e a t u r ev e c t o rw a s p r o p o s e d ,w h i c hc o n t a i n st h ef e a t u r e sm e n t i o n e da b o v e t h ea c c u r a c yo ft h ea l g o r i t h m w i t ht h ef e a t u r ev e c t o rc a na c h i e v e9 5 6 5 i nt h el e n g t ho f1 9 2b p w ef i n dt h a tt h e u s eo ft h ec o m b i n a t i o no ft w oc h a r a c t e r sa n dp s e u d o - b a s ec o m p o s i t i o nf e a t u r e s i m p r o v et h ea c c u r a c yo fc o d i n gr e g i o nr e c o g n i t i o n t h ec h o i c eo fc l a s s i f i c a t i o nm e t h o d sa f f e c t st h ea c c u r a c yo ft h ea l g o r i t h m t h e p r e c i s em o d e lm u s tb es e l e c t e dt oo b t a i nh i g h e ra c c u r a c yi ns h o r tg e n er e c o g n i t i o n a g o o dc h o i c ei st h er a d i a lb a s i sf u n c t i o nn e u r a ln e t w o r k w eg a v eas a m p l ef i l t e r i n g m e c h a n i s mt os o l v et h ep r o b l e mt h a tm e m o r yd i s t o r t i o na n dm e m o r yl o s si nn e u r a l n e t w o r k t h e s a m p l ef i l t e r i n g m e c h a n i s mw a s p r o p o s e d b a s e do nh e u r i s t i c i n f o r m a t i o n ,w h i c hg o tf r o mt h ec o m b i n a t i o no fk m e a n sc l u s t e r i n gr e s u l t sa n d s a m p l et y p et a g s an u m b e ro fr e s u l t sc a nb eg o tf r o me x p e r i m e n t si nas i n g l ed a t as e t t h e nw eg o taf i n a lr e s u l tb yu s i n gv o t i n gm e c h a n i s m ag o o da c c u r a c yc a nb e o b t a i n e di ns h o r tc o d i n gr e g i o nr e c o n g i t i o nb yd o i n gt h ew a y sa b o v e k e yw o r d s :g e n er e c o g n i t i o n ;c o d i n gr e g i o nr e c o g n i t i o n ;e x a c t i o no fb i o l o g i c a l i n f o r m a t i o n ;r b fn e u r a ln e t w o r k i i i 皋j t 二新型特缸的皋i 大f 识别方法研究 目录 学位论文原创性声明l 摘要i i a b s t r a c t i i i 目录i v 插图索引v i 附表索引v i i 第1 章绪论1 1 1 研究背景1 1 2 基因识别及其研究意义3 1 3 基因识别的国内外研究状况3 1 4 本文的主要工作一5 1 5 本文的文章结构5 第2 章基因识别方法综述6 2 1 概j 2 篷6 2 2 生物基础知识介绍6 2 3 特征介绍8 2 3 1 基于已有样本的统计特征8 2 3 2 非基于已有样本的统计特征9 2 3 3 图形特征1 1 2 4 基因识别分类方法介绍1 3 2 4 1 线性判别法一1 3 2 4 2 人工神经网络1 4 2 4 3 隐马尔科夫模型1 5 2 4 4 支持向量机1 6 2 5 小结1 9 第3 章基于新特征向量的人类短基因编码区识别方法2 0 3 1 本章介绍2 0 3 2 数据和方法2 l 3 2 1 数据来源及获取2 1 3 2 2 特征介绍2 1 3 2 3 支持向量机2 5 i v 顾l j 学位论文 3 3 实验结果和讨论2 5 3 3 1 实验说明2 5 3 3 2 识别结果检验标准j 2 5 3 3 3 结果讨论2 6 3 4 _ 、结2 9 第4 章基于启发式样本筛选基因识别方法3 1 4 1 本章涉及方法介绍3 1 4 1 1k 均值算法简介3 1 4 1 2 径向基函数神经神经网络3 3 4 2 本章算法介绍3 4 4 2 1 基于启发式信息的样本筛选过程3 4 4 2 2 测试集样本的识别过程3 4 4 2 3 基于投票法的多个网络结果统计3 5 4 3 实验结果和讨论- o oooo 0 0 3 6 4 3 1 经样本筛选径向基函数神经网络性能3 7 4 3 2 本方法与第3 章方法比较3 7 4 4 j 、结3 8 结j 仑3 9 参考文献4 1 致 射。4 5 附录a ( 攻读学位期间所发表的学术论文) 4 6 附录b ( 攻读学位期间所参与的其它科研活动) 4 7 v 辕r 新型特缸的牡| 女i 识别方法研究 插图索引 图1 1e m b l 在过去三十年核苷酸增长情况1 图2 1 基因识别的一般步骤6 图2 2 原核基因和真核基因简易结构图7 图2 3 多层b p 网络结构1 4 图2 4 最优超平面示意图1 7 图2 5 支持向量机模型1 8 图3 1 本文7 组分量识别效果对比2 8 图4 1r b f 神经网络结构3 3 图4 2 基于启发信息的样本筛选和神经网络模型建立过程3 5 图4 3 测试样本分类和识别过程图3 6 图4 4 基于投票法的识别结果统计图3 6 v i 硕l j 学位论文 附表索引 表3 1 碱基的相位偏性表2 1 表3 2f 3 和f f 3 识别效果对比2 6 表3 3 基于3 个特征的方法与已有方法比较2 7 表3 4 本文7 个分量识别效果对比2 8 表3 5 本文基于1 5 维特征算法和其他算法识别效果3 0 表4 1 传统r b f 神经网络和样本筛选神经网络性能对比3 7 表4 2 本章方法与第3 章方法性能对比3 8 v n 硕i j 学位论文 1 1 研究背景 第1 章绪论 2 0 世纪中期,w a t s o n 和c r i c k 提出d n a 的双螺旋结构模型,开辟分子生物 学研究的新纪元。探索生命本源,研究生命的组成成为那个时代生物学家研究的 源动力。随着生物技术的不断发展,特别是测序技术的发展,解读人类自身的“生 命之书 成为可能。1 9 9 0 年,被誉为生命“阿波罗登月计划”的人类基因组计划 正式启动。其后十几年,人类基因组以及多种模式生物的作图和测序工作逐渐完 成,预示着后基因组学时代的到来【1j 。在此期间,国际三大核酸序列数据库的序 列数量持续大量地增长。图1 1 显示e m b l 在过去三十年核苷酸增长情况,当前 数量为3 0 1 ,5 8 8 ,4 3 0 ,6 0 8 ( h t t p :w w w e b i a c u k e m b l s e r v i c e s d b s t a t s ) 。如何从浩瀚 的数据中分析并获得生物结构以及功能的相关信息,成为后基因组学时代的一个 挑战。 8 2 8 3 5 8 5 8 :8 8 8 9 a o ,l g 口9 3 9 4 9 5 9 6 9 7 t 8 9 a0 0 10 2 0 3 - 牛吁0 ;0 :0 80 0 1 0 v - a r 图1 1e m b l 在过去三十年核苷酸增长情况 大量的生物数据是生物信息和知识源泉。遗传数据的可数字符号序列化【2 】使 得通过数学和计算机技术提取生物序列信息为可能,从而能更进一步研究生物序 列的结构和功能。并由此形成一门新的学科生物信息学。生物信息学是一门 交叉学科,它包含生物信息的获取、处理、存储、分发、分析和解释等在内的所 有方面,它综合运用计算机科学、数学和生物学的各种工具,来阐明和解释大量 数据所包含的生物学意义【3 1 。生物信息学的发展离不丌生物技术,计算机硬件的 1 。1 。_ _ _ _ _ 一 辏一t :新型特征的旌冈识别方法研究 发展,依赖于数学理论以及新的计算机技术的应用。生物信息学研究范围涉及了 很多方面,主要研究内容如下【4 ,5 】: ( 1 ) 生物信息的获取、储存、管理和提供 生物信息的获取是一切生物信息学工作的基础。生物信息并不仅限于基因的 d n a 序列,编码区范围和染色体定位等基因组信息,还包括蛋白质和r n a 的功 能和结构信息以及其他信息资源。这方面的工作主要可分为:建立包含有基因 组信息以及其他基因产物信息的国际生物信息库;建立生物信息资源质量的评 定与检测系统;提供便捷的生物信息搜索服务和其他相关服务。 ( 2 ) 序列比对 序列比对的基本问题是比较两个或者多个生物信息序列的相似性其用途在 于相关序列的查找,重叠的序列片段中完整的生物符号序列的重构等。在序列比 对中,动态规划算法是最经典的比对算法,已经广泛应用于序列比对的软件设计 中。但是动态规划算法对于长基因序列的适应性较差,因此需要引入高效的且适 用性强的方法,b a l s t 和f a s t a 算法正是其中的代表。 ( 3 ) 基因组序列信息的提取和分析 生物信息学的一个重要应用就是对已有的全基因组进行提取和分析。这一部 分内容包含基因组数据中模式生物完整基因组信息的提取,结构分析和比较研究; 基因识别;非编码区信息的提取和分析;基于生物信息的基因组结构演化、遗传 密码起源、功能基因组学、基因组信息与生物进化关系以及d n a 折叠与基因组 空间结构的相互关系等生物学的重大问题的研究。 ( 4 ) 分子进化和比较基因组学研究 由于从基因组水平理解某些类型的遗传变异更为容易,因此分子进化和比较 基因组学研究成为生物信息学的重要组成部分。基因组分子进化研究是通过比较 不同物种中同一基因序列的异同来研究生物的进化和构建进化树。可用于比较的 生物信息为各个物种中结构和功能相似的蛋白质或编码蛋白质的基因。随着越来 越多的模式生物全基因组序列的完成,从全基因组的角度来研究分子进化成为一 个新的研究途径。比较基因组学主要包含蛋白质组分析、古保守区分析和水平基 因转移研究等。 ( 5 ) 生物大分子结构模拟和基于结构的药物设计 研究生物大分子的意义在于了解各种生物大分子如蛋白质的结构,功能,相互 作用以及与各种疾病之间的关系,进而寻求各种治疗和预防方法。这方面的研究包 括r n a 和蛋白质的结构模拟和分子设计;生物活性分子的电子结构模拟和设计; 含有不同功能域的复合蛋白质以及连接肽的设计;纳米生物材料的模拟与设计; 基于d n a 结构的药物设计;基于功能蛋白质和酶结构、细胞表面受体结的药物 设计等。 任务。虽然采取人工实验方式的识别结果可靠性非常高,但是其实验耗费大,周 期长,很难推广到全部基因的寻找中。因此迫切地需要开发出适合处理大量数据 的研究方法。随着计算机技术的快速发展,使用计算机算法进行大批量的基因数 据处理成为解决这一问题的重要途径。由此计算机辅助基因识别成为生物信息学 的核心课题之一。 基因识别的基本问题是如何准确和快速地预测出整个基因组序列中各个基因 的精确位置。基因识别的对象主要是蛋白质编码基因和其他具有生物学功能的因 子,如调控因子和r n a 基因等。从内容上讲,基因识别主要包括启动子的识别、 剪接位点的识别、翻译起始位点的识别、蛋白质编码区的识别和内含子的识别等。 1 3 基因识别的国内外研究状况 基因识别是基因组研究的基础,通过对生物基因进行精确地注释和识别,可 以帮助人们更好的破译遗传密码、解析基因功能,为分子生物学、遗传学和医学 等方面的研究者提供更好的研究基础。经过二十多年的发展,大量的方法和软件 被应用于基因识别领域。根据是否使用序列比对,现有的基因识别方法可以分为 三类,外在的基于同源性搜索的算法、内在的以统计预测为基础的算法和混合方 法。 ( 1 ) 外在的基于同源性搜索的算法 以p r o c r u s t e s 7 j 为代表的同源性搜索算法,通过使用已注释的生物序列信息, 与输入序列进行序列比对。利用得到的相似性信息对注释输入序列,进而推断其 基因结构。该类方法主要使用现有的序列比对工具( 如f a s t a ) 实现局部比对操作。 根据所使用的数据库不同,基于同源性的方法可以分为多个类别。常见的用于比 对的数据库有蛋白质数据库、c d n a 数据库和e s t 数据库等。其中p r o c r u s t e s , e b e s t i 引,s i m 4 19 1 ,g e n e b u i l d e r l l o j 和e m m a l l l l 等都是这些数据库上的代表算法。 近年来还提出一些新的外在算法,如t o p h a t l l 2 j 和g s n a p l l 3 j 等。t o p h a t 通过实现 大规模的r n a s e q 数据到待测基因组的映射束进行剪接位点的识别。g s n a p 利 用概率模型或已知的剪接位点数据库进行新一代测序技术下的短片段的比对。 目前一定数量的模式生物的基因组已经通过实验手段注释,这也为外在算法 提供了重要基础。当输入序列与已有序列具有很强的相关性时,基于同源搜索方 法可以取得非常优秀的预测结果。但是这种方法依赖于同源性对比结果,也就是 甚于新型特征的接| 夫l 识别方i j : 究 说如果一个物种的保守性不强或者该物种缺乏足够数量的实验数据时,识别结果 可能会变的不理想。 ( 2 ) 内在的以统计预测为基础的算法 内在算法通过提取序列的生物信息,进行基因识别。分子生物学的研究表明, 生物信息如密码子相位频率、g c 含量等在编码区和非编码区中表现明显不同。 所以基于特征提取的方式来进行识别是有效的。常见的统计特征有密码子偏性、 不对称信息、碱基偏性和g c 含量等【1 4 】。除统计特征外,还有一些其他形式的特 征被用于基因识别,如图形特征等。 内在算法在提取特征后,在其基础上建立有效的统计学模型,再根据模型从 大量候选基因片段中识别真实的基因片段。与大部分模式识别方法类似,内在算 法的模型建立过程可以看成是一个复杂的优化过程。根据预测模型的不同,内在 算法可分成:( 1 ) 以隐马尔科夫模型为基础的算法,如g e n e m a r k h m m l l 5 j 和 g e n s c a n l l 6 】等;( 2 ) 以神经网络为基础的算法,如g r a i l 3 1 1 7 l 等;( 3 ) 以曲线判别分 析为基础的算法,如m z e f i l 8 】等;( 4 ) 以动态规划和神经网络集成为基础的算法, 如g e n e p a r s e r 等。在这些预测模型中,基于隐马尔科夫模型的算法普遍效果优于 其他算法,但是其优秀的预测结果是基于大量的参数,例如g e n e m a r k h m m 的参 数量为1 2 2 8 8 ,这又增加算法本身的复杂性。近年一些旧的算法中加入新的理论, 得到其改进版本如g l i m m e r 3 0 2 19 1 ,同时一些新的内在算法如m e t a g e n e m a r k 【2 0 l 和f r a g g e n e s c a n t 2 1 】等也不断出现。f r a g g e n e s c a n 通过建立一个结合密码子使用偏 性和测序误差模型的隐马模型进行短片断中的蛋白质编码区识别。m e t a g e n e m a r k 则通过在g e n e m a r k h m m 中使用新型基于启发式模型进行宏基因组序列中的基因 识别。 ( 3 ) 混合方法 由于内在算法和外在算法采用的识别思路不同,二者间可能存在互补。近年 来一些研究者采取将同源搜索与统计分析方法相结合的方式,得到混合方法。在 这一方面基于g e n s c a n 和其他同源搜索方法相结合的方法,如g e n o m e s c a n 和 t w i n s c a n l 2 2 】表现比较突出。g e n o m e s c a n 将g e n s c a n 与b l a s t x 结合,而t w i n s c a n 则将比较基因组学方法和g e n s c a n 结合,发现了一些潜在的新基因。近年来研究 者还提出一些新的方法,如p a i r a g o n l 2 3 】等。p a i r a g o n 将c d n a 和基因组的比对信 息与隐马尔科夫模型相结合,取得一定的成果。 尽管基因识别算法研究已经取得长足的发展,但仍存有一些问题【2 4 1 。特别是 短基因的识别问题。相比于原核生物,在真核生物的识别算法效果有一定的差距。 由于真核生物的编码区由非编码区分隔开来,导致大量短基因序列的出现,这给 真核生物基因识别造成一定的困难。因此,开发更有针对性、更有效的真核生物 基因识别算法尤为重要。 文中针对编码区识别的两个重要 出一组新的特征向量并采用支持 文的主要工作为: ( 1 ) 特征提取方面:对王永宏提出的终止密码子变量【2 5 】进行改进,提升其识 别性能。同时给出一种新的生物信息组合方法,将碱基相位偏性性质和终止密码 子的相位分布性质相结合,给出两个识别特征。为了提取不同位置上碱基间的相 互作用信息,将蛋白质亚细胞定位的伪氨基酸组成方法应用到编码区识别中,得 到一组全新的伪碱基特征组。同时将以上的特征结合其他统计特征组成1 5 维的特 征向量,用于人类短基因编码区识别,取得良好的效果。 ( 2 ) 分类算法方面:在第四章中采用r b f 神经网络作为分类器进行实验。提 出一种基于启发式信息的样本筛选机制,用于降低神经网络的样本集规模,从而 解决网络中可能存在的记忆变形和记忆丢失问题。同时对一个数据集进行奇数次 实验,并采用投票机制统计最终的实验结果,在样本长度较短时取得较好的结果。 1 5 本文的文章结构 论文的结构和各章节安排如下: 第1 章绪论。简要介绍了生物信息学背景以及生物信息学的主要研究内容。 在此基础上,详细地介绍了基因识别的定义和研究意义,并对基因识别的国内外 研究现状做一些了解。接着介绍与本文研究内容相关的生物学知识。章节最后部 分概述论文的主要研究内容和创新点。 第2 章基因识别的方法介绍。阐述基因识别的一般过程,并介绍常见的特征 提取以及识别方法。本章将特征提取分为两大类进行介绍,统计特征和图形特征。 同时根据统计特征的实验环境,进行更细致的分类描述。最后对常见的识别方法 的起源、发展以及实现过程做一定的了解。 第3 章基于新特征向量的人类短基因编码区识别。本章中首先对实验涉及的 新特征向量进行分类描述。本章涉及的特征分为统计特征和伪碱基组成特征。接 着对实验相关信息进行说明。最终分析和讨论实验结果。 第4 章基于启发式样本筛选神经网络的基因识别方法。本章首先介绍了涉及 的相关算法。接着对算法的过程做一个详细的阐述,描述启发式样本筛选的使用 过程以及投票法取得序列最终结果的过程。最后对不同聚类数k 的算法结果进行 分析,以及对不同算法的性能进行比较讨论。 结论对全文的工作进行总结,并对下一步将开展的研究方向进行了探索。 皋于新掣特玎的删六i 识别方法研究 2 1 概述 第2 章基因识别方法综述 随着人类基因组测序以及模式生物测序工作的完成,出现了大量的由碱基符 号组成的基因片段数据。发展准确的、高效的基因识别算法成为基因研究的重要 任务之一。常见的基因识别方法是从符号序列中提取相应的生物信息,再进一步 采用模式识别算法或者其他的识别算法进行研究。基因识别方法的一般步骤如下 图2 1 所示。以编码区非编码区识别过程举例,实验过程中将序列样本分为两类, 其中编码区序列为正样本,非编码区序列为负样本。各取其中一部分做为训练集, 余下的为测试集。首先从已知类别的训练集中提取特征矩阵,并输入到分类器学 习,训练分类模型。接着使用假定类别不明的测试集进行测试,得到测试集的分 类结果,最终统计识别结果的准确率和误差,以衡量该基因识别方法的好坏。 在基因识别中,特征提取是一个很重要的环节,是后续步骤的基本前提和性 能保证。根据实验条件的不同,特征提取方法可以分为基于先验样本的特征提取 以及非基于先验样本的特征提取。根据提取方向、思路的不同,特征提取方法可 以分为统计特征提取和图形特征提取等。模式识别和机器学习的很多方法都可以 应用到基因识别中。例如在剪切位点中使用的人工神经网络方法,编码区非编码 区识别中用到的隐式马尔科夫模型等。了解常见的特征提取方法以及常用的识别 工具对研究基因识别是很有帮助的。 测试集 2 2 生物基础知识介绍 图2 1 基因识别的一般步骤 在基因识别的算法中,序列生物信息提取是一个很重要的步骤。为了更好地 了解生物信息以及基因识别的算法,有必要介绍一下本文涉及的基础生物知识。 ( 1 ) d n a d n a 是生物细胞核内的遗传物质,是生物基因组的重要组成部分。d n a 由 核昔酸组成,不同的核苷酸用其所含的碱基类型进行区分。d n a 中的碱基类型分 为四种,即腺嘌呤a 、鸟嘌呤g 、胞嘧啶c 和胸腺嘧啶t 。在这四个碱基包含有 硕i j 学位论文 奇特的加卡夫规则,即a = t ,c = g 。1 9 5 3 年,c r i c k 和w a t s o n 提出d n a 双螺旋 结构模型。在该模型中,d n a 是由两条碱基单链上的碱基配对形成氢键,并由氢 键连接两条单链围绕中心轴反向平行排列形成的双螺旋结构。这种碱基配对的现 象称为碱基互补。其中胸腺嘧啶t 与腺嘌呤a 配对形成两条氢键,被称为弱氢键; 胞嘧啶c 与鸟嘌呤g 配对形成三条氢键,被称为强氢键。由于互补现象的存在, 通常研究d n a 时只需研究其中一条单链即可。 ( 2 ) 基因 基因是遗传的基本单位,表示具有遗传效应的d n a 分子片段,是d n a 分子 上具有遗传信息的特定核苷酸序列的总称。基因含有生命的密码,记录和传递着 遗传信息。在传递遗传信息的过程中,基因通过复制把遗传信息传递给下一代, 使后代出现与亲代相似的性状。基因中储存着生命孕育生长、凋亡过程的全部信 息,通过复制、修复、表达,完成生命繁衍、细胞分裂和蛋白质合成等重要生理 过程。生物体的生、长、病和死等一切生命现象都与基因有关。 ( 3 ) 原核生物和真核生物基因结构 根据细胞的结构和遗传物质在细胞内的分布,可将生命有机体划分为原核生 物和真核生物两大类。原核生物基因组较小,大部分由单一的d n a 分子组成。 其基因组结构紧密,基因间隔很少,编码区在基因组中所占的比例很高( 8 0 - - - 9 0 ) 。 除少数几个物种外( 主要是古细菌) ,原核生物的基因是连续的,基因组中几乎没 有断裂基因。原核生物基因结构比较简单,其蛋白质编码区是从起始密码子 ( a t g , g t g , c t g , g t g ) 了 :始到终止密码子( t a a ,t a g , t g a ) 结束。 与原核生物相比,真核生物的基因组更为复杂,如图2 2 所示。在真核生物 基因中,编码序列在d n a 分子上是不连续的,被非编码序列所隔开。编码的序 列称为外显子,是一个基因表达为多肽链的部分;非编码序列称为内含子,又称 插入序列。 爱棱基因 崩移夕麓哆嚆杉 杉确i k 哆强 哆坞杉呜篝礴和气 i一1_j1。i 转录起始调控区编码区转录终止信号 再蔹量凼 ,弘汝, 矿黻谨尹、毒芦。证p苞扑f 扩整吣k ii t j j 。,0 u 转录起始调控区 一含子 转录终止售号 嚏码区井显罩) 图2 2 原核基因和真核基因简易结构图 林- j 二新型特征的綦阕识别方法研究 2 3 特征介绍 在所有常见的基因识别方法中都存在一种或者多种特征提取措施。了解这些 特征提取方式以及意义,有助于深入理解基因识别方法。从上世纪8 0 年代开始, 大量的特征提取方法见诸于文字资料以及网络资源中。基于提取特征思路的不同 进行区分,可以从统计特征和图形特征来论述。同时基于实验条件的不同,统计 特征的提取也分类进行描述【26 。为了更好地对这些特征进行说明,先介绍三相位 的概念。在基因片段中,根据开放阅读框的第一个密码子的3 个位置,将这条序 列分为三个相位( p h a s e ) 2 4 1 ,其中p = 1 :1 , 4 ,7 ;p = 2 :2 , 5 ,8 ,;p = 3 :3 , 6 ,9 ,。 2 3 1 基于已有样本的统计特征 ( 1 ) 基于密码子频率的特征和基于氨基酸频率的特征。不论在何种生物的基 因组中,编码区序列的密码子使用频率都是不平均的。这种偏性体现在两个方面, 各个同义密码子频率的不平均性以及各个氨基酸频率的不平均性【2 7 1 。根据这个性 质,可以使用多种方式来求得频率特征。设,( c ) 为特定物种中密码子c 或者氨基 酸c 的频率。最简单的是采用所有的频率为一个特征向量,或者采用如下方式来 求得特征: f = e ( 1 0 9 ( 1 f ) ) ) ;一罗, ) l o g ( f ) ) ( 2 1 ) 其中,厂( c ,) 表示该序列中密码子或氨基酸c f 的频率。前面两个特征提取方法并不 需要已有样本。下面介绍第三种特征提取方法【2 引,它的提出建立在大量样本的统 计结果上。 = l o g ( ( f p ( c i ) xl ( c :) 瓴) ) ( ,( c 咖) ,( c :。) 厂( ) ) ) ( 2 2 ) 其中,p 表示第p 相位,从而得到3 个相位下的3 个特征值。矗( c f ) 表示特定物种 中密码子或氨基酸c ,的出现频率,这些频率由已有的编码区序列统计得到。k 表 示序列中出现的密码子或氨基酸的种类。f ( c i n o n ) 表示在非编码区序列中各个密码 子或氨基酸的频率。由于非编码区中密码子的频率假定为相同的,所以各个密码 子的频率取为1 6 4 ,氨基酸的频率取为其所有同义密码子的频率和。 ( 2 ) 基于六联体频率的特征。和密码子类似,其他类型的寡核苷酸分布也可 被用于序列的特征提取。由于六联体可以看成是两个邻接的密码子的集合体,体 现了他们之间某种依赖性,所以基于六联体频率的特征具有很强的判别意义。 c l a v e r i e 等首次将六联体的频率应用于编码区识别中【2 9 1 。具体的求法见公式2 2 , 其中p 表示第1 个六联体的第p 个位置。其中非编码区中的各种六联体频率取为 1 4 0 9 6 。 ( 3 ) 密码子性能特征。在同一物种的编码区序列中,同义密码子的使用频率 是不均匀的。对于一个给定的密码子频率统计表( 此时需要大量已有的数据) ,可 子与其对应的氨基酸问的关联性并以此得到新的统计 编码区统计数据下,各个同义密码子与对应氨基酸的 r c = ,( c ) 互厂( c - ) ( 2 3 ) 其中,( c ) 表示同义密码子的频率。c 暑c 表示与c 同义的密码子,包括c 本身。 同时根据非编码区中同义密码子的出现频率平均的假设得到,非编码区中同义密 码子的频率。 r 。= 1 n 。( 2 4 ) 其中,刀。表示包括自身在内的与c 同义的密码子数目。最后求相位p 下,该序列 的对数似然率,得到3 个密码子性能特征。 c = l o g ( r qx r 色。x r ( r :。r 乏r 乏) ) ( 2 5 ) ( 4 ) 终止密码子变量。在基因表达中,终止密码子s t o p = t a a ,t a g ,t g a 是非常重要的信号。它不但是基因翻译的终止点,而且仅出现在基因编码的末尾 处。非编码区中所有密码子的分布趋于平均化,而在编码区序列中密码子的分布 明显不同。 对终止密码子的信息提取,前人做了很多研究。2 0 0 2 年王永宏对人类基因蛋 白质编码区、非编码区以及基因间序列中的终止密码子的分布规律进行分析统计, 并提出一个新的特征,即终止密码子变量。根据截取片段上的终止密码子出现的 相位数,将统计结果分为四类,第一类序列中终止密码子不在任何一个相位出现。 第二类序列中仅有一个相位上出现终止密码子。第三类的序列中终止密码子出现 在任意两个相位上。第四类序列中所有
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年教育培训机构品牌跨界合作与市场创新策略分析
- 侨联业务培训课件
- 鲅鱼圈垂钓管理办法
- 行政报务中心管理办法
- 企业用电安全培训教学课件
- 唐矿新质生产力转型实践
- 出航前安全培训教育内容课件
- 出渣班安全培训课件
- 1.2 人口 同步分层练(含答案)地理人教版八年级上册
- 2025合作店合同书化妆品合作店合同书
- 儿童心理发展课件
- 电气工程师考试题及答案2025年
- 《中华人民共和国民营经济促进法》培训解读课件
- 四川电网新建电源并网服务指南(2025年)
- 青鸟消防系统常见故障分析培训课件
- 2025中国大唐集团科学技术研究总院有限公司系统单位领军人才招聘笔试参考题库附带答案详解
- 教学能力比赛现场决赛30道答辩问题要点
- 2025-2030中国卫星通信行业发展分析及投资价值预测研究报告
- 法拍房委托服务协议书范本
- 码头项目事故案例
- 妇幼信息管理制度
评论
0/150
提交评论