(动物学专业论文)利用libsvm对premirna预测探索及其web平台的构建.pdf_第1页
(动物学专业论文)利用libsvm对premirna预测探索及其web平台的构建.pdf_第2页
(动物学专业论文)利用libsvm对premirna预测探索及其web平台的构建.pdf_第3页
(动物学专业论文)利用libsvm对premirna预测探索及其web平台的构建.pdf_第4页
(动物学专业论文)利用libsvm对premirna预测探索及其web平台的构建.pdf_第5页
已阅读5页,还剩59页未读 继续免费阅读

(动物学专业论文)利用libsvm对premirna预测探索及其web平台的构建.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

帅敏锋中山大学硕士学位论文 2 0 0 7 年1 1 月 利用l i b s v m 对p r e m i r n a 预测 探索及其w e b 平台的构建 号业:动物学 顶士生:帅敏锋 导师:邓日强副教授 摘要 m i r n a s 是一类2 2 个碱基长的非编码蛋白序列,它能在转录后水平上发挥 重要的调节表达作用。茎环结构是m i r n a 前体( p r e - m i r n a ) 的重要特征,然 而在许多基因组中存在大量类似茎环结构的序列,如何正确的区分它们值得我们 进行研究。目前利用生物信息学预测p r e m i r n a 的方法主要有两类:一类是基 于同源性的方法,另一类是基于机器学习的方法,前者主要是根据p r e m i r n a 的保守性以现有p r e m i r n a 推测未知p r e m i r n a ,但对进化关系较远的物种效 果较差,后者则是基于茎环结构的特征来预测p r e - m i r n a ,准确率较高。 本论文主要是在t r i p l e t s v m c l a s s i f i e r 法的基础上增加1 7 个特征,利用机 器学习方法一l i b s v m 软件包对p r e m i r n a 进行预测和探索。主要由两部分组 成:第一部分是利用l i b s v m 进行p r e m i r n a 预测和探索,第二部分是构建利 用l i b s v m 预测p r e - m i r n a 的w e b 平台。 我们提取了p r e ,m i r n a 的特征4 9 个,包括局部连续的结构序列特征,g c 含量,单个碱基的自由能,茎环结构序列的长度,左右臂长度差,环的长度,泡 的长度,泡的个数,碱基匹配数,匹配率,碱基匹配总个数占序列长度的比例, 尾巴长度占序列长度的比例,a u 、g c 、g u 占碱基匹配数的比例及z 曲线的3 维斜率k ,分别选取3 2 个局部特征、1 7 个全局特征和所有4 9 个特征利用l i b s v m 训练出3 个m o d e l 文件,并用产生的m o d e l 文件对8 个测试集进行预测,结果表 明选取4 9 个特征预测的准确率比3 2 个局部特征更高;另外,我们还对各特征的 帅敏锋 中山大学硕士学位论文2 0 0 7 年1 1 月 重要性进行了初步分析,发现我们新增加的1 7 个全局特征确实能辨别 p r e m i r n a 和类似d r e m i r n a 的茎环结构序列,至于本质特征还有待挖掘。 本论文的第二部分是构建了利用l f b s v m 预测p 心m i r n a 的w e b 平台,综 合利用了p e r l ,p e r lc g i ,a p a c h e 及h t m l 语言,实现了利用l i b s v m 自动预测 l o r e m i r n a ,操作简单快速,界面友好,避免了使用l i b s v m 时采取命令行的形 式,并且提供了对各特征量化值的下载,以便用于其他软件的分析。用户也可以 选取不同的特征组合,从而比较不同m o d e l 文件的预测结果。 关键词:生物信息学,l i b s v m ,p r e m i r n a ,t r i p l e t s v m c l a s s i f i e r i i 帅艟锋 巾山大学硕士学位论文2 0 0 7 年1 1 月 p r e - m i r n a p r e d i c t i o nb yu s i n gl i b s v ma n d e s t a b l i s h m e n to faw e bb a s e dp r e d i c t i o np l a t f o r m m a j o ri nz o o l o g y n a m e :s h u a im i n f e n g s u p e r v i s o r :e e - p r o f d e n gr i q i a n g a b s t r a c t m i r n a sa r eag r o u po f s h o r t ( - 2 2t a t ) l l o l l - c o d i n gr n a st h a tp l a yi m p o r t a n tr o l e s i np o s t t r a n s c r i p t i o n a lg e n er e g u l a t i o n t h eh a i r p i ns t r u c t u r ei sa k e yc h a r a c t e r i s t i co f t h er o i r n ap r e c u r s o r s ( p r e - m i r n a s ) h o w e v e r ,l a r g ea m o u n t so fs m l i l a rh a i r p i n s c a l lb ef o l d e di nm o s t g e n o r n e s s oi t i s i m p o r t a n tt oa c c u r a t e l yi d e m i f rr e a l p r e 。m i r n a sf r o mp s e u d op r e m i r n ap r e c u r s o r s a t p r e s e m t h e r ea 1 w o b i o i n f o r m a t i c a ls t r a t e g i e si nt h ep r e d i c t i o no fp r e - m i r n a o n ei sb a s e do nt h e h o m o l o g ya n dt h eo t h e rb a s e do um a c h i n el e a r n i n g t h ef o r m e ru c o m p a r a t i v e g e n o m i ea p p r o a c h e st oi d e n t i f yp u t a t i v ep r e m i r n a sf r o mc a n d i d a t eh a h p i n s b u ti t i sn o ts u i t a b l et ot h es p e c i e sw i t h o u tc l o s e l yr e l a t i o r lt h el a t t e rf o rd i s t i n g u i s h i n g p - m i r n a su s e st h ea t t r i b u t e so f t h eh a i r p i ns t l l “t t u r e $ w i t hh i g ha c c w a c i e s t h i ss t u d y ,b yu s i n gl i b s v ma n db ya d d i n gs o m em o r en e wf e a t u r e si na d d i t i o n t ot h el o c a l c o m i g u o u ss t r u c t u r e - s e q u e n e e i n f o r m a t i o n r e p o r t e d i n p r e v i o u s r e s e a r c h e s ( t r i p l e t s v m c l a s s i f i e r ) ,缸l p r o v e d t h ea c c u r a c i e so f p r e m i r n a p r e d i c t i o n t h ed i s s e r t a t i o ni sp r e s e m e di nt w op a r t s :“i m p r o v e m e n to ft h ep r e d i c t i o no f p r e - m i r n au s i n gl i b s v m , a n d e s t a b l i s h m e n to faw e bb a s e dp r e - m i r n a p r e d i c t i o np l a t f o r mb yu s i n gl i b s v m ”i nt h ef i r s tp a r t ,as e to f4 9a t t r i b u t e sw t g l e m 苎墅堡 ! 坐查兰堡主兰堡堡苎! 坚! ! ! 星 u s e df o rl i b s v mt op r e d i c tp r e m i r n a i na d d i t i o nt ot h eh a i n , i ns t r o e t n r ef e a t u r e s , m a n yo t h e rf e a t u r e sw e r ei n t e g r a t e di n t ot h ep r e d i c t i o np r o g r a m , i n c l u d i n gt h el o c a l s t r u c t u r e s e q u e n c ef e a t u r e s ,g cc o n t e n t ,f i e ee n e r g yo f p e rn u e l e o t i d e ,t h el e n g t ho f h a i r p i ns t r u c t u r e ,t h em a r g i no ft h et w oa r t u so fh a i r p i ns t r u c t u r e , l e n g t ho f c e n t r a l l o o p ,b u l g es i z e ,b u l g en u m b e r ,n u m b e ro f b a s ep a i r s ,l e n g t hb a s ep a i rr a t i o ( 1 e n g t ho f t h es e q u e n c e ,t h en u m b e ro fb a 。, ep a i r s ) ,t h ep r o p o r t i o no fn u m b e ro fb a s e p a i r st ot h e l e n g t ho fs e q u e n c e ,t h ep r o p o r t i o no f t h el e n g t ho f t a i lt ot h el e t l g t ho f s e q u e n c e ,t h e p r o p o r t i o no fn u m b e ro fa u g c g ut o n u m b e ro fb a s ep a i r sa n ds e v e r a ln o v e l f e a t u r e s ,f o re x a m p l et h es l o p ek o f z c u r v e s t h et r a i nd a t a s e t sa n dt e s td m a s e t sw e r ec o n s t m c t e da c c o r d i n gt ot h ei n c m c t i o n o fl i b s v m t h e n8 把s fd u t a s e t sw e r ep r e d i c t e dw i t ht h e3 2l o c a lf e a t u r e sa n d a l l4 9 f e a t u r e st h er e s u ri n d i c a t e dt h a tt h ea c c u r a c i e sw i t ha l l4 9f e a t u r e sw a sh i g h e rt h a n w i t ht h e3 2l o c a lf e a t u r e s f u r t h e r m o r et h ei m p o r t a n c eo f e v e r yf e a t u r ew a sa n a l y z e d p r i m a r i l y t h en e w1 7g l o b a lf e a t u r e sc o u l db eu s e dt od i s t i n g u i s ht h ep r e - m i r n a a n dh a i f p i f i l i k es e q u e n c ea s s u r e d l y b u tt h ee s s e n t i a la t l r i b u t en e e d e dt oe x p l o r e t h es e c o n dp a r tf o c u s e so nt h ee s t a b l i s h r n e mo faw e bb a s e dp r e m i r n a p r e d i c t i o ns y s t e m p a t f o n n , w r i t i 唱i np u r ll a n g u a g e ,r m m m ga sc g ip r o g r a mi na c o m p u t e rw i t ha p a c h ea n dl i n u xi n s t a l l e d t h i sp l a t f o r mr e c e i v e su s e rd a t aa n dt h e n p r e d i c t sp r e m i r n aa u t o m a l i c a l l yb yu s i n gl i b s v m ,a v o i d i n g t h ec o m p l i c a t e d c o m m a n dl i n e i n p u ti nl i n u x m s - d o ss y s t e m , m a k i n g 弘。一j r y 2 7i 卅n i o na s i m p l ej o b t h ep l a t f o r ma l s op r o v i d e sf r e ec h o i c e so fd i f f e r e n tc o m b i n a t i o n so f t h e a t t r i b u t e sf o rc o m p a r i s o no fp r e - m i r n ap r e d i c t i o nu s i n gd i f f e r e n tm o d e l sa n da l s o o u l p u lt h ea n r i b u t ev a l u e sf o r l l s ei no t h e rs o f t w a r e k e yw o r d s :b i o i n f o r m a t i c s ,l i b s v m ,h a i r p i n , t r i p l e t - s v m - c l a s s i f i e r 帅敏锋 中山大学硕士学位论文2 0 0 7 年1 1 月 n c b i w w w c g i p e r l h t m l s v m s n s p a c u c s c e s t s n p s 缩略词 n a t i o n a lc e n t e rf o rb i o t e c h n o l o g yi r f f o r m a t i o n 美国国立生物技术信息中心 w o r l dw i d e w 曲万维网 c o m m o ng a t e w a y i n t e r f a c e公共网关接口 p r a c t i c a le x t r a c t i o na n dr e p o r tl a n g u a g e 实用摘录和报告语言 h y p o rt e x tm a r k u pl a n g u a g e 超文本标记语言 s u p p o r tv e c t o rm a c h i n e 支持向量机 s e n s i t i v k y 灵敏性 s p e c i f i c i t y 特异性 a c c u r a c y 准确率 u n i v e r s i t yo f c a l i f o r n i a , s a n t ac r u z 圣塔克鲁兹加州大学 e x p r e s s e ds e q u e n c et a g 表达序列标签 s i n g l en u c l e o t i d ep o l y m o r p h i s m s 单核苷酸多态性 v l 原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研究 工作所取得的成果。除文中已经注明引用的内容外,本论文不包含任何其他个人 或集体已经发表或撰写过的作品成果。对本文的研究作出重要贡献的个入和集 体,均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。 躲忡锻锋 日期呷年,) 月岁日 学位论文使用授权声明 本人完全了解中山大学有关保留、使用学位论文的舰定,即:学校有权保留 学位论文并向凼家主管部门或j 葵指定机构送交论文的电子版和纸质版,有权将学 位论文用于非赢利f i 的的少量复制并允许论文进入学校图书馆、院系资料室被查 阅,有权将学位论文的内容编入有关数据库迸行检索,可以采用复印、缩印或其 他方法保存学位论文。 学位论文作者签名:忡铱锋 只期:川年,月j = 同i 黧孵 沙呼f b r 日 帅敏锋 中山大学硕士学位论文2 0 0 7 年1 1 月 第一章:前言 1 1 生物信息学概括 生物信息学是一f - j 2 0 世纪末兴起的新兴的交叉学科。它是以核酸、蛋白质等 生物大分子数据库为主要对象,以数学、信息学、计算机科学为主要手段,以计算 机硬件、软件和计算机网络为主要工具,对浩如烟海的原始数据进行存储、管理、 注释、加工,使之成为具有明确生物意义的生物信息。并通过对生物信息的查询、 搜索、比较、分析,从中获取基因编码、基因调控、核酸和蛋白质结构功能及其 相互关系等理性知识。在大量信息和知识的基础上探索生命起源、生物进化以 及细胞、器官和个体的发生、发育、病变、衰亡等生命科学中的重大问题。 广义地说,生物信息学是使用数学和信息学的观点、理论和方法去研究生命 现象,组织和分析呈指数级增长的生物信息数据的一门学科。首先是研究遗传物 质的载体d n a 及其编码的大分子量物质,以计算机为其主要工具,研究各种学科 交叉的生物信息学的研究方法,找出其规律性,进而发展出适合它的各种软件,对 逐步增长的浩如烟海的d n a 和蛋白质的序列和结构进行收集、整理、发布、提 取、加工、分析和发现。狭义地说,生物信息学是将计算机科学和数学应用于生 物大分子信息的获取、加工、存储、分类、检索【l 】。 在过去的几十年中分子生物学实验手段的不断完善,以及实验设备的不断更 新使得大规模的基因组测序成为可能。1 9 8 6 美国科学家r e n a t od u l b e c c o 率先提 出了人类基因组计划( h u m a n g e n o m ep r o j e c t ,h g p ) ,旨在阐明人类基因组3 1 0 9 核苷酸序列,破译人类全部遗传信息,使得人类第一次在分子水平上全面认识自 我。1 9 9 0 年正式启动,2 0 0 2 年人类基因组计划顺利完成。到目前为止连同人类 在内已经有超过2 0 种的真核生物已经得到了完整的基因组序列。同时还有大量 的细菌、病毒和线粒体等的全基因组序列已经公布。截至2 0 0 4 年l o 月由美国国 帅敏锋中山大学硕士学位论文2 0 0 7 年1 1 月 立生物技术信息中心( n c b i ) 建立和维护的g e n b a n k 数据库已经收录了3 8 ,0 0 0 ,0 0 0 万个序列的数据,总的碱基数超过了4 3 ,0 0 0 ,0 0 0 ,0 0 0 ( g e n b a n kr e l e a s e1 4 4 ) 。大 量生物信息的爆炸性增长使得必须使用计算机来分类和获取信息。以下为 g e n b a n k 数据增长统计( 图1 - l ,表1 - 1 ) : 图1 1g e n b a n k 数据库序列的增长趋势图 红色曲线代表序列的增长趋势蓝色斜面代表碱基的增长趋势( g e n b a n k 2 0 0 5 ) f i g u r e1 - lg r o w t ho f g e n b a n k t h er e dl i n ei n d i c a t et h eg r o w t ho f s e q u e n c e s ,t h eb l u eb e v e li n d i c a t et h eg r o w t ho f d n a b a s ep a i r s ( g e n b a n k ,2 0 0 5 ) 2 帅敏锋中山大学硕士学位论文2 0 0 7 年1 1 月 表1 - ig e n b a n k 数据增长统计 t a b l e1 - 1g e n b a n kg r o w t hs t a t i s t i c s r e l e a s ed a t eb a s ep a i t se r m i e s 3 6 8 0 3 3 8 6 0 6 d e c l 9 8 2 1 4 2 2 7 4 0 2 92 4 2 7 n o v l 9 8 3 3 3 6 8 7 6 54 1 7 5 。2 6 n o v l 9 8 4 3 6 5 2 0 4 4 2 05 7 0 0 s e p l 9 8 5 4 6 9 6 1 5 3 7 】9 9 7 8 n o v l 9 8 6 5 4 1 5 5 1 4 7 7 61 4 5 8 4 d e c l 9 8 7 5 8 2 3 8 0 0 d o o2 0 5 7 9 d e c 】9 8 8 6 2 3 4 7 6 2 5 8 52 8 7 9 1 d e e l 9 8 9 6 6 4 9 1 7 9 2 8 53 9 5 3 3 d e c l 9 9 0 7 0 7 1 9 4 7 4 2 65 5 6 2 7 - d e c l 9 9 l 7 4 1 0 1 0 0 8 4 8 67 8 6 0 8 d e c l 9 9 2 8 0 1 5 7 1 5 2 4 4 21 4 3 4 9 2 d e c l 9 9 3 8 6 2 1 7 1 0 2 4 6 22 1 5 2 7 3 d e c l 9 9 4 9 2 3 8 4 9 3 9 4 8 5 5 5 5 6 9 4 d e e l 9 9 5 9 8 6 5 1 9 7 2 9 8 41 0 2 1 2 1 1 d e c l 9 9 6 1 0 4 1 1 6 0 3 0 0 6 8 71 7 6 5 8 4 7 d e c l 9 9 7 1 1 0 2 0 0 8 7 6 1 7 8 42 8 3 7 8 9 7 d e c l 9 9 8 1 1 5 3 8 4 1 1 6 3 0 1 14 8 6 4 5 7 0 d e c l 9 9 9 1 2 l 1 1l o l 0 6 6 2 8 8 1 0 1 0 6 0 2 3 d e c2 0 0 0 1 2 7 1 5 8 4 9 9 2 1 4 3 81 4 9 7 6 3 1 0 d e e 2 0 0 l 1 3 3 2 8 5 0 7 9 9 0 1 6 62 2 3 1 8 8 8 3 d e c2 0 0 2 1 3 9 3 6 5 5 3 3 6 8 4 8 5 3 0 9 6 8 4 1 8 d e c2 0 0 3 1 4 5 4 4 5 7 5 7 4 5 1 7 6 4 0 6 0 4 3 1 9 d e c 2 0 0 4 1 5 】d e c 2 0 0 55 6 0 3 7 7 3 4 4 6 25 2 0 1 6 7 6 2 1 5 2f e b2 0 0 66 9 7 5 0 3 8 6 3 0 55 4 5 8 4 6 3 5 3 帅敏锋 中山大学硕士学位论文2 0 0 7 年1 1 月 从目前生物信息学的研究情况来看,国际上公认的生物信息学的研究内容, 大致包括以下几个方面【2 】: l 、生物信息的收集、存储、管理与提供。包括建立国际基本生物信息库和 生物信息传输的国际联网系统;建立生物信息数据质量的评估与检测系统;生物 信息的在线服务:生物信息可视化和专家系统。国际上三个大的生物信息中心即 美国的国家生物技术信息中心n c b i 、欧洲生物信息学研究所e b l 维护的和日本 d n a 数据库d d b j 已经建立和维持了源自数百种生物的d n a 序列的大型数据 库。 2 、功能基因组相关信息分析。包括与大规模基因表达谱分析相关的算法、 软件研究,基因表达调控网络的研究;与基因组信息相关的核酸、蛋白质空间结 构的预测和模拟。以及蛋白质功能预测的研究。 3 、算法的研究以及新软件的开发。这部分工作是生物信息学中最为复杂也 是最为核心的工作之一。只有更为严密精确的算法和更为快捷方便的软件才能更 有效的推动生物信息学的发展。 4 、基于i n t e r n c t 交互界面的开发和检索分析服务的提供。这项工作是生物学 最终面向科研人员的一个重要的接口。 5 、生物大分子结构模拟和药物设计。包括r n a ( 核糖核酸) 的结构模拟和反 义r n a 的分子设计;蛋白质空间结构模拟和分子设计;具有不同功能域的复合 蛋白质以及连接肽的设计;生物活性分子的电子结构计算和设计;纳米生物材料 的模拟与设计;基于d n a 结构的药物设计等。 6 、应用与发展研究。汇集与疾病相关的人类基因信息,发展患者样品序列 信息检测技术和基于序列信息选择表达载体、引物的技术,建立与动植物良种繁 育相关的数据库以及与大分子设计和药物设计相关的数据库。 1 2 生物信息学软件的开发平台和所用工具介绍 基于计算机的生物信息学分析需要有强大的分析平台以及各种不同的分析 软件的支持【引。一般的用于生物信息学分析的系统平台在硬件上有大型机、工作 站甚至p c 机,相应的操作系统是不一样的,有可能是u n i x ( l i n u x ) ,或者是 m a co s ,或w i n d o w s 等等。编程语言方面生物信息学常用的编程语言有p e r l 、 4 帅敏锋 中山大学硕士学位论文2 0 0 7 年1 1 月 c 4 1 、c + + 、j a v a 、p y t h o n 等等。其中p c r l 、j a v a 和p y t h o n 是目前生物信息学种 最为流行也是实用的三种编程语言。为了方便生物信息学程序的开发目前国际上 还专门为这三种语言开发了针对生物信息学的模块b i o p e r l 、b i o j a v a 和b i o p y t h o 。 而数据库系统的选择上有采用大型的关系型数据库系统如o r a c l e ,也有采用免费 的数据库系统如m y s q l 和p o s t s q l 等。 下面简要的介绍一下本研究中使用到的开发环境相关的l i n u x 操作系统; p e r l 编程语言以及b l a s t c l u s t ,v i e n n ar n a p a c k a g e ,机器学习等生物相关软件。 1 2 1l i n a x 操作系统 l i n u x 是一个免费的、类似u n i x 的独立的操作系统。l i n u x 系统的内核最早由 芬兰人l i n u sb e n e d i c tt o r v a l d s 开发而成1 9 9 1 年8 月他通过u s e n e tn e w s 向世界公 布了该系统0 0 1 版的源代码【5 1 。l i n u x 是当今流行的u n i xs y s t e mv ,b s d 与 p o s i x 1 的混合体,他容纳了这些u n i x 版本的功能,但是采用了完全独立的代 码。 l i n u x 的特点【6 】: l i n u x 是多用户、多任务的操作系统,与m s d o s 的单用户、单进程的操 作系统有着本质的区别。l i n u x 提供对多用户的帐号与文件访问权限的保 护机制,增强了系统的安全性。 l i n u x 支持虚拟内存。 l i n u x 支持多文件系统。目前支持的文件系统有:e x t 3 、e x t 2 、e x t 、 x i a f s 、i s o f s 、h p f s 、m s d o s 、u m s d o s 、p r o c 、n f s 、s y s v 、 m 【n i x 、s m b 、u f s 、n c p 、v f a t 、a f f s 。l i n u x 最常用的文件系统是 e x t 3 ,并且还有许多特有的功能,使它比常规的u n i x 文件系统更加安 全。 l i n u x 支持动态链接用户程序的执行往往离不开标准库的支持,一般的系 统往往采用静态链接方式,即在装配阶段就己将用户程序和标准库链接 好,这样,当多个进程运行时可能会出现库代码在内存中有多个副本而 浪费存储空间的情况。 l i n u x 上g 用的程序设计语言应有尽有。c ,c + + ,p a s c a l , p h p ,p e r l 等等。而 帅敏锋 中山大学硕士学位论文2 0 0 7 年1 1 月 且s h e l l ( 命令解释程序) 同时可以作为一种编程语言使用。并且提供大 量的程序开发工具,例如:调试程序的g d b ,版本控制工具r c s ,编译工具 g c c 等等。 l i n u x 提供g u i 图形用户接口,支持xw m d o w 系统。 在l i n u x 中,用户可以使用所有的网络服务,如网络文件系统、远程登 录等。s l i p 和p p p 能支持串行线上的t c p i p 协议的使用,这意味着用 户可用一个高速m o d e m 通过电话线连入i n t e r n e t 网中。 l i n u x :i 茸多种文本编辑程序,如:v i ,j o e ,e m a c s ,o f f i c e 等。 另外现在大多数的生物信息学的分析软件都是基于l i n u x 平台开发的。 基于l i n u x 的诸多优点使得现在大多数的生物信息学分析平台都选用l i n u x 作为操作系统。 1 2 2p e r l 编程语言 p e r l 强大的正则表达式以及字符串操作使这个工作变得简单而没有其它语 言能相比1 7 。p e r l 非常擅长于切割,扭转,绞,弄平,总结,以及其它的操作文 字文件f 蚋。生物信息的内容大部分是以文字文件存在的,如物种名称,种属关系, 基因或序列的注解,评注,目录查阅,就连d n a 和蛋白质序列本身也是以文字形 式出现的。正是因为这样,在生物信息资料处理的时候最多涉及的也是字符操作 问题。各种不同格式的生物信息资料之间的相互转换是一个很难解决的问题,而 p e r l 由于具有方便和强大的字符操作功能,使得它在这方面具有特殊的用途【9 】。 p e r l 能够容错。生物信息的内容通常是不完全的,错误或者说误差从数据 的产生时候可能就产生了。另外生物数据的某个项目参数有可能被忽略,也有可 能是空着的,或是某个项目参数固定了是某个值澈预期要出现好几次( 举例来说, 一个实验可能被重复的操作) ,或是资料以手动输入所以有错误。p e r l 并不介意 某个值是空的或是有奇怪的字符。正则表达式由于具有一点的弹性,能够轻松的 处理和改正这些错误。 p e r l 是组件导向的。p e r l 鼓励人们将他们的软件写成模块化,不论是用p e r l 函数库模块或是传统的u n i x 工具导向的方式。如d b i 就是p e r l 的个数据库连 接模块。外部程序能够轻易的被整合进p e r l 程序,靠着管道( p i p e ) ,系统调用, 6 帅敏锋中山大学硕士学位论文 2 0 0 7 年1 1 月 或是插座( s o c k e t ) 。p e r l 5 引进的动态载入器允许人们使用c 的函数,或者让整 个编程过的函数库,被使用在p e d 直译器中。最近的成果是世界各地的智能结 晶都会收录在一组模块里面,称为 b i o p e r l 。b i o p e r i 作为p e r l 的扩充的专门用 于生物信息的工具与函数集,自然也继承了p e r l 的众多优点。b i o p e r l 现在已发展 成为一个令人瞩目的国际性的自由软件开发计划,b i o p e r l 在生物信息学的使用 加速了生物信息学、基因组学以及其他生命科学研究的发展 1 0 1 。 1 2 3b k s t c l u s t b l a s t 是由美国国立生物技术信息中心( n c b i ) 开发的一个基于序列相似 性的数据库搜索程序。b l a s t 是“局部相似性基本查询工具 ( b a s i cl o c a l a l i g n m e n ts e a r c ht 0 0 1 ) 的缩写。b l a s t 是一个序列相似性搜索的程序包,其中包含 了很多个独立的程序,例如b l a s t n , m e g a b l a s t ,b l a s t p ,b l a s a x , t b l a s t n , t b l a s t x , b l a s t c l u s t 等,这些程序是根据查询的对象和数据库的不同来定义的。 b l a s t c l u s t 是基于两两比对、利用了标准的b l a s t 包对核酸或蛋白质进行聚类 分析,从而生成非冗余的序列集。对核酸来讲,主要用到的是m e g a b l a s t 算法, 而对蛋白质来讲,用的是b l a s t p 算法。本论文主要利用b l a s t c l u s t 对p r e m i r n a 进 行冗余序列分析,用法如下: b l a s t c t u s t - ii n t i l e 呻o u t f i l e 呻f - l - bt s w 其q b i n t i l e 是输入文件,o u t f i l e 为输出文件i 。 1 2 4v i e n n ar n a p a c k a g e 该软件包是维也纳大学r n a 二级结构预测与比较软件包,包括以下软件: r n a f o l d 预测最小能量二级结构,并给出图像;r n a e v a l 估算r n a 二级结构的 能量值;r n a h e a t 计算一个r n a 序列的融解曲线;r n a i n v e r s e 预定结构的序列 的反转折叠;r n a d i s t a n e e 比较二级结构;r n a p d i s t 比较碱基对的概率; r n a s u b o p t 完善次优折叠。还有r n a a l i f o i d 和r n a p l o t 。本论文是利用其中的 r n a f o l d 对p r e m i r n a 进行二级结构的预测,以下是r n a f o l d l l 2 1 的预测结果: 7 帅敏锋中山大学硕士学位论文2 0 0 7 年1 1 月 c u c u a g a c g c 【l u c 唧 c a g u g 删c c c l 眦蚴u g g g 【i u c g c g c u i g | i c g g 6 a l u c 从g c a c a g ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( ) ) ) ) ) ) ) ) ) ) ) ) ) ) ) ) ) ) ) ) ) ) ) ,) ) ) ) ) ) ) ) ) ( - 2 9 6 0 ) 其中第l 行是r n a 宁列,第2 行是该软件对其二级结构的表示,“( ”和“) ”分别表 示序列5 端及3 端匹配的碱基,“”表示序列中不匹配的碱基,数据表示的该序列 二级结构的自由能。 1 2 5u c s c ( u n i v e r s i t yo f c a l i f o r n i a ,s a n t ac r u z ) 基因组浏览器 u c s c 基因组浏览器的主页为h 1 1 p :g e n o m e u c s c e d u ,最早是用来支持人类 基因组计划。2 0 0 1 年8 月的基因组浏览器建立于u c s c 使用在当时所能获得的 序列数据建立的人类基因组汇编。2 0 0 1 年1 2 月的浏览器显示了对n c b l 的人类 基因组b u i l d 2 8 的注解。而2 0 0 2 年4 月的浏览器显示了对n c b i 的b u i i d2 9 的注 解。u c s c 不仅提供最新版的小鼠和人类基因组数据,同时也提供许多较早的汇 编,还提供了用于最新组装的小鼠基因组序列浏览器和b l a t 搜索工具。u c s c 基因组浏览器会更新大量附有相关注释的基因组数据,在很多水平上可快速可视 化及排列数据。通过u c s c 基因组浏览器获得的物种基因组,每个均附有注释, 注释包括m r n a ,表达序列标签( e s t ) 比对,基因预测,跨种同源性,高级图, 单核苷酸多态性( s n p s ) 等 1 3 l 。 1 2 6 机器学习 随着人类以及其它许多物种基因组测序的完成,海量的序列数据产生了,要 对生物序列信息进行大规模的数据挖掘,常规的计算机算法虽然仍可以应用,但 越来越不能满足实际工作的需要。究其原因,是由于生物系统本质上的模型复杂 性及缺乏在分子层上建立的完备的生命组织理论。机器学习( m a c h i n el e a r n i n g ) 是一种自动的、具有智能学习技术的方法,有助于我们利用已有的先验知识来挖 掘新的信息,其方法很多,本论文中利用近年来发展迅速的机器学习的新方法 支持向量机( s u p p o r tv e c t o rm a c h i n e ,简称s v m ) 来进行p r e m i r n a 的研 究。 8 帅敏锋中山大学硕士学位论文2 0 0 7 年1 1 月 1 2 6 1 支持向量机1 1 4 j 支持向量机的研究最初是针对模式识别中的两类线性可分问题( 见图1 2 ) 。 图1 2 中,几条分割线都能正确地将两类样本分开,即都能保证使经验风险为最 小,这样的分割线有无限多条。然而,为了使得统计学习理论指出的置信范围最 小,我们必须找出一条分割线使两类样本的间隙最大,这条分割线称之为最优分 类线,在更高维的空间中称为最优分类平面( 见图1 3 ) 。图1 3 中h 1 、h 2 分 别为过各类中离分类线( 平面) 最近的样本且平行于分类线( 平面) 的直线( 平 面) ,它们之间的距离叫做分类间隔( m a r g i n ) 。 图1 - 2 线性可分的两类分类问题 f i g u r e1 - 2l i n e a rs e p a r a t i n gh y p e r p l a n c sf o r t h es e p a r a b l ec a 5 e m 图1 3 最优分类平面 f i g m e1 - 3t h eo p t i m a l i t yh y p e r p l a n e 9 帅敏锋 中山大学硕士学位论文2 0 0 7 年1 1 月 1 2 6 2 支持向量机计算平台 目前支持向量机计算平台主要包括s v m l i g h t 和l i b s v m ”】,其中l i b s v m 是台湾大学林智仁( c h i h - j e n l i n ) 博士等开发设计的一个操作简单、易于使用、快 速有效的通用s v m 软件包,可以解决分类问题、回归问题以及分布估计等问题, 提供了线性、多项式、径向基和s 形函数四种常用的核函数供选择等。l i b s v m 是一个开源的软件包,需要者都可以免费的从作者的个人主页 h t t p :w w w e s i e n t u e d u t w - - c j l i r d 处获得。他不仅提供了l i b s v m 的c 十 语言的 算法源代码,还提供了多种语言的接口,可以方便的在w m d o w s 或u n i x 平台 下使用。本论文正是利用l i b s v m 软件包来进行p r e - m i r n a 的研究1 1 6 】。以下简 单介绍下使用l i b s v m 软件包步骤、数据格式及具体用法: l j b s v m 使用的一般步骤是: ( 1 ) 按照l i b s v m 软件包所要求的格式准备数据集; ( 2 ) 对数据进行简单的缩放操作; ( 3 ) 考虑选用r b f 核函数; ( 4 ) 采用交叉验证选择最佳参数c 与g ; ( 5 ) 采用最佳参数c 与g 对整个训练集进行训练获取支持向量机模型; ( 6 ) 利用获取的模型进行测试

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论