(应用数学专业论文)基于模式识别方法的生物序列和基因表达数据分析.pdf_第1页
(应用数学专业论文)基于模式识别方法的生物序列和基因表达数据分析.pdf_第2页
(应用数学专业论文)基于模式识别方法的生物序列和基因表达数据分析.pdf_第3页
(应用数学专业论文)基于模式识别方法的生物序列和基因表达数据分析.pdf_第4页
(应用数学专业论文)基于模式识别方法的生物序列和基因表达数据分析.pdf_第5页
已阅读5页,还剩134页未读 继续免费阅读

(应用数学专业论文)基于模式识别方法的生物序列和基因表达数据分析.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 论文题目:基于模式识别方法的生物序列和基因表达数据分析 专业:应用数学 姓名:张树波 指导老师:赖剑煌教授 摘要 随着分子生物学的发展,特别是人类基因组计划的顺利完成,生命科学研 究进入后基因组时代。在这个时代,大量生物数据的积累为人们在分子水平探 索生命的奥秘提供了宝贵的第一手资料,然而,海量生物数据的供给与现有数 据分析能力之间的矛盾日益突出,生命科学的发展迫切需要自动的、高效的、 可靠的数据分析和挖掘技术,于是,一门以生命科学和计算机科学为基础的崭 新的、拥有巨大发展潜力的新学科逐渐兴起,这就是生物信息学。 模式识别是一种利用计算机对输入的数据进行分析,从而实现对研究对象 的解释、归类、和鉴别分析,进而揭示事物本质的技术。在上世纪6 0 7 0 年 代模式识别技术得到快速的发展,并且逐渐在光学字符识别、语音识别和医学 数据分析方面得到成功应用。近年来,模式识别技术也开始被用到生物数据分 析中,并且在生命科学研究中扮演着越来越重要的角色,尤其是在基因识别、 基因发现、m o t i f 识别、蛋白质分类和识别、系统发育分析以及基因表达数据分 析等多个研究领域日渐显示出传统实验技术无法比拟的优势。但是由于生物数 据有其固有的特征,比如维数不固定、数据集中各类样本严重不平衡,而且一 种生物现象可以从多个角度进行刻画,这就给传统模式识别技术在生物数据分 析中的有效应用带来新的挑战。本文的目标是研究分析生物序列和基因表达数 据的新算法,力求对生物数据进行有效的刻画和分析,从而更好地揭示隐藏在 海量数据中的生命规律。 论文第一章首先回顾了生物信息学的发展历史和模式识别技术在这一领域 t 摘要 的应用情况,然后给出论文章节的安排。第二章提出了一种预测蛋白质序列亚 细胞定位的方法。第三章和第四章研究如何根据全基因组序列分析和推断物种 之间的进化关系。第五章研究基因表达数据分析的问题。最后在第六章对论文 进行总结,并提出今后的一些研究建议。 第二章提出了一种基于最优局部信息融合的蛋白质亚细胞定位预测方法。 该方法基于蛋白质合成过程的分选机制,从蛋白质序列中搜索出一个最佳的分 割位置,用以将一条完整的蛋白质序列分割成分选信号和成熟蛋白质序列两个 部分,然后分别从这两条序列中提取相应的特征,并且将这两种特征结合起来 刻画整条蛋白质序列,最后设计基于支持向量机的融合分类器对蛋白质亚细胞 定位进行预测。在公共蛋白质序列数据集上的实验结果表明,本章提出的方法 能够有效改进蛋白质亚细胞定位预测的效果,同时,在真核蛋白质上找到的蛋 白质序列分割位点与真实的生物现象相符合,这能够为预测蛋白质的剪切位点 提供有用参考信息。 第三章提出了一种基于谱聚类技术的系统发育树重构算法。该方法从全局 的观点出发,采用分裂的策略,利用谱图聚类方法( s p e c t r a lg r a p h c l u s t e r i n g ,简写为s g c ) 研究物种之间的进化关系。首先构造一个距离矩 阵,其中元素表示两个物种之间的进化距离,然后利用谱图理论求解聚类问 题,就是根据最大一最小准则构造划分图的最优化问题,再通过解该矩阵的 l a p l a c e 矩阵的特征值问题来求解最优化问题,最后,根据最大特征值所对应 的特征向量将物种进行分类。s g c 算法在模拟数据上得到比邻接法 ( n e i g h b o r - j o i n i n g ,简写为n j ) 更加准确的结果,而在杆状病毒基因组数据 集上推断的系统发育树,较好地支持目前公认的分类结果。 第四章提出了一种基于全基因组信息融合的系统发育分析方法。首先定义 了两种新的基因组进化距离度量:有序基因块顺序重排的编辑距离和共有基因 一致性距离度量,然后通过一个线性模型将这两种进化信息与基因含量变化信 息融合起来,构造一个包含三种进化信息的距离度量,最后根据这种综合的距 离度量推断种群的系统发育树。本章方法在模拟数据集上得到的实验结果比采 用单独的进化信息更加具有灵敏性,尤其是对那些进化距离比较短的物种,我 们的方法能够有效地刻画它们之间的进化关系;在虹彩病毒和痘病毒数据集 i i 摘要 上,得到的实验结果与目前公认的分类结果相吻合。 第五章提出了一个基因选择模型:i n t e g r a t ef i l t e r + w r a p p e r 。首先提出了 四种用于评价基因重要性的标准:信息增益、决策树、局部可分性和f i s h e r s c o r e ,接着根据这四种标准分别对基因的重要性进行排序,然后用每个基因 的预测准确率对它们进行加权,计算出每个基因重要性的综合得分,进而筛选 掉那些得分低的基因,最后采用f o r w a r d b a c k w a r d 策略,对重要性得分高的基 因子集进一步筛选。在五个癌症相关数据集上采用本章方法找到较少数量的关 键基因,得到较高的识别准确率。 关键词:生物信息学,模式识别,蛋白质亚细胞定位,系统发育树,谱聚类, 基因表达数据,基因选择。 i i a b s t r a c t t i t l e m a j o r n a m e :p a t t e r n r e c o g n i t i o nm e t h o d sb a s e db i o l o g i c a l s e q u e n c e sa n dg e n ee x p r e s s i o nd a t aa n a l y s i s :a p p l i e dm a t h e m a t i c s :s h u b oz h a n g s u p e r v i s o r :p r o f e s s o rj i a n - h u a n gl a i a b s t r a c t w i t ht h ea d v a n c e m e n ti nm o l e c u l a rb i o l o g y , e s p e c i a l l yt h es u c c e s s f u l a c h i e v e m e n to fh u m a ng e n o m i cp l a n ( h g p ) ,t h el i f es c i e n c eh a sc o m ei n t o t h ep o s f g e n o m ee r a i nt h i s e r a ,t h ea c c u m u l a t i o no fl a r g ea m o u n to f b i o l o g i c a ld a t ap r o v i d e dp r e c i o u sf i r s t h a n dm a t e r i a lt op r o b et h em y s t e r i e so f l i f eo nt h em o l e c u l a rl e v e l m e a n w h i l e ,t h ec o n t r a d i c t i o nb e t w e e nt h e s u p p l yo f m a s sd a t aa n dt h ed a t aa n a l y t i c a la b i l i t yi sb e c o m i n gm o r ea n dm o r es e r i o u s t h er e s e a r c ho fl i f es c i e n c ei s i n g r e a tn e e d o fa u t o m a t i c ,e f f e c t i v ea n d r e l i a b l e a n a l y t i c a la p p m a c h e s t h u s ,a n e w d i s c i p l i n e n a m e da s b i o i n f o r m a t i c sc o m b i n e db yl i f es c i e n c ea n dc o m p u t e rs c i e n c ei sc o m i n gi n t o b e i n g p a t t e r nr e c o g n i t i o ni so n ek i n do ft e c h n i q u et oi n t e r p r e t ,c l u s t e ra n d d i s c r i m i n a t ei n v e s t i g a t e do b j e c tb ya n a l y z i n gt h ei n p u td a t a i tm a d eg r e a t p r o g r e s si nt h e6 0 s 一7 0 so fl a s tc e n t u r y , a n dh a sb e e ns u c c e s s f u l l yu s e di n s o m ep r a c t i c e ss u c ha so p t i c a lc h a r a c t e rr e c o g n i t i o n ,s p e e c hr e c o g n i t i o n , b i o m e d i c a ld a t aa n a l y s i s ,a n ds oo n i nt h el a s tf e wy e a m ,p a t t e r nr e c o g n i t i o n t e c h n i q u e h a sb e e nu s e df o r b i o l o g i c a l d a t a a n a l y s i s ,s u c h a sg e n e r e c o g n i t i o n ,g e n ed i s c o v e r y , m o t i f i d e n t i f i c a t i o n 。p r o t e i ns e q u e n c e s c l a s s i f i c a t i o n ,p h y l o g e n yi n f e r e n c ea n dg e n ee x p r e s s i o nd a t aa n a l y s i s a n di t h a ss h o w ng r e a ta d v a n t a g ei n c o m p a r i s o nw i t ht r a d i t i o n a le x p e r i m e n t a l v a b s t r a c t m e a n si n m a n ya s p e c t s h o w e v e r , t h eb i o l o g i c a l d a t ah a su n c e r t a i n d i m e n s i o n ,t h es a m p l es i z eo fd i f f e r e n t c l a s s e si no n ed a t a s e ti so f t e n i m b a l a n c e d 。a n dt h eb i o l o g i c a lp h e n o m e n o nc a nb ed e s c r i b e df r o md i f f e r e n t a n g l e ,t h e s eh a v eb r o u g h tn e wc h a l l e n g ef o rt h ee f f e c t i v ea p p l i c a t i o no f p a t t e r nr e c o g n i t i o ni nt h ed o m a i no fb i o l o g i c a ld a t aa n a l y s i s t h ef o c u so ft h i s d i s s e r t a t i o ni st od e v e l o pn e wa p p r o a c h e st oc h a r a c t e r i z ea n da n a l y z e b i o l o g i c a ld a t as u c ha sp r o t e i ns e q u e n c e s ,c o m p l e t eg e n o m es e q u e n c e sa n d g e n ee x p r e s s i o nd a t a ,s oa st or e v e a lt h em y s t e r yo fl i f e h i d e si nt h em a s s b i o l o g i c a ld a t a a tt h eb e g i n n i n go ft h i s d i s s e r t a t i o n ,w e r e v i e w e dt h ep r o g r e s si n b i o i n f o r m a t i c sa n dt h ea p p l i c a t i o no fp a t t e r nr e c o g n i t i o ni nt h ed o m a i n i n s e c t i o nt w o ,w ep r o p o s e dan o v e lm e t h o dt o p r e d i c t t h es u b c e l l u l a r l o c a l i z a t i o no f p r o t e i n t h e n a n a l g o r i t h m f o rt h er e c o n s t r u c t i o no f p h y l o g e n e t i ct r e e sw a sd e v e l o p e di ns e c t i o nt h r e e a f t e rt h a t ,w ed e v e l o p e d a na p p r o a c ht oi n f e rp h y l o g e n e t i ct r e e sb yc o m b i n i n gd i f f e r e n tk i n d so f i n f o r m a t i o nd e r i v e df r o mc o m p l e t eg e n o m es e q u e n c e si ns e c t i o nf o u r i nt h e f i f t hp a r to ft h i sd i s s e r t a t i o n ,w ea d d r e s s e dt h ep r o b l e mo fg e n es e l e c t i o nf r o m g e n ee x p r e s s i o nd a t a f i n a l l y , w ed r e wt h ec o n c l u s i o na n dp u tf o r w a r ds o m e f u t u r er e s e a r c hd i r e c t i o n si ns e c l :i o ns i x i ns e c t i o nt w o ,an o v e lm e t h o dw a sp r o p o s e dt op r e d i c tt h es u b c e l l u l a r l o c a l i z a t i o no fp r o t e i nb a s e do no p t i m a ll o c a li n f o r m a t i o n f i r s t l y ,a no p t i m a l s p l i ts i t eo nap r o t e i ns e q u e n c ew a ss e a r c h e do u tb a s e do nt h ep r o t e i n s t a r g e t i n gm e c h a n i s m ,a n dt h ec o m p l e t ep r o t e i ns e q u e n c ew a sd i v i d e di n t oa s o r t i n gs u b s e q u e n c ea n dam a t u r ep r o t e i ns e q u e n c e t h e nt h ef e a t u r e s e x t r a c t e df r o mt h e s et w os u b s e q u e n c e sw e r ec o m b i n e dt oc h a r a c t e r i z et h e w h o l ep r o t e i ns e q u e n c e f i n a l l y , ah y b r i ds y s t e mb a s e do ns u p p o r tv e c t o r m a c h i n ew a sc o n s t r u c t e dt op r e d i c tt h ep r o t e i n ss u b c e l l u l a rl o c a l i z a t i o n t h et h i r dp a r to ft h i sd i s s e r t a t i o n p r o p o s e da na l g o r i t h mb a s e d o n s p e c t r a lg r a p hc l u s t e r i n g ( s g c ) t or e c o n s t r u c tp h l o g e n e t i ct r e e s t h e v i a b s t r a c t a l g o r i t h ma d o p t e ds p e c t r a lg r a p ht h e o r yt os o l v et h ec l u s t e r i n gp r o b l e m ,i t e m p l o y e dm a x i m u m - m i n i m u mc u tc r i t e r i o nt oc o n s t r u c ta no p t i m i z a t i o n p r o b l e mf o rt h eg r a p h c u tp r o b l e m ,a n dc i r c u m v e n t e dt h e o p t i m i z a t i o n p r o b l e mb ys o l v i n gag e n e r a l i z e de i g e n v a l u es y s t e m t h e n ,t h ee i g e n v e c t o r c o r r e s p o n d st ot h em a x i m a le i g e n v a l u ew a su s e dt oc l u s t e rd i f f e r e n ts p e c i e s t h i sa l g o r i t h mi n f e r r e dm o r ea c c u r a t et r e et o p o l o g yt h a nn e i g h b o r - j o i n i n g ( n j ) a l g o r i t h m o ns i m u l a t e d d a t a s e t s ,a n ds t r o n g l ys u p p o r t e dt h ep r e v i o u s h y p o t h e s i si n d u c e db yo t h e rm e t h o d sf o rb a c u l o v i r u sg e n o m e s i ns e c t i o nf o u r , w ed e v e l o p e dam e t h o db a s e do nh y b r i d g e n o m e d i s t a n c em e t r i cf o rp h y l o g e n ya n a l y s i s a t f i r s t ,t h r e ek i n d so fd i s t a n c e m e t r i c sw e r ed e r i v e df r o mw h o l eg e n o m es e q u e n c e s :d i s t a n c eb a s e do n g e n ec o n t e n t , e d i td i s t a n c eo fs o r t e d b l o c kg e n er e a r r a n g e m e n ta n d d i s t a n c eb a s e do nt h em e a ni d e n t i t yo fc o m m o ng e n e s s e c o n d l y , t h et h r e e d i s t a n c em e t r i c sw e r ef u s e di n t oah y b r i dd i s t a n c em e t r i c f i n a l l y , t h eh y b r i d i n f o r m a t i o nw a se m p l o y e dt or e c o n s t r u c tp h y l o g e n e t i ct r e e s t h em e t h o d b a s e do nh y b r i dd i s t a n c ew a s s u c c e s s f u l l ya p p l i e dt ob o t hs i m u l a t e dd a t a s e t s a n dr e a lc a s e s t h ep h y l o g e n e t i ct r e e si n f e r r e df r o mh y b r i dd i s t a n c em e t r i c o ns i m u l a t e dd a t a s e t sh a dm o r es e n s i t i v i t yt h a nt h o s ef r o mi n d i v i d u a ld i s t a n c e m e t r i c ,a n dt h er e s u l t so ni r i d o v i r u sa n dp o x i v i r u sd a t a s e t sa r ec o n s i s t e n tw i t h t h ea c c e p t e dp h y l o g e n i e so nt h e s et w og e n e r a t h ef i f t hp a r to ft h i sd i s s e r t a t i o nf o c u s e do nt h ep r o b l e mo f g e n e s e l e c t i o nf r o mg e n ee x p r e s s i o nd a t a w ed e v e l o p e dam o d e ln a m e da s “i n t e g r a t ef i l t e r + w r a p p e r ”f o rg e n es e l e c t i o n f i r s t l y , f o u rc r i t e r i aw e r e p r o p o s e dt os c o r et h ei m p o r t a n c eo fe a c hg e n e :i n f o r m a t i o ng a i n ,d e c i s i o n t r e e ,l o c a ls e p a r a b i l i t ya n df i s h e rs c o r e t h e nt h eg e n e sw e r er a n k e da n d w e i g h t e da c c o r d i n gt ot h ep r e d i c t i o na c c u r a c yo b t a i n e db yt h ec o r r e s p o n d i n g c l a s s i f i e r s ,a n dt h ei n t e g r a t e ds c o r ef o re a c hg e n ew a sc o m p u t e d t h i r d l y ,t h e g e n e sw i t hh i g h e rs c o r ev a l u ew e r es e l e c t e da sc a n d i d a t eg e n e s f i n a l l y , t h e c a n d i d a t eg e n e sw e r ef u r t h e rf i l t e r e db ya d o p t i n gaf o r w a r d - b a c k w a r ds e a r c h v i i a b s t r a c t s t r a t e g y f i v ec a n c e rd a t a s e t sw e r eu s e dt ot e s to u rm e t h o d ,a n dt h er e s u l t s s h o wt h a to u ra p p r o a c ho b t a i n e db e t t e rp r e d i c t i o na c c u r a c ya n dn e e d e df e w e r g e n e si nc o m p a r i s o nw i t ho t h e rm e t h o d s k e yw o r d s :b i o i n f o r m a t i c s ;p a t t e r nr e c o g n i t i o n ;s u b c e l l u l a rl o c a l i z a t i o n o f p r o t e i n ;p h y l o g e n e t i ct r e e ;s p e c i a lg r a p hc l u s t e r i n g ;g e n ee x p r e s s i o nd a t a ; g e n es e l e c t i o n 学位论文使用授权声明 本人完全了解中山大学有关保留、使用学位论文的规定,即: 学校有权保留学位论文并向国家主管部门或其指定机构送交论文的 电子版和纸质版,有权将学位论文用于非赢利目的的少量复制并允 许论文进入学校图书馆、院系资料室被查阅,有权将学位论文的内 容编入有关数据库进行检索,可以采用复印、缩印或其他方法保存 学位论文。 学位论文作者签名:弘材讲叉 导师签名: 醐:呷明坫日 学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下k 独立进行研 究工作所取得的成果。除文中已经注明引用的内容外,本论文不包含任何其他 个人或集体已经发表或撰写过的作品成果。对本文的研究作出重要贡献的个人 和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本 人承担。 学位论文作者签名:猖稍诎久 日期:唯f 月日 l 张树波中山大学博士学位论文 第1 章绪论 随着现代分子生物学的发展,特别是人类基因组计划的顺利完成,生命科 学研究已经进入后基因组时代。近年来生物数据急剧增长,生物学家面对的不 再是实验记录本上或文献上的零散的、少量的、简单的数据,而是公共数据库 中数以万兆计的、各种各样的复杂生物数据。大量数据的积累一方面为人类从 分子水平探索生命奥秘提供了宝贵的第一手资料;另一方面,传统的数据处理 和分析手段的局限性日益明显。因此,如何有效地收集、管理、检索和分析生 物数据的问题被摆到了非常重要的位置,这就迫使人们寻求一种有效的方法和 工具去收集、组织和管理这些数据,并且对它们进行储存、加工和进一步利 用。同时,海量的生物学数据中必然蕴含着重要的生物学规律,这些规律将是 解释生命之谜的关键,为了找到这些生物规律,需要高效的方法来协助人类实 现对这些数据的整理、分析和挖掘。自2 0 世纪8 0 年代以来,以数据的收集、 存储、传输、处理和分析为本质的计算机科学技术、信息技术和网络技术迅速 发展,为生物数据的收集、存储、处理和分析提供了强有力的技术支持,被广 泛地应用到生物数据的收集、存储、处理和分析中,并且逐渐渗透到生物科学 的各研究领域。在这种情况下,一门以生命科学和计算机科学为基础的崭新 的、拥有巨大发展潜力的新学科逐渐兴起,这就是生物信息学。 模式识别是通过计算机用数学的方法来实现对数据的描述、分析、聚类和 判别,自从上世纪6 0 7 0 年代以来,模式识别技术发展迅速,并且已经在光 学字符识别、语音识别和机器视觉等领域取得成功的应用,在生物数据分析方 面的应用也逐渐成为研究热点。本文研究模式识别新方法在生物信息学中的应 用。 本章首先回顾生物信息学的发展历史,接着概述生物信息学的研究内容, 然后总结模式识别方法在生物信息学中的应用情况,最后给出本文的内容安 排。 第一章绪论 1 1 生物信息学概述 生物信息学( b i o i n f o r m a t i c s ) 是一门研究生物数据的收集、存储、加工与 分析,以期了解、发现和揭示隐藏在生物数据中的生命规律的学科,它是生命 科学、计算机科学、数学、信息学、物理和化学等多学科交叉的年轻学科。就 生物信息学的发展历史来说,早在1 9 5 6 年,在美国田纳西州盖特林堡召开的 首次“生物学中的信息理论研讨会”上,人们就已经提出了生物信息学的概 念;在1 9 8 7 年,林华安博士首次正式将收集、分析遗传信息以及分发给研究 机构的新学科命名为生物信息学( b i o i n f o r m a t i c s ) ,1 9 9 0 年,第一次“世界生 物信息与基因组研讨会( b i o i n f o r m a t i c sa n dg e n o m er e s e a r c hi n t e r n a t i o n a l c o n f e r e n c e ) 在美国召开,生物信息学逐渐在学术界引起重视。到了1 9 9 6 年 后生物信息学开始真正引起人们的广泛关注,生物信息学这个名词也开始被广 泛使用。2 0 0 1 年,第十一次“世界生物信息与基因组研讨会”的召开,表明生 物信息学在学术界已经奠定了完整的基础,这同时也标志着生物信息学作为一 门新学科正式形成。在这个过程中,生物信息学的发展与生命科学和计算机科 学等学科的发展紧密联系,尤其是在过去的2 0 多年时间里,生物信息学伴随着 计算机科学和信息科学的迅猛发展而快速发展。 关于生物信息学的定义,人们从不同的角度给出了生物信息学的多种定 义,1 9 8 8 年林华安给出生物信息学的定义是:收集、分析遗传信息。1 9 9 5 年,在美国人类基因组计划的第一个五年总结报告中,科学家们给出了一个较 为完整的生物信息学定义:生物信息学是一门交叉科学,它包括了生物信息的 获取、加工、存储、分配、分析、解释等在内的所有方面,它综合运用数学、 计算机科学和生物学的各种工具,来阐明和解释大量数据所包含的生物学意 义。当前生物信息学领域的研究主要集中于核苷酸、氨基酸序列和基因表达数 据的存储、分类、检索和分析等方面,所以可以将生物信息学狭义地定义为: 应用数学、统计学、信息学理论和计算机科学技术对生物大分子信息进行获 取、加工、存储、分类、检索与分析,了解蕴含在生物大分子中的信息,探索 生物大分子的生物学意义的交叉学科。从生物信息学的定义来看,它包含两个 层次的含义,一是对海量数据的收集、整理与服务,即管理好这些数据;二是 对海量数据的分析、探索,从中发现新的规律,也就是用好这些数据。 2 张树波中山大学博士学位论文 当前生物信息学主要包括两大研究任务:一是以基因组d n a ( 脱氧核糖核 酸) 序列和氨基酸序列为出发点,找出基因组中的蛋白质编码区域,并且了解 基因组中大量的非编码区里面蕴含的信息,破译d n a 序列中的生命遗传规律, 同时了解基因序列之间的转录、表达和调控关系,了解蛋白质序列之间的调控 和相互作用关系,从而了解生命的代谢、发育、分化和进化的规律。二是以基 因表达数据为出发点,找出与某种生物现象相关的关键基因,进而研究这些基 因的功能和生命含义,以及这些基因之间的相互调控网络。具体来说,生物信 息学包括如下研究内容: 1 1 1 生物分子数据的收集与管理 随着人类基因组测序的顺利完成,生物数据呈指数急剧增长,目前三大核 酸数据库( g e n b a n k 、e m b l 、和d d b j ) 中的数据以每1 5 个月左右翻一翻的 速度增长。就一级数据库而言,美国国立生物技术信息中心( n c b i ) 的数据库 g e n b a n k 在19 8 2 年刚建立时只有6 0 6 条序列,规模为6 8 0 3 3 8b p ,至0 2 0 0 7 年8 月 发布的数据显示,已经有6 11 3 25 9 9 条序列,规模为6 5 3 6 9 0 9 1 9 5 0b p ,2 0 0 9 年2 月15 日发布r e l e a s e l 7 0 0 的数据中,有10 18 15 6 7 8 条序列【1 】,涉及的物种 达至u 7 0 0 0 0 多种,图1 1 显示了g e n b a n k 数据库中生物序列的增长情况【2 1 。 而蛋白质序列数据库s w i s s p r o t 中的蛋白质序列数量,在1 9 8 6 年只有 3 9 3 9 条,2 0 0 7 年9 月1 1 日的r e l e a s e 5 4 2 版本【3 】中蛋白质序列的数量已经增加 到2 8 3 4 5 4 条,2 0 0 9 年2 月1 0 日u n i p r o t k b s w i s s p r o t 的r e l e a s e5 6 8 版本中包 含4 1 0 5 1 8 条序列【4 】,在2 2 年时间里蛋白质序列数量增加了1 0 4 多倍,图1 2 显示 了u n i p r o t k b s w i s s p r o t 数据库中生物序列的增长情况【4 】。就物种而言,目前 已经有1 0 0 0 多个物种的相关生物信息。就二级数据库而言,目前已经有超过 5 0 0 个公开的生物信息学数据库。大量的数据需要进行高效的管理,才能及时 为全世界的科研人员提供高质量的生物信息基础数据。这方面的研究任务包括 建立跨平台的国际基本生物信息库和生物信息传输的互联网系统:建立生物信 息数据质量的评估与检测系统;提供生物信息的在线检索、分析服务;建立生 物信息的可视化和专家系统。 3 第一章绪论 4 5 0 k 4 0 0 k 3 5 0 k 3 0 0 k 2 5 8 k 2 0 0 k 1 5 0 k 1 0 0 k 5 0 k 0 1 为 4 0 3 0 2 0 1 0 o g r o w t ho fg e n b a n k ( 1 9 8 2 - 2 0 0 8 ) 1 9 8 21 9 8 61 9 9 01 9 9 4 9 9 8 0 22 6 9 0 8 0 7 0 5 0 4 0 3 0 曩 2 0 o o 图1 1 g e n b a n k 数据库中序列数量的增长情况 f i g u r e1 - 1 t h eg r o w t ho fs e q u e n c en u m b e ri ng e n b a n k ( 来源于:h t t p :w w w n c b i n i m n i h g o v g e n b a n k g e n b a n k s t a t s h t m l ) n u m b e ro fe n 七r i e si i lu n i p r o t k b s v i s s - p p o t j s , j r i ,。 f j - 一。 1 9 8 51 9 9 81 9 9 52 0 0 82 0 9 52 0 1 0 图1 2 u n i p r o t k b s w i e e p r o t 数据库中数据的增长情况 f i g u r et - 2 t h eg r o w t ho fs e q u e n c en u m b e ri nu n i p r o t k b s w i s s - p r o t ( 来源于:h t t p :w w w e x p a s y o r g i s p r o t r e l n o t e s r e l s t a t h t m l ) 4 (誊嚣善扇一zd驾皇母屯 一co!=一po一静口oco:仃o 张树波中山大学博士学位论文 1 1 2 基因组序列分析 当代科学认为生物的遗传信息存储在基因组中,而基因组是由4 个核苷酸 组成的核酸序列,因此研究生命规律的出发点就是核酸序列,随着大量物种的 全基因组序列被测序出来,生命科学研究进入以功能基因组为研究内容的后基 因组时代,生命科学研究的任务是如何破译隐藏在生物序列中的生命规律,研 究的中心内容是从基因组序列中找出基因和基因表达调控信息,也就是了解基 因组的结构和功能,主要包括如下四个方面的研究内容: 1 1 ) 发现基因 从分子生物学的角度,基因是合成有生物功能的多肽或r n a 分子所必须的 核酸序列,除了包含编码蛋白质的序列之外,还包含大量调控基因转录的序列 【5 】。d n a 序列中蛋白质编码区域往往从特定的起始密码子处开始,在终止密码 子处结束,从起始密码子到终止密码子之间的一段d n a 序列称为开放读码框 ( o p e nr e a d i n gf r a m e ,简写为o r f ) ,发现基因的基本任务就是在基因组序 列中找出所有可能的开放读码框,并进一步对这些开放读码框中的序列进行识 别,确认其是否能够编码蛋白质。真核生物的d n a 序列中蛋白质编码区域的结 构比原核生物编码区域结构复杂得多,其蛋白质编码区域被一些称为内含子的 核酸序列片段分割开来,被分开的编码序列片段称为外显子。因此,基因发现 的另一个任务就是找出基因组中的内含子和外显子,而识别外显子和内含子的 问题就是需要识别它们之间的分界点,即剪切位点。 ( 2 ) 基因调控元件的识别 现代科学研究发现,d n a 序列并非都用于编码蛋白质,在d n a 序列中存 在很多的非编码区域,这些非编码区域有的功能尚未清楚,有的被认为对基因 的表达起着调控作用,例如在d n a 转录起始位置上游的特定区域通常会有一些 特定的核苷酸序列存在,这些核苷酸序列在转录前与特定的d n a 聚合酶结合, 导致d n a 序列的解链并转录,这些特定的核苷酸序列被称为启动子序列,识别 启动子序列对于发现基因具有重要的意义。因此基因组中调控序列的发现和识 别是生物信息学研究的一个重要内容。 1 3 ) 基因功能预测 在知道了基因的结构之后,我们需要进一步了解基因的功能,从生物信息 5 第一章绪论 学的角度来说,基因的功能可以根据基因之间的相似程度,由与未知基因高度 相似的已知基因的功能来推测这个新发现基因的功能,目前常见的方法采用序 列比对的方法,通过搜索数据库中的同源序列,利用同源序列的基因注释信息 来获得对新基因的认识。 ( 4 ) 系统发育树分析 生命的进化是一个非常漫长的过程,如何找到物种之间进化的证据一直以 来是摆在科学家面前的一大难题,研究生物进化历史的传统思路有两种,一种 是通过生物化石来研究,这种方法的局限性在于很难找到完整化石记录;另一 种思路是根据生物的外形、形态学特征和生活习性来研究,但是要找到能够合 理反映生物之间进化关系的可靠形态特征是一件非常困难的事情。随着分子生 物学的发展,越来越多d n a 、蛋白质和c d n a 序列的积累,为人类从分子水平 研究生物的进化历史以及探索生命的起源提供了大量基础素材。目前,从分子 水平上研究物种之间的进化关系已经成为生物信息学中的一个研究热点。 1 1 3 基因表达数据的分析与处理 基因芯片技术的出现使到人们可以在一个芯片上获取大量的基因表达数 据,通过对基因表达数据的分析,可以了解基因的功能,了解基因在不同条件 下表达的差异,进而了解基因之间的调控关系。目前基因表达数据的分析处理 包括基因表达数据的获取,基因表达数据的预处理,基因表达数据差异的显著 性分析以及基因表达数据的聚类、判别分析,基因调控网络的研究等。 1 4 4 蛋白质结构与功能预测 蛋白质是生物体的基本组成单位,是生命活动的主要承担者,d n a 序列的 遗传信息主要是通过蛋白质来体现的,蛋白质在基因的表达调控过程承担着重 要的角色,如d n a 的转录、翻译、修饰等过程,都是需要相应的酶参与的。因 此研究蛋白质的结构、功能以及蛋白质之间的相互作用关系是生物信息学的重 要内容。在“序列决定结构,结构决定功能 的基本假设下,我们可以认为蛋 白质的结构信息隐藏在氨基酸序列之中,研究蛋白质的出发点是氨基酸序列, 通

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论