(生物医学工程专业论文)基因表达数据分析与调控元件识别的算法研究.pdf_第1页
(生物医学工程专业论文)基因表达数据分析与调控元件识别的算法研究.pdf_第2页
(生物医学工程专业论文)基因表达数据分析与调控元件识别的算法研究.pdf_第3页
(生物医学工程专业论文)基因表达数据分析与调控元件识别的算法研究.pdf_第4页
(生物医学工程专业论文)基因表达数据分析与调控元件识别的算法研究.pdf_第5页
已阅读5页,还剩99页未读 继续免费阅读

(生物医学工程专业论文)基因表达数据分析与调控元件识别的算法研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

东南大学博士学位论文 3 、g i b b ss a m p l i n g 算法是目前使用最广泛的调控元件识别方法,我们采用线性插值m a r k o v 模型对 原方法进行了改进( i g s ) ,并利用v c 60 开发了软件系统i g s 。另外,i g s 采取中心删除和边 界扩展技术实现间隔子调控元件的识别;利用掩膜技术实现多个调控元件的识别。 模拟数据集测试结果说明i g s 在识别保守性差的模式以及抗噪声数据方面性能得到了提 高,而且阶数高于实际值的插值模型对程序的处理结果影响不大。 分析来自文献的l o 组酵母基因上游序列,我们发现i g s 对其中8 组的调控元件识别率高于 常用的基于独立性模型的咖b ss a m p l i n g 算法,其余两组的识别率相同。 根据d i a u x i cs h i f t 条件下的基因表达数据聚类结果,我们分析了两组典型的共表达基因,除 与已知调控元件非常类似的5 个序列模式外,i g s 还发现了2 种新的候选调控元件。 4 、g n ) b ss a m p l i n g 算法是一种启发式方法,不能保证得到问题的全局最优解。我们提出了一种基 于信息含量的搜索算法。该方法考察问题可能的解( 不是所有的解) ,并在计算过程中及时删 除处于劣势的解,降低了计算的复杂度。该方法不仅克服了g a o b ss a m p u n g 算法易陷入局部最 优解的缺点,而且其计算复杂度为o ( - 幻,与模式的长度无关。 关键字 生物信息学 谱聚类 基因表达数据 卡方检验 调控元件 m a r k o v 模型 聚类分析 g i b b ss a m p l i n g 奎堕查兰竖主兰堡垒塞 t h e s i st i t l e g r a d u a l es t u d e n tn a m e : s u p e r v l s o rn a m e : s c h o o ln a m e : a b s t r a c t a l g o r i t h m so fg e n ee x p r e s s i o nd a t aa n a l y s i sa n dr e g u l a t o r y e l e m e n t sr e c o g n i r i o n x i ex u e y i n g l uz u - h o n g ( p r o f e s s o r ) s o u t h e a s tu n i v e r s i t y t h er a p i dd e v e l o p m e n t so fs e q u e n c i n gt e c h n o l o g ya n dh i 曲t h r o u g h p u tt e c h n o l o g i e ss u c ha sd n a m i c r o a r r a yh a v eg e n e r a t e da l le x p l o s i v eg r o w t ho fa v a i l a b l ed a t ah o w t od i gi n t ot h e s ed a t at od i s c o v e r 1 1 c wk n o w l e d g eh a sb e c o m eaf r o n tr e s e a r c h 矗e l di nn l o d i il i f es c i c n c ea n d n f o r r n a t i o ns c i e n c ed a t a m i n i n gf r o ms e q u e n c e sa n de x p r e s s i o nd a t ai so n eo ft h ep r i m a r yr e s e a r c hd i r e c t i o n so fb i o i n f o r m a d c s t h ec o m b i n a d o no ft h e s et w oa l l o w sb i o l o g i s t st os t u d yg e n ee x p r e s s i o na n d 扛a n s c d p t i o nr e g u l a t i o na t g e n o m el e v e l g i v e i las e to fu p s t r e a md n as e q u e n c e sw h o s eg e n e sa r ec l u s t e r e dt o g e t h e rb a s e do n s i m i l a r i t yi ng e n ee x p r e s s i o np r o f i l e ,i ti sd e s i r a b l et of i n dc o n l r n o ns e q u e l l c em o t i f st h a ta r et h ep o t e n t i a l t r a n s c r i p t i o nf a c t o rb i n d i n gs i t e sr e g u l a t i n gt r a u s c r i p t i o nm yt h e s i sw o r ki n c l u d e s t h ef o l l o w i n g c o m p u t a t i o n a lm e t h o d st oa d d r e s st h i sp r o b l e m lb a s e do nt h ee i g e n - s y s t e mo fs i m i l a r i t ym a t r i xf r o mg e n ce x p r e s s i o nd a t a , s e v e r a lm e t h o d sf o r e s t i m a t i n gt h ec l u s t e rm i l 】b c r s a r ei n v e s t i g a t e d , a n dan o v e ls p e c t r a lc l u s t e r i n ga l g o r i t h m ( s c ) i s i n l r o d u c e di n t oa n a l y z i n gg e n ee x p r e s s i o nd a t a r e s u l t sf r o mb e n c h m a r kd a t as h o wt h a ti n d e xe i g e n g a pd e f m e do nt h ed i f f e r e n c eo ft w o c o n t i n u o u se i g e n v a l u e s ( r a n kf r o mb i gt 0s m a r t ) i sa p p r o p r i a t ef o re s a m a t l n gt h en l l m b e r t h c e i g e n g a p v a l u eo f 6 7 2g e n e s u n d e r t h ec o n d i t i o n d i a u x i cs h i r h i n t s t h a t i t i sa p p r o p r i a t e t od i v i d e t h o s eg e n e si n t o2g r o u p s t e s t e dw i l 】1b e n c l m m r kd a t a , 血er e s u l t so fs ca r em o r es t a b l et i t a nt h o s eo fk - m e a na l g o d l h m a n a l y z i n gt h ed a t as t a i n e dw i 血s i m u l a t e dn o b e , s c sp e r f o r m a n c ed e u r c a s e sw i t ht h ei n c r e a s eo f n o i s el e v e lo rn o i s ew i d t h b u tt h er e s u l t so f c l n s t e r i n ga n c lt h e i rs t a b i l i t i e ss t i l le x e e e dk - n l e a n $ w ed i v i d et h e6 7 2g e n e si n t o2g r o u p sw i t hs c r e f e r r i n gt oy e a s ta m l o t a t i o nd a t a b a s ec y g d w ei n v e s t i g a t et h ef u n c t i o n so f t h o s eg e r l c sa n df i n dt h a t , b e s i d e sg e n e sw i t ht m k n o w nf i m c f i o u s , 5 2 g e n e so ft h eg r o u pw h e r eg e n e sh a v ea s c l 日l c l i n ge x p r e s s i o np r o f i l e sa r er e l a t e dt oe n e r g y m e t a b o l i s m , a n di na n o t h e rg r o u pw h e r eg e n e sh a v ed e s c e n d i n gp r o f i l e s ,4 8 g e n e sa r er e l a t e dt o p r o t e i ns y n t h e s i sa n d7 3 t op r o t e i ni o c a l z a t i o n “5 g e n e sa r er e l a t e dt op r o t o ns y n t h e s i sa n d l o c a l i z a t i o n ) t h e s er e s u l t s 撇h e l p 蚰t os t u d yt h eg e n e sw i t hu n k n o w nf u n c t i o n s s ci ss i m p l ea n de a s yt ob ci m p l e m e n t e d i tu t i l i z e st h ee i g e n - d e c o m p o s i t i o no fs i m i l a r i t ym a t r i x f r o mt h ed a t at oi a t e n s i f yt h es i m i l a r i t ya n dd i f f e r e n c ea m o n gg e n te x p r e s s i o nd a t a s ch a sas t r o n g a b i l i t yt oa n t i n o i s e a n dt h er e s u l t sf r o ms p e c t r a lc l u s t e r i n ga r el e - 均r es t a b l et h a nt h o s ew i 也k - n l c 髓s 2 c h i - s q u a r et e s ti sa p p l i e dt oa k 址y z et h ec o n t e x td e p e n d e n c i e si nd n as e q u e n c e s r e s u l t so n s y n t h e t i cd a t ah a v ep r o v e dt h ev a l i d a t i o na n df e a s i b i l i t yo ft h i sr r g = t h o d u s i n gc h i - s q u a r e 虹td i s t i n c t h i g h e r - o r d e rc o n t e x td e p e n d e n c i e si n h e r e n ti nu p s t r e a ms e q u e n c e so ft e ns e t so fg e n e so fy e a s t so f e v i s i a eh a v eb e e nf o u n d i ny e a s t , w eh a v ed e t e c t e d4 - o r d e rc o n t e x tr e l a t i o m h i pi ni n t e r g e n i c s e q u e n c e so f c h r o m o s o m ei ,i i ,i i i ,v ,v i ,v i i i ,i x ,x ,x i ,x i i ia n dx i v , r e s p e c t i v e l y , a n d5 - o r d e rc o n t e x t r e l a t i o n s h i p i nc h i o m o s o m e i v ,v i i ,x v a n d “la n d h i 曲c r o r d e r d e p e n d e n c y t h a n5 i n x i i a l lr e s u l t ss h o w t h a tt h ei n d e p e n d e n tm o d e lo fs i n 咀en u c l e o t i d ea p p l i e db ym a n ym o t i fd i s c o v e r yp r o g r a m sc a l l n o t r p n r m td n as 柏u e n c e se f f e c t i v e l y , 东南大学博士学位论文 3 w ea d o p tt h eg i b b ss a m p l i n gs t r a t e g ya n dd e v e l o pas o 如v a r ei g st oe x t r a c tm o t i fi g sp r o v i d e s m a n yi m p r o v e m e n t si g s0 8 e si n t e r p o h t e dm a r k o vm o d e lt or e p r e s e n tb a c k g r o u n dd n as e q u e n c e si t a p p l i e sc e n t e rd e l e t i o na n db o t he n d se x t e n s i o nm e t h o di no r d e rt or e c o g n i z em o t i f sw i t hs p a c e r u s n g m a s kt e c h n i q u e 、i g sc a l lr e c o g n i z et w oo rm o l em o t i f si no n er u n r e s u l 话o i ls i m u l a t e dd a t as e ts h o wt h a ti g sh a sb e t t e rp e r f o r m a n c eo nr e c o g n i z h a g l e s s c o n s e r v e dm o t i f so re x t r a c t i n gm o t i f sf r o mn o i s e s t a i n e ds e q u e n c e sa n dt h eo r d e ro ft h e b a c k g r o u n dm o d e lw h i c hi sh i g h e rt h a nt h ea c t u a lv a l u eh a st i t t l ei n f l u e n c c0 1 1i g s a n a l y z i n gt h eu p s l r e a ms e q u e n c e so fg e n e sf r o ml i t e r a t u r e , i g sh a sa c h i e v e dh i g h e rr e c o g n i t i o n r a t i o s t h a n o r i g i a l g f b b ss a m p l i n g b a s e do n i n d e p e n d e n t b a c k g r o u n d m o d e l i n8o u to f l 0s e t s o f c o - r e g u l a t e dg e n e s w eu s ei g st od e t e c tc o m n nm o t i f si nt w og r o u p so fs e q u e n c e sf r o my e a s t ,a n df i n dt w on e w c a n d i d a t em o t i f sb e s i d e s5m o t i f sw h i c ha l ev e r ys i n n l a rt ok n o w nr e g u l a t o r ye l e m a e n t si n d a t a b a s es c p d 4w ed e v e l o p e dal l e a ,vs e a r c ha l g o r i t h mo ni n f o r m a t i o nc o n t e n t 1 1 l em e t h o do m yc o n s i d c r s p o s s i b l es o l u t i o n s ( b u tn o ta 1 1 ) a n dw i l ld e l e t ep o o rs o l u t i o n sd u r i n gs e a r c h i n gp r o c e s s t h e s et w o t e c h n i q u e sc a nr e d u c et h ec o r r l p u t a f i o n a lc o m p l e x i t yg r e a t l yt o0 f n + l 2 ) i ti sv e r ys i n r p l ea n dn o te a s yt o n l ni n t ol o c a lo p t i m i z a t i o n r e s u l t ss h o wt h a ti ti sas e n s i t i v em e t h o df o rd e t e c t i n gn o n - g a p p e dm o t i f s k e y w o r d s : b i o i n f o r m a t i c sg e n ee x p r e s s i o nd a t ar e g u l a t o r ye l e m e n t sc l u s t e r i n ga n a l y s i s s p e c t r a lc l u s t e r i n gc h i - s q u a r et e s t m a r k o vm o d e lg i b b ss a m p l i n g i v 东南大学博士学位论文 1 通配符表 符号表 缩写词词组 印 c d n a d n a d o e e m f m m h g p j c i m m m b m e m r n a n m n h g r i p s f m p w m r m s r n a s d t f b s t f b a s e p a i r c o m p l e m e n t a r yd n a d e o x y r i b o n u c l e i ca c i d d e p a m m m to f e n e r g y e x p e c t a t i o nm a x i m i z a t i o n f 扭e d o r d e rm a c k a ym a d e l h u m a ng c n o m ep r o j e c t i n f o r m a t i o nc o n t e n t i n t e r o o l a t c dm a r k o vm a d e l m t l l f i p l cb mf o rm o t i f d i c i t a t i o n m e s s e n g e rr n a n a f i o n a li n s t i t u t e so f h e a l t h n a t i o n a lh u m a ng e n o m er c s c a r c hi n s f i m t e p o s i f i o n - s p e d f i cf r e q u e n c ym a t r i x p o s i t i o nw e i g h tm a t r i x r o o tn 1 曲ns q u a r e r i b o n u c l d ca c i d s t a n d a r dd e v i a t i o n i y a m c t i p f i o nf a c t o rb i n d i n gs i t c t r a n s c r i p t i o nf a c t o r v 东南大学学位论文独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成 果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表 或撰写过的研究成果,也不包含为获得东南大学或其它教育机构的学位或证书而使用过 的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并 表示了谢意。 研究生签名: 遍宣羹日期:塑生二譬i 东南大学学位论文使用授权声明 东南大学、中国科学技术信息研究所、国家图书馆有权保留本人所送交学位论文的 复印件和电子文档,可以采用影印、缩印或其他复制手段保存论文。本人电子文档的内 容和纸质论文的内容相一致。除在保密期内的保密论文外,允许论文被查阅和借阅,可 以公布( 包括刊登) 论文的全部或部分内容。论文的公布( 包括刊登) 授权东南大学研 究生院办理。 碱蜷轹舶纷锄 日期: j 痂o7 ) 。 蟛 第一章绪论 第一章绪论 1 1 研究背景回顾 人类基因组计划( h u m a ng c n o r n ep r o j e c t ,h g p ) 1 1 3 】是人类生命科学史上最伟大的工程之一, 是人类第一次系统、全面地解读和研究人类遗传物质d n a 的全球性合作计划,与曼哈顿原子弹计 划、阿波罗登月计划并称为人类科学史上的三大工程。人类基因组是指合成有功能的人体各类细胞 中蛋白质及( 或) 多肽链和r n a 所必须的全部d n a 顺序和结构,包括人类的2 3 对染色体上全部 的d n a 所携带的遗传信息的总和,即3 0 亿个碱基对的序列,估计约含3 “万个基因。人类基因组 计划是由美国科学家r 衄a 幻d u l b e c c o 4 1 首先提出,美国政府1 9 9 0 年l o 月正式启动的,耗资3 0 亿美 元。其最初的目标是,通过国际合作,用1 5 年时间( 1 9 9 0 - 2 0 0 5 ) 完成人类全部2 4 条染色体的3 1 0 9 脱氧核苷酸对( b a s e p a i r b p ) 的序列测定,破译人体遗传物质d n a 分子所携带的全部遗传信息, 构建详细的人类基因组遗传图谱、物理图谱、序列图谱和转录图谱。1 9 9 3 年,又增加了人类基因的 鉴定和分离的内容。其终极目标即:阐明人类基因组全部d n a 序列:识别基因;建立储存这些信 息的数据库;开发数据分析工具;研究h g p 实施所带来的伦理、法律和社会问题。 美国政府资助的h g p 由国家卫生研究院( n i l - i ) 和能源部( d o e ) 承担。n 1 h 为此专门成立了 人类基因组研究所( n a t i o n a l h u m a n o e n o m e r e s e a r c h l 丑s f i m t e , n h g r i ) ,从事该计划的实施。目前, 有美国、德国、日本、英国、法国、中国6 个国家的科学家正式加入了这一计划。 2 0 0 0 年6 月2 6 日,国际协作组宣布人类基因组“工作框架图”绘制完成,也就是“生命的天书” 中9 0 以上的“字母”排列顺序已经清楚,这标志着人类基因组计划“实旌进程中的一个重要量程 碑”口】。2 0 0 1 年2 月1 5 日“人类基因组初步测序和分析”论文”均发表是国际协作组继“工作框架 图”之后取得的又一重大进展。对人的大约3 万个基因,到目前为止已定位在染色体上并己知功能 的基因数目百1 5 6 0 8 个( b 如;幽盟班女趔趟塑自鱼殴型! 盈翻! l 擅蚯蝤女g 焦b 趔) 。 在人类基因组计划进行的同时,研究者们还完成了许多其他物种的基因组测序:1 9 9 6 年酵母基 因组测序完成,1 9 9 7 年大肠杆菌基因组测序完成,1 9 9 8 年结核性分枝杆菌、搀毒螺旋体、线虫基因 组测序完成,2 0 0 0 年果蝇和拟南芥的基因组测序完成,2 0 0 2 年水稻、小鼠、疟原虫和按蚊基因组测 序完成。这些研究成果都收集在g e n b a n k 数据库中,并且无偿向全世界公开。截止到2 0 0 4 年2 月, g e n b a n k 数据库中收录的全基因组序列物种达到1 7 6 个,其中细菌1 4 2 种,古细菌1 7 种,真核生 物1 7 种。 随着人类基因组计划及其他模式生物基因组测序计划的实施以及分子生物学和生物工程技术的 飞速发展,生物学数据正以前所未有的速度呈爆炸式增长。数据并不等于信息和知识,但却是信息 和知识的源泉,关键在于如何挖掘它们。值得庆幸的是,在生物技术快速发展的同时,计算机科学 和信息技术也以惊人的速度发展。计算机芯片对数字的快速处理能力、超大容量的存储设备、计算 机网络技术和数据库技术的迅速发展和普及,都大大方便了研究人员对生物学数据的获取、存储、 管理、分析、共享和交流。在这种情形下,一门新的学科生物信息学应运而生了。生物信息学 ( b i o i n f o r m a t i c s ) 【”o j 广义的概念是指研究生物体系和生物过程中信息的内涵和信息的传递,狭义 的概念是指生物分子信息的组织和分析,包括对生物分子信息的获取、存储、分配、处理、分析和 1 东南大学博士学位论文 解释。生物信息学是一门新兴的交叉学科,涉及到生物学、计算机科学、数学、物理学、信息科学 和化学等多个学科。它是8 0 年代末伴随着基因组研究而产生的,它的研究内容紧随着基因组的研究 进展而发展。9 0 年代初期存在大量新测定的d n a 序列,而关于基因的信息很少,因此生物信息学 的研究重点在于分析序列以寻找新基因以及数据库搜索;而随着多种生物全基因组完整序列的测定, 序列分析的重心从基因预测转为生物体间的序列比较和全基因组比较;近年来,由于微阵列技术的 出现和快速发展,使得大规模检测基因表达成为一种方便快捷并易行的常规实验技术,这就产生了 大量的基因表达数据,相应地,与微阵列相关的分析也成为生物信息学研究的重点之一,如基因芯 片的探针设计,杂交荧光图像分析,基因表达数据分析等。生物信息学的主要研究内容还包括:核 酸序列的装配,非编码区域的结构和功能研究,单核苷酸多态性的研究,分子进化研究,蛋白质结 构预测,药物分子设计和代谢网络分析等领域 1 1 ”1 3 l 。在过去近2 0 年中,生物信息学中关于d n a 编 码区的研究己非常多,而且也存在很多较成熟的基因识别算法,相对而言,对那些过去一直被认为 是“垃圾”序列的非编码区却研究较少,而近来越来越多的研究表明,在这些序列中隐藏着大量的 与基因表达调控相关的信息。因此,对非编码区域的结构和功能分析及基因间的调控建模逐渐成为 目前生物信息学的重要研究方向。 1 2 从表达到调控 基因表达( g c n ee x p r e s s i o n ) 是指细胞在生命过程中,把存储在d n a 序列中的遗传信息经过一 系列过程( 转录和翻译) ,转变成行使其生物学功能的蛋白质分子的过程。该过程需要在许多机制的 严格调节控制下才能顺利准确地进行。基因表达的程序、时间和位置又是受不问层次的调控信息控 制的,这种调控机制不仅决定了基因产物的数量,而且也决定了基因表达的时空次序性。因此,随 着后基因组时代的到来,对基因表达的调控特别是转录调控的研究越来越重要。e i s c n 等f j 4 蟓合分 析了酵母基因在多种条件下的表达变化情况,并考察了各簇中已知基因的功能,他们得出的结论是: 功能相关的基因在表达上也是紧密关联的。另外,解涛等【1 ”通过对大肠杆菌的蛋白质数据库 e c 0 2 d b a s e 中7 0 余种蛋白质的c r c ( c e l l u l a r r o l ec 1 i l s t e r ) 分析表明:功能相关的蛋白质在表达水 平上也是紧密相关的。那么这种关联的内在机青l 是什么呢? 解决这些困稿的一个理想方法是将生物 信息学和基因芯片相结合。生物信息学是研究基因表达调控的一个重要方法。同时,生物芯片技术 的飞速发展也为从基因表达来研究调控机制提供了可能。生物芯片等尚通量检测技术的发展,可以 从全基因组水平定量或定性检测基因转录产物m r n a 。在论文中,基因表达数据特指基于d n a 微 阵列实验得到的反映m r n a 丰度的数据,而不包括基因表达最终产物蛋白质丰度的数据。根据 基因表达来研究调控机制依据的基本假设认为在相同条件下具有相似表达谱的基因很可能受相同豹 调控机制调节。基于这样的假设,可以利用基因芯片技术获得大规模基因表达谱,接着用生物信息 学的方法( 目前主要是聚类分析的方法) 来寻找共表达基因,这些共表达基因为潜在的共调控基因, 然后从这些基因出发来研究调控机制。论文的工作就是围绕这个假设而展开,主要是对两方面算法 的研究,并基于共表达基因进行调控元件的识别。 表达数据,寻找具有相似表达模式的共表达基因; 论文的基本目标是:研究有效的方法来分析基因 设计抗噪声能力强的算法分析共调控或基于共表 达基因的序列数据,为生物学实验提供指导。论文的主要流程可用图1 i 来表示,其中用椭圆型框 标出的便为本文研究的重点。首先是收集基因表达数据( 从网上下载其他研究小组的实验数据,或 2 第一章绪论 对基因芯片杂交图象的处理所得) ,对这些数据进行预处理使其满足我们的分析要求;接者对处理过 的表达数据进行聚类分析找到共表达基因族;选取典型的共表达基因,从网上数据库中获取基因相 应的上游序列;然后设计算法在这些上游序列中提取候选调控元件;最后通过与权威数据库中的信 息和来自其它已发表的文献中的数据相比较对候选调控元件和相应的基因进行分析,以提示候选调 控元件的一些生物学功能,当然这些功能的真正确定还有待生物学实验的进一步验证。 1 3 论文的研究内容及结构安排 基因的转录过程是生物体调控机制发挥作用的重要环节,而转录因子和调控元件的特异性识别 是转录调控的重要途径。在我们的研究工作中,基于共调控基因表现出相似的表达模式这一普遍被 接受的假设,我们反向推理,认为共表达的基因中包含大量的共调控基因,这一推理为得到共调控 基因提供了新的方法,同时高通量的微阵列技术也为实现这一想法提供了可能。文中首次采用谱聚 类方法来分析基因表达数据。根据模拟数据集和酵母基因表达数据,我们分析了谱方法的优缺点, 并且与经典的k 平均方法作了对比。通过聚类方法,我们得到了共表达基因,这将为调控元件的分 析提供了数据源。另外,通过卡方检验分折序列数据的上下文关系,我们发现d n a 序列本身具有 复杂的上下文关联性,因此我们采用了插值马尔可夫模型对原始g i b b ss a m p l i n g 算法进行了改进: 另一方面我们提出了新的算法来研究调控元件。 :慧蓁 图11 工作流程图 3 m a ) 强“婶嘲 孙l 目w “e h _ h * 0 * m ,m 黜搿并t 瑚啦强 ,h ,h e i m c p - j m , ,r j ) 椭拍净韶c 对r m 黜吼能g 辩髓 ,ek i m c d 0 q h m ,o o: ,a“o, i 0,锦岭0 j i c 一一一 = = 一兰兰 搬 w m * 东南太学博士学位论文 论文在第二章中描述了分子生物学的一些基本概念,接着在第三章中简单综述了目莳已存在的 基因表达分析方法和调控元件识别算法。这两方面的论述是理解本次研究工作的基础和研究背景。 在第四章中,我们详细介绍了分析基因表达数据的新方法一谱聚类,包括谱聚类的理论基础、算 法实现步骤和对基因表达数据的处理结果。在接下来的三章中,我们分析了序列的局部组成特性, 并提出了蹲类调控元件识别算法,分析了四类不同来源的酵母序列数据。最后一章是对研究工作的 总结并对以后的工作方向提出展望。 4 翌二兰丝笙 参考文献 1 】j o h n s o nr st h eh u m a ng e n o m ep r o j e c t :w h a ti m p a c to nb a s i cr e s e a r c h ? f a s e bj ,1 9 8 7 ,l ( 6 ) 5 0 2 5 0 5 2 js m i t hl ma u t o m a t e d d n as e q u e n c i n ga n d t h e a n a l y s i so f t h e h u m a n g e n o m c g e n o m e ,1 9 8 9 ,3 1 ( 2 ) 9 2 9 9 3 7 。 3 】w a t s o nj d ,j o r d a net h eh u m a ng e n o m ep r o g r a ma tt h en a t i o n a li m f i m t e so fh e a l t h g e n o m i c s 19 8 9 ,5 ( 3 ) :6 5 4 6 5 6 4 】d u l b e c c or a t u r n i n gp o i n ti nc a n c 兕tt e s e a r 血s e q u e n c i n gt h eh u m a ng e n o m e s c i e n c e ,1 9 8 6 ,2 3 1 : 1 0 5 5 一1 0 5 6 5 s n y d e rmc o n 叩l e t i o no far o u g hd r a f to f t h ed n as e q u e n c eo f h u m a n :a ni m p o r t a n tm i l e s t o n ep u n c l i n t c g r g e n o m i c s ,2 0 0 0 ,1 ( 3 ) :1 5 3 f 6 】l a n d e rb s l i n t o nl m , b i t t e nb 辨a 1 i n i t i a ls e q u e n c i n ga n da n a l y s i so f t h eb m m ng e n o m e n a i l r e , 2 0 0 1 ,4 0 9 :8 6 0 - 9 2 1 7 】b o g u s k im sb i o i n f o r m a t i c s ,c l i i t o p 缸g e n e td e v ,1 9 9 4 ,4 ( 3 ) :3 8 3 - 3 8 8 8 】b e n t o nd b i o i u f o r m a t i c s - p r i n c i p l e sa n dp o t e n t i a lo fan 洲删t i d i s c i p l i a r yt 0 0 1 t r e n d sb i o t e c l m 0 1 1 9 9 6 ,1 4 ( 8 ) :2 6 t - 2 7 2 【9 】g e r s h o nd ,s o b r a lb w , h o r t o nb ,c ta 1 b i o i n f o r m a f i e si nap o s t - g e n o m i c sa g e ,n a t u r e ,1 9 9 7 , 3 8 9 ( 6 6 4 9 ) :4 1 7 - 4 2 2 【1 0 】a n d r a d em a , s a n d e rc b i o i n f o r r m t i e s :f r o mg e n o m ed a t at ob i o l o g i c a lk n o w l e d g e c u r ro r l i n b i o t e c h n 0 1 ,1 9 9 7 ,8 ( 6 ) :6 7 5 7 8 3 1 1 】陈润生,当前生物信息学的重要研究任务,生物工程进展,1 9 9 9 ,1 9 ( 4 ) :1 1 1 4 1 2 陈润生,生物信息学,生物物理学报,1 9 9 9 ,1 5 ( 1 ) :5 1 2 【1 3 】j a i n e c t t r r e n t l r e n d s i n b i o i n f o r m a t i c s t r e n d s b i o t c c h n 0 1 ,2 0 0 2 , 2 0 ( 8 ) :3 1 7 3 1 9 1 4 e i s e n m ,s o d l m a n 只b r o w np ,e t 吐c l u s t e ra m l y s i sa n d a t s p h a y o f g e n o m e - w i d ce x p r e s s i o n p a t t e r n s p r o cn a i l a c a d s c i u s a ,1 9 9 8 ,9 5 :1 4 8 6 3 - 1 4 8 6 8 f 1 5 】解涛,盛泉虎,丁达夫。蛋白质表达谱用于基因组功能提示的可行性研究。生物化学与生物物 理学报,1 9 9 9 ,2 1 :4 5 1 4 5 5 。 5 东南大学博士学位论文 第二章分子生物学基础 为了更好地说明和理解下文所做的工作,本章简单介绍一些分子生物学的基本知识,其中大部 分参考文献呻1 ,部分来自网上资料。我们首先从组成生命的基本物质核酸出发,给出了生物学中几 个最重要的概念;接着描述了生物体中遗传信息的表达和调控机制;最后介绍了广泛用于定量检测 基因表达量的重要技术d n a 微阵列技术,这是目前获得高通量基因表达数据的主要方法。 2 1 基本概念 2 1 1 核酸 核酸是生物大分子中最重要的一类,最早是由瑞士的em i e s c h e r 于1 8 7 0 年从脓细胞的核中分离 出来的,由于它们呈酸性,并且最早是从核中分离的,故称为核酸。核酸可分为脱氧核糖核酸 ( d e o x y r i b o n u c l e i ca c i d , d n a ) 和核糖核酸( n b o n u c l e i ca c i d , r n a ) 两大类。d n a 主要存在于细胞 核内的染色质中,线粒体和叶绿体中也有,是遗传信息的携带者;r n a 在细胞核内产生,然后进入 细胞质中,在蛋白质合成中起重要作用。 d n a 与r n a 的结构单体是核苷酸( n u c l c o t i d c s ) 。每一个核苷酸又由一个磷酸分子、一个戊糖 ( 脱氧核糖或核糖) 分子和一个含氮碱基组成。含氮碱基共有五种,包括:腺嘌呤( a d e n i n e ,a ) , 鸟嘌呤( g u a n i n e ,g ) ,胸腺嘧啶( t h y m i n e ,t ) ,胞嘧睫( c y t o s i n e , c ) 和尿嘧啶( u r a c i l , u ) 。其中t 只出现在d n a 中,而u 只出现在r n a 中。核糖( 脱氧核糖) 与嘌岭或嘧啶相结合就成为核苷( 脱 氧核苷) 。 d n a 是由2 条脱氧核糖核酸长链互以碱基配对相连而成的螺旋状双链分子( 图21 ) 。其中碱基 互补配对原则是指:a 与t 以两个氢键相互结合,雨g 与c 以三个氢键相互结合,a 与t 、g 与c 是互补配对的。d n a 中一条链上的碱基通常与另一条链上的碱基互朴配对,这些通过氢键结合的碱 基配对一般称为“碱基对”( b a s e p a i r s ,b p ) 。因此d n a 可以简单地看成是由“

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论