




已阅读5页,还剩126页未读, 继续免费阅读
(分析化学专业论文)生物序列特征提取新方法的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
生物序列特征提取新方法的研究 专业:分析化学 博士生:田元新 导师:蔡沛祥教授 摘要 分析化学信息学是分析化学的一个重要分支,它是建立在多学科基础上 的交叉学科。人类基因组计划的完成积累了大量关于基因序列和蛋白质序列 数据,为化学信息学的发展提供了新的机遇并发出新的挑战。本文立足于海 量的生物序列数据资源,致力于生物序列特征提取新方法的探索,对生物信 息学中的热点问题进行了以下五个方面的研究: 1 运用傅立叶功率谱首次研究了基因中外显子的周期三行为。结果表明: 大多数外显子独立存在于基因中时并不具有周期三行为,而当基因被剪切后 外显子连在一起编码蛋白质的时候才具有周期三行为。并且这种行为特征与 外显子的长度、碱基在密码子三个位置上的分布以及氨基酸密码子的使用偏 好均有密切关系同时符合蛋白质翻译次序的外显子也具有对密码子使用的 偏好性。具有周期三行为的编码区更倾向于使用密码子第三位是g c 的密码 子。密码子使用的偏好性是蛋白质编码区所特有的性质。这一研究结果对于 提高基因识别的准确率以及内含予功能的研究具有重要意义。 2 将分形理论应用于人类基因自相似性研究,运用网格维数刻画了人类 基因编码区的分形特征。首次发现基因中整个编码区的分形维数小于单个外 显子的维数,表明整个编码序列比单个外显子更有序。通过与随机序列的对 比研究确证了此结论并且外显子的维数与随机序列差不多,表明外显子更 倾向于随机分布。结合傅立叶功率谱和编码区的分形特征,我们发现对于那 些具有较多外显子的基因,编码序列包含了较少的信息,因此具有较小的维 数,一部分的遗传信息可能储存在内含子中。对于那些具有较少外显子的基 因,编码序列包含了更多的遗传信息,具有更大的复杂性,因此维数较大。 本文的研究结果对于更好的理解基因序列的复杂性和内含予功能的研究具有 一定的理论价值。 3 结合了小波分析在数据挖掘领域的最新研究成果,建立一种生物序列 相似性研究的新方法。通过离散小波变换把数字化的蛋白质序列从时域转化 到频域,设定阈值分别把各个频域信号转化为字符串序列,根据最大公共子 序列定义序列匹配度,并将它作为相似性的测度。综合不同频域层次序列的 相似度全面考察生物序列的相似性。通过对蛋白质序列和基因序列的研究, 表明基于离散小波变换的生物序列相似性研究方法不仅能够考察不同物种同 一家族蛋白质的相似性情况,而且能够考察同一物种相同基因家族中不同成 员之间的相似性情况。本文的研究结果为生物序列相似性研究开拓辟了新的 研究思路。 4 基于小波包分析提出了一种同源蛋白特征提取的新方法,首次提出将 小波包能量作为同源蛋白质的特征向量来研究同源蛋白质序列的进化和变异 性。通过对不同物种血红蛋白a 链和b 链的同源性分析表明,血红蛋白的a 比 d 链更具有保守性。结合两条链的小波包能量谱,结论显示:在猪、牛、马、 鸡和鱼等物种中,猪的血红蛋白与人的血红蛋白具有最大的相似性,因此在 医学上有望用猪血代替人血来解决血液短缺的问题。对直系同源蛋白和旁系 同源蛋白序列的小波包能量谱的研究结果表明,小波包能量可以作为同源蛋 白质的特征向量来考察同源序列的遗传和变异性,尤其是对直系同源蛋白具 有较好的适应性。由于本方法不需要大量的样本作为训练集,而且属于非参 数法,使用简单方便,对于蛋白质的同源研究具有重要理论价值和实践意义。 5 基于小波能量特征向量在蛋白质同源性研究中的作用,提出小波能量 谱识别蛋白质活性位点的新方法。运用a u t o s i g n a l 软件选择m o r l e t 复小波对 数字化的蛋白质序列进行连续小波变换,小波能量谱可用于蛋白质活性位点 的识别。同源蛋白质序列的能量最大值通常分布于相同的频率处,小波能量 比较集中的区域往往与蛋白质序列的保守位点相对应,它们通常都是蛋白质 的活性位点。本文的研究结果为对蛋白质功能的研究开辟了新途径。 论文中涉及的程序均使用m a t l a b 程序语言编写。本论文系国家自然科学 基金和广东省自然科学基金资助项目。 关键词:傅立叶功率谱,小波,小波包,基因,蛋a 质,小波能量谱 i i t h e s t u d yo nt h en o v e lm e t h o d o fc h a r a c t e r i s t i ce x t r a c t i o n o f b i o l o g i c a ls e q u e n c e s s p e c i a l t y :a n a l y t i c a lc h e m i s t r y n a m e :t i a ny u a n x i n s u p e r v i s o r :p r o f c a ip e i x i a n g a b s t r a c t t h ee h e m o i n f o r m a t i c si sa ni m p o r t a n te m b r a n c h m e n to fa n a l y t i c a lc h e m i s t r y , w h i c hi st h ec r o s ss u b j e c tb a s e do nm u l t i p l ek n o w l e d g e w i t ht h ea c c o m p l i s h m e n t o fh u m a ng e n o m ep r o j e c t ,m o r ea n dm o r eb i o l o g i c a ld a t aa r ec o m i n gf o r t h t h e p r o t e i ns e q u e n c e sa n dg e n es e q u e n c e sa r ea l s oc h e m i c a ld a t a ,a n dt h e ya r et h en e w c h a l l e n g e t oe h e m o i n f o r m a t i c s i nt h i s p a p e r , w ec o m m i to u r s e l v e s t ot h e c h a r a c t e r i s t i ce x t r a c t i o no fb i o l o g i c a ls e q u e n c e sb a s e do nt h ev a s tp r o t e i na n d g e n o m ed a t a t h ef o l l o w i n gf i v ep r o b l e m sw h i c hb e l o n gt o t h e h o t s p o t so f b i o i n f o r n l a t j c sa r er e s e a r c h e d 1 t h ep e r i o d 一3b e h a v i o ro fe x o ni sf i r s t i n v e s t i g a t e db yf o u r i e rp o w e r s p e c t r u m t h er e s u l t ss h o wt h a tm o s te x o n sh a v en op e r i o d - 3b e h a v i o rw h e nt h e y s e p a r a t e l yl i e i nac e r t a i ng e n e a f t e rt h ee x o n si ng e n ea r ec o n n e c t e dt oc o d e p r o t e i n s ,t h el o n gc o d i n g p r o t e i ns e q u e n c e st h e ns h o wt h ep e r i o d 3b e h a v i o r m o r e o v e r , t h ep e r i o d 3b e h a v i o ro fe x o ni sr e l a t e dt ot h ee x o n sl e n g t h ,t h e l o p s i d e dd i s t r i b u t i o no f b a s e sa n dt h ep r e f e r e n c eo fs y n o n y m o u sc o d o n su s a g e t h e e x o n sw h i c ha c c o r d w i t ht h et r a n s l a t i o no r d e ra l s oh a v et h e p r e f e r e n c eo f s y n o n y m o u sc o d o n s ,a n dt h ee x o n sw i t hp e r i o d 3b e h a v i o ra r ea p tt ou s et h ec o d o n w h i c ht h et h i r dp o s i t i o no fc o d o ni sgo rc t h ep r e f e r e n c eo fs y n o n y m o u sc o d o n s i st h eu n i q u ec h a r a c t e r i s t i co fc o d i n gs e q u e n c e s t h e s ec o n c l u s i o n sw o u l db e s i g n i f i c a n tt og e n ep r e d i c t i o na n dt h es t u d yo ui n t r o n s 2 t h es e l f - s i m i l a r i t yo fh u m a ng e n ei sr e s e a r c h e db yf r a c t a lt h e o r y , a n dt h e 1 1 1 鲥d d i n gd i m e n s i o nh a sb e e nc a r r i e do u ti no r d e rt om e a s u r e ,a n di l l u s t r a t et h e c o m p l e x i t ya n df r a c t a lc h a r a c t e r i s t i co fc o d i n gs e q u e n c e sf r o mh u m a ng e n e s i ti s t h ef i r s tt i m et of i n dt h a tt h eg r i d d i n gd i m e n s i o no ft h ew h o l ec o d i n gs e q u e n c e si s s m a l l e rt h a nt h a to fe v e r ye x o n t h i sc o n c l u s i o ns h o w st h a tt h ec o d i n gs e q u e n c ei s m o r er e g u l a rt h a ne v e r ye x o n t h ec o n c l u s i o nw a sc o r r o b o r a t e db yr a n d o m s e q u e n c e s t h ee x o n sh a v es i m i l a rd i m e n s i o nt ot h er a n d o ms e q u e n c e sa n ds h o w t h e ya r ea p tt ob er a n d o m c o m b i n i n gf r a c t a lt h e o r yw i t hf o u r i e rp o w e rs p e c t r u m , i ts p e c u l a t e dt h a tg e n ew i t hf e w e re x o n sc o u l de m b o d ym o r ei n f o r m a t i o nw h i l ei t w a sc o n t r a r yf o rg e n ew i t hm o r ee x o n sa n ds o m ei n f o r m a t i o nm i g h tb es t o r e di n i n t r o n sg e n e r a l l y t h e s er e s u l t sa r eh e l p f u lt ou n d e r s t a n dt h ec o m p l e x i t yo fd n a s e q u e n c e sa n dt h ef u n c t i o no f i n t r o n 3 c o m b i n gw i t ht h en e w e s tf r u i to fw a v e l e ta n a l y s i si nd a t am i n i n gf i e l d ,a n o v e lm e t h o di sp u tf o r w a r dt oi n v e s t i g a t et h es i m i l a r i t yo fb i o l o g i c a ls e q u e n c e s b a s e do nd i s c r e t ew a v e l e tt r a n s f o r m ( d y e r ) + t h en u m e r i c a lp r o t e i ns e q u e n c e sa r e t r a n s f o r m e df r o mt i m ed o m a i nt of r e q u e n c yd o m a i nb yd w t , t h e nt h es i g n a lo f f r e q u e n c yd o m a i na r et r a n s f o r m e di n t os y m b o l i cs e q u e n c e sb a s e do nd i f f e r e n t t h r e s h o l dv a l u e t h em a t c hd e g r e ed e f i n e db yt h el o n g e s tc o m m o ns u b s e q u e n c ei s r e g a r d e da sas i m i l a r i t ym e a s u r e m e n t ,t h eg e n es e q u e n c e sa n dp r o t e i ns e q u e n c e s a r er e s e a r c h e db yo u rm e t h o d ,a n dt h er e s u l t ss h o wt h em e t h o dn o to n l yc a n i n v e s t i g a t es i m i l a r i t ya m o n gt h es a n l ef a m i l yp r o t e i no fd i f f e r e n ts p e c i e sb u ta l s o c a ne x h i b i tt h ed i f f e r e n tm e m b e r p r o t e i no ft h es a m ef a m i l yi nc e r t a i ns p e c i e s t h e r e s u l t sc a np u tf o r w a r dn e wi d e at ot h es i m i l a r i t yr e s e a r c ho f b i o l o g i c a ls e q u e n c e s 4 p r e s e n t e dan e wm e t h o dt oe x t r a c tt h ec h a r a c t e r i s t i co fh o m o l o g o u sp r o t e i n s e q u e n c e sb a s e do nw a v e l e tp a c k e tt r a n s f o r m ( w p t ) t h ew a v e l e tp a c k e te n e r g y a sf e a t u r ev e c t o ri sf i r s t l yu t i l i z e dt oe x a m i n et h eg e n e t i cv a r i a t i o no fh o m o l o g o u s p r o t e i n s t h ea n a l y s i so fh e m o g l o b i na l p h ac h a i na n db e t ac h a i nd i s p l a yt h ea l p h a c h a i ni sm o r ec o n s e r v a t i v et h a nb e t ac h a i n c o m b i n i n gt h ew a v e l e tp a c k e te n e r g y d i s t r i b u t i o no f a l p h ac h a i na n db e t ac h a i n ,t h eh u m a nh e m o g l o b i ni sm o s ts i m i l a rt o t h ep i gh e m o g l o b i na m o n gt h eo t h e rs p e c i e ss u c ha sb o v i n e ,h o r s e ,c h i c k e na n d f i s h t h a ti st h er e a s o nw h yt h ep i g sb l o o dc a nr e p l a c eh u m a nb l o o dt or e l e a s et h e l a c ko fh u m a nb l o o d w ea l s oa c q u i r et h ew a v e l e tp a c k e te n e r g yf e a t u r ev e c t o ro f o r t h o l o g u ea n dp a r a l o g u e sp r o t e i n s ,a n dt h e yc a ne x h i b i tt h eg e n e t i cv a r i a t i o no f i v h o m o l o g o u sp r o t e i n s ,e s p e c i a l l yi s s u i t a b l et oo r t h o l o g u ep r o t e i n s t h em e t h o d n e e dn o tm a n ys a m p l ea st r a i n i n gs e ta n di s n o - p a r a m e t e r i ti s a p r o m i s i n g t e c h n i q u eo fs t u d yo nt h ep r o t e i nf u n c t i o n 5 t h eu n i q u em e t h o di sp u tf o r w a r dt oi d e n t i f yt h ea c t i v es i t e so f p r o t e i n b a s e do nt i m e f r e q u e n c ya n a l y s i sb yc o n t i n u o u sw a v e l e tv a n s f o r m ( c w t ) b e c a u s e t h ew a v e l e te n e r g yc a nd i s p l a yt h eh o m o l o g o u sc h a r a c t e ro fp r o t e i n t h en u m e r i c p r o t e i ns e q u e n c e sa r et r a n s f o r m e db ym o r l e tc o m p l e xw a v e l e ti nv i r t u eo f a u t o s i g n a ls o f t w a r ea n dt h ew a v e l e te n e r g ys c a l o g m mc a nb eu s e dt oi d e n t i f yt h e a c t i v es i t e so fp r o t e i n o u rr e s u l t sf r o mh e m o g l o b i na n dt h ee p i d e r m a lg r o w t h f a c t o r si n d i c a t et h a tt h ee n e r g ym a x i m u mo fh o m o l o g o u sp r o t e i n si sg e n e r a l l yl i e i nt h es a m ep l a c ea n dt h ed o m a i no fe n e r g yf o c u sa r em a i n l yc o r r e s p o n d i n gt ot h e c r i t i c a ld o m a i n so fp r o t e i n ,w h i c hu s u a l l ya r ec o n s e r v a t i o n t h ed o m a i no fe n e r g y f o c u sc a nb eu t i l i z e dt oi d e n t i f ya c t i v es i t e so fp r o t e i n t h em e t h o dc u tan e w n o t i o nt oe x p l o r et h ef u n c t i o no f p r o t e i n a l lt h em e t h o d sm e n t i o n e da b o v eh a v ec o m p l e t ep r o c e s s i n gp r o g r a m s ,w h i c h c a nb eu s e sa n ds p r e a d t h i ss t u d yi ss u p p o a e db yn a t i o n a ln a t u r a ls c i e n c e f o u n d a t i o no f c h i n aa n dn a t u r a ls c i e n c ef o u n d a t i o no f g u a n g d o n gp r o v i n c e k e yw o r d s :f o u r i e rp o w e rs p e c t r u m ,w a v e l e t ,w a v e l e tp a c k e t ,f r a c t a l ,g e n e , p r o t e i n ,w a v e l e te n e r g ys c a l o g r a m v 中山大学博士学位论文生物序列特征提取新方法的研究 1 1 研究意义 第1 章绪论 分析化学信息学是分析化学领域一个重要的分支,它是建立在多学科基 础上的交叉学科,主要是利用数学、统计学与计算机科学为手段,研究化学 数据的获取、表征、管理、传播、分析、加工和应用,并在此基础上进行知 识创新,促进化学学科的发展。 化学信息学与分析化学密切相关,但它的研究对象并不局限于分析化学。 随着人类基因组计划( h g p , h u m a ng e n o m ep r o j e c t ) 的完成和测序手段的逐 步完善,海量的基因序列数据和蛋白质序列数据不断涌现,自1 9 9 5 年科学家 破译了全长为1 8 0 万核苷酸的嗜血流感杆菌基因组【2 】以来。迄今为止,已有大 约6 0 种微生物和若干真核生物,如:酵母【3 】、线虫【4 1 、果蝇【5 】、拟南廿【6 1 的完 整基因组完成测序。至2 0 0 1 年的春天,科学家又公布了人类基因组的绝大部 分序列,即:人类基因组的工作草图【7 】。2 0 0 3 年4 月,国际人类基因组测序 组隆重宣布人类基因组序列完成图提前绘制成功【8 】,这些成就意味着基因组的 研究将全面进入信息提取和数据分析的崭新阶段。根据国际数据库韵统计, 1 9 9 9 年1 2 月d n a 碱基数目为3 0 多亿,2 0 0 0 年4 月d n a 碱基数目为6 0 多 亿,现在这一数目已达5 0 0 多亿,大约每1 4 个月翻一番。然而数据并不等于 知识和信息,如何利用这些海量的数据,提取有用的生物信息,从而达到从 分子水平上揭示生命本质,这一焦点问题成为全世界科学家关注的重点和亟 待解决的问题。从序列组成来看,基因序列数据和蛋白质序列数据也是化学 数据,因此,基因组科学和蛋白质组学的发展为化学信息学提供了新的机遇 和挑战。化学计量学与生物信息学这两个分支学科的协同研究也大有可为, 两个学科的分支为化学和生命科学之间搭建桥梁 9 ,1 0 】。如何利用新兴化学信息 学手段从浩瀚的生物序列数据中提取出有用的信息对于生命起源,遗传变异, 疾病研究,新药开发及复杂疾病的基因治疗等诸多领域都具有重大意义。 我国也高度重视此方向的研究,2 0 0 5 年9 月,化学科学部“十一五”分析 化学发展战略研讨会上,分析化学界专家学者一致认为:分析化学是一门获 中山大学博士学位论文生物序列特征提取新方法的研究 取信息的科学,应当在信息科学的范畴内加强研究。如何有效地处理海量信 息、信息化学和化学信息学,以及生物信息学都是与分析化学密切相关的学 科】。2 0 0 5 年1 0 月1 5 1 8 日,“化学计量学与化学信息学学科发展与队伍建 设研讨会”在西安召开,来自全国高等院校和科研院所活跃在科研和教学第一 线的化学计量学与化学信息学专家学者达成共识:化学计量学和化学信息学 的研究要面向生命科学,以生命体系和各种“组学”为研究对象,是化学计量学 和化学信息学的发展机遇。化学计量学和化学信息学是化学学科与其他学科 的交叉学科,化学计量学与化学信息学研究应关注生物信息学的发展,这些 学科分支将成为化学与生物学之间的桥梁,存在可协同研究的重要课题【l2 1 。 本文正是基于这样的学术背景,在两项国家自然科学基金和广东省自然 科学基金的资助下,立足于海量的人类基因组数据和蛋白质序列数据,致力 于人类基因序列和蛋白质序列特征的研究。运用分形理论,傅立叶功率谱, 离散小波变换,小波包变换及小波功率谱等方法,研究生物信息学中的热点 问题。在此,本章对本论文涉及的生物信息学相关知识及研究现状进行综述, 并扼要说明本文的研究内容。 1 2 研究现状 1 3 - 1 6 】 1 2 1 生物信息学基本概念 生物信息学是2 0 世纪8 0 年代末期开始,随着基因组测序数据迅猛增加 而逐渐兴起的一门新兴学科,主要是以计算机j 网络为工具,采用数学和信 息科学的理论、方法和技术去研究生物大分子,它是当今生命科学和自然科 学的前沿领域之一,同时也是2 1 世纪自然科学的核心领域之一。其研究重点 主要体现在基因组学( g e n o m i c s ) 年l 蛋白质组学( p r o t e o m i c s ) 两方面,具体说就是 从核酸和蛋白质序列出发,分析序列中表达的结构和功能的生物信息。生物 分子数据具有深刻的内涵,数据之间存在着复杂的联系,这些数据中蕴涵着 丰富的生物学知识和生物学规律,揭示生物分子数据的内涵是生物信息学的 长远目标。生物信息学的发展将揭示生物分子的本质,使人类彻底了解、掌 握遗传信息的编码、传递和表达,从而加快人类了解自身过程。广义上讲, 第1 章绪论 生物信息学包括两个阶段,前期阶段主要是指生物信息的获得,包括测序、 拼接、比对,对数据进行整合,进而建立起全球通用的数据库等。随着人类 基因组计划的完成,以基因组和蛋白质组为研究重点的后基因组时代拉开了 帷幕。人类细胞中的全部基因称为基因组,由全套基因组编码控制的蛋白质 则相应地被称为蛋白组。如何理解和认识人类基因组和蛋白质组,它们是如 何实现人的生命活动,对人类的遗传变异以及疾病的产生都起了怎样的作用, 要解决这些问题就构成了后基因组时代生物信息学的主要内容,也就是通常 狭义的生物信息学。 后基因组时代,生物信息学的主要研究对象是d n a 序列和蛋白质序列。 在d n a 分析方面,主要是以基因组d n a 序列信息分析作为出发点,破译遗i 传语言,认识遗传信息的组织规律,着重分析d n a 序列中的基因信息及基因 表达调控信息;分析基因表达数据与基因之间的相互作用关系:研究基因组 中非编码区域的生物学功能;比较不同种属的基因组等。在蛋白质分析方面, 着重分析蛋白质序列与蛋白质结构及功能之间的关系;预测蛋白质的结构和 功能;研究蛋白质的进化;依据蛋白质结构和功能的关系进行药物分子设计。 生物信息学是一门以信息知识为基础的学科,基本资源是序列知识,关 键技术是信息处理。它能够揭示人类及重要的动植物种类的基因组信息,不 仅对认识生物体和生物信息的起源、遗传、发育与进化的本质具有重要意义, 为动植物的物种改良提供坚实的理论基础,而且可为人类疾病的诊断与预防 开辟全新的途径,为生物大分子结构模拟、天然大分子的改造和基于受体结 构的药物分子设计提供依据。生物信息学很可能可以通过对影响药物代谢或 效应通路、相关基因编码序列的再测序,为个体对药物反应差别提供遗传学 基础。 1 2 2 生物信息学主要的研究内容及现状 目前的生物信息学研究,已经从早期的以数据库建立和d n a 序列分析为 主的阶段转移到后基因时代,其任务是以比较基因组学、功能基因组学等为 主体研究内容中心,涉及代谢组学、蛋白质组学等新兴领域的研究。国际上 比较公认的后基因组时代生物信息学的研究内容和发展趋势主要包括以下几 中山大学博士学位论文生物序列特征提取新方法的研究 个方面: ( 1 ) 基因组序列的提取及基因识别 基因组序列的获得是通过大规模测序来实现的。通常,大规模的基因组 测序主要有两种策略【1 7 】,一种是全基因组散弹法( s h o t g u n ) ,亦称为“鸟枪法”。 它是利用物理或者化学的手段,将整个基因组随机打断成一定大小的片断进 行测序,再根据序列间的重叠关系进行计算机排序和组装,确定它们在基因 中的位置。另一种是逐步克隆法。这种方法是先构建以染色体为单位的遗传 图谱,再利用高覆盖度的大片断基因组文库( b a c 、p a c ) 获得精细的物理图 谱,选择合适的b a c 或p a c 克隆进行亚克隆测序,用计算机拼装,通过引物 步移等手段填补b a c 内的空洞,形成一条完整的b a c 序列。然后参照物理 图谱将相互关联部分重叠的b a c 克隆连成一个大的重叠群( c o n t i g ) 。两种方法 各有优缺点,鸟枪法速度快、简单易行、成本较低,但拼接组装比较困难, 易形成较大的空洞( g a p ) 。逐步克隆法定位准确,精度高,但技术难度大、成 本高。通常两种方法结合起来能够达到最优的效果。目前,不论用哪种测序 方法,获得基因组信息的每一个环节都与信息分析紧密相关。从测序仪的光 密度采样与分析、碱基读出、载体标识与去除、拼接与组装、填补序列间隙, 到重复序列标识、读框预测和基因标注的每一步都是紧密依赖基因组信息学 的软件和数据库的。特别是拼接和填补序列间隙更需要把实验设计和信息分 析时刻联系在一起拼接与组装中的难点是处理重复序列,这在含有约3 0 重复序列的人类基因组中显得尤其突出。 获得基因组序列以后对序列进行分析,寻找基因的特征,并发现新的基 因便成为当务之急的任务。大部分新基因是靠理论方法预测出来的,通过超 大规模计算使用生物信息学的方法是发现新基因的重要手段。通过信号及内 容的识别可以提高基因预测的准确性。目前,利用生物信息学的方法识别基 因主要有两个途径, 是根据从头预测( a bi n i t o ) 的方法,即根据序列本身的 特征,如:编码区具有的独特序列特征、编码区与非编码区在碱基组成上的 差异等,根据高维分布的统计方法、神经网络方法、分形方法和密码学等方 法结合模式识别的方法发现新的基因。另一种方法是从表达序列标签( e s t , e x p r e s s e ds e q u e n c et a g s ) 库中拼接出完整的新基因编码区,也就是通俗所说的 4 第1 章绪论 “电子克隆”,即利用计算机进行同源性或者一致性分析,寻找感兴趣的e s t , 通过构建包含这些e s t 区域重叠群,再进行基因的识别,从而明确基因的结 构,包括外显子、内含子及染色体的电子克隆。通过计算分析从基因组d n a 序 列中确定新基因编码区,提出理论模型,阐明该区域的重要生物学功能。目 前基因识别问题仍然是生物信息学的经典问题之一。 ( 2 ) 新s n p s ( 单核苷酸多态性) 的发现与鉴定【1 8 1 当人类基因完全确定以后,自然要解决的问题是:不同人种间基因有什 么差别? 正常人和病人基因又有什么差别? 为什么药物对不同人的疗效有显 著的不同? 研究表明,这种差异很多表现为单个碱基上的变异。这就是通常 f 所说的单核苷酸多态性( s n p s ,s i n g l en u c l e o t i d ep o l y m o r p h i s m s ) 。它是导致人 与人之间个体差异的主要原因之一。平均两个不同个体的基因组存在9 9 9 的 相同性,其差异大致相当于每l k b 长度的d n a 中存在1 个碱基的不同,如果 这种碱基的差异在人群中所占的比例超过1 ,通常就称之为多态性。单核苷 酸多态性在基因组中分布相当广泛,近来的研究表明在人类基因组中每3 0 0 个碱基对就出现一次。在全世界人的所有基因组中,约有0 1 的碱基对( 3 0 0 万) 是s n p s 。这些s n p s 主要出现在基因间序列,也可能出现内含子非编码 区,编码取得s n p 相对较少,多不引起氨基酸的改变。这种位于基因编码区 或者调节区的s n p 的生物学意义相对重要,是药物基因组学得研究重点。 现在普遍认为s n p 研究是人类基因组计划走向应用的重要步骤。这主要 是因为s n p 将提供一个强有力的工具,用于高危群体的发现、疾病相关基因 的鉴定、药物的设计和测试以及生物学的基础研究等。大量存在的s n p 位点, 使人们有机会发现与各种疾病,包括肿瘤相关的基因组突变。从实验操作来 看,通过s n p 发现疾病相关基因突变要比通过家系来得容易。有些s n p 并不 直接导致疾病基因的表达,但由于它与某些疾病基因相邻,而成为重要的标 记。s n p 在基础研究中也发挥了巨大的作用,近年来对y 染色体s n p 的分析, 使得在人类进化、人类种群的演化和迁徙领域取得了巨大的成就【旧1 。 1 9 9 8 年国际己开展了以e s t 为主发现新s n p s 的研究。在我国开展中华 民族s n p s 研究也是至关重要的。人类基因组单体型图谱( h a p m a p ) 的建立, 它可以用于各种人口、各种相关疾病的全基因组水平上的遗传性研究,同时 中山大学博士学位论文生物序列特征提取新方法的研究 还可用于提高测序和基因型技术使这种研究成为可能。化学基因组就是在这 种背景下产生的2 0 1 。使用小分子库( 天然成分、低聚核苷酸或者组合化学产 品) 、高通量的筛选,可以更好地理解生物的代谢通路,并发现在个体基因产 物、路径或细胞基因型中起正向或负向调节的化合物。这将成为基础研究的 新试剂或发展新治疗药物的新起点。 ( 3 ) 非编码区结构信息分析 近年来完整基因组的研究表明,在细菌这样的微生物中非编码区只占整 个基因组序列的1 0 到2 0 。而高等生物和人的基因组中非编码区都占到基 因组序列的绝大部分。对人类基因组来说,迄今为止,人们真正掌握规律的 只有d n a 上的编码蛋白质的区域( 基因) ,很多资料说这部分序列只占基因 组的3 5 ,也就是说,人类基因组中多达9 5 到9 7 是非编码区。从生 物进化的观点看来,随着生物体功能的完善和复杂化非编码区序列明显增加 的趋势表明:这部分序列必定具有重要的生物功能。普遍的认识是,它们与 基因在四维时空的表达调控有关。因此寻找这些区域的编码特征以及信息调 节与表达规律是未来相当长时间内的热点课题。 虽然d n a 结构相对简单,并在化学角度上已经得到了相当深入的了解, 但是人类基因组的结构是极其复杂的,而且对其功能的理解还很少。只有1 - 2 的碱基编码蛋白质产物,而且编码蛋白的全套序列还没有确定【2 。数量与之 基本相当的基因组非编码区在进化选择中也是十分活跃的【2 2 】,说明它们也具 有重要的功能,但是我们对它们的了解甚少。它们可能包含了控制大约3 0 , 0 0 0 个蛋白质编码基因的大量表达调控信息,以及无数个其他功能元素,例如 非蛋白质编码基因、决定染色体动力学特征的序列等。基因组中有将近一半 的高度重复的序列区以及其他非编码、非重复d n a 序列区,有关它们的功能 我们所知道的就更少。如何深入了解这些非编码区序列的功能是当前科学家 们面临的一个真正的挑战。 ( 4 ) 完整基因组的比较研究 现在,生物信息学家不仅有大量的序列和基因而且有越来越多的完整基 因组。有了这些资料人们就能对若干重大生物学问题进行分析,比如:研究 6 第1 章绪论 生命是从哪里起源的? 生命是如何进化的? 遗传密码是如何起源的? 估计最 小独立生活的生物至少需要多少基因,这些基因是如何使它们活起来的? 又 如,鼠和人的基因组大小相似,都含有约三十亿碱基对,基因的数目也类似。 可是鼠和人差异确如此之大,这是为什么? 同样,有的科学家估计不同人种 间基因组的差别仅为0 1 ;人猿间差别约为1 。但他们表型间的差异十分 显著。因此其表型差异不仅应从基因、d n a 序列找原因,也应考虑到整个基 因组、考虑整个染色体组织上的差异。对进化上不同的物种进行基因组序列 的比对,是鉴别出重要的遗传因子的强有力工具。对现有的几种脊椎动物基 因组序列的初步分析就发现了许多以前未被发现的蛋白质编码序列斟2 3 1 。哺 乳动物之间的序列比对揭示了非编码区内的大量同源现象,而这些区域基本 上不能从功能角度上定义。不同物种序列的进一步比对,尤其是那些占据独 特进化位置的物种间的比对,会极大地促进我们对保守序列作用的理解【2 4 1 。 总之,这些例子说明由完整基因组研究所导致的比较基因组学必将为基 因组研究开辟新的领域。 ( 5 ) 蛋白质的空间结构模拟及药物分子设计研究【2 5 】 后基因时代除了功能基因组的研究外,蛋白质组学也是后基因组的重要组 成部分。蛋白质组内蛋白质数目要远远超过基因组内基因的数目。蛋白质组 学研究的数据与基因组学数据的整合,将会在后基因组时代( p o s t g e n o m e ) 功能基因组学的研究上发挥重要作用。蛋白质组学研究的数据可为生物信息 学及生物制药学提供重要依据。目前,澳大利亚,美国,欧洲,和日本等己 纷纷成立了有关的研究机构和公司,美国各大学和大制药厂,均启动了蛋白 质组学研究,出于对筛选新药等应用前景的考虑,已经开始进行环境变化, 病毒感染,药物应用等对细胞作用的研究。这充分显示出,在蛋白质组学这 个研究领域,基础研究与实际应用几乎并驾齐驱,生命科学领域内一个崭新 的时代蛋白质组学时代即将开始。 蛋白的空间结构模拟和药物设计已有二三十年的历史。随着人类基因组 研究的逐步完善,准确确定人类3 一万个基因的碱基序列指日可待,因而确 定它们表达产物的氨基酸顺序也会逐渐实现,此时预测这些蛋白的空间结构, 进而实现针对性的药物设计,就成了迫在眉睫的任务。这也是大规模的计算 中山大学博士学位论文生物序列特征提取新方法的研究 问题。蛋白质是组成生物体的基本物质,是生命活动的主要承担者,一切生 命活动无不与蛋白质有关。然而要了解他们的功能、要找到这些蛋白质功能 的分子基础,必须进一步知道它们的三维结构。蛋白质的生物功能由蛋白质 的结构所决定,因此在研究蛋白质时首先需要了解蛋白质的空间结构。与此 同时,要设计药物也需要了解相应的蛋白质受体的三维结构。目前蛋白质序 列数据库中大约有2 4 万个蛋白质的序列数据,但在结构数据库p d b 中,仅有 7 5 0 0 个蛋白质的空间结构数据。当前,x 射线晶体学技术、多维核磁共振波 谱技术、二维电子衍射等传统实验技术为蛋白质空间结构的测定提供了有效 的手段,核酸酶变性及重折叠实验,也为从蛋白质的氨基酸序列预测蛋白质 的三维空间结构提供了实验基础。虽然蛋白质结构测定方法有所改进,但由 于蛋白质大分子难于纯化、难于培养晶体,而且多维核磁对样品需求量大, 使得实验测定结构的速度远远小于蛋白质序列增长的速度,不能满足实际的 需要1 8 ,2 6 1 。因此,运用理论方法进行结构预测就显示了重要性,这是摆在科 学家面前的紧迫任务。 直接从蛋白质序列预测蛋白质结构对研究蛋白质结构与功能关系十分有 用,这也将促进蛋白质工程和蛋白质设计的发展。早在2 0 世纪5 0 年代, a n f i n s e
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年智能家居行业智能家居市场前景分析研究报告
- 2025年物联网行业智能家居发展前景分析报告
- 2025年网络安全产业发展态势与前景展望研究报告
- 2025年海藻提取物行业研究报告及未来发展趋势预测
- 压力容器安全培训课件
- 国家事业单位招聘2025农业农村部农产品质量安全中心招聘应届毕业生拟聘用人员笔试历年参考题库附带答案详解
- 云南省2025云南红河州和信公证处招聘(10人)笔试历年参考题库附带答案详解
- 上海市2025第二季度上海市群众艺术馆招聘1人笔试历年参考题库附带答案详解
- 2025重庆设计集团重庆市设计院有限公司招聘29人笔试参考题库附带答案详解
- 2025贵州遵义市赤水市丹投教育科技有限公司招聘水厂人员2人笔试参考题库附带答案详解
- 2025文具用品采购合同范本格式
- 树木学试题及答案北林
- 电气检修生产安全培训课件
- 2025第三季度作风建设党课以忠诚廉洁担当的政治品格奋力书写高质量发展新答卷
- 《2025新版检验检测机构管理评审报告》
- 2025劳动教育考试试题及答案
- 江苏省南通市如皋市2025-2026学年高三上学期开学考试数学试卷
- 宠物急救标准化流程
- 焊工考试理论考试题库及答案
- 云原生压测技术-洞察及研究
- 关联交易贷款管理办法
评论
0/150
提交评论