(微生物与生化药学专业论文)钩端螺旋体hisie基因的克隆与生物信息学分析.pdf_第1页
(微生物与生化药学专业论文)钩端螺旋体hisie基因的克隆与生物信息学分析.pdf_第2页
(微生物与生化药学专业论文)钩端螺旋体hisie基因的克隆与生物信息学分析.pdf_第3页
(微生物与生化药学专业论文)钩端螺旋体hisie基因的克隆与生物信息学分析.pdf_第4页
(微生物与生化药学专业论文)钩端螺旋体hisie基因的克隆与生物信息学分析.pdf_第5页
已阅读5页,还剩68页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

j 劳茗篷挚硕士学位论文钩端蝾旋体h i s i e 熬因的克隆与生物信息学分析 钩端螺旋体h i s l e 基因的克隆与生物信息学分析 摘要 本文介绍了基因组测序现状、新基因的发现、基因组信息对药物研究的影响, 并简单介绍了钩端螺旋体全基因组测序。 莉用生物信息学工具对新近基函组测序完成韵病源体微生物钩端螺旋 季搴的一对鏊嚣l 8 0 7 9 、l a 0 5 5 1 遴彳亍结梅、功能分析,镪括基因结构分帮苄、 序列甥理化学性质分携、固源蛙囊找、蛋皇家族分援,确认这对基因为磷酸核糖 a t p 焦磷酸酶署磷酸核糖一a m p 环化蹲,分男q 催化组氨酸合成的第2 步和第3 步。 用p c r 扩增这对基因并进行分子克隆,用互补实骏验证了前葡的分析。 作了蒺霞豹系统发育分轿。壹蓥嚣亭赠蘸译韵虽白穿弼佟海查询j 事捌, b l a s t 搜索完贼全测廖黪耩医缀数撂痒,获缮羼源麴爨是廖列,裂恩最楚约法、 距离法和最大似然法加以分析,发现钩端螺旋体的这对基因来源于不同的界。 关键词:钩端螺旋体,基因,生物信息学,系统发育分析 兰壁茎墨查望堡圭黧望笙兰 笪塑燮鏊查塑! 兰燕星塑塞堕兰塞塑蕉量兰坌堑 c l o n i n ga n d b i o i n f o r m a t i c s a n a l y s i s o f 珏l s l 愿g e n ef r o m l e p t o s p i r a a b s t r a c t t h e p a p e r r e v i e w e dt h es t a t u so fg e n o m es e q u e n c i n g ,d e v e l o p m e n to f n e w g e n e d i s c o v e r ya n dt h er o l eo f b i o i n f o r m a t i c si nd r u gd i s c o v e r y ab r i e fi n t r o d u c t i o no f g e n o m es e q u e n c i n go f l e p t o s p i r a w a s p r e s e n t ,t o o b i o i n f o r m a t i c st o o l sw e r e u s e dt oa n a l y z et h es t r u c t t t r ea n df u n c t i o no fap a i ro f g e s l b 0 7 9 a n dl a 0 5 5 1f r o mn e w l ys e q u e n c e dl e p t o s p i r a , ap a t h o g e n i c m i c r o o r g a n i s m ,i n c l u d i n gt h ea n a l y s i so f g e n es t r u c t u r e ,p h y s i c a l c h e m i c a lc h a r a c t e r , p r o t e i nf a m i l y a n dt h er e s e a r c ho fh o m o l o g o u ss e q u e n c e s t h ea n a l y s i sg a v et h e c o n c l u s i o nt h a t t h e g e n e s e n c o d e p h o s p h o r i b o s y l - a t p p y r o p h o s p h o h y d r o l a s e ( p r a - p h ) a n dp h o s p h o r i b o s y l - a m pc y c l o h y d r o l a s e ( p r a - c h ) ,w h i c hc a t a l y z et h e s e c o n da n dt h i r ds t e pi nh i s t i d i n eb i o s y n t h e s i sr e s p e c t i v e l y e x p e r i m e n t sw e r em a d ef o rp c ra m p l i f i c a t i o n a n dm o l e c u l a rc l o n i n go ft h e g e n e s c o m p l e m e n te x p e r i m e n t w a sc o n d u c t e dt ov e r i f yt h ep r e d i c t i o n p h y l o g e n e t i ca n a l y s i so f t h eg e n e sw a sc o n d u c t e d p r o t e i ns e q u e n c e st r a n s l a t e d f r o mt h eg e n e sw e r e u s e da sq u e r ys e q u e n c et o m a s tt h ec o m p l e t i o no r g a n i s mg e n o m e ; h o m o l o g o u ss e q u e n c e so fp r o t e i n s w e r eo b t a i n e d ad i s t a n c et r e ef o rt h ep r o t e i n f a m i l yb a s e d o na l la v a i l a b l ef u l l l e n g t hs e q u e n c e sw a sc o n s t r u c t e d t h et r e et o p o l o g y s u g g e s t e d t h a tt h et w og e n e sw e r ed e r i v e df r o md i f f e r e n tk i n g d o m s k e y w o r d m l e p t o s p i r a , g e n e ,b i o i n f o r m a t i c s ,p h y l o g e n e t i ca n a l y s i s 上海交通大学 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定, 同意学校保留并向国家有关部门或机构送交论文的复印件和电子 版,允许论文被查阅和借阅。本人授权上海交通大学可以将本学位 论文的全部或部分内容编入有关数据库进行检索,可以采用影印、 缩印或扫描等复制手段保存和汇编本学位论文。 保密口,在年解密后适用本授权书。 本学位论文属于 不保密a 。 ( 请在以上方框内打“- , ”) 学位论文作者签名:f 童逐7 眨指导教师签名:丛l 文七 日期:2 0 0 3 年2 月1 2 日日期:2 0 0 3 年2 月1 2 日 上海交通大学 学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下, 独立进行研究工作所取得的成果。除文中已经注明引用的内容外, 本论文不包含任何其他个人或集体己经发表或撰写过的作品成果。 对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式 表明。本人完全意识到本声明的法律结果由本人承担。 学位论文作者签名:f 五逐哩 日期:2 0 0 3 年2 月1 2 日 毒手支蘸z 謦硕士学位论文钩端螺旋体h i s i e 基因的克隆与生物信息学分析 随着越来越多的生物( 主要是微生物) 基因组测序的完成以及序列的公布, 目前数据库中有所有三界系统( 古细菌、真细菌、真核生物) 的代表性生物的基 因或基因组全序列,而且序列数量以指数形式增加。目前,存储各种基因组信息 的数据库有上百个,分散在世界各地。例如d n a 和蛋白序列数据库、基因组作 图数据库、代谢途径数据库、基因表达数据库、基因功能表型数据库以及蛋白结 构数据库。 鉴于可以获得如此巨量的基因组信息,鉴定新的基因以及基因、蛋白的研究 策略随之发生了改变。已经进入了所谓的“i ns i l i c a ”时代。例如传统的基因实 验克隆有了新的技术- e s t ( e x p r e s s i o n s e q u e n c e t a g ,电子杂交克隆) 。另外, 基因、蛋白的研究也将首先考虑计算分析,计算分析业已成为与实验手段并驾齐 驱的方法。这种计算分析的专门术语是生物信息学分析,其基本原理是通过各种 基于检测序列相似性及特征模体的算法来鉴定已知基因的同源物,并通过同源物 中已知的功能来预测新基因的功能。这种方法一方面可以用来发现新的基因或蛋 白,另一方面可以研究序列的详细特征。 此外,因为可以获得大量基因序列,从而使系统发育研究领域步入了新的阶 段。分子性状( 核酸、蛋白序列) 已经取代形态性状而成为系统发育研究的主流, 并已成为基因、蛋白研究的重要方法。这种分子系统发育研究近年来应用于两大 方向:物种的系统分类和基因或蛋白家族的进化分析。 全基因组测序也是研究病原性微生物的有力手段。2 0 0 0 年中国人类基因组南 方研究中心完成了问号型钩端螺旋体赖型赖株( l e p t o s p i r ai n t e r r o g a a ss e r o v a rl a i s i r 5 6 6 0 1 ) 的全基因组测序。 在这样的背景下,本文利用这种新的思路分析了钩端螺旋体的一对基因 f ,a 0 5 5 i 、l b 0 7 9 。首先利用各种生物信息学工具加以分析,通过同源性查找、 搜索各种二次数据库,发现该对基因产物与组氨酸合成有关,分别催化第二步和 第三步。参考其它物种相关基因的命名,将l a 0 5 5 1 、l b 0 7 9 命名为h i s l 、h i s e 。 随后用分子实验克隆和表达了该对基因,验证了前面的分析。最后对基因产物进 行系统发育分析,用不同的建树方法获得比较一致的结果,发现该对基因来源不 同:h i s i 很可能来自古细菌界,h i s e 则可能来自低g c 含量的革兰氏阳性菌,即 真细菌界。这表明物种进化过程中经历了基因侧向转移。 第1 页 兰壁茎兰苎鲎堡主兰焦笙塞 塑塑堡塞堡坐里茎里塑塞堕兰竺塑堡璺堂坌堑 1 文献综述一生物信息学及其应用 1 1 基因组测序现状 1 9 9 0 年启动的人类基因组计划( h u m a n g e n o m e p r o j e c t ,h g p ) 的目标是测 出人类和一些模式生物的基因组d n a 全序列,制作完成全序列的物理图谱,找 出全部人基因,发展出一系列实现上述目标所需的技术。不过,那些较小的、较 简单的基因组,特别是细菌和酵母的基因组的测序已经领先了。目前大部分已经 完成测序的是微生物基因组。自从1 9 9 5 年第一个微生物基因组流感嗜血杆 菌全基因组测序1 1 】完成,截至2 0 0 2 年1 0 月,t i g r ( t h ei n s t i t u t ef o rg e n o m i c r e s e a r c h ,r o c k v i l l e ,m d ,u s a ) 公布的已完成测序的微生物基因组为8 8 个, 其中1 6 个古细菌,7 2 个真细菌。此外,还有大量的微生物基因组正在测序之中。 目前,测序的基因组已经遍布古细菌、真细菌和真核生物( 酵母、水稻、老 鼠、斑马鱼、人类等) 。据估计,从1 9 9 7 年到2 0 0 0 年,平均每天增加2 百多万 个碱基对的新序列,这些序列代表了大约7 0 个新的基因及其蛋白。这样的信息 对于医学研究者、生物技术公司、医药工业具有不可估量的价值。因为目前只鉴 定了一小部分与人类遗传疾病有关的基因,基因组序列分析所发现的每一个新基 因都有可能显著影响人类健康。除了健康保健,基因组信息的其它重要的应用领 域有能源供应、废物治理等。所以并不奇怪,h g p 是由美国能源部( t h e d e p a r t m e n t o f e n e r g y ,d o e ) 和美国国立卫生研究院( t h e n a t i o n a li n s t i t u t e so f h e a l t h ,n i h ) 资助的。 目前传染病仍然是人类的主要疾病,由传染病引起的人类死亡人数占1 ,3 。 对于微生物病原性的鉴定与发病机理的阐明。由于没有合适的方法而进展缓慢。 可以预料,对病原性微生物的全基因组测序将解决这些问题,所以病原性微生物 基因组是测序的重要目标。1 9 9 5 年,t i g r 用高通量方法完成了h a e m o p h i l u s i n f l u e n z a e 基因组的核酸序列测定。这是第一个全测序的细胞有机体。基因组大 小为1 8 3m e g ab a s ep a i r s ( m b ) 。截止2 0 0 0 年,已有多个病原微生物基因组测 序完成( 见表1 1 ) 。 第2 页 j 善 交篷名訾碛学位论文钩端螺旋俸h s l e 鏊强懿巍隆与袋窃信总学分轿 表1 - 1 完藏基医缀测序媳缨蘩瘸原髂脚 s p e c i e s g e n o m ee n e o d e da f f e c t e dt i s s u ec a u s e dd i s e a s e s i z e 国如p r o t e i n s p r o t e o b a c t e r i a e s c h e r i c h i 8c u l l 46 3 92 2 l42 8 9i n t e s t i n ea n d f r e e l i v i n g h a e m o p h i l u si n f l u e n z a e l8 3 0 1 3 8i7 0 9 l u n g s p n e u m o n i a h e l i c o b a c t e r p y l o r i 16 6 78 6 7l5 6 6g a s t r u mu l c e r r i c k e t t s i a p r o w a z e l d i 11 1 l5 2 98 3 4 h a t e s t i n e t y p h u s g r a m - p o s i t i v eb a c t e r i a b a c i l l u ss u b t i l i s 42 1 48 1 441 0 0 f r e e - l i v i n g m y c o p l a s m ag e n i t a l i u m 5 8 0 0 7 34 6 7 u r o g e n i t a lt r a c t u r e t h r i t i s m y c o p l a s m a p n e u m o n i a e 引63 9 46 7 7 l u n g s p n e u m o n i a 姆c o b a c t e r i w nt u b e r c u l o s i s 44 l l5 2 93 争 s l u n g s t u b e r c u l o s i s s p i r o e h a e t a e b o r r e l i ab u r g d o r f e r i9 l g7 2 5s 弱s 蠡濠 l y m ed i s e a s e t r e p o n e m a p a l l i d u m l1 3 80 1 1 10 3 1 o e n i t a l s s y p h i l i s c h l a m y d i a e c h l a m y d i at r a c h o m a t i s l0 4 25 1 98 9 4 u r o g e n i t a l ,t r a c ti n f l a m m a t i o n , t r a c h o m a e p i d i d y m i t i s c h l a m y d i a p n e u m o n i a e 12 3 0 2 3 0l0 5 2 l u n g sb r o n c h sp n e u m o n i a , b r o n c h i t i s 2 0 0 0 每孛隧人类基因缀摩方璎究孛心凳残7 润号篷锪壤爆麓体赣型羧株 ( l e p t o s p i m i n t e r r o g a n ss e r o v f r l a is t r 5 6 6 0 1 ) 的全基因缎测序。该藏橡基躅组虫 两条染色体组成,分别为43 3 2 2 4 1 b 和3 5 89 4 3b p 。 钩端螺旋体( 以下简称钩体) 是一群细嵌、柔软、弯曲皇螺旋状、运动活泼 酶摹缁戆徽生彩,广泛分布予自熬界。穰据蕊否致瘸,钩体属( g e n u sl e p t o s p i r a ) 下分为嚣令穆( s p e c i e s ) :鄂致病瞧羚戆号型锪俸l e p t o s p i r ai n t e r r o g a n s ( 瘸】1 ) 和非致病饿的双曲钩体l e p t o s p i r ab i f l e x a 。前者营姆生:蜃者罄鹰生,生活在水 体中。两者在分类上属于螺旋菌门,螺旋体目,钩端螺旋体科。 脚1 - i 问号型钧螭螺旋体- i i i 片来hi n t e r n a t i o n a ll e p t o s p j r o s i ss o c i e t y ( i l s ) f i g u r e1 - 1l e p t o s p t r al r a e r r o g a n s f i g u r es o u r f :e l 嚣 第3 页 二善f 炭遥名謦硕士学位论文钩端螺旋体h i 。i e 基因的克隆与生物信息学分析 钩端螺旋体病危害严重,引起世界范围传播的人畜共患病钩端螺旋体 病。许多野生和家养动物,特别是犬、鼠、家禽易被感染。人通过接触受污染的 水源、土壤或感染动物的尿液而感染,轻者出现流感症状,重者可导致肾脏、肝 损伤,甚至致死。我国曾数十次大规模流行。该病近年来在巴西、印度、东南亚、 美国等地有了几次大规模的爆发。 对螺旋菌来说,目前极其缺乏相关的分子遗传工具,只有通过人工构建穿梭 载体口1 ,所以对其分子遗传学的研究一直很滞后。从这点看来,全基因测序无疑 意义重大。 1 2 生物信息学工具概述 巨量的基因组数据需要存储、管理和分析,生物信息学应运而生。该术语广 义上是指利用信息技术管理和分析生物学数据。单就基因组数据分析这角度 看,主要是指核酸和蛋白质序列数据的计算机处理和分析,通过对生物信息的查 询、搜索、比较、分析,从中获得基因编码、基因调控、核酸和蛋白结构功能及 其相互关系等知识【钔。 目前,存储各种基因组信息的数据库总体上可分为核酸序列和蛋白数据库。 核酸数据库形成了三大国际一级数据库,即美国国家信息中心( n a t i o n a lc e n t e ro f b i o t e c h n o l o g yi n f o r m a t i o n ,n c b i ) 的g n e b a r t k 、欧洲分子生物学实验室( e u r o p e a n m o l e c u l a rb i o l o g yl a b o r a t o r y - e u r o p e a nb i o i n f o r m a t i c si n s t i t u t e ,e m b l - e b i ) 的 e m b l 和日本的d n a 数据库( d n a d a t a b a n k o f j a p a n ,d d b j ) 。 以上的数据库涵盖了从完整基因组到单个基因等核酸序列数据及部分注释 信息,称为一级数据库( p r i m a r yd a t a b a s e ) 。此外还有模式生物基因组数据库等 专用数据库。蛋白数据库种类较多,以不同的格式存储不同结构层次的信息。蛋 白质一级结构序列形成一次数据库,即蛋白质序列数据库:二级结构序 列模体形成二次数据库,即各种模体数据库,蛋白家族数据库;三级结构结 构域、结构模块形成结构数据库。蛋白序列数据库最有名的是瑞士蛋白质数据库 ( s w i s s p r o t ) 。 数据库正向着集成化的方向发展,出现了很多序列模式复合数据库,例如统 第4 页 善算f 爻囊父謦硕士学位论文钩端螺旋体h b l e 基因的克隆与生物信息学分析 一的蛋白质家族数据库i n t e r p r o 。n c b i 站点b l a s t 界面上的非冗余数据库 n r 就汇集了s w i s s p r o t 等多释数据库,甄是一个菲冗余蛋白数据库穗是个 冗余d n a 数据瘴,是b l a s t 奎谗襄孽默认数据簿。 这些数据摩可以对基因的生化或熬个生物体功能、组织表达模式、爨白结构 类型、功能家族、代谢中的作用、与疾病表型潜在的关系等筹提供一定的了解, 从而构成了基因( 组) 分析的平台,而且自身也随着新基因缀注释的完成得到进 一步的扩充。 识别一个耨测定熬痔列秘基知基霹之闫豹关系懿重要方法是数据库搜索:邋 过特定序列相似性比对算法,找如核酸或者骚白质序列数据摩中与待检序列具有 一定程度相似性的序列。数据库搜索需要借助搜索工具,目前发展起来的几个常 用工具基于不同的算法。第一个被广泛应用的是f a s t a ,目前最有名的怒n c b i 网蛞乔面上的b l a s t ( b a s i cl o c a la l i g n m e n ts e a r c ht 0 0 1 ) 。 沈对怒数摄痒搜索算法愆基鹚,分为双廖到比对( p a i r w i s ea l i g n m e n t ) 和多 序列比对( m u l i p l ea l i g n m e n t ) 。麓者是通过一定的算法对两个蛋白质序列或核酸 序列进行比较,找出二者之间最大的相似性匹配,是多序列比对的基础,又分为 全局比对( g l o b l ea l i g n m e n t ) 和局部比对( 1 0 c a la l i g n m e n t ) 。后者楚将多个蛋白 质或核酸蔺对院较,等我这些有逐仡关系的序疑之蠲共阕酌缣守的区域、位熹粒 p r o f i l e 。 表1 2 列出了常用的生物信息学工具和有关网站地址。 第5 茭 岁算f 寰囊1 名警硕士学位埝文钩端撩旋体h 汹e 基因的克隆与生物信息学分析 表1 - 2 生撩辏患擎王具疑羹霜癸褥攀鬻站京 名称简述月绦地址 n c b l分子生物学依息资源,拥有核酸 h t t p :w w w n c b i n l m n i h g o v 序列公共数掇库,基因缓数据分 析软件等。 e x p a s y拥有蛋囱序列数据藤,事富的分h t 挚如w e 冲a s c 析工具及到其它网络资源的锻 接。 p r o s l t e 爝自家族和结构域数据库。 h t t p :w w w e x p a s y c h p r o s i t e ! w i t 代遴数据毒。 h t t p :l l w w w c m c 。m s u e d u p f a m 收集了多重序列比对( m u l t i p l eh t l p :p f a m w u s 廿e d u s e q u e n c ea l i g r m l e n t s ) 释潍马氏搂 型( h i d d e nm a r k o vm o d e l s ) 数据 撵,覆藏了诲多繁觅薛缩稳域和 掇自家旅。 s c o p 摄自结构分类数据库。 h t t p :s c u p m r 口l m b c a m a “u l c s c o p t l g r综合数据库,包括了d n a 、蛋白 h t l p :w w w t i g r o r g t d b i n d e x h t m l 薄列、基因表达、细胞功能、蛋 囟家族期分类学数摄。 p i r 蛋白信息资源,对蛋白数据进行 h t t p :p i t g e o r g e t o w n e d u 了功能淀释弱集戏数据库。 c o gn c b i 站点上的工具。每一个c o g h t t p :t l w w w n c b i n l m a i h g o v c o g 我表一个傈孝的结 奄域。 t h ee s t宥到各种e s t 分析资源的锻接。 h t t p :w w w f i g e m ,i t e s t m a c h i n c h t m l m a c h i n e 序列比对的理论綦础是避化学说。妇果蜒令序列之耀具鸯足够麴提 娃娃,壤 推测二者可能具有共同的祖先,缎过序列内残基的将换、残基绒序列片段的缺失、 以及序列爨组等遗传变异过程分别演化而来1 5 】。 稀用这些鸯溺工其将查询序列与整个数据库酶所有净歹8 进行诧较,从数据瘁 孛获褥与其最稳儆疹捌戆邑骞数擐,缝最抉逮黪获褥有关鸯谗净刭黪大量鸯价德 的参考信息。通过比对方法可以露效的分板摹蹲预测一些糖发现豹基鼹静功戆。 常用的数据库搜索工具列于袭1 - 3 。 第6 页 多乒f 蓑鱼名謦硕士学位论文钩端螺旋体b j s i e 基因的克隆与生物信息学分析 表1 - 3 鼍常用的数据库搜索工具 搜索程序算法原理简述 b l a s t ( 无空位首先找出待检序列和目标序列间所基于双序列比对,运行速度快。 插入)有匹配程度超过一定值的序列片断b l a s t 包含5 个程序和若干 对,然后对具有一定长度的片断对个相应的数据库,分别针对不 根据给定的相似性阀值延伸,得到同的查询序列和要搜索的数据 一定长度的相似性片断,称高分值库类型,适用于核酸序列搜索 片断对。的b l a s t n 、b l a s t x 、 b l a s t ( 允许空 只找出一个最好的高分值片断,并t b l a s t x ( 主要用于表达序列 位插入)以此为基础用动态规划方法将这一标签e s t 分析) 和适用于蛋白 片断向两边延伸。最终产生的比对序列搜索的t b l a s t n 、 结果可能有空位插入。 b l a s t p 。 f a s t a 识别和检测序列相匹配的很短的序 b l a s t 相比f a s t a 有更多改 列片断,称为k - t u p l e 。用于蛋白质 进,速度更快,并建立在严格 序列数据库搜索时,短片断的长度 的统计学基础之上。 般是l 2 个残基,d n a 序列数据 库搜索时最多为6 个碱基。通过比 较两个序列中短片段及其相对位 置,可以构成一个动态规划矩阵的 对角线方向上的一些匹配片断。采 用渐进算法将位于同一对角线上的 相互接近的短片段连接起来即通过 不匹配残基将匹配片断联接。 p s l b l a s t位点特异性b l a s t ( p o s i t i o n - 基于多序列比对,搜索结果更 s p e c i f i ci t e r a t e db l a s t ) 迭代搜索。加灵敏,信噪比更高。可以找 将双序列比对和多序列比对结合。 出相似性程度较低而又有生物 先用带空位的b l a s t 搜索数据库,将 学意义的目标序列。但费时, 获得的序列通过多序列比对来构建 最终结果不容易分析。搜索前 i 第一个p r o f i l e ,再用p r o f i l e 搜索数需要将重复序列屏蔽掉。 据库。 1 3 新方法的应用 1 3 1 应用之一分子生物学 一般基因组的测序少至数月,多则数年。但是所有表达基因的测序( 通过 c d n a 测序) 可以在较短的时间内完成。部分测序随机挑选的c d n a 克隆,获得 3 0 0 5 0 0 碱基长的d n a 序列即为表达序列标签( e x p r e s s i o ns e q u e n c e t a g ,e s t ) 。 e s t 可以用作查询序列,用b l a s t 检索程序检索数据库中与其同源或有部 分重叠的e s t 序列,以确定哪些代表已知基因,哪些代表已知e s t ,哪些代表 第7 页 岁舅f 震囊1 名謦硕士学位论文钩端螺旋体h i 。i e 基因的克隆与生物信息学分析 新发现的e s t 序列;还可以多个e s t 序列电子延伸组装为基序( c o n t i g s ) ,即通 过与已知的e s t 序列重叠区( o v e r l a p p i n gs e q u e n c e ) 的配对延伸,组装成毗邻序 列;以此基序为被检序列再进行b l a s t 检索;重复以上过程,直至没有更多的 重叠e s t 检出,基序不能继续延伸为止。此外,也可直接用e s t 序列从数据库 中检出未知功能的基因序列,然后进行定性分析。这样的一个过程即为e s t 电 子杂交基因克隆【6 j 。 在利用e s t 克隆和定位新基因的战略思想的指导下【7 1 ,e s t 在g e n b a n k 中 所占的比例迅速增加:从1 9 9 2 年的8 增加到1 9 9 7 年的7 4 ,到2 0 0 2 年有所 稀释,占6 4 【8 1 。随着生物信息学的发展,e s t 已经成为基因定位、基因克隆、 基因表达分析的有力工具。例如,用这样的方法已经在人类基因组中发现了上千 个以前未知的基因【9 j 。 生物信息学方法在一般的基因研究中也有广泛的应用,例如基因结构的鉴 定、物种分类等。j i n s i l kn a m 等人1 0 1 用简并引物从某致病真菌中扩增出含有 c h i t i n 合成酶基因的段d n a ,通过b l a s t n 数据搜索定位了相应的基因,并用 系统发育分析确定了该真菌与其它真菌的进化关系。发现该段基因序列可以用于 真菌的分类。 基因组中已测序的部分和未测序的部分均含有许多尚不为人知的基因,尽快 找到新的基因并加以开发利用十分必要。发现新的功能因子的广阔前景及巨大的 社会和经济效益,已使许多科学家们把注意力转移到新基因的识别和在物理图谱 上定位的研究。 在基因组时代可以用生物信息学工具分析规模巨大的基因组数据库,用结构 域同源、组织表达谱、进化上的保守性等方法来发现新的基因。这方面的成功例 子很多。例如通过同源性查找鉴定了很多基因家族,包括5 0 多个孤儿g 蛋白 耦联受体( “o r p h a n ”g - p r o t e i n c o u p l e dr e c e p t o r s ,g p c r s ) 、白介素l p 转化酶 样细胞凋亡蛋白酶( i n t e r l e u k i n 1 p - c o n v e r t i n ge n z y m e ( i c e ) - l i k ea p o p t o f i c p r o t e a s e s ( c a s p a s e s ) ) 、大量的c h e m o k i n e 和肿瘤坏死因子受体家族( t u m o r n e c r o s i s f a c t o r ( t n f ) t n f r e c e p t o rf a m i l i e s ) 以及蛋白酶( p r o t e a s e s ) 和生长因子( g r o w t h f a c t o r s ) 。 s h e a uy uh s u 和a a r o njw h s u e h 的一篇小型综述中1 1 2 】详细总结了激素因 第8 贾 兰兰兰垦苎望堡圭堂垒笙塞 望塑燮鎏堡塑兰燕旦塑塞堕兰圭望堕璺堂坌堑 子、受馋零曩售譬分子发理鲍帻援。在该文中瞧提及了各秘发瑷薮基因的方法斡演 变,见表i - 4 。 表1 - 4 发现新基因方法的演变 经簇方法 蛋白纯化 低严谨度杂交 简并p c r 差异克隆 表达克隆( 抗体或配体结合) 功能域棚互非照( 酵母双杂交,共沉淀) 位点克隆 诗冀克建虚拟低严谨度杂交 虚拟简并p c r ( 具有麸同模体的蛋白) 建掺s s c p ( 已娟基因瓣多悫性) 虚拟差异显示 | 将来瓣方法寝攘往纛竞隆 将g e n b a n k 数据与随机或靶向基因捕获方法整食 表述谱帮多态谯援索静d n a 阵列 用g e n b a n k 搜索方便缀白的发现 三维结构比较 表达、途径和系统发育谱的熬合 功能域融合或域相互作用 生貔信息学馑助予璎代诗算蜒熬强大功缝,馕繁琰赞融戆实验方法翡应建减 少到最小程度。新基因的最初鉴定可以在几分钟之内完成。另外,改变计算搜索 中的e 值和t h r e s h o l d 值的方法难在取代基予序列匹配的传统克隆实验中的枯燥 的严谨度控制过程,其优势是显而易见的:计算搜索只要几分钟的时间就可以获 得来源予不同的生耨躐者不同组织牵豹序捌。 计算攘索方法与p c r 在毅綦困鉴定中黪毙较凳表l - 5 。 表l 瓤基因鉴定中的廖列比对擅襄与p c r 的比较 序列比对( s e q u e n c e a l i g n m e n t )p c r 扩增( p c r a m p l i f i c a t i o n ) d i s n 耄呈珏瓣o h sp a t t e r ns e a r c h t w oc o n t i n u o u ss t r e t c h e so f c o n s e n s u s r e g i o n s i d e n t i f i c a t i o no f n e w f l a n k i n gd o m a i n s i s o l a t i o no fg e n e sw i t ht h es a m e d o m a i n c o m p u t a t i o n a l c o n t r o lo f s t r i n g e n c y p h y s i c a lc o n t r o lo f s t r i n g e n c y a l l o ws h o r t s e q u e n c e m o t i fl i m i t e c lb ye f f i c i e mp r i m e rl e n g t h l i m i t e db ys i z eo f s e q u e n c ed a m b 雒e p m n et om e c h a n i c a le r r o r s d i v e r s et i s s u e si nm u 燃掰eo r g a n i s m ss e l e c t i v et i s s u e sa n do r g a n i s m s m i n m e s d a y s o rw e e k s 第9 页 岁j f 支篷名訾硕士学位论文 钩端螺旋体h i s i e 基因韵克隆与生物信息学分析 1 3 2 应用之二鹬物开发 生物储息学在药物靶点的签定、确认中的作用是显丽易觅的,并完全改交了 药魏并发过程。 土令世纪鳓年代,靶点熬选择铱赖于体悫痰瘸模型约发展和化学巍导物的 筛选,结构一活性研究也依赖于体内模型。7 0 年代和8 0 年代早期集中予由膜受 体结合试骏和酶抑制试验来鉴定分子靶点。到8 0 年代晚期,鉴定可行的、疾病 相关的分子靶点的过程还燎药物并发的瓶颈。9 0 年代。人类基因缱计翊的寝渤 _ j 辩藤来越多静蘩霾维溅序的完成黻及囊物僖患学等技本、学科黪发溪完全改交了 发瑷靶点的可艟性及莼物开发的全过稷。 目前的药物靶点从生化角度分为受体、酶、激素和躐予等,各自所占比例见 图1 - 2 。 簦l 毫嚣蔫耱蓊穰靶虑裳佬势羹麓鲁鸯所舂耱眈稍羹鼙柴纛ld r u g d i s c o v e r y :a h i 嘲r i c a l p e r s p e c 脚e f i g u r e1 - 2b i o c h e m i c a lc l a s s e so fd r u gt a r g e t so fc u r r e n tt h e r s p l e 文d a r ts o u r c e :d r u g d i s c o v e r y :ah i s t o r i c a lp e r s p e c t i v e 这些分子耗点总数不到5 0 0 个,两入类萋函组审所有1 0 0 0 0 个焘右的綦因串, 健计与疾痪摇关豹重簧基嚣骞30 0 0 1 00 0 0 令。爨辍鉴定蓑豹基因藏蛋自终鸯药 物靶点大有潜力。由测序获得的攘困组序列信息将成为基因组时代靶蠡发现、药 物开发的匿要途径。 首先,可以比较不同的病原微生物中所有已臻定的基因以期发现共同基因或 者独特翡蔟函。t a t u s o v 等入【狞1 诀务在细菌串保守僵不存在予粪孩擞耪串豹基霞 鼙1 0 贾 黟支磊名謦硕士学位论文 钩端螺旋体h i 。i e 基因的克隆与生物信息学分析 家族组成了一个潜在的广谱抗菌素的靶点池( a p o o lo f t a r g e t s ) 。该观点的确也得 到了很好的证实。m u s h e g i a n 和k o o n i n l l 4 1 在两个完成测序的细菌h a e m o p h i l u s i n f l u e n z a e 和m y c o p l a s m a g e n i t a l i u m 的基因组中鉴定了2 5 6 个共同基因,a r i g o n i 等在ec o l i 中鉴定了2 6 个基因,其中的大部分同时也是b a c i l l u sj “6 打凰, m y c o p l a s m ag e n i t a l i u m ,h a e m o p h i l u si n f l u e n z a e ,h e l i c o b a c t e r p y l o r i ,s t r e p t o c o c c u s 口n 8 “棚d n i a e ,b o r r e l i ab u r g d o r f e r i 的保守基因。另一方面某一微生物独特的基因 将是理想的开发窄谱抗生素的靶点。 其次,如果哺乳动物序列数据库中不存在与靶蛋白序列相似性的蛋白,则保 证了不存在细胞毒性。生物基因( 组) 在进化上的距离也有利于判定药物的毒性。 a r i g o n i 所报道的2 6 个蛋白中,有1 5 个同时也与酵母sc e r e v i s i a e 中的蛋白有显 著的相似性。由此可以推断该靶点也将筛选出对人体有细胞毒性的化合物。 再者,序列相似性提供了对大多数基因产物的假定功能的一定了解。 最后,基因靶点全序列的获得方便了基因敲除的构建,以确认靶点的功能, 并能方便于表达质粒的构建。 总之,生物信息学可以在以下方面加快额药开发的进程【l 6 】: ( 1 ) 资料的获取,包括从数据库中寻找新药开发者感兴趣的基因序列和相 关资料文献。 ( 2 ) 基因功能的预测和基因生理作用的预测。 ( 3 ) 需要大量信息处理的药物筛选和加工过程。 随着生物信息学的发展,g e n b a n k 中的大量资源可以很容易地通过i n t e r n e t 获得,并为可能对生物医药各领域产生重大影响的发现创造了机会。 第1 i 页 l f 寰囊1 名謦硕士学位论文钩端螺旋体h i 。i e 基因的克隆与生物信息学分析 2 钩端螺旋体h i s l e 基因结构功毹分析 2 1 材料和方法 一对钩体基因序列i a 0 5 5 1 、l b 0 7 9 由中国人类基因组南方研究中心任双 喜老师提供( 见表2 - 1 ) 。用g e n e t o o l ( b i o t o o l si n ca p p l i c a ,2 0 0 2 ) 软件进行核 酸序列统计分析以及基因结构分析,将核酸序列翻译为蛋白序列,用a n t h e w i n 和p e p t o o l 软件进行蛋白质理化特性分析用e x p a s y 中的p r o t p a r a mt 0 0 1 分 析两蛋白的氨基酸组成和等电点,用3 d 。p s s m 等程序预测了蛋白质的二、三级 结构,用同源性查找、p f a m 、p r o d o m 、p i p , 等数据库搜索预测蛋白功能以及确 定相关的生化途径。 表2 - 1l a 0 5 5 1 、l b 0 7 9 基因序列 基因d n a 序列 l a 0 5 5 l a 噜a g n c t a g a g 柏a t 哪:翻越c 诅a a 嘶:砚g a a c c a a c t a g a t c g a n g c t c c 杞t a t c g 柏船¥t 鲳缸g 蹰 g a a 仕a t c a c a g t a t a g a a a g a c a c t c c c t a j 璩g g t t c t a g a g a a g a a g 蟾g a 姆g a c g a 鸽a c a c gg t _ t c m t t t a c a t g t c g a t t l l l x a c c g t t a g a t t t t c a a a a a a e g a c g g a a c t a c t t t t g a c 蝴t t t g g t t c c a g t g t g g c g a t c g a t c _ a a g g c c a g a n c t t a t g c a a g c g m g g g a 硼昏明g 缸a g t c a a t t l

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论