(遗传学专业论文)整合子分析及研究平台构建.pdf_第1页
(遗传学专业论文)整合子分析及研究平台构建.pdf_第2页
(遗传学专业论文)整合子分析及研究平台构建.pdf_第3页
(遗传学专业论文)整合子分析及研究平台构建.pdf_第4页
(遗传学专业论文)整合子分析及研究平台构建.pdf_第5页
已阅读5页,还剩51页未读 继续免费阅读

(遗传学专业论文)整合子分析及研究平台构建.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

温州医学院硕1 :学位论文 中文摘要 整合子分析及研究平台构建 目的 1 、建立一个整合子的分析平台,为研究其遗传多样性提供方便; 2 、为分析和注释实验获得的整合子数据提供一个比较快捷的通道; 3 、比较完全地分析了整合酶附近基因盒内包含的基因的种类和功能; 4 、对目前的整合子序列进行整体分布分析,包括年代和国家等。 方法 l 、通过n c b i 的i 冲s b l a s t 序列相似性查询工具找出包含整合酶保守域的序 列; 2 、通过n c b i 的a p i 工具e u t i l s 下载被注释为整合子的序列: 3 、以l i n u x 为操作平台,采用a p a c h e + p h p + m y s q l 构建整合子分析平台; 4 、对基因盒可能表达的蛋白质分别用p f a m 和s u p e r f a m i l y 库从域的水平上 进行分析,并采用c o g 进行了功能水平的分析; 5 、采用p e r l 和b i o p e d 对收集的数据进行辅助分析和处理。 结果 l 、从收集的整合子来看,大部分基因盒包含的基因和目前已知的基因序列相似 性比较低,属于功能未知的基因,如c o g 的注释结果可以看出,8 5 9 3 个蛋白里 有4 2 6 3 个蛋白不能找到相关的信息; 2 、各型别的整合酶数量差异非常大,大部分是i n t l l ,而且有很多i n t l l 没有被命 名; 3 、建立了一个整合子分析平台,将整合子结构以图片的形式公布,更加直观。 用户可以对不同来源的整合子进行比较,查看基因盒内基因的详细注释; 4 、除了高通量测序得到的u n c u l t u r e db a c t e r i u m 数据,整合子主要来源于医院内 较常见的p s e u d o m o n a s ,e s c h e r i c h i a ,s a l m o n e l l a 和v i b r i o 四个属的菌株,其中又以 e s c h e r i c h i ac o l i 和p s e u d o m o n a sa e r u g i n o s a 最多; 5 、整合予结构复杂,很多是通过物种来命名,相对比较杂乱,尚需一种新的分 类方法来解决。 结论 l 、1 类整合子相对其他数量比较多,i n t l l 已经是基因盒传递的一个比较适合的 2 温州医学院矽i :j j 学位论文 媒介;i i 类整合子酶活性低,这与目前临床上发现含i i 类整合子的菌株比较少一 2 、各型另l j 之间整合酶序列差异不显著,尤其序列的保守结构域,但其作用的位 点差异比较明显,甚至是 7 b p 的结构也有些不符合规则; 3 、分析平台的建立,可以为今后研究整合予的结构和演变提供更方便的有用信 息: 4 、高通量测序技术的发展,使整合子的数据来源越来越丰富,对院外整合子的 分析可以促进这一可移动遗传元件的研究。 关键词 整合子;基因盒;数据库;遗传多样性;耐药性 英文摘要 i n t e g r o na n a l y s i sa n dp l a t f o r mc o n s t r u c t i o n a b s t r a c t o b j e c t i v e 1 t oc o n s t r u c taw e b b a s e dp l a t f o r ma n dt om a k et h er e s e a r c ho fg e n e t i cd i v e r s i t yi n i n t e g r o nm o r ee f f i c i e n t l y ; 2 ap l a t f o r mf o ra n a l y s i sa n da n n o t a t i o no fn e wi n t e g r o nd a t a ; 3 t h et y p ea n df u n c t i o no ft h eg e n ec a s s e t t ea r o u n di n t e g r a s e sh a db e e na n a l y z e d ; 4 t oa n a l y z et h ed i s t r i b u t i o no ft h ec o l l e c t e di n t e g r o na l lo v e rt h ew o r l d m e t h o d s 1 t h er p s b l a s tt o o lf r o mn c b lw a si m p l e m e n t e dt of i n dt h es e q u e n c e sw h i c h c o n t a i nc o n s e r v e dd o m a i n so fi n t e g r a s e s 2 t h ee u t i l sa p it o o lw a sp e r f o r m e dt of e t c ht h ea n n o t a t e di n t e g r o ns e q u e n c e s 3 t h i sp l a t f o r mw a sd e v e l o p e di np h pw i t hal i n u xb a s e dd i s t r i b u t i o na n da p a c h e s e r v e r , u s i n gam y s q l d a t a b a s eb a c k e n d 4 t h ep r o t e i n si ng e n e c a s s e t t e sw e r ea n a l y s i si nd e t a i l :d o m a i na r c h i t e c t u r ea s s i g n e d b yp f a ma n ds u p e r f a m i l yh m ml i b r a r i e s ,f a m i l i e sc l a s s e db yt h ec l u s t e r so f o r t h o l o g o u sg r o u p ( c o g s ) o fp r o t e i n sd a t a b a s e 5 p e r la n db i o p e r lm o d u l e sw e r ea p p l i e dt oa i d t h ea n a l y s i sa n dp r o c e s s 3 温州医学院矽i :j j 学位论文 媒介;i i 类整合子酶活性低,这与目前临床上发现含i i 类整合子的菌株比较少一 2 、各型另l j 之间整合酶序列差异不显著,尤其序列的保守结构域,但其作用的位 点差异比较明显,甚至是 7 b p 的结构也有些不符合规则; 3 、分析平台的建立,可以为今后研究整合予的结构和演变提供更方便的有用信 息: 4 、高通量测序技术的发展,使整合子的数据来源越来越丰富,对院外整合子的 分析可以促进这一可移动遗传元件的研究。 关键词 整合子;基因盒;数据库;遗传多样性;耐药性 英文摘要 i n t e g r o na n a l y s i sa n dp l a t f o r mc o n s t r u c t i o n a b s t r a c t o b j e c t i v e 1 t oc o n s t r u c taw e b b a s e dp l a t f o r ma n dt om a k et h er e s e a r c ho fg e n e t i cd i v e r s i t yi n i n t e g r o nm o r ee f f i c i e n t l y ; 2 ap l a t f o r mf o ra n a l y s i sa n da n n o t a t i o no fn e wi n t e g r o nd a t a ; 3 t h et y p ea n df u n c t i o no ft h eg e n ec a s s e t t ea r o u n di n t e g r a s e sh a db e e na n a l y z e d ; 4 t oa n a l y z et h ed i s t r i b u t i o no ft h ec o l l e c t e di n t e g r o na l lo v e rt h ew o r l d m e t h o d s 1 t h er p s b l a s tt o o lf r o mn c b lw a si m p l e m e n t e dt of i n dt h es e q u e n c e sw h i c h c o n t a i nc o n s e r v e dd o m a i n so fi n t e g r a s e s 2 t h ee u t i l sa p it o o lw a sp e r f o r m e dt of e t c ht h ea n n o t a t e di n t e g r o ns e q u e n c e s 3 t h i sp l a t f o r mw a sd e v e l o p e di np h pw i t hal i n u xb a s e dd i s t r i b u t i o na n da p a c h e s e r v e r , u s i n gam y s q l d a t a b a s eb a c k e n d 4 t h ep r o t e i n si ng e n e c a s s e t t e sw e r ea n a l y s i si nd e t a i l :d o m a i na r c h i t e c t u r ea s s i g n e d b yp f a ma n ds u p e r f a m i l yh m ml i b r a r i e s ,f a m i l i e sc l a s s e db yt h ec l u s t e r so f o r t h o l o g o u sg r o u p ( c o g s ) o fp r o t e i n sd a t a b a s e 5 p e r la n db i o p e r lm o d u l e sw e r ea p p l i e dt oa i d t h ea n a l y s i sa n dp r o c e s s 3 温州医学院颀一i 学位论文 r e s u l t s 1 am a jo r i t yo fc a s s e t t e e n c o d e dp r o t e i n si nt h ep l a t f o r mh a v el i t t l eo rn os e q u e n c e s i m i l a r i t ya n dt h e i r f u n c t i o n sw e r eq u i t ed i f f e r e n t s u r v e y i n gt h er e s u l to ft h e a n n o t a t i o no f , 4 2 6 3a g a i n s t8 5 9 3c o g sh a v en or e l a t e di n f o r m a t i o n 2 。t h e r ei sag r e a td i f f e r e n c eb e t w e e nt h et y p e so fi n t e g r a s eg e n e sa n dt h em a j o r i t yi s i n t i1 ,w h i c ha l s oo c c u p i e sal o ti nu n n a m e di n t i 3 aw e b - b a s e dp l a t f o r mf o rm ea n a l y s i so ft h ei n t e g r o na n dg e n ec a s s e t t e sw a s c o n s t m c t e d i tw i l lb eu s e dt os e a r c ht h es t r u c t u r eo ft h ei n t e g r o na n dh a v eag r a p h i c d i s p l a yr e s u l t t h ei n t e g r o n f r o md i f f e r e n tr e g i o n sc o u l db ec o m p a r e dw i t ht h e i n f o r m a t i o no fc a s s e t t e e n c o d e dp r o t e i n s 4 b e s i d e st h e u n c u l t u r e db a c t e r i u m ”f r o mt h eh i g h - t h r o u g h p u ts e q u e n c i n g , b a c t e r i ab e l o n g i n gt ot h eg e n u sp s e u d o m o n a s ,e s c h e r i c h i a ,s a l m o n e l l ao r v i b r i o i s o l a t e df r o mh o s p i t a le n v i r o n m e n ta r ep r i n c i p a lh o s to fi n t e g r o n s ,w h i l et h el a r g e s t s p e c i e s a r ee s c h e r i c h i ac o l ia n dp s e u d o m o n a sa e r u g i n o s a 5 i nc o n s i d e r a t i o no ft h ec o m p l e xs t r u c t u r eo ft h ei n t e g r o n ,l o t so ft h e mw e r eo n l y n a m e dw i t ho r g a n i s m ,an e wc l a s s i f i c a t i o ns y s t e mn e e dt ob ec o n s i d e r e d c o n c l u s i o n s 1 i n t i1i sag o o dm e d i u mf o rt h ec a s s e t t ei n t e r c o u r s e ;i n t l 2i s n o taf u l l ya c t i v e i n t e g r o ni n t e g r a s e ,a n do n l ya f e wa r ef o u n di nh o s p i t a lb yn o w 2 t h e r ei sal i t t l ed i f f e r e n c eb e t w e e nt h es e q u e n c e so fi n t e g r a s e s ,e s p e c i a l l yt h e c o n s e n ,e dd o m a i n s 。w h i l et h ei n t e r a c t i o ns i t e sh a v ed i f f e r e ds h a r p l ye v e ni nt h e7 b p c o r es i t e 3 w i t ht h eh e l po ft h i sp l a t f o r m ,t h es t r u c t u r ea n de v o l u t i o nr e s e a r c hi nt h ei n t e g r o n w o u l db em o r ee f f i c i e n t l y 4 h i g h t h r o u g h p u ts e q u e n c i n gp r o d u c e sr i c hd a t aa n dt h eh i g hn u m b e ro fs t u d i e s r e g a r d i n gi n t e g r o n so u to fh o s p i t a l sc o u l di m p r o v et h ei n f o r m a t i o na b o u tm o b i l e g e n e t i ce l e m e n t s ( m g e ) k e y w o r d s i n t e g r o n ;g e n ec a s s e t t e ;d a t a b a s e ;g e n e t i cd i v e r s i t y ;d r u g r e s i s t a n c e 4 温州医学院影ii j 学位论文 d e n b a n k r e f s e q s w i s s p r o t e m b o s s b l a s t b l a t c d d m u s c l e 烈 m e g a p h p p e r l a p a c h e m y s q l b p r o m b i o p e 订 美国国立生物技术信息中心建 立和维护的核酸数据库 一个参考序列的非冗余数据库 经过专家核实的蛋白质数据库 一个开源的序列分析软件包 基于局部比对算法的搜索工具 共线性输出结果的类b l a s t 比 对: 具, 保守域数据库 一种速度较快多序列比对工具 h t t p :w w w n c b i n l m n i h g o v g e n b a n k h t t p :w w w n c b i h i m n i h g o v r e f s e q h a p :w w w e x p a s y c h s p r o t h 印:e m b o s s s o u r c e f o r g e n e t d o w n l o a d h t t p :w w w n c b i n l m n i h g o v b l a s t h t t p :w w w s o e u c s c e d u 一k e n t s r c 邸:“呻n c b i n i h g o v p u b m m d b c d d h t t p :w w w d r i v e 5 c o r n m u s c l e 一种显示进化树的j a v a 工具h t t p :w w w p h y l o s o f t o r g a t v 经典的建树软件 一种网页语言 比较自由编程工具 使用量最多的w e b 服务器 小型关系型数据库管理系统 原核生物启动子预测 生物数据处理常用的p e r l 语言 程序库 h t t p :w w w m e g a s o f t w a r e n e t h t t p :w w w p h p n e t d o w n l o a d s p h p h n p :w w w p e r l c o r n d o w n l o a d c s p h t t p :h t t p d a p a c h e o r g d o w n l o a d c 百 h t t p :d e v m y s q l t o m d o w n l o a d s h t t p :l i n u x1 s o f l b e r r y c o m h t t p :w w w b i o p e r i o r g 5 温,i t 医学院硕十学位论文 学位论文独创性声明 本人所呈交的学位论文是我在导师的指导下进行的研究工作及取得的 研究成果。据我所知,除文中已经注明引用的内容外,本论文不包含其他个 人已经发表或撰写过的研究成果。对本文的研究做出重要贡献的个人和集 体,均已在文中作了明确说明并表示谢意。 作者签名:曼奎丝鱼 日期: 关于学位论文使用授权声明 沙7 多 本人完全了解温州医学院有关保留、使用学位论文的规定,学校有权保留 学位论文并向国家主管部门或其指定机构送交论文的电子版和纸质版。有权将 学位论文用于非赢利目的的少量复制并允许论文进入学校图书馆被查阅。有权 将学位论文的内容编入有关数据库进行检索。有权将学位论文的标题和摘要汇 编出版。保密的学位论文在解密后适用本规定。 日期:丝12 :童! 7 学位论文作者签名: 王墨钦 日期: 导师 5 6 温州医学院硕。i :学位论文 1 引言 1 1 细菌的遗传多样性及整合子的作用 细菌在与外界环境的生存斗争中,通过表达相应的蛋自来应对遇到的威胁, 对抗生素不敏感的现象是细菌遗传多样性的一种重要表现。由于新的抗生素的广 泛使用,各细菌对抗生素的耐药谱发生变化,新的耐药菌的不断出现,尤其是出 现了多重耐药的菌株。整合子是作为一种可移动元件,是产生细菌遗传多样性 的重要原因。 由于自然条件和人为因素的影响,整合子相继在很多地方发现,并被大量报 道【2 - 5 】。这些整合子大多数分布在革兰阴性细菌中【6 1 ,然而,在有些革兰阳性细 菌中也发现了整合子【7 8 l 。其中医院内的耐药性细菌是主要的研究对象,已研究 的基因盒很多和细菌的耐药性有关。d r n e m e r g u t 和s k s c h m i d t 等对重金属污 染的细菌包含的整合子进行了检测【9 】,h w s t o k e s 等人对其他环境样本内整合子 进行了统计,目前研究发现有约l o 的细菌基因组包含部分或全部这种可移动 遗传元件i m l ,这主要是水平基因转移的结果。细菌通过整合子在同种或不同种 属间进行基因水平转移,提高了细菌遗传多样性,使细菌耐药性等抵抗逆境的能 力明显增强。整合子即是一个古老的结构】,是细菌进化的产物,又由于水平基 因转移等原因而表现出新的特性f 4 1 。由于其在细菌演变中的重要作用而受到越来 越多的研究者的关注。 1 2 整合子的分类方法 整合子研究了近二十年1 12 1 ,整合予的分类也一度是一个有争议的话题。d i d i e r m a z e l 提出超级整合子应该携带至少2 0 个以上的基因盒,并且不应该位于质粒 或转座子上,不可以移动,以区别于可移动整合子【l 。h a l l 和s t o k e s 则认为不 应该把是否位于质粒还是染色体作为区分整合子的依据,并且指出定义超级整合 子尚不是时候【m 1 。目前比较被认可的分类方法是根据整合酶的亲缘关系来定义 整合子1 1 0 】。这样可以考虑到整合子频繁的水平基因转移,而且和遗传结构、环 境分布及所属的物种等特征保持致。根据这种方法可以将整合子分为三个大 类:1 、来自泥土和淡水的变形菌门;2 、整合酶方向和基因盒方向一致的整合子 群;3 、来自海洋的y 变形菌门。再在此基础上分出小类,如进一步分出经典的 i 类,i i 类和i i i 类整合子,这样可以兼容以前的分类方法【1 0 1 。图1 1 是经典的整 合子分类方法,以x e r c 和x e r d 为根用m e g a 工具建立的系统发生关系树【l 5 1 。 6 温j j l 医学院颀七学位论文 图1 1 几种整合子整合酶的系统发生关系( x e r d :c a b 0 8 2 8 2 ;x e r c :a a f 3 3 4 4 3 ;i m l 9 :a a k 9 5 9 8 7 , i n t l i : a a m 8 9 3 9 8 ,y p _ 0 0 2 5 2 7 5 4 。l ,n p _ 7 7 5 0 4 2 ; i n t l 2 :b a bl2 6 01 ,a c l 3 2 8 7 6 ,a b g 2 16 7 4 ;i n t l 3 :a a ni6 0 6 1 , a a k 7 3 2 8 7 ,a a k 0 7 4 4 4 ,a a k 0 7 4 4 7 ;i n t l 6 :a a k 0 0 3 0 7 ;i n t l 7 :a a k 0 0 3 0 5 ;i n t l s :c a c 3 5 3 4 2 ,n p _ 2 3 2 6 8 7 , a a d 5 5 4 0 7 ,a a k 0 2 0 7 4 ,a a n 3 31 0 9 ,a a k 0 2 0 8 2 ,a a 0 3 8 2 6 3 ,a a k 0 2 0 7 6 ;i n t l i e l :a a n l 6 0 7 2 ;s u p e r i n t e g r a s e s i :n p _ 9 3 4 7 3 4 ,n p _ 7 6 1 2 4 8 ) 。 1 3 目前对整合子的研究尚存在一些问题 由于整合子在自然界中分布广,并携带大量的功能蛋白,且存在很高频率的 水平基因转移,尚缺乏系统的研究,有一些重要的问题尚未探索完成【1 0 】:l 、对 于一些大的基因盒,其上的基因是不是都能得到表达? 基因盒表达时使用位于 i n t i 、a t t i 上的启动子,还是使用最接近该基因盒的启动子? 2 、基因盒中基因的 7 温州医学院硕士学位论文 获得和丢失概率相对其他基因怎样? 3 、一些不完整的o r f s 是不是在整合子中 也有功能? 都行使怎么样的功能? 是不是大多数o r f s 都能表达成为功能蛋白? 4 、整合子的分布广,携带的基因盒数量大,种类多,会不会不同的整合子共用 一个大的基因盒库? 5 、a t t c ( 5 9 b e ) 位点的序列在不同的整合子中到底怎么样的 变化? 6 、存不存在某种辅助蛋白可以增加整合酶的效率? 7 、关于基因盒产生的 机制还需要进一步进行探讨? 鉴于整合子在细菌遗传多样性的重要地位及对耐药性的特殊作用,为方便科 研工作者开展相关的研究,有必要构建一个整合子的分析平台,希望对相关问题 的解决起到一定的帮助。 2 材料与方法 2 1 材料 ( 1 ) 通过 r p 下载的 g e n b a n k 核酸数据库 ( t t p :t = p n c b i n i h g o v b l a s t d b f a s t a n t g z ) ,这个数据库包含了已提交到n c b i 的核酸序列的g i 号,l o c u s _ t a g 号,碱基序列及其描述【1 6 1 。 ( 2 ) p e r l :版本5 8 5 。 ( 3 ) c d d :n c b i 提供的保守域数据库,可以用来进行蛋白质可能包含的相对 保守的结构域检索,内含s m a e t , c o g , k o g , p f a m ,s u p e r f a m i l y , c d d 等子 库。 ( 4 ) b l a s t 版本2 2 1 9 。 2 2 方法 目前研究人员查找整合子的方法主要有三种,通过在n c b i 内输入与整合子 或整合酶有关的关键字来查找,这种查找方法需要库里的序列有比较全面且友好 的注释,而且找到的数量一般比较大,还要进行手工确认:另外一种方法是通过 序列相似性查找和整合酶有关的序列,进一步得到相关的整合子,这对于不包含 整合酶的序列不适用;还有第三种方法是通过文献查找和文本挖掘的方法,这种 方法一般都是用来寻找比较特殊的整合子或基因盒结构,往往是新发现或新的耐 药性基因盒的出现。 本研究将前两种方法结合起来,以发挥各种方法的优势,弥补缺陷,得到一 个覆盖相对全面的数据库,对找到的特殊结构的基因盒通过文献查找进行手工确 8 温州医学院硕。l 二学位论文 认。进而通过保守结构域预测,推测整合子内基因盒可能的功能( 图2 1 ) 。 f in d c h e c k p i a t f o r 图2 1 构建整合子分析平台的结构流程图 9 温州医学院硕j 二学位论文 2 2 1 序列获取 下载核酸库,解压缩后将所有的序列通过b l a s t 的子程序r p s b l a s t 查询 c d 0 1 1 9 3 ( p s s m i d :2 9 5 1 4 ) ,考虑到整合酶序列之间的相似性都比较高,且与周 围的酪氨酸重组酶也有比较高的相似性,所以e v a l u e 的域值设得相对比较低, 总共比上1 6 7 3 条序列可能包含整合酶,即可能存在整合子,其中包括比上两个 及以上的。这一步的目的是为了找出可能包含的域,接下来还有一个确认的过程。 将比对结果中查询的蛋白提出,查询全部的c d d 库【1 7 1 ,确认相似性最高的保守 域是c d 0 1 1 9 3 ,进一步检验是否为目的序列,排除后剩余1 0 0 4 条序列。从b l a s t 结果中提取查询蛋白的一个程序如下: # ! u s r b i n p e r l ; u s eb i o :s e a r c h l o ; m y $ s e a r c h i o = n e wb i o :s e a r c h l o ( 一f o r m a t = 。b l a s t , 一f i l e 一 $ a r g v o , b e s t= 1 ) ; w h i l e ( m y $ r e s u l t = $ s e a r c h i o 一 n e x t r e s u l t ) $ f l a g = 0 ; w h i l e ( m ys h i t = $ r e s u l t - n e x t _ h i t ) $ n a g h ; $ q u e r y n a m e = $ r e s u l t 一 q u e r y _ n a m e ; $ i _ 0 ; w h i l e ( m y $ h s p = $ h i t n e x t _ h s p ) $ i + + ; $ w w w = $ h s p 一 q u e r y _ s t r i n g ; $ a = $ h s p 一 s t a r t ( q u e r y ) ; $ b = $ h s p 一 e n d ( q u e r y ) ; p r i n to u t ” ”$ q u e r y n a m e ”$ f l a g 1 1 1 1 $ i ”t ”; i f i $ a e f e t c h o u t ”; m y $ u t i l s = ”h t t p :w w w n c b i n l m n i h g o v e n t r e z e u t i l s ”: m ys d b = ”n u c l e o t i d e ”: m y $ q u e r y = ”i n t e g r o n t i t l e o rg e n ec a s s e t t e t i t l e ”; m y $ r e p o r t = ”f a s t a ”; m y $ e s e a r c h = ”$ u t i l s e s e a r e h f c g i ? ” ”d b = $ d b & r e t m a x = 1 & u s e h i s t o r y = y & t e r m = 。: m ys e s e a r c h r e s u l t = g e t ( $ e s e a r c h $ q u e r y ) ; p r i n t ”k n e s e a r c hr e s u l t :$ e s e a r c h _ r e s u l t i a ”; s e s e a r c hr e s u l t = = m l 6 d + ) 凇 ( k d + ) * ( s + ) l s ; m y $ c o u n t= sz ; m y $ q u e r y k e y = $ 2 : m ys w e b e n v ;$ 3 ; p r i n t “c o u n t = $ c o u n t ;q u e r y k e y = s q u e r y k e y ;w e b e n v = $ w e b e n v k n ; m y $ r e t s t a r t ; m y $ r e t m a x = 10 0 ; f o r ( $ r e t s t a r t = o ;s r e t s t a r t c d n a t a b l e t x t ”) l id i e ”e r r o ri no p e n i n gf i l e $ ! n ”; o p e n ( o u t 4 ,” e d n a f a ”) l id i e ”e r r o ri no p e n i n gf i l e $ ! u ”; m y $ c o u n t = 0 ; w h i l e ( ( m y $ f i l e n a m e = r e a d d i r ( d i r ) ) ) p r i n t $ f i l e n a m e k n ”; m y $ i n f i l e = $ f i l e n a m e ; m y $ c h r o ; 1 2 m y $ f l a g = o ; o p e n ( f ”g e n b a n k $ i n f i l e ”) 1 1d i e ”e r r o ri no p e n i n gf i l e $ ! n t ; w h i l e ( ) $ f l a g + + ; i f ( $ f l a g = = 2 ) p r i n t $ 一”; $ c h r 0 2 $ 1i f ( r o m o s o m e k s ( k w + ) w ) ; l a s t ; ) ) c l o s e ( f h ) ; m y $ s e q _ i o = b i o :s e q l o - n e w ( - f i l e = ”g e n b a n k $ i n f i l e ”,f o r m a t - ,g e n b a n k ”) ; w h i l e ( m y $ s e qo h j = $ s e q _ i o 一 n e x t s e q ) ( m ys a c c e s s i o n2 $ s e q _ o b j 一 a c c e s s i o n _ n u m b e r ; m y $ 1 0 c a t i o n ; m y $ c = 3 ; f o r e a c hm y $ f e a t _ o b j e c t ( $ s e q _ o b j - g e t _ s e q f e a t u r e s ) m y $ g e n e _ _ n a m e ; m y $ 1 0 c u st a g ; m y $ t r a n s c r i p t i d ; m y $ s t r a n d = $ f e a t _ o b j e c t 一 s t r a n d ; m y $ 1 0 c a t i o n ; m y $ s e q u e n c e ; m y $ t r a n s l a t i o n ; i f ( ( $ f e a t _ o b j e c t - p r i m a r y _ t a ge q ”g e n e ) a n d $ c 司) $ c o u n t + + ; ( $ g e n e n a m e ) 2 s f e a t _ o b je c t g e t _ t a g _ v a l u e s ( g e n e t ) $ f e a t _ o b j e c t 一 h a s _ t a g ( g e n e ) ; ( $ l o c u s _ t a g ) 2 s f e a t o b j e c t 一 g e t t a g _ v a l u e s ( l o c u s _ t a g ) $ f e a t _ o b j e c t 一 h a st a g ( i o c u st a g ) ; p r i n to u t 2 ”$ c o u n t t $ g e n e _ n a m e t $ 1 0 c u s t a g t ”; $ c = 2 ; ) i f ( ( $ f e a t _ o b j e c t 一 p r i m a r y _ t a ge q ”m r n a ,) a n d $ c ;:2 ) ( $ t r a n s c r i p t i d ) 2 $ f e a t _ o b j e e t g e tt a gv a l u e s ( t r a n s c r i p ti d t ) i f i f i f $ f e a t _ o b j e c t 一 h a st a g ( t r a n s c r i p ti d ) ; m y $ 1 0 cs t r a n d = $ f e a t _ _ o b j e c t 一 s t r a n d ; i f ( $ f e a to b j e c t l o c a t i o n 一 i s a ( 。b i o :l o c a t i o n :s p l i t l o c a t i o n i ) ) f o r e a c hm y $ 1 0 c ( s f e a t _ o b j e c t 一 l o c a t i o n 一 s u b _ l o c a t i o n ) $ l o c a t i o n = $ 1 0 c a t i o n t ( $ 1 0 c s t a r t ”t $ 1 0 c 一 e n d ”) ”; $ s e q u e n c e = $ f e a t _ _ o b j e c t 一 s p l i c e d s e q 。 s e q ; m y $ 1 e n = l e n g t h ( $ s e q u e n c e ) ; i f ( $ s t r a n de q ”一1 ”) $ 1 0 c a t i o n - - - c h a n g e l o c ( $ 1 0 c a t i o n ) ; ) p r i n to u t 2 ”$ t r a n s c r i p t j d t $ s e q u e n c e t ”; p r i n to u t 4 ” $ t r a n s c r i p t _ i d h a $ s e q u e n c e h a ”; e l s e $ l o c a t i o n =( $ f e a t _ o b j e c t - l o c a t i o n 一 s t a r t ” $ f e a to b j e c t l o c a t i o n 一 e n d ”) ”; $ s e q u e n c e = $ f e a t _ o b j e c t 一 s e q 一 s e q ; m y $ l e n = l e n 舀h ( $ s e q u e n c e ) ; i f ( $ s t r a n de q ”一1 ”) $ 1 0 c a t i o n = c h a n g e l o c ( $ 1 0 c a t i o n ) ; j p r i n to u t 2 ”s t r a n s c r i p t _ i d t $ s e q u e n c e t ”; p r i n to u t 4 ” $ t r a n s c r i p t _ _ i d h a $ s e q u e n c e k n ; ) $ c 一1 ) i f ( ( $ f e a t o b j e c t , p r i m a r y _ t a ge q c d s ”) a n d $ c 1 ) m y ( $ p r o d u c t ) = $ f e a t _ _ o b j e c t 一 g e t _ t a g _ v a l u e s ( p r

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论