(遗传学专业论文)高通量引物评价系统—primeruator.pdf_第1页
(遗传学专业论文)高通量引物评价系统—primeruator.pdf_第2页
(遗传学专业论文)高通量引物评价系统—primeruator.pdf_第3页
(遗传学专业论文)高通量引物评价系统—primeruator.pdf_第4页
(遗传学专业论文)高通量引物评价系统—primeruator.pdf_第5页
已阅读5页,还剩43页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 随着人类基因组完成图的公布和疾病相关基因研究向纵深发展,p c r 及其衍生技术在分子遗传学研究中的应用达到前所未有的水平,其中特异 性寡核苷酸引物又是获得高质量p c r 扩增产物的关键。 然而,当前用于评价引物质量的工具很少,且功能单一,无法实现批 量引物与全基因组及常见重复序列的同源比对,无法批量提取扩增子序 列,无法计算引物自身重要特征参数,也无法衡量一个反应体系中多条引 物之问的相互作用等。这些不足使研究者在机械的重复劳动上花费了很多 宝贵时间。 正是基于缺乏全面高效的引物评价工具之现实,我们设计和开发了基 于浏览器服务器模式,模块化设计,在a p a c h eh t t p 服务器中运行的引 物评价系统,命名为p r i m e r e v a l u a t o r 。在吸取d n a n n o t a t o r 和其它同类在 线工具诸多优点的基础上,充分利用i s p c r 和p r i m e r 3 数据运算能力,结 合目前国际公共数据库中的最新人类基因组等数据信息,p r i m e r e v a l u a t o r 不仅实现了已有的功能,而且提供批量引物与全基因组及重复序列比对, 批量提取扩增子,批量计算引物参数,多对引物混合分析等功能,以自动 化高通量的优势为用户节约大量的时间和精力。其运行安全稳定,帮助信 息全面,使用方便;输出结果详尽,既可读性强又易于转换成表格进行数 据保存和查询。 本课题的研究实现了生物信息技术与实验室应用需求的紧密结合,形 成一个综合的引物信息收集和评价系统,并与原有的引物设计系统组成完 整的引物处理体系,打破了实际工作中的速度瓶颈,加快了分子遗传实验 研究,特别是疾病相关基因研究的步伐。 p r i m e r e v a l u a t o r 的网址:h t t p :1 1 9 2 1 6 8 0 8 0 p r i m e r e v a l u a t o r h t m l ( 实 验室内部) 关键词引物评价,p c r ,引物设计,生物信息学,p r i m e r e v a l u a t o r a b s t r a c t w i t ht h e p u b l i c a t i o n o ft h el a t e s th u m a ng e n o m es e q u e n c ea n dt h e f u r t h e rd e v e l o p m e n to ft h es t u d yo nd i s e a s e a s s o c i a t e dg e n e s ,t h ea p p l i c a t i o n o fp o l y m e r a s ec h a i nr e a c t i o n ( p c r ) h a sr e a c h e dat o t a l l yn e wl e v e li n m o l e c u l a r g e n e t i c s r e s e a r c h a n d o p t i m a lp r i m e r i sa k e y f a c t o rt oo b t a i n h i 曲 q u a l i t y r e s u l t si nt h e p c r u n f o r t u n a t e l y ,f o rp r i m e re v a l u a t i o n ,t h e r ea r eo n l y s e v e r a lt o o l sw i t hv e r ys i m p l ef u n c t i o nc a nb ea c c e s s e d n o n eo ft h e mc a l l p r o v i d e b a t c ha l i g n m e n tb e t w e e np r i m e r sa n dt h eh u m a ng e n o m e r e g u l a r r e p e a t e ds e q u e n c e s ,o r d e r i v ean u m b e ro f a m p l i c o n s f r o mt h et e m p l a t ea to n e t i m e ,o rp r o v i d eb a t c hc a l c u l a t i o no fp r i m e rp a r a m e t e r s ,o re v a l u a t ep a i r so f p r i m e r s i n t e r a c t i o nw i t he a c ho t h e ri n o n er e a c t i o ns y s t e m s or e s e a r c h e r s h a v et od ot h e s e j o b si nat i m e c o n s u m i n g a n de x h a u s t i n gw a y b yr e p e a t i n g s o m e p r o c e d u r e sm e c h a n i c a l l y t o p r o v i d ea u t o m a t e d b a t c he v a l u a t i o no fp c r p r i m e r ,w ed e v e l o p e da b r o w s e r s e r v e rm o d e a p p l i c a t i o n w h i c h r u n su n d e rt h ea p a c h eh 丌ps e r v e r t h e a p p l i c a t i o n w a sn a m e dp r i m e r e v a l u a t o r i tu s e st h el a t e s th u m a n g e n o m e a n do t h e rd a t af r o mi n t e r n a t i o n a l b i o l o g i c a l d a t a b a s e s ,c o m b i n e s w i t h d n a n n o t a t o rw h i c hi sa l la n n o t a t i o nt o o lf o rr e g i o n a lg e n o m i cs e q u e n c e s p r i m e r e v a l u a t o ru s e si s p c ra n dp r i m e r 3a sm a j o rd a t a p r o c e s s i n gc o m p o n e n t s i tc o v e r e da l m o s ta l la s p e c t so f p r i m e rq u a l i t yj u d g m e n t a n d m a n a g e d t om a k e a l lf u n c t i o n sm e n t i o n e da b o v ec o m ei n t or e a l i t y f u r t h e r m o r e ,i t sq u i t ee a s y t ou s ea n dp r o v i d e sd e t a i l e di n f o r m a t i o na b o u tp r i m e r si ns e v e r a ld i f f e r e n t f o r m a t s ,w h i c h c a nb e e a s i l yu n d e r s t o o d a n d i m p o r t e d i n t od a t a b a s e s t h i sp r o j e c t a p p l i e s b i o i n f o r m a t i c st e c h n o l o g yt o e x p e r i m e n to fo u r r e s e a r c h an o v e li n f o r m a t i c st o o lf o rd a t aa c q u i s i t i o n ,d a t aa n a l y s i sa n dd a t a s t o r a g ei sd e v e l o p e d af u l l yf u n c t i o n a lp r i m e rm a n a g e m e n ts y s t e m h a sb e e n e s t a b l i s h e d i tb r o k et h e “b o t t l e - n e c k o fa s s a yd e s i g n h o p e f u l l yi tc o u l d a c c e l e r a t et h e p r o g r e s s o fm o l e c u l a r g e n e t i c sr e s e a r c h ,e s p e c i a l l y t h e d i s e a s e - a s s o c i a t e d g e n e r e s e a r c h p r i m e r e v a l u a t o rc a nb ea c c e s s e da t h t t p :1 9 2 1 6 8 0 8 0 p r i m e re v a l u a t o r h t m l ( i n t r a n e t ) k e yw o r d s p r i m e re v a l u a t i o n ,p c r , p r i m e rd e s i g n ,b i o i n f o r m a t i c s , p r i m e r e v a l u a t o r i i b l a s t b l a t b p c g i d d b j e l g d n a h t m l h t t p i i s i s p c r n c b i p c r p e r l t m u c s c 英文缩略词 b a s i cl o c a la i i g n m e n ts e a r c ht o o l b l a s t - l i k ea l i g n m e n tt o o l b a s e o a k c o m m o n g a t e w a y i n t e r f a c e d n ad a t a b a s eo f j a p a n e u r o p e a n m o l e c u l a r b _ i o l o g yl a b o r a t o r y g e n o m i cd n a _ h _ y p e 礁e x tm a r k - u pl a n g u a g e _ h _ y p e 礁e x tt r a n s p o r t p r o t o c o l i n t e m e ti n f o r m a t i o ns e r v i c e s u c s ci n s i l i c op c r n a t i o n a lc e n t e rf o rb i o t e c h n o l o g yi n f o r m a t i o n p o l y m e r a s e c h a i nr e a c t i o n p r a c t i c a le x t r a c t i o na n d - - r e p o r tl a n g u a g e m e l t i n g _ t e m _o_fpceratureuniversity a l i f o m i as a n t ac r l l z 有关诚信问题的本人声明 本人保证,所呈交的研究论文是本人在导师指导下参加中国医学遗传 学国家重点实验室所承担的科研课题的部分研究工作取得的实验数据,没 有任何的抄袭、剽窃等行为。 研究生签名:异诧踔 日期:) 舛f 月岁日 有关知识产权问题的本人声明 遵照科技部关于国家重点实验室应加强知识产权保护的文件( 国科发 基字 2 0 0 2 9 1 号) 精神,本人声明所呈交的研究论文的知识产权归中国 医学遗传学国家重点实验室所有,同时,本人保证遵守: 本人与中国医学遗传学国家重点实验室于一兰! 兰年生月日签 定的有关个人及单位署名的规定; 本人与中国医学遗传学国家重点实验室于- 之! 兰年皇一月鲨日签 定的有关“人源基因载体”的保密协定。 若有违约行为,承担相应的法律责任。 研究生签名:习雕辞 日期:僻i - 月;o 日 硕士学位论文 月i j 舌 聚合酶链式反应( p o l y m e r a s e c h a i nr e a c t i o n ,p c r ) 技术问世于上世纪8 0 年代, 不久就被广泛运用,并以其快速、经济、高效的特点极大的促进了人类遗传学研究的 发展,在分子遗传学研究中树立了其根本性的地位。p c r 扩增直接测序也已经成为核 酸序列研究公认的金标准。随着人类基因组计划( h u m a ng e n o m ep r o j e c t ) 的进一步完 成,基于该标准的精度大于9 9 ,误差小于十万分之一的人类基因组完成图已于2 0 0 4 年1 0 月公布【l 】。遗传学研究根本上是为了满足人类自身战胜疾病,改造自然的需要。 人类基因组的完成图已经为我们提供了一个相当精确的基本参照,使人类遗传学研究 向更深更广更细的层次发展成为可能。疾病相关基因研究一直以来就是医学遗传学的 主要课题,虽然新近预计的人类基因组中大约2 0 ,0 0 0 2 5 ,0 0 0 个的基因数目少于以前 的估计,但是国际上已报道的与人类疾病相关的突变基因只有1 , 8 0 0 个1 2 j ( 数据截止 于2 0 0 5 年4 月2 0 日) ,还有大量具有遗传特征的疾病没有找到根源。因为大的遗传 病家系的减少和许多单基因病致病基因的克隆,疾病相关基因研究正在逐渐延伸至两 个新的方向:一方面是对已克隆的疾病相关基因的结构和功能深入研究,以期尽快应 用于临床诊断、治疗和预防;一方面是通过鉴定多个位点( 如s n p ) 和或多个基因与 异常遗传表型之间的因果关系,寻找疾病表现其遗传倾向的原因,也就是疾病易感基 因和多基因病的研究。这些都使p c r 的应用达到了前所未有的水平。与此同时,来 源于基本p c r 原理的各种衍生p c r 技术层出不穷,在很多领域发挥着越来越重要作 用。 1 。引物质量 p c r 是在引物指导下由d n a 聚合酶催化的对特定的克隆或基因组d n a 序列进 行合成的扩增反应,为一种级联反复循环的反应过程。一般由三个步骤组成:模板的 热变性,寡核苷酸引物复性到单链d n a 序列上以及由热稳定d n a 聚合酶催化的, 复性引物引导的新生d n a 链延伸聚合反应的过程【3 j 。 有许多因素可影响p c r 扩增反应的效果,主要包括反应组分和反应过程,通常有 7 种基本组分:热稳定d n a 聚合酶、寡核苷酸引物、d n t p 、一价和二价阳离子、维持 一定p h 值的缓冲液和d n 船模板;而反应过程的影响主要在于变性、复性、延伸三个 阶段的温度和时间以及整个循环的数目。在这些因素中,引物极其重要,但往往是最 不确定的因素,因为其它因素一经确定就在绝大多数p c r 体系中相对固定。撇开引物 的浓度不说,引物的特异性影响产物的特异性,引物的解链温度( t m ) 值影响复性 硕士学位论文前言 温度,引物自身的结构影响扩增效率,每一对引物的个性很大程度上就决定了每一个 反应体系的个性。 评价寡核苷酸引物的目的在于找到高质量的引物,获得高产率高特异性的目的扩 增产物,抑制非特异性序列的扩增。引物质量的评价需要遵循许多标准 3 , 4 1 ( 表1 - 1 ) 。 特异性是首要的,只有当每条引物都能特异地与模板d n a 中的靶序列复性形成稳定 的结构时才能对模板进行扩增。其次是避免引物中出现反向互补序列和引物之间出现 互补序列,前者可形成发夹结构,阻止寡核苷酸和靶d n a 之间复性;后者可形成引 物二聚体,不仅会减低引物的有效浓度,还可随着p c r 的扩增而放大,对靶d n a 的 扩增产生竞争性抑制。解链温度( n n ) 也是影响扩增效率的一个重要因素,由于没有公 式可计算退火温度f r a ) ,所以一般根据t m 值的大小来确定t a ,引物之间的t m 值应 尽可能接近。另外,引物的g c 含量,引物的长度,3 i 末端的碱基组成,引物之间参 数的差异等等也是引物评价中必须考虑的因素。 表1 - 1 引物常用评价标准 特性常用标准 特异性 引物长度 t m 碱基组成 3 末端 二聚体 二级结构 仅与模板序列特异性位点结合 影响特异性和复性的温度和时间,最好为1 8 3 0 个核苷酸 一般5 0 一6 5 。c ,6 0 c 为佳;同一反应体系中引物t m 差值不大于5 ,扩增产物与引物的t m 差值不大于1 0 。c ,保证扩增产物在每 个循环可有效变性 g c 含量和t m 值以及复性温度密切相关,取4 0 6 0 ;避免4 个 及4 个以上连续的g 或c 3 末端碱基尽量是单个的g 或c ,避免连续的g c 、c g 末端以避 免发卡结构和引物二聚体的形成 同一体系引物之间不允许有连续3 个核苷酸以上的同源序列 引物内部不可包含回文结构 在实验中,引物优劣的最终评价标准毫无疑问就是实验效果,实验者根据目的片 断的有无、产量、含杂带与否等来判断引物的质量,因为一次p c r 往往是多管对照 同时加样和上机,所以首先应尽可能排除污染、反应组分缺失等因素。一旦扩增出现 问题而考虑引物因素时,找出原因的方法一般是:引物和模板的比对以确定引物在模 板上只有唯一的结合位点,包括避开模板上的重复序列和避免可能的错配结合;引物 自身和引物之间特性的分析以确定可以引发准确而足量的延伸。 2 硕士学位论文 2 生物信息资源 生物信息学伴随着人类基因组计划的进程获得了长足的发展,也显著的加快了整 个生物学,特别是分子生物学研究的发展。 2 1 数据库和应用工具软件 数据库资源方面,据生物信息学期刊n u c l e i c a c i d s r e s e a r c h 的统计【5 】,截止于2 0 0 4 年底共有7 1 9 个网络数据库,比2 0 0 3 年底新增了1 7 1 个。除了以最初三大核酸序列 数据库( 美国的g e n b a n k ,欧洲的e m b l ,日本的d d b ,) 为首的核酸序列数据库,还 包括r n a 序列、蛋白质序列和蛋白质组、生物分子结构、植物基因组、脊椎和非脊椎 动物基因组、代谢和信号通路、人类疾病和基因、芯片和基因表达、细胞器、免疫学 等数据库。 而在生物信息软件方面,虽然发展相对缓慢,但经典的序列同源性比对工具 b l a s t l 6 1 ,基因结构分析工具b l a t 7 1 和s i r e 4 s l ,基因组注释工具d n a n n o t a t o r 9 1 , 引物设计工具p r i m e r 3 1 0 1 等仍然发挥着广泛的作用。 2 2 引物相关资源 我们通常的实验流程是确定p c r 模板和目的片断,而后设计引物。再对设计出 的引物进行评价和校对,最后订购引物进行实验操作,如果实验效果不理想,再寻找 原因,包括对引物的再次评价以验证其特异性和有效性,如果效果肯定且重复性好则 保存该设计。根据这一流程,当前对于引物的生物信息研究主要可以分为三个方面: 首先是设计上的优化,出现了一些用于特定目的的引物设计工具,如p r i m e r 3 、 g e n e f i s h e 一1 、w e bp r i m e r 、p c rd e s i g n e r 1 2 1 、p r i m o 1 3 1 、p r i m e rs e l e c t i o n 、 m e t l l p r i i n e r 【1 4 1 、s n p c u t t e r 、m u t s c r e e n e r 、p r i m e r n e r d 等( 参见附录2 ) ,其中s n p c u t t e r 、 m u t s c r e e n e r 和p r i m e r n e r d 都实现了快速批量的引物设计; 其次是优质引物的数据库管理系统的建立和应用,将经过实验证实质量好的引物 加以收集利用,免费的公共数据库有p r i m e r b a n k 1 5 】,m p d b ( m o l e c u l a rp r o b e d a t a b a s e ) ,p r i m e r p c r 等;商业公司往往都有各自的收费数据库,所积累的引物数据 是和实验方案配套并经过优化的,常与试剂设备起捆绑销售。同时为了获得高效率, 更多的公司和研究人员都倾向于在一个反应体系中一次使用2 条以上的引物。 其三就是引物评价。目前具有引物评价功能的在线工具主要有u c s ci n s i l i c o p c r 、p r i m e rm a p p i n g 、p l o t p r i m e r 、s n p r i m e r 等,但它们都是针对某一方面需要而开 发的,功能相对单一( 参见讨论和附录3 ) 。 2 ,3 现有的数据库和分析工具的不足 以上各种资源虽多,但仍然存在一些问题,主要包括:( 1 ) 数据分散。在实际研究 3 硕士学位论文 中,一个数据库和软件难以解决所有的问题。研究一个基因,需要到核酸数据库中提 取基本序列和各种剪切本序列,到蛋白质数据库中寻找蛋白质结构和功能信息,到启 动子数据库中找到调控信息,利用b l a t 等软件分析基因结构,利用p r i m e r 3 等设计引 物,用b l a s t 等作序列比对验证引物和寻找同源序列,还有表达信息、s n p 和突变 信息的搜集等等。数据库和软件之间的频繁跳转耗费了相当的时间和精力。( 2 1 数据格 式不统一。多数的数据库和软件使用各自不同的数据格式,而在整个实验流程中利用 这些资源产生了大量的数据。基因克隆中的候选基因往往是几十上百个,格式的差异 给信息分析整理存档造成了极大的困难,也不利于查询检索和数据再挖掘,不利于实 验室内部信息的系统管理。( 3 ) 批量数据处理的不足。尽管新近出现了一些支持批量处 理的工具,但大多数数据库和软件只提供了单一序列的分析功能,大量的$ n p 研究、 引物设计和评价、序列比对工作仍然只能依靠手工一条条的机械重复进行,占用了相 当多的研究时间。 全面的引物评价工具显然也是这一流程中的速度瓶颈,目前已有的引物评价工具 存在很多缺点:( 1 ) 不提供批量的引物自身特性分析。引物长度、t m 值、g c 含量、 形成二聚体和二级结构的可能性等重要的信息无法批量的得到,甚至完全不提供。( 2 ) 不提供多对引物之间的互补性分析。在一个反应体系中采用多对引物能大大提高效 率,这也是商业公司经常采取的策略,但研究人员自己设计实验时,没有工具可以批 量计算多对引物之问形成二聚体的可能性。f 3 ) 不提供引物与常见重复序列的批量比对 分析。这显然不利于降低引发非特异性延伸的可能,特别是面对整个基因组进行扩增 时。( 4 ) 不提供批量引物的扩增子提取。快速直观的得到扩增子序列可以加快实验设计 和结果的分析过程。 基于以上种种原因,我们有必要开发和建立一种应用于引物评价的工具,通过自 动化高通量的方式来完成一些重复性工作。 3 课题内容及目的 为了解决引物评价的速度及其全面性和科学性的问题,我们针对现有引物评价工 具的优缺点,在现有各种人类基因组数据资源和开放性软件的基础上,开发一种高通 量、自动化的引物评价系统,命名为p r i m e r e v a l u a t o r 。这一系统应包括以下主要功能: ( 1 ) 引物与公共数据库模板序列的批量比对,即引物在人类基因组中扩增的特异性 分析; ( 2 ) 引物与用户提供的模板序列的批量比对,如引物在某段g d n a 或特定载体序 列上扩增的特异性分析; ( 3 ) 引物与常见重复序列的批量比对; 4 硕士学位论文 多条引物之间的互补性比对即非特异性结合的分析; ( 5 ) 引物自身特性的分析; ( 6 ) 根据以上结果的简要引物评分,为引物的选择和评价提供参考: ( 7 ) 扩增子序列提取; ( 8 ) 对每条,每对多条引物给出统一的以r i 抽键分隔的分析结果,利于后续的数据 处理和实验室信息的系统管理。 另外,本课题将在我们实验室建立一个引物评价的信息分析平台,为将来的研究 提供帮助。 5 硕士学位论文材料与方法 1 材料 1 1 硬件 材料与方法 表2 - 1 硬件配置 类型 p o w e r m a cg 4方正商祺8 0 0 0 配置 处理器 1 - 2 5g h zp o w e r p cg 42 6 6 g h z 英特尔 奔腾 4 内存 1 g b2 5 6 m b 硬盘 8 0 g bu l t r aa t a 10 0 ( 7 2 0 0 转)8 0 g bu l t r aa t a ( 7 2 0 0 转) 分辨率1 2 8 0 1 0 2 4 像素1 0 2 4 7 6 8 像素 操作系统m a c o s x l 0 2 8m i c r o s o f t w i n d o w s 2 0 0 0s p 4 用途运行环境开发环境 1 2 软件 表2 - 2 软件工具 名称版本网址 a p a c h e 1 3 2 9 h t t p :h t t p d a p a c h e o r e , c y g w i n 1 5 7 h t t p :w w w c y g w i n c o m p e r l5 8 o h t t p :w w w a c t i v e s t a t e c o m p r o d u c t s a c t i v e p e r l u l t r a e d i t 3 21 0 1 0 b 试用版 h t t p :w w w u l t r a e d i t c o m p r i m e r 31 0 o h t t p :f r o d o w i m i t e d u c g i b i n p r i m e r 3 p r i m e r 3 _ w w w c g i i s p c r3 1 h t t p :w w w s o e u c s c e d u - k e n t e x e o s x d n a n n o t a t o r1 o 0 h t t p :s k y b s d u c h i c a g o e d u d n a n n o t a t o r h t m 2 方法 2 1 体系结构 p r i m e r e v a l u a t o r 是一种基于浏览器服务器( b r o w s e r s e r v e r ,b s ) 模式的应用程 序,通过i n t e r n e t 建立客户端和服务器端的连接。b s 模式的优点在于:对用户要 求很低,只要能上网就可以使用;具有分布性特点,可以随时随地进行查询、浏览等 6 硕十学协论文材料与方法 处理:功能扩展简单方便,通过增加网页即可增加服务器功能:维护简单方便,只需 要改变网页,即可实现所有用户的同步更新;开发简单,共享性强。在p r i m e r e v a l u a t o r 巾,用户利用浏览器访问服务器提供的网页,网页上的表单为用户提供上载数据文件 和修改参数值的界面;数据提交到服务器端后,在u n i x 环境下,a p a c h eh t t p 服 务器上的p e r l c g i 脚本开始运行,对得到的数据进行处理,包括原始数据的格式转 换、调用相关外部程序f 如i s p c r ,p r i m e r 3 ,d n a n n o t a t o r ) 、中间数据的分析并输出最 终文件,结果以文本文件的形式通过e m a i l 发送回用户。p r i m e r e v a l u a t o r 体系结构见 图2 一l : 客户端( b ) 1 j 户通过7 服务器发送c g l h t t p 协议访 w e b 表单 运行结果到用户的 问i n t e r n e te m a i l in t e r n e t 服务器端( s ) w e b 服务器软1 牛- - a p a c h e 2 a p a c h e 执 j。 6 c g i 脚本白动创 行c g i 脚本 1r 建e m a i l 结果文件 p e r l c g l 脚本 j 3 c g i 凋川5 其它程序结 其它稃序果返回c g i r p r i m e r 3 ,i s p c r ,d n a n n o t a t o r 图2 - 1 :p r i m e r e v a l u a t o r 体系结构图 2 2 开发工具 本课题使用了p e r l 作为开发语言。p e r l ( p r a c t i c a le x t r a c t i o na n dr e p o r tl a n g u a g e , 实用摘录和报表语言) 1 6 】是由l a r r yw a l l 所创立。p e r l 语言中包含了c 、c + + 、s h e l l 7 硕十学位论文 s c r i p t 、s e d 、a w k 这几个语言的语法,最开始就是用来汇整信息,产生报表的一个工具 程序语言。因为它对字符串与数据剖析方面有很强的处理能力,尤其是可以利用关联 性数组在c g l 应用程序中剖析输入数据串。很多处理数据库的软件可以用p e r l 来沟 通,同时它也可以跨平台的运行于w i n d o w s 、u n i x 、m a c o s 等操作系统。f 是依靠 其强大的字符串处理能力满足了同益庞大的序列分析需要,p e r 在生物信息学中发挥 j 关键性的作用,推动了整个人类基因组计划的进展,其中专门用于分子牛物学研究 的b i o p e r l 7 模块组已经包括7 0 0 多个功能单元,涵盖了数据库访问、序列分析、格 式转换、图形化等几乎所有的生物信息应用范畴。 2 3 程序设计策略 本研究通过利用目前的公共数据资源和开放性软件工具,根据用户选择的参数, 对批量的引物序列进行自动快速的评价。图2 - 9 表示了p r i m e r e v a l u a t o r 的流程。下面 具体阐述该流程中的详细策略。 2 3 1 输入格式和方式的确定 所有程序都要求一定的输入规范,p r i m e r e v a l u a t o r 采用以t a b 键分隔的单对引物 以行列表的输入形式。这是目前最为通用的数据格式,常用的数据管理软件如 e x c e l 、a c c e s s 和所有的数据库系统都支持数据以该格式的导入和导出;这种格 式能以纯文本的形式保存和编辑,任何简单的文本编辑器都可以对其操作,这些都简 化了输入f j i 的上作,同时便于后续字符串处理。每对引物必须有唯一的标识,可以由 字母和数字组成,不能使用其它字符,避免命名匕混乱。引物评价中应尽量避免不确 定性因素的r 扰,所以引物序列不包括转义字符( 如用n 代表任意碱基) ,仅山a t g c 四种碱基组成( 参见图2 - 2 ) 。 t h ei n p u td a t af o r m a tr e q u i r e di sa sf o l l o w s : p r i l n e r sa si n p u t : p r i m e r ss h o u l db ep r o v i d e dmt h ef o r m a to ”2 - n m e r _ i df o r w o r d _ s e qr e v e r s e _ s g - - q “ o n el i n ep e rp r i m e r f o rp r i r n e r _ :d ,l e r 噼h 1 5 ,o n l yl e t t e r sa n dn u m b e r sc a r lb ea c c e p t e d :f o rp n r n e rs e q u e n c e ,l e n g t h15 - - 3 6 ,a m b l g o u sc o d e sa r en o ta l l o w e d a l li t e m sa i es e p a r a t e dw i t ht a bs p a c e e g s a m p l e1 a i g c g g a g a t a 砑g t c c t c t g a g g a g g c a g a g g t y g c a g t s a 】l p l e 2g g g a g g c a g a g g t t g c a g ta t g c g g a g a t a g g t c c t c t g s a m p l e 3 c c t a g t c c a c & t t c a 扎且c c a ac c a t a t t g c 舡c 直o c a a c t t 4 t h o n e a a c c t a g t c c a c a t i c a 虬t 直c c ac c a t a t t g c a a o c 冉6 c a a c t t 图2 - 2 :引物输入格式的提示页面 8 硕士学位论文 材料与方法 用户提供的模板d n a 序列采用最为简单常用的f a s t a 格式,既能直接在各大序 列数据库得到,也可以自己直接构建。虽然没有强制要求,模板序列中也应避免使用 转义字符。 在输入方式上,当引物对数量不多时用户可以采用直接粘贴的方式,当引物对量 大时建议采用上传文件的方式。模板d n a 序列的提交也提供同样的灵活选择,如果 要使用全基因组作为模板,将两个输入框均留空即可( 参见图2 3 ) 。 2 3 2 引物评价参数的设定 为了使用户可以灵活的根据各种特殊的实验要求设置引物的评价标准值, p r i m e r e v a l u a t o r 在网页上提供了一系列常用的参数列表( 图2 4 ) 。这些参数值也将最 终影响引物的参考分值。下面就每个参数的特点进行了分别阐述。 m a xp r o d u c ts i z e ( 最大扩增子尺寸) ,范围3 6 - 1 5 0 0 0 ,默认值是4 0 0 0 。某些情 况下,引物序列可以非特异性的结合于模板上的多个位点,但由于相距较远而不能形 成多个有效的扩增子,于是只能在一定程度上干扰实验产物量,对最后结果的影响相 对有限,能够满足一些特殊实验条件的需要。根据这一参数,程序只试图寻找小于等 于最大值的扩增子并提取出来。 m i i lp e r f e c tm a t c h ( 最小完全匹配长度) ,即要求引物3 端与模板完全匹配的最 小长度,范围1 5 3 6 ,默认值是1 5 。该参数主要是考虑到引物延伸始于3 端,与模板 9 硕士学位论文材料与方法 问的相似性比对以3 端更为重要,即使允许有个别碱基的错配存在,也应当尽可能远 离3 端。 m i ng o o dm a t c h ( 最小良好匹配长度) ,范围1 5 3 6 ,默认值也是1 5 。实际上它 和上一个参数的意义基本相同,只是放宽了要求,以最少三分之二匹配代替了完全匹 配,表示了引物3 端必须有2 3 以上匹配的最小序列长度。这两个参数的配合使用就 可以精确指定允许出现错配的区间。它们的默认值均设为1 5 说明多数情况下要求很 好的完全匹配,而忽略后一个仅2 3 匹配的参数作用。 m a x m i np r i m e rs i z e ( 最大,最小引物长度) ,范围1 5 - 3 6 。引物的长度不光影响 其特异性,还直接关系到t m 值。过长的引物难于人工合成,往往也不够稳定,易于 被切断降解。1 8 - 2 7 的默认值是一个经过长期验证的经验参数,除此之外1 5 3 0 其实 也是一个普遍接受的范围。 - k m a x m i nt m ( 最大最小解链温度) ,范围4 0 - 8 0 。它直接决定了p c r 反应的温 度策略,p c r 采用的复性温度通常就是t m 值加上5 l o 度。较高的复性温度可大大 减少引物和模板间的非特异性结合,提高p c r 反应的特异性;但过高则影响正常结 合,降低产量。当今p c r 技术可以实现温度的精细调控( 如t o u c h d o w n ) ,酶的耐热 性也很好,所以推荐了5 0 - 7 0 度的默认范围。 图2 - 4p f i m e r e v a l u a t o r 引物评价参数 1 0 硕士学位论文 材料与方法 - k m a x m i ng c ( 最大最小g c 百分含量) ,范围1 9 9 ,默认值为3 0 8 0 。e 屺 太少扩增效果不佳,g + c 过多易出现非特异条带。g c 含量也是影响解链温度的重要 因素。 - km a xs e l f a n y c o m p l e m e n t a r i t y ( 最大引物自身互补和引物之间互补比对分值) , 范围0 3 6 ,默认值为0 。通过比对来衡量引物自身和引物之问形成二聚体的可能性。 两条引物序列间比对的评分规则是:1 0 0 表示两碱基互补;o 2 5 表示任意碱基与n 的匹配;1 0 0 表示两个碱基错配;- 2 0 0 表示出现空位( 只接受单个碱基空位) 。如图 2 - 5 ( a ) 的序列比对得分为1 7 5 。该参数最低值为零,意味着两条引物之间不存在互补, 而图2 - 5 ( b ) 中两条序列的得分是“0 2 5 ”,同样表明两条引物不会形成互补结构。 5 t c g n 且3 l iil 3 t - c g t5 5 t c c g n a3 i |il 3 o t - - c g t5 0 3 ) 5 。 t g c c c t o c t t c c g g t g3 l iii iii i 3 -从g t c c t c t t t g c c t g t5 晒 5 g g c t t g g g c c t c g c g 3 o i i i i i i 3 g c g c t c c g g g t t c 土s 凹 图2 - 5 引物互补的比对示意图 m a xs e l f e n d c o m p l e m e n t a r i t y ( 最大引物自身3 末端互补和引物之间3 末端互补 比对分值) ,范围0 , 一3 6 ,默认值为0 。通过3 末端的比对来衡量引物自身和引物之间 在3 端结合及引发延伸的可能性。其评分规则和上面的参数相同,如图2 - 5 ( c ) 的序列 比对得分为7 ,而图2 - 5 ( d ) 中两条序列的得分是6 。该参数最低值也为零,意味着3 末端之间不存在互补。 m a xp o l y - x ( 最大单核苷酸重复长度) ,范围1 3 6 ,默认值为4 。为避免和模板 特别是基因组发生非特异性结合,引物需要控制其单核苷酸重复长度。 m i ng cc l a m p ( 最小3 末端的连续g 或c ) ,范围0 - 3 6 ,默认值为0 。位于3 末端的g 或c 无疑会增加引物与模板结合的稳定性,利于引发有效延伸。 - k m i s p r i m i n gl i b r a r y ( 错配数据重复序列库) ,库中主要包括在基因组中分布频 率高于3 5 t 1 8 】的各种重复序列( 如a l u s ,l i n e s 等) 和简单的寡核苷酸重复( 如 硕士学位论文材料与方法 c c c c c ,a c a c a c 等) 。评价引物时,将每条引物与库中的序列进行两两比对评分, 避免引物内含非特异性的重复序列。目前p r i m e r e v a l u a t o r 提供人类、小鼠、大鼠和果 虫黾【1 9 j 的重复序y u g g ( 图2 - 6 ) 。由于所涉及的大量比对计算影响程序运彳亍速度,默认情 况下不使用该参数,只有确实需要时才推荐使用,并尽量控制一次运算的引物对数量。 相应的分值体现在下面的参数。 m a xm i s p r i m i n g ( 与重复序列比对允许的最大得分) ,范围o 3 6 ,默认值为0 , 意即不与已知重复序列互补。 图2 - 6p r i m e r e v a l u a t o r 使用的重复序列库 2 3 3 外部程序 虽然p e r l 语言擅长于字符串操作,但其数学运算的能力仍然不及c 语言,因为 后者更接近计算机内核,也就是更易于生成简洁的机器语言。正是基于此种理由,目 前生物信息工具中涉及大规模计算的程序都是以c 语言为基础。p r i m e r e v a l u a t o r 也充 分利用了现有的两个以c 语言编写的程序模块,以提高计算能力,加快运行速度。 i n

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论