(光学工程专业论文)dna图谱分析算法与软件研究.pdf_第1页
(光学工程专业论文)dna图谱分析算法与软件研究.pdf_第2页
(光学工程专业论文)dna图谱分析算法与软件研究.pdf_第3页
(光学工程专业论文)dna图谱分析算法与软件研究.pdf_第4页
(光学工程专业论文)dna图谱分析算法与软件研究.pdf_第5页
已阅读5页,还剩59页未读 继续免费阅读

(光学工程专业论文)dna图谱分析算法与软件研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

浙江大学硕士论文 y8 7 6 5 7 7 摘要 人类基因工程的一个重要目标是发展自动化、高速的d n a 测序技术。目前主要采用 荧光标记的毛细管电泳d n a 测序。由于环境噪声、染料激发光谱重叠、电泳展宽效 染料迁移率漂移等因素的影响,造成d n a 图谱的信噪比和分辨率下降,不利于碱基 ,需要对原始图谱做必要的处理。本论文主要研究了d n a 图谱处理的算法,并设计 应的软件。软件主要功能包括d n a 图谱的预处理、四色校正、后处理三个部分。 首先,软件对d n a 图谱做预处理。预处理包括数据段选取、基线调整、噪声滤除、 识别四个模块:数据段选取删除前段冗余数据;基线调整使得四色荧光信号的基线 一致;噪声滤除去除信号中的脉冲噪声和自噪声;峰值识别选取峰值数据,作为求 忱矩阵的数据。 乓次,软件对d n a 图谱做四色校正。四色校正是d n a 图谱处理中的重要部分,它解 呻特定波长的荧光亮度到四种荧光团浓度的转换问题。用于标记d n a 片段的四种染 殳射光谱有部分重叠,导致四色荧光串扰,需要对原始d n a 图谱做四色校正。四色 皂键在于串扰矩阵的求解,主要有峰值法、斜率法、四维空间聚类法。软件实现了 基和四色空间聚类法求解串扰矩阵,通过对d n a 图谱做矩阵转换,消除了四色荧光 后,软件对d n a 图谱做后处理。后处理包括去卷积、迁移率校正、归一化三个模 卷积等效于展宽效应的逆过程,可以减小峰宽,消除峰的重叠,提高了四色峰的 ;迁移率校正调整四色峰的相对位置,使得四色峰谱分布均匀;归一化使得四色 i 度基本一致,提高了图谱的视觉效果。 a 图谱处理改善了d n a 原始图谱的质量,为后续的碱基排序做准备,有利于实现 i 、准确的d n a 测序。自主设计的g e l r e a d 软件能浏览、处理a b i 和d a t 格式的d n a g e l r e a d 软件对原始d n a 图谱处理达到了很好的效果,可以与a b i 商业软件相媲 现了预期的目标。 :d n a 图谱、荧光浓度、预处理、四色校正、后处理 浙江大学硕士论文 a b s tr a c 七 o n eo ft h ei m p o r t a n tg o a l so ft h eh u m a ng e n o m ep r o j e c ti st h ed e v e l o p m e n t o f t e c h n o l o g i e s f o ra u t o m a t e d , h i g h s p e e d d n as e q u e n c i n g t h ef o u r d y e f l u o r e s c e n c eb a s e dc a p i l l a r ye l e c t r o p h o r e s i sd n as e q u e n c i n gi st h em o s tw i d e l y u s e da p p r o a c ht o电u t o m a t e dd n as e q u e n c ea n a l y s i s d n ac h r o m a t o g r a m s s i g n a l t o n o i s e r a t i o a n d r e s 0 1 u t i o na r ed e c r e a s e da st h ei n f l u e n c eo f e n v i r o n m e n t a ln o i s e , s u b s t a n t i a l l yo v e r l a p p i n ge t n i s s i o ns p e c t r ao ff o u rd y e s , e l e c t r o p h o r e t i cz o n eb r o a d e n i n g ,d y em o b i l i t y s h i f t , a n ds oo n t h er a wd n a c h r o m a t o g r a ms h o u l db ep r o c e s s e dt of a c i l i t a t eb a s e c a l l i n g t h et h e s i sf o c u s e s o na l g o r i t h mf o rd n ac h r o m a t 。g r a i p r o c e s s i n g ,a n dd e s i g nc o r r e s p o n d i n gs o f t w a r e t h em a i nf u n c t i o no ft h es o f t w a r ec o n s i s t so fp r e p r o c e s s i n g , c r o s s t a l k f i l t e r i n ga n dp o s t p r o c e s s i n go fd n ac h r o 【l a t o g r a m f i r s t l y , t h es o f t w a r e p e r f o r m sp r e p r o c e s s i n g o fd n ac h r o m a t o g r a m p r e p r o c e s s i n gc o n s i s t so fd a t as e l e c t i o n ,b a s e l i n ea d j u s t m e n t ,n o i s ef i l t e r i n g a n dp e a ki d e n t i f i c a t i o n d a t as e l e c t i o nr e m o v e sp r e p r i m e rd a t as e c t i o nw h i c h c o n t a i n s1 i t t l eu s e f u li n f o r m a t i o n b a s e l i n ea d j u s t i 丁】e n ta d j u s t st h eb a s e l i n e s o ff o u rc h a n n e l st ot h es a m e1 e v e l n o i s ef i l t e r i n gr e m o v e st h ei m p u l s en o i s e a n dw h i t en o i s e p e a ki d e n t i f i c a t i o ns e l e c t st h ep e a kd a t af o ru s ei nc r q s sm a t r i x d e t e r m i n a t i o n s e c o n d l y , t h es o f t w a r ep e r f o r m sc r o s s t a l kf il t e r i n go fd n ac h r o m a t o g r a m c r o s s t a l kf i l t e r i n gi sa ni 1 t 】p o r t a n ta s p e c to fd a t ap r o c e s s i n gi nd n a c h r o m a t o g r a 丌1p r o c e s s i n g i td e d u c e st h ec o n c e n t r a t i o n so ff o u rf l u o r o p h o r e sf r o m f l u o r e s c e n c ee m i s s i o ni n t e n s i t i e sa tf o u rd i f f e r e n tw a v e l e n g t h s a 8t h ef o u r d y e se m p l o y e di n1 a b e l i n gd n af r a g m e n t sh a v es u b s t a n t i a l l yo v e r l a p p i n ge m i s s i o n s p e c t r a ,c r o s s t a l k i n gf i l t e r i n gi si m p o r t a n ta n dn e c e s s a r y t h em a i nt a s ko f c r o s s t a l kf i l t e r i n gi sd e t e r m i n a t i o no fc r o s sm a t r i x t h em a t r i xi st y p i c a l l y d e t e r m i n e db yp e a ka n a l y s i s ,s l o p ea n a l y s i so rf o u rd i m e n s i o n a lc l u s t e ra n a l y s i s t h es o f t w a r ei m p l e 【i e n t ss l o p ea n 8 1 y s i sa n df o u rd i m e n s i o n a lc l u s t e ra n a l y s i s t od e t e r m i n et h em a t r i x ,a n da p p l i e st h em a t r i xt ot h er a ws i g n a lt oa c c o m p l i s h i l 浙江大学硕士论文 c r o s s t a l kf i l t e r i n g l a s t l y , t h es o f t w a r ep e r f o r m sc r o s s t a l kf i1 t e r i n go fd n ac h r o m a t o g r a i l l p o s t p r o c e s s i n gc o n s i s t so fd e c o n v 0 1 u t i o n ,d y em o b i l i t y s h i f tc o r r e c t i o na n d s i g n a ln o r m a l i z a t i o n d e c o n v 0 1 u t i o np a r t i a l l yr e v e r s e st h ee f f e c t so fz o n e b r o a d e n i n g ,w h i c hd e c r e a s e st h ep e a kw i d t ha n de l i m i n a t e st h ep e a ko v e r l a p p i n g , l e a d i n gt or e s o l u t i o ni m p r o v e m e n t d y em o b i l i t y s h i f tc o r r e c t i o na d j u s t st h e r e l a t i v ep o s i t i o no fp e a k sb e t w e e nd i f f e r e n tc h a n n e l s , a n dm a k e st h ep e a k s p r o p o r t i o n a ld i s t r i b u t e d s i g n a ln o r m a l i z a t i o nn o r i i 】a l i z e st h ep e a ki n t e n s i t y a m o n gc h a n n e l s , w h i c hi m p r o v e sd n ac h r o m a t o g r a i i l sv i s u a le f f e c t d n ac h r o m a t o g r a mp r o c e s s i n g ,w h i c hi sp r e p a r e df o rb a s e c a l l i n g ,f a c i l i t a t e s a u t o n l a t e da n dp r e c i s ed n as e q u e n c i n g t h es o f t w a r ec a l l e dg e l r e a dw ed e v e l o p e d i sa i m e da tv i e w i n ga n dp r o c e s s i n go fd n ac h r o m a t o g r a mi na b ia n dd a tf o r m a t s g e l r e a dw o r k sw e l l ,a n di tc o m p a r e sb e a u t yw i t hc o m m e r c i a ls o f t w a r e sl i k ea b i , t h et h e s i sa c h i e v e st h ep r o s p e c t i v eg o a l k e yw o r d s :d n ac h r o m a t o g r 踟,c o n c e n t r a t i d n。f f l u 。r o p h o r e ,p r e p r o c e s s i n g c r o s s t a l kf i l t e r i n g , p o s t p r o c e s s i n g i i i 浙江太学硕士论文 第一章绪论 随着各种交叉学科的不断深入发展,电子科学与计算机技术在生物化学领域的应用 亦目益广泛。d n a ( 脱氧核糖核酸) 携带了生物体的基因信息。基因信息的提取即d n a 测序,是现代分子生物研究中的重要分支。人类基因组工程的完成主要得益于自动化、 高速的d n a 测序技术。这一技术的成熟和应用,将不但为2 1 世纪的疾病诊断和治疗、 新药开发、分子生物学、航空航天、司法鉴定、食品卫生和环境监测等领域带来一场技 术革命,还能为人类提供对个体生物信息进行高速、并行采集和分析的强有力技术手段。 d n a 自动测序技术是学科高度交叉的高科技研究领域,开展d n a 自动测序技术的研究将 会带动医学、计算机、微电子、自动化仪器等一大批相关学科和产业的发展,最终使d n a 测序走向自动化、高速、廉价的道路【u 。 本章将介绍d n a 的背景知识与本文的选题依据。 1 1d n a 的结构与功能 d n a 的基本结构单元是脱氧核苷酸,它由碱基、脱氧核糖和磷酸三部分构成。遗传 信息被编码在d n a 的a ( a d e n i n e ,腺嘌呤) 、t ( t h y m i n e ,胸腺嘧啶) 、g ( g u a n i n e ,鸟 嘌呤) 、c ( c y t o s i n e ,胞嘧啶) 四种碱基中。 d n a 的结构分为一级结构、二级结构和三级结构【2 】。一级结构是指d n a 分子中脱氧 核苷酸的连接方式和排列顺序,因为各种d n a 分子中脱氧核糖和磷酸组成都是相同的, 因此脱氧核苷酸中a 、t 、g 、c 四种碱基的排列顺序,是生物信息所要表达的内容,碱 基顺序稍有变化,就会引起遗传信息的巨大改变,可见清楚掌握碱基顺序对于了解d n a 的结构和功能有着重大意义,所以d n a 一级结构的测定是d n a 分析的一个重要内容。 d n a 二级结构指d n a 分子的立体空间结构,即w a t s o n 和c r i c k 建立的d n a 双螺旋结 构。它的基本特征包括主链:d n a 主链由脱氧核糖和磷酸相互间隔连接而成,2 条主链 反向平行,处于螺旋的外侧,碱基处于螺旋的内侧,2 条主链形成右手螺旋,有共同的 螺旋轴,螺旋的直径是2 n 【i ,每1 0 对碱基绕轴旋转一圈组成一节螺旋,螺距3 4 n m ,如 图1 1 【3 - 4 】所示;碱基配对特性:d n a 双螺旋结构中碱基之间总是a 和t 配对,g 和c 配 对。a 与t 通过2 个氢键配对,g 与c 通过3 个氢键配对。所以g 与c 之间的连接较为 浙江大学硕士论文 图1 1d n a 分子的双螺旋结构 稳定。由于两条链上的碱基配对是互补的,因此,当一条链上的碱基顺序固定,按照碱 基互补原则即可决定另一条链上的碱基排列顺序。碱基互补原则具有十分重要的生物学 意义,它不仅与d n a 的结构有关,而且d n a 的复制、转录和遗传信息的传递都与它 有着密切的关系。 d n a 的三级结构是指在一、二级结构基础上核苷酸链的进一步折叠、扭曲和压缩, 也称为高级结构。 d n a 转录成r n a ,然后翻译成蛋白质,来传递生命的基因信息。d n a 的复制过程 为:在d n a 解旋酶的作用下,把双链螺旋的d n a 打开氢键,解开成为两条单链,且 以单链为模板,脱氧核苷酸为原料,按碱基互补配对原则合成为一条新的子链。d n a 的复制使得基因信息得以遗传下来。保证物种的连续性。 人体细胞中所有的d n a 构成人类基因组,它由两类不同的组分构成:核基因组和线 粒体基因组,前者由大约3 0 亿个碱基对( b p ) 组成,后者是一个长为1 6 5 6 9 b p 的环状 d n a 分子【5 】。染色体上的d n a 分子由编码区和非编码区组成,编码区域称为基因,一 个基因的大小为几个k b 到几十个k b 。人类基因组大约有8 0 0 0 个基因,其包括的信息仅 占核基因组的3 。人类基因组计划( h 呦a ng e n o m ep r o j e c t ) 的目标就是完成人类基因 组的测序工作。人类基因组计划的完成,使人们了解到,人与人之间9 9 的基因是相同 的,仅存在1 的基因差异。科学家认为,正是这些极小的差异,导致了生命的多样性 不同的种族、肤色、相貌,对各类疾病不同的敏感性,以及对药物的不同反应,这 些差异称为d n a 的多态性,分析这些多态性信息称为d n a 分型( g e n o t y p i n g ) 。 浙江大学硕士论文 d n a 的多态性分为两种:长度多态性( 1 e n g t hp o l y m o r p h i s m s ) 和单核昔酸多态性 ( s i n g l e m 圯l e o t i d e p o l y m o r p h i s m s ,s n p ) ,如图1 2 所示】。长度多态性是一系列不同长 度的重复序列,不同的等位基因( 相同基因或标记的不同形式称为等位基因) 含有不同 数目的重复单位,它有两种类型:小卫星( m i n i s a t e l l i t e ) ,也称为可变数目的串联重复 ( v a r i a b l en 啪b e ro f t a n d e mr e p e a t ,) ,重复单位长度为几十个核苷酸;微卫星或简 单串联重复( s i r n p l et a l l d e mr e p e a t ,s t r ) ,重复单位长度通常为几个核苷酸。微卫星比 小卫星更常用作d n a 分型,这是因为长度多态性分型的最快方法是通过p c r ,而p c r 分型对于5 0 0 b p 以下的序列更快也更精确,典型的微卫星长度均在5 0 0 b p 以下,更适合 于p c r 分型。 s h o r tt a n d e mr e p e a t s ( s t 黜) t h er c p e a tr e g i o ni sv a r j a b l eb e t w e e ns 啪p l e sw h i | et h e f l a n k i n gr e 西o n sw h e f ep c rp r i m e r sb i n da r ec o n s t a n t s e q u e n c ev a r i a t i o s i n g i en u c l e o t i d ep o l y m o r p h i s m s ( s n p s ) 鱼王叁q 匹立叁i 鱼! g q g q 至幽殓王g q 王叁立! q 丛q g ! a q 立i 幽i q 王鱼 图1 2d n a 的长度多态性和单核苷酸多态性 s n p 指基因组内特定核苷酸位置上存在有两种不同的碱基,它广泛存在于基因组 中,大约每l 0 0 0 b p 存在一个s n p ,在人基因组中大约有3 0 0 万个s n p ,不仅存在于非 编码区,而且存在于编码区,s n p 在个体识别与亲子鉴定中具有巨大的潜力,将会是法 医d n a 分析发展的趋势。 浙江大学硕士论文 1 2d n a 测序技术 2 0 世纪7 0 年代中期,两种快速有效的d n a 测序技术几乎同时建立:链终止法( c h a i n t e n n i n a t i o nm e m o d ) 和化学降解测序( c h e m i c a ld e g r a d a 廿o ns e q u e n c i n g ) ,两种技术开始 时都很受欢迎,但是链终止法近年来成为主要的测序方法,特别是在基因组测序中。这 一方面是因为化学降解法中的化学试剂是有毒性的,但主要原因是链终止法更易自动化 测序归j 。 链终止法( s a n g e r 法) 是现在d n a 测序的主导方法,它以单链d n a 分子作为待 测模板,并且需要与模板互补的引物d n a 链。其测序原理是对所测定的d n a 序列进 行循环聚合反应并使用2 ,3 双脱氧核苷三磷酸( d d n t p ) 作为聚合反应的链终止剂。 d d n t p 与普通d n a 的单体d n t p 之间的差别在于其脱氧核糖的3 位置少一个羟基,因 而虽可在d n a 聚合酶作用下通过其5 三磷酸基团掺入到正在增长的d n a 链中,但因 缺乏37 羟基而不能同后续的d n t p 形成磷酸二酯键。因此,当正在增长的d n a 链末端 碱基为d d n t p 时;链延伸反应终止。这样,在合适条件下,所测d n a 的聚合反应产物 d d t t p iii 测序胶高压电泳 妄 ;l 5l 譬 图13 链终止法测序原理示意图 攀茎一 caacgttacga 瓣测汹俐麟纰 浙江大学硕士论文 便为一系列长度呈梯形分布的多核苷酸链,即其长度差别为一个核苷酸。通过凝胶电泳, 各种长度的多核苷酸链被分离出来,通过对其长度和标记物的共同识别,便能依次读出 所测d n a 的每一个核苷酸的顺序,如图1 3 所示。 链终止法测序的开始需要寡核苷酸引物与模板d n a 间的复性。需要引物是因为依 赖模扳的d n a 聚合酶不能在全部是单链的分子上开始合成必须有一短的双链区提供 3 端,以提供聚合酶添加新核苷酸。引物还在决定模板d n a 分子的测序范围中起关键 作用。 因为一个测序反应只能测几百个b p 的d n a 链,所以需要通过某种方法将测到的大 量短d n a 序列拼接成长的染色体序列。最直接的序列拼接方法是通过检测单个短序列 中的重叠区域推导出完整序列,这就是鸟枪法【5 1 。它的优点在于测序速度快,并且不需 要遗传或物理图谱,主要缺点是从起始序列寻找重叠区域及构建序列重叠群的算法非常 复杂,现有的计算机系统难以胜任,另外,因为不连续的序列可能因为重复单位而被错 误连接在一起,所以鸟枪法要求所研究的基因组中没有或者只有很少的重复序列。一另外 两种序列拼接方法为克隆重叠群法和定向鸟枪法。 1 3 选题根据与国内外研究现状 1 3 1 选题根据 d n a 测序过程可以分成三个部分:样品准备、分离与检测、数据采集与分析。样品 准备部分主要涉及分子生物学技术,为电泳分析准备d n a 单链样品;分离与检测部分采 用凝胶电泳技术分离d n a 片段;数据采集与分析主要指应用计算机分析d n a 数字图谱, 得到相应的碱基序列【7 】。 到目前为止,d n a 测序技术已经取得了很大的进步。其中样品准备部分由智能仪器 实现了自动化,基于四色荧光的毛细管电泳或平板电泳大大改进了d n a 片段的分离技术。 而数据采集与分析部分在自动化方面落后于前两个部分的发展,成为整个测序技术的瓶 颈。因此研究d n a 图谱分析算法并开发优秀的处理软件成为当务之急。 目前我们正在开发d n a 自动测序仅,需要相应的图谱浏览软件,并且软件能对采集 的原始数据做分析处理。本论文主要研究d n a 图谱的处理算法,开发软件实现原始数据 的前期处理,最终目标是将四色荧光d n a 图谱转化成碱基序列。 浙江大学硕士论文 1 3 2 国外在图谱分析方面的现状与进展 s m i t h 等人于1 9 8 6 年提出了四色荧光标记自动测序法【b 】。9 0 年代初,荧光标记和检 测的技术开始被应用到d n a 序列分析中,同时诞生了自动分析仪,使d n a 分析技术发生 革命性的改变,完全走向低成本、高通量、自动化、规模化的道路。 随着四色荧光标记测序法的发展,人们开始关注d n a 图谱分析算法的研究,并开发 相应软件。目前比较著名的商业化软件是美国a b i 公司开发的d n a 测序仪附带软件1 9 】。 该软件能对采集的原始数据作预处理,存入数据库并显示为电泳图谱。预处理后的数据 可以自动从数据库中调出并分析电泳图谱每个峰的位置和形状,从而确定碱基序列或片 段长度。分析后的数据可以由d n a 序列分析软件( 测序) 或g e n e s c a n 分析软件( 分型) 观察。然而这种软件只适用于a b i 的测序仪器得到的洲a 图谱数据。 m c g i d d i n g s 等人开发了兼容性强,模块化的分析软件【”( 由g e l i m a g e r 和 b a s e f i n d e r 等程序包组成) ,适用于多种测序仪器。g e l i m a g e r 程序包实现d n a 荧光图 谱的浏览功能,并可以确定各个泳道的图谱边界,并提取每个泳道的荧光图谱数据生成 t r a c e 轨迹文件,该文件是荧光浓度随时间变化的曲线图。b a s e f i n d e r 程序包实现 对轨迹图谱文件的前期处理并做b a s e c a l l i n g 以得到碱基序列。另外,他们开发的 m a t r i x f i n d e r 程序包可以确定多色荧光d n a 测序的串绕矩阵,实现光谱串扰校正。 1 3 3 国内在图谱分析方面的现状 我国的d n a 分析研究处于国际先进行列,是参加国际人类基因组测序计划的6 个 国家之一。然而,我国的d n a 分析仪器研发却大大落后于国际先进水平,现在还没有 相关产品的出现。在国内也很难找到关于d n a 图谱分析算法的学术论文,并且很少科 研机构从事这方面的研究。因此,自主研发d n a 分析仪器并开发分析软件具有重要意 义。 浙江大学硕士论文 第二章系统结构 本章具体介绍d n a 测序的系统结构,包括硬件系统和软件框架。 2 1d n a 测序仪的工作原理 d n a 测序仪的工作原理是利用电泳技术分离样品1 0 】。分离后样品中的待检碱基序 列依次通过终端的检测器检出。 2 1 1 电泳分离 不同大小或不同碱基序列的d n a 片段的分离,主要是利用电泳技术。电泳是带电 荷的物质在电泳场中的趋向运动,d n a 分子是一种强极性分子,含有大量磷酸,在中 性和碱性溶液中带负电荷,所以能在电场中向阳极移动。带电粒子在一定电场强度下, 单位时间内在介质中的迁移距离称为迁移率,迁移率的大小和样品分子所带的电荷、电 场中的电压及电流成正比,与样品的分子大小、介质粘度及电阻成反比【l i ,1 2 1 。 由于d n a 分子中,每个核苷酸含有一个磷酸基团,即d n a 分子的荷质比是恒定 的,一个含有1 0 个核苷酸的d n a 片段和另一个含有1 0 0 个核苷酸的d n a 分子在电场 中受到的电场力是相同的,因此必须用筛分( 分子筛) 的机制分辨大小不同的d n a 分 子。凝胶或多聚溶液是一种含有定大小孔径的基质,它在电泳中起到分子筛作用,较 大的d n a 分子在通过凝胶这些孔径时被滞留,而较小分子顺利通过凝胶孔,向前移动 的速度比较大d n a 分子快,大小不同的d n a 分子彼此分离。 现在广泛应用于d n a 分离的凝胶电泳技术有两种:平板凝胶电泳和毛细管凝胶电 泳,后者与前者相比,具有很大的技术优势:一是d n a 样品加样、分离和检测全部自 动化;二是高效、快速,毛细管散热快,可以应用比较高的电压分离,d n a 片段分离 时间大大缩短;三是微量,样品用量极少,利用样品重复检测;四是定量准确,每次每 道毛细管只分离一个样品,分离完后重新自动灌胶分离下一样品,没有样品间由于加样 不当引起的交叉污染;五是样品分离与检测一体完成,不需要扫描凝胶图。 毛细管电泳设备由石英毛细管( 电泳通道) 、样品池、高压电源和检测系统四部分 组成,如图2 1 所示。 浙江大学硕士论文 b u f r e r 图2 1毛细管电泳基本仪器结构示意图 2 1 2 信号检测 由于毛细管的直径极小,产生的样品谱带体积也极小,因此在检测过程中,既要对 样品做灵敏的检测,又不使其微小的区带展宽。 我们在系统中采用了激光诱导荧光的检测方法。较其他检测方法( 紫外检测、电化 学检测等) 相比,具有灵敏度高的优点,其检测下限可达1 0 “5 m 0 1 1 级。 激光诱导荧光检测方法的原理【1 3 :每种物质分子中都具有一系列紧密相隔的能级, 称为电子能级,在物质吸收入射光的过程中,光予的能量便传递给了物质分子,于是电 子从较底能级跃迁到较高能级,这个过程进行极快,约为1 0 。1 5s ,处于这种激发态的分 子被称为电子激发态分子。处于激发态的分子是不稳定的,它可能通过辐射跃迁而返回 基态,发射出光子。一般从溶液中观察到的荧光为斯托克斯荧光,即荧光发射的光子能 量底于激发光的光子能量,也就是说,荧光比激发光具有更长的波长。荧光发射是一种 随机过程,荧光的衰变属于单指数衰变过程,荧光的寿命一般为1 0 “s 。 溶液的荧光强度与该溶液的吸光程度及溶液中荧光物质的荧光量子产率有关: f = 2 1 3 昂,o 曲c ( 2 一1 ) 其中,占为摩尔吸光系数,昂为荧光量子产率,。为入射光强,6 为毛细管深度, c 为溶液中荧光物质浓度。由此可见,荧光强度和入射光强、荧光浓度成正比。因此可 用激光诱导荧光法检测样品的浓度。 荧光作为一种示踪粒子,反映了流体的流动情况,采用激光诱导荧光法,利用c c d 浙江大学硕士论文 可以观察流场,成为研究微流体过流特性的一种方法。 由于产生的荧光很弱,一般采用光电倍增管作为荧光检测器件。光电倍增管是探测 紫外辐射、可见光和近红外辐射的一种电真空器件。它将接收到的光辐射变成电子流, 然后经倍增放大,输出一个较大的电信号。执行光电变换的部分是光电阴极,简称光阴 极。进行倍增放大的部分是倍增系统。倍增系统通常由几个到十几个倍增极和一个阳极 组成。当光辐射入射到光阴极上时,光阴极吸收光予以后发射出一些电子,这些电子在 电场的作用下达到第一倍增极上,由此激发出几倍于入射电子数目的二次电子,完成一 次倍增。这些二次电子在电场作用下进一步打到第二倍增极上,产生更多的二次电子, 完成二次倍增。经过多次倍增以后,倍增的电子流由阳极收集。和半导体光敏器件相比, 光电倍增管对2 0 0 9 0 0 n m 光辐射有很好的响应。光电倍增管响应通常比半导体光敏器件 快得多,一般在几十n s 到l n s 。光电倍增管的增益可以从1 03 到1 0 8 连续可调,并且噪 声很低,因此光电倍增管适合于从紫外到近红外的弱光探测。 2 2d n a 测序仪的基本结构 2 2 1 荧光激发与检测结构 毛细管电泳中最常用的激光器是氩离子激光器,它主要有4 8 8 i 删和5 1 4 5 姗两个 输出波长,适用于大多数成熟的荧光标记试剂。荧光激发和收集光路通常设计成共焦光 路系统,以便尽可能高地激发荧光染料,尽可能高地收集激发的荧光信号,并尽可能低 的产生和收集背景信号。共焦光路分为两种:正交光路布局( 图2 2 ) 和同轴光路布局 e x c i 诅l i o nl i g h t 图2 2 正交光路布扁的激光共焦系统 浙江大学硕士论文 图2 3同轴光路布局的激光共焦系统 ( 图2 3 ) 。前者激发光路和荧光收集光路互相垂直,杂散光小,后者通过同一物镜激发 并收集荧光,采用二色镜分离荧光和反射光,结构简单,但杂散光比前者大,而且对二 色镜的分光性能要求高。 毛细管电泳的荧光检测泳分在柱检测和离柱检测两种方法,前者如图2 4 所示,简 单方便,只需剥去毛细管的外壁涂层( 聚酰亚胺) 即可。但由于激光在光路界面( 空气 管壁,样品管壁) 上的瑞利散射、反射及折射现象很严重,方向杂乱无章,因此背景 噪声较大,检测灵敏度受到限制。 图2 4 毛细管荧光在柱检测法及存在的不足 采用离柱检测并加鞘液池的方法可以有效消除空气管壁界面、样品,管壁界面上的 杂散光,如图2 5 所示,鞘液的成分与电泳缓冲液相同,在它们的界面上不存在光散射, 从而大大降低了背景信号,其缺点是结构复杂,成本高【1 4 l 。 浙江大学硕士论文 2 2 2 实验装置 w i n d o w 5 s a r n p l es t r e m 图2 5 毛细管电泳中的离柱检测和鞘液池结构 在我们应用的d n a 分析实验装置中,选择了同轴光路布局的激光共焦结构,在柱荧 光检测,因为荧光标记物采用溴化乙锭( e t h i d i u mb r o m i d e ,e b ) ,它在5 3 2 舳附近有 一个次激发峰,所以激光波长选择5 3 2 n m 。实验装置布局如图2 6 所示【1 5 】。 x 扩束镜。j, 图2 6 毛细管电泳的实验装置光路布局示意图 浙江大学硕士论文 由5 3 2 n m 激光器发射出来的激光由扩束系统扩束后,光束直径约为5 咖,由反射镜 l 反射,透过二色镜( 激光透射,荧光反射) 后到达反射镜2 ,反射镜2 将激光束以某 一角度反射至显微物镜,再由显微物镜将激光聚焦到毛细管的光学检测窗口。在毛细管 中电泳的d n a 片段标记有特定的荧光染料,在激光的激发下发射荧光,荧光由显微物镜 收集后变成平行光束,光束直径大约为1 5 m m ,通过反射镜2 后,由二色镜反射,经荧光 滤色片滤除激发光后,由会聚透镜聚焦,通过共焦小孔后到达光电倍增管。共焦小孔的 直径为5 0 0 岬,正确聚焦在毛细管检测窗口中心的激光所激发的荧光能通过共焦小孔, 迸入光电倍增管,而其它部分的荧光或杂散光将不能通过共焦小孔,大大减少了背景荧 光和杂散光i 光电倍增管的输出信号由信号放大电路放大,进入计算机,由高性能数据 采集卡完成模数( a d ) 转换,由计算机分析扫描结果。 高压电源的输出电压使用o 5 v 的直流电平控制,该电平由数据采集卡的d a 输出 功能实现,电泳电极为直径为o 5 m m 的铂丝,样品池、缓冲液池均采用离心管实现。 2 3d n a 图谱处理流程 d n a 图谱处理的目标是实现自动化,精确的d n a 排序。可以将图谱处理分成四个 部分【7 】:预处理、四色校正、后处理、碱基排序。本论文侧重于豫处理、四色校正、后 处理三个部分的研究。图2 7 为自主开发的g e l r e a d 分析软件处理流程图。 预处理 图2 7d n a 图谱处理流程 后处理 浙江大学硕士论文 2 3 1 预处理 预处理包括数据段选择,基线调整,噪声滤除,峰值识别。预处理在整个流程中具 有相当重要的作用,预处理的好坏直接关系到后面四色校正的效果。要做预处理必须了 解分析仪器的物理特性、染料的化学特性和荧光的光谱特性。下面具体介绍预处理: ( 1 ) 数据段选取。在四色荧光d n a 测序实验中,d n a 片段从毛细管端迁移到检 测窗口需要一定时间。因此电泳刚开始这段时间采集的数据没有包含峰信号,属于无用 数据。通过搜索峰开始出现的位置,选取该位置后的数据段作为分析数据。 ( 2 ) 基线调整。四种荧光信号具有不同的基线高度,而且每种荧光信号的基线高度 也会随着电泳的进行而变化,需要对每一种荧光信号做去除基线的处理。一般采用分段 调整基线:将每种颜色的荧光峰谱等分成若干段,求得每个数据段的最小值,由每对相 邻数据段的两个最小值求得基线线段,将该段原始数据减去该基线值,便可去除背景基 线。 ( 3 ) 噪声滤除。原始数据包含了来自电泳仪、探测器、背景环境的高频噪声,还有 背景亮度变化的低频噪声。对原始信号做高斯滤波,既将高斯函数与信号做卷积,可以 滤除高频噪声。将信号做快速傅立叶变换后,在频域用通带滤波,可以同时滤除高频噪 声和低频噪声。另外。先对信号做中值滤波可以滤除脉冲噪声。中值滤波和高斯滤波的 窗口大小要合适,窗口太大则会损失信号的细节信息。 ( 4 ) 峰值识别。对于后续的四色校正处理,只需要荧光峰值附近的采样数据,而其 它峰谷和噪声等属于冗余数据。用峰值数据估算串扰矩阵可以提高估算精度,并且大大 减少了待处理的数据量,有利于实现高速的d n a 测序。 2 3 2 四色校正 对于四色荧光系统,四色校正是很重要的一步,因为采集到的每种颜色荧光信号都 受到其它三种颜色荧光信号的串扰,导致荧光信号一定程度的混杂。四色校正就是确定 一个串扰矩阵,对原始数据做矩阵转换,恢复出准确的四色荧光数据。串扰矩阵的算法 主要有峰值法,斜率法,四维空间聚类法。 浙江大学硕士论文 2 3 3 后处理 后处理主要包括去卷积、迁移率修正、归一化。后处理主要作用是消除峰的重叠, 提高四色峰的分辨率,为后续的碱基排序作好准备。 ( 1 ) 去卷积。在d n a 测序过程中,电泳分离使峰谱发生展宽效应。而且随着电泳 的进行,展宽效应愈发严重,降低了峰的分辨率。峰分辨率的下降将会影响到后续的碱 基排序的精度。展宽效应等效于与高斯函数作卷积。去卷积相当于展宽效应的逆过程, 因此可以减少峰宽,提高峰的分辨率。 ( 2 ) 迁移率校正。在四色荧光d n a 测序中,标志d n a 片段的染料将会影响d n a 片段的电泳迁移速率。染料不同,迁移率的浮动便不同。例如两个相同大小的d n a 片 段,由于附上了不同染料,导致两者的电泳速率存在差异,到达检测窗口的时间也就不 一样。迁移率的漂移会使四色峰间存在不同程度的重叠。迁移率校正的目标是消除四色 峰问重叠,使四个通道的峰分布相对均匀。 ( 3 ) 归一化。四种荧光信号的平均高度存在差异,这种差异是由探测器、染料、激 发光源光谱特性等引起的。归一化处理使得四种荧光的峰具有相同高度,便于分析。 2 3 4 碱基排序 碱基排序的目的是将预处理后的d n a 图谱转化成碱基序列。四色荧光图谱中一种 颜色的峰代表一个相应的碱基,因此四色峰位置识别是关键步骤。代表碱基的峰值识别 是一个复杂的过程,峰高度的差异、噪声、峰重叠、劣峰等因索造成峰值识别的困难。 碱基排序是根据峰值特征来识别的【1 6 】。峰的特征包括:峰的间距,峰的高度,峰的 形状,峰的宽度,峰所围的面积等等。峰的间距是个连续值,随着电泳进行。峰间距逐 渐增大到极大值,然后逐渐减小。实际应用中,可以采用峰的间距特征,峰的高度特征, 峰的宽度特征来识别峰。识别出所有峰后,便可以在各个峰的位置处赋予相应碱基,再 按循序输出碱基序列。 浙江大学硕士论文 第三章预处理 在一四色荧光诱导d n a 测序中,原始信号在碱基排序前需要经过一系列的处理。 处理后的d n a 图谱具有标准峰谱格式:包含四个通道的荧光信号,每个通道为一系列 时间点上的荧光浓度值,组成四个通道色峰谱图,不同通道的峰谱由不同颜色标记。每 个峰代表一个碱基,按不同颜色的峰出现的次序得到相应的碱基序列。原始信号处理的 好坏,直接关系到碱基排序的正确率。预处理是d n a 图谱处理的第一步,包含数据段 选取、基线调整、噪声滤除、峰值识别四个部分。本章具体分析预处理的模型及算法, 和相应的处理结果。 3 。1 数据段选取 d n a 测序中,当样品加载并接通电泳装置时,探测器便开始采集荧光信号。d n a 片断从毛细管的一端迁移到另一端的检测窗口需要一定时间,因此电泳刚开始这段时间 采集的数据属于无用信息。在基于引物的荧光测序中,部分没有附于d 1 q a 片断上的引 物最先到达检测窗口,得到引物峰。引物峰通常是最高最宽的峰,很容易识别。引物峰 之后便是d n a 碱基序列信号。 图3 1 染料终止法测序得到的局部原始峰谱图 数据段选取便是去除引物峰前的这段冗余数据,保留后面的有用信号,这样不但可 以减少后续的数据处理量,而且有利于提高碱基排序的正确率。通过搜索每个通道上的 最大最宽峰,找到引物峰。然后找到引物峰之后的最小值位置点,即为引物峰峰谷位置, 删除该点之前的数据段,完成数据段选取 w 。 塑望奎兰堡主丝苎 这种算法不适用于链终止法测序,因为数据段中没有出现引物峰。图3 1 为链终止 法测序得到的局部原始峰谱图,初始数据段为背景基线,没有峰出现。通过搜索峰开始 出现的位置,去除该位置前的数据段,完成数据段选取。 3 2 基线调整 原始峰谱图中包含了背景信号,背景信号主要来自于凝胶体和玻璃散射的荧光。这 种背景信号强度随着测序的进行发生缓慢的变化。并且不同荧光的散射光强度不同,导 致四种荧光信号的基线不相等( 如图3 2 所示) ,需要对每一种荧光信号做基线调整的处 理,使得四色荧光信号具有相同的基线高度。下面介绍基线调整的两种算法:分段法与 柱

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论