已阅读5页,还剩58页未读, 继续免费阅读
(控制理论与控制工程专业论文)基因芯片图像分析系统研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 基因j 芯片是人类基因组计划j l r 暖4 0 实施后发展起来的一项基于基因表达和 基因功能研究的革命性技术,而芯片图像分析是基因芯片技术的重要组成部 分,其准确性和可靠性直接关系到基因- 心h - - 片的应用效果。 本文根据当前基因芯片图像分析领域的发展现状和实际项目需求,结合 数字图像处理知识,针对现有:占片图像处理系统存在的不足,对基因芯片图 像分析算法进行了较为深入的研究和设计,并开发出了一套适合项目实际需 要的基因芯片图像分析系统。 滤波是芯片图像分析的第一步,本文采用数学形态学和改进的梯度倒数 加权算法分别对不同污染程度的j 签片图像进行了滤波处理,并在数学形态学 滤波环节设计了一个结构元素,使腐蚀操作只针对那些不是背景点的像素点, 膨胀操作只针对像素值为背景值的点,从而有效地解决了传统的数学形态学 滤波容易造成信号点光密度变化过大的现象:在滤波的基础上,针对所用芯 片图像点阵密度较低、信号点排列呈准直线的特性,采用水平投影和垂直投 影相结合的方法完成了图像的自动网格化,在信号点和探针之间建立了一一 对应的关系:针对目前常用的芯片图像信号点定位算法的不足,提出了基于 轮廓提取的信号点边缘检测定位算法,实现了信号点内部区域和外部区域的 精确分割;最后,以网格化步骤确定的矩形网格作为信号点的局部区域,采 用邻域背景强度法求出各个信号点的背景强度,同时利用种子区域生长算法 提取出信号点边缘内所有像素点的亮度和,以各个信号点的背景强度为阈值 筛选出真实的杂交信号,并运用平均值法完成了信号点荧光强度的准确计算。 本文提出的水平投影和垂直投影相结合的芯片图像网格化算法,解决了 传统的网格化方法需要输入大量j 芷= 片参数信息和人工校正的缺点,无需任何 参数即可自动、精确地确定芯片图像各个信号点的大致区域及其与探针的对 应关系,在低密度的基因芯片图像处理中具有一定的应用价值。 关键词基因芯片,图像分析,网格化,轮廓提取 a b s t r a c t g e n ec h i pi sar e v o l u t i o n a r yt e c h n o l o g yb a s e do nt h er e s e a r c ho fg e n e e x p r e s s i o na n dg e n ef u n c t i o n ,i tw a sd e v e l o p e da f t e rt h ei m p l e m e n to fh u m a n g e n o m ep r o j e c t i m a g ea n a l y s i si sa ni m p o r t a n ta s p e c to fg e n ec h i pt e c h n o l o g y , i t s a c c u r a c ya n dr e l i a b i l i t yd i r e c t l ya f f e c tt h eg e n ec h i pa p p l i c a t i o nr e s u l t s a c c o r d i n gt ot h ed e v e l o p m e n ts t a t u so fg e n ec h i pi m a g ea n a l y s i sa n dt h e a c t u a ln e e d so fp r o j e c t ,a i m i n ga tt h ed e f i c i e n c i e so fe x i s t i n gg e n ec h i pi m a g e p r o c e s s i n gs y s t e m ,t h i sp a p e rc a r r i e so u tad e e p l ys t u d yt ot h eg e n ec h i pi m a g e a n a l y s i sa l g o r i t h mb a s e do nd i g i t a li m a g ep r o c e s s i n gk n o w l e d g e ,a n dd e v e l o p sa g e n ec h i pi m a g ea n a l y s i ss y s t e mw h i c hs u i t st h ee f f e c t i v ed e m a n do f p r o j e c t f i l t e ri st h ef i r s t s t e p o f g e n ec h i pi m a g ea n a l y s i s ,t h ep a p e r u s e s m a t h e m a t i c a lm o r p h o l o g ya n di m p r o v e dg r a d i e n tr e c i p r o c a lw e i g h t i n ga l g o r i t h m s e p a r a t e l yt o r e m o v et h ed i f f e r e n tp o l l u t i o nd e g r e eo fg e n ec h i pi m a g en o i s e ; s e c o n d l y ,b a s e do nt h ec h a r a c t e r i s t i co fg e n ec h i pi m a g e ,u s e st h ec o m b i n a t i o no f h o r i z o n t a l p r o j e c t i o n a n dv e r t i c a l p r o j e c t i o n ,f i n i s h e s t h eg e n ec h i p i m a g e s a u t o m a t i cg r i da n de s t a b l i s h e st h ec o r r e s p o n d i n gr e l a t i o n s h i pb e t w e e np r o b ea n d t a r g e ts p o t ;t h e n ,i nv i e w i n go ft h ei n s u f f i c i e n c yo fp r e s e n tc o m m o n l yu s e ds p o t l o c a l i z a t i o na l g o r i t h m ,a d v a n c e st ou s ec o n t o u re x t r a c t i o nt ol o c a l i z ee a c hs p o t s p o s i t i o na n ds e g m e n ti t si n t e r i o rr e g i o n a n de x t e r i o rr e g i o np r e c i s e l y ;f i n a l l y , m a k e st h er e c t a n g l ed e t e r m i n e db yg r i d d i n gs t e pa st h es p o t sl o c a lb a c k g r o u n d a r e a ,u s e st h en e i g h b o r h o o db a c k g r o u n di n t e n s i t ym e t h o dt oe x t r a c te a c hs p o t s b a c k g r o u n di n t e n s i t y ,t h e n w i t h d r a w se a c h s p o t sb r i g h t n e s s w i t h i nt h ee d g e c o n t o u rb ys e e dr e g i o ng r o w t ha l g o r i t h m ,t a k e se a c hs p o t sb a c k g r o u n di n t e n s i t ya s i t st h r e s h o l dv a l u et os e l e c tt h er e a l h y b r i ds i g n a l s ,a n dc o m p l e t e st h es p o t f l u o r e s c e n c ei n t e n s i t ya c c u r a t ec o m p u t a t i o nb yt h em e a nv a l u em e t h o d t h eg r i da l g o r i t h mp r o p o s e db yt h i sa r t i c l e ,c a nd e t e r m i n et h ea p p r o x i m a t e r e g i o no fe a c hs p o ta n di t sp r o b ec o r r e s p o n d i n gr e l a t i o n sw i t h o u ta n yp a r a m e t e r , s o l v e st h et r a d i t i o n a l g r i dm e t h o d s i n s u f f i c i e n c y , w h i c hn e e dt oi n p u tm a n y p a r a m e t e ri n f o r m a t i o na n dm a n u a lc o r r e c t i o n s o t h i s a l g o r i t h m h a sc e r t a i n a p p l i c a t i o nv a l u ei nt h el o wd e n s i t yg e n ec h i pi m a g ep r o c e s s i n g k e yw o r d s g e n ec h i p ,i m a g ea n a l y s i s ,g r i d d i n g ,c o n t o u re x t r a c t i o n i i 原创性声明 本人声明,所呈交的学位论文是本人在导师指导下进行的研究工作及取 得的研究成果。尽我所知,除了论文中特别加以标注和致谢的地方外,论文 中不包含其他人已经发表或撰写过的研究成果,也不包含为获得中南大学或 其它单位的学位或证书而使用过的材料。与我共同工作的同志对本研究所作 的贡献均已在论文中作了明确的说明。 作者签名 关于学位论文使用授权说明 本人了解中南大学有关保留、使用学位论文的规定,即:学校有权保留 学位论文,允许学位论文被查阅和借阅;学校可以公布学位论文的全部或部 分内容,可以采用复印、缩印或其它手段保存学位论文;学校可根据国家或 湖南省有关部门规定送交学位论文。 作者签名:导师签名丛垦星日期:丛年羔月旦日 中南大学硕:l 学位论文第一章绪论 第一章绪论 基因芯片技术是生命科学进入“后基因组时代”后,在如何利用已知的基因组序列来 发现众多基因在生命过程中所担负的作用的基础上发展起来的。它是分子生物学、生命科 学、统计学、计算机科学等学科交叉结合而形成的一项全新技术,其关键是将众多的d n a 分子信息缩小到很小的芯片上,并与待测样本杂交,利用光电技术对杂交信号进行检测, 最后用计算机加以分析。基因芯片所担负的科学任务包括:识别共同表达基因;发现有相 同表达模式的样本或基因群组;识别在不同生物学个体( 如正常人和病人,不同肿瘤类型 的癌症患者等) 上有较大表达模式差异的基因;了解基因在不同外界条件下的行为模式; 以及近两年出现的结合自动控制系统的方法根据d n a 序列对生物体的系统结构、系统行 为进行建模和设计等”j 。 1 1 基因芯片概述 1 1 1 基因芯片定义及分类 基因芯片( g e n ec h i p ) ,又称d n a 芯片( d n ac h i p ) 、d n a 微阵列( d n a m i c r o a r r a y ) , 是由大量d n a 分子或寡核苷酸片断密集排列所形成的探针阵列。它能对大量遗传信息实 现同时、快速、自动地采集、传输和处理分析,并给出相应的检测、诊断结果,是生物芯 片( b i o c h i p ) 中应用较为广泛、技术较成熟的一个分支。 基因芯片的原理是根据碱基配对原则,把已知序列的d n a 分子或寡核苷酸片段作为 探针固定在载体( 如玻片、尼龙膜、硅片等) 上,然后将经过荧光标记的样本目标d n a 或r n a 与探针杂交,并对杂交后的基因芯片荧光图像进行检测和分析,提取出各个信号 点荧光强度数据,通过荧光强度的有无和强弱判断待测样本中隐含的生物学信息( 2 ,3 】。例如, 要检测一个人是否为乙型肝炎患者,就可以将乙肝病毒d n a 分子序列设计合成为寡核苷 酸探针,固定于载体上,制成d n a 芯片,待测对象的血清经过处理后与芯片发生杂交反 应,如果血清中含有乙肝病毒d n a ,就会产生杂交信号,通过检测杂交信号,即可诊断出 待测对象是否患有乙型肝炎。 根据制备方法和应用范围的不同,可以将基因芯片分为许多不同的种类。以载体材料 区分,可分为玻璃芯片、尼龙膜芯片、硅芯片和陶瓷芯片等;以制作方法区分,可分为原 位合成芯片、直接点样芯片等;以芯片应用区分,可分为表达谱芯片、诊断芯片、分型芯 片等;以探针结构区分,可分为c d n a 芯片和寡核苷酸芯片。 中南大学硕士学位论文第一章绪论 1 1 2 基因芯片技术流程 基因芯片的作用是提取样本隐含的生物信息,因此基因芯片技术需要解决提取什么信 息、如何提取信息及如何处理和利用这些信息等问题。对于一个具体的基因芯片应用,首 先是根据实际需要进行芯片设计,将设计的结果存放在数据库中,然后根据芯片设计结果 制各芯片,与经过处理和标记的待测样本进行杂交,采集和处理杂交完成后的芯片荧光图 像,并结合数据库中的芯片描述( 各探针的序列和探针在芯片上的位置) 确定样本的生物 信息学结果。由此可见,基因芯片技术流程主要包括5 个部分:芯片设计和制备、样品制 备与标记、杂交、杂交图像检测与分析、数据分析等,如图1 - 1 所示。其中与信息处理相 关的工作是芯片设计、图像检测与分析、数据分析等。 d n a 或。d n a 克隆 病人 对照 删“增 触板碴 i 觚z 玻片圃。 、 逆转录荧m r 光n 话a 记 图1 - 1 基因芯片技术示意图 芯片设计是根据实际问题选择合适的基因序列设计探针阵列,确定每个探针在芯片上 的分布,产生芯片制各文件,并使所设计的芯片能够尽可能多地提取样本生物信息。它是 基因芯片技术的一个关键环节,一块芯片是否实用,很大程度上取决于芯片设计的结果。 o 甓 黉 中南大学硕士学位论文第一章绪论 芯片设计完成后,采用物理和化学的方法将设计好d n a 分子序列探针固化于载体表 面,形成致密、有序的探针微阵列,此过程即为芯片制备。基因芯片通常有两种制备方法: 原位合成法和合成后交联法。原位合成法利用微加工和原位固相合成技术在载体上直接合 成所需的d n a 探针,其优点在于可以发挥微加工技术的优势,是目前制造高密度基因芯 片最为成功的方法。合成后交联法比较简单,首先用常规方法合成探针,然后利用手工或 自动点样装置将其点在经特殊处理的载体上,通常用于疾病诊断、病原体检测以及其它特 殊要求的中低密度芯片制备。制备芯片的载体多选择玻片、尼龙膜、硅片等,目前应用较 为广泛的是玻片,它具有表面无渗透、加样量低、制备过程中易除去非特异性杂交产物、 可以平行分析样本等特点m 】。 由于待测样本是复杂的生物分子混合体,除少数特殊样本外,其余的样本在与芯片探 针杂交之前必须进行分离、扩增和标记。样本来源、基因含量、检测方法和目的不同,样 本基因分离、扩增和标记方法也各异。近年来许多研究机构通常都是采用高度集成的微型 样本处理系统进行基因分离和扩增。样本目的基因的标记方法一般有荧光标记法和同位素 标记法两种,前者常用作以玻片为载体的芯片标记,后者则常用作以尼龙膜为载体的芯片 标记。 样本与芯片探针杂交是基因芯片技术中除d n a 阵列设计外最重要的一步。以采用玻 片载体的芯片为例,整个杂交过程为:将标记好的待测样本经高速离心机去除一切沉淀物 后用移液器滴在芯片的中央,在d n a 阵列部位上方放置一块盖玻片,然后用塑料膜包起 来放到水溶液中,使样本和芯片在一定的实验条件下发生杂交反应,反应完成后在室温下 清洗芯片,以去除剩余的探针【6 】。用于优化杂交的实验条件如反应体系中的盐浓度、杂交 时间、温度等因d n a 片断的长短和芯片用途的不同而异。若用于基因表达检测,杂交时 需要高盐浓度、高样本浓度、低温和长时间( 通常要求过夜) ,但严谨性要求较低,这样 的杂交条件有利于增加检测的特异性和低拷贝基因的检测灵敏度:若用于突变检测,因为 要鉴别出d n a 分子的单碱基错配,故需要在短时间( 几个小时) 、低盐、高温条件下高严 谨杂交1 7j 。同时,为了提高杂交反应的效率和特异性,必须将核酸分子杂交过程的温度严 格控制在设定的范围之内。 杂交图像的检测和分析是整个基因芯片技术中不可缺少的部分,其可靠性和准确性直 接关系到芯片的应用效果。杂交图像检测是待测样本和芯片杂交完毕后利用检测手段采集 芯片的杂交图像。目前基因芯片杂交图像的检测手段大致可分为两种:c c d 成像检测和激 光共聚焦扫描检测,本文采用激光共聚焦扫描检测方案。芯片杂交图像分析是利用数字图 像处理技术对检测到的图像进行一系列处理后,测量出芯片阵列中各个杂交信号点的荧光 强度,为数据分析提供数据支撑。在实验过程中,芯片图像上每个信号点的位置和大小都 可能发生变化,从而影响到样本的数据解释,所以在芯片图像分析过程中要解决信号点位 置的确定、背景信号和杂交信号的区分、背景消除等关键问题。芯片图像分析对整个基因 芯片实验、研究和应用等都会产生重大的影响,因此已经成为生物信息学的研究热点之一。 中南大学硕士学位论文第一章绪论 基因芯片数据分析是将图像分析过程中提取出的各个信号点荧光强度数据,结合芯片 探针的d n a 序列,运用各种统计学的方法进行分析、判断和推理。只有通过数据分析, 才能将索然无味的杂交信号荧光强度数据转换为样本隐含的生物学信息,如细胞不同时期 基因表达的变化、正常组织和病变组织d n a 的变化、用药前后d n a 的变化、基因突变等, 为基因表达、功能研究、疾病诊断、药物筛选和新药开发等提供相应的理论和实验依据。 芯片的类型不同,数据分析的目的和方法也不尽相同。同时,芯片数据分析受多种因素的 影响,例如,如同一样本在不同温度下与芯片探针进行杂交,所得到的信号点荧光强度就 有所不同,错配点的位置不同,信号点的荧光强度也会发生变化等。 由于基因芯片在一块片基上集成了大量的探针阵列,且每一个探针都与一个基因或一 段核酸序列相对应,同时芯片的制作目的、杂交结果等均要通过芯片图像反应出来,因此 在芯片图像检测和分析、数据分析过程中必然会产生大量关系复杂的数据,需要一个专门 的系统来进行处理和分析,这个系统应该包括芯片图像分析、数据分析、结果显示与存储 等功能。 1 1 3 基因芯片应用 基因芯片自1 9 9 6 年诞生以来,引起了学术界和工业界的广泛关注,它使过去生物学 中复杂的实验变得十分简单,而检测的数据量、速度和精度却大大增加。目前,基因芯片 以其快速、高通量、高集成度、高灵敏度的优点,给生物医学、环境卫生、农林和畜牧业、 司法等众多研究领域带来了革新性的影响f 8 l 。它的主要贡献有以下几个方面: ( 1 ) d n a 测序 这是基因芯片技术最早的用途。通过将样本与一组已知序列的寡核苷酸探针杂交,得 到特定的杂交图谱,进而即可重建待测样本的d n a 序列,此方法被称为基因芯片杂交测 序技术p 1 。它为大规模确定d n a 序列提供了方便、快捷、准确的手段。m u r kc h e e 等1 0 l 就用含1 3 5 0 0 0 个寡核苷酸探针的芯片阵列测定了全长为1 6 6 k b 的人类线粒体基因组序 列,准确率达9 9 。 ( 2 ) 基因突变检测及多态性分析 许多遗传性疾病及肿瘤的产生都是因为相关的疾病诱发基因发生了表达异常或者突 变,而基因芯片技术能检测出多个基因乃至整个基因组的突变,并能准确地确定突变位点 和突变类型,为遗传疾病诊断、肿瘤发病机制及基因功能研究提供了一种重要的方法。h a c i a 等i i l j 采用含有9 6 0 0 0 个寡核苷酸探针的基因芯片研究遗传性乳腺癌和卵巢癌易感基因 b r a ci 外显子1 1 位点可能发生的突变,结果在1 5 例患者样本中检测到1 4 例患者存在不 同的突变( 包括点突变、插入、缺失等) ,而在2 0 个对照样本中均没出现假阳性,同时还 检测出了8 个单核苷酸多态( s n p ) 。 ( 3 ) 基因表达谱分析 中南火学硕士学位论文第一章绪论 功能基因组学研究的是在特定组织中、发育的不同阶段或者是疾病的不同时期基因表 达的情况,它要求在同一时刻获得多个分子的基因表达结果。另外,任何一个细胞都会有 很多个基因在表达,细胞间基因表达的差异往往能反映出这些细胞是正常发育还是在朝病 变方向发展。基因芯片具有高度的敏感性和特异性,一次杂交便可自动、快速地同时检测 成千上万个基因的表达,为细胞基因表达谱的研究提供了一种全新的方法,其突出的优点 是利用相对简单的技术一次性就可以测得许多基因的m r n a 1 2 】。 ( 4 ) 临床诊断 目前临床疾病诊断技术存在所需时间周期较长、检查不全面、临床经验相关、诊断准 确性低等缺点。基因芯片技术作为一种先进的、大规模、高通量检测技术,能快速简便地 检测多种疾病,特别是在感染性疾病、遗传性疾病和肿瘤的f 临床诊断方面具有无可比拟的 优势。与传统方法相比,它可以在一块芯片上同时对多个病人进行疾病检测,无需肌体免 疫应答反应,能及早诊断,且待测样本用量小,灵敏度和可靠性高,检测成本低廉,自动 化程度高。若将其应用于临床,不仅会加快疾病诊断的速度,降低疾病的误诊率,同时还 有利于医生综合地了解病人的肌体状况,快速地做出有效的疾病治疗方案。 ( 5 ) 个体化治疗 药物反应个体差异是临床治疗中极其常见的现象,如果用药不当将导致严重的副作用 或药效不足而无法达到治疗目的。药物相互作用是临床药物治疗中又一常见的现象,由此 而产生的不利于健康的影响与危害主要表现在:或者可以造成某种或某些药物的疗效大大 降低或使其完全失效,并因此而延误治疗;或者可以造成某种或某些药物的毒性大大增加, 有时甚至会造成生命危险。利用基因芯片技术可以检测出病人用药前后组织细胞基因表达 的变化情况,找出靶基因以及受靶基因调控的基因是否恢复正常状态,从而对药物进行筛 选,给不同的病人使用不同的药物和剂量,在临床治疗中实现量体裁衣式的个体化科学用 药,以达到最佳的治疗效果。 ( 6 ) 新药开发 在基因功能研究基础上,特别是确立了与某些疾病相关的基因表达变化情况后,将这 些具有特异性的基因片段固定在载体上制成基因芯片,并利用基因芯片技术研究病变组织 和正常组织在药物刺激下这些基因的表达变化情况,就能判断出药物的效果、毒副作用等, 从而加快药品的开发速度。目前,基因芯片应用于药物筛选、新药开发等领域已经成为众 多医药公司和生物公司致力研究的一个热点,它可以省略大量动物试验,节约资金,为药 物研究和开发注入了新的生机和活力。例如,t u l a r i k 公司在开发一种新药时,运用基因芯 片技术发现这种药物能导致细胞组织d n a 发生不良突 避免了上百万美元的损失【1 3 】。 ( 7 ) 农林和环保应用 农林方面,用基因芯片技术平行检测各种外界因素 素对植物基因表达的影响、环境因素对植物基因表达的 该药的研究,从而 的影响,如植物激 基因功能分析,对 中南大学硕士学位论文第一章绪论 有重要经济价值的农作物、水果、蔬菜等进行大规模高通量的研究和筛选,选择高产量、 抗病毒、抗干旱、抗冷冻的优良基因经杂交改良后,培育出具有高技术含量、高附加值的 转基因食品。在环保方面,基因芯片可高效地探测到由微生物或有机物引起的污染,还能 帮助研究人员找到并合成具有解毒和消化污染物功能的天然酶基因。这种对环境友好的基 因一旦被发现,研究人员则可以把它们转入普通的细菌中,然后用这种转基因细菌清理被 污染的河流或土壤。 鉴于基因芯片的巨大应用前景,国内外许多研究机构和公司都积极从事该项技术的研 究和开发,申请专利,争取抢占市场。继开展人类基因组计划以后,美国政府于1 9 9 8 年 正式启动基因芯片计划,美国国立卫生研究院、能源部、商业部、司法部、国防部、中央 情报局、斯坦福大学、麻省理工学院及部分国立实验室等均参与了此项目的研究和开发。 欧洲和日本的一些科研机构也正在从事该领域的研究工作。除此之外,世界大型制药公司 对基因芯片技术用于基因多态性、疾病相关性、基因药物开发和药物筛选等领域表现出了 极大的兴趣,并建立了自己的芯片设备和技术【l “。目前,国际上已经有上千家从事基因芯 片研究的公司,这些公司的芯片技术各具特色,应用的目的和领域也不尽相同【l ”。在国内, 虽然基因芯片技术研究起步略晚,但许多科研机构和中心已经纷纷投入到基因芯片的研 究、开发和应用,并取得了较大的进展,研制出了一系列具有实用意义的d n a 芯片,部 分产品已投放市场【i “。国内从事基因芯片的商业机构大概有3 0 多家,成果较为显著的有 联合基因j 博奥、超群等。 尽管基因芯片技术在短短1 0 年内取得了长足的发展,得到世人的瞩目,但仍然面临 着许多挑战,主要表现在:芯片设计的优化、制备技术和杂交实验技术的提高、杂交图像 的检测与分析技术的统一、基因芯片和其它生物芯片的有机结合、实验结果数据库的建立 及资源共享等。虽然基因芯片技术还存在这样那样的问题,随着其在各个应用领域的推广, 以及各种相关技术的不断发展和渗透,基因芯片必将展现出更加广阔的应用前景。 1 2 基因芯片图像分析及国内外研究现状 基因芯片图像分析是检测出待测样本与基因芯片的杂交图谱后,将其转化为数字图 像,并根据芯片图像的特点,结合数字图像处理技术,设计合适的算法对其进行一系列的 处理和分析,提取出各个信号点的荧光强度,以便在芯片数据分析步骤根据这些荧光强度 数据,利用特定的统计学和生物学分析方法对样本进行基因差异表达、功能聚类、突变、 多态性分析等。芯片的类型、应用领域不同,图像分析的方法也不同。同时,在基因芯片 图像上,不仅存在杂交信号,还存在大量的噪声干扰,且每个信号点都与一段特定的d n a 分子序列相对应,信号点的亮度信息也是杂交信号与背景干扰的总和,因此芯片图像分析 要解决的问题包括图像平滑、信号点和探针对应关系的建立、背景区域和信号点区域的分 割、背景消除、荧光强度计算等。而且,基因芯片图像分析要在保证准确性的基础上,为 中南大学硕士学位论文 第一章绪论 研究人员提供方便、快捷的分析模式。 基因芯片图像分析是基因芯片技术中不可缺少的环节,芯片图像分析的好坏将直接影 响到其推广应用。例如,对于疾病诊断的芯片而言,如果在图像分析环节提取的是错误的 荧光强度信息或者信号点和探针之间建立了错误的对应关系,那么就有能在数据分析环节 将发生突变的致病基因误诊为没有发生突变,导致病人不能得到及时治疗,从而阻碍芯片 的应用。 由于芯片分析的重要性,很多国际会议将基因芯片图像分析的方法研究作为重点内容 加以讨论,美国的m a t h w o r k s 公司还专门推出了在其m a t l a b 软件环境下使用的基因芯 片图像分析工具包。此外,许多研究机构和公司都开发出了大量的基因芯片图像处理分析 软件,部分软件如表1 1 所示。 表1 1 部分基因芯片图像分析软件的功能与特点 然而,这些图像分析软件普遍存在自动化水平较低、准确性差等缺点。例如,在对芯 片图像进行网格化时,大部分软件都需要事先设定信号点行、列之间的间距、图像中点阵 的个数、点阵之间的间距、图像中阵列的整体位置、第一个信号点的起始位置等,网格化 的准确性和效率都比较低;而在信号点定位环节,很多软件都是根据信号点的几何形状, 提供一种或几种方法对芯片图像进行分割来实现信号点的定位,这些方法有固定圆形模板 匹配定位法、直径可变圆形模板匹配定位法、自适应形状分割法、直方图分割法等,如表 1 2 所示,但是到目前为止还没有报道对这些方法进行比较和性能评估,因此何种方法适 用于何种基因芯片图像分析还需要进一步的研究。并且,这些软件通用性差,部分商用软 件价格极其昂贵,一般都是与其基因芯片研究设备配套使用,对于点阵比较规则且密度较 高的芯片图像有较好的处理效果1 1 7 j 。 中南大学硕士学位论文第一章绪论 表1 - 2 基因芯片信号点定位算法的软件应用 方法软件 固定圆形模板匹配法 直径可变圆形模板匹配法 自适应形状分割法 直方图分割法 s c a n a l y z e ,g e n e p i x “,q u a n t a r r a y “ s c a n a l y z e ,g e n e p i x “,q u a n t a r r a y “,s p o t s p o t q u a n t a r r a y “ 对于根据自身研究需要而开发的不同用途或者低密度的芯片,上述的图像分析软件并 不一定能获得较好的处理效果,甚至完全不支持此类芯片杂交图像的处理和分析,而且针 对不同的应用领域,芯片图像的处理、数据计算、数据分析的要求也各不相同。一般情况 下,各个科研机构都是根据自身芯片的应用目的、点阵密度等特点开发出自己的处理系统。 然而,这些处理系统普遍存在的问题就是图像分析和数据分析的自动化水平较低,其中的 一些步骤如网格化和信号点定位仍需人工干预,这不但降低了研究人员的工作效率,图像 分析的准确性也很难得到保证。因此,建立全自动、准确的图像分析分析方法,是基因芯 片图像分析的关键问题,它的成功解决将极大地提高芯片图像分析的准确性和效率,为基 因芯片的广泛应用奠定良好的基础。随着基因芯片技术的不断发展壮大,如何借助计算机、 模式识别和数据挖掘技术对芯片图像进行信息挖掘已经成为生物信息学研究的热点之一, 引起了广泛的重视,不过到目前为止还没有一种“标准”的方法用于基因芯片图像的分析 和信息提取。 1 3 课题来源及研究内容 本课题来源于中南大学湘雅医学院某研究所的国家自然科学基金重点项目( n o 3 0 1 3 0 2 1 0 ) ,主要利用数字图像处理技术和计算机技术对杂交后的基因芯片荧光图像进行 处理,提取出各个信号点的荧光强度信息,为结合探针信息对样本进行基因分型提供必要 的数据支撑。 由于实验过程中采用的基因芯片是根据研究需要而自行设计的,点样密度较低,点阵 排列也不是很规则。如前所述,不同公司开发的基因芯片图像分析软件一般都是与其基因 芯片研究设备配套使用,通用性差,若将这些软件用于本文的基因芯片图像分析,准确性 和可靠性都不能得到保证。虽然项目已经有了一套分析系统,但该分析软件在提取信号点 亮度之前,必须输入芯片上信号点的行数和列数,然后根据输入的行数和列数采用网格线 划分法和固定直径圆形模板匹配算法相结合对信号点进行定位,基本上每次定位都有很大 的偏差,甚至会出现信号点完全不在模板内的情况,此时需要人工干预进行校正。这些在 定位过程中可能出现的偏差和人为因素都会影响到后续信号点荧光强度计算的准确性和 精度,进而导致生物信息学分析的偏差甚至错误,且该软件还不能直观地显示分析的结果。 中南大学硕:i 二学位论文第一章绪论 本文的研究目的是根据所用基因芯片图像的特点,设计相应的图像分析算法,实现对 芯片杂交图像信号点荧光强度的准确提取,同时结合项目原有芯片图像分析软件的不足一 一不能实现信号点的全自动定位且定位不准确、数据提取存在较大误差、不能显示分析结 果等,并开发出算法更优、精度更高、能对芯片信号点自动识别的基因芯片图像分析系统。 因此,本文的研究工作主要有以下几个方面的内容: ( 1 ) 基因芯片图像特点分析及方案设计。通过分析本研究所用的基因芯片图像特点, 结合项目的实际需要和现有的芯片图像分析算法的不足,确定本文基因芯片图像分析的步 骤及方案: ( 2 ) 基因芯片图像分析算法研究。根据方案设计的结果,对基因芯片图像分析的具 体算法进行深入的研究和探讨。首先是图像的预处理,本文分析了芯片图像中存在的噪声 模型以及传统的滤波算法处理这些噪声的局限性,提出对大部分噪声分布比较均匀且没有 局部严重污染的芯片图像采用数学形态学滤波方法,对于少量存在局部大块噪声的芯片图 像则采用文中改进的梯度倒数加权算法进行滤波;在滤波基础上,结合所用芯片的特点、 制备工艺精度等因素的影响,利用投影算法完成了芯片图像的全自动网格化,确定了各个 信号点的大致区域;信号点定位环节,根据网格化确定的信号点局部区域和芯片图像信号 点与背景连接处存在灰度突变的特点,采用基于轮廓提取的信号点边缘检测定位算法实现 了各个信号点内部区域和背景区域的精确分割;最后,根据信号点的边缘提取出了各个信 号点的亮度,并运用邻域背景强度法消除了背景的影响,完成了信号点荧光强度的计算; ( 3 ) 软件开发。基于以上芯片图像分析的要求,采用v i s u a lc + + n e t 编写一个基因芯 片图像分析系统。该系统能够对基因芯片图像实现自动、快速的处理和分析,并以可视化 的形式给出芯片图像包含的数据信息和数据分析结果。 1 4 论文的结构安排 本文一共分五章。第一章为绪论,对基因芯片的定义、分类、技术流程、应用及国内 外研究现状做了简要的介绍,并阐明了本文的研究目的和研究内容;第二章根据本文所用 基因芯片图像的特点和图像分析的最终目的,设计出芯片图像分析的总体技术方案,并介 绍了各个部分具体的方案选择;第三章着重讲述基因芯片图像分析算法,包括图像预处理、 网格化、信号点定位、背景分析、信号点荧光强度数据提取等;第四章描述了本文开发的 基因芯片图像分析系统的设计思想及主要设计算法的流程图:第五章为结论和展望部分, 总结了本文的研究成果,并对未来的工作提出展望。 中南大学硕士学位论文第二章系统方案设计 第二章系统方案设计 基因芯片图像分析是采用特定的算法对杂交图像进行处理并计算出各个信号点的荧光 强度,为芯片数据分析步骤结合碱基配对原则和芯片探针序列提取待测样本的遗传信息奠 定基础。它是基因芯片信息处理流程中极为重要的一项,图像分析的好坏将对整个芯片实 验、研究和应用产生直接的影响。芯片的类型、应用不同,图像分析的方法也不尽相同。 2 1 基因芯片图像获取 杂交实验完成后,利用激光共聚焦扫描仪扫描芯片,即可得到所用的基因芯片杂交图 像,如图2 - 1 所示。对于与芯片探针严格配对的杂交分子,其热力学稳定性高,反映在杂 交图像上就是信号点的荧光强度最强,例如图2 1 中第二行的后5 个信号点;不完全杂交 的分子热力学稳定性较低,荧光信号较弱( 不到前者的5 3 5 ) ,完全不匹配的分子荧 光信号最弱甚至无荧光【l 引。因此,只要计算出芯片杂交阵列中各个信号点的荧光强度,并 根据荧光强度的差异,结合碱基配对原则和芯片探针数据,即可得到隐含在杂交图像中的 样本生物学信息。 2 2 基因芯片图像特点分析 图2 - 1 基因芯片原始图像 通过对所用的大量芯片图像进行观察,发现基因芯片杂交图谱一般具有如下特征: ( 1 ) 存在噪声和污染物。在制作、杂交、清洗过程中的灰尘污染,待测样本中核酸、 中南大学硕:i :学位论文 第二章系统方案设计 蛋白质、细胞或者组织碎片的干扰,仪器的噪声干扰、杂交的非特异性反应等都是芯片图 像的污染源。大部分芯片杂交图像中的噪声分布比较均匀,但也有少部分图像存在如图2 2 所示的严重的噪声干扰。 图2 - 2 被严重污染的芯片图像示例 ( 2 ) 芯片点阵密度较低,信号点排列基本上呈一条准直线,行、列间距较大但不规 则。 ( 3 ) 信号点形状和大小各异。杂交过程中,由于杂交时间、程度的不同,芯片处理设 备、扫描设备、光线的影响,荧光信号的猝灭等原因,导致了基因芯片图像上分布着形状 不同、大小不一、位置不清、形态各异的信号点,甚至有时候会出现信号点的完全消失。 ( 4 ) 所有信号点的亮度都是由目标信号和背景信号组成,因此计算信号点荧光强度时 必须考虑消除背景信号的影响。 ( 5 ) 信号点荧光强度的不确定性。不同的芯片图像信号点荧光强度值是不同的,即使 是同一芯片、同一样本在不同的实验条件下,信号点的荧光强度都可能有所不同。 2 3 图像分析方案设计 基因芯片图像分析的最终目的是提取出各个信号点的荧光强度,为样本的生物学分析 提供强有力的数据支撑。在芯片图像中,由于杂交程度的不同,造成目标信号点之间较大 的光密度差异,对于特别灰暗、接近背景的信号点,可以近似认为没有杂交信号,将其视 作背景;对于光密度和背景具有一定反差的信号点,则计算其荧光强度信息【1 。 根据上述基因芯片图像特点和分析目的,本文将芯片图像分析划分为如下步骤:预处 理、网格化、信号点定位、荧光强度提取。整个流程如图2 3 所示。下面将对各个步骤的 方案选择做出具体的介绍。 图2 - 3 基因芯片图像分析步骤 1 l 中南大学硕士学位论文第= 章系统方案设计 ( 1 ) 予贞处理 图像预处理的目的是减少污点、噪声以及各种影响分析的因素的干扰,提高芯片图像 的质量和网格化、信号点定位、信号点荧光强度提取的准确性。图像预处理包括图像校正、 图像拼接、图像滤波等。本文在预处理部分将主要讨论图像滤波。 目前常用的图像滤波方法有均值滤波、中值滤波等。均值滤波是一种平滑滤波器,很 容易引起图像边缘的模糊,对于处理存在较多突变边缘的芯片图像并不合适。中值滤波虽 然可以避免图像细节的模糊,但它没有考虑到芯片图像中像素点之间的统计特性,导致部 分有用细节的丢失。 基因芯片图像通常存在高斯噪声、指数分布噪声、均匀分布噪声、椒盐噪声和组织碎 片污染等噪声类型,且大部分芯片图像中的噪声分布都比较均匀,仅有少部分图像局部存 在组织碎片干扰等严重的污染。芯片图像预处理的目标是在消除噪声干扰的同时,尽可能 地保留图像细节信息,因此本文对预处理步骤做出如下的方案设计:对于噪声分布比较均 匀且不存在局部大块噪声污染的图像利用形态学滤波器进行滤波;对于存在局部严重污染 的图像则用改进的梯度倒数加权算法进行处理。形态学滤波具有运算速度快、能保持图像 较大亮区特征不变的优点,非常适合用来处理对图像细节要求高、噪声分布相对均匀的芯 片图像,但其对于局部存在大块噪声的芯片图像处理效果并不理想。而经本文改进的梯度 倒数加权滤波,解决了传统的梯度倒数加权滤波不能有效滤除脉冲噪声和椒盐噪声的缺 点,充分考虑了像素点之间的统计特性和图像的连通性原理,且较好地保留了图像细节信 息,但是其运算速度比形态学滤波慢,因此本文用此算法来完成少部分存在局部严重污染 的芯片图像滤波工作。 ( 2 ) 网格化 基因芯片图像预处理后,为了提高信号点定位和荧光强度提取的精确度,在信号点荧 光强度和探针之间建立一一对应关系,需要对信号点的大致区域做出分割,即图像网格化, 尽量使每个网格内部包含一个信号点。该环节是杂交阵列图像处理工作的一个重点和难 点,因为不同厂家芯片的生产精度和信号点点阵密度不同,即使是同一厂家同一型号的芯 片,其信号点单元的位置和大小也有可能随杂交程度的变化而变化,而网格化的效果会直 接影响到整个芯片图像分析过程【2 。因此,一般情况下都需要结合所用芯片的特征来选取 合理的方法完成杂交图像上各个信号点单元的网格化处理。 本次研究所用基因芯片的点阵密度低,信号点的排列基本上呈一条准直线,行、列间 距较大但不规则。如果采用传统的网格线划分法,输入信号点的大小、行数、列数、行间 距、列间距、第一个信号点的起始位置等信息后,对芯片图像进行横向和纵向的网格线划 分,其结果很有可能是部分目标区域划分不完整或者完全不包含信号点,而且过多的手工 干预也增加了图像处理的复杂度和人为因素的影响。根据文中芯片图像信号点的点阵密度 低、排列准直线特性,本文就考虑到利用水平投影和垂直投影相结合来完成芯片图像的网 格化工作。该方法不受信号点形状的影响,无需输入任何参数即可实现芯片信号点的全自 中南大学硕士学位论文第二章系统方案设计 动网格化分割,且具有快速,准确的特点,比较适合用来处理点阵密度较低的基因芯片杂 交图像。 ( 3 ) 信号点定位 各个信号点的大致位置通过网格化步骤已经基本确定,接下来的任务是对这些网格内 部信号点的精确定位,以实现背景区域和信号点区域的分割。只有确定了各个信号点的准 确位置和区域,才能对其进行荧光强度计算。目前已有的信号点定位方法包括固定直径圆 形模板匹配法、直径可变圆形模板匹配法、自适应分割法、直方图分割法【2 1 1 等。固定直径 圆形模板匹配定位法和直径可变圆形模板匹配定位法如图2 - 4 和2 5 所示,它们均利用一 个圆形模板与信号点进行匹配实现定位,模板的内部被认为是信号点区域,外部为背景区 域,是与信号点形状相关的定位方法【2 “。然而,如果信号点由于其它因素的影响出现不规 则的形状或者椭圆形,这两种定位方法则会出现较大的误差。 2 4 固定直径圆形模板匹配定位示意图 2 - 5 直径可变圆形模板匹配定位示意图 自适应分割法、直方图分割法是与信号点形状无关的定位方法。自适应分割方法通常 以水线分割算法2 3 】或种子区域生长算法为基础t 2 4 , 2 5 1 ,对信号点进行可变形状的分割定位。 这两种方法定位信号点存在的最大弱点是事先需要指定一个起始点或者种子点【2 “,且定位 的性能也往往取决于起始点或种子点的准确性。直方图分割法直接利用图像网格化的结 果,对信号点大致区域内的像素点进行直方图分析,按照事先定义的光密度比率分割出信 号和背景1 2 ”。但是由于它是根据网格化的结果对信号点进行直方图分析,芯片图像网格化 中南大学硕士学位论文第二章系统方案设计 的效果会对其产生很大的影响,且该方法定位信号点往往会得到一个非连通的前景区域, 这是与实际的点样过程不相符合的。 鉴于上述已有的信号点定位算法存在的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年铜铝有色铸造行业分析报告及未来发展趋势报告
- 2026年大麦虫养殖行业分析报告及未来发展趋势报告
- 2026年煤矿机电设备行业分析报告及未来发展趋势报告
- 风机吊装组织方案
- 2026年数字自动旋光仪行业分析报告及未来发展趋势报告
- 重症医学科(ICU)ARDS患者机械通气护理指南
- 2026年重型机械行业分析报告及未来发展趋势报告
- 2026年土霉素碱行业分析报告及未来发展趋势报告
- 2026年泰和县旅游投资发展有限公司及下属子公司面向社会公开招聘工作人员考试模拟试题及答案解析
- 孕妇便秘健康教育
- TCECS 1771-2024 装配式综合支吊架设计标准
- GB/T 18015.6-2025数字通信用对绞或星绞多芯对称电缆第6部分:具有1 000 MHz及以下传输特性的对绞或星绞对称电缆工作区布线电缆分规范
- 安徽昌达路桥工程集团有限公司介绍企业发展分析报告
- 2025年复旦大学(经济学基础综合)真题试卷
- 2025广东中山市路桥建设有限公司招聘21人备考考试题库附答案解析
- forecast培训知识课件
- 中小学生气象知识竞赛考试题库100题(含答案)
- 商务英语专业毕业论文
- IPC7711C7721C-2017(CN)电子组件的返工修改和维修(完整版)
- 水利建筑工程概算定额(上册)2025版
- 校园矛盾纠纷班会课件
评论
0/150
提交评论