




已阅读5页,还剩43页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中文摘要基因芯片可同时快速进行大规模韵基因表达水平测定,是人们了解基因组序列作用和功能的强有力工具。对基因芯片杂交反应后的图像进行快速、准确、高效、自动化的处理从而为基因数据分析工作提供可靠、高质量的基因表达数据,足整个基因芯片技术的重要研究内容和关键环节,对基因数据结果分析和基因功能研究起着重要作用。通过分析比较传统的基因芯片图像滤波算法,作者采用小渡硬门限阁值萤化法对基因芯片幽像进行预处理,然后再使用中值滤波法宴现图像二次滤波。小波分析去除部分高频噪声降低了图像有用信号的湮灭,而中值滤波弥补了小渡分析法中噪声指教较高的局限性。与传统的基因芯片图像滤波方法的对比实验结果表明,该方 圭能够在有效去除基因芯片图像噪声的同时很好地保持图像边缘和细节信息。系统采川基于区域的闻值分割法实现了自动网格定位与传统的基于模扳法和依靠人工确定网格的方挂相比,处理过程不需外界干预,提高了网格划分的处理教率和可重复性。在网格区域内基于网格边缘划分确定靶点中心点基于统计估算靶区大小进行靶点识别采用周胃元素法进行靶点的局部背景信号提取采用平均值法进行信号计算,得到基因芯片图像的真实信号强度。为消除实验条件和环境的差异对基因芯片造成的系统误差,系统应用“看家基因”法对基冈芯片图像数据进行归一化处理。作者在研究基因芯片图像处理方法的基础上,宴现丁简单的基因芯片图像处理系统,可对基因芯片图像进行快速、准确、自动的处理。关键词:基周芯片幽像处理,小波分析a b s t r a c tg e n ec h i pt e c h n o l o g yc hr a p i d l yp r c c c s sm a s s i v eg e n ee x p m s s i o nt e s t i n ga tt h es m i l et i m 6 ,i ti sap o w e r f u lt o o lt h a ts u p p o r t sp e o p l et ok n o wt h ee f f e c ta n df u n c t i o no fg e n o m es o q u a n e ei ti st h ei m p o r t a n tr e s e a r c h i n gc o n t e n ta n dt h ek e yt a c h et h a tu s i n gi m a g ep r o c e s s i n gt od e a lw i t ht h eg e n ti m a g ew i t hr a p i d l y ,w e l la n dt r u l y ,h i g he f f i c i e n c y , a u t o m a t i c a l l y ,i tc o u l dp r o v i d er e l i a b l ea n dh i g hq u “j t yg a n ee x p r e s s i n nd a t af o rg e n ed a t aa n a l y s i s , i th a si m p o r t a n ti m p a c to ng a n ed a t aa n a l y s i sa n dg o n ef u n c t i o nr e s e a r c h i n g t h r o u g ha n a l y z ea n dc o m p a r e dw i t ht r a d i t i o n a lg e n tc h i pi m a g ed e n o i s i n g , t h ep a p e ra d o p tw a v a l e ! h a r dt h r e s h o l dm e a s u r em e t h o dt od 0p m t r c a t m e n t 研g o n ec h i pi m a g e t h e t lu s i n gm e d i a nf i l t e rm e t h o dt od e p r e s si m a g en o i s e w a v e l e ta n a l y s i sm e t h o dw i p eo f fp a r to f h i e ) f r e q u e n c yn o i s e ,r e d u c ei m a g e su s e f u ls i g n a ld i s a p p e a r i n g , w h i l em e d i f i l t e rr e m e 曲w a v e l e tl i m i t a t i o nw j mm o r en o i s e ,c o m p a r e dw i t ht r a d i t i o n a li m a g ed e - n o i s i n gm e t h o d s ,t h er e s u l ti n d i c a t et h a tt h em i xm e t h o do fw a v e l e ta n d m e d i a n f i l t e r c d e p r e s sg e n ec h i p i m a g e w h i l e p r e s e r v i n g i m a g e sv o r g ea n dd e t a i ls i g n a l1 n f o r m a t i o nt h i sp a p e ra d o p tt h m s h o l dv a l u ed i v i s i o nm e t h o db a s e do nr e g i o nt oi m p l e m e n ta u t o m a t i cg r i do r i e n t a t i o n ,c o m p a r e dw i t ht r a d i t i o n a lm e t h o d st h a tb a s e do l r lt e m p l a t ea n dr e l yo nh u m a nd e f i n e 鲥d i td or i o tn e e da r t i f i c i a lf a c t o ri n t e r f e r e dw i t h ,e n h a n c et h ep r o c e s se f f i c i e n c ya n dr e p e t i t i o ni nt h e 州da r e a ,a d o p t t h e m e h o d t h a t b a s e d 嘶替i d “g 。p l o t t o f i x t 时g e t 钾n t e r ,a n d t h e m e t h o d b a s e d o l ls t a t i s t i c se s t i m a t ea r e at oi d e n t i f yt a r g e t ,u s i n ga r o u n de l c m e n ( m e t h o dt op i c ku pb a c k g r o u n ds i g n a lv a l u e ,a n dt h e na d o p ta v e r a g ev a l u em e t h o dt oc a l c u l a t es i 鲈“i n t e n s i t yt og e tr e a ls i g n a li n t e n s i o ni n f o r r a a t i o oi ng e n ec h i pi m a g e f o rg e tr i do ft h ed i f f e r e n ti nt e s tc o n d i t i o na n da n v i r o n m e n tt h a ti m p a c t o l ls y s t e me r r o r t o g ec h i p ,a p p l y h o m e g e n e m e t h o d t os t a n d a r d i z eg e n oe x p r e s sd a t a t h i sp a p e rb a s e do nr e s e a m h i n gg o n ec h i pi m a g ep r o c e s s i n gm e t h o d st od e s i g na n di m p l e m e n tas i m p l eg e n ec h i pi m a g ep r o c e s s i n gs y s t e m ,i tc a l lp r o c e s sg e n ec h i pi m a g ew i t hr a p i d l y ,w e l la n dt r u l y ,a u t o m a t i c a l l yk e y w o r d s :g e n ec h i p ,i m a g e p r o c e s s i n g ,w a v e l e t a n a l y s i s独创性声明水人声明所呈交的论文是我个人在导师指导下进行的研究工作和取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得中国农业大学或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。研究生签名: 佥老时问:2 鲫g 年z 月哆日学位论文版权使用授权书本人完全了解中国农业大学有关保留、使用学位论文的规定,即:学校有权保留送交论文的复印件和磁盘,允许论文被查阅和借阅,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。同意中国农业大学可以用不同方式在不同媒体上发表、传播学位论文的全部或部分内容。( 保密的学位论文在解密后应遵守此协议)研究生签名导师签名佥搬乏锅捌时间:2 鲫占年6 月侈日时间:加6 年b 月f 歹日时间:卵石年6 月j ¥日中国农业大学硕士学位论文第一章绪论第一章绪论随着人类基因组( h u m a ng c n o m ep r o j e c t ,h g p ) 计划的顺利完成,解读基因组序列的功能及其对生命活动的影响,成为人们面临的首要任务和巨大挑战。传统研究基凼功能的方法由于技术复杂、检测分子少、效率低,无法满足对海量基因序列信息进行快速、准确挖掘的需求,由此催生出基因芯片技术”j 。基因芯片( g e n ec h i p ) ,又称d n a 芯片( d n ac h i p ) ,基因微阵列( m i c r o a r r a y ) ,是融合了生命科学、化学、微电子技术、计算机科学、统计学和生命信息学等多种学科的最新技术“j 。基因芯片是一种生物芯片,利用微点阵技术,在很小的基底表面积上,同定大量特定的基因探针,通过检测探针与待检基因杂交反应后的信号,可实现并行大规模的基因检测。1 1 研究背景基因是载有生物体遗传信息的基本单位,存在于细胞的染色体上。将大量的基因片段有序地、高密度地排列在玻璃片或纤维膜等载体上,称之为基因芯片唧。基因芯片的工作原理与经典的核酸分子杂交方法( s o u t h e r n 、n o r t h e r n ) 是一致的,都是应用已知核酸序列作为探针与互补的靶核苷酸序列杂交,通过随后的信号检测进行定性与定量分析。基因芯片在微小的基片( 硅片、玻璃片、塑料片等) 表面集成了大量的分子识别探针,能够在同一时间内平行分析大量的基因,进行大信息量的筛选与检测分析【4 】。在一块l 平方厘米大小的基因芯片上,根据需要可固定数以千计甚至万计的基因片段,以此形成一个密集的基因方阵,实现对千万个基因的同步检测。基因芯片技术具有高度并行性、多样性、微型化和自动化四大特点。高度并行性有利于基因芯片图谱的快速对照和阅读,效率大为提高;多样性则提供了样品的多指标测定;微型化的好处在于对样品的需要量非常少,而且还能节省试剂用量,降低成本;自动化使得人力投入减少并保证了质量。同时,基因芯片技术还具有操作简便、信息综合处理能力强、结果可靠和仪器配套齐全等优势因而备受青睐。i 1 1 基因芯片起源早在八十年代初期,w b a i n s 等人就用杂交的方法对固定在支持物上的短d n a 片段进行序列测定。1 9 9 2 年,a f f y m a t r i x 公司f o d o r 领导的小组运用半导体照相平板技术对原位合成制各的d n a 芯片处理,既在硅芯片表面涂上一种光敏材料,采用光蚀刻技术,通过原位技术合成多肽链,利用该技术成功研制了世界上第一块基因芯片。1 9 9 5 年,s t a n f o r d 大学的e b m w n 实验室发明了第一块以玻璃为载体的基因微矩阵芯片标志着基因芯片技术进入了广泛研究和应用的时期中国农业大学碗士学位论文第一章绪论【”。基因芯片技术从实验阶段走向工业化是得益于其他技术的引入,如激光共聚焦显微技术、探针固相原位台减技术与照相平板印刷技术的结合和双色荧光探针杂交系统时建立。9 0 年代初期人类基因组计划和分子生物学相关学科的发展也为基因芯片技术出现和发展提供了有利条件【“。1 1 2 基因芯片应用基因芯片技术应用很广,可用于疾病诊断与治疗、药物筛选与开发、农作物筛选与优良育种、食品卫生监督、环境保护、司法鉴定、航天、国防等众多领域嘲。1 药物筛选与开发基因芯片技术具有高通量、大规模、并行性地分析基因表达水平的能力,在药物筛选方面具有巨大潜力。用基因芯片作大规模的药物筛选研究可以节约大量的动物试验甚至取代临床试验,从而缩短药物筛选时间,提高新药的研发效率,降低风险,降低研发成本m 。2 疾病诊断将基因芯片应用于疾病诊断,优点为:高度的灵敏性和准确性,快速简便并且可同时检测出多种疾病。3 环境保护在环境保护上,基因芯片技术也有广泛用途,一方面可以快速检测微生物和有机化合物对环境、动植物和人体的污染及危害程度,另一方面也能够通过大规模的筛选寻找出保护基因,制各防治危害的基因类药品、或者找到能够治理污染源的基因类产品以控制污染,利于环境的保护。4 司法鉴定基因芯片技术还可用于司法领域。可以通过d n a 指纹对比来鉴定罪犯,未来可以建立全国甚至全世界的d n a 指纹库,可以直接对疑犯留下的指纹、毛发、体液等进行分析,并立刻与d n a罪犯指纹库系统存储的d n a 指纹进行比较排查,从而快速、准确的破案嘲。5 现代农业基因芯片技术可以用来筛选农作物的基因突变,寻找高产量、抗痫虫、抗干旱、抗严寒的相关基因,也可以用于基因扫描及基因文库作图、商品检验检疫等领域。6 研究领域包括基因表达检测、寻找新基因、杂交测序、基因突变和多态性分析等方面。1 1 3 国内外研究现状基因芯片技术已显示了巨大潜力和诱人前景,目前世界上许多国家和地区已经相继开展了基因芯片的研制和开发工作。尤其在美国,已掀起了自人类基因组计划以来的第二次热潮。1 9 9 8年6 月2 9 日,美国政府正式宣布启动基因芯片计划,联合私人投资机构投入了2 0 亿美元以上的研究经费。许多政府机构如n i h ( 美国国立卫生研究院) 、d o e ( 美国能源部) 、商务部、司法部、国防部和中央情报局等都参与了此项目。同时斯坦福大学、麻省理工学院及橡树岭国家实验室等研究机构也参与了该项目的开发和研究。英国剑桥大学、欧亚公司也正在从事该领域的研究。一些具有实力的国外大型制药公司也希望能推进基因芯片技术的实际应用,尤其对基因芯片技术用2中圈农业大学硕士学托论文第章绪论丁基因多态性、疾病相关性、基凶药物开发和合成、天然药物筛选等领域有浓厚的兴趣 | = i 继投入巨资开发基因芯片技术和相应的设备例。基因芯片研究在我国也己起步。如东南大学、复旦大学、中国科学院上海生命科学研究院、华丈基冈研究中心( 北京) 、军事医学科学院、清华大学等一些科研院所和大学己着手进行基田芯片技术的研究和开发。针对基蚓芯片杂交图像进行处理分析方面的研究南于前述提到的基因芯片杂交图像的特点为其图像处理增加了难度,国外对于基因芯片图像分析方法的研究已达到较高水平,并有相对成熟的软件产品m 现。但价格昂贵在准确性、速度和自动化处理程度方面不能兼有。常用的基因芯片图像处理软件参见表1 1 :衰卜1 基因芯片软件产品产品名称公司g e n e p i xp r om i c a r o a r r d ys u i t # s o l t v a mi m a g c * n ca r r w v i s i o n哪蚰“i ”ys c a n a l y a r r a y p r o a n a l y z e ra x h b h u m a ,bi n ca f b l n e 岍xi n cb i o d i s c o v c wl n ci m a g i n g r e s e a r c h i n cs t a n f c s r d u n i v e r s l m 搴d j ac y k 6 c在国内,也已开展了针对基因芯片图像处理方面的研究,但主要关注于理论方法的研究,还没有相对成熟的软件产品。自动化程度及速度方面也没有较好的方法,研究水平相对滞后。因此,在我国急需开展基因芯片图像处理方法的研究及实用系统的实现。使我们在基因芯片领域达到世界先进水平【1 0 l 。1 2 图像处理在基因芯片中的作用对于一个具体的基因芯片研究或应用而言,# 要j 作流程包括:确定基因芯片检测标、基圜芯片设计与制备、靶基因的标记、杂交反应与信号检测、墓囡芯片图像处理、数据结果分析与基因功能挖掘等环节- 其中任何环节都非常重要尤其是快速、准确的进行基因芯片圉像处理将对整个基因芯片的应用前景起着关键作,l j 。田1 。1 基因芯片工作流程圈基凼芯片拄术发展的最终日标是:从样品制备、杂交反应、信号检测到数据结果分析的整个过程集成化以获得微型全自动分析系统或称微缩芯片实验室。使用微缩芯片实验至,就可以在一个封闭的系统内以很短的时间完成从原始样品到获取所需分析结果的全套操作。i 2 1 确定基因芯片检测目标利用生物信息学方 去,查询生物分子信息数据库,取得相应的d n a 序歹q 数据通过序列比对分析嘲,找出特征序列,作为芯片设计的参照序列。此外,通过数据库搜索,还可以得到关于序列突变的信息及其他信息。1 2 2 基因芯片的设计确定了基因芯片所要检测的目标序列之后,下一步的任务是根据目标序列设计探针并进行探针的布局。探针的设计是指,如何选择芯片上的探针,探针的布局是指,如何将探针排布在芯片上。基因芯片的设计影响基因芯片制作和基因检测。基因芯片设计的日的在于:通过设计,提取更多的生物分于信息。尽可能使芯片图像中的互补杂交信号突出,提高基因芯片检测的可靠性。1 2 3 基因芯片的制备基因芯片的制备综舍了生命科学、化学、微细加工、自动化及机器人学等领域的前沿技术,主要以玻璃片或硅片为载体。从而将靶基因作为探针按顺序排列在载体上。通常比较典型的制各方法有3 种:原位合成法:合成点样法( 根据是否与芯片的表面接触分为化学喷射法和接触式点涂法) :压电打印法【。1 2 4 靶基因的制备靶基困指崩于基因芯片点样的样品,靶基因可分为染色体d n a ( 或基因组d n a ) 、c d n a ( 或人工台成d n a ) 。目前以c d n a 的研究为主,因为c d n a 是染色体上编码蛋白质的d n a 序列,有医疗和其他领域的研究价值和商业价值。根据基因芯片检测目的不同。可以把靶基因样品制备方法分为用于表达谱测量的m r n a 样品制备和用于多态_ | 牛( 或突变) 的基因样品的制备其制备需要运用常规手段从细胞核组织中提取模板分子并在模扳扩增过程中对靶基因进行标记,1 2 5 杂交反应与信号检测常规的分子杂交过程是将待检测样品固定于滤膜上与嗣位素标记的探针在定杂交液及温度下进行杂交,一般均糯4 2 4 小时:j - 能完成,且一般每次只能检测的个到几个探针。信号检测是指:经过杂交反应后芯片上信号可经过荧光显微镜或激光扫描仪进行信号的收集,形成基因芯片的杂交图像,以供后续图像处理和数据结果分析。中国农业_ 人学碘士学位论文第一章绪论1 2 6 基因芯片图像处理当基因芯片探针序列与靶基因样品序列完仝匹配时杂交信号具有较高的荧光强度。当探针序列与样品序列不完全匹配时杂交信号荧光强度就相对较弱。因此杂交信号荧光图谱的强弱是靶基因生物信息的字别指标,该数据反映了特定基因在该细胞或组织上的表达水平,对整个基因芯片数据分析的可靠性具有重要影响。基凼芯片图像处理为数据分析提供可靠数据来源对数据分析结果影响很大,是整个基因芯片技术的霞要环节。这就要求基因芯片图像处理既要进行快速、高效的| 生| 像处理,还要保证数据的可靠。因为基因信息数据量巨大在处理过程中,应该运用完全自动化的图像处理方法来保证高效性,降低人为因素干扰,同时任何小的数据偏差都会对数据结果的分析带来不可想象的后果,是后续工作的前提条件。因此基崮苍片图像处理面临的难度不小。基因芯片图像处理过程分为以下几个步骤:首先对图像进行预处理然后对微阵列靶区进行网格定位并将背景信号滤除进行背景提取及对杂交信号荧光图谱强弱进行计算。最后对不同样本或实验条件下荧光强度差异的数据进行归一化处理。图像处理是基因芯片数据结果分析可靠性的前提条件其快速性、准确性对结果有术质的影响,在基因芯片技术中具有重要的意义和地位。在图像分析扯理过程中,由于目前还需要手工干预,所以自动化程度不高,对海量数据分析的效率有一定影响。闺像预处理的主要目的是减少污点、噪声以及各种影响数据分析的干扰因素,提高图像质量-从而提高后面数据分析和数据挖掘的准确性、可靠性。图像预处理包括图像矫正、图像拼接、图像滤波等。在预处理中,最摹本的准则是尽量保证图像的有用信息不丢失。为了提取基因芯片图像上微点阵的荧光强度,首先要确定点阵上信号点的区域,即网格定位技术,般采用的方法有半自动定位法和自动定位注。网格定位之后,要在每个靶点区域内对杂交反应点进行信号点识别,芯片上每个像素点的光密度值不仅包括靶点信号强度也包括背景信号强度。因此在计算过程中,必须将背景信号滤除才能得到准确的靶点信号光密度值。信号计算的町靠性很大程度上依赖于计算方法的选择,j j 前计算信号强度的方法有两种:平均法和中值法。由于样本间的差异,荧光标记效率和检出率的不平衡各个基因芯片图像的绝对_ j l 巴密度值是不样的,即使同一基因芯片、同样品在不同实验条件下的荧光图谱都可能不同。因此在芯片图像比较时需要选定判别标准驵减少或消辕不同基因芯片图像问的信号强度差异,照常用的方法便是对数据进行归一化处理。目的是要减少基脚芯h 实验过程中园系统差异对基因表达水平的影响,使检测结果能真实地反映不同基因间作用和功能的差别。基因芯片图像一般具有如下特点:1 扫描仪的分辨率对基因芯片图像分析精度影响较大,尤其是对于阵列点较小的高密度芯片。感受完整光的像素越多越有利于用软件的定量算法消除基凶芯片的不均匀性、噪声和背景等的影响。没有感受到完整此的像素信号越小,就越有可能被认为是噪声或背景而被忽略掉,从而造成误差。所蛆图像分析方法的选择。分析的可括性受扫描仪精度,灵敏度的影响较大。2 由于基因芯片的制作、杂交、清洗过程中灰尘的污染,待测样品中核酸、蛋白质、细胞或组中国农业大学硕士学位论文第章绪论织碎片的干扰。以及仪器噪声的干扰,杂交的非特异性反应等往往会对基因芯片杂交图像造成较大的刺蜂( 正峰或负峰) 信号。这些对荧光强度的提取影响较大,应尽可能去除或降低其带来的影响。3 基因芯片图像上信号点的位置及点的形状一般比较规则,只会有少许的偏差。但对于某磐特殊的芯片或某些制各精度不高的芯片,其阵列点的位置、形状变化比较大。因此在图像分析中应采用自适应的方法进行目标区域的提取。4 基因芯片图像中部分信号点的形状呈环型。这是由于信号点中间部分的荧光信号浓度比较大,出现荧光淬灭现象造成的。5 基因芯片图像中每个像素点的光密度值包括靶点信号强度和背景信号强度,因此在提取靶点信号点强度时必须滤除其背景信号的影响。各个基因芯片图像的绝对光密度值是不一样的,即使同一芯片,同一样品在不同实验条件下的荧光图谱部可能有所不同。因此在芯片图像比较时,需要选定判别标准减少或消除不同芯片图像的荧光强度茬异。1 2 7 数据结果分析与基因功能挖掘基因芯片数据结果分析与基因功能挖掘的目的是从海量的实验数据中提取隐含的生物学信息,特别是对于基因表达数据而言在大规模数据集上进行分析、归纳、挖掘,可以深入了解基因的作用和功能、理解遗传过程、揭示疾病发病机制信息等。随着基因芯片应用规模不断扩大、基因表达数据库不断发展,通过对基因芯片数据深入地分析,可以得到其他深层次的信息,如d n a 序列的进化信息,基因功能的信息,基因之间的协同作用关系,基因表达的时空规律,与疾病相关的信息等。1 3 研究目标、内容和方法本文重点研究基因芯片图像处理方法,图像来源采用水稻基因芯片图像,该图像采用了原位合成技术制备,制备精度较高,且图像上信号点位置及点的形状比较规则,在网格划分中不需要人工于预,适台进行自动化的基因芯片图像处理。1 3 1 研究目标本课题的研究目标是:在采用红绿双色荧光标记的杂交实验产生的水稻基因芯片图像基础上,分析比较已有的图像处理方法,选取并设计出最适合基因芯片图像处理的方法,使其能够快速、准确、高效、自动化的完成基因芯片图像处理功能。同时开发出一套具有基本基因芯片图像处理功能的软件系统,对已有的芯片图像进行赴理,井将数据结果进行归一化,为后续基因芯片数据分析工作提供准确可靠的数据来源,为后续的生物信息数据挖掘工作奠定基础。6中国农址大学硕士学位论文第章绪论图卜2 为红绿双色荧光标记的水稻基因芯片图像:1 3 2 研究内容和方法图卜2 水稻基因芯片图像根据基因芯片图像分析的处理过程,本文的研究内容主要包括图像滤波、网格定位、背景提取、信号计算和数据归一化处理几个方面。如图l 一3 所示:围卜3 基因芯片豳像处理过程示意图1 图像滤波在图像滤波中分别采用中值滤波法,数学形态学滤波法,小波分析和中值滤波棍合法进行对比试验a 找到最适合于基因芯片图像滤波分析的方法。在有效滤波的同时尽量保持基因芯片图像的边缘细节信息。2 网格定位网格定位就是对图像划分网格线,将图像中的靶点区域分割开,使每一网格区域中只含有唯一信号点a 网格定位分为半自动定位法和自动定位法,半自动定位法需要人工干预影响整个基因芯片图像处理的自动化程度,本文用到的基因芯片图像具有制备精度高,探针点阵排列规则及杂交反应图像靶点信号规整等特点,所以采用了自动定位法,保证了整个基因芯片图像处理过程的自动化。3 靶点识别在每个网格内,需要将靶点反应信号的边缘加以识别,一般采用区域生长法和边缘提取法等图像边缘分割技术。由于不同图像在特征上的差异,因此不存在一种普遍适用的最优方法。目前7中国农业大学硕士学位论文第一章绪论一般通过组合使用图像领域已有的成熟算法,结合目标物的特异性形成针对性的分割定位方法。针对基因芯片图像靶点边缘的特点,采用边缘检测中的k i r s c h 算子进行靶点信号与背景信号的分割处理。4 背景信号提取芯片上每个像素点的光密度值不仅包括靶点信号强度,也包括背景信号强度。在计算过程中,必须进行背景提取,滤除或降低背景信号的干扰。采用周围元素法进行背景提取计算可以比较准确可靠地完成对基因芯片图像的背景滤除工作。s 信号计算信号计算的可靠性在很大程度上依赖于计算方法的选择,目前计算信号的方法有两种:平均法和中值法。对于自动定位方法,采用平均法计算可以有效地保证计算的可靠性和准确性。6 数据归一化处理应用“看家基因”法来进行数据归一化处理。使得在不同实验条件下的荧光图谱有相互比较的标准。促进全球范围内的基因芯片图像数据的信息化管理和共享。本文第二章,将详细介绍基因芯片图像处理分析。第三章详细介绍了基因芯片处理系统的各个环节和采用的算法及其实现。第四章是对基因芯片图像处理的应用系统的初步实现,基本模块包括图像滤波、网格定位、靶点识别、背景提取、信号计算和数据归一化。第五章是结论与展望。8中国农业大学硕士学位论文第二章基因芯片图像处理分析第二章基因芯片图像处理分析传统的基因分析方法,一次只能分析少量的基因信息,并且耗时长效率低,处理结果缺乏准确性。随着人类基因组计划的完成,生物科技人员的研究重心从结构基因研究转移到了功能基因研究。在发掘基因结构的过程中,积累了大量的基因信息,海量的基因信息如果还是按照传统的方法进行分析,势必成为人i r t 解基因作用和基因功能的瓶颈。基因芯片的出现,解决了研究人员分析基因功能的困难。基因芯片技术通过在基底上设置一定的基因探针网络能够对未知基因进行杂交反应,从而能快速、高效、准确地测定基因表达数据,以供生物信息的数据挖掘工作。在基因芯片技术环节中,高效、自动化的处理和分析基因芯片杂交反应后的图像对整个基因芯片技术的应用前景起到决定性影响。下面针对基因芯片图像处理系统进行需求分析,以得到良好的芯片图像处理效果。一块完接的基因芯片杂交图像包含多个样品区块( b l o c k ) ,如图2 一l 所示;圈2 - 1 包含区块信息的基a a 芯片从图像中可以看出,区块之间有明显的空格区域用来区分每个区块区域。针对每个区块内的靶点信息,对其进行图像处理分析的原理和步骤是致的,下面只取其中一个区块的基因芯片图像进行处理分析,其余区块都可以用相同方式进行处理就可以得到整个基因芯片图像的数据信息。基因芯片图像处理系统可以按照图像处理流程分为独立的子模块。下面逐一加以分析。2 1 图像滤波分析基因芯片在其制备、与样品溶液杂交、芯片清洗和图像信号检测过程中,都存在对结果图像的噪声干扰,导致了基因芯片图像中背景信号强度并不均匀,将会影响图像数据提取和处理的准9中国农业大学硕士学位论文第二章基因芯片图像处理分析确性,因此有必要在基因芯片图像正式处理前,首先进行图像预处理,即先对图像进行滤波去噪处理,。尽可能多的去除图像中的噪声,还原真实的图像信号强度信息。由于图像噪声大多存在于图像的高频信号中,图像的边缘细节信息也存在于图像的高频部分,这就带来了图像滤波去噪的困难。目前主要是通过首先具体分析图像噪声特点,再选取适合该种图像噪声特点的滤波算法加以去噪。2 1 1 图像噪声分析图像噪声产生的原因决定了噪声的分布特性和它与图像信号之间的关系,影响图像质量的噪声主要包括:光电子噪声,颗粒噪声和电子噪声。在通常情况下,将这3 种噪声均视为加性白高斯分布进行研究。,+ n = g( 2 一1 )其中f 为原始的干净图像,n 为图像中加入的噪声,g 为观测图像,即带有噪声的图像。基因芯片图像背景不均匀,一方面是由于基因芯片在制作、杂交、清洗和测定过程中难免灰尘的污染,以及测定样品中核酸、蛋白质、细胞和组织碎片的干扰,另一方面是由基因芯片扫描仪引入的噪声。这些噪声混合在基因芯片图像中,表现为随机的刺峰噪声( 正峰或负峰) 信号【4 】。2 1 2 图像滤波算法基因芯片图像滤波方法有两种:空域平滑法和频域低通滤波法。两种方法都是对图像的低频成分进行增强对图像的高频成分进行抑制的过程。在基因芯片图像处理中,有用信号通常表现为低频信号或较平稳的信号,噪声信号则表现为高频信号。图像在噪声抑制的同时,也损失了图像边缘与细节信息。对基因芯片进行图像滤波的目的就是在尽量保持图像边缘细节信息的同时,尽可能多的抑制噪声的干扰。根据基因芯片图像的噪声特点,传统的基因芯片图像滤波算法包括中值滤波和数学形态学滤波中值滤波效率不高,有人提出了改进的中值滤波法【2 4 l ,还有人提出了基于模糊数学形态学滤波法口q 。小波分析技术也可用于图像滤波的处理。1 中值滤波中值滤波是一种非线性滤波器。用一个有奇数个点的滑动窗口,用窗口中各点灰度值的中值来替代指定点的灰度值。即:g ( x ,y ) = m e a f ( x ,y )卢o( 2 2 )中值滤波效果取决于滑动窗口的大小。如果滑动窗口较小往往只能消除比较尖细的刺峰干扰。对于比较粗的刺峰干扰,必须通过扩大滑动窗口的尺寸加以滤波。但随着滑动窗1 :3 尺寸的增加,整个芯片图像的光密度值降低,有用信号被大大的衰减。中值滤波器利用局部中值替代了局部平均,在一定条件下可以克服线性滤波器( 如部分平均)所带来的图像细节模糊,对滤波脉冲干扰及图像扫描噪声最为有效,但对高斯噪声无能为力。对于基因芯片图像而言中值滤波的效果比较理想,但也存在不足,这是因为杂交反应的扩散性,芯片图像上的像素点分布并不均匀,一个亮的像素点可能紧接着一个比较暗的像素点,它们对于分l o中国农业大学硕士学位论文第二章基因芯片图像处理分析析都很重要,在滤除噪声时应尽量减少对这些有用信号的湮灭。中值滤波在处理细节比较多的图像时,容易造成基因芯片图像有用信号的湮灭”。因此中值滤波在处理基因芯片图像时,具有定的局限性j 。2 数学形态学滤波数学形态学是结构分析学方法。其基本思想是用具有。定形态的结构元素去度量和提取图像中的对应形状以达到对图像分析和识别的目的。数学形态学的基本运算有4 个:腐蚀、膨胀、形态开和形态闭。形态开,闭运算是通过组合腐蚀,膨胀运算,以不同的方式平滑信号,实现形态滤波。形态开运算可以抑制信号中的峰值( 正脉冲) 噪声,而形态闭运算可以抑制信号中的谷底( 负脉冲) 噪声。通过反复进行形态开、闭运算则同时去除信号中正负两种脉冲噪声。数学形态学滤波方法是一种非线性滤波。滤波效果主要由结构元素的大小决定。选择合适的结构元素大小对滤波结果影响较大。总体来说,中值滤波、数学形态学滤波处理具有比较好的去噪效果,但是对噪声和边缘信息不加区分,对芯片图像噪声抑制的同时,也损失了图像的边缘和细节信息。两种滤波方法都很难在消除噪声的同时,很好地保留图像边缘和纹理细节【”。数学形态学方法是通过组合腐蚀,膨胀运算,运用形态开、闭运算以不同的方式平滑信号,实现形态滤波。滤波效果主要南结构元素的大小决定。若结构元素取得较大,对于形状较大,较小的噪声都有很好的滤波效果但可能使细小目标消失;若结构元素取得较小,则只能滤除形状较小的噪声干扰。因此形态滤波的效果与结构元素的大小紧密相关。和中值滤波同样不适合处理细节较多的基因芯片图像。3 小波分析小波变换的基本思想是用一族函数表示或逼近信号,该族函数称为小波函数系。它是通过一个小波母函数的伸缩和平移,产生其“子波”来构成并用其变换系数描述原来的信号。对于连续的情况,小波序列为朋2 丽i 叭t - 。b )对于离散情况小波序列为 ( f ) = 22 ( 2 1 ,一七)a , b r :口0其中。为伸缩因子,b 为平移因子。( 2 3 ),t z( 2 4 )由小波变换的定义可知,小波函数一般具有两个特点:一是“小”,它们在时频域都具有紧支集或近紧支集# 二是正负交替的波动性,也即直流分量为零。常用的图像降噪方法是小波闽值消噪方法,它是一种实现简单而效果较好的消嗓方法。阈值消噪方法的思想就是对小波分解后的各层系数模大于和小于某闽值的系数分别进行处理然后利用处理后的小波系数重构除消噪届的图像。在阈值消噪中,阈值函数体现了对小波分解系数的不同处理策略及不同估计方法,常用的阈值函数有硬闽值函数和软阈值函数。硬阈值函数可以很好地保留图像边缘等局部特征,但图像会出现伪吉布斯效应即震荡或呈折线等视觉失真现象而软中国农业大学硕士学位论文第二章基因芯片图像处理分析闽值处理相对较平滑,但可能会造成边缘模糊等失真现象。从范数误差最小观点来讲,硬阈值处理方法优于软阈值方法。因为观察数据本身同缩减条件下的估计相比在范数观点应该更接近于原始信号口j 。小波分析具有多尺度频率域滤波特性,擅长分析图像细节信息和刻画信号的非平稳性,如突变和断点等,被誉为数学显微镜。在不同分辨率下根据信号和噪声的分布来去除噪声。对信号去相关,使噪声在变换后有白化趋势,所咀小波域比时域更利于去噪。小波分析的硬门限阈值量化去噪法对图像的边缘、细小特征、点目标和纹理特征的保持是最好的,缺点是噪声指数相对较高【6 】。2 2 网格定位分析通过观察基因芯片图像的特点,从而得知基因芯片图像是由探针阵列与杂交溶液反应形成,所以在图像中,靶点和靶区的位置分布比较规则整齐,并且其靶点和靶区信号都对应某,一具体的探针点位置,因此我们对其进行数据提取和分析就可以利用该特点,即只针对每个靶点区域分别进行分析,提取该靶区内靶点信号强度。进而得到整个基因芯片上的靶点信号强度信息及其和探针对应的信息。由此需要对基因芯片图像进行网格定位,确定每一网格内有且仅有唯一的一个靶点信号,并且每网格区域都不和其它靶点区域有重叠区域。2 2 1 网格定位技术对基因芯片图像而言,网格定位就是把基因芯片图像按照探针序列位置将其划分成网格。每一网格就是杂交反应的靶点区域,包含靶点信号和背景信号。基因芯片图像的网格定位技术一般分为半自动定位法和自动定位法:1 半自动定位方法首先依靠人为判断基因芯片图像轮廓,其次手工输入基因芯片图像点阵的行、列数,以及选择的定位标准和固定形状参数,生成一个大致网格,每一个网格中只包括唯一靶点。然后再通过基于亮度,方向敏感性的自动匹配方法进行精确定位。该方法适用于基因芯片制备精度高,靶点阵列比较整齐规则,且图像信号点区域形状差异不太大的情况。然而,对于制各精度不高或者某些特殊应用的芯片,其杂交图像点阵的位置,形状可能不大规则,如果采用人为固定网格的方法目标区域可能不完整或富含了太多非靶点信号,荧光强度提取的准确性就不太高,易受人为主观因素干扰,不利于自动化的快速的处理和分析。2 自动定位方法自动定位方法是指无需人工干预,即可得到理想的基因芯片图像的网格划分方法。这一自动化过程将大大加快基因芯片处理的效率和准确性。2 2 2 自动定位算法网格定位需要借助图像区域分割技术,基于区域的分割算法有阚值分割法和聚类分割法。1 2中国农业大学硕士学位论文第_ 二章基因芯片图像处理分析1 阈值分割法闽值法是一种广泛使用的图像分割技米是一种较为简单的基于区域的分割方法,该算法主要以直方图为依据,由于图像中要提取的目标物与背景的灰度特性差异,如设置一个阈值,凡灰度值低下这个闽值的像索都遵从某一灰度值变换公式,而灰度值高于这个阐值的像素则遵从另一灰度值变换公式,这样就将图像中的目标和背景以不同灰度变换算法即灰度级别区别开来。设图像g ( x , y ) ,其灰度级范围是【口,6 】。在口和b 之间选择一个合适的灰度阈值t ,则按照上述方法分割后的图像g ( x ,y ) 可由下式( 2 5 ) 或( 2 6 ) 表示:f lg ( x ,y ) tu = 1 0g ( x ,y ) t将阈值设置在一个灰度范围内【,2 】。凡是在灰度内的像素都变为1 ,其他的都变为0 ,如公式( 2 7 ) 所示:nf 1t l g ( x ,y ) f 2u2 1 0其它( 2 7 )在口和b 之间选择一个合适的灰度阈值为t ,则图像g ( x ,j ,) ) 由公式( 2 - 8 ) 或( 2 9 ) 所示。i g ( x ,y )拈10g ( x ,y ) rg ( x ,y ) t将在阈值范围【,f 2 】内的不变其他的变为0 ,如公式( 2 1 0 ) 所示g = 心力 键垮f 2从上面公式可知,图像的阈值分割算法的基本原理可以表示为公式( 2 1 1 )( 2 - 8 )( 2 9 )( 2 - 1 0 )。f z pg ( x ,y ) z“2 1 中其它(2-11)在图像真方图上合理的选取闽值,对于正确划分目标物和背景一p 分重要。如果图绦的背景信号具有比较均匀的灰度值,并分布在目标物背景上,则图像的灰度直方图就由比较明显的双峰,可选择两峰之间的谷底作为阈值。该方法简单,但并不适合两蜂相差较大谷底较平的图像。中国农业大学硕士学位论文第_ 二章基因芯片图像处理分析2 聚类分割法聚类是一种无监督的分类法,可根据样品闻的相似程度自动地对目标进行分类。用聚类方法对灰度图像进行划分,就是使同一类中的灰度之间比其他类的灰度更加相似,从而划分出不同的类别。基于聚类的灰度图像分割算法,首先把, 种灰度分为类,每个群中有且仅有种灰度,然后通过不断地将两个最为相似的类进行合并,从而最终将 个群划分为c 个类中。算法步骤为:i ) 设m = 计算落在每个群中的像素点的数目:2 ) 若脚 f 点k i r s e h 算子由8 个模板组成,算子如式( 2 2 2 ) j 赫l 一355i 一305【一3 - 3 3卜3 - - 3l 一3ol55- - 3 3 3 5 3 一50 350 一【55 3 j1 5 3 一f - 3 - - 3 - 3 1一3o5l - 355j55 - - 3 i5o 一3fl 一3 3 3 j( 2 一1 8 )( 2 一1 9 )( 2 - 2 0 )( 2 - 2 1 )( 2 - 2 2 )2 l a p l a c i a n 算子l a p l ”1 “算子是一种二阶导数算子,对一个连续函数厂( 毛y ) ,它的位置 ,y ) 的l a p l w i 值定义如下,式( 2 2 3 ) :俨m 棚= 堡尝半+ 翟o 掣v。( 2 - 2 3 )在数字图像中,计算函数的l a p l a c i 值可借助模板实现常用的两种模板参见下式( 2 2 4 )1 6( 2 - 2 4 )1o 弓慝1j5q15o 弓511习1 _ 81 _一一一1jo o1 41一一p中国农业大学硕士学位论文第二章基因芯片图像处理分析3 综合改进算子除了以上一阶导数的璜;度算子和二阶导数的l a p l a c i a n 算子比较常用外。还可根据需要对各种常见算子进行改进,但是无论如何改进,都必须遵循的是模板算予之和为0 的准则。2 4 背景提取分析由_ 丁基因芯片图像中的靶点区域信号中包含了图像的背景信号强度,因此需要计算出每个网格内针对靶点的背景信号强度,常用的基因芯片图像背景提取分为整体背景提取法和局部背景提取法。因为杂交反应的不均匀性,基因芯片图像中的各个靶点区域的背景信号并不均匀,所以应用局部背景提取法计算更合理。目前常用的背景信号提取法是周围元素法,属于局部背景提取法。周围元素法就是把靶点边缘外,在该靶点所属网格内的区域内,选取以靶点中心点为圆心的圆环区域作为该靶点的对应局域背景信号,进行提取分析。基因芯片图像上的每像素点信号强度不仅包括靶点信号强度也包括了背景信号强度,在计算靶点信号强度过程中,首先要将背景信号滤除掉。我们考察背景信号的来源,背景信号强度通常是由于基因芯片的基底材料或基因芯片表面上灰尘等造成了荧光干扰主要取
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 美容机构营销活动方案策划
- 吉林建筑动画方案设计公司
- 吐鲁番工程顶管施工方案
- 营销推广咨询报价方案
- 改造小型超市建筑方案设计
- 移动服务站营销模式方案
- 编写施工方案思路怎么写
- 抖音营销方案是什么
- 商业街年度营销活动方案
- 常州整合营销报价方案
- 《春江花月夜》省公开课金奖全国赛课一等奖微课获奖课件
- 人音版小学六年级上册音乐教案(本)
- 19S406建筑排水管道安装-塑料管道
- 《福建省泰宁县》参考课件
- DIP 焊锡外观教材
- 中国儿童青少年身体活动指南
- 加油站人员培训和安全意识教育
- 全国职业大赛(中职)ZZ006水利工程制图与应用赛项赛题库共计10套
- 变压器租赁协议书x
- 高压电气设备试验的基本知识
- 整理我的小书桌(课件)小学劳动二年级通用版
评论
0/150
提交评论