




文档简介
基因芯片数据分析 摘要 基因芯片技术能够同时分析成千上万基因的表达水平 这一技术已经广泛应 用于生物学和医学各个研究领域 在其自身迅速发展的同时数据也在不断的增 加 如何有效的处理和分析芯片实验所产生的海量数据越来越引起研究者们的广 泛关注 基因芯片数据分析简单来说主要包括三块大的部分 数据预处理 数据 的分析 数据的进一步分析 通过三个部分的数据分析后 整合样点的生物学信 息 发现基因的表达与功能可能存在的联系 本论文简单介绍了基因芯片数据处理三个部分的一些内容 主要是阐述了我 们白主丌发的三个新算法 基于累积函数的弱信号处理方法 基于主集寻找的聚 类算法 基于局部切空间校准的非线性芯片数据降维算法 另外 我们还阐述了 用m e t a 方法来综合各个实验室的酵母在不同环境刺激条件下芯片数据进行分 析 发现一些环境刺激表达基本不变的基因 再用多序列比对识别调控元件 具 ar i g n a c e 分析得到一些保守的调控元件 基因芯片数据中会有许多弱信号点 这些点的信号值容易被背景或者噪声掩 盖 必须寻找有效的方法分离有价值的弱信号点和背景点或者噪声 我们发现芯 片数据普遍符合分段线性累积分布函数 根据这一特征来确定信号值的阈值 基 于此确定阈值的方法综合考虑了新片中整体信号强度和背景值的影响 可以保留 较多的有价值点 而且不增加假阳性率 芯片数据的可重复性和可靠性也显著提 高 与使用常规的线性降维方法对基因表达谱进行降维不同 针对处理高维非线 性基因芯片数据的困难 本文引入了一种新的非线性降维方法l t s a 本文从算 法原理的角度讨论了该方法在芯片数据处理中的适用性 并给出了该方法的误差 判定标准 实验结果表明经l t s a 降维后得到的低维投影可视化效果好 分类准 确性高 且在目标维数判断上优于常用的p c a 算法 芯片聚类算法通常聚类前需要事先定义类的数目 得到的类没有统计显著 性 而且类的质量不能得到保证 本文提出了一种新的迭代的聚类算法 首先用 主集方法对原有基因进行重新排序 使高度相似的基因排列在特定区域 然后按 照某种规则从排序后的数据集中划分出一个类 文中从多个方面分析了该算法的 性能 理论分析和实验结果都表明该算法是实用的 有效的并且有很好的抗噪性 能 并且将这种算法用在酵母细胞周期的芯片数据上 发现了许多具有生物意义 的类 而且这种算法得到的类能够很好地用来识别调控位点 本文采用m e t a 统计模型寻找在不同环境条件刺激下表达保持相对恒定的酵 母基因 使得到的基因的假阳性和假阴性都很低 从这些基因的s a g e 表达情 3 基因芯片数据分析 况和在各个芯片实验中的荧光表达强度两个方面验证 我们发现绝大多数基因的 确是一些表达相对恒定的基因 所找到的基因从生物过程 基因功能和细胞内定 位情况看 有一定的相符 并且通过a i i g n a c e 分析 得到两个具有普遍性的元 件 一方面说明m e t a 分析这种方法是有效的 得到的结论也是准确的 它提供 了一种新思路来综合不同的芯片数据进行分析 另一方面得到的基因和元件可能 对基因表达恒定的研究都有启示作用 关键词 基因芯片 弱信号 累积分布函数 聚类 主集 非线性降维 局部 切空间校准 调控元件 荟萃分析 环境刺激表达基本不变基因 4 基因芯片数据分析 a b s t r a c t m i c r o a r r a ya n a l y s i sc a nb e u s e dt om o n i t o rt h ee x p r e s s i o nl e v e l so f t h o u s a n d st ot e n so ft h o u s a n d so fg e n e si nas i n g l ea s s a y w h i c hi st h em o s t w i d e l yu s e df o rt h es t u d yo fg e n ee x p r e s s i o np a t i e r n so nag e n o m i cs c a l e a s m o r ea n dm o r er e s e a r c h e mj u m po nt h em i c r o a r r a yb a n d w a g o n h o w e v e r i t h a sb e c o m ei n c r e a s i n g l yc l e a rt h a ts i m p l yg e n e r a t i n gt h ed a t ai sn o te n o u g h o n em u s tb ea b l et oe x t r a c tf r o mi tm e a n i n g f u li n f o r m a t i o na b o u tt h es y s t e m b e i n gs u i t e d t h em i c r o a r r a yd a t aa n a l y s i sc a nb es i m p l ys u m m e du pt ot h r e e s t e p s d a t ap r e p r o c e s s i n g d a t aa n a l y s i n g a n dd a t af u r t h e ra n a l y s i n g t h e n i n f o r m a t i o no ft h er e p r e s e n t a t i v eg e n e si si n t e g r a t e da n dt h er e l a t i o nb e t w e e n g e n ee x p r e s s i o np a f f e r na n db i o l o g i c a lf u n c t i o ni sf o u n d i nt h i st h e s i s t h et h r e es t e p sa r er e s p e c t i v e l yd e s c r i b e di nb r i e f w ef o c u s o nt h r e en o v e la p p r o a c h e sd e v e l o p e db yo u r s e l v e s at h r e s h o l dd e t e r m i n i n g a p p r o a c hf o rw e a ks i g n a lb a s e do nt h ea c c u m u l a t e dd i s t r i b u t i o n ac l u s t e r i n g a p p r o a c hb a s e do nd o m i n a n ts e t sf i n d i n g ad i m e n s i o nr e d u c i n ga p p r o a c h b a s e do nl o c a lt a n g e n ts p a c ea l i g n m e n t l t s a w ea l s of o c u so nt h em e t a a n a l y s i si nm i c r o a r r a yd a t ao fd i v e r s es t r e s so ns a c c h a r o m y c e sc e r e v i s i a e f r o md i f f e r e n tl a b st of i n ds t r e s su n c h a n g e a b l ye x p r e s s e dg e n e s s u e g a n d t h er e g u l a t o r ye l e m e n t sa n a l y z e db ya l i g n a c et 0 0 1 i nm i c r o a r r a ye x p e r i m e n t s al o to fs p o t sw i t hl o ws i g n a li n t e n s i t i e sa r e v u l n e r a b l et ob a c k g r o u n da n dn o i s eb i a s e s i ti si m p o r t a n tt od e t e r m i n ea n e f f e c t i v et h r e s h o l d w i t hw h i c ho n eo a rc l e a r l yd i s t i n g u i s hl o wa b u n d a n c e g e n e sf r o mb a c k g r o u n d an e wt h r e s h o l dd e t e r m i n i n gm e t h o df o rg e n e e x p r e s s i o ni n t e n s i t yb a s e do nt h ea c c u m u l a t e dd i s t r i b u t i o ni sp r o p o s e di nt h e t h e s i s c o m p a r e dw i t hp r e v i o u sm e t h o d s i tt a k e st h eo v e r a l ls i g n a li n t e n s i t y a n db a c k g r o u n di n t oc o n s i d e r a t i o n u s i n gt h i sm e t h o d t h er e p r o d u c i b i l i t ya n d r e l i a b i l i t yo fm i c r o a r r a ye x p e r i m e n t sa r eg r e a t l yi n c r e a s e d a n dm o r ev a l u a b l e g e n e sw i t hs i g n i f i c a n tb i o l o g i c a lf u n c t i o na r ep r e s e r v e df o rf u r t h e ra n a l y s i s t oo v e r c o m et h ep i t f a l l si nc o m m o n l yu s e dl i n e a rd i m e n s i o nr e d u c t i o n m e t h o d s w ei n t r o d u c ean e wn o n l i n e a rd i m e n s i o nr e d u c t i o nm e t h o d l t s ai n d e a l i n gw i t ht h ed i f f i c u l t yo fa n a l y z i n gh i g h d i m e n s i o n a l n o n l i n e a rm i c r o a r r a y d a t a w ea n a l y z et h ea p p l i c a b i l i t ya n dt h ec o n s t r u c t i o ne r r o ro fl t s a t h e e x p e d m e n t s s h o wg o o dv i s u a l i z a t i o np e r f o r m a n c ea n dt h ec l u s t e r i n g c o r r e c t n e s sd o e s n td e c l i n ea f t e rd i m e n s i o nr e d u c t i o n a n dt h em e t h o ds h o w s 5 基因芯片数据分析 a d v a n t a g eo nd e t e r m i n i n gt h er e d u c e dd i m e n s i o nt h a np c aa l g o r i t h m t od e a lw i t ht h r e ei s s u e st h a th a v eb e d e v i l e dc l u s t e r i n g s o m ed o m i n a n t s e t sb e i n gs t a t i s t i c a l l yd e t e r m i n e di nas i g n i f i c a n c el e v e l p r e d e f i n i n gc l u s t e r s t r u c t u r eb e i n gn o tr e q u i r e d a n dt h eq u a l i t yo fad o m i n a n ts e tb e i n ge n s u r e d a n o v e l i t e r a t i v ec l u s t e r i n ga p p r o a c hi sp r o p o s e d t h ea p p r o a c hs o r t st h e o r i g i n a ld a t ab yd o m i n a n ts e ts ot h a tg e n e sw i t hh i g hs i m i l a r i t i e sw o u l db e r e a r r a n g e dt o g e t h e ra n dt h e nf i n d sac l u s t e rb ys o m ec r i t e r i o n t h en e w c l u s t e r i n ga p p r o a c hi se v a l u a t e do ns e v e r a la s p e c t s b o t ho ft h et h e o r e t i c a l a n a l y s i sa n dt h ee x p e r i m e n tr e s u l t so ft h ea p p r o a c hc o n f i r mt h a ti t i sv e r y a p p l i c a b l e e f f i c i e n ta n dh a sg o o da b i l i t yt or e s i s tn o i s e w eh a v ea l s oa p p l i e d t h i sa p p r o a c ht oa n a l y s ep u b l i s h e dd a t ao fy e a s tc e l lc y c l eg e n ee x p r e s s i o n a n df i n ds o m eb i o l o g i c a l l ym e a n i n g f u lg e n eg r o u p st ob ed u go u t f u r t h e r m o r e t h i sa p p r o a c hi sap o t e n t i a l l yg o o dt o o lt os e a r c hf o rp u t a t i v er e g u l a t o r y s i g n a l s i nt h i st h e s i s am e t as t a t i s t i c a lm o d e li sb u i l tt oa n a l y s i sm i c r o a r r a yd a t ao f d i v e r s es t r e s so ns a c c h a r o m y c e sc e r e v i s i a ef r o md i f f e r e n tl a b st of i n ds t r e s s u n c h a n g e a b l ye x p r e s s e dg e n e s s u e g w i t hv e r yl o wf a l s ep o s i t i v er a t ea n d f a l s en e g a t i v er a t e t h ec h a r a c t e r i s t i co fu n c h a n g e a b l ee x p r e s s i o no fs u e g s i sc o n f i r m e df r o mt w oa s p e c t so ft h es a g ea n dt h ei n t e n s i t i e si nt h e s e m i c r o a r r a yd a t a t h eb i o l o g i c a lm e a n i n go ft h es u e g si sa n a l y z e df r o m b i o l o g i c a lp r o c e s s g e n e f u n c t i o na n dc e l l u l a rl o c a l i z a t i o n a n ds o m e r e g u l a t o r ye l e m e n t sa r ei d e n t i f i e dw i t ha l i g n a c et 0 0 1 i ti sc o n c l u d e dt h a tt h e a p p r o a c ho fm e t aa n a l y s i sc a no b t a i ng o o dr e s u l t sa n dp r o v i d ean e wi d e at o i n t e g r a t em i c r o a r r a yd a t af r o md i f f e r e n ts o u r c e m o r e o v e r t h es u e g sa n dt h e e l e m e n t sm a yp r o v i d es o m ec l u e st or e s e a r c hi ns t e a d i l ye x p r e s s e dg e n e s k e y w o r d s m i c r o a r r a y w e a ks i g n a l a c c u m u l a t i o nd i s t r i b u t i o n c l u s t e r i n g d o m i n a n ts e t n o n l i n e a rd i m e n s i o nr e d u c t i o n l o c a lt a n g e n ts p a c e a l i g n m e n t l t s a r e g u l a t o r y e l e m e n t m e t a a n a l y s i s s t r e s s u n c h a n g e a b i ye x p r e s s e dg e n e s s u e g 6 基因芯片数据分析 第一章前言 第一节基因芯片概述 1 1 1 2 1 1 1 1 基因芯片概述 人类基因组草图基本绘就之后 人类基因组研究计划 h u m a ng e n o m e p r o j e c t h g p 也由此进入到后基因组时代 生命科学研究的重点也由基因序列 研究上升为基因功能研究 旨在弄清从基因组到蛋白组 再到复杂生命系统运行 的奥秘 如此庞大的系统 如果利用传统的方法 全世界的科学家一同工作 则 需要数百年的时间才能完成 高效地研究这数万条基因 迫切需要高效的方法和 工具 科学家们急切需要同时研究成千上万条基因的功能 同时基因之间表达与 调控的复杂网络关系也需研究 这急待需要好的实验手段 能大规模 高质量检 测众多基因在各种生理状态下的表达全貌 显然 传统的以杂交或电泳为基础的 基因表达 测序 突变检测和多态性分析等研究方法 效率太低 无法适应现代 研究的要求 而生物芯片技术为我们提供了高通量的解决方案 生物芯片的概念源自于计算机芯片 我们知道 计算机芯片是指将不同功能 单元集成在一块微型器件上 生物芯片借用了计算机芯片的集成化的特点 把生 物活性大分子 目前主要是核酸和蛋白质 或细胞等 密集排列固定在固相载体 上 形成微型的检测器件 固相载体通常是硅片 玻片 聚丙烯或尼龙膜等 因 此狭义的生物芯片也称微阵列芯片 主要包括c d n a 微阵列 寡核苷酸微阵列 蛋白质微阵列和小分子化合物微阵列 广义的生物芯片是指能对生物成分或生物 分子进行快速并行处理和分析的厘米见方的固体薄型器件 将微阵列技术与生物 微机电技术相结合 通过微加工技术和微电子技术在固体基片表面构建的微型生 物化学分析系统 以实现对细胞 蛋白质 d n a 以及其他生物组分的准确 快 速 大信息量的检测 基因芯片又称d n a 芯片 是专门用于核酸检测的生物芯片 也是目前运用 最广泛的微阵列芯片 它是指在固相载体上按照特定的排列方式固定上大量序列 已知的d n a 片段 形成d n a 微矩阵 将样品基因组d n a r n a 通过体外逆转 录 p c r r t p c r 扩增等技术掺入标记分子后 与位于微阵列上的已知序列杂 交 通过激光共聚焦荧光检测系统等对芯片进行扫描 检测杂交信号强度 计算 机软件进行数据的比较和综合分析后 即可获得样品中大量基因序列特征或基因 表达特征信息 1 9 9 1 年 f o d o r 等人p j 首次提出d n a 芯片的概念 之后短短几年 以d n a 芯片为代表的生物芯片技术就得到了迅猛发展 目前已有多种不同用途的芯片问 7 基谢芯 数据分析 世 而且 有的已经开始在牛命科学研究中发挥重要作用 美国a f f y m e t r i x 公司 率先开展了这方面的研究 1 9 9 1 年 该公司生产了世界上第一块寡核苷酸基因 芯片 同时 探针的荧光标记 激光共聚焦扫描和计算机分析等技术也随之发展 1 9 9 5 年 第一块以玻璃为载体的基因微阵列芯片在美国s t a n f o r d 大学 p o b r o w n 实验室诞牛 4 j j 使基因芯片技术步入了广泛研究和应用的时期 和s o u t h e r nb l o t n o r t h e r nb l o t 一样 基因芯片检测的最一般原理仍然是 基于碱基互补的核酸分子杂交 相对于s o u t h e r nb l o t n o r t h e r nb l o t 中把样本 的d n a 或r n a 固定到 固相 膜上 再用标记探针进行杂交而言 基因芯片 是一种反向的杂交技术 把大量的已知序列的基因探针有序地固定到固相介质 上 这样基因芯片阵列中每个点 的位置信息 实际上就代表了某个特定基因 然后把样本中总的靶基因 d n a 或r n n m r n a 进行标记 与基因芯片进行常 规的分子杂交 从而对基因序列及功能进行大规模 高通量地研究 图1 1c d n a 基因芯片实验 两个样本中的m r n a 反转录为c d n a 并用不同的荧光染料 标记 红色荧光染料c y 5 和绿色荧光染料c y 3 然后和芯片上的d n a 序列杂交 利用激 光扫描仪得到荧光信号 c y 5 和c y 3 的荧光信号强度的比值反应了样本中m r n a 的丰度 该图引自t h eh u m a ng e n o m ep r o j e c ta th t t p w w w o r n l g o v h g m i s 基因芯片研究的基本过程是 待测的样品核酸分子经过标记 与固定在载体 上的d n a 阵列中的点按碱基配对原理同时进行杂交 杂交形式属于固 液杂交 与膜杂交相似 然后通过激光共聚焦荧光检测系统对芯片进行扫描 检测杂交 8 基因芯片数据分析 信号强度 从而获取样品分子的数量和序列信息 再用专门的计算机软件进行数 据的比较和分析最终得出实验结果 图1 1 由于基因芯片对大量信息进行集 约化和平行处理 能够高效 快速地分析多参量数据 使人们对复杂生物网络的 整体分析成为可能 所以它被视为对传统生物技术 如检测 杂交 分型和d n a 测序 的一次重大创新和突破 1 1 2 基因芯片的类型 就基因芯片所用的载体材料而言 可分为玻璃芯片 硅芯片 陶瓷芯片 目 前玻片材料因其易得 荧光背景低 应用方便等优点在国际上被广泛接受 按照芯片的制备方法 大体上可以分为两类 一是在基质上直接原位合成寡 核苷酸点阵 二是用微量点样技术将事先合成好的d n a 片段直接点制于基质上 还有一些公司开发出了别具特色的芯片制备方法 如电子芯片 三维芯片 流过 式芯片等 按照芯片载体上点的d n a 的种类不同 可分为寡核苷酸和c d n a 二种芯片 寡核苷酸芯片一般以原位合成方式固定到载体上 具有密集程度高 可合成任意 序列的寡聚核苷酸等优点 适用于d n a 序列测定 s n p 分析等 其缺点是合成 寡核苷酸的长度有限 因而特异性差 而且合成错误率随长度的增加而增高 寡 核苷酸芯片主要用于点突变和测序等 也可以用于表达谱研究 如l i p s h u t z 等 用寡核苷酸芯片检测鼠t 细胞中细胞分裂基因的表达情况 6 j c d n a 芯片是将微 量c d n a 片段在玻璃等载体上按矩阵密集排列并固化 基因点样密度虽不及原位 合成寡聚核苷酸芯片高 但比用传统载体 如混合纤维素滤膜或尼龙膜的点样密 度要高得多 可达到每张载玻片6 万个基因 c d n a 芯片主要用于表达谱研列 其最大优点是靶基因检测特异性非常好 目前许多国家实验室和大型制药公司都 使用此类芯片 1 1 3 基因芯片的制备 普通基因芯片的制备方法基本可以分为几大步骤 一 载体的准备 二 样 品 探针 的准备 三 点样 四 点样后处理 在某些情况下 可以将后三个 步骤合而为一 譬如原位合成寡核苷酸芯片等 载体是指供基因在上面进行杂交反应的回相支持物 般的载体材料包括 膜 玻片 塑料 陶瓷 及硅等等 目前成熟的商业化基因芯片中 比较普遍的 是以膜或者玻片来作为载体 而由于玻片的诸多优点 采用玻片作为载体的基因 芯片制造商和研究者更为普遍 另外 还要对基因芯片载体进行表面化学修饰 使玻片或塑料等表面附有一层均匀的活性基团 修饰有化学活性基团的基片就如 同在表面涂上了一层强力粘合剂 大大增加了探针在基片上的固定率 9 基因芯片数据分析 制备芯片之前同样需要准备好基因探针 生物学中的探针就是利用分子间特 异性识别作用 用以检测样本中特定的蛋白 核酸或是包含这些生物大分子的组 织细胞等 探针的本身可以是抗原 抗体或核酸等物质 基因探针有2 个层面意 义 i 探针本身是基因或基因片断 i i 是用来检测样本中特定基因是否存在或 表达状况 目前可以用作基因芯片探针制备的核酸序列可以从数以千万计的公开 数据库中获得 但如何从这么多的序列资源中选择适当的基因和恰当的类型来制 芯片是芯片设计需要完成的工作 探针的来源 目前比较常用的有c d n a 探针和寡核苷酸探针 c d n a 就是与m r n a 互补的d n a 由逆转录方法获得 一般被认为是真实 表达的基因 完整c d n a 的长度从几百b p 到几千b p 之间 由于c d n a 文库构 建技术已经成熟 人们比较容易获得一个组织或个体大量种类的c d n a 这些从 文库中扩增得到的c d n a 经纯化 检测 定量分析后溶解在适当的点样缓冲液中 可作为探针在点样法制备基因芯片时直接使用 c d n a 探针适用对于一般的检测 芯片和表达谱芯片的制备 但不适用于基因突变尤其是点突变的检测 c d n a 芯 片在杂交前需要变性处理 在挑选c d n a 探针时 对每个基因的t m 值 g c 含量等的要求并不是很严 选择c d n a 探针首先要考虑的是特异性 研究者可以 根据不同的研究目的进行c d n a 探针的设计 寡核苷酸探针是人工合成的 随意性好 设计创意的空间也大 设计寡核苷 酸探针 研究人员必需对该基因有充分的了解 是选择基因的保守区域还是特异 区域 是一段还是几段 是保留突变位点还是另外引入新的突变位点等 都要实 验者根据具体的需求来考虑 因此 寡核苷酸探针能够满足部分c d n a 探针无法 完成的工作 长度一般选取在15 7 0 m e r 左右的片段 探针往往在5 端进行氨基 修饰 考虑探针在杂交过程中的自由度 在探针的5 端氨基后紧跟1 2 个碳原子 或合成连续的d t 探针的杂交区域应尽量避免形成发夹结构以及二聚体 还要 考虑各探针之间的t m 值 g c 含量应尽可能接近等因素 基因芯片的点样点样机器人 点样仪 来完成的 利用点样机器人的直接点 样法是最重要的芯片制造方法之一 点样机器人的工作就是将探针序列通过接触 式针点或非接触式喷点的方法点到预先进行过化学修饰的基片上 点制的芯片经 过后处理去除游离的探针 就得到了所谓的基因芯片 点样机器人主要是由三维工作平台 点样针 或非接触式点样的喷嘴 和计 算机控制系统三部分组成的 另外 为了保证点样系统所处环境具有适宜的湿度 和洁净度 可能还会附加有一些湿度计 空气过滤系统及超声清洗系统等配件 点样时环境的温度 湿度及洁净度都会对最终芯片的点样效果产生影响 环 境温度变化会影响样品板及点样针尖所取样品的挥发速度 还会改变d n a 样品 1 0 基因芯片数据分析 的密度和黏度 造成基因芯片的漏点或大点 融点现象 适宜的湿度主要也是为 了控制稳定的样品挥发速度 维持均匀的样品点形状 同时也为样品与基片的共 价结合创造合适的条件 而环境中的灰尘颗粒黏附在芯片上会影响杂交结果 造 成一些非特异性的强信号 因而 除了点样机器人自配的一些空气过滤系统和湿 度调节系统外 点样的空间最好能够选用超净室 再配备空调保持点样室恒温 另外 由于四季的气候变换 特别是在雨季和旱季环境湿度的变化非常大 还要 在点样室内准备加湿 除湿系统防止室内过分干燥或潮湿 在基因芯片制备过程中 对点完样的芯片进行后处理是其最后一道工序 也 是其中非常关键的一道工序 后处理的目的主要是为了使探针能与载体表面牢固 结合 同时 还对载体上未与探针结合的游离活性基团进行封闭以避免在杂交过 程中非特异性的吸附对实验结果 特别是背景 造成影响 因此 芯片点样后处 理的结果直接影响了实验结果的好坏与否 更高的探针固定率可提高杂交时的灵 敏度 而封闭效果好的芯片在杂交后的背景特别干净 所得结果相对更为可靠 1 i 4 m r n a 的制备 标记和芯片杂交 表达谱基因芯片研究的对象是样本中的m r n a 抽提出的m r n a 需要经过 反转录酶的作用转变为c d n a 同时进行荧光标记 标记好的c d n a 靶分子就可 用于杂交 基因芯片实验中的r n a 抽提大都采用分子生物学中传统的方法 唯 一的要求是该方法必须能够尽可能多的抽提出组织中的r n a 分子 这对实验数 据信息与组织中m r n a 拷贝数信息之间保持平行性十分重要 m r n a 的纯化方法分为两步法和一步法 两步法首先是从样本中制备总 r n a 再从总r n a 中分离m r n a 总r n a 中包括r r n a t r n a 和m r n a 其 中9 0 以上是r r n a 和t r n a 分离m r n a 的原理一般利用真核生物的m r n a 的3 端都有p o l y a 尾 用p o l y d t 纤维素亲和层析纯化m r n a 一步法是指 从组织样本中直接用p o l y d t 纤维素亲和层析纯化m r n a 这种方法简便 但r n a 的纯度不够 当组织量少或对r n a 质量要求不高时可采用 对基因芯 片讲 需要的r n a 量大 纯度高 因此一般采用两步法纯化m r n a 大量抽提m r n a 靶分子也是既耗时又费力的 由于m r n a 逆转录合成c d n a 时 可以用p o l y d t 作引物 因此也可以直接用总r n a 作为摸板 直接进行 逆转录标记 这样不但简化了步骤 而且减少m r n a 的损失 从而减少对组织 的需求 但需要注意的是总r n a 的纯度由于不如m r n a 高 在一定程度上会影 响到逆转录标记的效率 从而降低成功率 因此需要尽可能保证总r n a 的纯度 荧光标记是芯片实验信息采集中使用得最多也最成功的标记方法 其基本原 理是利用了标记分子在特定的波长范围将被激光光源激发出荧光这一特点 从而 对含有标记分子的样本进行检测 这种标记方法没有同位素标记的限制 而且具 1 1 基因芯片数据分析 有极高的灵敏度 能够进行定量检测 因此被广泛的用于芯片样本的标记 目前已知有数十种荧光标记物可以用于样本标记 标记方法也有单色 双色 和多色等标记方法 其中较常使用的标记方法是利用花青素 c y a n i n c y 3 c y 5 进行双色荧光标记 其激发和发射波长分别为 5 5 0 5 7 0 和6 4 9 6 7 0 目前大部 分厂家生产的扫描仪都能对这两种荧光标记进行图像处理 1 1 5 芯片杂交和芯片扫描 将靶分子变性后 与芯片进行杂交 在4 2 摄氏度保温箱中 与杂交仓内反 应1 4 1 8 小时 即可洗片 扫描检测 理论上 杂交量依赖靶d n a 和探针的浓 度 当靶d n a 浓度一定时 荧光信号强度在一定范围内与探针量成线性关系 因此对于表达谱芯片 两种不同标记的组织探针混合后 对同一张芯片进行杂交 杂交后 两种荧光信号的比值就代表了该基因在两种组织中表达差异 对于寡核 苷酸芯片的再测序及突变检测 可以用单色荧光标记待测样本 信号的强弱或有 无代表位点的变化 对于像荧光染料等标记的标本 其杂交结果的检测则是通过专门的芯片扫描 仪完成的 基因芯片扫描是一项精细和耗时的工作 要得到一张完美的芯片杂交 图谱需要耐心的调整和仔细的校验 目前的基因芯片扫描仪主要有基于用p m t 光电倍增管 和c c d 电耦合 器件 作为感光器件的两种 这两类扫描仪各有其特点 光电倍增管是基因芯 片扫描仪检测系统的核心器件 根椐系统要求选择合适的光电倍增管对提高整个 检测系统的性能很关键 为检测微弱荧光信号 需要高灵敏度 高信噪比 大动 态范围的光电倍增管 此外 为适应快速扫描 光电倍增管的响应速度也要达到 一定的要求 c c d 芯片扫描仪相对来说结构比较简单 c c d 的选择应该与被 测芯片的密度相适应 芯片密度高时 应该选择像素较多的c c d 反之则应选 择像素少的c c d 利用基因芯片扫描仪对杂交后的芯片进行扫描 获得相应的实验数据是研究 人员最关心的问题 一般基因芯片扫描仪的操作过程如下 将芯片放置于专门设 计的载物平台 确认其己置于初始位置 粗扫 一般5 0 p m 或1 0 0 p m 的扫描精 度 确定矩阵区域 调整扫描区域 精扫 一般5 1 j m 1 0 p m 或2 0 p m 的扫描精 度 根据扫描仪的精度以及用户的需求调节 获得芯片图谱 软件分析的得到 每个基因的信号值 再进一步分析其表达特性 1 1 6 芯片实验的设计 双色荧光c d n a 芯片的实验设计包括2 个方面 第一是准备实验样本 对 样本的处理可以依据它本身的许多特性 如性别或是不同生理状态下的生物体 1 2 基因芯片数据分析 依据研究者感兴趣的方面来设计 每一种处理方法准备至少2 个样本 以保证生 物学上的可重复性 第二是抽提r n a 样本 技术上的重复可以是两次独立的样 本抽提或是一次抽提的两份等量 两组r n a 分别用不同的染料标记 然后将它 们混合和芯片杂交 对照样本在研究基因差异表达时是必不可少的 对照组一般采用2 种类型的 策略以校正数据 特殊参照 s p e c i a lr e f e r e n c e 和通用参照 c o m m o nr e f e r e n c e 特殊参照是与实验组相对应的正常或没有经过处理的组织或细胞 得到的比值直 接反应出差异基因的信息 通用参照常用与实验组无关的多种细胞系或组织的混 合m r n a 其好处是来源不受限制 而且m r n a 的种类丰富 保证更多的有效 点 缺点是只能用于多检测样品的聚类分析 单次实验的信号比值没有意义 在实验的设计中 必须考虑实验组织和参照组织r n a 样本是否容易得到以 及所需的费用 另外还需考虑芯片本身的费用 在设计样本配对时必须根据具体 的实验目的来进行设计 另外 芯片上每个点的编排会直接影响到最后数据的归一化和分析 芯片中 的所点的样点形成的控制系统包括定性控制系统和定量控制系统 定性控制主要 是指对实验过程的控制 包括从芯片制备 样本处理到杂交扫描各环节的监控 目前主要的控制系统有 1 空白点 目的是控制芯片制备过程的污染情况 2 阳性内参 是对实验阳性结果的说明 3 阴性内参 是对实验阴性结果的说明 在实际应用中 可以设计不同的阳性和阴性内参 针对实验的每一个环节如样本 处理 扩增 标记 杂交等步骤进行监控 定量控制是指对实验结果的修正 一 般要选用一些定量的内参或已知标量的基因 如管家基因 为对照 对实验样本 的检测对象进行一个量化的修正 这些控制点在芯片上应当尽量随机分布以减少 相似度 控制系统能提高芯片的精确度 消除由于擦痕 灰尘和污染等带来的误 差 并提供信息和校准数据 在个别实验室还采用外参 即选择与研究物种的基因没有同源性的基因作为 外参照 通过体外转录制备外参基因的m r n a 并按一定比例加入待测样本和 对照样本的r n a 中 以便矫正两个样本之间的差异 但由于外参照是在标记前 人为加入的 用量也非常少 通常p g 级 会引进误差 如取样误差 r n a 降 解或样本r n a 定量不准等 都会引入误差 因此不如内参照有用 1 1 7 基因芯片的应用 基因芯片是一门新兴的技术 虽然目前在很多技术细节上还有待完善 但它 可同时 快速 准确地分析数以千计基因组信息的独特本领在前期的科研工作中 已显示了巨大的作用及应用潜力 已经应用的领域主要包括基因表达检测 突变 检测 基因组多态性分析和基因文库作图以及杂交测序等方面 可以预见在不久 1 3 基因芯片数据分析 的将来 基因芯片技术会广泛地应用于各个领域 在医学上 可用于遗传病的遗 传机制研究及诊断 病原体及分型诊断 耐药性检测 药物筛选 各类实质性器 官的移植和骨髓移植中供受体的配型 毒理学研究 实现用药个体化等 例如 将已知的多种传染病或遗传病的基因点于同一张芯片上就可以对一个标本同时 进行多种疾病的检测 并且具有灵敏度高 特异性好 结果快速可靠的优点 在 法医学上可通过芯片测定个体的遗传特性 从而进行亲子鉴定 个体识别和建立 s n p 指纹库 另外 还可以通过分析个体的基因表达谱确定健康状况 更好地 预防疾病 除此之外 基因芯片技术在环境保护 军事 司法 农业等领域也 具有广泛的应用前景 寻找可靠便捷的肿瘤标记性基因是肿瘤诊断治疗 预后判断的重要前提 基 因芯片是进行表达谱分析和筛选肿瘤标志性基因的最有效手段 目前临床诊断分 类分级对肿瘤的临床变化过程和对化疗 放疗敏感性的信息获取上存在明显缺 陷 不能较好地预测肿瘤的临床行为及治疗效果 基因芯片在肿瘤的临床诊断方 面具有独特的优势 与传统检测方法相比 可以在同一实验中大规模监测和筛选 肿瘤的相关基因 建立基因表达谱 通过比较肿瘤组织与相应正常组织表达谱之 间的差异 筛查肿瘤相关基因 分析这些相关基因的功能就能从分子的水平上理 解肿瘤的本质 可以在一张芯片上同时进行多种疾病 多个临床指标高通量检测 极高的灵敏度和可靠性 待测样品用量小 检测成本低 自动化程度高 利于大 规模推广应用 这些特点使得医务人员在短时间内 可以掌握大量的疾病诊断信 息 有助于在短时间内找到正确的临床治疗措施 许多肿瘤有染色体畸变 而且某些畸变 如非整倍体性增加和缺失等 还是 某些肿瘤的特征性改变 由此就一直推测肿瘤特异增加的染色体区段可能含有原 癌基因 特异缺失或拷贝数减少的区段可能含有抑癌基因 为了更加高通量而精 确地显示染色体畸变的具体位置 由荧光原位杂交 f i s h 技术衍生出了比较基因 组杂交 c o m p a r a t i v eg e n o m i ch y b r i d i z a t i o n c g h 技术 对细胞分裂中期染色体 进行c g h 研究 为我们了解诸如实体瘤的复杂恶性肿瘤的细胞遗传学作出了显 著贡献 由于人类基因组计划 h g p 以及由自动点样技术进展而诞生的c d n a 微阵列技术已经能够高通量分析肿瘤的差异表达 针对染色体c g h 技术缺陷的 一种新兴平台将c g h 与微阵列检测表达技术结合起来 通常被称作 微阵列 c g h 嘲 微阵列c g h 不使用细胞分裂中期染色体 而使用排阵并结合在玻片 上的短小d n a 片段作为用于杂交的 靶标 t a r g e t s 用待研究基因组d n a 作 为 探针 p r o b e n o 只要微阵列上有足够多的代表性克隆 该系统就能显著增加 不平衡区段的定位分辨率 而且 就像表达谱微阵列分析一样 微阵列c g h 的 分析也是简单明了和自动化的 1 4 基因芯片数据分析 人类个体之间约9 0 的基因差异表现为单个核苷酸的多态性 s n p 被认为 是一种稳定遗传的早期突变 它与疾病有着稳定的相关性 如骨质疏松症 肿瘤 心血管疾病 神经疾患 自身免疫病 糖尿病等 由于遗传多样性 特别是s n p 的多态性 使得不同个体对不同药物的反应不完全相同 通过研究遗传多样性与 个体药物敏感性和耐受的相关性 不仅可以解释引起这些差异的根本原因 还能 够在一定程度上指导特异性药物的开发 寡核苷酸基因芯片作为一种s n p 研究 工具 其高通量 并行和简便的特点将为单倍体功能研究提供了强有力的支持 a f f y m e t r i x 公司早期开发了b r c a l p 4 5 0 p 5 3 芯片 之后又推出了
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025版个人建房合同协议书
- 阜城实验中学2025届高三上学期第一次月考政治试题(含答案)
- 2025单身公寓装修合同
- 情感教育对美术教学评价体系的构建影响
- 可持续建筑材料在节能建筑中的应用与效果
- 绿色家居材料的资源循环利用与环保性能提升
- 地球化学在资源勘探与环境保护中的应用趋势
- 利用可视化工具进行科学知识的互动教学
- 2025年健康教育知识测试题及答案
- 用户行为与绿色建筑碳中和目标实现的关系
- 安全素养提升培训考试题及答案解析
- 动量守恒定律模型归纳(11大题型)(解析版)-2025学年新高二物理暑假专项提升(人教版)
- 2025股权转让合同签订股权认购协议书
- 某小区改造配电室(电力)工程监理大纲
- 慢性阻塞性肺疾病(COPD)护理业务学习
- Z20+名校联盟(浙江省名校新高考研究联盟)2026届高三第一次联考化学及答案
- 产科危急重症早期识别中国专家共识解读 3
- 医疗器械配送应急预案模板(3篇)
- DB65-T 4803-2024 冰川厚度测量技术规范
- 护理专业新进展介绍
- 2025年保监会保险机构高级管理人员任职资格考试题库附答案
评论
0/150
提交评论