已阅读5页,还剩87页未读, 继续免费阅读
(微生物学专业论文)微阵列制备及mfulvus+hw1耐盐相关基因表达谱分析.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下, 独立进行研究所取得的成果。除文中已经注明引用的内容外,本 论文不包含任何其他个人或集体已经发表或撰写过的科研成果。 对本文的研究作出重要贡献的个人和集体,均已在文中以明确方 式标明。本声明的法律责任由本人承担。 论文作者签名:日期:里2 :坌主:也 关于学位论文使用授权的声明 本人完全了解山东大学有关保留、使用学位论文的规定,同意学 保留或向国家有关部门或机构送交论文的复印件和电子版,允许论 陂查阅和借阅;本人授权山东大学可以将本学位论文的全部或部分 容编入有关数据库进行检索,可以采用影印、缩印或其他复制手段 存论文和汇编本学位论文。 ( 保密论文在解密后应遵守此规定) 文作者虢娅导师躲浆:址日期:塑苎生 引伲 山东大学硕士论文 摘要 由于早先大部分粘细菌是从土壤环境中分离的,并且不能够在海水盐浓度下 生长,所以粘细菌曾被普遍认为是典型的陆生细菌。然而随着分子生物学技术的 发展,有研究人员利用1 6 sf r n a 基因文库技术在海洋沉积物中发现了粘细菌相 关序列的存在,并于1 9 9 9 年起成功从海洋环境中分离出了不少耐盐和嗜盐粘细 菌菌株。脑脚鲫坷加m 盯h w l ( a t c cb a a 一8 5 5 ) 是本实验室从海水样品中 分离得到的一株海洋粘球菌它能够在0 1 3 0 的海水浓度的培养基上生长,最 适生长浓度为0 - 8 0 的海水培养基。m 觚h w - l 在海水条件下表现出特殊的 细胞行为,如不依赖于细胞密度生长,不依赖于子实体形态发生的粘孢子形成等。 双组分系统是一类广泛存在于原核生物中的信号转导途径,通过调控基因表 达使得生物体可以对变化的生活环境产生适应性应答,在细胞感应渗透胁追过程 中起到了重要的作用,并且在粘细菌的生长、发育及社会性运动的信号传导和调 节过程中,也广泛存在着双组分系统。我们可以推断,双组分系统在麒且如w h w l 适应海洋环境中起到了重要的调控作用在双组分系统的调控下,一些 外膜蛋白( 如:如k + 通道蛋白、与亲水性的小分子物质吸收排出相关的孔道蛋 白等) 数量上发生变化,从而调节膜对盐离子的通透性,起到调节渗透压的作用。 为了证实以上推论,我们采用了表达谱分析法来研究m 丘,p w h w 一1 在海水、淡 水两种环境下这些基因表达的差异,以揭示双组分系统和外膜蛋白等在粘细菌适 应海洋环境过程中起到的作用。 以mm h 胁wd k l 6 2 2 的不完整基因组序列为材料,使用g i i m c r 软件预测 获得丁9 3 1 4 个o r f s ,经过进一步剔除一些不符合生物学特征的o r f s 后,最终 获得了7 8 9 5 个o r f s 。再利用t m h m m 、s i 零1 a i p 、p s o r t b 及s m a r t 等工具 预测了这7 8 8 5 个0 r f s 可能的拓扑结构、亚细胞定位阻及功能结构域,筛选获 得了3 8 6 个芯片制备候选基因,其中包括可能的2 3 3 个双组分系统、8 2 个外膜 蛋白、2 0 个胞外蛋白以及5 1 个胞周问隙蛋白基因。利用岫d e s i g l l c r v 3 o l 软 件对3 8 6 个候选基因的p c r 扩增引物进行了批量发计,根据理想参数进行挑选, 共成功获得3 6 0 条靶基因的引物序列,其中包括双组分系统基因2 2 6 个,外膜蛋 山东大学硕士论文 白基因7 4 个,胞外蛋白基因1 8 个,胞周间隙蛋白基因4 2 个。此外,我们还加 入了6 0 个己知的可能与粘细菌运动相关的基因。 我们以d k l 6 2 2 基因组肼q a 为模板,成功扩增出了4 1 1 个靶基因片段作为 微阵列固定探针,并设计制备了一个含有上述探针的低密度芯片。通过腻期月抽m d k l 6 2 2 和m 向如mh w 1 基因组d n a 芯片共杂交实验,我们证明了此芯片不 仅质量可靠。而且也可用于h w 1 菌株的基因表达谱研究。 经过大量的反复试验探索,确定了提取样品r n a 的最佳菌体状态、最佳提 取环境及相关步骤后,我们分析了m 丘,n 目h w - l 在淡水和海水培养条件下的表 达谱差异,得到了9 4 个差异表达的基因:在海水中上调表达的基医有1 0 个,其 中有6 个双组分系统、1 个外膜蛋白、2 个胞外蛋白和1 个周质蛋白;在淡水中 上调表达的基因有科个,其中有2 9 个双组分系统、1 9 个外膜蛋白、5 个胞外蛋 白、1 4 个周质蛋白和1 7 个粘细菌运动相关基因。通过综合分析各个基因的预测 功能和表达差异度,我们从这些差异表达基因中挑选出双组分系统基因t 1 0 5 和 外膜蛋白基因o m 0 3 1 ,利用实时荧光定量p c r 技术检测验证了这两个基因的微 阵列数据的可靠性,并将通过建立相关基因缺失突变株来进行功能验证。目前, 我们已经成功地构建了缺失载体,后续工作正在开展中 关键词:n n a 微阵列;表达谱分析;海洋粘细菌m ,弛h w 1 双组分 系统;外膜蛋白 2 坐查查兰堡主堡奎 a tf o i q 瑚m o s to fi n y ,【0 b a c t e f i aw e r ci i 删f m ms o i l ,s o 恤m y x o b a c t c r i a w 盯e n s i d e r e dt 0b e 帅i c a l i lm i c r r g 孤i s r 吣锄dn o 叫x o b a c 砸u m u l d 删删i v ei ds e a w a 俯b 哦w nt h ed 删e l o p l 嗍to fm o l u l 骶“沁l o 盱,t i l ee x i 啦n c eo f m eb t e r i a lp h y l o t y p e sc l o 踞l y 咒l 咖dt o 哪o b 毗e r i ah 陷b e 朗t c g t 墒c db y p h y l o g e n e 6 c 锄a l y 踺so f1 6 sr d n a 曲印1 e 1 1 曲姗p h f i c d 劬mm a f i 鹏s 眦p l c 3 ,a n d 羽o 蹰dm o 他哪o b a c l 丽ah a v eb 嘲i s o l a 圭e d 丘d m 瑚豳ee v i r o 啪。嗽ss i n c e 1 9 9 8 mm 响佗吵o b a c 吨 咖d 删脚咄 h w - 1( a t c cb a a s 5 5 ) i l 砷c d 丘o ma 嬲i d e 曲m p l eb yo l 】rl a bh 鹊av a r i e 哆o fd i 岱髓tc h a r a c t e r i s t i c s n i p 娥dw i mt 啪e s t r m 删,【0 b a c t e r i a ,s u c h 越c e l l u k n s i 母一i 确印朋如n t 寄咖曲 a n ds p h e r i c a lc e l l sc l l a r a c t e r i s l i c s 鼬de t c t v 删p e n ts i g n a lt r a n s d u c t i p a l 量1 w a y sl 铆o c 伽聊m t m ts y s i c n l ) 谢d c l y e 正s t i l ib a c t e 慨a 耐p l a ya m 萄o rr o k i n t h c 托s p o n 辩“b a c t l 耐a t 0o 蚰w 血s 嚣s b y 圮g i i l a t i n gg 蛆ee x p r e s s i a l s o ,t w o - c o m p o n 嘣黟s t 哪h 舔k f o u “ c o n 血o l h n gg e 船e x p r e s s i o no f 蚺,) c o b a c 旧i a 娜c h 勰b cr e g u l 砌蛳o fg r o w m , d e v e l o p 雠m ,s o c 试m a t i l i _ 可a “蛳a l m o u 曲也e 佗i 3 t c p o f td b o 憾n 虻 t w o c 锄1 p 叩衄t 巧s t e mi i l v o l 谢i n 啪n cs 订s s 托s p 辩,b u tw e c 舭a s 咖m 血砒 崛t w o _ c o m 】p 衄朗ts i 印a l 仃啊n s d u c “o np a t h w a y sa l s op l a y8k e yp a r ti nt h ea 血p t a 石o n o f t h e 衄i r i n e 蚰v 曲i l m e mb y 陀g u l a i i n gt h c 锄硼to f s o m eo 咖m 锄b r a 即l c j 璐 s ,i n g 鼬c h 锄e lp r o 瞄璐0 r 衄l s p o r t e s 柚d 扛yt dp m v e 山踞s 岫p c i o nn l 】r o u g h g e “p m 镕i o np m f i l e a l y s 谴 f i r s t ,w ea 玎旧l y z c d 山e m c 0 瑚p l 鼬e i y 托l e 醛e dg 即o m es e q l 嘲埘嚣o f d 孵o e o c c 懈 脚咖埘d k l 6 2 2a i l d 舯耐i c t e d9 3 1 4o r f sb y 璐i n gg l i l r m l e ra f t e rd c l e d n go r f s 谢m n b i o l o g b ic t 麟t c d 妣s ,帆f i 雌l l yo b l a m c d7 8 8 5 o r f s o c mo f t w o 啪唧m c ms y s t c n k 咄r 雠m b r a m 即嘶,p c r i p i l n i cp r o 惦i 锄de x 呲e 1 m rp r o t c i n s w 雠p r e d i c t e db y 瑚i n gs i g n a 吧删m ,p s o ma n d s m a r t a n dw e l e c t c d3 8 6o fn l e mf o rm i c r r r a yd e s i g i l ,i i lw b i c ht h e 代矾2 3 3 山东大学硕士论文 t 、o m p o n e ms y s t 哪。褂? s ,8 2o l i i c rm 咖b i 如。p m t e i 璐,2 0e ,【i 姗嘲l j rp 眦i 略 a n d5 lp e 酃l 勰r n i c 芦o t e i 璐u s j m ga r r a yd e s i g 咐v 3 o l ,w ef - 眦l l yd e s i g d e d 岫 皿m 啪o f 3 6 d o r f s f o r 胁h e r i e 嘲咒h ,a n d 踟i l g m e s e o r f s :7 4 0 r f s f o r o 嘲 m e m b r 蛐ep r o t e i i l s ,4 20 r f sf b rp e r i p l a 锄i cp r o t e i n s 1 80 r f s 断e x 咖c e i l u a l r p r 0 蛐s ,o fw l i i c h m cf l l i i c 曲璐骶a l l 皿h l d w n 锄dm e 北s t2 2 6o r f s 缸 t w o _ c o m p o n 哪盯s t e m s 6 0g e g r e l 砷e dt om 即沁b a d c r i am o n l i 黟w 哪a l 瓤i d 。dt o t h em i a b y d k l 6 2 2 舭g 姗ed n a 霹r v c d 嬲t c m p l 如,a n d4 1 1 切r g dg c n e sw e 他 s 睇髓嚣f h l l y 唧瑚i c d 硒也cp f 6 b c sa f 血c 砷甜r a 弘s l i b 辩q l 址m i y ,w cm a d ca m i c r o a 啊y n 缸i n i n g 出e4 1 l 掣聃鹤m e m i o n c da b o v c 觚dt c s d f i e di bv a l i d 时i l l g 黜e x p r e s s i o n p m f i l c 蹰嘶s i so f 膨倒哪h w - lb yh y b f i d i z 崦m e 窖哦d n a o f 腻湖枷啦d k l 6 2 2 锄d 膨扣f w 嘏h w 一1 a f b e rc 邮商 1 n i n gt h eb e s ti s o l 址i o nc 册d h i 吼so fr n aw ec o m p a r e d1 h eg 廿圮 e 冲嘲s i i mp f 0 6 l eo f h w 二1g r 0 而n g 皿d 盯t i l cm a r i 朗v 的硼a e i l t 嘶m t h e 衄e 吼d e r 缸s h w 锄盯锄诎锄e 鸸a n df 0 岫d9 4d i 肫咖t i a l l y 叩s s c dg e n e s u n d 盯m e m a f i n ce v i m m n 蹦1 0g e n 既w e 地i l i g h l ye x p r e s s c d ,mw l l i c h l c r ew e r c6 t w o c 伽p c 咄眦s y s l 鼬sg e 鹏s ,lo u 自盯m c i i l b i a 船p m t e i ,2 懿仃习髓l l u a l rp r o t e i 潞锄d lp e 却l a s m i cp r o 埘n ;瑚d e rt h e 丘e s h w 重吼e i l 啊r 咖e n t ,8 4g e n e sw e 他k g h l y e x p r e 刚,;丑w h i c h 也e r ew e 愆2 9 帆m p o n e n ts y 蛐g e n e s ,1 9 o u t e rm 哪b 锄e 肚j n s ,5 【n e i l l l a i f 跳i 地a n d1 4p e r i p l & 删c 脚盥 a n a l y z i n g 恤州i c t e df l l n c t i 缸d 也el e v d so fd i 疵t i a le x 呻s 加o f 血o g c 船s ,啪p i c k c dl l pt w og e 螂f r l 0 5 ,o m 0 3 1 ) c l o 辩l yr c l a t e d t om e a d a p 谢i 蚰 o fm a r i n ee n v j 如曲:n c n t ,a n dc o i n n e dt h ev a l i d a t i o no fm i c f o a r 托yd a t ab y q l 姗矗t a t i v c 聆a l - t i l n er t - p c r 1 k 删虹瑚m c 如n c 吐o l l so fn i ct w o 萨sw mb c t e s t i 6 e d mt l cm u t a n 扭a t 衅n w eb a v es u c c e 籍f 1 1 l i yc o 邮m 】c t c dl l l ek n o c k o 眦 v e c t o r 明dm ef o n o w t m gw 盯k 觚ei np r o c e 潞 1 ( e y w o r d : d n a m i c r o _ r r 4 y ;g e n ee x p 件s 咖np 啪i ea n a l y 3 j 摹; m a r i n ed 取枷c 唧船肛如搬h w 1 ;o u t e rm e m b h ep r o t e i n i t 啸o c o m p o 琳n ts y s t e m s 4 山东大学硕士论文 1 1d n a 微阵列技术简介 第一部分文献综述 d 小i a 微阵列( d n am i c o 姗y ) 又称基因芯片( g c n c c l l i p ) 或d n a 芯片( d n a c h i p ) ,是随着人类基因组计划的逐步实施而产生的一门新的基因分析技术。它 是指按预定位置将千万个核酸分子固定在固相载体上很小面积内而组成的微点 阵阵列,然后标记分析样本中的核酸片段,并与微阵列中已知的核酸片段杂交 通过仪器检测便可以确定分析样品中的核酸序列和性质,从而对基因序列特征及 其表达特征信息进行分析。 同s o i l l i m 印迹和n 0 r t i l e m 印迹原理一样,d n a 微阵列检测同样是基于碱 基互补的核酸分子杂交。s t h e m 印迹和n o r m e i l l 印迹是一种正向的杂交技术 即将靶基因固定在固相介质上,然后与标记的探针杂交;与之相对应,d l n a 微 阵列则是一种反向的杂交技术它是把大量的已知序列的探针按一定顺序固定到 固相介质上,需要标记的是样本中总的靶基因( d n a 或r n a ) 。与s o u 山e m 、 n o r t h e m 相比,研q a 微阵列作为一种新型的测序和杂交方法。可以对大量的信 息进行高通量的检测,具有高度并行性、多样性、微型化和自动化的特性,从而 解决了传统核酸印迹杂交技术操作繁杂、自动化程度低以及检测效率低等不足之 处f “。通过设计不同的探针序列,使用不同的分析方法,d n a 微阵列技术已 经在许多生命科学领域中得到了广泛的应用,尤其在功能基因组研究中,更是被 当作研究生物体的胁迫应答、表达谱,基因组分型药靶筛选以及药物毒理学研 究的利器。 l ,l 。ld n a 微阵列的分类l 根据固定探针类型的不同,可以将微列阵分为两类;一类是基于p c r 产物 的微阵列,其固定探针可以是p 僳扩增获得的d n a 片断,也可以是根据每个基 因的m r n a 逆转录后得到c d n a 片断:另一类是寡核苷酸芯片,其固定探针是 事先设计并合成的4 0 1 0 0 个碱基的寡核苷酸前者主要用来检测基因表达;后 者既可以用来检颡4 基因表达,也可以用来研究基因组结构、检测基因突变和筛查 5 山东大学硕士论文 单核苷酸多态性等。 根据功能的不同,又能将基因芯片分为基因表达谱芯片和d n a 测序芯片两 类。基因表达谱芯片通过固定在芯片上成千上万个基因特异的探针,对来源于不 同个体、组织、细胞周期,发育阶段、刺激下的细胞内m r n a 进行检测,从而 对这些基因表达的个体特异性,组织特异性、发育阶段特异性和刺激特异性等特 性进行综合的分析。通过对这些基因的整体分析,我们能够全面并且非常准确地 揭示其基因产物和转录模式之间的关系。从而确定相关的基因调控网络和参与其 中的功能基因。m q a 测序芯片则是基于杂交测序原理工作的t 靶核酸分子与含 有8 个碱基或者2 0 个碱基的寡核苷酸微列阵杂交后,通过一系列的方法除去 错配或不完全匹配的杂交影响,然后根据完全匹配杂交探针的重叠序列捧列,拼 接出靶基因的序列。与传统的测序方法相比,基因芯片方法的检测速度更快,费 用更低,并且易于自动化,在大规模的测序上具有一定的优势脚月 1 ,1 2d n a 微阵列在细菌研究中的应用: 作为一种研究表达谱的强有力工具,微阵列技术不仅能发现己知基因在细胞 生理过程中的作用,还能够预测未知基因的功能。这种特性使微阵列技术被广泛 的应用到细菌的各种研究中。我们可以将这些研究领域分为三个大类; 1 ) 胁迫肝境变化应答的表达谱研究: 虽然是单细胞生物,细菌对环境随机变化的反应机制却是多种多样,这证明 了细菌基因组具有丰富的“信息”来帮助细菌适应环境。为了研究这些机制,促 进对细菌基因组的解读,可以应用微阵列技术研究细菌对来自环境的特殊刺激所 做出的反应以及相应的表达谱变化,揭示细菌对不同环境应答的分子机制。各种 应激反应研究包括盐击、热冷击、酸胁迫、氧化应激、d n a 损伤和抗生素应激 等等,各种类型盼营养缺乏应激研究,细胞之间和细菌与宿主之间的交互作用等。 都属于这一范畴。 2 ) 基因组组织和转录调节的研究 d n a 微阵列也被用来研究细菌基因组中操纵子的组织结构和转录机制以及 细菌的转录调节系统。 a 操纵子的组织和调控结构: 6 山东大学颅士论文 在细菌基因组中,功能相关的结构基凶往往组成操纵子结构,即功能相关的 几个基因前后相连,再加上一个共同的调节基因和一组共同的控制位点( 启动子、 操作子等) ,在基因转录时协同动作,由此构成了细菌转录调控的主要形式。同 一操纵子基因之问的转录表达具有较高的关联性,其表达数据可以作为分析未知 操纵子结构的一个参照。s a b a t 6 便利用了已经发布的ec o 甜微阵列数据,提出 了一个预测操纵子结构的理论框架,此框架能通过计算操纵子基因之间的关联 度、非操纵子基因的关联度和未分类基因的关联度,来预测操纵予结构。 b 细菌的转录调节系统 使用m 4 a 微阵列技术,我们可以分析细菌的表达谱差异,从而研究控制基 因表达的s i g m a 因子、双组分调节系统等基因表达调节系统。如:通过比对肋c 的突变株和野生株的表达谱,z i m m 盯d p 等揭示了e f f 中的n i 仃。鲫碍g u l 卿 p r o 忙i nc ( n 仃c ) 调节细菌的生长速度以适应氮饥饿的功能唧。用同样的方法, y a m a g u c h ik 等鉴定出了劬m 曲。掣g 出s p 中受m n ”感应双组分调节系统调控的 基因b q ;在2 0 0 5 年,d o n g 等人利用全基因组微阵列技术分析并证实了双组分应 答调控子p p r b 在铜绿假单孢菌密度感应信号的产生及全局性基因表达方面均发 挥了作用”。 3 ) 基因和代谢工程的研究 基因和代谢工程利用分子生物学原理系统分析细菌的代谢网络、并通过 d n a 重组技术合理设计细菌代谢途径及遗传修饰,对代谢网络进行功利性修 饰。通常,代谢工程的目的是让细胞生产更多的目的产物,如重组蛋白、次级代 谢物等等,但是这些对细菌代谢网络的重组最终会影响到细胞代谢的进行,井威 胁细胞的生存。微阵列检测代谢网络改变造成的细胞内表达谱的变化,从分子水 平上来揭示代谢工程对细胞的影响,从而为工程茵的设计和优化提供了一个理论 依据。 1 1 3d n a 徽阵列的技术流程 d n a 微阵列技术主要包括四个基本技术环节:微阵列的制备、分析样品制 各、核酸杂交和杂交信号检测及数据分析。 , 山东大学硕士论文 1 1 3 1 微阵列的制备 d n a 微阵列目前的制各方法主要是将探针以预先设计的顺序以物理吸附或 者化学隅联的方式固定在经过化学修饰的固相支持物( 如玻片、硅片、陶片或尼 龙膜等) 上,形成一个个有序的杂交点阵列。礅列阵制备技术主要有两种基本方 法p 1 :原位合成法和合成后点样法。原位合成法是指在固相基片表面特定区域 直接合成己知序列的一类技术的总称。该方法的特点包括:能提高芯片密度; 不需要预备探针:制作成本高,且受专利保护。合成后点样法则是指通过各 种方式( 核酸合成、p c r 扩增等) 预先制备d n a 或寡核营酸探针,然后利用手 工或自动点样装置将这些探针点在经过特殊处理的载体上。该方法有如下特点: 经济快捷,不但适合工业化生产而且也能满足科研人员自制:痞片的要求;探 针种类和长度不受限制,可以使用任意长度的r n a 、双链d n a 或寡核苷酸; 必须事先制各、保存大量的c d n a 或寡核苷酸片断;点样密度不如原位合成法 高,但足以满足目前研究要求。 1 1 3 2 分析样本制备 用于表达谱芯片分析的生物样品主要是d n a 或由r n a 反转录合成的 c d 州a ,本文着重介绍一下c d n a 样品的制备。 表达谱芯片实验的研究对象是不同类型的细胞或一种细胞在多种生长条件 下的m r n a 丰度然而一旦生物样品被收集分离,样品内的m r n a 就会变得非 常不稳定在细菌中,m r n a 半衰期可以短至数十秒,一些非特异和特异的 r n a 降解,或者由于操作过程中引入的应激反应而产生的新的m r n a 都会造成 r n a 状态的变化,从而在表达信息分析中引入较大误差。因此分离纯化到完整 而又能代表细胞内真实状态的r n a 对于表达谱的分析至关重要。 高质量的r n a 经过体外反转录、荧光标记,成为标记有荧光染料的核酸分 子,用于下一步的核苷酸杂交。通常,对于以玻片为介质的c d n a 芯片或者长的 寡核苷酸芯片,常采用花菁素c y 5 和c y 3 双色荧光标记法( 即两种样品分别采 用花菁素c y 5 和c y 3 进行标记) 。当然所采用的样品分离及标记方法还需要根 据样品来源、基因含量、监测方法及实验目的等因素来决定。 山东大学硕士论文 1 1 3 3 微阵列杂交 将标记的靶c d n a 变性后,与微阵列杂交。理论上,当芯片上的探针量一 定( 且过量) 时,杂交后的荧光信号强度在一定范围内与探针一靶c d n a 杂交复 合物的数盈呈线性关系。因此( 以表达谱芯片为例) ,两种不同标记的靶c d n a 混合后对同一芯片进行杂交,杂交后两种荧光信号的强度就代表了该基因在两种 条件下的表达水平。 在一个典型的微阵列杂交中,与探针杂交结合的靶c d n a 释放出来的荧光 信号强度受以下几种因素影响: 1 ) r n a 制备的质量: 被r n a 部分降解的r n a 会产生截短的c d n a 。其长度小于芯片上的同源 探针,从而导致荧光强度的减弱。 2 ) 荧光标记的方法: 靶c d n a 分子的荧光标记有多种方法。对于用逆转录法标记的靶c d n a 分 子,在用碱除去r n a 模板后便成为了单链分子,这样可提高杂交灵敏度。而对 于用缺口转移、随机引物标记及p c r 等方法产生的标记产物由于是双链分子, 能在液相条件下自我复性,这样就有可能降低其与芯片上固定探针杂交的几率, 从而降低了荧光信号而影响检测的灵敏度,所以采用这些方法时通常需要更多的 标记产物 3 ) 标记时使用的酶和荧光染料: 不同的酶和荧光染料的标记效率不同,从而影响荧光检测的灵敏度如,不 同的d n a 聚合酶在结合花菁枷t p 的能力上就可以有2 0 倍的差异;a l e m 4 5 6 染料标记的c d n a 产生的荧光信号强度比c y 3 标记的c d n a 高2 5 3 倍。 4 ) 固定探针的浓度: 在杂交过程中,芯片上固定的d n a 探针量必须过量这才能保证在一定的 靶c d n a 浓度下。荧光信号强度在一定范围内与靶c d n a 量呈线性关系,b 口靶 c d n a 的量增加或减少n 倍,荧光信号强度也随之增加或减少n 倍。当固定的 d n a 探针不足时,荧光信号强度无法与靶c d n a 量里线性关系,进而会造成对 表达差异的错误估计。 山东大学硕士论文 5 ) 靶c d n a 的浓度 不难想象,当靶c d 咐a 用量过低,那么杂交复合物的量必然也很少使得 荧光信号强度减弱导致扫描仪无法检测到信号而当靶c d n a 用量过高时, 势必破坏荧光信号强度与靶c d n a 量之问的线性关系,甚至产生的信号强度超 过扫描仪的检测范围,产生“漂白”现象,导致无法获得真实数据。 1 1 3 4 信号检测分析 信号检测所用到的扫描仪分为两种:一类是根据激光共聚焦显微镜的原理, 基于光电倍增管( p m t ) 的激光共聚焦扫描检测系统;另一类是基于电荷耦合装 置( c c d ) 的检测系统。目前芯片图像检测和采集多用激光共聚焦扫描仪。 杂交后的甚片经过洗片、干燥等步骤,置入芯片扫描仪,在激光的激发下, 靶d n a 与探针d n a 形成的复合物由于带有荧光标记而产生荧光信号。扫描仪 对这些荧光信号进行检测、生成芯片图像再加以处理,从而反映出每个靶基因的 丰度。 芯片扫描后的所有原始信息都存放在芯片图像中,这些图像通常是1 6 位 n f f 、j p e g 、r a w 等格式的图像。图像中每个像素的灰度值在o 巧5 5 3 5 的范围 内,并反映了杂交复合物的荧光分子强度。芯片图像信息提取就是将图像中每个 杂交点定位,量化每个点的形状和杂交强度,将图像信息转化为数值信息的过程。 这些信息经过一系列处理后,最终揭示基因的表达水平。 1 1 4d n a 微阵列的数据分析 每次芯片实验往往会得到成千上万个数据,如何来解读这些海量的芯片数 据,将成千上万的数值信息与生物的生命活动联系起来,阐释生命特征和规律以 及基因的功能,这就需要强有力的分析方法来分析和管理这些数据,从中挖掘出 有用的信息m 。 1 1 4 1 芯片数据的归一化处理 某个基因的表达水平在微阵列实验中可以用相应杂交点的荧光强度来表示, 而实际微阵列实验中测量到的荧光强度值受到许多因素的影响,如标记效率、扫 l o 山东大学硕士论文 描属性设置、点样头差异、芯片的空间位置差异等。这些因素的存在引入了系统 误差,使得测量值与真实值背离。因此,在对数据进行信息挖掘前,必须对檄阵 列原始数据进行归一化处理,以消除系统误差的影响。 芯片数据的归一化方法可以分为两个大类:片内数据的归一化,即单张芯片 数据的归一化;片间归一化。即多个芯片数据间的归一化 1 ) 芯片内的归一化: 以c y 5 和c y 3 双色荧光标记法为例,芯片上红、绿荧光强度( 已除去背景 值) 分别为r 和g ,r a l i o = 鼬b ,m = l 0 9 2 ( r g ) ,a = 1 0 缸 尼,则片内归一 化校正公式如下: r 鲥o = m m o f 或者m7 = m + l 0 9 2 ( 旧 f 为归一化因子,根据p 估算方法的不同芯片内的归一化( 即单张芯 片的归一化) 又可分为三类,分别是:全局法( 垂o b a lm c 【h o d ) 、线性回归( i i n e a r 佗g m s s i o n ) 和局部加权最小值法( 1 a l l y w e i g h t e d l e a s ts q a r e s ,l o w e s s ) 其中, 全局法由于方法简单可靠,得到了广泛使用。 & 全局归一化法: 全局归一化法建立在一定假设基础上,即:红绿荧光强度是通过常数因子相 关联的,全局法就是利用事先确定的校正基因估计此常数因子( 即归一化因子) , 用以校正数据,使得非差异表达基因的荧光强度比为l 。 根据选取的校正基因种类,全局法又可分为三类,分别是总强度归一化法、 看家基因法和外参基因法。 总强度归一化法:在一张高密度的芯片( 至少4 0 0 0 点) 上,通常只有小部 分基因是差异表达的,而其余大部分基因在两种要比较的样品中并没有较大差 异,也就是在基因组范围内( 或者整张芯片上的所有探针) 基因的上调表达和下 调表达是一致的,芯片上两种信号强度总值的比值应该是l 。因而我们可以用全 部基因的荧光强度来计算归一化因子,用于数据校正。在此法中,加r 为各杂交 点绿色荧光强度的总和g 。与红色荧光强度总和r 的商,即: q n f = 墨 山东大学硕士论文 看家基因法:一些基因通常被认为在各种条件下都是恒定表达的,称之为看 家基因,科用看家基因来计算归一化因子的方法,就稼之为看家基因法。在此法 中,在所研究的两种状态下,看家基因的表达是完全一致的,其两种荧光强度的 比值应该为1 ,即 矿为看家基因绿色荧光强度g c 值与红色荧光强度值的商: n f :蔓 墨 由于所有基因在不同条件下都会改变表达水平,要找出一组在各种实验条件 下表达都不发生改变的看家基因非常困难,但是找到一组在特定实验条件下的 “临时”看家基因还是可行的。所以在选择看家基因进行芯片数据归一化时必须 根据文献报道或实验结果来严格选择。 外参基因法:将人工合成或者不同物种的外参基因点在芯片上,再用体外转 录方法制备外参基因对应的r n a ,按一定比例将其掺入至实验样品与对照样品 的r n a 中进行标记、杂交,得到红绿荧光的比值,这个比值在理论上是与掺入 比例相等,可以用来归一化数据,公式如下: n f :曼。生 兄g 其中。g ,r f 分别代表检测值,g ,r 代表理论值。 在实验中,内参看家基因监测了从细胞培养直至芯片扫描整个实验流程,可 以说明被测样品的特征和质量,而外标基因由于通常是在反转录前才加入,只监 控了部分实验流程。无法从整体上说明样品的质最。所以,在选择归一化方法时, 我们首选看家基因法,只把外参基因当作参照来监控实验流程质量,只有在看家 基因无法确定时,才考虑使用外参基因法归一化数据。 b 线性回归法: 在红、绿两个通道中基因表达水平相等的前提下,用线性回归来拟合分别以 g 和r 为坐标轴的c y 5 - c y 3 荧光强度散点图,回归直线的斜率即是n t 局部加权最小值法: 当p 不是一个常数,而是随荧光强度变化的一个函数时,常用l o w e s s 函 数法来计算rl 0 w e s s 以某个杂交点及其相邻区域作为一个亚单位,用局部 山东大学硕士论文 加权多项式回归对其进行拟合,得到l o w e s s 的回归曲线。如:以m ,a 为坐 标轴作m a 数点图( m = l o ( 刚g ) ,a = l 0 9 2 ( r 卿 ,2 ) ,局部加权多项式回归拟 合,得到l o w e s s 函数c ( a ) ,则每个杂交点的校正公式为:m :m + c i ( a ) ,其 中g ( a ) 表示杂交点i 的l o w e s s 函数值,通过这个函数值,可以算出f = 2 c 【”。 2 ) 多张芯片问归一化。 由于点样仪器和实验过程中的系统误差,不同芯片的对数比m ( 即l 0 9 2 皿,g ) ) 的离散度会有明显的不同,如果不对芯片问的离散度进行归一化,那么其中一张 或者几张芯片会对整个实验的平均对数比产生不适当的影响,造成芯片问的数据 无法比较,因此,有必要对片间的离散度进行归一化处理。通常以某一芯片的某 一杂交点的对数比m 作为参考的标准离散度,使芯片间具有相同的中位数平方 差( i n e d i ma b s o l u c ed c v i 撕o n m a d ) ,以消除各个芯片的离散因子。 如果芯片进行过点样头分组的位置和离散度的归一化后通常就没有必要进 行片间的归一化了,因为在这种情况下进行片间归一化,引入的噪音很可能比消 除的系统误差还要大。 1 1 4 2d n a 徽阵列的数据挖掘 芯片数据经过校正后,便可以用各种数据分析的方法来挖掘隐藏在数据背 后的生物学意义,通常我们将基因芯片数据分析分为以下几类:1 ) 差异表达基 因分析;基因表达谱芯片实验的主要目的就是监测基因在不同样品中的表达差 异,其数据需要经过处理才能真实反映基因的表达差异度;2 ) 聚类分析:用无 监督的方法进行分类,分析基因之间的相互关系,将最相似的基因分为一类;3 ) 分类分析;荦j 用若干个己知功能的基因事先划分好类别,再来判别样品基因属于 已知分类中的哪一类。 1 ) 差异表达基因分析: 从理论上讲,如果某个基因在两个样本的荧光强度信号值的比值为l ,那么 就说明这个基因在这两个状态下没有差异表达,如果比值不等于1 ,则表示基因 发生了差异表达。实际上,由于芯片本身的一些因素以及生物实验本身的特点, 导致了这种理论上的判断在实际应用中并不可行,所以我们必须通过各种分析方 法来设定一个阚值,比值大于或小于阈值的基因便视为有差异表达。下面重点介 山东大学硕士论文 绍几种常用分析疗法: 倍数变化法( f 0 1 d c h g e ,f c ) l 倍数变化分析是最早应用于基因芯片数据分析的一种最简单最直接的方法 4 3 】。该方法直接以红绿荧光强度的比值( r g ) 作为筛选标准。一般来说,如果 比值小于0 5 或大于2 o ,我们便认为基因存在显著表达差异。大于2 是上调表达 的基因而小于0 5 是下调表达的基因这一标准由斯坦福大学经过大量的实 验验证提出,国际上都把它当常规标准使用。当然,由于实验条件的不同,此阈 值范围可以有所调整。在倍数变化分析中,我们往往会将荧光比值数据转换成底 数为2 的对数值,使原来偏态分布的数据近似于正态分布,这种转换不仅增加了 分析的便利度并且也满足了统计分析的要求。 倍数变化法的优点是需要的芯片少,节约研究成本并且简单直接。但是这种 方法的假阴性翠比较高,除了有显著的倍数变化的基因外,一些变化小的基因容 易被遗漏,而这些基因很可能包含有重要的信息,如位于一个通路起点的启动子, 只需要极少的表达量就能激发下游基因的表达。 b z 值法( z v a l m ) : 在一张高密度的芯片上,只有很小的一部分基因的表达有差异,所以我们可以 假设此芯片实验的表达比值( 即红绿荧光强度比值) 近似正态分布。设所有基因 表达比值的平均值为m 方差为。,某个基因的表达比值为x ,则此基因比值 的z 值为: :;丝! 盯 若z 大于2 ,则表示基因表达比值在平均比率加2 倍方差之外,说明基因的表 达存在差异,并且具有统计学上的意义, 此法简单易行,但有缺点:即使实验体系中没有一条差异表达的基因,在以 2 为判别标准时,z 值法还是会跳出大约5 的差异表达基因;如果实验体系中 有大量的差异表达基因时,z 值法也只能找出5 ,造成阳性点的丢失。 c f 检验( t _ t e s t ) : 在进行多次重复实验的前提下,可以使用r 检验来分析基因的差异表达, 当r 超过根据可信度选择的标准时, = l 二较的两样本被认为存在着差异。但是由 1 4 山东大学硕士论文 于基因芯片重复实验花费很大又很费时,通常是进行小样本芯片实验,所以,检 验常常受到样本量的限制,导致了不可信的变异估计。 d 方差分析( 柚由s i so f v a r i a l l c e ,a n o v a ) : 方差分析又称变异数分析或f 检验,目的是推断两组或多组样本的总体均 数是否相同,检验两个或多个样本均数的差异是否具有统计学意义,从而对基因 的差异表达进行分析h ”。方差分析考虑了各种产生差异的因素,能轻易区分出 对研究目的有意义( 如不同条件对细胞的刺激) 和无意义( 如不同序列引起的变 异) 的变异来源,但是需要注意的是,方差分析需要有精细的实验设计和较大样 本的重复实验,并且要保证较大自由度,否则数据无法采用此方法分析。 差异表达基因分析方法除了上述四种外,还有其他多种分析方法,如非参数 分析( n o n p a 唧1 e t r i ca n a l y s i s ) 、回归分析( 耻缈酆i o n 加1 y s s ) 、噪音抽样法 ( n o i ws a i i l p l i n g ) 等,随着技术的发展更多的方法还会被开发出来。在众多的 筛选差异表达基因的方法中,早期出现的倍数变化分析法和z 值法由于其简单易 行、可靠的特性,仍然被广泛使用。 2 ) 聚类分析 聚类分析( c l u s t e n gm a l y s i s ) 是在没有样本的先验知识情况下,通过建立 各种不同的数学模型,把具有相似数据特征的样本组合在一起,归为一个簇,以 期发现功能上相似或具有共同调控的基因。这种探索完全未知数据的方法,又称 为无监督的聚类( m s l l p e i dd u s t e r i n g ) ,它目的只是为了寻求归类,而不管 所聚的类别是否有意义。聚类的方法有很多种,本文重点介绍常用的几种: 乱层次聚类( 1 l i e r a f c h i c a lc l u s 州n g ) : 层次聚类法是目前在芯片数据分析中应用最广的一种聚类法,这种方法可以 得到可视化的系统树图,从而形象地展示基因之同的相似度。其主要思想是将n 个基因分为n 类,计算类别两两之间的距离,构成距离矩阵,荐将相似性最高 的两类合并为一新类,再计算新类与当前各类的相似性,再合并、计算,重复这 过程直至全部基因被归为同一大类为止。由于层次聚类法可以得到一个可视化 结果,直观地表现基因闻的关系,所以此法得到了广泛的应用。 虽然层次聚类法得到广泛应用,但是由于其有时在选择分裂或合并点时存在 山东大学硕士论文 困难它不能取消己经完成的分裂或合并,也不能在类问对个体进行调整,所 以层次聚类法不适于分析基因表达谱可能相似的复杂数据。 b k 均值聚类( k m e m sc l i l s t 甜n g ) : k - 均值聚类法是最简单、最快速的算法之一。此法首先选择期望的分类数k , 然后从所有基因中随机选择k 个基因作为初始的类中心然后把每个基因归到 与之最相似的类中心处,得到k 类。计算新形成的每类的类中心,然后再从总 样本中随机选择一个基因,将此基因加入类中心与该基因距离最接近的类。这样 由于类包含的基因在不断变化,类中心也在不断的更新,算法就根据新形成的类 中心来判断基因的新的类别归属,上述过程不断重复直至基因的类别划分不再发 生改变。本法虽然简单易行,但由于初始化( 即初始类中心的选择) 的不同, k _ 均值聚类可以产生不同的聚类结果,所以此法结果的可信性容易受到质疑。 c 自组织映射聚类( s e 娘o f g a 血抽gm a pc 1 1 | s 晒i n g ,s o m ) : 自组织映射聚类是一种非监督学习的神经网络聚类,由若干以简单的拓扑结 构组织的节点构成,且节点中包含了其距离函数,自组织图的形成就是这些节点 以迭代的形式分布到k 维的基因表达空间的过程p “。s o m 方法具有良好的计算 性能,易实现且执行速度快,其结果受噪音影响小,适合于复杂的多维数据的模 式识
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论