(遗传学专业论文)心脏特异表达基因的生物芯片分析及利用基因本体论分析其特性的研究.pdf_第1页
(遗传学专业论文)心脏特异表达基因的生物芯片分析及利用基因本体论分析其特性的研究.pdf_第2页
(遗传学专业论文)心脏特异表达基因的生物芯片分析及利用基因本体论分析其特性的研究.pdf_第3页
(遗传学专业论文)心脏特异表达基因的生物芯片分析及利用基因本体论分析其特性的研究.pdf_第4页
(遗传学专业论文)心脏特异表达基因的生物芯片分析及利用基因本体论分析其特性的研究.pdf_第5页
已阅读5页,还剩61页未读 继续免费阅读

(遗传学专业论文)心脏特异表达基因的生物芯片分析及利用基因本体论分析其特性的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中国协和医科大学硕士研究生学位论文 缩略语表 h g p人类基因组计划 h p p 蛋白质组计划 g o基因本体论 t m a s 组织微阵列 盯分子功能 b p生物学途径 c c 细胞组件 s o m s 自组织网络 h u m a ng e n o m ep r o j e c t h u m a np r o t e o m ep r o j e c t g e n eo n t o l o g y t i s s u em i c r o a r r a y s m o l e c u l a rf u n c t i o n b i o l o g i c a lp r o c e s s c e l lc o m p o n e n t s e l f - o r g a n i z i n gm a p s 3 中国协和医科大学硕士研究生学位论文 中文摘要 基因的组织特异表达能揭示出基因功能的重要线索。本课题利用现有的人类 多组织基因芯片数据集,结合c a r d i o s i g n a l 数据库中收集的数据展开心脏特异 基因寻找。这一数据集包含4 47 7 5 个人类基因转录体在人的7 9 种组织中的表达 值。这是目前为止,包含人类基因转录体表达值最完整的数据集之一。在t 的阈 值取为0 8 5 时,共找到1 1 2 个心脏特异表达基因。 其次,本课题对找到的心脏特异表达基因进行基因本体论分析。建立的基因 本体论的d a g 结构,并将数据集中的基因转录体的基因本体论注释映射到d a g 结构上,做为研究的背景集合。将1 1 2 个心脏特异表达基因的基因本体论注释映 射到d a g 结构上,做为训练集合,进行f i s h e r 精确检验,p 0 8 5 ) a n a l y s i so f1 1 2h e a r t s p e c i f i cg e n e sw i t h g e n eo n t o l o g yr e v e a l e d s i g n i f i c a n te n r i c h e m e n ti n6 2o f g on o t e s t h e s en o t e sp r o m p t e dt h ec o m m o n c h a r a c t e r i s t i co fh e a r t s p e c i f i cg e n e s 5 中国协和医科大学硕士研究生学位论文 1 上j l 一 日【舌 人类基因组计划( h u m a ng e n o m ep r o j e c t ,h g p ) 的成功和蛋白质组计划( h u m a n p r o t e o m ep r o j e c t ,h p p ) 的启动,获得了数量巨大的基因和蛋白质信息。对庞大 的基因组和蛋白质组信息进行处理和研究,必需设计和利用更为高效的软件和硬 件技术,建立新型高效快速的检测分析技术。同时随着生命科学与众多相关学科, 如物理学、微电子学、计算机科学、材料科学、微加工技术、有机合成技术等的 迅猛发展和综合交叉,为生物芯片( b i o c h i p ) 的实现提供了实践上的可能性。所 谓生物芯片技术,就是通过微加工工艺,将大量生物识别分子,如核酸片段、多 肽分子,甚至组织切片细胞等按照预先设置的排列方式,固定在厘米见方的芯片 片基( 基质或载体) 上,利用生物分子之间的特异性亲和反应,实现对基因配体抗 原等生物活性物质的检测分析。由于生物芯片采用了微电子学的并行处理和高密 度集成的概念,因此可同时并行分析成千上万种生物分子,具有高通量、高灵敏 度和并行检测的特点。 1 生物芯片技术的分类 传统杂交分析技术以硝酸纤维素膜或尼龙膜为载体,杂交反应后经放射自显 影进行检测。由于硝酸纤维素膜或尼龙膜等材料有渗透作用,易使被分析的材料 扩散,因此生物芯片分析利用固相表面作为载体。固相表面无渗透作用,少量的生 化物质可准确地沉淀到特定位置上;同时固相片基能够提供一个均匀的接触面可 以提高定量分析的质量。 制作生物芯片的载体材料很多大致可分为四类:无机材料、天然有机聚合物、 人工合成的有机高分子聚合物和各种高分子聚合物制成的膜。目前适用于制作生 物芯片的载体材料,只有少数几种如玻璃片金属片各种有机高分子制作的薄膜 等。生物芯片按载体可分为:硅晶片芯片、玻璃芯片、塑料芯片和磁珠芯片等。 根据芯片上固定的探针不同他又可分为:基因芯片、蛋白质芯片、组织芯片和细 胞芯片等。另外根据原理不同生物芯片可分为:元件型微阵列芯片、通道型微阵 列芯片和生物传感芯片等新型生物芯片。 6 中国协和医科大学硕士研究生学位论文 2 基因芯片 基因芯片( g e n ec h i p ) 也d q d n a 芯片d n a 微阵列( d n am i c r o a r r a y ) 寡核苷 酸阵列( 0 1 i g o n u c l e o t i de a r r a y ) ,其实质是在玻片硅片薄膜等载体上有序地 高密度地固定大量的靶基因片段或寡核苷酸片段,这些被固定的分子探针在基质 上就形成了高密度d n a 微阵列。样品核酸分子经过标记后与固定在载体上的d n a 阵列中的点进行杂交。通过检测杂交信号而获得样品分子的数量和序列信息,从 而对基因序列及功能进行大规模高密度地研究。由于基因芯片采用了信息的集约 化和平行处理原理,具有无可比拟的高效快速和多参数的特点,是传统生物技术 的一次重大创新和突破。 基因芯片技术的高通量、高精度、高效率在差异表达基因的筛选中得到了广 泛的应用,它所揭示的基因表达谱可以提供相当丰富的信息,能发现传统临床医 学所不能诊断的疾病类型,和在疾病发生发展中特殊表达的基因有助于寻找新的 诊断方法和治疗手段。应用c d n a 微阵列技术发现了一些在食管癌中差异表达的基 因 1 - 3 研究,这些基因在食管癌发生发展中的作用,对于阐明肿瘤发生发展的 机制,寻找肿瘤标志物,设计新的抗肿瘤药物和有针对性地进行个体治疗都有至 关重要的意义。刘业海e f 甜 4 应用c d n a 微阵列技术比较分析了喉癌配对组织 的基因表达谱结果表明:在正常组织和喉癌组织中基因表达相差3 倍以上者为3 5 个,其中在喉癌组织中表达上调的基因为8 个下调基因为2 7 个;相差5 倍以上的基 因有7 个,这7 个基因均在喉癌组织中表达下调。a f f y m e t r i x 公司把p 5 3 基因全长 序列和己知突变的探针集成在芯片上制成p 5 3 基因芯片,将在癌症早期诊断中发 挥作用。h e l l e re ta l 5 构建了9 6 个基因的c d n a 微阵列,研究了类风湿、关节 炎、肠炎基因的特征性,表达活性确定了许多基因与这两种病变的关系,为探讨 基因芯片在诊断感染性疾病方面提供了新的思路。华盛顿大学利用含57 6 6 个基 因的芯片研究了卵巢癌基因表达谱的变化,找出在卵巢癌组织中过度表达的3 0 个由g e n b a n k 收录的基因 6 。 基因芯片在感染性疾病、遗传性疾病、重症传染病和恶性肿瘤等疾病的临床 诊断方面具有独特的优势:一张芯片能同时对多种疾病进行检测,无需机体免疫 应答反应期能及早诊断;待测样品用量小;能特异性检测病原微生物的亚型及变 异;可在短时间内掌握大量的疾病诊断信息。目前基因芯片已广泛用于发现疾病 7 中国协和医科大学硕士研究生学位论文 相关基因,建立疾病诊断指标和基础生物学及医学研究领域。但基因芯片技术仍 有其局限性,如设备价格昂贵,加上操作人员的训练及仪器的维护经费是一个沉 重的负担;如果没有一个合理正确的分析逻辑,从实验后数据分析中的得到的结 果很有可能造成严重的错误误导实验人员。因此微阵列系统的整合是一件非常重 要的相当复杂的工作。通过适当的分工将生物学家软件工程人员和机械工程人员 的专长整合才能够完成高标准的微阵列系统。 3 蛋白质芯片 蛋白质是一切生命活动的基础,受基因表达的调控因而以检测样品中m r n a 丰度为基础的c d n a 芯片是当今研究中倍受关注的技术手段。但是细胞f q m r n a 的信 息远不能反映基因产物的最终功能形式蛋白质的表达状况,m r n a 的丰度与其 最终表达产物一蛋白质的丰度之间并没有直接的关联;更何况许多蛋白质还有 翻译后修饰加工结构变化,蛋白质与蛋白质间,蛋白质与其他生物大分子的相互 作用等,因此以微阵列技术对生物样品行整体蛋白质表达分析的蛋白质芯片 ( p r o t e i nc h i p ) 在后基因组时代越来越受重视。 蛋白芯片,也称肽芯片( p e p t i d ec h i p ) 是根据蛋白质蛋白质相互作用 而设计的高通量蛋白检测技术平台。其主要特点是将已知蛋白阵列固定在载体上 用来检测相配对的未知蛋白。固定在载体上的蛋白质可以是抗体抗原受体配体酶 底物以及蛋白结合因子等。这种新技术可以在一次实验中比较生物样品中成百上 千的蛋白质的相对丰度。在实际应用中抗体芯片研究得最多。此外还有表面增强 激光解吸离子化( s u r f a c e - e n h a n c e dl a s e rd e s o r p t i o n i o n i z a t i o ns e l d i ) 蛋 白质质谱芯片组织芯片( t i s s u ec h i p ) 和细胞芯片( c e l lm i e r o a r r a y ) 等。 3 1 抗体芯片 抗体芯片( a n t i b o d ym i c r o a r r a y ) 是将能识别特异抗原的抗体制成微阵列 检测生物样品中抗原蛋白表达模式的方法。c l o n t e c h 公司推出的第一代抗体芯片 a bm i c r o a r r a y3 8 0 ,包含了固定在芯片片基上的3 7 8 种已知蛋白质的单克隆抗体, 可以在一次简单实验中同时检测样品中的3 7 8 种蛋白质的表达情况,并且可以在 一张芯片上对两种样品的表达模式进行比较分析。这使得抗体芯片在毒性实验疾 8 中国协和医科大学硕士研究生学位论文 病研究和药物开发上有广泛的应用前景。a bm i c r o a r r a y3 8 0 芯片上每个抗体都 是并列双点以增加结果的可靠性,抗体针对广泛的胞内蛋白和膜结合蛋白,已知 参与信号传导、癌症细胞周期调控、细胞结构凋亡和神经生物学等广泛的生物功 能,因而可以用于检测某一特定的生理或病理过程相关蛋白的表达模式;同时还 可以作为d n a 芯片的补充用于研究蛋白和基因表达之间的关系。 3 2 表面增强激光解吸离子化蛋白质质谱芯片 s e l d i 蛋白质质谱芯片技术是t a y l o r 医学院的h u t c h e n s 和y i p 发展起来的 7 - 9 。这种技术是利用经过特殊处理的固相支持物或芯片的层析表面,根据蛋 白质物理化学性质的不同,选择性地从待测生物样品中捕获配体将其结合在芯片 的固相层析表面上,经原位清洗和浓缩后结合t o f m s 技术对结合的多肽或蛋白质 进行质谱分析 7 - i o 。美国c i p h e r g e nb i o s y s t e m s 公司购买t s e l d i 技术的生产 专利,在此基础上推出一种称为c i p h e r g e n sp r o t e i nc h i p j b i o m a r k e rs y s t e m 的技术平台,将蛋白质组学研究技术整合在类似芯片的装置上进行。他的核心技 术就是s e l d i 质谱和飞行时间检测技术的相互整合 7 。通过把蛋白质结合在芯片 上直接进行t o f - m s 分析去除了分析前复杂的样品制备过程。不经严格纯化直接用 患者的血液、尿液、脑脊液、胸腔积液等体液以及细胞裂解液进行分析。同时还 可以定量和定性分析结合的靶蛋白 7 ,i i 一1 3 。他的操作具有相对简单、高效、 快速和准确等特点,一经出台就受到临床研究工作者的高度青睐,同时预示着有 可能最先进入临床蛋白质组检测的应用前景 7 。 p e t r i c o i ne t 甜 1 4 3 利用c i p h e r g e n 公司的专利技术s e l d i 蛋白质芯片,飞 行时间质谱仪,对已知诊断的卵巢癌样品进行研究,以确定一个合适的分辨标准, 蛋白质表达谱型。他们发现在质荷比为5 3 4 、9 8 9 、21 1 1 、22 5 1 和24 6 5d a 处 的5 个峰的同时变化对卵巢癌的诊断具有意义。其中胜22 5 1d a 的蛋白质峰在肿 瘤患者血清中的表达水平低于正常人。他们利用这种特殊的血清蛋白质谱型对来 自无癌早期晚期卵巢癌和良性疾病的妇女血清样品进行了盲法分析。结果表明5 0 例卵巢癌的样品被全部准确检出为肿瘤其中包括1 8 例期患者;对照组6 6 例非恶性 肿瘤人群中有6 3 例被确定为非恶性肿瘤。这种方法的灵敏度为1 0 0 ,特异性为 9 5 ,阳性预测值为9 4 。j re t8 1 1 5 利用s e l d i 技术鉴定了已知的4 种前列腺 9 中国协和医科大学硕士研究生学位论文 相关的生物标志物:前列腺特异性抗原( p s a ) ,前列腺酸性磷酸酶( p r o s t a t e a c i d p h o sp h o t a s ep a p ) ,前列腺特异性肽( p r o s t a t es p e c i f i cp e p t i d ep s p ) 和前列腺特异性膜抗原( p r o s t a t es p e c i f i cm e m b r a n ea n t i g e np s m a ) ,并从 l c m 获得的前列腺癌细胞裂解物和正常前列腺细胞裂解物中发现了一些在前列腺 中表达上调的蛋白质,其分子量分别为3 3 k d ,1 8 k d 和3 5 k d 。这些蛋白质很可能 发展成为新的肿瘤标志物。q up t “ 1 6 利用生物信息学算法从前列腺癌患者 血清得到的s e l d i 图谱中得出了两种分类法( c l a s s i f i e r ) 。其中a d a b o o s t c l a s s i f i e r 可以将前列腺癌患者和健康人分开其特异性和敏感性均为1 0 0 。 a d a me t “ 1 7 利用生物信息学方法从s e l d i 血清图谱中找到了9 个差异蛋白组 成的特征性图谱,可以将前列腺癌患者前列腺良性增生和健康人分开。其敏感性 为8 3 ,特异性为9 7 实验组人群和总体人群的阳性预测值分别为9 6 和9 1 。赵晓 航p fa l 1 8 利用s e l d i 质谱芯片技术,从食管鳞状细胞癌患者血清中发现了十 种候选的肿瘤标志物。近年来高校蛋白质组学研究院与多家临床医院密切合作, 从3 0 例患者和相应数量的健康人血清样品中成功筛选出1 5 个候选的肺癌标志分 子,其中5 个具有很高的灵敏性和特异性。这5 个候选的肺癌标志分子中有2 个在 t h , 细胞肺癌患者的血清中表达上调3 个表达下调 1 9 。这些候选标志分子的发 现为分子诊断技术的发展提供了关键性的基础,一旦实现临床应用将大大改变我 国目前对肺癌临床检测的手段,改变待病灶形成后才能检测出来的状况。 目前利用c i p h e r g e nb i o s y s t e m s 公司的s e l d i t o f - m s 技术平台己发现了前列 腺癌、老年痴呆症、急性肾衰竭、乳腺癌、肾结石、膀胱癌和尿道感染等疾病的 生物标志物的候选物,有望成为早期诊断的标志物用于大规模的临床筛查 7 ,l l , 1 5 。 3 3 组织芯片 组织芯片,也称组织微阵列( t i s s u em i c r o a r r a y st m a s ) 是美国n i h 的 k o n o n e ne ta l 2 0 于1 9 9 8 年发明的。它是一种将成百上千个组织标本排列在同 一张玻璃片上的技术,可以通过一张组织切片研究数百对组织标本的r n a ,d n a 或某种蛋白质的表达情况。以往在人们对肿瘤发生发展机制的大量研究中,曾先 后发现了许多与肿瘤发展进程或预后相关的标志物,但是要想验证他们通常十分 1 0 中国协和医科大学硕士研究生学位论文 困难。而组织微阵列技术可以在一张玻璃切片上,同时分析大量的组织标本正好 解决了这个难题,使某些研究结果最终有可能用于指导临床诊断和治疗。t m a s 在肿瘤研究领域中的应用已有大量报道 2 卜2 6 。 t t a s 是一种大规模群体水平的研究工具。虽然由于取材微小可能使某一个点 与供体组织不完全一致,但大规模的统计分析将明显消除单个数据的差异对最终 结果的影响。有学者用t m a s 和正规的组织切片进行了对比,研究结果显示两种方 法的一致性大于9 5 2 7 。由于所有的组织都可以被放置在t m a s 中,因而他不仅仅 在肿瘤研究领域在其他方面,如炎症性疾病心血管和神经系统疾病一些动物模型 的组织标本,以及细胞系的研究中都将体现出他的实用价值。目前这种技术还有 许多问题有待于解决,但已显示出重要的科研和应用价值,也存在很大的经济价 值。近2 年t m a s 得到了迅速发展,相信在不久的将来它将在分子病理学研究领域 发挥更大的作用。 3 4 细胞芯片 细胞芯片也称仿生芯片是将单个细胞与一个电子集成电路芯片经特殊方法 结合起来的微型装置。其原理是当细胞面临一定的电压时,细胞膜微孔就会张开 具有渗透性。通过计算机控制微型装置中的芯片就可以控制细胞的活动。这样在 根本不影响周围细胞的情况下,可以对目标基因或细胞进行基因导入蛋白质提取 等研究。生物医学专家认为,最终开发出的细胞芯片能够精确调节电压,这样就 可以激活不同的人体组织细胞,包括从肌肉骨骼到人脑细胞;如果把他们植入人 体就可以取代或修补人体病变细胞组织。此外细胞芯片还可用于研究细胞分泌和 胞间通讯及细胞分类纯化等。 最近出现了一种细胞微阵列芯片 2 8 他是将不同的质粒d n a 点在玻璃片上做 成质粒d n a 芯片,接着在脂质转染试剂处理好的芯片上培养细胞被转染的细胞, 因此获得了外源d n a 赋予的新性状,因此也称为反向转染( r e v e r s e t r a n s f e c t i o n ) 。这种技术不但可以用于a d n a 融合肽或r n a 分子的分析,而且还可 以用于研究一些细胞因子化学抑制剂或放射性标记对基因表达的影响。 中国协和医科大学硕士研究生学位论文 4 应用领域 4 1 基因表达水平的检测 用基因芯片进行的表达水平检测可自动、快速地检测出成千上万个基因的表 达情况。s c h e n a 等采用拟南芥基因组内共4 5 个基因的e d n a 微阵列( 其中1 4 个 为完全序列,3 1 个为e s t ) ,检测该植物的根、叶组织内这些基因的表达水平, 用不同颜色的荧光素标记逆转录产物后分别与该微阵列杂交,经激光共聚焦显微 扫描,发现该植物根和叶组织中存在2 6 个基因的表达差异,而参与叶绿素合成 的c a b l 基因在叶组织较根组织表达高5 0 0 倍。s c h e n a 等用人外周血淋巴细胞的 e d n a 文库构建一个代表1 0 4 6 个基因的e d n a 微阵列,来检测体外培养的t 细胞 对热休克反应后不同基因表达的差异,发现有5 个基因在处理后存在非常明显的 高表达,1 1 个基因中度表达增加和6 个基因表达明显抑制。该结果还用荧光素 交换标记对照和处理组及r n a 印迹方法证实。在h g p 完成之后,用于检测在不同 生理、病理条件下的人类所有基因表达变化的基因组芯片为期不远了。 4 2 基因诊断 从正常人的基因组中分离出d n a 与d n a 芯片杂交就可以得出标准图谱。从 病人的基因组中分离出d n a 与d n a 芯片杂交就可以得出病变图谱。通过比较、分 析这两种图谱,就可以得出病变的d n a 信息。这种基因芯片诊断技术以其快速、 高效、敏感、经济、平行化、自动化等特点,将成为一项现代化诊断新技术。例 如a f f y m e t r i x 公司,把p 5 3 基因全长序列和已知突变的探针集成在芯片上,制 成p 5 3 基因芯片,将在癌症早期诊断中发挥作用。又如,h e l l e r 等构建了9 6 个 基因的c d n a 微阵,用于检测分析风湿性关节炎( r a ) 相关的基因,以探讨d n a 芯片在感染性疾病诊断方面的应用。现在,肝炎病毒检测诊断芯片、结核杆菌耐 药性检测芯片、多种恶性肿瘤相关病毒基因芯片等一系列诊断芯片逐步开始进入 市场。基因诊断是基因芯片中最具有商业化价值的应用。 1 2 中国协和医科大学硕士研究生学位论文 4 3 药物筛选 如何分离和鉴定药的有效成份,是目前中药产业和传统的西药开发遇到的重 大障碍,基因芯片技术是解决这一障碍的有效手段,它能够大规模地筛选、通用 性强,能够从基因水平解释药物的作用机理,即可以利用基因芯片分析用药前后 机体的不同组织、器官基因表达的差异。如果再e d n a 表达文库得到的肽库制作 肽芯片,则可以从众多的药物成分中筛选到起作用的部分物质。还有,利用r n a 、 单链d n a 有很大的柔性,能形成复杂的空间结构,更有利与靶分子相结合,可将 核酸库中的r n a 或单链d n a 固定在芯片上,然后与靶蛋白孵育,形成蛋白质一r n 或蛋白质一d n a 复合物,可以筛选特异的药物蛋白或核酸,因此芯片技术和r n a 库的结合在药物筛选中将得到广泛应用。在寻找h i v 药物中,j e l l i s 等用组合 化学合成及d n a 芯片技术筛选了6 5 4 5 3 6 种硫代磷酸八聚核苷酸,并从中确定了 具有x x g 4 x x 样结构的抑制物,实验表明,这种筛选物对h i v 感染细胞有明显阻 断作用。生物芯片技术使得药物筛选,靶基因鉴别和新药测试的速度大大提高, 成本大大降低。基因芯片药物筛选技术工作目前刚刚起步,美国很多制药公司已 开始前期工作,即正在建立表达谱数据库,从而为药物筛选提供各种靶基因及分 析手段。这一技术具有很大的潜在应用价值。 4 4 个体化医疗 临床上,同样药物的剂量对病人甲有效可能对病人乙不起作用,而对病人丙 则可能有副作用。在药物疗效与副作用方面,病人的反应差异很大。这主要是由 于病人遗传学上存在差异( 单核苷酸多态性,s n p ) ,导致对药物产生不同的反 应。例如细胞色素p 4 5 0 酶与大约2 5 广泛使用的药物的代谢有关,如果病人该 酶的基因发生突变,就会对降压药异喹胍产生明显的副作用,大约5 1 0 的高加 索人缺乏该酶基因的活性。现己弄清楚这类基因存在广泛变异,这些变异除对药 物产生不同反应外,还与易犯各种疾病如肿瘤、自身免疫病和帕金森病有关。如 果利用基因芯片技术对患者先进行诊断,再开处方,就可对病人实施个体优化治 疗。另一方面,在治疗中,很多同种疾病的具体病因是因人而异的,用药也应因 人而异。例如乙肝有较多亚型,h b v 基因的多个位点如s 、p 及c 基因区易发生 变异。若用乙肝病毒基因多态性检测芯片每隔一段时间就检测一次,这对指导用 1 3 中国协和医科大学硕士研究生学位论文 药防止乙肝病毒耐药性很有意义。又如,现用于治疗a i d s 的药物主要是病毒逆 转录酶r t 和蛋白酶p r o 的抑制剂,但在用药3 - 1 2 月后常出现耐药,其原因是 r t 、p r o 基因产生一个或多个点突变。r t 基因四个常见突变位点是a s p 6 7 一a s n 、 l y s 7 0 - - a r g 、t h r 2 1 5 一p h e 、t y r 和l y s 2 1 9 - - g l u ,四个位点均突变较单一位点突 变后对药物的耐受能力成百倍增加。如将这些基因突变部位的全部序列构建为 d n a 芯片,则可快速地检测病人是这一个或那一个或多个基因发生突变,从而可 对症下药,所以对指导治疗和预后有很大的意义。 4 5 测序 基因芯片利用固定探针与样品进行分子杂交产生的杂交图谱而排列出待测 样品的序列,这种测定方法快速而具有十分诱人的前景。m a r kc h e e 等用含1 3 5 0 0 0 个寡核苷酸探针的阵列测定了全长为1 6 。6 k b 的人线粒体基因组序列,准确率达 9 9 。h a c i a 等用含有4 8 0 0 0 个寡核苷酸的高密度微阵列分析了黑猩猩和人b r c a i 基因序列差异,结果发现在外显予l l 约3 。4 k b 长度范围内的核酸序列同源性在 9 8 。2 到8 3 。5 之间,提示了二者在进化上的高度相似性。据未经证实的报道, 去年有一种不成熟的生物芯片在1 5 分钟内完成了1 6 万个碱基对的测定,9 6 个这样的生物芯片的平行工作,就相当于每天1 4 7 亿个碱基对的分析能力。 4 6 生物信息学研究 人类基因组计划( h g p ) 是人类为了认识自己而进行的一项伟大而影响深远 的研究计划。目前的问题是面对大量的基因或基因片断序列如何研究其功能,只 有知道其功能才能真正体现h g p 计划的价值一破译人类基因这部天书。后基因组 计划、蛋白组计划、疾病基因组计划等概念就是为实现这一目标而提出的。基因 的功能并不独立的,一个基因表达的上调或者下调往往会影响上游和下游几个基 因表达状态的改变,从而进一步引起和这几个基因相关的更多基因的表达模式的 改变。基因之间的这种复杂的相互作用组成了一张交错复杂的立体的关系网。像 过去那样孤立的理解某个基因的功能已经远远不够了,需要我们站在更高的层次 全面的理解这种相互关系,全面了解不同个体基因变异、不同组织、不同时间、 不同生命状态等的基因表达差异信息,并找出其中规律。生物信息学将在其中扮 1 4 中国协和医科大学硕士研究生学位论文 演至关重要的角色。基因芯片技术就是为实现这一环节而建立的,使对个体生物 信息进行高速、并行采集和分析成为可能,必将成为未来生物信息学研究中的一 个重要信息采集和处理平台,成为基因组信息学研究的主要技术支撑。比如研究 基因生物学功能的最好方式是监测基因在不同组织、不同发育阶段、不同健康状 况下在机体中活性的变化。这是一项非常麻烦的工作,但基因芯片技术可以允许 研究人员同时测定成千上万个基因的作用方式,几周内获得的信息用其它方法需 要几年才能得到。 由于人类基因只是地球上几十万种生物基因资源中的一份子,在今后的几十 年内,人类将测出所有物种的”基因图谱。因此,类似如人类基因组计划的上调或 者下调往往会影响上游和下游几个基因表达状态的改变,从而进一步引起和这几 个基因相关的更多基因的表达模式的改变。基因之间的这种复杂的相互作用组成 了一张交错复杂的立体的关系网。像过去那样孤立的理解某个基因的功能已经远 远不够了,需要我们站在更高的层次全面的理解这种相互关系,全面了解不同个 体基因变异、不同组织、不同时间、不同生命状态等的基因表达差异信息,并找 出其中规律。生物信息学将在其中扮演至关重要的角色。基因芯片技术就是为实 现这一环节而建立的,使对个体生物信息进行高速、并行采集和分析成为可能, 必将成为未来生物信息学研究中的一个重要信息采集和处理平台,成为基因组信 息学研究的主要技术支撑。比如研究基因生物学功能的最好方式是监测基因在不 同组织、不同发育阶段、不同健康状况下在机体中活性的变化。这是一项非常麻 烦的工作,但基因芯片技术可以允许研究人员同时测定成千上万个基因的作用方 式,几周内获得的信息用其它方法需要几年才能得到。 在实际应用方面,生物芯片技术可广泛应用于疾病诊断和治疗、药物基因组 图谱、药物筛选、中药物种鉴定、农作物的优育优选、司法鉴定、食品卫生监督、 环境检测、国防等许多领域。它将为人类认识生命的起源、遗传、发育与进化、 为人类疾病的诊断、治疗和防治开辟全新的途径,为生物大分子的全新设计和药 物开发中先导化合物的快速筛选和药物基因组学研究提供技术支撑平台,这从我 国9 9 年3 月国家科学技术部刚起草的医药生物技术。十五”及2 0 1 5 年规划 中便可见一斑:规划所列十五个关键技术项目中,就有八个项目( 基因组学技术、 中国协和医科大学硕士研究生学位论文 重大疾病相关基因的分离和功能研究、基因药物工程、基因治疗技术、生物信息 学技术、组合生物合成技术、新型诊断技术、蛋白质组学和生物芯片技术) 要使 用生物芯片。生物芯片技术被单列作为一个专门项目进行规划。总之,生物芯片 技术在医学、生命科学、药业、农业、环境科学等凡与生命活动有关的领域中均 具有重大的应用前景。 5 芯片数据分析方法 芯片的数据归一化 在芯片实验中,各个芯片的绝对光密度值是不一样的,直接比较多个芯片表 达的结果显然导致错误的结论,因此在比较多个芯片实验时,必须减少或消除各 个实验之间的差异。最常用的方法便是芯片数据的归一化处理。归一化的方法可 以用特定的对照基因或者叫做“看家基因( h o u s e k e e p i n gg e n e s ) ”法,或将各 点光密度值或比值除以所有点的平均值法,或附带一些参数如平均值等以作为该 芯片的内部对照。但至今为止仍无真正意义的理想的归一化方法,特别时对于不 同实验室间的芯片数据的比较。 “看家基因”法时比较常用的方法,该法是选择一个通用基因或d n a 片断作 为对照基因固定在芯片上,杂交时将一定量的与之互补的荧光标记探针混合到杂 交液中。这样可以将对照点信号与各样点信号比较,其比值便可消除各实验室的 差异,从而达到归一化的目的。理想的对照基因应能在所有的实验中均能得到可 靠的信号,且重视性好,稳定性好,易于得到推广。然而,目前还尚未找到这样 的理想对照基因。 除了上述归一化方法外,为比较多个芯片表达的数据,还应严格控制每次实 验的条件,如:目标d n a 标记的程度、荧光激发和发射的效率、测定的条件等。 使实验在相同的环境和条件下进行。 芯片数据的视图分析 视图分析使最简单、最直接、最直观的分析方法。通常用散点图( 二维和三 维) 、直方图和饼图直观地显示芯片表达的结果,对于结果较为明显的数据,可 以直接作出判断。 1 6 中国协和医科大学硕士研究生学位论文 芯片数据的统计学分析 从芯片测定结果的大量数据中获取有用的生物学信息,统计学的处理分析是 必不可少的。统计学分析已广泛用于大规模基因表达的分析。统计分析可以帮助 生物学家发现新的基因、d n a 序列、基因的突变位点等。目前应用于基因芯片表 达数据统计分析的主要方法是聚类分析( c l u s t e ra n a l y s i s ) 。聚类分析是研究 事物分类的一种方法,是在事物分类面貌尚不清楚的情况下研究事物的分类。其 方法是直接比较样本中各指标之间的性质,将性质相近的归为一类,性质差别较 大的归在另一类。聚类分析根据其聚类指标或计算方法分成许多种。在基因芯片 表达数据分析中,应用最为广泛的是系统聚类分析( h i e r a r c h i c a lc l u s t e r i n g ) , 此外还有b a y e s i a n 聚类分析,逐步聚类分析( k - m e a n sc l u s t e r i n g ) ,自组图分 析( s e l f o r g a n i z i n gm a p s ,s o m s ) ,二向聚类分析( t w o - w a yc l u s t e r i n g ) ,神 经网络聚类分析( n e u r a ln e t w o r kc l u s t e r i n g ) ,主成分分析( p r i n c i p a l c o m p o n e n ta n a l y s i s ) ,标度分析( m u l t i d i m e n s i o n a ls c a l i n ga n a l y s i s ) 等统 计分析手段。 系统聚类分析法是将芯片表达的数据点分配进入有严格等级的层层嵌套的 子集。最相接近的数据点分成一组,并用一个新点来替换,该新点的值为此两点 的平均值,其他点同样处理,然后用同样的方法进行下级处理,直至最终成为一 个点,这样数据点就形成一个家谱的树状结构,树枝的长度表示两组数据的相似 程度。系统聚类分析适合于具有真正等级下传的数据结构,不适合于基因表达谱 可能相似的复杂数据集。 聚类分析将基因与最相关的表达谱放在一起,分析的基础是总基因组的线性 相关。生物系统的有序性质可以保证聚类分析方法会揭示出生物行为的有趣特 征。b a y e s i a n 聚类分析是高度结构化的方法,适合于事先能够分配的数据集。 逐步聚类分析法是完全没有结构化的方法,完全在局部范围内处理数据,产生一 个无组织的簇( c l u s t e r ) ,比较难以理解。自组图分析允许将部分结构强加于簇 中,结果直观易于理解,适合于复杂的数据。二向聚类分析适合于高度组织化的 基因表达数据。标度分析可以显示两维欧氏( e u c l i d e a n ) 距离,即实验样品间 的大概相关程度。主成分分析可以去定数据变化较大的点和变化的范围。 1 7 中国协和医科大学硕士研究生学位论文 理想情况下每个簇对应于一个基因,但由于大量或低丰度的基因,可以存在 一些非重叠的簇,簇的数量可能超过序列已经导出的独立基因的数量。加上软件 中图象重叠对齐的误差,可能产生伪簇。对于没有明显重叠的数据,各种聚类分 析产生相同的簇,但如果数据分散及相互交叉,不同的聚类分析可能产生不同结 果,此时应根据生物学分析来作出推断。 生物芯片表达数据分析的软件的开发已越来越受到科学家和开发商的重视, 不断有新统计方法软件推出。b i o d i s c o v e r y 公司开发的基因芯片表达数据分析 软件g e n e s i g h t t m 中和了数据库管理、系统聚类分析。神经网络聚类分析、主成 分分析和时间系列分析( t i m es e r i e sa n a l y s i s ) 等分析手段,还有直观的视图 分析方法。这类软件还有i m a g i n gr e s e a r c h i n c 的a r r a yv i s i o nt m 基因芯片 表达分析软件。s t a n f o r d 大学还在i n t e r n e t 网上提供自由下载的芯片数据聚类 分析软件c l u s t e r 。适合于多种芯片表达的数据分析。 芯片的生物学分析 生物学分析是根据视图分析的结果,结合生物学知识作出相关判断。时间过 程分析( t i m e - c o u r s ea n a l y s i s ) 是用较多的一种方法,可以用于分析细胞生长 不同时期的基因表达、正常组织与肿瘤组织的d n a 变化、测定用药前后d n a 发生 的变化、基因突变等。 生物芯片的数据处理目前仍在发展之中,并不断有新的技术或方法被应用, 随着生物芯片的广泛应用,芯片的数据处理将日臻完善。 中国协和医科大学硕士研究生学位论文 材料与方法 1 课题数据来源及数据预处理 1 1 生物芯片数据及预处理 本文主要研究心脏组织特异性基因的表达模式,其中涉及到的试验数据主要 来自2 个部分: 1 1 1 生物芯片数据 人类多组织基因芯片数据集,这一数据集包含4 47 7 5 个人类基因转录体在人 的7 9 种组织中的表达值。这是目前为止,包含人类基因转录体表达值最完整的数 据集之一。芯片数据做过归一化处理( 见下图) ,各个芯片的中值比较接近,不 用对数据进行预处理。 图17 9 种组织生物芯片,每个组织两张芯片重复的各个芯片表达值的中值 1 1 2c a r d i o s i g n a l 数据库数据 从心脏特异表达的相关研究文献中收集到的2 7 个基因,作为实验数据。这 些心脏特异表达的基因或者只在心脏组织细胞中表达,或者只在包括心脏组织 1 9 中国协和医科大学硕士研究生学位论文 的少数组织细胞中表达。这部分基因已被收集于c a r d i o s i n g n a l 数据库中。 c a r d i o s i g n a l 数据库主要搜集在心脏高表达的基因,一般实验证据都有 n o r t h e r nb l o t 的结果支持。这个指标虽然是定性式的描述,但是毕竟可以推测 基因在心脏功能和形态上的维持发挥着重要的作用。这些基因可能参与心肌肥 厚,也可能参与心脏发育的过程。也有少数基因在心脏系统中并不显著表达,但 是突变却导致遗传病的发生,例如克隆发现的基因a n l ( 2 ,是l i f t 4 的致病基因,在 脑组织中有多种剪接体出现。 目前,在c a r d i o s i g n a l 的中心表单中搜集了5 8 6 条基因记录,包括直系同源 基因和旁系同源基因。覆盖的生物包括人( h o m o s a p l e n s ) 、小鼠( n u s m u s c u u s ) 、 原鸡( g a l l u sg a l l u s ) 等十五种。其中人类基因共有1 7 2 条记录。 图2c a d i o s i g n a l 数据库访问界面 中国协和医科大学硕士研究生学位论文 表1c a r d i o s i g n a l 数据库心脏特异基因,在数据库中的标识及其在芯片中对应 的p r o b s e t 编号 1 2 生物芯片注释文件处理 生物芯片的注释文件主要是a f f y m e t r i x 公司的u 1 3 3 a 芯片和定制的g n f l h 芯片两种注释文件。文件中包含了g e n o m el o c a t i o n ,l o u c u sl i n k ,r e f s e q , u n i g e n e ,u n i p r o t ,e n s e m b l ,a l i a s e s ,d e s c r i p t i o n ,f u n c t i o n ,p r o t e i nf a m i l i e s 等方面的注释内容。 枣钗涎翅业榴器_【j g属匈羞暑害曹盈函 目dug o二p目dt0口d8d工。留od。)星甜h口。莒ooon豇一,s6od器99sl=oo夏99n 誓馨占=“上r皇譬-s。80君o o:o邕82出口l省4置上09h名c喘器玉目学窖oooo。s置一一o蛊墨兽兰m薯noo。重高 甜16占n二【皇u#,上0000n上-高上-上-【皇u石90000o譬。器茹n皇u苗旨ooo“ n一。口【皇u苗罟ooon。冒。9【自l1鬯w00。on 口一口n二主u;“oooonn喜-6【皇u石gooo“19t1-=皇。l。no。“ 晶n 9【皇9n_【1【。h目n上p丑i。】高0日o= q日9口1【皇。)n o日_h=口口口“h_【:目6;o“;=口9【皇已n,苗onh_【o“【割_【丑iu苗onoo【目n_【矗_【丑iu苗【 琵dio罡三u占eo皇g葛2 go皇g苗u甚巳o邑莒ooo蚕譬o盛_【兽器署ooo1|【霉【 19甲长n!三皇u苗一夏= 豸-u芑hpc号口昌寰pu墨差口opg00:臣哩d臣0000ds萏一一=定vo=*h,go羞【o晶 蔷甲磊9-【皇。】n。;。上8= 一目若dgh口d皇d叠=pu名工v nqlid丑管心里出售oo。s蚕一一盆喜2n吾go董 一臣ho旨po皇30甍u go皇gp寺芷8高邑100000萏蛊od、置一h土ooo重 v dc量g墨u勺11is名皇三y目_)g量gu芍拦_【口西d譬oooo。萏【o端定苦客-s墨noo重 尚ooo臣h一_【qgd三。与皇煞y c苦墨出鼍_【岔上d莒ooon丑n89吕,0高鼍荸鲁o1in 目三u1 0=自身电目蔷8uo=oh皇。鼍h氅鲁oo。s萏一高o定器上sh磷oo董 ;g宅ugq皇名争g g旨ga-u暑mb_5qn,=ng。i n盆q60,“n【苫斟99【h、鲁o重曰u日昌品可每暑盏:量叼甚u石砖gn暑皇8一dv910000。s蚕一。兽芑搿器仍蓦ooo萎 一点=-u_8p090葛_!pu皇vn口x04髻h留a 葛diooooo萏一o【上9090o荸00萎 盘。苦帮。靠石墨=putq工v昔。矗苗兰 等ds荸ooooon叠990=m 89n暑noo重。晶 、00di一8蛊上v羞省pu岩“皇g墨8=台皇,998誓oooo。s萏onsd7non【sh褂oo薹g芑盘g?三己g嘧号c互工va号tog号s吕u,薯goooo。sn丑苦焉oo高盘鼍爱go重md=_蜀c苫垂g譬ujig譬暑0d口器器=:唧】i器口单芑主;鲁c。un叮u督嘭 79口_【-目6尚0日=甲晶n曩o_【皇u尚高=q-荨n器i上【皇u石1o= hqh;【皇u】z 0 日o n n 【8暑-上1hl。)“石=【q“oo?皇曾n苗q暑nq,ohn?皇u;譬 _ 【甲p 口o o=尚皇po“,苗高_【搿【-兽譬11皇u=“o日一【-8o。譬蔷莹2鬯氰-毫学【 山oon9目6石m p o o _ 【 石g - i gogo。mb乞。合e 苗_s80000n昌口。 苗hoooon= 日心oooon卜冒山一一oooonwnhh岫p日砷oooonu可bh岫苗_s0。昌器-i蛊;一oooo“mj4石m_0。on邕mll笛n上上【。工nji苗;上8=壶盟l;:【,_【导【艮蛊u|o,哞出“_【1v。np,高【xvp0_【_【譬dsil|鬣一笤【“u包口h0q0“gz议嵇趟扑甜议富书

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论