




已阅读5页,还剩61页未读, 继续免费阅读
(细胞生物学专业论文)基于基因芯片的基因表达模式分析.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
厦门大学学位论文原创性声明 兹呈交的学位论文,是本人在导师指导下独立完成的研究成 果。本人在论文写作中参考的其他个人或集体的研究成果,均在 文中以明确方式标明。本人依法享有和承担由此论文产生的权利 和责任。 声明人( 签名) :天天同蹭 2 0 0 - ( 年f 月2 9 日 厦门大学学位论文著作权使用声明 本人完全了解厦门大学有关保留、使用学位论文的规定。厦 门大学有权保留并向国家主管部门或其指定机构送交论文的纸 质版和电子版,有权将学位论文用于非赢利目的的少量复制并允 许论文进入学校图书馆被查阅,有权将学位论文的内容编入有关 数据库进行检索,有权将学位论文的标题和摘要汇编出版。保密 的学位论文在解密后适用本规定。 本学位论文属于 l 、保密() ,在年解密后适用本授权书。 2 、不保密( ( 请在以上相应括号内打“4 ”) 基于基因芯片的基因表达模式分析 基于基因芯片的基因表达模式分析 摘要 基因芯片含有寡核苷酸探针或者c d n a 探针,用来在一次实验中同时测量成 千上万个基因的表达水平。基因表达模式分析系统( g e p s :t h eg e n ee x p r e s s i o n p a t t e r ns c a n n e r ) 是一个在线的交互式基因芯片数据分析平台,可对基因表达 谱进行相关性分析,相似性分析和特异表达分析。这些分析模式是利用空间几何, 相关性分析的方法,系统地、全局地鉴定的,并且有图形化和量化显示。用户可 以设置分析时的阀值。另外,为了更好地理解基因表达模式,我们从两个基因芯 片数据库g e o 和g n f 下载了3 2 9 2 0 5 个非冗余的基因表达纪录,并提供给用户作 为参爿旨。g e p s 的网址是:垒羔羔巳;么么b i q i 旦:丕婴型:金鱼型:曼旦z q 兰主要垒! 旦z g 皇乜曼z g 竺2 兰:q 塾乜 在g e p s 的基础之上,我们构建了组织特异表达数据库( t s e d :t i s s u e s p e c i f i c e x p r e s s i o nd a t a b a s e ) 。t s e d 收集了4 个公共基因芯片数据集,包含11 3 个人 类和小鼠的组织和3 4 5 5 个组织特异表达基因。t s e d 允许用户根据基因或者组织 查询。t s e d 的9 嚼址是:b 羔主巳;么么垫i q i 卫:墨堡塑:金鱼坚:旦壁垒主垒鱼垒兰金墨么! 兰曼旦z 墨璺垒! 曼b :乜b 乜 基因芯片另外一个重要应用是鉴定差异表达基因或者生物标识。差异表达基因常 常是通过统计学方法来鉴定的,主要包括:倍数方法,t 检验,f 检验,s a m ,规 则t 检验等。这些方法都有一定的局限,或者是假阳性率太高或者代表差异表 达程度的变量不合适。我们提出了改迸,橙验和改笾t 。趁黔其原理是标准的 f 值和t 值乘上它们各自的变异系数。用两组真实的芯片数据集进行测试,通过 散点图分析和随机置换的方法评估假阳性率和假发现率,改进,橙髫和反迸t 卷疆具有一定的优良性能。将得到的差异表达基因按照生理功能分类,显示了一 定的相关性和合理性。 关键词:基因芯片,数据分析,差异表达基因 基于基因芯片的基因表达模式分析 a b s t r a c t m i c r o a r r a y sw h i c hc o n t a i no l i g o n u c l e o t i d eo rc d n ap r o b e sa r eu s e dt o m e a s u r et h e e x p r e s s i o n l e v e l s o ft h o u s a n d so f g e n e s i nas i n g l e h y b r i d i z a t i o ne x p e r i m e n t g e n ee x p r e s s i o np a t t e r ns c a n n e r ( g e p s ) i sa w e b b a s e ds e r v e rt o p r o v i d e i n t e r a c t i v e p a t t e r na n a l y s i s o f u s e r - s u b m i t t e d m i c r o a r r a y d a t af o rf a c i l i t a t i n g t h e i rf u r t h e r i n t e r p r e t a t i o n p u t a t i v eg e n ee x p r e s s i o np a t t e r n ss u c ha sc o r r e l a t e d e x p r e s s i o n ,s i m il a re x p r e s s i o na n ds p e c i f i ce x p r e s s i o na r ed e t e r m i n e d g l o b a l l ya n ds y s t e m a t i c a l l yu s i n gg e o m e t r i cc o m p a r i s o na n dc o r r e l a t i o n a n a l y s i sm e t h o d s t h e s ep a t t e r n sc a nb ev i s u a l i z e dv i a1 i n e a rp l o t sw i t h q u a n t i t a t i v em e a s u r e s u s e r d e f i n e dt h r e s h o l dv a l u ei sa l l o w e dt o c u s t o m i z et h ef o r m a to ft h ep a t t e r ns e a r c hr e s u l t s f o rb e t t e r u n d e r s t a n d i n g o f g e n ee x p r e s s i o n ,p a t t e r n s d e r i v e d f r o m 3 2 9 2 0 5 n o n r e d u n d a n tg e n ee x p r e s s i o nr e c o r d sf r o mt h eg n fs y m a l t a sa n dt h eg e n e e x p r e s s i o n o m n i b u sa r ea l s o p r o v i d e d g e p si sa v a i l a b l e a t h t t p :b i o i n f x m u e d u c n s o f t w a r e g e p s g e p s p h p b a s e do ng e p s ,w e c o n s t r u c t e dt i s s u e s p e c i f i ce x p r e s s i o nd a t a b a s e ( t s e d ) c u r r e n t l y ,t s e d c o l l e c t s4p u b l i cm i c r o a r r a yd a t a s e t s ,c o v e r s1 1 3t i s s u e s a n d3 4 5 5 t i s s u e s p e c i f i cg e n e sf r o mh u m a na n dm o u s e t s e da l l o wu s e r st oq u e r yb y g e n e s o rtis s u e s t s e dc a nb ea c c e s s e da t h t t p :b i o i n f x m u e d u c n d a t a b a s e s t s e d s e a r c h p h p a n o t h e ri m p o r t a n t t a s ko fm ic r o a r r a y e x p e ri m e n t sist oid e n tif y g e n e s t h a ta r e d i f f e r e n t i a l l ye x p r e s s e do rs o c a l l e db i o m a r k e r s c u r r e n t l y ,s u c hg e n e s a r eu s u a l l yd e t e c t e db ys o m ep o p u l a rs t a t i s t i c a la p p r o a c h e s :f o l dm e t h o d , tt e s t ,ft e s t ,s a m ,r e g u l a r iz e dtt e s t ,e t c b u tt h e s em e t h o d sa r ee i t h e r a c c o m p a n i e db yr e l a t i v e l yh i g hf a l s ep o s i t i v er a t e so ra r eb i a si n d i c a t o r s o ft h ed e g r e eo fd i f f e r e n t i a le x p r e s s i o n w ep r e s e n tm o d i i i e d ft e s t ( 厕 2 基于基因芯片的基因表达模式分析 a n dm o d i f i e dtt e st ( 删t h a tt h es t a n d a r dfv a l u ea n dtv a l u ea r e m u l t i p l i e db yt h e i rc o e f f i c i e n t s o fv a r i a t i o nr e s p e c t i v e l y u s i n gt w o r e a l m i c r o a r r a yd a t a s e t sf o rt e s t i n g ,t h r o u g hs c a t t e r i n gp l o t sa n d p e r m u t a t i o nm e t h o d sf o ra s s e s s i n gt h ef a l s ep o s i t i v er a t e sa n df a l s e d i s c o v e r yr a t e so u rp r o p o s e dm e t h o d ss h o w b e t t e rp e r f o r m a n c et os o m e e x t e n t c l a s s i f i c a t i o no ft h ed e r i v e dd i f f e r e n t i a l l ye x p r e s s e dg e n e sb y t h e i rf u n c t i o n ss h o w sm u c hb i o l o g i c a lr e l e v a n c ea n ds i g n i f i c a n c e k e yw o r d s :m i c r o a r r a y ,d a t aa n a l y s i s ,d i f f e r e n t i a l l ye x p r e s s e d g e n e s 3 基于基因芯片的基因表达模式分析 上- 一 刖瞢 基因芯片( g e n ec h i p ) ,也叫做微阵列( m i c r o a r r a y ) ,是2 0 世纪9 0 年代 发展起来的一项前沿生物技术。随着人类基因组计划和一些其它生物的全基因组 序列测定完成,基因组研究从发现基因转到探索基因功能的后基因组时代。生物 基因组的功能尤其是基因相互作用和调控关系的研究迫在眉睫,因此需要一种 能高通量、同时测量成千上万个基因在各种生理状态下表达状况的生物技术n 1 , 于是,基因芯片技术便应运而生。 基因芯片技术的特点是集成化、微型化、自动化,被认为是生物技术中继基 因克隆技术、基因自动测序技术、p c r 技术后的又一次革命性的技术突破比1 。在 后基因组时代,确定基因在不同情况下的表达状况是研究基因功能的基础。传统 的分子生物学手段需要花费大量的人力物力而无法满足大多数生命现象下大量 基因相互作用和关联的情况。生物芯片技术的出现使得大规模地分析基因的功 能、基因在各种情况下的表达状况以及基因之间的调控关系成为可能。 1 基因芯片技术简介 基因芯片由巨大数量的寡核苷酸、或c d n a 探针固定在一块面积极小的硅片、 玻片或尼龙膜等基片上而构成,可以同时对大量序列进行检测和基因分析,解决 了传统的核酸印迹杂交操作复杂、自动化程度低、检测序列数量少等缺点。基因 芯片技术主要包括四个方面的内容:芯片的制备、样品的制备、杂交与检测口一1 。 1 1 芯片的制备 1 1 1 芯片的载体 目前适用于d n a 芯片制作的载体材料有半导体硅片、玻璃片、聚丙烯膜、硝 酸纤维素膜、尼龙膜等。 4 基于基因芯片的基因表达模式分析 1 1 2 探针的固定 根据探针固定方式的不同,基因芯片可以大致分为两类:原位合成芯片 ( s y n t h e t i cg e n ec h i p ) 和d n a 微阵列( d n am i c r o a r r a y ) 。原位合成芯片是指直 接在芯片上用4 种核苷酸合成所需探针制备而成。主要包括显微光蚀刻技术和电 压印刷技术。d n a 微阵列的制备是将预先合成好的探针通过点样机直接点在芯片 片基上。其探针来源主要是通过常规分子生物学技术制备:如p c r ( 聚合酶链反 应) 、r t - p c r ( 逆转录一聚合酶链反应) 扩增,基因克隆,人工合成等。点样方法主要 有机械点样法和化学喷射法。 1 2 样品的制备 待分析样品的制备是基因芯片实验流程的一个重要环节,生物样品含有许 多复杂的生物分子,一般不能直接与芯片反应,样品必须经过生物处理获取其中 的d n a 或r n a ,经p c r 或r t p c r 扩增并掺入荧光燃料( 如c y 3 、c y 5 等) 标 记后才可以和芯片起反应。 1 3 芯片的杂交 芯片杂交过程与传统的s o u t h e r n 印迹杂交等类似,属于固一液相反相杂交: 探针分子固定于芯片表面,与液相的靶分子进行反应。但这种方式不仅使得检测 过程平行化,可以同时检测成百上千的基因序列,而且由于集成的显微化,使 得杂交所需的探针及待测样品均大为减少,杂交时间明显缩短。 1 4 芯片的检测分析 对于荧光标记芯片应用荧光显微镜或激光共聚焦扫描仪等采集各杂交点荧 光信号如位置和强度:同位素标记多采用放射自显影检测杂交信号:最近发展 的纳米金标记,通过银放大后可直接在肉眼或普通光学显微镜下观察。最终再用 相关软件进行信号的分析处理,得出待测样品的核酸信息。 对于基因表达谱的检测,必须包含样本的对照,即实验组和对照组。在这个 5 基于基因芯片的基因表达模式分析 领域上,双色荧光( 双通道) 检验系统的应用最为广泛,其检验流程如图1 所示。 pr e p a r et a r g e tm r n a s 活汐瓣 i :r t p c r 爱l a b e l h i 柏 r u o r e s x ;e r l td y 嗡 活影渺 冀 y, 麓。粤。沪5 ”爹c o m b i n e j i e q u a l 警a m o u n t s 霪h y b r i d l s e g e n e r a t em i c r o a r r a y 。 1 0 秽” a n a l y s e d a t a ” 1 1 。镰7 冀。 囊 降, l i l 黼。 l 婀_ 图1 双通道基因芯片实验流程图 f i g 1t h ef l o wc h a r to fad u a l c h a n n e lm i c r o a r r a ye x p e r i m e n t 在对样本进行标记的时候,取不同的荧光染料( 常用c y 3 和c y 5 ) 对一组实验中 的两个样本分别标记。然后将标记的产物等量混合后一起与基因芯片杂交。扫描 时针对不同的荧光分子,采用不同波段的激光进行扫描。扫描结果可以以c y 3 和c y 5 分别显示,也可以将两张图象叠加显示。在叠加图中,如果用c y 3 标记对 照组,c y 5 标记实验组,那么红色就表示基因表达上调,黄色表示基因表达变化 不大,而绿色表示基因表达下调。 翟 基于基因芯片的基因表达模式分析 2 基因芯片的应用 当前,基因芯片技术主要应用于以下几个领域: 2 1 基因表达分析 同一类型细胞在不同的发育阶段、生理时期或不同的外界环境因素影响下, 其基因的表达模式不同,同一个体的不同组织器官的基因表达模式也不同。如何 研究众多基因表达与否及其表达丰度是人们关注的一个焦点问题。传统的方法一 次只能研究某个基因的表达情况,远不能满足这一要求,而基因芯片技术由于 具有高并行性、高通量的特点正适合于此研究。芯片杂交在对基因表达进行分析 中能够从很少的样品提供有关基因差异表达的信息,对疾病的诊断、治疗和药物 筛选有促进作用。比如,g n f 数据库( 塾主主卫;么么墨y 婴垒童! 垒璺:盟:q ! g 么) 收集了人类 基因组在7 9 个组织中、小鼠基因组在6 1 个组织中的表达图谱。 2 2 基因组测序 芯片技术中杂交测序( s e q u e n c i n gb yh y b r i d i z a t i o n ,s b h ) 技术 和邻堆杂交( c o n t i g o u ss t a c k i n gh y b r i d i z a t i o n ,c s h ) 技术可以用来进行高效 快速的测序。基因芯片用于测序提出的较早,c h e e 等喵1 利用1 3 50 0 0 个探针的 阵列对人类线粒体基因组测序,准确率达9 9 以上。 2 3 突变体和多态性的检测 基因芯片技术可以规模地检测和分析d n a 的变异及多态性。m a i t r a 等嘲建 立了基于芯片测序的简单快速的线粒体基因多态性分析方法。他们在5 个患有膀 胱癌、4 个患有胰腺癌的共9 个病人的液体样本中,发现6 个样本( 6 6 6 ) 存 在与癌症相关的线粒体基因突变。 7 基于基因芯片的基因表达模式分析 2 4 疾病诊断 基因诊断是基因芯片中最具有商业价值的领域。许多疾病都与基因相关,传 统的基因诊断方法只能对单个或少数几个基因进行检测,利用基因芯片技术高 速、并行、集成化程度高的特点,可以实现对该疾病的快速、简便、高效的诊断。 当前,基因芯片已经广泛地应用于癌症的诊断口q 2 3 和传染疾病的诊断n 3 1 引。 2 5 药物筛选和药物开发 由于芯片技术具有高通量、平行性等特点,可以进行新药的筛选,尤其在对 中药有效成分的筛选、药理研究、化学药物的合成等方面具有重要的作用。用基 因芯片作大规模的筛选可以省略大量的动物试验,缩短药物筛选所用时间:还 可以利用基因芯片技术来寻找药物靶点,查检药物的毒性或副作用,从而带动 新药的研究和开发n 印。 2 6 在环境科学领域的应用 基因芯片技术可高效检测由微生物、有机物等引起的污染,对环境污染物进 行检测与评价。同时帮助研究人员通过大规模的筛选制备能够治理污染源的基因 产品或寻找到保护基因并制备防治危害的基因工程产品。 3 国内外生物芯片产业的发展概况 近年来,生物芯片技术成为国际上生物技术领域科研和开发的热点;基因芯 片、蛋白质芯片、细胞芯片、组织芯片等发展较早、技术较为成熟的微阵列芯片 已经大量进入实用,微流体芯片等技术正在逐渐成熟并开始被各领域应用;同时, 在新世纪这个“大生命科学 的世纪,功能基因组、蛋白质组、代谢组等大科学 研究计划正强有力地推动着基于生物芯片的高通量生物分析技术和研究平台的 市场需求。生物芯片不仅在科研方面发挥着重要的作用,而且广泛应用在疾病诊 断治疗、新药研究开发、食品安全监测、农作物育种、环境污染检测等与国民生 活息息相关的领域,显示出广阔的商业前景和巨大的消费市场,被业内外人士称 r 基于基因芯片的基因表达模式分析 为“具有战略意义的前沿高新技术。 伴随生命科学领域的市场及产业规模的不断增长,全球的生物芯片企业以及 相关行业正面临着前所未有的机遇与挑战,所有国际知名的生物芯片公司都在尽 可能地扩大自有的产品线,以迎合更多客户提出的不同需求。在过去1 0 年间, 美国政府和产业界共投入将近2 0 亿美元用于以基因芯片为主的生物芯片的研究 开发与产业化。世界上几乎所有的跨国制药公司都投入巨资,利用基因芯片开展 新药的超高通量筛选和药理遗传学、药理基因组学等研究。许多著名的电信、电 气企业,例如摩托罗拉、i b m 、日立等也参加到生物芯片的研发行列。2 0 0 5 年元 月,美国f d a 批准罗氏公司的c y p 4 5 0 基因诊断芯片上市叫y p 4 5 0 基因诊断的 结果将有利于治疗心脏病、疼痛和癌症。荷兰的a g e n d i a 公司也与a g i l e n t 公司 合作开发以d n a 芯片为基础的诊断产品。总之,越来越多的大型诊断公司开始关 注生物芯片市场,更多的制药或生物制药公司也加大了相关投入。 我国生物芯片研究始于1 9 9 7 年至1 9 9 8 年间。尽管起步较晚,但是在国家政 策的大力支持和产业界的高度重视下,我国生物芯片技术和产业发展迅速。从 2 0 0 0 年开始,国家陆续投入近5 亿元人民币,建立了北京、上海两个生物芯片 国家工程研究中心,为加强我国在这一新兴高科技领域的自主创新和产业化能力 奠定了坚实的基础。“十五”期间,国家8 6 3 计划重点组织实施了“功能基因组 及生物芯片研究 重大专项,对生物芯片的系统研发给予了倾斜性支持。此外, 地方政府和企业也对生物芯片的发展给予积极支持,越来越多的民间资本投入芯 片产业,资本运营进入良性循环。 在地区布局上,形成了以北京、上海两个国家工程研究中心为龙头,天津、 西安、南京、深圳、哈尔滨等地近5 0 家生物芯片研发机构和3 0 多家生物芯片企 业蓬勃发展的局面。北京博奥生物、上海生物芯片、天津生物芯片、陕西西大北 美等企业已成为我国生物芯片产业的主导力量。在香港和台湾,分别以香港基因 晶片公司和台湾晶宇公司为代表,也开始了生物芯片技术在临床诊断方面的研 盥 及。 经过数年的发展,我国生物芯片产业已经从技术研究和产品开发阶段走向了 9 基于基因芯片的基因表达模式分析 技术应用和产品销售阶段。某些技术和产品已经达到了国际领先水平,在表达谱 芯片、重大疾病诊断芯片和生物芯片相关设备的研制上取得了较大的突破。 目前,我国共有5 0 0 余种生物芯片及相关产品问世,2 0 0 2 年到2 0 0 5 年的累 计销售额近2 5 亿元;1 0 余个芯片或相关产品获得了国家新药证书、医疗器械 证书或其他认证,并已实现产业化生产。我国生物芯片产业已经实现了从无到有 的阶段性突破,并正在逐步发展壮大。 4 基因芯片的数据分析 基因芯片技术已经广泛地用于在基因组层面上鉴定在不同生理和病理状态 下的基因表达模式n 6 j 刀。随着基因芯片技术不断广泛地用于研究基因功能,转录 调节,病原学和药物开发n 纠们,科学家面临了一个重要的挑战如何处理个体 芯片实验产生的大量的转录数据。仅仅通过直接的观察和简单的统计分析芯片数 据来推断基因的功能是不可靠的而且工作量往往非常繁重,因而很多生物信息学 工具被开发出来进行数据分析和释义陋2 铂。很多情况下,基因功能的注释是通过 基于聚类的方法来完成的,常用的聚类方法有k 均值聚类、层次聚类、自组织映 射( s 咖、自组织树算法、多维测量、p c a 等2 锄1 。当科学家找到表达模式相近或 则相反的基因,便可以推断他们之间的正调节关系,负调节关系,蛋白相互作用 关系或者具有相似的生理功能等。基因表达数据的聚类分析已经被用于研究酵母 孢子形成过程中基因表达瞬时模式洲、鉴定基因表达调控网络啪1 和研究癌症嘲 等。另外,通过基因表达图谱的聚类分析,科学家找到共表达的基因,并且研究 它们相似的被调控机制,发掘它们共同的转录因子结合位点和组合调控模式 溉删。基因芯片聚类分析的软件有g e p a s 嘲、d n m a d 、m i d a w c 2 4 1 、g e m s 瞰1 等, 基因的功能通过寻找基因表达模式的内在联系而得到。除了基于聚类的方法,一 些集成的分析系统已经开发出来,他们运用了不同的方法,比如主成分分析、特 征选择和有监督的分类、多因子方差分析等胁棚3 9 柏1 。另外,已有人报导将基因 表达模式映射到现已发现的调控、代谢和细胞信号通路上n 引。 虽然聚类分析能够得到基因表达图谱的内在关联关系,却无法告诉生物学家 1 0 基于基因芯片的基因表达模式分析 哪些基因是差异表达的,或者说是与生理条件的改变或者实验处理最为相关的基 因,即生物标识,这个时候需要进行芯片数据的显著性分析。显著性分析是芯片 实验的一个重要目的“,并有重要意义,比如,科学家已经通过正常样本和病态 样本基因表达图谱的比较鉴定了与某些癌症发生相关的基因并用于诊断h 2 “3 1 。最 早的芯片显著性分析方法是倍数方法,科学家往往把在不同条件下基因表达水平 增加1 倍或者减少一半以上,或者相对于平均表达水平变化2 倍标准方差以上的 基因称为差异表达基因4 钔。这个方法的弊端比较明显,假阳性率比较高,另外 2 倍作为界线未必合理。之后,很多统计学的方法应用到该领域,比如t 检验和 f 检验。t 检验也进行了一些改进得到了s a m h 7 1 ,正规t 检验等n 引,这些方法 适用于有多次重复测量的芯片数据,假阳性率和假发现率有了明显的降低。但是 为了快速准确地发现生物标识和降低实验成本,这些方法仍需不断改善。另外, 主成分分析( p c a ) 的方法也被广泛应用于解决此问题汹q 。p c a 的优点是通过 将高维的芯片数据映射至低维,减少计算时间并且实现结果可视化,但是这种方 法有可能丢掉有用的数据信息,准确率需要更加合理的评估。 基因芯片分析的一个重要挑战就是如何寻找只在一个组织中表达的基因或 者在少数组织中的表达明显区别与其它组织的基因,准确地找到这样的基因对于 科学家在分子层面上研究组织的功能是十分有意义的啼2 1 。在这个领域,已经有很 多研究成果报导出来瞄2 “ 。 将基因芯片数据分类,例如区分正常样本和病态样本,也是基因芯片数据分 析的一个重要研究领域。解决此问题的主要方法是机器学习的方法,常用的有支 持向量机( s v m ) ,该技术已日趋成熟并得到广泛利用嘞的1 。 近年来兴起的基因芯片数据分析的一个重要领域是时序模式的分析和基因 调节网络的构建。进行时序模式的基因芯片实验有着重要的意义,因为它能够描 述细胞周期或者代谢等动态的生物过程叭1 ,从而推断不同基因表达特征之间的 因果联系,这些因果联系也可以进一步推断基因调节信息,最终形成一个基因调 节网络。寻找基因表达时序模式的方法主要有傅立叶变换、单值分解( s v d ) 邸引、独立成分分析、动态模型、光谱成分分析3 等。通过这些方法,很多基 因调节关系和网络模型已经被建立起来m 朋。7 羽。 1 1 基于基因芯片的基因表达模式分析 本文的第一部分主要介绍作者开发的基因芯片数据聚类分析和相关性分析 的在线软件g e p s 以及在此基础上开发的组织特异表达数据库t s e d ,g e p s 发表在 英国( n u c l e i ca c i d sr e s e a r c h ) 期刊上口3 1 ;第二部分主要研究了基因芯片显著 性分析几种常用统计学方法的性能比较,并提出了改避f 橙:殓和改迸t 凇作 为改进现有方法的一种探索。 1 2 基于基因芯片的基因表达模式分析 1 引言 第一章基因表达模式分析系统( g e p s ) 的构建 基因芯片数据的释义取决于基因表达模式内在联系的准确发现,比如相关性 表达,差异表达和特异表达。基因表达模式分析系统( g e p s ) 就是这样的系统, 它的目的是系统地全局地分析基因表达模式。g e p s 的优点之一是欲寻找的基因 表达模式的内在关系是通过计算个体基因的整体表达特征来实现,这样得到的结 果可以比较真实地反映基因的表达行为。另外一个优点是基因之间的相互关系可 以通过某个参数进行降序排列,这种方法不仅可以定性地全局地研究基因表达, 而且尝试了定量研究。最后,g e p s 除了可以处理用户提交的数据集,还提供了 大量的公共数据集,以供用户更好地理解基因表达行为。 2 方法 2 1g e p s 的数据 g e p s 提供了一些公共数据给用户进行查询,其目的是为了参考和比较以及 更好地理解基因表达行为。g e p s 的公共数据集来自两个重要的数据库: g n f ( h t t p :s y m a t l a s g n f o r g s y m a t l a s ) 洲和 g e o ( h t t p :w v m n c b i n i h g o v g e o ) 7 引。 来自g n f 的数据的下载地址是: h t t p :w o m b a t g n f o r g i n d e x h t m l 。 来自g e o 的数据的下载地址是: f t p :f t p n c b i n i h g o v p u b g e o d a t a s o f t g d s 。 芯片注释文件的下载地址是: h t t p :w w w a f f y m e t r i x c o m s u p p o r t t e c h n i c a l a n n o t a t i o n f i l e s m a i n a f f x 。 我们对下载的数据集进行了一些处理:从g e o 下载的s o f t 格式文件,我们 1 3 基于基因芯片的基因表达模式分析 将文件头去掉,只保留表达数据和条件、探针标识;将表达水平的对数率转化为 与m r n a 表达成正比的计数值;负表达值或者空值用o 代替;相同条件下的表达 值合并,用平均表达值代替。图1 - 1 是经我们处理后的亦是用户可以上传的数据 样本。 l d 蠢e f l _ i i 盯i 1 t :3 t 3 孽7a tl 1 7 a 2 5 3 1 3 na tl 1 7 8 a 毒1 3 0 9r t 牡5 2 7 7 3 1 3 1 a tx s 2 尊9 3 1 3 1 1a tx 6 7 3 1 3 1 2a tu 6 9 9 6 2 3 1 3 1 aa td 1 7 7 1 6 s 1 3 1 一a t i 龆2 9 1 ) 1 3 1 sa to i 1 1 3 $ 1 3 1 6i 2 a a t 1 1 9 槲螬尊擀r 坩 7, 孙拜r | ,s 21 7 1 1 筝,11 零1 零 1 雾毒a a 2 7 。3 1 一s s 1 7 7 摹1 毒零 图1 - 1 数据样本 f i g 1 1d a t as a z p l e 鞠毒a c t赫j r t 曩 2 s3 2 2 2 t ;筝 2 誊 s 霉6 1 4 。2 2 1 瓣1 霉2 0 2 57 目前,g e p s 共收集了1 9 个公共数据集,包含3 2 9 2 0 5 个非冗余的基因表达 记录,2 4 2 7 7 个人类基因,7 9 个人类组织,3 2 9 0 5 个小鼠基因,6 1 个小鼠组织, 4 2 0 1 个大鼠基因和4 4 个大鼠组织。 2 2 基因表达模式的分析 在进行基因表达模式分析之前,每个基因表达谱需要转化成向量x : x = ( z l ,3 :2 ,z 3 ,。,) ! 其中噩表示随组织、时间或者其它条件变化的基因表达水平。7 表示组织或者 时间点的总个数。比如,图卜1 中的探针标识3 1 3 0 8 _ a t 代表的基因表达谱可以 表示成为:x = ( 1 0 5 ,1 6 ,2 ,1 7 ,4 5 ,8 2 ,2 5 ,4 3 ,7 9 ) 。表达模式的查 找通过三种方法:相似度( 5 彻,相关性分析和特异度( 。咖相似度衡量两个基 因表达谱在高维空间的几何相似性,即两个向量夹角的余弦,用以下的公式来表 示: 1 4 绷 1銎2,-。 7嚣翟嚣麓器 恻2, j:哺墨 协:-= 钆:l k 5l,2,6事,悄;。毫1詹慵囊5。协:占_囊j氛l乳_:西l1,7z,71 毒 _j囊址冉_魄 i a s 毒 ;5:o氛聃j三主”堋”s|饷 基于基因芯片的基因表达模式分析 s m ( e o s 秽) = 雨x * 丽y , 其中。是向量x 和y 夹角,ix i 和ly1 分别是向量x 和y 的长度。s m 范围是0 到 1 两个基因表达谱x 和y 的相关性用相关系数,来表示,公式如下: ( z 娥一,铘) i 一1 ,的范围是从一l 到1 碧是基因表达水平的平均值s p m 是用来衡量基因在某 个组织表达的特异度和富集度的。s p m 用以下的公式表示: s p m ( 蝴n ) 描商, 其中a 是高维空间向量x 和代表组织j 的坐标轴的夹角。蜀是该基因在组织j 的 表达水平,ixl 是向量x 的长度 为了更好地解释隐藏在大量数据后面的生物信息,我们把每个基因表达图谱 看成一个随着组织、时间或者其它条件变化的分布曲线( 计算时的向量) ,比较 两个分布曲线有助于系统地鉴定基因表达模式。几何比较( 渤用来表示两个分 布曲线的相似性。s g 的数值越接近1 说明两个分布越相似,这暗示着两个基因 有相似的表达模式,而不管它们的绝对表达值有多高,这也可以进步解释成两 个基因可能在生物过程中起着相似的作用。然而,相似的表达模式不意味着这两 个基因的表达是相关的,所以,相关性分析用来表明两个基因的表达是否相关。 相关系数,越接近与1 或者一l ,则说明两个基因的表达是高度相关的,接近l 说明两个基因的表达是共表达,接近一1 说明两个基因的表达是逆表达或者互补 表达。这样的关联可以进一步推断为这两个基因( 翻译的蛋白) 可能相互作用或 者翻译成功能相关的蛋白 7 6 巾1 。组织特异表达非常有助与理解基因的生理行为。 在很多情况下,组织特异表达基因的不确定性是因为缺少量化标准。在g e p s 这 项工作中,s p a 用来表明某个基因在特定组织中( 相对于其它组织) 的特异表达 1 s 基于基因芯片的基因表达模式分析 程度。s p g 越接近l 表示基因表达的特异度越高。这个度量也可以用来区分在不 同条件下的基因表达行为。 3g e p s 的页面设计与结果显示 3 1 软件部分 g e p s 的庠目址是垒主主乜;z z 堕i q i 坠:墨堡坠:星鱼坚:堡垒z 璺q l :主! 垒! 金z g 金巳苎z g 金乜墨:巳b 乜。g e p s 页面运用p e r l 、p h p 、j a v a s c r i p t 语言编写而成。软件部分页面的架构如图卜2 所示。 主甄 塑幽 型室塑堕r 磊页 演示 藿陶 塑薹墼墨整塑堡 找组织特异袭选基嗣 图1 - 2g e p s 软件部分的架构 f i g 1 2t h ef r a = oo ft h es e r 、r e r s e c t i o no fg 班,s 阏表达比 细偿皇 箜墨r 1 葡刑 匾卜骨 在进行交互式数据分析之前,用户需要提供先前分配的6 位数已上传数据集 的i d 或者上传一个新的数据集( 图1 - 3 ) 。g e p s 通过内嵌的动态的c g i 程序来实 现用户上传数据,上传的数据集要求是标准化之后的。数据可以从用户本地上传 到远端服务器,数据文件应该是t a b 键或者是空格键分格的纯文本文件( “t x t 格式文件或者g e o 数据库的“s o f t 格式文件) ,为了节省上传时间,也可以是 压缩后的“g z 格式文件。g e p s 接受的数据集的格式与通用的基因芯片数据 集格式相似:第一列用“i d r e f 命名,它是每个基因或者探针组的唯一标识, 1 6 鲨一 基于基因芯片的基因表达模式分析 g e n ee x p r e s s i o np a t t e r ns c a n n e r l a t e s tu p d a t e :2 0 0 6 - 2 - 2 5 g e n ee x p r e s s i o np a t t e r ns c a n n e r e n t e rap r e v i o u s i ya s s i g n e d6 - d i g i t ( g e p s li saw e b - b a s e ds e w e rt op r o v i d e 仃i ei d : i n t e r a 印v ep a t t e ma n a l y s i so fu s e r - s u b m i t t e d m i c r o a r r e yd a t a g e n ee x p r e s s i o np a t t e r n si j i n c l u d ec o r r e l a t e de x p r e s s i o n s i m i l a r e x p r e s s i o n , a n ds p e c i f i ce x p r e s s i o n w h i c ha r e 面i 门斥;磊订 d e t e c t e di nas y s t e m a l j ca n dg l o b a lm a n n e r 。“ o r g e p sa l s o 】p r o v i d e sd i r e c a c t e s so fa n a l y s i s 南! ;t j 鸭饼p u g i 1 cg e n ee x p r e s s i o nd a t af r o mt h e u p l o a dan e wf i l e :l 阳r m a t 熊蝴躲嚣淼勰口鹏吨幽taourpulmi蠹dlda n c l u d e :m 二= 圈固s e 删o n il l 强! 璺:一j 曩1 ji 参i 。 l ! ! 皇整! i l ! ! 苎壁卜 s a m p l ed a t a !?o-_-_oo u s e r sc a r l u p l o a d a ”8 0 r d a t a s e i f l l e d e r i v e d f r o mg a n ee x p r e s s i o no m n l l 3 u s ( o e 0 ) f 伊 w i t h o u ta wm o d m c a t j o n g ot ot h efp u b i i cd a t ajs e c t i o n f o rt h ef i r s tt i m eu s e r p l e a s ev i o 托 t h erd e m oj 图1 - 3 既p s 的主页 f i g 1 3t h eh o m e p a g eo fg e p s 也是显示分析结果时的标识。第二列用“i d e n t i f i e r ”命名,它是每个基因或者 探针组的描述( 例如基因名) ,其余的列是基因表达数据。第一行是每个列的名 称,其余行是基因表达数据并且每行代表一个基因或者探针组。“n u l1 或者空 格字符是不允许出现在表达数据值中的,如果出现需要用“0 或者下划线“一” 字符代替。在分析过程中,在同一行带有相同列名的连续列,其基因表达数值将 被合并并且用它们的平均值来代替。对于新提交的数据集,用户需要指明数据类 型,即计数值或者对数值,如果数据上传成功,将会显示一个交互式的数据分析 页面( 图1 - 4 ) ,并且会分配一个新的6 位数i d ,以便以后进行深入的分析。g e p s 主要提供3 个功能模块:按基因寻找模式模块,比较基因表达图谱模块和寻找特 异表达基因模块。利用按基因寻找模式模块,用户能够搜索和某个指定基因( 用 1 7 基于基因芯片的基因表达模式分析 | | _ 一? j 野蜒i n f o t m a t l o n 一 一一一一翟:t 鼍曩一_ ? _ :- _ _ _ 一一一一 一 一 。一“ 州犁堆h i e 黝q 瞩p 碜一搴多羽黪篓芝;蠹。簿jj ;d a t a 煞哪妇d :t 蝴r o w s : :“一 一。一一 一 ! d a t ar e j e c t e d :0r o w sb r o w s et h ed a t a 一一一一_ _ 一一 一一一 ( p r o b e s e t
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025广东佛山市南海区第九人民医院招聘事业聘用制工作人员6人(第一批)笔试参考题库附答案解析
- 2025北京市首都医科大学附属北京中医医院招聘6人(第三批)笔试备考试题及答案解析
- 2025广西桂林市秀峰区消防救援大队招聘政府专职消防员3人笔试参考题库附答案解析
- 2025广东深圳市南方科技大学附属光明凤凰学校招聘中小学教师备考试题及答案解析
- 公共绿化带养护文明施工措施
- 机场电缆敷设安装施工方案与技术措施
- 2025福建厦门市集美区北站幼儿园非在编教职工招聘1人笔试备考试题及答案解析
- 2025北京交通职业技术学院招聘2人备考试题及答案解析
- 2025福建武夷旅游集团有限公司应届生招聘8人考试备考试题及答案解析
- 2025福建福州工会招聘工会社会工作者35人笔试备考试题及答案解析
- 枣庄学院《图学基础与计算机绘图》2024-2025学年第一学期期末试卷
- 2025版仓储库房租赁合同范本(含合同生效条件)
- 2025至2030年中国纳米抛光浆料行业发展监测及发展趋势预测报告
- 养老护理员培训班课件
- 2025-2030城市矿产开发利用政策支持与商业模式创新报告
- 隔爆水棚替换自动隔爆装置方案及安全技术措施
- 医学减重管理体系
- 民宿管理运营标准化手册
- 2025年全国招标采购专业技能大赛(央企组)历年参考题库含答案详解(5卷)
- 医院药学带教课件
- 咯血与呕血的护理
评论
0/150
提交评论