


全文预览已结束
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 随着生物学与基因技术的发展,基因被视为人类了解各种生物的最基本的 工具。由于基因染色体本身具有庞大的数据量,基因片段分割作为基因结构分 析重要的前期工作也越来越受到更多人的关注。本文针对拟南芥的基因染色体, 利用t i l i n ga r r a y 技术将原始基因数据文件转变为探针文件,然后使用标准化程 序对探针文件进行处理,再根据这些探针文件的分布情况来进行模糊分段。 根据得到的分段信息与原有的基因注释信息进行比对,通过其中的差异来试 图发现新的基因特征片段,更新原有的注释信息;同时对比分段之后的野生型 和变异型的分段信息,寻找彼此的差异,通过存在分段表达差异的这些特定位 置的基因,为生物学实验提供了参考的依据,就有可能从生物学的角度中来解 释植物变异之后的外在表现。t i l i n ga r r a y 芯片技术的应用,对于扩大生物的研 究领域有着重大的意义。 关键词:t i l i n ga r r a y 、标准化、分段 a b s t r a c t w i t ht h ed e v e l o p m e n to fb i o l o g ya n dg e n et e c h ,g e n eh a sb e e ns e e na st h eb a s i c t o o lf o ru n d e r s t a n d i n ga l lk i n d so fb i o l o g y d u et ot h eh u g ed a t at h a tg e n eh a v e , p e o p l eh a v ep a y m o r ea n dm o r ea t t e n t i o nt os e g m e n t a t i o no fg e n ea st h ep r i o rj o bf o r a n a l y z i n gt h eg e n es t r u c t u r e t h i st h e s i sf o c u s e so nt h ec h r o m o s o m eo fa r a b i d o p s i s t h a l i a n aa n dt u r n st h er a wd a t at op r o b ed o c u m e n t sw i t ht h eh e l po ft i l i n ga r r a yt e c h , t h e nu s es t a n d a r dp r o g r a mt o p r o c e s st h e ma n ds e g m e n tt h e mb a s e so nt h e d i s t r i b u t i o nd i f f e r e n c e so ft h ep r o b e s w i t ht h ec o m p a r i s o no ft h es e g m e n t a t i o nr e s u l t sa n dt h eo r i g i n a lg e n ea n n o t a t i o n i n f o r m a t i o n ,m a y b ew ec a nd i s c o v e rs o m en e ws e g m e n t a t i o nt h r o u g ht h ee x p r e s s i o n d i f f e r e n c e s ;a l s ow ec a nc o m p a r et h er e s u l t sf r o mw i l dt y p ea n dm u t a n tt of i n do u t w h e t h e rt h e r ea r es o m ed i f f e r e n c e s t h r o u g ht h eg e n ee x p r e s s i o nd i f f e r e n c e sb e t w e e n t h ew i l dt y p ea n dm u t a n t , w em a yf i n dt h eb i o l o g ye x p l a n a t i o nf o rt h ed i f f e r e n t e x p r e s s i o no u t s i d eb e t w e e nt h e m t h eu s eo ft i l i n ga r r a yc h i pt e c hm e a n sm u c ht o e x p a n dt h eb i o l o g yr e s e a r c h k e y w o r d :t i l i n ga r r a y 、n o r m a l i z a t i o n 、s e g m e n t a t i o n 厦门大学学位论文原创性声明 本人呈交的学位论文是本人在导师指导下,独立完成的研究成 果。本人在论文写作中参考其他个人或集体已经发表的研究成果,均 在文中以适当方式明确标明,并符合法律规范和厦门大学研究生学 术活动规范( 试行) 。 另外,该学位论文为() 课题( 组) 的研究成果,获得() 课题( 组) 经费或实验室的 资助,在() 实验室完成。( 请在以上括号内填写课 题或课题组负责人或实验室名称,未有此项声明内容的,可以不作特 别声明。) 声明人c 签孙驯砧 叶年6 月7 转日 厦门大学学位论文著作权使用声明 本人同意厦门大学根据中华人民共和国学位条例暂行实施办 法等规定保留和使用此学位论文,并向主管部门或其指定机构送交 学位论文( 包括纸质版和电子版) ,允许学位论文进入厦门大学图书 馆及其数据库被查阅、借阅。本人同意厦门大学将学位论文加入全国 博士、硕士学位论文共建单位数据库进行检索,将学位论文的标题和 摘要汇编出版,采用影印、缩印或者其它方式合理复制学位论文。 本学位论文属于: () 1 经厦门大学保密委员会审查核定的保密学位论文, 于年月日解密,解密后适用上述授权。 () 2 不保密,适用上述授权。 ( 请在以上相应括号内打“”或填上相应内容。保密学位论文 应是已经厦门大学保密委员会审定过的学位论文,未经厦门大学保密 委员会审定的学位论文均为公开学位论文。此声明栏不填写的,默认 为公开学位论文,均适用上述授权。) 各 i 九 百 以 ,jj 儿 日名 y 签 ” 月 人6 明 年 声1 伽 第一章绪论 1 1 研究背景 第一章绪论 随着越来越多物种基因组测序的完成,下一步基因组研究的重点将是揭示物 种基因组所隐藏的生物信息。这一步的实现需要全面识别d n a 所编码的基因、 蛋白和其他功能元,了解基因与蛋白的相互作用与调控机理,以及如何配合而产 生复杂的生物过程。其中基础而重要的一步便是获得全基因组水平的表达产物, 进而开展功能元的研究。全长c d n a 测序( c d n as e q u e n c i n g ) 方法识别了目前已 知、高质量的编码蛋白基因,但几乎所有类似的克隆方法都偏向于探测在生物组 织中被充分表达的基因n 1 。这类技术往往很难深入地探索基因组水平所有的表达 信息,也不适用于不同的组织和不同条件下转录信息的提取。在刚刚过去的5 年 间,从微阵列基因芯片技术发展而来的新技术t i l i n ga r r a y 乜1 使高通量、全基因 组水平的表达探测在理论上得以开展,随着芯片探针设计密度的不断增加,t i l i n g a r r a y 在高等真核生物全基因组水平的应用也得以逐渐实现。 1 2 研究问题的提出 t i l i n ga r r a y 的探针设计几乎涵盖了目标d n a 的全部序列,其高密度、高通 量的特性使人们可以从全基因组水平考察生命过程和探索生命奥秘。但是对 t i l i n ga r r a y 基因芯片进行数据分析确是相当困难的。t i l i n ga r r a y 基因芯片应用 过程产生了海量的关系复杂的实验数据,如何解读芯片上成千上万个基因点的杂 交信息,将无机的信息数据与有机的生命活动联系起来,如何对这些数据进行准 确而合理的分析并从中挖掘出有意义的生物信息,已成为限制该技术进一步发展 的主要瓶颈并已成为当前生物信息学的主要研究内容和主要发展方向口1 。然而就 目前来说,基因芯片技术所遇到的挑战并不在基因表达芯片本身,而是在于发展 实验设计方法以对基因表达进行时空的全面探索与分析。最大的挑战则是数据分 析与挖掘。本文主要就基因表达型芯片的数据分析特别是其中标准化处理与分析 基于t i l i n ga r r a y 的拟南芥基冈结构分段 这一环节展开并进行研究。 1 3 研究的意义 基因芯片数据分析的目的就是从看似杂乱无序的数据中找出它固有的规律, 处理和分析这些数据并从中提取出有价值的生物学信息。就目前而言,基因表达 信号识别算法虽然不少,但是具有普遍适用性的方法不多。一些方法已经成功的 应用于酵母t i l i n ga r r a y 数据分析h 1 ,但是,在分析拟南芥t i l i n g a r r a y 基因时遇到 了困难。在这里,基因密度通常很低,外显子片段更短,并且被非常长的内含子 序列阻碍。所以我们从一个新的角度对拟南芥的基因芯片进行研究,从中发现基 因芯片中的规律,为生物学的实验研究提供参考,提取出有价值的生物学信息。 1 4 研究的主要内容 本文主要使用了z e l l e r 论文中所提及的标准化算法对拟南芥基因芯片的数据 进行处理。在z e l l e r 论文中,他将拟南芥作为研究的对象,利用t i l i n ga r r a y 技术, 试图通过研究拟南芥的不同部位的不同时期的基因表达,来寻找基因片段上的特 定区域,例如外显子和内含子。本文通过t i l i n ga r r a y 技术将原始基因数据文件 转变为探针文件,利用探针文件的浓度分布图来进行基因分组片段的研究。运用 z e l l e r 的算法将杂交后的数据进行标准化处理,移除基因表达中的由探针测序引 起的误差及由基因碱基含量不平均导致的探针相互关联影响所引起的误差,得到 更为真实准确的数据。本文研究的目标是对拟南芥的茎和叶的野生型和变异型的 基因进行分段,并且根据分段的结果,寻找彼此的差异及与原始注释基因之问的 差异。通过研究z e l l e r 提供的程序包和数据包,调试了运行环境,确保程序的运 行环境与原作者的运行环境相同,保证程序运行的可参照性。由于数据格式的获 取来源不同,本文通过重新构造原有的数据结构,使数据能够符合参考程序所要 求的数据格式。在加载了野生型和变异型的基因数据并且运行标准化程序后,得 到了各自的探针浓度分布的散点图,通过这些探针浓度分布点的高低起伏差异, 我们可以进行模糊分段,然后将得到的分段信息与原有的基因注释信息进行比 对,通过其中的表达差异来试图发现新的基因特征片段,更新原有的注释信息; 也可以对比分段之后的野生型和变异型的分段信息,寻找其中的差异。这些找到 2 第一章绪论 的差异从计算机的角度并不能解释其具有的意义,但是为生物学的实验研究指明 了发生变异的染色体位置,为生物学的实验验证提供了一个参考。因此,利用计 算机技术来拓展生物研究的领域是一个主流的趋势。 1 5 论文的研究框架 第一章介绍了该项目的研究背景,阐明该问题在生物学上的重要意义并对论 文的基本内容和整体框架做整体介绍。 第二章介绍了本文应用的工具t i l i n ga r r a y 的一些基础知识,阐明了该芯片的 特点及工作原理,并且介绍了三种经典的信号识别算法,这三种典型的信号识别 算法是所有新的识别拓展算法的基础。 第三章介绍了实验的研究对象的特点、数据预处理的原理及预处理对于实验 的下一步的重要性,同时介绍了文章所使用的标准化算法和分段算法。 第四章介绍了研究对象数据的获取及数据文件和数据格式,同时详细地描述 了怎样利用现有数据去构造实验程序所需要的数据的过程。构造数据是实验的第 一步,并且通过一个测试实验来说明构造数据的正确性。 第五章介绍了本文的实验流程和实验结果。通过已经构造好的数据,可以运 行程序得到我们所预期的结果,然后利用结果图来进行分段,并且与原有注释文 件进行对比,实现本文的研究目的寻找不同的特征片段。 第六章总结了论文所做的主要工作,分析所使用的方法和思路的不足之处。 提出在数据构造和思路上的一些改进建议,为进一步完善基因序列的特征片段分 段工作提供借鉴。 3 基于t i l i n ga r r a y 的拟南芥螭w 结构分段 第二章t i l i n ga r r a y 技术基础知识 2 1t i l i n ga r r a y 的概念 t i l i n ga r r a y 实验技术是从传统的微阵列基因芯片技术发展而来,在t i l i n g a r r a y 新技术产生发展的5 年间,它已经成为了全基因组生物信息挖掘的主要工 具,其高密度、高通量的特性使人们可以从全基因组水平考察生命过程和探索生 命奥秘。 传统的微阵列基因芯片是将许多特定的寡核苷酸片段或e d n a 基因片段作 为靶基因,有规律地排列固定于支持物上;样品d n a r n a 通过p c r 扩增、体 外转录等技术掺入荧光标记分子或放射性同位素作为探针;然后按碱基配对原理 将两者进行杂交;再通过荧光或同位素检测系统对芯片进行扫描,由计算机系统 对每一探针上的信号做出比较和检测,从而得出所需要的信息瞄3 。 t i l i n g 的意思是指贴、盖、搭的意思,t i l i n g 芯片也就是嵌合芯片的意思,这 是一种非常适合于全基因组分析的针对所有转录本的d n a 微阵列。虽然也是 t i l i n ga r r a y 与e x o na r r a y 同属于寡核苷酸芯片类别,但是两者的目的不同,设 计的原理亦不一样:一个是从编码区m r n a 序列入手,一个则是从全基因组概念 上每隔3 5 个b p 设计一段2 5 b p 长度的探针。人类基因组共有3 0 亿个b p ,每隔 3 5 个b p 设计一个探针,这也就是说在一段为l o o b p 片段有3 个探针,3 0 亿个里 有3 千万个探针,也正是这么密集的探针数才能保证对整个基因组全转录本的扫 描,保证一个也不会少。因此对于研究转录因子在基因上不同位置的定位,以及 d n a 甲基化、组蛋白乙酰化有极好的应用。 2 2t i l i n ga r r a y 与传统基因芯片的差异 一般来说,t i l i n ga r r a y 定义在基因组染色体水平,它与传统微阵列的不同在 于1 :( 1 ) 传统微阵列技术只检测染色体部分区域的生物特性,如已知和预测基 因的外显子部分;t i l i n g a r r a y 具有高密度、高通量的特点,可以对全基因组水 平的生物信息进行探测。( 2 ) t i l i n g a r r a y 的探针筛选和芯片制备可以不依赖已有 4 第二章t i l i n ga r r a y 技术基础知识 基因组注释信息:传统微阵列通量较小、密度较低,测试需要更大的针对性,其 探针的选取需要基因组注释信息。 2 3t i l i n ga r r a y 基因芯片实验流程 基因芯片实验的第一步一定是提出科学问题,也就是你是用基因芯片来干什 么,来解决什么问题,具体来说该步骤不仅包括科学问题的提出而且还包括围绕 着该科学问题而进行的科学假设、文献调研等工作;第二部为实验设计,包括实 验条件的确定,分析任务分析方法的制定等;第三步为芯片设计和样本制备,包 括探针、d n a 序列的设计制备,探针在微阵列上的放置等,一般情况下,实验人 员不用自己去设计芯片,而是根据需要直接向公司购买或者订购所需要的芯片; 接下来是样本制备,该步骤非常关键;下一步就是杂交实验;然后对图像进行处 理,到处数字矩阵,数据预处理包括去噪、缺失值估计、标准化、特征基因抽取 等。接下来就是数据分析与建模,总的来看包括数据模式分类和模式发现,最后 一步就是结果的解释和验证,包括算法验证和生物学验证,但最能说明问题的还 是生物学验证。图2 - 1 5 基于币i i n g a r r a y 的拟南芥摹闪结构分段 l 键艘锻学翊恶 毒 i i蛮验设汁 毒 i 嵇 :蹬计 i 括奉镶l 盗 l i i 袈幺瘦酶 i l 图镶鲣墁 i 静趣数髭锈跨 i 莩誊? 釜篓 绐聚钫稃 黔甜 图2 1 基因芯片实验的流程示意图 2 4t i l i n ga r r a y 的芯片设计工艺 t i l i n ga r r a y 技术从微阵列发展而来,t i l i n g ( 或称t i l ep a t h ) 指的是如瓦片一样 覆盖基因组的探针序列。如果说传统的微阵列技术是有偏向性的设计理念,t i l i n g a r r a y 可以说是无偏的芯片设计思路口1 。它把基因组染色体的双链序列无任何偏 倚,或按着一定的间隔规律、或者以序列交叠的方法、或者以序列头尾相接的方 式制作成探针,相邻探针中心位置之间的距离,即定义为探针的步长( s t e p 或 r e s o l u t i o n ) ,见图2 2 。 6 第二章t i l i n ga r r a y 技术基础知识 a 基因绾a t c t g a t a t c c t a g c t c t g t t a c t ( ;g - - - - c a t t a g c a t c 、 f。 。,、 、 、 ?+ b ) 芯片 基因缀黪渤 _ p _ | 卜 鬟耱式泼计 1 ) r o 氅b p r o b c 2 - p r o b e 3 基因绾黟列 首尾糟接式一 ;8 j 毒1 卜啼_ 卜啼_ 卜一 ”p r o b e lp r o b c 2p r o b e 3 基因缓露弱 褥瀚褊筑 一 设汁节丽耐丽 图2 - 2 :芯片与探针制备工艺 ( a ) t i l i n ga r r a y 芯片设计工艺,大部分芯片随机确定相邻序列在芯片上的位置以 减少系统错误;( b ) t i l ep a t h 设计可以重叠,首尾相接或者等距问隔。 2 5t i l i n g a r r a y 的芯片与探针制备工艺 芯片常用的制备方法主要有接触直接点样法阳1 、照相平板术四1 、喷墨法等n 们。 接触直接点样法操作简单,只要把事先准备好的探针点样到基板上,探针取样通 常依赖基因组注释。点样的基板可以是玻璃、硅片、硝化纤维,点样过程通过点 样仪完成;照相平板术多用于制作高密度芯片,该技术不需要事先准备探针,而 是在基板上进行一次一个碱基的单链d n a 原位合成;喷墨法可用于原位合成,也 可以用作直接点样,且都需要把用于合成的核苷酸或者合成好的探针喷射至基板 预定位置,其制作速度快、耗费低。由于t i l i n ga r r a y 通量大、消耗高,所以 这类芯片多采用照相平板术和喷墨法制备。除了上述芯片材质和制备方法比较关 键之外,加载在芯片上的探针则主导最终的芯片实验。 目前的研究进展显示,t i l i n ga r r a y 探针制备一般需要两个步骤:( 1 ) 探针 7 基于t i l i n ga r r a y 的拟南芥皋| 大l 结构分段 设计,即确定探针的长度与步长;( 2 ) 探针筛选,在t i l i n g a r r a y 探针设计后会 得到大规模的探针集合,需要最终筛选出不会产生杂交噪声的探针。多数t i l i n g a r r a y 实验探针长度为2 5 1 0 0 0b p ,普通的寡核苷酸( o l i g o n u c l e o t i d e ,简称 o l i g o ) 芯片探针长度多为2 5 7 0b p ,也有更长的探针达到1 0 0 - - - 1 5 0 b p 。某些探 针设计方案提出,寡核苷酸芯片采用较长的探针通常好于较短探针,因为它能得 到较好的杂交信号n 。t i l i n ga r r a y 探针步长的大4 , n 多取决于芯片的承载能 力,虽然探针步长越短其杂交结果越清晰,但实验成本也随之升高。 2 6t i l i n ga r r a y 工作原理 在芯片与探针制作完毕后,接着便是r n a 提取、杂交、扫描等工作流程,见图 2 3 ,简单说明如下: ( 1 ) 表达产物提取:基因组r n a 表达的提取以及反转录c d n a 的合成: ( 2 ) 杂交过程:标记的c d n a 与芯片杂交,形成“双螺旋结构,其余的则被 洗脱除去: ( 3 ) 扫描芯片:此步骤将得到一张基因表达快照,芯片上的每个方格子会有 不同的颜色或亮度显示: ( 4 ) 数据分析和处理:对探针杂交信号,即亮度信息进行读取,并转化成数 字信息对芯片探针后续的分析都是基于探针亮度分值的处理。 图2 - 3t i l i n ga r r a y 芯片制备过程 第二章t i l i n ga r r a y 技术基础知识 a f f i m a t r i x 采用多段2 5 m e r 的探针针对某序列的特异性部位序列设计多个探 针,形成一个探针组来克服背景噪声、错误和偏差。多个探针进行分析和统计计 算可增加数据的可信度,g e n e c h i p 微阵列对基因表达进行绝对值计算以及相对 比较分析,所获得的结果有利于构建大数据库。从多个探针位点检测的荧光信号, 经过综合评估、统计计算和分析,获得的数据比单个探针判断样品是否存在某一 靶序列的数据更为可靠。 a f f i m a t r i x 的基因芯片分析平台不仅可以分析某一样品中基因表达的绝对 水平,还可以比较不同样品之间各种基因表达的相对比例,与双色分析法相比, 双色法需在每次杂交检测中设置对照,只能进行两个样品之间的比较,而 a f f i m a t r i x 基因芯片分析法可以进行多个样品之间的比较,且只需在多个样品 中设置对照即可。 2 6 1 实验噪声 ( 1 ) r n a s 样本的污染 ( 2 ) 没有剪接的m r n a s ( 3 ) 双链标记( d o u b l e - s t r a n d e dl a b e li n g ) 由于杂交样本在标记过程中,有可能出现假造的c d n a 的互补链 ( 4 ) 交叉杂交( c r o s s - h y b r i d i z a t i o n ) a f f y m e t r i x 公司为了控制和跟踪杂交噪声,所以在t i l i n ga r r a y 设计中采 用了p m 和删的设计模式,其中删探针即用来跟踪交叉杂交,但这种设计是否 有效仍说法不一。 可见在芯片制备阶段,尽可能排除可能产生噪声干扰的探针尤为重要,如果 筛选标准不完善,在后续的表达信号识别或之后的数据分析过程中就不得不考虑 交叉杂交的影响。 2 6 2 假阳性 所谓探针假阳性,即此探针序列并非真实表达,其主要是由实验噪声干扰 和表达及信号识别算法的误判造成。 9 基于t i l i n g a r r a y 的拟南芥箍网结构分段 t i l i n ga r r a y 技术缺少判断表达的真实参照,也就是缺少基因组在哪些区域 是不被表达的纪录。这个局限性使得客观衡量信号识别算法的假阳性率具有较大 困难。尽管内含子和启动子有可能作为判断表达的依据,但是因为基因组注释仍 不确定,它们也很难被准确定义。 2 7t i l i n ga r r a y 经典信号识别算法 在芯片制备、r n a 提取和杂交、芯片扫描一系列过程之后,芯片的每个探针 亮度都被计算机记录下来。下一步的工作就是根据探针亮度来提取有效信息。以 t i l i n ga r r a y 应用于基因组表达挖掘而言,就是通过探针的亮度信息判断探针序 列是否表达。总体看来,表达信号识别算法虽然不少,但是具有普遍适用性的方 法不多。而且,在目前探针筛选标准仍不清晰的情况下,筛选出的探针仍具有制 造杂交噪声的很大可能,但已有的算法都不具备过滤杂交噪声和识别低表达量 探针的能力,这将造成识别假阳性率的升高,也必然给信号识别之后的数据分析 造成较大压力。即使a f f y m e t r i x 芯片设计考虑了除噪问题,但效果并不确切。下 面对3 个典型的t i l i n ga r r a y 表达信号识别算法进行介绍。 2 7 1 滑窗算法( s l i d i n gw i n d o w , s w ) s w 算法n 2 3 是针对a 毋,i i l 嘶x 芯片的表达信号识别方法,其优势在于利用查 询探针和相邻探针的亮度值来确定这个查询探针的序列是否被表达( p o s i t i v e ) 。 s w 算法可分为两个部分来描述。 第一部分,探针的表达评估。这一步主要通过一个探针和其相邻探针亮度确 定此探针的表达分值。首先,设定一个固定的窗口长度,其半径为b w ,则窗口长 度为b w x 2 + l ,对于任意探针p j ,设z j = p m j - m m j 对于某个观察探针p i ,设其中 心在染色体上的位置为p t i ,则包含在窗口区间 p t i - b w , p t i + b w 中的所有探针 两两之间做平均值计算a m n = ( z m + zn ) 2 ,m 和n 分别为窗口内包含的探针编号。 其次,探针的表达评估值e i = p s e u d o m e d i a n ( p i ) = m e d i a n ( a m n :m n ) 为窗口内 两两探针亮度平均值的中值。其中确定合适的滑窗长度很重要,它有两个决定因 素:( 1 ) 探针间距离,即探针序列中心间距离;( 2 ) 探针所在染色体外显子的平均 长度( 一般约为1 3 7b p ) 。以2 0 0 2 年k a p r a n o v 等人n 3 1 的实验为例,芯片探针长 l o 第二章t i l i n ga r r a y 技术基础知识 度为2 5b p ,步长为3 5b p ,若设计窗口长度为1 0 0b p ,窗口内大约可包含3 个连 续探针。其考察探针表达评估的计算过程见图2 4 。 姜因组 1 ) 冀舞窑钵内 髓随探一蹇霞 之溺懿平均渣 2 ) 汁冀矫强场馕 的巾值 图2 4k a m p a 等人的s w 信号处理算法第一部分的计算过程 第二部分,表达与非表达区域的划分。通过第一部分的计算,每个探针基于 其亮度都得到了相应的表达评估分值,我们需要一个表达评估的阀值来确定探 针是否表达。a f f y m e t r i x 芯片设计的另一个特色是在每张芯片上嵌入细菌基因组 的序列探针,这些探针与芯片上的人类基因组探针不具有相似性,这样通过相同 环境下提取的细菌r n a 表达与芯片杂交,并根据细菌的基因组注释可以计算出 芯片的最高假阳性率,从而给出探针表达的阈值。如果探针的表达评估分值大于 阀值,则定义此探针是阳性的,也就是表达的。接下来,根据表达的探针,可以继 续判断表达序列片段( t r a n s f r a g s ) 。这个连续表达的序列片段只有满足长度 ( m i n i n m ) 至少9 0b p ,连接探针之间隔( m a x g a p ) 不大于4 0b p ,方可被称为 t r a n s f f a g 。 2 7 2 亮度分布( s i g n a ld i s t r i b u t i o n ,s d ) s d 法n 5 1 是b e r t o n e 等人用于识别人类基因组非注释区域表达序列片段 t a r s ( t r a n s c r i p t i o n a la c t i v er e 西o n s ) 的方法。t a r s 和t r a n s f r a g s 虽然称呼不同, 但是意义相同。在b e r t o n e 等人的实验中,探针的原始亮度达到整张芯片亮度的 基于t i l i n ga r r a y 的拟南芥摹w 结构分段 9 0 以上才被认为是表达探针。以当时b e r t o n e 等人的实验芯片为例,探针长度 为3 6b p ,步长4 6b p ,则要求至少5 个连续表达的探针可被称为t a r s 。任何不 表达探针的出现都将中止t a r s 的延展在s d 方法的实际应用中,亮度百分数 阀值可以根据实验定义。 2 7 3 基于h m m 的信号识别算法 基于隐马尔可夫模型( h i d d e nm a r k o vm o d e l ) 针对t i l i n ga r r a y 信号识别问 题,h m m n 剐的观察序列可看作大规模的信号亮度值,状态简单地说可分为两类: 一类是表达,另一类是非表达。那么,t i l i n g a r r a y 信号识别变成了对应每个探针 的亮度值,需要确定其相应的状态。此问题可先从大规模的信号数据中训练和建 立样本模型,然后根据模型确定所有探针信号所对应的状态序列。基于h m m 的 t i l i n ga r r a y 信号识别方法在文献中多有记载,下面以d u 等人n 7 1 的h m m 方法 为例简单说明h m m 如何应用于t i l i n g a r r a y 表达信号识别。以图2 5 标示的算 法流程来看,第一步当从大规模的探针亮度数据中,根据一定的规则选取样本, 文中以最大熵法选取了从亮度显示上表达活跃和不活跃的探针作为训练样本; 第二步可以根据r e f s e q 或e n s e m b l 基因注释,为样本标注相应的状态,表达或 不表达;第三步依据所选样本,训练隐马尔可夫模型,主要计算状态转移概率矩 阵和给定状态下的观察值分布;第四步利用v i t e b i n 铂经典算法,根据h m m 标记 所有探针的状态。 1 2 第二章t i l i n ga r r a y 技术基础知识 毽孽宠壅l uh 叫l j | 山山山l t d m ga n a ) 馋号镦爨 曲:- 工“面丑ll 笋 图2 - 5 基于删的信号识别流程 彬捧i 墼圆镭 梅,蛎:拜 矗棼声书店 基于h m m 的信号识别算法是一个典型的机器学y - - j ( m a c h i n el e a r n i n g ) 方法, 它所涉及的问题一方面是学习样本的大小,一方面是学习样本的纯度。一般来说, 在没有样本噪声的情况下,训练样本越大,则结果越准确稳定。 2 7 4 三种算法比较及结论 s w 算法适用于a f f y m e t d x 公司设计的芯片,其芯片中嵌入了可作为表达参 照的其他物种序列探针,而s d 方法并不拘于芯片设计。另外,二者在信号识别 效果上也各有优劣。b e r t o n e 的通用性很强,芯片设计特性对算法没有影响,但 在判断表达上有些粗糙,容易受到交叉杂交的影响从而增加假阳性率,容易淘汰 表达量不高的探针;但是由于s w 工作探针的设计方式,所以它对交叉杂交有 一定的制约作用,而且由于细菌基因组探针的辅助,低表达探针也能一定程度地 被发现。一些方法测试地文献也指出,s w 算法比b e r t o n e 算法性能更突出。此 两种方法中,s w 的设计思路和精度更优。 以上两种算法都需要人为设定参数才能完成分析。s w 和s d 方法必须通过 基因组信息的帮助、有效的参数筛选,来设定诸如窗口大小、表达阀值等一系列 1 3 轰 l 凇 耩鬣 痨 甓 弧 唆轮 蕊;型 鞫嗽 渊嗷 嘴镪 基于t i l i n ga r r a y 的拟南芥基i 大l 结构分段 重要参数,可以说参数的设定是两种方法的命脉所在,它们直接决定着t i l i n g a r r a y 芯片表达识别的敏感度和假阳性率的高低。而h m m 机器学习方法完全不 依赖人为设计参数来衡量探针是否表达,它依靠数学建模直接分析和判断探针 表达与否的状态。 几种方法比较而言,h m m 算法的适用性更广,准确性更高n 9 l 。 2 8t i l i n ga r r a y 应用研究 目前的研究显示,这种高密度、高通量的t i l i n ga r r a y 实验技术可用来破译 隐藏在基因组中的许多信息。譬如,它可以检测基因组的转录特性、识别新编码 或非编码基因、分析可变剪接、定位d n a 模体( m o t i f ) 、也可用于比较基因组研 究,以及基因组重测序等伽1 。 对于转录层面的研究,t i l i n ga r r a y 可用于新基因的发现、基因组的表达研 究、可变剪接和r b p ( r n a b i n d i n gp r o t e i n ) 目标识别。对于基因组层面的分析, t i l i n ga r r a y 可用于c h i p c h i p 研究、m e t h y l o m e 分析、基因组重测序、基因组 多态性和c g h 研究等。 1 4 第三章拟南芥及参考算法简介 第三章拟南芥及参考算法简介 3 1 研究拟南芥的原因 拟南芥的拉丁名:a r a b i d o p s i st h a l i a n a ( l ) ,其优点是植株小( 1 平方厘米可 种植好几棵) 、每代时间短( 从发芽到开花不超过6 周) 、结子多( 每棵植物可产 很多粒种子) 、生活力强( 用普通培养基就可作人工培养) 。拟南芥的基因组是目 前已知植物基因组中最小的。每个单倍染色体组( 舻5 ) 的总长只有7 0 0 0 万个碱 基对,即只有小麦染色体组长的1 8 0 ,这就使克隆它的有关基因相对说来比较容 易。拟南芥是白花受粉植物,基因高度纯合,用理化因素处理突变率很高,容易 获得各种代谢功能的缺陷型。例如用含杀草剂的培养基来筛选,一般获得抗杀草 剂的突变率是1 1 0 0 0 0 0 。由于有上述这些优点,所以拟南芥是进行遗传学研究的 好材料,被科学家誉为“植物中的果蝇”。 3 2 拟南芥芯片数据标准化技术 3 2 1 什么是标准化 通过图像扫描软件,将每个杂交点的光强度转化为表达量时,会产生负的数 据值或者o ,这主要是软件的算法对背景噪音处理时所产生的。由于负数和零是 不能对数化的,所以过滤掉这些脏数据是非常必要的。忽略这些点的信息并不会 对整体的分析产生影响,因为这些极弱的信号不足以为基因表达的差异提供证 据。 在芯片实验中各个芯片的绝对光密度值是不一样的,直接比较多个芯片表达 的结果显然会导致错误的、不可靠的结论。因此在比较多个芯片实验时必须减少 或消除各个实验之间的差异,即便是单张芯片得到的原始数据由于实验过程所带 来的误差影响,同样需要经过一定的处理,最常用的方法便是芯片数据的标准化。 芯片数据分析中的标准化心订主要分为芯片内标准化和芯片间标准化,常用的 芯片间标准化有q u a n t i l en o r m a l i z a t i o n 心2 1 和g l o b a ln o r m a l i z a t i o n 。 1 5 基于t i l i n ga r r a y 的拟南芥基冈结构分段 3 2 2 基本标准化的方法 在对芯片数据进行标准化处理前,其实都做了一个前提假设:该假设认为芯 片上每个阵列杂交点( 基因点) 的测量强度代表着各自相关的表达水平存在一个 具有稳定数量的参照基因,并且平均荧光强度和转录水平之间存在一定的线性关 系参照基因。在s a m p l e 和c o n t r o l 中的表达量为常量对s a m p l e 乘以一个常数 ( 或也可以认为是对c o n t r o l 乘以一个常数,该常数即可认为是标准化因子n f ) 使参照基因在s a m p l e 和c o n t r o l 中的表达量相同。大部分标准化的方法采用调 整标准化系数使其平均比值( r a t i o ) 为1 或平均r a t i o 对数值为o 。最常用的 是看家基因法,它预先选择一组表达水平不变的看家基因,计算出这组基因平均 r a t i o 值为1 时的标准化系数,然后将其应用于全部的数据以达到标准化的目 的。此外整体平均值法和信号强度依赖标准化法也很常用,但对于基因芯片表达 数据的标准化处理目前还没有一个完全统一的标准与方法。 3 2 3 芯片问的数据标准化( c r o s ss l i d en o r m a l i z a t i o n ) 由于各种组织芯片( 例如s e e d i n g 、t i l l e r 、r o o t 、p a n i c l e l 、p a n i c l e 2 ) 是分别 在不同芯片上作杂交试验的,所以第一步的标准化是将每张试验芯片的数据调整 到同一水平,常用的方法是平均数、中位数标准化( m e a n o r m e d i a n n o r m a l i z a t i o n ) 。 即:将各组实验的数据的l o gr a t i o 中位数或平均数调整为0 。 l 0 9 2 ( t i ) = l o g a ( t i ) 一m e a n a l 0 9 2 ( t i ) = l 0 9 2 ( t i ) - m e d i a n a t i = r g ( 脚标a 为每组实验数据) 1 6 第= 章拟m 芥投参考算法简舟 + 目一一i 一一 毒一一ii _ ! 一l r n - a _ i 一 图3 - 2 中位数标准化效果 3 2 4 平行实验数据的标准化 一般芯片的杂交实验很容易产生误差,所以经常一个样本要做3 撕次的重复 实验。平行实验间的数据差异可以通过o u a n t i l en o r m a l i z a t i o n 去处掉。总平行 实验的前提条件是假设n 次实验的数据具有相同的分布,其算法主要分为三步: ( 1 ) 对每张芯片的数据点排序。 ( 2 ) 求出同一位置的几次重复实验数据的均值,并用该均值代替该位冒的基因 的表选量。 ( 3 ) 将每个基凼还原到本身的位置上。 一k 图33 平行实验数据标准化效果 如图3 - 3 所示,一个样本的6 次重复实验的数据分布用不同颜色的柱状图表 示。从标准化前的分却来看,虽然6 次实验的数槲总体基本致,但每个基因 的表达差异依然存在i 做过q u a n t i l cn o r m a l i z a t i o n 后,6 次重复实验有了完全一 致的分布,另外,噪音的分布( 次峰) 也显露了出柬。 基于t i l i n ga r r a y 的拟南芥基冈结构分段 3 3 参考z e l l e r 的算法的原因 本文参考的算法来自t r a l l s 嘶p tn o r m a l i z a t i o na n ds e g m e n t a t i o no ft i l i n g a r r a yd a t a ) ) 这篇文章中的标准化、分段算法。 z e l l e r 用这个标准化方法研究分析了a f f y m e t r i x 制造的拟南芥( t h a l i a n at i l i n g a r r a y ) 数据,和我们分析的数据类型一致。所以这个分析是具有可比性的,因为 拟南芥的数据类型一致。z e l l e r 主要是分析2 1 种不同的组织( 花、种子、叶子、 根、茎等) 之间的区别( 图3 4 ) ,和我们的研究目标不一样但是分析的数据来源 都是拟南芥。我们的目标是是要分析拟南芥基因的野生和突变的区别。这里我们 的所有样本不管是野生还是突变,都是从植物的幼苗得到的叶和茎。 $ a m # e d e s c r i p t i o n lr o o t s 2 s e e d l i n g s 3 e x p a n d i n gl e a v e s 4 s e n e s c i n gl e a v e s ss t e m 6 v e g e t a t i v es h o o tm e r i s t e m 7i n f l o r e s c e n c es h o o tm e r i s t e m 8w h o l ei n f l o r e s c e n c e s 9 w h o l ei n f l o r e s c e n c e s ( c v 3 7 ) 1 0f l o w e r s llf r u i t s 图3 - 4z e l l e r 的数据来源 对于t i l i n ga r r a y 的转录本分析,z e l l e r 已经提出两种基于状态的机器学 习算法。首先,他提出了一种新的转录标准化技术,来减轻寡核苷酸探针序列在 杂交强度上的影响。它是专门设计用来减少互补到相同的转录样本的个体探针的 观测差异的。在拟南芥t i l i n ga r r a y 上应用这种标准化技术,就能够大大的改 善外显子和内含子、基因间的探针的分离信号强度。z e l l e r 的第二个贡献是提 供一种方法一全文测绘。当评价原始与标准化后的强度时,对于完成了分段的 转录标准化t i l i n ga r r a y 数据,他的方法达到了最高的预测精度乜引。 z e l l e r 的论文得到了以下的结果( 图3 5 ,图3 6 ) ,图中的竖线就是通过 标准化程序处理后得到的散点分度情况,然后采用分段程序识别出来的片段。我 们参考其文中所提及的程序以及构造其数据结构,最终目的也是为了得到这种标 第三章拟南芥及参考算法简介 准化处理后的散点图,然后再使用分段算法将散点图分段,通过分段的结果来找 到基因分段的差异以及更新注释文件。 图3 - 51 0 0 0 个探针散点图 3 4 标准化与分段算法 图3 - f i2 0 0 0 个探针散点图 监控已知的基因和用全基因组t i l i n ga r r a y 辨识的全新的转录正逐渐成为 关注的焦点。为了分析s c e r e v i s i a e 的t i l i n ga r r a y ,h u b e r 嘲1 提出一种方 法用于
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 年度安全再培训目的课件
- 工业消防安全培训教材课件
- 威海电梯员安全培训课件
- 平舌与翘舌的课件
- 食品行业食品安全追溯体系在食品安全风险评估与控制中的应用创新案例研究重点报告
- 夜雨寄北课件
- 2025年农业绿色发展政策支持下的农业节能减排技术应用研究
- 新能源汽车车身结构创新与电池布局优化报告2025
- 农发行庆阳市宁县2025秋招面试典型题目及参考答案
- 诗歌中的“酒”意象考试题
- 心理处方手册
- 2025年常州市规划馆公开招聘工作人员1人考试参考题库及答案解析
- 2025年校外培训机构应急疏散预案
- 2025年年公租房租赁合同范本
- 液压机搬迁改造工程方案(3篇)
- 脊柱骨科课件教学
- 物业服务培训课件大纲
- 家庭教育指导行业2025年市场规模与增长趋势报告
- 幼儿园红色小故事PPT:抗日小英雄王二小的故事
- 第8部分消防设施标识可视化
- 通用顶管监理规划
评论
0/150
提交评论