




已阅读5页,还剩78页未读, 继续免费阅读
(计算机应用技术专业论文)寻找差异基因的概率方法研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
_ 1 n a n j i n gu n i v e r s i t yo fa e r o n a u t i c sa n d a s t r o n a u t i c s t h eg r a d u a t es c h o o l c o l l e g eo fi n f o r m a t i o n s c i e n c ea n dt e c h n o l o g y l i l l l l l l l li ll li ii il ui i u l y 18 2 5 8 3 7 f i n d i n gd i f f e r e n t i a lg e n ee x p r e s s i o nu s i n g p r o b a b i l i s t i cm e t h o d s at h e s i si n c o m p u t e ra p p l i e dt e c h n o l o g y b y z h a n g1 2 a d v i s e db y a s s o c i a t ep r o f e s s o rl i ux u e j u n s u b m i t t e di np a r t i a lf u l f i l l m e n t o ft h er e q u i r e m e n t s f o rt h ed e g r e eo f m a s t e ro fe n g i n e e r i n g j a n u a r y , 2 0 1 0 l 卜h 、 _ , 承诺书 本人郑重声明:所呈交的学位论文,是本人在导师指导下,独立进 行研究工作所取得的成果。尽我所知,除文中已经注明引用的内容外, 本学位论文的研究成果不包含任何他人享有著作权的内容。对本论文所 涉及的研究工作做出贡献的其他个人和集体,均已在文中以明确方式标 明。 本人授权南京航空航天大学可以有权保留送交论文的复印件,允许 论文被查阅和借阅,可以将学位论文的全部或部分内容编入有关数据库 进行检索,可以采用影印、缩印或其他复制手段保存论文。 ( 保密的学位论文在解密后适用本承诺书) 作者签名:龇积 , 南京航空航天大学硕士学位论文 摘要 在目前医学及生命科学研究中,基因芯片被广泛用来进行各种生物实验。其中寻找差异基 因在芯片实验中是最基本的实验目的,它在基因诊断、药物筛选等方面有着重要作用。由于芯 片实验是复杂多步骤的实验过程,产生的基因表达数据包含了大量噪音,另外重复芯片个数太 少和基因表达测量值精度低等多方面影响,使得寻找差异基因非常困难。目前的许多方法仅仅 利用重复芯片的基因表达数据的点估计来寻找差异基因。而广泛使用的a f f y m e t r i x 基因芯片利 用多探针技术在提供了基因表达值的同时也提供了获得基因表达值测量误差的可能。而概率方 法能够自然的结合基因表达值和测量误差。最近提出的概率方法p p l r 同时考虑了基因的表达 值和测量误差,提高了寻找差异基因的精确度。但是p p l r 方法在变分e m 算法中采用了重采 样近似计算技术,导致了较低的计算效率。本论文改进现有的p p l r 模型,获得一个计算效率和 计算精度更高的新模型i p p l r 。 i p p l r 模型采用多层贝叶斯理论,在同时考虑基因的表达值和测量误差的情况下,在原有 p p l r 模型中增加一层隐含变量,代表每个基因的真实表达值,利用变分e m 算法估计模型中的 参数,算法中每步计算都能得到解析解,从而克服了p p l r 中低效的重采样过程。通过g o l d e n s p i k e - i n 标准数据集和真实的m o u s e e m b r y o 数据集验证,i p p l r 模型相比已有模型能同时提高 计算精确度和计算效率。进一步验证在大规模数据集,m o u s eh a i r 数据集和m o u s ec o l i t i s 数据 集上,i p p l r 模型能大幅度的提高计算效率,而且随着芯片的数目增加,计算效率的提高更加 明显。 为了提供给全球所有生物学家使用,i p p l r 模型已经被实现成r 语言包,i p p l r ,可以 从h t t p :p a r n e c n u a a e d u c n l i u x z h a n g l 下载,同时i p p l r 也被包含到b i o c o n d u c t o r 的基因表达数据概率方法分析软件包p u m a 中。 关键词:生物芯片,基因表达数据,差异基因,概率模型,变分方法,计算效率 寻找差异基因的概率方法研究 a b s t r a c t a f f y m e t r i xm i c r o a r r a y sa r ec u r r e n t l yt h em o s tw i d e l yu s e dm i c r o a r r a yt e c h n o l o g y f i n d i n gd i f f e r - e n t i a l l ye x p r e s s e dg e n e si saf u n d a m e n t a lo b j e c t i v eo fam i c r o a r r a ye x p e r i m e n t ,a n dp l a y sa ni m p o r t a n t r o l ei ng e n e t i cd i a g n o s i s ,m e d i c a lt r e a t m e n t ,s c r e e nd r u g s ,a n ds oo n m i c r o a r r a ye x p e r i m e n t sa r eac o m p l i c a t e dm u l t i p l e s t e pp r o c e d u r ea n dv a r i a b i l i t ye x i s t si ne v e r ys t e po ft h ee x p e r i m e n t t h i sm a k et h e g e n e r a t e dd a t av e r yn o i s y a n dt h es m a l ln u m b e ro f r e p l i c a t e sf o re a c hc o n d i t i o nl e a d st oal o wp r e c i s i o n p r o b e l e v e lm e a s u r e m e n ta n da ni n a c c u r a t ev a r i a n c ee s t i m a t ef o re a c hg e n ea c r o s sr e p l i c a t e s t h et w o m a i nr e a s o n sc a u s ef i n d i n gd i f f e r e n t i a l l ye x p r e s s e dg e n e sv e r yd i f f i c u l t m a n ym e t h o d sh a v eb e e nd e v e l o p e dt oc o m b i n e dr e p l i c a t e dg e n ee x p r e s s i o nm e a s u r e m e n tf o rf i n d i n gd i f f e r e n t i a l l ye x p r e s s e dg e n e s t h ew i d e l yu s e da f f y m e t r i xg e n e c h i p su s em u l t i p l ep r o b e st oi n t e r r o g a t eg e n ee x p r e s s i o np r o f i l e sa n d t h i sp r o v i d e sr i c hi n f o r m a t i o na b o u tt e c h n i c a ls o u r c e so fn o i s e p r o b a b i l i t yi san a t u r a lr e p r e s e n t a t i o no f u n c e r t a i n t ya n di ss u i t a b l ef o rd e s c r i b i n gt h en o i s yn a t u r eo fg e n ee x p r e s s i o nd a t a r e c e n t l yp r o p o s e d p r o b a b i l i s t i cm e t h o d ,p p l r ,c o n s i d e r sb o t hg e n ee x p r e s s i o nv a l u e sa n dp r o b e l e v e lm e a s u r e m e n te r r o r , a n di m p r o v e st h ea c c u r a c yi nf i n d i n gd i f f e r e n t i a lg e n ee x p r e s s i o n h o w e v e r , p p l ru s e st h ei m p o r t a n c e s a m p l i n gp r o c e d u r ei nt h ev a r i a t i o n a le ma l g o r i t h m ,w h i c hl e a d st ol e s sc o m p u t a t i o n a le f f i c i e n c y t h i s t h e s i sm o d i f i e dt h eo r i g i n a lp p l rm o d e lt oo b t a i na ni m p r o v e dm o d e l ,i p p l r i p p l rm o d e lu s e st h eb a y e s i a nh i e r a r c h i c a lf r a m e w o r ka n dc o n s i d e r sg e n ee x p r e s s i o nv a l u e sa n d u n c e r t a i n l y i p p l ra d d sh i d d e nv a r i a b l e st or e p r e s e n tt h et r u eg e n ee x p r e s s i o n s v a r i a t i o n a le ma l - g o r i t h mi su s e df o re s t i m a t i n gm o d e lp a r a m e t e r s i p p l rc a no b t a i nt h es t a n d a r dd i s t r i b u t i o n so ft h e a l lh i d d e nv a r i a b l e s t h i se l i m i n a t e st h ei m p o r t a n ts a m p l i n gp r o c e d u r ei np p l r i no r d e rt ov a l i d a t e i p p l r , r e s u l t sf r o mb o t hab e n c h m a r kg o l d e ns p i k e i nd a t a s e ta n dar e a l - w o r l dm o u s e e m b r y od a t a s e t d e m o n s t r a t et h a ti p p l rc a ni m p r o v et h ea c c u r a c ya n dc o m p u t a t i o n a le f f i c i e n c yi nf i n d i n gd i f f e r e n t i a l l y e x p r e s s e dg e n e s i no r d e rt of u r t h e rv a l i d a t et h ec o m p u t a t i o n a le f f i c i e n c yo nt h el a r g ed a t a s e t s ,m o u s e h a i ra n dm o u s ec o l i t i sd a t a s e ta l ec h o s e nt oc o m p a r ei p p l rw i t hp p l r r e s u l t sd e m o n s t r a t ei p p l r c a ni m p r o v ec o m p u t a t i o n a le f f i c i e n c yo b v i o u s l y , e s p e c i a l l yw h e nt h en u m b e ro fc h i p si n c r e a s e s i p p l rh a sb e e ni m p l e m e n t e di na nrp a c k a g e ,i p p l r ,w h i c hi sc u r r e n t l ya v a i l a b l ef r o mh t t p : p a r n e c n u a a e d u c n l i u x z h a n g l ,a n dh a sb e e nm e r g e di n t ot h ep u m ap a c k a g e ,w h i c h w i l lb er e l e a s e dw i t ht h en e x tv e r s i o no fb i o c o n d u c t o r k e yw o r d s :m i c r o a r r a y , g e n ee x p r e s s i o nd a t aa n a l y s i s ,d i f f e r e n t i a l l ye x p r e s s e dg e n e ,p r o b a b i l i s t i c m o d e l ,v a r i a t i o n a la p p r o x i m a t i o nm e t h o d ,c o m p u t a t i o n a le f f i c i e n c y i i , 、 南京航空航天大学硕士学位论文 目录 第一章绪论 1 1 生物信息学 1 1 1 简介 1 1 2 主要研究方向 1 2 概率方法在寻找差异基| 天| 中的运用 1 3 本论文的主要研究内容及思路 1 4 本论文的结构安摊 第二章背景知识 2 1 生物知l 识背景 2 1 1 遗传学知j 识 2 1 2 生物芯片技术 2 1 2 1 生物芯片 2 1 2 2a f l y m e t r i x 生物芯片 2 1 3 生物实验研究过程 2 2 数学知淡背景 2 2 1 数据似然函数 2 2 2 贝叶斯推导 2 2 3 变分方法 第三章相关工作 3 1 探针级别的分折 3 1 1 传统模型 3 1 2 概率模型一 3 1 3 本节小结 3 2 寻找差异基因的柏关算法 3 2 1f c 3 2 2t - t e s t 3 2 3s a m 3 2 4c y b e r - t 3 2 5l i i 】啪a 3 2 6 p p l r 3 2 6 1 模型描述 1 l 1 1 2 3 4 5 5 5 7 7 8 9 l 2 2 3 6 6 6 7 8 9 9 o 0 1 1 2 3 旺 1 l 1 1 l 1 l 1 1 l l 2 2 2 2 2 2 玎 寻找差异基因的概率方法研究 3 2 6 2 参数估计2 3 3 2 7 算法评佶2 5 3 2 8 夺节,j 、结2 6 第四章i p p l r 模型2 7 4 1 改进的h 的及思路2 7 4 2 模型揣述2 8 4 3 参数估计2 9 4 4 结果评佶3 1 4 5 模型实现3 2 4 5 1 实现的基础3 2 4 5 2 实现的过程3 3 4 6 奉誊小结3 4 第五章实验结果讨论3 5 5 1g o l d e ns p i k e - i n 数据集3 5 5 1 1 数据集描述3 5 5 1 2 结果:分析番i 讨论3 7 5 1 3 本节小结4 8 5 2m o u s ee m b r y o 数据集4 9 5 2 1 数据集描述4 9 5 2 2 结果分析和讨论4 9 5 3 计算效率比较5 0 5 4 本章小结5 2 第六章总结与展望5 3 6 1 本文丁作总结5 3 6 2 迸一步研究工作5 4 6 2 1 单个差异基因的检测5 4 6 2 2 差异基因集的检测5 5 6 3 研究思路和体会5 6 参考文献5 8 致谢6 3 在学期闻的研究成果及发表的学术论文6 4 附录ag o l d e ns p i k e i n 数据集结果6 5 附录b m o u s ee , n b r y o 数据集详细结果6 7 i v 南京航空航天大学硕士学位论文 图2 1 圈2 2 图2 3 图2 4 图3 1 图4 1 图5 1 图5 2 图5 3 圈5 4 图5 5 图5 6 图5 7 图5 8 图5 9 图5 1 0 图6 1 图a 1 图a 2 图清单 基因表达过程的两个步骤:转录和转译6 a f r m e t r i x ,占片中p m 和m m 探针的设计 9 a f l y m e t r i x 基i x l , - 卷片实验的流程 1 0 通过争物芯片技术进行生物实验的过程 1 1 p p l r j y 法的模型图 2 4 i p p l r 方法的模犁图2 9 ,l 升规则下的r o c 曲线陶,此时真阳性基因为变化基因3 8 伞规 l ! | lf 的r o t e 曲线图,此时真阳性基网为变化基冈3 9 f p r - - o 0 5 时,上升规则下的r o c 曲线图,此时真阳性基凼为变化基凼 4 0 f p r - - 0 0 5 时,伞规则下的r o c 曲线图,此时真阳性基因为变化基因 4 1 上升规则下的r o c 曲线图,此时真阳性基冈为低倍数基冈 4 2 全规则下的r o cf l l 线图,此时真阳性基因为低倍数基因4 3 1 - j t 规则f 的r o c 曲线罔,此时真阳性基因为倍数等于1 2 的基囚 4 5 全规则下的r o c 曲线圈,此时真阳性基| 大j 为倍数等于1 2 的基因 4 6 上升规则下的r o c 曲线图,此时真阳性基因为倍数等于1 5 的基因 4 7 拿规划f 的r o c 曲线圈,此时真阳性基因为倍数等于1 5 的基因4 8 单个茏异基凼捡测和芳异基因集检测的原理图比较 5 6 上升规则下选择f ;同真阳性基因的1 0 9 ( 1 一a u c ) 图 6 5 伞规则f 选择不同真阳性基因的4 0 9 ( i - a u c ) 图 6 6 v 弱弱剪加甜乾昭钳钳钙铂钉如如钳卯的 南京航空航天大学硕士学位论文 字母和符号注释 d = 岔巧) g 。 x = z 巧) 9 c 口 西 n e x p 注释表清单 观察到的基因表达值 基因真实表达值 模型参数集 模型超参数集 e m 算法迭代参数 指数函数 主要缩略语中英文对照 p mp e r f e c t m a t c h 完全匹配 m mm i s m a t c h 错误位点匹配 r o cr e c e i v e ro p e r a t i n gc h a r a c t e r i s t i cc u r v e 接受者操作特性曲线 a u ca r e au n d e rm ec u r v e 曲线下面积 m b e i m o d e l - b a s e de x p r e s s i o ni n d e x基于模型的表达索引 r m ar o b u s tm u l t i a r r a ya v e r a g e鲁棒多芯片平均 b g x b a y e s i a ng e n ee x p r e s s i o n 贝叶斯基因表达索引 s a m s i g n i f i c a n ta n a l y s i so f m i c r o a r r a y 基因数据的显著分析 l i m m a l i n e a rm o d e l sf o rm i c r o a r r a yd a t a 基因数据的线性模型 p p l r p r o b a b i l i t yo fp o s i t i v el o g r a t i o 概率的正数比 m a pm a x i m u map o s t e f i o d 最大后验概率 n i l e m a x i m u ml i k e l i h o o de s t i m a t i o n最大似然估计 f p rf a l s ep o s i t i v er a t e假阳性率 q r - p c r q u a n t i t a t i v er e a l t i m ep c r 反转录酵素一聚合酵素连锁反应 k lk u l l b a c k l e i b l e rd i v e r g e n c ek l 散度 l 寻找差异基因的概率方法研究 南京航空航天大学硕士学位论文 1 1 生物信息学 第一章绪论 1 1 1 简介 在当代世界科学发展中,生命科学是一个非常重要领域,有人称生命科学是2 1 世纪的科 学。千百年来,人类从未停止过对自身生命奥秘的探索。1 9 世纪细胞学说的创立,把生命的研究 带到了更高的细胞水平层次。人类长期以来的愿望是,如何从更高的层次来了解生命的秘密、 掌握生命的本质、最后达到控制生老病死的目标。 随着2 0 0 3 年人类基因工程的测序工作初步完成,以及水稻、牛、羊等其他生物基因组计划 的全面展开,人类对生命的认识已经进入到分子阶段。这样生命科学从定性描述性的研究向定 量确定性的方向迈进了一大步。与传统的生物学研究模式相比,当代生命科学研究的研究模式 有着很大的区别,要求借助新的技术从分子水平角度来研究各种生命现象。基于计算机科学的 信息技术,与生命科学相结合,在基因、制药、临床医疗等方面的研究取得了明显的进展,说明 计算机与生命科学紧密相关。 生物信息学( b i o n f o r m a t i c s ) 是生物学与计算机科学以及应用数学等学科相互交叉而形成 的- f 新兴学科。它通过对生物学实验数据的获取、加工、存储、检索与分析,进而达到揭示数 据所蕴含的生物学意义的目的。由于当前生物信息学发展的主要推动力来自分子生物学,生物 信息学的研究主要集中于核苷酸和氨基酸序列的存储、分类、检索和分析等方面,所以目前生 物信息学可以狭义地定义为:将计算机科学和数学应用于生物大分子信息的获取、加工、存储、 分类、检索与分析,以达到理解这些生物大分子信息的生物学意义的交叉学科。生物信息学的 研究材料和结果就是各种各样的生物学数据,其研究工具是网上的各种计算机,研究方法包括 对生物学数据的搜索( 收集和筛选) 、处理( 编辑、整理、管理和显示) 及利用( 计算、模拟) 。 1 1 2 主要研究方向 1 序列比对 序列比对是生物信息学的基础,非常重要。基本问题是比较两个或两个以上符号序列 的相似性或不相似性。 2 蛋白质结构比对和预测 蛋白质的结构与功能是密切相关的,通过比较两个或两个以上蛋白质分子空间结构的 相似性或不相似性,从而获得实际的运用。 1 寻找差异基因的概率方法研究 3 基因识别,非编码区分析研究 基本问题是给定基因组序列后,正确识别基因的范围和在基因组序列中的精确位置。 分析非编码区d n a 序列目前没有一般性的指导方法。 4 序列重叠群装配 逐步把较短的序列拼接起来形成序列更长的重叠群,直至得到完整序列的过程称为重 叠群装配。从算法层次来看,序列的重叠群是一个n p 完全问题。 5 遗传密码的起源 随着各种生物基因组测序任务的完成,为研究遗传密码的起源和检验上述理论的真伪 提供了新的素材。 6 基于结构的药物设计 制造出可以抑制酶的合成或者是蛋白质的活性的基因药物,从而达到预防和治疗这些 疾病的目的,同时具有巨大的经济效益。 7 分子进化和比较基因组学 分子进化是利用不同物种中同一基因序列的异同来研究生物的进化,构建进化树。通 过比较可以在基因组层面上发现哪些是不同种族中共同的,哪些是不同的。 8 生物系统的建模和仿真 虽然现实中的实验数据快速增长,但是与生物系统的模型辨识所需要的数据还是有较 大的差距,这样导致通过数据产生的模型不能完全代表真实的生物系统。所以,解决这个 难题,需要有开创性的系统描述和建模方法的出现。 9 生物信息学技术方法的研究 机器学习,统计数据分析和系统描述等方法大量的运用到生物信息学中,来解决其中 一些传统方法难以解决的难点。比如:概率方法,聚类分析,核方法,变分方法等等。同时 在算法上为了提高计算效率,可以使用并行计算,网格计算,云计算等技术,提高对大规 行不同的生物芯片实验,但是 南京航空航天大学硕士学位论文 这些不同的实验中,寻找差异基因是最基本的实验目的,它是许多实验结论的分析基础。 基因芯片实验是一个多步骤的复杂实验过程,每一步都存在很高的不确定性。这些不确定 性可能是生物系统本身的生物特征引起的,也又可能是由实验本身产生的,比如:芯片技术,光 学仪器等,都有可能引起实验数据发生变化。寻找差异基因的目的就是发现在细胞或者组织中 的生物变化是由那些基因引起的。然而实验技术上的误差也会导致这些生物特征的变化。为了 减少这些技术上的误差影响,重复芯片实验通常被用来获得更加可靠是实验数据,但是由于芯 片价格的昂贵,通常一个条件的重复芯片个数是非常小的,一般是3 到4 个。 概率方法能自然的表达实验过程中不确定性,并且非常适合描述数据中的噪音特性【。探 针级别的分析方法利用概率理论,能够在计算基因表达值时得到非常准确的结果,同时还能提 供获得的基因表达值的置信区间。准确的表达值和其置信区间能够提高后续分析的结果【2 ,3 1 。 寻找差异基因方法中,大部分概率方法仅仅是利用了点估计来表达基因的表达值,而忽略 了许多其他的信息,比如:表达值的测量误差。有些概率方法结合了表达值和其测量误差,能提 高寻找差异基因结果的准确程度,但是计算效率太慢。这就给我们一个启示,在寻找差异基因 方法中利用概率方法,结合基因表达值和测量误差,是能够同时提高计算效率和计算精确度。 1 3 本论文的主要研究内容及思路 本论文对寻找差异基因算法的研究现状进行了系统的比较,指出当前寻找差异基因算法所 面临的主要问题和难点,分析比较了当前各种寻找差异基因算法的优势和不足,明确了寻找差 异基因的研究方法和需要克服的主要困难,给出了本文研究的主要路线和研究意义。通过在前 人取得研究成果的基础上,结合自己改进的概率模型,克服发现的困难,得到一个更加精确和 效率更高的寻找差异基因算法。 本文主要是沿着以下思路进行研究分析的: l 、分析现有的寻找差异基因算法,发现这些算法的优势和不足之处,从而对寻找差异基因 的研究现状有个全面清楚的了解。 2 、研究最近提出的p p l r 模型,p p l r 模型利用概率方法,结合探针级别的测量误差,提高 了寻找结果的精确度。但是此算法利用了重采样技术,从而导致计算效率的下降。 3 、为了提高计算效率和获得更加精确的计算结果,改进p p l r 模型,得到一个能避免重采 样过程的新模型一一i p p l r 模型。 4 、利用不同的基因表达数据集测试i p p l r 模型,把i p p l r 模型和p p l r 模型以及其他流行 算法在结果精确度和计算效率上进行多层次的比较。 5 、利用r 语言和c 语言,根据b i o c o n d u c t o r 软件包的开发要求,开发出一个实现i p p l r 算 法的r 语言包i p p l r 。 3 寻找差异基因的概率方法研究 1 4 本论文的结构安排 根据上一章节关于本文的研究工作的说明,本论文的结构安排如下: 第二章介绍基本的生物遗传学和生物芯片技术的背景知识,帮助对相关工作的理解。同时 也介绍下在本论文工作中使用到的概率推导的一些关键理论和方法。 第三章介绍最底层计算基因表达值的探针级别分析方法,它与寻找差异基因方法是息息相 关的。比较了现阶段流行的寻找差异基因算法,着重分析了概率模型p p l r 方法的理论结构,公 式推导等。 第四章提出一个寻找差异基因的新的多层贝叶斯模型。在p p l r 模型基础上,增加一层隐含 变量表示基因的真实表达值,通过变分e m 算法理论,得到一个快速的迭代过程,克服了p p l r 方法中低效的重采样过程。最后通过r 语言实现i p p l r 算法,开发出一个r 语言包 刎r 。 第五章在标准数据集和真实生物实验数据集上测试i p p l r 方法。实验结果证明i p p l r 方法 能够同时提高计算精确度和计算效率。特别是对低表达值的差异基因能明显提高检测结果的准 确程度。对于包含大量基因芯片的数据集,相比p p l r 方法能大幅度提高计算效率。 第六章给出了本论文工作的研究总结,并提出将来研究工作可能的改进途径和方向。最后 是关于本人在研究工作中的思路和体会。 4 南京航空航天大学硕士学位论文 第二章背景知识 弟一早 月京刘以 生物信息学作为一门新兴的交叉学科,需要研究者掌握数学,生物学和计算机等多方面的 知识。而对于计算学科的研究者,生物和数学,特别是生物是一个了解很少的领域。下面我将简 单的介绍一些基本的生物背景知识,这能帮助对本论文工作更好的理解,同时也将介绍在本论 文使用的概率推导的关键定理和方法。 2 1 生物知识背景 2 1 1 遗传学知识 每个物种中不同组织的细胞,无论其大小和功能如何,细胞核中的d n a 含量都是恒定的。 而d n a 作为主要的遗传物质,在生命的延续过程中有着不可替代的作用【4 】。 在真核生物中,绝大部分的d n a 存在于细胞核内的染色体上,少量d n a 存在于细胞质中 的叶绿体、线粒体等细胞器上。构成d n a 的基本单位是核苷酸,每个核苷酸都是由三部分组 成:五碳糖、磷酸和环状的含氮碱基,其中的碱基有四种形式:腺嘌呤( a ) 、鸟嘌呤( g ) 、胞嘧 啶( c ) 和胸腺嘧啶( t ) 。通常情况下,两条多核苷酸链组成一个右手螺旋结构,两个长链之间 通过2 种碱基配对原则联系起来,分别是腺嘌呤与胸腺嘧啶配对,胞嘧啶与鸟嘌呤配对,互补 的碱基通过氢键相互联系起来。对一特定物种的d n a 分子来说,其碱基顺序是一定的,并且通 常保持不变,这样才能保持该物种遗传特性的稳定。只有在特殊的条件下,改变其碱基顺序或 用碱基类似物代替某一碱基时,这就导致了遗传的变异( 突变) 。基因芯片就是利用碱基互相配 对的原理来设计制造的。 蛋白质是生命的物质基础,没有蛋白质就没有生命。每一种蛋白质都有自己独特的氨基酸 序列,而氨基酸序列的组成信息则由蛋白质编码对应的基因的核苷酸序列所决定的。遗传密码 是一套由三个核苷酸组成的密码子,每一种三个核苷酸的组合可以编码一种特定氨基酸。由于 d n a 含有四种核苷酸( a 、t 、c 、g ) ,所以对应的可能的密码子有4 4 4 = 6 4 种;而我们都知 道标准的氨基酸只有2 0 种,因此部分密码子是冗余的,即部分氨基酸可以由多个不同的密码子 所编码。从现在研究发现,其中6 1 种密码子是具有合成氦基酸的功能,另外3 种被用来作为蛋 白质的合成终止信号。 r n a 是存在于生物细胞的遗传信息中间载体,并参与蛋白质合成,还参与基因表达调控。 与d n a 不同的是,r n a 一般是由核糖核苷酸经磷酯键缩合而成的长链状分子。其组成核苷酸 的核糖和d n a 不同,同时碱基尿嘧啶( u ) 取代了d n a 中的胸腺嘧啶( t ) 而成为r n a 的特征碱 基。在细胞中,根据结构功能的不同,r n a 主要分三类,即t r n a ( 转运r n a ) ,r r n a ( 核糖 5 寻找差异基冈的概率方法研究 体r n a ) ,m r n a ( 信使r n a ) 。m r n a 是合成蛋白质的模板,内容按照细胞核中的d n a 所转 录:t r n a 是m r n a 上碱基序列( 即遗传密码子) 的识别者和氨基酸的转运者;r r n a 是组成核 糖体的组分,是蛋白质合成的工作场所。 基因的表达过程就是由d n a 所含的碱基序列决定氨基酸序列的过程,也可以称为蛋白质 合成过程,实际上包含遗传信息的转录和转译两个步骤。图2 1 揭示了基因的表达过程。 质 图2 1基凶表达过程的两个步骤:转录和转译 接 - 转 i 录 j l 转 r 基因转录过程是在细胞核内进行的,以d n a 的一条链为模板,按照碱基互补配对的原则, 合成r n a 的过程。其中r r n a 的合成发生在核仁,m r n a 和t r n a 的合成发生在核质中。在这 里参照的配对原则和d n a 的唯一不同在于是碱基尿嘧啶( u ) 与腺嘌呤c a ) 配对。在d n a 链 的上游,有些短d n a 序列被称为调节区域,它与其他的调节区域一起,以主导基因的转录水 平。在这些调节区域中,最主要的是启动子和增强子两部分。启动子是指r n a 聚合酶特异性识 别和结合的d n a 序列。在r n a 合成中,启动子可以和决定转录开始的转录因子产成相互作用, 继而控制细胞开始生产哪一种蛋白质。增强子是指增加同它连锁的基因转录频率的d n a 序列, 它通过启动子来增加转录的,其效应很明显,一般能使基因转录频率增加l o 2 0 0 倍,有的甚至 可以高达上千倍。通过增强子来增强启动子的活性,可以控制基因的转录频率,即m r n a 的转 录程度。在基因芯片技术中,测量出的m r n a 分子的富含程度,也就是相对应基因的表达值。 6 南京航空航天大学硕士学位论文 在转译过程中,通过剪接后保留的的m r n a 离开细胞核进入细胞质开始合成蛋白质。转译 的过程主要是在核糖体内进行,大致可以分为三个阶段:起始、延长、终止。起始阶段,通过 m r n a 的“开始”密码子,通常是a u g ,开始转译的过程;进入延长阶段,通过循环激活t r n a 与m r n a 配对,每次使核糖体沿m r n a 移动一个密码子的距离,是新产生的肽链加上一个氨基 酸。最后终止阶段,当核糖体遇到m r n a 上的三个终止密码子( u a a 、u g a 、u a g ) 之一,转译 过程就结束。此时产生的多肽链,经过链的卷曲或折叠,成为具有空间三维结构,具有各种生物 特性和功能的蛋白质,比如:细胞的组成部分,具有某种功能的蛋白或者是控制细胞中化学反 应的各种酶等等。 一个生物体的基因组通常是指该生物体内d n a 的全部遗传信息,包括核苷酸,基因,染色 体。对于人类而言,人体的每个组织细胞都包含相同的基因信息,2 3 对染色体,大约2 5 万个基 因,3 0 亿个碱基对。其中基因是生命遗传的基本单位,可以通过复制把遗传信息传递给下一代, 还可以使遗传信息得到表达。人体细胞根据不同部位和功能,能被表达出来的遗传信息的基因 也不同,这就使得人们之间具有差异性。但是人类一些遗传疾病往往都是由于一些基因的缺失 或者变异造成的,这些给科学家一个启示,假如可以修复这些缺陷基因,从而控制人类的衰老 和治疗各种疾病,这将是人类科学史上一个重要里程碑。所以现在科学家都热衷于研究基因世 界,寻找其中的奥秘。而生物芯片能够快速和准确分析大规模基因表达值,为基因研究提供一 个有力的工具,被广泛的使用。 2 1 2 生物芯片技术 2 1 2 1 生物芯片 到2 0 0 3 年,当人类基因工程对人类基因测序的初步完成,科学家的研究随之进入了后基因 组阶段。在这阶段,基因组数据快速增长,生物芯片技术被广泛的使用。生物芯片提出从全局的 视角上来解决生物进程的研究,它能够系统地揭示d n a 和r n a 之间变化的过程,与传统的基 因序列测定技术相比,生物芯片破译人类基因组和检测基因突变的速度要快数千倍,而且结果 要更加准确。现在,该技术主要运用于基因表达检测,突变检测,基因组多态性分析和基因文库 作图以及杂交测序等方面。它的出现给分子生物学,细胞生物学和医学领域带来了新的技术革 命,成为后基因时代最重要的基因功能分析技术之一 生物芯片( b i o c m p ) 也称基因芯片( g e n e c h i p ) 、d n a 芯片( d n a c l l i p ) 或微阵列( m i c r o a r r a y ) 。 生物芯片主要的原理是利用了核苷酸杂交过程。所谓的生物芯片就是指高密度固定在固相支持 介质上的生物信息分子( 如基因片段、c n d a 片段或多肽、蛋白质) 的微阵列,阵列中每个分子 的序列及位置都是已知的,并且是预先设定好的序列点阵。通俗点说,生物芯片就是在一块玻 璃片、硅片、尼龙膜等材料放在生物样品,然后由一种仪器收集信号,用计算机分析数据结果。 其主要特点是高通量,微型化和自动化。 7 寻找差异基因的概率方法研究 现在广泛流行的芯片技术主要是两种,一种是由斯坦福大学研发的c d n a
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 教师招聘之《幼儿教师招聘》模拟题库及答案详解【易错题】
- 教师招聘之《小学教师招聘》考前冲刺练习题库提供答案解析附参考答案详解(黄金题型)
- 空天彗星数据采集创新创业项目商业计划书
- 教师招聘之《小学教师招聘》考试黑钻押题及参考答案详解【突破训练】
- 教师招聘之《小学教师招聘》考试综合练习附参考答案详解(完整版)
- 2025年教师招聘之《小学教师招聘》综合提升试卷【典型题】附答案详解
- 2025贵阳市农业农垦投资发展集团有限公司招聘笔试备考附答案详解(黄金题型)
- 2025年教师招聘之《幼儿教师招聘》题库必背100题附答案详解(黄金题型)
- 合肥市残疾儿童随班就读支持保障体系的构建与完善:困境与突破
- 教师招聘之《小学教师招聘》试卷带答案详解(培优)
- 师恩如灯照亮我们的成长路教师节主题班会课件
- 2025-2026学年北师大版数学小学三年级上册(全册)教案设计及教学计划
- 2025年部编版新教材道德与法治二年级上册教学计划(含进度表)
- 铭记历史缅怀先烈-珍爱和平开创未来
- 被巡察单位需提供资料清单(模版)
- 《大学物理》教学全套课件
- 林下经济的主要模式课件
- 电镀基础知识介绍-课件
- JJF 1076-2020-数字式温湿度计校准规范-(高清现行)
- GB 24427-2021 锌负极原电池汞镉铅含量的限制要求
- DBJ 14-073-2010 岩棉板外墙外保温系统应用技术规程
评论
0/150
提交评论