




已阅读5页,还剩65页未读, 继续免费阅读
(系统工程专业论文)识别含有Poly(A)位点模式植物序列的方法与应用研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 伴随着各种基因组测序计划的展开和分子结构测定技术的突破,目前生物学 界已经积累了大量关于基因的数据,这就要求生物学家使用新的生物信息分析算 法和工具来分析和处理不断膨胀的数据,充分使用这些信息。因此数据挖掘技术 在用于基因功能预测和发现新基因方面有着巨大的潜力。而本文研究的就是通过 数据挖掘对序列进行聚类,通过聚类识别含有p o l y ( a ) 位点的序列,作为基因表 达数据研究的第一步。 本论文提出了一个基于自组织映射网络模型( s e l s o r g a n i z i n gm a p ,简称 s o m ) 的模式植物拟南芥p o l y ( a ) 位点识别的方法。自组织映射网络是模糊聚类 分析中广泛使用的一种无监督学习的神经网络,它通过自组织方式用大量的训练 样本数据来调整网络的权值,使用s o m 得出的可视化结果能更直观地判断序列 含有位点的情况。本文基于课题组对拟南芥的研究成果,运用数理统计方法分析 和提取拟南芥p o l y ( a ) 位点上下游周围序列顺式作用元件的特征,而后得到序列 特征的数值编码作为分类算法的输入;然后选用s o m 网络来建立p o l y ( a ) 位点 识别的高维测试模型,该模型可依据训练结果,对待测序列中可能含有位点的片 断进行模糊聚类,从而判断其中含有位点的情况;而且本模型还可应用于对位点 的精确定位;最后使用测试数据对模型进行评估。其中,通过聚类图判别未知序 列是否含有位点或含有多个位点的情况是模型最突出的优点。 测试实验的结果得出砌为9 1 1 3 ,证明了本文所提出的基于s o m 模型对 植物p o l y ( a ) 位点进行识别的方法的可行性和有效性,并应用于大通量原始序列 的识别,正确率达6 5 。今后可在此基础上进行植物p o l y ( a ) 位点的精确识别和 定位,并结合生物实验剔除虚假位点,改进模型,使研究成果尽可能地减少生物 实验的繁重工作,这在基因组研究中有着重要的理论意义和应用价值。 关键词:p o l y ( a ) 位点识别;模式植物;自组织映射网络;模糊聚类 a b s t r a c t w i t ht h e p l a n sd e v e l o p e d i ng e n o m es e q u e n c i n ga n dab r e a k t h r o u g hi nt h e m e a s u r e m e mo fm o l e c u l a rs t r u c t u r e ,l a r g eq u a n t i t i e so fb i o l o g i c a ld a t ao l lg e n e sh a v e b e e na c c u m u l a t e db yt h eb i o l o g i c a lw o r l d b i o l o g i s t sa r er e q n i r e dt oa n a l y z ea n d p r o c e s st h ec o n t i n u o u s l yi n c r e a s e db i o l o g i c a ld a t a 、航lt h en e wb i o i n f o r m a t i c s a l g o r i t h m sa n dt o o l ss oa st om a k ef u l lu s eo ft h ed a t a t h e r e f o r e , t h et e c h n o l o g yo f d a t am i n i n gh a sah u g ep o t e n t i a li np r e d i c t i o no fg e n ef u n c t i o na n dd i s c o v e r yo fn e w g e n e s t h i sp r e s e n tt h e s i si sas t u d yo nt h ec l u s t e r i n go fs e q u e n c et h r o u g hd a t am i n i n g , a n di d e n t i f i c a t i o no ft h es e q u e n c eo ft h ep o s i t i o no fp o l y ( a ) v a l u a b l ec l u s t e r i n g , w h i c hc a ns e i n ea st h ef i r s ts t e po fr e s e a r c hi i lg e n ee x p r e s s i o nd a t a t h i st h e s i sp r e s e n t sam e t h o dt oi d e n t i f yt h em o d e lp l a n ta r a b i d o p s i sp o l y ( a ) s i t eb a s e do nt h es e l f - o r g a n i z i n gm 印( s o r v 0 s o mi saw i d e l yu s e du n s u p e r v i s e d l e a r n i n gn e u r a ln e t w o r ki nf u z z yc l u s t e r i n g , w h i c ha d j u s t st h ei n d e f i n i t ew e i g h t t h r o u g hah u g en u m b e ro fs e l f - o r g a n i z i n gt r a i n i n gd a t a t h ev i s u a l i z a t i o no fs o m c a nj u d g et h ep o l y ( a ) s i t eo fs e q u e n c ed i r e c t l y b a s e do nt h er e s e a r c ho f a r a b i d o p s i s , f h - s tig e tt h en u c l e o t i d ed i s t r i b u t i n gc h a r a c t e ra r o u n dt h ea r a b i d o p s i sp o l y ( a ) s i t e s u s i n gs o m es t a t i s t i c a lm e t h o d sc o m b i n e d 、访t l lt h ek n o w l e d g ea b o u tt h ek n o w n c i s - e l e m e n t s ,t h e nit r a n s l a t et h es e q u e n c ei n t on u m b e r s ;s e c o n d l y , ib u i l dat e s tm o d e l t h r o u g hs o m ,w h i c hc a ng e tf u z z yc l u s t e r i n go fs e q u e n c et h r o u g ht r a i n i n g ,a n dj u d g e t h es e q u e n c ei fi th a ss i t e i na d d i t i o n , ih a v ed e v e l o p e dam e t h o dt of i n dt h ea c c u r a t e p o s i t i o no fp o l y ( a ) s i t e a tl a s t , ia s s e s st h em o d e lv i at e s td a t a t h es h i n i n gs p o to f t h et h e s i si sp r e d i c t i n gw h e t h e rt h es e q u e n c eh a sap o l y ( a ) s i t eo rh a sm a n yp o l y ( a ) s i t e s t h es no ft e s ti s91 13 i td e m o n s t r a t e st h a tt h em e t h o dt oi d e n t i f yp o l y ( a ) s i t e b a s e do ns o mi sf e a s i b l ea n de f f e c t i v e ia l s ou s ei tt oa n a l y z et h o u s a n d so fd a t aw i t h t h ea c c u r a c yo f6 3 w ec a l lp r e d i c tt h ea c c u r a t ep o s i t i o no fp o l y ( a ) s i t eb a s e do nt h e m o d e li nf u t u r e ,e x c l u d et h ef a l s es i t et h r o u g hb i o l o g i c a lt e s t ,i m p r o v et h em o d e l ,a n d r e d u c et h eh e a v yw o r ki nb i o l o g i c a ll a b t h e s er e s u l t ss h o u l db eo fg r e a ts i g n i f i c a n c e f o rf u r t h e ra n a l y s i so fg e n ee x p r e s s i o n k e yw o r d s :p o l y ( a ) s i t ei d e n t i f i c a t i o n , m o d e lp l a n t , s e l f - o r g a n i z i n gm a p ,f u z z y c l u s t e r 厦门大学学位论文原创性声明 兹呈交的学位论文,是本人在导师指导下独立完成的研究成 果。本人在论文写作中参考的其他个人或集体的研究成果,均在 文中以明确方式标明。本人依法享有和承担由此论文产生的权利 和责任。 声明人( 签名) :召反廷群 z 0 0 7 年6 月2 0 日 厦门大学学位论文著作权使用声明 本人完全了解厦门大学有关保留、使用学位论文的规定。厦 门大学有权保留并向国家主管部门或其指定机构送交论文的纸 质版和电子版,有权将学位论文用于非赢利目的的少量复制并允 许论文进入学校图书馆被查阅,有权将学位论文的内容编入有关 数据库进行检索,有权将学位论文的标题和摘要汇编出版。保密 的学位论文在解密后适用本规定。 本学位论文属于 1 、保密() ,在年解密后适用本授权书。 2 、不保密( v ) ( 请在以上相应括号内打“4 ) 作者签名: 导师签名: 锨延坤 由别 , 日期:2 司年月2 口日 日期:2 c 刀年6 月乃日 第一章绪论 第一章绪论 随着生物技术特别是分子生物学技术的发展,目前生物学界已经积累了大量 的生物信息学数据。生物分子数据类型的不断增多及数据量的不断膨胀促进了生 物信息学【1 a 3 的研究与应用。生物信息学的研究成果不断涌现,各种生物信息源 如雨后春笋,层出不穷,而各种生物信息分析算法和工具也日益更新。 针对植物m r n a 序列中的p o l y ( a ) 位点研究,这篇论文主要研究如何在植物 m r n a 序列中判别是否含有p o l y ( a ) 位点及含有位点数量的情况,为今后精确识 别和定位p o l y ( a ) 位点作基础。 1 1 研究背景 随着分子生物学的迅猛发展,尤其是基因组测序技术的日益成熟,测序速度 的大幅度提高,以及其他新技术如基因芯片技术、质谱( 1 订s ) 技术、组合化学和 生物化学技术的迅速发展和普及应用,基因组计划得到了有效地实施。2 0 年来, 科学家完成了包括人类自身在内的约6 0 种模式生物的全基因组数据,产生了大 量的数据信息,这些信息被分别储存在种类繁多的数据库中,每一个数据库都包 含大量的数据。例如,2 0 0 4 年2 月1 5 日发布的数据库g e n b a n k t 4 1 第1 4 0 版本中 的d n a 序列总量己经达到3 2 5 4 9 4 0 0 条,超过3 7 8 9 3 8 4 4 7 3 3 亿碱基对;在2 0 0 4 年 3 月2 7 日发布的数据库s w i s s p r o tl 5 j 第4 3 版本中记录己达1 4 6 7 2 0 条,包含 5 4 0 9 31 5 4 个氨基酸的数目。据统计,这些数据库的数据总量以每1 4 个月翻一番 的速度快速增长。 除了常见的d n a 序列数据库、蛋白质序列数据库以外,还有蛋白质片段数 据库、蛋白质三维结构数据库、文献数据库、菌种资源数据库、细胞资源数据库、 种质资助数据库、代谢途径数据库、疾病靶点数据库、酶学数据库、小分子配体 化合物数据库、色谱学数据库、蛋白质双向电泳数据库等等一系列大大小小与生 物学领域相关的各具特色的数据库【3 】。据保守估计,到目前为止,分布在互联网 上的可利用的生物数据库己达1 0 0 0 多个。而且生物数据库本身的数量也呈快速 识别含有p o l y ( a ) 位点模式植物序列的方法与应用研究 增长的态势。如在每年1 月份出版的( ( n u c l e i ca c i d sr e s e a r c h ) ) 杂志公布的主要 分子生物学数据库2 0 0 1 年为2 7 7 个嗍,2 0 0 2 年为3 2 3 个 r l ,2 0 0 3 年达到3 7 2 个i s 。 面对如此迅速增长的生物数据,如何有效管理、准确解读、充分使用这些信 息,而不被这浩如烟海的数据所淹没,并从中找到明确的研究方向,己成为生物 学发展必须解决的问题。生物信息学就是在生物数据急剧增加的背景下诞生的。 2 0 0 0 年r a s h i d i 等人给出了生物信息学的定义:“生物信息学是指生命科学与 数学、计算机科学和信息科学等交汇融合所形成的一门交叉学科。它应用先进的 数据管理技术、数学分析模型和计算机软件对各种生物信息( 特别是分子生物学 信息) 进行提取、储存、处理和分析,旨在掌握复杂生命现象的形成模式与演化 规律【l j 。 生物信息学以核酸、蛋白质等生物大分子数据库为主要对象,它包含了生物 信息的获取、处理、存储、分发、分析和解释等在内的所有方面,并综合运用数 学、计算机科学和生物学的各种工具来阐明和理解大量数据所包含的生物学意 义,主要包括生物数据库建设、序列分析、蛋白质结构预测、药物设计、基因功 能预测、比较基因组研究等。 生物信息资源是重要的战略资源。生物信息学作为生物技术产业发展的基 础,为其提供了发展方向与工具,广泛应用于生物和医药等行业,已成为这些行 业持续发展的基础。生物信息技术产业的发展必将带来巨大的经济效益,从而推 动经济的发展。据f r o s t & s u l l i v a n 公司的报告【l 】,2 0 0 0 年美国的生物信息市场为 1 4 亿美元,到2 0 0 7 年将达到6 9 亿美元。生物信息技术产业的作用日益重要, 它己成为科技与经济的推动力。 生物学数据的不断积累将导致重大生物学规律的发现并带动相关学科的极 大进步,生物产业的发展对经济的推动作用受到各国关注,是二十一世纪初期不 容忽视的社会经济发展增长方向。生物信息学的发展在国内外基本上都处在起步 阶段。因此,这是我国赶超世界先进水平的百年一遇的好机会。 2 第一章绪论 1 2 研究意义 1 2 1 模式植物 在植物基因组研究中十分注重模式植物的研究,这是由于要认识某些有价值 植物基因的功能,还比较复杂。但是,植物是从共同祖先演化而来的,所以对生 命活动有重要功能的基因在进化上是保守的,也就是说,这些基因的结构和功能, 在普通植物和有价值植物中是相似的。因此,可以用比较容易研究的植物作为模 型来研究其基因的结构和生物学功能,由此获得的信息可以使用于其他比较难以 研究的植物。模式生物学就是利用模式生物来研究生物学问题的学科。由于生物 进化的保守性,在某一种生物内的生物过程很可能在高等生物( 例如人) 中也是 类似甚至完全一样的。因此研究人员可以利用一些技术上更容易操作的生物来研 究高等生物的生物学问题。严格意义上来说,这不是一门独立的学科,国外也没 有专门设置这个学科,而是把它作为一种研究手段和方法而已。 模式植物就是指一种植物的特征很明显的,可以很容易和其他植物区别的植 物,一般都由命名的哪个植物学家采的标本为准,所以目前世界上已经定名的每 一种植物都有模式植物。 模式植物具有优良的实验物性,一般很符合实验要求,并且相对容易作实验, 易于进行遗传研究。使得实验效果更快,比如:杨树因此被广泛接受为研究多年 生植物基因组的模式植物,这使该项工作具有重大的科学意义。杨树同时又是一 种重要的工业用材树种,杨树全基因组计划实施,将为生物能源的开发提供知识 贮备,具有重要的实际应用价值。目前,杨树的改良还处在一种半野生的初级改 良阶段,在基因组研究的基础上,通过群体和数量遗传学的手段在杨树属不同树 种间开发有用等位基因,并通过遗传工程 9 1 的手段进行基因重组,可望在几十年 的时间里完成一般作物几千年的改良历程。 拟南芥是一种十字花科植物,广泛用于植物遗传学、发育生物学和分子生物 学的研究,已成为一种典型的模式植物,其原因主要基于这种植物具有以下特点: ( 1 ) 形态个体小,高度只有3 0 c m 左右; ( 2 ) 生长周期快,从播种到收获种子一般只需6 周左右: ( 3 ) 种子多,每株每代可产生数千粒种子; 3 识别含有p o l y ( a ) 位点模式植物序列的方法与应用研究 ( 4 ) 形态特征简单; ( 5 ) 基因组小,只有5 对染色体。 虽然这种植物在许多方面“简单 ,但它的大多数基因与其他“复杂的植 物基因具有很高的同源性,另外,由于这种植物的全部基因组测序已经完成,因 此可以预测,拟南芥在植物学所有领域的研究中将发挥更大的作用。 随着基因研究的深入,人们充分认识到了解人类全部遗传信息所具有的巨 大经济潜力,但也意识到仅仅研究d n a 是不够的,必须深入研究基因活动的全 部信息。通过对基因表达数据的分析可以获取基因功能和基因表达调控信息,是 生物信息学的重大挑战之一。 1 2 2 数据挖掘 数据挖掘技术是一种先进的数据分析和知识发现技术,其本质就是知识发 现,在生物信息学领域,数据挖掘已显示出了强大的力量。目前即使对于了解最 多的生物体,科学家也仅知道一小部分基因功能的信息,并且这些信息通常是不 完整的。随着基因表达数据库的不断发展,需要更加先进的分析工具,以从大量 的数据之中提取隐含的信息。根据生物学理论,一方面同一物种的不同基因存在 相似与变异,另一方面,不同物种从低等发展到高等也都多少保留了一些相似之 处。也就是说,在寻找新的基因或基因的未知功能时,可充分利用已知的同一物 种或其他物种的基因信息。因此数据挖掘技术在用于基因功能预测和发现新基因 方面有着巨大的潜力。 以前生物信息学的数据挖掘工作主要集中在序列信息方面,而现在分析处理 基因功能信息己逐步成为生物信息学研究的一个重点。数据挖掘常用的方法有: 统计分析、决策树、自组织映射、人工神经网络、聚类分析以及遗传算法等。统 计方法可用于探查和提取数据之间的因果关系;决策树主要应用于分类数据和归 纳决策规则;自组织映射、遗传算法、神经网络都属于仿生计算方法。聚类分析 是目前运用最多的一种表达数据分析方法,在基因表达研究中,有一个基本假设, 即基因在何时何地表达的信息携带了关于基因功能的信息。这样,基因表达数据 分析的第一步就是按照基因表达的模式对基因进行聚类。 4 第一章绪论 当今生物信息学研究人员的重要课题就是生物信息的分析,数据挖掘技术作 为一项的重要分析技术,在生物信息学领域具有良好的研究与应用前景,而生物 信息学中的数据挖掘研究仍然处于起步阶段,有很多问题需要解决。如何将众多 的数据挖掘技术应用于生物信息分析是当前的研究热点,包括适合生物信息处理 的数据挖掘体系架构、算法的研究、数据挖掘分析功能研究等。 1 2 3p o l y ( a ) 位点识别 引入文献【l o 】,真核生物中转录与翻译在时间和空间上分开进行。虽然转录 过程的调控是基因表达调控中最重要的一环,但是转录后水平的调节对基因的表 达调控也是十分重要的。初始转录的p r e - m r n a 需要经过转录后的加工修饰才能 成为有功能的m r n a 。对m r n a 的5 非翻译区( 5 - u n t r a n s l a t e dr e g i o n ,5 - u t r ) 内的有关顺式作用元件一直研究颇多,而对y - u t r 的研究却相对较少。近几年 来,真核m r n a 的y - u t r 在基因表达调控中的作用越来越受到重视。现已了 解,3 - u t r 不仅调控m r n a 的体内稳定性及降解速率,控制其利用效率,协助 辨认特殊密码子;而且还决定m r n a 的翻译位点及控制其翻译效率。对3 - u t r 一级结构的分析和数据积累有助于尚处起步阶段的y - u t r 序列二级结构的解 析,从而更深刻地理解非编码区的调控特征。 有关y - u t r 顺式作用元件的数据挖掘研究,已提供了大量的研究线索。对 具有p o l y ( a ) 1 1 】e s t 数据集的挖掘,可鉴别出3 末端的顺式作用元件,发现和总 结出它们的序列特征。在对y - u t r 区域的分析和研究领域中,p o l y ( a ) 位点的识 别一直是一个饶有趣味并富有挑战性的课题。它的主要任务是从未知的m r n a 序列中确定p o l y ( a ) 位点存在的位置。这在基因组分析中有重要的应用意义,对 p o l y ( a ) 位点的正确识别有助于我们判断基因编码的终止位置。同时对p o l y ( a ) 位 点的识别研究不仅可以帮助我们理解和挖掘y - u t r 内的有关调控序列及其功 能,而且对于人们对转录过程的理解与分析以及探索理解基因表达的调控机理都 起着十分重要的作用。 就目前y - u t r 分析中使用的数学算法而言,绝大部分集中在一级结构特征 的描述和统计上,如对碱基字符串( n u c l e o t i d ew o r d ,以下简称字符串) 的出现 5 识别含有p o l y ( a ) i 立_ 点模式植物序列的方法与应用研究 频率进行显著性分析、对位置分布特征的鉴别和组成序列的比对。涉及的模型包 括统计数学模型、分类数学模型和马尔柯夫链数学模型等。在研究进展方面,由 于动物的p o l y ( a ) 位点附近的特征序列比较保守,对于动物p o l y ( a ) 位点的识别一 般可以得到比较高的准确掣1 2 l 。但是对于植物,情况就非常不同,植物的顺式元 件的序列保守性较差,而且位置也不是象动物那样固定不变,同时在植物中普遍 存在多p o l y ( a ) 位点的现象,即植物的p o l y ( a ) 位点表现出分散性、多样性以及复 杂性的特征。所以在植物中关于p o l y ( a ) 位点识别的理论和方法尚不成熟,有关 这方面的正式文献报道f 1 3 ,1 ”5 1 中的研究也还处于起步阶段。序列的多变性以及人 们对其周围调控的顺式元件没有足够的认识和信息不足使得处理这种问题十分 困难。 如果能对植物p o l y ( a ) 位点有深入的了解,这对分析基因的转录过程及探索 基因表达的调控机制将产生十分重大而深远的影响。因此,本文针对上述植物 p o l y ( a ) 位点识别问题展开研究,完成的主要工作如下文所述。 1 3 本文研究的内容和主要工作 国内外的研究人员已经对应用计算机和数学算法对植物m r n a 序列中 p o l y ( a ) 位点识别问题进行了研究【1 3 ,1 4 ,1 5 1 ,但由于准确识别植物的p o l y ( a ) 位点十 分困难,所以经常花费大量时间在许多不含p o l y ( a ) 位点的序列上,因此若能先 对待分析序列进行预处理,初步分析出其中含有位点的情况,挑选出可能含有位 点的序列再进一步研究,这在对p o l y ( a ) 位点的研究中有重要的应用意义。 常用的基因表达数据分析手段是系统聚类分析,此外还有b a y e s i a n 聚类分 析、逐步聚类分析、二向聚类分析、神经网络聚类分析、组成分分析、多维标度 分析等【1 6 1 7 1 。系统聚类分析适合于具有真正等级下传的数据结构,计算复杂度高; b a y e s i a n 聚类分析是高度结构化的方法,适合于事先能够分配的数据集;逐步 聚类分析法是完全没有结构化的方法,完全在局部范围内处理数据,产生一个无 组织的簇,比较难以理解;二向聚类分析适合于高度组织化的基因表达数据。这 些分析方法在实际应用中都有局限性,也不易于直观地显示结果。 本论文提出了一个基于自组织映射网络模型( s e l f - o r g a n i z i n gm a p ,简称 6 第章绪论 s o m ) 的模式植物p o l y ( a ) 位点识别的方法。s o m 网络在其他领域获得了许多 成功的应用【1 纯1 1 ,但其在生物信息学领域的聚类分析和可视化研究【1 刀却并不多 见。本文基于课题组对拟南芥m r n a 序列中p o l y ( a ) 位点及其周围区域顺式元件 信息的研究成果【l l 1 2 1 3 1 ,运用数理统计方法分析和提取拟南芥p o l y ( a ) 位点上下 游周围序列顺式作用元件的特征,而后得到数值编码的序列向量作为分类算法的 输入;然后选用s o m 网络来建立p o l y ( a ) 位点识别的高维测试模型,该模型可依 据训练结果,对待测序列中可能含有位点的片断进行模糊聚类,判断其中含有位 点的情况,从而应用于拟南芥的p o l y ( a ) 位点预测问题研究;最后使用大量测试 数据对模型进行评估。其中,通过聚类图判别未知序列是否含有位点或含有多个 位点的情况是本模型最突出的优点。实验数据表明,测试集的砌为9 1 1 3 ,说 明可以预测中9 1 2 3 的实际位点,印为7 8 4 9 。由于本文的目的是判别序列中 含有位点的情况,因此我们所关心的是砌是否接近1 ,所以文本研究的基于s o m 网络的识别模型对序列位点的判别已达到辅助生物实验的水平。 同时,本文还提出了一种基于测试模型的精确定位p o l y ( a ) 位点的方法,经 过初步测试,该方法有一定的可行性。但由于时间所限,只是提出一种可供选择 的方案,若想达到辅助生物实验的水平,还需进一步研究和改进。 本文所提出的识别方法与建立的识别模型可处理基因组测序中产生的大量 d n a 序列,识别出序列是否含有位点或含有多个位点,今后可在此基础上进行 生物实验,剔除虚假位点,改进模型,使模型的识别结果能尽量减少生物实验的 繁重工作,使研究人员大幅度提高工作效率,这在基因组研究中有着极其重要的 应用意义。 1 4 本文的结构 本论文第一章绪论介绍问题的产生背景,该问题在生物学上的重要意义以及 一些必要的生物学方面的基础知识,并对论文的基本内容做整体介绍。 第二章介绍了生物信息学,数据挖掘,s o m 的基本概念、算法以及应用。 第三章是本文的核心内容,首先对识别模型的总体框架进行设计并介绍使用 的解决方案的具体步骤,然后对如果进行数据预处理进行介绍,包括拟南芥 7 识别含有p o l y ( a ) 位点模式植物序列的方法与应用研究 p o l y ( a ) 位点周围序列的核苷酸分布特征以和对序列提取特征向量并转换为数字 编码的方法,最后介绍了基于s o m 模型的聚类。 第四章对实验结果进行了讨论与分析,首先对训练及测试数据集包括其来源 和所做的预处理进行说明,然后对数据进行训练,得到测试模型,最后把测试数 据应用到模型中,将预测结果与实际情况对比,在此基础上对测试模型进行分析 评估,检验所建立模型的可行性和有效性。 第五章总结了论文所作的主要工作,分析所建立的模型仍存在的一些问题。 提出在模型建立和识别过程中的一些改进建议,作为今后进一步完善识别模型的 参考。 8 第二章数据挖掘在生物信息学中的应用 第二章数据挖掘在生物信息学中的应用 2 0 世纪9 0 年代以来,伴随着各种基因组测序计划的展开和分子结构测定技 术的突破,全世界各个实验室提供的生物学数据库具有各种各样的生物数据,这 些生物学数据库代表着遍布全球的生命科学研究团体以及全体研究人员共同努 力的结果。在i n t e r a c t 上有效地获取生物数据资源为生物学家以一种前所未有的 方式提出问题和解决问题提供了一个极好的机会。为了更有效地利用这些数据资 源,为研究特定的生物问题收集所有有用的信息,生物学家必须能够对来自于多 个、不同的数据源的信息进行初步筛选,有目的地通过数据挖掘的方法选择那些 有研究价值的数据进一步分析是实现生物信息学的研究所必须的。 2 1 生物信息学理论基础【1 ,2 ,3 】 2 0 世纪是科学技术迅速发展的世纪,物理和化学的发展使我们可以清楚地 认识物质的组成,从分子、原子、电子等各层次上深入地了解微观世界;而天文 技术、空间技术的发展则使得我们可以了解地球以外的客观世界;以电子信息技 术为龙头的工业技术的飞速发展,使得我们可以不断地改造世界,甚至为人类更 加舒适地生活创造新的世界。生命科学在2 0 世纪同样也得到了发展,生理学、 细胞生物学、分子生物学等学科的发展使我们从器官、组织、细胞及生物大分子 等各个层次认识了生命的物质基础。生物与其他物质有本质的区别,生物并非只 是物质的简单堆积,生物体的生长发育是生命信息控制之下的复杂而有序的过 程。目前,我们对生命的奥秘还不甚了解,对生命信息的组织、传递和表达还知 之甚少。既然这牵涉到信息的组织、传递和表达,我们就可以用信息科学的方法 和技术来尝试认识和分析生命信息。 传统的生物学是- i l 实验科学,生物学研究依赖于对实验数据的处理和分 析。生物学也是- i - j 发现科学,通过实验发现新的现象、新的生物学规律,经过 分析。归纳和总结,提炼出新的生物学知识。在这个过程中,需要对实验数据进 行处理和理论分析,并在此基础上解释实验现象发生的本质,探索固有的生物学 规律,进而了解和掌握生命的物质基础和生命的本质。随着生物科学和技术的迅 速发展,生物数据的积累速度将不断加快,因此,也就对生物数据的科学分析方 9 识别含有p o l y ( a ) 位点模式植物序列的方法与应用研究 法和实用分析工具提出了更新、更高的要求。 2 1 1 生物分子信息 人类为了更深入地了解和认识自身,制定了宏伟的人类基因计划。人类基因 组计划顺利实施,产生了大量的生物分子数据。据权威机构统计,目前生物分子 数据量每1 5 个月翻一翻,生物分子数据发展的速度甚至超过了摩尔定律( 即半 导体芯片上的晶体管数量每1 8 个月翻一翻) 。这些生物分子数据具有丰富的内 涵,其背后隐藏着人类目前尚不知道的生物学知识。充分利用这些数据,通过数 据分析、处理,揭示这些数据的内涵,从而得到对人类有用的信息,是生物学家、 数学家和计算机科学家所面临的一个严峻的挑战。生物信息学就是为迎接这种挑 战而发展起来的一门新型学科,它是由生物学、应用数学和计算机科学相互交叉 所形成的学科,是当今生命科学和自然科学的重大前沿领域之一,也是2 1 世纪 自然科学的核心领域之一。 生物信息学( b i o i n f o r m a t i e s ) 这个名词有许多不同的定义。从字面上来看, 生物信息学是将信息科学和技术应用于生物学。生物信息学广义的概念是指应用 信息科学的方法和技术,研究生物体系和生物过程中信息的存储、信息的内涵和 信息的传递,研究和分析生物体细胞、组织、器官的生理、病理、药理过程中的 各种生物信息,或者也可以说成是生命科学中的信息科学。生物信息学侠义的概 念是指应用信息科学的理论、方法和技术,管理、分析和利用生物分子数据。通 过收集、组织、管理生物分子数据,使研究人员能够迅速地获得和方便地使用相 关信息;通过处理、分析、挖掘生物分子数据,得到深层次的生物学知识,加深 对生物世界的认识。在生物学、医学的研究和应用中,利用生物分子数据及其分 析结果,可以大大提高研究和开发的科学性及效率,如根据基因功能分析结果来 检测与疾病相关的基因,根据蛋白质分析结果进行新药设计。一般提到的“生物 信息学 就是指这个侠义的概念,更准确地说,应该是分子生物信息学( m o l e c u l a r b i o i n f o r m a t i c s ) 。 生物信息学以计算机、网络为工具,采用数学和信息科学的理论、方法和技 术去研究生物大分子,其研究重点主要落实在核酸和蛋白质两个方面,包括它们 的序列、结构和功能。生物信息学以基因组d n a 序列信息分析作为出发点,破 1 0 第二章数据挖掘在生物信息学中的应用 译遗传语言,认识遗传信息的组织规律,辨别隐藏在d n a 序列中的基因,掌握 基因调控信息,对蛋白质空间结构进行模拟和预测,依据蛋白质结构和功能的关 系进行药物分子设计。与生物信息学相关的概念还有计算分子生物学 ( c o m p u t a t i o n a lm o l e c u l a rb i o l o g y ) ,计算分子生物学主要研究分析方法,开发分 析工具,促进生物分子数据的分析。与生物信息学相关的另一个名词是生物计算 ( b i o c o m p u t i n g ) ,生物计算特指用计算机技术分析和处理生物分子数据。 生物信息学的产生一方面是由于生物科学和技术的发展,另一方面是由于人 类基因组计划的实施。其实,早在2 0 世纪5 0 年代生物信息学就已经形成萌芽, 2 0 世纪7 0 年代已经产生生物信息学的基本思想,但是生物信息学的真正发展则 是在2 0 世纪9 0 年代,在人类基因组计划的推动下,生物信息学才得以迅速迅猛 发展。人类基因组计划产生的生物分子数据是生物信息学的源泉,而人类基因组 计划所需要解决的问题则是生物信息学发展的动力。 生物体是一个复杂的系统,生命过程是一个极端复杂的过程,需要物质和能 量的支持。生物体同时也是一个信息系统,该系统控制着生物的遗传、生长和发 育。所有的信息都存储在生物体内的遗传物质中。在生命科学的研究中,人们已 经逐渐认识到,不仅需要用物理、化学和生物学方法研究生命的物质基础、能量 转换、代谢过程等,还需要用信息科学方法研究生命信息特别是遗传信息的组织、 复制、传递、表达及其作用,否则难以理解生命的工作机制,难以揭示生命的奥 秘。从生物学的观点来看,细胞是生命的基本单位,而从信息科学的观点来看, 细胞则是存储、复制和传递遗传信息的系统。 生物系统通过存储、修改、解读遗传信息和执行遗传指令形成特定的生命活 动,促使生物体生长发育,产生生物进化。从信息学的角度来看,生物分子是生 物信息的载体,生物信息学只要研究两种载体,即d n a 分子和蛋白质分子。生 物分子至少携带着3 种信息,即遗传信息、与功能相关的结构信息和进化信息。 d n a 是遗传信息的载体。d n a 的核苷酸序列上存储着蛋白质的氨基酸序列 编码信息,存储着基因表达调控的信息,存储着遗传信息。遗传信息存储在d n a 四种字符组成的序列中,生物体生长发育的本质就是遗传信息的传递和表达。因 此,可以说d n a 序列包含着最基本的生命信息。存储在d n a 中的信息使无活 力的分子组织成有功能的活细胞,进而构成能进行新陈代谢、生长和繁殖的生物 识别含有p o l y ( a ) 位点模式植物序列的方法与应用研究 体。人们已经认识到遗传信息的载体主要是d n a ( 在少数情况下核糖核酸即r n a 也充当遗传信息的载体) ,控制生物体性状的基因是一系列d n a 片断。一方面, d n a 通过自我复制,在生物体的繁衍过程中传递遗传信息;另一方面,基因通 过转录和翻译,使遗传信息在生物个体中得以表达,并使后代表现出与亲代相似 的生物性状。在基因表达过程中,基因上的遗传信息首先通过转录从d n a 传到 r n a ,然后再通过翻译从r n a 传递到蛋白质。基因控制着蛋白质的合成,从基 因的d n a 序列到蛋白质序列存在着一种明确的对应关系,而这种对应关系就是 我们所知道的第一遗传密码。 作为信息的载体,d n a 分子和蛋白质分子都打上了进化的烙印。通过比较 相似的蛋白质序列,如肌红蛋白和血红蛋白,可以发现由于基因复制而产生的分 子进化证据。比较来自于不同种属的同源蛋白质,即直系同源蛋白质,可以分析 蛋白质甚至种属之间的系统发生关系,推测它们共同的祖先蛋白质。 生物分子信息具体表现为d n a 序列数据、蛋白质序列数据、生物分子结构 数据、生物分子功能数据等。序列数据、结构数据是非常直观的,但是功能数据 却是多变复杂的,如关于蛋白质功能的定性描述、蛋白质之间的相互作用描述、 基因表达数据、代谢路径、调控网络等。在所有类型的数据中,序列是最基本的 数据,而且也是目前最多的数据。 与一般信息相比,生物分子信息具有明显的特征。首先,生物分子信息数据 量大,例如d n a 序列以千兆碱基( g i g ab a s e ,g b ) 为单位。随着信息处理技术 进入现代生物学研究领域,随着互联网在全球的贯通,各种生物信息学数据库迅 速发展,生物分子数据的积累速度成倍增长。其次,生物分子信息复杂,既有生 物分子序列信息,又有结构和功能的信息,既有生命本质信息,如基因,又有生 命表象信息,如基因表达信息。生物分子信息另一个重要的特征是,生物分子信 息之间存在着密切的联系,例如,基因序列与蛋白质序列之间的关系,生物分子 序列与结构之间的关系,结构与功能之间的关系,基因变异与疾病之间的关系。 对于生物分子信息,靠人工难以完成数据处理和分析的任务,更谈不上发现 隐藏在这些信息之中的内在规律。同时,对于生物分子信息,仅靠某一学科的专 家,也无法进行分析研究,因此,在生物信息学研究领域中,要求生物学家、数 学家和计算机科学工作者协力合作,发展新的分子生物学计算理论和方法,运用 1 2 第二章数据挖掘在生物信息学中的应用 先进的计算机技术收集、集成和分析处理生物信息。 2 1 2 生物信息学的研究目标和任务 揭示生物分子数据的内涵是生物信息学的长远目标。生物分子数据具有深刻 的内涵,数据之间存在着复杂的联系,这些数据中蕴涵着丰富的生物学知识和生 物学规律。生物信息学的发展将揭示生物分子信息的本质,使人类彻底了解、掌 握遗传信息的编码、传递及表达,从而加快人类了解自身的进程。 目前生物信息学的主要任务是研究生物分子数据的获取、存储和查询,发展 数据分析方法。主要包括3 个方面。 第一是收集和管理生物分子数据,使得生物学研究人员能够方便地使用这些 数据,并为信息分析和数据挖掘打下基础。生物分子数据来自于生物学实验,应 用信息学技术收集和管理这些数据,将各种数据以一定的表示形式存放在计算机 中,建立数据库系统,并提供数据查询、搜索和数据通信工具。 第二是进行数据处理和分析。通过数据分析,发现数据之间的关系,认识数 据的本质,进而上升为生物学知识。并在此基础上,解释与生物分子信息复制、 传递和表达有关的生物过程,解释在生物过程中出现的信息变化与疾病的关系, 帮助发现新的药物作用目标,设计新的药物分子,为进一步的研究和应用打下基 础。生物分子信息处理流程见图。目前生物信息学的主要研究对象是d n a 和蛋 白质。在d n a 分析方面,着重分析d n a 序列中的基因信息及基因表达数据, 分析基因之间的相互作用关系,比较不同种属的基因组,研究基因组中非编码区 域的生物学功能。在蛋白质分析方面,着重分析蛋白质序列与蛋白质结构及功能 之间的关系,预测蛋白质的结构和功能,研究蛋白质的进化关系。 第三是开发分析工具和实用软件,解决具体的问题,为具体的生物信息学应 用服务。例如,开发生物分子序列比较工具。基因识别工具。生物分子结构预测 工具、基因表达数据分析工具等。 随着生物技术特别是分子生物学技术的发展,目前已经积累了大量的生物信 息学数据,表列出了目前已经得到的各种数据量及生物信息学对各类数据处理的 基本任务。生物分子数据类型的不断增多及数据量的不断膨胀促进了生物信息学 的研究与应用。生物信息学的研究成果不断涌现,各种生物信息源如雨后春笋, 识别含有p o l “a ) 位点模式植物序列的方法与应用研究 层出不穷,而各种生物信息分析算法和工具也日益更新。 掌握互联网上各种生物信息学数据库以及相关软件的使用技术已成为生物 学和医学研究人员的迫切需要。尤其是分子生物学的三大核心数据库一一 g e n b a n k 核酸序列数据库、s w i s s p r o t 蛋白质序列数据库和p d b 生物大分子 结构数据库,不仅是全世界分子生物学和医学研究人员获取生物分子序列、结构 和其他信息的基本来源,而且是发表自己序列或结构测定结果的重要媒体。围绕 这三大核心数据库还有众多面向各种特定应用的衍生数据库和分析软件,这些数 据库分别从不同角度、以不同方式对各类生物信息学数据进行归纳、总结和注释, 而各种分析软件为挖掘这些数据提供了有力的工具。 2 1 3 生物信息学的研究意义 生物信息学研究是从理论上认识生物本质的必要途径,通过生物信息学研究 和探索,可以更为全面和深刻地认识生物科学中的本质问题,了解生物分子信息 的组织和结构,破译基因组信息,阐明生物信息之间的关系。基因序列到蛋白质 序列的三联密码关系是众所周知的,也是非常简单、非常确定的,然而,基因调 控序列与基因表达之间的关系、蛋白质序列与蛋白质结构之间的关系则是未知 的,也一定是非常复杂的。破译和阐明生物信息的本质将使得人类对生物界的认 识
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 直播推广考试题目及答案
- 组织科普宣传活动方案
- 《电子测量技术基础》课件-正确使用国家计量单位
- 美术班画展活动方案
- 浙教版九年级科学下册说课稿:第3章 第2节 来自微生物的威胁
- 《电子银行学》课件第12章
- 策划ktv活动方案
- 美甲店新年纯色活动方案
- 幼儿园老师安全培训内容课件
- 线路推广活动方案
- 银行外包人员管理办法
- 2024年法考主观题刑法真题(回忆版)解析与复习重点
- 招生表彰活动方案
- 数字媒体技术专业教学标准(高等职业教育专科)2025修订
- 妊娠合并心脏病疾病查房
- 消防安全评价管理制度
- 2025至2030年中国二手车金融行业市场行情监测及发展前景研判报告
- 2023年5月7日全国事业单位联考A类《职业能力倾向测验》试题真题答案解析
- 正念心理治疗
- 2025成人高考民法真题及答案
- 京东校招测评题库及答案
评论
0/150
提交评论