




已阅读5页,还剩50页未读, 继续免费阅读
(计算机应用技术专业论文)水稻全基因多态数据库的建立及其辅助系统的设计.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
上海师范大学硕士学位论文 摘要 上个世纪9 0 年代, 人 类 基因 组计划 ( h u m a n g e n o m e p r o j e c t , h g p ) 的实施标志着生物学的发展进入了基因组时代。 而今生物信息 技术的发展己在探索生命起源、 生物进化, 医学研究, 农业研究方面 取得了巨大的成就。 水稻是世界上最重要的粮食作物, 被国际上公认为研究禾本科和 单子叶植物中的模式生物。 水稻的d n a多态性特征数据,可以为水 稻基因定位和分子育种的工作提供基因序列依据. 本文介绍了如何利 用粳稻品种日 本晴和粕稻品种9 3 - 1 1 的全基因组的文本序列, 设计了 对其进行文本数据挖掘的模式和系列程序, 最终构建了一个水稻全基 因组d n a多态性数据库的方法, 并讨论了其实验验证上的意义。 本文描述的对水稻d n a多态性序列信息的数据获取的策略,可 以成为其他生物物种多态性信息的分析提供了一个模式和参考。 关键词: 生物信息学,, s n p , i n d e l , d n a多态性数据库, 文本数据挖掘 生物数据整合 上海师范大学硕士学位论文 abs tract i n t h e l a s t 9 0 s c e n t u ry , t h e d e v e l o p m e n t o f h u m a n g e n i m i c s p o r j e c t i n d i c a t e d t h a t b i o l o g y h a s s t e p p e d i n t o t h e a g e o f g e n o m e . b y n o w , t h e d e v e l o p m e n t o f b i o i n f o r m a t i o n s h a s ma k e g r e a t s u c c e s s i n m e d i c a l s t u d i e s , a g r i c u l t u r e d e v e l o p m e n t , o r g a n i c e v o l u t i o n a n d t r a c e o r i g i n o f l i f e . r i c e i s t h e m o s t i m p o r t a n c e c r o p p e r i n t h e w o r l d , i t i s w i d e l y a c c e p t e d a s t h e m o d e l o f t h e g r a m i n e a e a n d m o n o c o t y l e d o n . o v e r t h e y e a r s , t h e r e s e a r c h o f g e n o m i c s a n d f u n c t i o n a l g e n o m i c s h a s b e e n t h e h o t s p o t o f t h e r i c e s t u d i e s i n t h e w o r l d . d n a p o l y m o r p h i s m i s t h e b a s i s t o d e v e l o p m o l e c u l a r m a r k e r s t h a t a r e w i d e l y u s e d i n g e n e t i c m a p p i n g t o d a y . a g e n o m e - w i d e r i c e d n a p o l y m o r p h i s m d a t a b a s e h as b e e n c o n s t ru c t e d i n t h i s w o r k u s i n g t h e g e n o m e s o f n i p p o n b a r e , a c u l ti v a r o f j a p o n i c a , a n d 9 3 - 1 1 , a c u l t i v a r o f i n d i c a . f o r t h a t d n a p o l y m o r p h i s m d a t a b a s e , t h i s p a p e r w i l l s h o w a s o l u t i o n t o m a k e i t w i t h t h e s k i l l o f t e x t u a l d a t a m i n i n g . t h e r e s u l t o f t h e p r e s e n t w o r k i m p l i e d t h a t w e c a n u s e t h i s s o l u t i o n t o e s t a b l i s h o t h e r s p e c i e s d n a p o l y m o r p h i s m d a t a b a s e . k e y w o r d s : b i o i n f o r m a t i o n s , s n p , i n d e l , d n a p o l y m o r p h i s m d a t a b a s e , t e x t u a l d a t a mi n i n g , b o i l o g i c a l d a t a i n t e g r a t i o n 上海师范大学硕士学位论文 令 自 堪 纷 己! - - 二 叮 7. f.j 1 1 =1 1 . 1 论文背景 1 . 1 . ,水稻基因工程的重要性和现状 水稻是世界上最重要的粮食作物, 养活了世界上二分之一的人口。目 前, 世 界上水 稻年 种植面 积1 . 5 亿h m 2 , 年生产量6 亿吨, 到2 0 1 0 年, 随 着人口 的 增加 和土地面积的减少,水稻的总产量还要增加 2 5 %才能满足人们的需求,这就必 须提高水稻的单产. 除了 它在经济领域的重要性外, 还由于其在单子叶植物中基 因组最小( 4 4 0 m b p ) , 与其它单子叶植物尤其是禾本科植物如小麦、 大麦、 高粱、 玉米和甘蔗等具有很高同源性的特点, 被国际上公认为研究禾本科和单子叶植物 中 的 模式 生 物 ( a r u m u g a n a t h a n a n d e a r l e 1 9 9 1 ; f u k u i e t a l ., 1 9 9 1 ; i z a w a e t a l ., 1 9 9 6 ; c h e n e t a l .2 0 0 2 ) 。 水稻基因组学的 研究成功将给全球人类的 食物安全提供 保障。 近几年来有关水稻基因组学和功能基因组学更是成为国内外水稻研究的热 点, 在2 0 0 1 年1 0 月, 我国华大基因研究中心宣布完成了中国水稻釉稻品种9 3 - 1 1 基因 组 “ 工 作 框 架图 ” 和 数据 库 , 总 长1 7 9 7 .4 m b p , 初 步 拼 接 得 到了4 0 9 .7 6 m b p 的 非 冗 余 序列, 大 约 覆盖 了 水 稻 全 基因 组 的9 5 .2 9 % , 碱 基 准 确 率 大 于9 9 % a ( y u e t a l . ,2 0 0 2 ) 。 而由 国 际 水 稻基因 组计 划( i n t e r n a t i o n a l r i c e g e n o m e s e q u e n c i n g p r o j e c t , i r g s p ) 组织下的中、日、 韩、美等十多个国家和地区在2 0 0 2 年完成了 粳稻品 种 日 本晴的 精细测 序及第1 , 4 , 1 0 条 染色体的 完成图 ( s a s a k i e t a l ., 2 0 0 2 , t h e r i c e c h r o m o s o m e 1 0 s e q u e n c i n g c o n s o r tiu m e t a l .,2 0 0 3 f e n g e t a l ., 2 0 0 2 ) 。 此 外另 一 个 在中国广为种植的釉稻品种广陆矮 4号的第四条染色体的精细测序也已 完成 ( z h a o e t a l ., 2 0 0 2 ) 0 水稻两个亚种全基因组测序的完成是水稻基因组学研究的里程碑式的成就, 也为水稻功能基因组学及其相关研究拉开了帷幕。 上海师范大学硕士学位论文 1 . 1 . 2 d n a多态性的介绍 d n a多态性普遍存在于生物有机体中, 它主要是指不同物种或同一物种不 同亚种以 及个体间基因组序列的差异,包括基因编码区和非编码区序列的差异。 d n a多态性反映了 物种形成、选择、迁移、重组和交配体系等的进化历程,奠 定了丰富多彩的生物界。而更为重要的是d n a多态性是发展分子标记的基础。 随 着 基因 组 学 和功 能 基因 组 学的 研 究 地 位日 显重 要, 人 类 ( i a n d e r e t a l ., 2 0 0 1 ; v e n t e r e t a l ., 2 0 0 1 ) 和 各 种 模式生 物 如果 蝇 ( a d a m s e t a l , 2 0 0 0 ) 、 秀 丽线 虫 仰。 c . e l e g a n s s e q u e n c i n g c o n s o r t iu m 2 0 0 0 ) 、 拟南芥 ( t h e a r a b i d o p s i s g e n o m e i n i t i a t i v e , 2 0 0 0 ) f o 水 稻帅 e t a l ., 2 0 0 2 ; s a s a k i e t a l ., 2 0 0 2 ) 全基因 组 测 序的 相继 完 成, 极 大地 促进了d n a多态性应用于功能基因组学的研究。 d n a多态性作为发展分子标记 和研究基因组演化及相互关系的基础在植物遗传改良 和种质创新以及农业生物 技术等多方面展示出巨大的应用价值. d n a多态性主要反映了在两条基因序列上的碱基排列位置和相似性的特 征,在基因组水平上d n a多态性一般分为三类 ( 见图1 . 1 ) : 第 一 类: 单 碱基 多 态 性 ( s in g le n u c le o t id e p o l y m o r p h i s m s , s n p ) , 是 指 在两 个 基因组上相同的位置上有且只有一个碱基发生了改变。 第二 类: 插入 和 缺失多 态性 ( i n s e r t i o n a n d d e l e t i o n , i n d e l ) , 是指在两 个基因 组上相同的位置上插入一个或多个碱基而旁邻序列保持一致。 第三类:d n a多态性代表了大片段序列的重排、插入和反向插入。 aa c t a cc t ca gtt ni p p o n b ar ea a c a t t c c t c a a gtr t ggt t a 1 ! 1 ! ! i i i i ! i i ! i i ! i i i a ac a t t c ct ct agt t t ggt t a ni p p on b a r e 9 3 - 1 19 3 - 1 1 a a c a t t c c t ca gt t t ggt t a ! ! ! 1 ! ! ! ! ! ! i i ! i i i i i i i a a ca t t cc t cagt t t ggt t a 图 1 . 1 d n a多态性类型图例 1 . 1 3 水稻基因多态性数据库建立的必要性 d n a分子标记在水稻功能基因组学研究及分子标记辅助育种等多种工作中 发挥着重要的作用。d n a 多态性作为发展分子标记的基础在水稻基因定位和分 上海师范大学硕士学位论文 1 . 1 . 2 d n a多态性的介绍 d n a多态性普遍存在于生物有机体中, 它主要是指不同物种或同一物种不 同亚种以 及个体间基因组序列的差异,包括基因编码区和非编码区序列的差异。 d n a多态性反映了 物种形成、选择、迁移、重组和交配体系等的进化历程,奠 定了丰富多彩的生物界。而更为重要的是d n a多态性是发展分子标记的基础。 随 着 基因 组 学 和功 能 基因 组 学的 研 究 地 位日 显重 要, 人 类 ( i a n d e r e t a l ., 2 0 0 1 ; v e n t e r e t a l ., 2 0 0 1 ) 和 各 种 模式生 物 如果 蝇 ( a d a m s e t a l , 2 0 0 0 ) 、 秀 丽线 虫 仰。 c . e l e g a n s s e q u e n c i n g c o n s o r t iu m 2 0 0 0 ) 、 拟南芥 ( t h e a r a b i d o p s i s g e n o m e i n i t i a t i v e , 2 0 0 0 ) f o 水 稻帅 e t a l ., 2 0 0 2 ; s a s a k i e t a l ., 2 0 0 2 ) 全基因 组 测 序的 相继 完 成, 极 大地 促进了d n a多态性应用于功能基因组学的研究。 d n a多态性作为发展分子标记 和研究基因组演化及相互关系的基础在植物遗传改良 和种质创新以及农业生物 技术等多方面展示出巨大的应用价值. d n a多态性主要反映了在两条基因序列上的碱基排列位置和相似性的特 征,在基因组水平上d n a多态性一般分为三类 ( 见图1 . 1 ) : 第 一 类: 单 碱基 多 态 性 ( s in g le n u c le o t id e p o l y m o r p h i s m s , s n p ) , 是 指 在两 个 基因组上相同的位置上有且只有一个碱基发生了改变。 第二 类: 插入 和 缺失多 态性 ( i n s e r t i o n a n d d e l e t i o n , i n d e l ) , 是指在两 个基因 组上相同的位置上插入一个或多个碱基而旁邻序列保持一致。 第三类:d n a多态性代表了大片段序列的重排、插入和反向插入。 aa c t a cc t ca gtt ni p p o n b ar ea a c a t t c c t c a a gtr t ggt t a 1 ! 1 ! ! i i i i ! i i ! i i ! i i i a ac a t t c ct ct agt t t ggt t a ni p p on b a r e 9 3 - 1 19 3 - 1 1 a a c a t t c c t ca gt t t ggt t a ! ! ! 1 ! ! ! ! ! ! i i ! i i i i i i i a a ca t t cc t cagt t t ggt t a 图 1 . 1 d n a多态性类型图例 1 . 1 3 水稻基因多态性数据库建立的必要性 d n a分子标记在水稻功能基因组学研究及分子标记辅助育种等多种工作中 发挥着重要的作用。d n a 多态性作为发展分子标记的基础在水稻基因定位和分 上海师范大学硕士学位论文 子育种的 工作中 被广泛使用。 而现有的水稻分子标记如r f l p 标记等和己 发表的 s s r多 态性位点 有着检测难度大和平均密度低的缺点。 分子标记及d n a多态性 位点的缺乏也已 经成为了制约水稻图位克隆和多种水稻研究工作的关键因素。 而 一个水稻全基因组d n a多态性位点的数据库能为在全基因组范围内发展分子标 记提供基础, 这也将极大的促进水稻遗传图谱的构建、 水稻多样性研究、 分子标 记辅助育种和利用分子标记对水稻基因的图位克隆等工作, 为针对水稻及其它禾 本科植物的理论研究和生产应用等多项工作提供宝贵信息。 我们利用了己经完成 测序的粳稻品种日 本晴和粕稻品种9 3 - 1 1 的基因组序列用生物信息手段进行多态 性比 较从而构建了 一个全基因组d n a多态性数据库。 在数据中包含了1 ,7 0 3 , 1 7 6 个 单 核 昔 酸多 态 性 ( s n p ) 和4 7 9 ,4 0 6 个插 入 缺失多 态 性 ( i n d e l) , 在水 稻 基因 组 上 其密 度 分 别 达 平 均 每2 6 8 b y 一 个s n p 和每9 5 3 b y 一 个i n d e l 。 经实 验 验 证 我 们 数据库中的s n p 和i n d e l 的准确率分别为9 8 .2 % 和9 0 % 。 这套水稻全基因组d n a 多态性数据库将会为水稻基因的图位克隆及其它研究提供一有力工具。 1 . 2本课题解决的问题 为了构建水稻全基因d n a多态数据库, 我们首先需要检测日 本晴与9 3 -1 1 基因 组 序列间的 多 态性, 我们先 将9 3 -1 1 的 序列 采用b l a s t n ( 单机版 b l a s t , f t p :/ / f t p .n c b i .n i h .g o v / b l a s t/ e x e c u t a b l e s ) 与日 本睛的 序列 进行同 源序列匹 配 检索后, 将最匹配的9 3 -1 1 序列初步锚合到日本睛的基因组相应的序列上。然后我们应 用t m u m m e r 3 .0 ( f t p :/ / f t p .t i g r .o r g / p u b / s o f tw a r e m u m m e r / ; d e l c h e r e t a l ., 2 0 0 2 ) 来 检测两品种间的多态性。 但得到的结果只是两种品种间的多态性比较的大量文本 数据, 需要进一步进行文本数据挖掘来提取分析, 最后根据一定的网值来筛选出 我们需要的在多态性位点按物理图谱上顺序来排序的 序列数据。 本人按照该项目的需要分别针对 b l a s t n和 m u mm e r 3 .0生成的序列文本 数据, 设计出对多态性信息进行文本挖掘的策略, 然后将两个品种的多态性相关 信 息 数 据 按 物 理图 谱 上 顺 序 来构 建 数 据 库, 并根 据生 物实 验 所 确定 一 个 i d e n t it y 的值来除去匹配度较低的匹配序列, 最终实现了水稻全基因组d n a多态性数据 库的建立。 上海师范大学硕士学位论文 子育种的 工作中 被广泛使用。 而现有的水稻分子标记如r f l p 标记等和己 发表的 s s r多 态性位点 有着检测难度大和平均密度低的缺点。 分子标记及d n a多态性 位点的缺乏也已 经成为了制约水稻图位克隆和多种水稻研究工作的关键因素。 而 一个水稻全基因组d n a多态性位点的数据库能为在全基因组范围内发展分子标 记提供基础, 这也将极大的促进水稻遗传图谱的构建、 水稻多样性研究、 分子标 记辅助育种和利用分子标记对水稻基因的图位克隆等工作, 为针对水稻及其它禾 本科植物的理论研究和生产应用等多项工作提供宝贵信息。 我们利用了己经完成 测序的粳稻品种日 本晴和粕稻品种9 3 - 1 1 的基因组序列用生物信息手段进行多态 性比 较从而构建了 一个全基因组d n a多态性数据库。 在数据中包含了1 ,7 0 3 , 1 7 6 个 单 核 昔 酸多 态 性 ( s n p ) 和4 7 9 ,4 0 6 个插 入 缺失多 态 性 ( i n d e l) , 在水 稻 基因 组 上 其密 度 分 别 达 平 均 每2 6 8 b y 一 个s n p 和每9 5 3 b y 一 个i n d e l 。 经实 验 验 证 我 们 数据库中的s n p 和i n d e l 的准确率分别为9 8 .2 % 和9 0 % 。 这套水稻全基因组d n a 多态性数据库将会为水稻基因的图位克隆及其它研究提供一有力工具。 1 . 2本课题解决的问题 为了构建水稻全基因d n a多态数据库, 我们首先需要检测日 本晴与9 3 -1 1 基因 组 序列间的 多 态性, 我们先 将9 3 -1 1 的 序列 采用b l a s t n ( 单机版 b l a s t , f t p :/ / f t p .n c b i .n i h .g o v / b l a s t/ e x e c u t a b l e s ) 与日 本睛的 序列 进行同 源序列匹 配 检索后, 将最匹配的9 3 -1 1 序列初步锚合到日本睛的基因组相应的序列上。然后我们应 用t m u m m e r 3 .0 ( f t p :/ / f t p .t i g r .o r g / p u b / s o f tw a r e m u m m e r / ; d e l c h e r e t a l ., 2 0 0 2 ) 来 检测两品种间的多态性。 但得到的结果只是两种品种间的多态性比较的大量文本 数据, 需要进一步进行文本数据挖掘来提取分析, 最后根据一定的网值来筛选出 我们需要的在多态性位点按物理图谱上顺序来排序的 序列数据。 本人按照该项目的需要分别针对 b l a s t n和 m u mm e r 3 .0生成的序列文本 数据, 设计出对多态性信息进行文本挖掘的策略, 然后将两个品种的多态性相关 信 息 数 据 按 物 理图 谱 上 顺 序 来构 建 数 据 库, 并根 据生 物实 验 所 确定 一 个 i d e n t it y 的值来除去匹配度较低的匹配序列, 最终实现了水稻全基因组d n a多态性数据 库的建立。 上 海 师 范 大 学 硕 士 学 位 论 文_ 1 . 3论文结构 本文全篇的结构如下布局: 第一章是引言,主要介绍了进行本系统开发的背景和本文的研究内容。 第二章主要介绍了生物信息学的概念、 以及生物信息学应用于水稻基因项目 方面的手段和生物信息资源。 第三章和第四章主要介绍了该水稻全基因d a n多态数据库的设计和实现方 法, 然后介绍了设计建立数据库中文本挖掘的策略和算法, 这是本文的主要内容。 第五章主要介绍了 对该多态性数据的实验方法和结果分析。 最后在第六章对本文做出总结后提出了以后进一步研究的重点和方向。 上海师范大学硕士学位论文 第二章 生物信息理论概述 2 0 世纪8 0 年代末, 人类基因组计划 ( h u m a n g e n o m e p r o j e c t , h g p ) 的启 动推动了生物信息学的产生和蓬勃发展。 人类基因组计划的直接结果是获得了大 量不连续的数据。 对这些数据的收集、 存储, 分析、 解释, 从中获取有用的生物 学信息, 导致了 生物信息学的产生. 本章主要阐述了生物信息学的 概念和生物信 息的研究内容及其在国内 外的发展现状 2 . 1 生物信息基本理论 2 . 1 . 1 生物信息学 ( b i o i n f o r m a t i o n s )的概念 生物信息学是在人类基因组计划推动下产生的应用计算机技术管理生物信 息的一门新生学科, 它是生物学、 数学、 物理学、计算机科学等众多学科交叉的 新兴学科。 生物信息学是生物遗传密码与电脑信息相结合, 通过电脑的各种程序 软件将已知的大量的核酸、蛋白质等生物大分子的核昔酸序列进行分析、计算, 揭示遗传信息: 通过对生物信息的查询、 搜索、 比较、 分析, 从中获取基因编码、 基因调控、 核酸和蛋白 质结构功能及其相互关系等理性知识, 推断己知序列的功 能; 在大量信息和知识的基础上, 探索生命起源、 生物进化以及细胞、 器官和个 体的发生、发育、病变、衰亡等生命科学中重大问题 广义的说,生物信息学通过对基因组的研究,获取,加工,存储,分配, 分析和解释相关生物信息, 这包括了 两层含义, 一是对大量数据的收集和整理与 服务,也就是管理好这些数据; 另一层是从中发现新的规律, 具体的说,生物信息学就是把基因组 d n a序列信息分析作为源头,找到 基因组序列中代表蛋白质和 r n a基因的编码区 ;同时,阐明基因组中大量存 在的非编码区的信息实质,破译隐藏在d n a序列中的遗传语言规律在此基础 上。 归纳整理与基因组遗传信息释放和调控相关的转录谱和蛋白 质的数据, 从而 认识代谢,发育, 分化,进化的规律. 上海师范大学硕士学位论文 2 . 1 .2 生物信息学的 研究内 容 目 前生物信息学的研究内容, 主要包括以 下几个方面: 基因组相关信息的 收集、存储、管理与提供; 新基因的发现与鉴定; 非编码区信息结构分析; 生物进化的研究; 完整基因组的比较研究;基因组信息分析方法的 研究; 大规模基因功能表达谱分析; 蛋白 质末端序列和分子空间的 预测、 模拟和分 子设计; 药物设计等. 为此, 生命科学家们在不断地生产和更新以数据库和软 件为主的各种生物信息工具的同时, 还要加强生物信息学分析方法研究, 以 解决 其自 身发展过程中所出现的新的挑战。 2 . 1 . 3 生物信息学在国内外的发展状况 十余年来, 生物信息学的发展大致经历了前基因组时代、 基因组时代和后基 因组 ( 蛋白质组) 时代三个阶段。 随着后基因组时代的到来, 生物信息学研究的 重点逐步转移到功能基因组信息研究, 其研究的内容不仅包括基因的查询和同源 性分析, 而且进一步发展到基因和基因组的功能分析, 即所谓的功能基因组学研 究。其具体表现在: ( 1 ) 将已知基因的序列与功能联系在一起进行研究; ( 2 ) 从以常规克隆为基础的基因分离转向以序列分析和功能分析为基础 的基因分离; ( 3 ) 从单个基因致病机理的研究转向多个基因致病机理的研究; ( 4 ) 从组织与组织之间的比较来研究功能基因组和蛋白质组, 组织与组织 之间的比 较主要表现在: 正常与疾病组织之间的比较, 正常与激活组 织之间的比较, 疾病与处理 ( 或治疗) 组织之间的比较, 不同发育过 程的比较等。 随着信息高速公路、国际互联网的快速发展, 生物信息学发展迅速, 可谓日 新月异。美国、日 本及欧洲各国的生物信息学己相继在i n t e m e t 上建立了 各自的 网络节点, 进行管理大型数据库, 为研究人员提供研究数据的分析、 处理、 采集、 交换等服务。 总体而言, 基本都是面向生物信息学专业人士, 各种分析方法虽然 很全面,但却分散在不同的网点,分析结果也需专业人士来解读。 目前, 绝大部分的核酸和蛋白质数据库由美国、 欧洲和日本的3 家数据库系 上海师范大学硕士学位论文 2 . 1 .2 生物信息学的 研究内 容 目 前生物信息学的研究内容, 主要包括以 下几个方面: 基因组相关信息的 收集、存储、管理与提供; 新基因的发现与鉴定; 非编码区信息结构分析; 生物进化的研究; 完整基因组的比较研究;基因组信息分析方法的 研究; 大规模基因功能表达谱分析; 蛋白 质末端序列和分子空间的 预测、 模拟和分 子设计; 药物设计等. 为此, 生命科学家们在不断地生产和更新以数据库和软 件为主的各种生物信息工具的同时, 还要加强生物信息学分析方法研究, 以 解决 其自 身发展过程中所出现的新的挑战。 2 . 1 . 3 生物信息学在国内外的发展状况 十余年来, 生物信息学的发展大致经历了前基因组时代、 基因组时代和后基 因组 ( 蛋白质组) 时代三个阶段。 随着后基因组时代的到来, 生物信息学研究的 重点逐步转移到功能基因组信息研究, 其研究的内容不仅包括基因的查询和同源 性分析, 而且进一步发展到基因和基因组的功能分析, 即所谓的功能基因组学研 究。其具体表现在: ( 1 ) 将已知基因的序列与功能联系在一起进行研究; ( 2 ) 从以常规克隆为基础的基因分离转向以序列分析和功能分析为基础 的基因分离; ( 3 ) 从单个基因致病机理的研究转向多个基因致病机理的研究; ( 4 ) 从组织与组织之间的比较来研究功能基因组和蛋白质组, 组织与组织 之间的比 较主要表现在: 正常与疾病组织之间的比较, 正常与激活组 织之间的比较, 疾病与处理 ( 或治疗) 组织之间的比较, 不同发育过 程的比较等。 随着信息高速公路、国际互联网的快速发展, 生物信息学发展迅速, 可谓日 新月异。美国、日 本及欧洲各国的生物信息学己相继在i n t e m e t 上建立了 各自的 网络节点, 进行管理大型数据库, 为研究人员提供研究数据的分析、 处理、 采集、 交换等服务。 总体而言, 基本都是面向生物信息学专业人士, 各种分析方法虽然 很全面,但却分散在不同的网点,分析结果也需专业人士来解读。 目前, 绝大部分的核酸和蛋白质数据库由美国、 欧洲和日本的3 家数据库系 上海师范大学硕士学位论文 统产生;他们共同组成了 d d b j / e m b lg e n b a n k国际核酸序列数据库,每天交 换数据,同步更新。其他一些国家,如德国、法国、意大利、瑞士、澳大利亚、 丹麦和以色列等, 在分享网络共享资源的同时, 也分别建有自己的生物信息学机 构、 二级或更高级的具有各自 特色的专业数据库以及自己的分析技术, 服务于本 国生物 ( 医学)研究和开发,有些服务也开放于全世界。 g e n b a n k 库由 美国 国 立 生 物技 术 信息中 心( n c b d 建 立 和维 护, 它 包 含了 所 有 已知的核酸序列和蛋白质序列,以及与它们相关的文献著作和生物学注释。 g e n b a n k 的数据可以 从n c b i 的f i t服务器上免费下载完整的 库, 或下载积累的 新数据。 n c b i 还提供广泛的数据查询、序列相似性搜索以 及其它分析服务,用 户可以从n c b i 的主页上找到这些服务。 e m b l核 酸 序 列 数 据 库由 欧 洲生 物 信息 学研究 所 ( e b 1) 维 护的 核 酸 序 列 数 据 构成, 该数据库由o r a c a l 数据库系统管理维护,查询检索可以通过i n t e r n e t 上的 序 列 提 取系 统 ( s r s ) 服务 完 成。 向e m b l 核酸 序列 数 据 库提 交 序列 可以 通 过 基 于 w e b 的w e b in工 具, 也 可以 用s e q u i n 软 件 来完成。 日 本d n a 数 据 仓库 ( d d b j ) 也 是 一 个全 面的 核 酸 序 列数 据 库, 可以 使 用 其主 页 上提供的s r s 工具 进行 数据检索和 序列分析, 也可以 用s e q u i n 软 件向 该 数据库 提交序列。 g e n b a n k , e m b l 和d d b j 每天都会交换数据, 使其数据库的数据同 步。 g d b ( 基因 组 数据库) 为人类基因 组计划 但g 玛 保 存和处理基因组图 谱数 据。 g d b的目标是构建关于人类基因组的百科全书,除了构建基因组图谱之外,还 开发了描述序列水平的基因组内容的方法, 包括序列变异和其它对功能和表型的 描述o g d b数据库以对象模型来保存数据, 提供基于we b 的数据对象检索服务, 用户可以搜索各种类型的对象,并以图形方式观看基因组图谱。 目前,生物信息学在我国还处于初期发展阶段。国内近年来开展生物信息 学研究的单位主要有: 中国科学院生物物理所、中国医学科学院、 军事医学科学 院、 清华大学、 北京大学、 复旦大学、上海师范大学,中山大学、 天津大学、 东 南大学、内蒙古大学等。1 9 9 3年在国家自 然科学学基金委的资助下,中国开始 参与人类基因组计划。1 9 % 年,在教育部和科技部的支持下,北京大学蛋白质 工程和植物遗传学工程国家实验室加入欧洲分子生物学网络 ( e mb n e t ) 0 1 9 9 7 上海师范大学硕士学位论文 年3 月, 北京大学生物信息学中 心成立。 中国科学院于1 9 9 7 年9 月和1 2 月召开 了第8 0 . 8 7 次香山会议,首次邀请有关专家对该领域进展进行探讨,主题分别 为“ d n a芯片的现状与未来” 和“ 生物信息学” 。1 9 9 8年,中国人类基因组研究北 方中心 ( 北京) 和南方中心 ( 上海)成立。1 9 9 9 年3 月9日 至 1 0日,清华大学 生物信息学研究所、 国家人类基因组北方研究中心和北京生物技术和新医药产业 促进中心共同举办了“ 北方生物信息学学术研讨会” 。1 9 9 9年4月6日,北京大 学举办了“ 国际生物信息学讲习班” 。1 9 9 9年 9月,中国获准加入人类基因组计 划 ( 负责测定人类基因组全部序列的1 % -3 号染色体上的3 0 0 0 万个碱基对) 成 为 第六个国际人类基因组计划参与国, 也是参与该计划的唯一发展中国家。 2 0 0 0 年3月,中国科学院上海生命科学研究院生物信息中心成立。2 0 0 0 年4 月,我 国科学家按照国际人类基因组计划的部署, 完成了1 % 人类基因组的工作框架图。 2 0 0 1 年 1 0月1 2日由中国科学家独立完成的水稻基因组“ 工作框架图” 和数据库 公布,“ 它标志着我国己经成为继美国之后世界上第二个具有独立完成大规模的 全基因组测序和组装分析能力的国家,o 2 . 1 . 4 生物信息学在水稻研究中的应用 1 9 9 8 年, 日 本、 美国、 中国等1 0 个国 家和地区 协作的国际水稻基因组测序计 划 ( i r g s p ) 正式启 动 , 中国 承担第4 染 色体的测序工作 , 至2 0 0 2 年6 月1 7 日 , 水稻 全基因组测序己经完成了 3 6 3 .4 0 m b , 约占全水稻基因组的 8 4 .3 % ( h tt p : / / w w w .t i g r .o r g / td b / e 2 k l / o s a l b a c m a p - p in g / d e s c r ip t i o n .s h tm i) , 利用生 物信息 学提供 的技术平台及分析技术对己测定序列进行分析, 加速了水稻基因组及功能基因组 研究进程。 随着互联网的迅速发展,可以利用的水稻生物信息资源非常丰富, 生物数据 库的 容量不断 增大, 各种新应用软件不断出 现, 利用现有的网 络资源在分离水稻新 基因、 水稻基因组分析、 基因功能注释及调控的研究中将发挥巨大作用。 生物学 家们经常会各个资源网站里进行数据交流和研究,从而使得这些生物信息资源 ( 见表2 . 1 ) 得以 不断的丰富和完善。 在这些网络资源中, 各个不同的站点各具特色。r g p提供日 本水稻基因组研 究及r r g s p 有关基因组测序的详细情况及最新进展, 其中i n e数据库整合了已公 上海师范大学硕士学位论文 年3 月, 北京大学生物信息学中 心成立。 中国科学院于1 9 9 7 年9 月和1 2 月召开 了第8 0 . 8 7 次香山会议,首次邀请有关专家对该领域进展进行探讨,主题分别 为“ d n a芯片的现状与未来” 和“ 生物信息学” 。1 9 9 8年,中国人类基因组研究北 方中心 ( 北京) 和南方中心 ( 上海)成立。1 9 9 9 年3 月9日 至 1 0日,清华大学 生物信息学研究所、 国家人类基因组北方研究中心和北京生物技术和新医药产业 促进中心共同举办了“ 北方生物信息学学术研讨会” 。1 9 9 9年4月6日,北京大 学举办了“ 国际生物信息学讲习班” 。1 9 9 9年 9月,中国获准加入人类基因组计 划 ( 负责测定人类基因组全部序列的1 % -3 号染色体上的3 0 0 0 万个碱基对) 成 为 第六个国际人类基因组计划参与国, 也是参与该计划的唯一发展中国家。 2 0 0 0 年3月,中国科学院上海生命科学研究院生物信息中心成立。2 0 0 0 年4 月,我 国科学家按照国际人类基因组计划的部署, 完成了1 % 人类基因组的工作框架图。 2 0 0 1 年 1 0月1 2日由中国科学家独立完成的水稻基因组“ 工作框架图” 和数据库 公布,“ 它标志着我国己经成为继美国之后世界上第二个具有独立完成大规模的 全基因组测序和组装分析能力的国家,o 2 . 1 . 4 生物信息学在水稻研究中的应用 1 9 9 8 年, 日 本、 美国、 中国等1 0 个国 家和地区 协作的国际水稻基因组测序计 划 ( i r g s p ) 正式启 动 , 中国 承担第4 染 色体的测序工作 , 至2 0 0 2 年6 月1 7 日 , 水稻 全基因组测序己经完成了 3 6 3 .4 0 m b , 约占全水稻基因组的 8 4 .3 % ( h tt p : / / w w w .t i g r .o r g / td b / e 2 k l / o s a l b a c m a p - p in g / d e s c r ip t i o n .s h tm i) , 利用生 物信息 学提供 的技术平台及分析技术对己测定序列进行分析, 加速了水稻基因组及功能基因组 研究进程。 随着互联网的迅速发展,可以利用的水稻生物信息资源非常丰富, 生物数据 库的 容量不断 增大, 各种新应用软件不断出 现, 利用现有的网 络资源在分离水稻新 基因、 水稻基因组分析、 基因功能注释及调控的研究中将发挥巨大作用。 生物学 家们经常会各个资源网站里进行数据交流和研究,从而使得这些生物信息资源 ( 见表2 . 1 ) 得以 不断的丰富和完善。 在这些网络资源中, 各个不同的站点各具特色。r g p提供日 本水稻基因组研 究及r r g s p 有关基因组测序的详细情况及最新进展, 其中i n e数据库整合了已公 上海师范大学硕士学位论文 布的 遗传信息并使之与核酸序列相联系, 该数据库提供高密度的遗传图谱和物理 图 谱信息, 已 发布3 2 6 7 个水稻分子标记, 还对部分序列进行了 功能注释。 新开发的 r i c e h m m基因预测软件应用隐马尔科夫模型对已测序的基因组序列进行基因结 构预测, 其r i c e g a a s 专门 用于水稻基因组注释, 整合了预测编码区、 r n a剪切位 点预测、 同 源分析、 t r n a预测等各种软件,, r g p 应用该软件对水稻基因组部分已 公 布的 序列 进行功能 注释 2 4 o t i g r构建的水 稻重复序列 数据库搜集了 水 稻基 因组的重复序列, 编辑和鉴定重复序列及移动因子, 并对水稻中已 鉴别的重复 类型 进行分类和功能注释, 其水稻基因组注释数据库刚开始构建, 是进行水稻基因组注 释的专门数据库。 表2 . 1互联网上的生物资源 名称 n a m e网址 n e t w o r k g e n b a n k h t t p : / / w w w .n c b i .n l m .n i h .g o v / g e n b a n k / e mb l h t t p : / / w w w .e b i .a c .u k / e m b l / d d b j h t t p : / / w w w . d d b j .n i g .a c .j p / p d b h t t p : / / w w w .r e s b .o r g l p d b / s wi s s p r o t h t t p : / / w w w . e x p a s y . c h / s p r o t/ t a i r d b h t t p : / / w w w . a r a b i d o p s i s .o 呵 r i c e g e n e h t t p : / / g e n o m e . c o m e l l .e d u / r i c e / o r y z a b a s e h t t p : / / w w w .s h i g e n .n i g . a c .j p / r i c e / o r y z a b c r o p n e t h t t p : / / s y n t e n y .n o t t .a c . u k / mo n s a n t o r i c e - r e s e a r c h h t tp : / / w w w .r i c e - r e s e a r c h .o r g / i r r i h t t p : / / w w w . c g ia r .o r g l i r r i/ r g p h t t p : / / r g p .d n a . a f f r e .g o .j p / n c r g h t t p : / / w w w .n e g r .a c .e n / k r h t t p : / / b i o s e r v e r . m y o n 自 i . a c . k r t i g r h t t p : / / w w w .t i g r .o r g l t d b / r i c e / 上海师范大学硕士学位论文 第三章 水稻全基因数据库的建立 3 . 1水稻全基因d n a多态性数据库的设计 3 . 1 . 1 数据库的设计说明 考虑到多态性信息数据并不是频繁的输入输出到数据库, 并在构
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025心血管医疗器械区域代理分销合作协议范本
- 2025年大型商用太阳能热水系统施工与定期保养协议
- 2025年度高端建筑玻璃钢装饰工程资质审核与施工服务合同
- 2025年度财务部门绩效评估与改进策略合同
- 2025年度租赁托管厂房合同不可抗力条款及解决方案
- 2025年有机蔬菜加工代工合作框架协议
- 2025年茶叶品牌形象重塑与包装设计合作协议
- 2025年度宅基地房屋交易合同附相邻关系及争议调解方案
- 2025年度智慧车库租赁市场开发与广告投放服务合同
- 2025年国际白灰产品供应链管理服务合同模板
- 纪念西路军课件
- 一年级书法教学设计方案
- 小朋友个人卫生课件
- 校园食堂安全知识培训课件
- 抗洪抢险课件讲稿
- 2025年视觉传达设计师职业能力考试试题及答案解析
- 2025年公务员考试时事政治试卷(考点梳理)附答案详解
- 2025年法检系统书记员招聘考试(书记员知识+综合知识+行测+申论)历年参考题库含答案详解(5套)
- 饮料厂合作合同协议书模板
- 抵押贷款评估方案(3篇)
- 甘肃教辅管理办法
评论
0/150
提交评论