(应用数学专业论文)基于特征序列和cgr方法对rh血型基因特征的研究.pdf_第1页
(应用数学专业论文)基于特征序列和cgr方法对rh血型基因特征的研究.pdf_第2页
(应用数学专业论文)基于特征序列和cgr方法对rh血型基因特征的研究.pdf_第3页
(应用数学专业论文)基于特征序列和cgr方法对rh血型基因特征的研究.pdf_第4页
(应用数学专业论文)基于特征序列和cgr方法对rh血型基因特征的研究.pdf_第5页
已阅读5页,还剩47页未读 继续免费阅读

(应用数学专业论文)基于特征序列和cgr方法对rh血型基因特征的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 r h 血型系统作为人类最复杂的血型系统之一,其临床意义仅次于a b o 血型系统。 在临床输血实践中因a b o 、r h 血型不合的妊娠或输血可发生输血反应和新生儿溶血病。 本文的主要工作包括以下几个方面: l 、根据钆t ,c ,g 的化学结构分类,给出了d n a 序列的特征序列概念( 盯一,f 一和 钾一) 并推广到蛋白质序列中,从而给出一种数值刻划,将蛋白质序列简化成一个( o , 1 ) 序列,并且应用到1 8 条三种结构( 口螺旋类,折叠类,筇类) 的蛋白质序列中, 得到了不同结构蛋白质序列的一些二级结构的信息。从另一种角度出发,根据氨基酸分 子量与简并度的相关性,给出了d n a 序列的特征序列概念( 国) 并推广到蛋白质序列 中,通过数值刻划,将蛋白质序列简化成一个( o ,l ,2 ) 序列,通过比较特征序列的 数值刻划图,得出r h d 基因和r h c e 基因均偏爱使用低分子量且高简并度的氨基酸。 2 、利用基于经典h p 模型的蛋白质序列的混沌游走( c h a o sg a m er e p r e s e n t a t i o n ,简 称c g r ) 的方法,给出了r h d 基因的蛋白质序列的c g r 图,可作为蛋白质序列的二级 结构的一个特征图谱描述,同时给出了r h d 基因的d n a 序列的c g r 图,并且计算出 了r h d 基因的相应的马尔可夫两步转移概率矩阵,从而得到r h d 基因对编码氨基酸的 三联子的第三个碱基的使用偏好性。 3 、利用一种新的氨基酸编码方法:拟氨基酸编码方法,计算了基于拟氨基酸编码 方法下的7 8 个人类基因的同义密码子的相对使用度,结果表明这些特征不但与石秀凡 等人的研究结果一致,而且更为明显。进而说明拟氨基酸编码方法更具合理性和科学性。 在此基础上,计算了人类r h 血型系统中r h d 基因基于拟氨基酸编码方法下的同义密码 子相对使用度( q r s c u ) ,以及q r f n 3 ,得出了r h d 基因对密码子的偏好使用性以及 后面所接碱基的偏好性。 本论文的创新点为: l 、提出了一种新的特征序列( 国特征序列) 。 2 、利用一种新的氨基酸编码方法:拟氨基酸编码方法,将所建立的q r s c u ,应用 于r h 血型系统研究。 关键词:生物信息学:r h 血型系统;特征序列;混沌游走:经典h p 模型;拟氨基酸编 码 a b s t r a c t a b s t r a c t t h er hb l o o dt y p es y s t e mi so n eo ft h em o s tc o m p l e xo ft h ek n o w nh u m a nb l o o dt y p e s y s t e m ,t h ec l i n i c a ls i g n i f i c a n to fw h i c hi so n l yn e x tt ot h ea b o b l o o dt y p es y s t e m i tc a n c a u s et r a n s f u s i o nr e a c t i o na n dh e m o l y t i cd i s e a s eo ft h ef e y u sa n dn e w b o m ( h d n ) b e c a u s eo f t h ep r e g n a n c yo rb l o o dt r a n s f u s i o no fa b o ,r hb l o o dt y p ei n c o m p a t i b i l i t yi nc l i n i c a lp r a c t i c e o fb l o o dt r a n s f u s i o n t h em a i nc o n t e n t sa r el i s t e da sf o l l o w s : 1 a c c o r d i n gt ot h ec h e m i c a ls t r u c t u r ec l a s s i f i c a t i o no fa ,t ,ca n dg ,t h e s ec o n c e p t so f 仃一f a n d 仃7 一c h a r a c t e r i s t i cs e q u e n c e sh a v eb e e np r e s e n t e da n dp r o m o t e di n t op r o t e i n s e q u e n c e ,f u r t h e r m o r e ,t h eg r a p hr e p r e s e n t a t i o ni si n t r o d u c e d ,a n dp r o t e i ns e q u e n c ei s s i m p l i f i e dt ob e ( 0 ,1 ) s e q u e n c e ,t h e s ec h a r a c t e r i s t i cs e q u e n c e s a r ea p p l i e dt o18p r o t e i n s e q u e n c e so ft h r e ed i f f e r e n tk i n d so fs t r u c t u r e ( 口h e l i x ,p u c k e r , 筇) ,s ow eo b t a i ns o m e s t r u c t u r a lc h a r a c t e r i s t i co fp r o t e i n s e q u e n c e so fd i f f e r e n ts t r u c t u r e f r o ma n o t h e rp o i n to fv i e w , a c c o r d i n gt ot h er e l a t i o no ft h em o l e c u l a rw e i g h ta n dd e g e n e r a c yo ft h ea m i n oa c i d s ,a n o t h e r c o n c e p to fd n a c h a r a c t e r i s t i cs e q u e n c e s ( c o - ) i sp r e s e n t e d ,a n dp r o m o t e di n t o p r o t e i n s e q u e n c e ,f u r t h e r m o r e ,t h r o u g ht h eg r a p hr e p r e s e n t a t i o n ,p r o t e i ns e q u e n c ei ss i m p l i f i e dt ob e ( 0 ,1 ,2 ) s e q u e n c e ,w ec a nk n o wt h a tb o t hr h da n dr h c eg e n e sa l lp r e f e rt ou s et h ea m i n o a c i d sw i t hs m a l lm o l e c u l a rw e i g h ta n dh i g hd e g e n e r a c y ,b y c o m p a r i n g t h e g r a p h r e p r e s e n t a t i o no ft h er h d a n dr h c ec h a r a c t e r i s t i cs e q u e n c e s 2 t h i sp a p e ru s et h ec h a o sg a m er e p r e s e n t a t i o n ( c g r ) o fp r o t e i ns e q u e n c e sb a s e do n t h ed e t a i n e dh pm o d e l ,i tg i v e st h ec g ro ft h ep r o t e i ns e q u e n c e so fr h d g e n e ,w h i c hc a nb e r e g a r d e da sc h a r a c t e r sm a po ft h ep r o t e i n ss e c o n d a r ys t r u c t u r eo fr h dg e n e t h i sp a p e rs t i l l g i v e st h ec g r o ft h ed n a s e q u e n c e so fr h dg e n e ,i ta l s oc o m p u t et h ec o r r e s p o n d i n g p r o b a b i l i t ym a t r i xf o r t h es e c o n d - o r d e rm a r k o vc h a i nm o d e l f r o mt h ep r o b a b i l i t ym a t r i x ,w e c a ns e et h eu s a g ep r e f e r e n c et h a tt h et h i r db a s eo ft h ec o d o n si nt h ed n a s e q u e n c eo ft h e r h d g e n e 3 t h i sp a p e ru s ea n o t h e rg e n o m i cg e n e t i cc o d e s :q u a s i a m i n oa c i d sc o d i n g t h er e s u l to f t h er e l a t i v eu s a g ed e g r e eo f7 8h u m a ng e n e sb a s e do nt h eq u a s i - a m i n oa c i d sc o d i n gi n d i c a t e s t h a tt h e s ec h a r a c t e r i s t i ci sn o to n l yc o n s i s t e n tw i t ht h er e s u l to fs h ix i u f a ne ta lb u tm o r e o b v i o u s ,w h i c hs h o wt h a tt h eq u a s i a m i n oa c i d sc o d i n gi sm o r er a t i o n a la n ds c i e n t i f i c i ta l s o c o m p u t et h ep r e f e r e n c ea n dt h eq r f n 3 o fs y n o n y m yc o d o nb a s e do nq u a s i a m i n oa c i d s c o d i n go fr h dg e n e ,w eo b t a i nt h ep r e f e r e n c et ot h es y n o n y m yc o d o no fr h dg e n ea n dt h e p r e f e r e n c et ot h eb a s eb e h i n dt h es y n o n y m yc o d o n t h ej n n o v a t i o n sa r ei i s t e da sf o l l o w s : i i a b s t r a e t 1 p r o p o s i n gan e w k i n do fc h a r a c t e r i s t i cs e q u e n c e ( 国一) 2 p r o p o s i n gan e w k i n do fg e n o m i cg e n e t i cc o d e s :q u a s i - a m i n oa c i d sc o d i n g ,g i v eo u t q r s c u a n du s ei tt or e s e a r c ho nt h er hb l o o d t y p es y s t e m k e y w o r d s :b i o i n f o r m a t i c s ;r hb l o o dt y p es y s t e m ;c h a r a c t e r i s t i cs e q u e n c e ;c h a o sg a m er e p r - e s e n t a t i o n ;d e t a i l e dh pm o d e l ;q u a s i - a m i n oa c i d sc o d i n g i i i 独创性声明 本人声明所呈交的学位论文是拳人在导师指导下进行的研究工作及取 得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文 中不包含其他人已经发表或撰写过的研究成果,也不包含本人为获得江南 大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志 对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。 关于论文使用授权的说明 本学位论文作者完全了解江南大学有关保留、使用学位论文的规定: 江南大学有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允 许论文被查阅和借阅,可以将学位论文的全部或部分内容编入有关数据库 进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文, 并且本人电子文档的内容和纸质论文的内容相一致。 保密的学位论文在解密后也遵守此规定。 签 名:舀宣 导师签名: 第一章绪论 1 1 生物信息学简介 第一章绪论 i i 1 生物信息学背景 人类为了更深入的了解和认识自身,制定了宏伟的人类基因组计划。人类基因组计 划的顺利实施,产生了大量的生物分子数据。这些生物数据具有丰富的内涵,其背后隐 藏着人类目前尚不知道的生物学知识。充分利用这些数据,通过数据分析、处理,揭示 这些数据的内涵,从而得到对人类有用的信息,是生物学家、数学家和计算机科学家所 面临的一个严峻的挑战,生物信息学( b i o i n f o r m a t i c s ) 就是为了迎接这种挑战而逐渐兴 起的一门新兴的交叉学科【l 】,它所研究的材料是生物学数据,而它进行研究所采用的方 法,则是从各种计算技术衍生出来的( 2 l 。 生物信息学包含了生物学( 生物化学、遗传学、结构生物学等) 、计算机科学( 计算理 论、人工智能、机器学习以及动态规划等) 、物理化学( 热力学、分子建模等) 及数学( 算 法、建模技术、概率论与数理统计等) 等方面的知识1 3 】。生物信息学的研究领域包括基因 组学、蛋白质组学、生物化学、数据挖掘、分子进化、分子建模以及算法等1 3 4 1 。 生物信息学从字面上看是由“生物”和“信息”两部分组成。“生物”部分一般指 的是分子生物学,包括进化论和遗传学;“信息”部分指的是计算机科学1 3 5 1 。l u s c o m b e 在2 0 0 1 年给出了明确的定义:“生物信息学是根据分子( 从物理化学的角度) 和信息技 术( 源自应用数学、计算机科学和统计学的原则) 的应用来理解和组织与这些分子相关 的大规模的信息,即生物信息学是分子生物学的信息管理系统和诸多实践上的应用”1 6 1 。 图1 1 给出了生物信息学产生的过程。 图i - l 生物信息学产生的过程 f i g 1 1t h ep r o c e s so fb i o i n f o r m a t i c sg e n e r a t e d 1 1 2 生物信息学的研究内容 生物信息学作为- - f 7 交叉学科,目标就是要发展和利用先进的计算机技术解决生物 问题 7 8 】。生物信息学是把d n a 序列信息分析作为源头,找到基因组序列中代表蛋白质 1 坚堕盔堂堡堂垡笙壅 和r n a 基因的编码区;同时,阐明基因组中大量的非编码区的信息实质,破译隐藏在 d n a 序列中的遗传语言规律;进而归纳、整理与基因组遗传信息释放及其调控相关的 转录谱和蛋白质谱的数据,从而认识代谢、发育、分化、进化的规律【2 1 。目前,生物信 息学研究的内容可分为1 3 9 j : ( 1 ) 生物信息的存储与获取 生物学数据正飞速增长,如何存储与获取这些数据成为研究者交流合作、使用公用资源、 更正或优化相关内容的的重要条件,目前研究者在不断尝试新技术,如x m l 技术具有 易使用易扩展等特点,用于处理具有收集地域广、数据量大、采集标本变化大、数据复 杂等性质的生物数据。 ( 2 ) 序列比对 序列比对是符号序列按一定的的标准对齐,它是生物信息学的基本操作,应用于生物信 息学的大部分内容中。序列比对既比较序列形式的差异,又给不同的序列找联系。如两 个字母序列,序列l 是“t g c g g a g c t g g a a t c a g c g c g a t g a t c ”序列2 是 “t c g g a g c g g a a l a g c g g c g a t g a t c ”,如果只比较序列形式差异,结果如下: 两个序列仅有三个位置上的字母是一样的。然而实际中不是这样比较,一般是先假设这 两个序列来自于一个祖先序列,经过不同变化“一”如有些位置的字母丢失或插入字母, 最后两个序列变成现在这样了。因此,在比对时尽量让不同序列在相同的位置上有相同 或合适的字母,则比对结果如下: 在序列1 的第1 9 个位置、序列2 的第2 和第9 个位置加上空格“”,则这两个序列就 有2 5 个位置的字母是一样的。然而什么样的假设才是最合适的? 相同位置有相同字母 是否说明这个一定没有经历字母变化? 这些问题的答案都会随着生物信息学的发展而 不断改变。 ( 3 ) 测序与拼接 生物大分子,如核酸与蛋白质的测序过程由始至终贯穿着生物信息学方法。现在用的最 多的测序策略主要有两种:一种是将全基因组打断成大的d n a 序列,然后将大的d n a 序列打断成较小的d n a 序列,这样重复几次最后得到可由d n a 自动测序仪直接测序 的小d n a 片段;另一种测序策略是全基因组鸟枪法,即一次将全基因组打断成可以直 2 第一苹绪论 接测定的片段,这种方法对拼接技术的要求很高。拼接是将打碎已测出序列的片段按顺 序连接还原出原来的全长序列的工序。 ( 4 ) 基因预测 基因是决定生物遗传性状的单位,确定基因不仅对现代生物学或医学的发展有重要意 义,而且对研究传统技术也有作用。如在中草药研究中,中草药的生长与药性在遗传上 受基因控制,有些生物活性物质含量极微但他们有比较明显的药理效应,合理的解释或 许要借助生物工程技术与生物信息学的手段。运用数学与计算机发展的基因测序方法在 一定程度上为解决这一问题提供重要的帮助。然而生物实验资料不足以涵盖所有基因产 生的情况以及基因结构,内部排列的多样性,致使出现多种基因预测方法,不同的方法 结果差异可能很大,或者特定的方法只对特定种类的基因预测有效。国外,麻省理工学 院的c h r i s t o p h e rb u r g e 基于高阶马尔可夫过程而设计的g e n s c a n 基因预测程序是目前 使用较多的免费软件。国内,天津大学的张春霆用z 曲线模型估算酵母的蛋白质编码基 因,有较高的精确度,然而这些远远不够,基因预测技术仍需要不断发展。 ( 5 ) 生物进化与系统发育分析 不同生物种类之间的差异,可以最终理解为核酸序列的差异、核酸序列表达的差异、蛋 白质序列的差异及蛋白质结构的差异。生物种属和功能之间的差异,未必可以在某段核 酸序列或蛋白质序列中反映出来,通过全基因组的比较进行系统发育分析将是一种可靠 的方法,不过从现在人们的计算能力看,寻找特异的序列片段并运用合适的数学方法去 分析生物的系统发育会更现实。 ( 6 ) 蛋白质结构预测 生物的各项生理活动及各种分类性状都直接或间接地与蛋白质相关,蛋白质功能与其结 构有着密切的联系。因此,如何获得蛋白质的结构是蛋白质研究的重要课题。目前测定 蛋白质结构的实验手段主要是x 射线晶体衍射与核磁共振方法。这两种方法也只能测有 特定性质蛋白质的结构,因此,蛋白质结构预测技术成为目前生物信息学研究的一个重 点。 ( 7 ) r n a 结构预测 r n a 是重要的生物大分子,联系着从d n a 活动到蛋白质出现的生理过程。然而,研究 中发现r n a 序列分析比d n a 序列分析与蛋白质序列分析更为复杂。r n a 的结构决定 r n a 分子的j 下常功能,t r n a 的三叶草结构保证其作为翻译过程中的重要物质,r r n a 的机构保障核糖体功能的发挥,m r n a 的结构对基因表达与表达调控起关键作用。目酊 对r n a 结构的预测主要是二级结构的预测,离了解r n a 参与的生物学过程还很远。 ( 8 ) 分子设计及药物设计 一种新药的上市一般包括先导药物的产生、活性实验、毒理实验、临床试验等多个阶段。 生物信息学可在先导药物结构的产生和优化、新药结构的衍生等阶段发挥作用。药物作 用的靶点往往是生物大分子如蛋白质、核酸、多糖中的某些结构,因此分析这些分子的 结构对药物的筛选有决定性的影响。生物体内测试是药物产生过程的必经之路,在正式 实验前如能在计算机上用药物与虚拟生命相互作用或许会使正式的实验室实验或临床 江南大学硕七学位论文 实验更顺利,药理作用的模拟分析、虚拟生命程序的开发将为药物设计提供更合理的方 案。 ( 9 ) 代谢网络分析 生命的维持与繁衍依赖于生物的代谢过程和体内外调控,体内大部分调控过程都是以基 因表达为基础。活体细胞活动实际是各种基因表达的网络连接与维持过程,直至细胞被 分裂成不同的主体,部分网络连接才告终结。在较充足的生命代谢资料的情况下,可以 在计算机中模拟生命在分子水平上的部分生理过程。 ( 1 0 ) 生物芯片 生物学的进一步发展将会广泛利用生物芯片,因为生物芯片带来的生物信息蕴藏着生物 学结构与功能的内在联系。生物芯片的核心原理就是通过与探针的特异性组合或杂交检 出目标生物大分子。生物体基因定量表达是目前生物芯片研究最多的内容,计算机技术 与数学方法保证了生物芯片研究过程的顺利进行,如生物芯片的设计、结果的可视化处 理、数据定量、数据挖掘与建模等都用到多种计算机软件,不断改进的实验反应控制条 件及生物信息学软件使芯片数据越来越可靠。 ( 1 1 ) d n a 计算 d n a 计算是用分子生物学方法解决数学问题,是生物学与信息科学相结合的新产物。 目前,用d n a 计算方法解决简单的数学问题费时费力,不过用它解决一些复杂的数学 难题却是现有计算机不能做到的。如d e s 加密系统是目前信息安全方面最保险的技术, 有研究者用大规模的计算机网络耗时9 6 天破译了有1 2 8 位的d e s 密匙,而斯坦福大学 的学者充分准备了不到l 升的d n a 溶液后,用l 天的时间就破解了d e s 加密系统。当 然,现阶段的d n a 计算的方法、生物学操作、正确率等方面还有很多问题,这就需要 生物学、数学、计算机科学更深入的合作。 1 1 3 生物信息学的研究现状及发展趋势 生物信息学在理论上促进了生物学( 特别是分子生物学) 的发展,使人类对生命本 质的认识更加深刻。应用方面,生物信息学促进了人类基因组的研究,已成为生物工程、 生物医药产业和高科技农业的巨大推动力,今后还将在功能基因组学研究和蛋白质组学 研究中发挥其突出作用。生物信息学在人类基因组中大规模测序的自动化控制、测序结 果分析、序列数据的计算机管理、各类遗传图谱及物理图谱的绘制、数据的网络获取和 分析等方面都发挥着不可替代的功能。但是,目前生物信息学的发展已经向功能基因组 学发展,向蛋白质组学发展【l 】。 国际上一些发达国家成立了生物信息中心,如美国的国家生物技术信息中心、国家 基因组资源中心,英国的欧洲生物信息研究所,日本的国家遗传学研究所等。其中,以 欧洲各国为主的欧洲分子生物网络组织是目前国际上最大的分子生物信息研究、开发、 服务机构。e m b n e t ( e u r o p e a nm o l e c u l a rb i o l o g yn e t w o r k ) 已经连接了2 2 个国家节点和8 个大型生物计算中心,成为最大的生物信息学网络【。 目f j 生物信息学主要的数据库主要有以下几类1 1 , 2 , 9 1 : 4 第一苹绪论 ( 1 ) 核酸序列数据库:美国生物技术信息中心( n c b i ) 的 g e n b a n k ( h t t p :w w w n c b i n l m n i h g o v w e b g e n b a n k i n d e x h t m l ) 、欧洲分子生物学实验室 的e m b l b a n k 简称e m b l ( h t t p :w w w e b i a c u k e m b l i n d e x h t m l ) 、日本遗传研究所的 d d b j ( h t t p :w w w d d b j n i g a c i p ) 。 ( 2 ) 蛋白质序列数据库:蛋白质信息资源数据库 ( p l r ) ( h t t p :w w w n b r f g e o r g e t o w n e d u p i r ) 、由g e n e v a 大学和欧洲生物信息研究所( e b i ) 联合建立的( s w i s s p r o t ) ( h t t p :w w w e b i a c u k s w i s s p r o t ) 、计算机注释的蛋白质序列 数据库,作为s w i s s p r o t 数据库的补充t r e m b l ( h t t p :w w w e b i a c u k t r e m b l i n d e x h t m l ) , 目| j ,欧洲生物信息学研究所e b i 将上述3 个数据库统一起来,建立了一个蛋白质数据 仓库u n i p r o t ( h t t p :w w w e b i a c u k u n i p r o t i n d e x h t m l ) 。u n i p r o t 包含了3 个部分:( a ) u n i p r o tk n o w l e d g e b a s e ( u n i p r o t ) ,蛋白质序列、功能、分类、交叉引用等信息存取中心。 ( b ) u n i p r o tn o n r e d u n d a n tr e f e r e n c e ( u n i r e f ) 数据库,将密切相关的蛋白质序列组合到 一条记录中,提高搜索速度。( c ) u n i p r o ta r c h i v e ( u n i p a r c ) 是一个资源库,记录所有蛋 白质序列的历史。 ( 3 ) 蛋白质结构数据库:p d b 数据库( p r o t e i nd a t eb a n k ,h t t p :w w w r c s b o r g p d b ) , 目前,p d b 数据库是最主要的蛋白质分子结构数据库。 ( 4 ) 蛋白质结构分类数据库:s c o p 数据库( s t r u c t u r a lc l a s s i f i c a t i o no fp r o t e i n s , h t t p :s c o p m r c - l m b c a m a c u k s c o p ) ,该数据库提供关于已知结构蛋白质之间的结构和 进化关系。 ( 5 ) 蛋白质同源序列比对数据库:h s s p ( h o m e l o g y d e r i v e ds e c o n d a r ys t r u c t u r eo f p r o t e i n ,h t t p :w w w s a n d e r e m b l - h e i d e l b e r g d e h s s p ) 。 目i j i 我国生物信息数据资源和分析软件多半都是来自国外,依靠国外生物信息中心 建立中国数据镜像中心。北京大学在1 9 9 7 年3 月成立生物信息学中心,中科院上海生 命科学研究院于2 0 0 0 年3 月成立了生物信息学中心,分别维护着国内两个专业水平相 对较高的生物信息学网站【1 1 。 目前国内真正开展生物信息学研究和服务的机构或公司很少。中国承担并顺利完成 了人类基因组计划l 的测序任务,测序技术取得了很大进步,但在生物信息分析、基 因功能分析等方面的工作还没及时跟上。同时我国在基因预测算法、基因组信息分析、 蛋白质分子设计、分子动力学等方面还是取得了的研究成果。 1 1 4 生物信息学的应用与发展研究 理论的研究就是为了应用到实践中,因此, 工农业生产和医疗实践中去。因此,生物信息、 析和应用算法和软件,都有重要价值【引。 生物信息学的理论研究也必定要应用到 医药信息、农业信息以及相关的信息分 ( 1 ) 与疾病相关的基因信息和相关算法和软件开发 在人类知道了人类基因在染色体上的位置、它们的序列特征以及表达规律和产物 ( i 矾a 和蛋白质) 特征后,人们就可以有效地断定各种疾病的分子机制,进而发展合 江南大学硕十学位论文 适的诊断和治疗手段。这种手段不仅反应疾病的共性,而且反应不同的治病因素和治病 药物在病人个体差异基础上引起的效应。为实现这一目标,人们必须对“致病基因”有 更多的认识,因此必须发展有效地分析基因分型数据的生物信息学算法。 ( 2 ) 建立与动物、植物良种繁育相关的基因组数据库,发展分子标记辅助育种技 术 ( 3 ) 研究与发展药物设计软件和基于生物信息的分子生物学技术 1 2 生物信息学的研究对象 生物信息学的主要研究对象是生物大分子d n a ( d e o x y 曲o n u c l e i ca c i d s ) 、r n a ( r i b o n u c l e i c a c i d s ) 和蛋白质分子。它们决定了一切生命的外在形状,所具有的能力,以 及他们的后代【2 , 1 0 - 1 2 】。图1 2 给出了三者之间的关系【1 , 1 3 , 1 4 1 。 图1 - 2 遗传信息传递的中心法则 f i g 1 - 2g e n e t i cc e n t r a ld o g m a 遗传中心法则是指遗传信息从d n a 传递给r n a ,再从r n a 传递给蛋白质的转录 和翻译的过程,以及遗传信息从d n a 传递给d n a 的复制过程。这是所有有细胞结构 的生物所遵循的法贝j j t 2 , 1 0 , h 】。简单的说就是描述从一个基因( d n a 链上的某一部分) 到 相应蛋白质的信息流的途径【2 , 1 0 , 1 1 】。 结构决定功能,因此要了解生物大分子的功能首先要认识它们的结构。 1 2 1 遗传信息载体d n a d n a ( 脱氧核糖核酸,d e o x y r i b o n u c l e i ca c i d ) 是遗传物质【1 4 1 ,包含了所有的遗传信 息,在生命体系中占据十分重要的地位。除了r n a 和噬菌体外,d n a 是所有生物的遗 传物质基 i 出 2 , 8 , 1 1 , 1 5 , 1 6 】。d n a 最重要的作用在于它可以编码大量的各种各样的蛋白质。 d n a 所包含的信息并不立即影响细胞,只有当它用来指导蛋白质的合成时,它才能确 定细胞的化学特性和物理特性【2 ,8 ,1 5 ,1 6 】。d n a 序列包括编码区和非编码区,其中用于编 码蛋白质的区域大约只占所有d n a 序列的5 左右【2 , 8 , 1 1 , 1 5 , 1 6 】。随着生物序列数据库的不 断增大,揭示这些生物序列所包含的信息已经成为生物序列研究的一个重要课题【l 。 1 9 5 3 年,w a t s o n 和c r i c k 提出了d n a 双螺旋结构模型,由此揭开了分子生物学研 究的序幕【l 】。生物的绝大部分遗传信息存储于d n a 序列中,核苷酸的不同排列顺序决 定了生物体的多样化【l 】。因此我们要了解d n a 的生物学功能需要研究d n a 的一级结构。 6 第一苹绪论 d n a 是由脱氧核糖和碱基构成的,其中脱氧核糖是有5 个碳原子的糖类,碱基有4 种,包括:胞嘧啶( c y t o s i n e ,简称c ) 、胸腺嘧啶( t h y m i n e ,简称t ) 、腺嘌呤( a d e n i n e , 简称a ) 、鸟嘌呤( g u a n i n e ,简称g ) ! , 2 , 6 - 1 1 , 1 4 】。脱氧核糖和碱基通过缩合形成核苷,糖 与碱基以糖苷键相连 9 1 。碱基之间通过氢键结合形成碱基对,但组合是固定的,即: a t , g c 1 1 , 2 , 6 - 1 1 , 1 4 】,所以在d n a 分子中腺嘌呤与胸腺嘧啶的摩尔含量相等( a = t ) ,鸟嘌 呤与胞嘧啶的摩尔含量相等( g = c ) ,并且嘌呤与嘧啶的含量相等( a + g = c + t ) f 1 1 。 d n a 是双链分子螺旋形成,而r n a 是单链分子,主要有信使r n a ( m r n a ) 、核 糖体r n a ( r r n a ) 及转运r n a ( t r n a ) 。组成上r n a 与d n a 的不同就是在d n a 中 的胸腺嘧啶( t ) 在r n a 中变成了尿嘧啶( u ) 。 1 2 2 生命的机器一一蛋白质 蛋白质是生物体内占有特殊地位的生物大分子,它是生物体的基本构件,也是生命 活动的重要物质基础,几乎一切生命现象都要通过蛋白质的结构与功能体现出来【1 1 。 氨基酸是蛋白质的基本结构单位,常见的氨基酸有2 0 种,这2 0 种氨基酸除脯氨酸 外,均可用下面通式表示【1 , 2 , 9 】。 叩2 j h e 。一c 0 0 鼬 j i r 一 表1 - 12 0 种标准氨基酸的英文简写【1 , 2 , 9 , 1 7 1 t a b 1 - 1e n g l i s ha b b r e v i a t i o no f 2 0k i n d so fa m i n oa c i d s 氨基酸名称英文缩写简写氨基酸名称英文缩写简写 甘氨酸g l yg丝氨酸 s e rs 丙氨酸 a i aa 苏氨酸 t h r t 缬氨酸 v a iv 天冬酰胺 a s nn 开冗耍l 敞 | i ei 谷酰胺 g i nq 亮氨酸 l e u l酪氨酸 t y r y 苯丙氨酸 p h ef 组氨酸 h i sh 脯氨酸 p r op 天冬氨酸a s p d 甲硫氨酸 m e tm谷氨酸g l ue 色氨酸 t r p w 赖氨酸l y s k 半胱氨酸 c y s c 精氨酸a r g r 2 0 种氨基酸按照侧链化学性质的不同可以分:极性氨基酸:s e r 、t h r 、c y s 、a s n 、 g i n 、h i s 、t y r 、t r p ;带电氨基酸:a r g 、l y s 、a s p 、g l u ;疏水性的氨基酸:a l a 、v a l 、 l e u 、i i e 、p h e 、p r o 、m e t ;含有芳香性侧链:p h e 、t y r 、t r p 、h i s ;侧链为醇或酚的氨 7 江南人学硕十学何论文 基酸:s e r 、t h r 、 r y r , 可以形成氢键的氨基酸:a r g 、l y s 、a s p 、g l u 、s e r 、t h r 、a s n 、 g i n 、h i s 、t y r 、t r p 。 然而密码子性质与其所编码的氨基酸性质存在一定的相关性3 4 1 ,从而给出了氨基酸 新的分类: ( 1 ) 大分子密码子氨基酸:k 、e 、d 、g 、w 、m 、( t e r ) ;小分子密码子氨基酸: h 、y 、c 、p 、l 、f ;混合型密码子氨基酸:n 、q 、r 、t 、a 、s 、i 、v 。 ( 2 ) 高亲水密码子氨基酸:f 、l 、p 、c 、y 、h ;低亲水密码子氨基酸:m 、g 、 q 、d 、e 、n 、k 、( t e r ) ;混合型密码子氨基酸:v 、i 、s 、a 、t 、w 、r 。 ( 3 ) 大碱基堆积力密码子氨基酸:a 、t 、c ;小碱基堆积力密码子氨基酸f 、l 、 i 、m 、w 、y 、q 、e 、k 、( t e r ) :混合型碱基堆积力密码子氨基酸:v 、s 、p 、r 、 g 、h 、d 、n 。 ( 4 ) 大刀电子共振能密码子氨基酸:m 、q 、d 、e 、n 、k 、( t e r ) :小2 电子共振 能密码子氨基酸:f 、l 、c 、w 、y ;混合型万电子共振能密码子氨基酸:v 、i 、s 、 p ,a ,t ,r ,g 、h 。 蛋白质一般分为四个层次结构,分别为一级结构、二级结构、三级结构和四级结构 1 - 3 , 6 - 7 , 9 - 1 1 】。 ( 1 ) 一级结构( p r i m a r ys t r u c t u r e ) 是指蛋白质中各个氨基酸的顺序,这是最基本 的结构,并且决定其它各层次的高级结构1 1 , 3 , 6 - 7 , 9 - 1 4 。 ( 2 ) 每一种蛋白质所特有的空间结构称为蛋白质的构象,二级结构( s e c o n d a r y s t r u c t u r e ) 就是指多肽链中有规则的重复构象,蛋白质的功能来源于构象,氨基酸的重 要性在于它规定了蛋白质的构象【l 】。二级结构主要有:口螺旋( 口- - h e l i x ) 、矽折叠( 一p l a t e ds h e e t ) 、转角( 一t u m ) 1 1 , 3 , 6 - 7 , 9 - 1 4 1 。 ( 3 ) 蛋白质的三级结构( t e r t i a r ys t r u c t u r e ) 是指多肽链借助各种相互作用力盘绕 成具有特定肽链走向的紧密球状构象 i , 3 , 6 - 7 , 9 - 1 4 】。 ( 4 ) 蛋白质的四级结构( q u a t e r n a r ys t r u c t u r e ) 是指具有三级结构的球状蛋白质通 过非共价键作用而形成的聚集体 1 , 3 , 6 - 7 , 9 - 1 4 1 。 对于蛋白质序列的研究主要就是对上述四种结构的预测。 由图1 2 的遗传中心法则可知,蛋白质的生物合成也就是遗传信息的翻译是以 m r n a 链上每3 个核菅酸决定一个氨基酸的三联体密码规则,合成出具有特定氨基酸顺 序的蛋白质肽链的过程【1 ,9 1 。 遗传密码是指三个连续的核苷酸排列顺序决定特定氨基酸的对应关系 9 1 。 表1 2 遗传密码表 t a b 1 - 2t a b l eo fg e n e t i cc o d e 8 第一章绪论 第一个核皆酸 第二个核苷酸 第三个核舒酸 ( 5 端)( 3 端) ucag uu u u 苯丙u c u 丝u a u 酪u g u 半胱u u u c 苯丙u c c 丝u a c 酪u g c 半胱c u u a 亮 u c a 丝 u a a 终止u g a 终i = a u u g 亮u c g 丝i i a g 终止 u g g 色 g cc o o 亮c c u 脯c a u 组 c g u 精 u c u c 亮c c c 腩 c a c 组 c g c 精 c c u a 亮c g a 脯c a a 谷酰c g a 精 a c o g 亮c c g 脯c a g 谷酰c g g 精g a a u u 异亮a c u 苏w 天酰a g u 丝u a u c 异亮a c e 苏a a c 大酰a g c 丝c a u a 异亮a c a 苏a a a 赖a g a 精 a a u g 甲硫a c g 苏a a g 赖a g g 精g g g u u 缬g c u 内g a u 天冬g g u 甘u g u c 缬g c c 丙g a c 天冬g g c 甘c g u a 缬g c a 内g a a 谷g g a 甘a g u g 缬g c g 丙g a g 谷g g g 甘g 1 3 人类r h 血型系统简介 基于1 1 4 节中生物信息学研究的应用与发展中第一条研究与疾病相关的基因的生 物信息,本论文对人类r h 血型系统基因的结构进行了研究。 血型( b l o o dg r o u p s ;b l o o dt y p e s ) 是以血液抗原形式表现出来的一种遗传性状。 狭义地讲,血型专指红细胞抗原在个体间的差异。但现己知道除红细胞外,在白细胞、 血小板乃至某些血浆蛋白中,个体之间也存在着抗原差异。因此,广义的血型应包括血 液各成分的抗原在个体间出现的差异。迄今为止已发现了人类有2 9 个血型系统,与临 床输血关系最为重要的是a b o 、r h 这两个血型系统。a b o 血型分为a 、b 、o 、a b 四 种血型,在人群中血型分布是a 、b 、o 三种血型各占3 0 左右,a b 型约占1 0 。r h 血型分为r h 阳性和r h 阴性,凡红细胞含d 抗原者为r h 阳性,否则为阴性,大约8 5 白种人为r h 阳性【1 8 】,其余1 5 为r h 阴性,中国人约9 9 6 为i 阳性,约0 4 为r h 阴性。 r h 血型系统作为人类最复杂的血型系统之一,发现于上世纪4 0 年代,其临床意 义

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论