




已阅读5页,还剩96页未读, 继续免费阅读
(生物医学工程专业论文)支持向量机及密码子偏性在序列识别中的应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
垄堕查兰堡圭兰堡堡苎 a b s t r a c t t i t l e s u p p o r tv e c t o rm a c h i n e a n dc o d o nu s a g ef o rs e q u e n c er e c o g n i t i o n a u t h o r z h o ut o n g s u p e r v i s o r l uz u h o n g p r o f e s s o o s c h o o l s o u t h e a s tu n i v e r s i t y w i t ht h ea c h i e v e m e n to fg e n o m ep r o j e c to fh u m a na n ds o m eo t h e rm o d e lo r g a n i s m s t h ea m o u n to f a v a i l a b l eb i o l o g i c a ld a t ai np u b l i cd a t a b a s e sg r o w sm o r ea n dm o r er a p i d l y h o wc 锄w el e a r nb i o l o g i c a l i n f o r m m i o nf r o mt h e s er a wd a t a i th a sb e e na nu r g e n tp r o b l e mi ng e n o m ep r o j e c t i n t h i sp a p e r s y n o n y m o u sc o d o nu s a g eo fg e n e si ni n f l u e n z aav i r u s e s c h l a m y d i a ea n dy e a s ti s a n a l y z e d i ti sf o u n dt h a tc o d o nu s a g ei si n f l u e n c e db ys e v e r a if a c t o r s a i t h o u g hg e n o m i cb a s ec o m p o s i t i o n a n dg e n ee x p r e s s i o nl e v e la r et h o u g h tt ob et h em o s td o m i n a n tf a c t o r sw h i c hc a l la f f e c tc o d o nu s a g e o t h e r f a c t o r ss u c ha ss t r a n d s p e c i f i cm u t a t i o n a lb i a s h y d r o p a t h yl e v e lo fc o r r e s p o n d i n gp r o t e i n g e n ef u n c t i o n a n dm e i o t i cr e c o m b i n a t i o nr a t ea r ea l s or e l a t e dt oc o d o nu s a g ev a i l a t i o n i ti sa s s u m e dt h a tc o d o nu s a g ei sa l t e r a b l ei nd i f f e r e n tr e g i o n so f ag i y e ng e n e t h es y n o n y m o u sc ol o n u s a g ei nt h et r a n s l a t i o n a li n i t i a t i o na n dt e r m i n a t i o nr e g i o n so fg e n e si n a s ta n dc o r o n a v i r u si sa n a l y z e d i ti sf o u n dt h a tm o s tm i n o rc o d o n sa r ep r e f e r e n t i a l l yu s e di nt h et r a n s l a t i o n a li n i t i a t i o nr e g i o n w h i c hi s t h o u g h tt oh a v ean e g a t i v ee f f e c to ng e n ee x p r e s s i o na n dc a nb ee x p l a i n e db yt h e m i n o rc o d o nm o d u l a t o r h y p o t h e s i s b e s i d e s m i n o rc o d o n sa r eo b s e r v e dt ob ep r e f e r e n t i a l l yu s e di nt h et e r m i n a lr e g i o n so fg e n e s i nc o r o n a v i r u s w h i c hm a ya l s or e g u l a t et h ei e v e lo f g e n ee x p r e s s i o n b a s e do nt h er e s u l to f c o d o nu s a g ea n a l y s i s s u p p o r tv e c t o rm a c h i n e s v m i sa p p l i e dt os o l v es e v e r a l h o tp r o b l e m si nb i o i n f o r m a t i c s f i r s t t h ei n f o r m a t i o no f n u c l e o t i d es e q u e n c ei sf i r s t l yu s e dt or e c o g n i z et h e f a m i l yo fg p r o t e i nc o u p l e dr e c e p t o r s w h i c hl e a d st dah i 曲p r e d i c t i o na c c u r a c y s e c o n d an o v e ls v m m e t h o di sp r e s e n t e df o rc l a s s i f i c a t i o no fm e i o t i cr e c o m b i n a t i o nh o ta n dc o l do r f sl o e a t e di nh o t s p o t sa n d c o l d s p o t sr e s p e c t i v e l yi ns a c c h a r o m y c e sc e r e v i s i a e w h i c hr e l i e so ne o d o nc o m p o s i t i o nd i f i e r e n c e s m o r e o v e r i ti sf o u n dt h a tt h e r ei sac o n s i d e r a b l ec o r r e l a t i o nb e t w e e nm e i o t i cr e c o m b i n a t i o nr a t ea n da m i n o a c i dc o m p o s i t i o no fc e r t a i nr e s i d u e s w h i c hp r o b a b l yr e f l e c t st h es t r u c t u r a la n df u n c t i o n a ld i s s i m i l a r i t y b e t w e e nt h eh o te n dc o l dg r o u p s 1 1 1 i r d t h ep r e d i c t i o no f t h eh o r i z o n t a l l yt r a n s f e r r e dg e n e si si m p r o v e db y as v mb a s e da l g o r i t h mw h i c hd e a l sw i t ht h eg e n e so nt h el e a d i n gs t r a n da n dt h el a g g i n gs t r a n ds e p a r a t e l y i na d d i t i o n as m a l li n t e r f e r i n gr n a s i r n a e f f i c a c yp r e d i c t i o na l g o r i t h mi sd e v e l o p e db yu s i n gs v m w i t hd i n u c l e o t i d ec o m p o s i t i o na ss e q u e n c ea t t r i b u t e t h i sa l g o r i t h ma c h i e v e sab e t t e rp e r f o r m a n c et h a n s e v e r a lp r e v i o u sp u b l i s h e dm e t h o d s 脚o r d s b i o i n f o r m a t i c s c o d o nu s a g e s u p p o r tv e c t o rm a c h i n e g p r o t e i nc o u p l e dr e c e p t o r m e i o t i c r e c o m b i n a t i o n h o r i z o n t a lg e n et r a n s f e r r n ai n t e r f e r e n c e i i 东南大学学位论文独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成 果 尽我所知 除了文中特别加以标注和致谢的地方外 论文中不包含其他人已经发表 或撰写过的研究成果 也不包含为获得东南大学或其它教育机构的学位或证书而使用过 的材料 与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的波明并 表示了谢意 研究生签名 东南大学学位论文使用授权声明 东南大学 中国科学技术信息研究所 国家图书馆有权保留本人所送交学位论文的 复印件和电子文档 可以采用影印 缩印或其他复制手段保存论文 本人电子文档的内 容和纸质论文的内容相一致 除在保密期内的保密论文外 允许论文被查阅和借阅 可 以公布 包括刊登 论文的全部或部分内容 论文的公布 包括刊登 授权东南大学研 究生院办理 研究生签名 第一章绪论 第一章绪论 人类在地球上已经存在了几十万年至几百万年 在人类的文明史中 人们从未停止过对生命本 原的思索和探求 尽管如此 人类真正从分子结构的角度来认识生命还是在上个世纪六十年代以后 才开始的 1 9 5 3 年w a t s o n 和c r i c k 提出了脱氧核糖核酸 d n a 的双螺旋模型 阐明了它是遗传信 息的携带者 从而开辟了现代分子生物学的新纪元 六十年代初 随着 遗传密码 的破译 人们 发现 尽管生命现象千姿百态 但生命体的本质却有着高度的一致性 行使生命功能的蛋白质都是 由2 0 种氨基酸以肽链连接而成 而编码蛋白质的d n a 分子都由4 种核苷酸以磷酸链构成 另外 遗传密码在整个生物界也基本一致 但是 生命并非只是物质的简单堆积 生物体的生长发育是在 生命信息控制之下的复杂且有序的过程 目前 我们对生命信息的组织和传递还知之甚少 这就使 得利用信息学手段对生命本原进行研究成为必要 本章的第一节将简要回顾对生命科学有极大推动 作用的人类基因组计划 在第二节中我们会对生物信息学的起源 概念的内涵与外延以及应用范围 做一详细的陈述 本章的第三节将重点介绍本论文研究课题的概况 支持向量机以及密码子使用 偏性在生物信息学中的应用 在本章的最后两节中 我们将详细介绍密码于使用偏性的概念 量化 方法和分析平台以及支持向量机的思想 算法和计算工具 1 1 人类基因组计划 1 2 6 1 遗传物质的载体是d n a 它负责遗传信息的储存和复制 基因是具有遗传效应的d n a 片段 每个d n a 分子是4 种脱氧核糖核苷酸通过磷酸二酯键连接而成的生物大分子 脱氧核糖核苷酸是由 脱氧核糖 碱基及磷酸构成 4 种脱氧核糖核营酸的区别仅在于碱基的不同 分别是a 腺膘呤 t 胸 腺嘧啶 c 胞嘧啶 g 鸟喋呤 四种碱基在不同的基因中有不同的排列顺序 但是在每个基因中 却有自己特定的排列顺序 生物体性状遗传主要是通过染色体上的基因传递给后代的 实际上就是 通过碱基的排列顺序来传递遗传信息的 人体大约有3 0 至4 0 的基因与人类疾患有关 其中有上 千个基因又与肿瘤有关 因此 发现并阐明这些基因就成为现代生命科学的重点 1 1 1h g p 产生的背景 1 7 人体细胞中d n a 的总和就是人类基因组 由大约3 2 亿碱基对组成 估计有3 4 万个基因 分 布在细胞核的2 3 对染色体上 人类基因组计划是测定人类基因组的全部d n a 序列 从而解读所有 遗传密码 揭示生命的所有奥秘 人类基因组计划最初是由美国科学家 诺贝尔奖获得者d u l b e c c o 首先提出的 美国曾投巨资进 行 肿瘤计划 其中一项重要任务就是要寻找与肿瘤有关的基因 但在研究过程中发现 几乎所有 与细胞增殖有关的基因都与肿瘤有关 d u l b e e c o 在1 9 8 6 年3 月7 日出版的 s c i e n c e 上发表了一 篇题为 肿瘤研究的一个转折点 人类基因组的全序列分析 的短文 提出包括癌症在内的人类疾病 的发生都与基因直接或间接有关 呼吁科学家们联合起来 从整体上研究人类的基因组 分析人类 基因组的序列 他说 这一计划可以与征服宇宙的计划相媲美 我们也应该以征服宇宙的气魄来进 行这一工作 d u l b e c c o 的这一倡议引起了生物 医学界的热烈讨论 历经2 年之久 1 9 8 8 年 该计划正式获 得2 7 9 0 万美元的美国国会拨款 1 9 9 0 年 美国国会批准了这一项目 并决定由美国国立卫生研究 院 n i h 和能源部 d o e 从1 9 9 0 年l o 月1 日起正式组织实施 计划耗资3 0 亿美元 历时1 5 年完成整个研究计划 人类基因组计划无论就研究规模 所费财力和社会影响 都可与曼哈顿原子弹计划 阿波罗登 东南大学博士学位论文 月计划相提并论 三者并称为人类自然科学史上的三大科学工程 1 1 2h g p 的任务 该项研究计划其晟初的目标是用1 5 年时间完成人类全部2 4 条染色体的3 1 0 脱氧核苜酸对 b a s ep a i r b p 的序列测定 破译人体遗传物质d n a 分子所携带的全部遗传信息 构建详细的人类 基因组遗传图谱 物理图谱 序列图谱和转录图谱 前三张图实际上是精确度不同的三张序列图 最后一张图则用来表示d n a 上哪些核苷酸序列可以编码蛋白质 人类基因组计划完成后 对人体乃 至生命本质的认识将有一个质的飞跃 并从分子角度解开人体生命的奥秘 解读和破译生老病死以 及语言 记忆和疾病发生的遗传信息 为现代医疗提供新手段 1 1 3h g p 的研究进展 8 9 1 0 l 1 9 9 0 年1 0 月h g p 启动后对国际生物学界 医学界以至于各国政府产生了巨大的影响 许多国 家先后加入到这一伟大的计划中来 该项研究计划目前己成为一项国际合作项目 先后有美 英 日 德 法及中国等6 个国家参加 有1 6 个实验室及1 1 0 0 名生物科学家 计算机专家和技术人员 参与 其中美国占5 4 的份额 英国占3 3 日本占7 法国约占3 德国约占2 中国占1 同时由于这一计划蕴涵着极大的经济利益 某些私营公司也投入巨资与国际h g p 展开竞争 1 9 9 8 年5 月 帕金 埃尔默这个全球最大的d n a 自动测序仪厂家 投资3 亿美元组建塞莱拉公司 声称在3 年内完成人类基因组的序列测定 目的是抢在人类基因组计划前完成 垄断人类基因组信 息 1 9 9 9 年5 月 他们又将这一目标提前一年 由于私营公司的参与 大大加快了h g p 的研究进展 1 9 9 8 年1 0 月美国国家人类基因组研究所 在 s c i e n c e 上撰文认为 h g p 的全部测序工作将提前两年 于2 0 0 3 年6 月完成 1 9 9 9 年3 月 英国韦尔科姆基金会宣布 由于科学家的努力以及技术的进步 h g p 的工作草图将于2 0 0 0 年完成 同年1 2 月1 日 国际h g p 联合研究小组宣布 他们已完成人类第2 2 号染色体的测序工作 这是人 类首次完成自身全染色体的测序工作 2 0 0 0 年4 月 塞莱拉遗传公司突然宣布已基本完成人类染色 体的全部测序工作 并可在3 6 个星期内拼接成人类基因组草图 在这种形势下 国际h g p 小组 不得不在2 0 0 0 年5 月宣布要把完成时间再提前两年 即2 0 0 1 年6 月完成 5 月8 日 由德国和日 本等国组成的国际h g p 小组宣布基本完成第2 l 号染色体的测序工作 2 0 0 0 年6 月2 2 日国际h g p 小组宣布完成人类基因组的序列组装 2 0 0 0 年6 月2 6 日 美国总统克林顿在白宫举行记者招待会 郑重宣布 经上千名科学家历经1 0 年的艰辛努力 被比喻为 生命天书 的人类基因组草图已经完成 塞莱拉公司在2 0 0 0 年6 月2 5 日完成人类基因组的序列组装 从成立塞莱拉公司起步开始剑完 成浩大的顺序工作 塞莱拉只用了2 5 个月的时间 继2 0 0 0 年6 月2 6 日科学家公布人类基因组工作框架图之后 由公众基金资助的人类基冈组计 划 h g p m 际研究集团与美国私人公司塞莱拉遗传公司联合于2 0 0 1 年2 月1 2 日发布了人类基因组图 谱 以e r i cl a n d e r 博士为首的人类基因组计划国际研究集团的研究报告发表在2 0 0 1 年2 月1 5 日 出版的 n a t u r e 杂志上 以j c r a i gv e n t e r 博士为首的塞莱拉公司的研究成果发表在同日出版的 s c i e n c e 杂志上 人类基因组图谱的发表 是生物科学发展史上一件具有里稃碑性质的大事 是继2 0 世纪初重新 发现孟德尔遗传定律 5 0 年代发现d n a 分子双螺旋结构 7 0 年代的d n a 重组技术后的又一重大 科学发现 人类朝认识自己的方向又迈了一大步 但是必须指出 h g p 是国际生物学界的一项 太空计划 是对人类智慧的一项挑战 3 1 0 个 碱基的测序 并不是h g p 的终极目标 它的终极目标应该阐明人类全部基因的位置 功能 结构 表达调控方式以及与疾病有关的结构 h g p 对医学的巨大影响只能随着科学家们逐步把它 读通 和 读懂 而显露出来 人类基因组3 1 0 9 个碱基对中所包含的群体多态性也是一个广袤无垠的领域 2 第一章绪论 所以h g p 研究成果对生命科学基础研究以及对人类社会的影响更将是长期而深远的 在人类基因组计划进行的同时 研究者们还完成了其他很多物种的基因组测序 1 9 9 6 年酵母基 因组测序完成 1 9 9 7 年大肠杆菌基因组测序完成 1 9 9 8 年结核性分枝杆菌 梅毒螺旋体 线虫基 因纽测序完成 2 0 0 0 年果蝇和拟南芥的基因组测序完成 2 0 0 2 年水稻 小鼠 疟原虫和按蚊基因 组测序完成 这些研究成果都收集在g e n b a n k 数据库中 并且无偿向世界公开 截j f n2 0 0 6 年2 月 g e n b a n k 数据库中收录的全基因组序列物种达到3 2 3 个 其中细菌2 8 0 种 古细菌2 5 种 真 核生物1 8 种 1 2 生物信息学 1 2 1 飞速增长的生物信息 2 7 生物信息包括多种数据类型 如分子序列 0 成为 s t y w x b 卜1 点 0 i 1 2 r 1 1 2 0 将目标改为求 w 固 2 i l w u 2 c 喜六最小 耳日折衷考虑最少错分样本和最大分类间隔 就得 到广义最优分类面 其中 c o 是一个常数 它控制对错分样本惩罚的稃度 广义最优分类面的对 偶问题与线性可分情况下几乎完全相同 2 只是式1 1 8 的条件变为 s t 0 a ci 1 2 n 1 2 0 以上 我们是对线性支持向量分类机进行的数学描述 其实对于线性不可分问题 v a p n i k 还引 入了核空间理论 将低维的输入空间数据通过非线性映射函数映射到高维属性空间 将分类问题转 化到高维属性空间进行 可以证明 如果选用适当的映射函数 输入空间线性不可分问题在高维属 性空间将转化为线性可分问题 见图i 6 这种非线性映射函数被称之为核函数 从理论上讲 满 足m e r c c r 条件的对称函数k x x 都可以作为核函数 引入核函数后 以上各式中向母的内积都用核 函数代替 比如式 1 8 可以变为m i n q 委窆a y y j k x x 一窆a 式1 1 9 则变为 i 卢l l l f x s i g l l 口 y k x x b 从上文我们不难看出 支持向晕机就是首先通过用内积函数定义的非线性变换将输入空闻变换 到一个高维空间 在这个空间中求得最优分类平面 具体应用支持向量机的步骤为 选择适当的核 函数一求解优化方程 获得支持向量及相应的l a g r a n g e 算子一写出最优分界面方程 本课题中 我们主要采用两种核函数 一是多项式核函数k x x x x l 9 所得剑 的是q 阶多项式分类器 线型核函数可视为多项式核函数的特例 二是径向基函数 r b f k x x e x p i i x x 1 1 2 仃2 所得分类器与传统r b f 方法的重要区别是 这里每个基函数中 1 9 东南大学博士学位论文 心对应一个支持向量 它们及输出权值都是由算法自动确定的 图1 6 可将输入空间线性不可分问题在高维属性空间将转化为线性可分问题的映射函数m 1 5 3o n e c l a s s 支持向量机 正如上 d 节我们所介绍的 标准支持向量分类机的核心思想是 对于输入空问中非线性可分 的的情形 选择一个适当的非线性映射 将输入空间中的样本点映射到一个高维的特征空间 使得 对应的样本点在该特征空间中是线性可分的 然而 标准s v m 在训练过程中要求同时使用正样本和 负样本 但是在某些应用领域 更关心一类样本 l e 样本 另外 当负样本的数量不足时会严重 影响分类器的泛化性能 将直接导致分类器的错误率太高 b e r n h a r ds c h 6 1 k o p f 等人于1 9 9 9 年提出了o n e c l a s s 支持向量机i l j 用于解决一类问题 o n e c l a s s 支持向量机的基本思想是把要描述的对象作为一个整体 建立一个封闭而紧凑的区域q 使被描述的对象全部或尽可能多地包容在q 内 而非该类对象没有或尽可能少地包含在q 内 给定一个包含n 个数据对象的数据集 x 忙1 n 即构建o n e c l a s s 分类器的学习样本 我 们试图找到一个最小体积的超球体 圆心为a 半径为r 使尽可能多的x l 都包含在该球体内 为 了减少奇异点的影响 使用松弛变量毛把奇异点排除在超球体的外面 最小化超球体的体积就是二 次规划问题 即 三 m i n r2 c e 1 一一 i l i s t 一a 2s r 2 e 1 2 2 其中毛却 并且c 是某个指定的常数 起到控制对错分样本惩罚程度的作用 以实现在错分样本的 比例和算法复杂程度之间的折中 这个优化问题的解是由下面的l a g r a n g e 泛函的鞍点给出的 其中 畦如 y 己o 为l a g r a n g e 系数 求式1 2 3 的最小值可变换为求其对偶问题的最丈值 nn l a k x x 一 伍 a k x x li l s t a l 0 a c i 1 2 n 2 0 1 2 3 1 2 4 y 一 a 舣2一x一 rn m 一 d c r l i e aarl 第一章绪论 对于一个新样本z 我w j 这样来判断它是否属于目标样本 如果如下的判别函数 睁a i 2 k z z 一2 窆a k x z na a k x r 2 i 1 t l 成立 则判断样本z 属于目标样本 即接受其为该类 否则判断为非目标样本 拒绝接受 1 5 4 支持向量机计算平台 1 5 4 1s v m i 出 我们主要使用由j o a c h i m s 等人开发的支持向量机软件包一s v m o l h t t p s v m l i g i n t i o a c h i m s o r g 对样本数据进行训练学习以及分类预测 该软件包主要包括两个软件 工具 s v m l e a m 用于对训练样本进行学习 训练分类器 s v m c l a s s i f y 用于对测试样本进行分 类 s v m l g l l l 6 叭的使用流稗如图1 7 所示 1 5 4 2l i b s v m 图1 7 支持向量机工作流稃图 l i b s v m 是由台湾大学资讯系林智仁教授开发的 h t t p w w w c s i e n t u e d u t w c j l i n l i b s v m l i b s v m 不但提供了编译好的可在w i n d o w s 系列系统的执行文件 还提供了源代码 方便改进 修 改以及在其它操作系统上应用 该软件还有一个特点 就是对s v m 所涉及的参数调节相对比较少 提供了很多的默认参数 利用这些默认参数就可以解决很多问题 另外 l i b s v m 可以解决o n e c l a s s s v m 的分类问题 我们将在第六章中使用到l i b s v m 软件包 1 5 4 3p e r l 程序 我们在前面已经提过了密码子使用偏性计算系统c o d o n a n a l y s i s 为了便于将该系统的输出结果 倒入支持向量机中进行计算 我们用f e d 程序编写了c o d o n a n a l y s i s 与s v m g r i t 或者l i b s v m 的接 i i 软件包 另外 为了在d o s 环境下利 e js v m 进行大规模的数据训练或者测试 我们还是用p c r l 编写了一些能够自动进行多倍交叉验证 多次重复实验的程序 有了这些p o d 程序作为纽带 c o d o n a n a l y s i s 与s v m 斟或者l i b s v m 便形成了一个有机的计算系统 我们便可以很方便的进行 各种基于支持向量机与密码子使用偏性的计算实验了 2 l 东南大学博士学位论文 第二章影响基因密码子使用偏性的各种因素 论文的第一章已经详细介绍了密码子使用偏性的概念 量化方法以及计算工具 本章中我们将 尝试着对a 型流感病毒 农原体以及酿酒酵母减数分裂重组冷热点基因密码子的使用偏性进行分析 希望从物种 功能 基因表达以及重组率等角度 找出与密码子使用偏性有关的一些生物学因素 2 1 基因密码子使用偏性的生物学基础 虽然对于同义密码子的使用偏性产生的生物基础已经有了大量的研究 但是到目前为止人们对 这一问题并没有很清楚的认识 对于不周的物种以及不同的基因 产生周义密码子使用偏性的生物 基础各有不同 基因组本身的碱基组成 由于同一物种或者进化比较近的物种中基因的密码子使用模式相似 每一物种都有特定的密码子使用模式 因此密码子的使用可能跟物种相关 这也是所谓的基因组假 说 g e n o m eh y p o t h e s i s 1 1 2 5 1 2 基冈的表达水平 高表达基因密码子的使用偏性比低表达基因的使用偏性要明显得多 一般认 为这是在翻译水平上的选择压力造成的 7 8 8 0 1 密码子和反密码子的相互作用 t r n a 丰度以及基冈转录和翻译的效率 密码子的使用偏性与 细胞内的t r n a 含量成正相关 特别是对于高表达的基冈更是如此1 7 9 密码子中碱基的前后相关性 如果密码子的第一和第二位是a u 那么第三位的碱基则尽量 使用g c 反之亦然 这在高表达的基因中尤为明显 这是因为如果密码子的三位碱基都是a u 密码子和反密码子的结合是配对难而分开容易 不利于基因的转录和翻译 基阕的g c 含量 基因组整体或基因局部的g c 含量高时 密码子的第三位碱基多选择g 或c 反之亦然1 7 7 1 0 0 1 0 2 1 密码子编码氨基酸序列的二级结构 在大肠杆菌 e s c h e r i c h i a e o l i 基因组中 只有两个密码子 与蛋白的二级结构相关 而在哺乳动物中 有1 7 个密码子与蛋白的二级结构相关 近来 密码子使 用偏性与蛋白质结构的关系得到了越来越多的重视 1 j 基因的功能 具有相似的功能的基因可能具有相似的密码子使用模式 9 4 9 5 基因的转录和复制 由于基因的转录和复制会引起d n a 链上的前导链和滞后链碱基g 的含鼍 与碱基c 的含量不同 碱基a 的含量和碱基t 的含量也会出现不同 进而会影响基因中的同义密码 子的使用 8 7 1 0 3 1 3 1 1 3 基因重组和基因转移 在生物进化过程中 由于基因的重组和转移的存在才使得基因组不断的 变化 从而产生了各种各样的物种 基冈转移会导致某一个基因或者某一组基冈的密码子使用模式 与同一物种中的大多数基因的密码子使用模式完全不同 基阏重组则会通过影响基因的g c 含量或 者h i l l r o b e r t s o n 效应 h i l l r o b e r t s o ni n t e r f e r e n c e 而影响基因密码子的使用i 3 0 1 2 2 研究影响基因密码子使用偏性的因素有何生物学意义 密码子使用偏性与诸多生物过程密切相关 因此 对密码子使用偏性进行研究可以探讨许多基 本的生物学问题 对于后基因组时代生物信息的处理有着重要的应用价值 通过密码子使用概率的研究 可以判断未知基因是高表达基因还是低表达基因 同时还可以判 断该基因表达的时间l i j 研究基因表达的调控机制 利用密码子的使用信息 可以对基因组进行扫描 预测出编码区和非编码区 发现新基因p 1 9 2 1 由于密码子使用偏性与t r n a 的丰度有关 因此 通过密码子使用偏性的研究 可以预测细胞 2 2 第二章影响皋因密码于使用偏性的各种因素 中的核糖体蛋白以及相关的合成酶在细胞中的位置p 由于密码子的使用偏性与基因的功能相关 通过密码子的使用概率的计算可以对基因的未知功 能进行预测 密码子的使用概率表可以为蛋白序列的反向翻译提供映射标准 实现从蛋白序列到寡核苷酸探 针的设计 9 8 1 4 2 i 在本文的后续章节中 我们将在支持向阜机的计算平台上 利用密码子使用偏性与物种 基因 功能 减数分裂重组率等诸多因素之间的关系对一些核酸序列进行分类和识别 2 3 同义密码子使用偏性的统计分析方法 对于密码子使用偏性的分析 我们大多采取统计分析的方法 由于序列数据飞速增长 对同义 密码子使用模式采取大规模的统计分析成为可能 统计的结果也更具有说服力 由于我们研究的对象是基因序列的5 9 个密码子 去除了3 个终止子和编码m e t 和t r p 这两种 简并度为l 的氨基酸的密码子 的使用概率 因此大多采用多元统计分析的方法 在这些统计分析 中 将每一条基因作为一个对象 将每一个密码子使用概率的统计值作为一个变量 通过多元统计 分析的数学方法 可以发现不同基因之间的内在关系 同时也可以发现基因不同密码子使用概率统 计值之间的相互关系 在密码子使用概率的研究中 常用的多元统计方法有 假设检验 h y p o t h e s i st e s t 相关性分析 c o r r e s p o n d e n c ea n a l y s i s 线性回归分析 l i n e a rr e g r e s s i o na n a l y s i s 因子分析 f a c t o ra n a l y s i s 主成分分析 p r i n c i p a lc o m p o n e n ta n a l y s i s 判别分析 d i s c r i m i n a t ea n a l y s i s 和聚类分析 c l u s t e r a n a l y s i s 其中假设检验和线性回归分析可以来检验我们的一些假设 得到一些统计推断 因子分 析 主成分分析和相关性分析可以用来找出可能影响基因密码子使用偏性的生物学因素 判别分析 和聚类分析则是用来查找不同的基冈在密码子使用偏性上是否存在内在的相似性以及存在怎样的相 似性 并且它们可以将未知功能的基因按照内在规律进行分类 2 4h 5 n i 及其它a 型流感病毒密码子使用偏性分析 流感是地球上分布最广的人畜共患急性传染病 它的宿主范围很广 累及多类动物 流感病毒 属于正粘液病毒 o r t h o m y x o v i d d a e 科 是节段状负链r n a 病毒 根据病毒颗粒内部的核蛋白 n p 和基质蛋白 m 的抗原性不同可分为a b 和c 三型 a 型流感病毒广泛分布于包括人类在内的 哺乳动物和鸟类 它们的自然宿主是野鸟 到目前为止 a 型流感病毒除人类以外 还从自然界中 的鸟 猪 马 海豚以及海鲸等多种动物中分离出来 l 电镜下a 型流感病毒多呈球形 直径 8 0 1 2 0n m 外有囊膜 内有直径为7 0n m 的电子致密核心为核衣壳 核心壳由r n a 核蛋白及3 种多聚酶组成 囊膜可分为内膜蛋白 类脂和糖蛋白3 层 a 型禽流感病毒基因组有8 个负链r n a 节段与核蛋自 n p 结合为核糖核蛋白 r n p 呈螺旋状 每个r n p 有3 个多聚酶 p a p b i p b 2 与之结合 流感病毒a 带有两个表面抗原 血凝素 h a 和神经氨酸苷酶 n a h a 有1 5 种 n a 有9 种 任一对h a 和n a 结合在一起便形成一种亚型 a 型流感病毒基因组共编码1 0 种 蛋白i l j 随着禽流感在全球的爆发和蔓延 科学家们对这一疾病的主要病原体 h 5 n i 型病毒已 经进行了初步的研究 1 6 6 1 这里我们将对h s n l 型病毒以及其它一些a 型流感病毒基因的密码子 使用偏性进行分析与比较 希望能对深入了解a 型流感病毒有所启发和帮助 2 4 1 数据 我们从g e n b a n k 中选取了h 5 n i 型病毒a d u c k c h i n a e 3 1 9 2 0 3 株的编码区基因序列 为了和 东南大学博士学位论文 其它类型或者亚型流感病毒基因作比较 我们还将h i n i h i n 2 h 3 n 2 h 7 n 7 h 9 n 2 以及b 型 流感病毒作为我们的研究对象 表2 1 列出了我们所选取基因的功能类型 长度以及相应的g e n b a n k 登记号 2 4 2h 5 n 1 型病毒密码予使用偏性模式 利用密码子使用偏性分析系统 我们首先计算了h s n i 型病毒基因组总体密码子使用偏性 见 表2 2 我们可以看出在h 5 n 1 型病毒基因组中 最强势的密码子偏向于用a 或者u 结尾 每个氨 基酸的强势密码子都用租体显示了出来 其中 一共有5 个强势密码子以u 结尾 而第三位为a 的强势的密码子数量达到了7 个 我们知道 h 5 n 1 型病毒基因组的g c 含量为4 4 6 1 1 g c 含量 低于5 0 因此 由于基因组碱基组成的影响 也不难理解为什么这些强势密码子偏向于以a 或者 u 结尾 同时 为了研究h 5 n 1 型病毒基因组中不同的基因的密码子使用的不同 我们也计算了每个基 因e n c 值和g c 3 s 值 计算结果列于表2 3 中 从表2 3 中可以看出 h 5 n 1 型病毒基因组中 不同 的基因它的e n c 值是不同的 e n c 值的变化范围是从4 3 1 l 到5 5 2 1 这些基因的e n c 值的均值为 5 0 9 1 方差为3 3 4 由于所有h 5 n i 型病毒的基因的e n c 值都比较大 e n c 4 0 因此 根据第一 章中对e n c 的定义 h 5 n i 型病毒基因组中不同的基因的同义密码子偏向性比较低 类似的 我们 也可以从各个h 5 n 1 型病毒基因的c c s 值来比较各个基因的密码子使用偏性 从表2 3 中可以看出 在h 5 n 1 型病毒的基因中 g l 的最大值为4 9 8 最小值为4 0 4 均值为4 3 8 方差为2 8 4 从上面的分析可以看出 h 5 n 1 型病毒基因的同义密码子使用偏性比较低 它的使用偏性大多 是由于基因组的碱基组成引起的 这些结果与一些文献中的报道类似 这些报道认为 r n a 病毒的 总体密码子使用偏性比较弱 而且在基因间的差异也比较小 1 6 7 1 然而近年来的其它一些研究发 现 在某些动物或者植物的r n a 病毒基因组中 密码子使用偏性却是非常的显著 l 2 4 3 不同病毒基因组中的同义密码子使用模式 为了比较不同病毒的基因组的同义密码子使用模式 我们利用主成分分析对所选取的7 种病毒 的所有7 0 个编码基因进行了分析 在主成分分析中 我们将每一个基因作为一个对象 每一个基因 的5 9 个同义密码子 去除了3 个终止子和编码m e t 及1 b 这两种简并度为1 的氨基酸的密码子 的r s c u 值作为5 9 维变量 通过主成分分析 我们将原来的5 9 维变量转化成彼此正交的另外5 9 维 变量 并将转化后的变茸按照向晕的特征值排序 第一维变阜能最大程度的反映所有对象中的变化 第二维变量次之 但优于其后的所有变量 依此类推 这些变量依次反映了对象的变差值 v a r i a n c e 通过对所有7 0 个基因的主成分分析 我们选取了第一维和第二维变阜来分析这些基因中同义密 码子使用的著异 主成分分析中 我们得到的第一维变量能够反映出1 2 8 的这些基因中的同义密 码子使用的变差 而第二维变量能反映6 8 的变差 图2 1 中显示了由每一个基因的第一 第二维 变量决定的点阵图 来自a 型流感病毒的基因用红色表示 而b 型流感病毒的基因用蓝色表示 尽 管在图2 1 中 来自不同病毒的有些基因重叠在一起 看起来有些复杂 但我们还是不难看出 图 中来自b 犁流感病毒的基因基本上还是聚成一簇 而且基本处于a 型流感病毒的基闪的下方 通过 t 检验 我们可以看到a 型流感病毒和b 型流感病毒的基因在第二维坐标上的分离是很显著的 p 0 们 因此 我们可以认为 这两型病毒基因组中的同义密码子使用模式是物种特异的 现在 我们来看看在a 型流感病毒的不同亚型间是否存在密码子使用偏性的筹异 通过t 检验 我们发现看到a 型流感病毒不同亚型的密码子使用偏性在第一 二维坐标上都没有显著筹异 这表 明a 型流感病毒不同亚型的密码子使用偏性不存在砸型特异性 我们可以说 h 5 n i 型病毒的密码 子使用模式与其它亚型相类似 但是 正如我们刚才所讲剑的 整个a 型流感病毒的密码子使用模 式与b 型之间还是有显著差异的 2 4 第二章影响摹冈密码子使用俯挣的各种因素 表2 1 所选取流感病毒的类型 长度和g e n b a n k 登记号 v i r u sg e n el1 b p a c c e s s i o nn o v i r u sg e n e l b p a c c e s s i o nn o h 5 n lh a1 7 0 4j y 5 1 8 3 6 2h 3 n 2h a1 7 0 1a b 0 1 9 3 5 7 n a1 3 5 0a y 5 1 8 3 6 3n a1 4 1 0a y 2 1 0 1 3 5 m l7 5 9a y 5 1 8 3 6 lm l7 5 9a y 2 1 0 2 6 7 m 22 9 4 a y 5 1 8 3 6 1 m 2 294 y210267 n p 1 4 9 7 a y 5 1 8 3 n p1 4 9 7 a y 2 1 0 2 3 4 p a2 1 5 l 5 1 8 3 6 5p a2 1 5 la y 2 1 0 2 0 6 p b l 2 2 7 4 a y 5 1 8 3 6 6p b l2 2 7 4a y 2 1 0 2 8 4 p b 22 2 8 0 a y 5 1 8 3 6 7 p 1 3 2 2 2 8 0 y 2 1 0 1 5 0 n s i6 7 8a y 5 1 8 3 6 0n s i7 1 4a y 2 1 0 3 1 5 n s 23 6 6a y 5 1 8 3 6 0n s 23 6 6a y 2 1 0 3 1 5 h l n lh a1 7 0 1a f 2 2 2 0 3 6h 7 n 7h a1 6 8 3a f 0 2 8 0 2 0 n a1 4 1 0a f 3 4 2 8 2 0n a1 4 1 0u 8 5 9 8 9 m l7 5 9a f 3 9 8 8 7 6m l7 5 9l 3 7 7 9 6 m 22 嬲a f 3 9 8 8 7 6m 22 9 4l 3 7 7 9 6 n p 1 4 9 7a f 3 4 2 8 1 9 n p 1 4 9 7 y 3 4 2 4 2 7 p a2 1 4 8 a f 3 9 8 8 6 2 p a 2 1 5 la y 3 4 2 4 2 0 p b l2 2 7 4a f 3 9 8 8 7 1p b l2 2 7 4a y 3 4 0 0 8 5 p b 22 2 8 0a f 3 9 8 8 6 6p b 22 2 8 0m 7 3 5 2 0 n s l 6 9 3a f 3 9 8 8 7 7n s l6 9 3l 3 7 7 9 9 n s 23 6 6a f 3 9 8
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年高一地理期末试卷及答案
- 关岭布依族苗族自治县2024-2025学年第一学期五年级数学期末学业评价试题含参考答案
- 2025年幼儿教师业务考试综合模拟试卷及答案
- 2025年外汇从业人员考试题库及答案
- 2025年煤矿企业主要负责人理论考试笔试试题3含答案
- 2025年继续教育公需课考试题库(含答案)
- 2025年煤矿井下爆破考试试题及答案
- 2025中成药合理用药考试试题(附答案)
- 2025年中医执业助理医师考试备考试题及答案解析
- 2025年消化内科考试题及答案
- 事业单位行测题目及答案
- 2025法考客观题库及答案
- 农产品检验员试题及答案
- 急诊质控工作汇报
- 无人机动力技术
- 2025工会知识竞赛题库(含答案)
- 云南省高中学业水平考试数学考题分类汇编以及知识点穿插(2025年7月-2026年1月)
- 2025年小学语文教师招聘考试测试卷及答案
- 高校物业考核管理办法
- 2025年党员党的基本理论应知应会知识100题及答案
- 2025中国肺血栓栓塞症诊治、预防和管理指南解读课件
评论
0/150
提交评论