(分析化学专业论文)主要组织相容性复合物结合多肽的识别.pdf_第1页
(分析化学专业论文)主要组织相容性复合物结合多肽的识别.pdf_第2页
(分析化学专业论文)主要组织相容性复合物结合多肽的识别.pdf_第3页
(分析化学专业论文)主要组织相容性复合物结合多肽的识别.pdf_第4页
(分析化学专业论文)主要组织相容性复合物结合多肽的识别.pdf_第5页
已阅读5页,还剩54页未读 继续免费阅读

(分析化学专业论文)主要组织相容性复合物结合多肽的识别.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 在脊椎动物中,t 细胞识别主要组织相容性复合物( m h c ) 结合的抗原多 肽是免疫监督过程中的关键一步。为了辅助疫苗设计,我们需要知道大量m h c 结合多肽,但通过实验方法来识别m h c 配体既费时间,花费又高,几乎不- u j 能 运用于大规模的肽段筛选。为此,计算机预测方法运用到此领域来减少需要用 实验证实的候选结合抗原的数量,本文旨在利用合理的编码方法来提高s v m 建 模预报的准确率,来更有效的识别m h c 结合多肽。 编码技术的研究有利于知识的提取,合理的编码方法可以提高模型预报的 准确率。现在虽然已经有了一系列传统的编码方法,但在m h c 结合多肽识别这 个问题上,这些编码方法并没有提取m h c 受体蛋白与结合多肽相互作用的信息。 本论文提出了一种新的编码方法,称为:环境编码。该编码体现了m h c 受 体和抗原多肽之间氨基酸与氨基酸的相互作用。本文的研究对象是b j o e r np e t e r s 等人于2 0 0 6 年公布的一个大规模i 类m h c 多肽实验数据集,运用5 种传统的 编码方法:正交编码、物理特征值编码、广义疏水值编码、p a m 1 2 0 、b l o s u m 一4 5 以及本文提出的环境编码,以s v m 为建模工具进行5 - f o l d 交叉验证。预报结果 表明,环境编码方法建模预报的准确率较传统编码方法的准确率提高了2 3 个 百分点,而且该方法建立的模型具有更好的稳定性。将以上6 种编码方法取得 的结果作为变量,再一次进入s v m 建立模型。发现双层s v m 模型并没有使预 报结果提高,可能是因为环境编码方法已经充分体现了多肽的信息,其它编码 方法在模型的建立中并没有起到明显的正面作用。最后,本论文将环境编码应 用于多种型别的m h c 结合多肽的预测当中,并与网上公开的一些m h c 配体识 别工具的预报结果进行了比较。发现环境编码建立的s v m 模型在多数情况下, 预报结果好于现有网络预测工具。 关键词:环境编码,i 类m h c ,结合多肽预测,s v m a b s t r a c t a b s t r a c t i na l lv e r t e b r a t e s ,tc e l l so n l yr e c o g n i z ea n t i g e n sa sac o m p l e xw i t hm h c m o l e c u l e s t h e r e f o r em h c b i n d i n gp e p f i d e sp r e d i c t i o ni sa l li m p o r t a n ts t e pi nt c e l l s e p i t o p e sd i s c o v e r y h o w e v e r , i d e n t i f yt h em h cl i g a n d sb ye x p e r i m e n t a lm e t h o d si s t i m ec o n s u m i n ga n dm o n e yc o s t i n g c o n s i d e r a b l ec o m p u t a t i o n a le f f o r t sh a v eb e e n m a d ei nt h i sa r e a ,a n de f f i c i e n t l yr e d u c i n gt h en u m b e ro fc a n d i d a t eb i n d e r st h a tn e e d t ob ee x p e r i m e n t a l l yv e r i f i e d t h ep u r p o s eo ft h i sp a p e ri st oi m p r o v et h es v m m o d e l sp r e d i c t i o na c c u r a c yb yu s i n gm o r er e a s o n a b l ep e p t i d ee n c o d i n gm e t h o d p e p t i d es e q u e n c er e p r e s e n t a t i o n sa r ee s s e n t i a lf o rs u p p o r tv e c t o rm a c h i n e s a l t h o u g ht h e r ea r en u m b e r so ft r a d i t i o n a lc o d i n gm e t h o d s ,t h e yd on o tc o n t a i nt h e i n f o r m a t i o no ft h ei n t e r a c t i o nb e t w e e nm h ca n dt h e i rb i n d e r s t h ei n n o v a t i o no ft h i sp a p e ri st op r o p o s ean e wc o d i n gm e t h o d , k n o w na s : e n v i r o n m e n t a le n c o d i n gm e t h o d t h ed a t a s e tu s e di n t h i sp a p e rw a sp u b l i s h e db y b j o e r np e t e r si n2 0 0 6 t h i sp a p e re x p l o r e ds v mf o rd e v e l o p i n gp r e d i c t i o ns y s t e m s o fd i v i d i n gm h c - b i n d e r sf r o mm h c n o n - b i n d e r s f i v et r a d i t i o n a le n c o d i n gm e t h o d s a n de n v i r o n m e n t a le n c o d i n gm e t h o dw e r et e s t e di n t h i sw o r k f i v e f o l dc r o s s v a l i d a t i o nr e s u l t ss h o w e dt h a tt h eo v e r a l lp e r f o r m a n c eo fo u rn o v e le n v i r o n m e n t a l e n c o d i n gi si m p r o v e di nc o m p a r i s o nt oo t h e rt r a d i t i o n a le n c o d i n g sb y2 3 t h e r e s u l to ft h es i xk i n d so fs v mm o d e l sw e r eu s e da sn e wv a r i a b l e st os e tu pan e w s v mm o d e l t h ea c c u r a c yo ft h i sb i o - l a y e r ss v mm o d e lw a sn o ti m p r o v e d f i n a l l y , w eu s e de n v i r o n m e n t a le n c o d i n gm e t h o dt op r e d i c tb i n d e r so faw i d er a n g eo fm h c a l l e l e s ,a n dc o m p a r e dt h er e s u l t sw i t hs o m em h cb i n d i n gp e p t i d ep r e d i c t i o nt o o l so n i n t e m e t i nm o s tc a s e s ,t h em o d e l sb u i l tb ye n v i r o n m e n t b a s e de n c o d i n ga r eb e t t e r t h a nt h et o o l s ,a n do t h e rt r a d i t i o n a le n c o d i n gm e t h o d s k e yw o r d s :e n v i r o n m e n t a le n c o d i n gm e t h o d ,m h cc l a s si ,b i n d i n gp e p t i d e s p r e d i c t i o n ,s v m i i 同济大学学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师指导下,进行 研究工作所取得的成果。除文中已经注明引用的内容外,本学位论文 的研究成果不包含任何他人创作的、己公开发表或者没有公开发表的 作品的内容。对本论文所涉及的研究工作做出贡献的其他个人和集体, 均已在文中以明确方式标明。本学位论文原创性声明的法律责任由本 人承担。 学位论文作者签名:乜赴 年孑月1 日 学位论文版权使用授权书 本人完全了解同济大学关于收集、保存、使用学位论文的规定, 同意如下各项内容:按照学校要求提交学位论文的印刷本和电子版本; 学校有权保存学位论文的印刷本和电子版,并采用影印、缩印、扫描、 数字化或其它手段保存论文;学校有权提供目录检索以及提供本学位 论文全文或者部分的阅览服务;学校有权按有关规定向国家有关部门 或者机构送交论文的复印件和电子版;在不以赢利为目的的前提下, 学校可以适当复制论文的部分或全部内容用于学术活动。 学位论文作者签名:起谬一 沙7 年弓月f s 日 第1 章引言 第1 章引言 1 1 生物学数据信息量现状 自从1 9 9 0 年美国肩动人类基因组计划以来,欧共体、日本、加拿大、巴西、 印度、中国也相继提出了各自的基因组研究计划【l 】。2 0 0 3 年4 月1 4 日,中、美、 日、德、法、英等6 国科学家宣布人类基因组序列图绘制成功,人类基因组计 划的所有目标全部实现。在人类基因组计划进行过程中所积累起来的技术和经 验,使得其它牛物基因组的测序工作可以完成的更快捷,生物学数据的积累并 不仅仅表现在d n a 序列方面,与其同步的还有蛋白质的一级结构,即氨基酸序 列的增长。这一切构成了一个生物学数据的海洋。 截止到2 0 0 8 年1 2 月2 0 日,世界两大核酸数据库之一的e m b l 所包含的核 酸( n u c l e o t i d e s ) 数据量为2 4 0 ,9 11 , 3 4 8 ,1 0 6 条【2 1 ,如图1 1 。另一大核酸数据库 g e n b a n k 在2 0 0 5 年时,碱基( b a s e s ) 数据量大约为5 6 0 亿,如图1 2 。而在2 0 0 8 年1 2 月1 1 日发布的第1 6 9 版数据库则包含了超过9 8 ,8 6 8 ,4 6 5 个基因位点( l o c i ) , 9 9 ,1 1 6 ,4 3 1 ,9 4 2 个碱基( b a s e s ) 。在三年的时间内,g e n b a n k 的数据量增大了近 4 3 0 亿。若将最新版数据库整体下载大约需要3 8 1 g b 的电脑硬盘存储空剐3 1 。 t o t a in u c i e o t i d e s ( c ur r e n t2 4 0 9 11 3 4 8 10 6 ) 图1 1e m b l 数据库的数据增长 第1 章引言 荔 c 2 曼 们 8 善 = 孑 g r o w t ho fg e n b a n k 1 9 8 2 2 0 0 5 ) 图1 2g e l b a a k 数据库的数据增长 石r c 垒 暑 8 z 凸 芑 匕 焉 乱 m m u n i p r o t k b s w i s s p r o t ,2 0 0 8 年12 月l6 日发布的5 6 6 版本数据库包括来自 于1 7 5 ,1 7 2 篇文献的蛋白质序列4 0 5 ,5 0 6 条,其中包含了1 4 6 ,1 6 6 ,9 8 4 个氨基酸, 如图1 3 【4 1 。 图1 3u n i p r o t k b s w i s s p r o t 数据库的数据增长 u n i p r o t k b t r e m b l ,2 0 0 8 年1 2 月1 6 日发布的3 9 6 版本数据库包括蛋白 质序列6 , 9 6 4 ,4 8 5 条,其中包含了2 , 2 6 8 ,1 2 6 ,4 8 8 个氨基酸,如图1 4 【5 1 。 2 轮非鸲舵加强鸲弛:;拍嚣h趁侣侣住伯864 2 0 第1 章引言 i if 訇l 巨 i i 广, 。 ; 越 ,9 7i 0 0 0 2 e 0 日e ” 圈1 4 u n i p r o t k b t r e m b l 数据库的数据增长 u n i f o t k b n 在数据库版本35 9 中共公布了非冗余天然蛋白质7 ,3 6 9 ,9 9 1 条。 在以上所有蛋白质序列中,已探明其三维结构的蛋白质有5 0 6 2 1 个( p d b 数据 库2 0 0 8 年1 2 月1 6 日更新的数据,如图1 5 7 1 ) 。 y i c r h n * 6 嘲 1 _ - 口 _ 4 0 4 “ 图】5 p d b 教据库的数据增长 叫以扣一个比方来说明这螳数据的规模。有人估计,人类( 包括已经去世 的和仍然在世的) 所说过的话的信息总量约为5 唉宁节( 1 嗅字节等于1 0 ”字节) 。 而如今生物学数据信息总量已接近甚至超过此数量级。这种科学数据急速和海 量的积累,在人类科学研究的历史中是空前的【”。 第1 章引言 1 2 生物信息学 分子生物学的发展把生命活动的物质基础追溯到核酸和蛋白质两大类牛物 大分子,它们构成了生物数据的主要部分。关于这些生物大分子的结构、相互 作用和功能的研究,也产生着大量数据。数据并不等于信息和知识,但却是信 息和知识的源泉,关键在于如何从中挖掘它们。与正在以指数方式增长的生物 学数据相比例,人类相关知识的增长( 粗略地用每年发表的生物、医学论文数来 代表) 却十分缓慢。一方面是巨量的数据;另一方面是我们在医学、药物、农 业和环保等方面对新知识的渴求,这些新知识将帮助人们改善其牛存环境和提 高生活质量。这就构成了一个极大的矛盾,生物信息学( b i o i n f o r m a t i c s ) 在此背 景下发展了起来【l0 1 。美国人类基因组计划实施五年后的总结报告中,对生物信 息学作了以下定义:生物信息学是一门交叉科学,它包含了牛物信息的获取、 处理、存储、分发、分析和解释等在内的所有方面,它综合运用数学、计算机 科学和生物学的各种工具,来阐明和理解大量数据所包含的牛物学意义。 生物信息学研究的内容有很多,但是限于篇幅,这里仅列出其名称并只做 简单介绍:1 、序列比对,基本问题是比较两个或两个以上符号序列的相似性或 不相似性。2 、结构比对,基本问题是比较两个或两个以上蛋白质分子空间结构 的相似性或不相似性。3 、蛋白质结构与功能预测,蛋白质的结构决定了其在生 物体内的功能,从方法上来看有演绎法和归纳法两种途径。前者主要是从一些 基本原理或假设出发来预测和研究蛋白质的结构和折叠过程。后者丰要是从观 察和总结己知结构的蛋白质结构规律出发来预测未知蛋白质的结构。4 、计算机 辅助基因识别,基本问题是给定基因组序列后,正确识别基因的范围和在基因 组序列中的精确位置。5 、非编码区分析和d n a 语言研究,在人类基因组中, 编码部分占总序列的3 5 ,其它通常称为“垃圾”d n a ,其实其中包含一定规 模的信息,只是我们暂时还不知道其重要的功能。分析非编码区d n a 序列需要 大胆的想象和崭新的研究思路和方法。d n a 序列作为一种遗传语言,不仅体现 在编码序列之中,而且隐含在非编码序列之中。6 、分子进化和比较基因组学, 主要是利用不同物种中同一种基因序列的异同来研究生物的进化,构建进化树。 7 、序列重叠群装配,一般来说,根据现行的测序技术,每次反应只能测出5 0 0 或 更多一些碱基对的序列。这就需要有这样一个过程,把大量的较短的序列全体 构成重叠群,并逐步把它们拼接起来形成序列更长的重叠群,直至得到完整序 4 第1 章引言 列,该过程称为重叠群装配。8 、遗传密码的起源,遗传密码为什么是现在这样 的? 这一直是一个谜。随着各种生物基因组测序任务的完成,为研究遗传密码 的起源和检验上述理论的真伪提供了新的素材。9 、基于结构的药物设计,人类 基因组计划的目的之一在于阐明人体中约1 0 万种蛋白质的结构、功能、相互作 用以及与各种人类疾病之间的关系,寻求各种治疗和预防方法,包括药物治疗。 可以利用分子对接算法,在计算机上设计抑制剂分子,作为候选药物。这种发 现新药物的方法有强大的生命力,也有着巨大的经济效益。1 0 、其他。如代谢 网络分析、基因芯片设计和蛋白质组学数据分析等,逐渐成为生物信息学中新 兴的重要研究领域。 1 3 课题来源及意义 第二次世界大战结束不久,传染病就被证实在日益减弱。从表面上来看, 由传染病带来的威胁好像是降低了,因此,人们对传染病的关注程度也有所下 降,随之而来的还有对传染病研究的资助减少以及医学院教师队伍的流失。 1 9 8 1 1 9 8 2 年问,“天下太平”的日子戛然而止:世界上首度出现导致免疫缺陷 的新型传染病艾滋病。科学家、医生和公共卫生从业者不得不迅速转变观 念。之后的2 0 世纪8 0 年代中期,牛脑海绵状病( 即疯牛病,缩写为b s e ) 爆 发后,人们更加确信瘟疫将卷土重来。 人类在对付传染病时,碰到的丰要问题就是疫苗太少。对于大多数传 染病,我们都缺乏有效的疫苗。时至今日,人们始终未能成功的开发出针对艾 滋病病毒( h i v i r u s ) 、疱疹病毒( h e r p e s v i r e n ) 、丙型肝炎病毒( h e p a t i t i s c v i r u s ) 和轮状病毒( r o t a v i r u s ) 的疫苗,在发展中国家,每年都有大约8 0 万个婴儿因 为感染上述病毒而死亡。同样的,对于很多细菌性传染病,我们也缺乏有效的 疫斟1 1 1 。 生物信息学已广泛地渗透到医学的各个研究领域中,成为牛物医学发展不 可缺少的重要工具。随着人类基因组计划的快速发展,牛物信息学技术在人类 疾病与功能基因的发现与识别、基因与蛋白质的表达与功能研究方面都发挥着 关键作用。生物信息学技术在基于基因与蛋白质功能缺陷的合理化药物设计方 面也有着巨大的潜力。同时,牛物信息学技术在亲子鉴定、罪犯识别等各方面 都有重要的应用。生物信息学的突飞猛进地发展,使其成为整个生命科学发展 第1 章引言 的重要组成部分,成为生命科学研究的前沿,这无疑是本课题最大的一个学科 背景。 2 0 0 0 年,h a g m a n n 在( ( s c i e n c e ) ) 上的一篇评论中率先提出了“计算机辅 助疫苗设计”( c o m p u t e r sa i dv a c c i n ed e s i g n ,c a v d ) 的概念,引起了业界的广泛 关注。免疫学家利用计算机来解决免疫领域中极为重要的问题:如何在成千上 万的候选蛋白片段中找到那个能刺激机体产生强大免疫应答的关键片段。这样 就能针对抗原的小片段制造疫苗,例如入侵病原或癌细胞的蛋白片段。免疫学 家相信,像这样的“亚疫苗”比采用整个病原或癌细胞制造的疫苗要安全的多【坦, b j 。事实上,在提出这一新名词前,运用计算机进行表位预测的研究已经进行了 2 0 多年。而这一时期也正是信息技术与牛物医学迅猛发展的2 0 年。其间,分 子免疫学研究的深入、生物信息学的兴起及它们的相互结合渗透使疫苗研发工 作出现了两大变化:( 1 ) 是从传统的预防性疫苗发展到治疗性疫苗,疫苗的适用 范围从原来单纯的传染病预防发展到对过敏性疾病、自身免疫性疾病、器官移 植性疾病、不孕不育症、老年痴呆、肿瘤等各种疾病的预防和治疗;( 2 ) 是从传 统减毒的或灭活的病原微生物疫苗发展到基因重组疫苗、亚单位疫苗、甚至表 位疫苗。从细胞、分子乃至表位水平对疫苗进行设计与优化的研究和技术已发 展成为一门称之为抗原工程的新兴学科【l4 1 。随着人类基因组计划的完成及大量 病原微生物基因组的阐明,人类已进入以阐明基因功能为主的后基因组或蛋白 组时代;确定病原蛋白的“表位组 ,绘制相应表位图谱是其中一项重要研究内 容。在上述背景下。用“计算机辅助疫苗设计 一词,来概括这一生物医学工 程研究的新领域。叮谓水到渠成。主要组织相容性复合物( m a j o rh i s t o c o m p a t i b i l i t y c o m p l e x ,m h c ) 结合多肽及表位的识别是计算机辅助疫苗设计的一个重要的研 究内容,现在国际上有很多科研团体在这一方面进行研烈1 5 】,其理论意义和实 际应用价值不用赘言。 1 4m h c 结合多肽识别的研究进展 1 4 1m h c 结合多肽的研究方法 因为t 细胞识别m h c 结合的抗原多肽是免疫监督过程中的关键一步,为了 辅助疫苗设计,人们需要知道大量的t 细胞表位。但通过实验的方法来识别t 6 第1 章引言 细胞表位既需要大量的时间,花费又高,几乎不可能运用于大规模肽段的筛选 上,因此大量的计算机模型就应用到的这个方面。从上世纪8 0 年代末,s e t t ea 等人开始利用序列比对的方法预测m h c 结合抗原【l 刨,从而开始了计算机预测 m h c 结合多肽及t 细胞表位的时代。 m h c 结合多肽计算机预测方法主要分为依靠多肽序列预测和依靠m h c 及 多肽晶体立体结构预测两个方面。序列预测方法经历了序列相似性比对、结合 多肽模序、定量矩阵预测及机器学习方法等一系列方法。而基于m h c 分子晶体 结构的预测方法主要是利用了晶体结构的细节信息和多肽与m h c 蛋白相互作 用的信息,可以利用已知的晶体结构作为模版,来建立未知多肽的三维立体模 型,从而达到预测的目的【1 1 7 。1 9 1 。由于论文篇幅的限制,下面仅对序列预测方法 做一个简单的介绍。l 、序列比对法,开始于1 9 8 9 年,s e t t ea 等人利用标准的 比对方法b l a s t 和f a s t a 对m h c 结合多肽进行比对,希望能够建立合理模型 来预测未知的多肽。但因为这些标准方法中的比对矩阵并不适用于m h c 结合多 肽【l6 2 0 】,因此序列比对方法的预测准确率是所有方法中最低的,应尽量避免使 用这种方法。2 、结合多肽模序法,因为某一特定型别的m h c 分子所结合的多 肽,在一些特定的位置上的氨基酸是比较保守的,这些保守位的氨荩酸被成为 结合模序,又成为锚定残基。最早被报道的模序是小鼠的i i 类m h c 的i a d 和 i e d 分子【16 1 。图1 6 所示的是h l a - a * 0 2 0 1 ( a ) 和h l a d r b i * 0 3 0 1 ( b ) 2 1 , 2 2 】 的结合模序。初级锚定残基用加粗的字母表示,其余的字母表示扩展锚定残基。 这些根据m h c 型别不同而不同的模序被用来判断m h c 结合抗原,实验证明4 0 的结合多肽含有结合模序【2 3 2 4 。大量的模序可以从数据库s y f p a i t h i 中获得。 3 、定量矩阵法,定量矩阵法其实是结合模序法的延伸,它通过不同的计算迭代 方法获得了一个定量矩阵,该矩阵为每一个位置的各种氨基酸提供了一个结合 系数,这些系数再通过合理的计算取得多肽一个整体的得分,通过该得分来预 测这个多肽是否可以与某特定型别的m h c 结合【2 5 ,2 剐。这种方法已经应用于多种 型别的m h c 分子结合多肽的预测,预报准确率比结合模序法高。4 、机器学习 法,主要应用的人工智能方法有人工神经网络法( a n n ) ,隐马尔可夫法( 瑚m ) 和支持向量机( s v m ) 等。这些方法能够捕捉数据集内部复杂的关系,并具有 一定的容错性,这非常适用于处理复杂的生物信息。这类方法的主要优点是它 们可以有效的解决非线性问题,但它们需要大量的已知数据来建立模型【2 7 。3 们。 机器学习法的预报准确率是以上四类方法中最高的,随着现在大量的结合抗原 7 第1 章引言 被检测出来,这类方法有着长远的发展前景。 a t a v i g o o db i n d i n $m wl 魏燕p o 琏d o b 17 2 ,2 。纛 d n o b i n d i n g e p ysy p下f wcw 气麓。盏i 乞? ? 萎? i 舔 dr ek r h i c b 貔。滋釉蒯毹j 学;兹狻:j 缓缓:荔,毒7 瓿缮,荔一7 螽巍影豫,赣奠兹鐾镶 l弘ky g o o d b i n d i n g i敷l fef m q vn 图1 6h l a a * 0 2 0 i ( a ) 和h l a d r b l 0 3 0 1 ( b ) 的结合模序( 图片引自参 考文献 2 2 】) 1 4 2m h c 相关数据库 现在网上有一些m h c 序列、m h c 结合多肽和t 细胞表位的数据库( 见表 1 1 ) ,使用者可以从这些数据资源中分析和交叉查询,以下介绍两个实验数据库。 1 m h c p e p m h c p e p 是一个集合了1 3 ,0 0 0 多个m h c 结合多肽序列信息的数据库。其 中既有与m h ci 类分子相结合的抗原多肽,也有与m h ci i 类分子结合的多肽, 该数据库始建于1 9 9 4 年。 1 9 9 7 年9 月,第1 3 版的m h c p e p 数据库含有1 3 ,4 2 3 个条目( e n t r i e s ) ,其 中含有少量非经典m h c 分子( 例如:鼠a q a 2 a ) 的结合肽。这些数据都是从 公开发表的出版物或是直接的实验得来的。数据库中的每一个条目都包括结合 多肽的序列、m h c 型别、实验方法、t 细胞活性、结合的亲和力、源蛋白、锚 定位以及参考文献【3 。该数据库是一个可靠性较高的实验数据库,可惜它的数 据自1 9 9 8 年后就没有更新过。 荔 m a l v 囊 t 誊,0 第1 章引言 2 p e t e r sd a t a s e t t 3 2 】 2 0 0 6 年p e t e r s 等人在期刊p l o sc o m p u t a t i o n a lb i o l o g y 上公布了一个大型的, 包含多个物种的m h ci 类数据集。这个数据集总共含有人类、小鼠、短尾猿 ( m a c a q u e ) 和黑猩猩( c h i m p a n z e e ) 这4 个物种,4 8 个m h c 型别的4 8 ,8 2 8 条多肽及这些多肽的定量亲和力值( i c 5 0 ) 。p e t e r s 想通过公布这个数据集来为i 类m h c 结合多肽的预报工作提供一个标准集。该数据集的数据来自两个实验室: 一个是过敏与免疫研究实验机构,负责人为a l e s s a n d r os e r e ,另一个是哥本哈 根大学的s o r e nb u u s 研究组。因为两个实验室的实验条件不完全相同,因此两 个实验组所得出的多肽亲和力值的大小会有一定的出入。p e t e r s 等人将这两个实 验室的数据整合在了一起,并利用m a t t h e w 相关系数来评价这两个实验室的实 验结果是否一致。最终评价结果证明,两个实验室的结果还是比较一致可信的。 该数据集所有的数据分布总览见附录a ,本论文的研究对象就来自p e t e r s 数据集。 3 其它数据库 另外还有大量关于m h c 的数据库在最近十几年涌现,现将部分应用较广的 数据库列于表1 1 。 表1 1m h c 相关数据库 9 第1 章引言 1 4 3m h c 结合多肽网络预测工具简介 一系列m h c 结合多肽预测的服务网站列于表1 2 。虽然这些预测模型对于 某些型别的m h c 分子结合多肽的预测准确率比较高,但不能保证这些服务器的 所有预测都具有较高的可靠性。为了检验这些服务器的预报准确率,使用者可 以利用一组已知的多肽对这些模型的预报准确率进行评估。 表l ,2m h c 结合多肽预测服务网站 1 0 第1 章引言 1 5 本论文的主要内容 本文旨在对m h ci 类的结合多肽进行识别,并提高建模预报的准确率。我 们认为,编码技术的研究有利于知识的提取,合理的编码方法可以提高模型预 报的准确率。现在虽然已经有了一系列传统的编码方法,但在m h c 结合多肽识 别这个问题上,这些编码方法没有很好的体现m h c 结合多肽的本质。因此,本 论文创新的提出了一种新的编码方法,称为:基于环境的编码方法,简称为环 境编码。该编码方法可以很好的体现m h c 受体和抗原多肽氨基酸之间的相互作 用,从而为预测模型的建立提供了更多的有用信息。 本论文的主要思路如下: 首先,本文数据来源于b j o e r np e t e r s 等人于2 0 0 6 年公布的i 类m h c 多肽 大规模实验数据集。该数据集4 个物种的4 8 个i 类m h c 等位基因的结合多肽 及非结合多肽的序列信息及相应的i c 5 0 值【3 2 】,参考文献的方法以i c 5 0 值5 0 0 为界限,多肽的i c 5 0 低于或等于5 0 0 的为结合多肽,高于5 0 0 的为非结合多肽。 然后,我们立足于这些结合肽的一级结构,利用不同的编码方法分别提取 肽段的序列、物理化学性质、突变距离等信息,用s v m 算法进行建模预报。这 部分是本论文的研究重点,其中主要包含三个方面。 1 本文介绍了5 种传统的编码方法,分别为正交编码、物理特征值编码、 广义疏水值编码、p a m 1 2 0 、b l o s u m - 4 5 。并利用s v m 对h l a a * 0 2 0 1 的结合九肽数据进行建模预报,取得5 - f o l d 交叉验证的结果。 2 根据m h c 结合肽段的特点,本文提出了基于环境的编码方法,将与配 体多肽距离相近的部分m h c 氨基酸定义为配体的结合环境,并将这些 氨基酸的信息进入编码。由于m h c 蛋白与多肽结合的本质就是m h c 蛋白分子的氨基酸与抗原多肽氨基酸的相互作用,因此这方面信息的加 入,会提高预报模型的准确率。事实证明,环境编码建立模型的预报准 确率高出传统编码模型2 - 3 个百分点,并具有更好的稳定型。 3 将以上6 种编码方法取得的结果作为变量,再一次进入s v m 建立模型, 分别比较不同模型的预报结果。发现双层s v m 模型的预报结果并未超 过环境编码模型的结果。 最后,我们将环境编码应用于多种型别的m h c 结合多肽的预测当中,并与 第1 章引言 网上公开的一些m h c 结合多肽预测工具的预报结果进行了比较。发现利用环境 编码建立s v m 模型的这种方法,可以与众多预测工具预报结果相当,并多数情 况下,预报结果好于现有网络预测工具。 1 2 第2 章主要组织相容性复合物 第2 章主要组织相容性复合物 2 1 天然免疫和适应性免疫 环境中存在大量感染性微生物:病毒、细菌、真菌、原虫和多细胞寄牛虫。 这些微生物能致病,如果不阻止它们繁殖,最终还能杀死它们的宿主。大多数 发生于正常个体的感染都是短暂的,不会留下长久的损害,这归功于和传染物 做斗争的免疫系统。 任何免疫应答首先涉及对病原体和外来物质的识别,随后以免疫反应将其 消除。广义而言,免疫应答分为两类:天然免疫应答( i n n a t ei m m u n er e s p o n s e ) 和适应性免疫应答( a d a p t i v ei m m u n er e s p o n s e ) 。两者之间主要的不同点是,适 应性免疫应答对特定的病原体是高度特异的。而且,当反复接触一个特定的传 染物后,天然应答并无明显变化,而适应性应答不然,对同一病原体每接触一 次,其反应程度都有所提高。因而就效应而言,适应性免疫系统可以“记住 该传染物,并防止其随后引起疾病。例如麻疹和白喉等疾病在诱发适应性免疫 应答后,机体对该传染产生终身免疫。因而适应性免疫应答的两个主要特征是 特异性和记忆性【55 i 。 表2 1 天然免疫和适应性免疫的比较 第2 章主要组织相容性复合物 2 2 淋巴细胞 淋巴细胞是一类重要的白细胞,这些细胞是所有适应性免疫应答的核心部 分,因为它们可以特异的识别各种病原体,不论这些病原体在宿主细胞内或者 在胞外组织液或血液中。淋巴细胞有许多种,主要分为两大类:t 淋巴细胞( t 细胞) 和b 淋巴细胞( b 细胞) 。 抗原( a n t i g e n ,a g ) 是指凡能刺激机体免疫系统产生免疫应答,并能与免 疫应答产物( 抗体或致敏淋巴细胞) 产生特异性结合的物质。 b 细胞识别抗原之后发生增殖并发育成浆细胞,产生大量可溶性受体分子即 抗体。抗体分子为大分子糖蛋白,存在于血液和组织液中。它们实际上和原先 的受体分子相同,因而可以和当初激活b 细胞的抗原相结合。 t 细胞分为若干类型,具有不同的功能。其中i 型辅助性t 细胞( t h l ) 作 用于单核吞噬细胞,协助其消除胞内病原体。另一类形成t h 2 细胞,与b 细胞 相互作用,协助其分裂、分化和产生抗体。第三类t 细胞具有细胞毒性功能, 即杀伤感染有病毒和胞内病原体的宿主细胞,成为细胞毒性t 细胞( t c ) 。 t 细胞借助自身的受体识别大分子抗原的特定部分,这部分即称为表位 ( e p i t o p e ) 。因而表位代表了抗原上一个免疫活性区,能与免疫细胞受体结合, t 细胞表位为免疫原性多肽片段,属于连续性决定簇。t 细胞表位必须具备两个 显著的结合部位:一为t 细胞表位,与t 细胞受体( tc e l lr e c e p t o r , t c r ) 结合; 另一为限制位,与m h c 结合。 适应性免疫应答可人为地分为以下三个部分:1 、识别活化阶段:是指抗原 递呈抗原细胞加工处理、递呈抗原和抗原特异性t b 细胞识别抗原后在细胞间 粘附分子协同作用下,启动活化的阶段,又称抗原识别阶段;2 、增殖分化阶段: 是指抗原特异性t b 淋巴细胞接受相应抗原刺激后,在细胞间共刺激分子和细 胞因子协同作用下,活化、增殖,分化为免疫效应细胞的阶段;3 、效应阶段: 是浆细胞分泌抗体和效应t 细胞释放细胞因子和细胞毒性介质,并在固有免疫 细胞和分子参与下产生免疫效应的阶段。在所有情况下,t 细胞所识别的抗原, 必须由其他细胞表面的主要组织相容性复合物( m h c ) 分子进行递呈。 1 4 第2 章主要组织相容性复合物 2 3 主要组织相容性复合物 m h c 分子是一组十分重要的免疫分子。迄今为止的免疫学发展史上,可以 说正是人们对m h c 分子认识的不断深化,才使得免疫学可以被勾勒出一个比较 完整的轮廓。尽管主要组织相容性复合物( m a j o rh i s t o c o m p a t i b i l i t yc o m p l e x ,m h c ) 编码分子的这个称谓与m h c 分子的生物学意义大相径庭。但m h c 分子从发现 到阐明生物学意义的过程中,依然彰显着现代免疫学的魅力,成为免疫学发展 史上重要的里程碑。在2 0 世纪的最后2 0 年中,关于m h c 分子的研究曾经获得 了三次诺贝尔医学生理奖【5 6 ,57 。 2 3 1 概述 2 0 世纪初人们发现,动物的自体组织移植可维持良好的功能,而同种异体 的动物间进行组织或器官移植时则会出现排斥反应。其后证明,发牛在同种异 体间的移植排斥反应本质上是一种免疫反应,它是由供者和受者细胞表面的同 种异型抗原诱导的。这种位于不同个体细胞表面、能够诱导移植排斥反应的抗 原称为移植抗原( t r a n s p l a n t a t i o na n t i g e n ) 或组织相容性抗原( h i s t o c o m p a t i b i l i t y a n t i g e n ) 。人和各种哺乳动物的组织相容性抗原系统十分复杂,多达2 0 种以上, 其中起决定性作用,能引起迅速而强烈排斥反应的抗原称为主要组织相容性抗 原( m a j o rh i s t o c o m p a t i b i l i t ya n t i g e n ,m h a ) ,引起较弱排斥反应的抗原称为次要 组织相容性抗原( m i n o rh i s t o c o m p a t i b i l i t ya n t i g e n ,m h a ) ,它们都是体细胞的基 因产物。编码主要组织相容性抗原的基因群称为丰要组织相容性复合物( m a j o r h i s t o c o m p a t i b i l i t yc o m p l e x ,m h c ) ,这些基因彼此紧密连锁在某一染色体上,与 同种移植排斥反应、免疫应答和免疫调节密切相关。m h c 编码的产物即主要组 织相容性抗原也称m h c 分子。主要组织相容性抗原广泛分布于哺乳动物的有核 细胞表面,其化学成分是脂蛋白或糖蛋白。不同动物的m h c 及其编码的抗原有 不同的命名。人的主要组织相容性抗原称为人类白细胞抗原( h u m a nl e u c o c y t e a n t i g e n ,h l a ) ,位于人体的第6 号染色体上垆引。 表2 2 不同哺乳动物m h c 的名称 第2 章主要组织相容性复合物 2 3 2h l a 的基因结构及遗传特征 人类的h i a 复合物定位于6 号染色体短臂( 6 p 2 1 ,3 ) ,全长3 , 6 0 0 k b ,共 有2 2 4 个基因座位,其中1 2 8 个为功能性基因,9 6 个为假基因。根据其编码产 物的结构和功能的不同,可将h l a 复合物分为3 个区域,从着丝点侧起,依次 为i i 类荩因区、i i i 类基因区和i 类基因区,如图2 1 。 h l a d pd nd md od qd r t a p b p 靠:右洲r t a ;矗肃c b rc 2 bcbg = | 甜删l h 硅掰m 瞬津 = = 瑁# - _ _ _ _ t _ _ _ _ _ 一l 1 _ jl _ _ _ _ _ _ - r _ _ _ _ _ _ _ _ 一 c l - i si ic i s mc l u si 图2 1 人类主要组织相容性复合物( 图片引自参考文献【5 9 】) ( 1 ) h l a i 类基因i 类基因区主要包含b 、c 和a 这3 个座位,其产物 为h l a i 类分子。i 类基因仅编码i 类分子异二聚体中的重链,轻链的编码基 因位于第1 5 号染色体。 ( 2 ) h l a i i 类基因i i 类基因区由d p 、d q 、d r 三个亚区,每个亚区又 包括两个或两个以上的功能性基因座位,它们分别编码分子量相近的a 链和p 链,形成d r a - - d r d 、d q a - - d q p 和d p a d 邛,三种二聚体。 ( 3 ) h l a i i i 类基因i i i 类基因区至少已发现了3 6 个基因座位,其中 主要的基因为c 2 、c 4 、b f , 肿瘤坏死因子( t n f ) 和热休克蛋白7 0 ( h e a ts h o c k p r o t e i n ,h s p 7 0 ) 等基因,分别编码补体成分c 2 、c 4 、b 因子、t n f 和h s p 7 0 分子吼硎。 为了准确地描述群体h l a 系统不同基因座位和同一基因座位不同等位基因 的复杂情况,近年来统一了h l a 基因和等位基因的命名,被命名的等位基因名 称中都有一个星号( 母) ,星号前为基因座位,星号后为等位基因。例如, h l a a * 0 1 0 3 代表h l a a 基因座位的第1 0 3 号等位基因。 2 3 3h l ai 类分子的结构及分布 玎一a 分子结构的阐明主要得益于蛋白质化学中的x 射线衍射技术,通过制 1 6 第2 章主要组织相容性复合物 备h l a 分子的蛋白质结晶,然后让一束x 射线穿过蛋白质结晶,x 射线在穿过 蛋白质结晶有规律的网格结构之后,可以形成衍射图案,分析x 射线衍射图谱 就可以推断出蛋白质的结构。1 9 8 7 年b j o r k m a n 等首先借助这一技术弄清了 h l a a 2 分子的立体结构。其后,其他h l a i 、类分子的结构也被陆续的阐明。 1 h l a i 类分子的结构 h l ai 类分子,也称二a i 类抗原,含有两条分离的多肽链,一条重链称q 链,相对分子量为4 4 k d a ,是由h l ai 类基因( h l a a 、b 、c ) 编码的;另一 条链称为p 链,即p 2 微球蛋白( 1 3 2 m i c r o g l o b u l i n ,d 2 m ) ,相对分子质量为1 2 k d a , 是1 5 号染色体上的非h l a 基因所编码的。根据对h l a a 2 和a w 6 8 分子的晶 体结构分析,i 类分子可以分为胞外区、跨膜区和胞内区三部分。 根据分子内二硫键的位置,重链胞外区又分0 【1 、砣和a 3 三个结构域 ( d o m a

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论