(控制科学与工程专业论文)蛋白质相互作用与功能预测方法研究.pdf_第1页
(控制科学与工程专业论文)蛋白质相互作用与功能预测方法研究.pdf_第2页
(控制科学与工程专业论文)蛋白质相互作用与功能预测方法研究.pdf_第3页
(控制科学与工程专业论文)蛋白质相互作用与功能预测方法研究.pdf_第4页
(控制科学与工程专业论文)蛋白质相互作用与功能预测方法研究.pdf_第5页
已阅读5页,还剩131页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

国防科学技术大学研究生院博上学位论文 摘要 蛋白质相互作用在许多细胞过程中扮演着十分重要的角色。蛋白质相互作用 网络预测和功能研究对理解生命活动的分子机制、疾病治疗、新药开发都具有重 要意义。随着高通量实验技术的发展,人们获得了大量的蛋白质相互作用数据, 为深入研究蛋白质相互作用提供了宝贵的资源。然而,蛋白质相互作用机理十分 复杂,相互作用数据呈现大规模、高噪声等特点,这给生物信息学研究带来了前 所未有的挑战。如何有效地确定蛋白质问的相互作用关系,进而构建完整的蛋白 质相互作用网络,并对蛋白质功能进行精准注释成了摆在人们面前的一项艰巨而 富有挑战性的任务。本文围绕蛋白质相互作用这一主题,对蛋白质相互作用预测 与基于蛋白质相互作用的功能注释方法进行了研究,论文主要研究内容和创新点 如下: ( 1 ) 基于序列的蛋白质相互作用预测方法研究。本文利用蛋白质的基本序列 特征,对蛋白质相互作用预测过程中的编码方法和分类算法进行了研究。首先, 提出了一种新的蛋白质对编码方法一对称编码方法。该方法将一个蛋白质对编 码为特征空间中两个对称的样本点,从而有效地利用了蛋白质对中两个蛋白质的 特征信息,提高了相互作用预测的精度。接着,对现有的两种模式分类方法进行 了改进。将核的思想引入局部超平面分类算法中,提出了核局部超平面分类算法; 另外,提出了一种基于局部支持向量机的预测方法,该方法充分考虑了蛋白质相 互作用数据的局部相似性特征,进而在待测样本附近构建支持向量机模型。这两 种算法为蛋白质相互作用预测提供了新的解决方法。 ( 2 ) 结构域相互作用预测方法研究。结构域是蛋白质结构和功能的基本单元, 多数蛋白质相互作用是特定结构域介导的。因此,识别结构域间的相互作用,从 结构域水平理解蛋白质问的相互作用尤为重要。本文提出了一种基于支持反对模 型的结构域相互作用预测方法,该方法分别利用支持模型和反对模型对结构域间 的相互作用情况进行打分,然后将打分结果进行综合,判别结构域间的相互作用。 在一组大规模蛋白质相互作用数据集上,该方法表现出良好的预测性能,为结构 域相互作用预测提供了新的手段。 ( 3 ) 研究了蛋白质相互作用可信度对功能注释的影响。实验得到的蛋白质相 互作用数据具有不同的可信度,当利用这些数据预测蛋白质功能时,传统方法对 每个样本平等对待,很少考虑相互作用数据的质量问题。本文研究了蛋白质相互 作用数据的质量对功能注释方法预测性能的影响,在原有近邻投票法和卡方法的 第i 页 国防科学技术大学研究生院博士学位论文 基础上,提出了两种改进的蛋白质功能预测方法一加权近邻投票法和加权卡方 法,改进后的方法能够有效地利用不同可信度相互作用样本中的有益信息,减少 了噪声对功能预测性能的负面影响,显著提高了功能预测算法的性能。 ( 4 ) 基于蛋白质相互作用网络的蛋白质功能预测方法研究。相互作用的蛋白 质趋于具有相同或相似的功能,这使得从蛋白质相互作用网络对蛋白质的功能进 行预测成为可能。为了对蛋白质功能进行有效地预测,本文提出了一种新的广义 全局优化框架,该框架充分考虑了相互作用网络中距离较远的蛋白质问的功能相 似性问题,定义了一种开放目标函数,并给出了求解该目标函数最小值的通用解 法。使用该框架,提出了一种基于广义优化框架和随机游走的蛋白质功能预测方 法,测试结果表明,该方法具有良好的预测性能,优于现有的一些功能预测方法。 另外,本文还提出了一种基于l o g i s t i c 回归的蛋白质功能预测方法,并对预测过程 中的特征选择问题进行了研究。结果表明,基于l o g i s t i c 回归的方法能够对蛋白质 的功能进行有效地预测,利用特征选择方法,不仅可以降低特征空间的维数,有 效去除冗余特征,而且能够揭示相互作用网络中的功能联系,提高功能预测的性 能。 关键词:蛋白质组学,蛋白质相互作用,结构域相互作用,蛋白质功能预测, 机器学习,数据质量,核方法,l o g i s t i c 回归 第i i 页 国防科学技术大学研究生院博士学位论文 a b s t r a c t p r o t e i n - p r o t e i ni n t e r a c t i o n sp l a ya i li m p o r t a n tr o l ei nm a n yc e l l u l a rp r o c e s s e s s t u d i e so np r o t e i n p r o t e i ni n t e r a c t i o n sa n dp r o t e i nf u n c t i o n sw i l lf a c i l i t a t et h e u n d e r s t a n d i n go fl i f ea c t i v i t i e s ,c l i n i c a lt h e r a p e u t i c s ,a n dp h a r m a c e u t i c a ld e s i g n r e c e n t a d v a n c e si n h i g h - t h r o u g h p u te x p e r i m e n t a lt e c h n o l o g i e s h a v eg e n e r a t e de n o r m o u s a m o u n t so fd a t aa n dp r o v i d e dv a l u a b l er e s o u r c e sf o rs t u d y i n gp r o t e i ni n t e r a c t i o n s h o w e v e r ,t h e s et e c h n o l o g i e ss u f f e rf r o mh i g he r r o rr a t e sb e c a u s eo ft h e i ri n h e r e n t l i m i t a t i o n s ;m o r e o v e r ,t h em e c h a n i s mo fp r o t e i ni n t e r a c t i o n si sc o m p l e x ,w h i c hi sa c h a l l e n g et ob i o i n f o r m a t i c sr e s e a r c h h o wt od e t e r m i n et h ei n t e r a c t i o n sb e t w e e n p r o t e i n se f f e c t i v e l y ,c o n s t r u c tt h ew h o l ep r o t e i ni n t e r a c t i o nn e t w o r k s ,a n da n n o t a t e p r o t e i nf u n c t i o n sa c c u r a t e l yh a v eb e c o m ep r o b l e m sw h i c hn e e db es o l v e da ss o o na s p o s s i b l e f o c u s i n go nt h et o p i co fp r o t e i n p r o t e i ni n t e r a c t i o n s ,t h i sd i s s e r t a t i o nr e f e r st o t h es t u d yo fp r o t e i ni n t e r a c t i o n p r e d i c t i o na n dp r o t e i nf u n c t i o np r e d i c t i o nf r o m p r o t e i n p r o t e i ni n t e r a c t i o n s t h em a i nc o n t e n t s a n dc r e a t i v ec o n t r i b u t i o n so ft h e d i s s e r t a t i o na r es u m m a r i z e da sf o l l o w s : ( 1 ) t h er e s e a r c ho nm e t h o d sf o rp r o t e i ni n t e r a c t i o np r e d i c t i o nb a s e do ns e q u e n c e s w ei n v e s t i g a t et h ef e a t u r ee n c o d i n gs c h e m eo fp r o t e i np a i r sa n dc l a s s i f i c a t i o nm e t h o d i n v o l v e di np r o t e i ni n t e r a c t i o np r e d i c t i o nb yu s i n gs e q u e n c ef e a t u r e s f i r s t l y ,an e w s a m p l ee n c o d i n gs c h e m e ,n a m e ds y m m e t r i c a le n c o d i n gs c h e m e ( s y e s ) ,f o rp r o t e i n p a i ri sd e v e l o p e db yw h i c has i n g l ep r o t e i n p r o t e i np a i ri sm a p p e dt ot w os y m m e t r i c a l p o i n t si nt h es a m p l es p a c e s y e sc a nf u l l yu t i l i z et h ef e a t u r ei n f o r m a t i o no fe a c h p r o t e i ni np r o t e i np a i r sa n di m p r o v et h ep r e d i c t i o np e r f o r m a n c e s e c o n d l y ,t w op a t t e r n c l a s s i f i c a t i o nm e t h o d sf o rp r o t e i ni n t e r a c t i o np r e d i c t i o na r ei m p r o v e d i no t h e rw o r d s , k e r n e lm e t h o di sc o u p l e d 谢t i lk - l o c a lh y p e r p l a n e s ( h k n n ) t od e v e l o pan e wm e t h o d , k e r n e lk - l o c a lh y p e r p l a n e s ( k h k n n ) ,t op r e d i c tp r o t e i n - p r o t e i ni n t e r a c t i o n s m o r e o v e r , an e wl o c a ls u p p o r tv e c t o rm a c h i n e ( l s v m ) m e t h o di s p r e s e n t e dt op r e d i c tt h e p r o t e i n - p r o t e i ni n t e r a c t i o n s ,w h e r et h el o c a lp r o p e r t yo ft h ep r o t e i n - p r o t e i ni n t e r a c t i o n d a t aw a st a k e ni n t oa c c o u n t ,a n ds u p p o r tv e c t o rm a c h i n e sw e r ec o n s t r u c t e dn e a rt h et e s t s a m p l e s t h et w om e t h o d sp r o v i d en e w s o l u t i o nf o rp r o t e i ni n t e r a c t i o np r e d i c t i o n ( 2 ) t h er e s e a r c ho nm e t h o d sf o rd o m a i ni n t e r a c t i o np r e d i c t i o n d o m a i n sa r e s t r u c t u r a la n df u n c t i o n a lb u i l d i n gb l o c k so fp r o t e i n sa n dp r o t e i n si n t e r a c t 、析t l lo n e a n o t h e rt h r o u g ht h e i rs p e c i f i cd o m a i n s ,w h i c hm a k ei ti m p o r t a n tt oi d e n t i f yd o m a i n i n t e r a c t i o n sf o ru n d e r s t a n d i n gp r o t e i ni n t e r a c t i o n sa tt h ed o m a i nl e v e l an e wm o d e l , n a m e ds u p p o r t o p p o s em o d e l ( s o ) ,i sp r o p o s e dt op r e d i c td o m a i ni n t e r a c t i o n s ,w h e r e e a c hd o m a i np a i ri sa s s i g n e d 、析t ht w os c o r e se v a l u a t e db ys u p p o r tm o d e la n do p p o s e 国防科学技术大学研究生院博士学位论文 m o d e lr e s p e c t i v e l ya n dt h et w os c o r e sa r ef u s e dt od e t e r m i n ep o s s i b i l i t yo fd o m a i n i n t e r a c t i o n s e x p e r i m e n t a lr e s u l t sf r o mal a r g es c a l ep r o t e i ni n t e r a c t i o nd a t a s e th a v e d e m o n s t r a t e dt h a ts om o d e li sau s e f u lm e t h o df o rt h ep r e d i c t i o no fd o m a i ni n t e r a c t i o n s , w h i c hp r o v i d ean e ww a yt op r e d i c td o m a i ni n t e r a c t i o n s ( 3 ) t h er e s e a r c ho nt h ee f f e c to ft h eq u a l i t yo ft h ei n t e r a c t i o nd a t ao np r e d i c t i n g p r o t e i nf u n c t i o nf r o mp r o t e i n p r o t e i ni n t e r a c t i o n s p r o t e i ni n t e r a c t i o ns a m p l e so b t a i n e d f r o me x p e r i m e n t sh a v ed i f f e r e n tq u a l i t i e s ,a n dt h et r a d i t i o n a lm e t h o d st r e a te a c h i n t e r a c t i o ns a m p l ee q u a l l yw h e np r e d i c t i n gp r o t e i nf u n c t i o nf r o mt h e s ed a t a , w h e r et h e q u a l i t i e so ft h ei n t e r a c t i o ns a m p l e sa r es e l d o mt a k e ni n t oa c c o u n t i nt h i sd i s s e r t a t i o n , w ei n v e s t i g a t et h ee f f e c to ft h eq u a l i t yo fp r o t e i ni n t e r a c t i o nd a t ao np r e d i c t i n gp r o t e i n f u n c t i o n m o r e o v e r ,t w oi m p r o v e dm e t h o d s ,w e i g h tn e i g h b o rc o u n t i n gm e t h o d ( w n c ) a n dw e i g h tc h i s q u a r em e t h o d ( w c h i ) ,a r ep r o p o s e db yc o n s i d e r i n gt h eq u a l i t yo f i n t e r a c t i o ns a m p l e s 晰t i lt h en e i g h b o rc o u n t i n gm e t h o d ( n c ) a n dc h i s q u a r em e t h o d ( c h i ) w n ca n dw c h ic a nm a k eu o ft h eq u a l i t yo fp r o t e i ni n t e r a c t i o nd a t a e f f e c t i v e l ya n dr e d u c et h en e g a t i v ee f f e c to ft h ee r r o r si nt h ei n t e r a c t i o nd a t a , w h i c hc a n i m p r o v et h ep r e d i c t i o np e r f o r m a n c em a r k e d l y ( 4 ) t h er e s e a r c ho nm e t h o d sf o rp r o t e i nf u n c t i o np r e d i c t i o nf r o mp r o t e i n i n t e r a c t i o nn e t w o r k s p r o t e i n si n t e r a c t i n gw i t he a c ho t h e ra r el i k e l yt os h a r es a m eo r s i m i l a rf u n c t i o n s w h i c hm a k e si tp o s s i b l et od e d u c ef u n c t i o n sf o ru n k n o w np r o t e i n s f r o mp r o t e i ni n t e r a c t i o nn e t w o r k s an e wg e n e r a lg l o b a lo p t i m a lf r a m e w o r k ( g g o f ) i s p r e s e n t e dt op r e d i c tp r o t e i nf u n c t i o nf r o mp r o t e i ni n t e r a c t i o nn e t w o r k s ,w h e r et h e f u n c t i o ns i m i l a r i t i e sb e t w e e np r o t e i n s w h i c hi sal i t t l ef a rf r o me a c ho t h e ri nt h ep r o t e i n i n t e r a c t i o nn e t w o r k s ,a r ec o n s i d e r e d i ng g o f ,w ed e f i n ea no p e no b j e c t i v ef u n c t i o n , a n dp r e s e n tt h eg e n e r a lp r o c e s st os o l v et h em i n i m i z a t i o no ft h eo b i e c t i v ef u n c t i o n m o r e o v e r ,an e wp r o t e i nf u n c t i o np r e d i c t i o nm e t h o db a s e do ng g o fa n dr a n d o mw a l k w i t hr e s t a r t ( g g o f r w r ) i sp r o p o s e d ,a n dt h ee x p e r i m e n t a lr e s u l t sh a v es h o w nt h a t g g o f r w rs h o w sb e t t e rp e r f o r m a n c et h a n ,o ra tl e a s tc o m p a r a b l ew i t h ,s o m eo ft h e p r e v i o u s l yd e v e l o p e dm e t h o d s f u r t h e r m o r e ,l o g i s t i cr e g r e s s i o ni s u s e dt o p r e d i c t p r o t e i nf u n c t i o n s ,a n dt h ef e a t u r es e l e c t i o nt e c h n i q u e sa r es t u d i e df o ri m p r o v e m e n to f p r e d i c t i o np e r f o r m a n c e t h ee x p e r i m e n t a lr e s u l t sh a v es h o w nt h a tl o g i s t i cr e g r e s s i o n c a np r e d i c tp r o t e i nf u n c t i o ne f f e c t i v e l y ,a n dt h ef e a t u r es e l e c t i o nc a nn o to n l yr e d u c e f e a t u r ed i m e n s i o na n de l i m i n a t er e d u n d a n c yb u ta l s od e t e c tt h er e l a t i o n s h i pb e t w e e n f u n c t i o n si nt h ep r o t e i ni n t e r a c t i o nn e t w o r k sa n di m p r o v et h ep r e d i c t i o np e r f o r m a n c e k e yw o r d s :p r o t e o m i c s 。p r o t e i n p r o t e i ni n t e r a c t i o n s ,d o m a i n d o m a i n i n t e r a c t i o n s ,p r o t e i nf u n c t i o np r e d i c t i o n ,m a c h i n el e a r n i n g ,d a t aq u a l i t y ,k e r n e l m e t h o d ,l o g i s t i cr e gr e s s i o n 第i i 页 国防科学技术大学研究生院博士学位论文 表目录 表2 1 不同主成分数时,对称编码方法在h p y l o r i 数据集的训练集上5 倍交叉验证 结果。2 4 表2 2 不同主成分数时,对称编码方法在h u m a n 数据集的训练集上5 倍交叉验证 结果。2 5 表2 3 不同编码方法的预测性能比较( 独立性测试) 2 6 表2 4 不同编码方法的预测性能比较( 1 0 倍交叉验证测试) 2 7 表2 5 不同方泫的预测性能比较2 7 表2 6 在h p y l o r i 数据集上,不同参数的k h k n n l 0 倍交叉验证结果3 3 表2 7 在h u m a n 数据集上,不同参数的k h k n n l 0 倍交叉验证结果一3 3 表2 8 不同核函数的性能比较3 5 表2 9 不同方法的预测性能比较3 6 表2 1 0 测试集上s v m 和l s v m 的性能比较。4 1 表2 1 1 不同方法对蛋白质相互作用预测的性能比较。4 2 表3 1s o 得分最高的前4 0 个结构域对6 0 表4 1 数据集详情6 7 表4 2 典型样本权重设置下的r o c 得分一7 4 表4 3 不同方法的r o c 得分7 7 表5 1 厶= 0 2 时,不同方法的预测性能比较9 2 表5 2 石i - 0 4 时,不同方法的预测性能比较9 4 表6 11 7 个用于芽殖酵母功能注释的f u n c a t 功能类9 9 表6 2 不同实验源的可信度1 0 1 表6 3 对不同功能进行预测时,特征的f d r 从大n d , 的排序1 0 9 表6 4 对不同功能进行预测时,s f s 选择特征的顺序1 0 9 表6 5 对不同功能进行预测时,s b s 删除特征的顺序1 1 0 第v 页 国防科学技术大学研究生院博士学位论文 图目录 图1 1 基于蛋白质相互作用网络的功能预测方法示意图8 图2 1 对称编码方法示意图17 图2 2 蛋白质相互作用预测流程1 9 图2 3 从低维空间映射到高维空间的一个例子2 8 图2 4k h k n n 预测正确率随参数d 的变化曲线a ) h p y l o r ib ) h u m a n 3 4 图2 5 支持向量机分类超平面示意图3 7 图2 6 局部支持向量机分类示意图3 9 图2 7 在足变化时,l s v m 的预测正确率变化曲线a ) h u m a n 数据集b ) h p y l o r i 数据集_ 4 1 图3 1 结构域介导蛋白质相互作用的示意图4 4 图3 2 基于结构域的蛋白质相互作用预测流程4 5 图3 3 蛋白质的近邻个数分布5 4 图3 4 蛋白质含有的结构域的个数分布5 5 图3 5 相互作用的蛋白质对中结构域对的含量分布5 5 图3 6 结构域在蛋白质中出现的次数分布5 6 图3 7 结构域对在蛋白质对中出现的次数分布5 7 图3 8 不同模型对i p f a m 结构域对的发现能力比较一5 8 图3 9 不同方法预测得到的正确率6 1 图3 1 0 含有特定数目的结构域对的蛋白质对的数目一6 1 图3 1 1 不同方法的预测性能比较6 2 图4 1 不同可信度的相互作用样本中,具有相同功能的蛋白质对所占的比例7 0 图4 2m f 注释下,不同相互作用可信度数据中蛋白质的分布情况一7 l 图4 3 使用不同数据源时,蛋白质功能预测性能的r o c 得分比较7 2 图4 4 不同样本权重设置下的r o c 曲线7 3 图4 5 在功能注释m f 上,r o c 得分随参数变化的曲线图7 5 图4 6 在功能注释c c 上,r o c 得分随参数变化的曲线图7 6 图4 7 在功能注释b p 上,r o c 得分随参数变化的曲线图7 7 图5 1 蛋白质相互作用网络示意图8 0 图5 2v a z q u e z 数据集中,蛋白质问的功能相似性8 7 图5 3y p 数据集中,蛋白质间的功能相似性8 7 第v i i 页 国防科学技术大学研究生院博士学位论文 图5 4 蛋白质相互作用网络示意图8 8 图5 5 不同近邻关系的蛋白质间的功能相似性8 8 图5 6v a z q u e z 数据集中,跏随y 变化的曲线图8 9 图5 7y p 数据集中,跏随y 变化的曲线图9 0 图5 8 不同方法的预测性能比较9 l 图5 9v a z q u e z 数据集中,z = 0 2 时,不同方法的预测性能比较9 2 图5 1 0y p 数据集中,z ;0 2 时,不同方法的预测性能比较9 2 图5 1 lv a z q u e z 数据集中,正= o 4 时,不同方法的预测性能比较9 3 图5 1 2y p 数据集中,z ;0 4 时,不同方法的预测性能比较。9 3 图6 1 基于l o g i s t i c 回归方法的蛋白质功能预测流程9 5 图6 2 蛋白质相互作用网络示意图。9 6 图6 3 数据集中注释了不同功能类的蛋白质的数目。1 0 0 图6 4 相互作用可信度对预测精度的影响1 0 2 图6 5 不同分类方法的性能比较1 0 3 图6 6 不同功能预测方法的性能比较。1 0 4 图6 7 特征选择的过滤方法和封装方法。1 0 6 图6 8r o c 得分随特征选择数目的变化曲线1 1 l 图6 9 对不同功能预测时,r o c 得分随特征选择数目的变化曲线。1 1 2 第v i i i 页 独创性声明 本人声明所呈交的学位论文是我本人在导师指导下进行的研究工作及取得的 研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其 他人已经发表和撰写过的研究成果,也不包含为获得国防科学技术大学或其它教 育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何 贡献均已在论文中作了明确的说明并表示谢意。 学位论文题目:蛋鱼厦担亘笠屈皇边丝亟趔左洼盟窒 学位论文作者签名:j 纪翕厶 日期: 2 的7 年7 月2 罗日 学位论文版权使用授权书 本人完全了解国防科学技术大学有关保留、使用学位论文的规定。本人授权 国防科学技术大学可以保留并向国家有关部门或机构送交论文的复印件和电子文 档,允许论文被查阅和借阅。9 可以将学位论文的全部或部分内容编入有关数据库 进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文 ( 保密学位论文在解密后适用本授权书。) 学位论文题目:蛋鱼厦担亘笠用曼功能亟型虚洼塑究 学位论文作者签名:4 觅翕厶日期:? 们7 年7 作者指导教师签名:至垦垒 日期1 1 年c 月 2 罗日 月诏日 国防科学技术大学研究生院博士学位论文 第一章绪论 1 1 引言 从d n a 双螺旋结构的发现到人类基因组计划( h u m a ng e n o m ep r o j e c t ,h g p ) 正式宣告完成【,现代生命科学取得了革命性进展,生命科学研究已进入后基因组 时代。此时,人们已不满足于对单个或者少数几个生物大分子进行研究,而是试 图以大规模的实验技术为基础,从整体上揭示生物系统的运行机制,进而对生物 系统的动态行为进行预测和控制【2 1 ,例如:疾病的诊断、治疗等。为了对复杂的生 物系统进行有效的观测,规模化、并行化的实验技术应运而生,如基因芯片( g e n e m i c r o a r r a y ) 3 - 6 l 、生物质谱( m a s ss p e c t r o m e t r y ) 1 7 、蛋白质芯片( p r o t e i nc h i p ) 等。 随着这些大规模实验技术的迅猛发展,生物数据以前所未有的速度增长。例如, 在基因组测序中,一个典型的测序中心每天能够生成的序列数据超过1 0 7b ;在蛋 白质组实验中,一台质谱仪分析一个样本会产生的数据大约为4 0 0 m b ,如果每台 仪器每天分析1 2 个样品,一个典型蛋白质组实验室一年产生的数据量约为6 t b ( 5 台质谱仪2 5 0 个工作日4 8 g ) ;基因芯片能够同时对数万个基因的表达情况进 行分析,产出的表达谱数据之多也是十分惊人的。如何收集、管理和理解如此规 模巨大的数据,尤其是如何从这些大批量、高噪声的异质数据( h e t e r o g e n e o u sd a t a ) 中获取有用的生物信息成了急需解决的问题。另一方面,计算机科学、信息科学 和网络技术迅速发展,并日益渗透到生命科学的各个领域中,这无疑为解决上述 生命科学领域的问题提供了坚实的基础。生物信息学( b i o i n f o r m a t i c s ) 就是在这 一背景下诞生和发展起来的,为从理论层面上对生物系统的本质进行研究提供了 一种有效途径。 生物信息学是生命科学与计算机科学、数理科学、化学等领域相互交叉而形 成的一门新兴学科,它利用数学和计算机技术对原始生物数据( 核酸数据、蛋白 质数据、基因芯片数据等) 及其相关的文献和资料进行收集、加工、存储、传播、 分析与解析,从中获取具有明确生物学意义的信剧8 2 0 1 。生物信息学的目的是理解 各种生物数据,获得隐藏在数据背后的知识,以加深人们对生命现象的理解,它 涵盖了功能基因组学、比较基因组学、蛋白质组学、系统生物学等热点研究领域。 生物信息学的研究内容大体可分为四个方面:首先是数据的分类、管理。通过分 子生物学实验以及其它各种手段获取的生物数据需要进行有效的分类,并使用安 全、可交互的数据库系统进行管理,这样才能为生物学的研究提供有力的保障; 其次是算法研究,高效实用的算法一直是生物信息学研究的重点,只有算法不断 第1 页 国防科学技术大学研究生院博士学位论文 创新,生物信息学才能够持续的向前发展;再次是实用软件开发和网络服务的提 供,通过为某些具体问题开发本地运行或网络在线运行的软件,能够进一步获取 和验证生物学知识,为相关的研究者提供应用服务;最后是专著和专业期刊的出 版,生物信息学相关专著和专业期刊反映着生物信息学的发展水平,利用它们, 研究者们可以交流最新的研究成果。 在后基因组时代,基因组信息的获取已变得比较容易,随着新基因的发现和 精确定位,基因功能研究将成为人们关注的焦点。根据中心法则,记录遗传信息 的基因一般都要翻译成蛋白质才能在各种生命活动中执行其功能,因此,对蛋白 质的研究显得尤为重要。以蛋白质为研究对象,形成了蛋白质组学( p r o t e o m e s ) 这个新的研究领域。蛋白质组是指某一生物体、组织、器官或者细胞,在特定条 件下所表达的全套蛋白质1 2 l 】,蛋白质组学试图从整体水平上研究样品中蛋白质的 组成及其活动规律。然而,在不同生理条件下,生命活动所需要的蛋白质是不同 的,并且伴随着翻译后修饰、亚细胞定位改变、构象改变等生化过程,蛋白质功 能的行使也是一个动态过程,这使得蛋白质组具有高度的动态特性,给蛋白质组 学研究提出了前所未有的挑战。 当前,蛋白质组研究的一个重要内容就是揭示蛋白质问的相互作用关系 ( p r o t e i n p r o t e i ni n t e r a c t i o n ,p p i ) 。理解蛋白质间如何进行相互作用以及这种相互作 用所行使的功能,是理解生命活动的基础。利用蛋白质问的相互作用信息构建复 杂的相互作用网络,研究蛋白质间的功能联系,能够为从整体上掌握生命的运行 机制提供有益信息。虽然人们已通过实验方法确定了模式生物蛋白质间的一些相 互作用,建立了一些专业的蛋白质相互作用数据库,并对相互作用的细节有了一 定了解,而且每年还有大量的相关研究成果发表在各种专业出版物上,积累了一 些蛋白质相互作用的相关知识。但是,这些研究成果对于构建精确完整的蛋白质 相互作用网络还是远远不够的。如何利用已有生物数据对未知的蛋白质相互作用 进行有效的预测,以及如何利用现有的知识对蛋白质相互作用网络进行有效的分 析,从而对蛋白质的功能有更深层次的了解,阐明生命活动复杂的分子运行机制, 已成为蛋白质组学研究中亟待解决的问题。 因此,本文主要围绕蛋白质相互作用 与功能预测这一主题,对多个关键问题进行了深入研究,并提出了相应的解决方 案。 1 2 研究背景 研究蛋白质相互作用的最终目标就是建立生物系统中全部蛋白质相互作用的 网络,阐明蛋白质相互作用的完整网络结构,这将为研究蛋白质的功能及细胞的 第2 页 国防科学技术大学研究生院博士学位论文 全局特征构筑一个框架。为了达到这一目标,研究者们开展了广泛的研究,这包 括,蛋白质相互作用数据和功能注释数据的收集和整理及数据库的建立;使用生 物信息学方法,开发和应用各种算法进行蛋白质相互作用及其网络预测;通过蛋 白质网络对蛋白质功能进行分析等。本节对最近几年生物信息学方法在蛋白质相 互作用预测和功能研究中的最新进展进行了综述,首先介绍了蛋白质相互作用的 意义,然后介绍了蛋白质相互作用预测和基于蛋白质相互作用网络的蛋白质功能 预测的相关方法;最后,指出了蛋白质相互作用给生物信息学研究带来的挑战。 1 2 1 蛋白质相互作用的意义 蛋白质间的相互作用一般分为两类,物理相互作用( p h y s i c a li n t e r a c t i o n ) 和遗 传相互作用( g e n e t i ci n t e r a c t i o n ) 。物理相互作用是指,由于结构上互补或存在相 互吸引的作用力,两个蛋白质物理上相互绑定在一起,或多个蛋白质一起形成蛋 白质复合体( p r o t e i nc o m p l e x ) ,整体上发挥某个功能,例如,蛋白质修饰、蛋白 质剪切等。而遗传相互作用是指,一个基因( 蛋白质) 的突变导致另一个基因行 为的改变,这种相互作用表现为蛋白质功能间的联系,相互作用的蛋白质之间并 没有物理上的直接接触,例如,酶促反应中,两个酶可通过连续的化学反应发生 间接的相互作用。 蛋白质问的相互作用是细胞实现功能的基础,在生命体中起着极其重要的作 用,几乎在所有的细胞活动中,蛋白质相互作用都发挥着关键性的作用,例如d n a 合成、基因转录激活、生命代谢过程、产物分泌、能量产生和消耗、信号转导、 病毒感染、机体对病毒的防护、细胞周期调控等【2 2 2 3 1 。有些蛋白质长久结合在一 起,而有些蛋白质问的相互作用却很短暂,虽然相互作用的持续时间不同,但它 们都对细胞活动发挥着控制作用,从细胞的增殖、分化,直至细胞死亡,蛋白质 相互作用均参与其中。蛋白质问通过相互作用,不仅能够产生新的结合位点、改 变自身对底物的特异性,还能够使其它蛋白质失活,调控其它基因的表达。总之, 如果蛋白质

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论