




已阅读5页,还剩72页未读, 继续免费阅读
(计算机软件与理论专业论文)基于文本挖掘的蛋白质相互作用关系的提取方法研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中国科学技术大学学位论文相关声明 本人声明所呈交的学位论文,是本人在导师指导下进行研究工作 所取得的成果。除已特别加以标注和致谢的地方外,论文中不包含任 何他人已经发表或撰写过的研究成果。与我一同工作的同志对本研究 所做的贡献均已在论文中作了明确的说明。 本人授权中国科学技术大学拥有学位论文的部分使用权,即:学 校有权按有关规定向国家有关部门或机构送交论文的复印件和电子 版,允许论文被查阅和借阅,可以将学位论文编入有关数据库进行检 索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。 保密的学位论文在解密后也遵守此规定。 作者签名:王羔、毙 枷苫年j 月玎日 中国科学技术大学硕士学位论文摘要 摘要 伴随着基因组和蛋白质组研究日新月异的快速发展,相关信息出现了爆炸性增长, 迫切需要对海量生物信息进行处理。其中,大量的生物学数据是以结构化的形式存在 于数据库中的,例如基因序列、基因微阵列实验数据和分子三维结构数据等,而更加 大量的生物学知识则以非结构化的形式被记载在各种文献中。对于生物和医学研究人 员来说,通过手工查找文献来获取相关领域的信息是很困难的,需要借助于文本挖掘 的手段来完成。基于文本挖掘的蛋白质相互作用关系的提取方法研究是文本挖掘技术 在生物医学领域的应用,本文的主要研究内容和贡献包括: ( 1 ) 生物命名实体识别 生物命名实体识别就是使用文本挖掘技术识别出生物文本中的命名实体,主要包 括基因、蛋白质和药物的名字。在生物医学文献中,大量的生物命名实体以缩写词形 式不断涌现,本文重点研究了生物缩写词及其定义识别算法。本文提出了一种缩写词 及其定义识别算法借鉴了生物序列比对的算法思想,采用动态规划的方法建立递归公 式,求解该递归公式最终回溯得到了最优的比对结果。该算法在公共数据集m e d s t r a c t g o l ds t a n d a r dc o 印u s 上获得了8 3 的回收率以及9 1 的准确率,比已有算法略高。在此 基础上,我们构建了一个生物缩写词及其定义识别系统m a ,在该系统中缩写词被分 成了a c r o n y m - t y p e 和n o n a c r o n y m t y p e 两种类型,针对不同类型的缩写我们采用了不 同的方法,m b a 系统最终获得了8 8 的回收率以及9 1 的准确率,高于已有算法。 ( 2 ) 蛋白质相互作用关系信息提取 蛋白质相互作用关系信息提取主要涉及两类研究工作,一类是不确定关系的蛋白 质相互作用信息提取,另一类是提取确定的蛋白质相互作用关系,本文重点研究第二 类工作中的蛋白质磷酸化作用关系信息提取。已有的蛋白质磷酸化作用关系信息提取 系统i u i m s p 使用一种基于规则的方法来识别蛋白质实体,识别的准确率和回收率较 低,我们提出了一个磷酸化作用信息提取系统m i n e p h o s ,该系统采用了识别率很高的 n l p r o t 来识别蛋白质实体,另外,在该系统中还引入了已有的磷酸化数据库 中国科学技术大学硕士学位论文 摘要 p h o s p h o e l m 以及同义词知识库s f t h e s a u r u s ,可以通过直接匹配直接找出已知的磷酸 化信息,这样做的好处是可以提高系统的准确率和回收率。最后的实验结果表明 m i n e p h o s 取得了7 7 的准确率以及7 7 的回收率,比f u l i m s p 的性能要高。 本文工作的特色和创新在于:针对缩写词定义识别问题,提出了一种类似于生 物序列比对的比对算法,该比对算法的亮点在于能够识别出一些稍不规则的 a c r o n y m t y p e 缩写及其定义;建立了一个生物缩写词及其定义识别系统a ,该系 统采用一种打分机制,将得分比较高的划分为a c r o n y m t y p e 缩写,得分较低的划分为 n o n a c r o n y m t y p e 缩写,然后针对不同类型的缩写采用不同的方法;建立了一个磷酸 化作用关系信息提取系统m i n e p h o s ,该系统中引入了已有的磷酸化数据库 p h o s p h o e l m ,并使用了基于s v m 的蛋白质实体识别方法。 关键词:生物信息学;文本挖掘:缩写词识别;定义;磷酸化;动态规划;统计方法; 蛋白质相互作用;序列比对:命名实体;a c r o n y m t y p e 缩写;n o n - a c r o n y m t y p e 缩写: 支持向量机 中国科学技术大学硕士学位论文 a b s 仃a c t a b s t r a c t w i t ht h ed e v e l o p m e n to ft h er e s e a r c ho ng e n o m ea n dp r o t e o m e ,r e i a t e di n f o r n l a t i o n i n c r e a s e sr a p i d l y ,a n di t i s n e c e s s a 猡t op r o c e s sal o to fb i o l o g i c a li n f o r m a t i o n m u c h b i o l o g i c a id a t ai sf o m l a n e di n t ot h ed a t a b a s e ,s u c ha sg e n es e q u e n c e s ,m i c r o a r r a yg e n ed a t a , t h r e ed i m e n s i o n a is t r u c t u r a id a t af o rm o l e c u l e sa n ds oo n h o w e v e r am u c h1 a 唱e rq u a n t i t y o fb i o l o g i c a ll ( n o w l e d g ei ss t o r e di nt h eb i o i o g i c a l l i t e r a t u r e i ti sd 两c u l tf o r b i o m e d i c a l r e s e a r c h e r st og e tw h a tt h e yn e e db yh a n d ,a n dt h e r e f o r et e x tm i n i n gt o o l sa r en e e d e dt o p r o v i d et h e mag r e a th e l p t h er e s e a r c ho ne x t r a c t i n gt h ei n f o r n l a t i o nf o rp r o t e i n p r o t e i n i n t e r a c t i o n si sa n 印p i i c a t i o no ft e x tm i n i n gi nt h eb i o m e d i c a la r e a t h em a i nc o n t e n ta n d c o n t r i b u t i o n si n c l u d e : ( 1 ) b i o i o g i c a ie n t i t ) ,r e c o g ni t i o n f o rb i 0 1 0 9 i c a le n t i t yr e c o g n i t i o n ,t h et a s ki st or e c o g n i z eb i o l o g i c a le n t i t i e st h r o u g ht e x t m i n i n g t h eb i o l o g i c a le n t i t i e si n c l u d eg e n e s ,p r o t e i n sa n dd n j g s i nt h eb i o l o g i c a il i t e r a t u r e , m a n ye n t i t i e sa p p e a ri nt h ef o r mo f t h e i rr e s p e c t j v ea b b r e v i a t i o n s ,a n dw em a i n l yr e s e a r c ho n t h er e c o g n i t i o nf l o rb i o l o g i c a la b b r e v i a t i o n sa n dt h e i rc o r r e s p o n d i n gd e n n i t i o n s t h e r ea r e t w om e t h o d sp r o p o s e dh e r e t h en r s tr e c o g n i t i o na l g o r i t h m ,c a l i e dd p a 1 g n m e n t ,l e a m s f r o mb i o l o g i c a ls e q u e n c ea l i g n m e n t ,a n dw eg e tt h eo p t i m a ir e s u l tw h e nw ec o m p u t et h e r e c u r s i o ne q u a t i o np r o d u c e db yad y n a m i cp r o g r a m m i n gm e t h o d d p - a 1 g n m e n ta l g o r i t h m i se v a l u a t e do nt h em e d s t r a c tg o i ds t a n d a r dc o 叩u s ,r e s u l t i n gi nar e c a l lo f8 3 a tt h e p r e c i s i o no f91 ,a n di ti sa l i t t l eb e t t e rt h a no t h e ra l g o r i t h m s b a s e do nt h i sa l g o r i t h m ,w e c o n s t r u c tal i t e r a t u r em i n i n gs y s t e mm b af o re x t r a c t i n gb i o m e d i c a la b b r e v i a t i o n s w e c i a s s i f ya b b r e v i a t i o n si n t oa c r o n y m - t y p ea n dn o n a c r o n y m - t y p ea b b r e v i a t i o n si nt h es y s t e m , a n dd i f l 一e r e n tr e c o g n i t i o nm e t h o d sa r eu t i l i z e df o rd i f i e r e n tt y p e so fa b b r e v i a t i o n s t | h u s ,t h e m b a s y s t e ma c h i e v e sar e c a l lo f8 8 a tt h ep r e c i s i o no f91 ,a n di t i sm u c hb e t t e rt h a n o t h e ra l g o r i t h m s ( 2 ) e x t r a c t i n gt h ei n f o r m a t i o na b o u tp r o t e i n - p r o t e i ni n t e r a c t i o n s t h ew o r ki n c i u d e st w ot o p i c s :o n ei si n f 0 r f n a t i o ne x t r a c t i o nf - o ra l lk i n d so fp r o t e i n - p r o t e i n i n t e r a c t i o n s ,a n dt h eo t h e ri si n f o r m a t i o ne x t r a c t i o nf o ras p e c i 6 e dp r o t e i n - p r o t e i ni n t e r a c t i o n i n f o m a t i o ne x t r a c t i o nf o rp r o t e i np h o s p h o r y l a t i o ni st h em a i np o i n ti nt h i st h e s i s t h e e x i s t e ds y s t e mr l i m s pr e c o g n i z e sp r o t e i nn a m e sb a s e do nas e r i e so fr u i e s ,r e s u l t i n gi na l o wr e c a l lr a t ea n dal o wp r e c i s i o nr a t e ,a n dw ep r o p o s ean e ws y s t e mm i n e p h o sf o r e x t m c t i n gp r o t e i np h o s p h o 呵i a t i o ni n f o r m a t i o n i nt h em i n e p h o ss y s t e m ,p r o t e i nn a m e sa r e f 0 u n du s i n gn l p r o t ,ap r o t e i nr e c o g n i t i o ns y s t e mb a s e do nas u p p o r tv e c t o rm a c h i n e ,a n dt h e p h o s p h o r y l a t i o nd a t a b a s ep h o s p h o r e l ma n dt h es y n o n y m o u sw o r d sd a t a b a s es f t h e s a u r u s a r ei n c o r p o r a t e di n t oo u rs y s t e m i nt h i sw a y ,t h em i n e p h o ss y s t e ma c h i e v e sh i 曲e rr e c a l l a n dh i g h e rp r e c i s i o nb ym a t c h i n gt h el ( n o w np h o s p h o r y i a t i o ni n f o r m a t i o ni n c l u d e di nt h e p h o s p h o r e l md a t a b a s e a tl a s tt h ee x p e “m e n ts h o w st h a tt h em i n e p h o ss y s t e ma c h j e v e sa r e c a l lo f7 7 a tt h ep r e c i s i o no f7 7 ,a n di ti sb e t t e rt h a nt h er l i m s ps y s t e m t h ec h a r a c t e r i s t i c sa n di n n o v a t i o n so ft h i sd i s s e r t a t i o na r e :w ep r o p o s ean e w a l i 印m e n ta i g o r i t h ma n a l o g o u st op a i n v i s es e q u e n c ea i i g n m e n tf o ra b b r e v i a t i o nr e c o g n i t i o n , a n di tc a nr e c o g n i z eal i t t l ei i r e g u l a ra c r o n y m t y p ea b b r e v i a t i o n sa n dt h e i rd e n n i t i o n s w ec o n s t r u c tal i t e r a t u r em i n i n gs y s t e mm b af o re x t r a c t i n gb i o m e d i c a la b b r e v i a t i o n s i nt h e s y s t e m , as c o r i n gm e t h o di su s e df o rc l a s s i f y i n ga b b r e v i a t i o n si n t oa c r o n y m - t y p e a b b r e v i a t i o n sw i t h h i g h s c o r e sa n dn o n a c r o n y m - t y p ea b b r e v i a t i o n sw i t hl o ws c o r e s d i 仃e r e n tt y p e so fa b b r e v i a t i o n sa r er e c o g n i z e db yd i f i f e r e n tm e t h o d s 1 ) 、】v ec o n s t r u c ta l j t e r a t u r em i n i n gs y s t e mm i n e p h o sf o rp r o t e i np h o s p h o r y l a t i o n t h ed a t a b a s ep h o s p h o e l m a n dap r o t e i ne n t i t yr e c o g n i t i o nm e t h o db a s e do ns v ma r ei n c o r p o r a t e di n t ot h es y s t e m 1 删w 【1 j t d s :b i o i 嚏o r m n t c s t e x tm i n i n g n b b r e v i n t i o nt e c o g n n i o n d 色f l n i t i o n p h o s p h o 咧i n t i o n d y n c i m i cp r o 铲q m m i n g 。s t n t i s t i c n lm e t h o d p r o t e i n - p r o l e i ni n t e r n c t i o n , s e q u e n c en t i g 掰n e n t 。e n l i 哆q c r o r i y m 一妙p e n o n q c r o r l ) m 一 ) p e ,s y m 4 中国科学技术大学硕士学位论文第一章绪论 第一章绪论 本章概要本章给出整个论文的主要研究内容。第一节简单介绍本文研究问题及 意义;第二节介绍本领域的研究现状;接下来第三节介绍本文所做工作及成果。 最后一节提供一个本领域的文献资源列表,由此可以了解生物文本挖掘以及其他 相关生物信息学研究课题的进展。本章最后给出全文的章节安排。 1 1 本文研究问题及意义 本文研究内容属于生物信息学文本挖掘,也可被称为生物文本挖掘,即采用数据 挖掘的手段从已有的生物文献资源中获取生物知识。 目前,伴随着基因组和蛋白质组研究日新月异的快速发展,相关信息出现了爆炸性 增长,迫切需要对海量生物信息进行处理。其中,大量的生物学数据是以结构化的形 式存在于数据库中的,例如基因序列、基因微阵列实验数据、分子三维结构数据和蛋 白质质普数据等。而大量的生物学知识以非结构化的形式被记载在各种文献中。传统 的印刷型生物学文献数量巨大,但缺乏结构化特征,存在着难以被计算机自动处理分 析的“瓶颈”。近年来随着计算机网络技术的发展,期刊文献出现了网络版本,最为著 名的就是p u b d 。到2 0 0 5 年为止,世界上最为权威的医学文献数据库p u b m e d 已 收录世界上7 0 多个国家4 8 0 0 多种期刊上的超过1 3 0 0 万条文献,而且以每天增加2 0 0 0 条文献的速度增长着。出版物的巨大数量使得人们在巨大的文献集中发现和获取感兴 趣的信息变得愈加困难,对于如此巨大数量的信息( 特别是那些跨学科的知识) ,仅仅 凭借专业研究人员的个人能力是根本无法达到满意效果的,必须借助于计算机采用一 种自动化的方法去实现,这样可以提高信息管理的效率。文本挖掘在生物学领域中的 应用,除了可以提高信息管理的效率之外,更大的意义在于可以通过对文本分析研究 帮助人们发现在文本中隐含的知识,从而提高人们对生物学乃至医学现象的认识。例 如,运用分子生物学文献的挖掘技术来分析海量的生物学数据,可以帮助分子生物学 专业人员更好地理解数据分析结果。因此,生物文本挖掘具有更为浓重的知识发现色 彩,甚至周雪忠等人( 2 0 0 4 ) 将这个新兴领域命名为k d i b l ( k 1 0 w j e d g ed i s c o v e 叫i n 9 中国科学技术大学硕士学位论文第一章绪论 b i o m e d i c a ll i t e r a t u r e ) 。 本文研究问题主要包括如下两个方面: 生物命名实体识别 生物命名实体识别的直接目的是从文本集中识别出指定类型的名称。例如蛋白质, 基因,核糖核酸,脱氧核糖核酸,细胞的名称等。命名实体识别包括两项任务:一为 识别,即找到文本中命名实体的边界;二为分类,即确定命名实体的语义类别。生物 命名实体识别很富有挑战性,主要有以下几个原因:新术语不断出现,生物命名实体 中有大量的大写字母,数字和非字母字符;描述性的命名习惯;很多生物命名实体是 多词短语,相同的词或者短语可以表示不同类别的生物命名实体;非标准的命名习惯; 存在大量缩写形式的生物命名实体;嵌套形式,即一个生物命名实体包含在另一个生 物命名实体中。本文重点研究了生物缩写词及其定义识别方法。 蛋白质相互作用关系信息提取 信息提取是从一段文本中抽取指定的一类信息并将其形成结构化的数据供用户使 用的过程。信息提取与信息检索是不同的,信息检索只是为了确定文献讨论的主题, 而信息提取的目的是提取已经预定义好的事实,特别是两种或多种生物实体之间的关 系。在生物学领域,信息提取的目标是发现在文献中出现的基因与基因、蛋白质与蛋 白质间的相互作用关系。进行信息提取的更深层次的目标是采用各种技术对生物学文 献自动化理解和解释文献信息,手工方法要求人们必须通读全篇后判断与文本主题相 关的关键词,现在可以利用统计学方法自动抽取那些与文献内容相关的词语,特别是 那些在某类文档集合中常出现的词可以用来描述该类别的属性。 1 2 研究现状 这里我们分别讨论生物命名实体识别和蛋白质相互作用关系信息提取的研究现 状。目前,在生物命名实体识别上,研究人员提出的方法包括:基于规则的方法,基 于字典的方法,机器学习的方法,基于概率统计的方法和文本比对的方法。 基于规则的方法 1 0 中国科学技术人学硕士学位论文 第一章绪论 主要工作包括f u k u d ae ta i ( 1 9 9 8 ) ,f r a n z e ne ta l ( 2 0 0 2 ) ,p u s t e j o v s k ye ta i ( 2 0 0 1 ) , a oa n dt a k a g i ( 2 0 0 5 ) 等。算法中的规则是根据生物名字实体的命名规律,由专家提 供的可以用于指导名字识别工作的一些命名方式。该方法速度快,可以处理上述的 表述多样性问题,但需要专家参与进行规则的制订与管理,通用性和可扩展性很小。 基于字典的方法 该类方法主要包括k r a u t h a m m e re ta i ( 2 0 0 0 ) ,a l t s c h u le ta i ( 1 9 9 7 ) 等。基于字典 的算法需要一个较大的精化过的名字库以及匹配策略。该方法的实现方式较为直 接,易于理解,但由于生物领域的名字数量庞大,更新频繁和表达不一致,使得维 护一个生物字典库非常困难。 机器学习的方法 机器学习的方法主要有c h a n g e ta l ( 2 0 0 2 ) ,c o l l i e re ta l ( 2 0 0 0 ) 和m o 唱a ne ta l ( 2 0 0 3 ) 等工作,它们是在一个标注过的训练文集中提取需要识别的名字实体的模式作为分 类标准的方法,其关键在于选取的特征和分类器。该方法在灵活性,对特定环境 的适应性,以及处理小样本能力等方面体现了较大的优势,但它需要对大量的文集 进行手工标注用以训练,会因数据不均衡导致“过学习”。 基于概率统计的方法 基于概率统计的方法以z h o ue ta 1 ( 2 0 0 6 ) 为代表,统计时需要大量的数据来进行统 计分析,一般都是在m e d l i n e 文献数据库上进行。这类方法针对可能的候选生物实 体,统计其在m e d l i e n 中出现的频率,由此确定正确的实体名字。该方法对于常见 的生物实体的识别率比较高,但对于少见的或新出现的生物实体很难识别出来。 文本比对的方法 文本比对的方法主要用在生物缩写词及其定义识别上,用于对缩写词和它对应的 定义进行比对,主要的研究工作包括s c h w a r t za n dh e a r s t ( 2 0 0 5 ) ,t a g h v aa n d g i l b r e t h ( 1 9 9 5 ) ,c h a n ge ta l ( 2 0 0 2 ) 。该方法能够准确地找出规则的缩写词及其定义,例 如缩写词为“d c ,定义为“d e n d r i t i cc e l l ,但对于不规则的缩写词及其定义很难找到, 例如缩写词为“c n sl ”,定义为“c y c l o p h i i i ns e v e ns u p p r e s s o r ”。 在蛋白质相互作用关系的信息提取上,主要有两类研究方法:基于概率统计的方 中国科学技术大学硕士学位论文 第一章绪论 法和自然语言处理的方法。 基于概率统计的方法 该类方法主要有( d o n a l d s o ne ta l ,2 0 0 3 和m a r c o t t ee ta l ,2 0 0 0 ) ,他们假设如果两个 生物实体经常同时出现在一个句子、段落或者文章中,则二者存在某种关系。通过统 计同现频率计算出生物体存在关系的可能性。 自然语言处理的方法 p y y s a l o e ta i ( 2 0 0 6 ) 是一个典型的自然语言处理方法,它借助于自然语言处理研究中 的句法分析和语义分析的工具,解决生物文献中复杂的语法现象,通过匹配特定语法 关系的模板,提取生物体相互作用的关系。该方法可以提取出生物体间特定的关系, 但因需要人手工标注训练语料支持,所以它离不开大量的人力资源。目前,生物领域 的关系信息提取一般都是用基于概率统计的方法来实现的。 1 3 本文工作及成果 本文工作也围绕两部分展开: 生物命名实体识别 本文重点研究了生物缩写词及其定义识别问题,提出了一种新型的动态规划比对 算法,在缩写和候选定义进行比对时,引入了一种打分机制,采用动态规划的方法建 立递归公式,求解该递归公式回溯得到了最优的比对结果。该算法在公共数据集 m e d s t r a c tg o l ds t a n d a r dc o 叩u s 上获得了8 3 的回收率以及9 1 的准确率,比已有算法 的结果稍高。接着,本文又提出了一种识别率很高的方法,该方法对缩写词进行了分 类:a c r o n y m - t y p e 和n o n a c r o n y m t y p e 两种类型,针对a c r o n y m t y p e 型缩写采用了上述 动态规划比对算法,而对于n o n - a c r o n y m t y p e 算法采用了一种新的概率统计方法,最后 该方法得到了8 9 的回收率以及9 0 的准确率,远高于已有算法,在此基础上,我们 构建了一个生物缩写词定义识别系统m b a 。另外,我们还提出了一种多种方法混合的 生物实体识别方法,并把我们的缩写词定义识别系统m b a 加进来用于识别缩写词及其 定义,最后评估的结果表明该方法与已有方法的性能相当。 蛋白质相互作用关系信息提取 1 2 中国科学技术大学硕士学位论文第一章绪论 本文主要研究了蛋白质磷酸化关系信息提取。已有的蛋白质磷酸化作用关系信息 提取系统i u i m s p 使用一种基于规则的方法来识别蛋白质实体,识别的准确率和回收 率较低,我们构建了一个磷酸化作用信息提取系统m i n e p h o s ,该系统采用了识别率很 高的n l p r o t 来识别蛋白质实体,另外,在该系统中还引入了已有的磷酸化数据库 p h o s p h o e l m 以及s f t h e s a u r u s 同义词知识库,可以通过直接匹配直接找出已知的磷酸 化信息,这样做的好处是可以提高系统的准确率和回收率。最后的系统评估显示, m i n e p h o s 取得了7 7 的准确率以及7 7 的回收率,比r l i m s p 的性能要高。 1 4 文献资源 生物信息学文本挖掘的研究离不开与国际国内同行的交流以及丰富的文献资源。 为了便于调研、学习和研究,我们列出了一些在生物信息学文本挖掘领域有影响的杂 志、期刊会议以及网站供参考。 电子文献资源 a c m 电子文献资源数据库 i e e e 电子文献资源数据库 e l s e v i e r 电子文献资源数据库 s p r i n g e r 电子文献资源数据库 o x f o r d 电子文献资源数据库 b i o m e dc e n t r a l 电子文献资源数据库 a c a d e m i c 电子文献资源数据库 h i 曲w i r e 电子文献资源数据库 期刊 b i o i n f o r m a t i c s b m cb i o i n f o r m a t i c s n u c l e i ca c i d sr e s e a r c h ( n a r ) g e n o m er e s e a r c h 1 3 中国科学技术大学硕士学位论文 第一章绪论 p r o t e i n s :s t r u c t u r e ,f u n c t i o na n db i o i n f o m l a t i c s j o u m a lo fc o m p u t a t i o n a lbi o l o g y ( j c b ) j o u m a lo fb i o i n f o r n l a t i c sa n dc o m p u t a t i o n a lb i o i o g y ( j b c b ) i e e e a c mt r a n s a c t i o n so nc o m p u t a t i o n a lb i o i o g ya n db i o i n f o r m a t i c s ( t c b b ) g e n o m i c s ,p r o t e o m i c sa n db i o i n f o r m a t i c s t h ep r o c e e d i n g so f n a t i o n a la m e r i c a ns c i e n c e ( p n a s ) i n t e r n a t i o n a lj o u m a io fb i o i n f o n n a t i c sr e s e 黜ha n da p p l i c a t i o n s ( i j b r a ) 会议 a n n u a ic o n f e r e n c eo nc o m p u t a t i o n a lb i o l o g y ( i 迎c o m b ) a s s o c i a t i o nf o rc o m p u t a t i o n a ll i n g u i s t i c s ( a c l ) i n t e l l i g e n ts y s t e m s f o rm o l e c u l a rb i o l o g y ( i s m b ) i e e e c o m p u t a t i o n a ls y s t e m sb i o i n f o n l l a t i c sc o n f e r e n c e ( c s b ) w b r k s h o po na l g o r i t h m si nb i o i n f o r n l a t i c s ( w a b i ) p a c i f i cs y m p o s i u mo nb i o c o m p u t i n g ( p s b ) e u r o p e a nc o n f e r e n c eo nc o m p u t a t i o n a lb i o i o g y ( e c c b ) i e e ec o n f e r e n c eo nb i o t e c h n o i o g ya n db i o i n f o r m a t i c s ( b i b e ) i n t e m a t i o n a lw 6 r k s h 叩o ng e n o m ei n f o n n a t i c s ( g i w ) a s i a - p a c i f i cb i o i n f o r m a t i c sc o n f e r e n c e ( a p b c ) 1 5 论文组织 本文先介绍研究课题所需的相关技术及知识,再按研究内容的先后次序进行撰写 和编排。全文共分五章,各章节的内容安排如下: 第一章:绪论本章给出整个论文的主要研究内容。首先简要介绍本文的研究问 题及意义;接下来,给出该问题所在的研究领域的研究现状,并给出本文的工作及研 究成果。本章还提供了一个简单的文献资源列表,通过该列表可以熟悉和跟进该研究 领域甚至整个生物信息学研究课题的进展。最后给出全文章节安排。 中国科学技术大学硕士学位论文第一章绪论 第二章:相关技术及知识本章给出和基于文本挖掘的蛋白质相互作用关系的提 取方法研究相关的背景知识。首先给出蛋白质相关的生物学背景知识,相关的生物学 数据库,然后介绍生物序列比较,最后给出相关的一些牛物文本挖掘技术。 第三章:生物命名实体识别从本章开始,介绍生物文本挖掘的两大研究领域: 生物命名实体识别和蛋白质相互作用关系信息提取中本文所做的工作。本章首先给出 生物命名实体识别的问题描述,并重点介绍生物缩写词及其定义识别问题;接着介绍 生物命名实体识别和缩写词定义识别的已有工作;然后详细阐述一种新型的基于动态 规划的缩写词定义识别算法:接着细致地分析一个高识别率的生物缩写词定义识别系 统;最后本章还要介绍一种生物实体识别的混合方法。 第四章:蛋白质相互作用关系信息提取本章首先给出蛋白质相互作用关系信息 提取的问题描述,其中包括不确定关系的蛋白质相互作用信息提取,以及确定关系的 蛋白质相互作用信息提取;接下来,介绍一些有代表性的已有工作;最后给出一个磷 酸化作用信息提取系统的详细介绍。 第五章:总结本章对全文的工作、研究方法和结果、贡献和创新之处进行总结, 并给出了进一步的研究方向和研究问题。 中国科学技术大学硕士学位论文第二章相关技术及知识 第二章相关技术及知识 本章概要本章给出与蛋白质相互作用关系信息提取相关的生物学背景知识、生 物学常用数据资源以及生物信息学的基础工作的介绍。第一节介绍蛋白质的概 念、蛋白质相互作用关系的种类,并重点介绍蛋白质磷酸化作用,这些概念有助 于了解本文工作内容及其在生物医学研究上的意义。第二节介绍蛋白质相关的生 物学数据库;第三节详细介绍生物序列比较,该内容是生物信息学的基础,也是 后面几章研究工作的基础;第四节简单地介绍相关的生物文本挖掘技术。 2 1 蛋白质相关的生物学知识 蛋白质( 如图2 1 ) 是生命的物质基础,一切生命现象都不能离开它。蛋白质分子 中,基本上是由2 0 种氨基酸以肽键连接成肽链。一个氨基酸的a c o o h 和相邻的另一 个氨基酸的q - n h 2 脱水形成共价键。肽链两端有自由n h 2 和一c 0 0 h ,自由- n h 2 端称为n 末端( 氨基末端) ,自由c o o h 端称为c 末端( 羧基末端) 。 图2 1蛋白质示意图 生物按照从脱氧核糖核酸( d n a ) 转录得到的信使核糖核酸( m r n a ) 上的遗传信息 合成蛋白质,由于m r n a 上的遗传信息是以密码( 见遗传密码) 形式存在的,只有合成 为蛋白质才能表达出生物性状,因此蛋白质生物合成可以比拟为转译或翻译。经过翻 译后合成的蛋白质是没有活性的,常常要进行一系列的翻译后加工,才能成为具有功 1 7 中国科学技术大学硕士学位论文 第二章相关技术及知识 蛋白质i 乏三蛋白质叫p i 中国科学技术大学硕士学位论文第二章相关技术及知识 2 2 相关的生物学数据库 2 2 1p u b m e d m e d l i n e m e d l 烈e 是美国国立医学图书馆( t h en a t i o n a ll i b r a 巧o f m e d i c i n e ,简称n l m ) 生 产的国际性综合生物医学信息书目数据库,是当前国际上最权威的生物医学文献数据 库,内容包括美国医学索引( i n d e xm e d i c u s ,i m ) 的全部内容和牙科文献索引 ( i n d e xt od e n t a ll i t e r a t u r e ) 、国际护理索引( i n t e m a t i o n a ln u r s i n gi n d e x ) 的部分内 容,涉及生物学、基础医学、临床医学、环境医学、营养卫生、职业病学、卫生管理、 医疗保健、微生物、药学、社会医学等等领域。m e d l i n e 收录1 9 6 6 年以来世界7 0 多 个国家和地区出版的3 4 0 0 余种生物医学期刊的文献,近1 1 0 0 万条记录。目前每年递 增3 0 一3 5 万条记录,以题录和文摘形式进行报道,其中7 5 是英文文献,7 0 8 0 文 献有英文文摘。 p u b m e d 是由美国国家生物技术信息中心( n a t i o n a lc e n t e rf j d rb i o t e c h n 0 1 0 9 y i n f o 咖a t i o n ,n c b ih o m e p a g e ) 开发的用于检索生物医学文献数据库的网上检索系统。 访问者不需要注册就可免费检索m e d l 烈e 。p u b m e d 是美国的官方节点,与其他节点 的区别是它不但包括了完整的m e d l 刚e 数据库,还包括未经正式标引和处理的最新 文献资料p r e m e d l 烈e ,以及即将出版的医学论文。因此,p u b m e d 是一个比m e d l i n e 更大的集合。通过n c b l 网站的p u b m e d 检索系统,可以检索人类基因组信息、基因表 达、蛋白质结构、肿瘤遗传信息以及不同种属遗传信息等,检出的记录包括p u b m e d c e n t r a l ( p m c ) 中的免费全文。据p m c 最新数据( 2 0 0 6 年2 月1 4 日) 显示,目前加入 p m c 的期刊已达2 2 0 种,其中绝大部分免费期刊全文访问的时差为零,并且由p m c 直接提供原文。 2 2 2 相关专题数据库 国际上已建立起许多生物分子公共数据库,包括蛋白质序列数据库,核酸序列数 据库,蛋白质磷酸化数据库,基因组图谱数据库,生物大分子结构数据库,基因本体 中国科学技术大学硕士学位论文第二章相关技术及知识 数据库等。这些数据库由专门的机构建立和维护,他们负责收集,组织,管理和发布 生物分子数据,并提供数据检索和分析工具,向生物学研究人员提供大量的有用的信 息,最大限度地满足他们研究和应用的需要,为他们的研究服务。下面我们重点介绍 一下和本文相关的蛋白质序列数据库、蛋白质相互作用数据库以及蛋白质磷酸化信息 数据库。 常用的蛋白质序列数据库主要有三个:p i r ,s w i s s p r o t 和t r e l 。p i r ( h t t p :、) 删- n br f g e o r g e t o w n e d u p r i ) 是由美国生物医学基金会n b r f 于l9 8 4 年建立 的,其目的是帮助研究者鉴别和解释蛋白质序列信息,研究分子进化,功能基因组, 进行生物信息学分析。它是一个全面的,经过注释的,非冗余的蛋白质序列数据库。 所有序列数据都经过整理,超过9 9 的序列已按蛋白质家族分类,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 小学二年级语文班级复习计划
- 中国喷灌泵行业市场规模及投资前景预测分析报告
- 养老院日常护理安全管理措施
- 桥本甲状腺炎中医治疗
- 小学毕业班信息技术应用方案与措施
- 施工现场火灾应急处置措施
- 电梯品牌调研报告
- 2025年中国重油裂化催化剂项目投资计划书
- 女性生殖健康教育流程及方法
- 健康民生课件
- GB/T 6974.3-2024起重机术语第3部分:塔式起重机
- 福建师范大学《生活中的科学》2023-2024学年第一学期期末试卷
- 蒋诗萌小品《谁杀死了周日》台词完整版
- 通达信公式编写教程
- 当代国际政治与经济 期末复习课件高中政治统编版选择性必修一
- 水浒人物宋江介绍课件
- 消防应急预案电子版
- 【甲子光年】2024自动驾驶行业报告-“端到端”渐行渐近
- DL∕T 5551-2018 架空输电线路荷载规范
- 江苏省常州市重点中学2025届高考历史三模试卷含解析
- DL-T+617-2019气体绝缘金属封闭开关设备技术条件
评论
0/150
提交评论