




已阅读5页,还剩57页未读, 继续免费阅读
(生物医学工程专业论文)利用本体论(ontology)研究脑科学相关基因信息.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
a b s t r a c t a b s t r a c t w i t ht h ed e v e l o p m e n to ft h eb r a i ns c i e n c ei nt h ew o r l df r o mi n d i v i d u a lm o l e c u l e st oc o m p l e x b e h a v i o r s t h e r e m o r ea n dm o r ea c h i e v e m e n ta n dp r o g r e s si nt h i sf i e l d f u r t h e r m o r e ,n i t r ea n d m o r eg e n e sr e l a t e d1 0b r a i na r ed i s c o v e r e d i t sm o r ea n dm o r ei m p o r t a n tt oc o l l e c ta n da n a l y z e t h e s eg e n e si n f o r m a t i o n s oad a t a b a s ew h i c hc o l l e c t sm o r et h a n4 0 0g e n e sw h i c hi sr e l a t e dt or a i n f u n c t i o ni se s t a b l i s h e d i t sd e s i g n e da c c o r d i n gt ob r o w s e ra n ds e v e rw e bs t r u c t u r e i tp r o v i d e sa p l a t f o r mf o rs h a r i n gt h er e s e a r c hp r o g r e s s e si nb r a i nr e l a t e dg e n e s h o w e v e r , t h ed a t a s e t sa n dr e s e a r c ha r ed o n eb yd i f f e r e n tr e s e a r c h e r sa n di n s t i t u t e i t sl a c ko ft h e c o n s e n s u so nt h ed e s c r i p t i o no ft h et e r m s ,c o n c e p ta n dd e f i n i t i o n s i tc a n s e $ t h et e c h n i c a l d i f f i c u l t yo f c o l l a t i n ga n d r e l a t i n gs u c h d i s p a r a t e t y p e so f i n f o r m a t i o na n d t h er e d u n d a n c y o f s t u d y b a s e do nm e s h 一2 0 0 4 ,w ec o n s t r u c t e dab r a i ns c i e n c er e l a t e dp h e n o t y p eo n t o l o g yw i t ht h e k n o w l e d g eo fb r a i ns c i e n c ea n do n t o l o g y i tp r o v i d e sac a n o n i c a l ,s y s t e m i ca n ds t r u c t u r a lt e r m s y s t e mf o rs t u d yo fb r a i ns c i e n c ea n di t sp h e o o t y p e si n c l u d et e r m so fb e h a v i o r , p s y c h o l o g y , r a i n d i s o r d e ra n dm e n t a ld i s o r d e r b yu s i n gt h i so n t o l o g y , w ec a ni n t e g r a t ei s o m e r o u sd a t a i tw i l l i n c r e a s et h ee f f i c i e n c yo fi n f o r m a t i o na c q u i s i t i o n , m a n a g e m e n ta n ds e a r c h ,a n dp r o v i d eap l a t f o r m f o rd a t as h a r i n ga n dd a t am i n i n g t h eb r a i ns c i e n c er e l a t e dp h e n o t y p eo n t o l o g yi si n t e g r a t e dt ot h ed a t a b a s ea n ds h o w ni nt h ew e b p a g e e a c ht e r mh a ss e v e r a lc o r r e s p o n d i n gg e n e s i nt h es a m ew a y , e a c hg e n eh a ss e v e r a l c o r r e s p o n d i n gt e r m s ,t h e yh a v em a n y t o - m a n yr e l a t i o n s h i pa n dc a nb et r a n s f o r m e de x p e d i e n t l y i t sn o to n l yp l a ya ni m p o r t a n tr o l ei nc o l l o e t i n g ,o r g a n i z ea n ds e a r c ht h e s eg e n e sa n dt e r m s ,b u t a l s oc o n v e n i e n tf o rt os h a r i n gt h ei n f o r m a t i o ni no u rd a t a b a s ea n do t h e r s l a s tb u tn o tl e a s t ,t h eg e n e sw h i c hb e l o n gt ot h es a m et e r m sa r ea n a l y z e di no r d e rt od i s c o v e r m o r er u l e sa n de v i d e n c eb e t w e e nt h e m d a t am i n i n ga n ds t a t i s t i cm e t h o da r eu s e f u li n t h i s p r o b l e m m o r eg e n e sr e l a t e dt ob r a i nw i l lb ed i s c o v e r e da n dc l a s s i f i e d w i t h t h e d e v e l o p m e n to f t h eb r a i n s c i e n c ea n dn e u r o i n f o r m a t i c s ,t h es c a l e a n d t h e f u n c t i o n o f o u r d a t a b a s ew o u l db ei m p m v e dal o t k e y w o r d s :b r a i ns c i e n c e ,h u m a ng e n e ,o n t o l o g y ,g e n eo n t o l o g y ,d a t ab a s e ,d a t a m i n i n g ,a s p i i 东南大学学位论文独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得 的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含 其他人已经发表或撰写过的研究成果,也不包含为获得东南大学或其它教育机构 的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均 已在论文中作了明确的说明并表示了谢意。 研究生签名:洼l 监日期:兰鱼丛占 东南大学学位论文使用授权声明 东南大学、中国科学技术信息研究所、国家图书馆有权保留本人所送交学位 论文的复印件和电子文档,可以采用影印、缩印或其他复制手段保存论文。本人 电子文档的内容和纸质论文的内容相一致。除住保密期内的保密论文外,允许论 文被查阅和借阅,可以公布( 包括刊登) 论文的全部或部分内容。论文的公布( 包 括刊臀) 授权东南大学研究生院办理。 研究生签名:f 钩秽l , 导师签名: 第一章绪论 1 1 课题研究背景 第一章绪论 美国和英国科学家2 0 0 6 年5 月1 8 日在英国自然杂志网络版上发表了人类最后一个染 色体l 号染色体的基因测序,解读人体摹因密码的“生命之书”宣告完成。科学家们认为, 成功破译l 号染色体将为研究和治疗癌症、帕金森氏症和老年痴呆症等3 5 0 余种疾病提供指 引。 2 0 t l l 纪9 0 年代以来,欧美都相继开展了大规模的脑科学研究计划,1 9 9 3 年美因推出人类 “脑计划”( t h e h u m a n b r a i n p r o j e c t ) 。日本也在1 9 9 6 年推出了“脑科学时代”庞大计划纲要,拟 在2 0 年内以每年1 0 0 0 亿日元大力推进脑研究。 学习科学是为了科学的学习而研究学习的科学,它是一j 新兴的跨学科的文坪交叉的前 沿科学。东南大学学习科学研究中心是中国第一个专门从事学习科学研究的基地,于2 0 0 2 年5 月由中国教育部j 京副部长中国工程院院士韦钚教授发起成立并亲自担仟中心主任。中 心充分发挥东南大学在生物医学工程、信息科学领域的优势结合神绎科学、心理与教育科 学的研究,走一条多学科交叉的学习科学发展令新之路。中心通过整合国际脑科学研究领域 的前沿研究成果,建立了与学习科学有关的脑科学研究资源库,吸引了计多对跨学科研究和 学习科学感兴趣的研究机构和个人加入剑我们中间,将国际先进的脑科学知识与中国教育实 践相结合,研究儿童情绪发展与教养环境的犬系:研究利推广基于动手实践的探究式科学教 育,建成中国“做中学”科学教育支持网站汉博网;推进公众对脑科学和学习科学的了解; 增进科研工作者与政策制订者的百相了解。本文所做的脑科学相关的基因数据库,就是庄这 种研究需求下建立的基于浏览器的数据库时站。 1 2 脑科学研究背景 1 2 1 脑科学以及学习科学研究的历史与现状 2 0 世纪的生命科学自两人前沿研究领域,即分子生物学与腑科学。分子生物学存2 0 世 纪取得了突破性进展。大脑足自然界结构和功能最复杂的系统,腩科学研究的终极目标是破 解思维与意识起源之谜。自然科学发展至今,人炎取得了对自然界的深刻认识。但是对人类 自身,尤其是脑的认识还远远不够。脑科学研究经历了漫长而艰难的历程直到近几十年才 取得一些突破性进展,但七论是就自然科学发展的稃度,还是对脑认识的稃度来讲,都仍然 是肤浅的。脑如何工作? 脑的功能机制到底是怎样的? 这仍然是个未解之谜。究其原因,一是 因为脑是个极度复杂高度精密的系统,又难以直接进行话体脑实验,对脑的研究就很艰难。 其二是因为人类认识的技术手段还不够,有待于科学技术的进一步发展,脑科学的研究尤其 东南大学硕士学位论文 离不开高精尖技术其三是因为人类的研究方法或者说思维方法存在着先天不足,还没有找 到一条合适的脑研究之路。经过近几十年的热闹喧嚣,脑研究又处于一片混乱状态,徘徊不 前,陷入了困境。 脑科学因其研究对象的特殊而成为一门综合性很强的学科,其涉及面非常广泛,不但需 要神经生物学的正面研究( 包括神经解剖学、神经生理学,神经化学,神经遗传学,神经免 疫学,神经行为学等) ,而且需要心理学、数理科学、信息科学和计算机科学的积极参与和 协作。脑科学的研究不能单单依赖于生物学纵观压j f 科学研究的历史,随着每一门新学科的 参与,都出现一种新的研究方法,带来一些新的进展,直到现在,大部分方法同时并存且各 自为政,难以真正融合。这些方法是:心理学方法、解剖学方法,生理学方法、生物化学方 法、分子生物学方法、脑成像方法、神经网络与计算神经科学方法等每一种方法都在脑研 究的发展中起过积极的作用,但又存在一定的局限性。 在很长的时问里,心理学的研究方法曾经主导过对脑的研究。这种方法当然是必需的, 直到现在还是一种蕈婪的手段,因为只有通过观察才能知道机体在干什么,但心理学的局限 在于总是试图把脑当作“黑盒”来对待,通过研究黑盒输入和输出的逻辑关系,而演绎出黑盒 的内部结构与运转过程,这样就遇到了一个难题:几种对立的假说部可以同样完美地解释所 观察到的结果。若要走出这样尴尬的境地,从纷繁复杂的现象中找出粹案,除了进入黑盒中 进行研究,别无选择。 早在1 9 世纪中叶,脑研究的先驱们已开始试嘲进入这个黑命,他们利h j 腑的某一特定 部伸因疾病和损伤而受到破坏的病例观察其行为上的明显缺陷,从而获得了关于大脑功能的 重璺信息。人们又逐渐认识到要研究脑这样的器官,主璺途径麻该是描绘脑的各种构成元件, 搞清各种元件问的联系,然后研究脑的各元件如何上作及如何协调进行功能活动。这些研究 构成了脑研究中两个最大的传统分支神经解剖学和神经生理学的基本内容。神经解剖学 和神经生毋i ! 学各自部取得了很大的进展。2 0 世纪5 0 年代电子显微镜的应用及追踪垒性神经 纤维束路的n a u t a 法,印年代显示单胺类的诱发荧光力法;7 0 年代初出现的辣根过氧化物 酶束路追踪法:7 0 年代中期的免疫组织化学法:7 0 年代末期的j 糸位杂交法等等,每个新方 法的出现都开辟了个新天地促进了神绎科学的发展。应尉生理学力江研究种经科学也有 悠久的历史,从脑髓横断到h i 电流或化学方法破坏巾根饮团;从电流刺激巾枢饮团纠脑室灌 流、脑片技术、微屯极技术,电压钳技术、斑片钳技术等等,他人们时神绎系统的奥秘有了 深一步的了解。对丁脑这个复杂的器官,茛结构和功能是相适应的,二吝密切相关,我们既 需要从形态上了解神经元之间是怎样联结起来的,又篙婴从功能上去认识这些神经兀的特性 以及它们所组成的同路处理神经信号的方式。吲此神经解剖学和生理学的融合反映了研究进 展的需要。其实从2 0 世纪5 0 年代丌始,这两个学科的结合就f l 益紧密。塔管如此,对于脑 的研究,单是应用解剖和生理两方面的手段已很难把研究深入下去,必须引入新的研究手段。 对于脑这样一个物质器官,我们责无旁贷地要研究生物分子的分子量、分子组成和化学 特性,而生物化学方法正是分离,提纯和鉴定这衅形式各骨的分子的摹本手段,尤其是2 0 世纪中叶生命科学所发生的一场伟大革命,即细胞生物学与分子生物学的蝌起对腩的研究 有着深远的影响。这种革命始于w a t s o n 和c r i c k 的一个重要发现:所有有机体的遗传信息都 第一章绪论 是由成对的大核苷酸聚合物联成的脱氧核糖核酸( d n a ) g y , 螺旋来传递的。从而使我们对神经 活动的了解达到细胞和分子水平,分子生物学己成为神经科学研究方法的重要组成部分,破 广泛应用于神经系统发生、发育,分化和功能调节等生理及病理过程的研究中。但就目前而 言分子生物学似乎更偏重于定性分析,从长远看,光是定性分析是不够的。如果要了解整 个细胞的作用功能,那么缺少有关组分分子形态多样性的定量数据,要达到这一目的是不可 想象的,没有新的定量数据,即使是人们目前所关注的许多亚细胞过程很可能也无法解释。 同时,对于脑,这个自然界最复杂系统奥秘的揭示完全依赖在分子水甲的研究,也是不可能 的当分子组成了细胞,分子就不再是原来意义上的分子,当神经元组成了回路,神经元便 不再是原来意义上的神经元;当神经元回路最后组成脑,神经元回跻也不再是原来意义e :的 回路,必然会产生一些各个组分并不具备的新的性质。因此,脑的高级功能不可能完全在分 子和细胞水平上得到解释,有必婪从系统的观点出发进行研究【1 4j 。 随着科学技术的发展而出现的脑成像技术,如c t ( 计算机断层扫描术) o f 提供更生动和丰 富的脑影像,p e t ( 正电子发射断层扫描术) 能测定脑的牛化代谢及功能。因而脑成像技术 成为人们了解活体脑组织的解剖形态、生理功能以及生化代谢的熏要手段h 。2 0 世纪最后l o 年为“脑的l o 年”,脑研究正吸引着各个领域的科学家。1 9 8 7 年6 月2 l 2 4f 1 ,在美国的s a n d i e g o 召开了第+ 。届世界神绎州络会议,标志神绎网络研究在世界范围形成了新的热潮。尽 管当代神经计算机与传统数宁计算机相比具有许多不同特点,可将之比作“腑样计算机”, 但它与人脐相比却差得非常悬殊。人脑约有1 0 ”个神经元,密集地排列存容积不大的颅腔内, 每个神经元约有1 0 4 个突触与周围神经元发生联系。这种高密度广泛联系的系统是任何人工 神经网络所无法比拟的。在脑这个系统内,神经信息的传递既有i u 信号表达形式,又有许多 化学信号的表达形式;既有突触前神经末梢囊泡内最子释放神经递质的机制,又有突触后受 体活性调节的机制等。神经信息的这些多种表征和递质形式,是人上神经网络中信息表征所 无法比拟的。这些内部机制的复杂性与外在显现行为之n 的关系史是神秘莫测,因此,要克 服人工神经网络的历史局限性,加强计算神经科学对脑模拟的研究,l 三经到神经科学发展的 日程上来盼“。 1 2 2 学习科学的研究方法其发展 学习科学是研究学习现象及其规律的一门新兴交叉学科,是关于学爿的认识论及方法 论。初期的学爿科学研究偏币于社会科学,主要涉及文化人类学、科学哲学,文化哲学,教 育学、心理学及社会学等。而近几年来,学刊科学的研究已呈现出社会科学与自然科学并重 的局而,分子生物学、神经生理学和认知科学等的突破使人们从分子剑行为水平各个层次 对脑结构与功能的研究都取得了较大进展。随着分子生物学在脐科学研究中的大量应用,特 别是随着人类基冈组计划的完成,与语言、记忆、情绪、精神疾病等相关的毖因被陆续发现 1 7 , 8 1 。可以预计,以分子遗传学研究为基础的不同学科争家学者的交叉研究和联合攻关,在 阐明学习、记忆、思维、行为及情感的机制等方面,征揭示“智力本质”的奥秘方面将产生 革命性的进展,并将可能对学习科学带来新的革命。为人类更好地开发大脑,利用大脑,创 3 东南大学硕士学位论文 新和倡导更科学的学习方法,提供坚实地理论依据。 1 2 3 生物信息学在脑科学研究中的应用神经信息学 生物信息学是生命科学、计算机科学、数学、医学和信息科学结合的变叉学科,它随着 人类基因组计划( h d p ) 实施迅速发展起来,成为当今世界。生物信息学是用信息学的方法 研究生物体和生命现象本质:研究从分子一核苷酸一基因一染色体一蛋白质一细胞一生物体 的生成,活动、变异、消亡,生命过程中化学、物理、生物物质变化所隐含的信息的表达、 转导和描述等。如基i 夭f 测序、表达、信息编码、基因信息库的建立、建模等。 9 】 生物信息学作为- - f - i 新的学科领域,它是把基因组d n a 序列信息分析作为源头,破译 隐藏在d n a 序列中的遗传语言,找到代表蛋白赝和r n a 基因的编码区,特别是阐明非编码 区的实质:同时在发现了新基因信息之后进行蛋白质空间结构模拟和预测;然后依据特定蛋 白质的功能进行必要的药物设计。因此在皋因组研究时代,基因组信息学、蛋白质的结构模 拟以及药物设计必然有机地连接在一起。 生物估息学的研究结果不仅具有重要的理论价值,也可直接应刖到工农业生产和医疗实 践中去。很多疾病与基冈突变或基因多态有关,约有6 0 0 0 种以上的人类疾患与各种人类基 睁爿的变化相关联。更多的疾病则是环境( 包括致病微生物) 与人类基州( 基闪产物) 相互作用 的结果。由十人类基因组序列信息的公开及相应的分析能力的提高,已经使科学家能较快 地确定“候选基因” i o i ,以利于发展疚病基凼的定位克隆和有效地削定各种疚患的分子机 制进而发展合适的诊断和治疗手段。人类基因组信息为药物发展提供了新的候选分子和新 的候选靶点。最近,国际人类基囚组协作组在对于人类基囚组进行初步分析的同时,利用 已被鉴定的6 0 3 个人类蛋e l ( s w i s s p r o t ) ,搜寻已知的4 8 3 个药靶摹因的横向同源物, 发现了1 8 个新的候选“药靶基因” 1 l l o 随着生物医学研究水平的提高,对研究资抖的储存,管理和分析应用都挺了更高的要 求。因此,采用分子生物估息学( m o l e c u l a r b i o i n f o r m a t i c s ) 方法,通过计算机技术建立生物数 据库。对大量、复杂的生物分子资料数据进行收集储存加i 擎理和门类分析是非常必些的。 对人脑大量的神经结构与功能活动数据的分析同样也催生了另- - f - j 新兴的交叉学 4 一 神经信息学。参照牛物信息学的定义方式,可对神经信息学作出以下定义:“神经信息学是脑 科学、信息科学和计算机科学百相交叉的边缘学科。神经信息学是研究神经系统信息的载体 形式,神经信息的产牛馁输与加工规律,以及神经信息的编码、存端与提取机珲的科学。 神绎信息学还包括各类神经数据的获得,建库,分发,利用以及解释等内容。”神绎信息学的土 要任务是解释在大脑发生的所有过程的生理和心理学意义。 近年来 分子神经生物学研究从肇因水平揭示了人腩的一衅奥秘,先进的毕因芯片技术 在ls 就可以得到大量的实验数据。脑功能成像( f m p d ,p e t ,s p e c t 等) 的应用使人们能 够从活体和整体水平来研究脑,好似探视脑的窗口。可以在尢创伤条件下了解到人的思维、 行为活动时脑的功能活动。这些新方法,新技术极大增强了人们从微观与宏观曲个水平上进 行脑研究的能力。同时有关脑的研究数据也成为了目前人类实践产乍数据量最大的领域。随 第一章绪论 着研究越来越深入及越来越专门化,几乎没有一个科学家或实验室能够精通脑科学的全部领 域,拯斋学科之间进行信息交流,成果共享,避免重复性劳动。因此,科学家们呼吁,应尽早启动 全球性人类脑计划,建立国际神经信息学电子网络。 2 0 世纪8 0 年代早期,在美国国防部资助下,美国国立卫生研究院0 q x e ) 、美围困家自然 科学基金委员会召集有关神经科学,计算机科学方面的专家,集中讨论了“利用新的计算机 技术建立脑数据库或模型”的论题。 1 9 9 1 年,美国科学院医学研究所在广泛收集了科学家意见后,建议设立一项研究计划,专 门用于资助神经科学与信息科学相结合的研究。1 9 9 2 年,美国国立精神卫生研究院( n i m h ) 正式确定支持这一行动,成立人类脑计划联邦协调委员会负责组织协调和指导。美国n i h , 美国国家自然科学基金委员会,国防部、航空航天部和能源部等国家机构所属1 1 个机构( 以 后又发展到1 6 个机构) 于1 9 9 3 年联合资助启动人类脑计划,以支持神经科学和信息学的交 叉领域神经信息学的研究。1 9 9 5 年,英国医学研究院申请参加神经信息学研究。同年, 在美国与欧共体资助下建立了u s e c 神经信息学工作组【l ”。 由于电子计算机信息技术的飞速发展。应用电脑原理模拟人脑的活动以及为人量的神 经系统结构与功能的数据建立神经数据库及全球信息管理系统i i ”,是2 0 世纪神经信息学 重要的特矸之一。 1 2 4 生物信息学数据库 数据库系统的个体含义是指一个具体的数据库管王| l ! 系统软件和用它建市起来的数据库; 它的学科含义是指研究,开发、建立、维护和应用数据库系统所涉及的理论、方法、技术所 构成的学科。在这一含义下,数据库系统是软件研究领域的一。个重要分支,常称为数据库领 域。数据库研究跨越于计算机应用,系统软件和理论三个领域,其中应h j 促进新系统的研制 开发,新系统带来新的理论研究,而理论研究又对前两个领域起着指导作用。 分子生物学数据令人惊愕的数据积累以及对它们内部神秘f 精细的作用模式的揭示形 成了当前数以百计的生物信息学数据库。归纳起来,大体口f 以把这些生物信息数据库分为几 个大类( 图1 1 ) 即基凶组数据库、核酸和蛋白质一级结构序列数据库、乍物大分子( 土璺是 蛋白质) 三维空间结构数据库以及上述3 类数据库和文献资料为基础构建的二级数捌库 ( s e c o n d a r yd a t a b a s e ) 1 4 l 。 基因组数据库来自基因组作图,序列数据库来自序列测定,结构数据年来自x 衍射和 核磁共振结构测定。这些数据库是分子生物信息学的摹本数据资源,通常称为基本数据库 ( p r i m a r yd a t a b a s e ) ,也称一级数据库根据生命科学不同研究领域的实际需要,对蕈因组图 谱、核酸和蛋白质序列、蛋白质结构以及文献等数据进行分析、整理、归纳、注释,构建具 有特殊生物学意义和专门用途的二级数据库,是数据库开发的有效途径。近年来,世界各国 的生物学家和计算机科学家合作,已经开发了几百个- 二级数据库和复合数据库,也称专fj 数 据库,专业数据库、专用数据库。一级数据库一般是国家或国际组织建设和维护的数据库。 东南大学硕士学位论文 其数据来源一般为直接实验测得的原始数据,只经过简单的门类罄理和注释。而二级数据库 是在一级库的基础上,结合工作的实际需要将部分数据从一级库中取出,重新组合( 包括一 定的修正和调整) 而成的特定的数据库。一级数据库的数据库阜大,更新速度快,用户面广。 图1 1 现有生物信息数据库概况“” 通常需要高性能的讣算机硬件、大容晕的磁盘空间和专门的数据库管理系统支撑。例如 欧洲生物信息学研究所( e b i ) 使用o r a c l e 数据库软件管理核酸数据库e m b l ;而基因组数据 库g d b “的管理则基于s y b a s e 数据库系统,即使是安装其镜像,也需蛰有s y b a s e 支撑。而 二级数据库的容量则璺小得多,更新速度也不像一级数据库那样快,甚至町以不斋要大型商 业数据库软什的支撑。许多二级数据库的开发基于w e b 浏览器,使用超文本语言h t m l 和j a v a 或a s p 程序编写的图形界面,有的还带有搜索程序。 国际上二级数据库非常多,它们因为针对不同的研究内容和需要而各只特色,种类繁多, 如肤酶数据库m f r o p s “、蛋白质相互作用数据库d i p “、配体门控离子通道数据库l g i c d b “ glc 蛋白偶联受体突变数据库t g r a p “,酶反应化学数据库l i g a n d ”等。从t 9 9 4 年开始, 核酸研究杂志( n u c l e i ca c i d sr e s e a r c h ) 在每年的第1 期都用来刊登生物佶息数据库方 面的文章。而国内这方面的进展相对比较缓慢,较有成效的如北京大学的水稻矮缩病毒基吲 组数据库r d v 3 和蛋白质同环分类数据库l o o p s 、中科院化下冶金研究所的海洋天然产物数 据库等。1 “。为了改变我国在这方面的滞后状况,2 0 0 2 2 0 0 5 年度8 6 3 计划将建立具有国际 水平的国家生物信息搜集、管理、分析和服务基地,重点建立一批有特色,可整合的二级数 据库作为生物和现代农业技术领域内的重大丰题之一。 下面介绍目前世界上公用生物信息学信息学数据库,特别足与脑科学及本体相关的数据 库。 美国国立生物信息中心( n c b i ) 是美国国立健康研究院( n i h ) 于t 9 8 8 年建立的国际权 威生物医学网站,其中的p u b m e d ,g e n b a n k 、u n i g e n e 、o m i m 等数据库提供了大量的基冈及 6 第一章绪论 各种生物学信息。 g e n b a n k 库包含了所有已知的核酸序列和蛋白质序列,以及与它们相关的文献著作和生 物学注释。它是由美国国立生物技术信息中心( n c b i ) 建立和维护的。 u n i g e n e 数据库收录主要被整理成簇的e s t 和全长m r n a 序列,每一个代表种特定 己知的或假设的人类基因,有定位图和表达信息以及同其它资源的交叉参考。u n i g e n e 是从 属于g e n e b a n k 的一部分,专门收集非冗余性的基因来源的c l u s t e r s 数据。每一个u n i g e n e c l u s t c r 包含代表单一摹因的序列和相关的信息,例如基因表达的组织类型和图谱定位信息。 o m i m 是在线盂德尔遗传学数据库是人类基因和基因疚病的目录数据库。该数据库包 括原文信息,图片和参考信息,同时还可以链接到e n t r e z 系统m e d l i n e 数据库中相关文 献和序列信息。从基因的发现判可能的功能及相关文献都有详细的说明。 医学主题词表数据库是美国国立医学图书馆建立的。医学主题词表( t h em e d i c a l s u b j e c th e a d i n g s ,m e s h ) 构造的用于对生物、医学、健康等相关信息进行索引、编日, 搜索的一纽术语表。它由规范化的主题词参照系统和注释组成,其主要目的是:规范化作 用,保证文献的作者、标引者和柃索者在用词上的一致;桥梁作用,将自然语言转换成规范 化的人工语言。自1 9 6 0 年建立以来,医学主题词表经过多年不断更新、完善,已经被i n d e x g e d i c u s , i e d l i n e p u b 脏d 等多种生物医学文献、数据库广泛采用,成为生物医学领域权 威的主题词表。 1 9 9 8 年以美国冷泉港实验室为主的科学家们刨建的g e n eo n t o l o g y ( g o ) 就是在分子 生物学中应用o n t o l o g y 的一个成功尝试。它最初建立在3 个比较完备的生物基因组数据库 基础上:酵母菌基因组数据库( t h es a c c h a r o m y e e sg e n o m ed a t a b a s e ,s g d ) :果蝇基因组数据 库( f l y b a s e d r o s o p h i l a ) 和小鼠基因组数据库( t h em o u s eg e n o m el n f o r m a t i c s ,m g i ) 。 b r a i a i n f o 数据库是由美国华盛顿大学建立的,里面存储了大量的脑部结构组织数据。 它里面提供多种查询方式,比如从名字查结构信息,或找出大脑各部位所包含的纰织信息。 因此,用户可以根据查询需求很方便的找到你所需的脑部信息。里面比较有特色的是它也具 有一套关于脑部结构及其组织的本体。根据里向的本体术语可以很方便的找到b r a i n i n f o 数据库中对它的描述和相关组织结构。 复旦大学计算机信息技术系建立了一个整合了不同柬源数据的生物学数据库,在该数据 库中建立了两个表:d b 2 g o 表将g o 词语与数据仓库巾有g 0 注释的记录联系起来,语意相似 性表记录了g 0 词语之间的相似性分值,通过这两张表可以实现数据仓库的语义检索。 目前,学习科学与脑科学密切相关,它的各相关学科的研究已积累了大嚣的资料如各 种基冈数据、人脑图像资源、与情绪有关的语音与表情资料及生理、行为测母数据等等。应 用生物信息学手段,已经建立了多个与脑科学及学习科学相关的数据库。本实验室及东南大 学学习研究中心也建立了数个此类数据库,我所做的就是与脑科学相关的基因数据库。然而, 由于各系统是由不同学科的研究人员各自独立开发,对相关事物,概念的认识、理解及定义、 表述不塔相同,例如:对儿童注意缺陷多动障碍有多种提法:儿童多动综合征( h y p e r a c t i v i t y i nc h i l d r e n ) 、注意力缺陷障碍( a d d ) 、注意力不足多动障碍( a d h d ) 、轻微脑功能失调 ( m b d ) 、注意力缺陷,多动障碍综合征( a d h d s ) ,多动障碍( h y p e r k i n e t i ed i s o r d e r s ) 等 东南大学硕七学位论文 等,这使得各系统之间缺乏协调工作的能力,相互之间不能进行数据共享与交流,一个系统不 能有效地利用另一个系统的知识和结果,导致许多重复无用的劳动瞵1 。 1 2 5 数据挖掘技术 随着数据库技术的迅速发展以及数据库系统的广泛应用,人们积累的数据越来越多。激 增的数据背后隐藏着许多重要的信息,人们希望能够对其进行更高层次的分析。以便更好 地利用这些数据数据库系统虽然可以高效地实现数据的录入、查询,统计等功能,但七法发 现数据中存在的关联和规则,无法根据现有的数据预测未来的发展趋势。缺乏挖掘数据背后 隐藏的知识的手段,导致了“数据爆炸但知识贫乏”的现象。现实的需求促使一门新的技术 诞生数据挖掘。 数据挖掘就是从大量的,不完全的,有噪声的、模糊的、随机的数据中,提取隐含在其 中的、人们事先不知道的,但又是潜在有用的信息和知识的过程。这些数据可以是结构化的 如关系数据库中的数据,也可以是半结构化的,如文本、| 皇i 形、图像数据甚至是分布在网 络上的异构型数据。发现知识的方法可以是数学的,也可以是非数学的,可以是演绎的,也 可以是归纳的。发现了的知识可以被用于信息管理、奋询优化、决策支扮、过程控制等。还 吖以进行数据自身的维护。 随着大量算法的完善、挖掘过程的系统化和j 2 i ! 范化,挖掘丁具的不断推陈出新,数据挖 掘技术已显示了它广泛的应用前景。例如:( 1 ) 庄医学上用数据挖掘技术在d n a 数据的分 析研究中可进行d n a 序列间的相似搜索和比较;同时出现基因序列的相关分析:致病基因 的发现和遗传数据分析等。( 2 ) 在商业上;利用数据挖掘可以进行销售、顾客,产品,时 日j 和地区的多位分析;促销活动的自效性分析:顾客忠诚度的分析;购买推荐分析以及相关 商品的参照促销等。( 3 ) 在电信业中的电信i f r 场激烈竞争和迅速扩张巾,可以利用数据挖掘 技术的帮助来理解商业行为,确定电信模式,捕捉盗用行为,更好的利用资源和提商服务 质量。 1 2 6 本体( o n t o l o g y ) 在生物研究中的应用 随着科技发展的日新月异人类进入了信息时代,特别是由于因特网的快速发展,而对 信息的海洋,如何组织,管理和维护海量佶息并为用户提供有效的服务也就成为一项重要而 迫切的研究课题。为了适应这些要求,o n t o l o g y 作为一种能在语义和知识层次上描述信息系 统的概念模型建模工具,近年来引起了国内外众多科研人员的犬注,并在许多领域得到了广 泛的应用,如知识工程、数字图书馆、软什复用,信息检索和w e b 上异构信息的处理、语义 w e b 等。 o n t o l o g y 是一个源于哲学的概念。简单来说,o n t o l o g y 是一套得到认同的、关于概念 体系的明确、正式的规范说明。它包含四层含义”:概念模型( c o n c e p t u a l i z a t i o n ) ,明确 ( e x p i e i t ) 、形式化( f o r m a l ) 和共享( s h a r e ) 。“概念模型”指通过抽象出客观世界中一 些现象( p h e n o m e n o n ) 的相关概念而得到的模型,概念模型所表现的含义独立于具体的环境 第一章绪论 状态。“明确”指所使用的概念及使用这些概念的约束都有明确的定义。“形式化”指o n t o l o g y 是计算机可读的( 即能被计算机处理) 。“共享”指o n t o i o g y 中体现的是共同认可的知识, 反映的是相关领域中公认的概念集,即o n t o l o g y 针对的是团体而非个体的共识。o n t o l o g y 的目标是捕获相关领域的知识,提供对该领域知识的共同理解,确定该领域内共同认可的词 汇,并从不同层次的形式化模式上给出这些词汇( 术语) 和词汇问相互关系的明确定义。本体 论成为知识抉取和表示,规划、进程管理、数据库栝架集成、自然语言处理和氽业模拟等研 究领域的核心。 在生物学领域,由于聚集了多个不同学科,积累了海量的信息。因而知识的表达、管理 和弛享尤为重要删i 。如借助现代生物学实验技术d n a 芯片技术。通常会得到一长串与 基困有关的列表,分析这些列表的数据可以获取许多潜在的生物学信息。为了从生物学角度 左理解这些数据,我们需要获取和分析这些基因数据在生物学功能方面的注释。 g o ( g e n eo n m l o g y ) 数据库开始只是为了给研究者们提供能在不同物种的生物研究中通 用且具有共同意义的基因词汇库,但由于哺乳动物和模式生物的基因组之间存在功能的保守 性,对几种模式生物的基因组注释的意义有可能为整个牛物界提供有意义的基因信息资源。 基因本体数据库g e n eo n t o l o g y ( g o ) 为大量基因提供有效的注释及分析。它将各基因产物与 标准g o 术语有机地连接在一起,从而使研究者对各种基因产物的助能有更深的认识。随着 其它一些生物和人类基囚组数据信息的加入,g o 已经成为科学家们开展人类基因研究的一 个重要生物信息学工具删】。 本体论( o n t o l o g y ) 及它的一些相天概念在组织和检索估息方面已经变得越来越重要。一 套本体( o n t o l o g y ) 就是一套词汇表,它的各个词汇是以有向的非循环图结构( r d a g 或d a g ) 排列的。在生物学中也有很多网站提供与本体相关的一些资源。但是这些基闪相关的功能, 牛物过程、组织成分等基本概念的表述缺乏统一和标准化这样就使我们在对不同信息源中 信息的坪解和榆索中出现了田难。例如,同一种基因或者生物过程就有好多种不同的说法。 g o 的出现就是为了解决这样一个问题,它是一套树状的与基因有关丰小准术语表,对生物学 术语进行了杯准化描述,这样就使生物信息学工作者在描述这磐术语时有了统一杯准,使各 个数据库的信息统一起柬,从而具有了通州性。 采用知识定义方法,实现了结构化知识的共享o n m l o g y 和重片j 惟、领域知识的明确化; 满足了推理要求;实现了异构数据库的集成。同时解决了服务合成中部分异掏问题为实现 服务共享,知识共享提供了方便。目前,g o ,c e l lo n t o l o g y 等本体,已经被府用在文本挖 掘、数据库建设和集成、信息检索与获取等研究项目中。 信息科学中的本体论方法仍然处于探索阶段,在生物学中的应用也还很不成熟佃是作为 一种新的研究思维方法。本体论住促进对生物数据的胖解和整合、提高牛物医学文本挖掘的 效率的等研究领域具有很大的潜力。 1 3 本课题的任务和主要研究成果 基于以上的研究背景和课题要求,本课题主要所做工作如下 9 东南大学硕士学位论文 1 创建学习行为与精神疾病相关基因数据库。数据库采用通用的b s ,也就是台浏览 器和后台服务器结合的数据库网站形式。初步收集了与脑科学相关的人类基因4 5 0 条左右在 数据库中,侧重于行为、心理、情绪、精神疾病等方面有关的基因。数据库实现这些基因信 息的本地化,并可以在网页上根据不同的规则来浏览和搜索这些基因信息这些基因信息包括 如:基因名称,基因符号,非正式的别名,基因表型术语( t e n n ) 、染色体号、g o 术语、相 关基因序列信息,各相关数据库( o m i m ,u n i g e n e 、g e n b a n k ) 登录号等 2 构造了一个脑科学相关基因表型o n t o l o g y , 结构类似于g e n eo n t o l o g y ,并在叫页上 以可伸展的图状结构显示。我们将上面这两部分所取得的萆因和术语有机地对应起来,本质 上就是将这些基因与它的生物学功能有机地联系起来形成一种多对多的数据关系。两者之 间可以相互杳询和转换。从而将基因与它的功能对应起来。 3 建立的脑科学相关基因库,相当于一个数据仓库,利用数据挖掘的基本原理和步骤,对 同一脑科学相关表型下的基因表型进行统计和分析,总结出在这组基因中出现频率高,层次 低的的几个特征基因表型,并利用它们去寻找更多的与脑科学表型相关的基因,结粜显示给用 户,提供给访问者参考。同时有选择的收入数据库中,丰富数据库内容。 4 数据库中的基因信息会随着时间研究的进展不断变化和增加,因此,我们对数据库 中的幕因信息实行自动更新和维护。除了摹囚表型一项以外的所有基因信息项都通过a s p 程序直接从n c b i 上下载并存放如数据库中。 本课题为腩科学的相关基因产物的研究提供了一个规范、系统和结构化的术语系统,将 它集成剑各相关系统中去,就可以把这些异构信息整合起来对提局相关信息的组织和管理 效率,系统间的交流、共享以及数据挖掘等都具有重璺的意义。 第一章绪论 参考文献 1 杨雄电脑的奥秘 m 长沙;湖南科学技术出版杜,1 9 9 5 1 6 3 4 2 1 杨土辉揭开大脑和意识的奥秘 m 】重庆:西南师范大学出版杜,1 9 9 6 1 一1 1 3 丁凡译分子生物学还能算是门自然科学吗 j 屋外科技动态1 9 9 3 5 :5 一 4 】郏德高寻找神经科学与认知科学的桥梁 j 科学l 9 9 2 5 :5 6 _ 5 7 5 沈政,林庶之
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 高速公路项目组织架构设计方案
- 从业资格考试挂牌转让及答案解析
- 食品知识安全大赛题库及答案解析
- 焦作停车库施工方案
- 防护铁加固方案范本
- 幼儿助教个人工作总结
- 儿科提升护理服务品管圈
- 营养配餐教学思政课件
- 风信子教学课件图片大全
- 小班保育老师工作总结
- GB/T 22751-2008台球桌
- 中国近代史试题库
- 电路学课件:1-6 电压源和电流源
- 奥的斯GeN2-故障查找手册-1-CN
- 村民森林防火承诺书
- 税法(第三版)项目一任务三增值税应纳税额的计算
- 系统数据导出确认单
- Q∕SY 01004-2016 气田水回注技术规范
- TSG Z8002-2022 特种设备检验人员考核规则
- 植物组织培养论文 月季
- QC∕T 900-1997 汽车整车产品质量检验评定方法
评论
0/150
提交评论