




已阅读5页,还剩58页未读, 继续免费阅读
(生物医学工程专业论文)基于web信息挖掘精神与行为相关基因.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
a b s t r a c t a b s t r a c t t h ed e v e l o p m e n to fg e n o m i c sh a sp r o m o t e dt h ew h o l el i f e s c i e n c e s ,i n c l u d i n g b i o l o g y , b r a i ns c i e n c e ,p s y c h o l o g ya n db e h a v i o r i nt h i sc o n t e x t ,s o m ee m e r g i n g i n t e r d i s c i p l i n a r i e sw e r eb o r n ,l i k ec o g n i t i v ee u r o s c i e n c ea n db e h a v i o r a lg e n e t i c se t c a l t h o u g ht h e s ei n t e r d i s c i p l i n a r i e sh a v ed i f f e r e n tr e s e a r c hf o c u s e s ,t 1 1 e ya l lw a n tt o f i n dt h er e l a t i o n s h i pb e t w e e nt h eb r a i n ,p s y c h o l o g ya n dt h eb e h a v i o rb yt h er e s e a r c h o ng e n o m i c s al o to ft h eh u m a ns p i r i t ,b e h a v i o u ro rd i s e a s e r e l a t e dg e n e sh a v e a l r e a d yb e e nf o u n d f o rc o n v e n i e n ta n dt i m e l yq u e r y i n go ft h er e l a t e dg e n e sa n dt h e l a t e s ti n t e r n a t i o n a lr e s e a r c hr e s u l t s ,o u rl a b o r a t o r ye s t a b l i s h e da no n l i n ed a t a b a s eo f s p i r i ta n db e h a v i o rr e l a t e dg e n e sp r e v i o u s l y b u tt h ee f f i c i e n c yo ft h ed a t au p d a t i n g h a sb e i n gv e r yl o w , s i n c et h er e l e v a n tg e n e t i ci n f o r m a t i o na r ec o l l e c t e da n di n p u tt o t h ed a t a b a s em a n u a l l y s ow ed e s i g n e da na u t o m a t i cd a t ac o l l e c t i n gs o f t w a r et o o l ,t h a ti n c l u d e sf o u rp a r t s : a u t o m a t i c a l l yd a t ad o w n l o a d i n gf r o mg e n ed a t a b a s e ,l i t e r a t u r em i n i n g ,c o - w o r d a n a l y s i so fg e n en a m e sa n ds i n g l eg e n ea d d i n g a u t o m a t i c a l l yd a t ad o w n l o a d i n g t o o ls e a r c h e st h eg e n ed a t a b a s eo fn c b1w h i c hi sw i d e l yu s e df o rr e l a t e dg e n e s ,t h a n d o w n l o a d st h er e c o r df i l e so ft h e s eg e n e s ,f i r so u tt h ei n f o r m a t i o no ft h eg e n e sa n d p u tt h e mi n t ot h ed a t a b a s e l i t e r a t u r em i n i n gt o o lf i n d so u tt h er e l a t e dl i t e r a t u r e si n p u b m e d ,t h a nd o w n l o a d st h er e c o r df i l eo fe a c hl i t e r a t u r ea n dr e t r i e v e st h eg e n e n a m e sf r o mt h ea b s t r a c t st og e tt h er e l a t e dg e n e s c o - w o r da n a l y s i st 0 0 1f i n d so u tt h e c o p r e s e n t a t i o no ft h eg e n e si na b s t r a c t s t h eg e n e sa p p e a ri na na b s t r a c ta r es u p p o s e d t ob er e l a t e d t h er e l a t i o n s h i pb e t w e e nt h eg e n e sh e l pt or e s e a r c ht h eg e n ef u n c t i o n a n dl o o kf o rn e wc a n d i d a t eg e n e s i na d d i t i o n ,s i n g l eg e n ea d d i n gt o o li sd e s i g n e d f o ra d d i n go ru p d a t i n ga s i n g l eg e n eb yi t si dn u m b e r i nn c b l b yu s i n gt h es o f t w a r et o o l , w ec o l l e c t e dal o to fr e l a t e dg e n e sf o rt h es p i r i ta n db e h a v i o rr e l a t e d g e n ed a t a b a s ew i t hh i g he f f i c i e n c ya n da c c u r a c y t h en u m b e ro ft h eg e n e sw a si n c r e a s e df r o m a b o u tt h r e eh u n d r e dt om o r et h a ns e v e r nh u n d r e d t l 硷t o o lm a k e st h ed a t ai nt h ed a t a b a s e c o m p l e t e ,t i m e l ya n da c c u r a t e i na d d i t i o n ,t h et o o li se x p a n s i b l ea n d t r a n s p l a n t a b l e b yl o a d i n gn e ws u b j e c th e a d i n g s f r o mm e s h ,t h et o o lc a nc o l l e c tt h er e l a t e dg e n e sa n dc o n s t r u c tag e n ed a t a b a s eo f t h i sn e wf i e l d t h e r e f o r e ,w i t ht h eo n l i n ed a t a b a s e ,t h i ss o f t w a r et 0 0 1c a nh e l pt o e s t a b l i s hg e n ed a t a b a s e sf o rv a r i o u sf i e l d s k e y w o r d s :g e n e 。d a t a b a s e ,l i t e r a t u r em i n i n g ,c o w o r da n a l y s i s , s p i r i t , b e h a v i o r 东南大学学位论文独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得 的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含 其他人已经发表或撰写过的研究成果,也不包含为获得东南大学或其它教育机构 的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均 已在论文中作了明确的说明并表示了谢意。 东南大学学位论文使用授权声明 东南大学、中国科学技术信息研究所、国家图书馆有权保留本人所送交学位 论文的复印件和电子文档,可以采用影印、缩印或其他复制手段保存论文。本人 电子文档的内容和纸质论文的内容相一致。除在保密期内的保密论文外,允许论 文被查阅和借阅,可以公布( 包括刊登) 论文的全部或部分内容。论文的公布( 包 括刊登) 授权东南大学研究生院办理。 1 研究生签名: 老3 五 导师签名: 第一章绪论 第一章绪论 1 1 精神与行为相关基因研究现状 随着基因科学的不断发展,科学家们对人类精神与行为的研究发展到了一个新的阶段。 研究的触角已经从人类的神经系统进一步深入到了对人类遗传起着关键作用的基因上面。有 研究者指出,在已发现的人类基因中,有2 0 0 0 0 个以上在中枢神经系统的发展与活动过程中发 挥着作用。 遗传学家们试图以电生理事件p 5 0 为媒介,寻找影响注意闸门的相关基因。神经生理学方 面的研究发现,出现在颢叶边缘皮层的电生理事件p 5 0e r p 与注意闸门( a t t e n t i o n a lg a t i n g ) 的抑制能力关系密切【2 l 。l e o n a r d 等人的研究发现,c h r n a 7 促进子区的多态性与p 5 0 听觉诱发 电位反应关系密切【引。以正常人和精神病人为被试进行的研究均表明,对重复性听觉刺激诱 发反应抑制性的下降与定位于染色体1 5 q 1 4 的c h r n a 7 基因存在着连锁关系。 有关基因在人类记忆中作用的研究目前进行的也比较广泛。在组织切片和动物研究中, 研究者们发现,脑源性神经滋养因子( b d n f ) 对与情景记忆过程有直接关系的长时程突触增强 和海马功能具有直接的作用。e g a n 等人通过对人群中b d n f 的多态性进行研究发现,有一种 单核苷酸的突变使染色体6 6 位上的缬氨酸( v a l i n e ,v a l ) 转换为蛋氨酸( m e t h i o n i n e ,m e l ) 。 以情景故事任务对被试进行测试发现,v a l v a l 基因型组被试的记忆成绩最好,m e l m e l 基因 型组被试的成绩最型4 1 。 在言语研究方面,近几年的大量研究已经证明,人类的基因遗传编码在语言获得过程中 起着非常关键的作用【5 l 。在一系列研究中,对“k e ”家庭的研究非常著名。该家庭成员中,约 一半存在严重的言语障碍。研究人员通过对k e 家庭个体的d n a 进行检测发现,这种严重的言语 障碍与f o x p 2 基因的突变具有密切的关系。 许多精神疾病也被发现显然与遗传因素有关,找寻其易感基因和易感基因在染色体的准 确定位是了解其发病机制和防治的关键。目前报道最多的是关于精神分裂症和阿尔茨海默病 ( a d ) 易感基因的研究。目前找寻精神分裂症易感基因的主流方法是采用多态性短串联重复标 记( s t r ) 进行全基因组扫描,进而进行家系的连锁分析和人群的连锁不平衡分析。目前已报 道了l q 、3 p 、4 q 、5 q 、6 p 、6 q 、8 p 、l l q 、1 3 q 、1 5 q 、1 8 p 、2 2 q 、x p 等多个染色体存在一 与精神分裂症相关的易感基因候选区。a d 的病理组织学有2 个特征:老年斑( s p ) 和神经元纤维 缠结( n f t ) 。老年斑的核心成分是b2 淀粉样肽,来源于淀粉样肽前体蛋白( a p p ) ,a p p 基因定 位于2 1 q 。n f t 的核心成分是高度磷酸化的t a u 蛋白,t a u 蛋白基因定位于1 7 q 。目前报道与a d 相关的候选基因主要还有定位于1 9 q 的载脂蛋白e ( a p o e ) 基因:定位于1 4 q 的早老蛋白l ( p s - 1 ) 基因:定位于1 号染色体的早老蛋白2 ( p s 一2 ) 基因和定位于1 2 号染色体的q2 一巨球蛋基因( a 2 m ) 【6 】o 研究者还发现了与人类性格相关的基因。r e i f 在一篇题为“迈向分子架构的人格( t o w a r d 东南大学硕士学位论文 am o l e c u l a ra r c h i t e c t u r eo fp e r s o n a l i t y ) ”的文章中就提供出来十多个可能直接影响人 格的基因1 。s e n 和同事们发现人体第1 1 条染色体上的b d n f ( 脑源性神经滋养因子) 基因的变 异可以影响人格【8 i 。这个基因的编码所产生的蛋白质有促进神经原( n e u r o n ) 生长的功用。根 据他们在调查的2 5 7 个家庭中所得的结果显示,在人群中其基因型会有三种,所生产的b d n f 也 有三种,有的蛋白质是m e t m e t s 形,有的是v a l v a l s 型,还有的是m e t v a l 型。凡是带有 m e t m e t s 的个体,神经质的程度最低,v a l v a l s 最高,v a l m e t s 居中。其次,还有一个 位于人类第1 l 条染色体上的d 4 d r 基因,因它制造d 4 多巴明受体( d o p a m i n er e c e p t o r ) 而得名 一】。这个基因中有4 8 对碱基的片段可以有2 到1 1 次不同的重复。结构上的不同会影响到不同 的功能,因为d 4 d r 所造的蛋白质( d 4d o p a 皿i n er e c e p t o r ) 长短不同,它对d o p a m i n e 的亲和力就 不一致,蛋白质越长,亲合力越弱,因此带有不同长度d 4 d r 基因的个体,就产生不同的感觉。一 个人的d 4 d r 基因越长,寻找刺激的欲望越高,性格就越突出f l0 1 。 行为方面,专家们找到了引发少年暴力的基因。研究发现,一种称为m a o a 的基因会影响 大脑发育,可怕的是,这种影响是负面的,让孩子逐渐具有暴力倾向。研究还发现,教育不 当也会刺激孩子的好斗心理。美国全国心理健康研究所神经学专家迈耶林登伯格表示,冲 动引发暴力的基因风险可能来自于大脑。迈耶林登伯格 i i 】领导研究小组对1 4 2 名白人成年 人进行了研究,这些人均遗传有一种特殊基因的两种常见版本,这种基因能触发大脑分泌一 元胺氧化酶a ( m a o a ) 。在迈耶林登伯格的研究中,缺乏姒o a 基因的5 7 名男女表现出一系列 神经特征,这些特征显然会削弱一个人控制感情的能力。相反,m a o a 基因强的志愿者对情 感输入反应不强烈,而对与冲动控制相关的活动则反应积极。 综上所述,伴随着基因科学的发展,对于人类心理、行为、精神疾病等方面进行的基因 层面的研究已经取得了许多成果,发现了许多与之相关的基因。但是,这些领域的研究进展 还很缓慢,还存在许多困难。首先,单个基因不只会对一种人类生理或心理活动产生影响i l 引。 其次,单个基因对人类心理行为的影响也非常微小。再者,人类的心理活动是一个非常复杂的 现象,除了基因和一些生理方面的因素外,它还受环境因素、文化背景、教育程度、后天的器 质性病变、药物等方面的影响。基因作为心理的物质基础只是人类心理活动的一个必要条件。 同时我们也不能排除人类的心理行为会对基因产生反作用。 为了帮助人类精神与行为基因层面的研究,我们建立了专门的基因数据库用以收集与精 神与行为相关的基因信息。原先我们通过人工查阅资料、手工录入的方式为数据库添加新的 基因信息,这种方式效率很低。因此,在本文中我们将运用生物信息学的方法,通过基因数 据自动获取程序、文献挖掘、共词分析等手段为精神与行为相关基因数据库快速高效地收集 到相关的基因信息,提升数据库的实用价值。 1 2 基因数据库概况 自1 9 9 0 年人类基因组计划( h g p ) 启动以来,有关h g p 的研究成果和数据成几何指数增长, 各大研究机构纷纷建立了自己的数据库。同时,随着计算机技术和网络技术的飞速发展,生物 医学机构开始建立自己的霄e b 服务器。第一个分子生物学w e b 服务器是1 9 9 4 年瑞士日内瓦大学 2 第一章绪论 开发的e x p a s y ,随后n c b i 及e m b l ( 欧洲分子生物学实验室) 也相继建立自己的w e b 艮务器。目前, 在i n t e r n e t :已有近千个生物医学w e b s 点,他们及时地为科研人员提供核苷酸序列、氨基酸 序列、蛋白质结构预测、蛋白质三维结构等生物信息,成为生物医学研究不可缺少的工具。 1 2 1 基因数据库的数据来源及相关分类 基因数据库中的数据,早期是人工搜索生物学出版物中的核苷酸序列,氨基酸序列及蛋 白质结构,然后录入库中。近来的来源主要有两个:一是科学家直接发送的数据:二是测序中 心将大量的基因组记录成批发送至数据库,再经过计算机进行自动化处理及进行人工注释。 同时,各基因库间不断地进行数据交换,更新数据,以尽可能的保持综合性、及时性、准确性。 根据来源级别,可将数据库分为四类: 1 原始数据库含有一种信息( 例如序列数据) ,有许多来源如大型序列计划、个人提交 的资料、文献和其它数据库。迄今,国际上4 个大的生物信息中心即美国的国家生物技术信息 中心( n c b i ) 和基因组序列数据库( g s d b ) ,欧洲分子生物学实验室和日本d n a 数据库( d d b j ) 已经建立和维持了源自数百种生物的c d n a 和基因组d n a 序列的大型数据库。这些中心和全球 的基因组研究实验室通过网点、电子邮件或者直接与服务器和数据库联系而获得序列数据。 2 继生数据库含有一种信息,但只来自其他数据库。这个数据库可以是其它数据库的 亚库,或来自另外的数据库的分析。国际上这样的数据库非常多,它们因为针对不同的研究 内容和需要而各具特色,种类繁多,如肤酶数据库m f r o p s ”i 、蛋白质相互作用数据库d i p 1 4 、 配体门控离子通道数据库l g i c d b f i5 1 ,g 蛋白偶联受体突变数据库t g r a p 1 6 l ,酶反应化学数据 库l i g a n d i l 等。从1 9 9 4 年开始,( n u c l e i ca c i d sr e s e a r c h 在每年的第1 期都用来刊登生 物信息数据库方面的文章。而国内这方面的进展相对比较缓慢,较有成效的如北京大学的水 稻矮缩病毒基因组数据库r d v t l s l 和蛋白质回环分类数据库l o o p s 、中科院化工冶金研究所的 海洋天然产物数据库1 9 1 掣2 0 i 2 1 1 。 3 知识库为专家数据库,包含多种来源的相关信息,例如文献、经验和其它数据库。如 n c b i 建立的国家分子生物学信息资源库,它创建了一系列的生物信息事实数据库和文献数据 库,发展了分析基因组数据的软件工具,发布大量的生物化学信息,促进了人们对影响人类 健康与疾病的分子机理的理解。 4 集成数据库系统是对原始或继生数据库的集成,对于充分利用现有数据、挖掘数据 之间的关系、找出隐藏的规律具有重要的意义【2 2 】。例如e n t r e z ,它是一个查询和搜索系统, 集成t n c b i 各种数据库中的信息,包括核酸序列、蛋白质序列、生物大分子结构、基因组数 据、生物分类数据库、孟德尔人类遗传学数据( o m i m ) 、电子期刊数据库及生物医学文献数 据库m e d l i n e 。 目前,序列数据库及结构数据库量正在迅速增多,原始数据库特别明显。这就带来了质量 控制问题、数据如何检索和分析的问题。因此,目前大多数生物数据库需要再加工和更新。 3 东南大学硕士学位论文 1 2 2 基因数据类型及相关数据库 1 核酸数据库 g e n b a n k :( w w w n c b i n l m i l i h g o v ) 建于1 9 8 2 年,至1 9 9 7 年8 月g e n b a n k 发行1 0 2 期为 止,已收录了1 6 0 万条记录,1 0 多亿碱基,仅1 9 9 7 年就增加了6 9 万条新序列,且每2 2 个月增长 一倍。该数据库中半数以上是人基因组的序列。其中又分为非冗余核酸数据库、e s t 数据库、 s t s 数据库、基因组序列数据库四种。除与日本d n a 数据库、e m b l 核酸序列数据库进行 数据共享外,还收录了p i r 、s w i s s p r o t 、p d b 等蛋白质数据库的蛋白质和氨基酸序列,亦 与m e d f i n e 建立了交叉参考信息,可获取其中与序列有关的文献信息。在基因遗传病描述方面, 加强了与孟的尔人类遗传学联机数据库( o m i m ) 的联系,使g e n b a n k 成为综合性的序列数据 库。g e n b a n k 提供e n t r e z 浏览检索,b l a s t 序列类似性检索,d b e s t 检索,d b s t s 检索和文本检索。 可按基因存取号、著者号、基因名称、期刊刊号、刊名、标题词、文本词、序列号等字段进 行限定检索,还可选择印刷类型、语种、年龄,并附有综述、索引及相关注释,提供f t p 下载和 电子邮件服务。 2 基因疾病定位及其他基因组图谱 g d b 人类基因组数据库( g d b w w w g d b o r g g d b h o m e h t m l ) 于1 9 9 0 年初建于美国约翰霍 普金斯大学,以支持国际合作的人类基因组计划,是一个专门汇集存储人类基因组数据的数据 库,其中包括了全球范围内致力于人类的d n a 结构和1 0 万种人类基因序列研究的分析成果。 目前,该库包括以下几种内容:人类基因组,包括基因、克隆、断裂点、细胞遗传标记物、易断 位点、重复片断等;人类基因组示意图,包括细胞遗传图、关联图、辐射杂交图、综合图等; 人类基因组内的变异,包括基因突变和基因多态性,还有等位基因发生频次等数据资料,可通 过e c 代码与酶数据库、通过d n a 序列登记号与基因组序列数据库相链接。 3 基因突变和表型数据 o m i m 孟的尔人类遗传学联机数据库( w w w n c b i n l m n i h g o v o m i m ) 是人类基因和遗传 性疾病的数据库,由j o h n sh o p k i n s 大学d r v a m c k u s i c k 主编,它提供遗传病的临床及其表 型等信息,描述各种遗传病的基因及其基因产物、基因的表达和定位。至1 9 9 8 年1 2 月已有 1 0 0 3 8 条条目,且以平均每年增加7 4 7 条的速度增长。该数据库有:文本式信息,总结历年文献 报告的主要成果:等位变异体、图,包括基因图谱及病理图谱;参考文献及注释。该库有两种检 索方式:一是根据字符串检索。可以疾病或基因的名称进行查询。二是根据基因定位检索,可 以疾病或基因所处的染色体位置进行查询。o m 刀m 数据库支持带木号的截词检索,使用布尔逻 辑组配,并能进行年龄、著者姓名、临床特征等字段的限制。 h g m d 人类基因突变数据库( w w w c f a c u l d u w c m m g h g m d o h u m ) 主要收录人类遗传病 的致病基因,该库收录了各种致病基因的各类突变情况,如基因缺失、插入、调控区突变、动 态突变以及相关参考文献等,是获取已克隆致病基因分子生物学研究情况最快捷的途径之 4 第一章绪论 基因数据库以其提供的大量的、综合性的、准确的、集成的基因组数据,对生命科学具 有重大意义,已广泛用于基因诊断、基因治疗、基因工程、生物制药、遗传病的预防和保健 方面。基因数据库能通过相应的分析工具、软件,进行基因序列拼接,基因功能预测同源基因 比较,蛋白分析,染色体定位肩皂够方便地进行“电子克隆”,将正常基因序列与疾病的变异序列 进行同源性比较,找出相应片断,合成探针用以诊断,或进行修复得到治疗。为药物设计、药物 合成提供靶基因。建立遗传病库用以鉴别诊断,可为正常人提供基因测序用以预防一些特殊 疾病。基因技术是2 l 世纪重大的技术,将使人们的生活发生重大改变,基因数据库则是发展基 因技术的基础。 1 2 3 基因数据的获取 目前国内进行生物信息学研究的科研人员主要是通过手工操作在网上获取基因信息资 源。首先访问原始数据库的w e b 站点( 如h t t p :唧n c b i n l m n i h s o y ) ,对数据库中各 种注释信息进行关键词匹配查找,将查询结果以文本文件形式逐条下载到本地计算机,以便 随后分析整理并导入自己的专业数据库。大量原始数据的分析筛选,加上网络硬件条件的限 制,使得手工获取生物信息数据会浪费大量的时间。另外,如果研究领域较新( 如本文背景 的精神与行为相关基因的研究) 或是最新的研究成果,单靠查询原始数据库可能得不到完备 的数据。这时就需要研究人员查阅大量相关文献,从中找到相关基因信息。这样,数据获取 的速度更加缓慢。一个可行的解决思路就是让计算机程序替代人进行高效的数据查询、下载 及挖掘。 在本文中我们基于w e b 信息构建了自动化数据采集系统,通过网络智能代理技术、文献 挖掘及共词分析等手段为精神与行为相关基因数据库快速、准确地采集并录入相关的基因信 息。 1 3 网络智能代理( i n t e l l i g e n ta g e n t ) 技术 i n t e r n e t 及其w e b 技术的飞速发展和普及,w w w 已成为人们共享网络资源的主要途径。目 前i n t e r n e t 上的几十万个1 r e b 服务器所提供的各种各样的信息资源日益增多,构成了广阔的 信息空间。但是基于分布式及超文本的网络信息资源的一些固有特性阻碍了资源的有效利用 和共享,出现了所谓的信息迷航、信息拥塞、信息过载以及信息干扰等问题。而智能代理的 特点非常适应于因特网这样分散的分布体系,它可以非常简便地为那些物理上毫无联系而分 散的庞大信息自动生成“应用”( h p p l i c a t i o n s ) 。这种应用正是智能代理的核心所在【2 3 1 , 所以智能代理在网络上得到广泛应用。 与以前计算机只能被动地执行程序员或用户的指令不同,智能代理是信息用户的“自动 助手”。智能代理技术本质上就是由计算机程序构成的。特别是在因特网领域内,智能代理 的程序由程序员根据用户的要求写出指令代码,这些程序一经写出就被发送到因特网上自动 执行而不需要用户的干预与指导。智能代理为某些专业领域的信息用户自动地提供信息,它 5 东南大学硕士学位论文 扮演了信息的收集者、过滤者、信息学习者的角色。其主要功能包括:问题的分析者; 问题的解决者;执行代理;监督代理:协调与冲突解决代理。这几项功能基本上涵盖 了智能代理的全部内容2 1 1 。 ll 知识发现 i i n e m e t i i 信息卜一 ( 信息数据 斗 规则应用库 f ll库) l 用户界面 ( 用户反 用 知识库( 推理机 一 馈、结果 户 输出) 制、学习机制) l 一一 图1 1 智能代理体系结构简图 从图1 1 我们可以看出智能代理工作过程 2 4 1 ,各个智能代理都有自己的知识库,用户表 达出自己的信息需求后,通过通信协作代理传给知识库,根据用户信息库中用户特定的需求 和近一段时间内的爱好兴趣为标准来筛选信息。监督代理就是当用户提出信息需求时,它就 会检查知识库中是否用户以前有过相似的信息需求,若有就把知识库中用户以前的需求记录 提取出来,通过推送代理发给用户:若知识库中没有用户的信息需求,经规则应用库代理理解 生成一定的搜索规则,传送给知识发现代理进行相关信息搜索,搜索后的结果经信息过滤后 存于信息数据库,再经过知识库的推理机制推断用户的潜在需求,作为用户需求历史记录下 来,结果推送给用户。监督代理还根据一定规则实时动态地跟踪信息数据库中历史记录在 i n t e r n e t 网络上的变化,一旦知识发现代理收集到相关内容和更新内容,监督代理就通知规 则应用库生成新的检索规则或应用,并通知和提醒用户有新的信息内容,还可以e l a i l 方式 把特定更新内容以推送方式提交给用户。检索完成后允许用户对结果进行满意度和相关度的 评价并反馈给知识库,一方面了解用户的新的兴趣需求,另一方面完善用户所需信息相关度 的匹配规则,为用户的未来信息检索提供可靠的保障。 在网络环境下,需要考虑到因特网的特点,在智能代理编写和运行时给予特别注意。在 网络环境下,一个a g e n t 可以看成是代表用户驻网络的常设机构,可在网络上灵活机动地访 问各种资源和服务,还可以就完成特定的任务同其他智能a g e n t 进行协商和合作,甚至把自 己“迁移”到网络中的其他主机上去执行任务。所以在这种情况下i 对网络的安全性、个人 隐私和管理方面是一个巨大挑战【2 5 。 一个性能良好的网络智能代理应该具有的基本属性: 1 性能方面。它应该具有可靠的技能,同时具备应付网络突发事件的一切常识。同时 应该注意自身的安全。 一6 第一章绪论 2 通讯方面。它应该拥有直观的界面,准确简洁的表达能力,能够指出用户的错误操 作,能够对信息进行可靠性检验,允许用户中断当前工作,友好的显示提示信息,能够清楚 地显示代理的运行情况。 3 信任方面。它应该能够取得用户的信任,不会超出用户授权的范围工作。 4 实现方面。它应该具有模块化的实现,并且可以不断更新自己。应该可以保存用户 的数据、窗口状态和任务信息,避免重复工作。 5 容错方面。它应该能够处理绝大多数错误情况,并且把错误记录下来。能够保持自 身的稳定运行。 6 效率方面。它应该尽量避免耗用过多内存,必须具有较高的响应速度和多线程的能 力。 1 4 生物医学文献挖掘 随着高通量生物技术的发展,生物学的实验手段和研究方法均发生了巨大的变革,由此 带来的领域内实验数据的“指数性”增长,数据的存储与传输,数据的处理、理解与应用等 一系列问题,得到了来自数学,化学,药学,统计学,计算机科学等领域专家的广泛关注并 取得了大量成果。生物学文献作为成果展示和学术交流的主要方式之一,其数目之大,增长 速度之快远远超过了其他学科领域。隶属于美国国家生物技术信息中心的文献摘要库 m e d l i n e ,是世界上最大的、最具权威性的著名生物医学文献数据库,收集了全世界4 8 0 0 多 种生物学及医学杂志上1 5 0 0 万余篇文献信息,并且正以每个月超过万篇的速度增长。面对 如此大规模的、快速增长的科学文献数据,即便是领域内的专家也无法依赖手工方式从中获 取感兴趣的信息,做到完全掌握其领域研究现状和未来发展趋势。因此,一个可以自动将海 量文献转换为生物知识的生物学文献挖掘系统,成为生物学者研究工作中必不可少的工具。 目前,生物学文献挖掘研究的主要内容分为以下五个部分瞄j :信息检索( i r , i n f o r m a t i o nr e t r i e v a l ) ,实体识别( e r ,e n t i t yr e c o g n i t i o n ) ,信息提取( i e ,i n f o r m a t i o n e x t r a c t i o n ) ,文本挖掘( t e x tm i n i n g ) 和信息集成( i n f o r m a t i o ni n t e g r a t i o n ) 。 1 4 1 生物医学领域的信息检索 文本信息检索就是根据用户提交的检索需求( 称为查询) ,在文档信息集合中快速有效 地查找到有用的信息,并返回给用户使用1 2 。生物领域信息检索面临的主要挑战是如何结 合生物背景知识。正确理解用户查询和生物医学文献中出现的生物医学词汇缩写 ( a c r o n y m y ) 。异物同名词( h o m o n y m y ) ,同物异名词( s y n o n y m ) 等【2 引。研究主要包括:应 用传统文本信息检索模型:引入高质量的生物医学领域词典( t h e s a u r u s ) 、本体( o n t o l o g y ) 唧j 和词汇表( g l o s s a r y ) 用以查询扩展。 ( 1 ) 传统文本检索模型在生物医学领域的应用 当前在生物医学文本信息检索中,广泛研究和应用的模型1 3 0 1 包括:布尔模型( b 0 0 1 c a n 7 东南大学硕士学位论文 m o d e l ) ;向量空间模型( v e c t o rs p a c em o d e l ) ;概率模型( p r o b a b i l i s t i cm o d e l ) :语言 模型( l a n g u a g em o d e l ) 【3 。就目前发展来看,布尔模型和向量空间模型已经成功地应用 到对外提供服务的生物学文本信息检索系统中( p u b m e d ,e - b i o s c i ,t e x t p r e s s o 等) ;概率 模型在国际评测中,逐渐体现其优势并日益走向成熟1 3 2 1 ;而语言模型尚还处于起步阶段, 其中很多问题有待研究。 ( 2 ) 检索过程中生物医学知识的引入:查询扩展 , 在生物医学文献中,由于作者对基因、蛋白质等生物体书写的无规则性,使得同一物质 以不同的书写方式出现在文档集合中的现象比较明显。例如:t n f a ,t n f - a l p h a ,t n fa l p h a , t n f a l p h 是同一基因的不同表示:j n k ,s a p k ,m a r p k 是同一基因的一组别名。因此需要利用 查询扩展技术减小查询与文档之间的不匹配。表l 列出了用于生物医学领域查询扩展的重要 词汇资源。 表1 用于生物医学领域查询扩展的著名资源一览表 赍源名称简要描述和相关链接 美国国家生物技术信息中心( n c b i ) 开发的,包括基因功能、基因 l o c u s l i n k t 3 3 】 位置、基因官方命名、基因表示符、基因别名等信息的数据库。 h t t p :w w w n c b i n i h g o v l o c u s l i n k 美国i n d i a n a 大学生物系开发的,包括真核生物体基因符号,基因 e u g e n e s 3 4 1 全名,基因产物信息的数据库。 h t t p :e u g e n e s o r g m e s h 美国国家医学图书馆( n l m ) 开发的受控词汇表,它将2 2 9 9 7 个生 ( m e d i c a ls u b j e c t 物医学词汇组织在1 5 个主要分支、11 层深的树状结构中。 h e a d i n g s ) h t t p :w w w nl m nih g o v m e s h 美国国家医学图书馆( n l m ) 开发的,是目前规模最大的生物医学 u m l s 术语系统,涵盖了尽可能多的和生命科学相关的概念、实体,以及 ( u n i f i e dm e d i c a l l a n g u a g es y s t e m ) d s 它们之间的关系。 h t t p :m n l m n i h g o v r e s e a r c h u m l s g e n eo n t o l o g y 协会开发的,用对基因及其产物从分子功能、生物 g o ( g e n eo n t o l o g y ) 瞄l 进程和细胞组成三方面进行描述的本体。 。 h t t p : f 们g e n e o n t o l o g y o r g 美国b r a n d e i s 和t u f t s 大学开发的,利用正则表达式在m e d l i n e a c r o m e d d t 摘要中自动提取了4 8 0 0 0 0 个生物学词汇缩写的系统。 h t t p :n e d s t r a c t m e d t u f t s e d u a c r 0 1 1 美国s t a n f o r d 大学开发的,利用统计机器学习算法从m e d l i n e 摘 a b b r e v i a t i o n o n li n e l 3 s l 要中自动提取生物学词汇缩写的系统。 h t t p :a b b r e v i a t i o n s t a n f o r d e d u 8 - 第一章绪论 1 4 2 生物医学领域的名字实体识别 生物医学领域的名字实体识别是从生物医学文献中找到生物医学名字实体,并且将其标 注为正确的类别( 如基因、蛋白质、疾病、药物等) 。它是生物医学文献的高级检索和信息 提取等必不可少的技术环节。 随着生物医学文献数目“爆炸式”的增长,未得到权威认同的生物医学名字实体的数目 也随之增长,生物医学领域名字实体的下列特点造成识别的困难:( 1 ) 描述性的长名( 如 “n o r m a lt h y m i ce p i t h e l i a le e l i s ”) ;( 2 ) 共用中心名词的多名字实体( 如,9 1a n d8 4k d a p r o t e i n s ) :( 3 ) 具有多表达形式的名字实体( 如,“i l - 2 ”,“i l 2 ”,“i n t e r l e u k i n2 ”,“1 1 - 2 ”, “i n t e r l e u k i n 一2 ”,“i n t e r l e u k i ni i ”代表同一种基因) ;( 4 ) 共用同一表达形式的不同名 字实体( 如,“mab ”既可以是“m o n o c l o n a la n t i b o d y ”,也可以是“m a l ea b n o r m a lg e n e ”) ; ( 5 ) 级联结构( 如,“k a p p a3b i n d i n gf a c t o r ”,其中“k a p p a3 ”是基因名,而“k a p p a3 b i n d i n gf a c t o r ”是蛋白质名) 。为此,学者们提出的行之有效的方法包括:基于规则的方 法,基于字典的方法和机器学习的方浏”1 。 ( 1 ) 基于规则的方法 算法中的规则是根据生物医学名字实体的命名规律,由专家提供的可以用于指导名字识 别工作的一些命名方式。该方法速度快,可以处理上述的表述多样性问题,但需要专家参与 进行规则的制订与管理,通用性和可扩展性很小。 ( 2 ) 基于字典的方法 基于字典的算法需要一个较大的精化过的名字库以及匹配策略。该方法的实现方式较为 直接,易于理解,但由于生物医学领域的名字数量庞大,更新频繁和表达不一致,使得维护 一个生物医学字典库非常困难。 ( 3 ) 机器学习的方法 机器学习的方法是在一个标注过的训练文集中提取需要识别的名字实体的模式作为分 类标准的方法,其关键在于选取的特征和分类器。该方法在灵活性,对特定环境的适应性, 以及处理小样本能力等方面体现了较大的优势,但它需要对大量的文集进行手工标注用以训 练,会因数据不均衡导致“过学习”。 1 4 3 生物医学领域的信息提取 生物医学领域的信息提取是按照用户定义从文献资料中提取生物体相互作用关系m l 。 提取出来的生物体之间关系可以是蛋白质相互作用,基因调控关系,蛋白质磷化关系等( 如 图2 所示) ,这些关系对整个生物医学知识网路4 1 1 的建立,生物体关系的预测,新药的研制 等均具有重要的意义。 9 东南大学硕士学位论文 生物医学文献中旬子偏长而且结构复杂,定语从句,远程指代,同位语等语言现象随处 可见,成为信息提取面临的主要困难m 1 。如例句“h e r ew es h o wt h a t ;i i 羹囊,a n :隧鬻鬻纛纛i 鏊疆藕鎏f o rb o n em o r p h o g e n e t i cp r o r e i n s p e c i f i cs m a d s ,a l s oi n t e r a c t sw i t h :i 蘸黼l j | | na n d i n d u c e s 纂骥蠹l 鞣u b i q u i t i n a t i o n a n d t r a n s l o c a t i o ni n t ot h ec y t o p l a s m ”中,蛋白质的名 字已由生物体名字识别
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- Unit 4 The art of having fun-Presenting ideas(说课稿)2024-2025学年外研社版(2024)英语七年级下册
- 2025年新能源企业社会责任信息披露与环境风险管理报告
- 2025年新能源企业数字化项目管理研究报告
- 国开23897丨商务英语1 (统设课)试题及答案
- 转基因抗镰刀菌-洞察与解读
- 2025年低空经济空域资源紧张问题与动态调配模式研究报告
- 2025年无人机产业研发制造一体化与生态体系建设报告
- 认知偏差在文化传承中的作用-洞察与解读
- 2025年新能源汽车整车轻量化材料应用研究报告
- 10、比较两个数的多少(一)教学设计小学数学二年级上册浙教版
- GB/T 17553.1-1998识别卡无触点集成电路卡第1部分:物理特性
- 2023年西藏山南雅砻天然饮品有限公司招聘笔试模拟试题及答案解析
- 高速铁路客运设施设备课件
- 海南矿产资源概况
- (通用版)水利安全员考试试题库及答案
- 编版一年级下册 《荷叶圆圆》2022年小学语文作业设计
- 施工现场安全检查记录表(周)以及详细记录
- 汽车配件购销合同集合
- 雨污水管道表格全全套资料
- 石库门——中西合璧建筑的典范
- 数独比赛六宫练习题96道练习
评论
0/150
提交评论