(计算数学专业论文)基于web的生物信息挖掘系统的研究.pdf_第1页
(计算数学专业论文)基于web的生物信息挖掘系统的研究.pdf_第2页
(计算数学专业论文)基于web的生物信息挖掘系统的研究.pdf_第3页
(计算数学专业论文)基于web的生物信息挖掘系统的研究.pdf_第4页
(计算数学专业论文)基于web的生物信息挖掘系统的研究.pdf_第5页
已阅读5页,还剩55页未读 继续免费阅读

(计算数学专业论文)基于web的生物信息挖掘系统的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

! ! 塑至圭塑查兰堡主差垡丝塞 摘要 2 0 世纪9 0 年代以来,i n t e m e t 得到飞速发展。作为最大的信息集散地,w e b 上具有海量的信息数据,成为人们工作与学习的平台之一。如何从数以亿计的 w e b 网页中发现需要的知识,成为人们迫切希望解决的问题。与此同时,历经十 年的人类基因组计划产出了海量的生物学数据,这些数据通常存放在位于不同国 家和地区的w e b 服务器上,供科研工作者自由选用。由于生物学数据产出量的 激增,使得这些生物学数据库除了占用大量的存储空间外,维护更新的代价也越 来越高。如何从这些数据库中动态地获取数据,从中挖掘出有用的信息已成为生 物信息学的一个重要研究方向之一。因此,作为从浩瀚的w e b 信息资源中发现 潜在有价值知识的一种有效技术基于w e b 的数据挖掘正受到越来越多的重 视。 本文首先对基于w e b 的数据挖掘的定义、分类和难点做了简要的概述,介 绍了目前国内外在这方面的研究进展,阐明了将基于w e b 的数据挖掘应用在生 物学上的意义。随后介绍了基于w e b 的数据采集和文档检索方法,我们针对n c b i 上的三个数据库:g e n b a n k 、l o c u s l i n k 和o m i m 设计了数据采集方法,能自动 地从这些数据库中采集需要的基因数据,然后利用改进的方法对采集得到的文档 数据进行文档检索,找出有用的基因信息。 为了方便生物学家的研究,我们设计了一个基于w e b 的生物信息挖掘系统: g e n e x t r a c t o r ,该系统通过w e b 对n c b i 上的生物学数据库中的生物序列数据和 基因表达数据进行挖掘,在指定的人染色体区域内搜寻具有特定功能的目标基因 作为候选基因。该系统可为分子生物学家寻找致病基因、采集相关信息等提供有 效帮助。通过对人d n a 修复基因的查寻,验证了该系统的实用效果。在此基础 上,系统还整合了w e b 上的在线生物信息分析软件,对调控因子结合位点作了 预测。 关键词: 基于w e b 的数据挖掘;文档检索;向量空间模型;潜在语义索目 2 0 0 4 年上海大学硕士学位论文 a b s t r a c t a f t e r1 9 9 0 s ,t h ei n t e m e td e v e l o p sa tv e r yf a s ts p e e d a sah u g ei n f o r m a t i o n r e p o s i t o r y , w e b h a sa c c u m u l a t e db i l l i o n so fw e b p a g e sa n db e c o m e o n eo ft h em a j o r p l a t f o r m s f o rp e o p l e sw o r ka n ds t u d y h o wc a nw ef i n dt h ed e s i r e di n f o r m a t i o nf r o m s om a n yw e bp a g e st u r n si n t oap r o b l e m ,w h i c hn e e d st o b es o l v e d u r g e n t l y m e a n w h i l e ,t h eh u m a n g e n o m ep r o j e c th a sp r o d u c e dg r e a td e a l so fb i o l o g i c a ld a t a , w h i c ha r es t o r e di nw e bs e r v e r sl o c a t e di nd i f f e r e n tc o u n t r i e sa n dr e g i o n s s c i e n t i f i c r e s e a r c h e r sc o u l dp i c ka n du s et h e mf r e e l y b e c a u s eo ft h es o a r i n go u t p u to f b i o l o g i c a ld a t a ,t h e s eb i o l o g i c a ld a t a b a s e st a k eu pam a s so fs t o r a g es p a c ea n d n e e d m o r ea n dm o r ee x p e n s ef o rm a i n t e n a n c ea n du p d a t e h o w t od y n a m i c a l l yo b t a i nd a t a f r o mt h e s ed a t a b a s e sa n du n e a r t hu s e f u li n f o r m a t i o nh a sb e c o m eo n eo ft h ei m p o r t a n t r e s e a r c hd i r e c t i o n so fb i o i n f o r m a t i c s t h e n ,a sa ne f f e c t i v et e c h n i q u et od i s c o v e r l a t e n tv a l u a b l ek n o w l e d g ef r o mt r e m e n d o u sw e bi n f o r m a t i o nr e s o u r c e ,w e b b a s e d d a t am i n i n gi sp a i dm o r ea n dm o r ea t t e n t i o n t h i sp a p e rf i r s td e s c r i b e st h ew e b b a s e dd a t am i n i n g sd e f i n i t i o n ,c l a s s i f i c a t i o n a n dd i f f i c u l t yi ng e n e r a l w ei n t r o d u c et h ed e v e l o p m e n to nt h i sa s p e c ta n di l l u s t r a t e t h es i g n i f i c a n c eo f a p p l y i n gw e b - b a s e dd a t am i n i n g t ob i o l o g y t h e nw e p r e s e n tt h e t e c h n o l o g y o fw e b - b a s e dd a t ac o l l e c t i o na n dd o c u m e n tr e t r i e v a l e s p e c i a l l y , e d e s i g nam e t h o dt oa u t o m a t i c a l l yg e td a t af r o mg e n b a n k ,l o c u s l i n ka n do m i m d a t a b a s e so nt h en c b i a n dt h e nd ot h ed o c u m e n tr e t r i e v a li nt h ec o l l e c t e dd o c u m e n t s t of i n do u tu s e f u lg e n ei n f o r m a t i o n f o rt h ec o n v e n i e n tu s eo fb i o l o g i s t s ,w ep r o g r a m m e daw e b b a s e db i o l o g i c a l i n f o r m a t i o nm i n i n gs y s t e m :o e n e x t r a c t o r i no r d e rt os e a r c ht h et a r g e tg e n e sw i t h s p e c i a lf u n c t i o ni nt h es p e c i f i e dh u m a n c h r o m o s o m er e g i o n s ,t h i ss y s t e mm i n e st h e b i o l o g ys e q u e n c ed a t aa n dg e n ee x p r e s s i o nd a t ai n t h eb i o l o g i c a ld a t a b a s e so nt h e n c b it k r o u g hw e b i tc o u l d h e l p m o l e c u l a r b i o l o g i s t s t o i d e n t i f y t h e g e n e s u n d e r l y i n ga h u m a n g e n e t i cd i s o r d e ra n d c o l l e c tr e l a t e di n f o r m a t i o n w ev a l i d a t et h e a c t u a le f f e c to ft h i ss y s t e mb yu s i n gi tt os c r e e nt h eh u m a nd n ar e p a i rg e n e s t h e s y s t e ma l s oi n t e g r a t e sa no n l i n eb i o l o g i c a l i n f o r m a t i o na n a l y s i ss o f t w a r et op r e d i c t t r a n s f a c t o rb i n d i n gs i t e s k e y w o r d s :w e b b a s e dd a t am i n i n g ,d o c u m e n tr e t r i e v a l ,v e c t o rs p a c em o d e l ,l a t e n t s e m a n t i ci n d e x i n g 原创性声明 本人声明:所呈交的论文是本人在导师指导下进行的研究工作。 除了文中特别加以标注和致谢的地方外,论文中不包含其他人已发表 或撰写过的研究成果。参与同一工作的其他同志对本研究所做的任何 贡献均己在论文中作了明确的说明并表示了谢意。 本论文使用授权说明 本人完全了解上海大学有关保留、使用学位论文的规定,即:学 校有权保留论文及送交论文复印件,允许论文被查阅和借阅;学校可 以公布论文的全部或部分内容。 ( 保密的论文在解密后应遵守此规定) 本文的研究工作受上海市重点学科 建设项目及国家8 6 3 高技术研究发展计划项 目( 2 0 0 2 a a 2 3 4 0 21 ) 资助。 2 0 0 4 年上海大学硕士学位论文 i i 研究背景 第一章绪论 历经十年的人类基因组计划h - 3 l 不仅产出了海量的生物学数据,而且催生了 一门崭新的学科生物信息学f 4 羽。如何从海量的生物学数据中挖掘出有用的 信息是生物信息学研究的基本内涵,也是后基因组计划的主攻目标之一。随着 i n t e m e t 的发展和功能基因组学的兴起,万维网( w o r l dw i d ew e b ,又称环球网, 以下简称w e b ) 上出现了大量的在线生物学数据库,分门别类地收录生物序列数 据、蛋白质结构数据、基因表达数据和生物学相关文献等数据1 6 j 。 这些数据库存放在位于不同国家和地区的w e b 服务器上,供科研工作者自 由选用。由于生物学数据的产出量激增,这些生物学数据库占用了大量的存储空 间,维护和更新的代价也随之越来越高。如何通过w e b 从这些生物学数据库中 动态地获取数据并从中挖掘出有用的信息,已成为生物信息学研究的一个新的热 点,特别是在辅助基因治疗的研究上具有重要的实际应用价值。 生物学家早已认识到人类遗传性疾病是和致病基因相关的,有些疾病和单一 基因相关,如亨丁顿氏舞蹈症( h u n t i n g t o n sd i s e a s e ) 、囊肿纤维变性( c y s t i cf i b r o s i s ) 和镰刀形血球性贫血症( s i c k l e c e l la n e m i a ) 等;而有些疾病通常是由一组相关基因 共同作用造成的,如:糖尿病( d i a b e t e sm e l l i t u s ) 、高血压和肿瘤等。随着细胞与 分子生物学理论和技术的发展,特别是重组d n a 技术( r e c o m b i n a n td n a t e c h n o l o g y ) 的产生,使得科学家有能力改造人类的d n a ,达到预防或缓解遗传 疾病的效果,使基因治疗成为可能【7 1 。美国国立卫生研究院畔i h ) 的r m b l a e s e 和w f a n d e r s o n 等人于1 9 9 0 年9 月1 4 日开始了第一次真正实施于人类遗传疾 病的基因治疗,一例因腺苷脱氨酶( a d e n o s i n e d e a m i n a s e ,a d a ) 缺失导致严重的 免疫缺损的女孩经逆转录病毒载体转导该酶基因进入骨髓细胞而获救【8 j 。这一工 作把基因治疗从理论和动物实验真正地带入到临床实践,开辟了基因治疗研究的 新时代。2 0 0 4 年1 月2 0 同获得中国国家食品药品监督管理局准字号生产批文的 “重组人p 5 3 腺病毒注射液”正式上市,这是我国也是世界上第一个基因治疗药 物,是基因治疗研究发展的一个新的里程碑。 进行基因治疗研究的前提是找出致病基因,并确定其致病机制。分子生物学 家在设计致病基因的分子生物学实验研究前,通常先在- - b 段人染色体区域上寻 找一组具有特定功能的基因作为候选基因,并采集分析这些基因的相关信息。然 而,寻找候选基因和采集相关信息是一项颇为费时费力的工作,通常取决于分子 2 0 0 4 年上海大学硕士学位论文 生物学家个人所具备的知识和经验。为了加快科研进度,降低研究成本,分子生 物学家也急切地希望得到有效的信息挖掘工具,以便充分地利用现有的生物学数 据资源,借助基于w e b 的数据挖掘的方法,为实验研究提供有用信息。 1 2 基于w e b 的数据挖掘 1 2 1 基于w e b 的数据挖掘的定义 不单是在生物学领域存在这方面的需求,随着i n t e r n e t 的迅猛发展,我们面 临着数据爆炸的挑战,常常会感到“被数据淹没却仍觉得知识饥饿”的困惑。缺 乏适当的工具,面对着浩如烟海的数据而手足无措,难免会有“入宝山而空手返” 的遗憾。因此,基于w e b 的数据挖掘正悄然兴起,成为从浩瀚的w e b 信息资源 中发现潜在的、有价值的知识的一种有效技术【9 - 1 3 1 。 基于w e b 的数据挖掘是建立在传统的数据挖掘基础上的。按照一般公认的 w j f r a w l e y 等人所下的定义f i 引,数据挖掘是指从静态地存储于大型数据库中的 结构化的数据中提取人们感兴趣的数据模式、内在联系、规律和发展趋势等知识, 这些知识是隐含的、事先不知的、潜在有用的信息。数据挖掘的提出最初是针对 大型数据库的,而从更广义的角度来说,数据挖掘意味着在一些事实或观察数据 的集合中寻找模式的决策支持过程 1 5 1 。因此,数据挖掘的对象不仅可以是数据 库中的数据,还可以是任何组织在一起的数据集合,如w e b 信息资源等。 基于w e b 的数据挖掘是一项综合技术,涉及计算机网络、数据挖掘、计算 机语言学、信息学等多个领域。不同的研究者从自身领域出发,对w e b 信息的 含义有着不同的理解,对发现的知识有着不同的需求,项目的开发也各有其侧重 点。一般地,可以将基于w e b 的数据挖掘定义为:从w e b 数据集合c 中发现隐 含的模式p 。如果将c 看作输入,将p 看作输出,那么其过程就是从输入到输出 的一个映射f :c 专p 。 1 2 2 基于w e b 的数据挖掘的分类 根据挖掘对象的不同,可以将基于w e b 的数据挖掘分为w e b 内容挖掘( w e b c o n t e n tm i n i n g ) 、w e b 结构挖掘( w e bs t r u c t u r em i n i n g ) 和w e b 用法挖掘( w e bu s a g e m i n i n g ) 。 w e b 内容挖掘:即从w e b 上的内容或描述信息中发现有用的知识的过程。 w e b 上的数据类型众多,有文本、图像、音频、视频和元数据等,目前的 w e b 内容挖掘主要是对w e b 文档数据1 1 6 1 7 】和多媒体数据1 1 8 j 进行挖掘。这些 2 2 0 0 4 年上海大学硕士学位论文 数据有的可以通过w e b 直接获取,还有大量的数据存储在后台数据库中,不 能被直接访问。这些数据根据用户的查询被抽取出来,通过动态生成的网页 提供给用户。 w e b 结构挖掘:即从w e b 上的组织结构和链接关系中推导有用的知识的过 程。这种思想源于引文分析,通过分析一个网页链接和被链接的数量来建立 w e b 自身的链接结构模式。这种模式可以用于网页归类,并可以由此获得不 同网页间的相似度及关联度。网络结构挖掘有助于用户找到相关主题的权威 站点【1 9 1 ,并且可以找出指向这些权威站点的相关主题的站点。此外,还可以 对每个w e b 网页内部的结构进行研究,找出一些启发式规则,用于寻找与给 定网页集合相关的其它网页,或是找出信息在网页中出现的模式。 w e b 用法挖掘:主要目的是从、阮b 的访问记录中找出感兴趣的模式。通过 w e b 用法挖掘,可以了解用户的网络行为数据所包含的意义l2 0 】。挖掘的数据 包括:w e b 服务器访问记录、代理服务器目志记录、浏览器日志记录、用户 简介、注册信息、用户对话、交易信息和用户提问式等。分析这些数据可以 帮助网站理解用户的行为,从而改进网站的结构或为用户提供个性化服务。 1 2 3 基于w e b 的数据挖掘的难点 同传统的面向数据库的数据挖掘相比,基于w e b 的数据挖掘需要面对许多 问题,主要有以下几点: ( 1 ) 数据量大:w e b 上的数据存储量实在是太庞大了。而其中只有很小一部分与 用户的需求相关。w e b 上到底有多少张网页? 我们可能无法得到一个准确的 数字,但可以从g o o g l e 的主页( w w w g o o g l e e o m ) _ e 得到一个大致的估计。 2 0 0 4 年3 月2 9 同的g o o g l e 主页上显示,它可以搜索4 ,2 8 5 ,1 9 9 ,7 7 4 张网页( 见 图l 一1 ) ,而这个只占w e b 上所有“可索引”网页( “可索引”网页的含义是, 不受口令限制的网页,不受r o b o t s t x t 文件限制的网页,不是由c g i 程序产 生的网页以及由于其它原因使得搜索引擎不能访问的网页) 数量的一部分。由 此可知,w e b 上的数据量是极其庞大的。但通过搜索引擎搜索,返回的结果 常不尽如人意。常见的情况有几种:要么找到几十万、几百万的过多网页, 要么没有找到任何网页:或是找到的网页已经改变了u r i ,产生“4 0 4 n o t f o u n d ”的错误;或是找到的网站已搬走,地址未知。 ( 2 ) 半结构化( s e m i s t r u c t u r e ) :w e b 上的数据与传统的数据库中的数据不同,传 统的数据库都有一定的数据模型,可以根据模型来具体描述特定的数据。而 w e b 上的数据非常复杂,没有特定的模型可以描述,以w e b 上的文档数据 2 0 0 4 年上海大学硕士学位论文 为例,它既不是完全无结构的也不是完全结构化的,被称之为半结构化数据。 半结构化是w e b 上数据的最大特点。 ( 3 ) 动态性强:w e b 不仅以极快的速度增长,而且上面的信息也在不断地更新, 各种类型的w e b 服务器都在不时地变动各自的主页格式、内容和链接地址, 所设计的挖掘系统也要随之而更改。 图1 - i :g o o g l e 主页显示能搜索4 ,2 8 5 ,1 9 9 ,7 7 4 张网页 ( 2 0 0 4 年3 月2 9 日) 1 2 4w e b 文档检索 w e b 文档检索可以定义为:从大量的w e b 文档集合c 中找到与给定的查询 请求q 相关的、恰当数目的文档子集s 。w e b 文档检索的过程也对应于一个映射 f :( c ,q ) 寸s 。 w e b 文档检索是典型的w e b 信息检索问题f 2 ”,和基于w e b 的数据挖掘既有 联系又有区别。最初,文档检索的目的是标引文档,并从文档集合中技出有用的 文档;发展到今天,文档检索的研究涉及到建立模型、文档分类与归类、用户交 互、数据可视化、数据过滤等等。 d 2 0 0 4 年上海大学硕士学位论文 w e b 文档检索和基于w e b 的数据挖掘主要有几个不同点: ( 1 ) 方法论不同:文档检索是目标驱动的,用户需要明确提出查询要求,而挖掘 是独立于用户的信息需求的,其结果也是用户无法预知的; ( 2 ) 着眼点不同:文档检索着重于文档中包含的字词,而挖掘试图更多地理解其 内容和结构; ( 3 ) 目的不同:文档检索的目的在于帮助用户发现资源,即从大量的文档中找到 满足查询请求的文档子集,而挖掘是揭示隐含的知识; ( 4 ) 评价方法不同:文档检索使用查全率和查准率来评价其结果,要求返回尽可 能多的相关文档,同时不相关的文档尽可能的少,而挖掘采用收益、置信度 和简洁性等来衡量所发现知识的有效性、可用性和可理解性。 w e b 文档检索和基于w e b 的数据挖掘是相辅相成的,这两种技术各有所长, 有各自适用的场合。利用基于w e b 的数据挖掘的研究成果来提高文档检索的精 度和效率,可以改善检索结果的组织,使文档检索系统发展到一个新的水平。 1 3 目前国内外研究的现状 基于w e b 的数据挖掘是新兴的研究领域,在生物信息学中的研究也刚开始。 国内外的一些生物信息学研究人员利用w 曲上的生物学数据库,开发了一些挖 掘系统,试着从中发现有用的知识。 m a v a nd r i e l 等人【2 列开发的g e n e s e e k e r ,可以用于搜索导致遗传疾病的候 选致病基因。它先根据用户输入的人染色体区域,在g d b 数据库和m i m m a p 数据库中采集该区域上的基因,随后根据o x f o r d 数据库f 将人基因组和老鼠基 因组中的保守区域相互映射) 在m g d 数据库中采集和前面指定的人染色体区域 同源的老鼠染色体区域上的基因,然后再根据用户输入的表达表型关键词在 o m i m 、s w i s s p r o t 、s w i s s n e w 、s p t r e m b l 、r e m t r e m b l 、t r e m b l n e w 、 m e d l i n e 、t b a s e 、g x d 和m l c 数据库中采集具有指定表达表型的基因,随 后将两个结果通过逻辑“与”和“或”合并,认为具有指定表达表型,且在人 和老鼠中同源的基因为候选致病基因。 k g b e c k e r 等人f 2 3 j 设计的p u b m a t r i x ,能够简单、系统地比较两组关键词的 相关度。用户输入两组关键词( 这两组关键词是任意的) ,例如一组是基因的名称 ( m 个,州s 1 0 0 ) ,另组是描述基因功能的词( w 个,n 1 0 ) ,随后p u b m a t r i x 2 0 0 4 年上海太学硕士学位论文 将两组关键词组合成查询式( 共州月个) 在p u b m e d 数据库中查询,得到两组关键 词之间的相关度,为一个m ”的矩阵,矩阵中的元素就是行和列所对应的关键 词组合成的查询式在p u b m e d 数据库中查询得到的结果个数。由此,可以对所研 究基因的功能有个直观的了解。类似的,m k o r o t h i y 等人【2 4 1 设计的m i c r o g e n i e , 通过在p u b m e d 数据库中查询数千个基因的s w i s s p r o t 编号或u n i g e n e 编号同若 干个附加关键词( 如a n t i b o d y 或c a n c e r 等) 组成的查询表达式,从而得到基因的表 达信息。 j m b m n d e g e 等人1 25 】设计了b i o q u e r y ,可以对w e b 上的生物学数据库进行 数据挖掘。它根据用户输入的关键词和查询主题或领域创建查询,查询n c b i 上 的生物学数据库,并根据不同的查询领域返回结果。b i o q u e r y 的特点是可以存 储查询,并周期性地自动更新查询结果。其查询模块和数据库的格式是无关的, 通过x m l 文件描述要查询的数据库格式,具有较好的移植性和可扩展性。 l t a n a b e 等人1 2 6 】设计了m e d m i n e r ,可以查找有关基因间相互作用的文章, 为药物设计提供帮助。用户只需输入基因的名称或相关概念,m e d m i n e r 先从 g e n e c a r d 数据库中找出基因的s y m b o l 及别名,随后从p u b m e d 中找出和该基因 有关的文献,再用关键字如“i n h i b i t s ”、“s t i m u l a t e s ”、“r e s i s t a n c e ”和“s e n s i t i v e ” 等从中找出和这个基因相互作用有关的文献。m e d m i n e r 的特点是可以自动生成 包含所有基因s y m b o l 和别名的查询语句,在基因名称不唯一的情况下,找出尽 可能全的文献。 t u q i a n g 等人 2 7 1 设计了m e d b l a s t ,能从用户输入的d n a 序列或蛋白质序列 出发,通过做b l a s t 得到和该序列同源的基因,然后从该基因的g e r d 3 a n k 文件 的注释部分中及在p u b m e d 数据库中查询基因s y m b o l 得到和这个基因有关的文 献,从而为用户输入的序列提供相关的参考文献。 这些基于w e b 的生物数据挖掘系统所挖掘的生物学数据库各不相同,它们 开发的目的也都各异,但它们都有一个共同点,就是都有一个和w e b 的接口, 通过该接口直接从w e b 数据库上下载数据并分析,这样既避免了在本地建立数 据仓库,又能保持数据的动态更新。 1 4 本文的工作与内容安排 本文在基于w e b 的数据挖掘基础上,用w e b 内容挖掘和文档检索的方法设 计了一个基于w e b 的生物信息挖掘系统g e n e x t r a c t o r ,对g e n b a n k 、l o c u s l i n k 、 o m i m 数据库中的数据进行挖掘。通过g e n e x t r a c t o r 可以在指定的人染色体区域 6 2 0 0 4 年上海大学硕上学位论文 上寻找具有指定功能的目标基因作为候选致病基因,同时采集这些基因的相关信 息,为分子生物学家寻找致病基因提供帮助。 论文的安排如下: 本章,阐述了本文的研究目的和意义,简要地概述了基于w e b 的数据挖掘 的定义、分类和难点,并介绍了目前国内外在这方面的研究进展。 第二章,介绍了我们开发的基于w e b 的生物信息挖掘集成系统g e n e x t r a c t o r 中用到的两个主要的方法:基于w e b 的数据采集和文档检索。详细说明了如何 自动地从w e b 上的生物学数据库中采集数据,并利用改进的方法进行文档检索, 找出目标基因。 第三章,介绍g c n e x t r a c t o r 的系统结构、实现方法和功能。 第四章,通过查找人d n a 修复基因来验证系统的性能,并做了进一步的应 用。 第五章,对本文作了总结并指出今后的工作方向。 2 0 0 4 年上海大学硕士学位论文 第二章基于w e b 的数据采集和文档检索 本章介绍g e n e x t r a c t o r 系统用到的两个主要方法:基于w e b 的数据采集和 文档检索。g e n e x t r a c t o r 能自动地通过w e b 从n c b i 上的生物学数据库中采集生 物信息数据,具有自动化、目的性强等特点,随后对采集得到的数据中的o m i m 文档数据按用户的查询进行文档检索,找出用户感兴趣的信息。 2 1h t t p 和h t m l 简介 在介绍方法之前,有必要对w e b 的基础知识作个介绍i 2 s 。万维网( w b r i d w i d e w e b ,又称环球网,简称w e b ,w w w 或3 v o 是一个以i n t e r a c t 为基础的计算机 网络,最先是由欧洲核子研究中心c e r n ( t h ee u r o p e a no r g a n i z a t i o nf o rn u c l e a r r e s e a r c h ) 开发的一个分布式超媒体信息系统。w e b 允许用户在一台计算机上通过 i n t e m e t 存取另一台计算机上的信息。从技术角度上说,w 曲是i n t e r n e t 上所有支 持w w w 协议和超文本传输协议的客户机与服务器的集合,通过w e b 可以存取 世界各地的超媒体文件,内容包括文字、图像、声音、动画、数据库和各式各样 的软件。现在,w 曲已成为从i n t e m e t 上获取信息的主要途径,也是i n t e r n e t 上 应用最为广泛的部分。下面简要地介绍一下w 曲的基础:h t t p 和h t m l 。 2 1 1h t t p 简介 i n t e m e t 的迅速增长是由。w e b 推动的,而w e b 受到普遍欢迎的主要原因在于 它为用户提供了一种重要的功能方便地定位和获取分布在世界各地的信息。 为了能将服务器上的信息资源传输到本地计算机( 称为客户) 上,需要一种能够为 两者所理解的传输协议,包括客户发送的请求信息的格式,服务器给出的响应消 息的格式等等。w e b 上使用的传输协议就是h t t p 。 h t t p 的全称是h y p e r t e x t t r a n s f e rp r o t o c o l ,即超文本传输协议。作为w e b 上最主要的应用层协议,h t t p 具有两项功能:一是传输文件,这是h t t p 最基 本也是最重要的功能:二是实现动态交互应用,这在开发基于w e b 的应用服务 程序( 如在线购物) 中得到越来越多的运用。 为了能让客户利用h t t p 访问w e b 服务器上的资源,首先要为每个资源赋 予一个唯一的标示符:u r i ,全称为u n i f i e dr e s o u r c ei d e n t i f i e r ,即统一资源标示 符。w e b 上的每个资源都可以用一个唯一的u 来标示。一个u r i 包括以下部 分:访问该资源使用的协议( p r o t o c o l ,通常为h t t p ) 及协议端 3 ( p o r t ,缺省情况 8 2 0 0 4 年上海大学硕士学位论文 下为8 0 ) ,资源所在服务器的名称( h o s t ,为w e b 服务器的i p 地址或域名) ,资源 在服务器上的路径( p a t h ,在w e b 服务器上的目录名称) 及文件名称( n a m e ) ,采用 如下格式组合起来就是一个u r : p r o t o c o l :h o s t :p o r t p a t h n a m e 。 有时客户访问的是服务器端的动态网页,即网页的内容由服务器端的应用程 序动态生成。此时文件名称( n a m e ) 包含两个部分:该应用程序的名称 ( p r o g r a m _ n a m e ) 和传递给该应用程序的参数列表( p a r a m e t e r _ l i s t l ,两者之间用“? ” 分开。这时的u r i 格式如下: p r o t o c o l :h o s t :p o r t p a t h p r o g r a m _ n a m e ? p a r a m e t e i _ l i s t 。 h t t p 是基于请求响应模式的,客户和服务器之间的交互过程包括四个步 骤:建立连接,发送请求,发送响应,关闭连接( 见图2 i ) 。绝大多数的h n p 通信都是由客户发起的,请求消息主要包含以下内容: 请求方法,即对于指定的资源应该执行的动作。最常用的请求方法是 h t l w l o 中定义的g e t 、h e a d 和p o s t ,h t t p 1 1 中又引入了5 种新的请 求方法:p u t 、d e l e t e 、o p t i o n s 、t r a c e 和c o n n e c t 。 资源的u r i ,即客户请求所作用的对象。 协议版本号,即客户请求所遵循的h 兀p 版本,通常为h r r p 1 0 或h t t p ! 1 。 m i m e 格式的消息,客户向服务器发送的请求消息遵循m i m e 规范,消息中 包含了请求限定符( m o d i f i e r ) 和客户机信息,还可能有实体的正文内容( b o d y ) 。 服务器在收到客户的请求后,按照客户的要求对指定资源进行适当操作,并 给予相应的响应,响应消息主要包含以下内容: 状态行,即服务器处理客户请求的结果,包括协议版本号和一个成功或错误 的状态码。常用的状态码有:2 0 0o k ,表示服务器已经成功地完成了用户的 请求,同时所请求的资源已经在响应消息的消息体中返回;4 0 1u n a u t h o r i z e d , 表示服务器需要对用户进行认证;4 0 3f o r b i d d e n ,表示服务器拒绝执行用户 的请求;4 0 4n o tf o u n d ,表示服务器无法找到客户在请求中所指定的资源; 4 0 8 r e q u e s t t i m e o m ,表示客户没有在服务器规定的时间内给出请求。 m i m e 格式的消息,服务器向客户发送的响应消息也遵循m i m e 规范,消息 中包含了服务器信息和实体元信息( m e t ai n f o r m a t i o n ) ,还可能有实体的正文内 容( b o d y ) 。 2 0 0 4 年上海大学硕士学位论文 星 客户 _ 宙过盔燕+ 一越赠盛邋韪- 一筮岫廛i 龃 迎型夔_圄 服务器 图2 1 :h t t p 交互过程中的四个步骤 2 1 2h t m l 简介 h n l p 关心的是信息资源在客户和服务器之间的传输,而不是信息资源的表 示和展现。为了在w e b 上发布信息,还需要一种能够被所有计算机所理解的信 息资源描述语言,目前广泛使用的信息资源描述语言是超文本标记语言,即 h y p e r t e x t m a r k u pl a n g u a g e ,简记为h t m l 。平时上网看到的绝大部分网页都是 用h t m l 表示的。 w 3 c 给出的h t m l 定义如下:h t m l 是一种在w e b 上以超文本形式出版信 息的国际化标准语言。它是一种基于标准通用标记语言( s t a n d a r dg e n e r a l i z e d m a r k u pl a n g u a g e ,s g m l ) 的、非私有的资源描述格式。信息资源的作者能够使 用各种类型的工具从简单的文档编辑器到复杂的具有“所见即所得”特性的 可视化编辑工具来创建或者处理h t m l 文档。h t m l 使用标记( t a g s ) 将文档 组织成结构化的形式( 此处的结构化是指文档具有各级标题和正文的格式) 。 h t m l 利用各种标记来标识文档的结构和超链接( h y p e r l i n k ) 信息,h t m l 的标记总是封装在由小于号( ) 构成的一对尖括号之中。某些标记称 为“单标记”,因为它只需单独使用就能完整地表达意思,这类标记的格式是: 。 最常用的单标记是 ,它表示换行。另一类标记称为“双标记”,它由“始标 记”和“尾标记”两部分构成,必须成对使用,其中始标记告诉w e b 浏览器从 此处开始执行该标记所表示的功能,而尾标记告诉w e b 浏览器在这里结束该功 能。始标记前加一个斜杠即成为尾标记。这类标记的格式是: 内容 , 其中“内容”韶分就是要被这对标记旌加作用的部分。许多单标记和双标记的始 标记内可以包含一些属性,其格式是: 肭容 】, 】0 2 0 0 4 年上海大学硕士学位论文 各属性之间无先后次序,属性也可省略( 即取默认值) 。除些个别标记外,h t m l 的标记都可嵌套使用。 用h 咖l 编写的超文档称为h t m l 文档,一个h t m l 文档通常由三个部分 组成:起始行,文档头和文档体。起始行给出了h t m l 的版本信息,说明了该 h t m l 文档所遵循的文档类型定义( d o c u m e n tt y p ed e f i n i t i o n ,d t d ) 。文档头由 h e a d 标记所界定,其中包含了有关当前文档的信息。文档体由b o d y 标记或 f r a m e s e t 标记所界定,其中包含了文档真正的内容。一个h t m l 文档的骨架 如下: 头部信息 奶 e a d 文档主体,正文部分 其中 在最外层,表示这对标记间的内容是h t m l 文档。 之间 包括文档的头部信息,如文档总标题等,若不需要头部信息则可省略此标记。 标记表示正文内容的开始,般不省略。 2 2 通过w e b 采集生物信息数据 做信息检索的第一步是采集信息数据,没有数据,就无法进行下一步的工作。 随着电子计算机的应用和现代通讯技术特别是数字通讯技术的发展及大容量数 据存储载体的出现,信息数据的传播方式已从传统的报纸、广播、电视转向数字 化和网络化,有了一个划时代的飞跃。w e b 作为i n t e m e t 上使用最普及的信息网, 正成为信息数据传播的重要途径。通过w e b 采集数据具有几个明显的优点: 信息量丰富:w e b 上的内容包罗万象,几乎可以提供任何想获得的数据: 时效性:从定期更新的w 曲网站上可以采集到最新的数据; 针对性:许多搜索引擎分门别类地收录w e b 网站网址,可以按需要采集数据; 自动化:可以编写程序自动地从w e b 上采集数据,节省大量的人力和时i 日j 。 2 0 0 4 年上海大学硕士学位论文 通过w e b 采集数据可以分为手工方式和自动方式。手工方式是指用户利用 一些客户端软件( 如i e ,l e a p f t p 等) ,手工键入u p , ,链接到w e b 上的信息源 去获取数据。如果需要批量采集数据,就要采用自动方式。自动方式又可以分为 两种,一种是给定个起始的w e b 网页,利用网络蜘蛛( 又称网络爬虫或网络机 器人) 遍历这个网页上的所有超链接来采集数据( 更恰当的说是收集数据) ,并以此 类推,直至穷尽。这种方法适用于对所采集数据的内容没有限制的情况,但可以 通过限制后缀名等方法对所采集数据的类型加以限制。通过这种方法采集的数 据,往往没有固定的格式,是无结构的数据。另一种是通过给服务器端的程序成 批地传递参数,使其从后台数据库中调取数据,并动态地生成w e b 网页,以此 采集数据。这种方法适用于熟悉服务器的后台数据库,对所采集的数据有明确的 需求,并对服务器端的程序需要的参数比较了解的情况。通过这种方法采集的数 据,具有的一定的格式,但没有数据库中的数据格式严格,是半结构化数据。 2 2 1g e n e x t r a c t o r 中的基因数据采集 g e n e x t r a c t o r 为了找出具有指定功能的目标基因,先要从w e b 上的生物学数 据库中采集基因数据,由于我们对所要采集的数据十分了解,所以用自动采集方 式的第二种方法。g e n e x t r a c t o r 主要从三个生物学数据库中采集数据: g e n b a n k 2 9 1 、o m i m f 3 0 j 干口l o c u s l i n k 3 ”。g e n b a n k 数据库用于找出定位在指定的 人染色体区域上的所有基因及其基本信息,o m i m 数据库用于获得这些基因的表 达和表型数据,l o c u s l i n k 数据库用于获得和这些基因相关的数据库链接。 g e n e x t r a c t o r 通过e n t r e z 3 2 1 检索程序从这些数据库中获得数据。这三个数据库和 检索程序都存放在n c b l 的w e b 服务器上,表2 1 列出了这些数据库和检索系统 的网| e 。 表2 - 1 :系统用到的生物学数据库和检索系统的网址 名称网址 g e n b a n k 数据库h t t p :w w w n c b i h i m n

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论