




已阅读5页,还剩27页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 随着因特网的发展,网上资源日益丰富。其结果,不仅使其实用性不断增强,越来 越多的人从网上获取信息,即使有像y 如o o 这样的搜索引擎,人们还会经常感到难以 找到自己想要的信息。对于寻找某个特定专业或领域的内容时尤感如此。为了更准确、 更有效地查找到自己所需的特定的网络信息,建立专门针对网上某一专业或某一领域信 息的检索工具专业搜索引擎,已经成为网络信息检索的迫切需要。 由于学科的综合性增强,一方面导致了专业资源的剧增,使网络中存在各种各样不 同格式的资源,为了能同时搜集到这些动态和静态的信息,专业搜索引擎的动态发展则 是其必然发展的方向;另一方面产生了很多新增的专业词汇。然而,各种专业资源的网 络化还存在一定的滞后性,因此很难利用现有的专业搜索引擎及时查找到所需的新增专 业词汇。可见普通专业搜索引擎已经不适合当前人们查找专业信息的需要。为了解决以 上问题,建立一种适合人们需要的网络动态专业搜索引擎是十分必要的。 目前在国外,有关专业搜索引擎的研究正在成为一个热点,已有一些成功的专业搜 索引擎及其项目,而国内有关专业搜索引擎的研究还较少,处于起步阶段。本文在对当 前专业搜索引擎面临的问题研究分析基础上,提出了一种网络动态专业搜索引擎的构建 方法。网络动态专业搜索引擎是在普通专业搜索引擎的基础上,对其r 0 b o t 进行了优化 设计;在其专业领域库中新增加了专业知识获取模块;采取了向量空间检索模型与 p a g e u 墩算法相结合的方式进行结果排序;“分类主题”方式的用户界面以及基于 聚类的可视化结果表现技术。 关键词:网络搜索引擎;行业搜索引擎;动态知识采集;专业知识查询 a b s t r a c t w i mt l l ef a s td e v e l o p m e n to fi n t e m e t ,l er e s o u r c e so fi tg r o wv e r yr a p i d l y a sr e s u l t ,n o t o i l l ys 仃e n 西h e nm eu s eo fi n t e m e t ,b u ta l s om o r ea n dm o r ep e o p l et a k en l ei 1 1 f 0 册a t i o n 盘d m 也ew e b a l t h o u 曲w eh a v em a n ys e a r c he n g m es u c h 舔y a h o o ,p e o p l ea l s of e e ls e a r c g i n f o n i l a t i o nd i 伍c u h e s p e c i a l l ys e a r c ho n es p e c i a h yo rf 0 ro n ea r e a f o rt l l ef o u n d i n go ft h e s p e c i f i c a l l yi n f 0 肌a t i o nn e e d e dm o r ea c m e l ya 1 1 dm o r ee 髓c t i v e l y ,m ec o n 姗c t i o n0 ft o o i s f o ro n et ) ,p e0 rf o ro n ea r e ap r o f e s s i o n a ls e a r c he n g i n eh a sb e c o m et l l eu r g e mn e e df o r 恤 w e b a sar e s u l to fd i s c i p l i i l ee r 山a n c i n gc o m p r e h e n s i v eq 砌i t y ,o no n eh a i l dh a sc a u s e dt h e s p e c i a l i z e dr e s o u r c e si i l c r e a s e ds h a 印1 y a 1 1 dh a v ev a r i o u sr e s o u r c e si i lt h ew e b i i lo r d e rt 0 c o l l e 池g 也e s ed y n 弧i ca i l d 蚴i ci n f 0 咖a :t i o n ,i ti sam e v i t a b l ed i r e c t i o nf o rm es p e c i a l i z e d s e a r c he n g i n ed e v e l o p m e n t o nm e0 t h e rh a i l dh a sm a l l yn e wp r o f e s s i o n a lw o r d s h o w e v e r , a 1 1k i n d so fs p e c i a l i z e dn e 铆o r kr e s o u r c e sh a v en o tk 印tp a c ew 池m ed i s c i p l i i l ed e v e l o p m e n t t h e r e f o r e ,“i sd i m c u l tt os e a r c hi l e wp r o f e s s i o n a lw o r d sw i t h ( h ee x i s t i n gs p e c i a l i z e ds e a r c h e n g i i l e o b v i o u s l y ,t h eo r d i n a r ys p e c i a l i z e ds e a r c he n g i n ea l r e a d yd i d n o ts 血p e o p l et os e a r c h t l l es p e c i a l i z e di i 怕眦a t i o n f o rt h ep u o s eo fs o l v i n gt h ep r o b l e m ,i ti se s s e n t i a lt oe s 讪l i s h ab n do fr l c l t w o r kd y n a i i l i cs p e c i a l i z e ds e a r c he n g i n e a tp f e s e n t 血o v e r s e a s ,m o r ea n dm o r ep e o p i eh a v es t u d i e dt h es u 切e c ts e a r c he n 百n e r e s e a r c h ,a n dh a v eh a ds o m es u c c e s s ms p e c i a l i z e ds e a r c he n g i i l e sp r o j e c t b u ti i lo u rc o 咖 i ;ti sa tm e 啦l ns t a g ea 1 1 dl l a d1 e s sr e s e a r c ha :b o u ts p e c i a l i z e ds e a r c he n g i n e b a s eo nt 1 1 e q u e s t i o nw 1 1 i c ht h ec u r r e n ts p e c i a l i z e ds e a r c he n g i n ef a c et o ,t 1 1 i sa n i c l ep r o p o s e dam e t h o d c o n s 觚c t i n gn e 呐o r kd y m i i l i cs p e c i a l i z e ds e a r c he n g i n e 1 1 1 en e 帆o r kd ) ,n a i l l i cs p e c i a l i z e d s e a r c he n g m eh a sc a r r i e dt t l eo p t i m i z e do ni t sr 0 b o tb yr e s e a r c h i n go r d i n a 巧s p e c i a l i z e d s e a r c he n g i l l e ni n c r e a s e dag a i l l i n gk n o w l e d g em o d l l l ei ni t ss p e c i a l i z e ds t o r e h o u s e t h e s e a r c he n g i n ea r r a n g e di t sr e s u l tw i n lt h ev e c t i d rs p a c em o d e lc o m b i n i i l gw i 也p a g e i h i l k a l g o r i 也m na l s oh a s ”t h ec l a s s i f i e d s u 巧e c t u s e r ”s u r f a c ea 1 1 db a s e d o ng a t h e r so fv i s i b l e r e s u hp e r f 6 n n a n c et e c h n o l o g y k e y w o r d s : n e t 、o r ks e a r c he n g i n e ;p r o f e s s i o ns e a r c he n g i n e ;d y n a m i ck n o w l e d g e g a m e r i n g ;s p e c i a l i z e dk n o w l e d g eh l q u i r y i l 独创性声明 本人郑重声明:所提交的学位论文是本人在导师指导下独立进行研究工作所取得 的成果。据我所知,除了特别加以标注和致谢的地方外,论文中不包含其他人已经发 表或撰写过的研究成果。对本人的研究做出重要贡献的个人和集体,均已在文中作了 明确的说明。本声明的法律结果由本人承担。 学位论文作者签名: 学位论文使用授权书 本学位论文作者完全了解东北师范大学有关保留、使用学位论文的规定,即:东 北师范大学有权保留并向国家有关部门或机构送交学位论文的复印件和电子版,允许 论文被查阅和借阅。本人授权东北师范大学可以采用影印、缩印或其它复制手段保存、 汇编本学位论文。同意将本学位论文收录到中国优秀博硕士学位论文全文数据库 ( 中国学术期刊( 光盘版) 电子杂志社) 、中国学位论文全文数据库( 中国科学技 术信息研究所) 等数据库中,并以电子出版物形式出版发行和提供信息服务。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名:查二 日 期:童鲤8 :互:必 学位论文作者毕业后去向: 工作单位: 通讯地址: 指导教师签名:主笼 日 期:0 旦全鲢鎏 电话: 邮编: 东北师范大学硕士学位论文 第一章引言 一、研究背景 随着因特网的发展,网络已经成为人们日常生活中必备的一部分,网络的蓬勃发展 逐渐改变了一些人们传统的习惯,并且对人们的各个方面都有着巨大的改变,如网上购 物、网络课堂、博客等许多新生事物的产生。随着网络资源的日益丰富,其易用性,便 捷性不断增强,人们定位和搜索信息的能力也大大提高,使大量的劳动力从无序的信息 海洋中解放出来。利用网络搜索引擎获取所需信息也已经成为了越来越多的人搜集信息 的首选方法。但是,由于网络搜索引擎还没有达到快速、高效、准确的效果,其检索质 量还不是十分令人满意,因此也令人们常常苦恼。尤其现在利用网络搜索引擎的人们经 常会感到难以找到自己想要的信息,对于寻找某个特定专业或领域的内容时尤感如此, 用户还得为了寻找数条相关信息而煞费苦心地在大量无用和失效的信息和链接中寻找 自己的目标资源。 当前网络中的信息种类繁多、信息量也极大。以生物学为例,2 0 世纪后期,生物科 学技术迅猛发展,其数据资源无论从数量上还是质量上都得到了极大的丰富。据估计, 如今生物学数据信息总量已接近甚至超过人类自然语言的信息总量。这些海量的生物学 数据中蕴含着许多极其重要的生物学规律,而这些规律更是人们研究生命之谜的关键。 因此,人们需要寻求一种强有力的工具去组织利用这些数据,以利于生物信息的获取、 处理、存储、分析、解释和进一步利用。传统的网络搜索引擎大部分使用的都是基于关 键词匹配的全文搜索技术,存有知识体系不严密、类目设置不合理、检索方式单一、检 索深度不够等问题,不利于用户查询专业的和深入的领域知识。而专业搜索引擎可以按 照科学的知识体系组织信息资源,既提高了检索效率又提高了检索的准确率,更能方便 用户对专业领域信息的查找,因此专业搜索引擎的出现己成为必然。 二、研究意义 专业搜索引擎除了有合理的知识体系、专业的检索方式以外,还采用了智能技术进 行主动式的检索,即根据用户的查询计划、意向、兴趣等多方面因素综合考虑进行推理、 预测来实现为用户提供有效的检索结果。开发专业搜索引擎可以为用户提供良 好的检索界面,提供具有一定深度的专业知识,使搜索引擎具有更高的针对性和专 业性。 随着学科综合性强增强,以往单一的学科现在却产生了许多交叉学科,涉及到多个 相关领域。当今学科分类向多而细的方向发展,例如生物学,现在产生了许多交叉学科, 像生物医学、生物制药、生物化学以及生物环保学等多种学科,其内容涉及到医学、药 东北师范大学硕士学位论文 学、化学、农学等各个领域。而人们如何将所需信息准确定位其归属于哪种学科是非常 困难的,现有的专业搜索引擎已经不能满足人们准确全面的搜集信息的需要,因此更为 有效的专业搜索引擎的产生成了必然。 学科的综合性增强,还必然导致专业资源的剧增。而且随着网络的普及,在各种专 业网站、电子期刊、专业数据库、虚拟社区、b b s 上都可能存在用户所需的信息,这些 信息多以不同格式存在,为了能同时搜集到这些动态和静态的信息,专业搜索引擎的动 态发展则是其必然发展的方向。 而随着学科的综合性增强,产生的另一个直接影响就是产生很多新增的专业词汇。 然而,各种专业资源的网络化还存在一定的滞后性,因此很难利用现存的专业搜索引擎, 及时查找到所需的新增专业词汇。 本文旨在提出一个符合当前网络和学科发展的动态专业搜索引擎构建的可行性方 法,以便于满足人们对专业知识检索的需要,且其解决实际搜索问题要比普通网络专业 搜索引擎有效得多。并希望对专业搜索引擎的发展有一定的借鉴作用。 三、研究内容 本文通过对搜索引擎的发展史和发展趋势研究,根据专业搜索引擎产生的背景及其 发展现状,结合生物学科的发展,说明构建动态专业搜索引擎的必要性。通过研究普通 网络搜索引擎的工作原理,提出了网络动态专业搜索引擎的构建方法。并提出了具体的 设计方法,用以说明构建一个网络动态专业搜索引擎的可行性。 2 东北师范大学硕士学位论文 第二章专业搜索引擎介绍 一、搜索引擎发展史 所有搜索引擎均源于1 9 9 0 年由m o n t r e a l 的m c g i l lu n i v e r s i t y 学生a l a ne m t a g e 、 p e t e rd e u t s c h 和b i l lw h e e l a n 发明的a r c h i e ( a r c h i ef a q ) 。u 。虽然当时w o r l dw i d e w e b 尚未出现,但网络中的文件传输还是相当频繁的。由于大量的文件散布在各个分散 的f t p 主机中,查询起来非常不便。因此a 1 a ne m t a g e 等想到了开发一个可以用文件名 查询的系统,于是便有了a r c h i e 。它是第一个自动索引万维网上匿名f t p 网站文件的程 序,但它还不是真正的网络搜索引擎( w e bs e a r c he n g i n e ) 。心1 a r c h i e 是一个可搜索的 f t p 文件名列表,用户必须输入精确的文件名搜索,然后a r c h i e 会告诉用户哪一个f t p 地址可以下载该文件( 书) 。由于a r c h i e 深受欢迎,因此受其启发,n e v a d as y s t e m c o m p u t i n gs e r v i c e s 大学于1 9 9 3 年开发了一个与之非常相似的g o p h e r ( g o p h e rf a q ) 搜索工具v e r o n i c a ( v e r o n i c af a q ) 。j u g h e a d 是后来另一个g o p h e r 搜索工具。 最早现代意义上的搜索引擎出现于1 9 9 4 年7 月。当时m i c h a e lm a u l d i n 将j o h n l e a v i t t 的蜘蛛程序接入到其索引程序中,创建了大家现在熟知的l y c o s 。呤1 同年4 月, 斯坦福( s t a n f o r d ) 大学的两名博士生,d a v i df i l o 和美籍华人杨致远( g e r r yy a n g ) 共同创办了超级目录索引y a h o o ,并成功地使搜索引擎的概念深入人心。从此搜索引擎 进入了高速发展时期。 1 9 9 5 年1 2 月,a 1 t a v i s t a 永远改变了搜索引擎的定义。h 1 a l t a v i s t a 是第一个支持 自然语言搜索的搜索引擎,也是第一个实现高级搜索语法的搜索引擎( 如a n d ,0 r ,n o t 等) 。用户可以用a 1 t a v i s t a 搜索n e w s g r o u p s 新闻组的内容并从互联网上获得文章,还 可以搜索图片名称中的文字、搜索t i t l e s 、搜索j a v a a p p l e t s 、搜索a c t i v e xo b j e c t s 。 1 9 9 8 年,g o 0 9 1 e 在p a g e r a n k 、动态摘要、网页快照、d a i l yr e f r e s h 、多文档格式 支持、地图、股票、词典、寻人等集成搜索、多语言支持、用户界面等功能上的革新, 像a 1 t a v i s t a 一样,再一次永远改变了搜索引擎的定义。现阶段,出现了各种内容类别 不同的搜索引擎,但遵循的原理均是一致的。哺3 二、搜索引擎发展趋势 搜索引擎己成为一个新的研究、开发领域。它要用到信息检索、人工智能、计算机 网络、分布式处理、数据库、数据挖掘、数字图书馆、自然语言处理等多领域的理论和 技术,因此具有综合性和挑战性。又由于搜索引擎有大量的用户和很好的经济价值,所 以引起了世界各国计算机科学界和信息产业界的高度关注,目前的研究、开发十分活跃, 并出现了很多值得注意的动向。 东北师范大学硕士学位论文 如:p 2 p ( p e e r t o p e e r ) 对等网络,采用这种技术开发出的强大的搜索工具可以 使用户能够深度搜索文档,而且无需通过w e b 服务器,不受信息文档格式和主要设备的 限制,达到传统目录式搜索引擎( 只能搜索到2 0 3 0 的网络资源) 无可比拟的深度;3 自然语言理解技术,由于它将信息检索从目前基于关键词层面提高到基于知识( 或概念) 层面,对知识有一定的理解与处理能力,能够实现分词技术、同义词技术、概念搜索、 短语识别以及机器翻译技术等,因而这种搜索引擎具有信息服务的智能化、人性化特征, 允许网民采用自然语言进行信息的检索,为他们提供更方便、更确切的搜索服务;多媒 体检索,随着未来互联网接入速度的提高,多媒体编码和网络传输技术的进步,多媒体 信息资源的搜索需求也日益增多,有效的网络多媒体检索是一个新动向;专业化搜索引 擎,是为了专门收录某一学科、某一行业、某一主题或某一地区的信息而建立,具有目 标程度高、针对性强、实用性强的特点,具有极大的发展空间;交叉语言检索,是指用 户用母语提交查询,搜索引擎在多种语言的数据库中进行交叉语言信息检索,返回能够 回答用户问题的所有语言的文档。对于经济全球化、互联网跨越国界的今天,交叉语言 信息检索的研究和开发,无疑具有重要的意义,是搜索引擎的发展方向之一;检索协议 的标准化,解决了分布式w e b 信息搜索系统涉及到多种搜索引擎的协同搜索和通信问题, 或者是用户在w e b 上进行信息检索时,面临多种搜索引擎的使用问题。这使我们可以选 择最合适的资源用于查询,并且在这些资源中评估查询,合并查询结果。h 1 三、专业搜索引擎概况 专业搜索引擎也被称为垂直或行业搜索引擎,是专为查询某一个学科或主题的信息 而产生的查询工具,专门收录某一方面、某一行业或某一主题的信息,因此具有很强的 学科针对性,能够排除大量的冗杂信息,在很大程度上减少了不相关的检索结果,从而 提高了检索的查准率。秘3 赛迪网的报告显示,面向某一领域的专业搜索引擎因其信息收 录齐全与更新及时已得到六成左右网民的认可,他们认为这类专业搜索引擎对其非常或 比较重要。9 3 ( 一) 专业搜索引擎发展的背景 网络搜索引擎的飞速发展,已经基本解决了用户检索网络资源的问题,并增强了人 们定位和搜集信息的能力,但是,目前网络搜索引擎在使用中也面临着许多问题: 1 网络信息质量问题,信息的冗余较大,覆盖面有限 互联网上的信息无论从数量和类型都呈指数增长,大量信息的存活期却在缩短,这 导致搜索引擎索引的及时性很难保持,大量返回结果为无效的( 链接已经不存在) 或过 时的( 同一个链接已经被替换成另一个文件) 。同时,网上大量的镜像站点和简单重复 拷贝都使搜索引擎返回大量无用信息。搜索返回的结果成千上万,良莠不齐,造成“信 息爆炸,资源缺乏 的不正常现象。r o b o t 程序搜集信息时,对深层w e b 文档挖掘不够, 一些深层目录下的重要网页被遗漏,而众多的垃圾网页被采集。有些网页虽然没有出现 搜索词,但内容和搜索词十分相关,而搜索引擎却无法搜索到这些网页。单个搜索引擎 4 东北师范大学硕士学位论文 的索引数据库的覆盖率一般都低于3 0 ,很难索引所有w e b 资源。口0 1 这样,信息查准率 低,且误检率、漏检率高。 2 动态网页无法检索 目前越来越多的w e b 网站使用了数据库和动态页面生成技术。在动态网页中,同一 网页中可能带有不同的参数值,如果r o b o t 程序把这些超级链接看成是不同的u r l ,就会 掉进网络陷阱。因此,r o b o t 程序在搜集网页时要忽略所有带参数的u r l ,使搜索引擎无 法检索这些页面。 3 异构数据源问题 网上检索要处理大量的多媒体信息,即便是文本信息也存在大量不同的文本格式。 同时网上信息还存在多语种问题,亚洲语言字符的检索一直是信息检索界的一大难点。 4 过分强调查全率,忽视了查准率的提高 当前,网络搜索引擎普遍采用机器人自动检索技术,这类系统的优点是涵盖的网页 数量巨大,但搜索的准确率相对较低。由于搜索引擎涵盖的网页数量多,同时检索的结 果也鱼龙混杂,使用户对海量信息经常感到不知所措。 5 忠实表达的问题 信息检索界认为用户很难简单地用关键字来忠实表达他所真正需要检索的内容,表 达的困难将导致检索结果的不理想,而且如何将结果表达成用户容易理解和使用的方式 也是一个难题。 6 索引数据库更新困难、提供的信息滞后 搜索引擎机器人只能在由系统管理员确定的一定时间间隔内跟踪特定信息,不能保 证信息的及时更新,导致产生错链和死链。同时,随着网络信息数量的指数增长,搜索 引擎数据库急剧膨胀,检索速度也将会变慢。 7 搜索结果单一化,缺乏个性化服务 任何人使用同一个搜索引擎检索同一个词的结果都是一样的,搜索引擎没有考虑不 同地域、性别、年龄的用户有其信息需求的差异,没有充分利用记录用户查询行为的日 志。在搜索引擎系统中增设用户行为分析模块,通过对用户的不断了解、分析,进而构 造个性化信息数据库,针对每个用户的检索,通过调用个性化信息数据库,使得个性化 搜索更符合每个用户的需求。3 8 大量占用昂贵的网络带宽和c 吖资源 随着信息数据库的膨大,搜集信息和维护数据库将占用许多宝贵的网络带宽和c p u 资源。另外,检索过程的重复性也大量地消耗着额外的带宽资源。转载网页与镜像网页 的存在,不可避免地造成重复性的检索工作。同时,在数据库维护方面,若采用定期“批 量搜集 也会出现重复搜集所带来的额外带宽的消耗。 由于网络的发展,目前搜索引擎存在的种种缺陷已经成为瓶颈制约了其发展,面对 网络搜索引擎发展所遇到的困难和人们对信息的新需求,人们需要搜索引擎可以搜集某 一特定学科或特定专题的网络信息资源,具有合理的知识体系、专业的检索方式,还能 根据用户的查询计划、意向、兴趣等多方面综合考虑进行推理、预测实现为用户提供有 5 东北师范大学硕士学位论文 效的检索结果,使搜索引擎具有更高的针对性和专业性。为了满足这些新的要求,专业 搜索引擎因此产生。 ( 二) 专业搜索引擎发展现状 专业搜索引擎的实现主要有两个方面的难点:第一,初始站点和词库的设置。因为 该引擎并不遍历整个w e b ,所以起始站点集合就显得格外重要。词库作为评价网页是否 相关的标准的关键词的集合,它的合理配置直接影响到检索结果的准确性。这两个方面 的设置是否合理共同决定了引擎能否找到所有的相关内容。第二,既然是有选择性的抓 取信息,那么这个有选择性的遍历w e b 的算法就直接影响了这类引擎的工作效率。此外, 信息的表示、信息抽取、信息过滤和下一个搜索站点的选择策略都是系统实现的难点。 1 专业搜索引擎搜索策略 当今用何种策略访问w e b 和如何提高搜索效率,已成为近年来专业搜索引擎研究的 主要问题之一。n 幻目前这类搜索引擎大都处于研究和试验阶段,利用其搜索的结果再经 专业人士的加工而形成的面向某一学科、领域的网络垂直门户网站也已经出现。专业搜 索引擎搜索策略也逐渐成形,现有的专业搜索引擎常用的搜索策略主要有以下几种:n 3 3 ( 1 ) 基于内容的搜索策略 由于w e b 检索类似于传统信息检索中的文本检索,有些学者考虑利用文本相似度的 计算方法评价页面文本与主题集之间的相似程度。d eb r a 等将这一思想引入网络蜘蛛的 搜索策略,提出f i s h s e a r c h 算法。它将用户输入的查询关键词或短语作为主题,将 包含查询串的页面看作与主题相关,且仅搜索主题相关页面。这种方法的局限性在于不 能评价页面与主题相关程度的高低;h e r s e o v i d 对f i s h s e a r c h 算法进行了改进,采用 基于连续值的相似度函数计算链接价值,这样不但可以计算出哪些页面与主题相关,还 可得出相关性的大小。类似地,c h o 提出了b e s t f i r s t 算法,利用向量空间模型计算页 面与主题的相似度。n 4 1 这些算法都是根据主题( 如关键词、主题相关文档) 与链接文本内容的相似度来评价 链接价值的高低,以此决定其搜索策略,可以统称为基于内容的搜索策略。最近研究表 明,这类网络蜘蛛在距离相关页面集较近的地方搜索时表现出良好的性能。但由于页面 中的文本信息缺乏“全局性”,很难反映w e b 的整体情况,使得这类网络蜘蛛普遍存在 “近视”的缺点。 ( 2 ) 基于链接结构的搜索策略 考虑到w e b 页面是一种半结构化的文档,其中包含许多结构信息,有些学者尝试利 用这些结构特征来评价链接的重要性。p a g e r a n k 方法最初用于搜索引擎信息检索中对查 询结果的排序过程,近年来被应用于网络蜘蛛对链接重要性的评价。基于p a g e r a n k 方法 的网络蜘蛛在搜索过程中,通过计算每个已访问页面的p a g e r a n k 值来确定页面的价值, 并每次选择p a g e r a n k 值大的页面中的链接进行访问。另一种利用w e b 结构特征评价链接 价值的方法是h i t s 方法。基于h i t s 方法的网络蜘蛛对每个已访问的页面计算其 a u t h o r i t y 权重和h u b 权重,并以此决定页面中链接的访问顺序。这类策略的共同点是利 6 东北师范大学硕士学位论文 用页面之间的引用关系确定链接的重要性,其优点是考虑了链接的结构特征,但也存在 一些缺陷:一是忽略了页面与主题的相关性,在某些情况下,会出现搜索偏离主题的“主 题漂移”问题;二是在搜索过程中需要重复计算p a g e r a n k 值或a u t h o r i t y 及h u b 权重,计 算复杂度随访问页面和链接数量的增长呈指数级增长。 ( 3 ) 基于未来回报价值评价的搜索策略 近年来的研究表明,w e b 上信息资源的分布存在某种程度“相似性”,如同一类型 w e b 站点在构建方式上存在一定相似性。有些学者考虑利用这种相似性,先对网络蜘蛛 进行一些训练,使其具备一些“经验信息”。这些经验信息通常用于预测较远的回报, 因此称为“基于未来回报价值的搜索策略”。m c c a l l u m 将巩固学习( r e i n f o r c e m e n t 1 e a r n i n g ) 引入网络蜘蛛的学习过程。巩固学习的优势在于能够预测状态的远期回报价 值( 或称未来回报价值) 。这种搜索策略本质上是通过训练发掘出链接文本中“隐含”的 结构信息,这些结构信息反映了距离搜索目标的远近,因而在搜索远期回报方面具有一 定优势。然而、这类搜索策略也存在一些不足:其一是预测未来回报的能力有限;其二 是这种“离线”( o f f l i n e ) 的训练方式需要选择典型站点或种子集,加重了用户的负担。 2 国内外专业搜索引擎现状 目前在国外,有关专业搜索引擎的研究正在成为一个热点,下面介绍一些较具有代 表型的系统。 ( 1 ) e l s e v i e r 的s c i r u s 系统是一种专为搜索高度相关的科学信息而设计的搜索引擎, 它获得了2 0 0 1 年搜索引擎观察授予的“最佳专业搜索引擎”奖。n 5 3 s c i r u s 科学搜 索引擎由埃尔塞维尔科学公司推出,埃尔塞维尔科学公司是全球最大的科学信息出版商 之一,是里德埃尔塞维尔集团的一部分。里德埃尔塞维尔集团在科学、法律和企业 领域经营业务,向客户提供高价值和灵活的信息解决方案,并越来越重视将因特网作为 传送方式。最初s c i r u s 引擎涵盖了埃尔塞维尔科学公司自己的信息数据库如“科学指 南 ( s c i e n c ed i r e c t ) 、“生物医疗网络”( b i o m e d n e t ) 和“化学网络 ( c h e m w e b ) 等, 以及网上免费提供的科学信息。随后,埃尔塞维尔科学公司又与其它提供科学信息的公 司进行接触,邀请它们将其所有的数据库纳入s c i r u s 可以搜索到的范围之内,从而使 s c i r u s 引擎能够精确地找到常规的普通搜索引擎所找不到的免费或者访问受限的科学 信息资源。u 到 ( 2 ) b i 0 1 0 9 yb r o w s e r 是由t h o m s o n 研究院创建,它是一个免费为生命科学提供信息资 源的一个搜索引擎,它所提供的动物学资源全部是来自于t h o m s o n 研究院,并且还提供 动物学的专用词表进行查询。n 除了t h o m s o n 研究院提供的资源外,在b i 0 1 0 9 yb r o w s e r 中也能搜索到生命科学技术的发展最新动向,以及有关生命科学更多的相关网站链接。 ( 3 ) a g r i s c a p e 创建于1 9 9 9 年4 月,最初它只是农业及其相关产业的一个专业搜索引 擎。n 8 3 现在,它已经成为农业及其相关产业查询市场服务信息和国际贸易情况的专业贸 易平台。该搜索引擎包括了农业的相关网站、学术研究网站以及当前国际贸易论坛的信 息。它还包含了有关农业方面的广告、黄页、新闻等等。是目前最大的一个综合性农业 专业搜索引擎。与其它搜索引擎不同的是它并不用r o b o t 在数据库中自动编写摘要,而 7 东北师范大学硕士学位论文 是全部由人工进行信息的描述,这样确保了搜索结果描述的准确性,使用户可以准确地 选择自己所需信息。 ( 4 ) 美国国家科学数字图书馆的c o l l e c t i o nb u i l d i n gp r o g r 鲫( c b p ) 这个项目旨在 为科学、数学、工程和技术创建大规模的在线数字图书馆,试图研究在某一主题上资源 自动建设的可能性。c b p 具有自己的特点:第一、因为c b p 是面向教育、面向教学,主 题精确度( p r e c i s i o n ) 比覆盖度( r e c a l l ) 更为重要;第二、c b p 不存储资源原文,而 只是提供u r l ;第三,c b p 只需要用户最少量的输入,如关键词,系统就可以全自动的 将有关该主题的最相关的有限数量u r l 返回给用户。 ( 5 ) m e d i c a lm a t r i x 是非常著名的医学搜索引擎,它主要搜索临床医学资料。其特点 是站点质量高,搜索的站点都需要美国医学情报协会因特网筛选、审定。n 鲫同时提供免 费的邮件列表,m e d i c a lm a t r i x 的使用方法有分类检索和词语查询两种方式,其分类 详细、层次结构严密。而词语检索可用关键词、作者、资源类型等进行检索。 由于我国专业搜索引擎起步较晚,目前仍没有比较完善的专业搜索引擎,随着学科 的进步与发展,构建高效、易用的专业搜索引擎已成为目前搜索引擎研究的热点之一。 8 东北师范大学硕士学位论文 第三章网络动态专业搜索引擎构建的必要性 专业搜索引擎是以构筑某一专题或学科领域的i n t e m e t 网络信息资源库为目标,智能 地在互联网上搜集符合这一专题或领域需要的信息资源,能够为包括学科信息门户、专 业信息机构、特定行业领域、公司信息中心、行业专家等等在内的信息用户,提供整套 的网络信息资源开发方案。 一、动态专业搜索引擎的必要性概述 随着学科综合性的增强,导致产生了一系列新的问题,原先的专业搜索引擎已经很 难满足人们对专业信息的搜集。 首先,以往单一的学科现在产生了许多交叉学科,涉及到多个相关领域。当今学科 分类向多而细的方向发展,因此人们很难将所需信息准确定为从属于哪个学科,选择一 种专业搜索引擎显然不能满足人们查全资料的需要,而选择多个专业搜索引擎则浪费时 间和精力。 其次,随着网络的普及,各种信息资源以不同的格式存在于网络中,这给传统的专 业搜索引擎带来严重的问题。由于检索协议不同,使其在涉及到不同专业搜索引擎协同 搜索时遇到问题。专业搜索引擎必将迅速的发展,以适应人们的需要。 再次,由于各种专业资源的网络化还存在一定的滞后性,因此许多新增的专业词汇 并不能及时的录入专业搜索引擎中的专业领域知识库,人们难以找到这些最新的专业信 息及其相关资源。 可见普通的专业搜索引擎已经不适合当前人们查找专业信息的需要。为了解决以上 问题,建立一种适合人们需要的网络动态专业搜索引擎是十分必要的。 二、以生物学专业为例进行实证 ( 一) 生物学分支学科特点 生物学涉及的方面很广,因此它的分支学科也很多。生物学的研究对象是生命,生 命作为一种物质运动形态,有它自己的生物学规律,同时又包含并遵循物理和化学的规 律。因此,生物学和物理学、化学都有密切的关系。生物有漫长的历史,它们的遗迹很 多都保存在地层之中。现代生物的生活和它们赖以自下而上的地球环境紧密相关。所以 生物学和地理学也存在着密切的关系。因此,生物学的很多分支学科都是生物学与其它 自然科学互相渗透而成的交叉学科。 早期的生物学主要是对自然的观察和描述,以及对动、植物种类的系统整理,所以 最早建成的分支学科是分类学和按生物类群或研究对象划分的学科,如植物学、动物学、 微生物学等。1 这些学科又可再划分为更细的学科,如藻类学、原生动物学、昆虫学、 9 东北师范大学硕士学位论文 鱼类学、鸟类学等。微生物不是一个自然类群,包括的种类甚为庞杂,可划分为病毒学、 细菌学、真菌学等。此外,以化石为研究对象的古生物学也属于此类。 按结构、机能以及各种生命过程划分的学科有形态学,如解剖学、组织学、细胞学 等;生理学,可进一步划分为细胞生理学、生殖生理学等;遗传学,可划分为种群遗传 学、细胞遗传学、分子遗传学等;胚胎学,是研究生物个体发育的学科,现在吸收了分 子生物学的成就,已发展成发育生物学;生态学,是研究生物与生物之间、生物与环境 之间的关系的学科,也可扩大为环境生物学。 生物结构是多层次的,从不同层次研究生物学的学科有种群生物学、细胞生物学、 分子生物学等。细胞生物学已经发展到分子的层次,即分子细胞生物学。分子遗传学也 是发展最快的学科之一。 用物理学的、化学的以及数学的手段研究生命的分支学科或交叉学科有生物化学、 生物物理学、生物数学、仿生学等,这是2 0 世纪以来发展迅速,成就突出的学科。 以上所述只是生物学分科的主要格局,实际上,分支学科远比上述的多,而且各分 支学科互相渗透,并不像上述的那样界限清楚,例如,物理学、化学和数学的手段和方 法不仅用于生物物理等交叉学科,而且广泛的用于多个分支学科,如分子生物学、细胞 生物学、发育生物学、生理学等;很多学科都已深入到分子层次,如分子细胞生物学。 总之,生物学的发展,一方面,新的学科不断地分化出来;另一方面,这些学科又互相 渗透而走向融合。这种情况反映了生物学极其丰富的内容和蓬勃发展的情景。 因此,人们很难确定所需信息具体属于哪个学科,从而选择多个学科专业搜索引擎 分别进行查询,但这样不仅浪费时间还浪费精力。可见普通的专业搜索引擎已经不适合 当前人们查找专业信息的需要,为了解决以上问题,建立一种适合人们需要的网络动态 专业搜索引擎则是十分必要的。 ( 二) 互联网上生物学信息资源类型和特点 互联网上的生物学信息依其存在形式可分为w w w 资源、h t t p 资源、f t p 资源、m a i l 资源和w a i s 资源等等。砼幻这些信息数量庞大,据估计,互联网每天发布1 4 万件信息( 总 量约4 5 0 m b ) ,全网提供的信息总量在2 0 t b 以上。在y a h o o 查询引擎上就有l l o o 多个有 关生物学的信息站点,a l t av i s t a 引擎上有5 6 0 0 0 多个有关站点。信息在地理分布上分 散,它们分布在欧洲、美国、澳大利亚、日本、新加坡、中国和台湾等国家和地区,8 0 的节点位于英语国家,其中美国的数据量最大。在组织形式上松散,有自由文本和规范 文本。数据质量参差不齐,网上包含许多与信息含量无关的多余、重复、无价值的信息, 科研人员使用率最高的是来自美国的专业数据库。而且数据类型也非常多,互联网上有 数百种生物学电子期刊,大部分提供免费摘要;动态信息,如政府机构发布的消息,政 策法规,会议消息,研究成果,项目进展报告,产品目录,出版目录,有关广告等;网 上有全世界包括美国国会图书馆在内的6 0 0 余个公共图书馆和大学图书馆,4 0 0 余个学 术机构图书馆的联机馆藏目录,其中有关生物学的书目数据库有上百个;随着功能基因 组实验技术的深入,海量的数据不断涌现,因此许多专业数据库成为支持这些技术的必 1 0 东北师范大学硕士学位论文 然组成部分,如基因组数据库( 如o m i m ) 、蛋白质序列数据库( 如s w i s s p r o t ) 、核 酸序列数据库( 如g e n b a n k ) 、结构域数据库( 如p r o s i t e ) 、三维结构数据库( 如p d b ) 、 二维凝胶电泳数据库( 如s w i s s 一2 d p a g e ) 、翻译后修饰数据库( 如o g l y c b a s e ) 和代 谢数据库等,都提供免费检索。乜2 1 ( 三) 生物学信息数据库特点 生物学信息数据库以建库的方式方面论,大致可以分为四类。口卵 首先,是一级数据库,也是最基础的,这一般是国家或国际组织建设和维护的数据 库。譬如,由美国n c b i 维护的g e n b a n k ,由欧盟的欧洲分子生物学实验室所维护的e m b l 数据库等。此类数据库对于输入的数据,仅作一定的形式审查后便可接受,也可根据数 据递交者的要求,对数据进行一定时间内的保密。由于这些数据库由国家经费维持,不 为公司企业做盈利性服务,因此具有国家数据库的权威性和公正性。向此类数据库提交 数据已经成为数据在国际科学刊物上发表的必要条件。同时,向这类数据库递交数据, 还可成为数据递交者在知识产权的诉求中提供其发明日期等方面材料的权威佐证。这样 的数据库的优点是完整、更新及时,并提供了一些较好的服务软件和平台计算条件。但 是,对于数据的创新性、精确性和准确性没有权威评价,数据过多、重复,分类较粗等 等,都是它们共同缺点。 其次,是在一级库的基础上开发二级库。二级库是在一级库的基础上,结合工作的 需要将不同数据从一级库中提出,重新组合( 包括一定的修或调整) 而成的特定的数据 库。由于其专一性强,数据量相对较少,因此其质量高,数据库结构设计精致。所以, 这类数据库在常规实验室的日常工作和生物信息的研究和发展中具有不可代替的重要 作用。 其三,是所谓的专家库,这是一种特殊的二级库。与一般二级库不同之处在于,它 是经过有经验的专家进行人工校对标识之后建立的。这样的库质量很高,使用方便可靠, 但是,更新和发展都比较慢。s w i s s p r o t 就是一个典型的专家库。 最后,就是所谓的整合数据库。它是将不同数据库的内容按照一定的要求整合而成, 为一定的目的服务。许多商业和内部数据库实质上就是整合数据库,著名的g c g 软件所 带的数据库就是一个例子。按照数据库的“所有制”性质,又可分为基本受国家及公众 非赢利经费( 如国家拨款、基金赠款等) 的支持,基本无偿为社会,特别是科研事业单 位服务的公共数据库( p u b l i cd a t a b a s e ) 和受特殊经费支持为部分或一个单位服务的 内部数据库( p r o p r i e t a r yd a t a b a s e ) 这样两类。 目前生物学领域面临对数据信息利用普遍存在的困境是:第一,各数据库据类型复 杂多样,数据描述标准缺乏统一规范,导致不同数据库存贮和检索方式存在极大差异: 第二,信息存
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 安全培训班的目的和意义
- 木材生产安全培训课件
- 手术室护理培训课件
- 木材加工岗位安全培训课件
- 木工防火安全知识培训课件
- 《windows 组网实训教程》课件第8章
- 木制品厂安全生产培训课件
- 木作色彩搭配课件
- 超市培训课件哪里好
- 安全培训热辣滚烫课件
- 小学科学新教科版三年级上册全册教案(2025秋新版)
- 苏教版2025-2026秋三年级数学上册教学计划及课时安排
- 【里斯】年轻一代新能源汽车消费洞察与预测 -新物种 新理念 新趋势(2024-2025)
- 二年级上册生命.生态.安全 全册教案
- (完整版)英语能力B级考试课件
- (中英)订购单-Purchase-Order
- 框架结构(课件)
- 家具采购项目评分表
- 有机化学第五章 脂环烃
- 铁路货物装载加固规则
- 不同频段馈线损耗
评论
0/150
提交评论