学科信息门户建设中深层网页采集的方法与策略_第1页
学科信息门户建设中深层网页采集的方法与策略_第2页
学科信息门户建设中深层网页采集的方法与策略_第3页
学科信息门户建设中深层网页采集的方法与策略_第4页
学科信息门户建设中深层网页采集的方法与策略_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、学科信息门户建立中深层网页资源采集的方法与策略随着网络技术的日益开展,网络信息资源正以人们难以想象的速度增长,网络也日渐成为人们获取信息的主要途径之一。搜索引擎为人们从海量网络信息资源中查找所需信息提供了便捷途径,但由于其返回的信息资源在查准率和查全率上都无法得到保证,人们经常会得到许多无用信息,反而降低了信息资源的使用效能。因此学科信息门户顺应时代开展需要应运而生,用户可通过学科信息门户快捷、有效地发现高质量的网络信息,同时使他们尽可能多地获得有价值的信息和信息资源。本文认为高质量学科信息门户建立应注重深层网页资源的搜集与整合利用,并应重视深层网页资源采集的方法与策略。1学科门户网站建立现状

2、学科信息门户(SubjetInfratinGateay,SIG)是“提供可检索和可阅读的互联网资源目录的联机效劳系统,一般集中于某一相关的学科领域,提供对经图书馆工作人员遴选和按学科组织的互联网资源的利用。1它致力于将特定学科领域的信息资源、工具与效劳集成到一个整体中,为用户提供一个方便的信息检索和效劳入口。从本质上讲,学科信息门户是含有不同分类主题的网页及相关链接的网上图书馆。主要特点是有较多的人工参与,通过质量标准标准资源的选择,并提供对资源的丰富描绘;提供根据学科体系构造和资源类型分类的阅读和检索入口;有对资源的管理和长期开展的政策、元数据应用与标引标准、资源共享与互操作机制等2。自19

3、96年DESIRE一期工程开场,学科信息门户就在欧洲范围内逐渐普及,一大批面向数学、工程科学、医学、社会科学的学科信息门户相继建立,到2001年DESIRE工程进入第二期时,学科信息门户已经在世界范围内呈“燎原之势,在美洲、欧洲、大洋洲广泛施行。并且在2000年以后逐渐从单个的研究工程向大规模的建立工程转化,模块化的功能组件又使学科信息门户呈现出丰富多彩的形态,并且在组织上、商业形式上同其他的企业信息门户、知识门户互相交融,出现了形式和内容的统一态势3。国际上比拟权威的学科信息门户网站有英国的RDN、SSIG,欧洲的RENARDUS,美国的LII等。随着国外大规模的学科信息门户建立以及国内学者

4、对学科信息门户的研究,学科信息门户建立的思想和理念逐步为国内业界承受。国内最早是上海图书馆于1999年开场建立的“数字图书馆资源总汇表,如今已开展成为“数字图书馆资源门户。2002年3月开场至今,在中科院知识创新工程科技根底设施建立专项“国家科学数字图书馆(SDL)工程的子工程资助下,我国已建成的有生命科学、化学、数字物理、资源环境、图书情报、长江流域资源生态环境、天然药物、微生物、科技政策与管理等9个学科信息门户和中心门户4。热点门户是国家科技图书文献中心组织建立的一个网络信息资源门户类效劳栏目,目前已建成纳米科技、认知科学、食物与营养、艾滋病预防与控制等四个热点门户。其它的学科信息门户还有

5、武汉理工大学图书馆的“材料复合新技术信息门户,中国林业科学研究院科技信息所和中国林科院图书馆合作建立的“林业学科信息门户等。国内学科信息门户在软件平台的完善性、数据标准化、数据共享性、高质量信息资源数量、描绘对象数量等方面存在着一定的缺乏5,有些学科信息门户缺乏高质量的有效网络信息资源。除材料复合新技术信息门户、数字图书馆资源门户、微生物特色学科信息门户、青藏高原研究专题信息门户等能管理网络信息资源和本地实体信息资源外,其它门户均只链接网络信息资源。这种现状不利于信息资源的整合、效劳和信息资源开发,不能适应数字图书馆集成效劳的开展方向,也不能满足用户对信息资源一站式效劳的要求。2深层网页资源的

6、价值由于目前标准的搜索引擎只能发现互联网上的静态网页并建立索引,无法对被深埋在动态产生的网站之下的大量信息资源进展搜索。因此,有许多信息由于其身处网络深层而无法被发现。对于这些处在网络深层的信息资源,有学者称其为不可视网络、隐蔽网络6(invisibleeb,hiddeneb)、深层网页资源(Deepeb,DeepInternet)7。自1994年Dr.JillEllsnh提出Invisibleeb这个概念以来,国外针对深层网页资源的研究相当热烈,且成果众多。内容涉及理论研究、检索软件、搜索引擎等,形式有专著、论文、软件及博客等。深层网页资源的潜在价值及商机还引起了商界的重视,2022年9月1

7、4日下午,微软亚洲研究院负责互联网搜索和数据挖掘的马维英向记者演示微软在网络搜索技术方面的三大新近展,其中一个就是从表层万维网到深层万维网,充分利用大量隐藏的高质量信息7。雅虎推出了“内容获取工程,该工程意在为公共数据库中的数十亿个网页提供搜索索引8。与此形成鲜明比照的是,国内学者并不太重视这个问题,相关阐述较少,极少有学科信息门户网站将这局部极具学术研究价值的网络信息资源作为特色信息资源加以搜集整合。根据BrightPlanet对深层网页资源的范围、数量及相关性调查结果说明,深层网页资源有以下特点9:(1)信息量大。深层网页的信息量达7500TB,是资源的400550倍。它拥有近5500亿个

8、文档,而表层网络只有10亿个。2000年深层网页站点已超过20万个,2022年到达30.7万个,其中60个最大的深层网页站点搜集的信息约有750GB,超过表层网络范围40倍。(2)利用率高。深层网页站点的访问率很高,月访问量是表层网络站点的150%,且经常被其它网络资源链接;但是许多典型的深层网页站点不为群众所熟知。(3)开展迅速。深层网页资源是互联网上新生信息增长最大的一个种类,2000年2022年间增长了3-7倍。(4)信息质量高。深层网页站点倾向于学科范围更狭窄、内容更深化的方向开展。信息内容与每个所需信息、市场及领域具有较高的关联性,且大局部(54%)深层网页资源存放在专题数据库(tp

9、i-spe-ifidatabases)中,经统计分析其高质量内容比表层网络多1000-2000倍。(5)免费开放。95%的深层网页资源对公众免费开放,即无需支付费用或订购使用。付费资源前3位分别是DBTnline、Lexis-Nexis和DIALG,占付费资源的71%;免费开放资源的前3位分别是美国国家气象数据中心(NatinalliatiDataentre)、美国国家航空与宇航局(NASA)和美国国家海洋数据中心(NatinaleangraphiDataenter),占开放资源的92%。因此,将这局部资源搜集整理到学科信息门户网站中来,有利于进一步提升学科信息门户网站的学术指导价值、利用价值

10、,对于当前学科门户网站的建立是非常有意义的。3深层网页资源采集的方式学科信息门户建立,要从大量的网络资源中选出有价值的资源,要在较短的期限内到达信息的规模效应,在人员的安排上仅靠有限的学科专家和相关的专业人员是难以到达预期目的的。因此,深层网页资源的采集应遵循多元化策略,主要可采取以下措施:3.1人工采集由工作人员查阅各种文献、阅读互联网或向有关专业人员请教获得相应的信息源,定期对这些信息源进展跟踪检索获取数据。人工采集方式的工作效率较低,而且所搜集的信息不全,带有一定的随机性和随意性。常用的信息源有:(1)对公众免费开放的数据库资源,如Pubed、GenBank、DAJ等。(2)目录指南(d

11、iretries),如LibrariansIndexttheInteet中的invisibleeb资源。(3)搜索“Invisibleeb的网站,如TheInvisibleebDiretry、Diretsearh、pletPlanetBrightPlanet公司经营的网站、Infine、Abut.等。(4)专业搜索引擎:Inyiny、Singingfish、GgleNes、Sirus、Siene.gv等。(4)利用普通搜索引擎如Ggle、Yah!Searh、Yah!Diretry和Tea等搜索,检索策略为“主题词或关键词database,这样就可以搜索到这些搜索引擎所收录的该主题词或关键词方面

12、的相关数据库链接。如txiheialsdatabase。3.2自动化采集即利用蜘蛛或机器人自动到网站去搜索。由于绝大多数深层网页资源为蜘蛛程序无法访问或索引的数据库,自动化采集深层网页资源需要使用专门的深层网页数据挖掘软件。门户网站建立可方案自行研发具有自主知识产权的深层网页资源采集软件,但技术难度较大,会占用学科门户网站建立过程中大量的人力资源和财政资金,对普通图书馆或机构来说不是最正确方案。另一种方式是采用专用商业软件,这类软件可实现对深层网页资源的检索,它可以将用户的检索恳求同时推送到多个相关网络数据库中进展检索,而后把结果送回给用户。如BrightPlanet开发用于检索深层网页资源的

13、专业软件LexiBt2.0,用户可将其下载到自己的计算机上,采用关键词串检索,可同时对2200多个网站和数据库进展检索,检索过程可采用后台操作形式,不影响用户做另外事务。目前BrightPlanet公司已停顿销售该软件,取而代之的是DQ2(BrightPlanetsDeepQueryanagerT),可根据用户的指令对超过70000个深层网页专业数据库同时进展检索,并实时进展跟踪和监测为用户返回最新研究进展提示,用户也可根据自己的学科特色进展限制检索,检索到的结果可根据用户需要进一步管理制作,后续资料可进展追加,是一个较为理想的门户网站建立深层网页资源采集软件10。另外可供参考的还有普渡大学(

14、PurdueUniversity)的Edued,专门用于搜索医学多媒体数据库11,该软件前身是一个多媒体管理系统VDBS。自动化采集的工作效率较高,可以确保查全率。但所搜集的资料良莠不齐,质量难以保证,而且所搜集的信息量太大,容易使系统难以承载。转贴于论文联盟.ll.3.3人机结合采集充分利用网上自动遨游、自动跟踪、自动分类和自动标引技术,采用人机结合的方式,进步资源采集的效率,以适应网络信息变化快、更新迅速的要求。一方面工作人员可以对软件定期搜集来的资源进展严格的挑选评价以保证其质量,另一方面可以制订一系列专业学科的检索策略,通过软件有针对性搜集网络数据资源,并将搜集到的资源用元数据的标准描

15、绘与提示后存放到数据库中,以实现主题阅读查询、资源类型阅读查询和关键词查询等多种检索方式。3.4用户推荐成立学科信息门户建立的志愿者,建立用户推荐资源的机制和工具,方便用户通过eb界面或E-ail等方式推荐有价值的学科信息。教学科研人员和各类信息用户,既是信息的利用者,也是信息的挖掘者和发现者,我们应积极鼓励科研人员和各类用户根据网站确立的标准推荐新资源和权威资源,同时设立“本周新资源推荐榜、“月或季度新资源推荐榜和“年度新资源推荐榜等栏目,并对量多质优者进展奖励。4深层网页资源的整合4.1网络导航即以网络导航的形式将深层网页资源信息发布到学科信息门户网站,用户通过门户网站提供的链接即可访问相

16、应的深层网页搜索引擎、目录或数据库。网络资源的组织方法有按学科、资源类型、字顺、主题树和数据库组织等,有学者认为后两种方式相对科学、合理,用户可通过主题阅读和关键词查询找到相应的网络资源12。4.2深层网页资源的跨库检索整合这是一种基于系统的整合方法,通过检索软件可实现对多种不同构造的数据库同时检索并返回检索结果。这种跨平台或异构平台的开发与应用在国内已有一定的开展,在图书馆数字资源的集成检索系统方面成功案例较多,如ALLS和北京大学图书馆共同开发的统一检索平台,该平台提供了基于异构系统的跨库检索效劳,用户可按学科、按数据库名称、按文种同时检索多个平台上的多种资源,输入一个检索式,便可以看到多

17、个数据库的查询结果,并可进一步得到详细记录和下载全文。目前,国内的微生物特色学科信息门户的数据库集成检索引擎实现了网络数据库跨库检索,它可对945个生物信息学热门数据库同时进展跨库整合检索。4.3深层网页资源的保存由于网络资源的动态性,许多有价值的网站信息稍纵即逝,假如不加以及时保存这些信息将无法找到和再现。学科信息门户网站如能根据学科专业特点保存相应的深层网页资源,以某种方式呈现给本学科专业用户,不仅可对这局部资源起到保存作用,而且可以进步深层网页资源的利用率实现其真正价值。通过自动化采集软件获得的深层网页资源,其保存是一种基于数据的整合方式,核心是数据加工要标准化,与其它网络数据的组织和处

18、理要同步接轨,也就是要将广泛应用于网络数据加工处理的元数据应用到深层网页资源中来,这样有利于整个学科信息门户资源的统一整合利用。2022年度ALTS(AssiatinfrLibrarylletinTehnialServie)的年度会议工程“etadataHarvesting:UsingthepenArhivesInitiativePrtltExpsetheDeepeb,提出利用AI协议把元数据的思想应用于深层网页,利用元数据来标注深层网页资源,可获得更高的检索效率13。这个会议精神给学科门户网站建立过程中开展深层网页资源的整合工作提供了技术设想。对深层网页资源进展加工整合应遵循以下策略:(1)

19、标准化策略。要求提供标准和深化的知识化描绘,可以支持开发集成和个性化定制效劳。标准化是实现跨学科信息门户互操作和数据共享的根底,是实现学科门户可持续开展的必然要求。(2)开放性策略。要求在信息构造、元数据描绘、知识组织体系、用户界面、用户使用后管理等各个层面具有良好的开放性机制,支持个性化定制和开放集成。(3)及时性策略。要求信息的更新和维护必须及时、准确、有效。(4)权威性策略。要求优化选择学科信息门户的深层网页资源,以保证门户的资源质量。4.4深层网页资源整合涉及的法律问题因为主页对网站的重要性不可低估,人们习惯于将重要的广告放置在主页上,以此实现应有的点击率和广告收入。而深层网页资源在学科门户网站上的链接是直接进入别人网站目的网页的深层链接。这种链接跳过主页,直接进入信息所在页面,导致受众不易识别信息的真正来源,即使文末注明作者,有学者认为也会损害被链接网站的权利14。另一种学者的观点是,深层链接并不会必然导致直接进犯版权。由链接引起的版权侵权纠纷,主要涉及是否对作品专有使用权复制权、发行权、改编权、传播权构成进犯。对于网站之间互相设立链接及网页资源的保存问题,我国尚无详细的法律标准。深层链接是否会进犯版权,在我国也属于理论讨论阶段。作者认为,尽管95%的深层网页资源属于免费开放资源,本着为学科信息门户顺利安康开展的宗旨,学科信

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论