网络资源的特点与自动化采集技术的方案.docx_第1页
网络资源的特点与自动化采集技术的方案.docx_第2页
网络资源的特点与自动化采集技术的方案.docx_第3页
网络资源的特点与自动化采集技术的方案.docx_第4页
网络资源的特点与自动化采集技术的方案.docx_第5页
已阅读5页,还剩6页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

网络信息资源的特点与自动化采集的技术方案策划以图书馆为例一、 网络资源的特点网络信息资源作为一种经济资源,具有经济资源的一般特征,但与其它物资资源相比,又有着自己的特点。1、数量巨大网络信息资源量大,内容丰富,信息增长较快。如中国学术期刊网有时一天所增加的新文章就达多篇。作为一种全新的信息媒体,网络不仅信息量大和传输方便,而且不受时空限制,并且具有共享性。随着计算机硬件技术,特别是光盘技术、海量存储等技术的发展,为大容量、高速度、高稳定性的网络服务器提供了发展条件。随着计算机信息处理能力的不断增强和数字化技术的广泛应用,许多形式的信息都可以在网络中存储和传递。因此,网络信息资源将越来越丰2、类型多样因特网内容包罗万象,覆盖了不同学科、不同领域、不同地域和不同语言。在形式上,包括文本、图像、声音、软件、数据库等。既有公开出版发行的图书报刊、又有非公开发行的会议文献、学位论文、内部资料以及网上的“灰色文献”。网络文献不仅有题录、摘要,而且还有不少全文文献。此外,还有许多电子出版物、专门的文献数据库及数字图书馆等资源。3、结构复杂网络信息资源分别存储在世界不同国家、不同地区的服务器上。对信息资源的组织管理没有统一标准,不同的服务器采用不同的操作系统及数据结构,如有的采用字符界面,有的采用图形界面有的采用菜单式,有的采用超文本方式从整体上看,基本处在无序的状态。如今有不少服务器是用等中间件与其它数据库连接起来的,因而在管理和利用方面比较复杂。4、质量参差不齐网络信息资源具有不同的层次与效用,既有科学前沿的研究报告,也有大众通俗读物既有已经加土整理的信息,也有无序的原始信息既有较大参考价值的信息,也可能混有毫无用处的“信息垃圾”,甚至还有不少有害的信息。利用的价值差异较大,信息质量参差不齐,并且相互混杂交织在一起,为用户选择利用带来了不便。5、用户差异大网络以其信息资源丰富、类型多样、利用方便等特点,吸引着众多的用户。用户群体和他们的信息需求表现出多样性,用户信息需求的变化频率加快用户需求日趋个性化,部分用户需求趋向更加专门化。6、数字化网络信息资源是以数字化的形式,也即二进制形式存贮于全球范围内大大小小网络的主机上,并通过现代计算机网络和通讯网络广泛传播。7、动态性网络信息资源是一个动态系统,许多服务器处在不断的变化之中,每天都有新的网站出现,有的合并,有的取消。因此,网络信息更新迅速,网页的增加、删除、更新地址经常发生,信息的时效性强。因特网改变了文献处理和获取信息的方式,由于网页更新周期缩短,使有关的内容处于一种动态的变化中。在网上能得到最新的资料以及某个学科或某项科研的最新动态,能检索到最近出版的文献。有些网络电子杂志甚至比印刷本发行还快,预印本的文章比正式印刷出版可提早与读者见面。8、无序性由于,没有一个主管机构进行集中领导和管理,尽管晚上有大量高质量的、有序的信息,如从某个局部、某个网页、数据库来看是有控制的、相对集中的、有序和规范的,但整个网络信息资源的分布出现混乱、无序的状况。9、共享性网络信息资源内容的数字化,使其可以打破传统文献信息资源的限制,可以不断地复制,可以多个人同时去使用网络信息资源的网络化传递,使其可以消除传统文献信息资源的时间和空间包括国界和语言的限制,各地的用户可以不受限制地利用网络信息资源。10、互动性强网络信息资源具有强大的互动功能,可以形成广泛的论坛氛围,有关专家可以就某一专题开设电子论坛,网上直接反馈读者信息,参与交流讨论。作者、出版者和读者可以通过网络直接交流沟通。而传统的文献信息资源则不具有这个优势。11、关联程度强传统文献信息资源的关联能力比较差,它主要通过参考引用文献来指导读者阅读和核对所引用的资料,如果用户找不到所引用的原始资料,那么就无法对某一资料进行详细地分析和研究。而网络信息资源则不同,它可利用超文本技术,通过超级链接手段,构成立体网状的联系,各个国家、各种服务器、各种网页、各种文章上的相关信息都可以通过结点连接起来,从而直接指导用户去查阅所引用的原始文献。二、 针对网络资源的自动化采集技术(一)、采集方式1、 自动搜集自动搜集指用一种网络机器人(网络爬虫)的软件在因特网上漫游,定期地到指定的网站自动搜集网上从了、和站点上的各种相关信息,并且把这些信息存于本站点上,然后再对其进行加、组织和提供服务。人工搜集人工搜集信息的工作由网站管理员完成,包括查阅书目、报刊、有关工具,利用商用数据库,浏览因特网以及利用政府机关、国内相关机构、相关学术活动与商业活动等进行信息搜集。通过信急搜集,获得该学科或领域有关的研究机构、电子图书、学术期刊、会议论坛、专家学者及其他相关的网址。这种搜集方式的优点是链接站点经人工选择,相关度较高。其缺点是效率较低,难以完整地搜集到相关的。另外,网站管理员还需周期性地检测原有链接是否依然有效,并及时排除“死链”。(二)、采集过程1、信息搜索信息检索的实现,是有赖于信息的存储过程中对信息的揭示与组织,使其成为一条条信息线索,并将这些线索系统地排列,使分散无序的信息变成有组织、有系统的信息。2、信息过滤信息过滤是对污染信息资源净化和防范的必要手段。过滤实质上是对信息进行筛选,用户可根据自己的需求,主动选择服务项目与内容,通过过滤机制,快速找到所需的信息资源。同时,可对网络的信息流量、流向及流速进行有效的控制和合理调度,使网络传递更加畅通。3、信息下载网上搜集到的信息通过相应的软件可直接下载到己经设计好的数据库里。数据库具有系统分析和结构分析两大功能,实现数据库中大量关联数据的有序化排列。也可以下载到相关的文件夹中,进行信息处理、信息分类后用数据库系统管理。三、 在图书馆中的具体使用方案可提供rss 推送服务 针对话题运用web2.0技术,设置讨论区,可指出错误,或对话题进行内部讨论。不实名,使用虚拟成为,根据发言次数、被赞频率修正错误条目的次数进行等级提升。给予权威人士一定权限(老师),可直接对不全面或不正确的词条进行修正。非结构化数据库 b/s架构设置检索框 一般检索(关键字) 高级检索(检索式 限制时间 类目)综合搜索引擎,可在3、4方面使用全文搜索引擎一、类型结构天津师范大学图书馆网络信息资源的类型结构主要包括电子出版物、网络出版物、多媒体出版物等。二、语种结构天津师范大学图书馆网络资源管理系统的主要服务对象为天津师范大学学生、教师。从用户需求出发,语种以中文为主,英语及其他语种兼顾。四、 内容结构网络百科事物的基础名词概念,各个学科的原理、原则、理论,法律法规。将几个著名百科网站(百度百科、维基百科)综合汇总,对有异议的进行鉴定,无法辨别真伪的不取用。可结合文献资料完善不完全的条目。新闻类工作人员从一些主要的新闻网站收集,或者直接进行转载除了对社会性新闻进行搜集,并且针对学术研究,重大的科技会议,政党会议。(视频资料,录音,会议记录)新技术、新理论提提出。进行汇总(工作量大,意义是否大?是否值得去做?)零次信息的重组与整合零次文献也称灰色文献。是指介于公开发行的白色文献与不公开发行的保密文献之间的既不公开发行、又不是保密的文献。主要包括政府的行政报告与科技报告、学位论文和高校、科研院的内部刊物、专家学者的手稿、学术会议资料、社会调查报告等等。这些文献具有信息新、质量高、专业性强,同时信息量大、种类多、涉及面较广但读者范围相对狭小、透明度较低等特点。标准等汇总。(只在内部使用是否侵权?)报告(网上报告厅)年检(中国全文年间)学术博客获取:名家大家,需要专人对其学术水平做鉴定提供博客来源的链接,可以对博主进行关注或者在原文中进行探讨交流。博客的思想理念与图书馆的核心精神是一致的,博客的促进交流与共享的特点使得图书馆利用学术博客进行学术信息服务具有很多先天的优势。而图书馆所拥有的文献资源,人才队伍与信息技术也为图书馆应用学术博客提供了物质基础和便利条件。学术博客这种信息服务方式还有传统图书馆不具备的一些优势,学术博客提供了了现代信息环境下非正式交流的途径,这种可交流的机制调动了用户的积极性与互动性,并且在知识共享的过程中建立了社交关系。新浪博客CSDN (Chinese Software Developer Network)/五、 分类体系引用学科分类系统再根据自身需求进行相应简化(减短纵向分级,去除无用学科),在来源设置四个种类分类六、网络信息资源选择如何在宽泛的网络信息中选择有价值的信息源,提供用户利用,是各馆面临的重要问题。选择的原则与方法主要包括,浏览认定法、内容评估法和利用评估法。浏览认定法即由信息搜集人员定期浏览有关网站,搜索重要信息资源内容,发现有利用价值的网站或文档,进行内容下载或对网页做详细描述著录,提供给读者利用。也可以直接在本单位的网络主页进行链接。国外许多图书馆已将网络信息资源搜集和建档作为日常工作的一个重要内容,有专人搜集和维护。内容评估法采集人员查到某些网络后,选择有关内容,送学科专家进行评价,对有利用价值的资源内容进行整理存档,或直接链接。也可专门建立网络信息资源目录,像查询图书馆文献目录一样,不同的是选择了某一个网络目录,便可以直接进入该网页浏览,快捷方便。利用评估法网络信息资源丰富多变,对选择的网络信息资源进行利用情况评估是进行再选择的有效办法。通过一段时间的利用,进行利用统计分析,或直接向用户调研,都可以判定该网络信息源的利用价值,从而做最终的选择和取舍。专家推荐法网络万千,资源无数,单靠几个采集人员决难浏览众多的信息源。因此,各个领域的专家都可以向图书馆推荐高质量的网站,以使更多的用户和同行专家利用。六、 搜集重点网络信息资源搜集重点网络信息资源搜集和关注的重点是大型文献检索数据库群,全文电子出版物,各国政府出版物,科技报告,会议文献,学位论文,专题论坛,以及各类专题的专家论坛和门户资源网站。网上非正式出版物,主要是由各类机构自由发布的信息,如会前论文的发布,未经编辑审查而上网的文献,研究进展报告,通信等,以及各类专题的专家论坛。这部分资源分散,动态性强,不稳定,难于收集。网络信息资源选择如何在宽泛的网络信息中选择有价值的信息源,提供用户利用,是各馆面临的重要问题。选择的原则与方法主要包括,浏览认定法、内容评估法和利用评估法。浏览认定法即由信息搜集人员定期浏览有关网站,搜索重要信息资源内容,发现有利用价值的网站或文档,进行内容下载或对网页做详细描述著录,提供给读者利用。也可以直接在本单位的网络主页进行链接。国外许多图书馆已将网络信息资源搜集和建档作为日常工作的一个重要内容,有专人搜集和维护。内容评估法采集人员查到某些网络后,选择有关内容,送学科专家进行评价,对有利用价值的资源内容进行整理存档,或直接链接。也可专门建

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论