信息采集技术之信息采集的途径与方法_第1页
信息采集技术之信息采集的途径与方法_第2页
信息采集技术之信息采集的途径与方法_第3页
信息采集技术之信息采集的途径与方法_第4页
信息采集技术之信息采集的途径与方法_第5页
已阅读5页,还剩35页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

信息采集技术信息采集的途径与方法(二)一、光盘检索采集方法光盘检索简介 光盘检索:光盘的使用起始于70年代,最初主要用于制作激光唱片。80年代以来,随着计算机技术和数字化计算机的发展,光盘才开始应用于文献信息领域。光盘在文献信息领域的应用对信息的存储介质(纸、磁介质、缩微胶片等)带来了革命性的影响,并强烈地冲击着联机产业。由于以CD-ROM为代表的光盘技术具有易用、存储容量大等独特的特点,因而受到了人们的普遍欢迎,并很快发展成为一种新的检索系统——光盘检索系统。90年代初期,光盘数据库检索系统以它存储数据量大、操作简单、检索效率高、成本低廉、运行环境要求简单等特性,在高校图书馆中的到了广泛的应用,达到了它的顶峰时期。近两年来随着Internet的普及使得光盘数据库检索系统逐渐发展为光盘网络检索系统,但是目前光盘数据库的独特的优点使它仍然成为利用现代化手段进行文献检索的主要方式之一。

光盘检索的特点优点:

(1)运行速度快

光盘数据库采用单机检索,不受检索线路是否拥挤的影响,即使连接在校园网上,由于传输距离较近,其运行速度也比较快。

(2)成本低,检索效果好

一般而言,CD-ROM数据库的检索费用比联机检索费用低得多,并具有很好的检索效果。购买CD-ROM数据库后,在一年内可以任意使用,利用率愈高,分摊的成本愈低,且在整个检索过程中不涉及远程通信网络问题,也不需要使用专线电话之类的通信线路,并考虑机时费与流通量的问题,没有联机检索按时间收费的紧张感,可为用户提供良好的检索条件和环境气氛。

(3)下载方便

用户可以方便地将光盘上的部分所需数据拷贝到软盘或其他计算机系统里,从而形成本部门或个人的局部数据库,以便随时查询。

(4)安全性能高

对于光盘数据库来讲,它是只读光盘,具有不可擦除性,更不会因病毒而造成文献丢失。

光盘检索的特点缺点:

(1)使用范围有限

目前光盘数据库的规模和容量有限,一般都以某一领域学科为主,不可能囊括所有学科,而且受到所购置光盘专业种类的限制,有时会影响查全率。

(2)更新周期长

一般的光盘数据库更新需要3个月,最快也需要1个月。

(3)检索系统不兼容

不同出版商制作的光盘数据库不能在一个系统中兼容,使用上有很多不便。

(4)需要不断换盘

一个大型数据库,一般都是几张光盘,特别是全文数据库,例如中国学术期刊全文光盘数据库,每年都有一百多张光盘,检索时需要不断更换光盘。光盘检索提供的服务(1)追溯检索服务

目前引进的CD-ROM数据库一般存储近5~10年的文献,对科研项目的研究提供追溯检索的服务。(2)定题服务

定题服务是为了跟踪某课题的最新动态,按用户事先预定的检索内容,主动连续地从新到的文献库中检出有关信息,提供给用户。CD-ROM数据库检索系统还具备保留和重新执行检索策略的功能,可以对检索策略进行任意修改和补充,因此实施定题服务是比较方便易行的。(3)专题追溯检索服务

教育技术研究者在开始一项新课题研究时,需要系统全面地了解这一课题的进展情况,需查找过去若干年中前人有关此课题的文献资料。由于CD-ROM数据库的使用几乎不受时间限制,因此可以为特定用户制定的专题提供专题追溯检索服务。由于受机时和费用的限制,联机检索系统一般不提供这类服务。光盘检索系统1.光盘检索系统的组成

光盘检索系统由光盘、光驱、计算机和相应软件组成。

(1)光盘

数据存储单元,一般由数据库供应商提供,数据在制作过程中固定在其物理介质上,不能抹掉也无法修改,称为CD-ROM。

(2)CD-ROM驱动器或光盘塔

光盘读取的专用设备,其发射的激光束聚焦在光盘的信息轨道上,在有小孔或无小孔处形成不同的光反射,这两种不同的光反射经光学系统接收后转换成电信号,计算机二进制信息“0”或“1”,经计算机解码后,成为原纪录的数字化信息。

(3)计算机及相应软件

光盘本身是一种机读文献,需在计算机上读取。目前使用的光盘检索系统都以计算机为基础设备,在普通的计算机上加载光盘驱动器的驱动软件和数据库的检索软件,即可成为光盘检索系统。

光盘检索系统2.光盘检索网络系统

光盘检索网络系统是90年代发展起来的计算机文献检索系统。随着光盘数据库的大量涌现,单机光盘检索需频繁换盘,给用户带来不便。而且在同一时刻只能有一个读者使用,无法充分发挥昂贵的光盘数据库的效益。在计算机网络的硬件和软件环境的支持下,产生了光盘网络检索系统。目前建成的光盘网络检索系统都是以计算机的局域网为基础,有多种模式,其共同特点是拥有能同时运行几十张光盘的光盘塔驱动器,它可供上百个用户同时检索同一张光盘。

光盘数据库网络的组成包括光盘塔和各种光盘组网软件以及光盘塔服务器等。

光盘检索的基本流程 光盘检索的基本流程为根据检索的课题选择合适的数据库,并确定检索词,根据检索要求编写检索式,开始检索,检索完毕后,分析判断检索结果,如不合适需修改检索词和检索式进行二次检索,最终得到满意的检索结果。

1.分析研究课题,明确查找要求

明确所需信息及文献内容、性质、水平等情况;在分析课题的基础上形成主题概念;根据检索主题概念的学科性质,确定检索的学科范围。

2.选择检索数据库

由于当前数据库的种类繁多,各数据库的内容相差很大,从国内外出版的数据库来看,一般从数据库的学科范围、数据库的文献范围、数据库的国别或语种范围三个方面来确定数据库的内容。

光盘检索的基本流程3.确定检索词

所谓检索词,就是将检索要求概括成的简洁词语。检索词的选择必须符合两个要求,一是能准确反映课题的检索要求,二是必须符合数据库对输入词的要求。4.编写检索式

一个课题往往需要用多个检索词来描述其含义,这些检索词又往往需要用一定的语法规则来规定,才能完整描述检索要求,这就要编写检索式。检索式是将检索词之间的关系用布尔逻辑算符和位置算符来描述的式子。5.检索结果显示及判断

根据显示文献信息的内容和篇数,可以判断检索结果是否符合要求,如果不符合要求,则调整检索词和检索式再次进行检索。

常用用的的光光盘盘数数据据库库1..《《中中文文科科技技期期刊刊数数据据库库》》光光盘盘《中中文文科科技技期期刊刊数数据据库库》》光光盘盘由由中中国国科科技技信信息息研研究究所所重重庆庆分分所所于于1992年年6月月开开发发成成功功。。1993年年面面世世,,其其前前身身为为中中文文科科技技期期刊刊篇篇名名数数据据库库软软盘盘版版。。““中中刊刊库库””是是目目前前国国内内最最大大的的综综合合性性文文献献数数据据库库,,收收录录了了自自1989年年以以来来的的中中文文科科技技期期刊刊文文献献200多多万万条条,,引引用用期期刊刊达达5400余余种种,,年年报报道道量量26万万条条,,该该库库每每季季更更新新一一次次。。2..《《中中国国专专利利文文献献》》光光盘盘数数据据库库中国国专专利利文文献献光光盘盘数数据据库库((CNPAT))由由中中国国专专利利信信息息中中心心出出版版,,该该数数据据库库1992年年开开发发成成功功,,收收录录了了自自1985年年至至今今在在中中国国专专利利局局申申请请并并公公开开的的全全部部专专利利信信息息约约43万万件件,,内内容容有有题题录录、、文文摘摘和和主主权权项项,,提提供供了了关关键键词词、、发发明明名名称称、、国国际际专专利利分分类类号号、、范范畴畴分分类类号号、、申申请请号号、、发发明明人人、、公公告告号号、、优优先先权权项项、、国国别别省省市市代代码码、、申申请请日日、、公公告告日日、、申申请请人人地地址址、、代代理理机机构构代代码码共共14个个检检索索入入口口,,其其中中申申请请人人、、发发明明人人、、发发明明名名称称为为全全文文检检索索。。3..英英国国《《科科学学文文摘摘》》光光盘盘数数据据库库英国国《《科科学学文文摘摘》》光光盘盘数数据据库库((INSPECOndisc))由由英英国国IEE学学会会出出版版,,是是书书本本型型ScienceAbstract((《《科科学学文文摘摘》》))的的机机读读版版。。其其信信息息来来源源于于世世界界范范围围内内已已出出版版了了的的计计算算机机、、电电子子学学、、物物理理学学方方面面的的文文献献,,涉涉及及期期刊刊4200余余种种,,会会议议、、图图书书、、技技术术报报告告和和学学位位论论文文1000余余种种,,每每年年提提供供25万万条条信信息息。。INSPEC数数据据库库中中每每条条记记录录的的著著录录项项目目有有::论论文文题题目目、、作作者者姓姓名名、、作作者者单单位位、、期期刊刊、、会会议议、、图图书书、、报报告告、、学学位位论论文文的的信信息息、、文文摘摘、、分分类类、、叙叙词词、、自自由由词词等等主主要要项项目目,,同同时时提提供供了了分分类类号号、、主主题题词词、、自自由由词词、、数数值值索索引引、、化化学学索索引引等等27项项检检索索入入口口。。光盘检检索采采集的的模式式模式::单用户户的光光盘数数据库库信息息采集集模式式点对点点光盘盘数据据库信信息采采集模模式以局域域网为为依托托的光光盘数数据库库信息息采集集模式式文件服服务器器模式式/对对等模模式以广域域网为为基础础的光光盘数数据库库信息息采集集模式式在虚拟拟网络络基础础上的的光盘盘数据据库信信息采采集模模式E-mail,FTP、、传真真、程程控电电话等等光盘检检索采采集的的途径径与方方法途径与与方法法运用规规范化化的语语言检检索采采集运用非非规范范化的的语言言检索索采集集运用规规范化化与非非规范范化语语言相相结合合的检检索采采集运用文文献的的外形形特征征检索索采集集运用连连续出出版物物的国国际标标准号号码检检索二、全全文检检索采采集方方法全文检检索一种将将文件件中所所有文文本与与检索索项匹匹配的的文字字资料料检索索方法法。全文检检索是是计算算机程程序通通过扫扫描文文章中中的每每一个个词,,对每每一个个词建建立一一个索索引,,指明明该词词在文文章中中出现现的次次数和和位置置。当当用户户查询询时根根据建建立的的索引引查找找,类类似于于通过过字典典的检检索字字表查查字的的过程程。全全文检检索系系统是是按照照全文文检索索理论论建立立起来来的用用于提提供全全文检检索服服务的的软件件系统统。功能上上全文文检索索系统统需要要具有有建立立索引引,处处理查查询返返回结结果集集,增增加索索引,,优化化索引引结构构等功功能。。结构构上具具有索索引引引擎,,查询询引擎擎,文文本分分析引引擎和和对外外接口口等。。全文检检索西文全全文检检索数数据库库的索索引机机制是是心自自然语语言的的单词词为基基本单单元的的,词词与词词之前前有自自然界界限((以空空格为为标志志)汉语的的词则则是以以单音音节为为基础础层层层组合合构成成的,,常用用方法法有““词典典匹配配法””、““词频频统计计法””、““联想想词群群法””、““设立立标志志法””、““知识识与规规则法法”、、“人人工智智能法法”等等等全文数数据库库的结结构与与特点点结构::包括两两个部部分顺序文文档结结构倒排文文档结结构特点::文本客客观性性/语语言自自然性性/后后控词词表性性/检检索彻彻底性性/较较大稳稳定性性全文检检索系系统的的模式式单汉字字无标标引全全文检检索系系统此系统统是为为了让让原文文每一一个字字都具具有可可检性性,便便通过过计算算机替替原文文的各各个字字都建建立倒倒排档档,以以便信信息人人员或或用户户以各各个单单字检检索入入口进进行检检索的的过程程。全文检检索系系统在在主文文档中中包括括题名名、著著者、、正文文等字字段;;在倒倒排档档中,,包括括字与与地址址集合合,其其中地地址集集合由由三元元组成成,即即文献献记录录号、、增加加字段段标识识与字字的起起始位位置。。特点::容易实实现,,维护护方便便,检检索速速度慢慢,浪浪费存存储空空间,,查全全率与与查准准率不不高例:为有效效检索索主文文档中中的信信息,,依据据主文文档抽抽取一一些字字建立立的倒倒排档档:检索过过程全文后后控检检索系系统是为了了在词词与词词之间间建立立一种种指引引关系系,而而运用用后控控词给给予控控制的的体系系。词词与词词之间间有从从属关关系、、等同同关系系、相相关关关系等等。后控词词表是是由专专家编编制的的一种种辅助助表,,并由由专家家定期期检查查、更更新与与完善善。系统特特点::提高高了查查全和和查准准率;;易产产生歧歧义,,量大大时长长;B2B1BEFGAA是B与E的上上位词词,E是B的同同位词词,B1、、B2是B的同同义词词,F、G是B的相相关词词或近近义词词例:与信息息产业业相关关之词词词间联联系的的参照照符号号:三、现现代信信息间间谍采采集方方法现代信息间谍谍采集方法概念-现代信信息间谍采集集方法,是间间谍机构通过过派遣间谍,,运用现代化化手段,以合合法或非法的的方式,采集集本国或本单单位所急需的的、竞争对手手中有极大价价值的信息的的方法现代信息间谍谍活动现状现代信息间谍谍盛行的原因因是两军决用的的秘密武器是搞跨竞争对对手的法宝是取得奇效的的上等秘诀现代信息间谍谍活动的特点点间谍与工具结结合公开与隐蔽并并施盟国与友军不不存企业与企业较较量专家与学者出出动政府与民间携携手生态间谍游荡荡现代间谍采集集信息的方式式方法秘密方式:高空拍摄/窃窃取机密/行行贿拉拢/美美人利诱/安安插内线/威威胁恐吓/破破译密码/假假而实之公开方式卫星侦察/参参观考察/分分析文献/会会议交流/留留学搜集/无无偿馈赠/发发表论文/外外交活动四、社会调查查采集信息的的方法社会调查采集集信息的方法法是针对用户户的需要,向向各种社会活活动了解其活活动情况、数数据与资料的的方法社会调查的方方法普遍调查(普普查):对采集对象的的运动状况、、特征与趋向向等进行全面面采集与分析析的方法,是是统计调查的的一种重要方方式。有自上而下式式和自下而上上式如大规模的全全国人口普查查/经济普查查等社会调查的方方法问卷调查:是采用出

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论