信息采集技术之信息采集的途径与方法.ppt_第1页
信息采集技术之信息采集的途径与方法.ppt_第2页
信息采集技术之信息采集的途径与方法.ppt_第3页
信息采集技术之信息采集的途径与方法.ppt_第4页
信息采集技术之信息采集的途径与方法.ppt_第5页
已阅读5页,还剩34页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、信息收集技术,信息收集的方式和方法(2)。一、光盘检索收集方法、光盘检索简介、光盘检索:光盘的使用始于20世纪70年代,最初主要用于制作光盘。20世纪80年代以来,随着计算机技术和数字计算机的发展,光盘已被应用于文献信息领域。光盘在文学和信息领域的应用给信息存储媒体(纸、磁媒体、缩微胶片等)带来了革命性的影响。),并对在线行业产生了巨大影响。由于以光盘为代表的光盘技术具有使用方便、存储容量大的独特特点,因此受到了人们的广泛欢迎,并迅速发展成为一种新的检索系统。20世纪90年代初,光盘数据库检索系统因其存储数据量大、操作简单、检索效率高、成本低、运行环境要求简单等特点,在高校图书馆得到了广泛应用

2、,并达到了顶峰。近两年来,随着互联网的普及,光盘数据库检索系统逐渐发展成为光盘网络检索系统。然而,目前光盘数据库的独特优势使其仍然是现代文献检索的主要方式之一。光盘检索的特点和优势:(1)运行速度光盘数据库由单台计算机检索,不受检索线是否拥挤的影响。即使连接到校园网,由于传输距离短,运行速度也更快。(2)成本低,检索效果好。一般来说,光盘数据库的检索成本比在线检索低得多,检索效果好。购买光盘数据库后,一年内可以随意使用。利用率越高,共享成本越低。在整个检索过程中,不需要使用电信网络、专用电话和其他通信线路,并且考虑了机器时间成本和业务量的问题。在线检索不存在按时间收费的紧张,可以为用户提供良好

3、的检索条件和环境氛围。(3)易于下载。用户可以很容易地将光盘上的一些所需数据复制到软盘或其他计算机系统上,从而形成一个自己部门或个人的本地数据库,可以随时查询。(4)高安全性对于光盘数据库,它是只读光盘,是不可擦除的,不会造成文件因病毒而丢失。3、光盘检索的特点和不足:(1)使用范围有限目前,光盘数据库的大小和容量都是有限的,一般是基于某一领域的学科,不可能涵盖所有的学科,而且受到所购光盘的专业类型的限制,有时会影响查全率。(2)更新周期长。一般来说,更新光盘数据库需要3个月,最早也要1个月。(3)检索系统不兼容。不同出版商制作的光盘数据库在一个系统中不兼容,使用起来有很多不便。(4)大型数据

4、库需要不断更换,通常是几张光盘,尤其是全文数据库,如中国学术期刊全文光盘数据库,每年有100多张光盘,所以在搜索时需要不断更换。(1)回溯检索服务目前引进的光盘数据库一般存储近510年的文献,为科研项目的研究提供回溯检索服务。(2)基于主题的服务基于主题的服务是跟踪某一主题的最新趋势,并根据用户预先保留的检索内容,主动地、持续地从新到达的文档数据库中检出相关信息,并提供给用户。光盘数据库检索系统还具有保留和重新执行检索策略的功能,可以随意修改和补充检索策略,因此实现特定主题服务是方便可行的。(3)在启动一个新的研究项目时,教育技术研究者需要系统、全面地了解该项目的进展情况,并需要查找过去几年关

5、于该项目的文献。由于光盘数据库的使用几乎不受时间的限制,它可以为特定用户制定的主题提供专题回溯检索服务。由于机器时间和成本的限制,在线检索系统通常不提供这样的服务。光盘检索系统的组成光盘检索系统由光盘、光驱、计算机和相应的软件组成。(1)光盘数据存储单元,通常由数据库供应商提供,在生产过程中固定在其物理介质上,不能擦除或修改,称为光盘。(2)光驱或光盘塔中读取光盘的专用设备。光盘驱动器发出的激光束聚焦在光盘的信息轨道上,在有孔或无孔的地方形成不同的光反射。这两种不同的光反射被光学系统接收并转换成电信号。计算机二进制信息“0”或“1”经计算机解码后成为原始记录的数字信息。(3)计算机及相应的软件

6、光盘本身是一种机器可读的文件,需要在计算机上阅读。目前使用的光盘检索系统是基于计算机的,通过在普通计算机上加载光盘驱动器的驱动软件和数据库的检索软件,可以称之为光盘检索系统。光盘检索系统,2光盘检索网络系统是20世纪90年代发展起来的计算机文献检索系统。随着大量光盘数据库的出现,单机光盘的检索需要频繁更换,给用户带来不便。而且,它只能由一个阅读器同时使用,不能充分发挥昂贵的光盘数据库的优势。在计算机网络软硬件环境的支持下,光盘网络检索系统应运而生。目前,已建成的光盘网络检索系统都是基于计算机局域网,并且有多种模式。它们的共同特点是,它们有光盘塔驱动器,可以同时运行几十张光盘,数百个用户可以同时

7、使用这些光盘来检索同一张光盘。光盘数据库网络的组成包括光盘塔、各种光盘联网软件和光盘塔服务器。光盘检索的基本过程,光盘检索的基本过程是根据检索主题选择合适的数据库,确定检索词,根据检索要求编写检索公式,开始检索,检索后分析判断检索结果,如果不合适,修改检索词和检索公式进行二次检索,最终得到满意的检索结果。1.分析研究主题,明确所需信息以及文件的内容、性质和级别;在分析主题的基础上形成主题概念;根据检索主题概念的主题性质,确定检索的主题范围。2.数据库的选择和检索由于目前数据库的种类很多,每个数据库的内容都有很大的不同。从国内外发表的数据库来看,数据库的内容一般从三个方面来确定:数据库的主题范围

8、、数据库的文献范围和数据库的国家或语言范围。3、光盘检索的基本过程。确定检索词所谓的检索词是概括检索要求的简明词。检索词的选择必须满足两个要求,一是准确反映主题的检索要求,二是满足数据库对输入词的要求。4.编译搜索公式一个主题经常需要使用多个搜索词来描述其含义,而这些搜索词经常需要通过一定的语法规则来规定,以便充分描述搜索要求,这就需要编译搜索公式。搜索公式是通过布尔逻辑运算符和位置运算符描述搜索项之间关系的公式。5 .检索结果的显示和判断根据显示的文献信息的内容和数量,可以判断检索结果是否符合要求,如果不符合,则调整检索词和检索类型重新检索。1992年6月,中国科学技术情报研究所重庆分院成功

9、地研制出了中国科技期刊数据库光盘。1993年出版,前身是中国科技期刊标题数据库的软盘版。中国期刊数据库是目前中国最大的综合性文献数据库,自1989年以来收录了200多万种中国科技期刊,其中科技期刊超过200万种2中国专利文献光盘数据库由中国专利信息中心出版,于1992年成功开发。它包含自1985年以来在中国专利局申请和公布的大约43万条专利信息,包括标题、摘要和主权项目。共有14个搜索条目,包括关键词、发明名称、国际专利分类编号、类别分类编号、申请编号、发明人、公告编号、优先项目、国家和城市代码、申请日期、公告日期、申请人地址和机构代码,其中申请人、发明人和发明名称是全文搜索。3英国科学文摘光

10、盘数据库(INSPEC Ondisc)是一个机器可读版本的基于书籍的科学文摘,由英国国际教育工程师学会出版。它的信息来自全世界计算机、电子和物理领域的公开文献,涉及4,200多种期刊、1,000多种会议、书籍、技术报告和论文,每年提供250,000条信息。文检数据库中每条记录的描述项包括:论文标题、作者姓名、作者机构、期刊、会议、书籍、报告、论文信息、摘要、分类、描述性词语、自由词语等。同时,提供了分类编号、主题词、自由词、数字索引和化学索引等27个检索条目。光盘检索和收集模式:单用户光盘数据库信息收集模式点对点光盘数据库信息收集模式局域网光盘数据库信息收集模式文件服务器模式/点对点模式广域网

11、光盘数据库信息收集模式电子邮件、文件传输协议、传真、程控电话等。光盘检索和收集的方式和方法:标准化语言检索和收集;非标准化语言检索和收集;标准化和非标准化语言检索和收集的结合;文档外观特征检索和收集;连续出版物的国际标准编号检索;2.全文检索和收集方法,全文检索,一种将文档中的所有文本与检索项目相匹配的文本数据检索方法。全文检索是一种计算机程序,它扫描文章中的每个词,为每个词建立索引,并指出该词在文章中的出现频率和位置。当用户查询时,他根据建立的索引进行搜索,这类似于通过字典的搜索词表来搜索单词的过程。全文检索系统是根据全文检索理论建立的提供全文检索服务的软件系统。在功能上,全文检索系统需要具

12、备建立索引、处理查询和返回结果集、添加索引、优化索引结构等功能。它有索引引擎、查询引擎、文本分析引擎和外部接口。在全文检索中,西方全文检索数据库的索引机制是基于自然语言的词,在它们之前有自然边界的词(用空格标记)是由单音节词组成的。常用的方法有“词典匹配法”、“词频统计法”、“关联词群法”、“建立标记法”、“知识与规则法”和“人工智能法”等。结构:它包括两部分的序贯文档结构:逆文档结构特征:文本客观性/语言自然性/后控词表示/检索彻底性/更大的稳定性、全文检索系统模式、无索引的单汉字全文检索系统。这个系统是一个过程,在这个过程中,可以检查原始文本的每个单词,以便信息人员或用户可以用每个单个单词

13、的搜索条目进行搜索。全文检索系统包括主文档中的标题、作者、文本等字段;在倒档,它包括一个单词和一个地址集,其中地址集由三个元素组成,即文档记录号、添加的字段标识符和单词的起始位置。特点:易于实现,维护方便,检索速度慢,浪费存储空间,召回率和准确率低。例如,为了有效地检索主文档中的信息,通过从主文档中提取一些单词而建立的倒挡、检索过程和全文后控检索系统被设计成建立单词之间的引导关系并使用后控单词来控制系统。词与词之间有从属关系、对等关系和关联关系。控制后词汇是由专家编辑的辅助词汇,由专家定期检查、更新和改进。系统特点:提高召回率和准确率;容易产生歧义,数量大,时间长;a是B和E的同位语,E是B的

14、同位语,B1和B2是B的同义词,F和G是B的相关词或同义词,例如,与信息产业有关的词,词与词之间联系的参考符号:第三,现代信息间谍收集方法,现代信息间谍收集方法,现代信息间谍收集方法的概念,间谍机构派遣间谍,使用现代手段,合法或非法,收集信息的方法是我们国家或我们单位迫切需要的,在竞争对手中有很大价值。现代信息间谍的现状和现代信息间谍盛行的原因是两军必须使用的秘密武器、跨越对手的法宝、达到惊人效果的一流秘密以及现代信息间谍的特点。间谍和工具结合了公开性和隐蔽性,盟友和友军不存在。企业与企业竞争。专家学者派遣政府和人民与生态间谍携手漫游,现代间谍收集信息。秘密方式:高空拍摄/窃取秘密/贿赂和拉拢

15、/引诱漂亮的人/放置在岗位内/威胁和威胁/破译密码/虚假和公开方式:卫星侦察/访问和研究/分析文件/会议交流/出国留学和收集/赠送免费礼物/发表论文/外交活动;4.通过社会调查收集信息的方法是为了满足用户的需求,并从各种社会活动中了解他们的活动。社会调查、一般调查(general survey)的方法:综合收集和分析所收集对象的运动状态、特征和趋势是统计调查的一种重要方式。有自上而下和自下而上的方法,如大规模的全国人口普查/经济普查等。社会调查法,问卷调查:这是一种通过提问和回答问题来收集信息的方法。这是市场调查中常用的有效方法之一。它的特点是准确、可靠和及时。问卷题目的起草应准确、简洁、易于回答和省时。社会调查方法,问卷调查中的常见问题:真或假多项选择题,比较填空题(比较填空/固定距离定量填空),社会调查方法,观察调查:信息人员深入现场后,借助人体感官和现代设备(录音机、录像机、照相机),具体措施有:浏览和查询,播放和混合,寄售和观察,注意和捕捉,社会调查,实验调查:是一种通过营销和直接消费收集信息的方式。方法有:通过营销实验直接消费、社会调查法和跟踪调查:将征求用户对企业产品意见的卡片

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论