计算机信息检索技术_第1页
计算机信息检索技术_第2页
计算机信息检索技术_第3页
计算机信息检索技术_第4页
计算机信息检索技术_第5页
已阅读5页,还剩90页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第二章计算机信息检索技术

郑州大学信息检索教研室2022/10/181第1节计计算机检检索概述述第2节计计算机信信息检索索系统组组成第3节计计算机信信息检索索的分类类第4节计计算机信信息检索索技术第5节信信息检索索的方法法*第6节信信息检索索的策略略*2020-01-1521.1国内外计计算机信信息检索索发展阶阶段1975年,从国外引引进数据据库开展展机检服服务;1980年,建立国际际联机终终端开展展检索服服务;20世纪80年代中后后期,自自建数据据库;90年代初,,发展光光盘检索索;90年代中期期,Internet网络化检检索阶段段。2020-01-153国外计算算机信息息检索发发展阶段段(P5))脱机检索索阶段(20世纪50-60年代)联机检索索阶段(20世纪60-80年代)光盘检索索阶段(20世纪80年代中-90年代)网络信息息检索阶阶段(1995-))2020-01-1541.2计算机信信息检索索的定义义计算机信信息检索索的实质质就是由计算机机将输入的检索策略略与系统中中存储的文献特征征标识及其逻辑组配配关系进行类比、匹匹配的过程,,需要人——机协同作作用来完成。。信息存贮贮是将文献献、数值值、事实实等按一一定的格格式输入入到计算算机中,,加工处处理成可可供检索索的数据据库。信息检索索是将检索索提问式式按一定定的要求求输入计计算机中中,经计计算机系系统与已已存贮在在计算机机中的数数据库进进行匹配配运算,,然后将将符合检检索提问问的数据据按要求求的格式式输出。。2020-01-1551.3计算机信信息检索索特点检索速度度快,效效益高;;检索功能能强,数数量大;;检索途径径多,手手段灵活活;检索范围围广;服务方式式多。1.4计算机信信息检索索的原理理(P8--11))信息存储储原始信息息信息主题题数据库记记录及信息特征征标识信息检索索信息需求求检索主题题检索提问问式及提问标识识计算机检索结果果主题分析著录标引类比输出主题分析选定编制检索语言言(主题题词表))2020-01-157信息存储储过程信息存储储就是按照照一定标标准,将将收集到到的原始始文献进进行主题概念念分析,用系统统规定的语言(主题词、分类号)进行标引,形成信信息的特征标识识,进行整整理与排排序,构构成可供供检索的的数据库库,主要包括括:信息的采采集、著著录、标标引和整整序等过过程。2020-01-158信息的著著录对所收集集的原始始信息的的外表特征征(如题名、著者、文献出处等)和内容特征征(如分类号、主题词、摘要等)进行行描述,,形成一一条条款款目或记记录的过过程。在数据库库中,其其外表特特征和内内容特征征通常称称之为字段,一条记记录由若若干个不不同字段段构成。。2020-01-159信息的标标引标引:根据一定定的规则则和程序序(主题词典典或词表表),对文文献的主主题内容容进行分分析,给予每每篇文献献主题词、关键词作为存储和检索标识识;或者根根据文献献的学科科归属,,采用某某种文献献资料分分类法,,给予分类号作为检索标识识。2020-01-1510信息检索索过程用户对检索课课题加以以分析,明确检检索范围围,弄清主题概念念,然后用用系统检检索语言言来表示主题概念念,形成检索标识识及检索策略略,输入到计计算机进行检索索。计算机机按照用用户的要要求将检检索策略略转换成一系列列提问,在专用用程序的的控制下下进行逻辑运算算,选出符符合要求求的信息输出出。计算机检检索的过过程实际际上是一一个比较、匹匹配的过过程,检索提提问只要要与数据据库中的的信息的的特征标标识及其其逻辑组组配关系相一一致,则属“命中”,即找到到了符合合要求的的信息。。2020-01-15112计算机信息检索索系统组成成2.1系统设备备硬件:运算器、、控制器器、存储储器、输输入输出出装置等等软件:系统操作作程序、、数据库库管理程程序、联联机控制制程序、、应用程程序等。。通讯线路路:电话通讯讯网、数数据通讯讯网、卫卫星通讯讯网等。。检索终端端:信息用户户与检索索系统主主机进行行人机对对话,实实现联机机检索的的设备。。包括上上网设备备、调制制解调器器等。数据库::是计算机机检索的的对象。。是由一一个或数数个文档档构成,,并能够够满足某某一特定定目的或或某一特特定数据据处理系系统需要要的一种种数据集集合。2.2数据库的的构成一定专业业范围内内的信息息记录及及其索引引的集合合体,是是计算机机信息检检索系统统的重要要组成部部分,是是信息资资源,是检索对对象。一定专业业范围内内的信息息记录及及其索引引的集合合体,是是计算机机信息检检索系统统的重要要组成部部分,是是信息资资源,是检索对对象。构成数据据库的三三大要素素:文档——记录——字段检索时,,计算机机按输入入检索词词的字顺顺先从指指定的倒倒排文档档中找到到相匹配配的索引引词,然然后根据据索引词词后的记记录顺序序号到顺顺排档中中调出相相应的记记录。2020-01-1513文档(File)数据库中中一部分分记录的的集合,文档由若若干记录录构成。。数据库是是由一个个顺排文文档和若若干个倒倒排文档档所构成成顺排文档档是数据库库的主体体,又称称主文档档,按每每条记录的顺序序号大小小排列,,检索结结果都来来自于顺顺排文档档。倒排文档档是从顺排排档中抽抽取有检检索意义义的检索索标识,,如主题题词、著著者姓名名、化学学物质名名、刊名名等,并并按索引引词的字字顺排列列,同时时在检索索标识后后注明入入藏顺序序号,这这就是常常见的数据库中中的主题题词索引引、著者者索引、、刊名索索引。2020-01-15142020-01-1515由若干字段段组成的文文献单元元,是数数据库中中的基本本文献单单元,每条记录录描述了了原始信信息的外部和内部特征征。数据库库中的一一条记录录通常代代表一篇篇文献。。例如:在在书目型型数据库库中,一条记录录相当于于一条题录或文摘;在全文文型数据据库中,,一条记录相相当于一一篇完整的文文献;在其它它类型数数据库中中,一条条记录则则代表一一个信息息单元。。记录越越多,数数据库的的容量就就越大。。记录(Record))2020-01-15162020-01-1517字段(Field)字段是构构成记录录的基本本单元,,是对文文献某一一方面的的特征((包括外外表特征征和内容容特征))进行描描述的结结果。例如:题题名、作作者、作作者地址址、出版版年、来来源(出出处)、、主题词词、文摘摘等字段段是书目目数据库库中必备备字段。。为识别别每一个个字段所所表达的的文献特特征,通通常每个个字段都都有固定定的名称称和缩写写(或称称字段标标识符)),如,,题名字字段的标标识符为为TI,作者字字段的标标识符为为AU等。2020-01-15182.3数据库的的类型**(P3-4)参考(文文献书目目型)数数据库全文数据据库事实数据据库数值数据据库2020-01-1519参考(文文献书目目型)数数据库是指包含含各种数据、信信息或知识的原始来来源和属属性的数数据库;;是机读读的目录、索引和文摘检索工具具,检索索结果是是文献的的线索而而非原文文。存储的是是二次文献献,包括文文献的外外部特征征、题录录、文摘摘和主题词词等。这类数据据库占用用很大的的比例,,其代表表性的数数据库有有《EICompendexPlus》》(工程索引引)、《INSPEC》(科学文摘)和《全国报刊刊索引》等。图书馆提提供的基基于网络络的联机机公共检检索目录录(OPAC)系统2020-01-1520事实数据据库存储的是是用来描描述人物物、机构构、事物物等信息息的情况况、过程程、现象象的事实实数据。。如名人录录、机构构指南、、大事记记、百科科全书、、手册、、地图集集、企事事业名录录、计算算机程序序、音乐乐等,均均可归入入事实数数据库。。例如:中中国咨询询行、国国研网、、万方数数据(中中国企业业、公司司及产品品、中国国科技名名人、中中国科研研机构等等等)2020-01-1521数值数据据库主要包含含的是数数字数据据,如各各种统计计数据、、科学实验验数据、、科学测测量数据据等。气像数据据、地质质资料、、化学或或物理化化合物特特性性的文文献数据据、人口口统计资资料、市市场调研研数据等等。2020-01-1522全文数据据库存储的是是原始文文献的全全文,如如杂志论论文、报报纸新闻闻、法院院案例等等。全文检索索可直接接获取原原始资料料,而不不是书目目检索时时的线索索,提高高了用户户的检索索效率。。如:中国知网网(CNKI)、万方方、维普普、Elsevier等全文数据据库。2020-01-15233计算机信信息检索索的分类类1按信息资资源的存存储形式式分2按信息访访问模式式分3.1按信息资资源的存存储形式式分*(P7--8)(1)全文检检索。以全文数数据库存存储为基基础的检检索方式式,所谓谓全文数数据库是是将一个个完整的的信息源源的全部部内容转转化为计计算机可可以识别别、处理理的信息息单元而而形成的的数据集集合。全文检索索系统对全文数据据库进行词((字)、、句、段段落等深深层次的的编辑、、加工,,同时允允许用户户采用自自然语言言表达,,借助逻辑组配配、截词、邻词匹配配等检索手段段直接查阅阅文献原原文信息息。全文检索索的应用用范围包包括:各种科技技期刊、、专利文文献、新新闻报纸纸、年鉴鉴、百科科、手册册、图书书等全文数数据库,,例如:我我国引进进的OCLC的firstsearch、IEL、SpringerLink、EBSCO等全文数数据库以以及我国国CNKI的中国期期刊全文文数据库库、重庆庆维普的的中文科科技期刊刊数据库库、超星星数字图图书馆、、万方资资源系统统的数字字化期刊刊、学位位论文、、会议论论文等。。2020-01-1525(2)二次文文献检索索*是针对全全文检索索而言,,也就是是分别将将文献的的内部特征征(题名、、分类等等)和外部特征征(作者、、出处、、年代、、ISSN、语言等等)作为为存储和检索的匹配标标识而形形成的数数据集合合,利用用检索系系统的检检索结果果是文献信息息的题录及文摘。学科领域域覆盖面面广,信信息量大大,可以以利用文文献线索索获取到到一次文文献。例如:COMPENDEX、INSPEC、SCI等国外数数据库;;万方数数据的学学位论文文、会议议论文数数据库、、全国报报刊索引引、Calis西文期刊刊目次数数据库等等2020-01-1526(3)多媒体体检索就是把文字、声声音、图图像(形形)等多种信信息的传传播载体体通过计计算机进进行数字字化加工工、处理理而形成成的一种种综合存存储技术术。利用多媒媒体检索索系统可可分别进进行视频检索索、声音检索索、图像检索索。多媒体体信息检检索系统统有着广广阔的应应用前景景,它将将广泛用用于电子会议议、远程程教学、、远程医医疗、电电子图书书馆、艺艺术收藏藏和地球球资源管管理、天天气预报报、时装装设计、、智能群群体决策策、计算算机支持持协同工工作、金金融市场场、军事事指挥系系统、防防汛指挥挥系统等方面。。各大网站站均可进进行多媒媒体信息息的检索索,如:GOOGLE、百度等搜索引引擎、新华社多多媒体数数据库是国内最最大规模模的多媒媒体、多多文种新新闻信息息综合性性数据库库。2020-01-1527(4)超文本本检索超文本(Hypertext)是利用计计算机将将多介质质信息按照一定定的逻辑辑联接关关系加工工、贮存存起来,,构成可可任意连连接的、、有层次次的网状状结构数数据库,,是一种种联想式式的综合合信息管管理系统统。其中的某某些字、符号或短语、图形和图像起着“热链路”(Hotlink)的作用用,在显显示出来来时其字字体或颜颜色变化化或者标标有下横横线、以以区别于于一般的的正文。。当鼠标标器的光光标移到到某个热热链路上上,并且且按了一一下鼠标标键之后后,鼠标标器光标标便沿着着这条链链路跳到该文文件的另另一处或或另一个个文件。。计算机信信息检索索在经历历了传统统信息检检索、全全文文本本检索之之后,随随着多媒媒体技术术的发展展和应用用,出现现目前这这种超文本检检索方式式。可用于于检索人物物、新闻闻、文档档、文艺艺小说、、旅游景景点、绘绘画、古古文物、、生物等内容广广泛的各各种信息息。2020-01-15283.2按信息访访问模式式分(P5))根据检索索方式分分:(1)脱机检索索(2)联机检索索(3)国际联机机检索(4)光盘检索索(5)镜像检索索(6)网络检索索2020-01-1529(1)脱脱机信息息检索是六十年年代发展展起来的的批次检检索,用用户不与与检索系系统发生生直接联联系,只只需把检检索要求求送往检检索中心心,由检检索人员员在计算算机主机机进行文文献检索索的一种种方式。。优点:价格便宜宜,无网网络通讯讯费,检检索费用由用户户平摊,,随机存存储。缺点:一次机会会检索,,检索结结果延误误,委托性检索索。(2)联联机信息息检索联机检索索是用户户利用终终端设备备,通过过通信网网络或通通信线路路与检索索系统联联机,进进行“人人机对话话”,从从检索中中心的数数据库查查找所需需要的文文献信息息过程。。特点:检索的速速度快,,检索结结果可以以得到及时修改改。缺点:检索费用用高。(3)国际联联机检索索*该系统是是70年代出现现的一门门现代化化情报检检索手段段,目前前已发展展到相当当高的水水平,计计算机联联机网络络和检索索终端已已遍及世世界所有有主要国国家和地地区。优点:(1)可以实现现资源共共享;(2)检索速度度快;(3)信息资源源专业化化;(4)查全率和和查准率率较高。。国际联机机检索的的缺点检索费用用高;对检索系系统及其其文档((数据库库)的收收录、标标引、特特点等问问题较难难了解、、熟悉;;检索技术术和技巧巧不易掌掌握2020-01-1533世界上最最著名的的国际联联机检索索系统1、DIALOG系统*是世界最最大的国国际联机机检索系系统1963年,原属属美国洛洛克希德德公司,,系统设设在加洲洲PaloAlto市,1988年转让给给美国Knight--Ridder公司。2000年又转入入DIALOG公司经营营。目前前,该系系统的联联机服务务网遍布布世界70多个国家家和地区区的200多个城市市,共设设有联机机检索终终端25000余台。系统中各各类型数数据库数数量的发发展速度度相当快快,拥有数据据库约900多个,占占全世界界机存总总量的60%,内容涉涉及自然然科学、、社会科科学、经经济、商商业等各各个领域域。2020-01-1535DIALOGWEB系统检索索平台2020-01-1536世界上最最著名的的国际联联机检索索系统2、ORBIT系统:是世界是是第二大大联机检检索系统统,他建建于1965年,总部部设在美美国费吉吉尼亚洲洲的马库库林。提提供专利利、化学学、能源源、市场场、工程程和电子子等方面面的信息息,约有有100个数据库库,占全全世界机机存文献献量的25%。主要提供供补充DIALOG系统而不不是与其其竞争的的数据,,特别是是在专利、、商标和和科技信信息等领域具具有独特特优势。。2020-01-1537世界上最最著名的的国际联联机检索索系统3、BRS系统:内容涉及及医学、、生物科科学、教教育、健健康、物物理和社社会科学学及其它它综合性性学科。。有154个公用数数据库和和40多个私人人数据库库。4、ESA--IRS系统:是欧洲最最大的、、也是世世界第三三大联机机情报检检索系统统,1964年成立于于法国,,1973年迁移至至意大利利,目前前有100多个数据据库。提提供有原原材料价价格、宇宇航及高高技术软软件、美美国化学学数据、、综合性性数据库库等。5、STN系统:由美国化化学文摘摘社、德德国Karlsruhl专业信息息中心、、日本科科技信息息中心联联合开发发的国际际间网络络系统,,约有200多个数据据库:其其中包括括各具特特色的美美、德、、日三国国专利数数据库、、化学全全文数据据库、化化学物质质结构图图形数据据库及部部分医药药数据库库等。2020-01-1538(4)光盘盘数据库库检索光盘:80年代发展展起来的的激光存存储载体体,继纸纸张感光光材料、、磁性载载体之后后问世的的又一种种新型的的信息存存储介质质。能存存储数据据、文字字、图形形、图像像、声音音、动画画等各种种信息。。一张普普通的光光盘、信信息存储储量约为为650兆。光盘的分分类:按存储方方式分为为(1)只读型光光盘:CD-ROM(2)写读光盘盘:WORM(3)可擦写型型光盘::ERM光盘检索索的定义义和特点点定义:是一种用用激光技技术在特特制圆盘盘上记录信息息的检索索方式。特点:(1)投资成本本低;(2)价格低;;(3)运行速度度快;(4)检索效果果好;(5)下载方便便;(6)安全性能能高。光盘检索索的系统统组成单机光盘盘检索系系统组成成:(1)数据库::光盘(2)软件:系系统软件件和检索索软件(3)硬件:计计算机、、光盘驱驱动器、、显示屏屏、打印印机等网络光盘盘检索系系统组成成:(1)光盘塔(2)光盘组网网软件(3)光盘塔服服务器(5)镜像数数据库检检索*镜像:最原始的的含义是是在镜子子里看到到的你自自己的像像,在IT界中,将将“镜像像”这个个词的含含义进行行了扩展展,指的的是完全全一样的的两个东东西。镜像数据据库:就是将光光盘版、、网络版版数据库库或主网网站资源源的数据据复制到到不同的的地理位位置(某某地或本本地)的的镜像服服务器上上,成为为该服务务器的镜镜像数据据库,并并为网络络用户提提供检索索服务。。目的是分分担访问问流量;如,CNKI、维普、、万方数数据、超超星等2020-01-1542通过计算机网网络系统统可以连接接世界上上各种公用数据据库和商用数据据库,可以帮帮助用户户获取希希望得到到的信息息。网络化信信息检索索系统的的特点是是:一般基于客户户机/服务器,客户与服服务器是同等关系系,只要遵循循共同协协议(TCP//IP协议是目目前最成成功的网网络体系系结构和和协议规规范),一个服服务器可可被多个个客户访访问,一一个客户户可访问问多个服服务器。。网络的用用户数量量不受到到限制,,它是一一个开放放系统而而不是封封闭式系系统网络化信信息检索索将在全全球范围围内实现信息息资源共共享,全球网络是信息存贮与检索进一步发展的方方向。常见检索索有:GOOGLE、百度、、多媒体体、咨询询行及所所有的外外文数据据库(6)网络数数据库检检索*2020-01-15434计算机信信息检索索技术*(P11)1.布尔逻辑辑检索2.截词检索索3.位置运算算检索4.字段限定定检索4.1布尔逻辑辑检索*(P11)布尔逻辑辑检索(Booleanlogical):是用布尔逻辑辑算符将检索词、短语或代码进行逻辑组配配,指定文献献的命中中条件和组配次序序,凡符合逻逻辑组配配所规定定条件的的为命中文献,否则为非命中。布尔逻辑辑运算符符:在检索过过程中用用于表达词与与词之间间的逻辑辑关系的的算符。分为三三种逻辑辑关系::逻辑与与(AND)((*)、逻辑或或(OR))(++)、逻辑非非(NOT)(——)表示。逻辑与AANDB:检索词词A和检索词词B同时出现现在一条条记录中中,例如如:汽车和飞机发动机。其作用是是缩小检检索范围围,提高高查准率率。A=汽车发动动机B=飞机发动动机汽车与飞飞机发动动机ABAandB逻辑“与与”运算算2020-01-1546逻辑或((OR)AORB:记录中中出现检索词A或检索词B或两词同同时出现现在一条条记录中中。其作用是是扩大检检索范围围,提高查全全率汽车发动动机或飞飞机发动动机AB逻辑“或或”运算算2020-01-1547逻辑非((NOT)ANOTB:记录必必须包含含检索词A但不能包含含检索词B。即在含含有A检索词的的文献中中去除含含有B检索词的的文献。。其作用是是缩小检检索范围围,提高查准准率。A汽车发动动机汽车、飞飞机发动动机飞机发动动机BAnotB逻辑“非非”运算算2020-01-1548布尔逻辑辑算符的的运算次次序用布尔逻逻辑算符符组配检检索词构构成的检检索提问问式,逻辑算符符AND、OR、NOT的运算次次序,在不同的的检索系系统中有有不同的的规定。在有括号号的情况况下,括号内的的逻辑运运算先执执行。在无括号号的情况况下,有下列几几种处理理顺序:NOT最先执行行,ANND其次次执行,,OR最最后执行行。AND最最先执行行,NOOT其次次执行,,OR最最后执行行。OR最先先执行,,ANDD其次执执行,NNOT最最后执行行。按自然顺顺序,AAND、、OR、、NOTT谁在先先就先执执行谁。检索时,,要事先先了解检检索系统统的规定定,避免逻辑辑运算次次序处理理不当而而造成错错误的检检索结果果。因为,对对同一个个布尔逻逻辑提问问式,不不同的运运算次序序会有不不同的检检索结果果。2020-01-15494.2截词检索索截词检索索就是把检索词词截断,,取其中中的一部部分,在在加上截截词符号号一起进进行检索索。主要要用于检检索词的的单复数数、词性性的词尾尾变化、、词根相相同的一一类词,,以及同同一词的的拼法变变异等。。常用的截截词符有有:“?””、“**””、“$”、“#”截词的作作用:采用截词词检索表表达式,,既能防防止漏检检,又能能节省时时间,能能有效提提高检索索效率。。截词符的的使用::利用截词词检索时时,注意意截词的的部位,,一定不不能截的的太深,,否则误误检率会会很大。。2020-01-1551截词方法法无限截断断:即该词根根后可跟跟任何字字符,且且字符数数不限;;如:child*,,可查到child,children,childish,childhood等所有以以child开头的单单词。如:coumput?,可检出出Compute,Computer,Computing,computable有限截断断:即该词根根后至多多可跟n个字符,,如需要要n个有限词词符截词词,请输输入n个?即可;如,输入入stud????表示截3个字母,,可检出出带有study、studies、studing等的文献献。中间截断断:又称前后后方一致致,允许许检索词词中间有有若干变变化。如,wom??n可以检索索出:woman,women2020-01-15524.3位置运算算检索位置算符符:表示其连连接的两两个检索索词之间间的位置置关系,不不同的系系统有不不同的位位置算符符,以DIALOG系统为例:(W)与(nW))算符—with的缩写。。表示其其连接的的两个检检索词必必须按序序出现,,中间不不允许插插词,只只能有一一空格或或标点、、符号。。如:high(W))class(N)与(nN))算符—near的缩写。。表示其其连接的的两个检检索词的的顺序可可以互易易,但两两词间不不允许插插词。(nN))中的n表示允许许插词量量少于或或等于n个。如:internet(N)accessing命中记录录中匹配配词可能能有:internetaccessing,,accessinginternet。(S)算符—Subfield的缩写。。表示其连连接的两两个检索索词必须须出现在在同一子子字段中中。子字字段是指指字段中中的一部部分,如如一句句句子,一一个词组组、短语语。字段段不限,,词序不不限。如:silicon(S))sensor命中记录录出现的的匹配情情况如::Avacuummagneticsensor(VMS)usingasiliconfieldemittertipwasfabricatedanddemonstrated.(F)算符—Field的缩写。。表示其连连接的两两个检索索词必须须出现在在同一字字段中,,字段不不限,词词序不限限。2020-01-15544.4字段限制制针对特定定年代、、特定类类别、特特定检索索点等作作限制,,包括前前缀限制制符和后后缀限制制符后缀限制制符例如如:/TI限在题目目中查/AB限在文摘摘中查/DE限在叙词词标引中中查前缀限制制符例如如:AU=限查特定定作者JN=限查特定定刊名LA=限查特定定语种PN=限查特定定专利号号PY=限查特定定年代2020-01-15555信息检索索的方法法检索方法法是指查查寻文献献信息的的具体方方法。选选择科学学有效的的检索方方法,对对广、快快、精、、准地获获取文献献信息,,提高检检索效率率,是非非常重要要的。文文献的检检索方法法主要有有以下几几种类型型。2020-01-15565.1.直查法法是指直接接从有关关的一次次文献中中获取所所需信息息的检索方法。。利用直查查法虽然然可以较较快地获获取最新新文献,,能切实实地掌掌握文献献内容和和实质,,但面对对大量的的、无序序的文献献,存在在着很大大的盲目目性、分分散性、、偶然性性,很难难查全,,费工费费时。许多文献献用户都都有利用用直查法法的经历历,在长长期实践践中也摸摸索出一一定的经经验。2020-01-15575.2.追溯法法是指利用用引文关系系获取所需需文献信信息的检检索方法法。被引用的的参考文文献多出自知知名作者者的论文文、专著著,所以以通过追溯法检索到的的文献大大都具有较高的的学术价价值。但是被被引用的的文献在在全部发发表的文文献中只只占少数数,有些些引文与与作者所所写著作作的主题题关系也也不大,,所以追追溯法会会漏检和误误检。追溯法有有两种情情况(1)由新及及旧的追追溯法。当查到一一篇适用用文献后后,根据据其后面面所附的的引文、、注释等等,向前前追溯出出一个专专题的文文献,再再根据检出出文献提提供的线线索(参考文献献),继续追追溯。如此一一环扣一一环地扩扩检,有有可能找找到一系系列对口口文献。。这是一一种人们们常用的的方法,,比较方方便,但但文献信息息越检越越旧。(2)由旧及及新的追追溯法。。一篇有价价值的论论文被谁谁引用过过?评论如如何?有有否发展展?有否否更新??利用引文文索引便可解决决这个问问题,而而且检索的文文献越来来越新。。2020-01-15585.3.工具法法是指利用用一定的的检索工具具或检索系统统获取所需需文献信信息的检检索方法法。这是科学学的正规规的文献献信息检检索方法法,它节约检检索时间间,获取取文献全全面。工工具法在在具体应应用时还还可分为为以下三三种方式式:顺查法倒查法抽查法2020-01-1559顺查法这是一种种以课题题起始年年代为起起点从远远到近按按时间顺顺序的查查法。顺顺查法适适应于主主题复杂杂,研究究范围较较大,研研究时间间较长的的课题。。2020-01-1560倒查法倒查法又又称逆查查法,与与顺查法法相反。。这是利用选定定的检索索工具,由近而远的的按时间间逆序的的查法。逆查法法适用于于新兴的的学科或或课题。。2020-01-1561抽查法抽查法就是针对对学科发发展特点点,抓住住该学科发展展迅速及文献发表表较多的年代,,抽出一段段时间再再进行逐逐年检索索的方法法。使用这这种方法法检索效效率较高高,但必必须在熟熟悉学科科发展特特点的情情况下才才能使用用。2020-01-15624.综合法法综合法,,又称循环法,是指将将直查法、、追溯法法、工具具法综合运用用的检索索方法。。综合法法在具体体应用时时还可以以分为以以下三种种方式::交替检索索分段检索索间隔检索索2020-01-1563(1)交替检检索。在检索某某个课题题的文献献时,同同时交互互使用不不同的检检索方法法。例如,某某人在接接受了某某个课题题后,首首先利用用直查法在核心期刊刊中查到到两篇文文章,再根据据其后所所附参考文文献利用追溯法检索出一一批文章章,而后发发现一位位著者的的文章被多次引引用,他又利利用工具法从某专业业性检索索工具的的累积著著者索引引中,检检索出这这位著者者关于该该课题的的数篇有有价值文文章。2020-01-1564(2)分段检检索。即在检索索某个课课题的文文献时,,不同阶阶段使用用不同的的检索方方法。例如,某某人在接接受了某某个课题题后,首首先利用用倒查法对该课题题的文献献进行了了全面检检索;当当课题进进行到中中期时又又利用抽查法检索了近近期有关关该课题题的文献献;在课课题即将将完成时时还利用用追溯法对他在课课题进展展中发表表的有关关文章进进行了检检索,以以调查社社会上对对该课题题的反映映。2020-01-1565(3)间隔检检索。由于引用用文献有有一个规规律,就就是最近近五年之之内发表表的重要要文献一一般都会会被近期期文献所所引用。。所以在在利用检检索工具具检索相相关文献献时,可可以间隔隔五年分分段进行行。2020-01-1566第6节信息息检索的的策略信息检索索是一项项实践性性很强的的活动。。俗话说说:“熟熟能生巧巧”,只只有在较较长期的的检索活活动中舍舍得花气气力,才才能逐步步掌握检检索规律律,使自自己成为为信息的的主人。。文献信息息检索过过程,是是根据课题题的要求求,使用一定定的工具具,按照可行行的步骤骤、方法法、途径径,查寻寻文献线线索或事事实、数数据,获获取所需需信息的的过程。。手工检索索与计算机检检索在步骤与与方法上上有共性性,但也也各有特特点。2020-01-15676.1信息检索索步骤**分析课题题,确定定检索目目标选择检索索词,制制定检索索策略选择数据据库上机检索索及调整整检索策策略输出和分分析结果果2020-01-1568

明确检索索的目的的明确用户户是要查查新、查查参考资资料还是是查询论论文被收收录或引引用情况况等,以以便对检检索的查查准、查查全和时时间范围围的指标标要求有有一个大大致的了了解,从从而制定定出符合合情况的的检索策策略。课题分析析对课题内内容进行行分析,,找出核心概念念和隐含概念念,排除无无关的概概念,明明确概念念之间相相互的逻逻辑关系系。1、分析课课题,确确定检索索目标2020-01-1569具体可从从以下几几方面着着手:(1)分析主主题内容容。通过主题题分析,,形成检检索需要要的主题题概念,,以便确确定检索索途径。。(2)分析课课题所涉涉及的内内容及学学科范围围,以便确确定有关关检索标标识(分分类号))及选择择合适的的检索工工具或检检索文档档。(3)分析课课题所需需信息的的类型,包括文文献媒体体、出版版类型、、所需文文献量、、年代范范围、涉涉及语种种、有关关著者、、机构等等。2020-01-1570(4)确定课课题对查查新、查查准和查查全的指指标要求求。若要了解解某学科科理论、、课题、、工艺过过程等最最新进展展和动态态,则要要检索最近近的文献献信息,强调“新新”字;;若要解决决研究中中某具体体问题,,找出技技术方案案,则要要检索有针针对性、、能解决决实际问问题的文文献信息息,强调“准准”字;若要撰写写综述、、述评或或专著等等,要了了解课题题、事件件的前因因后果、、历史和和发展,,则要检索详尽尽、全面面、系统统的文献献信息,强调“全全”字。2020-01-15712、选择检检索词、、制定检检索式(1)检索词词:是表达文文献信息息需求的的基本元元素,是是计算机机检索系系统中有有关数据据库进行行匹配的的基本单单元。具具体说::对课题进进行主题题分析,,掌握课课题的内内容实质质,找出出最能代代表主题题概念的的若干检检索词。(2)检索式式:就是指计计算机信信息检索索系统中中用来表表达检索索提问的的逻辑表表达式,,由检索词和各种运算符及系统规规定的其它组配配符构成。2020-01-1572(1)该词的的所有拼写形式式和方法((包括同义词,元素和元素符号、缩写和全称等)(2)该词的的广义词词、狭义义词、相关词及多义词等。(3)确定检索词和词的截断断部位,调整词之间的的位置关系系及组配关系。(4)对于泛指的主题概概念词,,应选用用其包容容特性的具体内容容来表达。。选择检索词应注意问问题2020-01-1573制定检索索式合理运用用逻辑运运算符构构造检索索式。符号的使用一一定要正正确、符合概念念逻辑,并力求求简洁、优优化,还应注注意运算符的优先级和括号的使用。。例如:纤维混凝凝土与既既有混凝凝土粘结结性能及及施工技技术1.(纤维混凝凝土+新混凝土土)*(既有混凝凝土+老混凝土土)*粘结*(剪切+劈拉+抗渗+抗冻+断裂+收缩)2.((fiberornew)(2w)old((3w))concrete???(7n)((bond???????oradherenceoradhesi???)and(shear?????orsplit???????orcleavageorfractureorruptureorshrinkageorcontractionorfrostorfreez?????orpermeability)2020-01-15743、选择数数据库或或检索工工具根据检索索目标,,确定检索目的的、涉及的的学科范围围和信息类型型,选择合适的数据库。具体选择择过程中中还应考虑数据库的的类型(参考、、全文还还是电子子期刊))、内容(专利、、标准、、会议))、收录录的数据据学科范围围、数据库库的更新新周期,,收录文文献的语种等因素。。例如,要要看全文就要选用用全文数据据库或电子期刊刊;要查标准或专利就要选择择标准库或专利库2020-01-15754.确定检检索途径径进行信息息检索时时,总是是以文献献的某种种特征作作为出发发点,按按一定的的途径进进行的。。一般地地说,文献的内内容特征征和外表特征征都可以成成为检索索的出发发点。4.1内部特征征途径(根据课课题内容容特征查查找有关关文献资资料)与文献信信息主题题内容密密切相关关的检索索标识称称为文献献信息的的内部特特征。表达文献献信息内内容特征征的检索标识识主要有各各种形式式的主题词和分类号。文献内容容特征的的检索途径径包括:分类途径径、主题途径径(标题、、关键词词、主题题词、文文摘、全全文)2020-01-15764.2外部特征征途径与文献信信息主题题内容没没有关系系或关系系不大的的信息称称为文献献信息的的外表特特征表达文献献外部特特征的检索标识识有:著者、著者单位位、文献出处处、专利号、报告号等。1)题名途途径:根根据文献献题名来来检索文文献的途途径2)作者途途径:根根据已知知作者姓姓名查找找文献的的途径3)文献出出处:根根据期刊刊名称、、年、卷卷、期号号途径2020-01-15775、实际检检索调整整检索策策略在手工检检索条件件下,通过手翻翻、眼看看、思考考作出判判断,寻寻找相应应的分类类号、主主题词、、著者姓姓名、代代码等,,浏览其其中著录录的文献献,选出出对口文文献。在计算机机检索条条件下,,需输入检检索逻辑辑表达式式,由计计算机进进行查找找和扫描描,并打打印或显显示出命命中结果果。联机检索索时,需要在终终端呼叫叫通讯线线路,用用口令字字表明自自己是合合法用户户,进入入检索系系统并开开始检索索对话。。在这些些过程中中都需要要使用检检索系统统认可的的“检索索指令””。2020-01-15785、实际检检索及调调整检索索策略检索后通通过查看看文献检检索结果果数量的的多少或或相关程程度的高高低,可可以评价价检索策策略的好好坏。通常情况况下,需需要多次次修改检检索策略略,直到到检索结结果满意意为止。。在实际检检索中,,当放宽宽检索以以提高查查全率时时,就会会降低查查准率;;反之,,当缩小小检索范范围以提提高查准准率时,,就会降降低查全全率。因因此要正正确分析析误检、、漏检原原因,及及时调整整策略。。2020-01-1579调整检索索策略的的具体方方法扩大检索索范围的的措施降低检索索词的专专指度,,可从词词表或检检出文献献中选择择泛指词词。调节检索索式的网网罗度,,如删除除某个不不重要的的检索词词。进行族性性检索,,可用分分类号或或用OR连接一组组同义词词和近义义词。取消某些些限制过过严的限限制符。。2020-01-1580缩小检索索范围的的措施提高检索索词的专专指度。。增加AND连接,进进一步限限定主题题词。把检索词词限定在在主要字字段,如如标题字字段、主主题词字字段等。。缩短检索索年限,,或限定定某些刊刊物。2020-01-15816、输出和和分析结结果检索完成成后,采采用一定定的输出出方式((套录或或打印))和格式式输出检检索结果果。各个数据据库提供供了多种种输出格格式,每种格式式能得到到的文献献内容特特征和外外表特征征都不一一样,一一般情况况下,文文献检索索中篇名、作作者、出出处、文文摘等字字段是不可缺缺少的,,因为这这些字段段有一定定的参考考意义。。结束检索索后,对对结果进进行分析析,也是是完整检检索过程程中不可可缺少的的一步,,有助于于提高检检索质量量。2020-01-15826.2实例:广播、电电视在网网络传播播中的采采集技术术主题概念念:广播播、电视视、网络络技术主题分类类:G文化、科科学、教教育、体体育(中图法)G0文化理论论G1世界各国国文化与与文化事事业G2信息与知知识传播播G20信息与传传播理论论G21新闻学、、新闻事事业电电子技术术及信息息科学——新闻与传传媒——信息与传传播理论论,新闻闻学、新新闻事业业,广播播电视注意:不不同的检检索工具具或数据据库有不不同的分分类主题条件件:网络络主题要求求:方法法、手段段、内容容等2020-01-1583检索词::广播、、电视视;传播播、、传媒;;网络、、采集、、传输检索式::(广播OR电视)and((传播OR主传媒)and(网络)and((采集OR传输)途径:电子技术术及信息息科学——新闻与传传媒检索工具具:中国期刊刊全文数数据库2020-01-1584检索结果果:1、题名::手持电视视传播模模式与运运营模式式分析作者:靳靳一;单位清华华大学文文化产业业研究中中心北北京100084刊名:河河南社会会科学年年2007期022、题名::基于NDK的数字电电视传输输流(TS))网络采集集系统作者:陈陈耀华;单位广州州大学信信息与机机电工程程学院,刊名:世世界电子子元器件件年年2007期053、题名::浅议数字字电视的的网络传传输技术术

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论