计算机信息检索技术课件_第1页
计算机信息检索技术课件_第2页
计算机信息检索技术课件_第3页
计算机信息检索技术课件_第4页
计算机信息检索技术课件_第5页
已阅读5页,还剩94页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、信息检索教程第2章 计算机信息检索技术1 信息检索的基本概念1.1 信息检索的涵义从广义上讲,信息检索包括两个过程,一是信息存储(information storage),即信息的标引、加工和存储过程:二是信息检索(information retrieval),即信息用户的查找过程。从狭义上讲,信息检索仅指后一部分。信息检索的本质是一个匹配的过程即用户的信息需求和信息存储的信息集合进行比较和选择的过程信息存储和检索过程的基本原理 输出一次信息信息特征检索语言信息特征标识检索结果信息需求检索提问检索提问标识分析标引标引输入检索信息检索系统(工具)存储过程检索过程分析标引(indexing)通过对

2、文献的分析,选用确切的检索标识(类号、标题词、叙词、关键词、人名、地名等),用以反映该文献的内容的过程。主要指选用检索语言词或自然语言词反映文献主题内容,并以之作为检索标识的过程。Indexing一词,音译为引得法或意译为索引法,系指索引的编制技术与方法。现代外语辞典中则说明此词有2解,一指索引法,一指标引。标引是文献加工中的重要环节。标引的质量,对文献的检索效果有直接的决定性影响。 标识(标志)的词义标志”与“标识”,在现代汉语中是等价的。现代汉语词典中,【标识】biozh 同“标志”。 标识的另类应用:信息创新定义信息的新定义与标识传统的信息定义,一直不够完备,关键就是没有更早的启用“标识

3、标志表识”这词。传统经典信息定义,加上“标识”一词,马上就升格为,定义的标版。如,著名维纳的否定式的信息定义(改造前):信息就是信息,信息既不是物质,也不是能量。改造后,逆维纳信息定义:信息就是信息,信息是物质、能量、信息及其属性的标识。2002年Dengs原创的信息定义:信息是事物属性标识的集合。跟随模仿的画蛇定义:信息是事物属性的表征(普适性缩小,添足)。 计算机信息检索是对信息进行收集、分类、标引、著录,并加以有序化组织,将信息储存到计算机存储信息系统中,编制出一个信息检索系统或信息检索工具的过程。1.2 计算机信息检索用户输入检索需求分析转换处理需求数据库检索=概念词的相关匹配运算概念

4、词典控制词表信息源筛选录入分类、词索引文档预处理计算机信息检索的基本原理1.3 信息检索的类型按信息检索的内容划分文献检索 数据检索事实检索概念检索按信息检索的组织方式划分全文本检索多媒体检索超文本检索超文本检索是对每个节点中储存的信息以及信息链构成的网络信息进行的检索。与传统文本的线性顺序不同,超文本检索强调中心节点之间的语义联结结构,靠系统提供的工具进行图示穿行和节点展示,提供浏览式查询,可进行跨库检索。 WWW(1)文献检索Document Retrieval 根据检索(查找)对象的划分为 文献(信息)检索、事实检索和数据检索。 文献检索主要是利用二次文献进行 ,是信息检索中最基本、最重

5、要的类型。 例:系统收集有关“高强度预应力混凝土管桩承载性能”这就需要我们根据课题要求,按照一定的检索标识(如主题词、分类号等),从所收藏的文献中查出所需要的文献。(2)数据检索Data Retrieval 是指查找用户所需特定数据的检索。 利用各种词典、手册、百科全书、年鉴、等参考工具书进行检索,也可以利用专门的数据库进行检索。 例:我国第五次人口普查中全国汉民族的人数。 熔点、电阻系数,计算公式、数据图表,化学分子式等。(3)事实检索Fact Retrieval是将存储于检索系统中的关于某一事件发生的时间、地点、经过等信息查找出来的检索。它回答的问题诸如:“有哪些海外华人得过诺贝尔奖?”

6、工具:字典、词典(dictionary)百科全书(encyclopedia)年鉴(annual, yearbook, almanac)手册(handbook, manual)名录(biography)和书目指南(directory)例:第三届全国ITAT教育工程就业职能大赛项目瑞萨超级MCU模型车大赛的比赛,福建工程学院学生的获奖情况。某同类汽车产品中,哪种牌号的销量练习(判断问何种检索类型) 1、世界上有多少篇关于“飞机材料疲劳断裂问题的研究”的文章等。 2、某种型号飞机的体积、机动性能如何? 3、某高速公路有多长? 4、“ title ”的中文含义是什么?超文本、超媒体一、超文本(hype

7、rtext) 一种全局性的信息结构,它将文档中的不同部分通过关键字建立链接,使信息得以用交互方式搜索。它是超级文本的简称。二、超媒体是超文本(hypertext)和多媒体在信息浏览环境下的结合。它是超级媒体的简称。用户不仅能从一个文本跳到另一个文本,而且可以激活一段声音,显示一个图形,甚至可以播放一段动画。 WebInternet采用超文本和超媒体的信息组织方式,将信息的链接扩展到整个Internet上。Web就是一种超文本信息系统,Web的一个主要的概念就是超文本连接,它使得文本不再象一本书一样是固定的线性的。而是可以从一个位置跳到另外的位置。你可以从中获取更多的信息。可以转到别的主题上。想

8、要了解某一个主题的内容只要在这个主题上点一下,就可以跳转到包含这一主题的文档上。正是这种多连接性我们才把它称为Web。 Web与平台无关 、Web是分布式的 、是动态的交互的2 检索系统 检索系统(retrieval system)是指根据特定的信息需求而建立起来的一种有关信息搜集、加工、存储和检索的程序化系统,其主要目的是为人们提供信息服务。2.1 检索系统的功能模块信息源选择与采集子系统对通常的计算机检索系统来说,信息选择与采集主要由人工完成,但对于网络信息检索系统来说,则主要通过网络搜索机器人Robot自动进行,并且可以定期更新。标引子系统标引处理的类型:人工赋词标引、机器标引、无标引(

9、或全标引);标引要求:不漏标(全面)、不错标(准确)、不滥标(简练)。建库子系统工作流程主要包括数据录入、错误检查与处理、数据格式转换、生成并定期更新各种文档。2.1 检索系统的功能模块词表管理子系统主要功能:管理维护系统中已有词表的结构、词汇,使它与标引、建库、检索等多个子系统相连接;支持用户的各种词汇查询操作;输出各种形式的词汇数据或词表产品等。用户接口子系统一般有5种界面风格:命令/指令语言(command language)、菜单选择(menu selection)、表格填充(form fill-in)、直接操纵(direct manipulation)、自然语言(natural la

10、nguage)。 提问处理子系统检索系统(数据库)的核心,负责处理用户输入的检索词或提问式,并将它们与数据库中存储的数据进行匹配运算,然后把运算结果返回给用户。2.2 文档记录字段 检索系统的基本组织形式由三个层次构成。文档( file ):检索系统至少包括一个顺排文档(sequential files)。有的还包括一个倒排文档(inverted files)。记录(record):文档的基本单元,由若干字段组成的信息单元,是对某一信息实体的全部属性进行描述的结果。字段(field):是记录的基本单元,它是对信息实体的具体属性进行描述的结果。 2.2 文档记录字段 检索系统的基本组织结构关系:

11、数据库 database 文档 file, archive 顺排文档 记录Record 字段Field倒排文档(索引index) 3 检索语言 检索语言(retrieval language)是文献信息标引和检索提问而约定的人工语言。 检索语言是为沟通文献标引与文献检索而编制的人工语言,也是连接信息存储和检索两个过程中标引人员与检索人员双方思路的渠道。 在存储的过程中用于标引信息称为标引语言; 用于编制索引就称为索引语言; 用于信息检索则称为检索语言。3.1 检索语言的种类 分类语言(classification language)是用分类号表达各种概念的检索标识,将各种概念按学科性质进行系统

12、排列,反映科学知识分类体系的检索语言。主题语言(subject language)是直接以表达文献主题的语词作为检索标识,按字顺编排并通过参照系统等方法提示词间关系的检索语言。代码语言(code language)是对事物的某一方面特征用某种代码系统来加以标引和排列的检索语言。例如,根据化合物的分子式这种代码语言,可以构成分子式索引系统,允许用户从分子式出发,检索相应的化合物及其相关的文献信息。自然语言是直接从原始信息中抽取出来的未经规范化处理,用以揭示信息主题概念的检索语言。检索语言的类型描述内容特征语言描述外表特征语言主题语言分类语言代码语言责任者题名其他自然语言受控语言关键词语言(key

13、word) 标题词语言(heading) 单元词语言(uniterm) 叙词语言(descriptor)分类语言分类语言中最常见的是体系分类语言,它按照学科体系由上至下,从总体到局部,由一般到具体,从低级到高级,从简单到复杂 的逻辑次序逐级展开。专利分类表中国科学院图书分类法中国图书馆图书分类法杜威十进分类法 (国外)中国图书馆图书分类法基本部类:1、马克思主义、列宁主义、毛泽东思想、邓小平理论2、哲学3、社会科学4、自然科学5、综合性图书基本大类: (22个) A 马列主义毛泽东思想邓小平理论 N 自然科学总论 B 哲学 O 数理化科学 C 社会科学总论 P 天文学、地理 D 政治、法律 Q

14、 生物科学 E 军事 R 医学、卫生 F 经济 S 农业科学 G 文化、科学、教育、体育 T 工业技术 H 语言、文字 U 交通运输 I 文学 V 航空、航天 J 艺术 X 环境科学 K 历史、地理 Z 综合性图书 中国图书馆图书分类法F 经济F1 世界各国经济概况、经济史、经济地理F11 世界经济、国际经济关系F12 中国经济F13/17 各国经济F2 经济计划与管理F20 国民经济管理F21 经济计划F22 经济计算、经济数学方法F23 会计F239 审计F24 劳动经济F25 物资经济F27 企业经济F29 城市与市政经济F3 农业经济F4 工业经济F7 贸易经济F72 中国国内贸易经济

15、F73 世界各国国内贸易经济F74 国际贸易F75 各国对外贸易F8 财政、金融F81 财政、国家财政F82 货币F83 金融、银行F84 保险 中国图书馆图书分类法 T 工业技术 TB 一般工业技术 TL 原子能技术 TD 矿业工程 TM 电工技术 TE 石油、天然气工业 TN 无线电电子学、电讯技术 TF 冶金工业 TP 自动化技术、计算机 TG 金属学、金属工艺 TQ 化学工业 TH 机械、仪表 TS 轻工业、手工业 TJ 武器工业 TU 建筑科学 TK 动力工程 TV 水利工程图书馆的藏书都是按分类号排架的。分类号的排列采用由左至右逐位对比的方法进行排列,先比较字母部分,再比较数字部分

16、。 字母部分按英文字母固有的次序排列。例: B2中国哲学 B3世界哲学 E27各种武装力量 E512苏联军事 TM92电气化、电能应用 TU201建筑设计原理 分类号中的阿拉伯数字依小数制排列。例: B021辩证唯物主义的物质论 B022辩证唯物主义的意识论 B022.2客观规律性与主观能动性 D035.37交通公安管理 D035.4监察、监督分类号的排列次序分类号的排列次序 (续) 数字之后如还有字母,则在前部类号相同的基础上,再按字母顺序排列。例:TP312AL ALGOL程序语言 TP312BA BASIC程序语言 TP312CO COBOL程序语言 总论复分号“-”要排在数字“0”的前

17、面。例: H-61,H0, H31-61,H310, 总论复分号“-”要排在组配符号“:” 的前面例:H31,H31-62,H31:F,H31:I,H319, H319.4,H319.4-44, H319.4:B,H319.4:C,读者实际利用图书馆时,往往需要知道书刊的分类号和索书号(又称索取号)。索书号是图书馆赋予每一种馆藏图书的号码,是读者查找图书非常必要的代码信息。它的第一部分是分类号,第二部分是书次号。索书号的两部分之间有一个空格或一条斜线“/”。书次号或者是按照图书作者姓名所编排的著者号码,或者是按照图书进入馆藏时间的先后所取用的顺序号码。 不同的索书号确定排列先后顺序的步骤是,先

18、比较分类号码;如分类号码相同再比较著者号码或顺序号码。分类号比较:先英文字母排,后阿拉伯数字按小数制排。分类号中“-”排在0之前,例如:先排F-43再排F0。分类号的数字排列比较采用对位比较法,字符序列以ASCII字符集为依据。比如:B11、B111、B112、B12,书次号的数字排列比较采用自然顺序排列方法,即1,2,3,.,9,10,11,.,99,100,101,。分类号和索书号重新排列以下分类号的顺序TP145.421/E25TP145.421/25TP145.42/74TP145.42/16/(2) TP145-42/34TP145.42/05表示该著作第二版表示我馆收藏的全西文著作

19、图书排列方法例一:TN8/03TN8/05例二TN33TN331图书排列以便于查找例三:1. TN81/032. TN321.1/423. TN115.23/264. TN33/405. TN12/176. TN8/03说出属于哪一类?O12TPH3THTUIB分类实例1、聚乙烯塑钢缠绕排水管 TU823.2-65/2 2、聚乙烯成型技术问答 TQ325.1/8 C社会科学总论D政治、法律E军事F经济G文教、科学、体育H语言J艺术I文学K历史、地理 自然科学总论NRSTO数理化P天文学、地球科学Q生物科学医药、卫生农业科学工业技术U交通运输V航空、航天X环境科学Z综合性图书社会科学自然科学机械

20、、仪表建筑科学 马列主义、毛泽东思想A马列B哲学哲学综合TBTDTETFTGTHTJTLTKTMTNTPTQTSTUTV一般工业技术 矿业工程石油冶金工业无线电、电子学、电讯技术自动化计算化学工业轻工业、手工业金属学武器工业动力工程原子能技术电工技术水利工程主题语言关键词语言是直接选用文献中的自然语言作基本词汇,并将那些能够揭示文献题名或主要意旨的关键性自然语词作为关键词进行标引的一种检索语言。 例如:“国际联机检索概论”中的“国际联机检索”、“国际联机”、“联机”、“检索”都是能描述这篇文献主题的关键词,都可以作为检索词。 标题词语言是最早使用的一种主题语言,它以规范化的自然语义作为标识,来

21、表达信息涉及的主题概念,并将全部标识按字母顺序排列。 例如:一篇文章用“微型计算机”这个术语来叙述它的研究对象,另一篇文章用“微型电脑” 来叙述,第三篇文章用“微机” 来叙述,虽然都表示同一概念,这时就不能直接用“微型电脑”或“微机”来作标题词,这三篇文章都必须用“微型计算机”作标题词(实际上是“主标题词”,根据主题词表决定)。主题语言单元词语言是在标题词语言基础上发展起来的一种规范化检索语言。单元词(uniterm)是一种最基本的、不能再分的词汇单位,亦称元词。它也是从文献内容中抽出,并经过规范化处理,代表一个独立的概念。 例如:“计算机”、“软件”、“固相”、“相”。 叙词语言是以自然语言

22、为基础,以概念组配为基本原理,并经过规范化处理,表达主题的最小概念单元,作为信息存储和检索依据的一种检索语言。只有经过规范化处理,满足一词一义一型要求的词才能称为叙词(descriptor)。 例如:在叙词语言的检索系统中用“计算机”这个词进行检索,即使题名字段没有“计算机”这个词(如有同义词“电脑”)的文章,也可以被检索出来,不必进行同义词替换即可查全。主题语言 主题语言(标题词、单元词、叙词)的规范化处理:词义规范:对同义词(如计算机与电脑)、近义词(如实验与试验)、学名和俗名(如发动机与马达)、不同译名(激光与莱塞)、简称与全称(如中国与中华人民共和国)、不同写法(如X射线与爱克斯射线)

23、等进行选择;对多义词、同形异义词进行限定说明,如杜鹃既表示一种鸟,也表示一种花,就须限定说明为,杜鹃(动物)、杜鹃(植物)。词类规范:即确定词类的范围。能用作叙词的词类一般要求控制在具有实质意义的名词或动名词的范围之内。词形规范:即对词的繁简体、词序、字母符号等的规定。代码语言代码语言是指对事物的某方面特征,用某种代码系统来表示和排列事物概念,从而提供检索的检索语言。 例如:根据化合物的分子式这种代码语言,可以构成分子式索引系统,允许用用户从分子式出发,检索相应的化合物及其相关的信息。自然语言自然语言是直接从原始信息中抽取出来的未经规范化处理,用以揭示信息主题概念的检索语言。抽取出来的词包括自

24、由词、关键词、事物名称、科学术语、俗名、商品型号和缩写等,具有不用编制词表,及时跟上事物发展,准确表达事物新概念,选词灵活方便,专指性强,标引和检索速度快等优点。 例如:如有人输入:how to control drivers of hard disk ,检索系统会自动提取检索词,然后进行过滤和检索 。 注意:Google和专业数据库的检索语言区别。3.2 信息检索的途径 3.2 信息检索的途径 责任者途径 :姓前名后,名缩写; 姓名中的“De”、“Von”、“Della”等前缀,与姓一起按字顺排,如De Leferore, Alfred Von Kampf; 团体机构名称名按名称字顺排。号码

25、途径:号码包括编号(number)、代码(code)等,特定的号码如:技术标准的标准号,专利说明书的专利号,科技报告的报告号,学会的会议论文连续号,或合同号、任务号、国际标准书号(ISBN)、国际标准刊号(ISSN),以及文献收藏单位编的馆藏号、索取号、排架号等,都可以此作为检索点。 4 计算机检索技术 计算机检索技术是指应用于信息检索过程的原理、技术、方法、策略的总称,是检索系统为了提高检索效率,从概念相关性、位置相关性等方面对检索提问进行组配、加权、扩展、截词、邻近、限定的比较和运算处理技术。 常用的计算机检索技术布尔检索技术1邻近检索技术3字段限定检索技术4截词检索技术布尔检索布尔检索(

26、boolean retrieval)是用布尔逻辑算符将检索词、短语或代码进行逻辑组配的一种技术,也是目前最常用的一种检索技术。 逻辑“与”具有概念交叉或概念限定关系的组配,用“*”或“AND”算符表示。检索词A和检索词B用“与”组配,检索式为:A AND B,或者 A * B它表示检出同时含有A、B两个检索词的记录。 逻辑“或”逻辑“或”是一种具有概念并列关系的组配,用“+”或“OR”算符表示。检索词A和检索词B用“或”组配,检索式为:A OR B,或者 AB它表示检出所有含有A词或者B词的记录。 逻辑“非” 逻辑“非”是一种具有概念排除关系的组配,用“”或“NOT”算符表示。检索词A和检索词

27、B用“非”组配,检索式为:A Not B,或者 A-B它表示检出含有A词,但同时不含B词的记录。 截词检索截词检索(truncation retrieval)是指在检索词的适当位置截断,用截断的词的一个局部进行的检索。由于检索词与数据库所存储信息字符是部分一致性匹配,所以又称部分一致检索。由于西文的构词特性:单复数形式不一致、英美拼写不一致 、词干前缀、词干后缀。检索时,计算机会将所有含有相同部分标识的记录全部检索出来。在西文检索系统中,使用截词符处理自由词,对提高查全率的效果非常显著。按截断的位置来分;按截断的字符数量来分。截词符多采用通配符“?”、“$”、“*”等,因此,截词检索有时也称为

28、通配符(wildcard)检索。后截断中截断前截断无限截断如: economic? ?有限截断截词检索与截词检索算符economiceconomicseconomicsteconomicalismeconomiceconomicseconomicst如: economic*如:wom?nwomanwomen一般仅允许有限截断如: ?lish sul*ur sulfur sulphur 无限截断有限截断前后截断如: ?computer?可检出: computer、computers、 computerize、computerized、minicomputer、minicomputers、micr

29、ocomputer、microcomputers 如:?computer对computer和microcomputer等进行检索前截断表示其左边不管截去有限或无限个字符,只要数据库中具有与截词符号后面部分字符串相同的检索词的信息,即为命中信息。例1: Smok?(加任意多个字符 ) 它将对若干词进行检索,包括:smoke,smoky,smoked,smoker,smokes,smokers,smoking,smokeless等等。 例2:Smok?(加有限个?号,n个?号表示其后可添的字符数少于等于n个。 ) 将对smoke, smoky, smoked, smoker, smokes等 后截

30、断中截断如: analy?er它将对analyzer和analyser进行检索中截断是在一词中间出现若干个?号,表示可插入若干个字符,中截断只允许有限截断。但:sulfur 和sulphur,sul*ur代替 邻近检索(proximity retrieval),又称为“位置检索”、“词位检索”、“全文检索”是一种可以不依赖叙词表而直接使用自由词进行检索的一种技术,它以数据库原始记录中词语的相对次序或者位置关系为对象进行组配运算。 邻近检索 (W)与(nW)算符 (W)算符是“With”的缩写,表示此算符两侧的检索词必须按此前后邻接的顺序排列,顺序不可颠倒,而且检索词之间不允许有其他的词或字母,

31、但允许有空格或连字符号。例如:输入gas(W)condensate可检索出包含gas condensate 和gas-condensate的记录。(nW)算符是“nWords”的缩写,表示此算符两侧的检索词之间允许插入n个实词或虚词,但两个检索词的次序还是不能颠倒。例如:laser(1W)printer可检索出包含“laser printer”、“laser color printer”和“laser and printer”的记录。(N)与(nN)算符 (N)算符是“Near”的缩写,表示此算符两侧的检索词彼此必须相邻接,但两个检索词的前后关系可以颠倒, 即查找两个连在一起的单词,但两词之间

32、不能插入任何词。例如:money(N)supply可检索出包含money supply和supply money两个词组的记录。(nN) 算符是“nNear”的缩写,表示此算符两边的检索词之间插入词的最多数目是 n 个,且两个检索词的次序可以任意颠倒。例如:economic(2N)recovery 可以检出包含economic recovery、recovery of the economy 、recovery from economic troubles的记录。(S)算符 (S)算符是“Sub-field/Sentence”的缩写,表示在此运算符两侧的检索词只要出现在记录的同一个子字段内(例

33、如在文摘中的一个句子就是一个子字段),此信息即被命中。要求被连接的检索词必须同时出现在记录的同一句子(同一子字段)中,不限制它们在此子字段中的相对次序,中间插入词的数量也不限。例如,“high(W)strength(S)steel”表示只要在同一句子中检索出含有“high strength 和steel”形式的均为命中记录。 (F)算符 (F) 算符是“Field”的缩写,表示在此运算符两侧的检索词必须同时出现在文献记录的统一字段内,如出现在篇名字段、文摘字段、叙词字段、自由词字段,但两个词的前后顺序不限,夹在两个词之间的词的个数也不限。要求被连接的检索词出现在统一的字段中,字段类型和词序均不

34、限。例如:environmental(F) impact/DE,TI表示这两个词必须同时出现在叙词字段和篇名字段中。字段限定检索使用邻近检索,只能限制检索词之间的相对位置,不能完全确定检索词在数据库记录中出现的字段位置,特别在使用自由词进行全文检索时,需要用字段限制查找的范围。使用截词检索,简化了布尔检索中的逻辑“或”功能,但并没有改善布尔检索的性质。字段限定检索(field limiting retrieval)是用于限定提问关键词在数据库记录中出现的区域,控制检索结果的相关性,是提高检索效果的一种有效检索方法。例如:(minicomputer/DE, TI OR personal comp

35、uter/ID, TI)AND PY=2008 AND LA=English这个检索式所表达的检索要求是:查找2008年出版的关于微电脑或者个人电脑的英文文献,并要求“微电脑”一词在命中文献的叙词字段、标题字段出现,“个人电脑”一词在命中文献的自由词字段出现。 在互联网搜索引擎中,限定字段也是常用的语法。例如, “filetype:”表示在某种文件类型(如doc、pdf)中查找资料。详细的介绍请参见搜索引擎部分。5 信息检索的基本步骤分析检索课题1.主题概念 2.信息类型 3.时间范围 4.检索目的 构造检索式(试验性检索)1.简单提问式2.上下文提问式3.复合提问式4.结构性提问式调整检索策

36、略(正式检索)1,信息量过多时 2.信息量太少时 输出检索结果1.文摘2.全文 选择检索系统1.学科范围 2.系统类型3.系统功能 确定检索词 1.切分2.删除3.替补4.组合5.增加用户评价 1 分析检索课题 例如:查找有关消防的文献。所有的“消防”文献?还是只需有关“消防事业”、“消防队伍”、“消防设施”、“消防材料”、“消防器材”、“消防方案”等中某一方面的文献?(主题分析和检索目的)需要一般的文献资料?还是比较专深的文献?需要科技论文?还是专利、标准、数据等?(信息类型)需要新颖的信息?或者是与别人的研究进行先进性比较?还是系统的学科知识?(时间范围)需要系统地掌握某学科的知识,可以选

37、择图书;需要撰写研究项目的开题报告、论文,开展技术攻关,可以选择研究报告、科技论文、学位论文、会议文献等;需要进行发明创造、工艺改革、新产品设计、引进设备、签订合同,可以选择专利说明书、标准文献、产品资料等。2 选择检索系统 学科范围。对于交叉学科、新兴学科、应用研究、综合研究,不应局限于某一学科范围,可根据情况适当扩大检索系统的学科范围。例如,石油和矿业工程的力学计算方面的课题,也可以考虑数学、物理学、计算机信息科学、机械工程方面的数据库。扩大检索系统的学科范围有时会带来意外的收获。系统类型。首先,在不同的文献类型系统中选择。其次,要在文摘、索引系统和全文数据库系统之间选择。第三,在专业性数

38、据库中去查找。系统功能。一般说来,使用分类语言、主题语言的检索系统,要优于使用自然语言的检索系统,专业检索系统要优于搜索引擎。检索途径、检索方式(如分类浏览、简单检索、高级检索、专家检索、自然语言检索)多,收录时间跨度长,来源语种、国别多,文本(数据)质量高,附加个性化服务,检索系统就更值得选择。3 确定检索词 1切分切分是对课题的语句以自由词为单位进行拆分,转换为检索的最小单元。自由词切分仅适用于自然语言检索。例1:检索“妇女吸烟与肺癌的关系研究”相关文献。直接切分:妇女|吸烟|与|肺癌|的|关系|研究)注意,当词切分后将失去原来的意思时,不应再切分,即必须注意保持意义的完整。如“中国科学院

39、”、“电子邮件”不可再切分。3 确定检索词2删除删除是对自然语言中不具有实质性检索意义的虚词(如介词、连词、副词等),或者使用频率较低的词,或者专指性太高、过分宽泛的词,或者过分具体的限定词、禁用词,或者不能表达课题实质的高频词,或者存在蕴含关系可以合并的词,一律予以删除,使自然语言转换成为关键词和主题词的集合。如上例中的“与”、“的”、“关系”、“研究” 。例2:检索“中国非常规天然气工业的发展前景研究”方面的相关文献。进行拆分以后,工业、发展、前景、研究这四个自由词具有一定的检索意义,但是由于或者是意义过于宽泛、或者是不能表达课题实质、或者是存在蕴含关系的原因,没有必要全部作为检索词,根据

40、需要可以保留1-2个作为检索词。3 确定检索词3替补替补就是在进行切分、删除后,对检索词进行替换和补充。“公交”应替换为:公共交通;“绿色包装”中的“绿色”,应替换为:环保、无污染、可降解;“煤气中毒”应替换为:一氧化碳中毒;“非典”应考虑补充:SARS、非典型肺炎、传染性非典型肺炎、严重急性呼吸综合征(severe acute respiratory syndrome);“非常规天然气”(nonconventional natural gas) 应考虑补充:煤层气、(天然气)水合物、页岩气、深层气、致密岩气、水溶气、沼气,同时考虑将“气”应替换为:天然气(natural gas)、甲烷(me

41、thane)、 CH4 、CH4;含硫气田的“硫”应考虑补充:sulfur、sulf*、sulfur*、sulphur、sulphur *、H2S、H2S,同时考虑将“硫”替换为:硫化氢(sulfured hydrogen)、含硫化合物(sulfur compound)。3 确定检索词4组合 概念相交组合。这个新概念是原来用以组合的两个概念的下位概念,如曲柄连杆机构*发动机=汽车发动机。 概念限定组合。这个新概念可用来表示这一事物的某一属性或某一个方面。如电视机*数字化=数字电视机。 以上两种组配方式,所得到的新概念,都是原组和概念的下位概念,缩小了检索范围,提高了概念的专指度,达到提高检准率

42、的目的。 概念并列组合。具有概念并列关系的自由词间的组配,其结果使概念检索的范围扩大,如环境污染+环境保护=环境污染和环境保护。概念删除组合。是指两个具有上下位关系的自由词间的组合,其结果使概念检索的范围缩小,如信息处理-模拟信息处理=数字信息处理。3 确定检索词5增加增加“限义词”。有两种方法:直接增加限义词、挖掘隐含词、提取潜在的检索词;把限义词以逻辑的方式加入,可采用逻辑“与”或逻辑“非”的方法增加限义词。分析隐含概念。挖掘潜在的主题词还可以通过对上位词、下位词、同类词关系的分析得到其它相关主题词。如例1:“妇女吸烟与肺癌的关系研究”,切分、删除后得:吸烟、肺癌两个检索词,分析、补充上位

43、词可增加检索词:烟、癌症、恶性肿瘤。例3:检索 “一种新的天线阵方向图综合方法”课题。切分:一种|新|的|天线阵|方向图|综合|方法;删除后得:天线阵、方向图;根据主题词表分析,增加上位词可得主题词:互耦、偶极子、输入阻抗等。3 确定检索词从上述四个实例可以看出,提取检索词首先是切分、删除,其次是进行替补、组合和增加。在提取检索词时,若所选的数据库具有规范化词表时,应优先选用该数据库词表中与检索课题相关的规范化主题词(检索词)。4 构造检索式(试验性检索) 所谓的检索提问式(query,search formulation),是信息检索中用来表达用户检索提问的逻辑表达式,主要是使用各种布尔逻辑

44、算符、位置算符、截词符、限制算符以及系统规定的其他组配连接符号将检索词进行组配,确定检索词之间的概念关系或位置关系。 4 构造检索式(试验性检索)简单提问式含一个检索词的提问式;上下文提问式精确短语或近似精确短语的提问式,也可称为短语提问式;复合提问式含有布尔算符和至少2个检索词的提问式;结构性提问式含有2个以上布尔算符和至少4个检索词的多层结构组合的提问式。例4:地震序列分析的工具和方法研究要完成本项检索课题,必须使用结构性提问式:(sequence analysis) WN TI) AND (method* OR tool* OR instrument*) WN All fields) A

45、ND (seismic) WN All fields)。检索式“WN TI”意为限在TI(标题)字段中检索,可提高检索的准确性和相关度。5 调整检索策略(正式检索) 所谓检索策略(search strategy)就是为完成检索课题,实现检索目的,对检索的全过程进行谋划之后所制定的全盘检索方案。检索策略的制定过程就是检索提问式的不断完善的过程,使用最初的检索提问式是试验性检索,使用调整后的完善检索策略提问式是正式检索。 5 调整检索策略(正式检索)1当检索结果信息量过多时原因:选用了多义性的检索词;截词截得过短;输入的检索词太少;应该使用“与(AND)”的使用了“或(OR)”;优先运算符“()”

46、使用错误。考虑缩小检索范围,方法如下:(1)采用专指性强的主题词(主题词表),减少同义词、同族相关词等相关性不强的检索词;(2)增加限制概念,采用“AND” 算符连接检索词或进行二次检索;(3)使用字段限定,把检索词限定在题目、主题词等主要字段;(4)缩短检索年限,限制检索结果的文献类型、语种及出版国;(5)使用“NOT”算符,排除无关概念;(6)调整位置算符,由松变严;(7)改模糊检索为精确检索。5 调整检索策略(正式检索)例5:检索建筑物的windows(窗口、窗户)部分设计方面的文献。检索策略调整为以下检索式:(construction OR building OR architectu

47、r*) WN All fields) AND (window*) WN TI) NOT (microsoft) WN All fields)。例4的检索式在检索英文时是没有问题的,但如果检索中文时仍使用以下检索式:(序列分析) WN TI) AND (方法* OR 工具* OR仪器t*) WN All fields) AND (地震) WN All fields),就会将许多不相关的内容检索出来。因为中文检索词“地震”有两种完全不同的含义:一是英文用“earthquake”,二是英文用“seismic”。因此,正式检索中文资料时,应该调整检索策略,像例5那样使用“NOT”算符,如输入:灾害、损

48、失、伤亡等进行限制。2当检索结果信息量太少时原因:检索词拼写错误;遗漏重要的同义词或隐含概念;检索词过于冷僻具体;没有使用截词算符;位置算符和字段算符使用的过多;使用过多的“AND”算符。考虑扩大检索范围,方法如下:(1)根据词表的分类结构体系扩展关键的检索词,用“扩展”按钮增加同义词和相关词并用“OR” 算符连接这些词;(2)降低检索词的专指度,可从词表或检出文献中选择上位词或泛指词补充到检索式中;(3)减少检索年限、文献类型、语种及出版国的限制,如增加回溯检索年限;(4)取消某些限制过严的字段限制、位置算符限制(或者改用限制程度较小的位置算符)(5)在词干相同的单词后使用截词符(?或*);

49、(6)改精确检索为模糊检索;(7)同时使用拼写正确的词,以及拼写错误的词或存在多种普遍错别字的词作为检索词。5 调整检索策略(正式检索)5 调整检索策略(正式检索)例6:在数据库中检索同时含有草莓、香草和巧克力三种口味的冰淇淋。英文检索式:(ice cream) AND strawberry AND vanilla AND chocolate) WN All fields)。中文检索式:(冰淇淋) AND 草莓 AND 香草 AND巧克力) WN All fields)进行试验性检索后发现,由于中文“冰淇淋”存在多种普遍的错别字,如:“冰激凌”、“冰激淋”、“冰淇凌”等,检索结果极不完整,需要

50、将几种普遍错别字的词作为检索词,并用“OR” 算符连接这些词,进一步调整检索策略。此外,例3也是扩大检索范围提高检索结果查全率的一个典型实例。5 调整检索策略(正式检索)在实施检索时,应及时分析检索结果与检索的内容、目的和要求是否一致,同时根据检索结果的多少对检索策略进行相应的修改和调整,以获得最佳的查全率和查准率,直至得到比较满意的检索结果为止。6 输出检索结果 输出结果一般文摘或全文。 文摘数据库的记录输出方式一般有三种方式:浏览、打印和存盘;输出格式一般有四种方式:“打印格式(format for print)”、“存为文件格式(save to file)”、“输出格式(export)”

51、、“email发送格式(E-mail)”。 全文数据库的输出方式一般也有三种方式:浏览、打印和存盘;输出格式一般有四种情况:(1)HTML文件;(2)PDF文件;(3)图像文件(需安装IE 浏览器插件);(4)数据库专用阅读器文件(需安装数据库商的专用浏览器,如国内的CAJViewer、超星阅览器)。利用计算机进行信息检索的步骤确定检索目标选择数据库编制检索提问式上机检索整理检索结果并对检索效率进行评价 1确定检索目标 要进行信息检索,首先必须确定信息检索的目标,即对信息用户的需求进行具体的分析,这种分析应主要包括以下内容:明确检索的目的 明确用户是要查新、查参考资料还是查询论文被收录或引用情

52、况等,以便对检索的查准、查全和时间范围的指标要求有一个大致的了解,从而制定出符合情况的检索策略。课题分析 对课题内容进行分析,找出核心概念和隐含概念,排除无关的概念,明确概念之间相互的逻辑关系。课题分析直接从项目名称中确定检索概念例1:项目“聚乙烯的合成(synthesis of polyethylene) ”主要概念:聚乙烯、合成(synthesis、 polyethylene )检索式:聚乙烯 and 合成Synthesis and polyethylene课题分析找出隐含概念例2:项目“灌溉用的橡塑多孔管”Rubber-Plastic Porous Pipe For Irrigation橡塑多孔管也称为橡塑渗灌管,其主要原料为橡胶粉(由废旧轮胎制得)和塑料(如粉状聚乙烯)。隐含概念:橡胶、塑料该产品主要用于农林、园艺等方面的灌溉。主要概念:橡胶、塑料、多孔管、灌溉检索式:(橡胶 or 塑料 or橡塑) and 多孔管 and 灌溉课题分析泛指概念具体化例3:项目“唐山综合防灾的研究”由于唐山是一个城市,因此该项目实际上是“城市综合防灾的研究”。该项目针对的主要灾害是地震、洪水和火灾,所采用的研究手段是决策支持系统和专家系统。防灾 地震、洪水、火灾 研究决策支持系统、专家系统主要概念:城市、地震、洪水、火灾 、决

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论