信息检索原理和技术_第1页
信息检索原理和技术_第2页
信息检索原理和技术_第3页
信息检索原理和技术_第4页
信息检索原理和技术_第5页
已阅读5页,还剩65页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、信息检索原理与技术信息检索(information retrieval),亦称情报检索,是指将信息按一定的方式组织和储存起来,并根据信息用户的需要找出有关信息的过程。20世纪50年代,美国数学家首先提出。信息检索的全过程包含存储和检索两个过程。存储过程就是按照检索语言(主题词表或分类表)及其使用原则对原始信息进行处理,形成信息特征标识,为检索提供经过整序(即形成检索途径)的信息集合的过程。检索过程则是按照同样的检索语言(主题词表或分类表)及组配原则分析课题,形成检索提问标识,根据存储所提供的检索途径,从信息集合中查获与检索提问标识相符的信息特征标识的过程。 信息存储与检索的原理 信息处理人员原

2、始信息信息分析、著录和标引用户检索课题课题分析检索语言主题词/分类号检索工具检索结果存储过程检索过程信息检索原理检索提问标识与存储在检索工具中的特征标识进行比较,两者一致或信息标引的标识包含着检索提问标识,则具有该标识的信息就从检索工具中输出,输出的信息就是检索命中的信息。检索语言检索语言是信息检索中用来描述文献特征和表达情报提问内容的一种专门人工语言。在信息存储过程中,用它来描述信息的内容和外部特征,从而形成检索标识在检索过程中,用它来描述检索提问,从而形成提问标识当提问标识与检索标识完全匹配或部分匹配时,结果即为检得文献。 检索语言的种类1)描述文献外部特征的检索语言有:题名、著者、出版者

3、2)描述文献内容特征的检索语言有: 主题词、分类号什么是主题词 一般来说,一篇文献都是论及某一方面的特定问题的,也就是说,与论题相关的词出现的频率较大。在文献中出现的频率既不高也不低的词,在文献中约3-20个之间,这些词恰恰是与文献的主题相关度较大的词,我们称之为文献的主题词或关键词。文献中出现频率最高的词是冠词、介词和连词等,即其本身没有具体含义的词,如a、an、the、this、that、or、and、in、on、with等;绝大部分词在文献中出现的频率较低;分类号-体系分类法中国图书馆分类法中国科学院图书馆图书分类法 中国图书馆分类法 5大部 22大类1.马克思主义、列宁主义、毛泽东思想

4、、邓小平理论 2.哲学、宗教3.社会科学A 马克思主义、列宁主义 毛泽东思想、邓小平理论B 哲学、宗教C 社会科学总论D 政治、法律E 军事F 经济G 文化、科学、教育、体育H 语言、文字I 文学J 艺术K 历史、地理4.自然科学5.综合性图书 N 自然科学总论 O 数理科学和化学 P 天文学、地球科学 Q 生物科学 R 医药、卫生 S 农业科学 T 工业科学 U 交通运输 V 航空、航天 X 环境科学、安全科学 Z 综合性图书T工业技术TB 一般工业技术 TD 矿业工程 TE 石油、天然气工业 TF 冶金工业 TG 金属学、金属工艺 TH 机械、仪表工业 TJ 武器工业 TK 动力工程 TL

5、 原子能技术 TM 电工技术 TN 无线电电子学、电讯技术TP 自动化技术、计算机技术 TP1自动化基础理论TP2自动化技术及设备TP3计算技术、计算机技术TP30一般性问题TP31计算机软件TP32一般计算器和计算机TP33电子数字计算机(不连续作用电子计算机)TP34电子模拟计算机(连续作用电子计算机)TP35混合电子计算机TP36微型计算机TP37多媒体技术与多媒体计算机TP38其他计算机TP39计算机的应用TP6射流技术(流控技术)TP7遥感技术TP8远动技术TQ 化学工业 TS 轻工业、手工业 TU 建筑工程 TV 水利工程TF0一般性问题 TF1冶金技术 TF3冶金机械、冶金生产自

6、动化 TF4钢铁冶炼(黑色金属冶炼)(总论) TF5炼铁 TF6铁合金冶炼 TF7炼钢 TF79其他黑色金属冶炼 TF8有色金属冶炼 TF11提炼冶金(化学冶金) TF12粉末冶金(金属陶瓷工艺) TF13真空冶金 TF14电渣重熔 TF15原子能冶金 TF16纤维冶金 TF17卤素冶金 TF18微生物冶金 TF19其他冶金技术 TF121粉末冶金原理 TF122粉末特性及检验 TF123粉末的制造方法 TF124粉末成型、烧结及后处理 TF125粉末冶金制品及其应用 中图法分类号树型结构中国科学院图书馆图书分类法 (5大部共25大类)马克思列宁 主义、毛泽东思想哲学 社会科学历史、历史学经济

7、、经济学政治、社会生活法律、法学军事、军事学文化、科学、教 育、体育语言、文字学文学艺术无神论、宗教学自然科学数学力学物理学化学天文学地球科学生物科学医药、卫生农业科学工程技术综合性图书信息检索基本技术计算机检索式(逻辑表达式): 检索词+有关算符逻辑算符位置算符截词符基本索引字段标识符布尔逻辑检索(boolean logic): 是当今检索理论中最成熟的理论之一,也是构造检索表达式最基本、最简单的匹配模式。布尔逻辑检索是通过布尔逻辑算符来实现的。 布尔逻辑算符定义:表达检索提问的各概念之间的逻辑关系。 逻辑算符有三种: AND (与)、OR(或)、NOT(非) 三种算符可同时在一个检索式中使

8、用,也可单独使用。 这些运算符能把一些具有简单概念的检索词组配成为一个具有复杂概念的检索式,用以表达用户的检索要求。“逻辑与” “AND”用于交叉概念或限定关系的组配,可以缩小检索范围,提高查准率。可使用“*”或“and ” 来表示。其检索表达式为:“A AND B”或“A * B”,即检索记录中必须同时包含A词与B词才算命中。例如: “中国 * 对外贸易”。例如:查找“胰岛素治疗糖尿病”的检索式为: insulin (胰岛素)anddiabetes(糖尿病)例如:查找“关于激光打印机”方面的文献 检索式为: Laser and printer“逻辑或” “OR”用于并列概念的组配,可以扩大检

9、索范围,提高查全率,可使用“+” “or” 来表示。其检索表达式为:“A or B”或“A + B”,即检索记录中含有A词或者B词中的任何一词即可。例如:“高清晰电视 + HDTV” 例如: color or colour“逻辑非” “NOT”用于从原来的检索范围中排除不需要的概念,或影响检索结果的概念。可使用“-”来表示,其检索表达式为:“A NOT B”或“A - B”,即检索记录中包含A词但不含有B词。例如:“能源 - 太阳能”例如:查找“动物的乙肝病毒(不要人的)” 文献的检索式为:hepatitis B virus(乙肝病毒)nothuman(人类)查找有关残疾人相关报道,不需要听力

10、障碍的相关文献disabled NOT deaf注意事项使用逻辑算符时应注意的事项:逻辑算符的优先级为:NOT、AND、OR,可用括号来改变优先顺序。(mouse or mice) and gene在逻辑组配时,算符的两侧必须各留有一个空格。词位置检索 位置运算符(positional operator) 利用布尔逻辑算符对检索词进行逻辑组配时,未限定检索词之间的位置关系,会影响某些课题的查准率并容易造成误检。 利用文献记录中任何有实义的关键词、词组或字符串作为检索词,词与词之间的位置关系可以用位置运算符来表达。位置运算符的使用,进一步强化了对概念的限制,比布尔逻辑运算符更能表达复杂的概念,并

11、避免AND逻辑组配产生的词义含糊或误检。位置算符 (W)、(N)(W):W是with的缩写,表示两个词必须紧挨着,且词序不可颠倒,(W)算符也可用空括号()代替。 例: solar()energy (nw):表示两个词之间可插入n个词,且词序不可颠倒。 例: solar(3w)energy communication(2W)satellite(N):N是near的缩写,表示两个词之间必须紧挨着,但词序任意。 例:fiber(N)optic (nN)表示两个词之间最多可插入n个词,词序任意。 例:fiber(4N)optic位置算符(S)、(F)(S):S为subfield或sentence的缩

12、写,表示两个词必须在记录中的同一个句子中出现,且词序可变。 例:color(S)pigment (F):F为field的缩写,表示两个词必须在记录中的同一个字段(题目,文摘)中出现,且词序可变。例: environment (F) protection表达式 检索结果education(W)school - education school education(1W)school - education school education and music schooleducation(N)school- education school school of educationeducati

13、on(1N)school- education school school of education education and music school school of music and educationeducation(F)school -同时出现在文摘或者题名字段禁用词 在数据库中,下列九个词不能作为检索词使用,这些词称为禁用词。 禁用词有: AN、AND、BY、FOR、FROM、OF、TO、 THE、WITH截词检索 (truncation) 截词符 截词检索在西文数据库中广泛使用。是在词干后可能变化的位置加上使用截词符号。检索词的单复数形式,同一词英、美不同拼法,词根相同的

14、词都可用截词检索。这样既可减少检索词的输入量,又可扩大查找范围,提高查全率。截词符又称通配符,不同的检索系统中使用的符号不同,没有统一标准。通常用 “?”来表示。常用的还有如*、#、&等。按位置分为:右截断(后),左截断(前),中间截断,复合截断等。(1)右截断(后),放在词尾代表任意长度的字符数或没有字符 例如:control? 代表control、controlled、controlling、 controllable 等 (2)中间截断:放在词中间代表一个字符数(中间屏蔽) 例如: wom?n 代表women、woman 等 (3)左截断(前),放在被截词的左边 例如:*magnetic

15、,代表magnetic、thermomagnetic、electro-magnetic等按长度分为:有限截词、无限截词 截词符有“?”、“*”、“!”等,依系统而异,各有所不同。截词符和屏蔽符(以EI数据库为例,其他数据库大同小异) 1.截词符:用“*”作为截词符,有二种用法。 Use truncation (*) to search for words that begin with the same letters. (无限截词)comput* returns computer, computers, computerize, computerizationTruncation can a

16、lso be used to replace any number of characters internally.(中间截词) sul*ate returns sulphate or sulfate2.通配符 “?” 加在单词中间,可以代表1个字符的变化。如:wom?n, 表示women和woman。 Use wildcard (?) to replace a single character. wom?n retrieves woman or women使用截词应注意的几个问题一是截词符要紧接在词干后面,截词符和词干之间不能有空格。二是避免将检索词的词干截得过短,一般应在三个字母以上。三

17、是截词应该使用得合理。一般不可能出现词尾变化的单词,其后不必再使用截词。四是从希望出现的单词中取尽可能多的公共字母作为词干,以提高查准率字段检索 (range searching) 字段标识符 字段检索即指定检索词出现的字段,被指定的字段也称检索入口,检索时,系统只对指定字段进行匹配运算,提高了效率和查准率。西文数据库,字段检索常用代码来表示,如下表所示。常用字段: 篇(题)名字段 TI=Title 文摘字段 AB=Abstract 叙词字段 DE=Descriptor 著者字段 AU=Author 著者机构字段 CS=Corporate Source 刊名字段 JN=Journal 出版年字

18、段 PY=publication Year 文献类型字段 DT=Document Type 语种字段 LA=Language 分类号字段 CC=Classification Code以CNKI数据库为例:1)TI=生态 and KY=生态文明 and (AU % 陈+王 ) 可以检索到篇名包括“生态”并且关键词包括“生态文明”并且作者为“陈”姓和“王”姓的所有文章;2)SU=北京*奥运 and FT=环境保护 可以检索到主题包括“北京”及“奥运”并且全文中包括“环境保护”的信息;3)SU=(经济发展+可持续发展) *转变 -泡沫可检索“经济发展”或“可持续发展”有关“转变”的信息,并且可以去除

19、与“泡沫”有关的部分内容。思考题、pretenting、pretented、fibre 使用截词符、women(非人类的)写出检索式5. environment protection 两词中可以最多加入1个词,两词前后顺序不可颠倒6. 晶体生长:crystal growth,growth crystal, growth of crystal 两个词前后可以颠倒,中间最多加入一个词 计算机检索步骤概念的选取(确定检索词) (1)核心概念的选取:如:“高温超导故障限流器”可提出两个核心概念 高温超导(High Temperature Superconduct 简写HTS)、故障限流器(fault

20、current limiter)如:“数字化图书馆的文献检索服务” 数字化图书馆( digital library )、 文献检索(document retrieval) (2)发掘隐含概念:隐含概念是指课题中没有明确提出,但又与课题密切相关的概念。如“石质文物的保护”,文物、保护是一级概念,石质是二级概念,是对文物的限制。但是这个课题仅以“文物 and 石质 and 保护”作为检索式,是一个意义比较宽泛的检索式。可以将课题分析的深入一些,石质文物受自然界的影响,会发生风化、表面剥蚀的现象,一般采用在文物表面涂层的办法,常用的有两类涂层:有机涂层、聚酯涂层,所以在选取概念的时候应当将涂层、薄膜

21、这样的隐含概念选出。如果对保护材料有特殊的要求,还可以将硅、有机硅或聚酯作为概念提出。石质文物也有不少的下位概念:石楼、石碑、纪念碑、金字塔等。因此检索式可根据具体要求灵活调整。(3)考虑同义词:一个词在英语中往往有多个词与之对应:如“保护”的英文有:conservation, preservation, protection等词。 (4)使用规范的用语:应当使用行业术语、通用的概念作为检索词,尽量不用俗语等非规范词。 (5)排除不必要的概念:如:“利用矿业废渣中的绿泥石、千枚岩烧结制砖的工艺”,其中的“烧结”就是制砖的工艺,是工艺的附加概念,可以不必提出,矿业废渣是一个相对大的概念,在已知原

22、料为绿泥石、千枚岩这样具体成分后,矿业废渣可以不作为概念提出。 (6)使用准确的代码:化学物质登记号、产品代码、德温特专利号等均可作为检索词进行检索。(7)没有实在意义的词不可以做主题词2. 数据库的选择(1)合适的主题范围(2)合适的数据库类型、年度范围掌握数据库资源所覆盖的学科范围掌握各种数据收录文献的类型查看数据库的详细介绍和说明1、中文数据库:CNKI、万方、维普、超星电子图书、国家知识产权局专利网站2、外文数据库: Elsevier、Springerlink、EBSCO 、 PQDD、 DII 、欧洲专利局网站、美国专利局网站等、 Web of Knowledge 、 EI、 Eme

23、rald3、搜索引擎:sina、yahoo、google、百度等。3. 检索策略的制定及调整(1)初步制定检索式使用逻辑算符(AND, OR, NOT)限制检索条件:作者, 刊物或年代. (2)如果检索结果太少,适当调整策略,以扩大检索范围 (3)如果检索结果太多,也要适当调整策略,以缩少检索范围分析检索结果不满意满 意不满意 非目标性结果 重新檢索 检查检索词的拼写 检查检索词的准确性-查阅词典、字典,删 除错误名词 调查被检索的数据库数据库说明、期刊列表确定是否覆盖你所需要检索的主题不满意 结果太多 设定限制条件、特定的检索字段及年代 增加检索名词的准确性查阅工具:主题词表、字典、分类表等

24、 修改检索策略增加使用AND,减少使用OR。 重新檢索 不满意 结果太少检查检索词的正确性、准确性 增加检索词的普遍性查阅工具:主题词表、字典、分类表等 拓宽检索策略减少使用AND;使用OR连接增加的同义词和近义词 增加检索数据库确定其他数据库是否覆盖你所需要的检索主题 重新檢索 其他方法:调整数据库、调整检索年代、调整检索途径(分类途径、主题途径、作者途径、题名途径、 )、调整检索词。是否获得全部所需? 打印、Email或存档是否需要获取全文 ? 对于于全文型数据库,直接可以通过下载全文得到;对于文摘型数据库,可以通过以下途径得到:满 意1、根据原文出处,到图书馆馆藏资源中查找原文2、到图书

25、馆已购买的全文数据库中搜索中文科技期刊数据库、万方学位论文等和中国国家知识产权局专利数据库提供图片格式的原文文件;EBSCO、ELSEVIER等外文数据库大多有论文原文。书生之家、超星等数字图书馆提供图片格式的电子图书3、打开摘要后,查找是否有原文链接4、用“google” 搜索,题目用“ ”做精确检索5、利用文摘信息中作者的EMAIL,直接向作者索取原文6、到图书馆做原文传递 国家科技图书文献中心的文献可以付费从网上传递原 文。 中国国家科技图书文献中心(简称NSTL) ( :/)检索表达式构造实例1、检索计算机网络方面的中文文献2、查找版权中涉及图书馆方面的英文文献3、要检索“计算机辅助设

26、计”方面的英文文献4、检索“上海地区的大学但不包括医学院”5、检索“飞机”方面的英文文献,但不希望文献中出现“直升 飞机”的主题6、检索“美日两国铜质量散热管专利的实证研究”的中文文献7、Gordon 所写的于2000年后发表的所有文献8、查找“微型机”和“个人计算机”方面的英文文章9、查找“计算机动画电影”方面的英文资料10、查找数字化图书馆的文献检索服务方面的英文文献例:检索计算机网络方面的 中文文献检索表达式为: “计算机 and 网络 网络 and 计算机” 两个检索表达式是等价的。表示只要两个检索词是同一文献中出现即可。例: 查找版权中涉及图书馆方面的 英文文献 检索表达式为: Library * copyright Library and copyright例:要检索“计算机辅助设计”方面的英文文献 检索表达式应为: CAD OR “computer

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论