计算机检索基础(3)_第1页
计算机检索基础(3)_第2页
计算机检索基础(3)_第3页
计算机检索基础(3)_第4页
计算机检索基础(3)_第5页
已阅读5页,还剩86页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、计算机信息检索 “信息爆炸” 文献巨增文献巨增 手检手检 机检机检 利用计算机对信息和数据的高速处利用计算机对信息和数据的高速处理能力来实现信息的存储与检索。理能力来实现信息的存储与检索。计算机信息检索 用户利用数据库获取所需信息的过程。 即:计算机将输入机检系统的用户提问标识(检索词)与已存贮在系统中数据库内的文献特征标识(标引词)进行匹配比较,凡符合给定的比较原则和逻辑运算条件者即为命中文献。计算机检索的历史1.脱机检索阶段(1954-1964)2.联机检索阶段(1965-)3.网络检索(1972-)4.光盘检索(1985-)5.最新发展脱机检索:定期由专职检索人员把许多用户课题汇总,批量

2、处理提问要求,并把结果提供给用户。直接在计算机旁检索,不需要远程终端设备及通信网络。用户在计算机处理成批检索课题之后才知道检索结果,不能直接、及时修改检索策略,查全率和查准率受到一定限制。联机检索 用户在计算机检索系统的终端上,通过通信网络,使用特定的指令和算符,以人机对话方式,查询远程计算机检索系统核心的数据库,从中获取所需信息的计算机检索系统。光盘检索 以光盘为介质的光盘数据库检索系统优点:一次购买,无限制使用,不必考虑检索时间,适用于通信不发达,联网较困难的地区,是联机检索、网络检索的有效补充。 局限:数据更新有一定的周期,时效性、灵活性比不上联机检索;目前光盘数据库容量有限,一般是按专

3、业和领域建库,收录范围不够广泛;适用对象的局限性,因为一次性购买费用高,对使用频率不高的单位或个人来说成本较高;设备和软件的兼容性较差,各种光盘数据库检索系统目前还难以实现标准化和统一化。网络检索 是通过标准通信方式将世界各地的计算机网络连接起来,形成一个基于客户机-服务器模式的网络分布数据库结构。它在全球范围内把科技信息、商贸信息、经济信息、时事新闻以及日常生活信息通过互联网络合在一起,向亿万联网用户提供广泛的信息检索与服务。它是信息化社会应用最广泛、最活跃的领域。 全文文本、多媒体、多载体、跨平台等新型信息检索发展; 在深度上提高管理和组织信息的能力,如探索自动抽词、自动索引、自动检索、自

4、动文摘、自动分类、Web检索智能代理、数据挖掘、自动翻译等; 信息资源的网络化存储和分布式存储.计算机检索的最新发展计算机检索特点检索软件类型指令型指令型通过直接输通过直接输入指令进行入指令进行检索检索菜单型菜单型通过屏幕菜通过屏幕菜单引导完成单引导完成检索。检索。指令检索示例工程索引EI专家检索“Solar energy” wn TI ANDenglish wn LA 菜单检索示例数据库数据库定义数据库定义数据库结构数据库结构数据库类型数据库类型数据库定义相互关联的数据在计算机外存储器上有相互关联的数据在计算机外存储器上有序的集合序的集合. .数据库结构 数据库数据库文档文档文档文档记录记录

5、记录记录记录记录记录记录题名字段题名字段作者字段作者字段刊名字段刊名字段地址字段地址字段题名字段题名字段刊名字段刊名字段地址字段地址字段作者字段作者字段主题词字段主题词字段关键词字段关键词字段主题词字段主题词字段关键词字段关键词字段文档(File)数据库中一部分记录数据库中一部分记录的集合的集合 综合性数据库综合性数据库多按学科划分文档多按学科划分文档记录(Record)数据库的基本信息单元,每条记录都描述了原数据库的基本信息单元,每条记录都描述了原始信息的各项外表特征和内容特征。始信息的各项外表特征和内容特征。字段(Field)组成记录的数据项组成记录的数据项( (检索项检索项) ),一个字

6、段代表一,一个字段代表一项特征。项特征。文档记录字段字段名称及代码基本字段基本字段: 文摘(文摘(AbstractsAbstracts) 题目(题目(Title )Title ) 主题词(主题词(DescriptorDescriptor) 辅助字段辅助字段: 作者作者 (AuthorsAuthors) 作者单位(作者单位(Corporate SourceCorporate Source) 刊名(刊名(Journal NameJournal Name) 年代(年代( Publication Year Publication Year ) 数据库类型 文献数据库文献数据库数值数据库数值数据库事实数

7、据库事实数据库多媒体数据库多媒体数据库 文献数据库书目数据库书目数据库全文数据库全文数据库 存储描述如目录、题录、文摘等书目线索的数存储描述如目录、题录、文摘等书目线索的数据库,又称据库,又称二次文献信息数据库二次文献信息数据库。如各种图书馆目。如各种图书馆目录数据库、题录数据库和文摘数据库等属于此类,录数据库、题录数据库和文摘数据库等属于此类,它的作用是为用户指出了获取原始信息的线索。它的作用是为用户指出了获取原始信息的线索。如如: :馆藏书目馆藏书目,SCI,EI,CPCI,SCI,EI,CPCI等等书目数据库 存储原始信息全文存储原始信息全文或主要部分的一种源数据库。或主要部分的一种源数

8、据库。如期刊全文数据库、专利全文数据库、百科全书全如期刊全文数据库、专利全文数据库、百科全书全文数据库,用户使用某一词汇或短语,便可直接检文数据库,用户使用某一词汇或短语,便可直接检索出含有该词汇或短语的原始信息的全文。索出含有该词汇或短语的原始信息的全文。 如如CNKI,VIP,CNKI,VIP,万方全文库万方全文库全文数据库 存储以数值表示信息为主的一种数据存储以数值表示信息为主的一种数据库。如各种统计数据库、科学技术数据库等。库。如各种统计数据库、科学技术数据库等。数值数据库除了一般的检索功能外,还具有数值数据库除了一般的检索功能外,还具有准确准确数据运算功能、数据分析功能、图形处数据运

9、算功能、数据分析功能、图形处理功能及对检索输出的数据进行排序和重新理功能及对检索输出的数据进行排序和重新组织组织等方面的功能。等方面的功能。 数值数据库 年鉴检索检索2006年高等学校博士生硕士生授予学位的人数 事实数据库存储事实性信息。中国大百科全书网络版多媒体数据库同时存储声音、图像、文字等的超文本信息同时存储声音、图像、文字等的超文本信息。 检索式及其检索式制定 在检索过程中用于表达词于词之间的逻在检索过程中用于表达词于词之间的逻 辑关系的算符就称为布尔逻辑运算符。辑关系的算符就称为布尔逻辑运算符。 分为三种逻辑关系:分为三种逻辑关系: 逻辑与、逻辑或、逻辑非;逻辑与、逻辑或、逻辑非;

10、“ “AND”AND”、 “ “ OR”OR”、 “ “ NOT”NOT”逻辑“与”(AND或*) 是一种概念相交和限定关系的组配是一种概念相交和限定关系的组配。例如:。例如:“A AND B”A AND B”“A“A* *B”B”,其含义:是检出的记录中必须同时含有,其含义:是检出的记录中必须同时含有“A”A”和和“B”B” 两个检索项。两个检索项。 “ “AND”AND”算符的作用是对检索词加以限定,逐步缩小检索范围,算符的作用是对检索词加以限定,逐步缩小检索范围,提高检索结果的查准率。例如检索提高检索结果的查准率。例如检索“计算机在图书馆中的应用计算机在图书馆中的应用”方面的文献,其检索

11、式可写成:方面的文献,其检索式可写成: “ “计算机计算机 * * 图书馆图书馆”或或 “计算机计算机 AND AND 图书馆图书馆”ABA and B逻辑逻辑“与与”运算运算C缩小检索范围,提高专指性。案例:涤纶长丝微孔涤纶纤维同浴同色染色技术polyester filament;microporous polyester fiber(fibre); onebath process;homochromy检索式?逻辑逻辑“或或”(OROR或或+ +) 是用来组配具有同义或同族概念的词是用来组配具有同义或同族概念的词。如:检索提问式:。如:检索提问式: “ “A OR B”A OR B”或或“A

12、 + B”A + B”其含义:是数据库记录中任何一条其含义:是数据库记录中任何一条 记录,只要含有记录,只要含有“A”A”或或“B”B”中任何一个检索词即为命中的中任何一个检索词即为命中的 文献。文献。“OR”OR”的作用是扩大检索范围,的作用是扩大检索范围, 增加命中文献量,提高文献的增加命中文献量,提高文献的 查全率。查全率。 如:如: “微机微机 + + 电脑电脑 + PC+ PC机机+ +计算机计算机”、 “ “微机微机 or or 电脑电脑 or PCor PC机机 or or 计算机计算机”A or B逻辑逻辑“或或”运算运算ABC扩大检索范围,提高查全率示例政治、经济、宗教与伦理

13、学的关系ACB(A OR B OR CA OR B OR C) AND DAND D(政治(政治+ +经济经济+ +宗教)宗教)* *伦理学伦理学D政治政治经济经济宗教宗教伦理学伦理学逻辑逻辑“非非”(NOTNOT或或) “NOT”“NOT”算符是排除含有某些词的记录算符是排除含有某些词的记录,其逻辑提,其逻辑提问表达式为问表达式为“A NOT B”“A NOT B”或或“A“A- -B”B”,即检出的记录,即检出的记录中只能含有中只能含有“NOT”“NOT”算符前的检索词算符前的检索词 A A,而不能同时,而不能同时含有含有“NOT”“NOT”后的检索词后的检索词 B B。“NOT”“NOT

14、”的作用是缩小检索范围,的作用是缩小检索范围,提高检准率提高检准率。在联机检索中可降低检索费用。在联机检索中可降低检索费用。例如:例如:“皮鞋皮鞋 NOT NOT 高跟鞋高跟鞋”由于由于“NOT”NOT”算符有排除掉相算符有排除掉相关文献的可能,在实际检索关文献的可能,在实际检索中应慎重使用。中应慎重使用。AB BA not BA not B逻辑逻辑“非非”运算运算示例非共产主义人生观非共产主义人生观 B821.2B821.2(人生观、人生(人生观、人生哲学中除共产主义人生观外的那一部份哲学中除共产主义人生观外的那一部份)A:人生观、人生哲学B B:共产主义人生观:共产主义人生观A not B

15、A-B“优先级优先级”问题问题 当布尔运算符在一个检索式中连续出现时,当布尔运算符在一个检索式中连续出现时,它们的它们的“级别级别”是不同的。一般的次序是:是不同的。一般的次序是:“()()”最高最高“-”-”优先级第二,优先级第二,“* *”第三,第三,“+”+”最低。最低。 ()()NOTANDORNOTANDOR 如: 信息OROR情报 NOT 经济 (信息OROR情报)NOT 经济 检索结果不同。 布尔逻辑的运算可以进行同类项的合并。布尔逻辑的运算可以进行同类项的合并。 如:如:A A* *B+AB+A* *C CA A* *(B+CB+C) 然而,在使用布尔逻辑时,必须注意然而,在使

16、用布尔逻辑时,必须注意以下几条交换规则:以下几条交换规则: A A* *B=BB=B* *A A A+B=B+A A+B=B+A A-BB-A A-BB-A主要的位置算符1、(W)n算符(W)或W0-With,表示所要连接的两词之间只能为一空格或算点符号,且算符两侧的词序不得颠倒。什么情况下用这个算符?2、(nW)或Wn 算符 (nW)-n Words,在两个检索词之间允许插入0至n 个词,其前后两词的位置不能互换。如 X (1W) RAY,可同时查找 X RAY,X Y RAY; chemical w2 protection,可查到Chemical and Biological protec

17、tion和 chemical protection每个同学根据自己专业举一例子?检索什么样的文献可用W2或2W这样的位置算符?3、(n N)或Nn-算符 n Near,表示算符两侧的检索词彼此邻近,且词序可变,n是两个检索词之间允许插入的最大词量.如cotton (2N) processing,凡含cotton processing, processing of cotton 和processing of Egyptian cotton的文献记录都算命中.主要的截词算符后截断(?或*)?表示无限截断,如 combusti? 可检索到含有Combustible , combustion comb

18、ustibility这些词的文献每个同学根据自己专业举一例子?检索什么样的文献可用(?或*)这样的截词算符?不同的数据库采用的符号也不同,大部分不同的数据库采用的符号也不同,大部分采用采用* *表示前方一致,后面表示前方一致,后面无限截断检索式检索字段检索字段=检索词检索词 运算符运算符 检索词检索词如:检索张涛写的关于计算机辅助设计方面的论如:检索张涛写的关于计算机辅助设计方面的论文文分析:作者分析:作者 张涛张涛 关键词关键词 计算机辅助设计计算机辅助设计检索式检索式作者作者=张涛张涛 and and 关键词关键词=(计算机辅助设计计算机辅助设计 or or CADCAD) 检索时所用到的

19、词称为检索词检索时所用到的词称为检索词。根据检索需。根据检索需求确定检索词。求确定检索词。1.选择检索途径篇名、关键词、主题词等检索时选择检索途径篇名、关键词、主题词等检索时1)选择规范词,如叙词。)选择规范词,如叙词。2)选择自由词时,要能代表本课题技术特征的、具有实)选择自由词时,要能代表本课题技术特征的、具有实质意义的词。这些词应为专业通用词、惯用词和术语。质意义的词。这些词应为专业通用词、惯用词和术语。3)避免使用低频词或高频词。)避免使用低频词或高频词。 不使用禁用词,如不使用禁用词,如a、and、or、not等;等; 尽量少用或不用不能表达课题实质的高频词,如分析、尽量少用或不用不

20、能表达课题实质的高频词,如分析、研究、应用、方法、设计等。研究、应用、方法、设计等。检索词4 4)同义词尽量选全)同义词尽量选全同一概念的几种表达方式;同一概念的几种表达方式;同一名词的单、复数、动词、动名词、过去分词同一名词的单、复数、动词、动名词、过去分词形式等,如生产有形式等,如生产有product, production, producing, product, production, producing, produce, productiveproduce, productive等,词根相同时,可用截词符解等,词根相同时,可用截词符解决;决;化学物质既用名称也用元素符号,如氮,化学

21、物质既用名称也用元素符号,如氮,NitrogenNitrogen和和N N;植物和动物名,其英文和拉丁名均要选用。植物和动物名,其英文和拉丁名均要选用。2. 2.选择著者作为检索途径进行检索时选择著者作为检索途径进行检索时精确检索和模糊检索,以精确检索和模糊检索,以“高洁高洁”为为例例精确检索:高洁精确检索:高洁模糊检索:高洁如模糊检索:高洁如 高洁琳等高洁琳等检索词选择技巧(2 2)注意检索词的全称、简称、俗称和注意检索词的全称、简称、俗称和英文缩写英文缩写检索条件限定如年份、语种、文献类型等。如年份、语种、文献类型等。如著者如著者 、文摘、篇名、主题词、机构名称、文摘、篇名、主题词、机构名

22、称、分类号、刊名等分类号、刊名等。检索字段 检索字段的确定检索字段的确定 考虑检索词在哪个字段中出现。比如,查找赖世雄关于考虑检索词在哪个字段中出现。比如,查找赖世雄关于怎么学英语发表的论文时,则怎么学英语发表的论文时,则“赖世雄赖世雄”应在应在“作者作者”字段中出现,字段中出现,“英语英语”应在应在“主题词主题词”或或“文摘文摘”或或“篇名篇名”中出现。然后再确定各个检索词之间的逻辑关中出现。然后再确定各个检索词之间的逻辑关系。如本例中,赖世雄与英语的关系为逻辑与。系。如本例中,赖世雄与英语的关系为逻辑与。 则该例的检索式为:则该例的检索式为: 英语英语/ab,ti,su and /ab,t

23、i,su and 赖世雄赖世雄/au/au 输入检索式,限定检索条件,执行检索,分析检索结果输入检索式,限定检索条件,执行检索,分析检索结果。检索符检索符 “ ”“ ”或或 用于检索固定短语或专有名词用于检索固定短语或专有名词在短语或专有名词前后加双引号,系统将其按在短语或专有名词前后加双引号,系统将其按词组对待,不再将其分割按单词检索。词组对待,不再将其分割按单词检索。精确检索或短语检索 检索天津工业大学的所有老师、学生在2010年被EI(工程索引)收录的文献,如何构造检索式?Tianjin Polytechnic UniversityTianjin Polytech. University

24、Tianjin Polytech. Univ.Tianjin Polytechnical UniversityTianjin Polytechnic Univ.author affiliation =Tianjin Polytech* Univ*课题一:采光原理在建筑设计中的应用课题一:采光原理在建筑设计中的应用课题二:查找陈志新课题二:查找陈志新 关于关于 建筑电气与智能化实验室建筑电气与智能化实验室建设方面的文献建设方面的文献举例:检索式:采光检索式:采光 AND AND 建筑建筑 / /题名、关键词、文摘题名、关键词、文摘 检索式:(陈志新/作者 )AND (建筑 AND电气 AND 智能 AND 实验室/题名、关键词)课题三:课题三:查找作者袁燕在查找作者袁燕在针织工业针织工业上发表的上发表的文献文献作者作者=袁燕袁燕 andand 刊名刊名=针织工业针织工业检索式:检索式:课题四: 要求检索近10年发表的地理科学的一手研究资

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论