版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、计算机检索计算机检索第一节 计算机检索概述第二节 数据库及检索方法第三节 数据库检索算符数据库检索算符第四节 检索策略第五节 国际联机检索系统简介第六节Internet网上文献信情报资源及其检 索 计算机在信息工作中的成功应用, 特别是计算机技术与现代通讯技术的结合,从根本上改变了人类存储和检索信息的手段,大大提高了人类利用信息的能力,并使信息的功能达到空前的高度。 一、计算机检索概述1.计算机检索介绍将大量的文献资料或数据进行加工整理,按一定格式存贮存贮在机读载体上,建成机读数据库, 利用计算机对机读型数据库进行检索检索。 通俗讲, 利用电子计算机对机读型的数通俗讲, 利用电子计算机对机读型
2、的数据库进行检索。据库进行检索。 文献资料、数据-存贮存贮-数据库-检索检索 (1) (1)计算机信息检索定义:计算机信息检索定义: 存储容量大 运算速度快 运算结果准确、可靠 丰富的检索途径 更广阔的检索范围 可方便地修改检索策略 (2)(2)计算机检索特点计算机检索特点: (3) 同手工检索相比同手工检索相比: 20 世纪 50 年代-60 年代中 脱机信息检索(原始时期) 20 世纪 60 年代中-70 年代初 联机信息检索(实际运用) 20 世纪 70 年代-今 国际联机信息检索与光盘检索 20 世纪 90 年代至今 网络信息检索 2.计算机检索的发展历史二、计算机信息检索相关概念1.
3、数据库定义:数据库定义: 数据库是在计算机存储设备上合理存放的数据库是在计算机存储设备上合理存放的一系列相互关联的数据集合一系列相互关联的数据集合。从使用者观点来看,数据库主要由字段、记录、文档三个层次构成。 图书情报界大多从记录形式的角度将数据库分为如下四类: 书目型数据库(文摘、索引) 词典型数据库(又名录型、指南型) 数值型数据库 全文型数据库 2.2.检索系统数据库的类型检索系统数据库的类型 (1)书目型数据库书目型数据库 数据库中的记录主要存入的是原始文献的书目。例如,原始文献的篇名、作者、文献出处、文摘、叙词或关键词等等。 (2)词典型数据库词典型数据库 数据库的记录主要介绍一些有
4、关公司、团体或名人的情况, 或诸如化学物质名称、 结构、俗称和化学物质登记号之类指南性的情报。 (3)数值型数据库数值型数据库 数据库的记录存入各种调查数据或统计数据。如人口、国民经济总产值、人均收入、就业、主要原材料和产品的生产与消耗、 能源、 车辆、建筑、工业生产和价格系列等项数据。 (4)全文型数据库全文型数据库 数据库的记录存入了原始文献的正文,通过这类数据库可以直接检索出原始文献的全文,这就大大方便了用户,也提高了文献资料的利用率。 字段-记录-文档-数据库 field-record-file-database (1)字段字段( (数据项数据项) 是文献著录的基本单元, 反映文献外部
5、特征和内容特征的每一个项目,如篇名、著者、文献出处等。 字段都有自己特定的标识符, 称为字段名或段码。如 Title,TI;Author,AU;Abstracts, AB,Publication year, PY。 4数据库的一般结构数据库的一般结构 网络检索系统中的数据库,一般都是关系型数据库。 各项数据以构成一张横竖对齐的二维表格形式存放于数据文件中, 一个以二维表格形式存放在磁盘上的数据文件称为数据库文件 (库文件) 。见下表 篇名 著者 来源 语种 文摘 1 文献学 王柏松 SUMS 中文 2 Inform John. S UCLC English 3 Liver Cancer Wan
6、g H. Cancer Res. English 字段一条记录.记录号根据字段描述文献特征的不同,可分为两类: 用来表达记录的内容特征的字段。主要有篇名字段(Title Field/TI)、 文摘字段(Abstract Field/AB)、 叙词字段(Descriptor Field/DE)、 自由标引词字段(Identifier Field/ID)、 全文数据库中的正文字段(Text Field)等, robot/TI 基本索引字段基本索引字段(BasicIndexFields) 辅助索引字段主要是一些表达文献外表特征的字段。如, 作者字段(AU=); 期刊刊名字段(JN=); 出版年份字段
7、(PY=); 语言字段(LA=)等等。 AU=Li siguang 检索用英文发表的机器人控制系统方面的文献(robot and (control system)/TI and LA=English.辅助索引字段辅助索引字段(Additional Index Fields) 由若干不同字段组成的文献单元,是构成数据库主文档(或称顺排文档)的基本单元. 全文库中,一个记录 = 一篇完整文献, 书目库中,一个记录=一条文摘或题录,在数据库中每一个记录都有一个记录号,与检索工具中的文摘号类似。 (2)记录记录 如:Development of impedance-sensing technology
8、 and an intelligent control system for robot-automated processing of flexible and natural objectsby Gu,Jianhua ScottGu,Jianhua Scott, PhDTHE UNIVERSITY OF BRITISH COLUMBIA (CANADA), 1999, 271 pages 由若干逻辑记录所构成的数据集合。 文档是数据库和检索系统中数据组织的基本形式。 如 DIALOG 系统中 399 号文档是美国化学文摘 (CA) , 211 号文档是世界专利索引 (WPI) 文档分为顺排
9、文档(主文档)顺排文档(主文档)和倒排文档倒排文档(索引文档)(索引文档)两种。 (3)文档 001 汽车尾气对环境的污染 主题词:汽车、尾气、环境污染 002 汽车的维修 主题词: 汽车、 维修 003 汽车与运输 主题词: 汽车、 运输 004 汽车噪音对环境的污染 主题词: 汽车、 噪音、环境污染 环境污染 001 004 汽 车 001 002 003 004 维 修 002 尾 气 001 运输 003 环 境 污 染 汽 车 001 002 003 004 001 004 顺排文档 倒排文档 001 004 汽车环境污染 检索词仅仅表达课题内容的各个侧面,一般不能单独表达需求的完整
10、内容,只有合理运用逻辑算符等组成检索式,才能完整表达检索要求。 布尔逻辑算符布尔逻辑算符 NOT, AND, OR 位置逻辑运算符位置逻辑运算符(W), (nW), (N), (nN), (F), (S), (L) 截词符截词符 “? ?” * 三三 、数据库检索算符、数据库检索算符 检索系统中的布尔逻辑运算符采用的是布尔代数中的逻辑运算符 AND, OR, NOT, 这三者优先执行的顺序一般是 NOT, AND, OR, 用括号可以规定或改变其执行顺序。 1 1布尔逻辑运算符布尔逻辑运算符 A BAB “压力及温度对蒸馏的影响” Pressure temperature distillati
11、on 1. (pressure or temperature ) and distillation 2. pressure and distillation or temperature and distillation 也 称 邻 近 算 符 ( Adjacent Operators) 。常用的位置算符主要有(W), (nW), (N), (nN), (F), (S), (L)等,各个检索系统中位置算符有所不同,具体查看其使用说明。 2、位置运算符位置运算符(Proximate) (W)“with”的缩写 表示在此算符两侧的检索词必须按此前后衔接的顺序排列,而且两个检索词之间不许有其他的词或
12、字母,但允许有空格、标点符号。 wear(w)materials 可检出 wear materials (nW)“n words”的缩写,表示运算符两侧的检索词之间允许插入n个(最大数量)的词,两个检索词的次序不允许颠倒。 wear(1w)materials可检出 wear materials、wear of materials(N),(nN)“near” , “n near”的缩写 (N)算符表示此算符两侧的检索词必须紧密相连,次序可以颠倒,词间不允许插入任何其他词或字母,但允许有空格或标点符号。 (nN)算符表示在此算符两侧的检索词之间允许插入 n 个(最大数量)实词或系统禁用词,两个检索
13、词的词序允许颠倒。 information(n)retrieval 可以检出 information retrieval 和 retrieval information, (F)“Field”的缩写,在此运算符两侧的检索词必须同时出现同时出现在文献记录的同一个字同一个字段段内,但两个词的前后顺序不限,两个词之间词的个数也不限。如: 微型计算机芯片 microcomputer(F)chip (S)“subfield”的缩写,其两侧的检索词必须同时出现在文献记录的同一个子字段同一个子字段中即在同一个句子、同一片断同一个句子、同一片断等,次序不限,中间可间隔若干个词。 (L)“Link”的缩写,(L
14、)运算符表示连接的检索词之间有一定的从属关系, 如:工程索引词表(SHE)中表示天然橡胶的标题词 一级标题词为 Rubber,二级标题词为 Natural: Rubber(L)Natural (C) “citation” 的缩写, 作用和效果同 “And” 表示连接的两个检索词的相对位置可不分字段、不按顺序,只要同时出现在同一篇文章中即算命中. 文献记 录的查 找是通 过检索 词与 索引 词之间的对比匹配进行的,这又是通过计算机的指定位对比判断能力来实现,只要在截词符出现任意字符或空位形式变化时都在考虑命中范围内。这样在检索时,可减少输入检索词的数量,获得较高的查全率。 3、截词符截词符 有限
15、截词符有限截词符(以 Dialog 为例) 有限截词指在单词中截取有限个字母,单个字母截词 “? ?” , 两个字母的截词符为 “?” ,三个字母的截词符为“?” ,以此类推。 Computer? ? Compute? Comput? 无限截词符无限截词符 ? ?表示表示 如果检索词的词干后加无限截词符,可查找词干相同的所有的词。 transform?相当于查找 transform, transforms, transformless 等。 中间截词符中间截词符 不同的检索系统截词符号不同,要具体查看使用说明,一般用?、*、#、$等。 organi?ation organization、org
16、anisation 在联机检索中,为了提高检索效率,可使用限制检索方法,将检索结果限制在一定的范围内,达到优化检索结果的目的。限制检索的方式有多种,常用的限制检索方法主要是字段限制。 (microcomputer? ?/de,ti,ab or personal computer/ti,ab) and (auwang wei) and py1999 and (laen or fr) 4.限制检索限制检索(Range) 检索策略是对检索的全面策划,是指为实现检索目标而指定的全盘计划和方案。在操作上主要指数据库的选择和检索式的编制,前者取决于现有的数据库资源,后者则反映检索目标。四、检索策略检索策略
17、 (Information Retrieval Strategy)Y检索结果评价课题分析选择数据库确定检索途径确定检索词制定检索式实施检索计算机处理数据库待检课题用户N1.一般来说,制定检索策略通常包括以下步骤: 分析课题 例如, “吸烟与心脏病之间的联系” connections between smoking and heartdisease 选择数据库 考察内容包括: 数据库内容、收录范围、实时性、价格 分析概念,选择检索词connection between smoking and heartdisease概念词:smoking 、heart disease概念 1:smoking,s
18、moker,tobacco概念 2:heart disease,heart attack 如果所选数据库带有规范化词表,还可考虑从词表中选词进行补充。构造检索式 检索式是机检中用来表达检索提问的一种逻辑运算式,又称检索表达式或检索提问式。(smok?or tobacco)and(heart(w) diseaseor heart(w)attack?)上机检索?S(smok?or tobacco) and (heart (w) diseaseor heart(w)attack?) S1 47分步输入:?S smok? Or tobacco S1 252 smok? Or tobacco? S he
19、art(w)disease or heart(w)attack? S2 59 heart(w)disease or heart(w)attack? S S1 and S2 S3 47 S1 and S2 在实际检索中,常会遇到对检索结果不满意的情况,如检出结果太多,或者太少甚至为零,检出的记录不相关等。这时我们可首先对检索步骤进行全面检查,看看是否出现输入错误,例如检索词拚法错误、括号运用不正确、忘记输入检索命令、或命令输入错误等。检查完毕,确认无输入错误时,可考虑用下面的方法对检索策略进行调整。 2优化检索策略的方法优化检索策略的方法 1检索结果过多时检索结果过多时,应采用缩检技术排除不符合
20、需要或相关性较小的记录。可以使用以下方法来缩小检索范围,提高检准率。 使用字段限制, 将检索限定在特定的检索范围中,如: smok?and child?/TI,DE smok?and child?and La=Eng and Py=1990-1994 将检索式中的 and 算符改为更严格的位置算符: (w) , (nw) , (N) , (nN)等 2当检索结果过少或为零时,要采用扩检技术扩大检索范围。可选用以下方法扩大检索范围,提高查全率。 使用截词smok?可检出 smoke,smoker,smoking 去掉一个概念, 使用不同的位置算符,将限制严格的位置算符改为不太严格的位置算符或改为
21、 and, 改变数据库。 指检索系统检索的有效程度,它反映检索系统的能力,包括技术效果、经济效果。 评价检索效果最常用的指标是查全率(Recall Ratio)和查准率(Precision Ratio) 、漏检率(omission factor) 、误检率( 也叫检索噪音,noise factor)以及新颖率、检索速度等。 3.检索效果检索效果(Retrieval Effectiveness)评价评价 检索系统各参量的关系检索系统各参量的关系系统中相关文献总量 ( a + c )系统中非相关总文献量( b + d )检出的文献总量 ( a + b )检出的相关文献量 ( a )检出的非相关文献
22、 ( b )未检出的文献量( c + d )未检出的相关文献量 ( c )未检出的非相关文献 ( d )%100%100 caaR量检索系统中相关文献总文献量检出的相关查全率%100%100baaP检出的文献总量检出的相关文献量查准率.RcaacacM%100%)1001 (%100%100量检索系统中相关文献总未检出的相关文献量漏检率PbaababN%100%100)1 (%100%100检出的文献总量检出的非相关文献量误检率 是世界上最大的专业化国际联机检索系统,建于 19631964 年间,1972 年正式对外服务,它集成了近 500 个数据库,文献收藏量达 15 亿多篇,涵盖了全球大多
23、数学术和商用数据库资源,占全世界机存文献总量的 60以上,是专业化信息查询的主要工具, 用户遍及 120 多个国家和地区的 2 万多个机构。目前 DIALOG 已在INTERNET 上开设 Web 检索界面。 五、国际联机检索系统简介1.DIALOG国际联机检索系统 http:/ DIALOG Web Guide Search 从以上页面可以看出 DIALOG Web 提供三项主要功能:Database,Command Search 和Guided Search,下面分别说明。 Database 是专门为扫描数据库设计的免费搜索引擎,双击 Database 即可进入 (1)Database(数
24、据库扫描) 选择一个学科范选择一个学科范畴进入搜索界面畴进入搜索界面“掺锑硅单晶” Sort ResultsFile Database Name Hits2: INSPEC (1969- present) 76: NTIS - National Technical Information Service 18: Ei Compendex* 332: METADEX*: Metals Science 1 Command Search 是 DIALOG Web 收费查询界面,在上面各图中选击 Command Search 即可进入,进入“DIALOG Web 收费查询界面” 。也可以在上图中点击
25、Select All,选中所有扫描到的结果,如下图所示,再选击页面上的 Begin Databases 按钮,系统也会自动转入“DIALOG Web 收费查询界面” 。 (2)Commamd Search(命令搜索) Guide Search 是 DIALOG 设计的菜单选择式查询途径,即所谓“傻瓜”查询方式,在以上各图中选击 Guide Search 即可进入。 (3)Guided Search(菜单式搜索菜单式搜索) 曾经是仅次于 DIALOG 系统的世界上第二大国际联机检索系统, 特别是在专利、 商标、科技信息等领域具有独特优势, 拥有约 60 个联机数据库资源。其 Web 网站的 URL 为http:/, 2ORBIT系统 系统介绍系统主页 热点新闻公司浏览客户服务联机查询 ESA-IRS 是欧洲航天局的信息查询系统,是欧洲最大的国际联机检索系统,目前其主页 URL 为: http:/www.esrin.esa.it/htdocs/esairs/esairs.html 3ESA-IRS 1983 年 9 月,联邦德国卡尔斯鲁厄专业情报中心 (FIZKerlsruhe
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 有机磷农药中毒的个案护理查房
- 水风光一体化水土保持综合治理实施方案
- 四年级数学运算定律与简便计算练习题(每日一练共26份)
- 儿科肺炎筛查流程规范
- 包装线重量偏差超限处置规范
- 隐蔽工程验收规范实施细则
- 冲压线尺寸稳定性确认规范
- 漏洞扫描修复流程规范手册
- 热处理车间危险源辨识制度
- 制品线加班应急产能调配流程
- ASQ发育筛查系统课件
- 前列腺癌疾病解读课件
- 进制转换课件
- 2024-2025学年江苏省泰州市兴化市四校高二下学期4月期中联考数学试题(解析版)
- 智算中心PUE优化实施策略
- 深度解读2025年家庭教育指导服务行业市场规模、增长速度及政策环境分析报告
- 2024年高考语文全国二卷(含答案)精校版
- 腾讯公司质量管理制度
- 教育事业十五五发展规划
- CJ/T 409-2012玻璃钢化粪池技术要求
- T/CNPPA 3017-2021塑料和橡胶类药包材自身稳定性研究指南
评论
0/150
提交评论