




已阅读5页,还剩70页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第二章 计算机信息检索基础,陈 强,“信息爆炸” 知识的门类和数量迅速倍增 知识的载体和传输方式日新月异 每日新增网页近百万张 2010年全球网站数量突破11亿,2012年16.44亿 文献增速 70年代每7年翻一番 1999年每1年半翻一番 2013年每8小时翻一番,一、 计算机信息检索原理,计算机信息检索:用户利用数据库获取所需信息的过程。 即:计算机将输入机检系统的用户提问标识(检索词)与已存贮在系统中数据库内的文献特征标识(标引词)进行匹配比较,凡符合给定的比较原则和逻辑运算条件者即为命中文献。,计算机信息检索特点,检索速度快 效率高,检索方便 实现资源共享,检索内容新 数量大,手段灵活 途径多样,快速、 准确地获得结果,缺点:收费、有时间限制、回溯性差,无法查久远的或最新的文献。,检索特征标识 = 系统中的信息特征标识,二、检索软件类型,检索软件即用户与系统对话的界面, 可分为以下两种:,指令检索示例,肝肿瘤 and (铜 or 铁) and py=2005,菜单检索示例,三、数 据 库,数据库定义,数据库结构,数据库类型,1.数据库定义,相互关联的数据在计算机外存储器上有序的集合.,2、数据库结构 Framework of Database,文档(File),数据库中一部分记录的集合,综合性数据库 多按学科划分文档,记录(Record),数据库的基本信息单元,每条记录都描述了原始信息的各项外表特征和内容特征。,字段(Field),组成记录的数据项(检索项),一个字段代表一项特征。,文档,记录,字段,字段名称及代码,基本字段: 字段名称 段码 文摘(Abstracts) AB 题目(Title Word) TI 主题词(Descriptor) DE 标识词(Identifier) ID 辅助字段: 作者 (Authors) AU 作者单位(Corporate Source) CS 刊名(Journal Name) JN 年代( Publication Year ) PY,3、数据库类型 types of databases,文献数据库,书目数据库(bibliographic database),存储二次文献,其检索结果是文献的线索而非原文。 如BKSY,全文数据库(full text database),主要存储一次文献 提供原始文献全文,数值数据库(numeric database),主要存储用数值表达的量化信息 WHO 的世界卫生统计数据,事实数据库(fact database),主要存储三次文献(what、where、when、who、why、how)类信息 中国大百科全书 Marriam Webster Dictionary 提供的大不列颠百科全书 免费查询,多媒体/超文本数据库 multimedia/hypertext database,同时存储声音、图像、文字等的超文本信息。,检索者如何让计算机实现自己的检索意图?,四、检索提问表达式,检索提问表达式检索词运算符,(一)、检索词,数码类 2007(年) C19H33NO2HCL(分子式) 343.94 (分子量) D665.2(分类号) GNGY(基因代码) 54-16-089 (化学物质登记号),字词类 获得性免疫缺陷综合征 AIDS 刘伟 中国行政管理 云南大学 3一乙酰基一5一羟甲基,布尔逻辑符,字段限定符,位置运算符,通配符,短语符,(二)、运算符,questions,铁(痕量元素);李铁(人名);铁道医学杂志(刊名);上海铁道医学院,铁路医院(作者地址),查找作者“黎明” 的文章,结果包括了“黎明”及“黎明”的文章,英语单复数的变异 、英美拼法的不同、同义不同性词(词干相同后缀不同);音译外来词中文取词的不同,布尔逻辑运算符 Boolean Operators,逻辑与,A AND B A*B,缩小检索范围,提高专指性。,示例,糖尿病与高血压,A AND B,逻辑或,A OR B A+B,扩大检索范围,提高查全率。,示例,政治、经济、宗教与伦理学的关系,A,C,B,(A OR B OR C) AND D (A+B+C)*D,D,政治,经济,宗教,伦理学,逻辑非,A NOT B A-B,缩小检索范围,提高查准率。,示例,非共产主义人生观 B821.2(人生观、人生哲学中除共产主义人生观外的那一部份),A:人生观、人生哲学 B:共产主义人生观,A not B A-B,逻辑运算次序,布尔逻辑运算次序 布尔逻辑的运算就象数学中的四则运算的“先乘除后加减”一样,也有优先级的问题,它的优先级从高到低依次为: 非(NOT)与(AND)或(OR) 当然,括号最优先。因此,括号也称为优先符。优先符可以改变布尔逻辑的正常运算次序。 如:信息+情报 NOT 经济 (信息+情报)NOT 经济 检索结果不同。,示例,胃炎、胃溃疡、胃肿瘤与幽门螺杆菌 的相关性 (不要 cagA ,vagA),(胃炎 or 胃溃疡 or 胃肿瘤) and (幽门螺杆菌 or 幽门弯曲杆菌) not (cagA or vagA),布尔逻辑的运算可以进行同类项的合并。 如:A*B+A*CA*(B+C) 然而,在使用布尔逻辑时,必须注意以下几条交换规则: A*B=B*A A+B=B+A A-BB-A,2. 截词检索,以符号取代检索词(中、尾)的部分字符,从而检出相同词干和相同词根的词。 截词包括后截、中截、前截等。用?作为截词符(有些系统用*),主要包括下列情形: 截词符? 中截一字符,后截断n个字符 如 wom?n 可以检索出: woman, women 又如 computer?以computer词干开头的词 可以检索出:computer、computers、computing、computerize、computerise 注意:截词是计算机信息检索的一项重要特性,不同数据库有不同的截词符,大多数为“?”。,% * 后方一致(前截断): “%国庆” 将检索出所有字段为张国庆、欧阳国庆、国庆等的记录。 前方一致(后截断) : 如:“热电材料% ”将检索出热电材料梯度化、热电材料及其梯度化等的记录。,词中替代:,示例 1,示例 2,词尾截断:,computer、computers、computing、computerize、computerise,Comput*,以Dialog Medline 数据库为例: With 运算符为“()” 表示检索词紧密相连,中间不能插入任何字母或词,但允许有“ ” 或“”,前后顺序不能颠倒。 如 X()ray 表示 X ray 或 X-ray,由于逻辑算符不能限定检索词的位置关系, 因此有些数据库和因特网检索系统采用了位置算符来加以限制,3、 邻近检索,(2)word 运算符为(nW)(n为自然数) 表示两词之间最多可插入0-n个词 前后顺序不能颠倒。 如:control(1w)system可以检索出“control system” “control in system”等的信息。,(3) near 运算符为“(nN)” 表示检索词相邻,中间可插入0n个词,前后顺序可以颠倒 如 infusion(1n)urokinase 表示: infusion of urokinase urokinase infusion,(4) sentence 运算符为“(S)” 表示检索词出现在同一个句子中. (5) field 运算符为“(f)” 表示两个词必须出现在同一字段内.,Example 1,Health(s)environment? Recently environmental control is regarded as important for good human health conditions and toxic substances, including carcinogens and endocrine disruptors should be eliminated from our living environment ,Example 2,Health(f)environment? Abstract: Effects of environmental changes in a stair climbing intervention: generalization to stair descent is available for human health ,这些位置算符可以一起使用,顺序为 (W)(S)(F) 。 实践上这些算符都是扩大检索范围。,邻近检索小结,4、 限制检索,在信息检索系统中,为了满足某种检索条件或 达到某种精确程度,通常使用一些缩小或限定检索结 果的方法。针对特定年代、特定类别、特定检索点等 作限制,包括前缀限制符和后缀限制符。,后缀限制符例如: /TI 限在题目中查 /AB 限在文摘中查 /DE 限在叙词标引中查,前缀限制符例如: AU= 限查特定作者 JN= 限查特定刊名 LA= 限查特定语种 PN= 限查特定专利号 PY= 限查特定年代,字段限制符,数据库中主要用于指定检索字段,网络信息检索中可对文献信息类型进行限制 如在谷歌和百度搜索引擎中 检索特定的文献类型: “报告 filetype:pdf ” 检索指定网址内的信息: “报告 site:” 以后会看到一些数据库通常都有年代/类型等的选择,5. 短语检索符 (phrase),检索符 “ ” 用于检索固定短语或专有名词 在短语或专有名词前后加双引号,系统将其按词组对待,不再将其分割按单词检索。,示例,“4-methoxy-salicylaldehyde”(4-甲氧基水杨醛) “PCR”,6、 网络检索,短语检索(半角双引号) 自动纠错检索(如:李熬,你是不是要检索李敖) 自动转换检索(如:汉语拼音转换成文字) 自然语言检索 概念检索(同义词/近义词/狭义词,如搜索引擎Excite) 相关检索,7、 其它检索的表述,二次检索/在结果内检索 精确检索 模糊检索 跨库检索/一站式检索 扩展检索(类似搜索引擎的概念检索) 一般检索/高级检索/专家检索/命令检索,运算符小结,计算机信息检索技术是用户信息需求和文献信息集合之间的匹配比较技术。 布尔逻辑检索、截词检索、邻近检索、短语检索、字段检索、网络信息检索 几乎所有的检索系统都有布尔逻辑检索、截词检索(模糊检索)和限制检索,而不同的检索系统又会有一些特殊的检索技术和功能。,五、其他检索功能,扩展检索,系统基于词表,自动或半自动地对多个检索词执行逻辑 “或” 运算,扩展检索包括:,同 义 词 扩 展,下 位 词 扩 展,-下位词扩展,上位词,下位词,上位词扩展检索,Computer (主题词),电脑 计算机,同 义 词,-同义词扩展,全文检索,以原始记录中的词语为检索对象 直接使用自由词 位置运算符是全文检索常用的运算符,六、调整检索策略,检出文献太多 缩小检索范围的方法,检出文献太少 扩大检索范围的方法,检索文献太多,1)用AND增加相关概念或用NOT排除无 关概念 美洲哲学 and 美国哲学 and 十九世纪后期 and 爱默生 and 哈利斯 美洲哲学 and 美国哲学 and 十九世纪后期 not 皮尔斯 not 波温,2)限制检索词出现的字段,mt-DNA in 标题,3)选用词表中更专指的下位词,性传播疾病 性传播疾病, 病毒性 HIV感染 获得性免疫缺陷综合征,4)用位置运算符限定检索词间的位置关系,目的:全方位考察核心期刊在世界学术期刊分级研究中的特征及作用。,核心期刊 10/w 学术期刊分级,检出文献太少,1)减少AND连接的概念,或用OR增加同 义词或相关词。,爱兹病 or 艾兹病 or AIDS or 获得性免疫综合征,2)用通配(截词)符,对同根词进行
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 文化餐饮创新趋势2025年主题餐厅营销策略创新研究报告
- 艺术市场数字化交易平台在艺术品交易中的法律风险识别与应对报告2025
- 快消品企业2025年包装设计绿色包装材料应用案例分析报告001
- 2025年可穿戴医疗设备在慢性呼吸系统疾病监测市场的需求与技术创新趋势
- 城市出行变革:2025年自动驾驶汽车商业化案例分析报告
- 大润发超市收货管理制度
- 化妆品公司岗位管理制度
- 团干选拔培训与管理制度
- 地震综合观测站管理制度
- 公司档案规范与管理制度
- 2025年湖北省高考政治试卷真题(含答案)
- 广东省深圳市宝安区2023-2024学年二年级下册期末测试数学试卷(含答案)
- 2025江苏扬州宝应县“乡村振兴青年人才”招聘67人笔试备考试题及参考答案详解
- 2025年宁夏银川灵武市选聘市属国有企业管理人员招聘笔试冲刺题(带答案解析)
- 三大监测培训试题及答案
- 两办意见宣贯考试题及答案
- 2025年汽车驾照考试科目一考试题库及参考答案
- 跨文化交际知识体系及其前沿动态
- 音响安装施工合同协议
- 日本签证个人信息处理同意书
- 2024年中国工程院战略咨询中心劳动人员招聘真题
评论
0/150
提交评论