




已阅读5页,还剩70页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第二章计算机信息检索基础 陈强 信息爆炸 知识的门类和数量迅速倍增知识的载体和传输方式日新月异每日新增网页近百万张2010年全球网站数量突破11亿 2012年16 44亿文献增速70年代每7年翻一番1999年每1年半翻一番2013年每8小时翻一番 一 计算机信息检索原理 计算机信息检索 用户利用数据库获取所需信息的过程 即 计算机将输入机检系统的用户提问标识 检索词 与已存贮在系统中数据库内的文献特征标识 标引词 进行匹配比较 凡符合给定的比较原则和逻辑运算条件者即为命中文献 计算机信息检索特点 检索速度快效率高 检索方便实现资源共享 检索内容新数量大 手段灵活途径多样 快速 准确地获得结果 缺点 收费 有时间限制 回溯性差 无法查久远的或最新的文献 检索特征标识 系统中的信息特征标识 二 检索软件类型 检索软件即用户与系统对话的界面 可分为以下两种 指令检索示例 肝肿瘤and 铜or铁 andpy 2005 菜单检索示例 三 数据库 数据库定义 数据库结构 数据库类型 1 数据库定义 相互关联的数据在计算机外存储器上有序的集合 2 数据库结构FrameworkofDatabase 文档 File 数据库中一部分记录的集合 综合性数据库多按学科划分文档 记录 Record 数据库的基本信息单元 每条记录都描述了原始信息的各项外表特征和内容特征 字段 Field 组成记录的数据项 检索项 一个字段代表一项特征 文档 记录 字段 字段名称及代码 基本字段 字段名称段码文摘 Abstracts AB题目 TitleWord TI主题词 Descriptor DE标识词 Identifier ID辅助字段 作者 Authors AU作者单位 CorporateSource CS刊名 JournalName JN年代 PublicationYear PY 3 数据库类型typesofdatabases 文献数据库 书目数据库 bibliographicdatabase 存储二次文献 其检索结果是文献的线索而非原文 如BKSY 全文数据库 fulltextdatabase 主要存储一次文献提供原始文献全文 数值数据库 numericdatabase 主要存储用数值表达的量化信息WHO的世界卫生统计数据 事实数据库 factdatabase 主要存储三次文献 what where when who why how 类信息 中国大百科全书 MarriamWebsterDictionary提供的 大不列颠百科全书 免费查询 多媒体 超文本数据库multimedia hypertextdatabase 同时存储声音 图像 文字等的超文本信息 检索者如何让计算机实现自己的检索意图 四 检索提问表达式 检索提问表达式 检索词 运算符 一 检索词 数码类2007 年 C19H33NO2HCL 分子式 343 94 分子量 D665 2 分类号 GNGY 基因代码 54 16 089 化学物质登记号 字词类获得性免疫缺陷综合征AIDS刘伟中国行政管理云南大学3一乙酰基一5一羟甲基 布尔逻辑符 字段限定符 位置运算符 通配符 短语符 二 运算符 questions 铁 痕量元素 李铁 人名 铁道医学杂志 刊名 上海铁道医学院 铁路医院 作者地址 查找作者 黎明 的文章 结果包括了 黎明 及 黎明 的文章 英语单复数的变异 英美拼法的不同 同义不同性词 词干相同后缀不同 音译外来词中文取词的不同 布尔逻辑运算符BooleanOperators 逻辑与 AANDBA B 缩小检索范围 提高专指性 示例 糖尿病与高血压 AANDB 逻辑或 AORBA B 扩大检索范围 提高查全率 示例 政治 经济 宗教与伦理学的关系 A C B AORBORC ANDD A B C D D 政治 经济 宗教 伦理学 逻辑非 ANOTBA B 缩小检索范围 提高查准率 示例 非共产主义人生观B821 2 人生观 人生哲学中除共产主义人生观外的那一部份 A 人生观 人生哲学B 共产主义人生观 AnotBA B 逻辑运算次序 布尔逻辑运算次序布尔逻辑的运算就象数学中的四则运算的 先乘除后加减 一样 也有优先级的问题 它的优先级从高到低依次为 非 NOT 与 AND 或 OR 当然 括号最优先 因此 括号也称为优先符 优先符可以改变布尔逻辑的正常运算次序 如 信息 情报NOT经济 信息 情报 NOT经济检索结果不同 示例 胃炎 胃溃疡 胃肿瘤与幽门螺杆菌的相关性 不要cagA vagA 胃炎or胃溃疡or胃肿瘤 and 幽门螺杆菌or幽门弯曲杆菌 not cagAorvagA 布尔逻辑的运算可以进行同类项的合并 如 A B A C A B C 然而 在使用布尔逻辑时 必须注意以下几条交换规则 A B B AA B B AA B B A 2 截词检索 以符号取代检索词 中 尾 的部分字符 从而检出相同词干和相同词根的词 截词包括后截 中截 前截等 用 作为截词符 有些系统用 主要包括下列情形 截词符 中截一字符 后截断n个字符如wom n可以检索出 woman women又如computer 以computer词干开头的词可以检索出 computer computers computing computerize computerise注意 截词是计算机信息检索的一项重要特性 不同数据库有不同的截词符 大多数为 后方一致 前截断 国庆 将检索出所有字段为张国庆 欧阳国庆 国庆等的记录 前方一致 后截断 如 热电材料 将检索出热电材料梯度化 热电材料及其梯度化等的记录 词中替代 示例1 示例2 词尾截断 computer computers computing computerize computerise Comput 以DialogMedline数据库为例 With运算符为 表示检索词紧密相连 中间不能插入任何字母或词 但允许有 或 前后顺序不能颠倒 如X ray表示Xray或X ray 由于逻辑算符不能限定检索词的位置关系 因此有些数据库和因特网检索系统采用了位置算符来加以限制 3 邻近检索 2 word运算符为 nW n为自然数 表示两词之间最多可插入0 n个词前后顺序不能颠倒 如 control 1w system可以检索出 controlsystem controlinsystem 等的信息 3 near运算符为 nN 表示检索词相邻 中间可插入0 n个词 前后顺序可以颠倒如infusion 1n urokinase表示 infusionofurokinaseurokinaseinfusion 4 sentence运算符为 S 表示检索词出现在同一个句子中 5 field运算符为 f 表示两个词必须出现在同一字段内 Example1 Health s environment Recentlyenvironmentalcontrolisregardedasimportantforgoodhumanhealthconditionsandtoxicsubstances includingcarcinogensandendocrinedisruptorsshouldbeeliminatedfromourlivingenvironment Example2 Health f environment Abstract Effectsofenvironmentalchangesinastairclimbingintervention generalizationtostairdescent isavailableforhumanhealth 这些位置算符可以一起使用 顺序为 W S F 实践上这些算符都是扩大检索范围 邻近检索小结 4 限制检索 在信息检索系统中 为了满足某种检索条件或达到某种精确程度 通常使用一些缩小或限定检索结果的方法 针对特定年代 特定类别 特定检索点等作限制 包括前缀限制符和后缀限制符 后缀限制符例如 TI限在题目中查 AB限在文摘中查 DE限在叙词标引中查 前缀限制符例如 AU 限查特定作者JN 限查特定刊名LA 限查特定语种PN 限查特定专利号PY 限查特定年代 字段限制符 数据库中主要用于指定检索字段 网络信息检索中可对文献信息类型进行限制如在谷歌和百度搜索引擎中检索特定的文献类型 报告filetype pdf 检索指定网址内的信息 报告site 以后会看到一些数据库通常都有年代 类型等的选择 5 短语检索符 phrase 检索符 用于检索固定短语或专有名词在短语或专有名词前后加双引号 系统将其按词组对待 不再将其分割按单词检索 示例 4 methoxy salicylaldehyde 4 甲氧基水杨醛 PCR 6 网络检索 短语检索 半角双引号 自动纠错检索 如 李熬 你是不是要检索李敖 自动转换检索 如 汉语拼音转换成文字 自然语言检索概念检索 同义词 近义词 狭义词 如搜索引擎Excite 相关检索 7 其它检索的表述 二次检索 在结果内检索精确检索模糊检索跨库检索 一站式检索扩展检索 类似搜索引擎的概念检索 一般检索 高级检索 专家检索 命令检索 运算符小结 计算机信息检索技术是用户信息需求和文献信息集合之间的匹配比较技术 布尔逻辑检索 截词检索 邻近检索 短语检索 字段检索 网络信息检索几乎所有的检索系统都有布尔逻辑检索 截词检索 模糊检索 和限制检索 而不同的检索系统又会有一些特殊的检索技术和功能 五 其他检索功能 扩展检索 系统基于词表 自动或半自动地对多个检索词执行逻辑 或 运算 扩展检索包括 同义词扩展 下位词扩展 下位词扩展 上位词 下位词 上位词扩展检索 Computer 主题词 电脑计算机 同义词 同义词扩展 全文检索 以原始记录中的词语为检索对象直接使用自由词位置运算符是全文检索常用的运算符 六 调整检索策略 检出文献太多缩小检索范围的方法 检出文献太少扩大检索范围的方法 检索文献太多 1 用AND增加相关概念或用NOT排除无关概念美洲哲学and美国哲学and十九世纪后期and爱默生and哈利斯美洲哲学and美国哲学and十九世纪后期not皮尔斯not波温 2 限制检索词出现的字段 mt DNAin标题 3 选用词表中更专指的下位词 性传播疾病性传播疾病 病毒性HIV感染获得性免疫缺陷综合征 4 用位置运算符限定检索词间的位置关系 目的 全方位考察核心期刊在世界学术期刊分级研究中的特征及作用 核心期刊10 w学术期刊分级 检出文献太少 1 减少AND连接的概念 或用OR增加同义词或相关词 爱兹病or艾兹病orAIDSor获得性免疫综合征 2 用通配 截词 符 对同根词进行检索 democra
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 论中医医疗服务合同9篇
- 2025年新能源汽车自动驾驶与智能电网调度优化方案报告
- 2025年保险数字化理赔服务理赔服务与保险业保险服务创新保险服务成本创新报告
- 2025年医药行业CRO模式下的临床试验数据监查员工作满意度与离职率分析报告
- 小学开学第一课校长精彩讲话:藏在日常里的三个成长密码
- 化工园区安全环保提升项目2025年社会稳定风险评估报告:风险评估与政策优化
- 葡萄酒产业国际化战略:2025年产区特色与品牌发展路径研究
- 量子计算在量子计算产业链2025年协同发展与创新报告
- 高速公路智能交通系统在高速公路养护管理中的智能诊断报告
- 苏轼被贬课件
- 广东能源海洋渔业有限公司招聘笔试题库2025
- 2025至2030全球及中国衍射光学器件行业项目调研及市场前景预测评估报告
- 《AHA2023心肺复苏与心血管急救指南》解读 2
- 2024年西藏公务员行测(C类)真题及答案
- 2025至2030中国猪肉深加工行业市场深度研究及发展前景投资可行性分析报告
- 高血压病与消化系统疾病的综合防治
- (零诊)成都市2023级(2026届)高三高中毕业班摸底测试语文试卷(含答案)
- 海鲜活动促销活动方案
- 管线施工协调管理方案及措施
- 2025至2030中国减薄机市场应用前景及未来投资战略规划报告
- 电力系统风险评估模型-洞察阐释
评论
0/150
提交评论