




已阅读5页,还剩28页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第四章计算机检索基本原理 1计算机检索系统2计算机检索的基本原理与技术3计算机检索策略及其调整 1计算机检索系统 1 1计算机检索系统组成计算机硬件 计算机软件 数据库1 2数据库1 2 1定义 包含书目以及与文献有关数据的机读记录的有组织的集合 机读记录是文献的代替物 一条记录对应一篇文献 数据库由若干条记录组成 1 2 2类型1 2 3构成 1 2 2文献数据库类型 据数据库所含信息内容 1 文献数据库 存储文献型数据 如一次文献或二次文献书目数据库 二次文献数据库 包括各种文摘 索引 目录 存贮某个领域原始文献的书目 组成记录的字段一般有文献的标题 作者 出处 文摘 主题词等 全文数据库 存贮文献全文或其中主要部分的数据库 能使用户获得最终的一次文献 2 源数据库 存储事实 数值 概念 图形等非文献数据的数据库 数值数据库 提供以数值方式表示信息的一种源数据库 其检索结果可能只是单一的值或一组数据 数值数据库能提供产品价格等数值信息 也可提供物质的物理化学性质 结构 频谱等数据 事实数据库 自原始文献或社会调查中获得并经过处理的各种事实 如机构 人物 产品 资源等数据 常见的有指南数据库 产品数据库等 概念数据库 库内存储各种名词术语或语言资料 如词典数据库 语料库等 多媒体数据库 将各种类型的信息集中在CD ROM上 是视频 音频 文字 图像 动画等的集合体 如一些互动性的百科全书 1 2 3数据库的构成 1 记录 是数据库的基本单元 是对某一实体属性进行描述的结果 一个数据库由若干条记录构成 每条记录相当于文摘型或题录型检索刊物的一条著录款目 文献记录格式 以Dialog系统中EICompendexPlus数据库为例 如下 AN DIALOGNO 03883137EIMonthlyNO EIP94031231114 TITitle Laser LightimagingforunderwateruseAU Author Caimin FrankM CS CorporateSource HarborBranchoceanographiclnst Inc FLPierce FL USASO Source ScaTechnology V 34NO 12Dec 1993 P 22 27PY PublicationYear 1993CO SN CODEN SEATADISSN 0993 3651LA Language EnglishDT TC DocumentType JA JoumalArticle TreatmentcodeX Experimental ABAbstract ConventionalunderseaimaginglimitationsavePointedoutandseveralimagingsystemsaredescribed inparticulartherangegaledimaging field limitedimaging and3 DStructuredinterferometricilluminationsystems DEDescription Imagingtechniques Laserapplication engineering Vision IDIdentifiers Laserlightimaging UnderwatertechnologyCC EIClassificationCodes 2 字段 是文献记录的基本单元 一条记录有若干个字段 一个字段有时还可分为几个子字段 Subfield 在书目数据库中 一条记录应包含原始文献的篇名 作者 刊名 出版时间 分类号 文摘 主题词等字段 数据库的字段可分为基本字段和辅助字段 基本字段主要是描述文献内容特征的字段 如篇名 文摘 叙词 自由标引词等字段 辅助字段主要是描述文献外表特征的字段 如著者 机构名称 语种 文献来源等字段 AN Dialog存取号 DialogAccessNumber 在一个数据库中 每条记录只有一个存取号 两者一一对应 TI 篇名字段 Title AU 作者字段 Author CS 作者所在单位字段 CorporateSource SO 文献来源字段 SourcePublication 包括期刊名称 年 卷 期 页等 或包括会议事项 PY 出版年份 PublicationYear CO 期刊代码字段 CODEN LA 语种字段 Language 表示原文的语种 DT 文献类型字段 DocumentType TC 处理码字段 TreatmentCode 表示论文的性质 A表示应用 X表示实验 T表示理论 等等 AB 文摘字段 Abstract DE 叙词字段 Descriptor 选自叙词表 主题词表中的词 ID 自由标引词字段 Identifier 非系统词表中的词 由标引人员确定 CC 分类代码字段 ClassificationCode 对于不同检索系统 不同数据库来说 其记录格式 字段代码 字段数目可能不完全相同 3 文档 File 若干条逻辑记录构成的信息集合 文档是书目数据库和文献检索系统中数据组织的基本形式 根据数据库的内部结构 一个数据库至少包含一个顺排文档和一个倒排文档 顺排文档 是按文献记录的输入顺序 即文献序号 排列的文档 相当于印刷型检索工具的正文部分 在顺排文档中 记录按顺序一个接一个地存放 一个存取号对应一条记录 存取号愈大 对应的记录就愈新 由于它存贮有记录的最完整的信息 所以 通常又把它称之为主文档 MasterFile 这种存贮方式决定了对记录的存取只能按顺序进行 如果在顺排文档中检索 对每个检索式都得按顺序从头到尾进行扫描 存贮的记录愈多 扫描的时间愈长 从而严重影响了检索的速度 主要供用户输出和打印文献记录用 倒排文档 把顺排文档中的标引词抽出 按标引词的字母顺序依次排列而成的文档 倒排文档实际上相当于印刷型检索工具中的辅助索引 倒排文档与顺排文档的区别 顺排文档以完整记录作为处理和检索的单元 倒排文档以记录中的字段作为处理和检索的单元 2计算机检索的基本原理与技术 2 1检索原理 计算机简单查询过程 以检索小麦或燕麦的文献为例 2 2检索功能 布尔逻辑检索功能词间位置检索功能截词检索功能限定字段检索功能禁用词其他功能 1 BooleanSearch 布尔逻辑检索 逻辑 与 AND and AandB A Bwheatandmildew 定义 用于交叉概念或限定关系的组配 即被命中的文献必须同时含有检索项A和B 作用 可缩小检索范围 提高查准率 要求 运用时 把出现频率低的检索词置于 与 的左端 可使否定答案尽早出现 节省机时 1 BooleanSearch 布尔逻辑检索 逻辑 或 OR or AorB A B computerorrobot 定义 表示两个概念的并列 即被命中的文献含有两词之一或同时包含两词 作用 可扩大检索范围 提高查全率 要求 组构检索式时 可将估计出现频率高的词置于 或 的左面 可使选中的答案尽早出现 1 BooleanSearch 布尔逻辑检索 逻辑 非 NOT not AnotB A B mildewnotwheat 定义 表示两个概念的排除 即被检索文献在含有检索词A而不含有检索词B时才被命中 作用 用于排斥关系的组配 即从原来的检索范围排除不需要的概念或影响检索结果的概念 提高查准率 注意 往往会把切题的文献给丢掉 运用时要非常慎重 2 位置检索 表达检索词之间位置关系的一种检索位置算符 3 截词检索 定义 允许检索词有一定范围的变化 检索时将截词符置于检索词允许变化的部位 只要检索词和标引词的词干相同即为命中文献 作用 减少检索词的输入量 扩大检索范围 提高检索效率 注意 使用截词检索必须慎重 一是词干不要太短 以免检出许多与原来检索词不相关的文献记录 二是英美不同拼法的词 如变化字母数不同则不能使用中间截词检索 必须详细写出并用OR组配后输入 分类 按截词位置 前截断 后截断 中间截断按截词方式 无限截词 有限截词 中间截词 前截断 将截词符放在词根前边 后方一致 表示在词根前方有有限个或无限个字符 如 magnetic能够检出含有magnetic ctromagnetic paramagnetic等词的记录 后截断 将截词符放在词根后边 前方一致 表示在词根后方有有限个或无限个字符 如metal 能够检出含有metal metals metaled metalist等词的记录 中间截断 将截词符放在词的中间 词的前后方一致 如colo r 能够检出含有colour color的记录 无限截词 指允许截去的字符数量不限 也称开放式截断 如前截断和后截断有限截词 允许截去有限个字符 如dye 能够检出含有dyer dye dyed dyeing等词的记录 中间截词 如中间截断 4 限定字段检索 定义 将检索过程限定在记录的特定的字段中进行 作用 缩小或约束检索结果 提高检索效率 检索符号 in 等 computer TI AB 表示在TI和AB字段中检索computer AU WangfangandPY 2000 表示查找王芳于2000年以来发表的文章 5 禁用词 stopwords 保留词 Near and or not噪音词 非常常见的词 a are for the with is of about for as from this等 6 其他功能 整体检索 在词组的两端加上 如 wheatpowderymildew 优先级检索 在一个复杂的逻辑提问中 使用括号 单层或多层 来指定运算的先后顺序 A B C D E F 3计算机检索策略及其调整 3 1计算机检索策略1 最专指面优先策略2 最少记录面优先策略3 积木型概念组面策略4 引文珠形增长策略5 逐次分馏策略3 2计算机检索策略调整扩检缩检 1 最专指面优先策略 指在检索时 首先选择最专指的概念组面进行检索 如果检索命中的文献相当少 那么其他概念组面就不再加到检索提问式中去 如果检索命中的文献较多 就把其他概念组面加到检索提问式中 以提高查准率 2 最少记录面优先策略 与最专指面优先策略类似 即先从估计检中的文献记录数量最少的概念组面人手 如果检中的文献记录相当少 则不必检索其他概念组面 反之 则将其他概念组面加到检索提问式中去 提高检索结果的查准率 3 积木型概念组面策略 把检索课题分解成若干个概念组面 并分别先对这几个概念组面进行检索 在每个概念组面中尽可能全地列举同义词 相关词 近义词 并用布尔算符 OR 连接成子检索式 然后再用布尔算符 AND 把所有概念组面的子检索式连接起来构成一个总检索式 4 引文珠形增长策略 从直接检索课题中最专指的概念组面开始 以便至少检出一篇命中文献 检索人员从这一条或数条记录中找到新的规范词或自由词 补充到检索式中去 然后再检索就能重新查出更多的文献 5 逐次分馏策略 先确定一个较大的 范围较广的初始文献集 然后逐步提高检索式的专指度 从而逐步缩小命中文献集 直到得到数量适宜 用户满意的文献集合为止 扩检时 即提高查全率时 调整检索式的主要方法有 1 选全同义词并以 OR 方式与原词连接后加入到检索式中 2 降低检索词的专指度 从词表或检出文献中选一些上位词或相关词 3
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年空气质量自动监测站建设与运营合同
- 2024注册电气工程师题库含答案详解【综合卷】
- 2025年高校教师资格证之《高等教育法规》预测试题含答案详解(a卷)
- 2024-2025学年度事业单位招聘题库试题(有一套)附答案详解
- 2025年安全知识培训试题及完整答案(全国真题)
- 2025年电子技术基础知识考试试卷及答案
- 幼儿教学工作实施方案
- 2024自考专业(护理)试题预测试卷附参考答案详解(考试直接用)
- 2025咨询工程师试题【必考】附答案详解
- 安全员b证延期 及答案
- 胖东来工资管理制度
- 轻型卒中临床诊疗中国专家共识(2024版)解读
- 卫生政策学课件
- 耳机品质协议书范本
- 读后续写如何表达悲伤背默与仿写
- 人美版五年级上册5.绘画中的透视现象一等奖教案设计
- 从法律出发理解与应用新清单标准
- 四年级数学上册作业设计全册
- 消毒供应质量控制指标(2024年版)
- 公司销售人员激励方案
- (完整)公共基础知识题库及答案
评论
0/150
提交评论