数据库检索方式PPT课件.ppt_第1页
数据库检索方式PPT课件.ppt_第2页
数据库检索方式PPT课件.ppt_第3页
数据库检索方式PPT课件.ppt_第4页
数据库检索方式PPT课件.ppt_第5页
已阅读5页,还剩42页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第四章 计算机信息检索的基本技术与方法 1 一 计算机信息检索的基本技术 布尔逻辑 截词检索 加权检索 位置算符等 在进行计算机检索时 有时有一些比较复杂的课题 如 GPS在建筑中的应用 既涉及GPS 又涉及建筑 还有 应用 这时候就要编制出满足要求的计算机检索式 它是机检的基础 1布尔逻辑检索 BooleanLogicRetrieval 逻辑检索的基础是逻辑运算 逻辑运算中最常用的是布尔逻辑运算符 BooleanLogicOperators 即与 或 非三种运算符号 用它们可以表示概念之间的逻辑关系 2 3 2位置算符 ProximityOperators 位置算符是表示检索词之间位置关系的一种运算符 由于英文对一句话有多种表达方法 写法可能不同 如 GPS在铁路桥研究中的应用 这个课题 用英文表达可能是 UsingofGPSinRailwayBridge 也可能是 UsingofGPSinBridgeofRailway 因而可能编制出这样的检索式 GPSAND Railway 2N Bridge 我们可以通过位置检索提高检索的准确率 4 1 W 算符与 nW 算符W是word与with的缩写 特点 W词序不变 中间不可插词 但两词间可有一个标点 连字符或空格 nW词序不变 中间可插入N个词 如 potential w energy可能检出potentialenergyandfunction又如 gone 2w wind可能检出gonewiththewind 2 N 与 nN 算符N是near的缩写特点 N词序不限 中间不可插词 但两词间可有一个标点 连字符或空格 nN词序不限 中间可插入N个词 如 econom 2N recovery可能检出economicrecovery recoveryoftheeconomy 5 3 同字段检索A F B F是field的缩写 特点 A B两词必须出现在同一字段中 词序与词量不限 如 environment F impact DE 表示两个词必须同时出现在叙词字段内 4 同句检索A S B S是sentence的缩写 特点 A B出现在同一自然句中 子字段 其词序与词量不受限制 如 electric S plant可检出electricpowerplants如 EI中的NEAR PQDD中的W n 两词间距小于n个单词 且前后位置任意 Pre n 两词间距小于n个单词 且前后位置一定 6 3截词算符 Truncatingoperators 原因 在英语词汇中 一个词可能有多种形态 如词的单 复数形式的不同 英美拼写方法不同 词性不同等 如果检索时将这类词全部输入进去 会增加检索时间和费用 采用截词法可解决这一问题 所谓截词检索 是指在检索标识中保留相同的部分 用相应的截词符代替可变化部分 检索中计算机会将所有含有相同部分标识的记录全部检索出来 常用 符号表示 1 有限截词 即在检索词后后截几个有限的字母 如名词的单复数 动词的词尾变化等 如输入computer 表示有0 1个字母变化 可检出computer和computers 输入stud 表示截断处有0 3个字母变化 可检出study studies studied studing 7 2 无限截断 在检索词后加一个 表示该词后可加任意个字符 使用无限截词 所截词根不能太短 否则会输出许多无关文献 造成误检 如 computer 可检出computers computering computered computerization 3 中间截断 在检索词中间加一个或几个 号 主要解决一些英美拼写不同 单复数形式的不同的词的输入 可简化输入 如 输入wom n可检出woman women 8 各种算符在数据库中的实际应用位置算符 1 EINEARBridgeNEARPiling 表示这两个词要彼此接近 前后顺序不限 W nPig W 2pine 表示两个词的距离不能超过n个单词AdjChanneladjtunnel表示含有这两个词 两个词相邻 位置一定2 ISIProceedings用同句算符 SAME 如Channelsametunnel 表示channel和tunnel出现在同一句子中才符合检索条件 9 3 CSA within X 表示两词之间不得多于x个词 前后位置任意如 womenwithin8movement 顺序不定 4 Elsevier ADJ表示两词相邻 前后顺序固定 与 词检索 的结果相同 NEAR或NEAR N 表示两词相邻 中间可插入少于或等于n个单词 前后顺序可以发生变化 如果不使用 N 系统默认值为10 10 5 PQDDW n 两词间距小于n个单词 且前后位置任意 Pre n 两词间距小于n个单词 且前后位置一定 6 ProQuestW n 表示连接两个词之间可以插入n个词 前后位置可颠倒 如 Educationw 5intenet表示education和internet之间可以插入5个词 并且前后位置可以颠倒 Pre n 表示前后两词之间最多插入n个词 前后位置一定 如 U Spre neconomicpolicy可检出U Saideconomicpolicy orU Swartimeeconomicpolicy 11 截词符或通配符 如 CSA ISIProceedings ProQuest CA用通配符 和截词符 输入 patent 可以检索到patent patents patented等 无限截断 输入 wom n 可以检索到woman和women 输入 fib 可检索到fiber和fibre 有限截断 而EI用 和 词根算符 如 Optic 检索结果中包括以optic开头后面加任意多个字母的词例如optic optics optical等 manager 强调语义 检索出与该词根具有同样语意的词如 manage将检出managers managerial和management等词 通配符不能用在检索词的最前面 12 4括号检索 Parentheses 用于改变运算的先后次序 括号内的内容做优先运算 用 可以表示优先级 如比较 GPSORGIS ANDChinaGPSORGISANDChinaEI中的表示方法 RelevanceAND AalbersbergwithinAU OR coolwithinAU 13 5 字段限制检索组成数据库的最小单位是记录 一条完整记录中的每一个著录事项为字段 献书目型数据库的记录基本包括下列字段 1 存取号字段 AN AccessNumber 这是计算机检索系统为每个数据库的每篇记录规定的能被计算机识别的特定号码 在同一数据库中 每篇文献记录只有一个存取号 2 篇 题 名字段 TitleField TI 3 文摘字段 AbstractField AB 14 4 叙词字段或受控词字段 DestriptorField DE 或ControlledtermField SU 这一字段是标引人员给文献标引的反映其主题概念的词 这些词来自规范化的词表 也称主题词 5 自由词字段或非受控词字段 IdentifiedField ID KeywordField KY UncontrolledtermField 这一字段也是标引人员给文献标引反映其主题概念的词 但这些词不是规范化词表中的词 15 6 著者机构子段 corporatesource CS或AF 7 刊名字段 journal JN或ST 8 出版年子段 publication year PY 9 文献类型子段 ducumenttype DT或TY 10 语种子段 language LA 11 分类号子段 classification CC 16 注意事项 作者检索的缩写形式 在SCI中 姓 全称 空格名 首字母并且连写 如 LIDR GONGJY在EI中 姓名 全称 中文 姓 全称 名 缩写 机构检索中SCI中有多个作者单位 在同一字段中EI只收入第一作者的单位多字段检索时要选所有字段 allfield 17 基本索引子段和辅助索引子段一篇记录中主要用来表达文献内容的子段称为基本索引子段 basicindexfields 如篇名子段 文摘子段 叙词子段 自由词子段 而表达文献外部特征的子段称为辅助索引子段 additionalindexfields 包括著者子段 著者机构子段 文献类型子段 语种子段等 18 6短语检索 phrasesearch 即精确检索短语用 表示 检索出与 内形式完全相同的的短语 以提高检索的精确度和准确度7自然语言检索 naturallanguagesearch 直接采用自然语言中的字 词 句进行提问式检索 同一般口语一样 这种基于自然语言的检索方式又被称为 智能检索 适合不太熟悉网络信息技术的人员使用 支持自然语言检索的有中文的悠游 英文的AltaVista Excite Infoseek HotBot AskJeeves等 19 8多种语言检索multilingualsearch 提供多种语言的检索环境供用户选择 系统按用户选定的语种进行检索并反馈结果 支持多语种检索的如 中文天网 英文AltaVista Google等 20 9模糊检索 fuzzysearch 又称概念检索 当我们输入一个检索词时 搜索引擎不仅反馈包括了该关键词的网址 同时也发来与关键词意义相近的内容 比如 我们查找 查询 一词时 模糊检索会反馈来包含了 查询 查找 查一查 寻找 搜索 等内容的网址 反馈网址的排列 一般是完全符合关键词的在最前边 其次是相近的 现在大多数搜索引擎都有这种功能 只是模糊的程度不同 21 10字母大小写检索如果用户的检索式用小写字母表示 搜索工具既匹配大写又匹配小写 如 china 瓷器 china 中国 如果用大写字母表示 搜索工具认为用户指定了只要大写 就只会查找那些与用户键入的输入形式完全相同的结果 如 china 只检索出china AltaVista等搜索引擎支持区分大小写的检索 22 注意 自然语言检索 模糊检索 多种语言检索和区分大小写的检索是网络检索所特有的 在实际检索中 往往将多种检索技术混合使用 如 查找标题中含有 网络营销 的资料 它的计算机检索提问式 表达式 可以是 TI WebORWWW ANDmarket 又如 ISTP中的综合表示方法TS nanotub SAMEcarbon NOTAU SmalleyRE 23 2020 3 20 24 二 数据库的检索方法 检索界面 浏览方式 Browse 检索方式 Search 25 浏览方式 Browse 一般包括作者 作者单位 出版物名称及出版社索引或者按学科划分的分类索引如 EIElsevierCSAPROQUESTIEEE IEE重庆维普以及中国期刊网等等都提供了各种不同的浏览方式 26 检索方式 Search 基本检索 basic quick simple easy 属于一般性的检索 它是根据自己的检索需要 输入字 词或简单的检索式 不能使用位置检索 来完成检索的 是一种初级性的检索方式 高级检索 advance expend full expert 属于专家性的检索 可以根据自己的检索需要 构件比较复杂的检索式 可以使用逻辑 括号 截词以及位置算符 来完成高层次 高质量的检索 检索结果快速 准确 高级检索分为 菜单式检索和命令式检索 27 28 29 30 31 32 33 34 35 三 检索效果的评价 查全率与查准率是检索质量的两个重要的评价指标 查全率 recallratio 检出的相关文献量 检索系统中相关文献总量即检出文献中合乎需要的文献数量占数据库中存在的合乎该需要的所有文献的比例 查全率高说明有用的东西都被你检中了 但对于数量巨大的数据库而言 要达到100 的查全率是不可能的 在网络条件下尤其如此 36 查准率 precisionratio 检出的相关文献量 检出的文献总量 指检出文献中合乎需要的文献数量占检出文献全部数量的比例 准确率高说明你检出的东西都是有用的东西 一般地说 很少能达到100 的查准率 在查全与查准两个方面一般难以两全 为了获得很多有用的东西 达到高的查全率 需要较少的限制检索条件 但这样检出的无用的东西就会很多 查准率不高 反之亦然 37 四 检索策略的实施技巧检索策略 为实现检索目标而实施的方法 检索策略制定的原则 第一快 即从检索请求的提出到检索结果的提交要快速 第二准 即检索结果要准确 避免检索出过多无关内容 第三全 检索结果全面 满足用户的需求 第四效益原则 即以最低的费用获取所佳的信息 38 归纳起来包括 1 认真进行课题分析 确定正确的主题词及学科分类情况 2 正确选择各种算符 如逻辑算符 位置算符 截词符 3 编制合理的计算机检索式 4 随时调整检索策略 减少漏检和误检 提高查全率和查准率 首先 扩大命中文献数量以提高查全率 选用文摘字段检索 使用上位词或近义词 同义词用逻辑或 OR 连接 利用截词检索 其次 缩小检索范围以提高查准率 检索词限定在篇名和叙词字段 使用下位词 利用逻辑非去掉无关信息 利用逻辑积限定相关主题 39 五 计算机信息检索的具体步骤 方法 1分析检索课题 明确检索要求 这是检索的出发点 依据 分析检索课题 分析检索课题的中心内容和所属学科范围 以便准确选择反映文献内容特征的主题词 关键词 确定出所属学科的学科性质明确检索需求 即弄清检索目的及要解决的问题 用户的检索目的和要求是多种多样的 是撰写学位论文 还是申报科研课题 是技术革新还是成果鉴定 目的不同 检索的策略和范围也不同 检索需求主要反映在用户对命中文献的类型 语种及所需文献的年代等不同 40 2选择检索系统和数据库在分析检索课题 明确检索要求的基础上 必须综合考虑检索系统的特点 收录的学科范围 各数据库的专业范围 主题内容 数据来源与文献类型 技术含量 数据的存贮年限 更新频率 检索费用以及使用方法 41 3确定检索项与检索途径检索项主要指文献记录中的文献特征标识 反映文献内容特征的检索词如 标题词 叙词 和关键词 反映文献外表特征的如 作者 语种 文献类型等 检索途径指主题检索或分类检索 4编制计算机检索式 42 十 计算机检索逻辑表达式举例 例1 GPS在建筑事业中的应用主题词 A 全球定位系统 B 建筑测量 组配词 C 应用表达式 AANDBANDC例2 加拿大遥感活动展望主题词 A 遥感 B 测绘科技活动 组配词 C 加拿大 D 展望表达式 AORB ANDCANDD例3 Peter教授在测量平差理论方面的研究主题词 A 测量平差 组配词 B 理论 C 研究 D Peter表达式 AANDBANDCANDD例4 Batson关于土地规划与地籍测量方面的论述主题词 A 土地规划 B 地籍测

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论