




已阅读5页,还剩37页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
,计算机信息检索,教学目的和要求 要求学生了解计算机检索的基本原理和方法,机检服务方式,掌握光盘数据库的检索技能,网络信息检索方面的知识。 主要内容:,第一 节 计算机检索概述 第二节 计算机检索原理和检索技术 第三节 光盘检索 第四节 Internet与信息检索,第一节 计算机检索概述,一、计算机信息检索的定义 二、计算机检索系统的构成 三、数据库 数据库的基本类型(按内容性质分) 数据库的结构:以书目数据库为例,数据库的基本类型(按内容性质分),1、文献型数据库(full text database;bibliographic database) 如:国外三大农业数据库、中国学术期刊(光盘版) 2、非文献型数据库(fact database;data database; 概念型数据库、图像型数据库等。) data database:存贮有科学数据,统计资料等数据。 Fact database:存贮有企业名录、百科全书、人名录 等有利用价值的信息。 概念型数据库:存贮有各种名词属于或语言资料,一 般来源于词典等。 图像型数据库:存贮有某些图象信息,如图片、云图、 工程设计图等。,由字段、记录、文档组成 字段:字段的构成=字段标识符+字段值 字段的类型:三种 检索系统存取号AN(Accession Number) 基本索引字段(Basic index fields)如Ti、Ab、De等 ( 表达的文献的内容特征) 辅助索引字段(Addition Index Fields)如: Au、Py、Jn、La、Dt等 ,表达的是文献的外部特征。 常用字段代码及其表示法(见下页),数据库的结构:以书目数据库为例(见书107页),字段代码 字段名 表示方法 TI Title apple? in ti AB Abstract machine in ab DE Descriptors building in de AU Author au=liu BN ISBN bn=0-5635-0144-4 CC CAL Classification(分类号) cc=921 CD Conference Date cd=19960501 CL Conference Location(会址) cl=hangzhou CT Conference Title ct=robotics and au tomation CY Conference Year cy=1996 DT Document Type dt=book LA Language la=english PY Publication Year py=1990 SN ISSN sn=1060=9857 SO Source Publication so=power,记录:见下页举例 文档: 根据记录在文档内的组织方式和存取方法,文档分为: 顺排文档(也称主档):按文献存取号先后顺序排列的, 相当于检索工具正文部分。 倒排文档:相当于检索工具中根据需要而编制的各种索 引。 数据库是由若干文档构成。,分类号:S511.103.4 记录号:96017590 著 者:徐建龙等 篇 名:水道白叶枯病抗性基因Xa-21的初步利用 刊 名:浙江农业学报 信息出处:96.8(2).7073 主题词 :遗传效应 育种 白叶枯病 水稻 抗病性,第二节 计算机检索原理和检索技术,一、计算机检索原理,二、计算机检索步骤 三、计算机检索技术 四、检索策略的制定 五、检索举例 六、检索技巧,打开数据库,输入检索提问 (检索式),在索引词典文档中比较和匹配,从记录号倒排文档中调取记录号集合,记录号集合间的逻辑运算,顺排文档中调取记录,输出命中记录,结束检索,记录内容不合要求,重新调整检索策略,篇数不合要求,结果不匹配,重新输入检索标识,另选数据库,关于计算机文献信息数据库的检索原理我们可参考下图:,二、计算机检索步骤,1、分析、理解课题 2、选择检索系统和数据库 3、选择检索词、构造检索式,1、分析、理解课题 (1)了解用户信息需求的目的和意图 目的和意图不同,检索式、范围就不同 (2)分析主题要求 分析检索课题涉及的学科范围、以便选定合适的检索系统和数据库。 分析主题内容:主题的广度和深度。 (3)时间要求,(4)检索效果的要求 即检索结果的查全率、查准率。所需文献的大概数 量是否提供原始文献等。 查全率要求较高时:选择检索词的主题概念范围要宽一些。 查准率要求较高时:选择检索词的主题范围要窄一些,专指度要高一些。 对于同时提供原文:选用全文数据库 (5) 检索费用及其他要求:,2、选择检索系统和数据库,光盘检索系统比联机检索系统数据库更新周期长, INTERNET 网上的各种信息查询工具,对网上许多免费的数 据库进行检索和下载。 3、选检索词、构造检索式(在四中讲) (1)检索词:是表达文献信息需求的基本元素,是计算机检索 系统 中有 关数据库进行匹配的基本单元。 (2)检索式的构造 检索式: 就是指计算机信息检索系统中用来表达检索提问的逻 辑表,由检索词和各种运算符及系统规定的其它组配 符构成。,三、计算机检索技术(见书110页),1、布尔逻辑检索功能 2、词间位置检索功能 3、截词检索功能 4、字段限定检索功能,1、布尔逻辑检索功能:用布尔逻辑算符来组配检索词以确定文献的命中与否。其算符的相互匹配方式一共有8种。 逻辑与(逻辑乘) 逻辑或 异或关系 “逻辑非”的“逻辑或”关系 “逻辑或”的“逻辑非” 逻辑非 被标引在该词下的,(1)逻辑与(逻辑乘),用运算符号:AND 或 * 连接检索词 例查 “有关计算机在图书馆中的应用”的文献, 检索式=计算机 * 图书馆 例查 “猪的饲养” 检索式=猪 * 饲养 用文氏图表示:图1-1,(2)“逻辑或”,用运算符号 “OR” 或 “+”连接两检索词 例1 查“苹果或梨”方面的文献 检索式=苹果 + 梨 它在同义词检索中使用,能提高查全率。 例2 查“计算机或机器人”方面的文献 检索式=计算机 + 机器人 用文氏图表示如下:,A OR B,( 3)“逻辑非”,用运算符号“NOT”或“”连接两检索词 A AND NOT B 有的书上也称为“与非”关系,即“逻辑乘”与“逻辑非” 例1 查“玉米但不是甜玉米”方面的文献。 检索式=玉米甜玉米 例2 查“不是铬合金”方面的文献。 检索式=合金铬 用文氏图表示: 图1-3,A NOT B,(4)“异或”关系,(A OR B )AND NOT (A AND B ) “异或”排除掉的是A AND B部分 例 A=水上运输工具,B=陆上运输工 而“异或”的关系则排除了A AND B的那部分, 即“水陆两栖运输工具”不能被命中。 这同A OR B 是有区别的。 用文氏图表示如下:,(A OR B)NOT(A AND B),(5 )“逻辑非”的“逻辑或”关系,即: NOT A OR NOT B 两检索词的。 例:查除俄文、法文两种文字之外 的其它各语种的文献。 用文氏图表示:图1-5,NOT A OR NOT B,(6)“逻辑或”与“逻辑非”,即:A OR NOT B 检索A 但否定B后的逻辑或, 例:检索焊接(A)方面的资料,但不要技术标准(B)。 这样,结果是“焊接标准”的资料被排除了。 但是其它一切课题的资料(除标准外)的资料均被命中。 用文氏图表示:图1-6 因此,A AND NOT B(即逻辑非) 和A OR NOT B是不同的 其效果相差很远。,A OR NOT B,(7)A即标引在A检索词下的文献,(8)NOT A检索不是检索词A下文献。 总结: 布尔逻辑检索是把任何检索课题加工成可以进行逻辑运算的 表达式, 这是计算机检索的一种被广泛采用的匹配方式。布 尔逻辑运算的优 点是简单明确、易于理解、符合人们的思 维习惯,A,A,NOT A,A,2、词间位置检索功能,文献记录中词语的相对次序不同,所表达的意思就可能不同。同样在检索式中,检索词的相对次序不同,表达的检索意图也不一样,布尔逻辑运算符有时难以表达某些检索课题的确切提问要求,用词间位置算符来限定和组配检索词,可弥补布尔逻辑算符只是定性规定检索词的范围,而没有限定检索词位置关系,易造成误检的不足。,词间位置检索技术就是利用一些特定的位 置算符来表达检索词之间的位置关系,并 且可以不用叙词表而直接使用自由词进 行检索的方法。有的书上还把这种检索称 为原文检索。这种检索在利用TI和AB途径 检索时,对检索质量影响很大。,例:检索“小麦中氨基酸” (determination of amino acids in wheat) 检索式:determination with amino acids with wheat 词间位置算符在不同系统中的使用方法不同: L在Dialog 系统中主要位置算符及其使用方法:(见书110-111页) L在SPIRS系统中,位置算符只使用两个: with 、near其含义见书。 那么,位置算符的应用,能缩小检索范围 提高查准率。,3、截词检索功能,截词运算符号有两个:“?、*” L其在不同系统中表示的含义不同。见书111 L在SPIRS系统中?为有限截断、*为无限截断; L在中刊库中只有?表示无限截断。 例:1、teen* teen,teens,teenage, teenager等 。 2、teen? Teen, teens,teenage (在词尾加?号,以?号的个数表示词后最多可跟字母的个数),L截词方式有很多,按截词位置可以分为: L前截断(后方一直检索) : ?Chemistry chemistry、biochemistry、 electrochemistry physicochemistry(物理化学)等。 注:在SPIRS系统和中刊库中无 L后截断 (前方一直检索) 例见书111, chem* chemical(化学制品)、 chemism(化学机理)、 chemomorphosis(化学诱变)、 chemosynthesis(化学合成)等。 L中间截断 :wom?n 分别检出了 woman,women两词fib?board 分别检出了 fiberboard,,fibreboard两词。,L截词检索在中文数据库中截的是词意, 例:西北? 分别检出了:西北农林科技大 学学报、西北园艺、西北纺织学院学报等。 L在外文数据库中截的是词的后缀,截断 派生出的词汇和原来的词义基本一致。 例“金属” metal* metal 、metals、metaled、metalist等。 L利用截词检索时,注意截词的部位,一定不能截的太深,否则误检率会很大。,4、 字段限定检索功能,将检索词限定在某一字段中,检索时,计算机只对限定字段进行运算,以提高检索效果。常用的检索符号有: in、=、 例1:English in la 例2: py1992 总结:在一个复杂的检索式中,不仅可以有多个运算符, 也可以使用括号来指定运算的优先顺序、以及体 现概念的完整性。 例3:查“玉米方面的英文”文献 检索式=(maize or zea-mays or corn)in de and(English in la),l 所以,计算机检索就是使用这些检索技术来实现文献情报的有无、多少、异同的比较,以达到检索的目的,在结合使用这些方法的时,一定要注意,每一个概念表达的完整性,注重括号的使用。,四、检索策略的制定:,(一)检索策略:是全盘计划与方案,为了尽 可能不失真地把拥护的信息需求转换成检索系统 允许接受的形式,首先要了解用户的检索目的和 要求,对用户提出的检索课题进行全面的分析研 究,为选择检索词,编写检索式作好准备,然后 根据检索课题的要求选择合适的数据库和检索系 统,开始检索后,要根据检索的具体情况及时调 整检索策略,使检索结果符合用户的要求 。,即(1)列出待检课题的学科范围、主题范围等。 (2)确定检索词和词的截断部位,调整词之间的位置关系及组配关系。 (3)选择相关数据库,确定检索途径。 (4)拟定检索式。 (5)实检与反馈调节 。,(二)、选择检索词应注意问题。 (1)该词的所有拼写形式和方法(包括同义词,元素和元素符号、缩写和全称等) (2)该词的广义词、狭义词、相关词及多义词等。 (3) 该词的最佳截断部位 (4)应包括那些非主题的词。如;LA ,PY等。 (5)参考有关的叙词表(汉语主题词表),在SPIRS系统中应充分利用INDEX=F5 (检查人名的正确表示方式和检查拼写等)和叙词表THESAURUS=F9(选准同义词和相关词) (6)对于泛指的主题概念词,应选用其包容特性的具体内容来表达:,例:水果贮藏方面的文献 (apple or pear or )and storage 例:哺乳动物胚胎发育方面的文献 (sheep or pig or cow or .)and embryo and development 代替 mammal animal and embryo and development (7)具有层次结构或等级关系的主题概念,应用其包容特性的名称来表达: 例:谷类作物真菌方面的文献 cereal and fungi,(8)当课题面窄,提问专指度高,而数据库中对文献的标引深度可能不足时,对检索词可进行粗化,取其上位检索词 例:玉米同功酶方面的文献: isozymes enzymes (三)、拟定检索式要求: (1)表达课题要求 (2)必须与数据库文献标识相匹配 (3)简单明了,五、检索举例:,例1 检索有关“苹果、梨的植物病理的研究” (用CAB文摘光盘数据库检索该课题)winspirs4.0 在检索提示FIND下输入检索式: #1 fireblight #2 (apple?or malus) in de #3 (pear? or pyrus) in de #4 #2 or #3 #5 #1 and #4 #6 la=english #7 #5 and #6,Firelight and (apple? or malus) in de)or (pear? or pyrus) in de) and (la=english),输出检索结果(可以用SPIRS系统的输出指令show、print、download来进行) 退出系统:按F10后再按QUIT即可。,例2 : 查找“杀菌剂在蔬菜上的残留” 用中文科技期刊数据库 键入检索式: A 主题词:杀菌剂 年代8999 检中2
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 子女作息习惯培养与家长支持合同
- 管理者的价值体现
- 建筑施工现场安全培训与咨询服务协议
- 婚后奢侈品共有及离婚后财产分割及权益维护实施协议
- 半导体引线框架研发与市场推广合作协议
- 紧急救援私人飞机航线申请与保障合同
- 国际艺术品物流保险及风险防控合同
- 股权激励合同模板:核心员工激励方案
- 先进工业模具技术升级合同补充条款
- 豪华游艇卫星电话租赁及全球语音数据传输合同
- 江苏省苏州市吴中、吴江、相城、高新区2024-2025学年七年级上学期期末阳光调研道法试卷(含答案)
- 2024-2030年中国检验检测行业发展潜力预测及投资战略研究报告
- 融资融券与投资者行为
- 装配式建筑深化设计-1.2.3 装配式建筑深化设计拆分原47课件讲解
- 2025年中考数学二轮专题复习 题型五-几何探究题
- 【MOOC】园林植物应用设计-北京林业大学 中国大学慕课MOOC答案
- R1快开门式压力容器操作考试题及答案
- 广东开放大学国家安全概论(S)(本专)考核作业参考原题试题
- 2025届高考作文复习:时评类作文分析 课件
- 老年期常见心理问题的护理(老年护理课件)
- T-CAICI 89-2024 通信建设安全生产标准化基本要求
评论
0/150
提交评论