信息检索基础知识1.ppt_第1页
信息检索基础知识1.ppt_第2页
信息检索基础知识1.ppt_第3页
信息检索基础知识1.ppt_第4页
信息检索基础知识1.ppt_第5页
已阅读5页,还剩35页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

一 信息检索 二 信息检索语言、途径 三 信息检索技术 四 检索步骤,第二章 信息检索基础知识,一、信息检索 信息检索:是指将信息 (主要指文献信息)按一定 的方式组织和存储起来,并 根据用户的需要找出相关信 息的过程。,信息检索,存储,检索,存储:是对信息进行著录、 标引、整序,编制检索工 具和建立检索系统的过程。,检索:是指面向信息需求 而进行高度选择性的查找 过程。,检索的基本原理,信息检索基本原理的核心是用户信息需求与文献信息集合的比较和选择, 是两者匹配(match)的过程。 一方面是用户的信息需求, 一方面是组织有序的文献信息集合,检索就是从用户特定的信息需求出发,对特定的信息集合采用一定的方法、技术手段,根据一定的线索与规则从中找出(search, locate, hit) 相关的信息。 匹配有其匹配标准,这里涉及到两者一致性、相关度等问题,按一定的标准筛选出符合要求的信息。,信息检索一般过程,信息源,信息分析、著录、标引,信息的表示,检索语言,数据库,匹配过程,输出检索结果,用户,用户需求分析,检索表达式,信息检索的过程往往需要一个评价反馈途径,多次比较匹配,以获得最终的检索结果。其图示如下:,二 信息检索语言、途径,1、检索语言的含义及作用 2、检索语言的类型 3、检索途径,1、检索语言的含义及作用,检索语言:用于描述信息系统中信息的内容特征及外部特征和表达用户信息提问的一种专门语言。它要求文献的标引者和检索者共同遵守。按其使用的场合不同,检索语言常使用不同的名称,在存储的过程中用来标引文献,称为标引语言,用以编制索引就称为索引语言,用来检索文献则称为检索语言。是根据检索需要而创造的一种人工语言。,作用:1)、保证不同标引人员表征文献信息的一致性。 2)、使内容相同及相关的文献集中化。 3)、保证检索提问与文献信息标引的一致性。 4)、保证检索者按不同需求检索文献信息时, 都能获得最高的查全率和查准率。,2、检索语言的类型,检索语言的类型,表述文献外部 特征的语言,表述文献内部 特征的语言,题名 责任者 机构 号码,分类法,主题法,单元词语言 标题词语言 叙词语言 关键词语言 纯自然语言,信息特征与标识对应关系,责任者 及其单位,题名,摘要,关键词,中图分类号 文献标示码,正文,分类语言 也属于主题语言。分类语言是按学科范畴划分而构成的一种语言体系,它集中反映学科的系统性、反映它们的相关、从属、派生等关系,从总体到局部分层、分面展开,形成分类体系。由类目号码及名称作为检索语言,构成分类类目表,如前述图书分类表、专利分类表用的都是分类语言 。具体体现为用分类号和类名来表达信息的主题概念,如F25 物资经济 *中国图书馆图书分类法(5部类,22大类) *美国国会图书馆分类法 * 杜威十进位分类法 * IPC国际专利分类法,中图法大类表,中图法体系细分如下所示:,T 工业技术 TP 自动化技术、计算技术 3 计算技术、计算机 31 计算机软件 316 操作系统 .1 分时操作系统 .2 实时操作系统 .7 Windows操作系统 39 计算机的应用 391 信息处理(信息加工) 391.7 机器辅助技术 391.72 CAD 391.73 CAM ,F 经济 F0 经济学 F1世界各国经济概况、经济史、经济地理 F25 物资经济 F250 物资经济理论 F252 物资流通 F5 交通运输经济 F50 交通运输经济理论 F53 铁路运输经济 F54 陆路、公路运输经济 F55 水陆运输经济 F56 航空运输经济 F57 城市运输经济 F74 国际贸易 F740 国际贸易理论与方法 U 交通运输 U16 特种货物运输 U169 集装箱运输 U169.6 集装箱运输管理 ,主题语言 包括:关键词语言、单元词语言、标题词语言、叙词语言等,它们有不同的主题词表。主题词表达概念本身,在主题词表中通过参照系统来指示词汇之间的关系。如”交通运输”、“国际物流”。主题语言分为规范主题语言与非规范主题语言。 规范主题语言:规范主题语言是以自然语言为基础,经过标准化、规范化处理的词语,具有概念性、规范性、组配性、语义性和动态性。规范主题语言包括单元词语言、标题词语言和叙词语言。 *单元词语言 是一种最基本的、不能再分的单位词语,亦称元词,它从文献内容中抽出,再经规范,能表达一个独立的概念。比如“天气雷达”不是单元词,只有“天气”和“雷达”才是单元词,在英语中,单元词经常是一个单词。如WPI-规范化主题词表 *标题词语言 是从文献的题目和内容中抽出来,经过规范化处理的主题语言。美国工程信息公司出版的工程标题词表(简称SHE)是典型的标题词语言,但该公司1993年以后改用工程索引叙词表(Ei Thesaurns)。,* 叙词语言 是以表达文献主题内容的概念单元为基础,经过规范化处理,可以进行逻辑组配的一种主语语言。如汉语主题词表、INSPEC叙词表(科学文摘)、工程索引叙词表等。 非规范主题语言:它是相对于规范主题语言而言的,以自然语言的语词作检索标识,其所用词汇未经过规范化处理。非规范主题语言包括关键词语言和纯自然语言。 关键词语言 直接从文献信息的标题、摘要或内容本身抽取出来的用于揭示信息主题内容的自由词。 纯自然语言 指完全使用自然语言,即对一条完整的信息中任何词汇都可以进行检索。它采用全文匹配法检索,主要运用于计算机全文数据库和网络信息检索中。使用纯自然语言中检索中最大的问题是误检率极高。,关键词的提炼,1、反映信息概念的准确性(作为检索词应当科学,表达的意思要准确,普遍使用,同时应该简明、精练,尽可能简短明了,易输易检,词汇不宜过长) 古代语言演变=古代语言*语言演变 =古代语言*演变 2、反映信息内容的全面性 协同设计+协同工作 3、注意检索词的多样性 轨道 铁轨 过程和规律 微型计算机 微机 电脑 “加热设备”可抽象化为“温度控制设备” “温度计”即“温度测量仪器” 4、少用或不用副词、助词、指示代词等不反映检索内容的词或词组。 如a,the,is,http,com 5、删除具有包含关系的其中一个 教学用的信息检索课多媒体课件信息检索*多媒体*课件 6、补充 A、补充还原词组:WTO世贸组织世界贸易组织 B、补充同义词或相关词: 计算机病毒(计算机+电脑)*病毒 C、增加限定词(解决一词多义现象): 杜鹃杜鹃(动物)、杜鹃(植物) 7、注意输入错别字、滥用多义词。如JAVA,既可只太平洋上的一个岛,也可是一种著名的咖啡,还是一种计算机语言。 8、切忌想要什么就输什么。 另外:首次利用关键词检索时,不要把条件限制得过于严格,最 好是检索出一些结果再使用其他限定条件,进行二次检索。,3、检索途径,检索途径又称检索入口,指信息用户在检索时,把所需信息的某种特征标识转换为检索标识,以此为入口进行检索,信息检索途径及其选择,内容特征检索途径 主题途径 指通过能表达文献内容的主题词来检索文献的一种途径。是信息检索的一种主要途径。 【如何提取检索词】: 1、切分 切分就是以词为单位划分句子和词组。 例:检索有关国际|国内|集装箱|班轮|运输方面的研究论文 要点:A.词是语义切分的最小单元,也是检索的最小单元。切分必须彻底,必须“到词为止”。如:“信息检索”可切分为:“信息|检索”。 B.切分也要适度,不能因切分而改变语义。如:不能将“操作系统”切分为“操作|系统”,2、删除 将课题转换成关键词的集合 A.删除不具有检索意义的虚词(a,the,is等)和关键词(因使用太宽泛而不具有检索意义,如:http,com等) B.删除过分宽泛和过份具体的限定词 无损检测技术在材料性能评价中的应用无损检测*材料 C.删除具有包含关系的其中一个 教学用的信息检索课多媒体课件信息检索*多媒体*课件 3、替换 用更本质的概念替换表达欠佳的概念 稀土材料的研制钐钴(用户实际上是研究钐钴材料) 空气中细菌的计算方法空气污染的计算方法 水果营养(水果fruit=梨pear+橙orange+苹果apple+),4、补充 A、补充还原词组:WTO世贸组织世界贸易组织 B、补充同义词或相关词: 计算机病毒(计算机+电脑)*病毒 C、增加限定词(解决一词多义现象): 杜鹃杜鹃(动物)、杜鹃(植物) 【获得主题词的技巧】:在图书的版权页可以找到该书的主题词和分类号,或者通过图书馆的馆藏数据来查找主题词。,分类途径 指根据文献所属的类别,利用特定的分类号来检索文献的途径。 优点:能够从学科或专业角度广泛地获得较系统的文献,能够达到较高的查全率。当所需要的信息范围比较宽泛或涉及内容复杂,仅用几个词语已无法涵盖检索需求时多采用分类途径。 例:检索“ 集装箱种类”的信息,该用何种途径? 分析: A、如果明确知道“集装箱种类”有哪些,而且知道具体名称,就用主题途径;(如保温集装箱、冷藏集装箱、柔性集装箱、液体集装箱、气体集装箱、干散物品集装箱、罐式物品集装箱、集装袋等 ) B、如果课题所指内容不是特定的几种,而是多种,也不知道具体的名称,就用分类途径。(F169.4 集装箱种类 ),著者途径 即根据已知文献著者来查找文献的途径。 【排列规则】 1、统一采用姓+名的顺序。英文的人名需实行倒置! 如:Arrow BSmith (阿罗B史密斯) Smith,Arrow.B. 2、复姓作者,将复姓作整体看待 例: Margaret Martin-SmithMartin-Smith,Margaret 【中文翻译成英文的处理】 3、音译:直接用汉语拼音。 西南交通大学Xi nan(southwest) jiaotong university 4、意译:通常有多种写法,检索式必须列举各种写法,才能保证查全率。 例:原西南师范大学在欧洲专利数据库中就有三种写法:Southwest China Normal Uniwersity/Southwest University/Xinan Teachers,University 【拼写形式】 如:张建国Zhang JG或Zhang JianGuo(通常),Zhang J(有时),Jianguo Z(偶尔),其他途径 题名途径 即直接利用图书的书名、期刊的刊名、标准文献的标准名来查找所需停息的方法途径。 机构名称途径 主要包括作者所在的单位,以及图书期刊的出版发行单位等。 代码途径 如专利号、标准书号(ISBN)、标准刊号(ISSN)、馆藏号等。在已知文献特定代码的前提下,利用代码途径检索文献是最为快捷的方法之一。 引文途径 从被引论文去检索引用论文的一种途径。,三 检索技术,一、概念检索 二、布尔逻辑运算符组配检索 三、截词检索 四、字段限制检索 五、位置运算符 六、检索技巧和方法,一、概念检索 检索标识是具体的检索词或词组,每个检索词表达一个概念,具体检索时,将检索词与数据库中的文献特征标识进行类比,两者相同,则该记录为命中文献。如:“铁路”、“物流”,二、 布尔逻辑算符组配检索 布尔逻辑组配运算是采用布尔代数中的逻辑“与”逻辑“或”、逻辑“非”等算符,将检索提问式转换成逻辑表达式,限定检索词在记录中必须存在的条件或不能出现的条件。凡符合布尔逻辑所规定的条件的文献,既为命中文献。,布尔逻辑运算符 ,1、逻辑“或” 2、逻辑“与” 3、逻辑“非”,1、逻辑“或”(和) ,用符号“or”或“+”表示,其逻辑表达式为: A or B 或 A + B 其意义为检索记录中凡含有检索词A或检索词B, 或同时含有检索词A和B的,均为命中文献。 如:铁路 or公路,2、逻辑“与” ,用符号“and”或“*”表示,其逻辑表达式为: A*B 或 A and B 其意义为检索记录中必须同时含有检索词A和B的文献,才算命中文献。如:铁路 and 物流,3、逻辑“非” ,用符号“not”或“-”,其逻辑表达式为: A not B 或 A-B 其意义为:检索记录中含有检索词A,但不能 含有检索词B的文献,才算命中文献。 如:铁路 and 物流 not 公路,三、截词检索,截词检索主要是利用检索词的词干或不完整的词形进行检索。 不同的系统截词符也不同:一般用“?” “ *” 表示. 1、后方截词:用于前方一致的派生词检索。 如:信息? 则表示在数据库中含有信息、信息技术、信息检索等方面的文献记录均为命中文献。 2、前方截词:用于后方一致的派生词检索。 如:?经济 则数据库中含有经济、工业经济、农业经济等方面的文献均为命中文献。,3、有限截词 在检索词后面加上一个或一个以上(最多4 个)的“?”,空一格,再加一个“?”。如: Comput? ? 可检索出: Computer,Computers,Computing,截词检索在不同的计算机检索系统中规 定不同,请使用时注意。,四、字段限制检索,为了缩小检索范围,可利用字段代码来限制检索词出现的字段,以提高检索速度和命中率。在数据库中,一般用“in”或者“/”加上字段名称来限制检索的范围,用“=”来连接语种、文摘号和出版社时间 如: logistics management in ti(表示只在题目字段中查找文献) logistics management in kw(只在主题词中查找) logistics management in ab(只在文摘中查找) au = Smith,J.C (查作者为Smith,J.C 的文章) py = 1998(只查1998年的文章) la =Chinese (只查语种为中文的文献),五、位置运算符,With(W):设定需检索的两个词或词组必须按顺序出现在记录中,且两词之间不允许插入其他词,只能有空格或一个标点符号.其扩展为(nW)。如:Computer (W) virus; Microwave (nW) radar Near(N):设定需检索的两个词或词组位置可以颠倒,在两词之间不能插入其他词,其扩展为(nN)。如“near3” 设定需检索的两个词或词组在同一句子中且相隔不超过3个单词。如: Computer (N) virus; Microwave (nN) radar,A、扩大检索范围提高查全率,* 概念的扩大。 * 范围的扩大。 * 增加同义词、近义词、相关词和缩略词。 * 用“or”、”?”、叙词表 * 年代的扩大。 * 去掉连字符可扩大检索范围。 * 换另外的数据库或是另外的光盘继续进行检索。,B、缩小检索范围的方法提高查准率,* 核心概念的限定。 * 核心期刊的限定。 * 语种的限定。 * 用布尔逻辑算符“and”或者“not”组配检 索词。 * 使用位置算符“near”和字段算符“in”提 高查准率。 * 使用“Index”和叙词表,选择确切的检索 词缩小检索范围,六、检索的技巧和方法,例如:某一老师就课题“有关国际|国内|集装箱|班轮|运输方面”的研究论文? 分析课题(信息提问):包括主题内容、信息类型、时间范围 提炼检索词即关键词:集装箱 AND 班轮运输 (container AND Liner Shipping) 选择适当的检索工具:CNKI 确定检索途径和检索方法: 检索途径:主要采用主题检索与分类检索相结合 检索方法:简单检索方法与二次检索相结合 调整检索策略:根据检索结果与信息需求不断调整检索途径与方法。 获取原文:利用CNKI全文库获取(视频) 检索效果评价,四 信息检索步骤,检索效果评价,信息检索的最终结果是否满足用户需求或满足程度如何,就存在对检索质量和效率进行评价的问题。在检索实践中,主要包括收录范围、查全率、查准率、响应时间、用户负担及输出形式,评价检索效率的基本指标具体有以下几种: 查全率(Recall ratio)用R表示 查准率(Precision ratio)用P表示 漏检率(Omission ratio)用O表示 误检率(Fall-out ratio)用F表示 新颖率(Novelty ratio)用N表示 有效率(Availability ratio)用A表示 检索速度(Time ratio)用T表示,(一) 查全率(R)和漏检率(O) 在对特定检索系统进行检索的过程中,我们设定:检中的相关信息量为a,系统中的相关信息总量为b,检索出的信息总量(包括非相关信息)为c,被用户实际利用的信息量为d,检索过程所花费时间为t。 R=a/b*100% =检中的相关信息量/系统中的相关信息总量*100% O=(1-a/b)*1

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论