第二章-信息检索的基本原理课件_第1页
第二章-信息检索的基本原理课件_第2页
第二章-信息检索的基本原理课件_第3页
第二章-信息检索的基本原理课件_第4页
第二章-信息检索的基本原理课件_第5页
已阅读5页,还剩78页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

QQ群:186097216QQ群:1860972161目录第一节信息检索的涵义及类型第二节信息与信息源第三节信息检索方法与步骤第四节信息检索效果的评价4123目录第一节信息检索的2第一节信息检索的涵义及类型广义:是指将信息按一定的方式组织和存储起来,并根据信息用户的需要找出有关信息的过程和技术。全称为“信息存储与检索”。狭义:是指该过程的后半部分,即从信息集合中找出所需要的信息的过程,相当于人们通常所说的信息查寻。

信息检索的原理:就是将读者(用户)的信息需求与存贮在信息集合体中的信息进行比较和选择,即匹配(match)的过程。即对信息集合与需求的匹配与选择。第一节信息检索的涵义及类型广义:是指将信息按一定的方3信息检索的类型根据信息检索对象形式不同,分为:信息检索的类型4信息检索的类型根据信息储存媒体和检索手段不同,分为:信息检索的类型5信息检索的类型根据信息检索信息形式不同,分为:信息检索的类型6检索的作用1.与时俱进,跟踪所关注问题的最新动态2.节省查找信息的时间,提高学习或工作效率3.知识创新需要检索信息,避免重复研究走弯路检索的作用1.与时俱进,跟踪所关注问题的最新动态7找什么?怎么找?怎么利用?信息资源的类型(类型、特点、作用)

检索原理与技术(检索原理、方法和途径;常用数据库介绍、网上资源检索、特种文献检索等)

分析、组织、管理信息检索找什么?怎么找?怎么利用?信息资源的类型检索原理与技术8第二节信息与信息源信息论的奠基人,美国数学家克劳德·香农(ClaudeE.Shannon):“信息是用来消除不确定性的东西。”控制论的创始人,美国科学家维纳(N.Wiener):“信息是人们在适应外部世界并使这种适应反作用于外部世界的过程中,同外部世界进行相互交换的内容的名称。”中国学者钟义信:“信息是事物运动的状态与方式,是物质的一种属性。”一、信息(一)什么是信息?(Information)第二节信息与信息源信息论的奠基人,美国数学家克劳德·香9(一)什么是信息“信息是事物运动的状态与方式,是物质的一种属性。”“信息”是我们的一个生存环境,吸收信息的内容和层次决定所处水平和层次,吸收与获得信息的层次越高越准确,则思考方式就越准确,找到问题的解决方案也就越准确,获得的物质与精神报酬就越来越高。(一)什么是信息10信息爆炸信息爆炸11客观性载体性传递性

可塑性时效性信息的使用周期越来越短可以进行加工和处理必须依附于一定的载体才能流通和传递是实现信息资源共享的基础共享性可被多个用户使用信息可被感知、获取、传递和利用(二)信息的特征客观性载体性传递性可塑性时效性信息的使用周期越来越短可以进12二、信息源信息源,顾名思义,就是信息的来源。联合国教科文组织出版的《文献术语》将其定义为:个人为满足其信息需要而获得信息的来源。表达方式潜在信息资源---在认识和创造过程中储存在大脑中的信息资源,不具有广泛传播和长久保存的能力,不能被他人利用现实信息资源-表达后能为他人利用的资源口语信息资源-讲演体语信息资源-舞蹈实物信息资源-文物文献信息资源-文字二、信息源信息源,顾名思义,就是信息的来源。联合国教科文组织13第二节:信息源的主要类型1、根据载体形式划分2、按结构等级(文献的加工程度)划分3、根据编辑出版形式划分第二节:信息源的主要类型1、根据载体形式划分141、根据载体形式划分印刷型缩微型机读型视听型图书连续出版物资料缩微平片缩微胶卷缩微胶片磁带、磁盘光盘联机网络版录音带、录像带唱片、幻灯片电影胶卷1、根据载体形式划分印刷型缩微型机读型视听型图15信息等级2、按加工处理的深度划分零次信息:普通网页,电子邮件等一次信息:以作者本人的生产和科研工作为依据而创作的原始信息。如正式在期刊上发表的论文、专著等。二次信息:将分散无序的一次信息进行加工整理后,使之成为系统有序的信息。如数据库中的题录、目录、搜索引擎等。三次信息:根据二次信息提供的线索,利用一次信息,经过调研、分析、综合而形成的。如百科全书、文献综述、进展报告等。信息等级2、按加工处理的深度划分零次信息:普通网页,电子邮件16零次信息未正式发表的口头、书面或电子形式的文献,也称为“半文献”。如私人笔记、文章草稿、会议记录、书信文稿及各种内部档案等。零次信息未正式发表的口头、书面或电子形式的文献,也称为“半文17网上零次信息对应于网上信息资源,属于零次信息范畴的有:E-mail、BBS、QQ、NEWSgroup以及非专业权威网站上发布的信息等等。网上零次信息对应于网上信息资源,属于零次信息范畴的有:18零次信息的特点①数量多,内容新,更具有启发性;②信息反馈迅速、及时、准确;③具有高度选择性和针对性;④有限性和不可靠性,要特别提防虚假信息。零次信息的特点①数量多,内容新,更具有启发性;19一次信息(多指一次文献)一次文献通常是指发表在正式出版的书刊上的的文献,一次文献通常是以作者自己的研究成果、工作经验和实践体会为原始依据而形成的,这类文献中包含有大量的最新信息。一次信息(多指一次文献)一次文献通常是指发表在正式出版的书刊20一次文献的特点①内容比较具体、丰富,具有新颖性、创造性、系统性等特点;②经过权威机构筛选,科学性基本有保证;③可以回溯检索,不像新闻那样有时效性;④由于数量巨大,往往检索困难。一般都是首先检索二次文献后,再去查阅一次文献。另外网上一次文献资源相对较少。一次文献的特点①内容比较具体、丰富,具有新颖性、创造性、系统21二次信息是对一次文献加工、提炼和浓缩而成。是将分散、无序的信息转变成有序的、便于管理的系统。包括目录、题录、文摘和索引等检索工具,可对一次文献进行报道和线索指引。

对应于网上信息资源,属于二次信息范畴的有题录数据库、网上图书馆目录等等。二次信息是对一次文献加工、提炼和浓缩而成。22二次信息的特点①具有浓缩性、汇集性、有序性等特点,

检索方便,网上二次信息资源丰富;②除网上图书馆目录可以免费获取外,大型数据库的检索一般均须付费;③受加工和出版周期的影响,一般二次信息比一次文献要晚一段时间。二次信息的特点①具有浓缩性、汇集性、有序性等特点,

检索方便23三次信息源用科学方法和专业知识对一次文献和二次文献进行汇集、综合、分析、详述等深度加工而形成的。它包括手册、百科全书、年鉴、名录、指南等参考工具书。还有二次书目、指南以及综述性、评论性文献都属三次文献范畴。三次信息源用科学方法和专业知识对一次文献和二24三次文献的特点①权威性强,一般读一篇综述即可了解某一领域某段时间的全部发展情况,对科研指导性强;②资源相对稀少,没有专门的三次文献数据库,一般分散在二次文献数据库中,或字典、词典、辞典、百科全书、专题目录、数据手册等工具书中③加工和出版周期更长,甚至可能比二次文献还晚数年。三次文献的特点①权威性强,一般读一篇综述即可了解某一领域某段25一次信息二次信息三次信息期刊论文会议论文科技报告专利说明书学位论文标准目录文摘索引百科全书手册年鉴词典综述述评记录知识的产生传播信息的利用某些数据库信息级别示意图一次信息二次信息三次信息期刊论文会议论文科技报告专利说明书学26几点启示1、使用搜索引擎得到的零次文献较多,但这绝不是无用的文献,要善于从零次文献中获取有用信息,作为获取一次文献的线索。2、写作论文必须依据一次和三次文献。著录格式则必须按二次文献的格式写作。3、检索信息主要靠二次文献,因此,熟悉二次文献的著录格式和检索点非常重要。4、三次文献是“关于文献的文献”,是最难写作的文献类型。论文文献综述恰恰属于此类。几点启示1、使用搜索引擎得到的零次文献较多,但这绝不是无用的273.根据信息源的编辑出版形式划分图书连续出版物特种文献普通图书工具书期刊型书籍报纸期刊科技报告专利文献学位论文标准规范政府出版物产品资料会议文献3.根据信息源的编辑出版形式划分图书连续出版物特种文献28小结:十大信息源(1)科技图书(6)科技报告(2)科技期刊(7)政府出版物(3)会议文献(8)标准文献(4)专利文献(9)科技档案(5)学位论文(10)产品样本特种文献小结:十大信息源(1)科技图书(6)科技29第三节信息检索途径与步骤(一)信息检索的途径1、文献外部特征的检索途径(1)责任者途径(著者姓名途径)(2)题名途径(书名途径)(3)文献类型途径(4)代码途径(序号途径)以文献的编号为特征,检索文献的途径。根据一些文献类型的特有标识,如科技报告的报告号;专利文献的专利号、入藏号,合同号,技术标准的标准号;ISSN,ISBN等作为检索点。第三节信息检索途径与步骤(一)信息检索的途径30

常用文献类型用单字母标识,具体如下:

(1)期刊[J](journal)(2)专著[M](monograph)(3)论文集[C](collectedpapers)(4)学位论文[D](dissertation)(5)专利[P](patent)(6)技术标准[S](standardization)(7)报纸[N](newspaperarticle)(8)科技报告[R](report)

常用文献类型用单字母标识,具体如下:

(1)期31各种文献的识别要素、特点与主要用途对比各种文献的识别要素、特点与主要用途对比32各种文献的识别要素、特点与主要用途对比各种文献的识别要素、特点与主要用途对比33国际通行的出版物代码,由13位阿拉伯数字组成,ISBN号具有专指性,唯一代表某种书的某一版本,2007年1月1日起正式使用13位ISBN号。前缀号:国际物品编码协会(ENA)为图书分配的商品代码。目前使用978,预留979。组号:组号是国家、地区、语言或其他组织集团的代号。由国际书号中心(InternationalISBNagency)负责分配。中国组号为一位数字“7”。出版社号:由国家标准书号中心负责分配,其位数视申请出版社图书出版量多少而异。书序号:由出版社负责管理分配,每个出版社所出各种图书的序号校验号:是校验ISBN编号是否合法。978-7-118-05497-2前缀号组号出版社号书序号校验号例:国际标准书号国际通行的出版物代码,由13位阿拉伯数字组成,ISBN号具有34第二章--信息检索的基本原理ppt课件35(一)信息检索的途径2、文献内容特征的检索途径(1)分类途径是一种按照文献信息所属学科(专业)属性(类别)进行检索的途径。一般检索系统均提供数据库所使用的分类表的分类号索引。如:《中国图书馆分类法》(2)主题途径是根据表达文献主题内容的主题词及其派生出的关键词为标识查找文献信息的途径。(3)分类主题途径是分类途径与主题途径的结合,能够尽量避免两者的不足,取其多长。(4)其他检索途径①出处途径

②时间途径③任意词途径④专门术语途径(一)信息检索的途径2、文献内容特征的检索途36分类途径分类途径37描述文献内容特征分类语言主题语言描述文献外部特征著者出版事项代码/序号标题词语言自然语言叙词语言关键词语言题名检索语言描述文献分类语言主题语言描述文献著者出版事项代码/序号标题词38A

马克思主义、列宁主义、毛泽东思想、邓小平理论B

哲学、宗教C

社会科学总论D政治、法律E军事F经济G文化、科学、

教育、体育H语言、文字I文学J艺术K历史、地理

N

自然科学总论O数理科学和化学P天文学、地球科学Q生物科学R医学、卫生S农业科学T工业技术U交通运输V航空、航天X环境科学、安全科学Z

综合性图书社会科学自然科学《中图法》(知识分类)A马克思主义、列宁主义、毛泽东思想、邓小平理论B39

(二)计算机检索技术1、布尔逻辑检索是应用布尔逻辑代数的原理设计的、应用于计算机信息检索系统的一种主流检索技术与方法。三种类型:逻辑与(AND)逻辑或(OR)逻辑非(NOT)(二)计算机检索技术1、布尔逻辑检索40布尔逻辑检索1)逻辑“与”运算符:AND或*检索式:AANDB或A*B含义:检出的信息中必须同时含有“A”和“B”两个检索词。提高检准率,增强检索专指性。BA布尔逻辑检索1)逻辑“与”BA41例:逻辑与(AND或*)计算机在图书馆的应用计算机图书馆计算机AND图书馆例:逻辑与(AND或*)计算机在图书馆的应用计算机图书馆计算42人类活动对群落多样性的影响检索概念:人类活动群落多样性影响检索式人类活动AND群落多样性人类活动AND群落多样性AND影响人类活动对群落多样性的影响43人类活动AND群落多样性AND影响人类活动AND群落多样性AND影响44布尔逻辑检索2)逻辑“或”运算符:OR或+检索式:AORB或A+B含义:数据库记录中任何一条记录,只要含有“A”或“B”中任何一个检索词即为命中的文献。提高检全率,扩大检索范围如:“微机+电脑+PC机”“微机or电脑orPC机”BA布尔逻辑检索2)逻辑“或”BA45布尔逻辑检索3)逻辑“非”

运算符:NOT或-检索式:ANOTB或A-B在含检索词A的记录中,去掉含检索词B的记录例1查“玉米但不是甜玉米”方面的文献。检索式=玉米-甜玉米例2查“国外有关数字图书馆方面”的文献检索式=数字图书馆-国内BA布尔逻辑检索3)逻辑“非”

运算符:NOT或-BA46布尔逻辑检索布尔逻辑运算符的运算顺序优先级高优先级低NOTANDOR布尔逻辑检索布尔逻辑运算符的运算顺序优先级高优先级低NOTA47截词检索2、截词检索截词检索是在词干的不同位置添加截词符,以此代表词的可变部位,从而减少相同词干的检索词的输入数量,是提高检全率的一种常用检索方法。主要用于检索词的单复数、词性的词尾变化、词根相同的一类词,以及同一词的拼法变异等。在不同的检索系统里用不同的符号,一般为:*、?、!提高查全率,防止漏检的有力手段截词检索2、截词检索48截词检索1)按截词的数量划分●有限截断:即一个截词符只代表0或1个字符。如:apple?可检出apple、applet等结果●无限截断:一个截词符可代表多个字符。如:comput!可检出:computer、 computers,computering等结果注:不同的数据库所用的截词符不一样,使用应先查一下各数据库的帮助加以确认。截词检索1)按截词的数量划分49截词检索2)按截词的位置划分1.把截词符号置放在一个检索词的中间;2.中截断不允许有限截断1.将截词符号放在一个字符串左方,表示其左的有限或无限个字符不影响该字符串的检索;2.实质:后方一致检索1.最常用的截词检索技术;2.放在字符串右方,表示其右有限或无限个字符不影响该字符串的检索;3.实质:后截断是前方一致检索后截断前截断中截断截词检索2)按截词的位置划分1.把截词符号置放在一个检索词的50截词检索●后截断主要使用于如下几种情况:检索词的单复数的描述;如:book?同根词的表达;

如:chemi*可以检索出chemical、

chemistry、chemist等同根词年代的表达;

如:20??(21世纪),199?(20世纪90年代)作者

如:Moyer*可以检索出所有姓Moyer的作者截词检索●后截断主要使用于如下几种情况:51截词检索●前截断:又称左截断,截词符在词的左边如:输入*computer检索结果

microcomputer

minicomputer截词检索●前截断:又称左截断,截词符在词的左边52截词检索●中截断:截词符在检索词的中间输入:

organi?ation检索结果

organization

organisation中截断主要使用于如下几种情况:检索词的拼写方式存在美式、英式之分;检索词在某个元音位置出现的单复数不同;

如:man与men作用

扩大检索范围,提高检全率,减少检索词的输入量截词检索●中截断:截词符在检索词的中间53位置检索3、位置检索

(1)词级位置检索指在检索词之间使用位置算符来规定算符两边的检索词出现在记录中的位置,用以检索出含有检索词且检索词之间的位置也符合特定要求的记录。

位置算符包括(W)、(N)算符,表示检索词之间的顺序关系(W):W是with的缩写,表示两个词必须紧挨着,且词序不可颠倒,(W)算符也可用空括号()代替。例:?Ssolar()energy(nw):表示两个词之间可插入n个词,且词序不可颠倒。例:?Ssolar(3w)energy(N):N是near的缩写,表示两个词之间必须紧挨着,但词序任意。例:?Sfiber(N)optic(nN)表示两个词之间最多可插入n个词,词序任意。例:?Sfiber(4N)optic位置检索3、位置检索54位置检索

(2)子字段级或自然句级算符,用于限定检索词出现在同一子字段或自然句中,用(S)表示,S为subfield或sentence的缩写,表示其两侧的检索词必须出现在同一子字段中,即一个句子或一个短语中。例如:rapid(S)transit,即rapid与transit在同一个子字段或一个句子中位置检索(2)子字段级或自然句级55位置检索(3)字段级算符字段级算符用于限定检索词出现在数据库记录中的某个字段。算符用(F)表示,F为field的缩写。例如:air(F)pollution,表示air与pollution必须在同一字段中出现。位置检索(3)字段级算符56讨论:

1、查询高波教授的文章。发表(作者)、指导(导师)2、检索关于研究老舍的论文。输入“老舍”时必须选择途径为“标题”或“关键词”3、研究“法律与经济和政治的关系”的课题。检索的信息是法律与经济和法律与政治之间的关系,因此“经济”与“政治”的关系是逻辑“或”,不是“与”,检索式“法律﹡(经济+政治)”比“法律﹡经济﹡政治”检索的范围大得多。讨论:

1、查询高波教授的文章。57二、信息检索的步骤1.信息需求分析2.选择检索工具(或数据库)与检索手段3.确定检索途径与拟定检索式4.实施试检索操作5.检索结果的评价与获取原始文献二、信息检索的步骤1.信息需求分析2.选择检索工具(或数581.信息需求分析

只有对信息需求真正了解,才能获得正确的检索结果。需求分析是在问题及其最终解决方案之间架设桥梁的第一步。分析清楚需求间的逻辑关系包括因果关系、依赖关系、主次关系等,需求优先级的排列,就能探索出描述这些需求的多种解决方案。1.信息需求分析只有对信息需求真正了解,才能获59信息需求所涉及的通用问题信息需求所涉及的通用问题60信息需求差异

每个人的知识结构、所处环境和面临的问题都有所不同,由此而产生的信息需求也千差万别的。即使面对同一课题,不同身份的人需求的内容也不相同。在学术研究过程中,研究人员在课题设计、课题实验(试验)、成果发表、论文写作等不同阶段的信息需求也会不同信息需求差异每个人的知识结构、所处环境和面临的问题都有所61信息需求类型和文献类型的对应关系信息需求类型和文献类型的对应关系622.检索流程

检索流程是从确立信息需求到信息需求满足的全过程。对于不同的检索系统、不同的课题、不同的用户来说,其具体检索流程有所不同。通用信息检索流程一般包括:分析检索课题、选择检索工具、确定检索策略、调整检索策略及获取原始文献等流程2.检索流程检索流程是从确立信息需求到信息需63第二章--信息检索的基本原理ppt课件64(1)分析检索课题,进行信息需求分析课题分析确定检索主题确定检索的范围:地理、时间段、文献类型等预期所需文献信息数量(1)分析检索课题,进行信息需求分析课题分析确定检索主题65①分析课题的主题内容分析课题的主题内容、所属学科性质,明确研究课题所需的信息内容,从而提出能准确反映课题核心内容的主题概念。②确定检索时间范围根据课题研究的起始年代和研究的高峰期确定检索的时间范围。①分析课题的主题内容66③

确定课题的文献类型通过对课题进行主题分析后,确定所需信息的文献类型。如果属于基础理论性探讨,要侧重于查找期刊论文、会议论文。如果是尖端技术,应侧重于科技报告。如属于发明创造,技术革新,则应侧重于专利文献。如为产品定型设计,则需利用标准文献及产品样本。明确课题对检索深度的要求,弄清用户是需要提供题录、文摘还是原始文献。③确定课题的文献类型67④分析用户的检索评价要求分析用户对检索评介指标是查新、查准还是查全。一般来说,若要了解某学科、理论、课题、工艺过程等最新进展和动态,则要检索最近的文献信息,强调一个“新”字,若要解决研究中某具体问题,找出技术方案,则要检索有针对性、能解决实际问题的文献信息,强调一个“准”字;若要撰写综述、述评或专著等,强调一个“全”字。④分析用户的检索评价要求68⑤分析用户的检索是否有特殊要求是否对特定的研究机构感兴趣?

是否对特定的作者的研究感兴趣?

是否有特定的出版机构的文献与你的研究主题相关?其它?⑤分析用户的检索是否有特殊要求69(2)选择检索工具掌握数据库资源所覆盖的学科范围掌握各种数据收录文献的类型查看数据库的详细介绍和说明请教图书馆员要求介绍检索的最佳数据库(2)选择检索工具掌握数据库资源所覆盖的学科范围70

从内容上和时间上,考虑检索工具对课题的覆盖和一致性,比如就综合考虑数据库收录的齐全、编制的质量、使用的方便等因素。。在手段上和技术上,有机检条件一般就不选择手检工具,机检无疑有较高的效率。考虑价格和可获性,选择手工容易获得的检索工具,注意数据库的价格,权衡价格效益比。从内容上和时间上,考虑检索工具对课题的覆盖和一致性,71(3)确定检索策略

根据待查课题的已知条件、课题检索的深度,以及检索工具本身可能提供的检索途径,选择检索途径、建立检索式并实施检索。(3)确定检索策略根据待查课题的已知条件、课题检索72(4)调整检索策略

检索调整的基本目的,就是为了提高检索结果与用户需求的一致度。(这里的需求既可以是用户开始检索时明确表达的需求,也可以是检索过程中的动态需求)。如果检索结果过多或者过少甚至为零,就需要根据命中文献量的多少、命中文献的切题情况等,来决定是扩大检索范围还是缩小检索范围。

(4)调整检索策略检索调整的基本目的,就是为了提高73不满意

–非目标性结果

检查检索词的拼写

检查检索词的准确性-查阅词典、字典、词表,删除错误名词

调查被检索的数据库–数据库说明、期刊列表确定是否覆盖你所需要检索的主题不满意–非目标性结果检查检索词的拼写74扩大检索范围可采用以下方法:(1)降低检索词的专指度,可选一些上位词或相关词补充到检索式;(2)减少检索词,删去某个不甚重要的检索词;(3)进行族性检索,可用分类号或采用一组近义词、同义词或相关词用OR连接;(4)进行截词检索,可以采用后截断、前截断、前后截断等方法(5)增加检索途径,如将主题途径与非主题途径结合起来使用(6)取消限制过严的前后缀符、限制符。扩大检索范围可采用以下方法:75缩小检索范围入手可采用以下方法:(1)提高检索式的专指度,增加或换用下位词或子概念或专指度较强的自由词;(2)逐步缩小检索途径的检索范围:全文→主题→文摘→关键词→题名;(3)有些数据库还能限定期刊

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论