2信息检索原理课件_第1页
2信息检索原理课件_第2页
2信息检索原理课件_第3页
2信息检索原理课件_第4页
2信息检索原理课件_第5页
已阅读5页,还剩101页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第二章信息检索原理与方法2信息检索原理1.信息检索概述1.1什么是信息检索?信息检索(InformationRetrieval):是指将信息按一定的方式组织和存储(Storage)起来,并根据信息用户的需要找出(Retrieval)相关信息的过程。(广义))狭义的信息检索即信息查找(InformationSearch,InformationSeeking),是从信息集合中找出所需信息的过程。2信息检索原理1.2什么是美术信息检索

从众多的、按特定方式组织与存储的美术信息资源系统中,检索出所需信息的过程。2信息检索原理2信息检索原理信息检索过程主要包括两个方面(原理):信息标引和存储过程:利用检索语言对信息资源进行标引,按一定的方式(分类、主题等)对资源进行集中。信息的需求分析和检索过程:利用检索语言表达信息需求,进行检索,得出结果。信息检索过程本质就是一个需求与信息集合中相关信息的匹配过程。检索语言是这种匹配的媒介。2信息检索原理1.3信息检索的类型(根据检索目的和对象的不同)1)书目信息检索

以标题、作者、摘要、来源出处、专利号、收藏处所等为检索的目的和对象,检索的结果是与课题相关的一系列书目信息线索,即检索结果不直接解答课题用户提出的技术问题本身,只提供与之相关的线索供参考,用户通过阅读后才决定取舍。因此,书目信息检索是一种相关性检索,得到的是信息线索。2信息检索原理2)事实型信息检索(Fact

Retrieval)

检索的结果是事实结论。查询某一事物(事件)的性质、定义、原理以及发生的事件过程等

或是有关某一事物的具体答案。2信息检索原理3)数据型信息检索(Data

Retrieval)

如某种材料的电阻,某变压器的参数,化学分子式、数据图表等<百科全书、手册、年鉴、名录等>

如:2007年7月份美国消费信贷增幅是多少?2011年3月8日人民币对欧元的汇率是多少?2信息检索原理针对美术信息检索的分析:

书目信息检索是从存储有标题项、作者项、出版项或文摘项的检索系统中获取有关的信息线索,如利用各种美术目录、题录和文摘检索系统。数据检索是从存储有大量数据、图表的检索系统中获取数值性信息,如利用各种美术手册、年鉴、图谱、表谱等工具。事实检索是从存储有大量知识信息、事实信息和数据信息的检索工具中获取某一事物的具体答案,如利用各种美术百科全书、年鉴和名录等检索系统。2信息检索原理按组织方式:全文检索、超文本检索、超媒体检索按检索方式分:手工检索、计算机检索2信息检索原理1965年TedNelson在计算机上处理文本文件时想了一种把文本中遇到的相关文本组织在一起的方法,让计算机能够响应人的思维以及能够方便地获取所需要的信息。他为这种方法杜撰了一个词,称为超文本(hypertext)。实际上,这个词的真正含义是“链接”的意思,用来描述计算机中的文件的组织方法,后来人们把用这种方法组织的文本称“超文本”。超媒体不仅可以包含文字而且还可以包含图形、图像,动画、声音和电视片断,这些媒体之间也是用超级链接组织的,而且它们之间的链接也是错综复杂的。

2信息检索原理2.检索语言:2.1定义:是用来描述信息源特征和进行检索的人工语言,可以分为规范化语言和非规范化语言(自然语言)两类。

规范化检索语言是指对检索语言中的同义词、同音词、多义词、同形异义词、近义词等进行规范化处理的语言,它是受控语言,对检索语言概念加以控制和规范,每个检索词含义明确,以便淮确检索,防止误检、漏检。为了使文献标引者和检索者用词统一,又能及时查到所需文献情报而编制出一些检索工具。如美国医学索引的医学主题词表(MeSH),我国编制供标引中医药文献的中医药主题词表也属规范化检索工具,是对各学科名词概念进行规范化的记录,也是从事主题标引的依据。2信息检索原理非规范化检索语言:对检索词不进行规范化处理,用能反映文献实质性内容的词作检索词,如关键词。2信息检索原理2.2作用:沟通信息存储和信息检索两个过程的桥梁。在信息存储过程中,用来描述信息的内容和外部特征,从而形成检索标识;在检索过程中,用来描述检索提问,从而形成提问标识;当检索标识和提问标识完全匹配或部分匹配时,结果即为命中文献

2信息检索原理检索语言的作用可具体表述为:标引文献信息内容及外表特征,保证不同的标引人员表征文献的一致性;对内容相同及相关的文献信息加以集中,并体现了它们之间的相关性;使文献信息有序化集中,便于有序化的检索;使标引语言和检索语言相互匹配,保证内容及形式表述的一致;保证检索者按不同需要检索文献时,都能获得满足。2信息检索原理2.3检索语言的类型2信息检索原理2.3.1分类语言分类语言是以学科体系为基础,用号码作为概念标识,按分类编排的检索语言。国内外比较重要的分类语言表有《国际专利分类表》、《杜威十进分类法》、《中国图书馆图书分类法》、《中国科学院图书分类法》等。2信息检索原理2.3.1分类语言特点:

较好地体现学科的系统性,反映事物的平行、隶属和派生关系,有利于从学科或专业的角度进行族性检索,查全率高采用国际上广泛使用的拉丁字母和阿拉伯数字做概念标识的分类号,简明,便于组织目录系统2信息检索原理《中图法》

所谓图书分类是根据图书内容的学科性质或其他特征,依据一定的规则将馆藏图书进行分门别类地组织和排列的过程。分类使同类的图书集中在一起,相近的图书联系在一起,性质不同的予以分开,从而使图书馆藏书可以依此组成一个有系统、有条理、有次序,有一定内在联系的知识网络。它是图书馆收藏并揭示馆藏文献的依据。2信息检索原理《中图法》分为马列主义毛泽东思想、哲学、社会科学、自然科学、综合性图书五个基本部类。在五个基本部类的基础上,又进一步划分成二十二个基本大类,分别用一个大写的拉丁字母表示,其下又细分为若干小类。

2信息检索原理五大部类:马列毛邓(A)、哲学(B)、社会科学(C-K)、自然科学(N-X)、综合(Z)2信息检索原理《中图法》第四版基本部类A马克思主义、列宁主义、毛泽东思想、邓小平理B哲学、宗教C社会科学总论D政治、法律E军事F经济G文化.科学.教育.体育H语言、文字I文学J艺术K历史、地理

N自然科学总论

O数理科学和化学

P天文学、地球科学

Q生物科学

R医药、卫生

S农业科学

T工业技术

U交通运输

V航空、航天

X环境科学、安全科学

Z综合性图书

2信息检索原理工业技术大类简表

TB一般工业技术

TD矿业工程

TE石油、天然气工业

TF冶金工业

TG金属学、金属工艺

TH机械、仪表工业

TJ武器工业

TK动力工程

TL原子能技术

TM电工技术

TN无线电电子学、电讯技术

TP自动化技术、计算技术

TQ化学工业

TS轻工业、手工业

TU建筑工程

TV水利工程2信息检索原理图书排架方式

图书情报单位收藏的各种文献,无论纸本的图书、期刊还是非书资料,都是按照索书号的顺序在架位上进行排列的.索书号由分类号和书次号两部分上下构成,图书馆员依据中图法分类表给出图书的分类号,按图书到馆的先后次序给出图书的书次号,二者结合即确定了该册文献在馆藏中唯一位置,成为读者检索馆藏的依据。2信息检索原理中图法索书号索书号=图书分类号+同类区分号同类区分号一般采用书次号或著者号码例:TP393.09--------图书分类号

J601-----------著者号码

123------------书次号TP393.09/132TP393.09/J6012信息检索原理2.3.2主题语言

主题语言是以语词作为概念标识,按字顺编排的检索语言。主题语言包括标题词语言、单元词语言、叙词语言和关键词语言。2信息检索原理主题语言—标题词语言(1)标题词语言——最早使用的一种主题语言。它以规范化的自然语言作为标识,来表达文献涉及的主题概念,并将全部标识按字母顺序排列。表达主题的词语称为标题词。因其事先进行概念组配,使用起来不灵活,现已较少使用。《工程主题词表》(SHE)2信息检索原理标题词语言是用规范化的科技名词标引文献的主题概念,是受控式、先组式语言。美国《化学文摘》的普通主题索引和化学物质索引则是国外检索工具中使用标题词语言的典型。标题词可以是单词,词组或短语,通常用主标题词和副标题词组配而成,副标题词置于主标题词后,并用逗号隔开。例如:heart作主标题词:heart,disease(疾病),metabolism(代谢),neo-plasm(肿瘤)和toxicchemicalandphysicaldamage(化学中毒和物理损伤〕因此用标题词标识文献可以达到很高的专指度。2信息检索原理主题语言—关键词语言(2)关键词——用于表达文献的主题和内容,直接从文献题名、文摘或正文中抽取出来的未经规范化处理的词。是一种用自然语言做标识的检索语言。2信息检索原理主题语言—单元词语言(3)单元词语言——是从文献内容中抽选出来的最基本的词汇,将代表最一般、最基本的、不可再分割的概念单元的词作为单独标引文献的单位。多用于机械检索,现已不常用。2信息检索原理主题语言—叙词语言(4)叙词语言——从自然语言中优选出来并经过规范化处理的名词术语。叙词语言是采用表示单元概念的规范化语词的组配来对文献内容主题进行描述的检索语言,也是目前使用最广泛的主题语言。这种语言的使用往往结合相关词表来使用,如《中国分类主题词表》,一般用户则不大使用。2信息检索原理3.信息检索的途径与方法3.1信息检索的途径

指信息检索的角度、渠道,又称检索点(AccessPoint)。一般是利用信息的各种内容和形式等特征,作为检索出发点,从不同角度来检索信息。有:内容特征:-分类(Classified):表达文献内容所属学科分类的分类号等-主题(Subject):表达文献内容的关键词、主题词等。形式特征:-著者(Author):责任者(作者,第一作者,团体著者(CorporateAuthor)),-名称:题名(Title,书名,刊名,篇名等)-代码(Code):编号(书号、刊号、标准号、专利号、基金号)等2信息检索原理2信息检索原理3.2常用检索途径书名途径:利用书、刊、杂志名称进行查找文献,是查找文献最方便的途径。责任者(著者)途径:按文献著者、团体的名称、译者和编者的姓名编制的索引进行查找的一种方法。个人著者姓在前,名在后,姓用全称,名用缩写,姓名之间用逗号或空格隔开,分别按姓名的字母顺序排列。团体著者按原名字顺排列,加国别以资区别。2信息检索原理序号途径:利用文献的各种代码、数字编制的索引查找文献称序号途径,如专利号、化学物质登记号、科技报告的报告号、技术标准的标准号等,按代码字顺或数字的次序由小到大排列。分类途径:根据文献主题内容所属的学科属性分类编排。能反映学科概念上的隶属、等级、派生和平行关系。分类法的主要优点是根据科学分类的逻辑规律并结合图书类别特点进行分类,由上级到下级,分类法简明易记,层次分明,同类书、刊集中,检索容易。但涉及相互交叉的学科或分化较快的学科时,此法专指性不强。2信息检索原理主题途径:按主题词的字顺排列,便于查找与主题词相关内容的文献。其特点是适应性、直观性及通用性强,表达概念准确灵活,不如分类法那样系统,稳定。但能适应学科相互交叉相互渗透的课题进行检索。关键词途径:是直接从文献中抽出来的具有实质性意义的词,其主要特征是未经规范化处理,也不受主题词表控制的词,又称自由词,用于计算机作为自然语言检索。关键词按字顺排列,编制关键词索引速度快,因未作规范化处理不能进行选择和控制,故索引质量粗糙。

2信息检索原理分类主题途径:是分类途径及主题途径相结合。如美国生物学文摘的目次表即属这一类。其它检索途径:如化学物质的分子式途径、地名.属种途径等。2信息检索原理3.3各种信息资源外在特征区分

(1)著作的区分标志

著作一般以图书的形式出版,在来源出处著录有出版社、出版地、版次、国际标准书号。例如:

骑鹅历险记/(瑞典)塞尔玛.拉格洛芙著,石琴娥译.上海:译林出版社,2005.67-80567-482-52信息检索原理参考文献类型及标识2信息检索原理[1]杨浩滨.食品微生物学[M].北京:北京农业大学出版社,1995,28-30.[2]肖凯军.大豆分离蛋白的酶法改性[J].食品科学,1995,16(9):30-34.[3]OUJP,YOSHIDAO,etal.Recentadvanceinresearchonapplicationsenergydissipationsystems[J].EarthquakeEng,1997,38(3):358-361.[4]瞿秋白.现代文明的问题与社会主义[A].罗荣渠.从西化到现代化[C].北京:北京大学出版社,1990,121-133.[5]胡鞍钢.中国能够实现粮食自给目标[N].联合早报,1994,10.[6]GB/T16159-1996,汉语拼音正词法基本规则[S].[7]姜锡洲.一种温热外敷药制备方案[P].中国专利:881056073,1989-07-26.[8]王明亮.关于中国学术期刊标准化数据库系统工程的进展[EB/OL].

,1998,08,16/1998-10-04.[9]张永禄.唐代长安词典[Z].西安:陕西人民出版社,1980.2信息检索原理(2)论文的区分标志

论文一般以期刊的形式发表,在来源出处著录有期刊的刊名、卷、期、年代、国际标准刊号、语种等。例如:TheJournalofPhysicalChemistryA(刊名),v104(卷),n21(期),2000(年代),ISSN1089-5639(国际标准刊号)InEnglish(语种)。若是会议论文,在来源出处著录有会议或会议录名称、主办单位、会议召开地点、时间等,其显著的区分标志是著录有Proceedings、Conference、Meeting、Symposium、workshop、Colloquium、Convention等字样。2信息检索原理(3)专利说明书的区分标志

来源出处著录有专利国别、专利号、批准公布日期等。EP76174312Mar1997。2信息检索原理(4)科技报告的区分标志

来源出处著录有报告字样、报告机构代号和报告号等。如ReportAD-A264915。2信息检索原理(5)技术标准的区分标志

来源出处著录有Standard、specification字样及标准机构代号,如ISO(国际标准化组织(InternationalOrganizationforStandardization)、IEC(国际电工委员会)

2信息检索原理3.2

信息检索的方法3.2.1文本检索的主要技术:布尔逻辑检索截词检索短语检索位置检索限制检索其他检索2信息检索原理文本检索的主要技术1.布尔逻辑检索(BooleanLogicSearch)

是基于集合论和布尔代数的一种简单检索模型,最常用。检索时使用不同的布尔逻辑运算符号把检索词连接起来,用布尔提问式表示检索要求,通过对信息集合中的特征化表示(检索标识)与提问式的逻辑比较来检索信息。2信息检索原理常用的逻辑算符主要有以下几种:(1)逻辑“与”逻辑“与”(用and或*表示)是一种用于交叉概念或限定关系的组配,它可以缩小检索范围,有利于提高检索的专指性。如欲查同时含有概念A和概念B的文献,可表示为:“AandB”或“A*B”。检索结果如图2-4所示,图中阴影部分即为同时包含A和B两个概念的命中文献。2信息检索原理逻辑“与”示意图AA&BB2信息检索原理例如:在某个数据库中,要查出关于“中学生心理测试”的文献,也就是说要检索出既包含“中学生”又包含“心理测试”这两个词语的文献,这时必须使用逻辑“与”的概念组配。实际在心理学数据库进行检索:中学生And心理测试逻辑“与”组配的词可以有两个以上,参加逻辑“与”检索的词越多,检索的结果范围限制得越小,命中的文献也就越少。2信息检索原理文本检索的主要技术与方法(2)逻辑“或”逻辑“或”(用OR或“+”表示)是用于具有并列概念关系的组配。这种组配可以扩大检索范围,提高查全率。例如,检索含有检索项A或检索项B的文献,可表示为:“AORB”或“A+B”。检索结果是将含有检索项A的文献集合与含有检索项B的文献集合相加,形成一个新的集合。2信息检索原理例如,要检索“教学评价或教学评估”的文献。对用户来说,要检索出包含“教学评价”或者包含“教学评估”的文献,两者的任意一个都是需要的。检索式:教学评价OR教学评估逻辑“或”组配的词也可以有二个以上,参加组配的词越多,命中的文献量也就越多。用逻辑“或”组配相当于增加了检索词的同义词和近义词,从而扩大了检索范围。2信息检索原理文本检索的主要技术与方法(3)逻辑“非”逻辑“非”(用“NOT”或“-”表示)是用于从某一检索范围中排除不需要的概念。这种组配可以缩小检索范围。例如,在含有概念A的文献集合中,排除同时含有概念B的文献,可表示为:“ANOTB”或“A-B”。2信息检索原理例如:要检索“非儿童的心理测试”,对用户来说,需要包含“心理测试”的文献,但去掉那些包含儿童研究的文献。心理测试NOT儿童显然逻辑“非”的检索也是一种缩小检索范围的组配方式。但是使用逻辑“非”的组配时需要特别小心,常常会把有用的文献也非掉。如上述检索中,非掉的是关于“儿童”研究的文献,但是如果这些非掉的文献中,有几篇除了谈儿童心理测试外,还涉及到青年与成年人的心理测试,那么这部分实际有用的文献也被非掉了,所以逻辑“非”要谨慎使用。2信息检索原理文本检索的主要技术与方法在上述逻辑算符中,其运算优选级顺序为NOT,AND,OR,但是可以用括号改变它们之间的运算顺序。例如,(AORD)ANDB,表示先执行“AORD”的检索,再与B进行AND运算。2信息检索原理2信息检索原理大学生网络行为调研与分析2信息检索原理2信息检索原理文本检索的主要技术与方法2信息检索原理文本检索的主要技术3.短语检索(PhraseSearch):通常是使用双引号标出由多个检索词组成的词组或短语,要求检索结果中必须包含该词组或短语。例:“数字图书馆的用户界面”4.位置检索(ProximitySearch):即对检索词之间的相邻位置关系进行限定的检索,要求检索词在检索结果中出现时,其间的相互距离不应超过若干个字符或汉字的范围。例:北京(2w)大学可以检索出:北京大学,北京师范大学,北京科技大学等信息。还包括:同句检索,同段落检索等。2信息检索原理2信息检索原理2信息检索原理2信息检索原理文本检索的主要技术5.限制检索:可限制检索对象的媒体类型(如:网页、图片、mp3等)、语种、时间范围等。字段检索:限制检索词在记录中出现的字段位置。例:鲁迅(Title),鲁迅(Author),鲁迅(Descriptor)。2信息检索原理限制检索常用的字段代码有:常用的字段代码有:字段代码

字段名称

AB

Abstract

AU

Author

CC

Class

Code

CS

Corporate

Source

DE

Descriptor

DT

Document

Type

ID

Identifier

JN

Journal

Name

LA

Language

PY

Publication

Year

TI

Title注意:各个检索系统所设立的字段是互不相同的,即使同一字段,也可能采用不同的字段代码。2信息检索原理文本检索的主要技术6.其他检索:区分大小写检索二次检索(精炼检索):在数据库检索的实际操作中使用最多的初等检索方法2信息检索原理3.2.2信息检索的方法1)常规法(检索工具法):通常情况下,利用检索工具查找文献信息的方法。即以主题、分类、著作等途径,通过检索工具获取所需文献的一种方法。顺查法:由远及近,可获全貌倒查法:由近及远,由新及旧,可保最新抽查法:针对热点或专题引文法:通过引用文献(该文献被别人引用的文献)逐步深入及扩大2信息检索原理

顺查法:

按时间顺序由远到近逐年查找文献的方法,但要注意所查课题的研究开始年份,否则浪费时间。如艾滋病,1981年以前无报道,因此检索此课题要从1981年往后逐年查找。本检查法的优点是漏检率低,能全面系统了解所检索课题的过去和现状,从而看它的发展趋势和演变过程。缺点是费时,要知道该课题开始年代为宜。2信息检索原理倒查法:

与顺查法相反,倒查法是按逆时间顺序由近到远逐年查找文献的方法,符合新兴学科的发展规律或有新内容的老课题,省时高效,短时间内可获一些最新资料。但对课题了解不够时,就易造成漏检,补救办法是查综述,可了解课题从何时开始及它的发展趋势。

如硼中子俘获治疗肿瘤,搜索本课题,十年内的文献甚少,就会漏检,查综述就可知道本治疗在1936年由美国首先提出,但为什么几十年来对其适应证、疗效及优缺点报道甚少?这主要是因为此治疗涉及学科范围广,更重要的是它要求有医用核反应堆的条件才能开展,过去几十年医用核反应堆并无广泛建立,因此限制了本治疗方法的进展,假如只查近十年或近五年的文献,本课题就会漏检,因此用本法要对被检课题有一定的了解。2信息检索原理抽查法:

针对学科专业发展特点,学科发展迅速中发表论文较集中的时间,前后逐年检索,至基本掌握课题情况为止,本法能用较少的时间获得较多的文献,但必须知道学科发展特点和发展迅速的时期才能达到预期效果2信息检索原理2)追溯法(回溯法):通过所检出文献的参考文献、相关书目、推荐文献等着手查找文献的方法。能逐步扩大检索范围,往往能得到意想不到的收获。一般可从综述、述评、进展、权威专著等入手进行。2信息检索原理3)综合法:常规法和回溯法的综合运用。即先利用检索工具查找到一批文献,再利用这些文献的参考文献为线索进行查找,如此循环进行。所以也称循环法。可以得到全面而准确的结果,是实际中采用最多的方法。2信息检索原理4)浏览法:直接浏览各类信息源的过程中获取所需信息的检索方法。日常生活中最容易用到的信息获取方式。如浏览网页、阅览期刊……5)即期积累法:无论何种检索方法,都要注重平时的积累。不断地对某一专题的关注,一定会有所收益的。2信息检索原理4.

信息检索的步骤1.信息需求分析:明确检索目标,确定想要解决的问题;用合适的词或概念表达信息需求。2.选择检索系统、检索工具3.确定检索途径、制定检索策略4.执行检索5.获取并整理检索结果6.分析评价检索结果、调整检索策略进行二次检索。2信息检索原理如:我们在做学位论文时,应充分了解一下本课题国内外的研究现状(即论文的综述部分),这时应对该课题进行较全面的检索,包括综述性的文章,要求全面;对于该课题的核心部分,即该课题所要解决的具体问题,创新的地方,则需要准,技术细节越细越好。检索误区1——从师兄师姐那得到相似研究课题的学位论文作为参考,不失为一条捷径,但不能完全依赖它,不能仅以学位论文提供的参考文献为线索去检索,应该自已提炼关键词,利用现有的资源去发现更多更好的文章,从而开拓自已的视野

问题:更多的时候,我们甚至不知道自己的信息需求是什么?(由大到小,由广及精、由浅入深)1.信息需求分析:分析研究课题,明确检索目标,确定想要解决的问题。2信息检索原理2.选择检索系统、检索工具2信息检索原理2信息检索原理3.确定检索途径、制定检索策略(1)如:儿童美术教育中的相关问题研究应在“美术;教育;儿童;幼儿;小学”这几个词中组合2信息检索原理3.确定检索途径、制定检索策略(2)2信息检索原理3.确定检索途径、制定检索策略(3)2信息检索原理3.确定检索途径、制定检索策略(4)2信息检索原理3.确定检索途径、制定检索策略(5

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论