第二讲-检索原理-(2)资料.ppt_第1页
第二讲-检索原理-(2)资料.ppt_第2页
第二讲-检索原理-(2)资料.ppt_第3页
第二讲-检索原理-(2)资料.ppt_第4页
第二讲-检索原理-(2)资料.ppt_第5页
免费预览已结束,剩余63页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第二讲检索原理,第一节信息检索的基本原理信息检索(InformationRetrieval),是指将信息按一定的方式组织和存贮起来,并根据信息用户的信息需求查找所需信息的过程和技术,所以信息检索的全称又叫“信息存贮与检索”(InformationStorageandRetrieval)。信息检索又叫情报检索或文献检索。文献信息检索是指从文献信息集合中查找所需文献或文献中包含的信息内容的过程。,广义的信息检索:是指将信息按一定的方式组织和存储起来,并根据用户的需要找出相关信息的过程。,狭义的信息检索:一个匹配(Match)过程,即用户使用检索语言对自己的信息需求予以描述,并在一定的信息资源系统中进行描述匹配的过程。,计算机检索的奥妙:关键词匹配,计算机实现检索的奥妙,就在于它能把你输入的检索词,与它后台数据库中存储的文件关键词进行比对,如果能够匹配,就认为这条信息是你需要的,立刻输出给你。,存储,检索,原始文献,加工整理,数据库,提问,检索,输出,“爱因斯坦论文”,“论文”,“爱因斯坦”,“论文”,“爱因斯坦”,三、文献信息检索的分类(按其检索对象)文献检索(DocumentRetrieval)文献信息检索数据检索(DataRetrieval)事实检索(FactRetrieval),文献检索是以文献全文(或文献线索、文摘)为检索对象的一种检索,凡是查找某一主题、学科、时代、地区、著者、文种的有关文献均属于这一范畴。,是以数值或图表形式表示的数据为对象的检索。例如,查找某一数学公式、数据图表、某种材料的成分、性能等。,是以事实作为检索对象,查找用户所需的描述性事实,其检索对象为机构、企业、人物的基本情况、历史变迁等。,信息检索原理,检索提问式,信息的选择与收集,信息特征,标识语言,检索工具匹配,检索结果,信息源,用户,信息需求,检索提问,数据库,检索提问式,信息检索类型,依信息存储和检索的方式手工检索(ManualRetrieval)也叫传统信息检索,是利用各种印刷型检索工具来查找文献的一种方法。计算机检索(Camputer-basedRetrieval)也叫现代信息检索,是指利用计算机和网络来处理和查找文献信息的检索方式。,主要计算机检索系统类型,计算机检索系统由一定的检索设备(计算机)和经过加工整理并存储在相应载体上的信息集合及其他设备共同构成的具有存储和检索功能的信息服务系统。联机检索(onlinesearch)脱机检索(offlinesearch)光盘检索(CDsearch)网络检索(Internet/Websearch)(全球数字图书馆系统),第二节检索语言,一、文献的基本特征检索工具是对各种文献特征描述的集合,而检索语言是对检索工具编排以及对文献特征描述的规范。(一)文献的外表特征:主要是指文献的题名(包括:书名、期刊名、篇名等)、著者姓名、研究机构、出版者、科技报告的报告号、专利号等。在检索工具中,文献的外表特征常常按名称、号码等序列排,方便易懂,检索较为方便。(二)文献的内容特征:是指文献所论及的主题、观点、见解和结论等等,或者说,文献所研究的是哪一学科、哪一专业的问题;研究的是哪一主题的问题。由此可见,文献的内容特征常常需要分析研究才能得出。,二.文献检索语言,1.定义:是根据信息检索的需要编制的,供标引文献和检索文献用的一种人工语言,是标引者和检索者共同约定使用的语言。2.特点:1)表达的概念具有单义性和唯一性(如:发展中国家兔的饲养、一个半劳动力)。2)可使内容相同和相关的文献集中,使大量分散的文献存储系统化、组织化,便于进行有规律的检索。(按不同的方式系统归类-不同类型的检索语言),检索语言是用来加强文献标引人员和文献检索人员之间的联系,解决标引、存贮和检索、利用的矛盾,达到存贮和检索的一致性,以提高检索效率的一种人工语言。因此,我们常说,检索语言是检索人员与检索工具之间的桥梁。因为自然语言本身存在大量的词汇歧义和语义歧解现象,不能直接用作存储和检索中的语言(如:发展中国家兔的饲养、一个半劳动力、和服务)三、检索语言的种类分类语言主题语言号码语言题名语言著者语言目前应用较多的是:分类语言中体系分类语言和主题语言中的标题语言、单元词语言、叙词语言和关键词语言。,文献检索语言,3.分类表,四、体系分类语言是按照一定的观点,以学科分类为基础,结合文献内容特征,运用概念划分方法,按知识门类的逻辑次序,从总到分,从一般到具体,从低级到高级,层层划分,逐渐展开的一个层累制号码系统,是用分类号表达文献议题概念的检索语言。该语言对各级类目以固定组配形式供书目控制时使用。1.体系分类法的原理体系分类法是一种直接体现知识分类的等级制概念的标识系统。它是运用逻辑分类的原理,按照文献所属的学科、专业及特征,对文献进行系统化组织的一种方法。它是使用最普遍的一种方法。,如:TP自动化技术计算技术TP1自动化基础理论TP2自动化技术及设备TP3计算技术计算机TP9计算机应用TP91信息处理.7机器辅助技术.72机器辅助设计自动设计CAD.73机器辅助制造CAM.75机器辅助计算TP93计算机网络.1局部网络.2远程网络.,2.体系分类法的结构我国广泛使用的中国图书馆图书分类法简称中图法,就是一种典型的体系分类法,它由编制说明,基本大类,简表,详表,辅表五个部分组成。现以1999年出版的第四版中图法为例,说明体系分类法的结构。(1)编制说明:包括该分类法的编制过程,所依据的编制原则、部类及大类的设置和次序的理由,对各种分类问题的处理方法,标记方法,使用方法等。(2)基本大类:采用五个基本部类。即马克思、列宁主义毛泽东思想,哲学,社会科学,自然科学,综合性图书。在此基础上组成了22个基本大类(一级类目)(3)简表由三级类目组成,是中图法的基本类目表,浏览简表可以很快了解整个分类体系的概貌,归类查表时只有从简表入手查详表,才能做到准确快速。(4)详表又叫主表,由类号、类目和注释组成。(5)辅表也叫复分表,用来对主表中所例举的类目进行细分,可分为“通用复分表”和“专用复分表”。,基本大类表类目表简表详表复分表编制说明中图法的内容结构说明使用说明类目注释索引,中图法体系结构,基本大类,简表,详表,复分表,主题字顺组织法(简称主题法)所谓主题法,就是以自然语言中的词语或规范化的词语作为揭示文献主题的标识,并以此标识编排组织和查找文献的排检方法。标题词法单元词法主题法关键词法叙词法,它是以标题词(规范的事物名称、名词术语)作为文献主题内容的标识和检索标识的主题法。,它主张用最基本的、字面上不再分的词汇单元词做主题词。单元词从文献内容中抽出,再经规范,能表达一个独立的概念。,关键词法是直接从文献题名、文摘或全文中抽取出来的有实际检索意义的信息单元(关键词)作为主题词。,叙词法是以叙词做主题词的主题法。叙词是一种以概念为基础的,经过优选的规范化名词术语,具有单义性,组配性能好的特性。,1、标题词法它是以标题(词)作为文献主题标识。所谓标题(词),是指事物定型的名词术语。如“社会主义社会”、“图书学”、“鲁迅的世界观”等都可作为标题(词)。这种主题法的主标题和副标题是预先组配好了的(先组式),有标题词表可遵循,在标引和检索时不易混乱。但标题词往往过大,专指性差,使用不灵活。2、单元词法(又称元词法)它是以单元词作为文献的主题标识。所谓单元词,是指从文献内容中抽出的最基本的、字面上不能再分的词。如“经济”、“美国”。“鲁迅”等无定语的词都是单元词。对于复杂概念,则用单元词进行组配(后组式)。如“经济”和“地理”两个单元词可组配成“经济地理”。单元词法使用灵活,但组配时容易出现概念不清或不统一的毛病,影响检索效果。,3、叙词法它是以叙词(或称叙述词)作为文献的主题标识。所谓叙词,是从文献内容中抽出的能概括表达文献基本内容的名词术语。如马克思的国家性质论这篇文章的内容其叙词可概括为“国家理论”或“马克思的国家理论”;治学辩证法这部书,其叙词可概括为“学习方法”或“科学方法论”。这三种主题法都必须对文献中的自然语言加以规范化,制定标题表、元词表和叙词表(又称主题词表),供文献标引检索之用。4、关键词法是以关键词(或称键词)作为文献的主题标识。所谓关键词是指那些出现在文献的标题(篇名、章节名)以至摘要、正文中。对表征文献主题内容具有实质意义的、可以作为检索“入口”的语词。这些关键词是从文献原文中抽出的、不加规范,或只作极少量的规范化处理。这种主题法不用编表,标引速度快。但所标引的关键词常常因人而异,影响检索效果。,五、主题语言:标题词语言,标题词语言:是最早出现的一种主题法类型。是以标题词作为文献内容标识和检索依据的主题语言。标题词:是从文献题目和内容中抽选出来,经过规范化处理,用以描述文献内容特征的词,词组或短语。一般分为主、副标题词。1.标题词法的原理是从科技人员熟悉的大量科技名词术语中,选出具有实质性意义的科技名词术语,经过规范化处理,作为标识,来直接表达文献所论及的事物主题,而不管该文献是从哪个角度,哪个学科来论述该事物主题的,并将全部标识按字顺排列,而不管各个标识所表达的事物主题之间的关系。,主标题词的构成方式,正叙式:将事物的名称、现象、方法或过程和名词术语直接作为主标题词。如DATAPROLESSING倒叙式:是在事物的名称或方式、过程的名词后加上进一步表示该事物或过程的特征、类型的限定词,中间用逗号分开的方式构成。如PIPE,STEEL并列式:是将两种互有联系而又各自独立的事物或概念的名词,以并列的方式构成的主题词。如:metalandalloys副标题词是用来修饰、限定和细分主标题词,经过规范化的词、词组或短语。,2.标题词的规范化处理规范化处理:指对标题词中的同义词、近义词、多义词、反义词等进行管理和控制,使标题词能满足准确性和通用性的要求,以达到表述文献主题概念的唯一性。(1)同义词a.新名与旧名,一般选用新名b.全称与简称一般选准确、通用为原则c.学名与俗名,一般用学名d.音译与意译,一般用意译(2)近义词合并作为概念的等同关系,如实验和试验(3)反义词一般用正义词肯定词(4)多义词一般用加上概念限制的方法,六、主题语言:单元词语言,是以单元词作为文献内容标识和检索依据的主题语言。单元词:是从文献中抽取出来,经过规范化的,能描述文献所论及的事物主题的那些最小,最基本的词汇单位。1.单元词法的原理通过用单元词表达的单元概念的组合或组配,可以表达一个完整的,复杂的概念。2.单元词法的特点优点:具有较强的语义表达能力、有利于主题因素复杂的多维概念文献的标引和检索。缺点:在组配时容易产生虚假组配,影响检索的准确性。如“机床”,“检修”产生“机床的检修”和“检修用机床”两种概念。,七、主题语言:叙词语言,叙词:是描述文献内容特征的知识单元,即在概念上不能再分的基本概念。1.叙词法的原理概念组配,是将叙词表中两个以上的叙词,用一定的关系符号把它们连接在一起,以扩大或缩小其表达事物概念的本质属性。用以准确描述文献的议题内容。它是以逻辑运算方式来表达的。,2、叙词法优点,(1)组配准确,标引能力强;(2)结构完备,词汇控制严格;(3)适合多途径检索,检索效率高;(4)对检索系统的适应能力强;(能同时适应于标识单元和文献单元检索方式,适应计算机检索系统和手工检索系统),3、叙词法的缺点(1)词汇控制要求严格,词表编制和管理难度大,需要花费较多人力、物力;(2)文献标引须在概念分析基础上进行,标引规则较复杂,标引难度大,速度慢;(3)用户难以熟悉词表及标引规则,给使用带来不便。,4.汉语主题词表简介,它是一种将自然语言转换为检索语言的叙词控制工具,是叙词语言的具体表现。广泛用于编制中文检索工具和检索中文科技文献,它共收词108568个(正式叙词91158,非正式叙词17410),词族3707个。都是各学科中有一定检索频率,并能汇集一定文献量或者具有组配意义的最基本的名词或名词性词组。全部词表按社会科学和自然科学分别编辑。共出版3卷10分册,各分册均由主表(字顺表)、附表、词族索引、范畴索引和英汉对照索引个部分组成。,例:叙词的词汇控制,(1)语义同义词:原子能工业(叙词)核工业(入口词)(2)产品型号与代号之间:SS-1导弹(叙)“飞毛腿”导弹(入)(3)全称与简称之间:北京大学(叙)北大(入)(4)学名与俗名之间:玉米(叙)包谷(入)玉蜀黍(入)(5)部分近义词之间:殖民地(叙)非殖民地(入)(6)部分反义词之间:本质属性(叙)非本质属性(入)(7)上位词置代:水污染(叙)地表水污染(入)地下水污染(入)水体污染(入),八、主题语言:关键词语言,关键词:直接从文献的题名、文摘或正文中抽选出来,对表达文献主题具有实质意义、未经规范化处理的自由词汇,没有固定词表,属散组配语言。通常使用禁用词表(停用词表)(stop-list):指那些词频较高,通常是一些虚词和没有实际检索意义的词,如冠词、介词、连词、代词等等。如汉语中的“的”“是”,英语中的a,an,the,this,that,or,and,in,on,with,they,itetc.1.关键词法的原理从文献题目,摘要和正文中抽选出具有实质意义的未经规范化处理,并能表达文献主题内容特征的名词术语来作检索标识的。,2.关键词语言的应用在文献数据库和网络搜索引擎中使用的关键词是由计算机通过词频统计自动产生的。而我们在期刊文献、会议文献中看到的关键词是由著者指定的。,3、关键词法的特点(与标题法、叙词法相比),(1)关键词属于自然语言,标题词及叙词属于受控语言;(2)关键词词表比标题表、叙词表简单的多,一般不设任何参照,不显示任何词间关系,甚至不附带范畴号或分类号,因而篇幅也小得多;(3)关键词通常使用禁用词表(stop-list),而标题法或叙词法使用许用词表(go-list)。后者只允许用实际出现在词表上的那些词作标引词,而前者只允许所有不曾列入禁用词表的词作标引词。,5、关键词法的缺点(1)由于关键词往往直接来自于文献的题名,这样文献题名的质量直接决定用关键词语言编制检索工具的质量(质量往往不稳定,会导致漏检)。(2)缺乏词形、词义方面的控制,降低检全率。(用户很难把表达同一概念的不同词形的关键词考虑周全)(3)关键词语言通常用于计算机抽词标引,由于汉语分词难题至今未能攻克,所以往往会切分出很多“假词”,造成误检。,4、关键词法的优点(1)标引时无需主题分析和查看词表,简便易行,因而降低对标引人员的要求,节省大量人力。(2)易于实现检索工具编制过程的计算机化,从而保证通报文献和传递信息的及时性、生产过程的高效及低成本。(3)能够及时更新词汇,凡是出现在文献上的具有检索意义的词汇都可以立即用于标引和检索。(4)由于关键词通常取自于文献的题名和文摘,而题名及文摘基本上能够反映文献的主题内容,因此关键词语言的专指性优于标题语言和叙词语言,检准率较高。,字面组配与概念组配比较,第三节检索工具,一、检索工具的概念是指人们用来报道、存储和查找信息线索的工具。它是检索标志的集合体,它的基本职能一方面是揭示信息及其线索,另一方面提供一定的检索手段,使人们可以按照它的规则,从中检索出所需信息的线索。二、检索工具的特征是用检索标识标引,按照一定的规律编排的文献记录及其索引。对于计算机检索而言,检索工具就是检索系统的文献库即数据库。特征(四个基本条件):1.必须具有丰富的文献记录,即存贮有大量的文献的外部特征和内容特征;2.必须具有必要的检索标识(检索词);3.必须具有系统的排序方法;4.必须具有多种检索途径。,三、检索工具的类型按处理信息的手段分:手工检索工具和机械检索工具按其报道的学科内容范围分:包含多学科和综合性的检索工具和仅含单学科的专业性检索工具。按著录方式分:目录、题录、文摘和索引。,四、检索工具的结构一般地讲,检索工具通常由目次部分,使用说明,正文部分,索引部分和引用文献目录五部分组成。检索工具的质量评价通常衡量检索工具质量的指标有以下几点:1.收录文献的范围要广泛2.文献特征的著录和标引要精确3.摘引的文献质量要高4.编排结构应具备科学性5.报道文献的速度要快6.检索工具要版面清晰;著录、标引便于识别,以增强明见度和易检性。,概括地说,一种质量优良的检索工具,应具有存贮文献的全面性和广泛性,检索文献的准确性和有效性,报道文献的及时性和多样性。,检索效率,一、影响查全和查准率的主要因素1.人为因素检索工具编制时收录文献不全面、不明确;检索时对课题内容分析错误或不全面2.客观因素查准与查全互为影响,不可能达到100%,二、检索效果评价检索效果(retirevaleffectiveness):指检索结果的有效程度。常用指标有:收录范围、查全率、查准率、响应时间、用户负担(费用)和输出形式等。其中主要是查全率和查准率。,查全率(RecallRatio)=检出的相关文献数/文献库里相关文献总数*100%即:R=a/a+c*100%查准率(PrecisionRatio)=检出的相关文献数/检出的文献总数*100%即:P=a/a+b*100%漏检率=未检出的相关文献数/文献库里相关文献总数*100%即:=c/a+c*100%误检率=检出的非相关文献数/检出的文献总数*100%即:=b/a+b*100%查全率+漏检率=1查准率+误检率=1,三、提高检索效率措施:1选好检索工具;2准确使用检索工具;3用泛指性强的检索语言来提高查全率(模糊);4用专指性强的检索语言来提高查准率(精确);5.善于利用检索工具的各种辅助索引。,检索步骤,一、课题分析目的是了解课题检索目的和范围,明确课题要解决的实质问题(课题涉及的学科范围,所需信息的内容及特征、年代、类型,课题对查准、查全的要求),这是制定检索策略的根本出发点,也是检索效率高低和成败的关键。二、选择检索工具或检索系统根据检索课题的主题及学科范围选择对口的检索系统(数据库),可从文献的类型(如十大文献)、语种、出版的时间等方面来考虑,三、确定检索途径和检索策略反映内容特征的分类、主题途径和

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论