《数字信息检索概论》PPT课件.ppt_第1页
《数字信息检索概论》PPT课件.ppt_第2页
《数字信息检索概论》PPT课件.ppt_第3页
《数字信息检索概论》PPT课件.ppt_第4页
《数字信息检索概论》PPT课件.ppt_第5页
已阅读5页,还剩41页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第三讲,数字信息检索概论,2.1检索的概念及原理2.2检索语言2.3检索工具概述2.4检索方法及检索途径,2.1信息检索的概念与原理,一、信息检索的基本概念狭义:是指依据一定的方法,从已经组织好的大量有关文献信息集合中,查找并获取特定的相关文献信息的过程。广义:将信息按照一定的方式组织和存储起来,并根据用户的需求找出有关信息的过程。,标引,检索,输入,存储过程,一次信息,信息特征,信息特征标识,检索过程,检索课题,检索提问,检索提问标识,分析,分析,标引,输入,图2-1信息检索原理图,信息检索语言,检索系统,信息检索的类型(根据不同的检索对象):一、数据检索:检索的结果是数据。如某种材料的电阻;某变压器的参数;化学分子式、数据图表等(手册),某地方GDP增长情况(年鉴)二、事实检索:检索的结果是事实结论。查询某一事物(事件)的性质、定义、原理以及发生的时间、地点过程等。如某产品是哪个厂家生产,哪个牌子的最好;第一颗人造卫星是什么时候升空的(年鉴)三、文献检索:检索的结果是文献资料。查找相关文献的内容、出处、收藏单位等。如系统地查找信息检索方面的相关文献(论文),文献检索是信息检索的一种最基本的、最主要的形式。,2.2检索语言,检索语言是应文献信息的加工、存储和检索的共同需要而编制的专门语言,是表达一系列概括文献信息内容和检索课题内容的概念及其相互关系的一种概念标识系统。,1.检索语言的主要作用:标引文献信息内容及其外表特征,保证不同标引人员表征文献的一致性;对内容相同及相关的文献信息加以集中或揭示其相关性;使文献信息的存储集中化、系统化、组织化,便于检索者按照一定的排列次序进行有序化检索;保证检索者按不同需要检索文献时,都能获得最高查全率和查准率。,检索语言按规范化程度划分:自然语言和受控语言,2.信息检索语言的种类,自然语言:信息检索系统中使用的标引词直接来自文献和用户提问而不加控制的一类检索语言,主要有关键词语言。自然语言的应用以计算机为前提,否则,自然语言检索将难以实现。受控语言:标引词来自文献或者用户,并受到信息检索系统的控制的一类检索语言的总称,又叫规范化语言,主要包括分类语言和主题语言。,按照其结构原理来划分,信息检索语言主要有:,信息检索语言,分类语言,名称语言,主题语言,代码语言,引文语言,等级体系分类语言,分面组配分类语言,标题词语言,元词语言,叙词语言,关键词语言,检索工具是人们用来存储、报道和查找各类信息的工具。按著录信息的特征划分著录是指编制检索工具时对文献的内容和形式特征进行分析、选择和记录的过程。目录型检索工具文摘型检索工具索引型检索工具,一、检索工具的定义及类型,2.3检索工具概述,按收录的范围可分为:国家书目、联合目录、馆藏目录、出版社目录。作用:了解本学科的研究历史和研究现状。通过古今种类书目,可查寻与研究课题密切相关的事实和资料。,1、目录型检索工具,各时期有代表性书目:四库全书总目提要、民国时期总书目、中国国家书目、全国总书目、全国新书目。联合目录主要有:OCLC联机目录和CALIS联合目录。OCLC(联机计算机图书馆中心)是世界上最大的提供网络文献信息服务和研究的机构。CALIS(中国高等教育文献保障系统)提供以中国高等教育数字图书馆为核心的中国高校图书馆联合目录。,2、文摘型检索工具,特点:具有摘要。如:中国生物学文摘、美国化学文摘,图2-2EI的一例文摘,3、索引型检索工具,索引一般是附在专著或年鉴、百科全书等工具书之后以及收录内容较多的二次文献之后,按主题词、人名、地名、事件、概念等内容要项编排,按其内容可分为主题索引、分类索引、关键词索引、引文索引。,图2-3中国大百科全书的一例索引,按载体划分:计算机检索工具电子图书、网络版期刊库、专利文献、学位论文数据库。印刷本检索工具百科全书、手册、统计资料、年鉴和各个专业的文摘、索引,还有提供检索依据的分类表和主题词表。目前的电子版图书与印刷版图书相比没有明显优势,特别是古籍的电子版图书还不能代替纸本图书。,按所收信息的学科内容划分:综合性检索工具我国的综合性数据库其加工深度不及专业性检索工具,检索途径少。专科性检索工具能够比较集中、迅速准确和全面地反映某学科领域的最新发展状况和最前沿的科研水平。详细完整的专业信息极具针对性。,二、检索工具的选择,考虑学科范围、信息类型和数据量【例题】用_检索-呋喃甲醇羧酸酯的合成、含有碳和氢元素的化合物的英文综合学术性文献。A.外文Elsevier数据库B.外文农业类CAB文摘数据库C.外文农业类AGRICOLA数据库D.外文食品科技文摘数据库FSTA了解收录的文献类型【例题】已知参考文献:徐经长等.国际会计学.中国人民大学出版社.1999.要找原文,使用_检索国际会计学。A.中文科技期刊数据库B.中国人民大学报刊全文数据库C.国务院发展研究中心D.图书馆的馆藏查询信息网,【例题】使用检索中国专利:CN03250961.8苗间除草机构密封传动箱。A.维普中文科技期刊数据库B.图书馆馆藏查询C.中国人民大学报刊全文数据库D.中国国家知识产权大局专利数据库E.中国国家科技图书文献中心(NSTL),【例题】用检索编号是GB/T17302.2-1998的文献A.中国国家知识产权局B.中国国家科技图书专利数据库文献中心(NSTL)C.国务院发展研究中心信息网D.中国标准信息服务网,考虑信息的时间范围同一个数据库版本不同,时效性也不一定相同。例如清华大学图书馆收藏的工程索引(EI)各种载体及馆藏的简况比较:印刷版(EI)月刊,年度更新,收录文献源2600种,馆藏年限1968-1996。光盘版(EiCompendex)季度更新,收录文献源2600种,馆藏年限19701997年。网络版(EiCompendexWeb)包括光盘版(EiCompendex)和EiPageOne两部分,半月更新,收录文献源5000种,馆藏年限1970至今。因此网络版(EiCompendexWeb)信息更新最快,量最大。,三、检索方法,1常规法:所谓常规法就是利用常规检索工具查找有关文献的方法顺查法、倒查法、时间抽样法2引文法就是查找参考文献的方法。由远及近地搜寻;由近及远地追溯3交替法引文法和常规法结合,四、检索途径,1、主题途径2、分类途径3、责任者/著者途径4、号码途径,【什么是主题】主题“是一组具有共性事物的总称,用以表达文献所论述和研究的具体对象和问题”,即文献的“中心内容”。【什么是主题词】表达主题概念的词汇就是主题词。狭义的主题词仅指叙词;广义主题词可以分为规范词汇和自由词汇,包括标题词、单元词、叙词、关键词。【主题词的规范】同义词(近义词)、多义词(一词多义)和相关关系词的规范化处理。,1、主题途径,(3)主题途径的优缺点,1)优点适合特性检索,查准率高【实例】主题词“C语言程序设计”就比分类号TP312表达得更准2)缺点通常不适合族性检索,查全率比分类号低。【实例】计算机类词典采用“计算机”、“词典”等词组合检索,不如用一个分类号“TP3-61”检索的数量多。由于很规范,非专业人士难以掌握。【实例】图书C+Builder5程序设计应该用“C语言程序设计”作为主题词。,【获取主题词的技巧】在图书的版权页可以找到在版编目里面的主题词和分类号码。或者在图书馆的馆藏数据找到主题词。例如查找C+Builder6实用编程100例一书在图书馆的馆藏数据中可以找到主题词是“C语言程序设计”等。,【实例】版权页样例如右图所示,2、分类途径,(1)图书期刊分类法(2)专利分类法(3)标准文献分类法(4)分类途径的优缺点,(1)图书期刊分类法,世界三大图书分类法:杜威十进分类法(DDC)(DeweydecimalClassification)国际十进分类法(UDC)(UniversalDecimalClassification)国会图书馆图书分类法(LCC)(Librarycongressclassification)中国图书分类法:中国图书馆分类法(中图法)中国科学院图书馆分类法(科图法)中国人民大学图书馆分类法(人大法),中图法介绍,中图法中国图书馆分类法,以学科来组织知识,将全部知识领域划分为5个基本部类,22大类。五大部类分别为:马列主义、毛泽东思想;哲学;社会科学;自然科学;综合性图书。,A马克思主义、列宁主义毛泽东思想、邓小平理论B哲学、宗教C社会科学总论D政治、法律E军事F经济G文化、科学、教育、体育H语言、文字I文学J艺术K历史、地理N自然科学总论O数理科学和化学P天文学、地球科学Q生物科学R医药、卫生S农业科学T工业技术U交通运输V航空、航天X环境科学、安全科学Z综合性图书,U1综合运输U2铁路运输U4公路运输U6水路运输U8航空运输,U41道路工程U44桥涵工程U45隧道工程U46汽车工程U48其他道路运输工具U49交通工程与公路运输技术管理,U441结构原理、结构力学U442勘测、设计与计算U443桥梁构造U444桥梁建筑材料U445桥梁施工U446桥梁试验观测与检定U447桥梁安全与事故U448各种桥型U449涵洞工程,图2-4中图法结构示意图,简表,马列,哲学,社会科学,自然科学,综合,基本大类,详表,T类又可分为以下几类TB一般工业技术TD矿业技术TE石油、天然气工业TF冶金工业TG金属学、金属工艺TH机械、仪表工艺TJ武器工业TK动力工程TL原子能技术TM电工技术TN无线电电子学,电信技术TP自动化技术,计算机技术TQ化学工业TS轻工业、手工业TU建筑科学TV水利工程,中图法从大类到小类,层层展开,不断细分,形成完整的知识体系。例如:关于红楼梦研究资料的分类为I207.411I文学I2中国文学I207文学评论和研究I207.4小说研究I207.41古代小说研究I207.411红楼梦研究与评论,有关互联网的知识分类为TP393.4T工业技术TP自动化技术计算机技术TP3计算机技术TP39计算机的应用TP393计算机网络TP393.4国际互联网,【例题】哲学辞典类号为:B-61【例题】法国的货币与银行的类号为:F825.65,【题解】(1)分析课题属于经济大类,具体是会计学。(2)时间要求一般是10年。(3)选择检索工具维普中文科技期刊数据库(4)确定检索途径采用具有族性检索功能分类途径。(5)确定检索标识此处的检索标识就是准确的分类号。通过维普中文科技期刊数据库的“分类检索”可以更快捷地检索分类号。,【例题】通过分类途径检索有关“会计检查和监督”的期刊论文,结果如下:F23会计F230会计学(簿记学、会计核算理论入此)F231会计簿记方法F231.1资产负债表F231.2复式记帐和帐户F231.3会计凭证和财产清查F231.4帐簿和记帐技术F231.5会计报表F231.6会计检查和监督确认“会计检查和监督”的分类号是“F231.6”。(6)检索在分类号字段输入“F231.6”就能检索出期刊论文。,(2)专利分类法,专利类法是根据专利的功能(效果)或其用途所属的行业部分来分类,目前,世界上大部分国家采用国际专利分类法(InternationalPatentClassification,简称IPC)国际专利分类法(简称IPC),IPC适用于发明和实用新型专利的分类。,IPC分类简表,第2讲信息检索基础,(3)标准文献分类法,世界各国的标准分类法同文献资料分类法类似,或以数字为标记、或以字母为标记、或以字母和数字混合为标记。我国的标准分类法采用混合标记,一级类目以专业划分,用字母表示类号,二级类目采用等级列类方法用双位制数字表示。排检时先按照字母顺序,大类相同再按双位数字顺序排列。中国标准分类法(ChineseClassificationforStandards,简称CCS),【部分分类】,(4)分类途径的优缺点,1)优点(1)族性检索,查全率较高。(2)按照人们认识事物的习惯,以学科分类为基础,容易被人们接受和应用【例题】检索英语会话类辞典,例如美国语会话百科、英语会话大全、现代英汉生活用语图解词典,请选择,哪种检索途径才能够同时查出这3本书?【选项】A.用关键词“会话”和“词典”B.用中国图书分类号H319.9-61C.用书名“英语会话”和“大全”D.用书名“英语会话”和“词典”,2)缺点(1)不适用于特性检索,查准率比主题词低(2)不能适应学科发展中的变化,难以反映新学科和新名词术语【实例】食品风险分析是保证食品安全的一种新模式,同时也是一门正在发展中的新兴学科。风险分析的目标在于保护消费者的健康和促进公平的食品贸易。目前的文章在分类上暂时归入R155.5食品卫生与检验和TS201.6食品安全与卫生。没有一个专门的“食品风险分析”分类号。,3、责任者/著者途径,英文版著者索引中人名规则1按姓、名次序排列。2同姓名著者,先按名字的首字母顺序排列,不全者排在全者之前,单名排在双名之前,简名排在全名之前。3复姓作者,将复姓作整体看待4团体著者也同个人著者一样,按团体单位名称的字顺排列。,【实例】ArrowB.Smith著录为:Smith,Arro

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论