信息检索实务课件_第1页
信息检索实务课件_第2页
信息检索实务课件_第3页
信息检索实务课件_第4页
信息检索实务课件_第5页
已阅读5页,还剩298页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

信息检索实务

信息检索概念广义概念——是指将信息按一定的方式组织和存储起来,并根据信息用户的需要找出有关的信息过程,故全称:“信息的存储与检索”

。狭义概念——仅指上述过程的后半部分,即从信息集合中找出所需要的信息的过程,相当于人们通常所说的信息查寻。本课程教学内容信息检索——学习查找所需信息的技术和手段。主要学习网络检索工具的使用,也学习书本式检索工具如百科全书等工具书的使用。信息组织——学习科学管理信息的技术和手段。上机实习本课程学习方式讲授与上机练习相结合。检查学习效果的方式:

作业(email提交)

考试(上机、开卷)教学计划(上)信息资源基础知识(第1章)Internet信息资源检索(第5章)联机检索(第4章)信息检索基础(第2章)文献检索(第3、7章)事实和数据检索(第8章)信息资源基础知识(2课时)信息、知识、情报、文献和数据等概念的含义和相互关系;信息资源的含义及特征;信息资源的类型;信息资源的开发和利用。与信息相关的几个概念(1)信息是人们对客观存在的一切事物的反映,是通过物质载体所发出的消息、情报、指令、数据、信号中所包含的一切可传递和交换的知识内容。知识是系统化的信息,是人类认识世界的成果和结晶。与信息相关的几个概念(2)情报是传递中的特定用户所需要的必要知识。文献是记录有知识的一切载体。数据

是对客观事物进行记录并可以辨别的符号,它不仅指狭义上的数字,还可以是文字、图形和声音等。信息是加载在数据之上,对数据作具有意义的解释。几个概念的相互关系事实>数据>信息>知识>情报信息资源的含义信息资源是经过人类开发与组织的信息的集合。信息开发是指人类根据自身需求以感知、思维、创造等方式从物质和能量中提取、生产信息的过程。信息组织是指人类根据一定的规则以语言、文字等符号为手段对所开发的信息实施有序化的过程。信息资源的特征智能性有限性不均衡性整体性信息资源的类型

1、按出版形式分类图书信息内容成熟、定型论述系统、全面、可靠出版周期长,知识的新颖性不够报纸时事性、普及性、大众性、服务性;传递信息迅速、信息量大系统性、专业性不足期刊出版周期短,报道信息速度快,内容新颖,发行及影响面广,定向选择性强信息容量受限制信息资源的类型

1、按出版形式分类(续)科技报告政府出版物会议信息专利信息信息资源的类型

1、按出版形式分类(续2)学位论文技术标准科技档案产品说明书音像出版物注意:还有大量非出版形式的信息信息资源的类型

2、按信息加工层次分类零次信息(灰色信息):是指未经过任何加工的原始文献,如实验记录、手稿、原始录音、原始录像、谈话记录等。一次信息(原始信息):是指作者以本人的观察、发现及研究成果为素材而创作或撰写的文献,如阅读性图书、期刊论文、科技报告、专利文献、会议文献、学位论文、技术档案等都是一次文献。

信息资源的类型

2、按信息加工层次分类(续)二次信息(检索性信息):是人们对一次信息进行搜集、提炼、浓缩、加工、整理,并按一定的科学方法组织编排后,便于存储和检索的信息。二次信息的主要用途是报道、检索、管理、控制一次信息。如各种目录、题录、文摘及机读型书目数据库、网上检索引擎等都属于二次信息。三次信息(参考性信息):是指对有关的一次信息和二次二次进行分析、研究、对比、综合、评述、概括而撰写的信息,如综述、述评、年度进展报告、百科全书、手册、年鉴、辞典等。其特点是文字精炼、叙述简明扼要,具有系统性、综合性、知识性和工具性等特点。信息资源的类型

2、按信息加工层次分类(续2)以上三级信息资源的关系:

零次信息是一次信息的素材;

一次信息是二次、三次信息的来源和基础;

二次、三次信息是对一次信息进行组织、加工、综合后形成的所谓“信息检索”主要是对二、三次信息的检索。信息资源的类型

3、按载体形式分类印刷型缩微型视听型机读型一、Google初级搜索1、逻辑运算符的使用逻辑与:“AB”(中间有空格)表示搜索既包含“A”又包含“B”的结果。“在结果中搜索”功能的作用基本相同。逻辑或:“AORB”,表示搜索至少包含A、B二者之一的结果。逻辑非:“A-B”(A后空格)表示搜索包含A但不包含B的结果。2、加英文双引号强制搜索完整词组、短语或句子。3、拼音可代替汉字检索。4、通配符:星号“*”代表一个完整的、唯一的字词。如用“饮*止渴”查找“饮鸩止渴”5、不区分大小写;自动排除常用字词。Google初级搜索练习1、有以下四个搜索表达式:

A、北京奥运会B、北京奥运会金牌榜

C、北京奥运会-金牌榜

D、北京奥运会金牌榜OR奖牌榜

(1)你认为以上四个搜索表达式哪个的Google搜索结果最多?哪个最少?

(2)用Google搜索验证你的判断。

2、在历届奥运会上,哪些中国运动员获得了哪些项目的奖牌?(包括项目名称、奖牌名称、运动员姓名)请用Google搜索出你认为理想的结果,并优化搜索表达式使该理想结果出现在前10项中。

3、请从网上找出全面介绍搜索引擎发展史的文章。上“吉利大学论坛”“信息检索”博客二、Google高级搜索只在某一个网站中搜索site:域名(英文冒号)在某一类文件中查找信息filetype:文件扩展名搜索的关键词包含在URL链接中inurl:搜索的关键词包含在网页标题中intitle:查找与某个页面结构内容相似的页面related:搜索所有链接到某个URL地址的网页link:网址数字范围搜索如:“卡车5000..10000kg”查看字词或词组的定义define:××常用中文搜索引擎

www.

www.常用中文搜索引擎的特点准确性最高,功能齐全特色、专门搜索功能最多突出商业和生活搜索功能可在指定分类中搜索词典和博客搜索功能有特色新闻、百度知道、百度百科、mp3图书、学术、图片、视频地图练习搜索出一篇关于中文搜索引擎的对比或评测文章,自己实践一下,看看你的感受和作者是否相同。体验各个搜索引擎的特色功能,熟悉它们各自的特点。搜索引擎的原理从网上采集信息→建立索引数据库→在数据库中搜索并排序示例检索汽车工业分类中自2005年1月1日以来在篇名、主题或关键词中包含“电动汽车”的所有论文;将被引频次前5名的论文以引文格式保存;生成检索报告。

检索发表单位是北京大学或人民大学,关键词或摘要中包含“宏观经济”的论文。检索表达式应为:

272.1信息检索的含义含义:从信息集合中迅速、准确地查找出所需信息的过程和方法。信息集合是指有组织的信息资源整体,可以是:馆藏目录、数据库、(印本)检索工具等。282.2检索与查找的区别检索查找、搜索、搜寻英文Retrival或RetrievalSearch过程和方法有一定的策略,是系统的查找资料。随机或更随意一些。技能需要一定的专门知识和技能简单,任意词用途课题或专题日常生活结果检索前通常不知道会有什么结果通常知道结果效率迅速、准确一般如果不刻意区分:你完全可以认为它们没有区别!292.5信息检索的意义避免重复研究,提高研究效率节省查找资料时间,提高信息获取效率获取新知识的捷径,培养创新型人才302.4信息检索类型划分示意图依检索结果内容

划分依信息存储与

检索方式划分手工检索计算机检索事实信息检索文献信息检索数据信息检索信息检索类型31数据信息和事实信息检索是确定性的检索,检索结果可以直接利用,一般通过三次信息来完成。文献信息检索是一种相关性检索,检索结果是文献信息的线索,一般通过二次信息来实现。全文数据库:是一次信息和二次信息的综合体。在检索结果中,有直接的全文链接。321.2信息处理级别(加工深度)示意图述评综述词典年鉴手册百科全书知识的产生记录档案学位论文标准科技报告专利说明书会议论文期刊论文专著一次信息二次信息文摘索引目录三次信息传播信息的利用俗称全文信息332.9信息检索效果评价检索效果(retrievaleffectiveness)是指检索系统检索的有效程度,它反映检索系统的能力。也涉及实施检索的人所能发挥检索系统的最大能力、效益等因素。包括6个方面:收录范围、查全率、查准率、响应时间、用户负担及输出形式。其中两个主要的衡量指标是查全率(Recallratio)和查准率(precisionratio),分别用R和P大写字母表示。34

相关文献非相关文献总计检出文献B (hit)M-B(noise)M 未检出文献A-B 总计 A 查全率(RecallRatio):R=B/A×100%查准率(PrecisionRatio):P=B/M×100%

一系列的实验结果表明查全率与查准率之间存在互逆关系。力争克服漏检(必要条件),尽量避免误检(充分条件)352.3信息检索原理从技术上来说,信息检索是以信息的存储与检索之间的相符性为基础的,如下图“信息检索原理图”:标引检索输出存储过程一次信息信息特征检索语言信息特征标识信息检索工具(系统)检索结果检索过程检索课题检索提问检索提问标识分析分析标引输入361信息检索语言信息检索语言

=

信息组织与存储的方法或规则371.1什么是信息检索语言回顾“信息检索原理图”,作为信息检索的桥梁——信息检索语言含义:是根据信息检索系统存储和检索的需要而编制的人工语言。语言=词汇+语法

信息检索语言的词汇:分类号、检索词、代码

信息检索语言的语法:如何正确描述记录和有效地检索记录的一整套规则。38391.2信息检索语言类型示意图信息检索语言描写文献外部特征描写文献内容特征分类语言体系分类语言组配分类语言混合分类语言题名语言著者语言号码语言主题语言单元词语言标题词语言关键词语言叙词语言文献信息分类网络信息分类数据库信息分类401.3.1文献信息分类语言分类语言是一种按学科范畴和体系来划分事物的检索语言国内

《中国图书馆分类法》[中图法]

《中国科学院图书馆图书分类法》[科图法]

《中国人民大学图书馆图书分类法》[人大法]

《中国图书分类法》台湾赖永祥编订国外

《杜威十进分类法》[DDC]

《国会图书馆分类法》[LCC]41《中图法》等级分类体系H1H2H3R1H11H12H13H14H121H122H123H124H111H112H113等级体系分类法上位类下位类42《中图法》结构示意图A马克思主义、列宁主义毛泽东思想、邓小平理论B哲学、宗教C社会科学总论D政治、法律E军事F经济G文化、科学、教育、体育H语言、文字I文学J艺术K历史、地理N自然科学总论O数理科学和化学P天文学、地球科学Q生物科学R医药、卫生S农业科学T工业技术U交通运输V航空、航天X环境科学、安全科学Z综合性图书U1综合运输U2铁路运输U4公路运输U6水路运输[U8]航空运输U41道路工程U44桥涵工程U45隧道工程U46汽车工程U48其他道路运输工具U49交通工程与公路运输技术管理U441结构原理、结构力学U442勘测、设计与计算U443桥梁构造U444桥梁建筑材料U445桥梁施工U446桥梁试验观测与检定U447桥梁安全与事故U448各种桥型U449涵洞工程

基本大类简表详表43中国科学院图书馆图书分类法简表(第三版)00马克思列宁主义毛泽东思想10哲学20社会科学(总论)21历史、历史学27经济、经济学31政治、社会生活34法律、法学36军事、军事学37文化、科学、教育、体育41语言、文字学42文学48艺术49无神论、宗教学50自然科学(总论)51数学52力学53物理学54化学55天文学56地球科学(地学)58生物科学61医药、卫生65农业科学66农作物67园艺68林业、林业科学71工程技术72能源学、动力工程73电技术、电子技术74矿业工程75金属学(物理冶金)76冶金学77金属工艺、金属加工78机械工程、机器制造81化学83食品工业85轻工业、手工业及生活供应技术86土木建筑工程87运输工程90综合性图书44人大法简表1.马克思主义、列宁主义、毛泽东思想2.哲学3.社会科学、政治4.经济5.军事6.法律7.文化、教育、科学、体育8.艺术9.语言、文字10.文学11.历史12.地理13.自然科学14.医药卫生15.工程技术16.农业科学技术17.综合参考45《中国图书分类法》(台湾)000总论100哲学200宗教300自然科学400应用科学600历史、地理700历史、地理800语文900美术310数学320天文330物理340化学350地质360生物、博物370植物380动物390人类学410医学420家政430农业440工程450矿冶460化学工业470制造480商业490商学441土木工程442道路工程443水利工程444船舶工程445市政工程446机械工程447陆空交通448电气工程449核子工程46《杜威十进分类法》(DDC)000总论100哲学200宗教300社会科学400语言500自然科学600应用科学700艺术800文学900历史、地理510数学520天文学530物理学540化学550地球科学560古生物学570生命科学580植物学590动物学621应用物理学622采矿623军事及航海工程624土木工程625道路工程627水力工程628卫生及市政工程629其它工程610医学620工程与应用科学630农业640家政650管理科学660化学工业670制造业680特种制造业690建筑47《美国国会图书馆分类法》(LCC)A综合性类目B哲学、宗教C历史-辅助科学D历史与地方志(美洲以外)E~F美洲历史与地方志G地理学、人类学H社会科学J政治学K法律L教育M音乐N艺术P语言、文字学Q自然科学R医学S农业、矿业T工业技术U军事科学V海军Z目录学、图书馆学QA数学QB天文学QC物理学QD化学QE地质学TA工程总论TC水力工程TD卫生工程和市政工程TF铁道工程和运输TG桥梁工程TH建筑工程481.3.2网络信息分类[很多情况下并不很清楚自己的信息需求,或者无法清楚表达信息需要,需要通过类目浏览,获得一些基本信息,然后再选择检索关键词]搜索引擎【目录

专题网站】

google网页目录

搜狗目录学科信息门户

/

/开放目录

/

/

特殊资源分类[电影分类/软件分类/商业分类]491.3.3数据库信息分类如《CNKI中国学术文献网络出版总库》

50小结NO6文献信息分类特点方便文献信息的排架,便于索取;类目的结构严谨,逻辑性强;适合学术信息资源(特别是印刷型)的组织。网络信息分类特点根据网络信息的存在状况和当前上网用户的特点来编制的,有一定的科学性和系统性;适合大众信息资源的组织。数据库信息分类特点结合文献信息分类和网络信息分类的优点方便浏览和检索511.4主题语言主题:论述的对象和研究的问题主题语言:以文献的主题为依据,以规范化或未经规范化的名词术语作为文献标识来进行检索的一种检索语言。521.4.1标题词语言标题词:从自然语言中选取并经过规范化处理的、表示事物概念的的词、词组或短语。代表:EI中《工程主题词表》(简称SHE)电脑见(see)计算机局域网参见(seealso)计算机网络531.4.2关键词语言所谓关键词是指那些出现在文献的标题(篇名、章节名)以至摘要、正文中,对表达文献主题内容具有实质意义的语词,亦即对揭示和描述文献主题内容来说是重要的、带关键性的(可作为检索“入口”的)那些词语。关键词基本上不作规范化处理。例如,“国际联机检索概论”中的“国际联机”、“联机”、“检索”都是能描述这篇文献的主题的,可以作为检索词。概括地说,关键词法就是将文献原来所用的,能描述其主题概念的那些具有关键性的词抽出,不加规范或只作极少量的规范化处理,按字顺排列,以提供检索途径的方法。541.4.3叙词(主题)词语言叙词是指一些以概念为基础的,经过规范化的,具有组配功能并可以显示词间关系和动态性的词或词组。如:《汉语主题词表》、《机械工程主题词表》/

有一些英汉对照55主题词语义参照系统参照项含义简称符号英文简称英文全称用项同义词(正式主题词)用YUSEUse代项同义词(非正式主题词)代DUFUsedFor分项狭义词(又叫下位词)分FNTNarrowerTerm属项广义词(又叫上位词)属SBTBroaderTerm族项族首词族ZTTTopTerm参项相关词参CRTRelatedTerm56正式主题词款目Zàoshēnggānrăo

噪声干扰[56MB]NoisejammingD杂波干扰

F瞄准式干扰扫频干扰阻塞式干扰

S通信干扰有源干扰

Z电子对抗*

C连续波干扰脉冲干扰调制干扰汉语拼音范畴分类号英译名参照符号关系词正式主题词57非正式主题词款目Zábōgānrăo

杂波干扰[56MB]NoisejammingY噪声干扰非正式款目主题词汉语拼音范畴分类号英译名关系词参照符号58词族索引款目Diànzĭduìkàng

电子对抗*

·通信对抗

··通信干扰

···脉冲干扰

···欺骗性干扰

···载波干扰

···噪声干扰

····扫频干扰

····阻塞式干扰

··通信抗干扰59概念组配是叙词语言的基本原理。概念组配与字面组配在形式上有时相同,有时不同;而从性质上来看两者区别是很大的。字面组配是词的分析与组合(拆词);概念组配是概念的分析与综合(拆义)。例如:

字面组配模拟+控制-->模拟控制香蕉+苹果-->香蕉苹果

概念组配模拟+控制-->模拟控制香蕉味食品+苹果-->香蕉苹果60小结NO7分类语言主题语言以学科和专业集中文献能将不同学科的信息集中到一起适宜族性检索适宜特性检索不利于新兴学科、交叉学科和边缘学科的检索不利于新兴学科检索查全率不高查准率不高612计算机信息检索技术机检回忆“信息检索原理图”

见第二讲PPT50信息检索系统=硬件+软件+数据库计算机信息检索的实质就是由计算机将输入的检索策略与系统中存储的文献特征标识及其逻辑组配关系进行类比、匹配的过程,需要人——机协同作用来完成。622.1计算机信息检索的类型计算机信息检索系统的类型检索系统存储的内容文献信息检索系统事实信息检索系统数值信息检索系统图像信息检索系统多媒体信息检索系统检索系统工作方式脱机信息检索系统(20世纪50~60年代)联机信息检索系统(20世纪70年代~光盘信息检索系统(20世纪80年代~网络信息检索系统(20世纪90年代~632.2计算机信息检索技术计算机信息检索技术是用户信息需求和文献信息集合之间的匹配比较技术。由于信息检索提问式是用户需求与信息集合之间匹配的依据,所以信息检索技术的实质是信息检索提问式的构造技术。目前,计算机信息检索技术已经从基本的布尔逻辑检索、截词检索、邻近检索、限制检索、短语检索、字段检索发展为高级的加权检索、自然语言检索、模糊检索、概念检索和相关检索等多种技术并存。

642.2.1布尔逻辑检索布尔逻辑组配是现行计算机检索的基本技术,主要通过“与(and,*)”、“或(or,+)”、“非(not,-)”将检索词联络起来。

AND[*][&][空格]AandB逻辑与。A和B都为真时,结果才为真,即:A*B,逻辑含义用图表示是:65OR[+][|]AorB逻辑或。A或B中只要有一个为真时,结果就为真,即:A+B

NOT[-][^][!]

AnotB逻辑非。A为真、B为假时,结果才为真,即:A-B66布尔逻辑运算符的运算次序括号优先[与计算机编程中一样]

(AORB)ANDCNOTD不同的系统次序有差别,但总的来说一般次序为:

NOTANDOR例A:查找有关信息检索的非英文文献

信息[information]检索[retrieval]英文[english]

(信息and检索)not英文

(informationandretriever)notenglish67分析实例:上海零售业的现状与发展趋势上海零售业现状发展趋势上海and

零售业and(现状

or

发展趋势)682.2.2截词检索截词包括后截、中截、前截等。用?作为截词符(有些系统用*),主要包括下列情形:

截词符?中截一字符,后截断n个字符

如wom?n可以检索出:woman,women如

coumput?可以检索出Compute,Computer,Computing,computable69??

后、中截二字符

如:transplant??可以检索出:transplant、transplanted、transplanter???后、中截三字符

如:

comput???可以检索出:compute;computer;computing70通配符,无限截断[%][?][*]后方一致(前截断):

“%国庆”将检索出所有字段为张国庆、欧阳国庆、国庆等的记录。

前方一致(后截断):如:“热电材料%”将检索出热电材料梯度化、热电材料及其梯度化等的记录。712.2.3邻近检索

位置算符(W)—with,(nW)—nwith

表示检索算符两侧的词不可以颠倒顺序,n表示两个词中间可以插入<=n个的词(如:aninbyofthe……)如:control(1w)system可以检索出“controlsystem”“controlinsystem”等的信息。72位置算符(N)—near,(nN)—nnear

表示检索算符两侧的词可以颠倒顺序,n表示两个词中间可以插入<=n个的词(如:aninbyofthe……)

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论