版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、信息检索与存储第一章学习目标:1、信息资源的含义及国内外的主要观点2、信息资源的基本特征3、信息资源的类型及网络信息的划分4、纸质文献的类型与价值第1章 信息资源概论1.1信息资源1.2电子信息资源1.3纸制文献资源1.1.1 信息资源的基本概念信息的涵义:广义信息是物质、能量存在和运动状态的表征。狭义信息是人类社会共享的一切知识、学问以及从客观现象中提炼出来的各种消息的总和,即现代信息。资源的涵义:资源是一切被人类开发和利用的客观存在。如土地、森林、矿产、海洋、石油、人力、信息等资源信息资源的涵义:狭义指文献资源或数据资源,抑或各种媒介和形式的信息的集合,包括文字、声像、印刷品、电子信息、数
2、据库等。这都是限于信息的本身。广义信息资源是信息活动中各种要素的总称。这既包含了信息本身,也包括了与信息相关的人员、设备、技术和资金等各种资源。(1)原始数据与信息的区别 原始数据经过加工处理变为信息(2)信息与信息资源的区别 经过加工、可被利用的信息称为信息资源。information resource为复数时,常指信息及与信息有关的设备、人员等集合。信息资源的内涵:是经过人类选取、组织、序化的有用信息的集合信息资源是信息的集体;信息资源是经过人类选择、获取的有用信息 的集合;信息资源是经过人类组织序化的信息的集合。信息的基本性质:(1)信息是内容是客观的(2)信息的形式是主观的(3)信息是
3、一切物质的基本属性与信息有关的概念:(1)知识。是对客观事物规律性认识,是系统化和精炼化的信息。知识的三种存在方式:大脑、实物、文献知识的七个特征:不可替代性不可相加性不可逆性不可磨损性不可分性可共享性无限增值性知识分类: 4W 事实知识(Know What)原理知识( Know why)技能知识( Know how)人力知识( Know who)知识分类: 6W+1Q 事实知识( Know What)原理知识( Know Why)技能知识( Know How)人力知识( Know Who)时间知识( Know When) 空间知识( Know Where)数量知识( Know Quantit
4、y )(2)文献。是记录知识的一切载体,即用文字、图形、符号、或声视频等记录方式在一定介质上所生成的物质成果文献的三要素:记录、知识、载体文献的功能:存储功能传递功能认识功能(3)情报。指为一定目的而搜集和传递的有特定效用的知识情报的基本属性:传递性、效用性1.1.2 信息的基本特征:(1)普遍性(2)传递性(3)时效性(4)价值性(5)可转换性(6)可利用性(7)可共享性1.1.3 信息资源的类型:按性质划分:(1)自然信息资源(2)社会信息资源按信息包含范围划分:(1)广义信息资源(2)狭义信息资源按信息资源的载体:(1)印刷型信息资源(2)微缩型信息资源 (3)声像性信息资源(4)电子型
5、信息资源按内容:(1)文献型信息资源(2)数据型信息资源(3)多媒体信息资源按保密程度:(1)公开性信息资源(2)半公开性信息资源(3)非公开性信息资源按表现形式:(1)文字性信息(2)图像性信息(3)数值数据性信息(4)语音性信息按信息资源的加工程度:(1)一次信息(2)二次信息(3)三次信息按传输方式:(1)网络信息资源(2)非网络信息资源按数据资源信息的生产途径和发布范围分:(1)商用电子资源(2)网络公开学术资源(3)特色信息资源1.1.4 信息意识:(1)认识到信息和信息活动的功能和作用(2)认识到信息对我们学习和课余科研活动的效用(3)认识到各种信息源的价值和信息机构提供的产品和服
6、务。(4)形成对信息的积极体验,进而产生相应的信息需求和信息行为倾向。1.1.5 信息素质教育:是从各种信息资源中检索、评价使用信息的能力。是培养信息意识的一条重要的途径。意识到准确和完整的信息是决策的基础信息素质教育内涵:1、了解信息需求及问题所在2、制定信息检索策略3、掌握信息检索技术4、能评价信息5、能根据实际用途组织信息6、使用信息,将新信息融会到知识结构中1.2 电子信息资源电子信息资源发展的历史:文本超文本多媒体超文本1.2.1电子信息资源含义与特点:1、存储形式多样化。文本、超文本、多媒体、超媒体2、资源数字化。3、交流程度高4、提高利用率5、内容丰富6、载体容量大。总之电子资源
7、数据库具有冗余度小、共享性和安全性好、更新速度快、检索手段多等优点。1.2.2 网络信息资源的类型1、按照网络传输协议不同分(1)Web信息资源:通过HTTP在网上传输(2)Telnet信息资源:基于网络通讯协议(3)FTP信息资源:通过FTP协议可完成完整的文件拷贝(4)用户服务组信息资源:由一组对某一特定主题有共同兴趣的网络用户组成的电子论坛。(5)Gopher信息资源:Gopher是一种基于菜单的网络服务,允许用户以一种简单的、一致的方式快速找到并访问所 需的网络资源。2、按信息传播交流过程分:(1)稳定的电子信息资源(2)不稳定的电子信息资源3、按网络信息资源的表现形式分:(1)电子图
8、书型(2)电子期刊型(3)电子报纸型(4)联机系统与联机数据库(5)数字图书馆4、按照存取方式分(1)邮件型(2)电话型(3)揭示板型(4)广播型(5)图书馆型(6)书目型(7)交互型5、按电子数据库内容分:(1) 参考数据库(2) 源数据库 (3)混合型数据库(1)参考数据库指导用户到另一个信息源中获取原文或其他细节的数据库。分为:书目数据库 指南数据库(2)源数据库(source databases):直接提供原始资料和具体数据的数据库全文数据库 数值数据库 科学技术数据库 统计数据库 文本-数值数据库 公司信息库 产品市场数据库 术语数据库 汉语主题词数据库 图象数据库建筑图纸数据库(3
9、)混合型数据库:磁媒体数据库 、光盘数据库 、 多媒体数据库1.2.3网络信息资源的特征:1、信息内容丰富2、信息变化频繁3、信息结构复杂4、格式多样化5、信息价值不一1.2.4网络信息资源的发展变化:1、网络信息资源数量规模的急剧增大2、信息资源内容趋于规范1.2.5 网络信息资源的评价:(1)资源内容评价指标:数据库的规模数据库的范围数据库的质量控制数据库的实效性(2) 信息组织管理的评价指标:信息收集方法信息更新周期信息管理方式(3)信息检索功能的评价指标:布尔逻辑检索精确检索截词检索(4)检索结果评价指标:结果满意度相关性排序显示内容形式1.3 纸质文献资源1.3.1印刷型信息资源的性
10、质:(1) 纸质文献是知识的存在形式(2) 传递信息知识(3) 纸质文献资源可以多次重复使用(4) 纸质文献所载的是相对固化的信息1.3.1印刷型信息资源的特点:(1)实用性:携带、书写、保存方便(2)直观性:阅读不需借助计算机等工具。(3)不可替代性:以纸质为载体的艺术作品的不可替代性(4)增值性:质文献作为收藏品的不可替代性1.3.1印刷型信息资源的来源:(1) 个人(2) 出版社(3) 教育科研机构(4) 公司企业(5) 学术团体(6) 政府部门及各类社会组织(7) 文献信息部门1.3.2 纸质文献资源的类型与情报价值:见教材P211、按文献编撰方法和出版特点划分(1)图书(2)期刊 (
11、3)报纸(4)会议文献(5)科技报告(6)标准文献 (7)专利文献(8)学问论文(9)产品说明书(10)政府出版物(11)技术报告(12)特种文献 (1)图书:国际标准书号由13位数字组成。前三位数字代表图书中间的9个数字分为三组:分别表示组号、出版社号和书序号,最后一个数字是校验码。国际标准书号第一组号码段:第一组号码段是地区号,又叫组号(GroupIdentifier),最短的是一位数字,最长的达五位数字,大体上兼顾文种、国别和地区美国所出版的书国家代码为0,1代表英语使用这两个代码的国家有:澳大利亚、加拿大、爱尔兰新西兰、波多黎各、南非、英国、美国、津巴布韦等;2代表法语,法国、卢森堡以
12、及比利时、加拿大和瑞士的法语区使用该代码;3代表德语,德国、奥地利和瑞士德语区使用该代码;4是日本出版物的代码;5是俄语系国家出版物的代码;7为中国大陆出版物使用的代码等等。国家领域最长可能为5位数字(如不丹为99936)10位数字的中国标准书号校验码13位数字的中国标准书号校验码所得数值结果可能不同如下所示:10位数字中国标准书号:ISBN 7-5064-2595-513位数字中国标准书号:ISBN 978-7-5064-2595-7EAN校验码,具体算法是:用1分别乘ISBN的前12位中的奇数位(从左边开始数起),用3乘以偶数位,成绩之和以10为模,10与模值的差值即可得到校验位的值,其值
13、范围应该为09。 韩国的89-8172-105-X 98年978-89-7050-565-7 2007年978-89-8172-106-0 98年第一次,2008年第6次印刷澳大利亚ISBN 978-192156425-3;ISBN 0-340-62222-9条码下面978-0-340-62222-3年1998。图书的情报价值:内容成熟、系统,是获得基础知识的重要途径。周期长,不新颖,适用对陌生领域的初步了解(10)政府出版物:由政府机构制作出版、或政府机构制作并指定出版社出版的文献。包括:法律、法令、议案、通知、统计资料等行政性文献和科技文献(11)技术档案:指生产建设和科学技术部门在技术活
14、动中所形成的有一定具体工程对象或科研对象的技术文件的总称包括任务书、协议书、技术经济指标、审批文件、研究计划等(12)特种文献:有特定的内容、特定用途、特定读者。 特定出版发行方式的文献。包括:学位论文、研究报告、专利、标准、产品样本、会议录、档案、政府出版物。2、 按文献的加工深度划分:零次文献、一次文献、 二次文献、三次文献(1)零次文献(灰色文献)指未经公开交流的最原始的文献。如论文手稿、新闻稿、未审核的工程图纸、实验记录、会议记录。特点:内容庞杂、来源真实、成熟度差(2)一次文献(原始文献):特点:零散、无序、难获取。第一,创造性;第二,原始性;第三,多样性(3)二次文献:特点:第一,
15、集中性;第二,工具性;第三,系统性(4)三次文献(参考性):三次文献源于一次文献有高于一次文献。三次文献分为综述研究类和参考工具类三次文献特点:第一,综合性;第二,针对性;第三,科学性3、按文献获取难易度划分:白色文献 灰色文献 黑色文献(1)白色文献:指已正式出版并在社会上公开流通的文献。如图书、报纸、期刊(2)灰色文献:指信息内容没有完全公开的文献。如内部刊物、内部技术报告、内部教材、会议材料特点:第一,流通渠道特殊,发行量少,不加入正式的出版行列第二,出版形式多样,没有固定的形态、固定的名称第三,有特殊的参考价值(3)黑色文献:指信息内容完全不公开的文献。如政府为解密的文件、内部档案、具
16、有保存价值的个人日记和信件4、其他载体文献信息资源:(1)印刷型文献信息资源:以纸张为介质,以印刷为记录手段的文献形式。特点:存储密度小、占据空间大、阅读携带方便(2)微缩型文献信息资源:以感光材料为介质,以摄影为记录手段将文献影像固化在微缩平片或微缩胶卷上形成的文献形式特点:存储密度小、占据空间大、阅读携带方便(3)声像型文献信息资源:以感光和磁性材料为介质,使用声、光、磁、电等技术将声像信息记录下楼来形成的文献形式特点:直观、形象。(4)电子型文献信息资源:通过编码和程序设计将信息转换成机读语言 ,存储到计算机外存设备上而形成的文献。特点:存储密度高、存取快、数据可修改、删除、更新纸质文献
17、按文献编撰方法和出版特点划分:(1)图书定义:是一种全面而系统地阐述某一学科的理论与发展并传授各种技术专长以及用来查阅某种知识的文献形式。组成:国际标准书号由13位数字组成。前三位数字代表图书;中间的9个数字分为三组,分别表示组号、出版社号和书序号;最后一个数字是校验码。第一组号码段是地区号,又叫组号(GroupIdentifier),最短的是一位数字,最长的达五位数字,大体上兼顾文种、国别和地区。美国所出版的书国家代码为0,1代表英语。使用这两个代码的国家有:澳大利亚、加拿大、爱尔兰新西兰、波多黎各、南非、英国、美国、津巴布韦等;2代表法语,法国、卢森堡以及比利时、加拿大和瑞士的法语区使用该
18、代码;3代表德语,德国、奥地利和瑞士德语区使用该代码;4是日本出版物的代码;5是俄语系国家出版物的代码;7为中国大陆出版物使用的代码等等。国家领域最长可能为5位数字(如不丹为99936)(2)期刊定义:是有统一名称定期或不定期出版的连续出版物。特点:周期短、报道及时、数量大、内容新颖。情报价值:ü 有些发明和发现最初并不是成熟、稳定和可靠的,他们往往不能被图书接纳,却被期刊采用。ü 世界上所有主要的检索工具都以期刊为主要的收录对象(90%),可以比图书更方便的查到资料。特点:具有统一国际标准连续出版物号ISSN,通常作为检索字段期刊,通常每年至少出一期、每周至多出一期,它包
19、括周刊、旬刊、半月刊、月刊、双月刊、季刊、半年刊等。(3)报纸定义:以报道新闻及其评论为主、出版周期比期刊更频繁、多为活页的连续出版物。分类:按级别分:全国性报纸和地方性报纸按内容分:综合性报纸和专业性报纸按发行时间分为:日报、隔日报、三日报、晨报、晚报、周报、旬报等。情报价值:内容丰富、信息量大、出版迅速、发行面广、读者众多缺点:资料庞杂零散、不易积累保存(4)会议论文定义:指国内外各种学术会议和专业会议上宣读或发表的论文和报告情报价值:代表该领域的最新成就、最新水平、发展趋势(5)科技报告定义:指科研过程进展情况的阶段性纪录或科研成果的报告按发行范围分为:绝密报告、机密报告、秘密报告、非密
20、报告、解密报告。情报价值:新颖详尽,常附有大量的数据、图表、原始纪录。第一,迅速反映新的科技成果,一般比期刊早一年左右第二,内容多样化,几乎涉及到各个领域。 第三,基本上都是一次文献。(6)标准文献定义:有权威机构批准、颁布的、可供人们执行的技术规格的规范性文献。情报价值:具有约束性。这是其他文献所有没有的。(7)专利文献定义:广义指与工业产权有关的所有文献的统称,它不仅包括专利说明书,还有各种检索工具、专利公报以及与专利有关的法律文件及其诉讼资料。狭义指专利说明书,它是专利申请人向政府说明其发明创造的文件,在说明书中常论述其发明目的、发明的技术背景、发明的详细内容及发明创造的效果等。情报价值
21、:新颖、可靠、实用、具体技术开发中最重要的参考资料 第一,详尽。第二,内容广泛。第三,专利说明书既是技术文件又是法律文件在一定年限内发明所有者享有制造、使用、销售的法律文献(8)学位论文定义:是高等学校或研究机构的毕业生为评定各级学位而撰写的学术论文。包括学士论文、硕士论文、博士论文。情报价值:比较专一、深入(9)产品说明书定义:厂商为介绍推销其产品而印发的文献。包括产品说明书、产品目录、企业介绍等情报价值:内容详尽、可靠性好、直观性强、其新颖程度不如专利文献、但成熟性较之强(10)政府出版物定义:由政府机构制作出版、或政府机构制作并指定出版社出版的文献。包括法律、法令、议案、通知、统计资料等
22、行政性文献和科技文献(11)技术档案定义:指生产建设和科学技术部门在技术活动中所形成的有一定具体工程对象或科研对象的技术文件的总称分类:按内容分:政治档案、经济档案、科技档案按表现形式分:书面档案、形象档案、声音档案情报价值:档案是历史的原始记录,有重要的凭证价值和情报价值(12)特种文献:定义:有特定的内容、特定用途、特定读者而特定出版发行方式的文献。包括学位论文、研究报告、专利、标准、产品样本、会议录、档案、政府出版物。第2章 信息存储与检索基础一、信息检索定义:广义指将信息按有序的方式组织和贮存,并根据用户的需求查找出有关信息的过程。包括存入和输出两个方面。狭义指查寻信息的过程,即从信息
23、集合之中查寻出所需要的符合要求的信息的过程。基本原理: 查询语言(检索提问)和系统标识语言所进行的“相符性比较”与“匹配运算”。直接检索:直接从信息源或信息文献载体中获取信息间接检索:通过检索工具指引来获取所需信息。类型: 一是关于文献的检索;二是关于某事实或事项的知识检索;三是关于数值或数据的情报检索;四是关于图象信息的信息检索。信息检索模型(1)基于文档内容的检索模型布尔逻辑模型:采用布尔代数中的逻辑“与”“或”“非”等算符,来制定检索词中必需存在的条件或不能出现的条件概率统计模型:利用概率论的原理,通过赋予标引词概率值来表示该词在相关文档集合或无关文档集合中出现的概率。向量空间模型:通过
24、计算两个向量的相似度对返回的结果进行排序。(2)基于文档结构的检索模型并列链表模型:首先将文档划分为平列,即非重叠的章、节、段落区域,并采用链表的方式将同一区域中元组连接起来,以此表示文档的结构,再为链表建立倒排索引,就可以实施对链表的检索模型。层次邻接模型:是以一种建立在分层的文档结构之上的基于邻接节点的模型,在该模型中,节点即指文档的结构要素(章、节、段落)。允许在相同的文档上定义独立的分层索引结构。二、信息存储定义: 是按主题词表或分类表及使用原则对原始信息资源进行处理,形成信息特征标识,为检索提供整序(即提供检索途径的)的信息集合的过程。类型:印刷存储指将数字、图形等原稿信息经过一定的
25、工艺操作成批量复制出来的活动。特点:直观易读、携带方便缺点:存储信息密度低、存储传输慢,难以长期保存微缩存储指只利用摄影机将印刷资料微缩拍摄到感光胶片上、冲洗微缩胶片后保存起来以供复制、发行、检索阅读只用。特点:容量大、密度高,忠实于信息原件、不出差错;成本低、保存时间长磁存储:包括计算机磁带、硬盘、软盘、光盘、温盘特点:(1) 能存储一切可转换成电信号信息(2) 可长久保存、重复使用、可擦写(3) 可同时进行多路信息存储,并保证信息之间的时间和位相关系(4) 存储频带宽广(5) 可高速存储高频信息慢速播放或慢速存入低频信息快速播放半导体存储是采用集成化的技术将存储单元电路及其外围电路直接置放
26、在半导体芯片上支撑的。特点:信息存储密度高;价格低;方便存取、方便与计算机连接;显示信息种类多;坚固耐用,存储寿命长三、信息检索类型1.按检索活动的执行主体:手工检索:利用人工信息存取系统检索信息的活动,如各类纸质书目、索引、文摘、卡片。检索过程: 人工的手翻、眼看、大脑分析和判断优点:不需要辅助设备,适应性好成本低,检索工具可长期无限制使用检索前随时获得反馈信息,及时修改检索策略可以把几种检索工具进行对比参照。缺点:费时费力检索工具提供检索点有限,主题专深文献难以查询半机械化检索用选卡机对机器穿孔卡片进行检索。缩微胶卷检索是通过光电原理而实现匹配的。计算机检索:利用计算机技术进行信息存储和检
27、索的过程两者区别:2.按检索信息的特征:书目检索:利用文献检索系统,从一个特定的书目集合中查找特定用户所需的特定主题、特定区域、特定时间的文献的程序与方法数据检索:对具体数据的查寻,它能回答信息用户的数据提问,查寻结果为具体数据。数据检索:包括数值形式数据和非数值形式数据。前者如年平均气温,经济增长率,各种科学参数、常数、系数等;后者如化学结构式,化合物分子式,工业产品的技术规格,各种经济模型,数学表达式等事实检索:查寻某项事实的检索,它能回答信息用户的事实提问全文检索:是将存储与数据库中整本书、整篇文章中的任意内容信息查找出来的检索。全文检索可以根据需要获得全文中有关章、节、段、句、词等信息
28、,也可进行统计和分析。图像检索:包括基于文本形式和基于内容形式两种。前者人工根据图像进行关键词标引。后者根据图像的颜色、形状和纹理等信息检索多媒体信息检索:分基于文本方式和基于内容特征的多媒体信息检索3.按检索系统的工作方式划分脱机存取:早期计算机检索没有终端设备,利用磁带检索,利用穿孔卡片或纸袋输入数据或命令。联机存取:用户可以使用终端设备直接与计算机进行“人机对话”,计算机能对用户的提问及时处理并显示结果的查询。光盘存取:用户直接使用带有光盘驱动器的计算机,检索光盘上所记录于存储的信息资源因特网存取:主要针对Internet上的信息资源进行的计算机检索活动。4.依照检索策略划分布尔逻辑存取
29、(逻辑算符):采用布尔代数中的逻辑“与”“或”“非”等算符,来制定检索词中必需存在的条件或不能出现的条件。截词存取(截词符):它是利用计算机固有的指定位的对比判断功能,使不完整的词能与标引此进行比较、匹配的一种检索位置逻辑存取(位置算符):在检索词之间使用位置算符,规定两边的词出现在信息中的位置。限定存取(限制符):作用是限制检索词或检索式在数据库记录中出现的字段位置。加权存取:判定检索词或字符串在满足检索逻辑后对文献命中与否的影响程度5.依照系统载体划分 印刷型文本检索 微缩磁带检索 光盘系统检索 计算机存取信息查询检索6.按检索工具类型目录与题录检索目录:也称书目,指一批相关文献的记录,其
30、基本功能是反映某一地区、某一时期在某一领域中出版物的信息。 书目:可以是描述性的,著者姓名,作品全名、出版时间、版本、价格等。可以是评论性的,对出版物的使用价值提出看法,导读作用可以是注释性的,简述内容,写作风格。 题录:是在目录工具的基础上发展起来的检索工具。不同的是题录揭示整部图书或期刊的单篇文章。文摘检索:是一种既揭示文献外部特征、又通过摘录文献要点报道文献内容的检索工具。是二次文献的核心文摘分类:报道性文摘;指示性文摘;评论性文摘。字典型检索:分语言性和知识性参考工具。按编撰目的可分为语文词典、专科词典和综合性词典(百科词典)语文词典按语种可分为单语词典和双语、多语词典按收词量可分为大
31、型词典、中型词典、小型词典和袖珍词典。 专科词典:汇集不同学科的词汇,有的侧重语文角度对各种术语给予简略的解释,有的偏重知识角度 综合性词典:兼有语文词典和专科词典的功能,又称为百科词典,从这类词典中既可以查到普通的语文字词,也可以查到人、地、事等百科性词条。交互式检索:包括搜索引擎和主题目录索引:指示知识点在正文或文献款目中的位置。索引旧称“通检”、“备检”,也有英文Index音译为“引得” 是将信息集合中有重要检索意义的事物名称及特征( 如字、词、人名、书名、刊名、篇名、内容主题名等 ) 分别抽取出来,注明其出处页数 , 按一定的方式(字顺或分类)排列,附在一书之后或单独编辑成册。它是检索
32、图书资料的一种工具。四、索引的款目结构及类型1. 索引款目结构索引款目:是有关信息资源所涉及的主题、事物及其特征的信息单元,并指向其地址的一条记录。组成: 索引标题词:亦称标目、索引键、索引标题等。一般处于索引款目最醒目位置,是索引款目核心,它决定着一条索引款目在整个索引中的排列位置,是索引款目的检索入口。索引标题词可以为单一标题词,也可以为带有副标题的多级标题词 说明语:也称上下文或修饰语,通常位于索引标题词的右边或下面,用来说明、解释、限定索引标题词含义的辅助项目。 地址参照项:位于索引标题词和说明语之后,索引地址所指明的是索引标题词所在的页码或在检索系统中的文献顺序号、分类号或文献号等,
33、即索引标题词的出处。索引参考项有时用于引导用户使用正式索引标题词。2. 索引类型索引系统:从形式上讲是成千上万件索引款目的集合; 从内容上看是信息单元的指南。索引系统的排序:按照索引标题的顺序组织而成,不同性质的索引标题词构成了不同类型的索引。依据索引标题词的性质划分:揭示信息资源内容主题索引、分类索引、关键词索引、分子式索引、结构式索引;揭示信息资源形式题名索引、人名索引、物名索引、代码索引、引文索引。 依据索引标题词的排序方式划分: 按照标题词字顺组织主题索引、题名索引、人名索引、关键词索引、语词索引; 按照文献代码组织报告号索引、合同号索引、标准号索引等; 按其它排序方式组织网络信息自动
34、索引、重量索引、速度索引、专用索引。依据检索方式划分:先组式索引、后组式索引。 依据索引所包括的对象划分: 综合索引、专门索引。(1) 题名索引是将信息资源的题名特征(书名、刊名、篇名)选作为索引标题词所编制的索引系统。题名索引常采用字顺排序法组织款目。(2) 人名索引是以文献上署名的著者、译者、编撰者、注释者以及文献中所论述的人物名称作为索引标题词所编制的一种索引。此类索引一般按照人物名称的字顺组织。英、德、法、西班牙等语种的著者索引姓在前、名在后,与其在文献中出现的姓名形式不同,用户检索时应注意掌握其排列规则。(3) 文献序列号索引是根据信息资源的外表特征文献序号所编制的索引。在一些特定类
35、型的文献资源中,每一份文献都有一个特定的专门排序号。如科技报告号、合同号、技术标准的标准号、专利说明书的专利号,图书的国际标准书号(ISBN)等。(4) 引文索引是从被引论文检索引用论文的索引工具。即以某较早公发发表的论文为起点,逐一查询那些引用过该论文的文献,随后还可以利用检索到的引用文献为被引文献进行循环检索,逐步扩大检索范围,以了解和掌握一大批具有相关关系的科学文献。组织方式:按照被引论文的作者排列,在被引论文之下,在按年代列举引用过该文献的全部论文。(5) 分类索引是以文献内容的学科范围的分类标识(又称分类号)为依据编制而成的引文系统。本索引可提供按学科专业系统检索文献的途径。编制原理
36、:概念的划分与概括。在概念划分与概括的原理基础上建立起来的等级体系分类系统是一种先组式的索引语言。 (6) 主题索引是将表征文献主题内容的主题词作为索引标题词,其后注明地址(或页码)编制而成的索引系统。此处所指的主题词是经过规范,有词表控制的标题词以及词组和短语先组式的索引语言。主题语言:一种以规范化的自然语言为标识符号,来标识文献中心内容的一种排检方法。类型:根据选词原则分为标题词语言、单元词语言、序词语言、关键词语言,但基本原理大体相同主题语言优缺点:1) 能把属于不同学科、不同知识体系中论述的同一主题的资源集中标引出来,届时资料比较深入、广泛。2) 查考文献资料时,需要正确选取主题词,否
37、则难以准确查到(7) 关键词索引又称键词索引,属于广义的主题索引。这是从文献题名、文摘、原文或网站、网页、网址甚至网页正文中抽取对于表述信息资源的主题内容具有关键意义的名词或名词性词组,作为索引标题词,其后标明出处所组成的索引。关键词是信息资源的责任者(包括著者、编者、译者、专利权拥有者等)所直接使用的词语,是一种未经规范的自然语言。类型:题内关键词索引、题外关键词索引、双重关键词索引、轮排关键词索引、单纯关键词索引、挂接主题词索引关键词标识自然语言检索标识和规范语言检索标识自然语言检索标识多指关键词,直接从文献篇名、正文或文摘中抽取,未经优选和规范化优点:不受词表控制,能及时检索到最新概念的
38、各类文献;可任意选取专指性强的语言,提高查准率;非受控词具有数量大的特点,比叙词表大23个数量级;避免在标引人员和用户之间造成不必要的交流障碍缺点:不规范,存在大量同义词、多义词和含义模糊现象;没有显示词语之间的关系基本原理:任何一个复杂的概念都可以划分出若干个单义概念,而若干个单义概念又可构成一个复杂概念。特点:在建立索引系统时,首先有将文献的主题分解成一些单独的概念单元进行分别记录与标识,而在检索时,根据检索课题的需要,将若干有关概念单元综合组配成各种检索提问实施检索。“化学纤维工业”这个复杂概念可以分解为“化学”、“纤维”“工业”三个概念单元,其三者的逻辑关系如下图:按组配方式划分:1)
39、 先组式检索语言指检索前,检索词已被预先组配好的一种检索语言。先组式定组型检索语言是编制检索语言词表的时已经预先固定组配词表中也有特别指明某些符号需由两个或两个以上的概念来组配进行标引与索引,这称为组代,用符号USEAB表示先组式散组型检索语言是编制检索语言词表的时并不预先固定组配,而在标引文献时,根据文献的主题内容予以组配。2) 后组式检索语言是指表达文献信息主题的标识,在编制检索语言词表和标引文献的时候,都不预先固定组配,而是在检索进行时根据检索的实际需要,按照组配规则临时进行组配的检索语言先后组式检索语言评价:1) 先组式有利于提高检索词的专指度,减少标引到每个词的文献数量,减少和避免假
40、组配,从而有利于查准率2) 先组式的词在数量上是有限的,不能适应各种角度和深度的符合概念检索3) 后组式便于各种角度和深度的检索,有利于查准率的提高,但有可能出现假组配,致使误检的增多。(8) 组培索引是根据叙词及单元词的后组式原理建立起来的索引系统。(9) PRECIS索引又称保留上下文关系索引系统、保留正文索引系统、保留愿意索引、上下文前后关联索引。PRECIS 为了明确无误地描述文献主题,力求每条索引款目都按照“上下文从属”的原则排定词语的次序。索引方式:(10) 网络信息自动索引目前,Internet上的搜索索引(又称搜索引擎 )就是一种网络资源自动索引的检索工具。特点:使用自动索引软
41、件来发现、收集和标引网页建立查询数据库,并以Web形式给用户提供检索界面,供用户输入检索关键词、词组或短语等检索项,代替用户在数据库中查找与提问相匹配的记录,并按相关度排序输出检索结果。目前,比较有影响的中英文搜索引擎有Alta Vista、Excite、Lycos、Hotbot、Sohu、Yahoo、etang、Sina等。3. 文摘与索引的异同点文摘:指对一篇文献内容所作的简略、准确的摘录 , 一般不包含有对原文补充、解释或评论。文摘款目:由题录和文摘两部分组成。 著录项目包括文摘号、文献篇名、语种及文献类型、著者及其单位、文献出处文摘内容、参考文献数目等。共同点:以论文、文章、报告为主要
42、报道对象不同点:1)索引报道文献的外表特征为主,文摘报道文献的内容特征为主2)从形式上,索引一般没有摘录,文摘没有原文评价3)文摘很少收录综合性的文献,按分类编排,不按主题和著者。4)文摘比索引报到时间慢,文摘比索引少。5)索引告诉读者文章位置,没有论文的内容,是否有价值。二、填空题 1.按使用范围,标准可划分为国际标准、区域标准、国家标准、行业标准和企业标准。2.国际上最重要的两个标准化组织是ISO和IEC。3.我国把标准分为国家标准、行业标准、地方标准、企业标准4个等级。4.参考数据库包括:书目数据库、文摘数据库和索引数据库。5.源数据库包括:数值型数据库、(事实性数据库)和(全
43、文数据库)。6.文献信息源按出版形式分为常规文献和特种文献,特种文献包括学位论文、会议论文、专利、标准、科技报告、产品资料、技术档案等。 7.信息检索是以信息的存储与检索之间的相符性为基础的。8.针对检索课题发展特点,抓住学科发展迅速、发表文献较多的一段时期,逐年进行查找的方法,称为抽查法,该种方法能以较少的时间获得较多的文献信息。9.著名的国际三大索引:SCI、EI和ISTP。10.CSSCI是南京大学研制,教育部人文、社会科学重大研究项目,CSSCI的中文全称是(中文社会科学引文索引)。11.IPC 是国际专利分类号,其作用是(提供从分类途径查找专利)。12.中国将专利
44、划分为3类:(发明)专利、(实用新型)专利和(外观设计)专利13.在中国国家知识产权局的网站上可以检索并免费下载到中国的各种专利说明书全文。14.在许多数据库中,都有“在结果中进行检索”功能,“在结果中进行检索”指:在前一次检索基础上再检索。 15.一个典型的搜索引擎的系统架构基本上由信息采集、信息组织和信息查询服务3个模块组成。 16.依检索内容不同,信息检索的类型划分为:文献信息检索、数据信息检索、事实信息检索,其中数据信息检索和事实信息检索属于确定性检索。 17.ISBN对应中文为(国际标准书号);ISSN对应中文为(国际标准连续出版物编号);CN对应中文为
45、(国内统一刊号)。18.下列英文单词对应的中文分别为,Abstract:(摘要)、References:(参考文献)、Advanced Search:(高级检索)、Expert Search:(专业检索)、Browse:(浏览)。 19.文献是记录知识的载体,其三要素为:文献信息、文献载体、记录方式。20. 专利号“ZL 2004214062.7"代表该专利为()专利。21.维普的中文科技期刊全文数据库就内容加工深度来说,属于(二次)文献。22.手工检索工具一般分为5大类:目录、题录,文摘,索引信息资料指南()23.从已有的文献后所列
46、的参考文献入手,逐一追查原文、不断扩检的方法叫回溯法。三、简答题 1. 简述信息检索的三个层次。 信息检索的分为3个层次,如下: 第一层次:知道在哪里能找到信息,即了解不同的信息源;第二层次:能从信息源中检索出合适的信息,即掌握一定的课题分析和检索技术;第三层次:能对检索结果进行评价和分析,即评价、选择、综合利用信息资源的能力。简述信息,知识,文献的关系2.简述一次文献、二次文献、三次文献的关系 从一次文献到二次文献,再到三次文献,是一个从分散的原始文献到系统化、密集化的过程。 一次文献:是所有文献的基础;是检索利用的主要
47、对象。 v 二次文献:是检索一次文献的工具,又称为检索工具。 v 三次文献:是一次文献内容的高度浓缩,也是我们利用的一种重要情报源。 3. 简述查全率、查准率及二者之间的关系。 (1)查全率是衡量信息检索系统检出相关文献能力的尺度
48、。 (2) 查准率是衡量信息检索系统检出文献准确度的尺度。 (3)查全率与查准率之间存在互逆关系。 4. 简述搜索引擎排序算法的发展。 搜索引擎排序算法经历了3代: 第一代搜索引擎-基于词位置加权的排序算法; 第二代搜索引擎-基于链接分析的排序算法; 第三代搜索引擎-基于智能化排序的排序算法。 5. 简述链接分析排序算法的原理。 (1)链接分析排序的思想起源于文献引文索引机制。 (2)文献引文索引机制:论文被引用的次数越多或被越权威的论文引用,其论文就越有价值。
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年襄樊市农村信用社联合社秋季校园招聘笔试备考题库(浓缩500题)及一套完整答案详解
- 资阳市农村信用社联合社秋季校园招聘笔试备考题库(浓缩500题)附答案详解(综合题)
- 密云县农村信用社联合社秋季校园招聘笔试备考题库(浓缩500题)及答案详解(易错题)
- 扬州市农村信用社联合社秋季校园招聘笔试备考题库(浓缩500题)完整参考答案详解
- 2026年平顶山市农村信用社联合社秋季校园招聘笔试备考题库(浓缩500题)含答案详解
- 宝鸡市农村信用社联合社秋季校园招聘笔试备考题库(浓缩500题)及答案详解参考
- 临汾市农村信用社联合社秋季校园招聘笔试备考题库(浓缩500题)含答案详解(巩固)
- 2026年白银市农村信用社联合社秋季校园招聘笔试备考题库(浓缩500题)及答案详解一套
- 苗栗县农村信用社联合社秋季校园招聘笔试备考题库(浓缩500题)含答案详解(培优a卷)
- 毕节地区农村信用社联合社秋季校园招聘笔试备考题库(浓缩500题)含答案详解(模拟题)
- 社区眼科知识培训课件
- 2025贵州黔南州荔波县面向社会招聘城市社区工作者7人考试参考试题及答案解析
- 银行从业资格2025年法律法规模考训练冲刺试卷(含答案)
- 2025年宁夏中考英语试卷附答案
- 2025年教育系统学校中层后备干部选拔考试题(含答案)
- 塑料吹瓶生产工艺技术指导手册
- 第11课西汉建立和“文景之治”课件-七年级历史上册新教材
- 2025年成考英语试卷及答案
- 2025年专升本计算机基础模拟试题及答案(操作系统深度解析)
- 2025年高考语文真题分类汇编专题07 语言文字运用(全国)(解析版)
- 2025年上海市大数据中心工作人员公开招聘考试参考题库及答案解析
评论
0/150
提交评论