信息存储与检索基本原理_第1页
信息存储与检索基本原理_第2页
信息存储与检索基本原理_第3页
信息存储与检索基本原理_第4页
信息存储与检索基本原理_第5页
已阅读5页,还剩40页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、信息存储与检索基本原理n第一节 信息存储过程n第二节 信息存储与检索基本原理n第三节 信息的揭示与组织n第四节 信息检索方法n第五节 信息检索效率第一节 信息存储过程 一、信息的搜集与选择 二、信息的著录加工 三、信息的标引加工 四、信息的结构编排一、信息的搜集与选择n1、确定收集的原则 收集的学科范围(如 机械、物理、化学等), 主题范围(机床,刀具), 覆盖面, 信息种类, 文种, 时间跨度, 收集的数量, 摘储率n2、收集的途径n3、选择所需信息 二、信息的著录加工n1、著录目的 目的是把一篇文献变成一条著录,压缩后必须能体现文献的外表特征和内容特征。n外部特征指文献上显而易见的,一般情

2、况下不反映文献实质意义的那些特征,如书名、人名、各种符号标识(专利号,标准号,文献号等)、机构名等。n内容特征指表征文献实质意义的特征,如主题词(叙词,单元词、关键词)、分类号、化学符号等。n2、著录内容 外表特征:篇名,作者,工作单位,号码,文种 出处:发表在什么刊物,刊号,卷,期,页数 内容特征:摘要n3、著录格式 图书著录馆馆 藏藏 号:号:4418391文摘类型:文摘类型:RISBN号:号:92-828-556-S语语种:种:Ger中图类号:中图类号:TD94文献题名:文献题名:NMRSpekeropie zur stofflichen Charakter is ierung von

3、Braunkohlen bei der hydrierenden Veredlung作作者:者:Michel,D团体作者:团体作者:European Commission国国别:别:BE缩缩称:称:CEC出版日期:出版日期:1999页:页:164S期刊著录记录标识:记录标识:9807001记录来源:记录来源:JX文献类型:文献类型:刊刊文献题名:文献题名:机械零件组成编码频率分析及设计规范化通用标准化机械零件组成编码频率分析及设计规范化通用标准化作作者:者:鲍子强鲍子强作者单位:作者单位:长沙重型机器厂长沙重型机器厂母体文献:母体文献:矿山机械矿山机械卷期页码:卷期页码:1997,No.12,

4、p.3942出版单位:出版单位:洛阳矿山机械研究所洛阳矿山机械研究所分分 类类 号:号:97*TD-3*12主主 题题 词:词:标准化,成组技术,机械零件,设计标准化,成组技术,机械零件,设计文文摘:摘:(略)(略)专利著录发明名称:发明名称:蓖麻脱皮筛选机蓖麻脱皮筛选机范范畴:畴:B07B 1/20范畴分类:范畴分类:27F 33A 13A国国别:别:省省市:市:12申申 请请 人:人:刘国喜刘国喜通讯地址:通讯地址:(300011)天津市河西区三水南里)天津市河西区三水南里126幢幢发发 明明 人:人:刘国喜刘国喜代代 理理 人:人:闫俊芬闫俊芬代理机构:代理机构:12100 天津市专利事

5、务所专利代理服务部天津市专利事务所专利代理服务部代理机构地址:代理机构地址:(300051)天津市和平区成都道)天津市和平区成都道116号号法律状态:法律状态:授权授权说明书页数:说明书页数:003附图页数:附图页数:02权权 项项 数:数: 003文文摘:摘:(略)(略)会议文献著录论文题名:论文题名:从更宽阔的视野观察与思考冶金反应工程学问题从更宽阔的视野观察与思考冶金反应工程学问题作作者:者:曲英曲英:北京科技大学,李士琦北京科技大学,李士琦:北京科技大学北京科技大学会议名称:会议名称:第七届全国冶金反应工程学术会议第七届全国冶金反应工程学术会议会议届次:会议届次:7会议时间:会议时间:

6、19980515会议地点:会议地点:沈阳沈阳会议主办者:会议主办者:东北大学东北大学母体文献:母体文献:东北大学学报(自然科学版)(第东北大学学报(自然科学版)(第19卷增刊)卷增刊)出出 版版 地:地: 沈阳沈阳出版单位:出版单位:东北大学学报编辑部东北大学学报编辑部出版时间:出版时间:19980500页页码:码:13馆馆 藏藏 号:号: H043339分分 类类 号:号: TF01,N94关关 键键 词:词: 反映工程反映工程,冶金,冶金,系统工程,可持续发展,系统工程,可持续发展文文摘:摘:(略略)标准文献著录标标 准准 号:号:GB/T 1990.2-98发布日期:发布日期:1998-

7、11-13标准状态:标准状态:ST实施日期:实施日期:1999-05-01起草单位:起草单位:中国标准化与信息分类编码研究所中国标准化与信息分类编码研究所标准名称:标准名称:质量管理和质量保证标准质量管理和质量保证标准 第第2部分:部分:GB/T 19001、 GB/T 19002和和 GB/T 19003实施通用指南实施通用指南正文语种:正文语种:汉语汉语英文名称:英文名称:Quality management and quality assurance standards-part 2:Generic guidelines for the application of GB/T 19001

8、、 GB/T 19002 and GB/T 19003稽稽 核核 项:项:0中国标准分类号:中国标准分类号:A00标准文献著录(续)采用关系:采用关系:ISO 9000-2-97.IDT主主 题题 词:词:质量管理,质量保证,质量质量管理,质量保证,质量英文主题词:英文主题词:QUALITY ASSURANCEQUALITY MANAGEMENTQUALITY国国别:别:中国中国申申 请请 号:号:98249276公公 告告 号:号:申申 请请 日:日:19981209公公 告告 日:日:审定公告日:审定公告日:19991110授授 权权 日:日:授权公告日:授权公告日:19991110学位论

9、文著录论文题目:论文题目:自控式同步电机机端电压位置监测器数字控制自控式同步电机机端电压位置监测器数字控制作作者:者:刘波刘波授予学位:授予学位:硕士硕士导师姓名:导师姓名:李永东李永东授予学位单位授予学位单位:清华大学清华大学分类号:分类号: TM762.3馆馆 藏藏 号:号:Y248534论文页数:论文页数:97出版时间:出版时间:1999.3主主 题题 词:词:自控式同步电机机端电压位置监测器数字控制自控式同步电机机端电压位置监测器数字控制文文摘:摘:(略略)科技报告著录TITLE:Human factors in aviation maintenance,phase 4Document

10、 ID:19950021275 N (95N27696)File Series:NASA Technical ReportsReport Number:DOT/FAA/AM-95/14Sales Agency&Price:CASI Hardcopy A09 CASI Microfiche A02Authors:Shepherd,William T.(Federal Aviation Administration)Published:May 01,1995Corporate Source:Federal Aviation Administration(Washington,DC,Unit

11、ed States)Galaxy Scientific Corp.(Atlanta,GA,United states)Pages:176Contract Number:DTFA01-94-C-01013NASA Subject Category:MAN/SYSTEM TECHNOLOGY AND LIFE SUPPORT三、信息的标引加工n1、定义 把文献的主要内容用非常简明的标识(即标志)表示出来。 标识可以是号码(分类号),也可以是科技名词或词组(主题词),也可以是其它的。n2、作用 1)、相同内容的文献集中在一起,不同内容的区分开来 2)、形成有序的序列,即按一定规律排列,把存储进检索工

12、具的著录按照一定的规律排列起来,形成有序的排检系统,这样可以提供检索途径。n3、 标引加工的类型 分类法标引 用分类号作为标识 主题法标引 用代表文献主题内容的实质性的词汇作为标识 四、信息的结构编排n一般有三种排列方式 1、一条著录给一个顺序编码,号码是唯一的,按号 码顺序排列。 号码可以表示存储地址,但通过号码文献的逻辑内容体现不出来n2、分类编排,按分类号的顺序n3、按主题词的字母顺序第二节 信息存储与检索基本原理n一、信息检索的过程n1、分析主题内容、明确检索需要n2、提出检索提问n3、用检索语言标引检索提问n4、提问标识与系统中存储的标识进行匹配比较n5、阅读著录n6、符合要求的输出

13、n7、检索原始文献n二、信息的存储与检索的基本原理信息存储收集选择著录加工标引加工存储标识信息检索分析需求检索提高提供标识检索标识检索语言存储与检索系统进行匹配输出n2、匹配指概念的逻辑关系的匹配 1) 概念逻辑的方法 2) 概念的外延 3) 概念的内涵 4) 概念的外延关系 相容关系: 同一关系 从属关系 交叉关系 不相容关系第三节 信息的揭示与组织n一、检索语言及其作用n二、信息的揭示与组织的方法一、检索语言及其作用n1、检索语言的概念 检索语言是应文献信息的加工、存储和检索的共同需要而编制的专门语言,是表达一系列概括文献信息内容和检索课题内容的概念及其相互关系的一种概念标识系统。简言之,

14、检索语言是用来描述信息源特征和进行检索的人工语言,可分为规范化语言(例如,用词表来规范)和非规范化语言(自然语言)两类。n2、检索语言的作用 检索语言在信息检索中起着极其重要的作用,它是勾通信息存储与信息检索两个过程的桥梁n1)标引文献信息内容及其外表特征,保证不同标引人员表征文献的一致性。n2)对内容相同及相关的文献信息加以集中或揭示其相关性。n3)使文献信息的存储集中化、系统化、组织化,便于检索者按照一定的排列次序进行有序化检索。n4)便于将标引用语和检索用语进行相符性比较,保证不同检索人员表述相同文献内容的一致性,以及检索人员与标引人员对相同文献内容表述的一致性n5)保证检索者按不同需要

15、检索文献时,都能获得最高查全率和查准率。n3、检索语言的基本要求n1)表达性n2)简洁性n3)经济性n4)动态性n5)对于规范化语言的唯一性n6)对于非规范化语言,用自然语言也可作为检索语言,但唯一性比较差,用于计算机检索还可以,因为运行速度非常快。二、信息的揭示与组织的方法n分类法一种以直线性序列组织与揭示文献的方法n主题法一种以字顺序列组织和揭示文献的方法n超文本一种基于知识单元的组织与揭示信息的方法 n1、分类法n分类法是一种先组式检索语言,即按一种预先行为构造的规范模式直线序列展示类目之间的分层等级关系。n它作为检索语言能较好体现概念的族性关系的一面。n n分类法在揭示和组织文献过程中

16、的线形序列可以采用以下方法:n根系法n关系法n缩行法n字形法n字号法n参照符号分类法的优缺点n优点:n1)体现学科的系统性,反映事物的派生、隶属与平行的关系n2)从学科专业的角度检索资料,比较方便,便于族性检索,尤其适合于鸟瞰本学科的全貌n3)扩大、缩小检索范围方便n4)简单明了n缺点:n1)特性检索功能较差,从主题的角度要检查某一特定主题内容的文献不容易查全n2)更新、修改不方便n3)边缘学科、交叉学科的出现,用直线序列的分类法难以反映多元性的知识空间n4)不能使文献得到多方面的标引n5)不适合于专指度高的即狭窄主题的文献检索n例:学科体系分类 根据科学学科之间的逻辑归属关系,采用层次型或树

17、杈型结构,列举人类所有的知识类别,并对每一知识分别标以相对固定的类码,从而形成类表。 学科体系分类分类表通常指一种从总到分、从一般到具体、层层划分、逐级展开并具有某种符号代码体系的知识体系表。学科体系分类是以数字、字母或字母与数字结合作为基本字符,采用字符直接连接并以圆点(或其它符号)作为分隔符的书写法,以基本类目作为基本词汇,以类目的从属关系来表达复杂概念。 另外还有: 功能分类 应用分类 主题分类等等例如: O 数理科学与化学 O1 数学 O11 古典数学 . O15 代数、数论、组合理论 151 代数方程式论、线性代数 151.1 代数方程式论、 151.2 线性代数再如: 英国科学文摘

18、的分类 6000 COMMUNICATION 6100 INFORMATION AND COMMUNICATION THEORY 6110 Information theory 6120 Modulation methods 6120B codes n2、主题法n主题法与以学科概念体系为中心的分类法不同,是以揭示事物对象及其特征为出发点的。n主题法的词语是以规范化为基础的,如同义词的优选、近义词的合并,多义词的注释、反义词的联系等就是规范化所采取的一系列措施。 n以主题词来描述和表达信息内容,主题词是表征文献主题内容特征的名词术语或词组、短语,用以标识文献。n一般按照主题词的字母顺序进行排列n

19、目前常用的主题语言有:关键词语言、叙词语言。n1)关键词语言:是一 种自然语言,关键词是出现在文献标题、文摘、正文中,对表征文献主题内容具有实质意义的语词。 有:简单关键词;词对式关键词;带上下文的关键词等n2)叙词语言: 是一种人工语言 ,经过规范化和优选处理的语言。选做的叙词具有概念性、描述性、组配性,还具有语义的关联性、动态性、直观性。主题法的优点n1)直接、直观。直接利用反映主题内容的词进行检索; 例:轴承 可直接用其检索 如果用分类语言,则应考虑“轴承”属于“机械”大类下的“机械零件”小类,再下属的“旋转机械零件”小小类n2)准确、灵活。是建立在文字基础上的,不像分类号是个代码;最新

20、的学科也能表达出来;专指度高,可以减少漏查 例:激光焊接视网膜n3)更新容易,随着新学科的产生,可以很容易地添加新词或减少新词;n4)特性检索能力较分类语言强,专指度高,可以提高查准率。所有该主题词有关的内容都集中在该主题词下,适合特定的课题检索。 例:橡胶 如果用分类它属于化学物质中的聚合物类,同时还属于电工材料类,要两个类都查才能查全有关橡胶的文献。 如果用主题语言则直接用其检索即可n5)有一定的族性检索能力,用倒置标题、参见等方法来克服因字顺序列而造成的内容分散问题n 主题法的缺点 族性检索能力不如分类语言,浏览一个学科的文献不如用分类。自然语言在信息检索中应用的各种方式n关键词法n文本

21、检索n单汉字检索n自动赋检索词或分类号n自动聚类法n自由标引3 超文本 超文本技术将文本信息存储在无数结点(node)上,一个结点就是一个相对独立的“信息块”,结点之间用“链”(link)连接,组成信息网络。n它同样可以链接声音、图像(形)、影视等多媒体信息,构成超维检索点。n 超维系统理论模型nDexter一种基于超维交换格式的标准的模型nHAM适用于多重类型的超维系统模型第四节 信息检索方法n一、检索方法的种类n二、选择检索方法的原则一、检索方法的种类n1、常用的查找方法,直接利用检索工具检索。n 顺查:课题起始年代为起点,由远而近,查全、查准率较高,但费时、费力n 倒查:由近及远,查准率

22、较高,查到前面一定时间不查了,所以漏查率较顺查高,但省事n 抽查:针对学科发展最快,文献发表最多的年代查,省时,但必须熟悉学科发展特点n2、追溯查找法,利用文献末所附的参考文献进行追溯n3、循环法,直接法和追溯法的结合,交替使用。n4、原始法,分散性检索,利用原始文献直接浏览二、选择检索方法的原则n1、要看检索条件n 检索工具缺乏而原始文献收藏丰富宜用追溯法,有成套检索工具则宜用直接法,其查全率、查准率都比追溯法高。n2、要看检索要求n 1)要求收集某一课题的系统资料,要求全面,不能有重大遗漏,最好用顺查法n 2)要解决某一课题的关键性技术,不要求全面,只要能解决这个关键问题就行,要快,针对性强,要准,宜用倒查法,迅速查得最新资料n3 、要看检索学科的特点,古老学科,开始年代很早,只好用倒查法,新兴学科,起始年代不远,可用顺查法,波浪发展的学科,可选择发展高峰,用循环法第五节 信息检索效率n一、衡量信息检索效率的指标n二、检索效率的基本特性n三、影响信息检索效率的基本因素n四、提高查全率的措施n五、提高查准率的措施一、衡量信息检索效率的指标n被检出的文献: 有关文献 a 无关文献 bn未被检出的文献: 有关文献 c 无关文献 dn查全率R n查准率P 总量存储的某一课题的文献查出的有关文献量查出的文献总量查出的有关文献量%100 baa%100 caan漏检率 O n

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论