




已阅读5页,还剩61页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1,本章要求,1.了解信息检索系统的发展及组成; 2.理解分类语言和主题语言; 3.掌握各种检索途径的利用及其区别; 4.掌握常用的信息检索技术; 5.掌握信息检索策略的制定; 6.掌握查全率、查准率的概念及提高检索效果的措施。,2,第一节 信息检索系统,一、信息检索系统 是根据特定的信息需求而建立起来的一种有关信息收集、加工、存储和检索的服务工作系统。 可分为 手工检索系统 计算机检索系统,3,脱机检索 联机检索 网络检索(光盘检索),一、信息检索系统,手工检索系统,计算机检索系统,4,1. 脱机检索阶段 20世纪5060年代,又称脱机批处理检索,用户提出的信息需求是委托式的,交专业人员统一安排,必须等待成批或定期处理。 缺点:检索结果延误。 优点:无网络通讯费,检索费用由用户平摊,价格便宜。,5,2. 联机检索阶段 20世纪6070年代,是用户利用终端设备,通过通信网络或通信线路与检索系统联机,采用分时技术,多个用户可以同时与主机“对话”,从检索中心的数据库查找所需要的文献信息过程。 优点:检索的速度快,检索质量高。 缺点:检索费用高,技术复杂。,6,光盘检索阶段 20世纪80年代中期,3. 网络信息检索阶段 20世纪80年代末,优点:存储量大、使用方便、费用低、利用微机就可以进行检索,支持多用户。,7,二、信息检索系统的组成,(一)计算机硬件 (二)计算机软件 (三)数据库 按一定方式存储在磁盘、磁带或光盘上的相互关联的数据集合。,8,字段1,字段2,字段3,记录1,记录2,记录3,文档1,文档2,文档3,9,记录与字段,记录(Record) 是构成数据库的信息单元,每条记录都描述了一原始信息的外表和内容特征。,字段(Field)是记录的下级数据单位,用来描述实体的某一属性。,10,数据库的组成,数据库由文档、记录和字段组成。,11,数据库类型(按内容分型),(一)书目数据库(Bibliographic Databases) (二)事实数据库(Fact Databases) (三)数值数据库(Numeric Databases) (四)全文数据库(Full Text Databases) (五)图像数据库(Image Databases),12,数据库类型(按内容分型),(一)书目数据库(Bibliographic Databases) 是机读形式的二次文献数据库,包括:目录、题录、文摘等书目线索。 (二)事实数据库(Fact Databases) 也称指南数据库,存储描述人物、机构、事物的等非文献信息源的数据库。 (三)数值数据库(Numeric Databases):为用户直接提供所需的数据信息,无需再追查原文。,13,(四)全文数据库(Full Text Databases) :存储文献全文或节选其中主要部分的数据库。可以直接获取原始资料。 (五)图像数据库(Image Databases):以图像为信息主体,配有文字解释。,数据库类型(按内容分型),14,第二节 信息检索语言,又称标引语言、索引语言、概念标识系统等。 是为信息加工、存储和检索共同需要而编制的专业语言。 是信息检索系统存储和检索信息时共同使用的一种约定性语言,以达到信息存储和检索的一致性,提高检索效率。,15,检索语言,分类语言,主题语言,标题词 元词 叙词 关键词,描述信息内容特征的语言,描述信息外表特征的语言,书/刊名,著者/团体著者,出版事项,代码/序号,16,我国古代第一部成型的图书分类法是西汉刘向、刘歆(xin)父子编制的七略。 西晋,荀勖(xu)创立了四部分类法,即甲、乙、丙、丁四大部。 从隋唐起,图书的四部分类法已经基本定型。皇家图书馆及秘书省、翰林院等重要典藏图书之所,都是按照经、史、子、集分四库贮藏图书的,名为“四库书“。,辑略 六艺略诸子略诗赋略兵书略数术略方技略,1. 分类语言,17,1. 分类语言,按文献的学科性质给予相应的分类号,用分类号来表达文献的主题概念,根据分类表中的顺序编排成分类索引,提供分类途径供检索文献使用。,分类语言是按照逻辑分类原理,按文献内容的学科、专业集中文献,从知识分类的角度揭示各类文献在内容上的区别和联系,将性质相同的文献聚集在一起,性质相近的联系在一起,性质不同的予以分开。,18,中国图书馆分类法 是我国建国后编制出版的一部具有代表性的大型综合性分类法,简称中图法。英文译名为Chinese Library Classification,英文缩写为CLC。 将学科划分为5个基本部类,22个基本大类,再进行层层划分,逐级展开,形成一个严格有序的直线性知识门类等级体系。,19,体系结构,20,R 医药、卫生,R 1 预防医学、卫生学 2 中国医学 3 基础医学 4 临床医学 5 内科学 6 外科学 71 妇产科学 72 儿科学 73 肿瘤学,R 74 神经病学与精神病学 75 皮肤病学与性病学 76 耳鼻咽喉科学 77 眼科学 78 口腔科学 79 外国民族医学 8 特种医学 9 药学,21,21,R44诊断学 R441症状诊断学 R443物理诊断学(体检诊断) R444电诊断 R445影像诊断学 R446实验室诊断 R447鉴别诊断学 R448机能诊断学 R45治疗学 R47护理学 R48临终关怀学 R49康复医学,R441症状诊断学 R443物理诊断学(体检诊断) R444电诊断 R445影像诊断学 R446实验室诊断 R447鉴别诊断学 R448机能诊断学 R449预后及劳动鉴定,R 4 临床医学,R441.1疼痛 R441.2眩晕 R441.3发热 R441.4心动过速 R441.5咳嗽、咳痰 R441.6呕血、黑便 R441.7咯血 R441.8呼吸困难 R441.9休克 R442.1厌食、恶心、呕吐 R442.2便秘、腹胀、腹泻 R442.3肝脾肿大 R442.4黄疸 R442.5腹水、水肿 R442.6痉挛 R442.7出血 R442.8综合征 R442.9其他,22,22,R44诊断学 R441症状诊断学 R443物理诊断学(体检诊断) R444电诊断 R445影像诊断学 R446实验室诊断 R447鉴别诊断学 R448机能诊断学 R45治疗学 R47护理学 ,R441症状诊断学 R443物理诊断学(体检诊断) R444电诊断 R445影像诊断学 R446实验室诊断 R447鉴别诊断学 R448机能诊断学 R449预后及劳动鉴定,R 4 临床医学,R446.1生物化学检验、临床检验 R446.5微生物学检验 R446.6免疫学检验 R446.8组织学检验 R446.9其他,R446.11血液学检验 R446.12尿液检验 R446.13粪便检验 R446.14脑脊髓液检验 R446.19其他,R446.111血液一般(常规)检验 R446.112血液生物化学检验 R446.113血液细胞学检验 R446.119其他,23,缺点:,专指性较差,不能充分揭示信息资源中大量存在的细小专深主题。 分类表中的类目不能随时更改,因而不能及时反映新的科学技术。 按照直线序列设置类目,对边缘学科课题只能标引在一门学科的类目之下,检索时可能漏检。,体现了学科和专业的系统性,便于族性检索,提高查全率。,优点:,24,2. 主题语言,是从文献题名和内容中抽取具有实际意义、并能概括文献内容的词或词组,按字顺排列,并使用参照系统来间接表达各概念之间的关系的一种检索语言。 特 点:直观性强,专指度高,适合特性检索,查准率高。 根据抽词原则、编制方法及使用规则不同,可分为标题词、元词、叙词、关键词。,25,叙词,是用能表达文献主题并经过严格规范化处理的词语,又称主题词。 特 点:具有概念性、描述性、组配性。 如:我国汉语主题词表(1980出版) 美国标准主题词表 (1954年出版),后改名医学主题词表(1961年) 对同义词、词间关系进行控制-查全率、制定标引规则-查准率。,26,美国医学主题词表 (MeSH,Medical Subject Headings) 特 点: a. 词义、词类、词形规范保证词语与概念的唯一对应关系,具有专指性;,27,b.采用参照系统显示词语之间的相关关系 用代参照: 见 see 代 X 如: 艾滋病 见 获得性免疫缺陷综合征 获得性免疫缺陷综合征 代 艾滋病 Cancer see Neoplasms Neoplasms X Cancer 相关参照:参see related 被参XR,28,c. 采用主题词分类索引(范畴表或树状结构)显示词语之间的等级(从属)关系,增强了族性检索能力。 如:Metabolic Diseases (代谢疾病) Acid-Base Imbalance (酸碱失衡) Achlorhydria(胃酸缺乏) Acidosis (酸中毒) Acidosis , Lactic (酸中毒,乳酸性),29,d.具有组配(组合)功能: 概念相交组配: 胃溃疡 + 消化性溃疡出血 出血性胃溃疡,30,关键词语言,是直接从文献的标题、文摘或全文中抽选具有实质意义、能表达文献主题概念,未经规范化处理的自然语言词汇。 优点: 易于实现自动抽词和编制索引; 表达主题直观,检索入口多,能及时反映新事物新概念。 缺点:检索质量难以保证。,31,一、 分类途径,是按文献内容所属的学科类别来检索文献的途径,检索标识是分类号或分类词。 检索方法:需掌握一定的分类法,了解分类表或分类目次,从中确定所查文献的学科类别,找到相应类目的分类号,即可。,第三节 信息检索途径,32,分类检索辅助性,33,二、主题途径,是通过反映文献内容主题的语词来检索文献的途径。 检索方法:利用主题索引,按语词字顺查找,即可找到相应主题的文献。,三、 关键词途径 是最常用的一种检索途径。 优点:利于新课题、新事物的检索。 缺点:没有严格的语法规范,个人使用的爱好不同自由词选择不同,要查全,需考虑同义词等。,34,检索举例:冠心病的治疗,自由词-关键词,冠心病,冠状动脉疾病,冠状动脉粥样硬化性心脏病,冠状动脉心脏病,冠状动脉疾病,主题词,文献,治疗,治疗,35,四、 著者检索,是按文献的著者、编者、译者的姓名或机构团体名称字顺检索文献的途径。 书写格式 中文:姓名全称 外文:姓前(全称)、名后(缩写,即用首字母) 如:Willian Henry Harrison Harrison W H Ren Shu Min Ren SM,36,五、题名检索 按书名、刊名或文章篇名的字顺进行检索,检索时按题名字顺查找。 六、 号码途径 利用文献代码、序号编排成的“号码索引”检索文献。如ISBN、ISSN等。 七、其他检索途径 化学物质登记号检索、分子式检索等。,37,第四节 信息检索技术,计算机检索过程中,用户检索提问的逻辑表达式由检索词和各种布尔逻辑算符、位置算符以及系统规定的其他组配连接符号组成,以便更加全面、准确的表达用户需求。,随着研究的进展,不断有新的技术出现,以提升检索效果。,38,1.逻辑与 运算符为 “and” 或者 “*” 。 检索词A与检索词B用and组配,提问式可写为: A and B 或者 A * B 表示:检索结果中每条记录必须同时含有A和B检索词,增强检索的专指性,缩小检索范围,提高了查准率。,一、布尔逻辑检索,39,举例:逻辑运算 AND,糖尿病 and 饮食,40,2.逻辑或 运算符为 “OR” 或者 “+” 。 检索词A与B用or组配,提问式可写为: A or B 或者 A + B 表示:包含检索词A的文献或包含检索词B的文献或同时包含检索词A和检索词B 的文献均为命中文献,逻辑“或”扩大了检索范围,提高查全率。,一、布尔逻辑检索,41,举例:逻辑运算 OR,B,A,心肌梗死,心肌梗塞,介入,(心肌梗死 or 心肌梗塞)and 介入 = A or B,42,3. 逻辑非 运算符为 “not” 或 “-” 。 检索词A与检索词B用not组配,提问式可写为: A not B 或者 A B 表示:检索结果中每条记录必须包含检索词A ,但不包含检索词B 。排除了不希望出现的检索词,缩小了检索范围,提高查准率。,一、布尔逻辑检索,43,举例:逻辑运算 NOT,44,1、一般性检索有关老年痴呆的文献,检索式:老年痴呆,检索式: (老年 and 痴呆) or 早老性痴呆 or 阿尔茨海姆氏病 or 阿尔茨海默,2、全面检索有关老年痴呆的文献,练 习,45,3、一般性检索头针治疗老年痴呆的文献,检索式:头针 AND 老年痴呆,4、全面检索有关头针治疗老年痴呆的文献,检索式 : 头针 AND ((老年 and 痴呆) or 早老性痴呆 or 阿尔茨海姆氏病 or 阿尔茨海默),练 习,46,5、检索非更年期妇女内源性雌激素减少与冠心病发病的关系的文献,检索式: (雌激素 AND 冠心病) NOT 更年期,练 习,47,主题检索: 查找有关肿瘤引起贫血的非中文文献,首先确定检索词: neoplasms/complications(并发症) anemia/etiology(病因学) Chinese #1 1687 NEOPLASMS/complications #2 179 ANEMIA/etiology #3 23867 Chinese in LA(LA= Chinese) #4 20 (#1 and #2) not #3,48,二、截词检索,截词检索:将检索词在合适的地方截断,取其中的片段(词干)加上截词符号输入检索系统。以检索一组概念相关或同一词根的词。 其中“?”代表有限截断,即一个“?”代表一个字符。 “*”代表无限截断,一个“*”可代表多个字符。,49,后截断,将截词符号放在一个字符串的右方。例如检索式:librar* ,可检索出library, libraries, librarian 涉及到词的单复数、词性变化、年代、同根词等方面的检索时,选用后截断技术。,前截断,将截词符号放在一个字符串的左方。例如检索式:*physics ,可检索出physics,astrophysics,biophysics,geophysics,二、截词检索,50,中截断,也称“通用字符法”,将截词符号放在检索词的中间部分。如检索式:wom?n,可检索出:woman 和women。,复合截断,指同时采用两种以上的截断方式。例如检索式:*chemi* ,可检索出:chemical、chemist、chemistry、electrochemistry 等。,二、截词检索,51,三、位置检索,通过检索式中的位置算符来规定检索词在结果文献中的相对位置,位置关系包括词距和词序。 常用的关系符号是(W)、(N)、(F)、(S)。,52,(W)和(nW)运算符 含义为“with”,表示此算符两侧的检索词必须在同一字段中,词序不限(或不能颠倒)。 A W(n) B 表示同时出现于篇名或文摘等。,(N)和(nN)运算符 含义为“near”, 表示此算符两侧的检索词必须在同一句子中,词序可以颠倒。 A N(n) B 表示命中记录中左右两个检索词出现在同一句子中。,(F)运算符 含义为“Field”,表示此算符两侧的检索词必须在同一字段中,词序可以颠倒。 (S)运算符 含义为“Sentence”,表示此算符两侧的检索词必须在同一句子中,词序可以颠倒。,53,54,四、限定字段检索 检索系统中,用以约束或精确检索结果。将检索词限定在哪个(或哪几个)字段范围内进行检索,称为限定字段检索。,模糊检索 精确检索,55,四、限定字段检索,56,其它高级检索技术,加权检索技术 相关信息反馈检索技术 模糊检索技术 概念检索技术 智能推拉技术 自然语言检索技术,57,相关信息反馈检索技术,58,下面检索系统采用了哪些检索技术?,59,第五节 信息检索策略,1.分析检索课题,明确目的和要求 检索目的:解决学习、生活等哪个领域的问题? 年限、语种等 检索需求:新、准、全,60,2
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论