计算机医学信息检索.ppt_第1页
计算机医学信息检索.ppt_第2页
计算机医学信息检索.ppt_第3页
计算机医学信息检索.ppt_第4页
计算机医学信息检索.ppt_第5页
已阅读5页,还剩26页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

计算机医学信息检索,一、 基 本 原 理,下一页,1951年人们首次利用计算机进行信息检索实验。从1954年美国海军兵器中心使用IBM701型电子管计算机建立了世界上第一个计算机检索系统以来,计算机信息检索共经历了五个阶段:,上一页,下一页,脱机检索阶段(20世纪50年代中至 60年代中) 联机检索阶段(20世纪60年代中至70年代) 光盘检索阶段(20世纪80年代中期) 网络检索阶段(20世纪90年代),上一页,下一页,2、计算机信息检索系统的构成,硬件(主机、外围设备、数据处理、数据传送有关的其他设备。) 软件(系统软件、应用软件) 数据库(是衡量检索系统规模大小的重要标志) 通讯线路(电话、数据、卫星通讯网) 检索终端,上一页,下一页,3、数据库的类型与结构,(1)类型 书目数据库:存储文摘、题录、目录等书目数据的一类数据库,又称为二次文献数据库。 数值数据库:为用户提供能够直接使用的数值类信息,无需再追查原文。 事实数据库:存储描述人物、机构、事物的等非文献信息源的数据库。 全文数据库:存储文献全文或节选其中主要部分的数据库。可以直接获取原始资料。,上一页,下一页,(2)结构 数据库 文档 记录 字段,若干个记录构成的信息集合称为文档。大型的数据库分割成若干文档。,记录是构成数据库的完整的信息单元,每条记录描述了原始信息的外部特征和内部特征。,组成记录的数据项目,上一页,下一页,(3)我国常见的生物医学数据库 MEDLINE数据库 荷兰医学文摘数据库(EM) 生物学文摘数据库(BA) 化学文摘数据库(CA) 科学引文索引数据库(SCI),上一页,下一页,中国生物医学文献数据库(CBMdisc) 中文生物医学期刊数据库(CMCC) 中国学术期刊数据库 万方数据库 中医药文献数据库,上一页,下一页,4、计算机信息检索的检索过程,检索需求的分析和表达 检索方法的制定 检索式的编制 检索结果的反馈调整 检索结果的输出,上一页,下一页,检索需求的分析和表达,用户的检索需求大致分为3类: 新:及时获得最新的内容,对查全没有过高要求。 准:要解决研究中的具体问题,要求检出的文献有针对性,对查准要求较高。 全:要全面了解某一特定领域的发生、发展和现状,是一种回溯性检索,对查全有较高要求。,上一页,下一页,检索方法的制定,根据课题的学科专业范围、主题内容,选择合适的数据库,确定检索途径。 对检索需求进行概念分析,根据数据库的词表,把主题内容转换成检索系统采用的检索标识和检索词,并准备若干自由词。,上一页,下一页,计算机检索系统的检索词分为两种: 主题词:主要来自于主题词表、叙词表等,是经过规范化的。 自由词:来自于文献的篇名、文摘或正文,是一种没有规范化的自然语言。 原则上首选主题词检索。,上一页,下一页,检索式的编制,常用的运算符: 布尔逻辑运算符 逻辑“与” 文字表示为“and”,符号表示为“*”。检索词A与检索词B用and组配,提问式可写为: A and B 或者 A * B,上一页,下一页,A,B,表示检索结果中每条记录必须同时含有A和B检索词,增强检索的专指性,缩小检索范围,提高了查全率。,上一页,下一页,Insulin(胰岛素)and diabetes(糖尿病),上一页,下一页,逻辑“或” 文字表示为“or”,用符号表示为“+”。检索词A与B用or组配,提问式可写为: A or B 或者 A + B 表示包含检索词A的文献或包含检索词B的文献或同时包含检索词A和检索词B 的文献均为命中文献,逻辑“或”扩大了检索范围,提高查全率。,上一页,下一页,Cancer(癌)or tumor(瘤),A,B,上一页,下一页,逻辑“非” 用文字表示为“not”,用符号表示为“-”。检索词A与检索词B用not组配,提问式可写为: A not B 或者 A - B 表示检索结果中每条记录必须包含检索词A ,但不包含检索词B 。排除了不希望出现的检索词,缩小了检索范围,提高查准率。,上一页,下一页,Hepatitis B virus not human (乙肝病毒) (人类),A,B,上一页,下一页,在一个检索式中,如果含有两个或两个以上的布尔逻辑运算符,运算符的优先次序是: NOTANDOR,上一页,下一页,查找有关肿瘤引起的贫血的非英文文献,neoplasms/complications(并发症) anemia/etiology(病因学) English #1 1687 NEOPLASMS/complications #2 179 ANEMIA/etiology #3 23867 English in LA(LA=English) #4 20 (#1 and #2) not #3,上一页,下一页,截词符 后截断,将截词符号放在一个字符串的右方,以表示其右的有限或无限个字符不影响该字符串的检索。例如: hyperthyr*可查到hyperthyre、hyperthyreosis、hyperthyroid、hyperthyroidosis、hyperthyroidism等。 hypertensi?可查到hypertension、hypertensive。 涉及到词的单复数、作者、年代、同根词等方面的检索时,选用后截断技术。,上一页,下一页,前截断,将截词符号放在一个字符串的左方,以表示其左的有限或无限个字符不影响该字符串的检索。例如: *sighted,可查到farsighted 与nearsighted。 前截断只检索后缀相同的一类词,常用于检索化学化工文献与复合词较多的文献。,上一页,下一页,中截断,将截词符号放在一个检索词的中间的一种截词方式。只允许有限截断,用于检索词的单复数或英美式不同拚法。例如: wom?n,可查到Woman,Women。 defen?e ,可查到defense,defence。,上一页,下一页,限制符 检索系统中,缩小或约束检索结果的方法成为限制检索。常用的有特定字段的限制检索,限制符为“in”和“=”。例如: Hypertension in TI,表示高血压一词在题名字段Title中出现。 限制符还有其他形式: py2000表示检索2000年前发表的文献记录。,上一页,下一页,位置算符 要求原始记录中检索词之间的相互位置满足某些条件时要使用位置算符,常用的位置算符有with、near等。 with算符 表示此算符两侧的检索词在命中记录中必须出现在同一字段中,即同时出现于篇名或文摘中等,但前后位置可以颠倒。,上一页,下一页,near算符 表示此算符两侧的检索词的距离最近。A near B 的检索结果是A与B必须同时出现在一句话中,无论语序,二者之间最多可相隔n-1个单词。 A near B表示命中记录中左右两个检索词出现在同一句子中。,上一页,下一页,检索结果的反馈调整 检索结果主要通过查全率、查准率两个指标来进行评价。 查全率:系统进行检索时,检出的相关文献量与系统文献库中相关文献总量的比率。 查准率:系统中检出的相关文献量与检出的文献总量的比率。,上一页,下一页,提高查全率的方法: 降低检索词的专指度,选出一些上位词和相关词补充到检索式中。 调节检索式的网罗度,减少逻辑“与”的组配面。 进行族性检索,可采用分类检索,或用一组同义词、近义词和相关词,用“或”连接在检索式中。 采用截词技术,取消某些限制过严的限制符。,上一页,下一页,提高查准率的方法: 提高检索词的专指度,换用专指度较强的规范词或自由词。 增加“与”连接,进一步限定主题概念。 限定检索词所在的可检字段,用位置算符控制检索

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论