4课机、网检概论(陈.ppt_第1页
4课机、网检概论(陈.ppt_第2页
4课机、网检概论(陈.ppt_第3页
4课机、网检概论(陈.ppt_第4页
4课机、网检概论(陈.ppt_第5页
已阅读5页,还剩75页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1,第4课 计算机信息检索,内容:教材第4章(P54)+教材第5章(P68) 目的与要求: 了解计算机及网络在信息检索的应用; 掌握数据库的类型与结构;计算机信息检索技术与方法;网络检索概况;搜索引擎使用。 教学重、难点: 计算机信息检索的概念;数据库的类型与结构;布尔逻辑检索;字段限定检索;截词检索;搜索引擎的分类,简单检索及高级检索。,2,4.1 计算机信息检索概述,4.1.1 计算机在检索中的利用 一.计算机的特点满足检索的要求: 用户对检索的主要要求: 准:要求检出的文献有针对性,能解决研究中的具体问题。 全:全面了解某一特定领域(问题)的发生、发展和现状。 新:掌握最新动态或进展。

2、快:最短时间内获得结果。 计算机具有准、快、存储容量大的特点。符合从海量数据中快速、准确获取信息的检索要求。,3,1.(国外)早期应用情况: 1951年人们首次利用计算机进行信息检索实验。 自1954年美国海军兵器中心使用IBM701型电子管计算机建立了世界上第一个计算机检索系统,存入文献14000篇。 1964年,在使用计算机排版IM时产生一副产品:MEDLARS数据库(医学文献分析与检索系统)。 相应发展出4种机检类型: 脱机检索阶段(20世纪50年代中至 60年代中) 联机检索阶段(20世纪60年代中至70年代) 光盘检索阶段(20世纪80年代中期- ) 网络化联机检索阶段(20世纪90

3、年代- ),二.计算机信息检索的发展:,4,2.(国内)计算机信息检索发展: 研究始于20世纪70年代中期( 1975年,首次引进国外文献数据库进行机检实验)。 1978年开始由中国科技情报所试建文献数据库和检索服务系统。 1980年,国际联机检索 目前,,5,4.1.2 计算机信息检索及类型,一.计算机信息检索的定义 检索终端 特定信息 用户利用计算机信息检索系统,使用特定的指令、检索词或检索策略,从数据库中检索出与用户特定需求相一致的信息的过程。,用户,检索指令、检索词、检索策略,6,二. 计算机信息检索原理,本质上与手工检索原理相同,均采用逻辑匹配方式,但略有区别。 手检:具有概念思维性

4、、随机应变性,可随时修改的意义匹配。检索策略人脑记忆,对工具书手翻、眼看、大脑不停思考与判断来完成。 机检:高速、机械的逻辑匹配。 优点:高速、精确。 缺陷:误检率高;查全率低。,7,三. 计算机信息检索服务种类:,1.回溯检索 查找过去某一时间段内所有符合要求的信息。 一次掌握比较全面的资料,适合开题时期。 科技查新 2.定题检索 定期提供某一指定课题的最新资料。 适合掌握最新动态,以及已进行项目的情报保障。,8,4.2 计算机信息检索系统的构成,4.2.1 计算机信息检索系统的构成 4.2.2 数据库的类型和结构,9,3.2.1计算机信息检索系统的构成,服务器(检索系统核心部分。计算机硬件

5、组成) 通讯网络(电话、数据、卫星通讯网) 检索终端 数据库(是衡量检索系统规模大小的重要标志) 软件,10,一. 数据库的概念 是计算机存储设备上按一定方式存储的相互关联的数据集合。 二. 数据库的类型 、文献型数据库: 书目型数据库:文献外表特征和内容特征的描述与记载。 全文数据库:存储文献全文或节选其中主要部分的数据库。可以直接获取原始资料。 、数值型数据库: 、事实型数据库: 、图像型数据库: 、多媒体型数据库:,4.2.2 数据库的类型与结构,11,数据库是检索系统的信息源和核心。 不同的数据库,虽然利用原理相同,但由于数据内容和利用目的的不同,使得其数据结构和文献记录标引方式也有一

6、定的差异,因而其利用也各有特点,并不存在普适的方法。 利用一个数据库,首先要了解其结构。 数据库对文献特征的组织和揭示影响着数据库的利用及效果。 数据库可分为字段、记录、文档3个层次的构成。,三、数据库的结构,12,数据库 文档 记录 字段,若干个记录构成的信息集合称为文档。大型的数据库分割成若干文档。,记录是构成数据库的完整的信息单元,每条记录描述了原始信息的外部特征和内部特征。,组成记录的数据项目,13,索引文档1:篇名索引,索引文档2:作者索引,主文档(顺排文档),检索篇名,检索作者,当你要在篇名中查找时,搜索指令将在篇名索引中进行搜索,然后将主文档中对应的记录调出来,各项数据以构成一张

7、横竖对齐的二维表格形式存放于数据库文件(库文件)中。,文章号唯一,且索引文档与主文档的文章号一一对应,索引文档(倒排文档),文档(File)由众多记录按一定方式组织在一起形成。,14,常用的外文生物医学数据库: MEDLINE数据库 荷兰医学文摘数据库(EM) 生物学文摘数据库(BA) 化学文摘数据库(CA) 科学引文索引数据库(SCI) 常见的中文生物医学数据库: 中国生物医学文献数据库(CBMdisc) 中文生物医学期刊数据库(CMCC) 中国学术期刊数据库 万方数据库 中医药文献数据库,15,4.3 计算机信息检索技术与方法,4.3.1 常用计算机算符大致可分为4类: 布尔逻辑算符 字段

8、限定符 截词符 位置算符,16,一、布尔逻辑运算符:,来源:(布尔代数)逻辑与、逻辑或、逻辑非。 作用:布尔逻辑运算符用来表示两个检索词之间的逻辑关系,用以形成一个逻辑表达式。计算机根据逻辑表达式查找符合限定条件的文献信息。 算符表示形式(3种): 逻辑与(AND) 逻辑或(OR) 逻辑非(NOT)。,17,布尔逻辑算符,1. 逻辑“与” 用AND表示 ,表达概念间交叉或限定关系的一种组配, 作用:描述更为准确,缩小检索范围,提高查准率。 检索式“A and B”表示文献中同时包含检索词A和检索词B的文献才是命中文献。(如右图) 例:查找“胰岛素治疗糖尿病”的文献,基本检索式为: insuli

9、n AND diabetes 胰岛素 AND 糖尿病,18,布尔逻辑算符,2. 逻辑“或” 用OR表示,表达概念间并列关系的一种组配。 作用:扩大检索范围,提高查全率。 检索式“A or B”表示包含检索词A的文献或者包含检索词B的文献或者同时包含检索词A和B的文献为命中文献。 如:查找“肿瘤”的检索式为cancer(癌) or tumor(瘤)or carcinoma(癌) or Sarcomas (肉瘤) or neoplasm(新生物)。 使用注意:处理好整体与部分的关系,避免漏检。,19,布尔逻辑算符,3. 逻辑“非” 用NOT、AND NOT表示,表达概念间不包含关系的一种组配。 作

10、用:缩小检索范围,提高查准率。 “A not B”表示包含检索词A但不包含检索词B的文献为命中文献。 例:查“动物的乙肝病毒(不要人的)”的文献。 检索式: hepatitis B virus(乙肝病毒) NOT human(人类)? 使用注意:处理好交叉关系,避免漏检。,20,运算次序与注意事项,运算次序 在一个检索式中,可以同时使用多个逻辑运算符,构成一个复合逻辑检索式。一般情况下,运算优先级别如下所示(可以使用括号改变运算次序)。 ( ) 例:检索厚朴或槟榔对兔离体肠平滑肌运动功能的影响 (厚朴 槟榔)AND 平滑肌 实际使用中,不同数据库对运算次序解释不同。,21,检索实例:,例:查找

11、有关肿瘤引起的贫血的非英文文献 neoplasms(肿瘤)/complications(并发症) anemia(贫血)/etiology(病因学) English #1 1687 NEOPLASMS/complications #2 179 ANEMIA/etiology #3 23867 English in LA(LA=English) #4 20 (#1 and #2) not #3,22,二、字段限定符,(1)“in”表示将“in”左侧检索词限定在某个字段名内查找。 如:Hypertension in TI_ (2)“”、“”、“” 、“” 、“” 符号主要用于限定查找年代。 如:,表

12、示要求检出年出版的文献。,23,也称通配符,通常用“*”代表无限多的字符组合,而用“?”代表任意一个字符。 截词检索:是用截断的词的一个局部进行检索,并认为凡满足这个词局部中的所有字符(串)的文献,都为命中文献。 实质是用逻辑OR对具有相同的词头或词尾的词汇进行检索。,三、截词符,24,(一) 后截断: 将截词符号放在一个字符串的右方,以表示其右的有限或无限个字符不影响该字符串的检索。 后截断检索技术最常用,其主要用途有: 词的单复数,如book? 同根词,例如biolog*, physic* 年代,例如199?,19? 作者,例如:Lancaster* 例如: hyperthyr*可查到hy

13、perthyre、hyperthyreosis、hyperthyroid、hyperthyroidosis、hyperthyroidism等。 hypertensi?可查到hypertension、hypertensive。,25,(二)前截断: 将截词符号放在一个字符串的左方,以表示其左方有有限或无限个字符。 前截断因为实现技术上较困难,在检索系统中比较少见。其主要用途在于:进行一个学科的不同应用领域的检索,常用于检索化学化工文献与复合词较多的文献。如: 例1:*magnetic ,可检索出magnetic(有磁性的)、electro-magnetic(电磁的)、 patamagnetic

14、(顺磁的)、thermo-magnetic (热磁的)thermomagnetic等词的文献。 例2: *sighted,可查到farsighted 与nearsighted。,26,(三)中截断: 将截词符号放在一个检索词的中间的一种截词方式。只允许有限截断,用于检索词的单复数或英美式不同拚法。例如: wom?n,可查到Woman,Women。 defen?e ,可查到defense,defence。,27,截词检索是防止漏检的有力手段。作为后控制措施,目前在大多数检索系统中得到了实现。 运用截词检索,不仅能扩大检索范围,提高查全率,而且还可以减少检索词的输入量,简化检索步骤(不需要用OR进

15、行同义词的组配)。 但并不是所有用截词符产生的单词与你的检索意图相一致。,28,四、位置算符 又称邻近检索,是用来规定概念相互间的邻近关系,包括在记录中出现的顺序和相对位置。运算符都用“( )”括起,前后不留空格。 要求原始记录中检索词之间的相互位置满足某些条件时要使用位置算符,常用的位置算符有with、near等。,29,(1)with算符(W)与(nW) 表示此算符两侧的检索词在命中记录中必须出现在同一字段中,即同时出现于篇名或文摘中等,且位置相邻,前后位置不可以颠倒。 (W)表示相邻,且词序不变。 (nW)要求它所连接的两个词在检索结果中出现时,相互距离不超过n个词(或汉字)。N的取值范

16、围一般在1-25。 如智能机器人(3w)控制,可检出“智能机器人控制”,“智能机器人行为控制”等。,30,(2)near算符(N)与(nN) A near B表示命中记录中左右两个检索词出现在同一句子中。 A (nN) B 的检索结果是A与B必须同时出现在一句话中,无论语序,二者之间最多可相隔n-1个单词。N的取值范围一般在1-25。 如智能机器人(3n)控制,可检出“智能机器人控制”,“.控制算法对智能机器人的影响” 、“智能机器人行为控制”等,31,五、其他检索技术,(一)加权检索( Weighting Searching ) 是一种定量检索的技术。从量的方面对检索词之间的组配关系加以限制

17、和表示。 在每个提问词后面给定一个数值表示其重要程度,这个数值称为权(Weight),在检索时,先查找这些检索词在数据库记录中是否存在,然后计算存在的检索词的权值总和。权值之和超过阈值,该记录为命中文献 缩小检索范围,提高检准率的有效方法,32,(二)聚类检索: 主题相近、内容相关的文献聚在一起,相异的被区分开来。 计算文献的相似度,并把相似度较高的文献集中在一起,形成一个个的文献类。 根据不同的聚类水平的要求,可以形成不同聚类层次的类目体系。,33,4.4.1 Internet的历史与发展 一. Internet的历史 1969年,ARPANET(阿帕网),73年正式运行 1983年,用于异

18、种网络连接的TCP/IP协议研制成功(实验网络向实用网络的转变) 1986年,NSFNET,事实上的INTERNET主干网 1989年,CERN开发成功WWW(超媒体信息) 1991年, INTERNET实现商业入网 1993年,Mosaic发表(图形用户界面),4.4Internet概述,34,二.我国Internet的发展,我国正式加入因特网的历史较短,主要经历了两个阶段: 第一阶段:年,以通过拨号实现电子邮件转发为特征。 第二阶段:年至今,实现了TCP/IP连接,开通了因特网的全功能服务。,35,CNNIC(中国互联网络信息中心)统计数据,36,全球部分国家互联网普及率,2009.12部

19、分国家的互联网普及率,37,4.4.2 教育、科研与因特网,存储、查询信息 了解学科动态 快速交流信息 提供科研条件,38,4.4.3 网络信息的特点及查询,“每个人都能在网上找到对自己有用的信息。” 特点: 松散管理;微观有序,宏观无序; 网络信息包罗万象;信息内容深度跨度很大;网络信息质量高下有别。 最常用的途径就是借助搜索引擎。,39,4.5搜索引擎,搜索引擎通常指的是基于整个互联网的搜索引擎,它最大可能地收集互联网上网页信息,并对其中重要的内容建立索引和链接。 网站目录不等于搜索引擎 因特网的浅表信息和深层信息,40,4.5.1 搜索引擎的工作原理,数据存储: 数据采集: 采用机器人、

20、蜘蛛、爬虫等网络搜索软件进行的 数据组织: 利用索引软件将采集的网页进行标引、整序、组织,并建立索引数据库 数据检索: 根据用户提出的要求,应用查询软件将其转换为计算机执行命令,在索引数据库是检索符合条件的网页记录,41,、按检索功能分有:基于关键词的搜索引擎与分类目录型搜索引擎 、按检索内容分有:通用型搜索引擎与专业型搜索引擎 、按组合方式分有:独立搜索引擎与元搜索引擎,4.5.2 搜索引擎的类型,42,分类目录型搜索引擎的代表:YAHOO,43,44,基于关键词或自由词的搜索引擎,45,4.5.3 通用搜索引擎,一. google 1998年9月由斯坦福大学博士生Larry Page与Se

21、rgey Brin创建。 Google非常注重技术创新 世界对其评价很高。98年至今,已经获得30多项业界大奖,如美国时代杂志评选的“1999年度十大网络技术”,个人电脑杂志授予的“最佳技术奖”,The Net授予的“最佳搜索引擎奖”等等。,46,(一)搜索功能介绍(参见帮助文件),一般功能 (1)自动使用“AND”进行查询 (2)忽略词 (3)短语搜索 (4)高级搜索 特殊功能 (1)查找Flash文件 (2)按链接搜索 (3)指定网域 (4)手气不错 (5)货币转换 (6)计算器 (7)错别字改正 (8)中英文字典 (9)定义 ,47,1. Google基本检索语法,(1) 只搜索完全一样

22、的字词,不使用“词干法”,也不支持通配符(*)搜索; (2) 不区分大小写; (3) 在多个关键词之间自动添加“AND“ (4) 不支持“OR“运算符 (5) 专用语查询:只要在专用词语上加上双引号,就可以进行准确查询。 (6)加号 “+”:后面的词必须出现 (7) 用减号“”删除无关网页。,48,2. 如何利用Google检索专业信息资料?以及如何根据需要调整检索策略?,例: 如何查找有关“肺癌”的网络信息?,49,Google主页(中文界面),50,GOOGLE检索结果界面,51,检索策略调整技巧(1),1. 限定语种: 所有中文 1,360,000920,000 查英文文献 lung c

23、ancer:19,100 2. 选择更专业的提问词: 肺癌肺肿瘤 1,360,00021,100 3. 利用精选的网页目录,52,检索策略调整之一:限定中文网页,53,检索策略调整之二:利用更专业的词汇,54,检索策略调整之三:利用网页目录,55,检索策略调整技巧(2),4. 利用搜索引擎的高级检索模式 限定提问词在“搜索结果”中出现的形式 指定检索以某一语言编写的网页 限定要查询的网页更新的日期 指定查询字词位置(网页中的任何地方、网页的标题、网页的内文、网页的链接上) 限定搜索某一网域的网页(gov、edu、com) “类似网页”:自动搜索某一网页的类似网页 “链接”:搜索与某一网址建立了

24、链接的网页,56,Google高级检索模式,57,检索策略调整技巧(3),5. 支持13种非HTML文件的搜索。 格式,例:“关键词 filetype:pdf” 将文献类型限定为“pdf”, 可获取免费全文 提问式“filetype:pdf 肺癌”或“ filetype:pdf taxol lung cancer “ 获取WORD文档 提问式“filetype:doc 肺癌” PPT:Powerpoint文档 XLS: EXCEL文档 SWF:FLASH动画 RTF:Rich Text File,58,检索策略调整技巧之获取PDF格式全文,59,获取PDF格式的论文全文,60,检索策略调整技巧

25、之获取WORD文档,61,检索策略调整技巧(4),6 增加查询条件 查找泰素治疗肺癌的网页文章 泰素 肺癌:2,240 7 使用双引号,实现精确短语匹配 “泰素治疗肺癌”:1,880,62,检索策略调整后结果比较: 提问词 获取网页数,肺癌(所有语种) 244,000 肺癌(所有中文) 98,300 肺肿瘤(所有中文) 1,650 肺癌(网页标题,所有中文) 2,550 肺癌(网域限制为) 2,500 肺癌 泰素(所有中文) 1,860 “泰素治疗肺癌”(所有中文) 1,590 taxol lung cancer(所有网站) 19,100 filetype:pdf taxol lung cancer 3,370 filetype:doc 肺癌 1,120,63,Google图片搜索界面,3. 查找互联网上有关肺癌的图片,64,Google图片搜索结果,65,获取所需图片,66,Google高级图像搜索界面,67,4. 查找并参与互联网 肺癌有关网上论坛,网上论坛也是学术交流的重要场 所。 Usenet,也称newsgroup, 也有人称为电子论坛

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论