版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第4课计算机及网络检索概论内容:教材1章6节(P18)+8章1-3节(P161)目的与要求:了解计算机及网络在信息检索的应用;掌握数据库的结构及检索原理的实现,数据库的类型;机检基本技术与方法;扩检与缩检;网络检索及搜索引擎的使用。教学重、难点:计算机信息检索的概念;数据库的类型与结构;布尔逻辑检索;字段限定检索;截词检索;搜索引擎的分类,简单检索及高级检索。1第4课计算机及网络检索概论4.1.1计算机在检索中的利用
一.计算机的特点满足检索的要求:用户对检索的主要要求:准:要求检出的文献有针对性,能解决研究中的具体问题。全:全面了解某一特定领域(问题)的发生、发展和现状。新:掌握最新动态或进展。快:最短时间内获得结果。2第4课计算机及网络检索概论4.1.1计算机在检索中的利用计算机检索的优点:1)检索速度快、效益高。2)使用方便,实现资源共享。3)检索内容新、范围广、数量大。4)检索手段灵活,检索途径繁多。5)计算机不会象人那样因产生疲劳而致错。6)多样化的结果提供方式.可将检索结果按用户要求的进行排序,整理后的文献可以采取显示、打印和软盘拷贝等多种方式提供。必要时,还可以联机订购原文。计算机具有准、快、存储容量大的特点。符合现时期从海量数据中快速、准确获取信息的检索要求。3第4课计算机及网络检索概论1.(国外)早期应用情况:1951年人们首次利用计算机进行信息检索实验。自1954年美国海军兵器中心使用IBM701型电子管计算机建立了世界上第一个计算机检索系统,存入文献14000篇。1964年,在使用计算机排版《IM》时产生一副产品:MEDLARS数据库(医学文献分析与检索系统)。相应发展出4种机检类型:脱机检索阶段(20世纪50年代中至60年代中)联机检索阶段(20世纪60年代中至70年代)光盘检索阶段(20世纪80年代中期-)网络化联机检索阶段(20世纪90年代-)二.计算机信息检索的发展:4第4课计算机及网络检索概论2.(国内)计算机信息检索发展:研究始于20世纪70年代中期(1975年,首次引进国外文献数据库进行机检实验)。1978年开始由中国科技情报所试建文献数据库和检索服务系统。1980年,国际联机检索目前,……5第4课计算机及网络检索概论4.1.2计算机信息检索及类型一.计算机信息检索的定义
检索终端特定信息用户利用计算机信息检索系统,使用特定的指令、检索词或检索策略,从数据库中检索出与用户特定需求相一致的信息的过程。用户检索指令、检索词、检索策略6第4课计算机及网络检索概论二.计算机信息检索原理本质上与手工检索原理相同,均为匹配方式,但略有区别。手检:具有概念思维性、随机应变性,可随时修改的意义匹配。检索策略人脑记忆,对工具书手翻、眼看、大脑不停思考与判断来完成。机检:高速、机械的逻辑匹配。优点:高速、精确。缺陷:①误检率高②查全率低。7第4课计算机及网络检索概论三.计算机信息检索服务种类:1.回溯检索查找过去某一时间段内所有符合要求的信息。一次掌握比较全面的资料。科技查新2.定题检索定期提供某一指定课题的最新资料。适合掌握最新动态,以及已进行项目的情报保障。8第4课计算机及网络检索概论4.2数据库的类型与结构4.2.1数据库的概念数据库是计算机存储设备上按一定方式存储的相互关联的数据集合。数据库是检索系统的信息源和核心。同时又反作用于信息检索。9第4课计算机及网络检索概论1、文献型数据库:书目型数据库:文献外表特征和内容特征的描述与记载。全文数据库:存储文献全文或节选其中主要部分的数据库。可以直接获取原始资料。2、数值型数据库:3、事实型数据库:4、图像型数据库:5、多媒体型数据库:4.2.2数据库的类型10第4课计算机及网络检索概论不同的数据库,虽然利用原理相同,但由于数据内容和利用目的的不同,使得其数据结构和文献记录标引方式也有一定的差异,因而在利用也会各有特点,并不存在普遍适用的方法。利用一个数据库,首先要了解其结构。数据库可分为字段、记录、文档3个层次的构成。4.2.3数据库的结构11第4课计算机及网络检索概论
数据库文档记录字段
若干个记录构成的信息集合称为文档。大型的数据库分割成若干文档。记录是构成数据库的完整的信息单元,每条记录描述了原始信息的外部特征和内部特征。组成记录的数据项目12第4课计算机及网络检索概论文章号篇名作者文摘全文001asdLiXxx……..002bysWangYyy……..……vcadengzzz……..篇名文章号Asd001Bys002vca……作者文章号Deng……Li001Wang002索引文档1:篇名索引索引文档2:作者索引主文档(顺排文档)检索篇名检索作者当你要在篇名中查找时,搜索指令将在篇名索引中进行搜索,然后将主文档中对应的记录调出来各项数据以构成一张横竖对齐的二维表格形式存放于数据库文件(库文件)中。文章号唯一,且索引文档与主文档的文章号一一对应索引文档(倒排文档)文档(File)由众多记录按一定方式组织在一起形成。13第4课计算机及网络检索概论常用的外文生物医学数据库:MEDLINE数据库荷兰《医学文摘》数据库(EM)《生物学文摘》数据库(BA)化学文摘数据库(CA)《科学引文索引》数据库(SCI)常见的中文生物医学数据库:中国生物医学文献数据库(CBMdisc)中文生物医学期刊数据库(CMCC)中国学术期刊数据库万方数据库中医药文献数据库14第4课计算机及网络检索概论4.3计算机信息检索技术与方法常用计算机算符大致可分为4类:4.3.1布尔逻辑算符4.3.2字段限定符4.3.3截词符4.3.4位置算符4.3.5其他检索技术15第4课计算机及网络检索概论4.3.1布尔逻辑运算符:来源:(布尔代数)逻辑与、逻辑或、逻辑非。作用:布尔逻辑运算符用来表示两个检索词之间的逻辑关系,用以形成一个逻辑表达式。计算机根据逻辑表达式查找符合限定条件的文献信息。
算符表示形式(3种):逻辑与(AND)、逻辑或(OR)、逻辑非(NOT)。16第4课计算机及网络检索概论布尔逻辑算符1、逻辑“与”用AND表示,表达概念间交叉或限定关系的一种组配,作用是缩小检索范围,描述更为准确,提高查准率。检索式“AandB”表示文献中同时包含检索词A和检索词B的文献才是命中文献。(如右图)
如:查找“胰岛素治疗糖尿病”的检索式为insulin(胰岛素)anddiabetes(糖尿病)。17第4课计算机及网络检索概论布尔逻辑算符
2、逻辑“或”用OR表示,表达概念间并列关系的一种组配。作用:扩大检索范围,提高查全率。
检索式“AorB”表示包含检索词A的文献或者包含检索词B的文献或者同时包含检索词A和B的文献为命中文献。
如:查找“肿瘤”的检索式为cancer(癌)
ortumor(瘤)orcarcinoma(癌)orneoplasm(新生物)。使用注意:处理好整体与部分的关系,避免漏检。18第4课计算机及网络检索概论布尔逻辑算符3、逻辑“非”用NOT、AND
NOT表示,表达概念间不包含关系的一种组配。作用:缩小检索范围,提高查准率。检索式“AnotB”表示包含检索词A同时不包含检索词B的文献为命中文献。如:查“动物的乙肝病毒(不要人的)”的文献的检索式为hepatitisBvirus(乙肝病毒)nothuman(人类)。使用注意:处理好交叉关系,避免漏检。如:(亚洲AND禽流感)NOT欧洲19第4课计算机及网络检索概论4、运算次序与注意事项运算次序在一个检索式中,可以同时使用多个逻辑运算符,构成一个复合逻辑检索式。一般情况下,运算优先级别如下所示(可以使用括号改变运算次序)。
()>NOT>AND>OR例:检索厚朴或槟榔对兔离体肠平滑肌运动功能的影响.(厚朴OR槟榔)AND平滑肌实际使用中,不同数据库对运算次序解释不同。20第4课计算机及网络检索概论检索实例:例:查找有关肿瘤引起的贫血的非英文文献
neoplasms(肿瘤)/complications(并发症)
anemia(贫血)/etiology(病因学)
English
#11687NEOPLASMS/complications#2179ANEMIA/etiology#323867EnglishinLA(LA=English)#420(#1and#2)not#321第4课计算机及网络检索概论4.3.2字段限定符(1)“in”表示将“in”左侧检索词限定在某个字段名内查找。如:HypertensioninTI_(2)“=”、“<”、“>”、“>=”、“<=”符号主要用于限定查找年代。如:PY=2000,表示要求检出2000年出版的文献。22第4课计算机及网络检索概论也称通配符,通常用“*”代表无限多的字符组合,而用“?”代表任意一个字符。截词检索:是用截断的词的一个局部进行检索,并认为凡满足这个词局部中的所有字符(串)的文献,都为命中文献。实质是用逻辑OR对具有相同的词头或词尾的词汇进行检索。
4.3.3截词符23第4课计算机及网络检索概论(一)后截断:将截词符号放在一个字符串的右方,以表示其右的有限或无限个字符不影响该字符串的检索。后截断检索技术最常用,其主要用途有:词的单复数,如book?同根词,例如biolog*,physic*年代,例如199?,19??作者,例如:Lancaster*例如:
hyperthyr*可查到hyperthyre、hyperthyreosis、hyperthyroid、hyperthyroidosis、hyperthyroidism等。
hypertensi??可查到hypertension、hypertensive。
24第4课计算机及网络检索概论
(二)前截断:将截词符号放在一个字符串的左方,以表示其左方有有限或无限个字符。前截断因为实现技术上较困难,在检索系统中比较少见。其主要用途在于:进行一个学科的不同应用领域的检索,常用于检索化学化工文献与复合词较多的文献。如:例1:*magnetic,可检索出magnetic(有磁性的)、electro-magnetic(电磁的)、patamagnetic(顺磁的)、thermo-magnetic(热磁的)thermomagnetic等词的文献。例2:*sighted,可查到farsighted与nearsighted。
25第4课计算机及网络检索概论
(三)中截断:将截词符号放在一个检索词的中间的一种截词方式。只允许有限截断,用于检索词的单复数或英美式不同拚法。例如:
wom?n,可查到Woman,Women。
defen?e,可查到defense,defence。26第4课计算机及网络检索概论截词检索实际上是防止漏检的有力手段。作为后控制措施,目前在大多数检索系统中得到了实现。运用截词检索,不仅能扩大检索范围,提高查全率,而且还可以减少检索词的输入量,简化检索步骤(不需要用OR进行同义词的组配)。但并不是所有用截词符产生的单词与你的检索意图相一致。27第4课计算机及网络检索概论4.3.4位置算符又称邻近检索,是用来规定概念相互间的邻近关系,包括在记录中出现的顺序和相对位置。运算符都用“()”括起,前后不留空格。要求原始记录中检索词之间的相互位置满足某些条件时要使用位置算符,常用的位置算符有with、near等。
28第4课计算机及网络检索概论(1)with算符(W)与(nW)表示此算符两侧的检索词在命中记录中必须出现在同一字段中,即同时出现于篇名或文摘中等,且位置相邻,前后位置不可以颠倒。(W)表示相邻,且词序不变。(nW)要求它所连接的两个词在检索结果中出现时,相互距离不超过n个词(或汉字)。N的取值范围一般在1-25。如智能机器人(3w)控制,可检出“智能机器人控制”,“智能机器人行为控制”等。
29第4课计算机及网络检索概论(2)near算符(N)与(nN)
AnearB表示命中记录中左右两个检索词出现在同一句子中。A(nN)B
的检索结果是A与B必须同时出现在一句话中,无论语序,二者之间最多可相隔n-1个单词。N的取值范围一般在1-25。如智能机器人(3n)控制,可检出“智能机器人控制”,“..控制算法对智能机器人的影响”
、“智能机器人行为控制”等30第4课计算机及网络检索概论4.3.5其他检索技术(一)加权检索(WeightingSearching
)
是一种定量检索的技术。从量的方面对检索词之间的组配关系加以限制和表示。在每个提问词后面给定一个数值表示其重要程度,这个数值称为权(Weight),在检索时,先查找这些检索词在数据库记录中是否存在,然后计算存在的检索词的权值总和。权值之和超过阈值,该记录为命中文献缩小检索范围,提高检准率的有效方法31第4课计算机及网络检索概论(二)聚类检索:计算文献的相似度,并把相似度较高的文献集中在一起,形成一个个的文献类。根据不同的聚类水平的要求,可以形成不同聚类层次的类目体系。主题相近、内容相关的文献聚在一起,相异的被区分开来。32第4课计算机及网络检索概论4.4.1Internet的历史与发展一.
Internet的历史1969年,ARPANET(阿帕网),73年正式运行1983年,用于异种网络连接的TCP/IP协议研制成功(实验网络向实用网络的转变)1986年,NSFNET,事实上的INTERNET主干网1989年,CERN开发成功WWW(超媒体信息)1991年,INTERNET实现商业入网1993年,Mosaic发表(图形用户界面)4.4
Internet检索33第4课计算机及网络检索概论二.我国Internet的发展我国正式加入因特网的历史较短,主要经历了两个阶段:
第一阶段:1987-1993年,以通过拨号实现电子邮件转发为特征。
第二阶段:1994年至今,实现了TCP/IP连接,开通了因特网的全功能服务。34第4课计算机及网络检索概论中国互联网络信息中心统计数据网民上网计算机数域名网站国际出口带宽20051.11亿4950万2,592,410694,20082,617M20061.37亿5940万4,109,020843,000256,696M20072.1亿1193万150万368,927Mbps20082.98亿1682万287万640,286Mbps年增长率41.9%41%91.4%73.6%35第4课计算机及网络检索概论全球部分国家互联网普及率截至2008年底,中国网民规模达到2.98亿人,较2007年增长41.9%,互联网普及率达到22.6%,略高于全球平均水平(21.9%[1])。继2008年6月中国网民规模超过美国,成为全球第一之后,中国的互联网普及再次实现飞跃,赶上并超过了全球平均水平。
[1]
数据来源:;对比的其他国家和地区互联网普及率为2008年6月底数据。36第4课计算机及网络检索概论4.4.2教育、科研与因特网存储与查询信息了解学科动态快速交流信息提供科研条件37第4课计算机及网络检索概论4.4.3网络信息的特点及查询“每个人都能在网上找到对自己有用的信息。”特点:松散管理;微观有序,宏观无序;网络信息包罗万象;信息内容深度跨度很大;网络信息质量高下有别。最常用的途径就是借助搜索引擎。38第4课计算机及网络检索概论4.5搜索引擎搜索引擎通常指的是基于整个互联网的搜索引擎,它最大可能地收集互联网上网页信息,并对其中重要的内容建立索引和链接。网站目录不等于搜索引擎因特网的浅表信息和深层信息39第4课计算机及网络检索概论4.5.1搜索引擎的工作原理搜索引擎的数据采集、数据组织和数据检索功能主要通过各种软件来实现数据采集:采用机器人、蜘蛛、爬虫等网络搜索软件进行的数据组织:利用索引软件将采集的网页进行标引、整序、组织,并建立索引数据库数据检索:根据用户提出的要求,应用查询软件将其转换为计算机执行命令,在索引数据库是检索符合条件的网页记录40第4课计算机及网络检索概论1、按检索功能分有:基于关键词的搜索引擎与分类目录型搜索引擎2、按检索内容分有:通用型搜索引擎与专业型搜索引擎3、按组合方式分有:独立搜索引擎与元搜索引擎4.5.2搜索引擎的类型41第4课计算机及网络检索概论分类目录型搜索引擎的代表:YAHOO42第4课计算机及网络检索概论43第4课计算机及网络检索概论基于关键词或自由词的搜索引擎44第4课计算机及网络检索概论4.5.3
通用搜索引擎使用举例一.google
1998年9月由斯坦福大学博士生LarryPage与SergeyBrin创建。Google非常注重技术创新世界对其评价很高。98年至今,已经获得30多项业界大奖,如美国《时代》杂志评选的“1999年度十大网络技术”,《个人电脑》杂志授予的“最佳技术奖”,TheNet授予的“最佳搜索引擎奖”等等。45第4课计算机及网络检索概论搜索功能介绍(参见帮助文件)一般功能(1)自动使用“AND”进行查询(2)忽略词(3)短语搜索(4)高级搜索特殊功能(1)查找Flash文件(2)按链接搜索(3)指定网域(4)手气不错(5)货币转换(6)计算器(7)错别字改正(8)中英文字典(9)定义……46第4课计算机及网络检索概论一.Google基本检索语法(1)只搜索完全一样的字词,不使用“词干法”,也不支持"通配符"(*)搜索;(2)不区分大小写;(3)在多个关键词之间自动添加“AND“(4)不支持“OR“运算符(5)专用语查询:只要在专用词语上加上双引号,就可以进行准确查询。(6)加号“+”:后面的词必须出现(7)用减号“-”删除无关网页。47第4课计算机及网络检索概论二.如何利用Google检索专业信息资料?
以及
如何根据需要调整检索策略?例:如何查找有关“肺癌”的网络信息?48第4课计算机及网络检索概论Google主页(中文界面)49第4课计算机及网络检索概论GOOGLE检索结果界面50第4课计算机及网络检索概论检索策略调整技巧(1)1.限定语种:所有中文1,360,000——920,0002.选择更专业的提问词:肺癌——肺肿瘤1,360,000——21,1003.利用精选的网页目录51第4课计算机及网络检索概论检索策略调整之一:限定语种52第4课计算机及网络检索概论检索策略调整之二:利用更专业的词汇53第4课计算机及网络检索概论检索策略调整之三:利用网页目录54第4课计算机及网络检索概论检索策略调整技巧(2)4.利用搜索引擎的高级检索模式限定提问词在“搜索结果”中出现的形式指定检索以某一语言编写的网页限定要查询的网页更新的日期指定查询字词位置(网页中的任何地方、网页的标题、网页的内文、网页的链接上)限定搜索某一网域的网页(gov、edu、com)“类似网页”:自动搜索某一网页的类似网页“链接”:搜索与某一网址建立了链接的网页55第4课计算机及网络检索概论Google高级检索模式56第4课计算机及网络检索概论文件类型限定:在一般检索及高级检索中可限定检索结果的文献类型,多用于在互联网上获取原始文献.支持13种非HTML文件的搜索。格式:“关键词”将文献类型限定为“pdf”,可获取免费全文提问式“
肺癌”或“taxollungcancer“获取WORD文档提问式“
肺癌”PPT:Powerpoint文档XLS:EXCEL文档SWF:FLASH动画RTF:RichTextFile57第4课计算机及网络检索概论检索策略调整技巧之获取PDF格式全文58第4课计算机及网络检索概论获取PDF格式的论文全文59第4课计算机及网络检索概论检索策略调整技巧之获取WORD文档60第4课计算机及网络检索概论检索策略调整技巧(3)5增加查询条件查找泰素治疗肺癌的网页文章泰素肺癌:2,2406使用双引号,实现精确短语匹配“泰素治疗肺癌”:1,88061第4课计算机及网络检索概论检索策略调整后结果比较:
提问词获取网页数肺癌(所有语种)244,000肺癌(所有中文)98,300肺肿瘤(所有中文)1,650肺癌(网页标题,所有中文)2,550肺癌(网域限制为)2,500
肺癌
1,120taxollungcancer(所有网站)19,100taxollungcancer3,370肺癌泰素(所有中文)
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 车辆贷款协议书(20篇)
- 医患关系中“患”的内涵
- 中班科学领域认识蔬菜说
- 供电所运维试题及答案
- 学校学生宿舍安全卫生规范化管理方案
- 2025年临床执业医师《内科学》冲刺题
- 冶金企业安全生产法律法规岗前培训试题及答案
- 医疗机构突发公共卫生事件应急条例培训试题及答案
- 医疗机构医疗卫生人员职业道德培训试题及答案
- 医疗设备报废处置管理制度
- 《渔家傲 秋思》中考阅读选择题(附参考答案及解析)
- (合同范本)中介佣金协议书
- 《UML系统分析与设计教程(第2版)》全套教学课件
- 《多元统计分析-基于R(第3版)》课件全套 费宇 第1-13章-多元统计分析与R简介-多维标度分析
- 2023年8月广西桂林市七星区专职化社区工作者招聘5人笔试历年典型考题及考点剖析附答案带详解
- TD/T 1061-2021 自然资源价格评估通则(正式版)
- 2024年一年级综合课教案
- 藏香猪的特性(下)
- 餐饮连锁公司合伙人入股协议
- 工地停工复工计划书
- MOOC 知识创新与学术规范-南京大学 中国大学慕课答案
评论
0/150
提交评论