信息检索与word文字处理.ppt_第1页
信息检索与word文字处理.ppt_第2页
信息检索与word文字处理.ppt_第3页
信息检索与word文字处理.ppt_第4页
信息检索与word文字处理.ppt_第5页
已阅读5页,还剩26页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

信息检索与网络应用,SENTAIDAITBADE,信息检索与网络应用,感受检索的魅力,网站内容的获取,常用网站,主题词的设定,计算机信息的检索,计算机信息检索基础,计算机检索系统概述,计算机信息检索: 利用计算机及相关软件和通信设备,对本地计算机、远程服务器上存贮的信息进行检索。 1计算机信息检索的发展 大体经历了三个阶段:联机检索阶段(60年代中期到70年代中期);光盘数据库检索阶段(70年代中期到80年代末);网络化检索阶段(90年代初至今)。 2计算机信息检索的服务方式 (1)回溯检索 指追溯查找过去的信息,帮助用户查找过去几年甚至几十年的文献信息,使用户一次检索就可以全面了解某一课题在某一段时间中的发展情况。,计算机检索系统概述,(2)定题检索 定题检索服务是根据用户检索课题的内容,一次性输人事先确定好的检索提问式保存在检索系统中。 (3)人机对话检索 用户一旦输入检索提问,计算机检索系统就可立即执行,并在用户终端显示屏上输出检索结果。 (4)联机订购 用户通过联机检索得到的结果一般都是二次文献,如果需要一次文献,可以通过终端联机订购原始文献的复印件或原文。,SENTAIDA,,计算机检索系统的结构,1计算机信息检索原理 计算机信息检索是指人们在计算机检索网络或终端上,使用特定的检索指令、检索词和检索策略,从计算机检索系统的数据库中检索出所需要的信息,然后再由终端设备显示、下载和打印的过程。 广义的计算机信息检索包含两个过程: (1)对原始信息加工处理并存贮在各种信息载体上 一是对待加工的信息进行著录,即按一定的规则进行描述。 二是对待加工的信息进行标引。形成从内容角度查找信息的检索点。,SENTAIDA,,计算机检索系统的结构,(2)信息查询过程 用户对检索需求加以分析,明确检索范围,弄清主题概念,然后用系统语言或自然语言表示主题概念,形成检索标识及检索策略,输入计算机进行查找。 2计算机检索系统的构成 由计算机硬件,检索软件、数据库、通信网络等组成。,计算机检索的基本程序,1分析检索课题 就是明确检索目的、要求和检索的范围。 2选择检索系统和数据库 根据主题范围、信息类型、时间范围等因素选择检索系统和数据库。 3确定检索途径和检索词 常用的检索途径有著者、分类、主题、文献题名、文献号、代码、引文、文献类型,出版时间、语种等。检索词是表达文献信息需求的基本元素,是用户输入的检索语词。,计算机检索的基本程序,4构建检索式 是用来表达用户检索提问的逻辑表达式,由检索词和各种布尔逻辑算符、位置算符、截词符以及系统规定的其他组配连接符号组成,是检索策略具体体现。 5检索并调整检索策略 在检索过程中应及时分析检索结果是否与检索要求一致,并根据检索结果对检索词、检索提问式作相应的修改和调整,直至得到比较满意的结果。 6输出检索结果 根据检索系统提供的检索结果输出方式,选择需要的记录以及相应的字段,选择文摘或全文等,将检索结果显示在屏幕上、或存储到磁盘上、或打印输出。,信息检索的基本技术,计算机检索的基本技术,信息的检索模型有布尔检索模型、向量空间模型、概率模型、模糊集合模型、扩展布尔检索模型等几种。具体检索技术有布尔检索、截词检索、限制检索、加权检索、聚类检索等。 1布尔逻辑检索技术 指利用布尔运算符连接各个检索词,由计算机进行相应逻辑运算,以找出所需信息的方法。AND(或)、OR(或+)、NOT(或一) 。 2截词检索技术 分为后截词检索(前方一致),前截词检索(后方一致),中截词检索(前后方一致),以及前后截词检索(中间一致) 基本类型。 “*”代表多个字符, “#”代表单个字符,“?”或者“n?”代表O个到9个额外的字符。,计算机检索的基本技术,3位置检索技术 可要求检索词以用户所规定的相对位置出现。常用的位置算符有以下8种:(w)算符(WITH) 、(nw)算符(nWORD) 、(N)算符(NEAR) 、(nN)算符(nNEAR)、(F)算符(FIELD) 、(S)算符(SUBFIELD) 、(C)算符(CITATION) 、(L)算符(LINK) 4加权检索技术 方法是:在检索提问式中,根据每个提问词重要程度,分别给予一定的加权数值加以区别,称为权数;同时再给出检索命中的阈值。 5限制检索技术 是通过限制检索范围,达到优化检索结果的方法。限制检索的方式有多种,例如进行字段检索、使用限制符、采用限制检索命令等。,互联网信息资源概述,1互联网信息资源的内涵 即指以数字化形式记录的,以多种媒体形式表达的,分布式存储在互联网不同主机上并通过计算机网络通讯方式进行传递的信息资源的集合。 2互联网信息资源的特点 数字化存储和传递;数量巨大,增长迅速;内容丰富,形式多样;稳定性差,变化频繁;结构复杂,分布广泛;信息组织的局部有序性与整体无序性;信息新颖,定期更新; 3互联网信息资源的类型和内容 类型主要包括:非正式出版信息 、半正式出版信息、正式出版信息、万维网(WWW)信息资源 、电子邮件(E-mail)信息资源、FTP信息资源(文件传送协议)、Telnet信息资源(远程登录协议) 、Usenet/Newsgroup信息资源 (专题讨论组),互联网信息资源概述,4互联网信息资源的组织 互联网信息组织方法可归纳为语法信息组织方法、语义信息组织方法和语用信息组织方法。互联网信息资源的组织形式主要表现为:网页网站、搜索引擎、专业导航系统、虚拟图书馆等。 5互联网信息资源的评价 评价标准包括9项:信息的准确性;信息发布者的权威性;提供信息的广度和深度;主页中的链接是否可靠、有效;版面设计质量;信息的时效性;读者对象;信息的独特性;主页的可操作性,并特别强调可存取性、权威性、交互性和愉悦性这四项标准。,互联网搜索引擎,搜索引擎(search engine) 是对互联网上的信息资源进行搜集整理,然后提供查询的系统它包括信息搜集、信息整理和用户查询三部分。包括目录服务和关键字检索两种服务方式。 搜索引擎可以是一个专门的网站,也可以是某个网站上的一个系统。 1搜索引擎的类型 按照索引方式分为分类搜索引擎和机器人搜索引擎。 分类搜索引擎采用人工或机器搜索WWW信息,依靠专业人员对信息进行甄别和分类而建立的以分类导航或分类摘要查询为主的一类引擎,又称“主题指南”。 机器人搜索引擎指由网上搜索软件自动收集网页建库,以全文检索为主的引擎。 按照检索方式可将搜索引擎划分独立搜索引擎、元搜索引擎、网络搜索软件。,互联网搜索引擎,2搜索引擎的工作原理 搜索引擎实际上是一个专用的WWW服务器,它收集Internet上成千上万甚至上亿个网页信息,组成庞大的索引数据库。自动运行并对大量页面进行索引。 3搜索引擎的检索功能 大多数搜索引擎提供以下检索功能:布尔逻辑检索、截词检索、限制检索、区分大小写检索、加减检索、概念检索、结果过滤、语句检索、智能化检索等。,常用搜索引擎,著名搜索引擎的使用,1Google中文 http:/wwwgooglecom Google收录20亿多网页。 Google提供的关键词查询,查询范围有四种:所有网站、图像、网上论坛和网页目录。Google所提供的几项特殊检索功能有: (1)按链接搜索 (2)按指定网域搜索 (3)网页快照 (4)查找PDF文件 2百度 百度也提供了搜索帮助、高级搜索、搜索工具、百度大全等,也是基于关键词的搜索引擎。百度提供网页快照、在指定网站内搜索、在标题中搜索、在URI。中搜索、并行搜索、相关搜索等功能。百度搜霸。,著名搜索引擎的使用,3metacrawler http:/WWW. metaerawler是一个并行式的元搜索引擎,主要提供三种类型服务:Web搜索服务、黄页服务、白页服务。具有同时调用Google、Yahoo、Ask JeevesAbout、LookSmart、Teoma Overture等搜索引擎的功能,然后按相关度给出详细结果。 4Excite搜索引擎 Excite是一个智能性的搜索引擎,主要提供频道(channel)和搜索(search)两种Web信息服务,可以对网 站、目录,新闻、照片等进行搜索。Excite搜索服务的个性化服务特色非常突出。,检索效果评价,检索效果评价的指标 在检索评价实践中,评价检索效果的常用指标具体有以下几种: 查全率(Recall ratio)用R表示; 查准率(Precision ratio)用P表示; 漏检率()mission ratio)一一用U表示; 误检率(FallOutratio)用F表示。 其中,最常用的检索效果评价指标为查全率和查准率。,检索效果评价,1查全率和漏检率 是评价检索效果最常用的两项关键指标。 2查准率和误检率 查准率是指检出的相关文献量与检出文献总量的比率,是衡量信息检索系统精确度的尺度。 误检率是指误检(检出不相关)文献总量的比率,是衡量信息检索系统误检文献和程度的尺度。 3检索速度(T)、新颖率(N)与有效率(A),检索效果的优化,影响检索效果的因素是多方面的,检索效果的优化就需要针对影响查全率、查准率、检索速度等因素从多方面进行改进。 1提高检索系统的功能 包括提高检索系统的运行速度,提供检索手段的完备性,检索功能的智能化,检索界面的友好性和易用性等。这里既包括硬件设备也包括检索程序的设计 2提高数据库的质量 数据库的质量是提高检索效率的基本因素。从数据库整体来说,要做到相关文献信息收录完整,具有完备的索引系统、完备的帮助系统,数据库结构科学,信息记录使用标准规范的格式等。,检索效果的优化,3提高检索人员的素质 检索人员不仅指专门从事检索的图书情报工作人员,也包括普通用户。 4优化检索策略 检索者利用检索工具对查找到所需内容的科学安排。一般可采取三方面的举措来优化检索策略,从而提高检索效果。 (1)科学选择数据库 (2)提高查全率 (3)提高查准率,综合检索实例及分析,用百度进行检索: (1)在百度检索框中输入检索词“城市青少年”,检索到10,400,000条记录;再用“价值结构”在结果中检索共检索到1,370,000条记录,其中两条为相关记录。从检索情况来看,用“城市青少年”进行检索,检索词过于专指,造成很大的漏检。 (2)在百度检索框中输入检索词“青少年价值观”扩检,检索到1,620,000条记录,很大程度上提高了检全率。相关记录有:青少年人生价值观状况分析、我国青少年价值观发展特点与教育对策研究、新时期青少年价值观的现状与变化的追踪研究、我国五城市青少年学生价值观的调查等等。 (3)在百度检索框中输入检索式:“青年价值观”+“社会教育”再次扩检,从检索命中记录来看,用“青年价值观”+“社会教育”检索,弥补了用“青少年价值观”+“社会教育”检索时造成的对青年价值观的部分漏检。用户可以尝试着用其它检索词进行组配检索,不断地扩检、缩检以提高检准率和检全率。另外,百度会提供相关的检索词供用户参考。 在检索的过程当中,我们可以利用检索到的文献以及其参考文献为线索进行相关文献的检索。 除了百度外,Google也是最常用、检索功能强大的搜索引擎,用户可以配合一起使用。,示例,网站内容的获取,上机作业,上机内容: 题目:搜索引擎的界面和原理的进一步理解 具体内容: 对比以下四个搜索引擎界面、主要检索方法及功能 1.Google中文 2.百度 3.metacrawler http:/WWW. 4.Excite搜索引擎 要求:对比各搜索引擎的界面、主要检索方法和功能特色及异同,写出你的评价。,题目:检索工具的初步使用 具体内容: 请查找写出4个或以上的国内外搜索引擎(即网站)。 然后分别在上述四个搜索引擎中查找并记下: 1.利用关键字“模具设计”所检索到的记录的条数 2.利用关键字“机械模具设计”所检索到的记录的条数 3.对比各搜索引擎所检索到的记录条数,写出你的认识与结论。,检索实例 检索课题“非典”对中国经济的影响(期刊论文) 分析课题首先,分析课题并制定检索策略,“非典”是“传染性非典型肺炎” 的简称( SARS)确定将“非典”、“SARS”、“中国经济”、“经济运行”作为检索词 据此,编制检索式如下:(非典 or SARS)and中国经济 and 经济运行。,检索实例 检索课题 电子商务对税收征管的影响与对策 分析课题 本课题涉及到电子商务、税收征管两个主题,两个主题的关系是电子商务的产生、存在对传统的税收征管产生影响,以及相应的对策。 选择检索词、编制检索式 根据课题分析,我们选择电子商务(相关词:网络贸易、网上贸易、网络营销)、税收征管、影响、对策作为检索词。初步拟定检索式:(电子商务 OR 网络贸易 OR

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论