第8周-因特网信息资源检索的方法和工具_第1页
第8周-因特网信息资源检索的方法和工具_第2页
第8周-因特网信息资源检索的方法和工具_第3页
第8周-因特网信息资源检索的方法和工具_第4页
第8周-因特网信息资源检索的方法和工具_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

课时第8周第1-2课时2006年9月日课题:因特网高级检索及搜索引擎―、教学目的:1、掌握提高关键词检索效率的几种方法;2、了解搜索引擎的定义、基本工作原理及系统结构;3、了解搜索引擎的类型。4、掌握搜索引擎的评价方法。二、教学重点:1、提高关键词检索效率的几种方法:布尔检索、截词检索、限制检索、模糊检索、二次检索;2、搜索引擎的基本工作原理及系统结构;3、搜索引擎的评价方法。三、教学难点:1、布尔检索、截词检索、二次检索;2、搜索引擎的基本工作原理。四、教学方法:以投影仪辅助讲解为主,利用多媒体计算机、投影仪和黑板进行穿插教学五、教学用具:黑板、多媒体计算机、投影仪、CAI课件六、教学过程:1课程准备课前检查教学仪器,准备课件。2引入正课前面的课程我们学习了如何利用百度、谷歌等通用的搜索引擎进行了简单的关键词查询检索,今天我们将前面内容的基础上进一步学习它的高级检索部分和了解搜索引擎的工作原理以及评价方法。大家认真思考如何检索以下两个课题,带着问题边思考边学习新内容:1、查找有关《数据结构》的视频教程或者习题集。2、查找除清华大学外的所有《数据结构》课程的习题集。3提高关键词检索的效率方法布尔检索截词检索限制检索模糊检索二次检索详细表:

布尔逻辑算符含义举例AandB(或A*B)在检索时在冋一篇文献记录中必须同时包含A、B两个检索项“moonandlunar"或“moon*lunar"AorB(或A+B)在检索时规定杳找的记录中包含A、B两个检索项或者任一检索项“womenorwoman"或“women+woman"AnotB(或A-B)在检索时规定杳找的记录中只能包含A而不能包含B检索项“eclipse?notsolar"或“eclipse?-solar"截词方式示例功能说明无限截词Biolog?词干后以一个“?”结束,表示查找含有以biolog为词干的所有检索词的所有记录,如biology、biologic、biologist等,“?”代表无限多个字符。有限截词Biolog??词干后的两个问号之间没有空格,表示词干后至多跟问号数相同的字符数,示例表示词干后最多只能跟两个字符,因此只能检出含有biology、biologic的文献,不包含biologist。Cat??两个问号之间空一格,表示截断一个字符。示例表示检索出含有cat、cats的文献,常用于单复数名词的检索中间截词Practi?e以问号代表词中间的字符变化,一个问号代表一个字符,示例表示检索出含有practice、practise的文献。4搜索引擎(searchengine)的定义它是一个利用被称为robot(spider、WEBCrawler等)的程序自动访问WEB站点,提取站点上的网页和网页上的信息,并根据网页中的链接进一步提取其他网页活转移到其他站点上。Robot搜集的网页被加入到搜索引擎的数据库中,供用户检索使用。然后在用户录入关键词后进行检索,检索结果中一并附以摘要。5搜索引擎的工作原理与系统结构搜索引擎一方面需要从WWW信息资源中采集信息,另一方面需要构建与主题搜索相关的索引数据库,依托Internet接受用户的查询请求,在其后台建立的索引数据库中进行用户需求和数据库记录的匹配运算,然后向用户提供所需信息所在的网址列表。(2)—般来说,搜索引擎由信息采集子系统、索引子系统、检索子系统3个部分组成。6两种重要的网络检索工具(1)网络资源目录由人工发现、抓取、辨别网上信息,依靠编目、标引人员的知识,按照图书分类、学科分类或其他分类依据,建立主题树分层目录。将采集、筛选后的信息放在各大门类或子类目录下。(2)搜索引擎搜索器——抓取搜索引擎数据库一一文档表示的结果组织为索引数据库。索引器——文档分析、建立索引。检索引擎——检索式的分析处理和匹配运算。用户接口一一负责用户表达式的输入和检索结果的反馈。1、网页抓取搜索器(robot机器人)一搜集因特网信息一起始于URL(流行、链接站点多)的集合一抓取单个网页并取得价值信息一建档分析,建立索引数据库一跳转另一个网页,重复摘抄工作。实际因素:很多网页没有被链接到;网页数量庞大一商业利益一选择性搜索2、文档分析过滤文献信息,得到最优索引记录。分析过程:将词汇从文档格式标签中分离,由所在标签开始,嵌套层次向上,直到根元素标签一>分词一>丰富词库一>词组匹配。3、文档(file)也称文件,在逻辑上是由大量性质相同的记录组成的集合,它是书目数据库和信息检索系统中数据组织的基本形式,包括顺排文档和倒排文档。顺排文档:数据库的全部记录按照记录号的大小排列而成的信息集合。倒排文档:按数据库中记录的检索标识(主题、著者等)的某种顺序排列起来的文档。记录号主题词1计算机、软件、安全2软件、网络3网络、安全、软件顺排文档的记录排列示意图

主题词记录号安全1.3计算机1软件1、2、3网络2、3亠、一t=t—*二R71倒排文档的记录排列示意图7搜索引擎的类型(1)按检索机制划分按检索机制可以将搜索引擎划分为关键词型、目录型和混合型搜索引擎。(2)按收录内容划分按收录内容的范围可将搜索引擎划分为综合型、专业型和专用型搜索引擎。(3)按信息资源的媒体类型划分按所收信息资源的媒体类型可以将搜索引擎划分为文本型和多媒体型搜索引擎。(4)按包含搜索引擎的数量划分按照包含搜索引擎的数量可将搜索引擎划分为单一型和集合型搜索引擎(元搜索引擎)。8搜索引擎系统结构集合型搜索引擎的系统结构9搜索引擎评价体系(1)数据库性能指标定性指标(2)检索功能指标定性指标(3)用户界面——定性指标(4)检索效率——定性与定量综合指标(5)检索结果显示一一定性指标搜索引擎综合评价指标体丢数据库性能检索功能检索效率检索结果覆盖范田更新频龄素引方法标引深甘标引文件类型千数据库性能检索功能检索效率检索结果覆盖范田更新频龄素引方法标引深甘标引文件类型千检索技术检索方式检索途径相对查全率相对查淮率结果错误率智能技耒响应时间检索便捷检索帮助结果排序搜索引擎评价体系七、课程小结:本次课主要

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论