6信息检索技术.ppt_第1页
6信息检索技术.ppt_第2页
6信息检索技术.ppt_第3页
6信息检索技术.ppt_第4页
6信息检索技术.ppt_第5页
已阅读5页,还剩52页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、Internet 信息检索与利用,安徽新华学院网络中心,Internet 的基本知识 WWW搜索引擎,简单了解:,信息检索(Information Retrieval)是指信息按一定的方式组织起来,并根据信息用户的需要找出有关的信息的过程和技术 搜索引擎指自动从英特网搜集信息,经过一定整理以后,提供给用户进行查询的系统。 (1、搜集信息 2、整理信息 3、接受查询 ),美国普林斯顿大学物理系一个年轻大学生名叫约瀚菲利普,在图书馆里借阅有关公开资料,仅用四个月时间,就画出一张制造原子弹的设计图。他设计的原子弹,体积小(棒球大小)、重量轻(7.5公斤)、威力大(相当广岛原子弹3/4的威力),造价低

2、(当时仅需两千美元),致使一些国家(法国、巴基斯坦等)纷纷致函美国大使馆,争相购买他的设计拷贝。,案例:,二十世纪七十年代,美国核专家泰勒收到一份题为制造核弹的方法的报告,他被报告精湛的技术设计所吸引,惊叹地说:“至今我看到的报告中,它是最详细、最全面的一份。”但使他更为惊异的是,这份报告竟出于哈佛大学经济专业的青年学生之手,而这个四百多页的技术报告的全部信息来源又都是从图书馆那些极为平常的、完全公开的图书资料中所获得的。,Internet 的基本知识,Internet三大基本应用 Internet需要具备的条件 Internet中的基本概念和术语,Internet三大基本应用,1.远程登陆(

3、TELNET 23) 2.电子邮件-发送或接收信息(E-MAIL SMTP 25 POP3 110) 3.文件传输-通过文件传输协议(FTP 21), 实现推拉式服务(serv-u,FlashFXP,Cuteftp).,1.方便客户端的访问设置统一 浏览器(www 或称Web浏览器); 2.网上计算机都能通用设置统一 标注语言(HTML超文本标注语言); (超文本语言浏览器与服务器之间的一种通讯协议) 3.全世界统一的页面指针URL统一资源定位格式。,Internet需要具备三方面的条件,1.调制解调器(MODEM): 戏称“猫”,是上网必需的设备。它可以将计算机的数字信号转换(调制Modul

4、ation)成模拟信号,通过电话线路传送到另一台计算机(比如服务器)上,接受端用它的 Modem 将其还原(解调demodulation)为计算机能识别的数字信号,从而实现双方的信息交换,Internet中的几个基本概念和术语,2.服务器(SERVER): 一台功能强大的计算机,有较高的速度、较大的存储空间以及断电保护措施等。它能够在网络中为用户提供通讯、文件共享、网络打印等功能。,3.WWW (World Wide Web): WWW 是一个基于超文本方式的信息检索工具,它为用户提供了一种友好的信息查询接口,是 INTERNET 上的信息服务系统。它把 INTERNET 上不同地点的相关信息

5、聚集起来,通过 WWW 浏览器(又叫做 WEB 浏览器)检索它们,无论用户所需的信息在什么地方,只要浏览器为用户检索到之后,就可以将这些信息(文字、图片、动画、声音等)“提取”到用户的计算机屏幕上。WWW 采用了超文本链接,你只需轻轻点击鼠标,就可以很方便地从一个信息页转移到另一个信息页,4.主页(HOMEPAGE ): 全称应该是 WWW 主页。它指的是 WWW 服务的起始装入信息页,是 WWW 用户可以看见的第一信息界面,你连接到主页后,除了可以直接在主页了解到主页制作者的一般信息外,还可以可以又进入到另外的一个画面再进一步地获取到更多的信息。也就通过主页上定义的超级链(hyperlink

6、)访问网页。 (index,default),5.电子邮件(E-MAIL): 这是一种最常用的 INTERNET 功能,也是一种最便捷的利用计算机和通信网络传递信息的现代化手段。电子邮件的传递由 SMTP 协议来完成,网络用户可以通过 INTERNET 与全世界的INTERNET 用户收发信件。电子邮件的内容,不仅仅包含文字,还可以包含图像、声音,动画等多媒体信息.,6.HTTP(Hypertext Transfer Protocol): 超文本传输协议。该协议经常用来在网络上传送 WEB 页。当用户以 http:/ 开始一个链接的名字时,是告诉浏览器去访问使用 HTTP 的 WEB 页。,7

7、.URL(Uniform Resource Locator): 统一资源定位器。是 WEB 的地址编码,WEB 上所有能访问的资源都有一个唯一的 URL 。URL 包括:所用的传输协议,服务器名称、文件的完整路径。例如:在浏览器 URL 处键入 就可以安徽新华学院了。( ,8.IP地址(INTERNET PROTOCOL): 互联网络协议地址。INTERNET 上每台主机都有一个唯一的地址(或者叫名字),它是数字形式的一组地址,例如:00,它是计算机在网络上的数字标识,一般分为两部分:网络地址(NETID)、主机地址(HOSTID)。IP地址分为五类:A、B、C、D、

8、E,常用的是 B、C 两类。,9.搜索引擎(Search Engine): 搜索引擎是WWW 浏览器查询信息搜索工具, 是一个用来查询搜索世界各地 INTERNET 网络资源的 WEB 服务器。它就象一本书的目录,INTERNET 上各个站点的网址就象是页码。你可以通过关键字(keyword)或者主题分类的方式查找感兴趣的信息所在的 WEB 页面。是网上动态检索工具。,搜索引擎(Search Engines),是一种利用网络自动搜索技术,对因特网各种资源进行标引,并为检索者提供检索的工具。人们常把搜索引擎称之为网络之门,它包括万维网搜索引擎、新闻论坛搜索引擎、黄页搜索引擎、元搜索引擎等多种类型

9、的搜索引擎,数量已达数百种。,主要可概括为以下几个过程: (1)信息的采集和存储 搜索引擎一般采用自动方式收集和存储信息,即运用“网络机器人”自动运行的软件,搜索引擎追寻WWW网上的链接行进,找到Web页并将它们调出,搜索引擎将自动给Web页上的某些字或全部字作上索引,形成目标摘要格式文件后,再形成网络可访问的数据库。,搜索引擎的工作原理,(2)信息索引的建立 信息采集和存储后,要建立索引查询系统,它是同建库系统配套的子系统,决定索引时空比、布尔逻辑操作、表达式匹配、结构化和非结构化文件处理、词语匹配、匹配相关性排序等。 建立信息索引就是创建文档信息的特征记录,使检索者能够快速地检索到所需的信

10、息。,(3)检索界面的建立 搜索引擎检索界面接受检索者提交的查询请求(包括查询内容及逻辑关系),并根据检索者所输入的关键词在其索引中查找,并寻找相应的Web页地址。 (4)搜索结果的相关性处理 搜索引擎的检索结果通常很庞大,大量的文件使得检索者无法逐一浏览。搜索引擎可以按文件的相关程度进行排列,最相关的文件通常排在最前面。,单词检索 “词组/短语检索”也称“完全符合检索” 检索结果必须含有与提问式完全一样 ( 包括次序 ) 的符串。在搜索比较专指的文献时,就要使用双引号(“”)进行词组检索。但一些专用语尽管没有加引号,仍可作为专用语处理。例如:mother-in-law,搜索引擎的检索特性,3

11、 布尔逻辑符号 1).与符号: & ,“AND , , + 2).或符号: |,or,OR 3).非符号: not,!,- 注意: 中文搜索引擎查询时一般不需要使用“AND”,因为搜索引擎会在关键词之间的空格处自动添加“AND”;有的中文搜索引擎不支持“OR”的搜索,无法接受“或者包含词语A,或者包含词语B”的网页 大多数搜索引擎都可用“+”表示必须包括某词,“-”表示必须排除某词,4 词间位置限定检索: 搜索引擎中较少使用, 仅AltaVista, MSN Search等少数搜索引擎可用NEAR进行位置限定 5. 字段限定检索: 一般搜索引擎给出的可检字段有网页标题(t: 或 title)、

12、域名(domain)、URL、链接(link:)等。有些搜索引擎还可限定文件类型,如google中可在关键词后输入filetype: ,限定检索结果的文件类型(如ppt, jpg,pdf等),6 截词检索 多用于国外搜索引擎。一般用词干法或前方一致。有的中文搜索引擎不使用“词干法”,也不支持“截词符”(*)搜索 7. 大小写敏感 多用于人名、专有名词检索,可提高查准率。大部分搜索引擎不区分大小写,仅AltaVista等少数搜索引擎支持这此功能。 8 二次检索 多数搜索引擎都有“缩小搜索”或“在结果中搜索”功能,在已获得的检索结果中进行“二次检索”,10. 爬虫技术,网络爬虫是一个自动提取网页的

13、程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。另外,所有被爬虫抓取的网页将会被系统存贮,进行一定的分析、过滤,并建立索引,以便之后的查询和检索。,A.目录式的搜索引擎(Directory) 它提供一种可检索和查询的等级式主题目录,以超文本链接方式将不同学科、专业、行业和区域的信息按照分类或主题目录的方式组织起来。著名的雅虎(Yahoo)就是一个典型的目录式搜索引擎。,搜索引擎的类型,英文YAHOO!主页,主题分类目录,“Science”的详细类目,”Biology”的下位类目,“Biotechnology”下位类目,“Biotechnology”中”Genetic Enginee

14、ring”的下位类目及相关网络信息,B.全文式搜索引擎 这类搜索引擎的数据库中保存着网站每一个网页的全部内容,用户在检索框中输入需要查询的关键词或短语,搜索引擎返回与输入关键词相关的一个个网页的地址和一段文字。著名的搜索引擎百度、AltaVista、GOOGLE等就是全文式搜索引擎。,最大的中文搜索引擎百度,Google主页,Google及其使用,Google 是由英文单词“googol”变化而来,表示 1 后边带有 100 个零的数字,代表Google想征服网上无穷无尽资料的雄心 世界上最大的搜索引擎。通过对 30 多亿网页进行整理,提供搜索结果,而且搜索时间通常不到半秒 有基本搜索和高级搜

15、索两种方式。,Google及其使用,检索特性 两词之间用空格表示“AND” 支持短语搜索 ,用“” 对拼音关键词能进行自动中文转换 不支持“词干法” 可以查找 某种格式的 文件,如关键词后加上filetype:pdf,便可检索到PDF格式的文件 中英文单词互译:只需输入一个关键词(“翻译”,“fy” 和“FY” 任选其一)和要查的中 (英) 文单词,Google返回的网上字典链接即刻便可知道检索词词的英文(或中文)翻译。 也可利用 Google 目录根据主题来缩小搜索范围,高级搜索界面,C.综合式搜索引擎 此类搜索引擎既可以搜索网站也可搜索全文,用户输入关键词后,可以选择是搜索网站还是网页,不

16、同的选择返回不同的结果。国内著名的新浪、搜狐(Sohu)、网易等就是此类搜索引擎。,D. 元搜索引擎(Meta-search Engine),是在搜索引擎基础上建立的可以同时查询多个搜索引擎的WWW站点,其英文原意是搜索引擎之后或之上的搜索引擎,因而也可以叫做后搜索引擎。虽然元搜索引擎依赖其他独立搜索引擎而存在,但它们集成了不同性能和不同风格的搜索引擎并发展了一些新的查询功能,查一个元搜索引擎就相当于查多个独立搜索引擎,可以收到事半功倍的效果,故值得选用。,检索结果界面,调用搜索引擎名称,著名元搜索引擎,Mamma ( )1996年面世,自称为“搜索引擎之母”的并行元搜索引擎,可同时调用7个最

17、常用的独立搜索引擎,并且可查询网上商店、新闻、股票指数、图像和声音文件等资源。其特点是检索界面友好,检索选项丰富,主要包括:可控制调用的独立搜索引擎、选择使用短语检索功能、设定检索时间、设定每页可显示记录数等。另外,Mamma支持常用检索语法在不同搜索引擎中的转换,还提供了专门检索页面文件标题的特殊检索服务,以及通过Email传输检索结果的特色功能。检索结果以相关性排序,内容包括网页名称、URL、文摘、源搜索引擎,Mamma主页,Mamma 强力搜索(Power Search)界面,可选用的搜索引擎,著名元搜索引擎,MetaCrawler ( )1995年由华盛顿大学推出,1997年被Info

18、Space购买。支持调用12个独立搜索引擎,提供涵盖近20个主题的目录检索服务。其检索特性非常丰富,包括常规检索、高级检索、定制检索、国家或地区的资源检索等检索服务模式。其中,高级检索模式可实现:搜索引擎的选择调用,基于域名、地区或国家的检索结果过滤,最长检索时间设置,每页可显示的和允许每个搜索引擎返回的检索结果数量的设定,设定检索结果排序依据(包括相关度、域名、源搜索引擎)等。以上内容均可作为定制检索的个性化选项并予以保存。另外,检索结果中包括一个以1000为最大值的相关度指标。,MetaCrawler主页,其他著名元搜索引擎,Ithaki ( Ixquick ( ,附: 检 索 搜 索 引 擎 的方法,LAMP (Linux ,Apache,MySQL, PHP) 即使用Linux作为操作系统,Ap

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论