网络信息检索PPT_第1页
网络信息检索PPT_第2页
网络信息检索PPT_第3页
网络信息检索PPT_第4页
网络信息检索PPT_第5页
已阅读5页,还剩23页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第2,1,4章网络信息搜索,4.1网络信息搜索的含义4.2搜索引擎4.3 Google 4.4 altavista,www . ZG-www . SKF-www . SKF-www . NSK-www . fag-。用户可以在一个终端查询上传到各地网络的信息资源。这种类型的网络搜索系统是作为基于internet的分布式功能开发和应用的。这意味着数据可以分散存储,大量数据可以分布在不同的服务器上。用户分布式搜索,允许最终用户访问存储的数据;数据分布式处理,任何数据都可以在线上的任何位置处理。2,3,4.2搜索引擎,4.2.1搜索引擎工作原理4.2.2搜索引擎配置4.2.3搜索引擎分类4.2.4搜

2、索引擎信息搜索模型4.2.5搜索引擎搜索技术4.2.6在线著名搜索引擎,www . ZG-www . SKF-www . NSK1.使用可在互联网上捕获网页的Spider系统程序自动访问互联网,沿着某个网页的所有URL上传到另一个网页,重复此过程,然后重新收集上传的所有网页。2.构建索引数据库分析索引系统程序收集的网页,提取相关网页信息(网页所在的URL、编码类型、页面内容中包含的关键字、关键字位置、创建时间、大小、与其他网页的链接关系等),根据一定的关联算法进行大量复杂计算,确定每个网页与页面内容和超链接中每个关键字的关联(或重要性),然后使用这些相关信息对网页进行索引3.在索引数据库中,搜

3、索排序用户输入关键字搜索时,搜索系统程序会在web索引数据库中查找与该关键字匹配的所有相关网页。已计算所有相关网页与该关键字的相关性,因此立即可用的相关度也按值排序,相关度越高,排名越高。2,5,4.2.2搜索引擎包含4个部分:搜索、索引器、浏览器和用户界面。1.浏览器的功能包括internet漫游、web信息捕获、捕获的web内容搜索和自动索引,以及索引数据库构建。2.索引器的功能是了解搜索者搜索的信息,在这里表示文档,提取用于生成文档库中的索引表的索引项。3.浏览器的功能是根据用户的查询在索引库中快速搜索文档、评估相关程度、对要输出的结果进行排序,并根据用户的查询要求合理地反馈信息。4.用

4、户界面根据用户查询标准搜索索引数据库,排序和收集搜索结果(如并集、交集运算),提取有关网页的简单摘要信息,向查询用户提供反馈,同时提供个性化查询条目。2,6,4.2.3搜索引擎分类,1 .全文搜索引擎全文搜索引擎是名副其实的搜索引擎,国外代表性的有Google、Fast/AllTheWeb、AltaVista、Inktomi、Teoma、WiseNut等,国内有名的是Baidu。它们都是真正的搜索引擎,因为在通过从internet提取的个别网站上的信息(基于web文本)构建的数据库中搜索与用户查找标准匹配的相关记录,然后按照一定的排序顺序将结果返回给用户。2.目录查找目录查找有搜索功能,但严格

5、地说,它不是真正的搜索引擎,而是目录特定的网站链接列表。用户无需查询关键字(Keywords),只需分类目录即可查找所需信息。目录查找中最具代表性的是著名的雅虎雅虎。其他有名的是Open Directory Project(DMOZ)、LookSmart和About。国内Sohu,Sina,网络搜索也属于这一类别。3.META Search Engine元搜索引擎在接受用户查询请求的同时,同时在多个其他引擎中执行搜索并将结果返回给用户。著名的元搜索引擎有InfoSpace、Dogpile、vivivi等(元搜索引擎列表),在中国元搜索引擎中有代表性的搜索引擎。在搜索结果排序中,您可以直接按来源

6、引擎(如Dogpile)对搜索结果排序,也可以根据自定义规则(如Vivisimo)对结果重新排序。2,7,4.2.4搜索引擎的信息搜索模型,1 .经典模型经典模型基于文档的关键字进行搜索。经典模型用一组关键字(索引单词)替换文档。索引词源自文档,是文档中词汇的摘录。索引单词集合可以表示文档的主题。索引术语通常用于索引和汇总文档的内容。经典模型可分为布尔模型、向量空间模型和概率模型三种。代数模型代数模型也有广义向量空间模型和神经网络模型两种。3.其他模型其他典型模型包括贝叶斯模型、推理网络模型、信任网络模型等。2,8,4.2.5搜索引擎搜索技术和常规搜索引擎操作需要在多个关键字之间添加“”,其他

7、搜索则不需要。Google不需要将逻辑“and”操作显示为纯文本“”,只需在搜索关键字之间用空格分隔即可。如果想知道汽车的历史,在谷歌上输入“汽车历史”,就会得到搜索结果。2,9,4.2.5搜索引擎搜索技术,要排除部分“非”任务碰撞项目,可以使用“A -B”格式表示“非”任务。搜索“中国史”,会看到很多与历史和文化相关的结果。现在,如果想一次去掉文化内容,可以输入“中国史-文化”。必须在“-”前加上空格。2,10,4.2.5搜索引擎搜索技术、“工作逻辑”或“工作可采用“A OR B”格式。例如,如果你想知道搜索引擎的发展历史,特别是包含网络蜘蛛的部分,可以使用以下方法。2,11,4.2.5搜索

8、引擎搜索技术,合理使用通配符可大大缩小搜索范围。许多搜索引擎使用“*”而不是一个字符串“?”支持通配符,如,替换单个字符等。但是,Google对通配符的支持有限,现在可以使用“*”代替字符串,必须包含“*”(其中符号为英语)。例如,如果将“*”搜索为“house”,则球体将以“house”开头,以“house”结尾,中间的“*”可以是任何文字或字符串。2,12,4.2.5搜索引擎搜索技术,空格处理搜索时还要注意,普通英语不区分大小写。还使用短语作为搜索关键字。如果中间有空格,则需要“”。否则,空格将用作“and”运算符。例如,要查找英语的第二次世界大战资料,必须输入“世界大战II”。2,13,

9、4.2.5搜索引擎搜索技术,“sITe”表示搜索结果仅限于特定网站或网站频道。例如,如果需要在著名的it门户ZDNET和CNET中搜索有关搜索引擎技术的信息,您可以输入“search engine site”(搜索引擎站点)“site : or site :”。2,14,4.2.5搜索引擎搜索技术,“filetype:”可以使用“filetype:”搜索某些二进制文档以及纯文本页面。例如,要查找有关搜索引擎技术的一些PDF文档,请使用“search engine”tips or tutorial filetype : PDF”。2,15,4.2.5搜索引擎搜索技术,使用“link”语法搜索链接

10、到URL地址的所有网页。此功能主要用于引用URL。例如,要搜索包含指向个主页的地址的所有页面,请输入“link:”。2,16,4.2.6网上有名的搜索引擎,常用的国外搜索引擎alta vista:lycos:exite;Magellan : infoscaeek : Yahoo! whats tnew : amazing eniro nment organization web 3360 Cui w3 catalog 33603http:/Cui www . unige . ch einet galaxy : 100 hot website 3http:/Cui www . unige . c

11、h einet galaxy : 国内通用搜索引擎百度:长:雅虎中文:北极星搜索引擎:火星好导航:人民网络搜索引擎: ruobo中文搜索引擎: sinan YIPPEE:天空网络英语搜索引擎333636363636363636360000/GB index . htm网络搜索引擎指南CBI业务网络站点集: ChinaNet国内导航: Chilna海外站点导航:2,19,4.3 Google,照片搜索(1)照片搜索输入:单击主页左上角的“图片”搜索Google照片,www . ZG- ,2,21,4.3 Google,(3)高级搜索:要查找用作桌面(宽屏显示)的大图片并需要JPG格式的图片,请单

12、击搜索栏旁边的“高级”按钮,进行高级图像搜索,2,22,4.3 Google,Google map Google map位于道路上,2,23,4.3 Google,(1)位置查询:使用Google地图,您可以进入世界上任何一个城市地区,查找相关的地理信息。例如,要找到武汉软件工程职业学院所在的地方,只需在地图搜索栏中输入“武汉软件工程职业学院”。2,24,4.3 Google,(2)缩放贴图:如果您认为道路不详细,可以通过拖动左上角的滑块或直接波动鼠标滚轮来放大或缩小地图,从而显示更多详细的交通信息。2,25,4.3谷歌,(3)卫星地图:点击右上角的“卫星”按钮还可以看到该地区的卫星照片,尽管是民用卫星照片,但清晰度仍然很高。2,26,4.3 Google,Google信息如果您想了解最新信息,可以转至当前包含最新信息的“Google信

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论