版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第4章网络信息检索4.1网络信息检索的含义4.2搜索引擎4.3谷歌4.4AltaVista2025/11/1914.1网络信息检索的含义 网络信息检索一般是指因特网检索,是通过网络接口软件实现信息检索,如百度和谷歌等。用户可以在一个终端查询各地上传到网络的信息资源。这一类网络检索系统都是基于互联网的分布式特点开发和应用的,即:数据是分布式存储的,大量的数据可以分散存储在不同的服务器上;用户分布式检索,任何地方的终端用户都可以访问存储数据;数据分布式处理,任何数据都可以在网上的任何地方进行处理。2025/11/1924.2搜索引擎4.2.1搜索引擎的工作原理4.2.2搜索引擎的组成4.2.3搜索引擎的分类4.2.4搜索引擎的信息检索模型4.2.5搜索引擎检索技巧4.2.6网上著名搜索引擎2025/11/1934.2.1搜索引擎的工作原理 搜索引擎的工作原理,即搜索工作的过程:从互联网上抓取网页→建立索引数据库→在索引数据库中搜索排序。
1.从互联网上抓取网页 利用能够从互联网上自动收集网页的蜘蛛(Spider)系统程序,自动访问互联网,并沿着任何网页中的所有URL爬到其它网页,重复这过程,并把爬过的所有网页收集回来。
2.建立索引数据库 由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息(包括网页所在URL、编码类型、页面内容包含的关键词、关键词位置、生成时间、大小、与其它网页的链接关系等),根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面内容中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。
3.在索引数据库中搜索排序 当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。因为所有相关网页针对该关键词的相关度已计算完成,所以只需按照现成的相关度数值排序,相关度越高,排名越靠前。2025/11/1944.2.2搜索引擎的组成 搜索引擎一般由搜索器、索引器、检索器和用户接口四个部分组成。
1.搜索器 其功能是负责在互联网中漫游,抓取网页信息的工作,将抓取的网页内容进行切词处理并自动进行标引,建立索引数据库。
2.索引器 其功能是理解搜索器所搜索到的信息,从中抽取出索引项,用于表示文档以及生成文档库的索引表。
3.检索器 其功能是根据用户的查询在索引库中快速检索文档,进行相关度评价,对将要输出的结果排序,并能按用户的查询需求合理反馈信息。
4.用户接口 其作用是根据用户查询条件检索索引数据库并对检索结果进行排序和集合运算,如并集、交集运算,再提取网页简单摘要信息反馈给查询用户,同时提供个性化查询项。2025/11/1954.2.3搜索引擎的分类1.全文搜索引擎
全文搜索引擎是名副其实的搜索引擎,国外具代表性的有Google、Fast/AllTheWeb、AltaVista、Inktomi、Teoma、WiseNut等,国内著名的有百度(Baidu)。它们都是通过从互联网上提取的各个网站的信息(以网页文字为主)而建立的数据库中,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户,因此他们是真正的搜索引擎。2.目录索引 目录索引虽然有搜索功能,但在严格意义上算不上是真正的搜索引擎,仅仅是按目录分类的网站链接列表而已。用户完全可以不用进行关键词(Keywords)查询,仅靠分类目录也可找到需要的信息。目录索引中最具代表性的莫过于大名鼎鼎的Yahoo雅虎。其他著名的还有OpenDirectoryProject(DMOZ)、LookSmart、About等。国内的搜狐、新浪、网易搜索也都属于这一类。
3.元搜索引擎(METASearchEngine) 元搜索引擎在接受用户查询请求时,同时在其他多个引擎上进行搜索,并将结果返回给用户。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等(元搜索引擎列表),中文元搜索引擎中具代表性的有搜星搜索引擎。在搜索结果排列方面,有的直接按来源引擎排列搜索结果,如Dogpile,有的则按自定的规则将结果重新排列组合,如Vivisimo等。2025/11/1964.2.4搜索引擎的信息检索模型1.经典模型
经典模型是以文档中的关键词为搜索依据的。经典模型将文档用一组关键词(专业名叫索引词)来代替。索引词来自于文档,是文档中的词汇摘录。索引词集合能表达文档的主题。索引词常用于编制索引和概括文档的内容。 经典模型又可以分为三个:布尔模型、向量空间模型和概率模型。
2.代数模型 代数模型也有两种:广义向量空间模型和神经网络模型。3.其他模型 其他常见的模型还有贝叶斯模型、推理网络模型、信任度网络模型等。2025/11/1974.2.5搜索引擎检索技巧与操作 一般搜索引擎需要在多个关键字之间加上“”,而另外一些则不需要。Google就是其中之一,它无需用明文的“”来表示逻辑“与”操作,只要在搜索关键字之间用空格隔开即可。如想知道汽车的发展历史,我们可以在Google中这么输入:“汽车历史”,马上就能得到搜索结果。2025/11/1984.2.5搜索引擎检索技巧“非”操作
如果想排除一些干扰项,可以使用“A-B”的格式来表达“非”操作。如搜索“中国历史”,会看到很多和历史以及文化相关的结果,现在想一次性去掉文化类内容,就可以输入“中国历史–文化”。注意,“-”前必须加上空格。2025/11/1994.2.5搜索引擎检索技巧“或”操作
逻辑“或”操作可以用格式“AORB”来实现。例如想知道搜索引擎的发展历史,尤其是含有网络蜘蛛的部分,则可以使用以下的方式。2025/11/19104.2.5搜索引擎检索技巧通配符 合理使用通配符也能大大缩小搜索范围。很多搜索引擎支持通配符,如用“*”代替一个字符串,而“?”则代替单个字符等。不过Google对通配符支持有限,目前只能用“*”来替代字符串,而且包含“*”必须用""(注意这里的符号是英文的)引起来。例如搜索“"以*为家"”,表示搜索一个短语,且以“以”开头,以“为家”的结尾,中间的“*”可以为任何字符或字符串。2025/11/19114.2.5搜索引擎检索技巧空格的处理 搜索时还需要注意,一般的英文是不区分大小写的。同时,以短语作为搜索关键字,如中间有空格则需用“”引起来,否则空格会被当成“与”运算符。例如想查找英文的二战资料,则需要输入“worldwarII”。2025/11/19124.2.5搜索引擎检索技巧“site” “site”表示搜索结果局限于某个具体网站或者网站频道,例如需要在著名IT门户网站ZDNET和CNET搜索一下关于搜索引擎技巧方面的资讯,则可以输入:“"searchengine"tipssite:ORsite:”。2025/11/19134.2.5搜索引擎检索技巧“filetype:”使用“filetype:”不仅能搜索一般的文字页面,还能对某些二进制文档进行检索。例如想查找一些有关搜索引擎技巧的PDF文档则可以用:“”searchengine“tipsORtutorialfiletype:pdf”。2025/11/19144.2.5搜索引擎检索技巧“link”
“link”语法就能让用户搜索所有链接到某个URL地址的网页,这个功能多用于查看某个URL被引用的情况。例如搜索所有含指向狗狗首页这个地址的网页,就可以输入:“link:”。2025/11/19154.2.6网上著名搜索引擎常用的国外搜索引擎
AltaVista:http://
Lycos:http://
Excite;
Magellan:
InfoSeek:
Yahoo!:http://
What'sNew:/whatsnew
AmazingEnironmentOrganizationWeb: CUIW3Catalog:http://cuiwww.unige.ch
EINet
Galaxy:
100HotWebsite: C/Net'sShare:
Webcrawker:
2025/11/19164.2.6网上著名搜索引擎国内常用搜索引擎 百度:http:/// 悠悠:http://
雅虎中文:http://
北极星搜索引擎:http:/// 华好景导航:http://
人民网络检索引擎:http:// 若比邻中文搜索引擎:http://
司南YIPPEE:
天网中英文搜索引擎::8000/gbindex.htm 网现引擎:http://
中国频道导航中心:
中国热点:http://
中文网络索引Hello:.tw
搜狐:http://
网易:http://2025/11/19174.2.6网上著名搜索引擎常用的中文导航站点、搜索引擎指南 CBI商贸网络站点集:http:///list/tradeweb.html
ChinaNet国内导航:/bta/map04.htm
Chilna国外站点导航:/bta/map05.htm
2025/11/19184.3谷歌图片搜索 (1)进入图片搜索:点击主页左上角的“图片”,进入Google图片搜索2025/11/19194.3谷歌 (2)输入搜索关键字:在搜索框中输入“张国荣”就能得到大量的图片预览和链接。2025/11/19204.3谷歌 (3)高级搜索:我们想得到一些张国荣的大图作为桌面用(宽屏显示器),同时又希望是JPG格式的图片,于是就可以点搜索栏旁边的“高级”按钮,进入高级图片搜索
2025/11/19214.3谷歌谷歌地图 Google地图则提供了地图搜索功能,包括道路、公交、建筑等的查询。2025/11/19224.3谷歌
(1)所在地查询:使用Google地图,可以进入全世界的任一城市地区,查找相关地理信息。例如查找武汉软件工程职业学院所在地,只需要在地图搜索栏中输入“武汉软件工程职业学院”即可。2025/11/19234.3谷歌 (2)缩放地图:如果觉得路不够详细,可以拉动左上角的滑块,或直接波动鼠标滚轮,就能放大或缩小地图,更详细的路况资料就会显现出来。2025/11/19244.3谷歌
(3)卫星地图:点选右上角的“卫星”按钮,还能查看该地区的卫星图片,虽然是民用级卫星图片,但是清晰度仍然很
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026广东深圳理工附中教师招聘9人备考题库附答案详解ab卷
- 2026四川成都市新津区外国语实验小学校面向社会招聘教师18人备考题库附参考答案详解(综合卷)
- 2026黑龙江五大连池市乡镇卫生院招聘医学相关专业毕业生1人备考题库完整答案详解
- 2026岚图区域市场岗位社会招聘备考题库带答案详解(新)
- 2026爱莎荔湾学校专任教师招聘备考题库(广东)含答案详解ab卷
- 2026内蒙古呼和浩特职业技术大学第二批人才引进23人备考题库及参考答案详解(预热题)
- 2026安徽合肥热电集团春季招聘25人备考题库附参考答案详解(b卷)
- 辽宁鞍山市立山区教育局2026届毕业生校园招聘10人备考题库完整答案详解
- 2026江苏南京大学BW20260405海外教育学院高等教育教师招聘备考题库含答案详解(黄金题型)
- 2026广东湛江市雷州供销助禾农业科技服务有限公司招聘5人备考题库含答案详解
- 精神科叙事护理案例分享
- 2025版幼儿园章程幼儿园办园章程
- 基于STM32单片机的智能宠物项圈
- 汽车检测站安全操作规程
- 2025年事业单位招聘考试职业能力倾向测验试卷(造价工程师类)
- 医院保洁毛巾分区分色管理
- 12S522混凝土模块式排水检查井图集
- 民航安全培训课件
- 二级短元音(课件)牛津英语自然拼读
- 控制方案变更管理制度
- 外科ICU职业防护课件
评论
0/150
提交评论