




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第5章 网络搜索引擎,2,本章目标,了解搜索引擎基本原理 熟悉各种搜索引擎 掌握谷歌、百度、雅虎等搜索引擎的使用,3,5.1 网络搜索引擎概述,5.1.1 WWW信息资源及其特点 5.1.2 网络搜索引擎的兴起与发展 5.1.3 网络搜索引擎的类型,4,5.1.1 WWW信息资源及其特点,什么是WWW? WWW全称为World Wide Web,通常简称为Web,俗称为万维网。 WWW的特点: 1. 使用超文本技术 2. 使用HTML语言 3. 采用C/S模式 4. 方便灵活,功能强大,5,5.1.2 网络搜索引擎的兴起与发展,搜索引擎的定义: 搜索引擎是一种能够通过Internet接受用户的
2、查询指令,并向用户提供符合其查询要求的信息资源网址的系统。 搜索引擎的主要任务: 1)信息搜集。 2)信息处理。 3)信息查询。 网络搜索引擎的兴起与发展,6,5.1.3 网络搜索引擎的类型,1. 按照检索机制划分 关键词检索型 目录浏览型 2. 按照搜索引擎的数据收录范围划分 综合型 专题型 特殊型 3. 按照包含检索工具的数量划分 独立型搜索引擎 集合型搜索引擎 4. 按照工作方式划分 全文搜索引擎 目录索引搜索引擎 元搜索引擎,7,5.2 网络搜索引擎的工作原理,5.2.1 搜索引擎的基本结构 5.2.2 搜索引擎的数据采集 5.2.3 搜索引擎的数据提取 5.2.4 搜索引擎的数据组织
3、 5.2.5 搜索引擎的数据检索,8,5.2.1 搜索引擎的基本结构,9,5.2.2 搜索引擎的数据采集,自动采集 人工采集,10,5.2.3 搜索引擎的数据提取,搜索引擎的数据提取主要指对所采集到的网页进行的分析与标引工作。 抽词-词频 语种,11,5.2.4 搜索引擎的数据组织,搜索引擎的数据组织首先是指利用强有力的数据库管理系统(DBMS)来组织所采集、标引的网页信息,形成索引数据库,并存放在特定的计算机存储器中。数据库中一般包含有成千上万条的数据记录,而每一条记录(对应于一个网页)原则上会包括关键词、网页摘要、网页URL等不同的字段。由于各个搜索引擎的标引原则和数据提取方式不同,它们的
4、索引记录内容可能很不相同,即使是对同一个网页,往往也是如此。,12,5.2.5 搜索引擎的数据检索,数据检索模块主要包括以下4个部分: 1. 检索界面 2. 检索策略 3. 检索匹配 4. 组织检索结果,13,5.3 网络搜索引擎的信息检索方法,5.3.1 基本检索方法 5.3.2 高级检索方法 5.3.3 其他相关或辅助性检索方法,14,5.3.1 基本检索方法,布尔逻辑算符AND OR NOT 连接符+ - 截词符 * 邻近符 空格、逗号、括号、引号的作用 限定字段检索,15,5.3.2 高级检索方法,自然语言检索 相似检索 3. 概念检索,16,5.3.3 其他相关或辅助性检索方法,1.
5、 检索结果的排序输出 2. 查询与浏览相结合 3. 检索结果的翻译与多语种检索,17,5.4 百度(baidu)搜索引擎,5.4.1 百度公司简介和搜索引擎 5.4.2 百度的检索使用方法 5.4.3 百度的网页和新闻搜索 5.4.4 百度的MP3搜索 5.4.5 百度的图片和视频搜索 5.4.6 百度帖吧和百度知道,18,5.4.1 百度公司简介和搜索引擎,百度公司是中国互联网领先的软件技术提供商和平台运营商。中国提供搜索引擎的主要网站中,超过80%由百度提供。 百度的起名,来自于“众里寻她千百度”的灵感,它寄托着百度公司对自身技术的信心。,19,5.4.2 百度的检索使用方法基本检索,(1
6、)“与”运算,增加搜索范围。 (2)“非”运算,减除无关资料。 (3)“或”运算,并行搜索。 (4)使用双引号或书名号进行精确搜索。 (5)用好百度快照。 (6)相关检索 (7)英汉互译词典 (8)计算器和度量衡转换 (9)股票、列车时刻表和飞机航班查询 (10)百度的其它辅助功能 拼音提示 错别字提示,20,5.4.2 百度的检索使用方法高级检索,(1)在指定网站内搜索 检索算符:site 基本查询语法:关键字+site+:+网站名称或国别 (2)在标题中搜索 检索算符:intitle 基本查询语法:intitle+:+关键字1+空格+关键字2 (3)在url中搜索 检索语:inurl 基本
7、查询语法:inurl+:+关键字1+空格+关键字2 (4)特定类型文件的搜索(filetype) 检索算符:filetype 基本查询语法:关键字1+空格+filetype+:+文件类型标识,21,5.4.3 百度的网页和新闻搜索,1. 百度网页搜索 百度是中国互联网用户最常用的搜索引擎,每天完成6000多万次搜索;也是全球最大的中文搜索引擎,可查询6亿中文网页。,22,5.4.3 百度的网页和新闻搜索,2. 百度新闻搜索 百度新闻频道每天动态抓取十万条新闻,新闻来源于500多个新闻站点,其中包括了政府机构、行业媒体网站、各类媒体的网络版和专业的新闻站点,比普通的新闻网站更新量至少多好几倍。,
8、23,5.4.4 百度的MP3搜索,百度中文搜索引擎是世界最大的中文搜索引擎,百度在天天更新的1亿2千万中文网页中提取MP3下载链接,建立庞大的MP3歌曲下载链接库。 (1)在百度MP3搜索引擎主页(http:/ (2)准确关键词。MP3搜索关键词主要是歌手名和歌曲名,准确的歌手名或歌曲名是MP3搜索的关键,24,25,5.4.4 百度的MP3搜索,(3)精确关键词。搜歌曲直接用歌曲名搜索,如果歌曲名太常见,搜索结果很多,可以用歌曲名加歌手名一起搜,在歌手名和歌曲名之间要加一空格。 (4)利用歌词搜索。百度歌词搜索引擎能够搜到歌词,还能用来寻找MP3。 (5)利用网页搜索。当我们不知道歌名,也
9、不知道歌手名,只知道一些模糊信息,可以先在百度1亿两千万的中文网页搜索。 (6)如果大家在百度的MP3搜索上没有搜到你要找的歌曲,可以用“歌曲名+歌手名+下载”或“歌曲名+MP3”,在“百度网页搜索”中查找,在关键词之间要加一空格。,26,27,5.4.5 百度的图片和视频搜索,百度图片搜索 百度图片搜索引擎是世界上最大的中文图片搜索引擎,百度从数十亿中文网页中提取各类图片,建立了世界第一的中文图片库。,28,5.4.5 百度的图片和视频搜索,2. 百度视频搜索 百度视频搜索是百度汇集几十个在线视频播放网站的视频资源而建立的庞大视频库。百度视频搜索拥有最多的中文视频资源,提供用户最完美的观看体
10、验。,29,5.4.6 百度帖吧和百度知道,1. 百度知道 百度知道可以帮助我们了解到现实生活中遇到的各种难题。它类似于我们平时所用到的BBS。我们要想使用百度知道只需在“http:/ 2. 百度帖吧 百度贴吧自从诞生以来逐渐成为世界最大的中文交流平台,这里为您提供一个表达和交流思想的自由网络空间。贴吧里每天有无数新的思想和新的话题产生,“将你的思想赠送朋友,你们将各得到两种思想”,只要您使用中文,贴吧就是您交流思想的最好选择!我们要想使用百度知道只需在“http:/,30,5.5 谷歌(google)搜索引擎,5.5.1 Google简介 5.5.2 Google的检索使用方法 5.5.3
11、Google的分类目录浏览 5.5.4 Google的多语种检索 5.5.5 Google的博客检索,31,5.5.1 Google简介,Google最初于1998年由美国Stanford大学的两位博士生Larry Page和Sergey Brin创建。 Google总部设在美国加州的Mountain View。 Google的名称据说取自于一种游戏名“googol”,其意思代表1后面跟有100个零。,32,5.5.2 Google的检索使用方法,1. 基本检索方式 Google的查询简洁方便,用户仅需在检索输入框输入需要查询的关键词,单击【Google Search】按钮或按回车键就可以了。
12、 Google查询不需要使用“AND”算符。 Google不支持“OR”运算,以避免检到一大批无关的内容。 Google也不支持截词检索。 Google的查询不区分英文大小写,所有字母均当做小写处理。 查询专用词语时,可使用双引号(“”),以便准确检索。 Google中冒号“:”,33,2. 检索结果的组织与显示 Google对每条结果显示的内容有网页标题、摘要、语种、URL、时间、文本大小等,而全部结果按照Google独有的页面链接专利技术(PageRank)进行排序输出。 在每条结果后面,还有两个功能按钮值得注意。 “网页快照”:单击此按钮,用户可查看Google保存的该网页的快照内容。G
13、oogle为用户储存了大量的应急网页,以避免当需要浏览某个结果的页面时,因为该页面站点忙碌或其他原因而不能顺利登录。 “类似网页”:单击此按钮,Google便会开始寻找与这一网页性质相似的网页,一般都是同一级别的网页。,5.5.2 Google的检索使用方法(续),34,在Google主页上选择【高级搜索】,即可进入其高级检索界面。 在这里,Google为检索者提供了更加丰富、细致的信息查询功能。,5.5.2 Google的检索使用方法(续),35,Google将收集到的所有Web信息组织到14个不同类目(categories)中,如休闲、体育、健康、参考、商业、地区、家庭、新闻、游戏、社会、
14、科学、艺术、计算机、购物等。如图5-25所示。用户可按照这个类目结构进行浏览,并可在自己感兴趣的类目层次中提交关键词,快速查询相关信息。,5.5.3 Google的分类目录浏览,36,在Google的主页上,单击【语言工具】按钮,即可以进入Google多语种检索的设置界面。,5.5.4 Google的多语种检索,37,“博客搜索”是Google搜索技术针对博客内容所提供的服务。Google充分相信博客所代表的个人创作和发布潮流。我们希望能通过“博客搜索”帮助用户更有效的探索博客世界,从而激发更多的人加入这一潮流。,5.5.5 Google的博客检索,38,5.6 Yahoo!搜索引擎,5.6.
15、1 Yahoo!简介 5.6.2 Yahoo! 的分类目录浏览 5.6.3 Yahoo!的关键词检索,39,Yahoo!是Internet上最受欢迎的搜索引擎之一,也是访问频率最高的门户网站之一。它是由美国斯坦福大学的华裔博士杨致远与他的同学David Filo于1994年开发的。目前由美国多家公司与个人资助。Yahoo具有覆盖范围广、连接速度快、数据容量大、使用方法简单等特点。 中文雅虎是美国“Yahoo!”公司于1998年5月推出的中文搜索引擎,提供中文简体与中文繁体两种版本。中国大陆的站点一般使用简体中文,而香港与台湾地区的站点一般使用繁体中文。中文雅虎并非英文版的全文翻译,而是收录了数
16、万个中文的Internet站点,按照英文版的分类方法以14个类目列出,提供Internet上的中文站点信息检索服务。,5.6.1 Yahoo!简介,40,41,中文雅虎主页的顶端是一些常用的的链接,例如购物、黄页、寻人、城市地图与旅行社等;中文雅虎的分类目录位于其主页的中部。用户可以根据查找的内容所属的类别在分类目录中逐级逐类地选择相应的类目,经过多次选择后,就可以访问到包含所查找内容的站点。,5.6.2 Yahoo! 的分类目录浏览,42,如果用户已知要查找内容的主题概念,就可以利用关键词检索方式。 中文雅虎支持以下几种限定检索操作符: (1)用引号(“ ”)来查询完全符合关键词字符串的网站
17、。 (2)在关键词前加“t:”,搜索引擎仅限在网站名称中查找。 (3)在关键词前加“u:”,搜索引擎仅限在URL 中查找。 (4)在关键词前加“+”,查询结果中一定要出现“+”号后面的字符串。 (5)在关键词前加“-”,查询结果中一定不能出现“-”号后面的字符串。,5.6.3 Yahoo!的关键词检索,43,5.7 其他中英文搜索引擎简介,5.7.1 英文搜索引擎 5.7.2 中文搜索引擎,44,1. Excite(http:/ Excite是Internet上的一个经典的搜索引擎,也是最受欢迎的搜索引擎之一。它收集了5000万个网页信息,其网页索引是一个全文数据库。Excite 最大的特点是
18、提供概念检索,即搜索引擎不仅查找包含关键词的主页,还查找包含与关键词有关的概念的主页。,5.7.1 英文搜索引擎,45,2. Lycos(http:/WWW Lycos创立于1995 年,是Internet上资格最老的搜索引擎之一。它的特点是功能强大,搜索范围广。Lycos几乎覆盖了Internet上90%的主页,可以进行包括WWW、FTP与Gopher等多种服务的搜索。由于Lycos的学术背景,它可以搜索到其他搜索引擎找不到的偏僻站点,比如一些面向教育或非赢利组织的站点。,5.7.1 英文搜索引擎,46,搜狐搜狗搜索(http:/) 搜狗搜索是搜狐公司旗下网站。搜狐是爱特信公司创办的大型中文
19、门户网站,于1998年2月正式推出。2000年9月搜狐收购国内最大的年轻人社区网C,成为中国最大的门户网站。搜狐公司从中国首家大型分类查询搜索引擎,发展成为最受用户喜爱的综合门户网站。1999年至今,搜狐公司连续推出新闻中心、体育、财经、IT、汽车、生活、教育、求职、搜狐商城等17个内容频道,为广大网民提供网上社交、学习、生活和购物的理想场所,成为中国网络用户进入互联网的最佳渠道。,5.7.2 中文搜索引擎,47,48,2. 新浪爱问搜索 ( 爱问是新浪旗下搜索公司,新浪爱问搜索引擎是面向全球华人的网上资源查询系统。提供网站、网页、新闻、软件、游戏等查询服务。网站收录资源丰富,分类目录规范细致
20、,遵循中文用户习惯。目前共有16大类目录,一万多个细目和二十余万个网站,是互联网上最大规模的中文搜索引擎之一。 新浪网推出新一代综合搜索引擎,这是中国第一家可对多个数据库查询的综合搜索引擎。在关键词的查询反馈结果中,在同一页面上包含目录、网站、新闻标题、新闻全文、频道内容、网页、商品信息、消费场所、中文网址、沪深行情、软件、游戏等各类信息的综合搜索结果,最大程度地满足用户的检索需要,使用户得到最全面的信息。除了资源查询外,新浪网搜索引擎推出了更多的内容和服务,包括:新浪酷站、本周新站、引擎世界、少儿搜索、WAP 搜索、搜索论坛等。,5.7.2 中文搜索引擎,49,50,网易有道搜索(http:
21、/ 网易公司是中国领先的互联网技术公司,在开发互联网应用、服务及其他技术方面,网易始终保持国内业界的领先地位。自1997年6月创立以来,在开发互联网应用、服务及其他技术方面,网易始终保持业界的领先地位,并取得了中国互联网业的多项第一:第一家中文全文检索,第一个大容量免费个人主页基地,第一个免费电子贺卡站,第一个网上虚拟社区,第一个网上拍卖平台。网易新一代开放式目录管理系统(ODP),结合了网易自主开发的搜索引擎的特点,对所有站点信息提供全面快速的检索功能,使得用户能高效便捷的查询出目的站点。,5.7.2 中文搜索引擎,51,52,5.7 其他中英文搜索引擎简介,5.8.1 SEO是什么 5.8
22、.2 SEO优化 5.8.3 SEO优化提示,53,SEO是Search Engine Optimization的缩写。 英文描述是: To use some technics to make your website in the top places in Search Engine when somebody is using Search Engine to find something 翻译成中文就是“搜索引擎优化” 一般可简称为搜索优化。,5.8.1 SEO是什么,54,SEO主要分为站外SEO和站内SEO。 1. 站外SEO优化 站外SEO又说成是脱离站点的搜索引擎技术,命名源自外部站点对BLOG在搜索引擎排名的影响,这些外部的因素是超出BLOGGER的控制的。最有用功能最强大的外部站
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 法律文书智能审核员考试试卷及答案
- 2024成都大学辅导员招聘笔试真题
- 2025年核辐射剂量防护仪器设备项目合作计划书
- 2025年经典心理健康知识竞赛考试练习题库(230题)【答案】
- 2024年邓州市社区工作者招聘真题
- 2024年常德市市直中小学校招聘教师考试真题
- 项目管理制度规定
- 消防月消防知识题库100道2
- 消防试题题库4
- 2025年贸易经纪与代理服务项目发展计划
- 九师联盟2024-2025学年高二下学期7月期末质量检测政治试题(含答案)
- 人教版八年级物理上册《1.1长度和时间的测量》同步练习题及答案
- 安全生产执法培训课件
- 绝缘漆项目可行性研究报告立项报告模板
- 妇科医生进修汇报课件
- 宋龙渊道德经讲义
- 受限空间安全作业票填写模板(2022年更新)
- [计算机]力克工艺单软件kaledo_style案例
- 山东大学生物化学课件绪论
- 李开复:人工智能应用的四波浪潮
- 镇江区国有土地上房屋征收评价技术规范
评论
0/150
提交评论