武汉大学黄如花信息检索3.1-搜索引擎_第1页
武汉大学黄如花信息检索3.1-搜索引擎_第2页
武汉大学黄如花信息检索3.1-搜索引擎_第3页
武汉大学黄如花信息检索3.1-搜索引擎_第4页
武汉大学黄如花信息检索3.1-搜索引擎_第5页
已阅读5页,还剩74页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、Outline n网络信息检索工具n搜索引擎的概念n搜索引擎的工作原理n搜索引擎的类型n常用搜索引擎介绍2 搜索引擎概述n你最常用的搜索引擎有哪些?n你认为搜索引擎是什么?百度谷歌 请在此输入您的文本。 雅虎 请在此输入您的文本。搜狗 请在此输入您的文本。2.1 概念n一种Web上应用的软件系统n以一定的策略在Web上搜集、发现和组织信息n使用者的角度:提供一个网页界面供用户输入词语或者短语,系统将返回一个可能和用户输入内容相关的信息列表Source: 李晓明,闫宏飞,王继民著.搜索引擎原理、技术与系统.北京:科学出版社,2005:22.2搜索引擎的工作原理2 搜索引擎的分类按信息的采集方式划

2、分按信息的采集方式划分 n机器人搜索引擎n数据库大n无人工控制n更新快nGooglen谷粉搜搜n百度n人工采集搜索引擎 n数据库小成,人工控制n更新慢n检索结果相关度高nYahoo!nAskjeevesnDMOZ请在此输入您的标题 请在此输入您的文本。请在此输入您的标题 请在此输入您的文本。2 搜索引擎的分类按内容的组织方式划分按内容的组织方式划分n关键词搜索引擎n机器人采集的搜索引擎n目录式搜索引擎n人工采集的搜索引擎2 搜索引擎的分类按收录资源的范围划分按收录资源的范围划分n综合性搜索引擎n通用的搜索引擎GeneralSearch Enginen专业的搜索引擎SpecialtySearch

3、 Engine专业的搜索引擎划分 某一地域(Regions) 雅虎中国、雅虎台湾 特定学科领域(Disciplines) Chemguide(化学) 特定用途(Specific Purposes) Markify(商标信息)请在此输入您的标题 请在此输入您的文本。2 搜索引擎的分类按搜索引擎的功能划分按搜索引擎的功能划分n独立搜索引擎n元搜索引擎请在此输入您的标题 请在此输入您的文本。3 搜索引擎的选择与评价n提问:百度和Google,你更喜欢哪个?为什么?n搜索引擎优化网站(SEOMOZ)通过SEO领域多位世界级专家的调查,发布两年一度的搜索引擎排名影响因素调查结果。3 搜索引擎的选择与评价

4、nSEOMOZ(2009)的调查结果最重要的最重要的5个影响因素为:个影响因素为:关注关键词锚文本的外部链接(73%,非常非常重要)链接所在页面的热门程度(71%,非常非常重要)链接资源的多样性(67%,非常非常重要)标题标签中关键词的使用(66%,非常重要)链接域名的可信度(66%,非常重要)source: /article/search-ranking-factors3 搜索引擎的选择与评价nSEOMOZ(2009)的调查结果前前5位的负面影响因素为:位的负面影响因素为:恶意隐藏作弊(68%,非常非常重要)从链接中介购买链接(56%,非常重要)指向搜

5、索引擎作弊的站点或网页的链接(51%,比较重要)基于User Agent的伪装(51%,比较重要)频繁的服务器故障或站点无法访问(51%,比较重要)source: /article/search-ranking-factors3 搜索引擎的选择与评价n收录范围n分类n检索功能与效果n检索结果的处理方式n页面组织n其他功能与服务4 综合性搜索引擎选介n全球主要搜索引擎份额(2009.7) Google(67.5%)Yahoo!(7.8%)百度(7.0%)4 综合性搜索引擎选介n国内搜索引擎首选份额排名(2009.6) 百度(77.2%)谷歌(12.7%)

6、搜搜(3.1%)搜狗(2.4%) 雅虎(1.6%)source:CNNIC. 2009年中国搜索引擎用户行为研究报告(2009年9月).http:/ 李彦宏和徐勇创立于中关村李彦宏和徐勇创立于中关村n全球最大的中文搜索引擎。全球最大的中文搜索引擎。n2005年8月5日,百度在纳斯达克上市百度在纳斯达克上市4.1 百度(http:/)百度的首页百度的高级检索页面百度提供的众多产品n 参见百度的帮助中心百度的检索技巧n百度快照 n拼音提示功能 n支持繁简中文查询 n相关搜索 n支持:-、| 、“”、filetype、inurl 、intitle、allintitle、site等。百度的检索功能和特

7、点百度的结果处理n检索结果排序规则n通过超链接分析技术、词频统计和竞价排名相结合的方式对网页进行相关度评价。n每一条检索结果显示网页标题、摘要、网址、百度快照等n百度快照和相关搜索的关键词检索提示4.2 Google( )n谷歌:http:/.hk/n1998年9月由斯坦福大学博士生 Larry Page ,Sergey Brin创立n全球使用最广泛的搜索引擎n获得30多项奖项,如Outstanding Search Service,Best News Search Engine,Best Image Search Engine,Best Design,Most Webmaster Frien

8、dly Search Enginen提问:你使用过Google哪些功能?谷歌提供了多样化的服务和功能Google的检索技巧n一般不区分英文大小写n缺省值 AND(and)n支持site、inurl、allinurl、intitle、allintitle、filetype、link、define、 related等nfiletype字段: pdf,doc, ppt, xls, rtf,swf等13种非HTML文件nfiletype:pdf AND “英语四级模拟试题”谷歌的首页-简洁明快谷歌的高级检索页面对多个检索字段进行限定Google的结果处理n排序规则:按相关性排序。n相关性的评判以网页评

9、级为基础,在全面考察检索词的频率、位置、网页内容(以及该网页所链接的内容)的基础上,评定该网页与用户需求的匹配程度,并确定排序优先级。n将独创的网页评级系统(PageRank)作为网络搜索的基础Google的结果处理n每条检索结果显示标题、摘要、网址、网页大小,有的还提供“cached(网页快照)”、“similar pages(相关网页)”、“note this(标记该网页)”以及网页翻译等链接n提示可能存在安全风险的网站n自动对关键词的相关词进行分析并给出相关链接,提供”百宝箱“功能Google的结果处理4.3 Yahoo!( http:/ )n雅虎中国:http:/n1994年4月由杨致

10、远和David Filo创立n最早的目录式搜索引擎之一n提供两种检索方式n关键词检索n分类目录浏览和检索n分类目录(http:/ )n分为14个大类,每个大类又分小类n检索结果处理:按相关度排序n实现网页、图片、博客、视频等资源的整合检索n显示人物关系n提问:n还有哪些常用的综合性搜索引擎?n以”信息检索“为关键词,分别使用百度、谷歌、雅虎中国进行搜索,并分析其异同点5 中外文学术搜索引擎选介n谷歌学术搜索n百度国学搜索nScirus5.1 谷歌学术搜索(Google scholar)n网址:http:/n中文网址: http:/ n资源来源:学术出版商、专业学会、高等院校、图书馆及其他学术机

11、构n文献类型包括:图书、同行评议的期刊论文、学位论文、论文预印本、技术报告。n信息来源可靠,学术性强n特色功能:n显示被引用信息:揭示文献之间的引用与被引用关系n显示图书馆链接,用户可搜索参加这一计划的图书馆馆藏资源目录,查看可供访问的资源链接,国家图书馆等多家图书馆参与了该项计划n使用偏好设置:用户可以对界面语言、搜索语言、图书馆链接、结果显示数量和方式以及文献管理软件等项目进行个性化定制n检索结果按照相关度排序谷歌学术搜索的更多功能n 对结果中的某一本书:n查看介绍、版权信息、目次,章的样例n书内信息检索(Search within this book)n可购买的网上书店链接n比较不同网上

12、书店的价格( 与Froogle等捆绑)谷歌学术搜索首页查看国内收藏情况5.2 百度国学搜索nhttp:/ n2006年1月份开通n免费提供中国古代文化典籍在线搜索及阅读服务n收录上起先秦、下至清末两千多年的以汉字为载体的历代典籍,内容涉及经、史、子、集各部。n内容进行严格校对,对一些生僻字特别进行造字n提供目录浏览和关键词检索5.3 Scirusnhttp:/ Science)于2001年4月推出n专为搜索科学信息而设计的n网上最全面、综合性最强的科技文献门户网站之一n信息来源:大学网站、科学工作者的个人站点、学术会议等;n文献类型:研究报告、同行评审期刊论文、专利文献、预印本n覆盖各个学科:

13、农业、天文、生物、化学、计算机、经济、工程、数学、医学、社会学等n与图书馆合作推出“图书馆链接”功能Scirus的检索功能n布尔逻辑检索、精确检索和字段限制检索n检索途径:篇名、作者、期刊名称等n高级检索:可设置信息发布时间、信息类型、文件格式、信息来源、学科领域等多个选项n检索结果:依据相关度排序n相关度主要与关键词和链接两个基本因素相关n前者主要考虑检索词的位置和出现频率n一个网页被其他网页参考或链接得越频繁,其排序就越靠前n提问:还有哪些学术搜索引擎?n如:nSearch4Science http:/ http:/nCNKI知识搜索http:/ 使用搜索引擎要注意的问题n各个搜索引擎的功能有别n同一种运算在不同搜索引擎中使用的符号不同n各引擎结果排名的计算方法不同n优先选用好的搜索引擎n选择有针对性的搜索引擎n搜索引擎不是万能的n竞争激烈 ,要留意变化7 跟踪搜索引擎的最新动态n讨论:通过哪些途径可以更好地了解搜索引擎发展的最新动态?n搜索引擎主页的介绍与帮助页面n搜索引擎的集合与评价站点 中文搜索引擎指南 搜索引擎跟踪 搜索引擎列表思考题n什么是搜索引擎?请谈谈其工作原理。n搜索引擎有哪些种类?各有

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论