




已阅读5页,还剩78页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第六讲 搜索引擎,主要内容,搜索引擎发展 搜索引擎原理 搜索引擎系统分类 搜索引擎的检索方式 常用搜索引擎介绍,一、搜索引擎发展,1990年以前,没有任何人能搜索互联网 所有搜索引擎的祖先:Archie 最早现代意义上的搜索引擎出现于1994年7月(Lycos Yahoo! ) 1998.9 Google,二、搜索引擎原理,搜索引擎的原理,可以看做三步: 从互联网上抓取网页 建立索引数据库 在索引数据库中搜索排序 搜索引擎并不真正搜索互联网,它搜索的实际上是预先整理好的网页索引数据库 搜索引擎,也不能真正理解网页上的内容,它只能机械的匹配网页上的文字,二、搜索引擎原理,搜索引擎只能搜到它网页索引数据库里储存的网页文字信息。 如果搜索引擎的网页索引数据库里应该有而你没有搜出来,那是你的能力问题,学习搜索技巧可以大幅度提高你的搜索能力,三、搜索引擎系统分类,按照信息搜集方法和服务提供方式的不同,搜索引擎系统可以分为三大类: 1. 目录索引(Yahoo, 搜狐、新浪、网易搜索) 2. 全文搜索引擎 (Google、Fast/AllTheWeb、AltaVista,百度,中搜) 3. 元搜索引擎 (META Search Engine),四、搜索引擎的检索方式,词语搜索 简单搜索(Simple Search):指输入一个单词(关键词),提交搜索引擎查询,这是最基本的搜索方式。 词组搜索(Phrase Search):指输入两个单词以上的词组(短语),提交搜索引擎查询,也叫短语搜索,现有搜索引擎一般都约定把词组或短语放在引号“”内表示。 语句搜索(Sentence Search):指输入一个多词的任意语句,提交搜索引擎查询,这种方式也叫任意查询。不同搜索引擎对语句中词与词之间的关系的处理方式不同。,四、搜索引擎的检索方式,目录搜索(Catalog Search): 指按搜索引擎提供的分类目录逐级查询,用户一般不需要输入查询词,而是按照查询系统所给的几种分类项目,选择类别进行搜索,也叫分类搜索(Classified Search)。,四、搜索引擎的检索方式,高级搜索(Advanced Search): 指用布尔逻辑组配方式查询,也叫定制搜索。常用的逻辑运算为AND(和)、OR(或)、NOT(非), 对A、B两词而言, A AND B是指取A和B的公共部分(交集),A OR B是指取A和B的全部(并集),A AND NOT B是指取A中排除B后的部分。A、B本身为多词时,可以用括号()分别括起来作为一个逻辑单位。此外,还有NEAR(邻近)算符,A NEAR B表示A词与B词之间相隔不超过n 词,n 的具体值各引擎要求不一,WebCrawler则直接要求用NEAR/n形式指明。,常用搜索引擎 介绍,Googlehttp:/www.G,Google检索网页数量达42.8亿,搜索引擎中排名第一;网页图片8.8亿张 . Google支持多达132种语言,包括简体中文和繁体中文; Google网站只提供搜索引擎功能,没有花里胡哨的累赘; Google智能化的“手气不错”功能,提供可能最符合要求的网站;,Google网页搜索,Google具有独到的图片搜索功能; Google具有强大的新闻组搜索功能; Google具有二进制文件搜索功能(PDF,DOC,SWF等); Google还有很多尚在开发阶段的令人吃惊的设想和功能。,自动使用“and”进行查询 Google 只会返回那些符合您的全部查询条件的网页。不需要在关键词之间加上“and”或“+”。如果您想缩小搜索范围,只需输入更多的关键词,只要在关键词中间留空格就行。,初级搜索,不支持“通配”检索 Google 只搜索与输入的关键词完全一样的字词,也就是说,不支持“通配符”(*) 搜索。例如:搜索 googl 或 googl* ,不会得到类似 googler 或 googlin 的结果。 不区分英文字母大小写 Google 搜索不区分英文字母大小写。所有的字母均当做小写处理。例如:搜索“google”、“GOOGLE”或“GoOgLe”,得到的结果都一样。,初级搜索,短语搜索 Google 中,可以通过添加英文双引号来搜索短语。双引号中的词语(比如“like this”和“伊拉克战争爆发”)在查询到的文档中将作为一个整体出现。这一方法在查找名言警句或专有名词时显得格外有用。一些字符可以作为短语连接符。Google 将“-”、“”、“.”、“=”和“.”等标点符号识别为短语连接符。,初级搜索,初级搜索,简繁转换 Google运用智能型汉字简繁自动转换系统,为您找到更多相关信息。这个系统不是简单的字符变换,而是简体和繁体文本之间的“翻译”转换。例如简体的“计算机”会对应于繁体的“电脑”。当您搜索所有中文网页时,Google会对搜索项进行简繁转换后,同时检索简体和繁体网页。并将搜索结果的标题和摘要转换成和搜索项的同一文本。,高级搜索,面已经探讨了Google的一些最基础搜索语法。通常而言,这些简单的搜索语法已经能解决绝大部分问题了。不过,如果想更迅速更贴切找到需要的信息,你还需要了解更多的东西。 对搜索的网站进行限制 site: 在某一类文件中查找信息 filetype: 搜索的关键字包含在URL链接中 inurl: 搜索的关键字包含在网页标题中 intitle:,高级搜索,例如,要在 Google 站点上查找新闻,可 以输入检索词“新闻”与限制网址: 新闻 site:,高级搜索,查找 PDF 文件 尽管 PDF 文件不象 HTML 文件那样多,但这些文件通常会包含一些别处没有的重要资料。如果某个搜索结果是 PDF 文件而不是网页,只需在搜索关键词后加上 filetype:pdf 就可以,它的标题前面会出现以蓝色字体标明的 PDF。这样,用户就知道需要启动 Acrobat Reader 程序才能浏览该文件。 拉登 filetype:pdf,高级搜索,手气不错 按下“手气不错”按钮将自动进入 Google 查询到的第一个网页。您将完全看不到其它的搜索结果。使用“手气不错”进行搜索表示用于搜索网页的时间较少而用于检查网页的时间较多。 例如,要查找 Stanford 大学的主页,只需在搜索字段中输入“Stanford”,然后单击“手气不错”按钮。Google 将直接带您进入 Stanford 大学的官方主页 。,高级搜索,图片搜索 Google自称可以检索8.8亿张图片,并称自己为“互联网上最好用的图像搜索工具”。从使用结果来看,Google的图片搜索的确不错。 要进行图像搜索,仅需点击主页下方的图片搜索按钮即可进入图片搜索网页 /,在图像搜索框中输入要查找的资料,然后单击“搜索”按钮。在查询结果页上单击缩略图即可看到原始大小的图像,同时还可看到该图像所在的网页。,高级搜索,查找新浪网上本拉登的图片,检索式: 拉登 OR 拉丹 site:,目录检索,如果不想搜索广泛的网页,而是想寻找某些专题网站,可以访问Google的分类目录“http:/directory.G/”, 分类的网站目录一般由专人负责,分类明确,信息集中 另外,Google根据其专业的“网页级别”(PageRank)技术对目录中登录的网站进行了排序,可以让一般的检索更具高效率,百度/,“百度”公司(B,Inc)于1999年底成立于美国硅谷,它的创建者是资深信息检索技术专家、超链分析专利唯一持有人百度总裁李彦宏,及其好友在硅谷有多年商界成功经验的百度执行副总裁徐勇博士。,基本搜索,检索词 检索词可以是一个词语、多个词语、一句话。例如:可以输入李白、mp3 下载 百度搜索引擎严谨认真,要求“一字不差”。例如:分别搜索 舒淇 和 舒琪 ,会得到不同的结果。 输入多个词语搜索 输入多个词语搜索(不同字词之间用一个空格隔开),可以获得更精确的搜索结果。 例如:想了解北京暂住证相关信息,在搜索框中输入 北京 暂住证 获得的搜索效果会比输入 北京暂住证 得到的结果更好。,二次检索 检索结果标示丰富的网页属性(如标题、网址、时间、大小、编码、摘要等),并突出用户的查询串,便于用户判断是否阅读原文。百度搜索支持二次检索(又称渐进检索或逼进检索)。可在上次检索结果中继续检索,逐步缩小查找范围,直至达到最小、最准确的结果集。利于用户更加方便地在海量信息中找到自己真正感兴趣的内容。,基本搜索,A、双引号精确匹配 输入的查询词很长,百度在经过分析后,给出的搜索结果中的查询词,可能是拆分的。用户可以给查询词加上双引号而让百度不拆分查询词。,例如:想搜索含有“河北省清苑县冉庄地道战”字样的网页,就要将上述11字加以双引号,这样搜索出来的结果就是精确含有“河北省清苑县冉庄地道战”这11个连续字串的网页。,基本搜索,如果检索词加双引号时检索的结果是137篇,显示如下图:,如果检索词不加双引号时检索的结果是3520篇,显示如下图:,B、intitle关键词在网页标题中 网页标题通常是对网页内容提纲挈领式的归纳。把查询内容范围限定在网页标题中,有时能获得良好的效果。使用的方式是把查询内容中特别关键的部分,用“intitle:”限定起来。注意:intitle:和后面的关键词之间不要有空格。,例如:找杨振宁的事迹。 检索式:事迹 intitle:杨振宁,基本搜索,用“事迹 intitle:杨振宁” 检索的结果是502篇,结果如下:,检索词用“杨振宁事迹”时检索的结果是31100篇,结果如下:,C、filetype对搜索对象做格式限制 使用方法是在“Filetype:”后跟文件格式。“Filetype:”可以跟以下文件格式:DOC、XLS、PPT、PDF、TXT、RTF、ALL,其中,ALL表示搜索所有这些文件类型。,例如:搜索含有关键词“霍金”、“黑洞”的pdf文档 检索式:霍金 黑洞 filetype:pdf。,基本搜索,D、inurl限定在URL链接中搜索 网页url中的某些信息,常常有某种有价值的含义,用户可通过对搜索结果的url做某种限定来获得良好的效果。使用的方式是用“inurl:”,后跟需要在url中出现的关键词。,URL(Uniform Resource Locator) 统一资源定位器 例:,基本搜索,例如:找关于photoshop的使用技巧, 检索式:photoshop inurl:jiqiao 上面这个查询串中的“photoshop”,是可以出现在网页的任何位置,而“jiqiao”则必须出现在网页url中。注意:inurl:语法和后面所跟的关键词不要有空格。,E、site限定搜索目标范围 如果用户已经知道某个站点中有自己需要找的东西,可以把搜索范围限定在这个站点中,提高查询效率。使用的方式是在查询内容的后面,加上“site:站点域名”。,例如:搜索结果为S这个网站上含有关键字“mp3播放器”的网页。 检索式:mp3播放器 site:,注意: “site:”后面跟的站点域名,不要带“http:/”和“/”符号; 另外,site:和站点名之间不要带空格。,基本搜索,F、减号(-)不含特定关键字 如果用户想除去包含特定关键词的网页,可以用减号语法。 注意:前一个关键词和减号之间必须有空格,否则减号会被当成连字符处理,而失去减号语法功能。减号和后一个关键词之间,有无空格均可。,例如:想搜索有关武侠小说神雕侠侣方面的内容而不希望出现关于其电视剧方面的网页。 检索式:神雕侠侣 -电视剧。,基本搜索,G、书名号精确匹配 书名号是百度独有的一个特殊查询语法。在其他搜索引擎中,书名号会被忽略,而在百度,中文书名号是可被查询的。加上书名号的查询词,有两层特殊功能,一是书名号会出现在搜索结果中;二是被书名号括起来的内容,不会被拆分。书名号在某些情况下特别有效果,例如查名字很通俗和常用的那些电影或者小说。比如要查电影“手机”,如果不加书名号,很多情况下出来的是通讯工具手机,而加上书名号后,手机结果就都是关于电影或书方面的了。,基本搜索,H、管道符号“|”并行搜索 可以使用“A|B”来搜索“或者包含词语A,或者包含词语B”的网页。,例如:要查询“图片”或“写真”相关资料,无须分两次查询,只要输入检索式“图片|写真”搜索即可。百度会提供跟“|”前后任何字词相关的资料,并把最相关的网页排在前列。,基本搜索,目前百度网页搜索的特色功能包括:百度快照、相关搜索、拼音提示、错别字提示、英汉互译词典、计算器和度量衡转换、股票、列车时刻表和飞机航班查询、天气查询、高级搜索、地区搜索和个性设置等。,特色功能搜索,A、百度快照 每个被收录的网页,在百度上都存有一个纯文本的备份,称为“百度快照”。百度速度较快,如果某个搜索结果无法打开,或者打开速度特别慢,用户可以通过“百度快照”快速浏览页面内容。不过,百度只保留文本内容。图片、音乐等非文本信息,快照页面还是直接从原网页调用,所以如果无法连接原网页,那么快照上的图片等非文本内容会无法显示。,B、相关搜索 搜索结果不佳,有时候是因为选择的检索词不是很妥当。百度使用相关检索词智能推荐技术,即在用户第一次检索后,会在搜索结果页的下方提示相关的检索词,帮助用户查找更相关的结果,统计表明可以促进检索量提升10-20%。,例如:输入检索词“杨振宁事迹”,显示的相关搜索如下图:,C、拼音提示 如果只知道某个词的发音,却不知道怎么写,或者嫌某个词拼写输入太麻烦,可通过百度拼音提示来解决问题。只要用户输入检索词的汉语拼音,百度就能把最符合要求的对应汉字提示出来。它事实上是一个无比强大的拼音输入法。拼音提示显示在搜索结果上方。,例:输入“zhurongji”,检索结果会提示:您要找的是不是: 朱鎔基。,D、错别字提示 由于汉字输入法的局限性,用户在搜索时经常会输入一些错别字,导致搜索结果不佳。百度会给出错别字纠正提示。错别字提示显示在搜索结果上方。,例如:输入“唐醋排骨”。 检索结果会提示:您要找的是不是: 糖醋排骨。,E、英汉互译词典 随便输入一个英语单词,或者输入一个汉字词语,留意一下搜索框上方多出来的词典提示。如,搜索“apple”,点击结果页上的“词典”链接,就可以得到高质量的翻译结果。百度的线上词典不但能翻译普通的英语单词、词组、汉字词语,甚至还能翻译常见的成语!可以通过“百度词典搜索”界面(/search/dict.html)直接使用英汉互译功能。,F、计算器和度量衡转换 百度网页搜索内嵌的计算器功能,则能快速高效的解决用户的计算需求。用户只需简单的在搜索框内输入计算式按回车即可。如果用户要搜的是含有数学计算式的网页,而不是做数学计算,点击搜索结果上的表达式链接,就可以达到目的。在百度的搜索框中,用户也可以做度量衡转换。格式:换算数量换算前单位?换算后单位。,例如:输入检索式“-5摄氏度=?华氏度”, 按回车后可得到结果:“-5摄氏度 = 23华氏度”。,Yahoo!,Yahoo!源于1994年4月美国斯坦福大学电机工程系的博士生大卫费罗(David Filo)和美籍华裔杨致远(Jerry Yang)编制的Internet站点目录,1995年成立了Yahoo!公司。如今,Yahoo!不仅是一个以分类目录、网站检索为主,附带网页全文检索的搜索引擎,还推出了许多其他的网上服务项目,如聊天、拍卖、购物、股市行情、网上商店,个人免费电子信箱、游戏等。,Yahoo! 分类目录查询 Yahoo是Internet上最常用的一个信息查询工具,尽管大多数人称其为搜索引擎,可本质上,Yahoo!是一个分类目录。虽然它也提供检索功能,但它反馈给用户的并非直接的目标页面地址(链接点),而是一步步引导用户抵达所需主题目录。Yahoo!拥有第一流的Web目录和最佳的新闻链接以及许多附加服务。Yahoo!主页中给出的目录称为主目录,每一主目录又下设众多子目录,子目录下再子子目录等等,目录总达25,000个之多。,基本检索,Yahoo! 分类目录查询 用户查询时,通过目录子目录层层点击,最后得到一个与特定主题相关的实际网页的列表,站点名称旁边的墨镜图标表示是比较好的站点。类目名称旁的数字表示该主题类目下有多少个实际网页与之相连,分类类目后面的表示该主题类目会同时出现在多个Yahoo!分类类目下面。 如:“时尚”这个类目会同时被放在“艺术”和“社会与文化”的类目下,“音乐剧”会被放在“音乐”和“戏剧”的不同类目下,用户只您点击这个含有“”的类目,就会链接至Yahoo! 的其它相关类目。,基本检索,Yahoo! 检索方法 Yahoo!提供简单检索和高级检索两种搜索方式。简单检索就是Yahoo!的主页。在任一个返回的查询结果页的顶部和底部,都有一个检索输入框。可以在输入框内输入想要找的检索词或检索式,单击右侧的“Search”按钮后,返回的是一页与检索词匹配的记录列表,最前面的是Yahoo!目录链(Category),其后分别是以链接形式出现的Yahoo!网站标题(Title)、简介(Description)和URL。如果在Yahoo!目录和网站中都没有相匹配的内容,Yahoo!则自动利用其内置的查询机制进行整个WEB范围的文档查找。,基本检索,Yahoo! 检索方法 Yahoo!高级检索可构造更精确的检索要求,得到更具体结果。 在高级检索界面,输入关键词后在右侧的选择框中选择检索的范围Yahoo!索引库(基本检索中默认的检索范围)、新闻(News)、新闻组(Usenet)、拍卖(Auction)或黄页(Yellow Pages)等。,高级检索,高级检索,包含或排除检索(加减检索) 检索式中设定所检信息中包含某词或不含某词,所用符号分别为“+”和“”。如+Info
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 行业学院科研管理办法
- 财务共享时效管理办法
- 讲师俱乐部管理办法
- 业务资金结算管理办法
- 2025年霍尔汽车点火系统合作协议书
- 电气实训室管理办法
- 虚拟高校分部管理办法
- 中小创业团队管理办法
- 西藏用人风险管理办法
- 规范作业管理暂行办法
- GB/T 20801.6-2020压力管道规范工业管道第6部分:安全防护
- GB/T 19355.2-2016锌覆盖层钢铁结构防腐蚀的指南和建议第2部分:热浸镀锌
- 主编-孙晓岭组织行为学-课件
- 核心素养视角下教师专业发展课件
- 企业信用信息公告系统年度报告模板:非私营其他企业
- 施工员钢筋工程知识培训(培训)课件
- 质量管理体系审核中常见的不合格项
- 共用水电费分割单模板
- 《阿房宫赋》全篇覆盖理解性默写
- 学校体育学(第三版)ppt全套教学课件
- NCStudioGen6A编程手册
评论
0/150
提交评论