




已阅读5页,还剩84页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
,1,搜索引擎的检索方法与技巧以google和百度为例,吴爱民图书馆信息部2013年06月,2,为什么使用搜索引擎,2012年8月1日,CNNIC发布了最新的2009年中国搜索引擎用户行为研究报告。报告中显示,截至2012年8月底,中国搜索引擎用户规模达到4.51亿人。,3,中国搜索引擎用户规模和使用率,4,搜索引擎的用户感受,5,6,搜索引擎的应用现状,从用户使用的角度,国外的调查发现:网上搜索信息的人很少考虑如何找到他们所需要的信息,因此搜索信息时象动物猎食般盲目;只有18%的用户表示总能在网上搜索到需要的信息。68%的用户说他们对搜索引擎很失望;平均每个搜搜者在12分钟的徒劳搜索后就感到恼火和受挫。46%的人只会用同一个关键词搜啊搜啊,而且是在同一个搜索引擎。,7,国外的应用状况,那些每周平均花5个小时以上时间上网的人,将其上网时间的71%都花在了搜索引擎上;人机界面高手nielsen(google的设计者)研究表明:略超过1/2的互联网用户属于search-dominant,约1/5用户属于link-dominant,其它用户的搜索倾向属于混合行为型。search-dominant在到达一个网站后直接就奔向搜索按钮,他们对浏览网站不感兴趣,他们有明确的目的,倾向于以最快速度找到信息。相反,link-dominant喜欢点击浏览一个网站,即使他们想找特殊信息时也是这样,只有在他们用点击超链的方法已经实在找不到了,才会想起搜索按钮。,8,什么是搜索引擎,搜索引擎其实也是一个网站,只不过该网站专门为你提供信息“检索”服务搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。搜索引擎包括全文索引、目录索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、门户搜索引擎与免费链接列表等。,9,值得推荐的几个中文搜索引擎,全文搜索衡量搜索引擎的指标:查全率查准率速度哪个重要?Google:(需要出国访问权限)新浪使用了它的全文搜索引擎服务说明:这是2004年4月的情形,各大门户网站使用的搜索引擎服务经常会变化,留意Poweredby百度:,10,搜索引擎的分类及原理,按照信息搜集方法和服务提供方式的不同,搜索引擎系统可以分为三大类:1目录式搜索引擎:以人工方式或半自动方式搜集信息,由编辑员查看信息之后,人工形成信息摘要,并将信息置于事先确定的分类框架中。信息大多面向网站,提供目录浏览服务和直接检索服务。该类搜索引擎因为加入了人的智能,所以信息准确、导航质量高,缺点是需要人工介入、维护量大、信息量少、信息更新不及时。这类搜索引擎的代表是:Yahoo、LookSmart、OpenDirectory、GoGuide等。,11,搜索引擎分类,2机器人搜索引擎:由一个称为蜘蛛(Spider)的机器人程序以某种策略自动地在互联网中搜集和发现信息,由索引器为搜集到的信息建立索引,由检索器根据用户的查询输入检索索引库,并将查询结果返回给用户。服务方式是面向网页的全文检索服务。该类搜索引擎的优点是信息量大、更新及时、毋需人工干预,缺点是返回信息过多,有很多无关信息,用户必须从结果中进行筛选。这类搜索引擎的代表是:AltaVista、NorthernLight、Excite、Infoseek、Inktomi、FAST、Lycos、Google;国内代表为:天网、悠游、OpenFind等。,12,分类,3元搜索引擎:这类搜索引擎没有自己的数据,而是将用户的查询请求同时向多个搜索引擎递交,将返回的结果进行重复排除、重新排序等处理后,作为自己的结果返回给用户。服务方式为面向网页的全文检索。这类搜索引擎的优点是返回结果的信息量更大、更全,缺点是不能够充分使用所使用搜索引擎的功能,用户需要做更多的筛选。这类搜索引擎的代表是WebCrawler、InfoMarket等。,13,主要技术,一个搜索引擎由搜索器、索引器、检索器和用户接口等四个部分组成。搜索器搜索器的功能是在互联网中漫游,发现和搜集信息。它常常是一个计算机程序,日夜不停地运行。它要尽可能多、尽可能快地搜集各种类型的新信息,同时因为互联网上的信息更新很快,所以还要定期更新已经搜集过的旧信息,以避免死连接和无效连接。,14,索引器,2.索引器索引器的功能是理解搜索器所搜索的信息,从中抽取出索引项,用于表示文档以及生成文档库的索引表。索引项有客观索引项和内容索引项两种:客观项与文档的语意内容无关,如作者名、URL、更新时间、编码、长度、链接流行度(LinkPopularity)等等;内容索引项是用来反映文档内容的,如关键词及其权重、短语、单字等等。内容索引项可以分为单索引项和多索引项(或称短语索引项)两种。单索引项对于英文来讲是英语单词,比较容易提取,因为单词之间有天然的分隔符(空格);对于中文等连续书写的语言,必须进行词语的切分,15,检索器和用户接口,3.检索器检索器的功能是根据用户的查询在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制。检索器常用的信息检索模型有集合理论模型、代数模型、概率模型和混合模型四种。4.用户接口用户接口的作用是输入用户查询、显示查询结果、提供用户相关性反馈机制。主要的目的是方便用户使用搜索引擎,高效率、多方式地从搜索引擎中得到有效、及时的信息。用户接口的设计和实现使用人机交互的理论和方法,以充分适应人类的思维习惯。,16,搜索引擎示意,Google服务器,Google工作电脑,Google爬虫,网页,Google存储系统,17,提纲1、Google简介2、Goolge功能与特色3、网页搜索技巧4、其它特色服务与功能略解,18,Google是一个搜索引擎,由两个斯坦福大学博士生LarryPage与SergeyBrin于1998年9月发明,GoogleInc.于1999年创立。2000年7月份,Google替代Inktomi成为Yahoo公司的搜索引擎,同年9月份,Google成为中国网易公司的搜索引擎。98年至今,Google已经获得30多项业界大奖。,一、Google简介,19,20,21,22,23,全球英文网站,24,Google英文网站服务项目,25,中文网站,.hk,26,中文网站,27,100亿个网页支持多达132种语言,包括简体中文和繁体中文;提供搜索引擎功能,没有花里胡哨的累赘;速度极快,据说有8000多台服务器,200多条T3级宽带;专利网页级别技术PageRank能够提供高命中率的搜索结果;搜索结果摘录查询网页的部分具体内容,而不仅仅是网站简介;智能化的“手气不错”功能,提供可能最符合要求的网站;“网页快照”功能,能从Google服务器里直接取出缓存的网页。,二、Google功能与特色,28,Google常用工具,29,“+”或空格表示逻辑“与”操作(A、B同时有)“-”表示逻辑“非”操作,减号前留一空格(A-B)“OR”表示逻辑“或”操作(A或B只要其一)OR要大写,三、网页搜索技巧,其它小技巧,1、简单搜索,30,不支持通配符,如“*”、“?”英文字符大小不分词组或句子作关键词须加引号,通配符、大小写、句子,31,搜索所有网页,32,33,34,找到最相关的网页,35,36,搜索设置,37,语言工具,38,2、高级搜索,39,40,3.搜索实例,1)何谓“冬虫夏草”,简单界面直接输入,点击手气不错,41,3.搜索实例,2)“松香毛有毒”,简单界面直接输入,点击手气不错,42,3.搜索实例,3)查找元数据规范文档资料,43,3.搜索实例,4)查找虚拟参考咨询课件,44,四、其它主要特色服务与功能略解,网页搜索特色,其它:分类目录、新闻、论坛、专家咨询.略,45,4.1,46,47,48,49,简单运算,邮政区号,名词概念定义,手机归属地,4.2,50,4.3,51,52,53,输入检索词,54,找什么,在哪儿,4.5,55,56,57,58,4.6,59,60,免费浏览图书内容目次,交费后可阅读全文,直接链接网上书店,61,62,百度,63,李彦宏,徐勇,64,百度,2000年1月创立于北京中关村,是全球最大的中文搜索引擎。2000年1月1日,公司创始人李彦宏、徐勇携120万美元风险投资,从美国硅谷回国,创建了百度公司。2000年5月,百度首次为门户网站硅谷动力提供搜索技术服务,之后迅速占领中国搜索引擎市场,成为最主要的搜索技术提供商。2001年8月,发布B搜索引擎Beta版,从后台服务转向独立提供搜索服务,并且在中国首创了竞价排名商业模式,2001年10月22日正式发布Baidu搜索引擎。2005年8月5日,百度在美国纳斯达克上市。,概况,65,“百度”二字取自辛弃疾的青玉案“众里寻她千百度”。现在百度已成为世界上最大的中文搜索引擎,用户能够访问超过10亿的中文网页.,特点,66,67,网页搜索功能,百度快照相关搜索拼音提示错别字提示英汉互译词典计算器和度量衡转换专业文档搜索股票、列车时刻表和飞机航班查询高级搜索语法高级搜索、地区搜索和个性设置天气查询,68,百度快照,每个被收录的网页,在百度上都存有一个纯文本的备份,称为“百度快照”。百度速度较快,您可以通过“快照”快速浏览页面内容。如果无法打开某个搜索结果,或者打开速度特别慢,“百度快照”能帮您解决问题。,69,相关搜索,搜索结果不佳,有时候是因为选择的查询词不是很妥当。您可以通过参考别人是怎么搜的,来获得一些启发。百度的“相关搜索”,就是和您的搜索很相似的一系列查询词。百度相关搜索排布在搜索结果页的下方,按搜索热门度排序。,70,71,专业文档搜索,很多有价值的资料,在互联网上并非以普通的网页形式出现,而是以Word、PowerPoint、PDF等文档格式存在。百度支持对Office文档(包括Word、Excel、PowerPoint)、AdobePDF文档、RTF文档的全文搜索。方法为在搜索的关键词后面加一个“filetype:”文档类型限定。“filetype:”后可以跟以下文件格式:DOC、XLS、PPT、PDF、RTF、ALL。其中,ALL包含所有文件类型。,72,73,高级搜索,把搜索范围限定在网页标题中intitle标题通常是对网页内容提纲挈领式的归纳。把查询内容范围限定在网页标题中,有时能获得良好的效果。,74,75,高级搜索,把搜索范围限定在特定站点中site有时候,您如果知道某个站点中有自己需要找的东西,就可以把搜索范围限定在这个站点中,提高查询效率。使用的方式,是在查询内容的后面,加上“site:站点域名”。,76,77,高级搜索,把搜索范围限定在url链接中inurl网页url中的某些信息,常常有某种有价值的含义。于是,您如果对搜索结果的url做某种限定,就可以获得良好的效果。实现的方式,是用“inurl:”,后跟需要在url中出现的关键词,78,79,高级搜索,精确匹配双引号和书名号如果输入的查询词很长,百度给出的搜索结果中的查询词可能是拆分的。如果给查询词加上双引号,就可以精确检索。被书名号扩起来的内容,也不会被拆分,比如,查电影“手机”,如果不加书名号,很多情况下出来的是通讯工具手机,而加上书名号后,手机结果就都是关于电影方面的了。,80,81,高级搜索,要求搜索结果中不含特定查询词减号-如果您发现搜索结果中,有某一类网页是您不希望看见的,那么用减号语法,就可以去除所有这些含有特定关键词的网页。注意,前一个关键词,和减号之间必须有空格,否则,减号会被当成连字符处理,而失去减号语法功能。,82,83,为什么搜索引擎搜不到?,有些内容,网上明明存在,但是用搜索引擎搜不到。如果事先理解搜索引擎能做的和不能做的,就可以设计更佳的搜索策略。而搜索之前思考一下搜索策略,是搜索成功最关键的一步。这样的内容,主要有3类:1、网上有,但是搜索引擎库里没有spider未能正确处理的网页性质及文件类型(如某些动态网页及frame、数据库)没有指向链接的孤岛网页spider访问时因为某些原因正好是死链接被认为是劣质网页而不抓因为/色情/反动/spam/等问题而不抓的非法网页需要输入用户名、密码方可打开的网页网站用robots协议拒绝搜索引擎抓取的网页搜索引擎还未来得及抓取的新网页,84,为什么搜不到?-之二,2、搜索引擎库里有,但是未能正确索引网页中信息分词引起误差图型中的文字信息你看得懂但搜索引擎看不懂停用词等搜索引擎故意不索引的信息搜索引擎对某些网页有选择的索引,未索引全部网页信息3、搜索引擎正确索引了网页中信息,但和你用的关键词不同你用的搜索关键词中含有错别字网页作者用了错别字没有错别字,但网页作者用的词汇和你的关键词不同,毕竟,文字的特性,允许有n种方式表达同一种信息简体繁体不同编码,85,用户自己的错误,初学者搜索时容易犯的6个低级错误和解决方法常见错误1:错别字经常发生的一种错误是,你输入的关键词含有错别字,改正了就好。常见错误2:关健词太常见搜索引擎对常见词的搜索存在缺陷,因为这些词曝光率太高了,以至于出现在成百万网页中,使得它们事实上不能被用来帮你找到什么有用的内容。比如说搜索“电话”。常见错误3:多义词要小心使用多义词,比如搜索“java”,你要找的信息究竟是太平洋上的一个岛、一种著名
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 谱细胞抗体鉴定技术体系
- 秦汉时期名医成就与医学发展
- 先进特钢制造技术
- 我的秘密课文讲解
- 汽车设计核心要点解析
- 牙周病检查与诊断技术
- 软件销售年度汇报
- 人体器官大脑讲解
- 人工智能算法核心功能使用方法详解
- 胸心外科诊疗指南解读
- GB/T 8243.14-2020内燃机全流式机油滤清器试验方法第14部分:复合材料滤清器的冷起动模拟和液压脉冲耐久试验
- GB/T 20470-2006临床实验室室间质量评价要求
- 加强即时检测的临床应用管理
- 《大学》教学讲解课件
- DB32∕T 4108-2021 混凝土复合保温砌块(砖)墙体自保温系统应用技术规程
- 第六章第二节供应过程的核算课件
- 三甲医院医疗退费管理制度
- 数学人教A版(2019)选择性必修第一册2.5.1 直线与圆的位置关系 教案
- J-STD-020D[1].1中文版
- SF∕T 0124-2021 录像过程分析技术规范
- 四讲业主业主大会业主委员会PPT课件
评论
0/150
提交评论