《网络信息检索工具》PPT课件.ppt_第1页
《网络信息检索工具》PPT课件.ppt_第2页
《网络信息检索工具》PPT课件.ppt_第3页
《网络信息检索工具》PPT课件.ppt_第4页
《网络信息检索工具》PPT课件.ppt_第5页
已阅读5页,还剩102页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

,网络信息检索工具搜索引擎主讲人:刘进军,你的搜商够高吗?,成功=智商+情商+搜商?,主要内容,第一节搜索引擎概述第二节常用搜索引擎技巧分析,第一节搜索引擎概述,一、搜索引擎的产生,搜索引擎是一种网络信息资源检索工具,是以各种网络信息资源为检索对象的查询系统。它像一本书的目录,Internet各个站点的网址就像是页码,可以通过关键词或主题分类的方式来查找感兴趣的信息所在的WEB页面。,二、搜索引擎的概念,三、搜索引擎的工作原理,用户界面,挖掘,利用能够从互联网上自动收集网页的Spider系统程序,自动访问互联网,并沿着任何网页中的所有URL爬到其它网页,重复这过程,并把爬过的所有网页收集回来。,从互联网上采集信息,由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息(包括网页所在URL、编码类型、页面内容包含的关键词、关键词位置、生成时间、大小、与其它网页的链接关系等),根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面内容中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。,建立索引数据库,当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。因为所有相关网页针对该关键词的相关度早已算好,所以只需按照现成的相关度数值排序,相关度越高,排名越靠前。最后,由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。,在索引数据库中搜索排序,四、搜索引擎的分类,根据信息覆盖范围及适用用户群分类(1)综合性搜索引擎如:Baidu、Google、Yahoo、AltaViasta、Infoseek(2)专用性搜索引擎如:Scirus科学搜索引擎、Softseek提供软件查找,MapBlast查找地图信息。,五、搜索引擎的作用,1.生活查新闻例子:2009诺贝尔奖2.学习如:查字例子:炅(日字下面一个火怎么读)如:查论文3.娱乐下载歌曲、电影,想一想:你用过哪些搜索引擎?,第二节常用搜索引擎技巧分析,第二节常用搜索引擎技巧分析,PK,百度,全球最大的中文搜索引擎、最大的中文网站。2000年1月创立于北京中关村。百度搜索引擎具有高准确性、高查全率、更新快以及服务稳定的特点。,一、百度(),(一)概况,1、Baidu的常用搜索技巧(1)以空格表示逻辑“与”在百度查询时不需要使用符号“AND”或“+”,百度会在多个以空格隔开的词语之间自动添加“+”。如:“云南旱灾图片”(2)以“-”表示逻辑“非”百度支持“-”功能,用于有目的地删除某些无关网页,但减号之前必须留一空格。例如:图书馆-公共图书馆,(二)检索方法与技巧,(3)以“|”表示逻辑“或”使用“A|B”来搜索“或者包含词语A,或者包含词语B”的网页。如:毛泽东|毛主席,(4)intitle:在网页标题中搜索在一个或几个关键词前加“intitle:”,可以限制只搜索网页标题中含有这些关键词的网页。如:intitle:上海世博会,利用intitle查找论文直接找特定论文除了找论文网站,我们也可以直接搜索某个专题的论文。看过论文的都知道,一般的论文,都有一定的格式,除了标题、正文、附录,还需要有论文关键词,论文摘要等。其中,“关键词”和“摘要”是论文的特征词汇。而论文主题,通常会出现在网页标题中。例:关键词摘要intitle:信息系统,用intitle语法查询别人的收藏夹IE浏览器的收藏夹导出后,网页的标题(title)是bookmarks。百度的intitle语法可以把搜索范围限定在网页标题内。所以,用intitle语法可以查询别人的收藏夹,结果应该都是精品,没有哪个人会把垃圾放到自己收藏夹的。实例:小说intitle:bookmarks查找小说的精彩站点,(5)Inurl,url是UniformResourceLocator(统一资源定位符)的缩写,简单地说,就是地址栏里的东西。格式:关键词Ainurl:关键词B(关键词A与inurl之间要用空格隔开)意思是在url中含有关键词B的网页中,寻找关于关键词A的信息。,这句话说的好,“网页url中的某些信息,常常有某种有价值的含义”。只要善于观察,多多使用,你就会发现inurl语法非常有用。,例1:找关于photoshop的使用技巧,可以这样查询:photoshopinurl:jiqiao上面这个查询串中的“photoshop”,是可以出现在网页的任何位置,而“jiqiao”则必须出现在网页url中。注意,inurl:语法和后面所跟的关键词,不要有空格。,输入检索词,问情inurl:mp3搜索戏说乾隆的主题曲inurl:liyuchun查找李宇春的信息第一章inurl:lianchengjue查询小说连城诀,(6)site的用法,有时候,您如果知道某个站点中有自己需要找的东西,就可以把搜索范围限定在这个站点中,提高查询效率。注意,“site:”后面跟的站点域名,不要带“http:/”;另外,site:和站点名之间,不要带空格。,在著名的软件下载站找软件由于网站质量参差不齐,下载速度也快慢不一。如果我们积累了一些好用的下载站(如天空网,华军网,电脑之家等),就可以用site语法把搜索范围局限在这些网站内,以提高搜索效率。例:网际快车site:,cnkikwsite:在教育网内搜索cnkikw摄影site:在hao123中找摄影的网站,(6)“开始连接”、“正在连接”搜索免费电影,网络上有很多热心人提供免费电影的下载地址。为了表明真实可靠,把下载过程也同时附上。现在最流行的下载工具是flashget和迅雷。Flashget下载开始就是“正在连接”,迅雷则是“开始连接”。所以,可以用想找的电影名字,加上“开始连接”或者“正在连接”,来寻找免费电影。检索式形式如:“电影名开始连接”、电影名正在连接”、“电影名(开始连接|正在连接)”举几个例子:哈利波特4开始连接阿育王(正在连接|开始连接),(7)查找论坛版块,检索式形式如:论坛版块名称实例:知网免费帐号,2.Baidu的特色搜索,(1)百度快照百度搜索引擎已先预览各网站,拍下网页的快照,为用户贮存大量的应急网页。点击每条搜索结果后的“百度快照”,可查看该网页的快照内容。以搜索“甲型h1n1流感”为例。,百度支持对Office文档(包括Word、Excel、Powerpoint)、AdobePDF文档、RTF文档进行了全文搜索。要搜索这类文档,在普通的查询词后面,加一个“filetype:”。“Filetype:”后可以跟以下文件格式:DOC、XLS、PPT、PDF、RTF、ALL。其中,ALL表示搜索所有这些文件类型。,(2)专业文档搜索(),如:查找关于网络技术的课件格式:网络技术filetype:ppt如:查找关于互联网的调查报告互联网调查报告filetype:doc,如果输入的查询词很长,百度在经过分析后,给出的搜索结果中的查询词,可能是拆分的,给查询词加上双引号,就可以达到这种效果。例如,搜索京师范大学研究生院,加上双引号后,输入“北京师范大学研究生院”,获得的结果就全是符合要求的了。,(3)精确匹配双引号和书名号,书名号是百度独有的一个特殊查询语法。加上书名号的查询词,有两层特殊功能:一是书名号会出现在搜索结果中;二是被书名号扩起来的内容,不会被拆分。例如;查电影“手机”,如果不加书名号,很多情况下出来的是通讯工具手机,而加上书名号后,手机结果就都是关于电影方面的了。查找图书的时候推荐使用,如说服力:让你的PPT会说话,(4)百度国学(),百度国学是百度与国学公司合作推出的针对中国传统文化方面的专业搜索,提供了大量的丰富的古典名著、历史资料、人名书名等,所有在线资源都是免费的。提供上起先秦,下至清末历代文化典籍的检索和阅读;包括经、史、子、集、蒙学及其他。,(5)手写输入,百度更多功能贴吧搜索MP3搜索百度知道百度百科视频搜索图片搜索百度文库,(一)概况特点:世界上第一大的网络搜索引擎;有庞大的数据库;用户界面相当好;并且具有一定的大写、名词识别能力的快速搜索引擎。口号:确解用户之意,切返用户之需,二、Google(.hk/),(二)GOOGLE一般搜索技术,1.默认模糊搜索、默认拆分语句和过长的短语2.如何精确搜索(短语搜索)3.通配符*用法4.点号匹配任意字符:.5.布尔逻辑与:空格、AND或:OR、|非:-(减号)6.约束条件:+7.同义词:8.数字范围:.9.括号:(),需要注意的是,所有的搜索语法和搜索符号必须是半角状态(即英文输入模式)。很多搜索语法也可以通过谷歌网页搜索之高级搜索来实现,在谷歌首页点击“高级”即可进入高级搜索界面。,1.默认模糊搜索、默认拆分语句和过长的短语,实例:【市场研究报告】,自动拆分为市场研究、市场、研究等。,2.如何精确搜索(短语搜索“”),市场研究报告,3.通配符*用法通配符是星号“*”,必须在精确搜索符双引号内部使用。用通配符代替关键词或短语中无法确定的字词。,搜索市场调查研究报告、市场年度研究报告等内容时:市场*研究报告,搜索歌词:Ibe*waitingforyou,搜索诗句:解落*秋叶,搜索英文的多种形态,如comput、computing等:comput*,4.点号匹配任意字符(也可不用引号)与通配符星号“*”不一样的是,点号“.”匹配的是字符,不是字、短语等内容。保留的字符有、(、-等,搜索有关中国的各种大全:“大全.中国”,或者不要精确搜索的双引号。百度支持不明显。,5.布尔逻辑布尔逻辑是许多检索系统的基本检索技术,在搜索引擎中也一样适用,在谷歌网页搜索中需要注意的是:谷歌和许多搜索引擎一样,多个词见的逻辑关系默认的是逻辑与(空格)。当用逻辑算符的时候,词与逻辑算符之间用需要空格分隔,包括后面讲的各种语法,均要有空格。逻辑非是特例,即减号必须与对应的词连在一起。对于复杂的逻辑关系,可用括号分组。逻辑与:用空格或AND逻辑或:|或OR逻辑非:-,搜索电子行业的研究报告:电子行业AND研究报告,搜索电子行业的人才或风险方面的研究报告:电子行业AND研究报告AND(人才|风险),搜索电子行业的人才或风险方面的研究报告,但不要2007年的:电子行业AND研究报告AND(人才|风险)-2007,6.加号“+”用于强制搜索,即必须包含加号后的内容。一般与精确搜索符一起应用,研究报告+学术信息资源开放目录,7.同义词(仅限于英文搜索。一般来说,加符号会比不加搜索出来的多一些。),PC,8.数字范围(.)一般应用于日期、货币、尺寸、重量、高度等范围的搜索。用作范围时最好给一定的含义。百度不支持。,奥运会1980.2004,格力空调.2800,(格力空调|海尔空调)元2800.,9.括号分组:逻辑组配时分组,避免逻辑混乱。括号“()”是分组符号,(三)高级搜索语法,高级搜索语法之一1.intitle、allintitle:搜索范围限制在网页的标题2.intext,allintext:搜索范围限制在网页中的正文中搜索3.inurl、allinurl:搜索范围限制在URL4.inanchor、allinanchor:搜索范围限制在页面的链接锚点描述文本进行搜索。5.insubject:主题搜索,1.intitle:搜索范围限制在网页的标题,Intitle:市场研究报告,2.intext:搜索范围限制在网页中的正文,Intext:市场研究报告,3.网址中搜索:inurlinurl是In-系指令中最强大的一个,换句话说,这个高级指令能够直接从网站的URL入手挖掘信息,只要略微了解普通网站的URL格式,就可以极具针对性地找到你所需要的资源甚至隐藏内容。网站构建者通常将某一类信息集中在一个网站的目录中,所以搜索URL中的词本身就是对某一方面内容的一个限定。如果在加上一定的词进行组配,搜索结果将更贴近需求。,搜索音乐inurl:mp3毕业生,在所有网络地址中包含“mp3”的页面中搜索“毕业生”。这个时候返回的“毕业生”肯定是音乐,而不是关于“毕业生”的其它话题。Google中搜索音乐的另一有效方式是MP3可以替换为wma/rm等。,搜索电子论文搜索有关InformationRetrieval的电子论文(通常这类搜索结果能直接下载全文)。inurl:eprintInformationRetrieval,搜索软件inurl:downloadqq,直接查找QQ软件的下载页面。,高级搜索语法之二,info:进入某URL更多信息的引导页面通过这个语法能将网页的快照信息、网页链接情况、被链接情况和类似网页的信息供选择浏览。查看样例:【info:】,info语法是其它几个语法的集合:cache:搜索谷歌缓存的页面related:相关网页link:搜索所有链接到某个特定URL上的页面列表site:搜索范围限制在某网站或域名中。,cache,related,link,site,info:,搜索我国教育科研网中关于“医药”的信息,比如医药院校或专业的信息等。这样能排除很多医药领域的公司信息。医药site:,高级搜索语法之三,filetype:根据文件后缀搜索特定文件类型(Google已经可以支持13种非HTML文件的搜索。除了PDF文档,Google现在还可以搜索MicrosoftOffice(doc,ppt,xls,rtf)、ShockwaveFlash(swf)、PostScript(ps)和其它类型文档。)define:搜索定义,filetype:根据文件后缀搜索特定文件类型,define:搜索定义,高级搜索语法之四:混合使用搜索技术,混合使用情况:缩小搜索范围最好的选择:混合使用intitle、site如:intitle:自动化site:限定搜索特定类别的信息:inurl限定如:等爱的玫瑰inurl:mp3搜索网站内的文档(一网打尽!):filetype与site如:电子图书filetype:pptsite:,什么情况下不混合使用不混合使用有抵消的搜索【知识管理site:-inurl:edu】不要重复使用同一语法结构【知识管理site:cnsite:com】,但是这样可以【知识管理(site:cn|site:com)】在混合使用语法时,不要用别名如allinurl、allintitle不要使用过多的语法将搜索结果限制得特别狭窄,采取逐步增加限制的方法,一般不要一步到位做很多限制。,(四)有趣或有用的搜索功能,1.假日图标谷歌每逢节假日、纪念日或重大事件,会更改首页图标以示纪念。谷歌假日图标从1999至今的链接:,3.手气不错在GOOGLE首页,有“手气不错”这个按钮,当你输入搜索词后,若按“手气不错”会直接得到GOOGLE认为最相关的网站,试一试【www】【web】,或者你的名字、感兴趣的字词看看,都链接到什么网站上去了。如“湘潭大学”,4.计算数字直接在GOOGLE网页搜索输入框中输入算式进行计算,除法是“/”,乘法是“*”。用惯了网络的人,会觉得比掏出手机来按按钮要爽。如:(4*6+6)/2,5.翻译功能,你懂英文,但是你不见得就懂德文、法文、拉丁文。Google提供了网页翻译功能。如果你安装了“google工具条”,翻译功能的使用更好。可以屏幕取词翻译。如“informationmanagementandinformationsystem”,GOOGLE工具条,翻译网页,6.学术搜索,定位:专门面向学术资源的免费搜索工具搜索结果:论文、图书、预印本、摘要、技术报告等。信息来源:合作伙伴(ACM、IEEE、Nature、OCLC等);互联网,2006年1月11日,Google公司宣布将(GoogleScholar)扩展至中文学术文献领域,推出面向中文的Google学术搜索服务。搜索结果:论文、图书

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论