第三讲_网络搜索引擎及其方法.ppt_第1页
第三讲_网络搜索引擎及其方法.ppt_第2页
第三讲_网络搜索引擎及其方法.ppt_第3页
第三讲_网络搜索引擎及其方法.ppt_第4页
第三讲_网络搜索引擎及其方法.ppt_第5页
已阅读5页,还剩96页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

科技文献检索与网络利用,李渊2008-02,课程回顾,科技文献检索的基本原理分类语言&主题语言检索方法、检索技术BAIDUGOOGLE.,思考题,1.利用中文核心期刊要目总览(2004年版)查找本专业核心期刊名称,并查找本专业的核心期刊有哪些能在我馆提供阅览的纸质期刊中找到?2.查找(四版)简表,找到本专业所在类目,并记下大类号。并查找本专业的图书能在我馆几楼书库找到?,1.文献检索原理在文献的存储过程中,对每一篇文献进行分析、著录,赋予特定的标识,并将某种标识按照一定的检索语言集中组织,成为有规律的检索系统。,主题语言与分类语言的比较,主题语言,分类语言,检索功能,侧重于特性检,索,侧重于族性,检索,检索标识,主题词文字,符号,分类号数,码符号,排列方式,字顺排列,等级排列,检索方法追溯法常用法循环法,检索技术利用计算机检索系统,检索有关信息而采用的相关技术。,逻辑算符位置算符截词符字段限定检索加权检索,(f)算符Field:要求被连接的检索词出现在同一字段中,字段类型和词序均不限。(s)算符Sub-field/Sentence:要求被连接的检索词出现在同一句子(同一子字段)中,词序不限,第三讲网络搜索引擎及其方法,示例1:搜索结果要求包含两个及两个以上关键字现在,我们需要了解一下搜索引擎的历史,因此期望搜得的网页上有“搜索引擎”和“历史”两个关键字。,问题1:查看一下搜索结果,发现前列的绝大部分结果还是不符合要求,大部分网页涉及的“历史”,并不是我们所需要的“搜索引擎的历史”。怎么办呢?删除与搜索引擎不相关的“历史”。我们发现,这部分无用的资讯,总是和“文化”这个词相关的,另外一些常见词是“中国历史”、“世界历史”、“历史书籍”等。,方法1:搜索结果要求不包含某些特定信息Google用减号“-”表示逻辑“非”操作。“AB”表示搜索包含A但没有B的网页。示例:搜索所有包含“搜索引擎”和“历史”但不含“文化”、“中国历史”和“世界历史”的中文网页搜索:“搜索引擎历史-文化-中国历史-世界历史”,注意:这里的“”和“-”号,是英文字符,而不是中文字符的“”和“”。此外,操作符与作用的关键字之间,不能有空格。比如“搜索引擎-文化”,搜索引擎将视为关键字为“搜索引擎”和“文化”的逻辑“与”操作,中间的“-”被忽略。,问题2:忘记了完整的表述方法方法2:通配符很多搜索引擎支持通配符号,如“*”代表一连串字符,“?”代表单个字符等。Google对通配符支持有限。它目前只可以用“*”来替代单个字符,而且包含“*”必须用引起来。比如,“以*治国”,表示搜索第一个为“以”,末两个为“治国”的四字短语,中间的“*”可以为任何字符。,提示:关键字的字母大小写Google对英文字符大小写不敏感,“GOD”和“god”搜索的结果是一样的。,问题3:多重选择的搜索?方法3:搜索结果至少包含多个关键字中的任意一个Google用大写的“OR”表示逻辑“或”操作。搜索“AORB”,意思就是说,搜索的网页中,要么有A,要么有B,要么同时有A和B。,提示:“或”操作必须用大写的“OR”,而不是小写的“or”。,小结,搜索引擎最基本的语法“与”“非”和“或”,这三种搜索语法Google分别用“”(空格)、“-”和“OR”表示。顺着上例的思路,你也可以了解到如何缩小搜索范围,迅速找到目的资讯的一般方法:目标信息一定含有的关键字(用“”连起来),目标信息不能含有的关键字(用“-”去掉),目标信息可能含有的关键字(用“OR”连起来)。,1.对搜索的网站进行限制“site”表示搜索结果局限于某个具体网站或者网站频道,如“”、“”,或者是某个域名,如“”、“com”等等。示例:搜索中文教育科研网站()上关于搜索引擎技巧的页面。搜索:“搜索引擎技巧site:”,高级阶段,2.在某一类文件中查找信息“filetype:”是Google开发的非常强大实用的一个搜索语法。也就是说,Google不仅能搜索一般的文字页面,还能对某些二进制文档进行检索。目前,Google已经能检索微软的Office文档如.xls、.ppt、.doc,.rtf,WordPerfect文档,Lotus1-2-3文档,Adobe的.pdf文档,ShockWave的.swf文档(Flash动画)等。其中最实用的文档搜索是PDF搜索。PDF是ADOBE公司开发的电子文档格式,现在已经成为互联网的电子化出版标准。目前Google检索的PDF文档大约有2500万左右,大约占所有索引的二进制文档数量的80。PDF文档通常是一些图文并茂的综合性文档,提供的资讯一般比较集中全面。,示例:搜索几个资产负债表的Office文档。搜索:“资产负债表filetype:docORfiletype:xlsORfiletype:ppt”,3.搜索的关键字包含在URL链接中“inurl”语法返回的网页链接中包含第一个关键字,后面的关键字则出现在链接中或者网页文档中。有很多网站把某一类具有相同属性的资源名称显示在目录名称或者网页名称中,比如“MP3”、“GALLARY”等,于是,就可以用INURL语法找到这些相关资源链接,然后,用第二个关键词确定是否有某项具体资料。INURL语法和基本搜索语法的最大区别在于,前者通常能提供非常精确的专题资料。,示例:查找MIDI曲“沧海一声笑”。搜索:“inurl:midi“沧海一声笑”,4.图片搜索示例:查找新浪网上本拉登的图片搜索:“拉登OR拉丹site:”,今天你Google了吗?,截词检索技术主要应用于西文数字资源的检索,由于西文单词由字母组成,许多单词具有相同的词干,因此,截词检索是一种常用的检索方法.定义:就是用截断词的一个局部进行的检索,凡满足这个词局部中的所有字符(串)的文献,都为命中文献。作用:主要是提高查全率在不同的数据库和联机检索系统中,所使用的截词符号没有统一的标准,有的用“?”,有的用“*”,有的用“#”。,补充,EIcompendex数据库是目前全球最全面的工程领域二次文献数据库。,主要搜索引擎,百度,李彦宏,徐勇,百度,2000年1月创立于北京中关村,是全球最大的中文搜索引擎。2000年1月1日,公司创始人李彦宏、徐勇携120万美元风险投资,从美国硅谷回国,创建了百度公司。2000年5月,百度首次为门户网站硅谷动力提供搜索技术服务,之后迅速占领中国搜索引擎市场,成为最主要的搜索技术提供商。2001年8月,发布B搜索引擎Beta版,从后台服务转向独立提供搜索服务,并且在中国首创了竞价排名商业模式,2001年10月22日正式发布Baidu搜索引擎。2005年8月5日,百度在美国纳斯达克上市。,概况,“百度”二字取自辛弃疾的青玉案“众里寻她千百度”。现在百度已成为世界上最大的中文搜索引擎,用户能够访问超过10亿的中文网页.,特点,网页搜索功能,百度快照相关搜索拼音提示错别字提示英汉互译词典计算器和度量衡转换专业文档搜索股票、列车时刻表和飞机航班查询高级搜索语法高级搜索、地区搜索和个性设置天气查询,百度快照,每个被收录的网页,在百度上都存有一个纯文本的备份,称为“百度快照”。百度速度较慢,您可以通过“快照”快速浏览页面内容。如果无法打开某个搜索结果,或者打开速度特别慢,“百度快照”能帮您解决问题。,相关搜索,搜索结果不佳,有时候是因为选择的查询词不是很妥当。您可以通过参考别人是怎么搜的,来获得一些启发。百度的“相关搜索”,就是和您的搜索很相似的一系列查询词。百度相关搜索排布在搜索结果页的下方,按搜索热门度排序。,专业文档搜索,很多有价值的资料,在互联网上并非以普通的网页形式出现,而是以Word、PowerPoint、PDF等文档格式存在。百度支持对Office文档(包括Word、Excel、PowerPoint)、AdobePDF文档、RTF文档的全文搜索。方法为在搜索的关键词后面加一个“filetype:”文档类型限定。“filetype:”后可以跟以下文件格式:DOC、XLS、PPT、PDF、RTF、ALL。其中,ALL包含所有文件类型。,高级搜索,把搜索范围限定在网页标题中intitle标题通常是对网页内容提纲挈领式的归纳。把查询内容范围限定在网页标题中,有时能获得良好的效果。,高级搜索,把搜索范围限定在特定站点中site有时候,您如果知道某个站点中有自己需要找的东西,就可以把搜索范围限定在这个站点中,提高查询效率。使用的方式,是在查询内容的后面,加上“site:站点域名”。,高级搜索,把搜索范围限定在url链接中inurl网页url中的某些信息,常常有某种有价值的含义。于是,您如果对搜索结果的url做某种限定,就可以获得良好的效果。实现的方式,是用“inurl:”,后跟需要在url中出现的关键词,高级搜索,精确匹配双引号和书名号如果输入的查询词很长,百度给出的搜索结果中的查询词可能是拆分的。如果给查询词加上双引号,就可以精确检索。被书名号扩起来的内容,也不会被拆分,比如,查电影“手机”,如果不加书名号,很多情况下出来的是通讯工具手机,而加上书名号后,手机结果就都是关于电影方面的了。,高级搜索,要求搜索结果中不含特定查询词减号-如果您发现搜索结果中,有某一类网页是您不希望看见的,那么用减号语法,就可以去除所有这些含有特定关键词的网页。注意,前一个关键词,和减号之间必须有空格,否则,减号会被当成连字符处理,而失去减号语法功能。,Google搜索引擎诞生于斯坦福大学的一个学生宿舍里,然后迅速传播到全球的信息搜索者。Google目前被公认为万维网上最大的搜索引擎,它提供了简单易用的免费服务,使用户能够访问一个包含超过80亿个网址的索引。“Google”来自于数学名词“Googol”,Googol表示一个1后面跟着100个零。这一术语体现了公司整合网上海量信息的远大目标。,概况,Google技术,Google使用一组独特的高级硬件和软件,核心软件称为PageRank。作为组织管理工具,网页级别利用了互联网独特的民主特性及其巨大的链接结构。从网页A链接到网页B时,Google就认为“网页A投了网页B一票”。Google根据网页的得票数评定其重要性。除了考虑网页得票数(即链接)的纯数量之外,Google还要分析投票的网页,“重要”的网页所投出的票就会有更高的权重。与大多数其它搜索引擎的区别在于:Google只显示相关的网页,其正文或指向它的链接包含您所输入的所有关键词,而无须再受其它无关结果的烦扰。,Google的特殊功能,Flash文件,查找Flash文件,只需搜索“关键词filetype:swf”。Google已经可以支持13种非HTML文件的搜索。除了PDF文档,Google现在还可以搜索MicrosoftOffice(doc,ppt,xls,rtf)、ShockwaveFlash(swf)、PostScript(ps)和其它类型文档。新的文档类型只要与用户的搜索相关,就会自动显示在搜索结果中。,点击选中的链接,手气不错,按下“手气不错”按钮将自动进入Google查询到的第一个网页。您将完全看不到其它的搜索结果。使用“手气不错”进行搜索表示用于搜索网页的时间较少而用于检查网页的时间较多。例如,要查找Stanford大学的主页,只需在搜索字段中输入“Stanford”,然后单击“手气不错”按钮。Google将直接带您进入Stanford大学的官方主页。,错别字改正,Google的错别字改正软件系统会对输入的关键词进行自动扫描,检查有没有错别字。如果发现用其他字词搜索可能会有更好的结果,它能提供相应提示来帮助纠正可能有的错别字。例如,搜索“互连网”,Google会自动提示“您是不是要找:互联网”。如果您点击“互联网”,Google将以“互联网”作为关键词进行搜索。,手机号码,用Google查询手机电话号码归属地,您只需直接输入要查的号码即可(不需要任何关键词)。Google能自动识别以13开头的11位数字为手机号码而返回相关的网站链接,让您即刻便知道答案。,定义,要查看字词或词组的定义,只需键入“define”,接着键入一个空格,然后键入您需要其定义的词。如果Google在网络上找到了该字词或词组的定义,则会检索该信息并在搜索结果的顶部显示它们。,Yahoo!是在网上最早出现的检索工具,一直是一种功能较强的搜索引擎。Yahoo!属于目录索引类搜索引擎,可以通过两种方式在上面查找信息,一是通常的关键词搜索,一是按分类目录逐层查找。以关键词搜索时,网站排列基于分类目录及网站信息与关键字串的相关程度。包含关键词的目录及该目录下的匹配网站排在最前面。以目录检索时,网站排列则按字母顺序。Yahoo于2004年2月推出了自己的全文搜索引擎,并将默认搜索设置为网页搜索。,雅虎中国,2005年11月9日阿里巴巴公司在完成对雅虎中国的收购与整合之后,重新发布了进入中国市场7年之久的雅虎网站,未来雅虎在中国的业务重点方向将全面转向搜索领域,这也是自8月11日阿里巴巴宣布收购雅虎中国时就从没改变的方向。阿里巴巴CEO马云表示:阿里巴巴在搜索领域既有决心更有信心,在中国,雅虎就是搜索,搜索就是雅虎。,中国搜索,(原慧聪搜索)是国内领先的搜索引擎公司。自2002年正式进入中文搜索引擎市场以来,中国搜索(原慧聪搜索)取得了一系列令人瞩目的成绩。在一年多的时间里,发展成为全球领先的中文搜索引擎公司,先后为新浪、搜狐、网易、TOM等知名门户网站以及中国搜索联盟上千家各地区、各行业的优秀中文网站提供搜索引擎技术。目前,每天有数千万次的中文搜索请求是通过中国搜索实现的,中国搜索也被公认为第三代智能搜索引擎的代表。,搜狗,搜狗是搜狐公司于2004年8月3日推出的完全自主技术开发的全球首个第三代互动式中文搜索引擎,是一个具有独立域名的专业搜索网站-“搜狗”()。以一种人工智能的新算法,分析和理解用户可能的查询意图,给予多个主题的“搜索提示”,在用户查询和搜索引擎返回结果的人机交互过程中,引导用户更快速准确定位自己所关注的内容,帮助用户快速找到相关搜索结果,并可在用户搜索冲浪时,给与用户未曾意识到的主题提示。,新浪“爱问”,“爱问”搜索引擎产品由全球最大的中文网络门户新浪汇集技术精英、耗时一年多完全自主研发完成,为首款中文智慧型互动搜索引擎,新浪搜索引擎突破了由GOOGLE、百度为代表的算法致胜的搜索模式。它在保留了传统算法技术在常规网页搜索的强大功能外,以一个独有的互动问答平台弥补了传统算法技术在搜索界面上的智慧性和互动性的先天不足。通过调动网民参与提问与回答,新浪搜索引擎能汇集千万网民的智慧,让用户彼此分享知识与经验。,天网中文搜索引擎,北大天网,例一、利用搜索引擎找软件,日常工作和娱乐需要用到大量的软件,很多软件属于共享或者自由性质,可以在网上免费下载到。下面以百度搜索为例,介绍一下如何找软件下载:直接找下载页面这是最直接的方式。软件名称,加上“下载”这个特征词,通常可以很快找到下载点。例:flashget下载在著名的软件下载站点找软件由于网站质量参差不齐,下载速度也快慢不一。如果我们积累了一些好用的下载站(如天空网,华军网,电脑之家等),就可以用site语法把搜索范围局限在这些网站内,以提高搜索效率。例:网际快车site:Note:一旦搜索范围局限在专业下载站中,“下载”这个特征词就不必在查询词中出现了。,例二、用搜索引擎找谜底,一搜便知,猜谜语有时候,我们会遇上各种高难度的谜语,但有了搜索引擎,只要这种谜语的传播范围略广些,我们通常都可以在网上找到答案。搜索时候,我们只需把谜面和“谜底”作为关键词搜索就可以了。,例三、搜索MP3技巧,01.在歌名后加一个粤字可以找到粤语歌,例三、搜索MP3技巧,02.不知道歌曲名和歌手名也可以用歌词搜索!如关键词:多少年向往的日子找到的是赵传的这首歌!,例四、搜索MTV,03.直接打入关键词:MTV可以搜索出MTV视频,例三、搜索MP3技巧,04.关键词:ps教程或视频教程可以找到实用的视频教程!,例五、查找资料网页和网站的区别,小论文提交范式,请在Ei网络版中检索大连理工大学(

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论