已阅读5页,还剩2页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
得分:_南京林业大学课程论文20102011 学年 第2学期题 目:搜索引擎及以谷歌中国版为例检索方法的考察 学 院: 专 业: 学 号: 学生姓名: 任课教师: 二O一一 年 四 月 搜索引擎及以谷歌中国版为例检索方法的考察(南京林业大学,江苏南京210037)摘要:为更好利用搜索引擎,本文对其进行简单介绍,并以全球最大的搜索引擎Google(谷歌)的中国版为例,考察了六种检索方法:“OR检索”,“运算符-检索”,“运算符检索”,“双引号检索”,“排除标点规则检索”,“通配符*检索”。考察结果表明:“OR检索”可以查找检索关键词的任何一个词的信息,“运算符-检索”可以用来检索排除某些词的信息,这种方法在谷歌中应用不当容易失效。 “运算符检索”可以查找与关键词相近的信息,“双引号检索”可以检索到双引号中全部词的信息,“排除标点规则检索”表明检索结果与标点无关(除了单引号和连字符),“通配符*检索”可以进行关键词模糊检索。能综合使用检索方法是有效利用搜索引擎的关键。关键词:搜索引擎;谷歌;搜索规则;关键词;检索Search Engine and The Investigation of Google Chinas version (Nanjing Forestry University, Nanjing 210037,China)Abstract: For making better use of the search engine, the essay introduced the search engine and especially Google which is the largest search engine in the world, inspected the six retrieval methods: OR retrieval, operators - retrieval, operators retrieval, double quotation marks retrieval, exclude punctuation rules retrieval, wildcard * retrieval. Survey: OR retrieval can find any one word search keywords of information, operators - retrieval can be used to retrieve exclude certain words of information, this method applied in Google improper easy failure. Operators retrieval can find similar information with keywords, double quotation marks retrieval can retrieve the double quotation marks of the whole word information, exclude punctuation rules retrieval that has nothing to do with punctuation retrieval results (except single quotation marks and hyphens), wildcard * retrieval can undertake keywords fuzzy retrieval. Comprehensive use retrieval method can effectively use the search engine is the key.Key words: Search Engine;Google;Search regulation;Key words;Search随着网络技术的高速发展,搜索引擎的地位越来越重,用户需求的增多也带来了引擎的多元化发展。了解并会有效利用搜索引擎十分重要,可以使用户更高效的利用互联网的资源,给工作和生活都带来了明显的便利。1 搜索引擎的概念搜索引擎是一种利用一定的策略,运用特定的计算机程序(如“蜘蛛”Spider)从互联网上搜索信息,在对信息进行组织和处理后,为用户提供检索信息服务,并将搜索到的信息展示给用户的一种系统工具1-2。目前主流的搜索引擎是帮助用户搜索表层信息,如谷歌(google),百度(baidu),雅虎(yahoo)等。2搜索引擎的工作原理(1)搜集信息搜索引擎的信息搜集基本都是自动的。搜索引擎利用称为网络蜘蛛的自动搜索机器人程序来连上每一个网页上的超连结。机器人程序根据网页链到其他中的超链接,就象日常生活中所说的“一传十,十传百”一样,从少数几个网页开始,连到数据库上所有到其他网页的链接。理论上,若网页上有适当的超链结,机器人便可以遍历绝大部分网页。(2)整理信息搜索引擎整理信息的过程称为“建立索引”。搜索引擎不仅要保存搜集起来的信息,还要将它们按照一定的规则进行编排。这样,搜索引擎根本不用重新翻查它所有保存的信息而迅速找到所要的资料。想象一下,如果信息是不按任何规则地随意堆放在搜索引擎的数据库中,那么它每次找资料都得把整个资料库完全翻查一遍,如此一来再快的计算机系统也没有用。(3) 接受查询用户向搜索引擎发出查询,搜索引擎接受查询并向用户返回资料。搜索引擎每时每刻都要接到来自大量用户的几乎是同时发出的查询,它按照每个用户的要求检查自己的索引,在极短时间内找到用户需要的资料,并返回给用户。目前,搜索引擎返回主要是以网页链接的形式提供的,这些通过这些链接,用户便能到达含有自己所需资料的网页。通常搜索引擎会在这些链接下提供一小段来自这些网页的摘要信息以帮助用户判断此网页是否含有自己需要的内容。3搜索引擎的分类搜索引擎的分类随着网络技术以及用户要求的提高,分类也越来越复杂,搜索引擎也更加人性化。当前的搜索引擎分类主要有以下五类:(1)全文索引引擎全文索引引擎可以说是搜索引擎分类中最主要也最重要的一类。这种引擎可以检索与用户所使用的查询条件相匹配的记录并按照一定的排列方式返回给用户。全文索引引擎又可以分为两类:拥有自己的数据库的引擎和租用其他搜索引擎的数据库的引擎。第一类拥有自己的网页抓取,索引和检索系统(Indexer),有俗称“蜘蛛”(Spider)程序或“机器人”(Robot)程序,可以自建网页数据库,搜索结果直接从自身的数据库中调用。这类搜索引擎有Baidu.Google等。而另一类则是租用别的引擎的数据库,搜索结果按自己的排列方式返回结果,比如Lycos引擎。(2)目录索引引擎这类引擎有搜索功能,但只是按目录分类的网站链接列表。用户不需要使用关键词来进行搜索,只需要按照分类目录找到所需的信息。这类引擎比如Yahoo,新浪的分类搜索等。(3)元搜索引擎用户使用这类引擎搜索可以等同于同时在多个搜索引擎上搜索。比如InfoSpace、Dogpile等。中文元搜索引擎中具代表性的是搜星搜索引擎。在搜索结果排列方面,有些直接按来源排列搜索结果,如Dogpile;有的则按自定的规则将结果重新排列组合,如Vivisimo。 但是由于这类引擎搜索较繁杂,并为成为主流使用搜索引擎。(4)图片搜索引擎这类搜索引擎是比较新的功能型搜索引擎。目前国内这种引擎有安图搜。它是一种基于图像形式特征的搜索,使用时用户需要将查找的图像的大致特征进行描述,然后引擎通过自己的图像特征索引库返回相似结果给用户。这类引擎特别适用于检索目标明确的查询要求,比如LOGO的查询。这类引擎功能现在还不是很健全,有很大的发展空间。(5)垂直搜索 垂直搜索是专注于特定的搜索领域和搜索需求的一种搜索,比如视频搜索,公交搜索,歌曲搜索等。可以说是普通搜索引擎的副产物。这种搜索形式由于可以直接满足用户的需要,受到了广泛的好评3-13。4 六种谷歌中国版检索方法(1)OR检索Google有一个重要的默认规则,称为默认AND规则。即当输入多个检索词时,默认为你想查找包含全部检索词的网页。如果想检索到包含其中任何一个词的网页而不是必须全部包括时,用“OR检索”就显的比较方便。比如用went away OR go away OR fade away作为关键词,将会返回包含这三个词中任何一个词的网页。所谓“OR检索”而不是“or检索”是因为在Google中,“OR”是运算符,而“or”则被看作是普通的检索词。可见运算符是区分大小写的。(2)运算符-检索这个运算符表示不包含该运算符后面的词。这种检索方法应用不当比较容易失效,要排除的检索词的前面应用此运算符必须不留空格,而最重要的是,这个运算符与不需要排除的关键词之间必须有空格,而且这种规则不仅适用于对英文的检索,而且适用于对中文的检索。比如若关键词为clock,但是要排除alarm和radio,则关键词应该写为clock alarm radio,应该要注意的是空格的位置。在对这种检索方法的考察中,笔者发现:1如果alarm和radio前面的运算符之间没有空格的话,则这种检索方法失效。2将关键词写成-radio alarm clock和clock alarm radio的效果相同。对中文的检索比如关键词为:南京林业 大学 招生,这个关键词代表搜索含有南京林业的网页但排除掉含有大学和招生这个两个词的信息。同样,-招生 大学 南京林业与其效果相同。(3)运算符检索运算符“”表示同义词运算符,可以检索到该词和其近义词。将运算符至于检索词的前面,运算符合检索词之间没有空格。比如将go away作为关键词,则返回结果中有含有go away的信息,也有含有walk away和fade away的信息。因为go away和walk away以及fade away是近义词。(4)双引号 “ ” 检索用双引号检索时,检索词被放在用引号界定的字句中时,就被自动地认定可以被检索,检索结果一定包含双引号内的全部检索词。比如在Google检索框中输入”you and me go to school”则出现的结果中全部包含you and me go to school.如果输入 you and me go to school则会出现You go to school,go to school等的结果.这种检索规则对一些特定词句的检索比较有用,比如诗句,姓名检索。(5)排除标点规则检索标点符号在检索中并没有词语重要,Google在检索时会忽略掉检索词之间的大多数标点符号。比如在输入框中输入understand和输入under.stand的检索效果是相同的。而当符号是单引号和连字符时就不能省略了。单引号往往表示缩写,比如输入were和were的搜索结果就不同。当有连字符时,比如part-time,则会既搜索到含有连字符的part-time,也能搜索到不含连字符的part time 和parttime等。(6)“通配符*检索”当只知道关键词的部分时,模糊检索就尤其重要,此时就需要用到通配符。这种运算符表示它可以代表任何词。比如在检索框中输入“I * to school”表示查找包含以I 开头,以to school结尾的信息,中间是任何词都可以。此时的返回结果有包含I went to school、I wear to school、 gone to school等的网页。这种方法很适用于歌词,台词等的搜索15-22。5 有效利用搜索引擎的途径(1)优先选择专有名词作为关键词。以谷歌为代表,谷歌的检准率和检全率不低。测试表明,对专有名词的检准率达到了70%,对普通名词的检准率为53.5%。专有名词的歧义较少是检准率高的一个重要因素。在搜索时优先选择专有名词作为关键词可以大大提高搜索的效率23。(2)利用多种搜索方法进行搜索。使用运算符时,可以将多种运算符一起使用,提高检准率和效率。(3)使用快照。大部分搜索引擎都会有快照功能,比如百度快照,有时会搜到链接失败或者过期的网页,而看其内容摘要很符合需要,此时可以使用快照功能来最大可能的找到有用的信息。(4)选择多种搜索引擎。每一种搜索引擎的搜索重点不同,搜索信息时可以用多种搜索引擎同时进行检索选择最有用的信息24。参考文献:1 赵小龙,刘世俊.信息资源检索与利用M.北京:中国工商出版社,2003,314-3192 周琦钰.搜索引擎的发展概况与趋势J.湖南第一师范学报;2006(2): 152-1543 凌美秀,曹春晖. 互联网上的免费学术信息源及其获取M.长沙:湖南大学出版社,2007,184-1874 杜亚军.搜索引擎智能行为的研究及实现D.西南交通大学;20055 徐天秀.信息检索M.北京:科学出版社,2006,150-1536 喻萍,严而清,江惜春,等.实用信息资源检索与利用M.北京:化学工业出版社,2005,62-647 R.霍克.Internet通用搜索引擎检索指南M.沈阳:辽宁科学技术出版社,2003,22-298 符绍宏,雷菊霞.因特网信息资源检索与利用M.北京:清华大学出版社,2000,125-1309 沈固朝.信息检索教程M.北京:高等教育出版社,2002,35710 G.谢尔曼,G.谱赖斯.看不见的网站-Interner专业信息检索指南M.沈阳:辽宁科学技术出版社,200311 郭太敏,等.信息资源检索与利用.徐州:中国矿业大学出版社,2002,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年福建会计考试试题及答案
- 2025年苍南县领导干部和公务员学法用法培训考试题库及答案
- 2025年安全生产多选题库及答案
- 考点解析人教版八年级物理上册第5章透镜及其应用同步训练试题(详解)
- 综合解析人教版八年级上册物理《物态变化》章节测评试卷(解析版含答案)
- 强化训练苏科版九年级物理上册《机械能和内能》章节测评试题(含答案解析版)
- 领跑未来家居
- 油茶鲜果加工仓储项目可行性研究报告模板-立项备案
- 难点解析人教版八年级物理上册第5章透镜及其应用专题测评试卷(含答案详解版)
- 2025年高二下学期生物细胞器互作题
- 2025年成人高考专升本生态学基础真题及答案
- 2025年肿瘤内科正高试题及答案
- 水务大数据分析与应用-洞察及研究
- 十八项电网重大反事故措施第一课培训课件
- 计生科应急预案(3篇)
- 修理扫帚课件
- 人与大自然的不和谐之音
- GB/T 7287-2008红外辐射加热器试验方法
- 七年级第一次家长会-下载完整版课件
- 5第六章生物多样性丧失的原因课件
- 电气设备状态监测与故障诊断课件
评论
0/150
提交评论