搜索引擎的应用_第1页
搜索引擎的应用_第2页
搜索引擎的应用_第3页
搜索引擎的应用_第4页
搜索引擎的应用_第5页
已阅读5页,还剩55页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

0搜索引擎的应用摘要随着INTERNET的迅速发展,互联网信息以几何基数增长的速度不断的丰富和扩展,然而这些信息却散布在无数的服务器上,就像散乱在海滩上的珍珠,无法将它们收集到一起。那么如何在众多的网站中快速有效地找到想要得到的信息呢搜索引擎SEARCHENGINE的出现为广大用户更快更便捷的查询信息提供了突破口。从互联网搜索到个人的桌面搜索,再到企业搜索,搜索技术的发展与应用已经对人们的生活,工作,学习产生了越来越大影响,甚至深刻的改变着人们思维以及行为习惯。本文就是基于搜索引擎的原理从搜索引擎的国内外发展现状、分类、原理、以及搜索引擎的优化、评价等各个方面做了详细的分析和研究,从多个角度解读了搜索引擎的应用,使人们能够对搜索引擎有更加清晰的认识,游刃有余的利用它创造财富和价值。关键词搜索引擎;应用;SEO1THEAPPLICATIONOFSEARCHENGINEABSTRACTWITHTHERAPIDDEVELOPMENTOFINTERNET,INFORMATIONGROWSFASTERTHANEVER,BUTITISSCATTEREDINNUMEROUSSERVERS,LIKETHEPEARLSSCATTEREDONTHEBEACHSOHOWTOFINDTHEINFORMATIONQUICKLYANDEFFICIENTLYINNUMEROUSWEBSITESSEARCHENGINESARETHEFASTESTANDMOSTCONVENIENTWAYTOQUERYINFORMATIONONTHEINTERNETFORTHEMAJORITYOFUSERSFROMINTERNETSEARCHTOPERSONALDESKTOPSEARCHANDTHEENTERPRISESEARCH,SEARCHTECHNOLOGYHASMADEADEEPINFLUENCEONPEOPLESLIVES,WORKING,ANDTHEWAYOFLEARNING,WHICHEVENCHANGESPEOPLESTHINKINGANDBEHAVIORHABITSDEEPLYTHISARTICLEHASMADEADETAILEDANALYSISANDRESEARCHONTHEDOMESTICANDFOREIGNDEVELOPMENT,THECLASSIFICATION,THEPRINCIPLEOFSEARCHENGINES,ASWELLASTHESEARCHENGINEOPTIMIZATION,EVALUATION,ANDMANYOTHERASPECTS,ANDINTERPRETEDTHEAPPLICATIONOFSEARCHENGINEFROMMULTIPLEANGLESWHICHCANMAKEPEOPLEHAVEAMORECLEARUNDERSTANDINGONSEARCHENGINESANDTRYTOUSEITTOCREATEWEALTHANDVALUEKEYWORDSSEARCHENGINEAPPLICATIONSEO2目录摘要1ABSTRACT21绪论511搜索引擎概述512国内外研究现状513本文结构62搜索引擎的发展821国际上搜索引擎的发展8211第一代搜索引擎8212第二代搜索引擎9213第三代搜索引擎922国内搜索引擎的发展现状11221国内主要搜索引擎的概况11222近两年搜索引擎的发展态势123搜索引擎的分类1531按检索语言分类1532按搜索(工作)方式分类1533按检索范围分类1534按工作语种分类1535按组合方式分类1636按照搜索引擎的体系结构和工作原理分类164搜索引擎的原理1741搜索器1842索引器1843检索器1844用户接口185搜索引擎的应用1951商业中的应用1952普通用户的应用19521用户界面介绍20522基本检索功能20523高级检索功能20524其他功能介绍20525网页快照21526几种搜索不到的情况21527由关键字引发的搜索失败占搜索失败的很大比例216搜索引擎优化2261搜索引擎优化的概念2262站内搜索引擎优化22621丰富网站关键词223622站点设计23623站内SEO作弊方法2463站外搜索引擎优化2564链接优化26641网站结构优化26642SEO优化基本要点2665站点排名26651影响因素27652SEO优化中关键词布局技巧28653常见术语2966优化执行32661执行难度33662策略34663效果35664重要性357搜索引擎系统的评价36结论38致谢39参考文献4041绪论11搜索引擎概述互联网络从早期的ARPANET到目前的INTERNET己经发展了近五十年,它的迅速发展和广泛普及导致网上信息爆炸性增长。如果这些信息能被有效地利用,互联网将是一个巨大的信息宝库。但由于INTERNET是一个开放、分布、异构的信息空间,INTERNET这个“数字时代的图书馆”并不像真正的图书馆那样支持有组织的信息管理和检索。它本身固有的3个特点己经明显地阻碍了人们充分使用INTERNET上的信息资源1INTERNET上的信息无组织、无固定结构、分布无规律性2INTERNET是一个动态性极强的信息源3INTERNET上的信息量每天呈指数增长,而对用户个体而言只有少数相关。由此看来,虽然INTERNET是一个广阔的信息海洋,但是在INTERNET上进行检索经常会出现“信息过载”和“资源迷向”问题,即如何在网上海量和无组织的信息中快速准确地找到需要的信息已变得越来越重要。搜索引擎就是基于上述原因而产生的,它以一定的策略在互联网搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务,从而起到信息导航的目的,是用户打开互联网这个信息宝库的一把钥匙。搜索引擎是指因特网上专门提供查询服务的一类网站,这些网站通过网络搜索软件又称为网络搜索机器人或网站登录等方式,将因特网上大量网站的页面收集到本地经过加工处理而建库,从而能够对用户提出的各种查询作出响应,提供用户所需的信息。用户的查询途径主要包括自由词全文检索、主题词检索、分类检索及其它特殊信息的检索例如企业、人名、电话等。12国内外研究现状搜索引擎是随着WEB信息的迅速增加而发展起来的,是一种网民查询互联网信息的搜索型工具,通过为用户提供信息检索服务,起到导航信息的目的。搜索引擎的基本概念出现于20世纪70年代,但它真正发展和应用却是90年代的事情,并在90年代中期得到快速的发展。目前网上的搜索引擎有160种以上,其中比较著名的7个全球性导航站有YAHOO,ALTAVISTA,LYCOS,HOTBOT,INFOSEEK,WEBCRAWLER,EXCIT。据CNNIC于2005年1月发布的统计资料,搜索引擎的使用己占到网络应用的650,并成为中国当前第二大互联网应用,仅次于收发EMAIL。搜索引擎技术伴随着WWW的发展是引人注目的。搜索引擎大约经历了三代的更新发展。第一代搜索引擎出现于1994年。这类搜索引擎一般都索引少于1,000,000个网页,极少重新搜集网页并去刷新索引。而且其检索速度非常慢,一般都要等待10秒甚至更长的时间。在实现技术上也基本沿用较为成熟的IR(INFORMATIONRETRIEVAL)、网络、数据库等技术,相当于利用一些已有技术实现的一个WWW上的应用。在1994年3月到4月,网络爬虫WORLDWEBWORMWWWW平均每天承受大约1500次查询。5大约在1996年出现的第二代搜索引擎系统大多采用分布式方案(多个微型计算机协同工作)来提高数据规模、响应速度和用户数量,它们一般都保持一个大约50,000,000网页的索引数据库,每天能够响应10,000,000次用户检索请求。1997年11月,当时最先进的几个搜索引擎号称能建立从2,000,000到100,000,000的网页索引。ALTAVISTA搜索引擎声称他们每天大概要承受20,000,000次查询。2000年搜索引擎2000年大会上,按照GOOGLE公司总裁LARRYPAGE的演讲,GOOGLE正在用3,000台运行LINUX系统的个人电脑在搜集WEB上的网页,而且以每天30台的速度向这个微机集群里添加电脑,以保持与网络的发展相同步。每台微机运行多个爬虫程序搜集网页的峰值速度是每秒100个网页,平均速度是每秒485个网页,一天可以搜集超过4,000,000网页。搜索引擎一词在国内外因特网领域被广泛使用,然而他的含义却不尽相同。在美国搜索引擎通常指的是基于因特网的搜索引擎,他们通过网络机器人程序收集上千万到几亿个网页,并且每一个词都被搜索引擎索引,也就是我们说的全文检索。著名的因特网搜索引擎包括FIRSTSEARCH、GOOGLE、HOTBOT等。在中国,搜索引擎通常指基于网站目录的搜索服务或是特定网站的搜索服务。目前的搜索引擎,每天使用爬虫在互联网上获取大量网页,这花去了大量的时间,随着WWW信息的指数增加,搜索引擎搜索速度慢,死链接太多,重复信息或不相关信息较多,难以满足人们的各种信息需求,搜索引擎将向智能化,精确化,交叉语言检索,多媒体检索,专业化等适应小型用户需求的方向发展。13本文结构本文通过7个章节对1绪论部分主要介绍了论文的研究背景和研究意义,并且对论文的主要研究工作和组织结构做了说明。2搜索引擎的发展综述了三代搜索引擎的发展历史,比较了国内外搜索引擎的发展现状,以及对近两年以来国内搜索引擎的发展做了展望。3搜索引擎的分类从不同角度对搜索引擎做了分类,明确了不同搜索引擎的类别和工作需要,为搜索引擎的选择提供了帮助。4搜索引擎的原理将搜索引擎的原理做了系统的介绍,为之后的研究奠定了基础。5搜索引擎的应用从商业角度和普通用户角度分别对搜索引擎做了介绍,明确了搜索引擎的用户群及其使用方法。6搜索引擎的优化SEO对之前提到的搜索引擎在商业上的应用搜索引擎营销做了更加详细的介绍。并且给出了有效的搜索引擎营销方法和策略。7搜索引擎的评价在对以上介绍了解之后,我们通过各种方法评价搜索引擎从而可以使不同的搜索项目都能得到最佳的搜索引擎的支持,在提高用户搜索体验的基础上帮助搜索引擎供6应商提高自身的技术水平。结论部分对之前的章节做了总结,为全文画上了完美的句号。是全文的综述和概括。72搜索引擎的发展21国际上搜索引擎的发展211第一代搜索引擎第一代搜索引擎一般索引少于100万个网页,极少重新搜集网页并去刷新索引,检索速度非常慢,一般要等待10秒甚至更长时间。主要代表有A1TAVISTA,INFOSEEK,LYCOS,YAHOO等。1990年,加拿大麦吉尔大学计算机学院的师生开发出ARCHIE。当时,万维网还没有出现,人们通过FTP来共享交流资源。ARCHIE能定期搜集并分析FTP服务器上的文件名信息,提供查找分布在FTP主机上的文件,但是用户必须输入精确的文件名进行搜索。ARCHIE搜集的信息资源不是网页,但是和搜索引擎的基本工作方式是一样的自动搜集信息资源,建立索引,提供检索服务。所以,ARCHIE被公认为是现代搜索引擎的鼻祖。1993年MATTHEWGRAY开发了WORLDWIDEWEBWANDERER,这是第一个利用HTML网页之间的链接关系来检测万维网规模的“机器人”程序。开始,它仅仅用来统计互联网上的服务器的数量,后来也能够捕获网址(URL)。最早现代意义上的搜索引擎1994年7月诞生于卡内基梅隆大学。当时MICHAELMAULDIN将JOHNLEAVITT的SPIDER程序接入到其索引程序中,创建了LYCOS。除了相关性排序外,LYCOS还提供了前缀匹配和字符相近限制,LYCOS第一个在搜索结果中使用了网页自动摘要,而最大的优势还是它远胜过其他搜索引擎的数据量。搜索引擎的概念深入人心是在1994年4月,出现了雅虎YAHOO,这是由斯坦福大学的两名博士生,美籍华人JERRYYANG和DAVIDFILO共同创办的。当时以雅虎为代表的网站分类目录查询非常流行。随着访问量和收录链接数量的增长,YAHOO目录开始支持简单的数据库搜索。网站分类目录由人工整理维护,精选互联网上的优秀的网站,并简要描述,分类放置到不同的目录下面。用户查询是通过一层一层的点击来查找自己想要的网站。也有人把这种基于目录的检索服务网站成为搜索引擎,但是从严格意义上讲,他并不是搜索引擎,只是一个可搜索的目录。由于YAHOO中国的定位一直在“门户网站”与“搜索引擎”之间来回徘徊,导致YAHOO中国在中文搜索的市场占有率一直不高。在2005年被阿里巴巴收购后,YAHOO中国定位为搜索,喊出“在中国,雅虎就是搜索,搜索就是雅虎”的口号,但在目前中国雅虎所占份额呈现每年减少的趋势元搜索引擎(AMETASEARCHENGINEROUNDUP)的首次出现是在1995年,它是由华盛顿大学的学生ORENETZIONI与ERICSELBERG创建出来的。1995年12月ALTAVISTA由DEC正式发布,它的主要功能是某个URL的所有网站能够通过搜索的链接得到。这个搜索引擎在实现高级搜索语法中是第一个,而且它也是最先支持自然语言进行搜索的。1997年,ALTAVISTA为了让用户能够从巨大的网络信息中找到自己希望获得的信息而发布了LIVETOPICS,这是一个图形演示系统。8212第二代搜索引擎大约在1996年出现的第二代搜索引擎。第二代搜索引擎系统大多采用分布式方案多个微型计算机协同工作来提高数据规模、响应速度和用户数量,一般都保持大约5000万网页的索引数据库,每天能响应1000万次用户检索请求。这一代搜索引擎的特征是使用了一系列新技术,特别是自然语言处理技术,使搜索更加智能、查找信息更快更容易、给用户的信息服务更综合。主要代表有GOOGLEINKTOMI,ASKJEEVES,GOTOWEBCATE等。1998年诞生的GOOGLE以网页级别为基础,判断网页的重要性,使得搜索结果的相关性大大增强。它是目前世界上最大的搜索引擎,由LARRYPAGE和SERGEYBRIN设计,于1998年9月发布测试版,一年后正式开始商业运营。GOOGLE由于对搜索引擎技术的创新而获奖无数,GOOGLE支持的语言多达132中,包括简体中文和繁体中文。现为全球80多家门户和终点网站提供支持,客户遍及20多个国家。GOOGLE提供一系列革命性的新技术,包括完善的文本对应技术和先进的PAGERANK排序技术,同时还提供一项很有用的服务一一“网页快照”功能,当搜索内容站点或网页不存在时,用户可调用GOOGLE事先为用户储存的大量应急网页,经GOOGLE处理后,搜索项均用不同颜色标明,另外还有标题信息说明其存档时间日期,并提醒用户这只是存档资料。目前国内己有网易163COM、中文YAHOO等采用GOOGLE作为搜索引擎。GOOGLE的抓取技术通过长达10年的沉淀已经比较成熟。在搜索准确性,多个关键词组合搜索的速度上GOOGLE都很有优势,并且其搜索结果页较为客观,不受人为干预。GOOGLE公司的奇客(GEEK)文化氛围,不作恶(DONTBEEVIL)的理念,为GOOGLE赢得了极高的口碑和品牌美誉。然而2010年3月,谷歌事件的影响,一定程度上助推了网民对于百度的信赖。2010年7月,第一财经日报从谷歌(中国)一家授权代理商处获悉,苏州环宇和西安为华两家代理商今日已从谷歌退出,不再是谷歌(中国)的授权代理商。代理商退出,合作伙伴分手,谷歌(中国)的业务发展面临前所未有的困难。GOTOWWWGOTOCOM使用了超链分析与根据用户的点击行为来分析与重排序,搜索得到的结果相关性程度较高,而且比较符合用户的点击习惯。还有一些后起之秀,如ALLTHEWEB是成长最快的搜索引擎,支持255种文件格式搜索。属于全文搜索引擎。ALLTHEWEB的优点是数据容量大,更新速度快,搜索精度高。尤其值得一提的是ALLTHEWEB允许按更新时间查询网页,这是其他搜索引擎所没有的,曾被认为是GOOGLE的强有力的竞争对手。213第三代搜索引擎自1998年到现在,出现了搜索引擎空前繁荣的时期,一般称这一时期的搜索引擎为第三代搜索引擎。其索引数据库的规模继续增大,一般商业搜索引擎都保持在几千万甚至上亿个网页。目前互联网上的搜索引擎已达数千种,仅中文搜索引擎就达上百种,可谓百花争艳。搜索引擎正向着智能化、个性化、专业化、多媒体检索等适应不同用户需求的方向发展。1垂直搜索引擎垂直搜索引擎的应用方向很多,比如企业库搜索、供求信息搜索引擎、购物搜索、房产搜索、人才搜索、地图搜索、MP3搜索、图片搜索几乎各行各业各类信息都可以进一步细化成各类的垂直搜索引擎。由于不同知识背景的用户想要的信息也不尽相同,垂直搜索引擎满足了用户对于专业搜索的高标准要求。92主题搜索引擎基于主题爬行的搜索引擎是针对某个行业的专业搜索引擎,又称主题搜索引擎,是搜索引擎的细分和延伸,是对网页库中的某类专门的信息进行一次整合,定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户。一个典型的例子就是我国首家提供旅游搜索引擎服务的网站“去哪儿”网,2005年在北京成立,09年超越携程,成为全球最大的中文在线旅游网站。3站内搜索在互联网蓬勃发展的过程中,为了帮助用户快速定位感兴趣的网络资源,出现了例如GOOGLE、BAIDU、YAHOO等这些通用的搜索引擎网站。而随着现在网站提供的内容越来越丰富,拥有大量数据资源的网站受限于搜索技术,无法及时有效的把自己独特的资源提供给用户,留住用户,提升用户回头率,减少用户流失机会成为了各网站关心的问题。因此,站内搜索应运而生。目前国内许多大型的网站也都有自己的站内搜索引擎。如淘宝网,优酷网,央视网以及国外的MARKS清华大学研制的PINS系统和BOOKMARK系统,能自动收集和记录用户的习惯和兴趣,跟踪用户的信息需求等。但国内的智能网络信息搜索系统大多只是支持简单的自然语言理解和概念检索,对机器学习、智能AGENT、信息挖掘等技术研究的较少。个性化的信息检索技术是帮助人们快速获取信息的有效手段。建立一个优秀的个性化搜索引擎是一项庞大复杂的工程,有待于科技的进一步发展和研究者的不懈努力。111百度HTTP/WWWBAIDUCOM国内搜索引擎的代表当属搜索引擎的领军代表百度搜索引擎。百度于2000年1月成立并且在同年的8月发布了BETA版的BAIDUCOM,正式发布是在2000年10月22日,是目前在中国最成功的一个商业搜索引擎,主要提供中文信息检索。并且为门户站点提供搜索结果服务,目前百度在中文搜索方面是世界领先的。百度在GOOGLE(中国)立足未稳之际,推出了一系列符合中国人搜索习惯的功能,迅速崛起,拥有了一大批较为忠实的用户。百度在中文分词技术上有优势,有百度贴吧,百度知道,百度百科等非常实用。百度音乐也不错,但曾被指责没有保护音乐知识产权。不过,百度竞价排名的规则,导致很多人为的操纵搜索结果,也一直备受诟病。2搜狗HTTP/WWWSOGOUCOM2004年8月,搜狐正式推出全新独立域名专业搜索网站“搜狗”,成为全球首家第三代中文互动式搜索引擎服务提供商。提供全球网页、新闻、商品、分类网站等搜索服务。3新浪“爱问”HTTP/WWWIASKCOM)新浪“爱问”在保留了传统算法技术在常规网页搜索的功能外,以一个独有的互动问答平台弥补了传统算法技术在搜索界面上智慧性和互动性的先天不足。通过调动网民参与提问与回答,“爱问”能汇集千万网民的智慧,让用户彼此分享知识与经验,类似于百度的“百度知道”。值得一提的是,“爱问”所包含的许多答案,是新浪创业12年来在内容资讯上沉淀积累的精华,它集合新浪各个频道的海量信息与资源。4有道HTTP/WWWYOUDAOCOM)有道搜索是网易公司的搜索服务。在结束与GOOGLE的合作后,网易公司自行研发的有道搜索成为其搜索服务的内核。网页搜索、图片搜索、博客搜索和海量词典四项产品。博客搜索是有道搜索的一大特色产品,相比同类产品具有抓取全面、更新及时的优势,独特的“博客档案”也成为博客世界里的交流的桥梁海量词典是词典和搜索技术的结合,特有“网络释义”功能,能将新词、术语“一网打尽”。5SOSOHTTP/WWWSOSOCOM)2005年全球最大的IM网络即时通讯提供商腾讯公司宣布旗下搜索网站SOSWWWSOSOCOM正式上线,独立承载搜索业务此前SOLO用的网页技术是微软公司2009年5月29日正式宣布推出全新中文搜索品牌“必应”,打造全新的快乐搜索体验。此次“必应”,中文搜索品牌的发布将于微软全球搜索品牌BING同步,是微软全球搜索服务品牌战略发布的一个重要组成部分。222近两年搜索引擎的发展态势近两年看似已经格局稳定的搜索引擎市场风云再起,同时移动互联网的快速发展更让搜索市场的格局多了几分变数,不过2014搜索市场格局之争显然已是几个大玩家之间的游戏了。如果说2013是搜索市场纵横捭阖的一年,那么2014则是争夺移动搜索和下一代搜索高地的一年,语义搜索或将引发新战役。2014年随着搜索市场的不断变革,预计市场集中度将进一步提升,百度在搜索市场中仍将一家独大,老大地位难以撼动。同时随着腾讯搜狗资本合作,新搜狗整合力量或会出现,搜索领域将成为巨头之间的竞争。PC端搜索引擎市场格局基本稳定,难以有较大的变局,未来也很难有新的竞争对手跻身前三,而谷歌等老牌搜索引擎如何在中国市场上没有大的动作则被边缘化的趋势会越来越明显,2013年谷歌的首选率仅为16。12值得一提的是,人工智能和搜索技术的发展使得通过对内容索引的关键词进行简单的抓取已经难以满足网民对搜索引擎的期待。人们希望搜索引擎能针对特定的问题给出准确的答案,并且这是一个动态和灵活地过程,而并非提供一堆静态的内容。针对这种需求,在2013年几家主要的搜索引擎公司纷纷针对下一代搜索引擎进行布局,希望通过对人工智能技术的运用和在搜索中对用户习惯、记录以及行为等信息或数据的融入,为用户提供具备深度个性化和丰富交互性的服务。在这方面,百度很早就开始探索,2013年的相关产品逐渐浮出水面。2013年初,百度CEO李彦宏从美国硅谷挖来了许多技术牛人,成立百度深度学习研究院INSTITUTEOFDEEPLEARNING,IDL。随后代表百度下一代搜索引擎雏形的“知心搜索”被推出,开始将知识图谱的技术应用到百度的大搜索里面去,并且融入了人和人之间的关系、物和物之间的关系。整体而言,2013年算是下一代搜索引擎的初始年,整体市场还处于起步阶段,渗透率不高,预计2014年围绕下一代搜索引擎的话题也将成为几家主流搜索引擎公司竞争的焦点。移动搜索集中度高用户习惯延伸明显报告显示,目前移动端搜索引擎的市场格局基本和PC端一致。不仅如此,而且移动端的市场集中度似乎更高。从市场渗透率、首选率以及前二位选择率来看百度在移动端具有更大幅度的领先,前三名的市场集中度也比PC端更高。例如从首选率来看百度和第二名的360分别为887和42,而在PC端百度和排名第二的360搜索则分别为856和101,另外两个指标也大致类似。这其中主要的原因是目前PC端的使用行为对移动端还有着较大的影响,在CNNIC的调查中,有743的手机网民表示移动端搜索引擎的使用是“电脑上的习惯延伸,懒得换”。虽然目前移动端搜索引擎的市场格局并没有显示出与PC端很大的差异,但其实移动端搜索引擎的产品、技术都没有发展成型,市场格局更是难言已定。一方面手机端网民正在快速增加,但是他们对搜索引擎的依赖和使用频率并不及PC端,用户的规模更是难与PC端相比,用户在移动端需要什么样的搜索引擎目前尚未定论另一方面移动互联网技术飞速发展,在目前市场并不明晰的情况下随时可能出现颠覆性的技术或商业模式,在这方面各家实际上都并不轻松。移动端是目前整个搜索引擎市场的最大变数,对各家公司的重要性异乎寻常。因为这不仅是移动端市场的问题,更有可能会影响到整个搜索引擎市场的格局。2014年各家巨头之间不仅将在原有的模式下快马加鞭,以寻求更多的占有用户的手机屏幕,为用户在移动搜索中植入更多地使用场景,培养用户在手机上使用搜索的习惯,也将不断地寻求颠覆性的突破,一举确立江湖地位。待挖掘的微博搜索VS二维码和语音输入两份报告中还有一些有意思的数字对未来搜索引擎的发展有很大的启示意义,主要有亮点。第一是微博在未来搜索引擎中的扮演的角色。我们在上面提到相比购物搜索、视频搜索,微博搜索的市场渗透率并不高,但是在市场份额的排名上微博搜索却居于第二的位置,分别超出了视频搜索和购物搜索39和74。微博拥有着庞大的用户群,很多热点事件都是先从微博上开始传递的,这使得一些网民养成了微博搜索的习惯。这背后反映的是用户对及时信息的需求,那么如何动态、及时地满足用户对实时信息的需求将是下一代搜索引擎需要解决的一个重要问题。13第二是搜索引擎输入方式的变化。相比之前依赖于传统的文字输入,随着移动互联网的兴起,其他一些新型输入方式的出现也对搜索引擎提出了更高的要求。相比2012年,2013年网民在使用二维码扫描输入和语音输入的网民比例大幅度上升。针对二维码的另一项调研也表现,不管是从二维码的认知度还是使用率上都保持着较高的水准。143搜索引擎的分类31按检索语言分类按照检索语言的不同,搜索引擎可以分为两大类一类是通过关键词进行检索的搜索引擎,另一类是通过分类进行检索的搜索引擎。这两类搜索引擎各有优缺点,现在渐渐地相互补充有的以分类检索为主,但也可以通过关键词进行检索有的以关键词检索为主,也提供分类检索或主题分类检索途径。32按搜索(工作)方式分类根据搜索(工作)方式的不同,搜索引擎可以分为两类1基于关键词的全文(网页级)搜索引擎,如天网,GOOGLE,百度。其通过运行软件“ROBOT”或“SPIDER”,沿着WWW文件的连接自动在网上漫游,不断搜集各类新网址及网页,记录URL文件的简明概要,关键字或索引,形成成千上万记录的数据库。只要用户输入查询的关键字在数据库中某主页出现,则这主页就会作为匹配结果返回给用户。全文搜索引擎的优点速度快,检索功能强。全文搜索引擎的缺点提供的信息多而全,但是可供选择的信息太多反而降低相应的命中率,并且提供的查询结果重复链接较多,层次结构不清晰,给人一种繁杂的感觉。2目录分类式(网站级)搜索引擎,如雅虎它与全文搜索引擎的区别在于它是由人工建立的,通过“人工方式”将站点进行分类,不是把所有的信息都收录进去,而是首先将该网站划分到某个分类下,再记录一些摘要信息,对该网站进行概括性的简要介绍。用户提出搜索请求时,搜索引擎只是在网站的简介中搜索。优点层次,结构清晰,易于查找,多级类目,便于查询到具体明确的主题,内容提要,分类名目下有简明扼要的内容,可以使用户一目了然。缺点搜索范围较小,更新速度慢,查询交叉类目录时容易遗漏。33按检索范围分类以提供的信息服务范围与用途不同,搜索引擎可分为综合性搜索引擎和专业性搜索引擎。综合性搜索引擎即综合性的信息检索系统,利用它可以检索几乎任何方向的信息资源,但有时会出现因字形相同向实际上互不相关的内容,或因检出的内容太泛向无法一一过目专业性搜索引擎则是专业信息机构根据专业需求,将因特网上资源进行筛选整理、重新组织向形成的专业性的信息检索系统。专业性搜索引擎能针对用户的特定需求来提供信息,特定用户只要登录到相应的搜索引擎即可迅速、准确地找到符合要求的精确信息。34按工作语种分类按语种大致分为中文搜索引擎和西文搜索引擎。由于因特网上的中文网站采用的字符集和内码体系不尽相同,因此,有的中文搜索引擎主要收录简体中文网站的信息如大陆地区的搜索引擎,有的中文搜索引擎主要收录繁体中文网站的信息如港台地区的搜索引擎,有的中文搜索引擎则兼收各种中文网站的信息。因特网上居多的是西文网站,因此搜索引擎也以专门查询这类网站信息的西文搜索引擎居多。1535按组合方式分类根据搜索引擎的组合情况,可分为独立搜索引擎和多元搜索引擎。独立搜索引擎也叫单一搜索引擎,它局限于单个搜索引擎建立的数据库中进行检索,而且必须适应各个搜索引擎的查询语法与规则,查准率和查全率往往受到一定限制。多元搜索引擎也叫集成化搜索引擎,它是集成了若干个独立的搜索引擎,能够综合利用多个索引数据库系统中的信息资源,从而提高搜索引擎的查询性能。因此,多元搜索引擎的开发和应用成为目前研究的方向。36按照搜索引擎的体系结构和工作原理分类按照搜索引擎的体系结构和工作原理可以把他们大致归纳为四类1目录索引搜索引擎目录搜索引擎虽然有搜索功能,但是严格意义上不能成为真正的搜索引擎,只是按目录分类的网站链接列表而已。用户完全可以不依靠关键词进行查询而是按照分类去找到需要的信息。目录索引最具代表性的莫过于大名鼎鼎的YAHOO,新浪分类目录搜索网站。2全文索引搜索引擎全文搜索引擎是名副其实的搜索引擎,它们从互联网提取各个网站的信息(网页为主),建立起数据库,并能检索与用户查询条件相匹配的记录,按一定的排列顺序返回结果。国外代表有GOOGLE搜索网站,国内有著名的百度搜索引擎。3元搜索引擎元搜索引擎接受用户的查询请求后,同时在多个通用搜索引擎上搜索,然后对这些结果进行一定的合并处理,最后将结果反馈给用户。因此我们可以看出,元搜索引擎是没有自己的网页数据库的,它也不需要在互联网上进行爬行搜集网页。著名的元搜索引擎有METACRAWLER,SAVVYSEARCH,DOGPILE,VIVISIMO等,中文元搜索引擎中具代表性的是搜星搜索引擎。在搜索结果排序方面有的是直接按来源排序结果,如DOGPILE有的则按自定的规则结果重新排序组合,如VIVISIMO。4其他搜索引擎门户搜索引擎,AOLSEARCH,MSNSEARCH等虽然提供搜索服务,但是自身既没有分类目录也没有网页数据库,其搜索结果完全来自其他搜索引擎。集合式搜索引擎,该搜索引擎类似于元搜索引起过,区别在于它并非同时调用多个搜索引擎进行搜索,而是由用户从提供的若干搜索引擎中选择,如HOTBOT在2002年底推出的搜索引擎。免费链接表,一般只有简单的分类目录,不过规模要比YAHOO等目录索引小的很多。164搜索引擎的原理搜索引擎本身也是一个网站,只是这个网站和一般的网站不同的是一般的网站的数据库中仅存放自己的信息,而搜索引擎的数据库总存放的是其他网站的信息;一般网站仅仅是接受用户的访问,在有请求的时候把自己的网页发送给用户,而搜索引擎不仅要接受用户的请求,还必须根据用户的要求通常称为关键字在庞大的数据库中搜索出符合条件的站点,然后返回给用户。广义来讲获得网站网页,能够遍历数据库并提供查询系统,我们都可以把它叫做搜索引擎。搜索引擎的工作步骤大体分为如下几步1从互联网上抓取网页,利用能够从互联网上自动收集的网页的SPIDER(网路机器人)系统程序,自动访问互联网,并沿着任何网页中的所用URL爬到其他网页,重复这过程,并把爬过来的所有网页收集回来。2建立索引数据库,由分析索引程序对收集回来的网页进行分析,提取相关的网页信息,根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面内容中及超链接中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。3在索引数据库中搜索排序,当用户输入关键字搜索后,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。最后由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。如图41是搜索引擎的工作原理,由图知搜索引擎由搜索层,索引层,检索层,用户接口四个层次构成。图41搜索引擎的工作原理1741搜索器搜索器的功能是在互联网中漫游,发现和搜集信息,它常常是一个计算机程序,日夜不停地运行。它要尽可能多,尽可能快的搜索各种类型的新信息,同时因为互联网上的信息更新很快,所以还要定期更新已经搜集过来的旧信息,以免死链接和无效链接。目前有两种搜集信息的策略从一个起始URL集合开始,顺着这些URL中的超级链接(HYPERLINK),以宽度优先,深度优先或启发式方式循环地在互联网中发现信息。这些信息URL可以是任意的URL,但是常常是一些非常流行,包含很多链接的站点(如YAHOO)。将WEB空间按照域名,IP地址或者是国家域名划分,每个搜索器负责一个子空间的穷尽搜索。42索引器索引器的功能是理解搜索器所搜索的信息,从中抽取出索引项,用于表示文档以及生成文档库的索引表,索引项有客观索引项和内容索引项两种客观索引项与文档的语意内容无关,如作者名,URL,更新时间,编码,长度,链接流行度等等;内容索引项是来反映文档内容的,如关键词及其权重,短语,单字等等。内容索引项分为单索引项和多索引项(或称短语索引项)两种。单索引项对于英文来讲是英语单词,比较容易提取,因为单词之间有天然的分隔符;对于中文等联系书写的语言,必须进行词语的切分。索引表一般使用某种形式的倒排表,即由索引项查找相应的文档。索引表也可能要记录索引项在文档中出现的位置,以便检索器用来计算索引项在文档中出现的位置,以及索引项之间的相邻或者相近的关系。43检索器检索器是搜索引擎的核心部分,检索器的功能是根据用户的查询在索引库中快速检索出文档,进行文档与查询相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制,检索器常用的信息检索模型有集合理论模型,代数模型,概率模型和混合模型四种。44用户接口用户接口的作用是根据用户的输入进行查询,并显示查询结果,提供用户相关性反馈机制。用户接口主要有三种形式命令接口,程序接口和图形接口。由于搜索引擎用户接口主要的目的是方便用户使用搜索引擎,高效率,多方式的从搜索引擎中得到有效的,及时的信息,因此通常都采用网页形式的用户接口。采样网页形式的用户接口还可以避免不用的使用平台带来的兼容性麻烦。用户接口的设计和实现使用人机交互的理论和方法,以充分适应人类的思维习惯。185搜索引擎的应用51商业中的应用搜索和电子商务,并非具有相同的发展历史。互联网自诞生之日,就暗含了信息搜索的这一基本功能,而电子商务则是互联网日渐成熟后展开的商业应用。从提供的服务内容和对象来看,搜索引擎和电子商务平台是两种截然不同的服务搜索引擎满足对互联网海量信息的获取,它面对的是所有互联网的用户,而电子商务则是用信息化的方式降低商业活动的成本,因此它的服务对象并不是所有的互联网用户,而只是对产品有需求的企业或个人。撇开两者的不同,会发现它们又具有共同之处促进商业的发展。搜索引擎能够帮助企业进行网站推广,这是实现电子商务的基础之一;同样,电子商务更为明确纯粹,它本身就是为了开阔商业的发展空间,让其在一个更为快捷,高效,简洁的世界里运行。搜索引擎营销(SEM)是搜索在电子商务领域的重要应用之一,企业可以利用搜索引擎宣传,推广自己的产品以提高公司的市场影响力。基本上有以下四种方式1竞价排名按照付费最高者排名靠前的原则,由客户为自己的网页购买关键字排名,按点击计费的一种服务。客户可以通过调整每次点击付费交个,控制自己在特定关键字搜索结果中的排名,并可以通过设定不同的关键字发掘不同类型的客户。2关键字广告在搜索结果页面显示广告内容,实现高级定位投放,用户可以根据需要更换关键词。相当于在不同页面轮换投放广告。3搜索引擎优化基于搜索引擎检索网页的方法,不断的优化网站的各个元素,是搜索引擎尽可能多的,容易的收录该网站的网页,同时使其在自然检索结果中的排名靠前,最终达到网站推广的目的。目前搜索引擎优化的方法分为黑帽、白帽两大类1白帽法正统的搜索引擎优化途径。他们建议一般是为用户创造内容,而非搜索引擎,是让这些内容易于被蜘蛛机器人搜索,并且不尝试对搜索引擎耍花招。2黑帽法完全用作弊手段进行关键字排名。“黑帽”所用的技术是搜索引擎明确禁止的,并且搜索引擎对网站的作弊行为有跟高的分辨能力。由于我们会在第六章做详细的讲解。52普通用户的应用GOOGLE秉持着“完美的搜索引擎需要做到确解用户之意,切返用户之需”的信念,开发了自己的服务基础结构和PAGERANK技术,使得搜索方式发生了根本性变化。下面以GOOGLE为例介绍搜索引擎的使用技巧19521用户界面介绍GOOGLE用户界面主要包括以下内容1搜索框,搜索按钮,常用的导航元素。2提供高级搜索,帮助说明,检索功能说明链接。3在英文界面可选择过滤不良信息。4提供手气不错按钮,使用偏好,语言工具等按钮。5提供四大功能模块,所有网站,图像,网上论坛,网页目录。6提供搜索所有网站,搜索所有中文网页,搜索简体中文网页等选项。7利用COOKIE才存储页面设定。8可设置检索界面语言,查询信息的语言,每页最多显示记录条数。522基本检索功能GOOGLE通常使用关键词检索,仅需输入查询内容并敲一下回车键或单击“GOOGLE搜索”按钮即可得到相关资料。系统默认检索词之间是AND关系,不需要在关键词之间加上“AND”或“”。(GOOGLE值搜索包含全部查询内容的网页,所以缩小搜索范围的简单方法就是添加搜索词。添加词语后,显示查询结果的范围就会比原来的小,如果要避免搜索某个词语,可以在这个词前面加上一个减号“”,英文字符,但在减号之前必须留意空格。)另外,为了提高搜索速度,GOOGLE忽略“HTTP”,“COM”,“的”等字符以及数字和单字等过于频繁出现的字词,为了减少检索结果的创富现象,GOOGLE不区分字母的大小写,全部默认为小写。另外GOOGLE还支持简繁转换,拼音汉字转换,词干法等检索功能。523高级检索功能为了得到更为准确的搜索结果,GOOGLE提供高级搜索功能,利用上述这些功能可以做到;1将搜索范围限制在某个特定的网站中。2排除某个特定网站的网页3将搜索限制于某种指定的语言4查找链接到某个指定网页的所有网页。5查找与指定网页相关的网页。524其他功能介绍1网页翻译功能(在检索栏输入英文检索词时,每条搜索结果后面会多出一个链接翻译此页BETA),点击该链接可以看到中文翻译的页面。2中英文词典功能只有输入“翻译”或“FY”,以及要翻译的中文或英文单词,就可以实现从中文到英文或从英文到中文的翻译。3查找FLASH文件查找FLASH文件,只需搜索关键词“FILETYPESWF”。4天气查询在检索是输入一个关键词和您要查询的城市地区名称即可。GOOGLE返回的网站链接会带给您最新的当地天气状(“天气”,“TQ”或“TQ”)况和天气预报。5定义在检索是中只需键入“DEFINE”,接着键入一个空格,然后键入您需要其定义的词。6股票查询在检索式中输入一个关键词(“股票”,“GP”或“GP”)和想要查询的股票证券名称或是其刘伟数代码,GOOGLE就会返回其他链接上您只要一次点击便能得到有关股票证劵的详尽资料。7按链接搜索在检索式中键入“LINK”,查询LINK显示所有指向该网址的网页。8指定网域在检索式中键入“SITE”。20525网页快照网页快照是GOOGLE抓下来缓存在服务器上的网页。它有3个作用1如果原地址打开很慢,那么可以直接查看GOOGLE缓存页面,因为GOOGLE服务器速度极快。2如果原链接已经死掉或者是因为网络上的原因暂时链接不通,可以通过GOOGLE快照看到该页面信息。当然,快照内容不是该页面最新页面。3如果打开的页面信息量巨大,一下子找不到关键词所在位置,那么可以通过GOOGLE快照,因为快照中GOOGLE用黄色表明关键字位置。526几种搜索不到的情况搜索引擎没有帮你找到草堆中的那根针,而是给了你整个草堆。通常,这种搜索失败的原因有,第一,你用来搜索的关键词太短了,可能只有一两个字。第二,你要搜索的内容太常见了,以至于网上有巨大数量的相关的内容。第三,网站已搬走,战象地址未知,搜索到的网站已搬走,地址未知。比如有的网页从免费的社区绊倒了有独立域名的大网站了。人们改变了IP了。这种情况下不妨使用你在寻找的文件的标题或者是作者的名字进行搜索也许会有意想不到的惊喜。第四,网页被索引库抛弃,上次能给你搜到的内容,这次却搜不到了,原因是搜索引擎永不停歇的从他们的索引库中抛弃已索引的网页。527由关键字引发的搜索失败占搜索失败的很大比例1由最少的词表达清楚所查信息的主题。2少用修饰词3太长的关键词改用逻辑组合。4确定关键词,不能想要什么输什么5不适用错别字6少用出现频率较高的词7小心使用多义词216搜索引擎优化61搜索引擎优化的概念搜索引擎优化即SEO(SEARCHENGINEOPTIMIZATION)。SEO是指为了从搜索引擎中获得更多的免费流量,从网站结构、内容建设方案、用户互动传播、页面等角度进行合理规划,使网站更适合搜索引擎的索引原则的行为,使网站更适合搜索引擎的索引原则又被称为对搜索引擎友好,对搜索引擎友好不仅能够提高SEO的效果,还会使搜索引擎中显示的网站相关信息对用户来说更具有吸引力。简单来说搜索引擎优化是一种利用搜索引擎的搜索规则来提高目前网站在相关搜索引擎内的自然排名的方式。SEO的目的理解是为网站提供生态式的自我营销解决方案,让网站在行业内占据领先地位,从而获得品牌收益。SEO包含站外SEO和站内SEO两方面。62站内搜索引擎优化621丰富网站关键词为你的文章增加新的关键词将有利于搜索引擎的“蜘蛛”爬行文章索引,从而增加网站的质量。但不要堆砌太多的关键词,应该考虑人们在搜索引擎中找到这篇文章,会搜索的是什么样关键词。这些关键词需要在你的文章中被频繁的提及,你可以遵循下面的方法1关键词应该出现在网页标题标签里面;2URL里面包含关键词,即目录名文件名里放上一些关键词;3在网页导出链接的链接文字中包含关键词;4用粗体显示关键词(至少试着做一次);5在标签中提及该关键词(关于如何运用HEAD标签有过争论,但一致都认为H1标签比H2、H3、H4的影响效果更好,当然有些没有运用HEAD标签的网页也有很高的PR值);6图像ALT标签可以放入关键词;7整个文章中都要包含关键词,但最好在第一段第一句话就放入,建议关键词密度最好在520之间;8在元标签(META标签)放入关键词;9使用一些关键词分析工具,GOOGLE关键词工具和百度推广助手就是经常用到的。还可以通过搜索引擎联想工具来选择关键词。通过这些工具可以分析出关键词在一定时期的搜索量,参考价值很高,站长们可以根据站长们的网站的性质和类别来选择合适的关键词;10以浏览者的身份去考虑关键词。网站SEO的最终目的就是带来流量,如果选择的关键词全部是自己主观的创造,不符合浏览者的搜索思维,这样的关键词即使做上去了也没有任何意义;11分析同行业竞争对手。先研究下竞争对手,看哪些是自己能够模仿超越的,哪些是应该避开竞争的,这样有利于今后网站关键词排名的上升;2212衍生长尾关键词。单靠一个关键词是不可能带来巨大流量的,站长要根据网站内容选择23个长尾关键词进行优化,虽然长尾关键词搜索量不是很大,但是当积聚到一定数量的时候,带来的流量也是相当可观的;13做调查选取关键字;14通过查看统计日志来选取关键字;15将关键词进行多重排列组合;16善于利用地理位置;除此之外,关键词的选择还要注意,尽量不要使用行业通用词,注重关键词的实效性,另外有些词是从百度的相关搜索中过来的,而非用户搜索的关键词。622站点设计1主题网站如果你的网站都是关于同一主题,那么它可能将获得较好的排名。例如一个主题的网站将比那些涵盖了多个主题的网站的排名要高。建立一个200多页的网站,内容都是同一个主题,这个网站的排名就会不断的提升,因为在这个主题里你的网站被认为具有权威性。2站点设计简洁搜索引擎更喜欢友好的网页结构,无误的代码和明确导航的站点。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论