




已阅读5页,还剩3页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1外文原文TheAnatomyofaLarge-ScaleHypertextualWebSearchEngineSergeyBrinandLawrencePageComputerScienceDepartment,StanfordUniversity,Stanford,CA943051.IntroductionThewebcreatesnewchallengesforinformationretrieval.Theamountofinformationonthewebisgrowingrapidly,aswellasthenumberofnewusersinexperiencedintheartofwebresearch.Peoplearelikelytosurfthewebusingitslinkgraph,oftenstartingwithhighqualityhumanmaintainedindicessuchasYahoo!orwithsearchengines.Humanmaintainedlistscoverpopulartopicseffectivelybutaresubjective,expensivetobuildandmaintain,slowtoimprove,andcannotcoverallesoterictopics.Automatedsearchenginesthatrelyonkeywordmatchingusuallyreturntoomanylowqualitymatches.Tomakemattersworse,someadvertisersattempttogainpeoplesattentionbytakingmeasuresmeanttomisleadautomatedsearchengines.Wehavebuiltalarge-scalesearchenginewhichaddressesmanyoftheproblemsofexistingsystems.Itmakesespeciallyheavyuseoftheadditionalstructurepresentinhypertexttoprovidemuchhigherqualitysearchresults.Wechoseoursystemname,Google,becauseitisacommonspellingofgoogol,or10100andfitswellwithourgoalofbuildingverylarge-scalesearchengines.1.1WebSearchEngines-ScalingUp:1994-2000Searchenginetechnologyhashadtoscaledramaticallytokeepupwiththegrowthoftheweb.In1994,oneofthefirstwebsearchengines,theWorldWideWebWorm(WWWW)McBryan94hadanindexof110,000webpagesandwebaccessibledocuments.AsofNovember,1997,thetopsearchenginesclaimtoindexfrom2million(WebCrawler)to100millionwebdocuments(fromSearchEngineWatch).Itisforeseeablethatbytheyear2000,acomprehensiveindexoftheWebwillcontainoverabilliondocuments.Atthesametime,thenumberofqueriessearchengineshandlehasgrownincrediblytoo.InMarchandApril1994,theWorldWideWebWormreceivedanaverageofabout1500queriesperday.InNovember1997,Altavistaclaimedithandledroughly20millionqueriesperday.Withtheincreasingnumberofusersontheweb,andautomatedsystemswhichquerysearchengines,itislikelythattopsearchengineswillhandlehundredsofmillionsofqueriesperdaybytheyear2000.Thegoalofoursystemistoaddressmanyoftheproblems,bothinqualityandscalability,introducedbyscalingsearchenginetechnologytosuchextraordinarynumbers.1.2.Google:ScalingwiththeWebCreatingasearchenginewhichscaleseventotodayswebpresentsmanychallenges.Fastcrawlingtechnologyisneededtogatherthewebdocumentsandkeepthemuptodate.Storagespacemustbeusedefficientlytostoreindicesand,optionally,thedocumentsthemselves.Theindexingsystemmustprocesshundredsofgigabytesofdataefficiently.Queriesmustbehandledquickly,atarateofhundredstothousandspersecond.ThesetasksarebecomingincreasinglydifficultastheWebgrows.However,hardwareperformanceandcosthaveimproveddramaticallytopartiallyoffsetthedifficulty.Thereare,2however,severalnotableexceptionstothisprogresssuchasdiskseektimeandoperatingsystemrobustness.IndesigningGoogle,wehaveconsideredboththerateofgrowthoftheWebandtechnologicalchanges.Googleisdesignedtoscalewelltoextremelylargedatasets.Itmakesefficientuseofstoragespacetostoretheindex.Itsdatastructuresareoptimizedforfastandefficientaccess(seesection4.2).Further,weexpectthatthecosttoindexandstoretextorHTMLwilleventuallydeclinerelativetotheamountthatwillbeavailable(seeAppendixB).ThiswillresultinfavorablescalingpropertiesforcentralizedsystemslikeGoogle.1.3DesignGoals1.3.1ImprovedSearchQualityOurmaingoalistoimprovethequalityofwebsearchengines.In1994,somepeoplebelievedthatacompletesearchindexwouldmakeitpossibletofindanythingeasily.AccordingtoBestoftheWeb1994-Navigators,ThebestnavigationserviceshouldmakeiteasytofindalmostanythingontheWeb(onceallthedataisentered).However,theWebof1997isquitedifferent.Anyonewhohasusedasearchenginerecently,canreadilytestifythatthecompletenessoftheindexisnottheonlyfactorinthequalityofsearchresults.Junkresultsoftenwashoutanyresultsthatauserisinterestedin.Infact,asofNovember1997,onlyoneofthetopfourcommercialsearchenginesfindsitself(returnsitsownsearchpageinresponsetoitsnameinthetoptenresults).Oneofthemaincausesofthisproblemisthatthenumberofdocumentsintheindiceshasbeenincreasingbymanyordersofmagnitude,buttheusersabilitytolookatdocumentshasnot.Peoplearestillonlywillingtolookatthefirstfewtensofresults.Becauseofthis,asthecollectionsizegrows,weneedtoolsthathaveveryhighprecision(numberofrelevantdocumentsreturned,sayinthetoptensofresults).Indeed,wewantournotionofrelevanttoonlyincludetheverybestdocumentssincetheremaybetensofthousandsofslightlyrelevantdocuments.Thisveryhighprecisionisimportantevenattheexpenseofrecall(thetotalnumberofrelevantdocumentsthesystemisabletoreturn).ThereisquiteabitofrecentoptimismthattheuseofmorehypertextualinformationcanhelpimprovesearchandotherapplicationsMarchiori97Spertus97Weiss96Kleinberg98.Inparticular,linkstructurePage98andlinktextprovidealotofinformationformakingrelevancejudgmentsandqualityfiltering.Googlemakesuseofbothlinkstructureandanchortext(seeSections2.1and2.2).1.3.2AcademicSearchEngineResearchAsidefromtremendousgrowth,theWebhasalsobecomeincreasinglycommercialovertime.In1993,1.5%domains.Thisnumbergrewtoover60%in1997.Atthesametime,searchengineshavemigratedfromtheacademicdomaintothecommercial.Upuntilnowmostsearchenginedevelopmenthasgoneonatcompanieswithlittlepublicationoftechnicaldetails.Thiscausessearchenginetechnologytoremainlargelyablackartandtobeadvertisingoriented(seeAppendixA).WithGoogle,wehaveastronggoaltopushmoredevelopmentandunderstandingintotheacademicrealm.Anotherimportantdesigngoalwastobuildsystemsthatreasonablenumbersofpeoplecanactuallyuse.Usagewasimportanttousbecausewethinksomeofthemostinterestingresearchwillinvolveleveragingthevastamountofusagedatathatisavailablefrommodernwebsystems.Forexample,therearemanytensofmillionsofsearchesperformedeveryday.3However,itisverydifficulttogetthisdata,mainlybecauseitisconsideredcommerciallyvaluable.Ourfinaldesigngoalwastobuildanarchitecturethatcansupportnovelresearchactivitiesonlarge-scalewebdata.Tosupportnovelresearchuses,Googlestoresalloftheactualdocumentsitcrawlsincompressedform.OneofourmaingoalsindesigningGooglewastosetupanenvironmentwhereotherresearcherscancomeinquickly,processlargechunksoftheweb,andproduceinterestingresultsthatwouldhavebeenverydifficulttoproduceotherwise.Intheshorttimethesystemhasbeenup,therehavealreadybeenseveralpapersusingdatabasesgeneratedbyGoogle,andmanyothersareunderway.AnothergoalwehaveistosetupaSpacelab-likeenvironmentwhereresearchersorevenstudentscanproposeanddointerestingexperimentsonourlarge-scalewebdata.2.SystemFeaturesTheGooglesearchenginehastwoimportantfeaturesthathelpitproducehighprecisionresults.First,itmakesuseofthelinkstructureoftheWebtocalculateaqualityrankingforeachwebpage.ThisrankingiscalledPageRankandisdescribedindetailinPage98.Second,Googleutilizeslinktoimprovesearchresults.2.1PageRank:BringingOrdertotheWebThecitation(link)graphofthewebisanimportantresourcethathaslargelygoneunusedinexistingwebsearchengines.Wehavecreatedmapscontainingasmanyas518millionofthesehyperlinks,asignificantsampleofthetotal.ThesemapsallowrapidcalculationofawebpagesPageRank,anobjectivemeasureofitscitationimportancethatcorrespondswellwithpeoplessubjectiveideaofimportance.Becauseofthiscorrespondence,PageRankisanexcellentwaytoprioritizetheresultsofwebkeywordsearches.Formostpopularsubjects,asimpletextmatchingsearchthatisrestrictedtowebpagetitlesperformsadmirablywhenPageRankprioritizestheresults().ForthetypeoffulltextsearchesinthemainGooglesystem,PageRankalsohelpsagreatdeal.2.1.1DescriptionofPageRankCalculationAcademiccitationliteraturehasbeenappliedtotheweb,largelybycountingcitationsorbacklinkstoagivenpage.Thisgivessomeapproximationofapagesimportanceorquality.PageRankextendsthisideabynotcountinglinksfromallpagesequally,andbynormalizingbythenumberoflinksonapage.PageRankisdefinedasfollows:WeassumepageAhaspagesT1.Tnwhichpointtoit(i.e.,arecitations).Theparameterdisadampingfactorwhichcanbesetbetween0and1.Weusuallysetdto0.85.Therearemoredetailsaboutdinthenextsection.AlsoC(A)isdefinedasthenumberoflinksgoingoutofpageA.ThePageRankofapageAisgivenasfollows:PR(A)=(1-d)+d(PR(T1)/C(T1)+.+PR(Tn)/C(Tn)NotethatthePageRanksformaprobabilitydistributionoverwebpages,sothesumofallwebpagesPageRankswillbeone.PageRankorPR(A)canbecalculatedusingasimpleiterativealgorithm,andcorrespondstotheprincipaleigenvectorofthenormalizedlinkmatrixoftheweb.Also,aPageRankfor26millionwebpagescanbecomputedinafewhoursonamediumsizeworkstation.Therearemanyotherdetailswhicharebeyondthescopeofthispaper.2.1.2IntuitiveJustification4PageRankcanbethoughtofasamodelofuserbehavior.Weassumethereisarandomsurferwhoisgivenawebpageatrandomandkeepsclickingonlinks,neverhittingbackbuteventuallygetsboredandstartsonanotherrandompage.TheprobabilitythattherandomsurfervisitsapageisitsPageRank.And,theddampingfactoristheprobabilityateachpagetherandomsurferwillgetboredandrequestanotherrandompage.Oneimportantvariationistoonlyaddthedampingfactordtoasinglepage,oragroupofpages.Thisallowsforpersonalizationandcanmakeitnearlyimpossibletodeliberatelymisleadthesysteminordertogetahigherranking.WehaveseveralotherextensionstoPageRank,againseePage98.AnotherintuitivejustificationisthatapagecanhaveahighPageRankiftherearemanypagesthatpointtoit,oriftherearesomepagesthatpointtoitandhaveahighPageRank.Intuitively,pagesthatarewellcitedfrommanyplacesaroundthewebareworthlookingat.Also,pagesthathaveperhapsonlyonecitationfromsomethingliketheYahoo!homepagearealsogenerallyworthlookingat.Ifapagewasnothighquality,orwasabrokenlink,itisquitelikelythatYahooshomepagewouldnotlinktoit.PageRankhandlesboththesecasesandeverythinginbetweenbyrecursivelypropagatingweightsthroughthelinkstructureoftheweb.2.2AnchorTextThetextoflinksistreatedinaspecialwayinoursearchengine.Mostsearchenginesassociatethetextofalinkwiththepagethatthelinkison.Inaddition,weassociateitwiththepagethelinkpointsto.Thishasseveraladvantages.First,anchorsoftenprovidemoreaccuratedescriptionsofwebpagesthanthepagesthemselves.Second,anchorsmayexistfordocumentswhichcannotbeindexedbyatext-basedsearchengine,suchasimages,programs,anddatabases.Thismakesitpossibletoreturnwebpageswhichhavenotactuallybeencrawled.Notethatpagesthathavenotbeencrawledcancauseproblems,sincetheyarenevercheckedforvaliditybeforebeingreturnedtotheuser.Inthiscase,thesearchenginecanevenreturnapagethatneveractuallyexisted,buthadhyperlinkspointingtoit.However,itispossibletosorttheresults,sothatthisparticularproblemrarelyhappens.ThisideaofpropagatinganchortexttothepageitreferstowasimplementedintheWorldWideWebWormMcBryan94especiallybecauseithelpssearchnon-textinformation,andexpandsthesearchcoveragewithfewerdownloadeddocuments.Weuseanchorpropagationmostlybecauseanchortextcanhelpprovidebetterqualityresults.Usinganchortextefficientlyistechnicallydifficultbecauseofthelargeamountsofdatawhichmustbeprocessed.Inourcurrentcrawlof24millionpages,wehadover259millionanchorswhichweindexed.2.3OtherFeaturesAsidefromPageRankandtheuseofanchortext,Googlehasseveralotherfeatures.First,ithaslocationinformationforallhitsandsoitmakesextensiveuseofproximityinsearch.Second,Googlekeepstrackofsomevisualpresentationdetailssuchasfontsizeofwords.Wordsinalargerorbolderfontareweightedhigherthanotherwords.Third,fullrawHTMLofpagesisavailableinarepository.5中文翻译大规模的超文本网页搜索引擎的分析SergeyBrinandLawrencePageComputerScienceDepartment,StanfordUniversity,Stanford,CA943051.简介Web给信息检索带来了新的挑战。Web上的信息量快速增长,同时不断有毫无经验的新用户来体验Web这门艺术。人们喜欢用超级链接来网上冲浪,通常都以象Yahoo这样重要的网页或搜索引擎开始。人工维护的网站列表能有效的覆盖受欢迎的流行的站点,但是它具有主观性,建立和维护的代价高,升级慢,不能包括所有深奥的主题。基于关键词的自动搜索引擎通常返回太多的低质量的匹配。使问题更遭的是,一些广告为了赢得人们的关注想方设法误导自动搜索引擎。我们建立了一个大型搜索引擎解决了现有系统中的很多问题。应用超文本结构,提供高质量的查询结果,我们的系统命名为google,取名自googol的通俗拼法,即10的100次方,这和我们的目标建立一个大型搜索引擎较好的符合。1.1网络搜索引擎升级换代:1994-2000搜索引擎技术不得不快速升级跟上成倍增长的网站数量。1994年,第一个Web搜索引擎,WorldWideWebWorm(WWWW)拥有110,000个网页和网站可访问文档的索引。到1994年11月,顶级的搜索引擎声称可以检索到2万(WebCrawler)100万个网络文件(来自搜索引擎监视)。可以预见到2000年,可检索到的网页将超过10亿。同时,搜索引擎的访问量也会以惊人的速度增长。在1997年的三四月份,WorldWideWebWorm平均每天收到1500个查询。在1997年11月,Altavista声称它每天要处理大约20百万个查询。随着网络用户的增长,可以预见到到2000年,自动搜索引擎每天将处理上亿个查询。我们系统的设计目标要解决许多问题,包括质量和可升级性,引入升级搜索引擎技术,把它升级到如此大量的数据上。1.2Google:升级与网络建立一个能够和当今web规模相适应的搜索引擎会面临许多挑战。抓网页技术必须足够快并且保持是最新的版本。存储空间必须高效的存储索引和文档。索引系统必须能够高效地处理上百亿GB的数据。处理查询必须快,达到每秒能处理成百上千个查询。随着Web的不断增长,这些任务变得越来越艰巨。然而硬件的性能和成本也在快速增长,可以部分抵消这些困难。然而,还有几个值得例外,如磁盘的寻道时间,操作系统的效率。在设计Google的过程中,我们既考虑了网络的增长速度,又考虑了技术的更新。Google的设计能够很好的升级处理超大量数据集。它能够高效地使用存储空间来存储索引。优化的数据结构能够快速有效地存取(请参见4.2节)。进一步,我们希望,相对于所抓取的文本文件和HTML网页的数量而言,存储和建立索引的代价尽可能的小(请参阅附录B)。对于象Google这样的集中式系统,采取这些措施得到了良好的系统可升级性。1.3设计目标1.3.1改进搜索质量。我们的主要目标是提高Web搜索引擎的质量。1994年,有人认为建立全搜索索引就有可能很容易找到任何东西。根据BestoftheWeb1994-Navigators,“最佳导航6服务应更容易找到几乎任何在网络上(已经输入的所有数据)。”。然而1997年的Web就迥然不同。任何最近使用搜索引擎的用户很容易证实索索引的完整性并不是唯一影响搜索引擎结果的因素。用户感兴趣的搜索结果往往被“垃圾结果”淹没。实际上,到1997年11月为止,四大商业搜索引擎中只有一个能够找到它自己(使用自己的搜索自己的名字时返回的前十个结果中有它自己)。导致这一问题的主要原因是文档的索引数目增加了好几个数量级,但是用户能够看的文档数却没有增加。人们仍然只希望看前面的几十个搜索结果。因此,当集合增大时,我们就需要高精确度的工具(在返回的前几十个结果中,相关文档的数量)。由于是从成千上万个有点相关的文档中选出几十个,实际上,我们希望相关的概念就是指最好的文档。高精确非常重要,甚至以响应(系统能够返回的有关文档的总数)为代价。令人十分乐观的的是利用超文本链接提供的信息有助于改进搜索和其它应用Marchiori97Spertus97Weiss96Kleinberg98。尤其是链接结构和链接文本,为相关性的判断和高质量筛选提供了大量的信息。Google既利用了链接结构又用到了链接文本(请参见2.1和2.2节)。1.3.2搜索引擎的学术研究除了发展迅速,Web越来越商业化。到1993年,只有1.5%的网络服务是来自.com域名。到1997年,增长超过了60%。同时,搜索引擎从学术领域走进商业。到现在大多数搜索引擎被公司所有,很少发布技术细节。这就导致搜索引擎技术很大程度上仍然是暗箱操作,并倾向做广告(请参阅附录A)。对于Google来讲我们有一个的主要目标是推动学术领域在此方面的发展和了解。另一个设计目标是给适合数目的人们一个实用的系统。对我们来说应用十分重要,因为一些研究表明,现代网络系统中存在大量的有用数据。例如,每天有数千万个查询被执行。然而,获得这些数据却非常困难,主要因为它们被认为有商业价值。我们的最终设计目标是构建一个体系结构,可以支持大型Web数据上的一种新的研究活动。为了支持新研究,Google以压缩的形式保存了实际所抓到所有的文档。我们设计Google的主要目标之一就是要建立一个环境使其他研究者能够很快进入这个领域,处理海量网络数据,得到满意的结果,而通过其它方法却很难得到。系统在短时间内被建立起来,已经有几篇论文用到了Google建立的数据库,更多的在起步中。我们的另一个目标是建立一个宇宙空间实验室似的环境,在这里研究人员甚至学生都可以对我们的海量网络数据设计或做有趣的实验。2.系统功能Google搜索引擎有两个重要功能,帮助它产生高精度的搜索结果。首先,应用Web的链接结构计算每个网页的质量等级值,这个等级称为PageRank,将在98页详细描述它。第二点,Google利用超链接改进搜索结果。2.1PageRank:带来网页排序网络的引用(链接)图形是重要的资源,却没有被现有的大多搜索引擎使用。我们建立了一个包含518百万个超链接的图,它是一个具有重要意义的样本。这些图能够快速地计算网页的PageRank值,它是一个客观的标准,较好的符合人们主观的对一个网页重要程度的评价,由此对应的是,PageRank值是一个较好的区分通过网络搜索关键字获得的结果的方法。建立的基础是通过引用判断重要性。对于大多
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 美丽健康产业园基础设施项目(大圆坑整治工程)可行性研究报告
- 电子商务网络安全考点梳理
- 急救护理 应对突发状况的关键技能培训
- 武乡辅警考试题库2024
- 统编版七年级下册语文期中复习:现代文阅读 试题汇编(含答案解析)
- 中原海口市场概况分析
- 雕塑与花卉的融合美学-洞察阐释
- 色彩在物理治疗中的辅助作用-洞察阐释
- 食用菌产业在全球化背景下的市场分析与合作策略-洞察阐释
- 河北省统考卷-2025年全国中考英语模拟试题压轴金卷(解析版)
- 校园食品安全与卫生督导长效机制研究
- 2025年1月浙江省普通高校招生选考科目高考英语真题试卷(浙江卷 含答案)
- 【MOOC】电工电子学-浙江大学 中国大学慕课MOOC答案
- 2024年重庆市初中学业水平考试生物试卷试题真题(含答案详解)
- 防汛物资台账参考模板范本
- 手足口病护理查房ppt
- 建筑工程全套作业指导书模板
- 部编版四年级下册语文第七单元习作指导 课件 (共10张PPT)
- 湖北省普通高等学校招生考生体格检查表
- 英文学术报告范例-文档资料
- 广东省广州市天河区人民法院
评论
0/150
提交评论