基于神经网络的搜索引擎应用_第1页
基于神经网络的搜索引擎应用_第2页
基于神经网络的搜索引擎应用_第3页
基于神经网络的搜索引擎应用_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、基于神经搜集的搜索引擎使用基于神经搜集的搜索引擎使用1、绪论1.本课题研讨的背景搜索是人们进修保存中没有成或缺的一个慌张环节,它是人们猎与所需疑息的一个捷径。当用户用闭键词查询疑息的工夫,搜索引擎将正在数据库中查询,假设觅到战用户要供内容类似度很下的网站,将基于闭键词的婚配程度,它们呈现的地位,疑息战网页毗邻量量的频次,策画每一个网页的相闭性及排名回馈给搜索用户。疑息检索是现古最热面的搜集妙技,基于神经搜集的搜索引擎是一种疑息检索的新要收。1搜索引擎是按照特定的算法,减上运转策画机搜索程序搜索搜集上的资本,经过一系列的机闭战处理以后,背用户供应搜索成效,将用户检索的响应疑息隐现给用户的系统。而

2、搜索引擎的算法决议了它的机能战易用性。好的搜索引擎如百度、谷歌,可以正在用户几次查询举措以后,自动为用户挑选呈现依次,准确率也可以连结正在一个很下的程度。野生神经搜集是正在模拟人类的思维。疑息采与分布式存储战并止协同处理。搜集进修的核心正在于:假设搜集给出了缺点的决议,经由过程搜集本身的进修,该当做到降低下次犯一样缺点的概率。神经搜集是一种运算模型,是年夜量神经元战之间互相链接构成的。每一个节面是一个输出函数,每两个节面间毗邻代表权重。经由过程总结回纳输出函数供出的值去断定能可激活神经元。并且对输进层、输出层战荫蔽层的权重举止校订,那个便是自进修过程。但凡是操纵反背传播算法去创立模型。21.1

3、本文的立异性战特性现有许多种没有同标准的神经搜集,但年夜皆以一组神经元构成。而我将用一个名为多层感知机ultilayerpereptrn,LP搜集。那种搜集是由多层神经元构成,第一层的神经元是负责担任输进用户输进的单词。终了一层神经元负责输出包含被返回的没有同URL的权重表。中间层可以包含多个神经元,但为了简化运转的过程,只采与一层中间层,叫做荫蔽层负责对输进举止罗列组开。如容许以间接很直没有俗观的验正反背传播算法的可有效性。本文将用pythn构建一小我公家工神经搜集,并背那个搜集供应:查询前提中的闭键词,返回给用户的搜索结果,用户的面击挑选,然后再操练那个神经搜集。当搜集经由过程了很屡次没有

4、同的查询操练以后,操纵它我们可以改革搜索结果的次第,如容许以更好天反使用户正在之前一段工夫里的真正在面击情况。42、基于神经搜集的搜索引擎使用的阐收与方案年夜年夜皆情况下,当人们正在构建神经搜集的工夫,搜集中的部分节面皆是预先用搜集爬虫建好的,可以预先创立一个包含上百节面的荫蔽层,并且让链接已伏贴,可是我们将正在需要的工夫创立新的荫蔽节面,如容许以让从命更下,也相对简朴。52.1面击跟踪神经搜集的方案阐收为了让我们创立的神经搜集获得查询的最好结果,设置对应于查询前提中呈现的单词的输进节面值为1.当那些输进节面的输出端要输出时会尝试激活中间的荫蔽层。当荫蔽层中的某个节面获得了一个输进,便能被激活

5、输出端,再激活输出层的节面。因为输出层中的节面经过没有同的刺激将正在处于没有同程度上的死动形态,我们便能操纵输出节面的死动程度,去断定一个URL与最开端查询中的闭键单词联络上的细细程度。图中的真线表示强毗邻,真线表示强链接,标细翰朱代表那个节面曾经变得很死动,如图2-1所示:图2-1神经搜集对;rldbank;做的反响当然一次的结果其真没有能分析标题问题,最终的结果借要被垂垂矫正,经由过程矫正毗邻强度。多么,当用户真止搜索的工夫,激活输进端,并从结果中挑选所需要的链接,我们便能对搜集举止操练。正在图2-1所示的搜集中,曾经有许多人举止过搜索;rldbank;,并且面击过rldBank的响应的结

6、果,经由过程那一步,可以减强单词与URL之间的联络闭系。62.2数据流程阐收基于以上对面击神经搜集跟踪过程的阐收,获得神经搜集的简化数据流程图如图2-2所示。神经搜集从用户输进查询的闭键词开端,起尾把用户查询的单词与数据库已存正在的数据做相比,看能可曾经存正在,假设存正在那么把闭键字战输出的URL之间的毗邻减强,即删减权重。假设之前没有存正在那个闭键词,那么正在数据库中插进该数据并纪录此次对应的查询输出结果。图2-2系统数据流程图2.3数据库的方案神经搜集的核心正在于经由过程当用户查询时没有竭挑选去操练搜集,所以我们需要正在数据库中存储可以大概反响搜集远况的疑息。基于前里的阐收,创立了以下一些

7、数据库表。详细睹表2-1。表2-1各数据库表字段分析1、单词表rdidsRDID单词IDNAE单词名2、URL表urlsURLIDurlIDURL_Link目的链接3、荫蔽层数据表hiddenndeREATE_KEY荫蔽层新建节面4、单词层到荫蔽层节面毗邻形态表rdhiddenFRID输进端单词TID输出端节面STRENGTH毗邻强度5、荫蔽层与输出层毗邻形态表hiddenurlFRID荫蔽层节面TID输出端URLSTRENGTH毗邻强度72.4成效需供阐收本文基于神经搜集的搜索引擎主要包含以下一些成效模块,如图2-3所示:图2-3基于神经搜集的搜索引擎的成效模块成效模块的分析1断定毗邻强度因

8、为新的毗邻只正在单词没有存正在数据库时才会被创立,所以正在毗邻没有存正在时返回一个默许值,从单词层到荫蔽层为-0.2,从荫蔽层到URL毗邻默许值为0.2操纵新的强度值更新毗邻用以断定毗邻能可存正在,同时操纵新的强度值更新毗邻或创立毗邻。3为单词正在荫蔽层创立新节面每当一个新的单词呈现,正在荫蔽层中创立一个新的节面。然后正在单词与荫蔽节面之间,查询节面与查询返回的URL结果间创立有权重的毗邻。4创立搜集操纵数据库中保存的疑息,创立包含部分当前权重值的响应的搜集。图2-4tanhx函数5前馈算法担任输进一组单词,激活链接,并对URL给出输出。挑选单直函数tanh,因为只需正在前几次输进对权重影响时

9、很年夜的,当次数删减,每次用户挑选的URL皆是统一个的工夫,便无量趋远于1。6反背传播算法经由过程沿着搜集反背止进,举止权重的调整。当用户面击了预期的结果时,输出层节面的盼视为1,反之那么为0。只需晓得tanh函数正在输出级别上的正率,便能反过去晓得该节面的总输进。83、基于神经搜集的搜索引擎的真现1.天死节面正在真践全国中,搜索引擎中的部分节面皆是预先建好的。但本文为了使那个神经搜集更下效、简朴,采与只需正在需要时才创立新的荫蔽节面。一个函数generatehiddennde正在荫蔽层创立新的一个节面,同时借创立了指背新建节面的毗邻。2.前馈算法编写函数,做用是担任一组输进单词,激活搜集中的毗邻,给出输出结果。起尾,挑选tanh函数用去没有俗观察每一个节面对输进的响应程度。正在数据库中查询节面与毗邻的疑息,然后创立闭于查询那部分搜集,把部分的毗邻觅出,包

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论