版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、垂直搜索简介2022-5-1主讲内容垂直搜所引擎发展方向垂直搜所引擎发展方向垂直搜索引擎核心技术垂直搜索引擎核心技术垂直搜索引擎特点垂直搜索引擎特点搜索引擎介绍搜索引擎介绍2022-5-1中国网民对各类网络应用的使用率截至2013年12月,中国网民规模达6.18亿。 中国网民对各类网络应用的使用是什么样的呢?2022-5-1搜索引擎简介l搜索引擎是互联网基础服务之一。l帮助我们在浩如烟海的信息海洋中搜寻到自己所需要的信息。 2022-5-1通用搜索引擎u优点:信息量大、更新及时、无需人工干预。u缺点:查询结果相关度较低,返回信息过多,死链接较多,信息无序化。2022-5-1垂直搜索引擎垂直搜索
2、引擎(vertical search engine)也被称为专业搜索引擎,或主题搜索引擎,它专门收录某一方面、某一行业或某一主题内的信息,专为查询某一个学科或某一主题的信息提供检索服务。定义定义2022-5-1垂直搜索引擎优点优点是搜索引擎领域的行业化分工;专、精、深,具有行业色彩;简单 、直观 、智能。 2022-5-1常见的垂直常见的垂直搜索引擎搜索引擎房产类:搜房网旅游类:去哪儿网IT信息类:搜我们招聘类:智联招聘视频类:优酷网2022-5-1垂直搜索引擎特点只涉及某一个或几个领域,词汇和用语的一词多义的可能性降低,可利用专业词表进行规范和控制,从而大大提高查全率和准确率。信息采集量小,
3、网络传输量小,有利于网络带宽的有效利用。索引数据库的规模小,有利于缩短查询响应时间,还可采用复杂的查询语法,提高用户的查询精度。2022-5-1垂直搜索核心技术网页信息抽取2022-5-1爬虫爬虫:爬虫:是一种自动获取网页内容的程序,是搜索引擎的重要组成部分。爬虫按照搜索引擎的不同,又分为通用爬虫通用爬虫和主主题爬虫题爬虫。并且主题爬虫是在通用爬虫的基础上改造而来,因此,在分析垂直搜索中的主题爬虫原理技术之前,先介绍通用爬虫的原理及技术。2022-5-1通用爬虫系统结构主要作用就是分析抓取下来的网页页面,提取页面中的超链接 URL,继续交给后续模块处理;根据人工设定的URL种子,启动爬虫;作为
4、爬虫与因特网的通信接口,通过各种Web协议(通常是 HTTP)进行网页的抓取,而下载后的网页交给后续模块;由于页面分析模块得到的超链接可能存在重复或是无效的情况,因此,该模块就是对这些链接进行过滤;存放经分析后的网页页面的地方。2022-5-1通用爬虫缺点 通用爬虫并不适合面向领域的垂直搜索系统,这是因为通用爬虫的目标在于尽可能多地全网抓取网页,抓取的过程不太关注网页的主题。而垂直搜索系统需要的并非是所有的网页,因而垂直搜索系统的爬虫一般采用的是主题爬虫主题爬虫。主题爬虫也叫专业蜘蛛专业蜘蛛。2022-5-1主题网络爬虫定义 主题网络爬虫主题网络爬虫就是根据一定的网页分析算法过滤与主题无关的链
5、接,保留主题相关的链接并将其放入待抓取的URL队列中,然后根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止。2022-5-1主题爬虫系统结构2022-5-1主题爬虫搜索策略第一代网络爬虫所用的搜索策略主要是基于传统的图图算法算法,如宽度优先或深度优先算法来索引整个Web。 一个核心的URL集被用来作为一个种子集合,这种算法递归的跟踪超链接到其它页面,而通常不管页面的内容,因为最终的目标是这种跟踪能覆盖整个Web。宽度和深度优先搜索策略通常用在通用搜索引擎中,因为通用搜索引擎获得的网页越多越好,无特定的要求。主题爬虫的爬行策略只挑出某一个特定主
6、题的页面。它依据“最好优先原则”进行访问,能够快速、有效地获得更多的与主题相关的页面。2022-5-1广度优先抓取流程2022-5-1深度优先抓取流程2022-5-1主题爬虫URL的处理流程2022-5-1爬虫解析到的URL先保存到等待队列中,在等待队列中的URL按照特定的排序法则进行排序,等候爬虫的抓取。URL正在被抓取时放进抓取队列,目的是防止URL被同时多次抓取。在抓取过程中出错的url保存到错误队列。一个url被爬虫完全抓取之后就将url放进完成队列。网页信息抽取定义 信息抽取是指把信息源里包含的数据进行结构化处理,变成规范的组织形式。Web信息抽取则将 Web文档作为信息源,从半结构
7、化的 Web 文档中抽取数据。2022-5-1目前互联网中大部分数据信息是以 HTML(超文本标记语言)展现的,这种方式的优点是方便显示和适合浏览器浏览,但是 HTML 的不足之处在于数据和表现相混杂,缺乏对数据进行描述。为使应用程序或者用户能更为方便地直接利用 Web中的数据,通过将 HTML 网页中包含的有用的半结构化数据提取出来,然后以结构化的形式表达出来,例如采用 XML 语言来描述,这就是 Web 信息抽取。2022-5-1搜索引擎对页面的分析页面分析首先是对页面(下载到搜索引擎本地的页面-网页快照)建立索引,以实现对页面的快速定位;然后,提取页面的正文信息(过滤掉HTML标签),并
8、对正文信息进行切词以及为这些词(即关键字)建立索引,从而得到页面与关键字的之间对应关系(一个页面对应多个关键字),最后,对所有关键字进行重组,并建立关键字与网页间对应关系的反向索引列表(一个关键字对应多个网页URL),从而实现根据关键字快速定位至相应的网页。(包括:网页索引表、切词后形成的关键字索引表、页面与关键字的一对多的关系列表、重组关键字与页面的一对多的关系列表)。2022-5-1页面分析处理流程2022-5-1页面与关键字关系2022-5-1搜索引擎对页面排序页面排序: 搜索引擎结合页面的内外部因素计算出页面与某个关键字的相关程度,从而得到与该关键字相关的页面排序列表。 影响页面排序因
9、素:页面相关性、链接权重、用户行为等。2022-5-1影响页面排序因素页面相关性:是指页面内容与用户所查询的关键字在意义上的接近程度。主要由关键字匹配度、关键字密度、关键字分布、关键字权重标签等决定。链接权重:链接主要分为内部链接、外部链接两种。某一页面得到的链接(包括内、外部链接)越多,那么该页面的链接权重值就越高。 用户行为:搜索引擎会根据用户对搜索结果的点击次数来对排序结果进行定期改进。2022-5-1索引介绍索引是搜索引擎的核心功能之一,它的结构决定了搜索引擎检索的速度,目前,无论是通用搜索还是垂直搜索,大多数使用的是倒排索引。倒排索引,也称作反向索引,它是一种数据结构,存储字或词语在
10、单个文档或多个文档集合中出现的频率和位置的映射。2022-5-1倒排索引结构2022-5-1倒排索引倒排索引的主要流程为:p建立正向索引,分析网页后,得到以网页编号为主键的正向索引表;p创建反向索引,数据规模增大后可以采用分组索引;p再归并索引的策略。2022-5-1分词的意义 中文分词作为搜索引擎的后台核心功能之一,决定了搜索信息的索引和检索的精度。在搜索引擎建立索引时,写入的索引是一个个的词条。检索也同样如此,用户在输入检索短语或语句后,首先进行分词处理,形成一个个的词条,然后再在索引库中进行查找,是否存在相同的词条。因而好的分词工具将决定一个搜索系统的搜索准确度和精度。2022-5-1中
11、文分词中文分词:指的是将一个汉字序列切分成汉语词组序列。英语单词之间是用空格作为分界符的,而中文在词上无一个明显的分隔符,只在字、句和段落间有分隔符来划分,当然英文中也存在短语划分问题,不过在词的层面上,中文相对于英文来说,划分更复杂和困难。2022-5-1中文分词方法基于字符串匹配的分词方法基于统计模型的分词方法基于理解的分词方法2022-5-1比较成功的中分分词系统ICTCLAS-即中科院计算所汉语词法分析系统,是最早的中文开源分词项目之一。Paoding 分词器-是一个开源中文分词组件,使用 Java 语言编写,并且提供对 Lucene 和 solr 的接口,它采用面向对象设计,具有高效
12、率和扩展性。JE 分词器-基于 Java 语言的开源工具,其接口简单,功能强大,能较好地完成中文分词,而且具有歧义分析功能,添加和删除词典等功能。2022-5-1目录精细化目录精细化向深度挖掘型搜索发展向深度挖掘型搜索发展向交易平台发展向交易平台发展垂直搜索引擎的发展方向2022-5-1目录精细化 与早期的网址分类搜索引擎相似,但垂直搜索引擎只选定了某一特定行业或某一主题进行目录的细化分类,结合机器抓取行业相关站点的信息提供专业化的搜索服务。这种专业化的分类目录(或称主题指南、列表浏览),很容易让用户迅速知道自己要找的是什么,并且按目录点击就能找到。2022-5-1向深度挖掘型搜索发展 深度挖掘型垂直搜索引擎通过对元数据信息进行深度NT,为用户提供网页搜索引擎无法做到的专业性、功能性、关联性,有的加入了用户信息管理以及信息发布互动功能,能很好地满足用户对专业性、准确性、功能性、个性化的需求。专业的元数据属性构造背后需要一个强大专业人士组成的团队。这些专业人士对该领域的元数据模型进行专业的分析、关联整合,再通过搜索技术按这些元数据模型把这些信息组织呈现给用户。2022-5-1向搜索交易平台发展 垂直搜索引擎由于自身对
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论