




免费预览已结束,剩余1页可下载查看
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
如何通过垂直搜索引擎构建自己的学术搜索引擎课题背景随着因特网的发展,网上信息资源日益丰富且呈现出以下特点:(1)信息量大而且分散;(2)自治性强;(3)信息资源多种多样;(4)不一致和不完整性。这些给信息挖掘带来了挑战。一方面使其实用性不断加强,越术越多的人从网上获取信息:另一方面,人们经常会感到通过一般的搜索引擎难以找到自己想要的信息,对于具体专业或某一领域的内容尤其如此,如学术文献. 所以,要从Internet上获取有价值的专业信息,就必须有专门的搜索引擎来获取专业性的信息。垂直搜索引擎是针对某一个行业的专业搜索引擎,是搜索引擎的细分和延伸,是对网页库中的某类专门的信息进行一次整合,定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户。垂直搜索是相对通用搜索引擎的信息量大、查询不准确、深度不够等提出来的新的搜索引擎服务模式,通过针对某一特定领域、某一特定人群或某一特定需求提供的有一定价值的信息和相关服务。其特点就是“专、精、深”,且具有行业色彩,相比较通用搜索引擎的海量信息无序化,垂直搜索引擎则显得更加专注、具体和深入。学术搜索引擎学术搜索引擎顾名思义就是搜索学术资源的引擎,资源以学术论文、国际会议、权威期刊、学者为主,随着新一代搜索引擎的快速发展,学术搜索引擎应具备个性化、智能化、数据挖掘分析、学术圈等特色。23垂直搜索引擎的结构本文根据常用的搜索结构,有机地将分类目录式搜索引擎和基于查询串的搜索引擎结合起来,设计了一个垂直搜索引擎的体系结构,如图 所示。其各部分功能简述如下:l、爬虫软件:也称为spider,crawler和robot等,定向搜索各类信息前十名的网站,并负责将这些Web文档搜集到原始数据库中。2、索引器:负责对原始数据库的文档构造索引,并且存储在索引数据库中。索引是检索的有利工具,好的索引机制会导致检索效率的提高。3、检索器:是垂直搜索引擎的核心。检索器利用索引数据库中的索引来查找与用户查询相匹配的文档,计算各个文档和查询关键词的相关度,并将相关度大于阈值的文档按照相关度递减的顺序排列,返回给用户。4、用户接口:提供可视化的查询输入和结果输出界面。一般来说,在输出界面中,垂直搜索引擎将检索结果展示为一个线形的文档列表,其中包含了文档的标题和超链等信息。从图 可以看出:垂直搜索引擎系统包括搜集子系统、索引子系统和检索子系统三个组成部分。231搜集子系统搜集子系统的功能是在互联网中漫游、发现和搜集信息。它常常是一个计算机程序(也称为spider,crawler和robot等),日夜不停地运行。它要尽可能多、尽可能快地搜集各种类型的新信息,同时因为互联网上信息更新很快,所以还要定期访问已经搜集过的旧信息,以避免死链接和无效链接。由于互联网中存在海量信息而且复杂多变,Web搜集器的实现常常采用分布式、并行计算技术,以提高信息发现和更新速度。本文设计的web搜集器能够根据某一类信息需求,从互联网上的各个信息网站(主要是独立制作发布信息的网站),收集围绕着某个(或某类)主题的相关信息资料。它是垂直搜索引擎的核心部分232索引子系统索引予系统包括索引器和索引数据库。索引器将原始数据库的内容重新组织,建立索引数据库,以提高检索效率索引子系统如图27所示。 索引予系统的第一步就是为原始网页建立索引,实现图2-7中索引网页库;接下来对索引网页库进行分析,它包括提取正文信息和把正文信息切分为索引项两个阶段;最后将网页到索引项的映射转化为索引项到网页的映射,形成倒排文件(包括倒排表和索引项表),同时将网页中包含的不重复的索引项汇聚成索引项表。2321索引网页库索引网页库的任务就是完成给定一个URL,在原始网页库中定位到该URL所指向的记录旧。如果不对网页库建立索引信息,可以通过顺序查找的方法完成URL到指定记录的过程,但是会消耗大量的IO,数据量增大的时候不能满足垂直搜索引擎的快速响应要求,所以需要创建索引。对原始网页集R,索引网页库算法描述如图28所示 。网页索引文件以ISAM(索引顺序访问模式)存储。这种结构可以保证数据的紧凑性和O(1)的检索能力。为节省空间,索引文件中的每一行记录不保存文档的长度,因为文档长度可以通过后续文档起始位置偏移和当前文档起始位置偏移的差获得。URL索引文件以ISAM存储,包含了URL的摘要和文档编号。为了能够快速地给指定的URL找到对应的文档编号,URL索引文件按照URL摘要排序,这样就可以根据二分查找算法在URL索引文件中查找到对应的文档编号。2322分析网页分析网页包括提取正文信息和把正文信息切分为索引项两个阶段。形成的结果是文档号到索引项的对应关系表。每条记录中包括文档编号,索引项编号,索引项在文档中的位置信息。提取正文信息是本文研究的重点之一,垂直搜索引擎采用的是基于语法的信息抽取技术,详细内容将在第三章介绍。得到网页正文信息,调用分词程序,获得正向索引。垂直搜索引擎采用的分词算法全二分最大匹配快速分词算法将在第五章详细介绍。2323建立倒排文件垂直搜索引擎面临大量的用户检索请求(几十几千点击秒),要求垂直搜索引擎在检索程序的设计上要高效,尽可能地将大运算量的工作在索引建立时完成,使检索时的运算尽量的少。一般的数据库系统不能快速响应如此大量的用户请求,本文采用倒排索引技术。创建倒排索引包括建立正向索引和反向索引。分析完网页后,得到以网页编号为主键的正向索引表 。当索引建立完成后,得到索引项到网页的编号的反向索引。 这是一个表的重组的过程。倒排文件机制是一种面向索引项的机制,利用它可以提高检索速度。倒排文件结构由索引项和索引项出现情况两部分组成。对于每个索引项,都必须有一个列表(称为词汇表)来记录索引项在所有文本中出现的位置。233检索子系统检索子系统包括检索器和用户接口。用户接口在接收用户的查询请求后,将它转发给检索器,检索器根据查询项和索引数据库的内容,找到匹配的网页后,进行排序,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 私人土地解除合同范本
- 项目推广外包合同范本
- 株洲新房买卖合同范本
- 电脑寄售合同范本模板
- 装修材料进货合同范本
- 门面生意转让合同范本
- 订台布置餐饮合同范本
- 矿山承包施工合同范本
- 砖厂劳务安全合同协议
- 服装物资出售合同范本
- 《结直肠癌早筛早治》课件
- 2024年03月中国工商银行湖南分行2024年度春季校园招考笔试历年参考题库附带答案详解
- 光伏电站施工质量检查及验收规程
- 娱乐场所租赁合同范例
- 纪委谈话记录模板
- 2025年青岛旅游业发展预测及投资咨询报告发展趋势预测
- 智能计算系统:从深度学习到大模型 第2版课件 第七章-深度学习处理器架构
- 《儿科病历书写规范》课件
- 人教版(2024新版)八年级上册物理期末必刷多项选择题50题(含答案解析)
- 新解读《JTG E20-2011公路工程沥青及沥青混合料试验规程》
- 幼儿园大班数学《认识8》
评论
0/150
提交评论