基于知识图谱的搜索引擎技术研究及应用_第1页
基于知识图谱的搜索引擎技术研究及应用_第2页
基于知识图谱的搜索引擎技术研究及应用_第3页
基于知识图谱的搜索引擎技术研究及应用_第4页
基于知识图谱的搜索引擎技术研究及应用_第5页
已阅读5页,还剩67页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、论文题目 基于知识图谱的搜索引擎技术研究及应用 专业学位类别 学 号 * 作 者 姓 名 * 指 导 教 师 * 摘要 I 摘 要 互联网的迅速普及以及数字信息的爆炸式增长带来了宝贵的信息数据财富, 尽管这些数据已经被分门别类,但是从成千上万的类别及其子类中检索有效信息 对于搜索引擎也是较大的挑战。传统的搜索引擎通过对互联网中的数据进行全文 索引,通过关键词匹配索引的方式进行信息检索并返回给用户相关的链接。这种 检索方法不能准确理解用户的需求,同时返回的是相关链接而不是用户需要的信 息,用户需要从链接的文档中查找相关的信息。为了改善上述传统搜索引擎的弊 端,基于知识的搜索引擎引起了研究者和产业

2、界的广泛关注。其主要思想是通过 在互联网中进行数据获取,完成数据到知识的转变形成知识网络并提供信息检索 功能。 本文研究特定领域内的该类型搜索引擎的搭建相关理论及实现方法,希望通 过该搜索引擎能够提供特定领域内的实体查询,即通过深度理解用户需求,从实 体库中检索出相关实体返回给用户。围绕搭建领域内基于知识图谱的搜索引擎, 研究基础搜索引擎框架,网络爬虫,数据索引,知识抽取,图谱模型等关键技术, 主要工作包括: (1)提出一种基于本体库的知识抽取方法。通过领域内的本体库,判断从 互联网中抓取的数据是否是领域内相关的实体,并从数据中抽取出实体相关的知 识碎片,最后融合知识碎片形成领域内的知识。实验

3、证明,这种方法的知识抽取 相比传统的基于规则的抽取方法抽取范围更为确定,抽取的知识也较为准确。 (2)提出一种基于 Lucene 的增量索引方法。通过分析 Lucene 框架以及 Lucene 的倒排索引和段合并机制,研究 Lucene 索引实体数据时性能较差的缺点, 提出了通过多级索引文件代替索引库的索引方法,实验证明这种方法能够在一定 程度上降低实时更新索引库时的耗时且对于检索请求响应更为敏捷。 (3)实现了一个“机器学习”领域内的搜索引擎,用来提供相关实体的检 索,其中实体主要包括文献,专家,期刊以及领域内相关概念。该搜索引擎以图 谱的形式组织领域内的实体以及实体之间的语义网络,不仅提供

4、了信息检索功能, 通时提供了更加智能的结果排序以及相关推荐等功能。 关键词:关键词:搜索引擎 知识图谱知识抽取实体索引本体库 ABSTRACT II ABSTRACT With the rapid spread of Internet and explosive growth of digital information, the internet has brought a wealth of valuable information data, although these data have been categorized, but retrieve useful informatio

5、n from thousands of classes and subclasses still can be a big challenge. Traditional search engines via full-text indexing of data from the Internet, and return links of related documents or web pages by matching key words. This kind of search engines can not accurately understand the need of users,

6、 followed by the return of links rather than directly information needed of the users, users still need to find the information they need from the linked documents. In order to improve the above drawback of traditional search engines, Knowledge-based search engines is widely used and the main idea o

7、f this kind of search engine is through crawling data from web and translate data to knowledge and then form the knowledge graph, finally use this knowledge graph to provide information retrieval. Related theories and methods on building this search engine of specific domain are the main research wo

8、rks in this paper, hoping that this kind of search engine can provide entity retrieval which is through understand the need of users in-depth, and retrieve related entities from the entities library and then return those to users. In this paper, research key technology such as: base search engine fr

9、amework, web crawl, data index, knowledge mining and graph model around building knowledge-based search engine. Main contents in this paper include: This paper proposed an Ontology-based knowledge extraction method. With domain ontology determining whether data crawled from web is domain related and

10、 extracting knowledge debris from web data then form domain knowledge is much more easier. Besides, Ontology can be used to analyzing users need, with relationships between words, Ontology can understand what user want to get from the web. Experience proved that Ontology-based knowledge extraction i

11、s much more accurate because of it can reduce arrange of mining contents then traditional rule-based knowledge extraction method. Another creative content in this paper is that proposed an incremental-index indexer based on LUCENE. By analyzing the framework of LUCENE and its inverted index , segmen

12、ts consolidation mechanism, proposed that use multilevel index file replace ABSTRACT III traditional index library to reduce time used of indexing data by LUCENE. Experience proved that use improved indexer can reduce time consuming in real-time update data indexing and information retrieval. In thi

13、s paper, an search engine based Machine Learning is achieved, which providing access to relevant entities retrieval such as: documents, authors, papers and conceptions in this domain. This search engine use knowledge graph linked all entities in this domain and relationships between them, it not jus

14、t provide information retrieval, besides, it can be used for information recommendations and more intelligent result sort. Because of its contains all entities of domain, and relations between them, Knowledge- based search engine is not just for information retrieval, it is more like an auto build e

15、xpert system that can be used for information retrieval, because it is much more smart and accurate. Keywords: Search engine,Knowledge Graph,Knowledge Extraction,Ontology 目录 IV 目 录 第一章 绪论.1 1.1 研究工作的背景与意义.1 1.2 基于知识图谱的搜索引擎技术研究现状.2 1.2.1 搜索引擎研究现状.2 1.2.2 知识图谱研究现状.3 1.2.3 基于知识图谱的搜索引擎研究现状.4 1.3 论文的主要研究

16、内容.4 1.4 论文的结构安排.5 第二章 基于知识图谱的搜索引擎相关技术.6 2.1 基于知识图谱技术的搜索引擎体系结构.6 2.2 爬虫及垂直搜索引擎技术.7 2.2.1 爬虫技术.8 2.2.2 索引及检索技术.12 2.3 知识图谱技术.14 2.3.1 知识图谱模型.15 2.3.2 Web 中的实体抽取技术 .16 2.3.3 知识表示技术.17 2.4 基于知识图谱的信息检索模型.20 2.5 本章小结.21 第三章 基于本体库的知识抽取及图谱构建技术.22 3.1 领域内本体库的构建技术.22 3.2 基于本体库的实体数据抽取技术.24 3.2.1 实体表示.24 3.2.2

17、 实体信息挖掘.28 3.3 基于 Neo4j 的图谱搭建技术.30 3.3.1 数据更新.31 3.3.2 数据检索.32 3.4 实验与分析.33 3.4.1 实验数据.33 3.4.2 本体库构建.34 目录 V 3.4.3 实体抽取.34 3.4.4 图谱搭建.34 3.5 本章小结.37 第四章 基于增量索引技术的 LUCENE 索引器.38 4.1 Lucene 索引器.38 4.2 索引实体数据.39 4.2.1 倒排索引.39 4.2.3 索引实体数据.41 4.3 基于增量索引的索引技术.43 4.4 实验与分析.46 4.5 本章小结.48 第五章 基于知识图谱的搜索引擎实

18、现.49 5.1 构建搜索引擎.49 5.1.1 爬虫Scrapy.49 5.1.2 数据检索Solr .52 5.2 构建知识图谱.55 5.3 基于知识图谱的检索结果排序.57 5.4 基于知识图谱的信息推荐.58 5.5 本章小结.58 第六章 总结与展望 .59 6.1 全文总结.59 6.2 后续工作展望.60 致 谢.61 参考文献.62 攻读研究生期间的成果.66 第一章 绪论 1 第一章 绪论 1.1 研究工作的背景与意义 互联网的迅速普及以及数字信息的爆炸式增长带来了宝贵的信息数据财富, 尽管这些数据已经被分门别类,但是从成千上万的类别或其子类中检索有效信息 对于搜索引擎也是

19、一个较大的挑战。CNNIC(中国互联网信息中心)第 36 次 中国互联网大战状况统计调查报告中指出:截止 2015 年 06 月中国网民的规 模达 6.68 亿,互联网普及率达 48.8%;同时该报告也指出中国网站数量升至 357 万个,2014.122015.06中国网民各类互联网应用的使用率报告中指出搜索 引擎在 2015 年 06 月的用户规模达到 55467 万,占网民使用率的 80.3%。报告显 示搜索引擎对于网民日常生活中的重要性越来越明显,因此信息检索技术的快速 发展有利于中国互联网行业的快速崛起,并对提供给越来越多的互联网用户良好 的信息检索体验具有较大的意义。 浩如烟海的数据

20、给信息检索(Information Retrieval)带来的挑战主要体现在 Web 数据的海量性,异构性,动态性,内容多样性。目前,基于 Web 的搜索引 擎是信息检索技术的主要解决方案,如 Google、Baidu、Bing 等搜索引擎,在互 联网的快速发展的带动之下也得到了很大的发展,广大的网民通过搜索引擎可以 很方便的在海量的 Web 中检索出所需要的信息。目前流行的搜索引擎框架是通过 索引主要网页中的内容,基于匹配用户的搜索请求中的关键词反馈给用户相关的 Web 网页链接,这种解决方案目前在精确度以及召回率方面可以很好的满足用户 的体验需求。 搜索引擎基于用户的搜索请求返回给用户相关

21、的 Web 网页链接的模式给互联 网信息检索带来了极大的便利。但是该模式仍旧存在缺陷,搜索引擎返回的结果 形式较为单一,不能基于用户的搜索请求直接提供准确的信息,用户仍需要根据 其提供的链接,在网页中查找所需要的信息。互联网用户希望搜索引擎可以根据 其搜索请求直接给出相关实体(Entity)的信息以及与该实体相关的实体信息。 如用户在搜索引擎中搜索“电子科技大学”,用户更可能想要获取该学校的学院 分布、专业分布、学校的地址、联系方式、历史、知名校友、校长等信息;而不 是希望仅仅得到相关的网页链接。搜索引擎需要进一步对 Web 网页内容进行实体 信息挖掘,并以一种良好的结构表示该部分的知识并高效

22、的对挖掘的知识进行索 引。用户基于该部分的知识可以较快,较便捷的检索出最需要的信息,搜索引擎 并在此基础之上能提供相关实体之间的语义关系,最终形成结果之间的知识网络。 电子科技大学硕士学位论文 2 基于上述的需求可以看出,用户希望通过搜索引擎可以快速的直接检索出最 需要的信息,而不是通过其提供的网页在进行信息检索。互联网用户对于搜索引 擎的需求以及依赖越来越强,希望搜索引擎提供的功能要求也越来越高。如何有 效的从海量的 Web 网页中抽取(Information Extraction)出实体信息并有效的表 示该部分的知识(Knowledge Representation)并形成知识网络以及高效

23、的信息索 引技术对于搜索引擎的发展越来越重要。 本文研究 Web 网页中的实体信息挖掘并抽取出知识碎片,构成表示实体的知 识,最终在根据知识之间的语义关系形成知识网络;以及高效的实体数据索引方 法用于索引知识网络中的实体知识。基于抽取的知识为搜索引擎提供支持,使得 我们的搜索引擎可以根据用户的搜索请求直接反馈给用户最需要的实体信息以及 相关的实体信息。本文围绕基于知识图谱的搜索引擎,研究相关技术。该类型的 搜索引擎已经成为业内的研究热点并引领了一波发展高潮,深入的研究相关技术 具有较高的现实意义。 1.2 基于知识图谱的搜索引擎技术研究现状 1.2.1 搜索引擎研究现状 第一代基于万维网的搜索

24、引擎 Web-Crawler 与 1994 年在美国诞生,初期搜索 引擎主要是通过匹配和排序文档内容信息的方式,其中典型的模型包括布尔模型, 模糊集合模型,向量空间模型以及概率检索模型。1994 年底,Yahoo 以及 Excite、AltaVista、Search 等公司的兴起引领了第一代搜索引擎的快速发展1。 初期的搜索引擎主要分为全文式搜索和目录式搜索两类,其搜索效率以搜索结果 的数量作为唯一的考核指标。数据表明:在当时的 11 个全球的主要搜索引擎, 仅仅能够查询到万维网中 16%的页面,其中的原因主要是由于搜索引擎不能及时 更新万维网中更新的数据。 第二代搜索引擎与 1998 年随着

25、 Google 的出现而诞生。第一代搜索引擎中的 巨头 Yahoo 也与 2004 年推出了 YISO。国内的百度取代了新浪、搜狐等传统的门 户巨头成为了国内第二代搜索引擎中的领先者。第二代搜索引擎主要基于网络爬 虫机器人的数据自动抓取、建立超链分析,在网页获取以及网页更新的及时反馈 上的效率有了大幅度的提高,很大幅度上提高了搜索引擎的查全率以及检索速度。 2003 年开始,在搜索引擎经历了 5 年的发展之后。随着计算智能,数据挖掘 领域的快速发展和广泛应用,搜索引擎领域提出了第三代搜索引擎的概念:对万 第一章 绪论 3 维网中的网页进行更加全面的分析和更加深度的数据挖掘,使得其不仅可以产生

26、更多的结果,而且使得结果更加人性化、智能、精确。这代搜索引擎目的是让搜 索引擎可以更深入的理解用户的需求,并产生更加符合用户期望的结果。 第三代搜索引擎之后,又出现了以互动搜索,多模搜索,移动搜索等为中心 的新的发展高潮。多模交互搜索时指搜索引擎应用到更加广泛的领域内,如图片、 视频等多媒体的搜索以及返回结果格式的多样化:结果不仅仅是相关的链接,其 中更包括了图片,视频等格式。其中,移动搜索随着移动客户端对于搜索引擎的 需求应运而生,移动搜索给用户提供了更好的体验,使得用户可以更加便捷的进 行信息检索。 2012 年,Google 首先提出了以知识图谱2(Knowledge Graph)为基础

27、的新一 代搜索引擎,带领了一波新的发展高潮,这类搜索引擎的主要思想是:抓取网络 数据进行知识碎片的抽取,经过知识碎片的融合形成能够代表实体的知识,实体 与实体之间的语义关系构成了知识网络,该类型的搜索引擎建立在知识网络之上。 新的搜索引擎可以很好的理解用户的需求,并且能够为用户提供更智能,精确的 信息,国内的百度“知心”,搜狗“知立方”等中文搜索引擎巨头也与 2013 年加入 到这一新的技术路线中3。 1.2.2 知识图谱研究现状知识图谱研究现状 万维网中的网页包含了海量的数据信息,但是如何自动的从大数据中进行知 识表示和知识抽取被证明是一个很大的挑战。构建领域内或者全网的知识图谱对 于很多企

28、业或者科研单位来说是一项很重要的工作,目前基于知识图谱的研究进 展的如火如荼,很多知名的领域内信息抽取系统都已经被使用,包括 Never- Ending 语言学习系统(NELL)4 、Open-IE5、以及 Google 在知识图谱的工作6 。Google 使用了大量的技术从 web 中抽取知识碎片并通过知识融合和实体对其技 术构成以事实,概念为实体的知识,这些事实或者概念之间存在着很多语义关系, 实体以及语义关系构成了知识图谱。 自 2012 年 Google 提出了知识图谱(Knowledge Graph)的概念之后,知识图谱 在各个领域内得到了广泛额使用,最主要的是和搜索引擎相关的使用,

29、在文献78中 分别介绍了几个使用知识图谱作为领域内的搜索引擎原数据的数据组织形式。文 献9介绍了一个通过知识图谱来构建结构化的人类知识系统。文献10中介绍了一 种通过知识图谱的方式来实现中英文翻译的系统。 随着信息积累以及信息抽取技术的日益完善和成熟,具有海量实体数据的系 统或者企业越来越多,如何有效的应用这些信息也成为了一个很大的挑战,如今 电子科技大学硕士学位论文 4 知识图谱概念的产生以及逐渐成熟的技术给上述挑战带来发展的契机,基于知识 图谱的应用不仅仅从刚开始的情报分析搜索引擎领域,同时知识图谱也越来越多 的应用到其他的领域。 1.2.3 基于知识图谱的搜索引擎研究现状基于知识图谱的搜

30、索引擎研究现状 2012 年,Google 在官方宣布:为了让用户能够更快,更简单的发现新的信息 和知识,Google 搜索发布了知识图谱(Knowledge Graph) 。知识图谱首先从 Freebase、Wikipedia 以及全球概览中获得专业的数据,并通过知识抽取,融合等 技术将数据转变为能代表实体的知识,利用知识之间的语义关系构成知识图谱, 同时还通过大规模的信息搜索分析来提高搜索结果的深度和广度。2012 年 5 月, Google 的 KG 中已经包括了 5 亿个实体或者概念,包括了 35 亿条实体和实体或 者实体与概念之间的关系,并将该图谱应用在其搜索引擎中。2013 年,百

31、度提出 了中文的知识图谱“知心”,实体挖掘除了通过百度百科,互动百科还通过搜索 日志来发现新的实体属性从而在网页中抓取分析新的知识,通过从各种半结构化 的数据中抽取相关实体的属性-值来丰富实体信息。同时,搜狗的“知立方”等其他 产品也加入了搜索引擎的下一代发展的路线中。除了一些搜索引擎巨头,很多其 它领域或者企业开始应用知识图谱的形式组织各自的信息资源,便于提供更高效 率的检索和查询功能。 知识图谱在搜索引擎中的应用使得搜索引擎可以更好的理解用户的需求,并 且能够提供给用户更加智能,精确,人性化的结果;随着信息数据量的快速增长, 信息查询与检索在各个领域的重要性也越来越明显,开发高质量的搜索引

32、擎在各 个领域越来越重要。 1.3 论文的主要研究内容论文的主要研究内容 本文围绕搭建领域内基于知识图谱的搜索引擎这一目标,研究本体库、搜索 引擎框架、知识表示以及图谱搭建等相关技术。其中主要研究内容可以概括如下: 1)基于本体库的知识抽取 通过构建领域内的本体库,实现了领域内实体范围的划分。结合本体库,便 于识别网页中的实体或者概念,并且能够高效的获取实体与实体或者实体与概念 之间的语义关系。 2)基于图谱的知识表示 通过本体库获取到的实体以及它们之间的语义关系以知识图谱的形式组织、 第一章 绪论 5 存储。知识图谱主要应用于搜索引擎,便于其提供更精确的查询结果,同时知识 图谱可以为推荐,分

33、类以及结果排序等数据挖掘提供便利。 3)基于增量索引的实体数据索引方法 Lucene 为搜索引擎提供了数据索引框架。其优点是全文索引的效率很高,能 够高效的实现数据(文档)的全文索引,但是在索引实时更新的数据时,其在索 引文件中添加新的索引时效率较低。在 Lucene 框架的基础之上,研究基于增量 索引的索引方法,以提高实体数据的索引效率。 4)基于知识图谱的搜索引擎模型以及结果排序,推荐模型 知识图谱不仅仅可以提供数据检索功能,而且知识图谱中的数据是现实中实 体信息以及实体之间的语义关系的表示,基于知识图谱的结果排序、推荐等模型 相比传统方法具有更高的事实理论依据。 1.4 论文的结构安排

34、本文的内容组织结构安排如下: 第一章 绪论,综述了基于知识图谱的搜索引擎的研究背景和意义,指出了 传统搜索引擎中存在的缺陷,分析了搜索引擎以及知识图谱的研究现状等问题, 最后给出了本论文的研究内容和创新点,以及论文的结构安排。 第二章 基于知识图谱的搜索引擎的相关技术和理论的介绍,包括爬虫、索 引和检索模型、本体库、知识图谱模型等基于知识图谱的搜索引擎相关技术。 第三章 研究 web 数据中知识抽取以及图谱搭建等相关技术,提出了一种基 于本体库的实体数据挖掘以及基于 Neo4j 的知识图谱搭建方法。 第四章 研究 Lucene 框架,针对其在索引实体数据时效率较低的缺点,提出 了一种基于 Lu

35、cene 的增量索引算法。 第五章 基于“机器学习”领域内的相关实体,实现了一个该领域内基于知识图 谱的搜索引擎。本章内容主要包括构建搜索引擎模型,构建知识图谱,基于知识 图谱的检索结果排序以及基于知识图谱的相关推荐模型。 第六章总结了全文的研究内容,并对基于知识图谱的搜索引擎技术领域的前 景以及未来的研究工作进行了展望。 1 张立彬, 杨军花, 杨琴茹. 第三代搜索引擎的研究现状及其发展趋向探析J. 情报理论与 实践, 2008, 31(5): 785-789. 2 Singhal A. Introducing the knowledge graph: things, not strings

36、J. Official Google Blog, May, 2012. 电子科技大学硕士学位论文 6 3张静, 唐杰. 下一代搜索引擎的焦点: 知识图谱J. 中国计算机学会通讯, 2013, 9(4). 4 Carlson A, Betteridge J, Kisiel B, et al. Toward an Architecture for Never-Ending Language LearningC/AAAI. 2010, 5: 3. 5 Banko M, Cafarella M J, Soderland S, et al. Open information extraction for

37、 the webC/IJCAI. 2007, 7: 2670-2676. 6 Pasca M, Lin D, Bigham J, et al. Organizing and searching the world wide web of facts-step one: the one-million fact extraction challengeC/AAAI. 2006, 6: 1400-1405. 7 Corby O, Zucker C F. The KGRAM abstract machine for knowledge graph queryingC/2010 IEEE/WIC/AC

38、M International Conference on Web Intelligence and Intelligent Agent Technology. IEEE, 2010: 338-341. 8 Acoustics, Speech and Signal Processing (ICASSP), 2013 IEEE International Conference on. IEEE, 2013: 8327-8331. 9 Bollacker K, Evans C, Paritosh P, et al. Freebase: a collaboratively created graph

39、 database for structuring human knowledgeC/Proceedings of the 2008 ACM SIGMOD international conference on Management of data. ACM, 2008: 1247-1250. 10 Wang Z, Li J, Wang Z, et al. Xlore: A large-scale english-chinese bilingual knowledge graphC/Proceedings of the 2013th International Conference on Po

40、sters i500) writer_Fixed1.addDocument(doc); writer_Fixed1.addIndexes(directory_fixed_ramd); writer_Fmit(); writer_Fixed2.deleteAll(); writer_Fixed2.close(); writer_Fixed2 = new IndexWriter(directory_fixed_ramd,new IndexWriterConfig(Version.LUCENE_30,analyzer); else writer_Fmit(); writer_Fmit(); writ

41、er_Fmit(); 电子科技大学硕士学位论文 50 通过分析实体数据的格式,首先给出了实体数据的索引 Field 的定义。下图中 主要定了文献中的标题,作者,分类,关键词,摘要以及所属期刊。 图 4-9实体模式 本节中的实验主要包括三部分的内容:两种不同的索引器索引不同数量级的 数据花费时间对比,两种不同的索引器在不同的文档更新速度下的索引时间对比 以及两种索引器情况下进行的实时检索花费时间的对比。 00.511.522.533.54 x 10 4 0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5 x 10 4 txt number time/ms 于 于 Lucene于 于

42、于 于 于 于 于 于 于 于 于 于 图 4-10索引不同数量级的数据花费时间对比 图 4-10 中黑色代表的是传统的索引器在索引不同数量实体所花费的时间,红 色代表的是基于增量索引技术的索引器索引不同数量实体所花费的时间。由上图 可知,索引数据某些数量级的实体时花费的时间较多,可能导致这种情况的因素 是机器或者段合并。除去这些情况不予考虑之外,上图结果显示改进后的算法在 检索不同数量级的实体比传统的方法在效率上有一定程度的改进,说明改进后的 第四章 基于增量索引技术的 Lucene 索引器 51 算法在检索数据上的效率是有所提升的。 00.511.522.533.5 x 10 4 0 10

43、00 2000 3000 4000 5000 6000 7000 txt number/s time/ms 于 于 Lucene于 于 于 于 于 于 于 于 于 于 于 图 4-11不同文档更新速度索引数据花费时间对比 图 4-11 中黑色和红色分别代表了传统的索引器和改进后的索引器在不同文档 跟新速度下索引数据花费时间的对比,由该图可知,改进后的索引器在效率上有 一定程度的提升。 4.5 本章小结 本章首先介绍了开源索引器 Lucene 中索引和查找两部分的框架以及原理,其 次介绍了 Lucene 索引器中的倒排索引以及段合并的机制,并在分析了 Lucene 在 索引实体数据方面的缺点之后

44、,提出了一种基于增量索引的 Lucene 索引器。本 章实验部分在索引不同数量级的数据花费时间,不同文档更新速度索引数据花费 时间以及不同索引器下的检索时间三个方面介绍了两种不同的索引器,通过分析 实验结果给出了改进后的索引器在三个方面比传统的索引器有所改进的结论。 电子科技大学硕士学位论文 52 第五章 基于知识图谱的搜索引擎实现 随着互联网中的信息爆炸式增长,信息检索对于互联网用户来说越来越不可 缺少。搜索引擎自 1994 年开始历经了五代的发展也越来越成熟,很多优秀的开 源框架也为很多用户提供了搭建搜索引擎的方便。如今,搜索引擎还主要是基于 全文检索进行数据查询的,主要是通过对全网中的页

45、面进行抓取,索引,检索。 但是,随着信息技术的发展,越来越多的企业积攒了很多具有重要意义的数据, 一些可以用来表示一种实体或者概念的数据,且这些数据之间显式的或者隐式的 存在一些关系;这些用户希望通过搜索引擎可以检索出以实体为单位且查询结果 能够反映出实体之间的关系。知识图谱为这一需求提供了契机,基于知识图谱的 搜索引擎是通过构造实体之间的关系,并对这些数据和关系进行索引,同时利用 语义方面的及时提供基于实体的检索工具。本章中,介绍了实现该类型搜索引擎 的主要流程以及通过该类型的搜索引擎可以进行哪些深层次的数据分析。 5.1 构建搜索引擎 本文中基础搜索引擎的搭建使用 Scrapy 框架和 Solr 框作为基础;本文使

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论