知识图谱完整版本_第1页
知识图谱完整版本_第2页
知识图谱完整版本_第3页
知识图谱完整版本_第4页
知识图谱完整版本_第5页
已阅读5页,还剩20页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

知识图谱刘莞玲PART0什么是知识图谱?PART0什么是知识图谱知识图谱(MappingKnowledgeDomain)也被称为科学知识图谱,在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。具体来说,知识图谱是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论。它把复杂的知识领域通过数据挖掘、信息处理、知识计量和图形绘制而显示出来,揭示知识领域的动态发展规律。PART0什么是知识图谱PART0什么是中文知识图谱本质介绍知识图谱本质上是一种语义网络。其结点代表实体(entity)或者概念(concept),边代表实体/概念之间的各种语义关系。中文知识图谱中文知识图谱(Chinese

KnowledgeGraph),最早起源于GoogleKnowledgeGraph

。中文知识图谱的直接推动力来自于一系列实际应用,包括语义搜索、机器问答、情报检索、电子阅读、在线学习等等。百度

、搜狗

以及复旦大学GDM实验室相继推出了其中文知识图谱。知识图谱应用允许用户搜索搜索引擎知道的所有事物,人物或者地方,包括地标,名人,城市,球队,建筑,地理特征,电影,天体,艺术作品等等,而且能够显示关于你的查询的实时信息。它是迈向下一代搜索业务关键的第一步,使得搜索智能化,根据用户的意图给出用户想要的结果。PARTIGoogleKnowledgeGraph?PARTIGoogleKnowledgeGraphGoogle知识图谱Google知识图谱(也称Google知识图)是Google的一个知识库,其使用语义检索从多种来源收集信息,以提高Google搜索的质量。知识图谱2012年加入Google搜索,2012年5月16日正式发布,知识图谱除了显示其他网站的链接列表,还提供结构化及详细的关于主题的信息。其目标是,用户将能够使用此功能提供的信息来解决他们查询的问题,而不必导航到其他网站并自己汇总信息。为什么需要构建中文知识图谱?PARTIIPARTII为什么需要构建中文知识图谱PARTIII为什么需要构建中文知识图谱原因:互联网上拥有丰富的资源。但是,大多数的资源都只能被人理解,而机器无法理解,如何让机器像人一样理解文本?现有知识图谱对中文支持不够为此,我们需要构建一个海量的中文知识图谱,帮助机器理解文本知识图谱方法研究PARTIIIPARTIII中文知识图谱研究框架PARTIII中文知识图谱研究方法分布式爬虫互联网上存在着丰富的资源,选择合适的资源以及相应的爬取策略至关重要;单台电脑已经无法支持大规模的网页爬取;网站可能存在着限制访问次数、访问出错等问题。因此,提出了多任务、容错、平衡、可设置优先级、多样性的分布式爬虫策略知识抽取数据来源丰富,包括百科全书类网站、地理位置信息(POI)网站、输入法词库、搜索引擎语料库、音乐视频小说等门户网站、电子商务网站等从数据源中抽取出高质量的实体/概念集。包括实体抽取、实体映射(不同词表达相同含义)、关系抽取以及实体质量评估。PARTIII中文知识图谱研究方法知识集成采用迭代的方式对不同来源的数据进行集成,将相同实体/概念的内容进行融合,特别是多义词之间的融合。具体方法包括:首先找到明显相同的实体/概念对,根据其属性、分类以及相关词,扩充找到更多的相同实体/概念对。依次循环,直至不能找到新的实体/概念对。图数据管理系统基于开源的Hadoop分布式文件系统与分布式数据库,作为大数据存储的基础所有的操作都建立在HBase之上(HBase是一个开源的非关系型分布式数据库(NoSQL),它参考了谷歌的BigTable建模,实现的编程语言为Java。它是Apache软件基金会的Hadoop项目的一部分,运行于HDFS文件系统之上,为Hadoop提供类似于BigTable规模的服务。因此,它可以容错地存储海量稀疏的数据。)中文知识图谱的应用?PARTIVPARTIV中文知识图谱的应用百度知识图谱此前用户在百度搜索某些公众人物的关键词时,会出现该人物相关的资料,搜索结果以“百科全书”式的方式显示。而如今不只是搜索热门人物,当用户搜索地名、学科名或者流行的“事实“时,百度在左边的搜索结果里会给出常规的搜索结果,而搜索结果的右边则展示跟关键词相关的百度百科内容,以及相关的搜索链接。PARTIV中文知识图谱的应用搜狗知立方搜狗在其官方微博中宣称:为了让用户获取信息更简单,搜狗搜索发布全新的知识库搜索引擎――“知立方”。这是国内搜索引擎行业中首家知识库搜索产品。比如搜索“张学友的电影”,搜狗搜索会在结果上方显示张学友的所有参演过的影片,右侧则展示张学友的人物关系、电视剧、专辑等相关信息,帮助用户更加立体和全面的了解张学友。PARTIV中文知识图谱的应用复旦GDM中文知识图谱文本化展示输入一个关键字后,搜索引擎能够准备的知道用户搜索的关键字含义,并给出相关的知识说明提供知识查询、问题查询、别名搜索、知识源合并等功能图形化展示为了更好的理解知识,采用了图形化引擎进行展示,更好的表现了语义之间的关系同时,将相关词进行聚类,分成若干类,按类展示,并为每个类标注类标签,这样能更加清楚、直观的理解实体PARTIV中文知识图谱的应用复旦GDM中文知识图谱深度阅读运用知识图谱,对电子书中出现地词语进行精确、全面解释,挖掘词语背后的知识,改善阅读体验舆情分析运用知识图谱,对微博进行数据挖掘分析倾听民意,改善民生研究成果已被解放日报、新民晚报等报纸刊登报道,并被多家网络媒体转载知识图谱主要研究什么?PARTVPARTV知识图谱主要研究什么?知识图谱主要包含知识库构建,用户查询理解,数据检索以及结果的可视化展现四个主要的过程。知识库的构建:主要通过将网页中的各种异构的实体信息,通过收集、解析、清理、归一化、合并等步骤建立起实体以及实体属性的集合。用户查询理解:是将用户输入的自然语言解析成查询知识库的SPARQL语句。数据检索是通过SPARQL语句将知识库中用户需要的实体及属性信息检索出来。云服务在数据检索时的平均响应时间达到了几十毫秒的量级。结果可视化是对检索出来的数据进行富媒体的展现,用户可以对需要的展现样式进行定制和个性化。知识图谱构建PARTVIPARTVI知识图谱构建知识图谱的规模Google知识图谱到目前为止包含了5亿个实体和35亿条事实(形如实体-属性-值,和实体-关系-实体)。其知识图谱是面向全球的,因此包含了实体和相关事实的多语言描述。不过相比占主导的英语外,仅包含其他语言(如中文)的知识图谱的规模则小了很多。知识图谱的数据来源知识图谱通过收集来自百科类站点和各种垂直站点的结构化数据来覆盖大部分常识性知识。(质量高但更新慢)另一方面,知识图谱通过从各种半结构化数据(形如HTML表格)抽取相关实体的属性-值对来丰富实体的描述。此外,通过搜索日志发现新的实体或新的实体属性从而不断扩展知识图谱的覆盖率。相比高质量的常识性知识,通过数据挖掘抽取得到的知识数据更大,更能反映当前用户的查询需求并能及时发现最新的实体或事实,但其质量相对较差,存在一定的错误。这些知识利用互联网的冗余性在后续的挖掘中通过投票或其他聚合算法来评估其置信度,并通过人工审核加入到知识图谱中。PARTVI项目实践从抽取图谱到知识图谱(知识图谱挖掘)实体对齐(方法:聚类,关键在于定义合适的相似度度量。为了解决大规模实体对齐存在的效率问题,各种基于数据划分或分割的算法被提出)。知识图谱schema构建(模式层构建:Google

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论