下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
企业知识图谱的构建研究国内外文献综述1.1知识图谱的研究现状知识是人们对客观世界中存在的现象经过观察,思考,总结之后形成的事实结果,人们创造了图像,音乐,语言,数学等形式来表示知识,传承知识。由此可见世界的知识化描述对于社会进步是举足轻重的。知识图谱是以图形形式展示实体之间联系的结构化语义知识库,是使计算机获得认知能力的重要手段。其最小单元是三元组“头实体-关系-尾实体”,以及实体属性值对,实体之间关联扩充[[]熊回香,杨滋荣,蒋武轩.跨媒体知识图谱构建中多模态数据语义相关性研究[J].情报理论与实践,2019,42(02):13-18+24.][]熊回香,杨滋荣,蒋武轩.跨媒体知识图谱构建中多模态数据语义相关性研究[J].情报理论与实践,2019,42(02):13-18+24.知识图谱观点是由Google提出的。2010年谷歌公司收购了Metawed公司,并掌握了该公司的核心语义搜索技术,实现了对实体,关系,属性等信息的提取。在此基础上,Google于2012年5月发布以打造新时代智能搜索引擎为最终目标的知识图谱项目。一方面改现有的字符串检索为概念检索,并一方面将整理过后的结构化知识以图形的方式展现出来,提高检索效率,增强搜索质量,改善搜索体验。知识图谱的出现使原来难以解决的知识抽取,知识问答等问题柳暗花明,引起了学者和机构的广泛关注,纷纷开始利用自己的数据构建知识图谱。表1给出了一些主流的知识库及其应用。表1.1知识图谱及相关产物KnowledgeBaseProductsDataSourceDBpediaKBDBpediaWikipediaYAGOKBYAGOWikipediaWolframAlphaAppleSiriMathematicaZhixinKBBaiduZhixinPlatformUserGeneratedContentCross-LingualKBXLOREChinese/EnglishiEncyclopedia,WikipediaZhilifangKBSougouSeachEngineWebOpenData知识图谱从行业划分角度分析可以分为开放领域知识图谱以及垂直领域知识图谱,开放领域知识图谱顾名思义就是不限制知识的领域,相当于一个存放结构化知识的知识库,更注重知识的广度,主要应用于智能问答领域。垂直领域知识图谱则针对特定的专业,对知识的准确性以及专业性都要求极高,在知识图谱的构建过程中需要该专业的专家以及工程师辅助制定规则,更多用于分析决策,如医疗领域的辅助诊断,灾害领域的预测分析,以及金融领域的风险规避等等。1.2知识图谱构建研究现状从知识表示方法上来看,知识图谱是一种以逻辑结构方式,用标识来描述客观世界中有价值对象的概念及其相互关系的语义知识库[[]贺庆.基于知识工程的作战行动计划制定研究[J].中国电子科学研究院学报,2018,13(03):231-238.],其中节点表示实体,边表示关系,边的走向表明连接的实体是被动关联的还是主动关联[]贺庆.基于知识工程的作战行动计划制定研究[J].中国电子科学研究院学报,2018,13(03):231-238.知识图谱在逻辑上可以分为两个层级,分别是逻辑层和数据层[[]刘峤,李杨,段宏,等.知识图谱构建技术综述[J].计算机研究与发展,2016,53(3):582-600.][]刘峤,李杨,段宏,等.知识图谱构建技术综述[J].计算机研究与发展,2016,53(3):582-600.图1.2知识图谱的体系结构知识获取是指从各种异构数据源中提取出有价值的实体,实体属性以及关系,并以此为基础构成高质量的知识表达,是形成知识图谱的起点。知识图谱是从结构化,半结构化数据中自动抽取结构化信息,当前主要需解决的技术问题包括,实体抽取,关系抽取及属性抽取[[][]Jim,Cowie,Wendy,etal.Informationextraction[J].CommunicationsoftheACM,1996.知识融合是将知识抽取得到的知识进行关联匹配,以防出现一词多义,多词一义的情况,影响后期推理的准确性。而且抽取得到的知识中可能存在重复,或者不正确的情况,更有甚者可能缺乏必要的逻辑关系,所以数据的融合是至关重要的。知识融合的好坏能使知识连接的更加准确,并有效的防止信息孤岛的产生。实体链接和知识合并数知识融合过程中的两大关键技术,经过其处理的知识冗余性降低,歧义信息较少,知识的质量更好,结构更清晰。不同来源的数据经过数据抽取之后,得到有价值的知识元素,再经过知识融合的处理,得到精简的,凝练的知识表达,但是这还不是我们需要的成体系的知识网络,还需要对知识表达进行知识加工才行,关键的知识加工技术包括知识推理和质量评估[[]北京艾真融科技术有限公司课题组,张家林.智能监管合规报告系统研究[A].中国证券业协会.创新与发展:中国证券业2018年论文集(下册)[C].:中国证券业协会,2019:27.[]北京艾真融科技术有限公司课题组,张家林.智能监管合规报告系统研究[A].中国证券业协会.创新与发展:中国证券业2018年论文集(下册)[C].:中国证券业协会,2019:27.1.2知识图谱补全的研究现状构建知识图谱所用的数据主要是来自文档以及网页信息,这些信息的正确性往往存在一定的偏差。原因来自两个方面,一方面是文档中本身含有一些无用信息或者是知识抽取算法不够严谨造成噪声信息;另一方面是文档本身的局限性,一些常识性知识没有表现出来,这些都造成知识图谱不够完整。然而人们需要知识图谱提供更高质量的服务,因而知识图谱中隐含的信息就尤为重要,所以知识图谱补全成为现在科研人员的主要研究方向。知识图谱补全就是根据已有的实体以及关系来预测新的实体以及关系,以此组成新的三元组,从而实现知识图谱的完整性和准确性。基于翻译的知识图谱补全是将三元组中的实体还有关系都低维嵌入表示到一致的向量空间中[[]王子悦,陈华辉.知识表示学习综述[J].无线通信技术,2019,28(04):55-60.],并进行推理补全。其中最基础的模型当属TransE,TransE[[]BordesA,UsunierN,Garcia-DuranA,etal.TranslatingEmbeddingsforModelingMulti-relationalData.In:Proc.ofAdvancesinNeuralInformationProcessingSystems.RedHook,NY:CurranAssociatesInc,2013.2787-95.]假设通过关系的平移,两个实体的嵌入向量可以互相得到对方,也就是头实体向量与关系向量加起来可以得到尾向量[[]官赛萍,靳小龙,贾岩涛,王元卓,程学旗.面向知识图谱的知识推理研究进展[J].软件学报,2018,29(10):2966-2994.]。模型比较简单,但是具有强大的表达能力,模型准确率和效率比之以往都有一定程度的提高。但是也由于其将向量投影到了低维向量空间,所以表达能力不足,对于复杂交叉的关系不能很好的处理。很多研究者在TransE模型的基础上,做出了一定改进,提出了源于TransE的引申模型如TransH,TransD,TransR,TransG等等。TransH[[]WangZ,ZhangJ,FengJ,etal.Knowledgegraphembeddingbytranslatingonhyperplanes.In:ProceedingsofNationalConferenceonArtificialIntelligence,2014.1112–1119]模型将实体的表示向量投射到超平面上,使得不同关系下的推理有不同的结果,以此来处理一对多,多对一,多对多对应关系。TransR[[]LinH,YongL,WangW,etal.LearningEntityandRelationEmbeddingsforKnowledgeResolution[J].ProcediaComputerScience,2017,108:345-354.]模型在不同的空间建模实体和关系,并在相应的空间进行转换。TransD[[]JiG,HeS,XuL,etal.Knowledgegraphembeddingviadynamicmappingmatrix.In:ProceedingsofMeetingoftheAssociationforComputationalLinguistics,2015.687–696.]通过动态映射矩阵嵌入的方法来解决关系的多种语义表示障碍。TransG[[]王子悦,陈华辉.知识表示学习综述[J].无线通信技术,2019,28(04):55-60.[]BordesA,UsunierN,Garcia-DuranA,etal.TranslatingEmbeddingsforModelingMulti-relationalData.In:Proc.ofAdvancesinNeuralInformationProcessingSystems.RedHook,NY:CurranAssociatesInc,2013.2787-95.[]官赛萍,靳小龙,贾岩涛,王元卓,程学旗.面向知识图谱的知识推理研究进展[J].软件学报,2018,29(10):2966-2994.[]WangZ,ZhangJ,FengJ,etal.Knowledgegraphembeddingbytranslatingonhyperplanes.In:ProceedingsofNationalConferenceonArtificialIntelligence,2014.1112–1119[]LinH,YongL,WangW,etal.LearningEntityandRelationEmbeddingsforKnowledgeResolution[J].ProcediaComputerScience,2017,108:345-354.[]JiG,HeS,XuL,etal.Knowledgegraphembeddingviadynamicmappingmatrix.In:ProceedingsofMeetingoftheAssociationforComputationalLinguistics,2015.687–696.[]HanX,HuangM,YuH,etal.TransG:AGenerativeMixtureModelforKnowledgeGraphEmbedding.computerscience,2015.[]JiG,KangL,HeS,etal.KnowledgeGraphCompletionwithAdaptiveSparseTransferMatrix.AAAIPress,2016.源于张量分解的知识图谱补全是以一种巨大的张量矩阵表示知识图谱,然后再对实体,关系进行降维分解,它想到了实体以及关系的具有多重含义的特性。RESCAL[[]NickelM,TrespV,KriegelHP.AThree-WayModelforCollectiveLearningonMulti-RelationalData[C]//InternationalConferenceonInternationalConferenceonMachineLearning.Omnipress,2011.809-16.]模型用满秩矩阵表示关系,实体和关系能够进行深层次交互,表现力强,但是他的双线性函数中参数较多,容易出现过拟合现象,很难应用于大规模知识图谱。针对上述问题,论文[[]YangB,YihWT,HeX,etal.EmbeddingEntitiesandRelationsforLearningandInferenceinKnowledgeBases[J].2014.]DisMult模型减少了对关系矩阵的限制,简化了RESCAL模型,同时也导致了DisMult模型只能解决对称关系,对其他关系无能为力。ComplEX[]NickelM,TrespV,KriegelHP.AThree-WayModelforCollectiveLearningonMulti-RelationalData[C]//InternationalConferenceonInternationalConferenceonMachineLearning.Omnipress,2011.809-16.[]YangB,YihWT,HeX,etal.EmbeddingEntitiesandRelationsforLea
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论