面向制造业的知识图谱表示模型与构建技术研究_第1页
面向制造业的知识图谱表示模型与构建技术研究_第2页
面向制造业的知识图谱表示模型与构建技术研究_第3页
面向制造业的知识图谱表示模型与构建技术研究_第4页
面向制造业的知识图谱表示模型与构建技术研究_第5页
已阅读5页,还剩58页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、硕士学位论文面向制造业的知识图谱表示模型与构建技术研究RESEARCH ON KNOWLEDGE GRAPHEMBEDDING AND CONSTRUCTIONTECHNOLOGY FOR MANUFACTORY INDUSTRY袁芳怡哈尔滨工业大学2019年6月学校代码:10213密级:公开国内图书分类号:TP301.6国际图书分类号:004.8工学硕士学位论文面向制造业的知识图谱表示模型与构建技术研究硕士研究生:袁芳怡导师:王宏志教授申请学位:工学硕士学科:计算机科学与技术所在单位:计算机科学与技术学院答辩日期:2019年6月授予学位单位:哈尔滨工业大学Classified Index:

2、TP301.6U.D.C: 004.8Dissertation for the Master Degree in EngineeringRESEARCH ON KNOWLEDGE GRAPHEMBEDDING AND CONSTRUCTIONTECHNOLOGY FOR MANUFACTORY INDUSTRYCandidate:Supervisor:Academic Degree Applied for:Speciality:Affiliation:Date of Defence:Yuan FangyiProf. Wang HongzhiMaster of EngineeringComput

3、er Science and Technology School of Computer Science and TechnologyJune, 2019Degree-Conferring-Institution:Harbin Institute of Technology摘要随着工业互联网+的发展,制造业的数字化转型正在如火如荼地进行着。而 知识在其中发挥着至关重要的作用,它是许多智能决策、资源优化的基石。但 是现在制造业知识分布独立,且许多依靠人的经验。知识图谱近年来大展拳脚, 它可以整合不同来源的数据,且拥有很好的推理能力。因此,建立制造业的知 识图谱会对制造业的智能化产生推动作用。现有

4、的知识图谱大多仅存在定性知识,但制造业中存在许多定量知识以及 事理知识。因此,本文针对制造业的知识特点,提出面向制造业的知识图谱构 建与表示模型。我们从三个方面对制造业知识图谱进行了改进。本文的主要工 作如下:1)将定量知识与定性知识相结合将定量知识的抽取转化为命名实体识别与属性抽取。在使用序列标注的方 法对命名实体进行识别后,本章提出个性化Page Rank与Bi-LSTM-CRF结合的 方式进行属性识别,无需提前指定属性类别;且与无监督方法相结合,使方法 具有可移植性,减少了人力标注的成本。2)将概念知识与事理知识结合将事理知识的抽取转化为事件触发词提取、事件描述补全、事件关系分类。 使用

5、DMCNN方法对事件的触发词进行抽取后,使用短语句法分析对事件进行 补全。本章使用Bi-LSTM方式进行事件分类,无需人工构建特征。不仅针对同 一句子中的事件进行分类,且可对跨句子的事件进行分类。3)定量与事理知识结合,进行联合推理将知识图谱补全问题转化为排序问题,改进了 ProjE算法,将定量知识转化 成向量与原“实体”表示相结合,得到最终的知识图谱实体、关系表示。使知识 表示不仅针对实体与实体之间的关系,提升了实体链接的能力。综上所述,本文建立了一个面向制造业的知识图谱,与现有的知识图谱不同。 它融合了定量知识、事理知识。且在知识推理时,它的知识表示融合了定量知 识的属性知识,不仅只针对实

6、体或事理之间的关系。实验结果表示,我们的方 法相比于其他方法效果有所提升。关键词:知识图谱;关系抽取;事件识别;知识表示;知识推理AbstractWith the development of Industrial Internet+, the digital transformation of manufacturing is in full swing. Knowledge plays a vital role in industry, and it is the cornerstone of many intelligent decision-making and resource op

7、timization. But now the manufacturing knowledge is distributed independently, and many decision rely on human experience. The knowledge graph has made great strides in recent years. It can integrate data from different sources and has good reasoning ability. Therefore, establishing a knowledge graph

8、 of manufacturing will promote the intelligentization of manufacturing.Most of the existing knowledge graphs only have qualitative knowledge, but there are many quantitative knowledge and evolutionary knowledge in the manufacturing industry. Therefore, this paper proposes a knowledge graph construct

9、ion and representation model for manufacturing industry based on the knowledge characteristics of manufacturing industry. We have improved the manufacturing knowledge graph from three aspects. The main work of this paper is as follows:Combine quantitative knowledge with qualitative knowledgeThe extr

10、action of quantitative knowledge is transformed into named entity recognition and attribute extraction. Attribute extraction usually translates into relationship classification problems. It is necessary to define categories and tag a large amount of training data in advance. However, there are many

11、kinds of attributes in manufacturing, which are difficult to define in advance. This chapter proposes a combination of personalized Page Rank and Bi-LSTM-CRF for attribute extraction. It is not necessary to specify attribute categories in advance. This algorithm combines with unsupervised methods, w

12、hich makes the method is portable and reduces the cost of manual labeling.Combine conceptual knowledge with affair knowledgeThe extraction of evolutionary knowledge is transformed into event trigger identification, event description completion, and event relationship classification. Event relationsh

13、ip classifications typically use traditional machine learning and only classify events in the same sentence. There are many events in the manufacturing industry that are in different sentences, but there exists relationships. This chapter uses the Bi-LSTM method to classify events, not only for even

14、ts in the same sentence, but also for events across sentences.Combining quantitative and evolutionary knowledge for joint reasoningThe knowledge graph completion problem is transformed into a sorting problem, and we improved ProjE algorithm in this chapter. The quantitative knowledge is transformed

15、into a vector and it was combined with event embedding. At the re suit, we obtain the final knowledge graph embedding about entity and relationship. The knowledge embedding not only addresses the relationship between entities and entities, but also enhances the ability of entity links.In summary, th

16、is paper establishes a knowledge graph for manufacturing, which is different from the existing knowledge graph. It combines quantitative knowledge and evolutionary knowledge. And in the case of knowledge inference, its knowledge graph embedding combines the attribute knowledge of quantitative knowle

17、dge, not only for the relationship between entities or evolutionary. The experimental results show that our method has improved compared to other methods.Keywords: Knowledge Graph, Relation Extraction, Event Identification, Knowledgeembedding, Knowledge Inference TOC o 1-5 h z HYPERLINK l bookmark7

18、o Current Document 摘要IABSTRACTII HYPERLINK l bookmark18 o Current Document 第1章绪论1 HYPERLINK l bookmark21 o Current Document 1.1课题来源1 HYPERLINK l bookmark24 o Current Document 1.2研究背景和意义1 HYPERLINK l bookmark30 o Current Document 1.3国内外研究现状及分析3 HYPERLINK l bookmark33 o Current Document 1.3.1国外研究现状分析3

19、 HYPERLINK l bookmark36 o Current Document 1.3.2国内研究现状分析5 HYPERLINK l bookmark39 o Current Document 1.4本文的主要研究内容7 HYPERLINK l bookmark45 o Current Document 1.5本文的组织结构8 HYPERLINK l bookmark48 o Current Document 第2章定量知识抽取9 HYPERLINK l bookmark51 o Current Document 2.1引言9 HYPERLINK l bookmark54 o Curre

20、nt Document 2.2背景技术9 HYPERLINK l bookmark60 o Current Document 2.3定量知识抽取11 HYPERLINK l bookmark63 o Current Document 2.3.1定量知识模型设计12 HYPERLINK l bookmark66 o Current Document 2.3.2基于Bi-LSTM-CRF的命名实体识别12 HYPERLINK l bookmark71 o Current Document 2.3.3与无监督学习结合的属性抽取132.4实验结果162.4.1实验数据准备16 HYPERLINK l

21、bookmark93 o Current Document 2.4.2实验评价指标17 HYPERLINK l bookmark96 o Current Document 2.4.3实验结果与分析17 HYPERLINK l bookmark99 o Current Document 2.5本章小结20 HYPERLINK l bookmark102 o Current Document 第3章事理知识抽取22 HYPERLINK l bookmark105 o Current Document 3.1引言22 HYPERLINK l bookmark108 o Current Documen

22、t 3.2背景技术22 HYPERLINK l bookmark111 o Current Document 3.3事理知识抽取24 HYPERLINK l bookmark114 o Current Document 3.3.1事理知识模型设计25 HYPERLINK l bookmark117 o Current Document 3.3.2基于DMCNN的触发词识别26 HYPERLINK l bookmark120 o Current Document 3.3.3基于句法分析的事件元素识别28 HYPERLINK l bookmark126 o Current Document 3.3

23、.4基于Bi-LSTM的关系分类31 HYPERLINK l bookmark131 o Current Document 3.4知识模型融合32 HYPERLINK l bookmark136 o Current Document 3.5实验结果与分析34 HYPERLINK l bookmark139 o Current Document 3.5.1事件触发词识别34 HYPERLINK l bookmark142 o Current Document 3.5.2事件关系分类36 HYPERLINK l bookmark145 o Current Document 3.6本章小结36 HY

24、PERLINK l bookmark148 o Current Document 第4章 制造业知识图谱补全37 HYPERLINK l bookmark151 o Current Document 4.1引言37 HYPERLINK l bookmark154 o Current Document 4.2背景技术37 HYPERLINK l bookmark164 o Current Document 4.3基于LProjE的知识图谱补全38 HYPERLINK l bookmark167 o Current Document 4.3.1问题描述38 HYPERLINK l bookmark

25、170 o Current Document ProjE 模型不足39 HYPERLINK l bookmark173 o Current Document LProjE 模型结构40 HYPERLINK l bookmark189 o Current Document 4.4实验结果42 HYPERLINK l bookmark192 o Current Document 4.4.1实验评价指标42 HYPERLINK l bookmark195 o Current Document 4.4.2实验结果与分析43 HYPERLINK l bookmark198 o Current Docum

26、ent 4.5本章小结45 HYPERLINK l bookmark201 o Current Document 结论46参考文献48 HYPERLINK l bookmark268 o Current Document 攻读硕士学位期间发表的论文及其它成果53 HYPERLINK l bookmark271 o Current Document 哈尔滨工业大学学位论文原创性声明和使用权限54 HYPERLINK l bookmark280 o Current Document 致谢55第1章绪论1.1课题来源本课题来源于国家自然科学基金联合资助项目重点项目:面向浙江省制造 业的大数据分析理论

27、与关键技术研究。项目编号:U1509216国家自然科学基金集成项目:基于数字仿真的大电网人工智能分析方法研 究。项目编号:U18666021.2研究背景和意义制造业始终是一国经济发展并走向强盛的基础。当今时代,信息化和工业 化的两化融合已经成为发展趋势,在中国制造2025中指出,“新一代信息 技术与制造业深度融合,正在引发影响深远的产业变革,形成新的生产方式、 产业形态、商业模式和经济增长点Mi】。习近平总书记强调,“实体经济是国家 的本钱,要发展制造业尤其是先进制造业”。坚实的制造业是国家走向强盛 的基础,它为国家的发展提供了强大有力的支撑。工业智能化是在互联网+下的发展趋势,然而制造业的决

28、策通常需要大量 的知识。制造业中存在着海量的异构数据,将其数据进行汇聚与建模需要知识 的推动;对制造业进行转型升级,将制造业制造能力变得标准化与智能化也需 要知识的推动;各行业平台对创新应用的开放及维护运行仍然需要知识的辅助。 利用知识构建成的工业互联网平台可支撑生产智能决策、业务模型创新、资源 优化和产生生态培育。因此,构建面向制造业的知识体系对工业智能化的发展 有着重大的意义。如今在制造业行业中存在着大量的知识数据,随着时间的推移,未来还将 产生新的知识数据。同时,制造业的知识依赖于人工经验,依赖于专家的技术 水平与工程经验。而人的经验是独立的,没有一个大的融合,以致于其他人无 法学习。而

29、且这些大量的知识数据虽然存在于计算机内,但是计算机无法对其 进行理解。因此需要一个系统理解这些知识,并可以在巳有的知识基础上进行 推理和判断。早期的语义网通过“元数据”提供了 一个信息交换的统一的标准闵, 元数据可以被计算机所理解,由此使计算机提升了推理与搜索能力,使计算机 变得更加智能化,但是语义网早期是靠人工构建,需要很强的专业知识以及大 量的人力。而现如今,知识图谱应运而生。知识图谱通过整合不同的信息来源,包括 结构化的表格信息、半结构化的例如百科信息,以及非结构化的文本信息等, 形成一个大的网络。知识图谱注重如何从这些数据源中提取出所需要的知识, 对不同数据源获取的知识如何融合,以及怎

30、样进行知识表示可以更有效地为其 他任务提供好基础。且知识图谱的构建可以通过机器学习等方式,减少了人工 构建的成本,知识图谱有着强大的推理能力。因此,面向制造业的知识构建可 以选用知识图谱,知识图谱将是一个很好的表达。随着信息化与互联网+大浪潮的发展,目前知识图谱在互联网4、医疗5】、 电商等垂直行业中得到广泛应用。例如,搜索引擎通过在知识图谱中搜索类 别、关系、相关性等方面匹配度较高的实体提高搜索结果的质量。而现如今,关于制造业知识图谱建设主要面临以下几个问题:知识图谱中仅存在定性知识,缺少定量知识:目前知识图谱中存在的知识均为定性知识。例如V北京,首都,中国:代 表北京是中国的首都。然而制造

31、业中存在着大量的定量知识,例如“透光率 Pmv30%的是年轻褐煤”等。定性知识与定量知识同时存在,目前的知识图谱无 法表达。知识图谱中仅存在关联知识,缺少事理知识:现有的知识图谱都是以概念、实体为中心,表达概念与概念之间,实体与 实体之间的关系。它缺乏对事件的描述以及事理之间的关系。以买房子为例, 买房子一装修一买家具就是一个事理逻辑。在制造业中,存在着大量的时序关 系与事理逻辑。以水处理为例,目前的知识图谱所存的知识可能为:原水一软 化水一除盐水。而这个流程的事理逻辑则为:过石英砂过滤器一过反渗透装置 -过除碳器一打入除氧器。这一过程是存在时序关系的,而目前的知识图谱都 未体现出知识的时序关

32、系。知识图谱的推理仅关注实体及其之间的关系,忽略实体的属性等定量 知识:知识图谱的推理大多依托于知识表示。而现有的知识表示方式大多基于实 体与实体之间的关系。实体有许多自己的属性,但是对于知识推理的任务中, 都忽略了这些属性。制造业中存在着许多定量知识作为制造业中实体的属性, 这些知识可以辅助推理,进行决策。现有的知识图谱推理方式无法解决此类问 题。对于以上问题,我们对面向制造业的知识图谱的构建与表示模型进行研究。 可以数据知识与文本知识结合推理,让关联知识与事理逻辑相结合,并利用结 合的知识进行知识推理,而不是作为孤立的个体。以使在此知识图谱的基础上, 可以推理出更多的知识,在制造业的流程以

33、及故障检测及给出原因时,减少人 工干预。1.3国内外研究现状及分析工业互联网在不断的方展,工业智能化时代也在一点点到来。制造业拥有 概念繁多,工艺复杂、知识量数据量巨大的特点。许多工业产生的数据为非结 构化数据,对非结构化的数据处理有一定的难度,而对于工业来说,对数据分 析的要求更高。目前面向通用领域的知识图谱的构建与表达存在着许多研究, 通用领域知识图谱的构建方式对制造业有一定的参考作用。因此,我们对国内 外工业平台的相关技术及发展,以及国内外的研究学者们对知识图谱的构建与 表达技术作了简要分析。1.3.1国外研究现状分析国外的研究者主要是对通用领域的知识图谱进行研究,对领域知识图谱的 研究

34、主要为医疗领域的研究。目前对知识图谱的研究大多都是基于已经构建好的一些通用领域的知识 库。比较有名的有Freebase7 WordNet8等,Freebase主要包括世界知识, WordNet主要包括语言知识库,还有一些领域知识库,例如IMDBt9,但IMDB 是由人手工构建的。同时,有一些互联网公司也有自己的知识图谱,例如提出 知识图谱概念的谷歌3,以及微软的Bing Satori11o还有一些是将知识图谱 放在了应用的背后,例如苹果公司的Siri助理、IBM Watson的问答系统等, 它们的背后都有知识图谱的支撑。面对制造业中存在的大量的概念以及复杂的 工艺,我们也需要构建的制造业知识图

35、谱用以支撑制造业的数字化发展,我们 构建的制造业的知识图谱也为垂直领域知识图谱。资源描述框架RDF (resource description framework)规定,使用三元组v实体1,关系,实体2的方式进行知识库中知识的表示,RDF由万维网联盟 (W3C)提出,目前的研究大多基于此种形式,然而这种形式对于我们面向制 造业领域的知识图谱表达存在不足,我们会在后续进行研究。知识图谱的构建,需要对知识进行抽取。而通常的做法是:先进行命名实 体识别的抽取,再进行实体之间关系的抽取。因此将知识图谱的构建问题转化 成了实体识别与关系分类两个子问题。而目前对知识图谱的研究中,都己知给 定了实体,针对实

36、体关系的分类问题。实体关系抽取:实体关系抽取问题一开始源自于自然语言的评测任务。如 muci4和acei5。在评测任务中,给定了需要抽取的实体类别。因此,大多 数研究者对实体关系抽取的问题研究转换成了对实体关系的分类任务。在神经 网络提出之前,分类采取的都是传统分类器,如最大炳、SVM等方式。分类 通常使用基于特征向量与基于核函数两种方式。Kambhatlai6利用实体词的相 关信息构建特征,TratzW在使用实体词的基础上,加入了上下文等特征。 Zelenko引、Culotta19、Buneseu20分别使用浅层语义核函数、依存树核心函数、 最短路径核的方式,对实体关系进行抽取。且基于核函数

37、的方式提取的特征要 优于基于特征向量的方式。随着神经网络的提出以及数据量的发展。人们发现 训练数据集数据小,不足以支撑大规模的数据分类,由此,远程监督的概念在 2009年被Mintz提出】。远程监督对于给定的关系去已经存在的知识库如 Freebase wikipedia知识库中寻找符合的实体对,并将文本中包含这个实体对 的句子都标记为此关系,实现了自动标注的功能。但这样会引入大量的噪声。 因此后续的任务重点都转移到了如何减少噪声的影响。但远程监督需要巳有的 知识库的信息,对于我们构建制造业知识图谱不太适合。事件知识抽取:由于对于事理图谱构建没有引起很大的关注,大多数研究 者都在研究知识图谱的构

38、建。因此,对于事理图谱构建的没有一个统一的流程。 但是与之相关有一个自然语言的经典问题:事件抽取任务。事件抽取是由 ACE2005H5评测提出,给定语料库,并给定有哪些事件类别以及论元类别,需 要识别出事件的触发词并对事件进行分类,对论元同理。事件抽取方向的研究 对于我们构建制造业的知识图谱有借鉴作用。知识图谱表示:近年来,知识表示引起了越来越多研究者们的注意。知识 表示作为知识图谱任务的基础,可以在低维的空间下对实体和关系进行语义关 联查找、计算等,提升了计算的效率。对知识图谱的纠错、补全都有着巨大的 作用。TransES是知识表示中里程碑似的方法,是Bordes等于2013年提出。 利用词

39、向量中的平移不变性,将实体和关系投影到一个平面上,令实体之间的 关系看作头实体和尾实体之间的平移TransE简单高效,给研究者们在知识表 示上提供了新的思路。由于TransE对1-N关系等有致命缺陷,后续TransE的 变形相继被提出。例如:TransH23、TransDP4、TransRl25、TransA26、TransGl27 TranSparseW等。他们提出不同的投影方式,例如投影到不同的平面、区分语 义空间、改变不同的投影矩阵等方式进行改进。后续还有很多方法,例如融合 外部信息等方式29逐渐提高知识表示的性能。知识图谱可能很稀疏,也可能存在错误。知识图谱补全可以改善这个问题。 知识

40、补全任务可以基于知识表示得到的结果3。,也有基于图的知识补全方法, 例如 PRA(Path Ranking Algorithm)。】及 SFE(Subgraph Feature Extraction)132他 们基于实体之间关系的路径进行游走进行知识图谱的补全。我们构建在面向制 造业的知识图谱时,也需要在得到初始的知识图谱后,对知识图谱进行补全。1.3.2国内研究现状分析与国外研究类似,国内对知识图谱的构建、事件抽取以及知识图谱中的知 识表示有着大量的研究。除此之外,国内针对我国制造业的特点,在与制造业 相关的知识库构建也有研究。关于制造业知识库的构建对于有效管理和充分利用制造业的知识经验具

41、有重大意义。在知识表达方面,制造业知识库主要基于关系、XML和本体语 言三种形式。基于关系的仿真知识库构建是最早也最容易理解的一种方法,例如由R C Dugan等提出的根据电网计算数据中各个单位(母线、变压器、发电机、开关、 刀闸等等)之间的关系构成关系型数据库EL基于XML的电网仿真知识库的 构建是源自于电力系统中事件数据的存储需求,例如周忠等人构建了一种基于 XML的电网数据统计系统ML随着本体语言OWL的发展35,知识图谱成为知识表示的主流形式36。研 究人员逐渐采用本体语言形式表达电网仿真知识。华北电力大学的王翠茹印 等基于语义网络描述电力系统领域本体。赵峙钧等提出了电网知识库中本体链

42、 的概念EL黄彦浩等人提出了基于本体语言的电网知识库塔状结构模型, 支持垂直结构和水平分级结构推理,从而加强知识表示能力,提高推理的效率 和精度。由上述国内外的研究现状可知,在面向制造业的知识库构建中,主要为基 于关系、XML和本体语言的三种方式。基于关系的方式虽然显示直观,但是 关系型数据据对于动态知识的推理较为困难,推理效率低;基于XML的方式 仍然拥有上述问题,且XML的表达方式对于可视化的表达较差,知识表示比 较隐晦。虽然基于本体语言和图的表示方式拥有好的表达可视化效果以及推理 方式完善,但是其仍存在着数据稀疏等问题。而在电网仿真方面,仍缺少针对 复杂知识结构的建模方式;而且由于制造业

43、数据中同时存在定性与定量知识, 关联和事理知识,目前的本体和知识图谱模型不足以对其进行有效表达。国内目前针对知识图谱的构建也有大量的工作。同国外的研究内容一样, 我们也对国内的研究内容做一个简单的介绍。实体关系抽取:在基于特征向量的分类中,车万翔、刘挺老师4将实体在 句子中的顺序、以及实体所在位置的左右词的特征等加入了特征向量中,关在 中文语料库进行实验,提高了抽取性能,这两种特征在神经网络的方法中也会 用到。李丽双等人I使用基于核函数的方法,将两种核函数结果,在中文语料 库上进行实验,实验证明比单独核函数的效果好。远程监督的方法是现在实体 关系抽取的热点。PCNN、APCNN43等模型的提出

44、,将CNN进行改进,并 引入了实体信息,得到了更好的分类结果。事件知识抽取:刘挺老师首先提出事理图谱呼的概念。提出的事理图谱主 要描述事件间的两种关系:顺承关系与因果关系。哈工大SCIR实验室建了两 个事理图谱的demo,分别是出行领域事理图谱以及金融领域事理图谱。并以 事理图谱为基础进行了事件预测Ml。但对事理图谱构建的方法主要是基于模 板的方式,对因果关系的分类采用了基于特征的方式,利用朴素贝叶斯进行分 类。知识图谱表示:国内的研究学者对知识表示也很多研究。Xie等人提出 DKRL模型性6,它融合了两种模型:CBOW和CNNoLin等人提出PTransE, 将关系路径加入TransE模型中

45、,都取得了较好的效果。如今对抗学习GAN 在图像处理领域上大放异彩,Cai等人I提出用对抗学习来进行知识表示,提 出KBGAN模型,使用现有的方法作为生成器对知识图谱进行训练。传统的知识推理方式主要以逻辑或规则为主,在推理的过程中,缺乏常识 性的知识作为推理过程的辅助要素,此外知识库中关系的函数特性,比如传递 性、对称性等是非常重要的特征,在以往的知识推理工作中被忽视,导致知识 的利用率较低,缺乏基于数据以及文本等非结构化数据的协同多元推理。和传统的知识库及其推理模式相比,制造业中所需要的知识具有定性和定 量知识融合、关联与事理知识融合等显著特点,知识推理需将定量知识与事理 知识融合起来。因此

46、,亟需研究适用于制造业的的知识模型与自动建模技术、 知识表达方式。为制造业提供知识库以及知识管理平台,以提高制造业分析的 效率和准确性。1.4本文的主要研究内容本课题针对制造业的定量数据与事理数据,提出了一种面向制造业的知识 图谱构建与表达模型。首先,通过对制造业中的文本知识以及发生的相关事件 进行分析,抽取出定量知识以及事理知识。然后将得到的知识二者结合,进行 协同知识推理,提高知识推理的效率。在知识图谱中加入带有时序信息的事理 逻辑,可用于流程问题的预测以及时序模式的挖掘等。通过此知识图谱的表达, 支撑制造业仿真分析的各个环节。本课题的研究内容逻辑如下所示:图本文研究内容在知识图谱中融合定

47、性知识与定量知识制造业中存着在大量的定量标准,例如压力、抽汽量、浓度、热耗等知识。 这些定量知识对制造业的故障检测以及工艺流程都尤其重要。不同的属性在不 同的数值下会对事件产生不同的影响,因此,需要将定量数据也存入知识图谱 中。我们的第一部分内容就将研究如何将定量知识存储于知识图谱中,将定量 知识与定性知识融合。根据制造业的时序加工流程等情况,在知识图谱的构建中加入事理逻 辑。现有的知识图谱都是以概念、实体为中心,表达概念与概念之间,实体与 实体之间的关系。而事理知识以事件为核心,并不是一个实体或者概念能表达。 制造业存在着大量的时间序列的事件,例如加工流程、工序等,这些工序复杂, 如若出现问

48、题人们只能通过经验来判断。因此,我们需要研究事理之间的关系 的存储以及表示形式,在知识图谱的构建中加入事理逻辑,为其他应用提供支 持。将定量知识与事理知识相结合,进行协同知识推理知识推理是知识图谱构建过程中的重要组成部分,是知识库补全,融合与 纠错的重要手段,旨在提炼语义规则,使得计算机能够理解和计算知识库中的 结构化知识,派生出新的事实。传统的模式为基于逻辑的推理,如今使用更多 的是基于图的推理。我们不仅拥有定量知识,也拥有事理知识。因此我们需要 研究如何在已经有的知识推理方式的基础上,融合这两部分知识,进行协同知 识推理。1.5本文的组织结构本文从制造业的角度出发,认为目前制造业中存在着大

49、量的复杂知识,且 以人的经验为主。目前知识的存储方式不能使计算机很好地理解并应用这些知 识。因此,我们提出构建面向制造业的知识图谱。由于目前的知识图谱模型不 足以表达制造业的知识,因此我们将对制造业中的定量知识以及事理知识的抽 取以及表达进行研究,并结合二者进行推理。第一章为绪论部分,首先介绍了本课题的来源,其次介绍了构建面向制造 业的知识图谱的必要性,阐述了现有知识图谱的不足之处,以及我们为什么要 研究此内容,研究的意义。接下来介绍了目前国内外研究者对制造业的知识的 模型设计,以及对知识图谱的构建、表示、推理的研究内容,了解本课题目前 在国内外的研究现状。第二章介绍了对制造业定量知识抽取的研

50、究。将定量知识的抽取视为制造 业中实体的属性抽取。首先设计了定量知识的表示模型,其次介绍了如何 对 定量知识抽取。将对定量知识的抽取分成了两部分:实体抽取以及属性抽取。第三章介绍了对制造业中事理知识抽取的研究。首先设计了事理逻辑知识 的表示模型,其次介绍了如何对事理知识抽取,将事理知识的抽取分为三部分: 事理触发词识别、事理描述补全以及事理逻辑的分类。最后设计了二事理知识 与第二章得到的定量知识融合模型,并将二者进行融合。第四章介绍了对制造业中形成的知识图谱进行补全。提出了 LProjE算法, 在原来仅基于实体与实体关系进行推理的基础上,加入了作为属性的定量知识 作为补充,进行推理。第2章定量

51、知识抽取2.1引言在制造业数据中,存在着大量的定量知识。现有的知识图谱的抽取工作, 大多是基于一些公开的数据集,并对抽取的关系及属性提前预设完成,进行抽 取。但对于制造业中,这些定量知识的属性种类繁多,例如工艺生产过程中的 各种温度、湿度、压强等,仅一个“温度”就包括:水温、油温、烟温、进口温 度、出口温度、设备温度、平均温度等等,这些属性虽都叫“温度”,但它们代 表着不同的参数含义,不能统一表述一概而论;且这些定量知识属性均存在于 非结构文本中,难以对所有的属性进行提前预设;同时制造业的文本数据集不 同于公开数据集,没有训练样本,需要大量的人工标注。因此,本章从制造业的定量数据特点出发,在使

52、用现有的方法识别出实体 后,对于定量知识属性的识别采用无监督方法与序列标注相结合的方式,从文 本中抽取定量知识的属性,无需对属性种类提前进行预设,且与无监督方式结 合,可以减少人工标注的代价。定量知识抽取的问题描述为:输入为非结构文 本的集合X= 32,.,xQ,输出为定量知识的集合Gq。其中Gq = | V e, attr, n1,n2 6 G。2.2背景技术Bi-LSTM-CRF505152模型是自然语言处理中对于序列标注中公认的有效模 型。由于中文是没有明显词语边界标记的语言,因此我们选用基于字的Bi- LSTM-CRF进行介绍,算法原理如下:序列标注模型以句子为单位进行标注。设所需标注

53、的句子有n个字,则将 此句子用字的序列表示如下:X =(Xi,*2, ,*/其中的 为句子中第i个字的字向量(character embedding),刁是embedding 的维度。字向量可由预训练如word2vec的CBOW、Skip-gram等方式或随机初 始化embedding矩阵再经过look-up获得。Bi-LSTM-CRF主要分为两层:Bi-LSTM 层与CRF层。Bi-LSTM层:即双向LSTM层。对于序列标注任务,Bi-LSTM不仅可以以 获取到过去的特征,也可以获取到未来的特征。这里我们介绍的是基于字的Bi-LSTM-CRF方法,因此Bi-LSTM的输入为 一个句子按字切分

54、后,句中各字的embedding序列(x1,x2, .,xn)o将输入送入 Bi-LSTM中,通过正向LSTM可以得到隐状态序列(屁成无);通过反向 LSTM得到隐状态序最后将正、反向LSTM分别得到的隐状 态序列进行拼接,儿=反;瓦低nr1,得到完整的隐状态序列(hi,处,hn) G得到的隐状态序列很好地概括了句子的特征,为后序的标注任务提供了一个基 础。Bi-LSTM可以直接进行序列标注,若将从Bi-LSTM得到的结果经过一个 线性层,对隐状态向量进行一个映射,便可以根据映射结果进行分类。其中映 射维度从m维到k维,其中k代表标注集中标签的个数。得到矩阵P如下所 示:P =(P1,P2,,

55、Pn) 6 哪X*其中,Pi G k, pi,表示字豹分类到第/个标签的分数值,通过这个分数值可以 独立地将每个位置进行k类分类。但是如果按照上述操作,标签之间强烈的相关性没有考虑,且对每个位置进 行标注时,忽略了已经标注过的信息。但是CRF可以解决这个问题,因此接入 CRF层,下面我们对CRF进行介绍。CRF层:CRF层的输入为Bi-LSTM得到的每个词映射到标签的分数值组 成的矩阵P,输出为每个字的标签。设对于输入的句子X,输出的句子标签序列为y =,%),定义其分数为:(2-1)nn+1score(X,y) = Piy. + Ay._i)y.i=li=l其中,P为从Bi-LSTM得到的非

56、归一化矩阵,A RdMW)为CRF层的转移 概率矩阵,表示从第i个标签到第j个标签的转移得分。A为k+2维的方阵, 其中2代表着句子首端增加的起始状态与最后的终止状态。序列每个位置的得分由由LSTM输出的所和CRF的转移矩阵A决定,因此 标注的时候不仅利用了前后的句子信息,也利用了已经标注过的标签的信息。 整个序列的分数为每个位置分数之和。利用softmax对概率进行归一化:(2-2)P3X) 一 exp(score(X,y)Sy, exp (score (X,/)io对于模型,在训练时通过最大化对数似然函数得到正确的标签序列,以训 练样本(x,yx)为例,下式给出了其对数似然公式:log(P

57、(yx|X) = score(X,yX) - log。/exp(score(X,y)(2-3)模型在预测过程(解码)时,为求得正确的标签,可使用Viterbi算法利用 动态规划的思想,对最优路径进行求解:(2-4)y* = argmaxscore(x, y)整个模型的结构如下图2-1所示:CRF layerLSTWs output backward LSTMforward LSTMfook-up layer one hot vector图2-1 Bi-LSTM-CRF模型示例2.3定量知识抽取图2-2定量知识抽取结构本章的任务是从无结构的文本中,抽取出实体以及与实体相关的定量属性 及定量的数值

58、,设计一种结构表示此定量知识。因此,将任务分为两个模块: 命名实体识别,定量属性识别。本章结构如图2-2所示。2.3.1定量知识模型设计对于定量知识模型,我们采取v实体,参数,参数区间的形式。例如v等离 子装置,电流,200A,375A。对于定量知识模型,定义如下规则:定义1:若从知识中提取出来是单一的数字,而不是区间内容,我们规定区 间的上限与下限为相同的此单一的数字。例如下述知识:启动给煤机B,煤量 28t/ho上述知识就可表示为v给煤机B,煤量,28t/h,28t/ho定义2:若只出现“小于xxx”、“大于xxx”等符号或字样,是区间数值但却未 明确写明上下限,则下限用L代替,上限用U代

59、替。例如:v磨煤机,出力, L,50t/h,o2.3.2基于Bi-LSTM-CRF的命名实体识别目前已经存在的命名实体识别工具,只能对通用领域的典型实体,例如人名、 地名、机构名等进行识别。特定领域的实体根据识别任务的不同而不同,例如 在医学领域的知识图谱中,疾病、药物名称等可能为所需实体。现如今不存在 对于领域文本的实体识别工具,在本章中,我们则将电厂的各种设备系统等设 计为所需实体,利用Bi-LSTM-CRF算法进行命名实体识别。实体类型定义本章所选取的数据中,实体的主要类型为:电厂设备或系统,用EQU表示。训练数据标注本章使用基于字的Bi-LSTM-CRF进行命名实体识别,实则是将NER

60、问题 转换成序列标注问题并进行分类。此方法属于监督学习方法,因此需要标注训 练数据。本课题使用BIO标注集,含义如表所示。表2-1 BIO标注集含义标注含义B-EQU电厂设备或系统首字I-EQU电厂设备或系统非首字0非命名实体的一部分输入非结构文本的句子,将每个字的字向量送到Bi-LSTM-CRF模型中,将 每个字进行分类B,I,O三类。最后根据得到的结果,抽取出电厂设备实体。由 于没有训练样本,因此,采取人工标注训练样本进行训练,将得到的结果进行 筛选,再加入训练集,使用如此迭代的方式进行训练。2.3.3与无监督学习结合的属性抽取在知识图谱的构建中,属性识别问题通常有两种做法:1.从大量的结

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论