国外基于知识库的问答系统相关研究进展及其启示_第1页
国外基于知识库的问答系统相关研究进展及其启示_第2页
国外基于知识库的问答系统相关研究进展及其启示_第3页
国外基于知识库的问答系统相关研究进展及其启示_第4页
国外基于知识库的问答系统相关研究进展及其启示_第5页
已阅读5页,还剩15页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

-精选财经经济类资料- -最新财经经济资料-感谢阅读- 1 国外基于知识库的问答系统相关研 究进展及其启示 摘要:在 web of science 上检索 国外三年内关于知识库问答系统的最新 相关研究,介绍了知识库问答系统研究 在计算机信息检索领域和自然语言处理 领域的发展进程;再从目前最前沿的相 关研究出发,介绍了两种主要解决知识 库问答系统的自然语言处理方法;并探 讨了国外最前沿的研究成果为国内知识 库问答系统以及自然语言处理相关研究 带来的启示,并对未来研究前景进行了 展望。 中国论文网 /2/view-12934859.htm 关键词:知识库问答系统;自然 语言处理;信息抽取问答系统;语义分 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 2 析问答系统 DOI:10.13939/ki.zgsc.2016.39.086 一、知识库问答系统相关研究的 发展进程 有关于问答系统的研究在自然语 言处理领域和信息检索相关研究领域已 经有了相当长的研究历史。早期人们对 于问答系统研究的动机和需求主要来自 于信息检索系统的自动化,人们寻求一 种计算机检索系统可以自动并且准确地 理解人的信息需求,以便于找到合适的 信息。所以,早期的问答系统解决方法 主要是基于信息检索的技术。比如在基 于模板的 RDF 问答系统(Unger c.et al,2012)一文中,传统的问答系统都 是将问题转换为 RDF 三元组的形式, 再通过三元组在知识库中检索可能的候 选答案,但是作者认为单纯使用 RDF 三元组无法准确地表达问题真正的含义, 尤其是对于较为复杂的问题,RDF 三元 组很难回答出准确答案。于是作者提出 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 3 了一种更为复杂的问题解析方法,即引 入“SPARQL”模式来代替原有的简单 RDF 三元组。 “SPARQL”模式是一种专 门用于 RDF 的查询语言和数据获取协 议,通过“SPARQL”的引入,可以更准 确地表达提问的逻辑关系,从而提高解 析提问的正确率。Yahya 等(2012)在 处理 Web 中的自然语言提问时,也利 用了“SPARQL”模式对自然语言提问进 行拆分和进一步的语义分析。这种处理 自然语言提问的方法的主要思路是将问 题转换为 RDF 三元组或者更为复杂的 “SPARQL”形式,即抽取问题中最核心 的信息,然后在知识库中进行检索,之 后对检索结果进行排序,选择最可能的 答案。其主要缺陷首先是对问题解析不 够准确,尽管使用“SPARQL”来表示问 题中的逻辑关系,也仍然是基于三元组 的形式,对于逻辑关系更为复杂的问题 无法准确理解,其次对于候选答案的选 择和排序的准确率也不是非常理想。 随着自然语言处理技术的不断发 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 4 展,对于自然语言问答系统的解决方案 目前主要有两种形式,一种是基于语义 分析的方法,即利用语义分析的方法对 提问进行解析,将自然语言的提问转换 成更高级的表达形式或者标准提问语句。 最终目标是解析提问的语义,将其转换 为逻辑形式来准确表达自然语言提问的 含义。然后直接通过逻辑表达式在知识 库中匹配正确的答案,不再需要找到大 量候选答案,然后挑选可能性最大的答 案。与之相反,另一种处理自然语言提 问的方法是基于信息抽取。这种方法不 去理解提问的逻辑或含义,而是抽取提 问中重要的核心话题实体和关系,然后 在知识库中搜索核心实体几跳以内的候 选答案实体。最后计算候选答案与提问 文本的相似性或相关性,来选取可能的 最佳答案。 二、基于语义分析的问答系统研 究 首先来看近三年来基于语义分析 技术的问答系统相关研究。传统的基于 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 5 语义分析的问答系统一般来说都是通过 人工标注的逻辑词表,在小范围内进行 有监督的机器学习。这种方式有非常大 的缺陷,最主要的问题之一就是通过监 督学习,并且依赖于人工标注,这就导 致在大规模的知识库中表现不佳,遇到 在监督学习中没有学习过的样本就很难 处理。Cai 等(2013)的研究目的就是 在传统监督学习的基础上,建立了一种 可以用于大规模知识库问答系统的半监 督学习模型,以解决纯监督学习的语义 分析方法在知识库问答系统中存在的问 题。首先作者依然使用了纯监督学习的 方法进行了一个语义分析器的训练,其 次作者开发了一个匹配算法在知识库中 找到与词汇相关的标志,最后作者建立 了一个词汇扩展器,将词汇和知识库中 的相关标志联系在一起,并且可以不断 添加新的词汇和知识库相关标志,最终 完成学习。这种半监督学习模型虽然性 能比传统的方法有了较大提升,但仍然 无法完全摆脱对人工标注的依赖,同时 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 6 对词汇扩展器中词汇与相关标志的正确 度要求较高,所以仍然存在一些问题。 在用动态匹配方法扩展语义分析 器(Kwiat-kowski T.et al,2013)一文 中作者发现,首先,在传统的语义分析 解决知识库问答系统的方法中,由于对 同一问题自然语言表述的多样性,导致 对相近提问的语义分析结果,即逻辑表 达式会有所差异。因为在知识库中实体 间的关系是唯一的,这就会产生逻辑表 达式与知识库的关系无法匹配的情况, 从而降低了问答系统的性能。其次,面 对大范围的知识库,依赖于人工标记的 逻辑形式是不现实的。于是作者提出了 一种基于本体匹配并且不依赖于人工词 汇触发器的解决方法。这种方法分为两 个步骤,首先对问题进行不依赖于知识 库或者人工词汇触发器的语义分析,允 许产生不明确的逻辑表达式,或者说允 许产生对相近含义的提问产生不同类型 的逻辑形式。之后第二步就是作者提出 的本体匹配模型,在这种模型下,针对 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 7 知识库中不同领域鹊谋咎寤蛘吖叵担 将产生的不明确的逻辑表达式转换成 能够与知识库中本体匹配的明确逻辑形 式,从而提高问答系统的对不同表达的 相似提问的处理能力。 利用问题答案对的方法对 Freebase 进行语义分析(Berant J.et a1,2013)一文作为提出了一个行之有 效的摆脱人工标注的语义分析学习方法 的文章,使得后期很多的相关研究都以 其研究成果作为比较的对象。在这篇文 章中,为解决语义分析中对人工标注的 依赖,作者提出了一种基于问题答案对 的学习方法。首先作者使用了入一 DCS 语言来构成提问的逻辑表达式。由于自 然语言的复杂性,导致对提问的语义分 析会产生很多可能的候选逻辑表达式。 作者等人的主要贡献就是设计了一种学 习算法,可以通过正确答案的逻辑表达 式,训练得到一个向量,使得其与最正 确的逻辑表达式的内积最大。得到该向 量后,即使针对陌生的新问题也可以找 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 8 到最符合的逻辑表达式,从而在知识库 中找到符合逻辑的答案。 通过 转义法进行语义分析(Berant J,LiangP,2014)是对上一个研究的进 一步深入。在 2014 年的这篇文章中, Berant 等人认为 2013 年的模型较为粗 糙,直接将候选逻辑表达式和正确答案 的逻辑表达式进行匹配。在 2014 年的 研究中,作者等人提出了一种更为复杂 的模型来进行学习。其主要的贡献是在 对提问进行语义分析、生成逻辑表达式 的过程中,增加了一步转义。主要的过 程是先通过粗糙语义分析,生成一些候 选逻辑表达式。其次通过候选逻辑表达 式生成与原提问语义相近的规范自然语 言表达,再通过语义相似度的计算方法, 找到与原提问最相似的规范自然语言提 问,再生成可能正确的逻辑表达式。最 后通过正确答案的逻辑表达式,来训练 模型。Bemnt 等人的两种方法尽管仍没 有完全解决知识库问答系统的问题,但 对基于语义分析方法的研究产生了很大 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 9 的影响。 除了以上利用语义分析产生逻辑 表达式的思路,还有另一种语义分析来 解决知识库问答系统问题的思路,即语 义分析拓扑图与知识库实体关系拓扑图 的匹配。如 Reddy 等(2014)提出在大 规模的知识库中解决自然语言问答系统 的问题,既不基于人工标注的学习方法, 也不利用正确的问题答案进行训练,而 是利用对自然语言提问的语义分析产生 的逻辑关系拓扑图与知识库中的实体关 系拓扑图进行匹配,作者认为在这两者 之间有许多的共性。作者使用 CGC 语 义分析算法将自然语言提问转换成逻辑 关系拓扑图,然后将其与知识库中已经 存在的实体关系图进行相似度计算,找 到相似度最大的子实体关系图,最后根 据逻辑关系图中未知答案的位置,在匹 配的实体关系图中相同的位置找到合理 的答案。其研究为语义分析方法解决知 识库问答系统提供了一种全新的思路。 Wen-tau Yih 等(2015)也是基 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 10 于逻辑拓扑图匹配的思路出发,更加深 入地创新了一种方法。作者等人最大的 创新点在于直接利用知识库中的实体关 系,分阶段逐步生成与提问含义最相近 的完整逻辑拓扑图。该方法第一步是选 取自然语言提问中可能的候选核心实体, 第二步针对每个可能的核心实体和关系 逐步生成候选核心链,第三步利用卷积 神经网络的深度学习方法来找到与提问 含义最相近的核心链,最后一步将一些 限定条件添加到核心链中,最终得到与 提问含义最相近的完整逻辑关系拓扑图, 从而根据需求的未知答案在图中的位置, 得到正确可能性最大的答案。 有关语义分析方法解决知识库问 答系统问题还有其他许多有趣的研究, 如 Fader 等( 2014)提出了一种 OQA 的方法,既可以应用于 FREE-BASE 这 种规范化、结构化的知识库,也可以应 用于覆盖面更为广泛的 Open Information Extrac-tion 这种基于信息抽 取的知识库,其方法的主要过程首先仍 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 11 然是基于对自然语言提问的转义、语义 分析、逻辑表达式的生成和答案的匹配, 其创新点在于引入了 OQA 问答系统; 其次提出了一种找到高可靠性答案的算 法,并设计了一个感知机模型来M 行 答案的打分;最后开发了一个自动化的 提问转义和重写的算法。Bao 等 (2014)的研究主要是通过引入了 CYK 语义分析方法,将自然语言提问 的表达式转换和答案查找合并成一个过 程。以及 Yih 等(2014)的研究将注意 力主要集中在单关系的自然语言问答系 统的语义分析上,通过卷积神经网络模 型来计算提问中出现的实体与知识库中 的实体在关系模式上的相似度,然后选 择相似度最高的三元组来作为问题的答 案,尽管取得了一些成果,但是在处理 较为复杂的多关系的问题时,仍然力不 从心。 三、基于信息抽取的问答系统研 究 在介绍了基于语义分析的知识库 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 12 问答系统的相关研究后,接下来了解另 一种处理自然语言提问的思路,即基于 自然语言提问信息抽取的方法的问答系 统研究。在关于信息抽取方法的研究中, 最具有代表性的便是对结构化数据的信 息提取:基于 Freebase 的问答系统 (Yao x,Durme B V,2014) ,在这篇 文章中,作者认为即使语义分析方法十 分流行,信息抽取的方法在性能上依然 能与语义分析法相媲美。作者首先将问 题中有意义的词和关系抽取出来,并根 据其关系生成一个关系图,然后根据抽 取出的词确定一些核心话题词,其次在 知识库中根据这些核心词周围几跳内的 关系和实体抽取出个知识库的关系图。 作者认为通过这样的抽取,在知识库关 系图中应该包含有正确的答案,然后作 者将问题关系图中的所有节点作为问题 的特征,将知识库关系图中的所有节点 作为知识库关系图的特征。将两者的特 征进行相似度比较,相似度高的知识库 中的节点获得高分,反之获得低分,最 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 13 后得沿着得分最高的节点一路走下去就 是答案。在该研究中,作者证明了基于 信息抽取的方法相较于语义分析法是有 一定的可取 f 生的。 随着词嵌入技术的发展,对于基 于信息抽取解决知识库问答系统的研究 有非常显著的提升。Antoine Bordes 等(2014)就将词嵌入技术与知识库开 发问答系统相结合。在用弱监督嵌入模 型建立开放式问答系统这篇文章中,作 者认为在语义分析解决问答系统的研究 中,仍然需要人工标注,仍然是有监督 地学习,智能化不足。于是其提出了引 入词嵌入技术,省去了语义分析,直接 将自然语言提问转换成低维向量,同时 将与问题相关的候选答案的三元组也转 换为向量。再利用正确答案进行模型训 练,在实际应用中将相似度最高的候选 答案作为最终答案。在文章中,作者还 提出了一些计算向量相似度的优化算法, 并进行了比较。 在引入了词嵌入技术之后, -精选财经经济类资料- -最新财经经济资料-感谢阅读- 14 Bordes 对其进行了更加深入的研究。在 利用子图嵌入法建立问答系统 (BordesA et al,2014)一文中,作者 对其之前的模型进行了优化,其主要贡 献有两点。第一,作者引入了同义提问 进行模型的辅助训练,以提高模型应对 复杂的长路径问题的能力。由于自然语 言的复杂性,对含义相近的问题有多种 表达方式,当简单的问题换一种复杂表 述时,机器模型处理能力就会下降。为 了解决这一问题,作者增加了自然语言 问题转义的训练。第二,作者对候选答 案的向量表示更加细化,不再仅仅将答 案三元组转换为向量,而是从答案的实 体、关系路径和子关系图三个方面出发, 更加全面地构成表示答案的低维向量。 在 Bordes 等人提出了将词嵌入技术引 入知识库问答系统之后,许多研究者受 到启发,对这种方式进行了更加深入的 研究。如 li Dong 等(2015 )在 Bordes 的研究基础上,提出了一种多列卷积神 经网络的模型来计算问题向量和候选答 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 15 案向量直接的相似度。在利用多列卷积 神经网络建立针对 neebase 的问答系统 这篇研究中,作者等人的贡献主要体现 在从三个不同的方面来比较问题和答案 的相似性,即知识库中候选答案实体的 关系路径、上下文联系和答案类型。作 者利用正确问题答案训练的卷积神经网 络,对自然语言提问分别生成三个方面 的表示向量,之后与候选答案的三个方 面的向量分别进行打分计算,将结果相 加,总和得分最高的答案作为最佳答案。 在词嵌入技术显示出强大性能的 同时,有研究者尝试将词嵌入技术与语 义分析方法的优势相结合,解决语义分 析方法中的劣势,同时提升知识库问答 系统的性能。Yang 等(2014)就提出 了一种新的方法,将词嵌入技术与逻辑 表达式相结合,但是省去了对自然语言 提问的语义分析过程。在研究中,作者 认为在语义分析方法中的优势之一就是 利用了逻辑表达式作为对提问的解析形 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 16 式,逻辑关系清晰所以答案的可靠性较 高;但是缺陷就是语义分析的过程难度 较大,由于自然语言的复杂性,对同一 问题的不同描述数量非常大。语义分析 往往基于实体间关系的人工标注,但是 成本很高效率很低。为解决这一问题, 作者利用了词嵌入技术,将提问和候选 的逻辑表达式转换成向量形式,通过比 较二者之间的相似度,来确定最合适的 逻辑表达式,最终在知识库中确定正确 答案。此研究与信息抽取方法最大的不 同是其不直接比较提问与答案间向量的 相似度,而是计算逻辑表达式与提问间 的相似度,既保留了语义分析法的逻辑 清晰的优势,又加入了信息抽取方法中 模型简单的优势,是两种方法优势的结 合。 四、国外前沿研究成果的启示 首先,根据国外最前沿的一些研 究成果,我们可以发现,想要建立一个 成熟的知识库自然语言问答系统是一项 非常复杂的工作。由于人类自然语言本 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 17 身的复杂性,再加上目前计算机技术的 局限性,使得计算机进行自然语言的准 确理解和处理是非常困难的。然而建立 一个知识库问答系统的关键就在于解决 计算机在自然语言理解上的难题。尽管 随着机器学习技术的不断发展,乃至于 在计算机深度学习领域的研究也取得了 长足的进步,尤其在一些国外的前沿研 究中不断应用新的优化算法,但是最终 计算机对自然语言提问的回答准确率依 然无法达到可以接受的水平。目前这些 不尽如人意的实验结果一方面说明实现 一个成熟的知识库自然语言问答系统是 一项具有挑战性的研究;另一方面也说 明在知识库自然语言问答系统的研究领 域仍然有很大发展空间。 其次,要真正建立一个成熟的知 识库自然语言问答系统,实现计算机自 然语言的无监督学习是十分必要的。尽 管目前计算机在无监督学习下的自然语 言处理结果相比有监督地学习准确度且 更为复杂,但是计算机对自然语言的无 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 18 监督学习是实现真正意义上的智能问答 系统的必然趋势。在有监督学习下建立 的问答系统有一个最致命的缺陷就是无 法处理新的知识,即无法处理没有标注 过的内容。由于人类自然语言的复杂性, 再加上人类语言自身仍在不断变化和更 新,难以通过人工标注的方式将所有自 然语言的词汇全部囊括到知识库中。这 就需要计算机有自主学习的能力,通过 知识库中已有的知识来不断学习新的内 容。计算机有自主更新知识库的能力是 其实现真正智能的自然语言问答系统的 前提。 最后,词嵌入法这种将自然语言

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论