




已阅读5页,还剩26页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
国家科学图书馆青年人才领域前沿项目 结题 报告 基于本体的科学知识图谱 分析方法研究 撰写 人: 王建芳 撰写时间: 2011 年 6 月 10 日 摘 要 由于目前基于共词关系绘制的科学图谱可读性不强的问题, 本研究 尝试利用本体的语义关系来优化共词科学图谱的关系展示,通过理论分析、实验案例来揭示其可行性和有效性 。 本研究借鉴相关领域的研究成果,提取本体关系中的上下位关系及关联关系计算词与词之间的语义关系,并根据两种类型的语义关系构建了其与共词关系融合的算法。 通过 “农业污染”领域的案例实验 , 分析了共词关系与 本体中体现的上下位关系、关联关系融合的效果,结果显示,上下位关系对共词关系图谱的优化效果有效,而关联关系可以在一定程度上丰富语义关系,并优化聚类结果 。 关键词: 科学知识图谱 ; 本体 ; 关系融合 s a of a of to to by we to In on in we on of to of is we to 目 录 一、研究背景与现状 . 1 究背景 . 1 内外研究进展 . 2 学知识图谱及相关研究进展 . 2 于本体的情报分析研究进展 . 4 二、科学图谱语义解释性问题及引入本体的可 行性 . 6 学图谱语义解释性问题的分析 . 6 于共词的科学图谱中引入本体关系的可行性分析 . 7 建共同的分析词条 . 7 于共词关系与本体关系的关系融合的思路 . 8 究思路 . 8 三、基于本体的科学图谱分析方法 . 9 词关系与本体关系计算的方法 . 9 体层次关系及关联关系的计算 . 9 词关系计算 . 11 词关系与本体关系融合的方法 . 12 四、案例验证及结论分析 . 13 例实验的实施 . 13 用本体的选择与结构解析 . 13 例试验流程 . 15 究结果分析 . 17 五 、存在的问题及展望 . 20 附录 . 21 1 一、研究 背景 与现状 究背景 在科学技术自身发展取得巨大进步的同时,对于科学技术发展演化特征的解读也在日益繁荣。科学技术史考证史实,梳理科学发展的脉络;科学技术社会学审视科学与技术建制的结构与运行机制,描述科学技术与社会的关系;科学哲学界定科学,反思科学,诠释科学发展的逻辑 ;创造学总结技术系统进化的规律性。关注科学与技术发展的相关学科对科学技术知识演化的特征做出了规律总结。 情报科学以独特的视角和方法观察、展现科学活动与科研成果。情报学的独特视角在于利用科学与技术知识的载体作为分析对象,尝试利用定量的方法解读科学与技术知识之间的关联性 。 随着文献计量 学的发展,尤其是可视化技术的进步,科学图谱方法 在揭示科学领域之间的相关关系及其发展演化等方面得到了广泛的 应用。绘制科学图谱的一般方法包括了共引分析方法、引文耦合分析方法、共词分析方法,以及融合了其他文献特征的综合分析方法等。但无论分 析方法如何改进,采用何种可视化计划,基于这些方法绘制的 科学图谱 一直 存在可视化结果可读性不高、结果解释性不够的问题。因此,对于科学图谱方法的优化是必须解决的问题。 这一问题的解决首先有赖于分析对象之间语义关系的明确。 而 知识组织系统对人类知识结构的表达能力 在不断提升,包括能揭示语义关系的 叙词表、语义网络和本体 等,它们通过 对于概念、术语及其相互关系的规范化描述,勾画出某一领域的基本知识体系和描述语言,为计算机实现类似人的思考构建一个概念层次。 而概念层次关系的模糊性正是科学图谱方法中导致可读性不高的关键问题,为此, 本文试图借助知识组织系统的概念关系来优化科学图谱方法,以提升科学图谱展示的科学进展的质量。 2 内外研究进展 学知识图谱及相关研究进展 在科技哲学与科学社会学等领域,对于科学和技术知识演化及其关系的理论阐述已经非常成熟。文献计量学、科学计量学作为对科学技术发展状况进行数字解读的学科也已经得到了长足的发展,尤其在利用信息可视化技术实现科学发展的展示方面,已经成为目前领域研究的热点,利用其揭示科学发展的前沿等特征的尝试也越来越多。 对科学技术发展演化状况进行可视化分析的方法,即科学图谱分析方法。科学图谱分析方法的研究中,包括分析过程中若干阶段的研究和实践,力图以更客观真实的图示为读者提供科学发展状况的简化描述。该过程可以大致划分为如下几个阶段:根据分析的目的确定计量分析的文献特征;选择分析的方法,构建合适的文献特征之间的关联;对关联特征进行适当的数字化表述,以尽量客观的方式反映知识关系;对数字关系以清晰、易读的可视化形式呈现给读者。 用于计量分析的文献特征有很多,而可用于分析的文献特征中,具有知识表达功能的只有引文、分类和词(短语),如基于引文的共引分析和基于主题词的共词分析等。引文指向的是一 篇文献,代表的是一条法则、规律或一个问题,可以认为是若干知识单元的集合,所以基于引文的分析是不能反映微观层次的知识关联的。分类一般代表的是一个综合的知识领域,即使是比较详细的分类,对微观知识的反映也是有限的。因此,为了明确分析知识之间的关联关系,只有选择知识继承与发展的最小功能单元,即词作为分析对象。 共词分析基于的是词之间的关联而进行的知识关联分析,词是代表概念的,因此相比共引分析而言,共词分析揭示的是更微观的知识关系。但是一般的共词分析没有揭示词之间的语义关系, 法作为共词方法的一种3 改进,利用临近度 来揭示语义关联性。 在这些研究领域,国外开创了方法研究的先河,近年来,国内也有越来越多的学者开始这方面的研究和实践应用。本研究为揭示知识之间的关联关系,选择共词分析的方法,为此以下的研究现状论述以共词分析为主。早期共词分析方法的基本思想是以问题网络的层次结构为基础,通过包容指数和临近指数两个指标寻找中心 现目前规模较小但是具有成长潜力的领域,并将问题网络展现为包容地图和临近地图。在包容图中通过比较问题网络的结构变化说明知识的发展变化,这里的指标通常包括:中心词的个数、点的位置变化、点与点之间的关 联变化、网络密度、结构层次等。临近地图揭示具有较强关联性的小主题。随着阈值的降低,越来越多的高频词之间的强关联包括进来。因此它又被认为是自下而上的分析,揭示问题网络中的微单元知识。 由于上述方法的复杂性及结果解释等问题,后来学者们又开发了基于网络密度和中心度的网络分析方法,并据此建立空间坐标、进行网络比较等。这里密度用来度量共词网络中聚合成一个主题的内部凝聚程度,中心度用来度量一个研究主题和其它研究主题的相互影响程度。将密度与中心点分别作为横纵坐标绘制战略坐标图,通过研究主题在图中的位置,以及比较主题在不同 时期的位置变化,可以对领域的发展进行一定的预测。相比较初期的方法,该方法的易操作性大大提高,因此得到了比较广泛的应用。 类似于共引网络聚类图的展现,后来的共词网络分析也依据各种相关度指数,如 数等计算词之间的相关度,然后通过各种聚类算法绘制网络图,进而对网络图所展示的结果进行定性、定量的分析,揭示知识之间的关联情况。 上述共词分析方法中分析指标的变化,伴随了分析用词、聚类算法、可视化方法的改进等等,使共词分析的结果大大改善,也使得其对科学知识演化的描绘更加可靠。已有的共词分析应用揭示的知识演化 特征可以总结4 为:从学科内部关系的角度,区分科学子领域,确定学科结构;从学科之间,以及科学与技术之间的关系层面,揭示研究主题之间的特点与差异;从时间的维度,揭示出特定领域的不同子领域的研究的演化模式及其相互关系;从横向的主题比较中,揭示研究主题接近所属领域热点问题的程度,进而预测特定领域的知识发展趋势。 但目前的研究和应用中还存在很多的问题,当然也是由于知识关系本身的复杂性问题,特别是在具体分析方法上,对于分析对象的选择的研究仍有不足。在共词分析中,词的选择将严重影响分析的结果,而且不同词的概念属性和集总层次 度截然不同,据此得出的共词网络可以说不具有语义解释性。 这里的原因主要在于,词的含义是不够明确的,在不同的语境中会有不同的意义。 1这给基于概念词的情报分析带来了疑问。但是值得注意的是,该问题存在的前提是,词在没有特定语境的情况下,才造成了语义的不明确。当我们对所分析概念词事先做出语义限定的话,这也就不称其为问题了。为了揭示深层次的知识演化关系,本人曾对共词图谱的语义解释性问题提出了可行的解决方案。 对于分析词的语义限定是共词分析面临的一个主要挑战,而本体的发展为共词分析词的选择和利用提供了可靠的思路。因为本 体是一种共享词表,可以揭示特定领域之中那些存在着的对象类型或概念及其属性、相互关系。因此,本研究试图在已有的基于概念词的知识单元形态划分进而建立知识图谱的基础上,尝试引用本体对科学知识领域的描绘对特征词进行语义限定,映射文本分析中提取的关键词或者主题词,将其赋予特定而规定性的语义属性,从而完善共词分析多维视角和语义可解释性。 于本体的情报分析研究进展 根据知识组织系统对人类知识结构的表达能力可以将知识组织系统1 of of 997,48(5): 418 ( 分为 3 类: 1)术语列表型( 如字典和术语表; 2)分类 型( 如标题表、分类法和范畴表; 3)关系型( 如叙词表、语义网络和本体 2。其中,叙词表是本体出现之前最高端的知识组织系统 3。 尽管叙词表和本体有不同的起源和用途,但它们都是通过受控词汇来表达概念的概念系统,都提供了对领域知识的共同理解与描述,都追求概念及其之间关系的明确化和描述的形式化;都可以作为特定学科信息(知识)的组织工具,都具有等级结构,并通过等级关系及词(概念、类)间关系将词(概念、类)组织起 来;都需要维护与不断修订。另外,本体的构建通常是以叙词表作为基础和起点的;由于叙词表本质上一种知识组织体系,具有层次结构和分类等级,所以叙词表本身是轻量级本体 4。 在传统的信息检索系统中,由于 语义异构性的存在, 使得 系统难以满足用户对信息和知识的深层次需求,因此, 学者们提出 加强基于概念匹配的信息检索系统的研究。概念匹配,简而言之就是计算词语之间的语义相似度 5。与 传统 的以 词形为 切入 点 ,建立在 词语 字面匹配基 础 上的 检索 算法相比, 语义 相似度 计 算是 对 源和目 标词语间 在概念 层 面上相似程度的度量,需要考 虑词语 所在的 语 境和 语义 等 信息。 国外基于本体的语义相似度计算 包括 基于距离的语义相似度计算 、 基于信息内容的语义相似度计算 、 基于属性的语义相似度计算 ,以及 混合式语义相似度计算 等。 基于本体的相似度计算研究已经取得很多成果,本研究试图选择适当的相似度计算方法,并与共词关系的关联度相结合,形成集成的词间关系,分析其是否有利于基于共词的科学图谱展示效果的提升。 2 赵涣洲 ,唐爱民 叙词表与 情报理论与实践 ,2005,28(5):469 曾新红 ,林伟明 J2008(5):1 顾金睿 ,王芳 J2007,25(6):949 2007 、 科学图谱语义解释性问题及引入本体的可行性 学图谱语义解释性问题 的分析 关于科学图谱的语义解释性不佳的问题, 有很多方面的原因,分析 其原因可能包括如下方面 : ( 1) 词与词 之间的共现关系,不必然揭示语义关系 。绘制科学图谱的目的是 显示科学知识的发展进程 或 结构关系 ,从宏观的科学结构来讲,以引文(也就是一篇文献)作为一个节点 、 以文献间的引用关系来构建 科学结构,由于文献本身就是一个语义单元,因此,引文关系揭示的宏观的科学 结构比较容易体现语义解释性,而在微观层面,通过共词 方法分析科学进展或前沿,分析的节点是 单个 的词和词组,它们可以揭示一个概念,而概念与概念之间的联系才构成有明确的语义,这里的联系 必须是在同一个语境 中才可以表现出特定的语义。 但共词分析一般用的关键词和主题词仅仅是出现在同一 篇文献的关键词列表中,只有在文献的语境中,这些关键词的之间的语义关系才是明确的。比如 “知识管理”与“竞争情报”同时出现在许多文件的关键词中,但研究的内容有的是研究二者之间的关系,有的是讨论竞争情报对知识管理影响作用,等等。因此,两个词之间的共现对语义关系的反映是有限的。 ( 2) 由于词与词之间的上下位关系、通用词 、 专用词 以及同义词 在文献中出现频度的明显差异,造成共词关系图谱中上位词和通用词的优势地位 ,从而弱化了更加深层次的语义关系。 这里除了同义词的影响,还有某种语义关联词的影响, 如 “医生 ”、 “护士 ”、 “医院 ”、 “病床 ”、 “手术室 ”、 “诊断 ”、 “药方 ”、 “感染 ”、 “病情 ”、 “抗体 ”等词是存在某种关联的。其中一个特征的存在在某种程度上具有替代其它词的作用 , 各个特征单独出现的频率可能比较小 , 而且也许会被一些无关的、出现频率大的词所覆盖。 而如果 这些词共同表达的是一个主题的话 , 它们出现在 词表 中的语义距离是比7 较近的 , 根据词表之间的临近关系, 就可以把它们综合起来考虑。 比如从文本中抽出这样一些词信息如下 :3 , 1 , 1 , , 1 ,14其中每个词后面的数字表示在文本中出现的次数。如果只是分别考虑各个词的词频的话 , 则 高 , 但是我们可以知道前面几个词之间有很强的语义关联 , 它们可以相互补充 , 从而提高该部分各个词的重要性。 ( 3) 共词关系中所揭示的关联度,使语义关系被弱化 。该问题与上面两个问题相关联,由于通用词的词频往往较高,通用词与通用词之间的共现关系也较多,这样 共词关系揭示的往往是通用词之间的关系, 从而在很大程度上掩盖了需要重点反映的 内在语义关系。 因此 ,很大程度上,词之间语义关系的复杂性导致了共词 关系 得出的知识图谱的语义解释性不佳 。 于共词的科学图谱中引入本体关系的可行性分析 本体或叙词表 都是通过受控词汇来表达概念的概念系统, 但 都提供了对领域知识的共同理解与描述 ,且作为特定学科信息(知识)的组织工具,除能够 通过等级关系及词(概念、类)间关系将词(概念、类)组织起来以外,都能够体现词与词之间的语义关联关系。因此,本体关系从语义的角度体现了 词与词之间的关系。 基于共词的科学图谱是通过词与词之间的共现 关系来体现研究内容的关联性。从本质上讲,共词关 系与本体关系体现的都是词与词之间的关系,这就构成了二者融合的基础。 建共同的分析词条 用于建立共词关系的词往往是来自于文献的关键词列表,或者从标题、摘要甚至全文中提取的主题词,这些词不可能有非常规范的形式和表达,而本体或叙词表给出的都是经过严格规范的词,因此,在关系融合之前二8 者的匹配是首先需要解决的问题。 从另一个方面讲,本体或叙词表提供的规范词条可以为共词分析提供关键词清理的工具,因此,可以通过本体的词条对关键词进行不规范词的规范化处理,以及同义词的合并等,这样不仅可以实现关键词的自动清理, 在基础上沟通相同的 分析 词条,进而进行融合。 于共词 关系 与本体关系的 关系融合的思路 共词关系与本体关系的融合,可以有多种思路, 首先, 可以在具体关系分析之前,也就是图谱绘制之前,基于二者的关系矩阵进行数值换算,得到融合的关系 。这是一种最容易实现的方法,而且在信息过滤等领域,这种融合已经有了比较成熟的经验。但这里存在的一个问题是,两者本身揭示的关系类型是不同的,经过数值计算的融合结果的得出结果的真正含义是什么?这一问题可以通过数值计算的不同方式来得到解决,比如简单的加权平均,为了强调某一种关系,可以 设置不同的权重。 其次,可以 在 某一种关系的可视化结果的基础上,进行另一种关系的叠加 , 这样可以更容易地解释融合后的关系性质,绘制的图谱的结果的解释性会更强。 比如在本体关系可视化图上,叠加共词关系,将共词关系的亲疏通过词之间的连线来表示等。 但类似的做法很少有可以借鉴的经验,但理论上是可行的。 究思路 本项目 尝试 利用本体所体现的语义关系来优化共词构建的知识图谱, 在一 般共词分析的基础上,进行概念语义关系的计算,进而与共词关系进行融合 , 并分析其对于知识图谱语义解释性的作用, 具体如图 1。 9 三 、 基于本体的科学图谱分析方法 基于本体的科学图谱分析方法首先要确定共词关系、本体关系的计算方法,进而根据融合的目的 确定 共词关系与本体关系融合的 方法 。 词关系与本体关系计算的方法 体 层次关系及关联 关系 的 计算 在信息过滤等领域,对于本体中词之间的关系,即本体关系的计算, 主要是计算词之间的层次关系和关联关系,层次关系揭示词之间的上下位关数据集构建 数据预处理 分析词 遴选 概念语义关系计算 聚类分析 可视化展示 图 1基于知识组织的情报分析总体流程 文献集 传统关系 计算 研究主题 上下位概念计算 关联关系 计算 共词关系 计算 混合模型 权重 计算 聚类分析 研究主题 对比分析 10 系,关联关系揭示词之间的语义相关性,甚至 关联的 属性。 常见的 计算 方法包括 : ( 1) 层次关系 (: i. 别 为词 词 共同祖先节点的距离, 这个共同祖先到根节点的距离。 词 词 短通路上的节点的数量 D:为知识组织体系的层次深度 但分析该公式的含义, 从 1 到 2D,上下位关系通过根节点链接,因此 d 的大小为 1/2D 到 1, p/2d)从 0。因此,在 2D 大于底数的情况下,该值就大于 1,是错误的值,因此该参数可以改为: p/2D 1/2D,1.相似度用 1D 表示。 121*2 A( 为所有词 先词),包括 A( 为所有词 先词),包括 以上三种计算方法的结果没有很大区别,本研究尝试 利用 三种 算法 进行初步计算, 以分析该应用场景的最佳算法。 ( 2) 关联关系( 6 1)2010. 88 11 关联关系是本报告所强调的语义关系的最佳体现,在比较理想的本体结构中,关联关系可以有很多种,或者不同的属性类型,对于此类情况,可以将关联关系分为若干级别,然后计算权重。 一种较为简单的计算方法是按照是否有关联关系计权重来得出关系值,如: 示直接从关联关系表中取得两次词是否有关联关系,有关联关系值为其层次关系值的 50%,若没找到关联关系,则该值为 0; 加上同义词和注释词的向量表示 (词干表示 ),计算夹角。则关联关系值为: r=(r1+2 对于 只揭示一种 关联关系 “农业叙词表 ,词之间的语义关联可以简化 为 ,将直接关联的关系参数设定为 如果: “ “ 那么 关联关系值 共词关系计算( 词与词之间的共现关系中的共现词频本身就可以体现共词关联度, 在此基础上,学者们又提出了若干计算共词关系强度的算法, 这些指数的一般原理为:将两个本来关系就密切的关键词显得更密切,使关系疏远的关键词显现得更为疏远,由此可以在某一主题内,明显区分核心和非核心概念。但这些测度指标的计算仅仅是从词的频次或共现的频次出发的,没有考虑这些频次所属分析文献集的大小,因此,很难区分不同的词对相对领域贡献度的大小。 常见的共词关系相似度的计算 方法如下: ( 1)内积。 设 , T, , T, 间的相似度用内积表示为 12 ( 2) 数。 关键词 数定义为 ( 3) 数。 关键词 数定义为 : ( 4)余 弦 函数。关键词 余 弦 系数定义为: 作为对比对象,本研究选择 数作为共词关系计算的系数。 词关系与本体关系 融合 的方法 通过计算,对于任一的词对,可以获得三 种 关系:上下位关系 联关系 共词关系 点是将三个矩阵合并,形成关系的合成。一般来讲,合并权重可以由配置获得(必须满足: ),若没有,则按照下面算法计算三个关系的权重系数 阵中非对角线的最大值。 阵中非对角线的最大值。 阵中非对角线的最大值。 2222m a a a a 2222m a a a a 13 2222m a a a a 在本研究中,为分析对比各种类 型的关系对共词图谱的作用,首先分别将共词关系与上下位关系、关联关系进行了合并,然后再将三者融合。 合并的算法分别为: ( 1)共词关系与上下位关系的合并: 如果上下位关系为 0,则合并值仍 取 共词关系值,如果上下位关系值非零,则合并值为共词关系值 *上下位关系值,这样可以在某种程度上调整共词关系的强度,弱化上下位关系的强关联,从而凸显语义关系。 ( 2)共词关系与关联关系的合并: 为了体现共词关系中的语义联系,也就是说,在不同共词词对中,突出具有语义联系的词之间的关联度,因此,可以利用关联关系来调整共词关系词之间的语 义强度,算法为赋权合并,共词关系权重为 联关系权重为 3)共词关系、上下位关系与关联关系的合并: 三者的合并目的是在若干上下位关系的基础上,更好体现语义关系,因此这里的算法是在共词关系与上下位关系合并的基础上,在与关联关系进行赋权合并。权重赋值同上。 四 、 案例验证及结论分析 例实验的实施 本研究案例实验 选择的本体为 联合国粮农组织发布的 农业叙词表于目前可用的比较完善本体不太容易获得 ,故选择轻量级的叙词表作为本体的基础 集合 ,而且该叙词表的 块还有关键概念与概念关系的范例,力图以本体的形式进行描述 ,因此,基本可以满足本研究的需求 。 14 分析 农业叙词表 的结构,其中 存储 了 农业 领域 的专业概念信息、概念的同义词、概念的上下位词和概念的关联词信息。 这些信息在叙词表中的表现形式如下所示。 概念标签,最后后面的数字,是该概念在叙词表中的标号信息。 签是这个术语的名称。 签中的内容是该概念的同义词或同义概念。 签中的内容是该概念的上位词或上位概念,通过最后的数字(概念标号)关联。 签中的内容是该概念的下位词或下位概念,通过最后的数字(概念标号)关联。 签中的内容是该概念的关联词或关联概念,通过最后的数字(概念标号)关联。 部分概念还有注释 of 5 例试验流程 ( 1) 试验数据 及 预 处理 本项目的分析数据来源为 of 主题选择与农业叙词表有对应关系的 “ 农业污染 ”领域 。 检索 2006 “ 农业 污染 ” 主题的 英文 论文( ,共 得到 11,844 篇 , 以此 作为初始数据集。 为有利于与农业叙词表的匹配, 分析用词选择相对规范的 作者关键词 ,作为构建共词关系的来源,首先,将 文献 数据导入 必要的数据清理之后,再提取 作者 关键词 信息 并进行 初步清理, 最后 导出词频大于 10 的655 多个词条作为与农业叙词表的匹配对象。 从叙词表中 导入 的 农 业叙词 为 38202 个,其中正规名称 28174 个,别名10028 个, 将 出的 655 个词条中 农业叙词表 匹配,得到 337 个匹配词,利用 叙词表合并同义词(一个词的正规名和别名) ,结果示意如下表 。 叙词表中正规词的 称 合并结果 228 28 302 302 159 159 651 651 807 807 391 391 268 268 077 077 077 617 617 377 6 7377 5911 5911 3483 3483 3560 3560 3949 3949 5028 5028 5131 5131 5131 并同义词后, 剩余 319个 ,作为 可分析的对象 ,详见附表。 ( 2)关系计算及 比较分析 本研究编制了专门计算机程序,实现 从农业叙词表中提取词与词之间的上下位关系、关联关系 ,并利用上述算法计算关系值 。另一方面, 在 19 个分析词,并构建共现矩阵 并计算关联系数 。 然后将不同类型的关系合并,形成新的关系矩阵并可视化,以比较分析结果的优劣势。 关系合并的思路包括: 共词关系与上下位关系的合并 ,主要展示共词关系,仅以上下位关系系数作为调整词与词之间由于上下位关系而导致的某些关系太过密切的问题,以此来突出其它更重要的共词关系 ; 共词关系与关联关系的合并 ,仍以共词关系为核心,通过关联关系加权突出具有特定语义关系的词与词之间的联系,进而更清晰地表达特定关系的所显示的领域发展趋势 ; 共词关系与上下位、关联关系的合并 ,通过三者的融合,在弱化上下位关系的基础上,进一步突出关联关系, 但仍以共词关系为主,尝试是否可以更好揭示研究的热点问题。 需要说明的一点是, 由于农业叙词表中 最多计算到四级, 因此本研究中17 词与词有 关联 的值最小为: 究结果分析 这里 通过对比传统的共词关系、共词关系与上下位关系合并、共词关系与关联关系合并,以及共词关系与上下位、关联关系合并的图谱, 分析在共词关系构建的图谱当中,利用词之间的上下位关系及关联关系进行优化的可行性, 及其 对共词关系图谱语义解释性的贡献。 上述合并后绘制的知识图谱如图 2、图 3、图 4、图 5。 图中点的 大小 以文献集中词的频次 为依据,点越大词频越高;线的粗细以合并前或合并后的关联关系为依据,点越大说明关联关系越密切。 此外,为对比分析结果的差异,图 2绘制利用了同样的关联阈值,及关系值大于 图 2为传统的共词关系图,图 3为进行了上下位关系调整的共词关系图,对比图 2 与图 3 可以发现,传统共词关系图与上下位关系合并图的结果差异不大,两者对词与词之间关联度的揭示程度都不是很好。因此,上下位关系对共词关系图的优化效果比较有限。 图 2 农业污染领域共词关系图 18 图 3 上下位关系与共词关系 融合后的 图谱 图 4 关联关系与共词关系融合后的图谱 19 图 5 上下位关系、关联关系与共词关系融合后的图谱 比较图 2、 3 与图 4 可以发现, 关联关系的 引入 对共词关系的调整 效果比较明显,一方面关联关系更加丰富,另一方面,体现的语义关联更加明显,聚类的效果也更好。 如 及 下 侧远程遥感 、 环境监测中的利用 ,都能比较明显 地体现 热点的内容要点。 比较 图 4和图 5,可以看出两者 的差异不太明显 ,这进一步说明了上下位关系调整对于共词关系图谱显示效果的影响不 是很大,分析其中的原因可能在于,在我们的分析对象 作者关键中,是比较理想的分析用词,上下位词同时出现在关键词列表中的几率较低,从而造成上下位关系没有明显影响共词关系。在未来的研究中,可以尝试利用标题、摘要中提取的关键词来进行类似的分析,以发现其中的差异性。 此外, 作为通用词的 各图 中虽然节点比较大(点的大小由词频的高低来确定),但从与其他词之间的关联来看,是比较弱的,这从某种程度上说明了语义合并的价值所在,即是通用词、上位词的优势地位 有所 弱化。 20 因此, 进行对比分析可以看出,共词关系 与关联关系合并的图谱最具可读性,语义解释性也最强。 五 、存在的问题及展望 本研究 存在的问题主要是 ,某些参数的选择还可以更加丰富,进而进行更加深入的比较。另外, 目前的研究仅实现 了 分析前的关系合并, 即 直接将共词关系与本体语义关系进行合并, 进一步的研究可以实现可视化结果的合并, 如将语义关系作为词之间的距离的标识参数,将共词关系 体现 的强度作为连线的粗细,这样可以 在体现语义关系的前提下,显示研究热点和前沿。 由于本研究案例实验的领域本身的问题,导致文献数据关键词与叙词表的匹配结果不是很理想,这也在某种程度上影响了共 词关系与本体关系融合的效果,为此,未来的研究中可以通过一定的方法将实现词条的更好匹配,如借助其他工具实现进一步的合并,或者对未实现匹配的关键词 进行进一步的 分析。 此外,一个比较重要的问题是,本研究的算法优化主要是基于本体的关系,但是目前除医学领域外,很难找到比较成熟的本体结构,项目研究过程中搜集了多个领域的本体或叙词表,虽然
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年玉米采购合同书范本
- 2025环保型建材供应合同
- 2025北京家具买卖合同
- 治疗方案沟通核心框架
- 干呕的日常护理
- 巴基斯坦时间管理体系解析
- 天津市南开中学2024-2025学年高三下学期第五次月考数学试卷
- 普通心理学(第2版)课件 第二章 心理的生理机制
- 2025年电工基础知识试题
- 遗传性球形红细胞增多症的临床护理
- 夜场水烟合作协议书
- 河南省青桐鸣大联考普通高中2024-2025学年高三考前适应性考试地理试题及答案
- 管道劳务分包协议书
- 2025年中考理化生实验操作考试考务培训大纲
- 拆迁服务方案
- 2025-2030中国锂电子电池行业市场深度调研及前景趋势与投资研究报告
- 天津市部分区小学2025年小升初数学自主招生备考卷含解析
- 2021年高考地理试卷(全国甲卷)(空白卷)
- (二模)2024~2025学年度苏锡常镇四市高三教学情况调研(二)数学试卷(含答案详解)
- 2024初级社会工作者职业资格笔试题库附答案
- 江苏省南京市建邺区2023-2024学年八年级下学期期末考试物理试题【含答案解析】
评论
0/150
提交评论