国内知识图谱研究的可视化分析-科学网—博客.doc_第1页
国内知识图谱研究的可视化分析-科学网—博客.doc_第2页
国内知识图谱研究的可视化分析-科学网—博客.doc_第3页
国内知识图谱研究的可视化分析-科学网—博客.doc_第4页
国内知识图谱研究的可视化分析-科学网—博客.doc_第5页
免费预览已结束,剩余2页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

国内知识图谱研究的可视化分析魏瑞斌(安徽财经大学管理科学与工程学院,蚌埠,233030)摘要:对国内知识图谱期刊论文的外部特征和内容特征进行可视化分析。研究表明:国内知识图谱研究处于起步阶段,研究人员和机构相对集中,研究论文的合著率较高,研究主题鲜明。今后的研究需要加强学科间的合作,加强基础理论研究,创新研究方法,优化数据质量。关键词:知识图谱 可视化 共词分析 Ucinet分类号:G310Visualization Analysis of the Achievements in Mapping Knowledge Domain in ChinaWei Ruibin(School of Management Science and Engineering of Anhui University of Finance & Economics, Benbu 233030)Abstract:This paper analyzed the external characteristics and content features of the paper studied the mapping knowledge domain in China. The research shows that domestic research on the mapping knowledge domain is still at the starting stage, researchers and institutions are more concentrated, the coauthor rate is higher, these paper have distinct theme. The research should strengthen cooperation between different disciplines, pay more attention to basic theory research, promote research method and optimize data quality in the future.Keywords: Mapping Knowledge Domain; Visualization; Co-words Analysis; Ucinet1引言知识图谱是将以科学学为基础,涉及应用数学、信息科学及计算机科学诸学科交叉的领域,是科学计量学和信息计量学的新发展。随着统计分析、引文分析和网络分析方法在科学计量学领域的广泛应用,以及计算机图形学和可视化技术的发展,知识图谱研究在20世纪90年代以后得到迅猛发展1。知识图谱的研究发端于美国、荷兰等国。根据刘则渊教授对科学计量学重大变革的三条路径与重要人物的介绍1,笔者认为国外知识图谱的研究主要有三大学派。第一类是科学计量学学派。这个学派主要是以引文分析理论为基础研究不同学科的知识图谱。如加菲尔德等人(1964)手工绘制了DNA领域的历时态图谱2;普赖斯(1965)运用相同的数据完成了他的经典论文“科学论文网络”3;Small(1973)年提出了论文“共被引”的概念和共被引分析方法,并绘制了粒子物理学领域高被引论文的共引图谱4;White、McCain、Noyons等人(1998)将引文分析与多维尺度分析相结合,建立了基于多维尺度分析的知识图谱方法56。第二类是复杂网络学派。这个学派主要是利用复杂网络理论和方法对引文网络、科研合作网络、关键词共现网络等展开研究。如社会学家Hummon(1989)把社会网络分析方法引入了引文网络研究,提出了引文网络中的关键路径算法7;纽曼(2001)用复杂网络方法测定了生物医药、物理学和计算机科学等领域科学合作网络中最有影响力的科学家,并揭示了科学合作结构具有复杂网络的高集聚和小世界等特性8910。第三类是可视化学派。这个学派的研究者将计算机科学的理论、方法和引文分析等有机结合,利用专门软件对大量反映知识结构及发展脉络的数据自动处理,生成可视化的知识图谱。如陈超美提出了探索关键路径的pathfinder算法,并开发了供全球用户免费下载使用的Citespace软件。他(2010)还提出了多视角的共引分析方法,把共引网络分为多个聚类谱,重点关注聚类谱之间的相互关系11。Mane和Brner(2004) 探讨了Kleinberg跳变算法、共词分析和图像展示技术在研究主题和发展趋势中发现中的应用12。阿米德等学者(2004)运用Wilmascope三维动画可视化技术对IEEE InfoVis引文网络进行可视化分析13。Henzinger和Lawrence(2004)基于环球网图表模型和历时时间的聚焦式缓慢动态模型,进行科学研究共同体识别14。总体看,国外学者在知识图谱的理论、方法和可视化软件等方面都处于领先地位。他们的研究内容涉及很多学科领域;科研合作也非常明显。在国内,以刘则渊教授为首的学术团队率先引入的知识图谱的概念,成立了网络信息科学经济计量实验室(WISE LAB),并与鲁索、克雷奇默、陈超美等国外知名专家开展合作研究。本文利用可视化方法对国内知识图谱研究的研究现状进行分析,并提出这个领域今后的需要加强的研究内容。2数据来源与研究方法2.1数据来源本文从知网、万方和维普的期刊全文数据库获取了每篇研究知识图谱论文的题名、作者、机构、发文时间、发文期刊、关键词等相关数据;论文的研究方法、研究工具等数据通过人工采集方式完成。数据的时间范围是2005年1月到2010年8月。检索条件设定为题名或关键词中包含“知识图谱”的期刊论文,共检索到61篇相关文献。知识图谱和知识地图在研究目的、研究方法和工具等方面有相似之处,但笔者认同文献1516的观点,两者之间存在差异。因此,本文没有将国内知识地图的研究成果纳入研究范围。2.2研究方法文献计量方法本文中对表征论文外部特征的时间、发文期刊、作者、机构、研究主题等的数据进行统计、汇总,并通过Excel将数据转换为不同的图形。这样可以直观反映出国内知识图谱研究的成果数量及分布、研究队伍的基本状况、研究主题的分布、数据源分布等基本情况。共词分析共词分析是由卡龙(Callon)和克泰尔(Courtial)等引入情报学领域的一种内容分析和科学绘图法。这种方法不仅能够描绘学科领域的知识结构,还能够结合时间序列揭示学科结构的通过分演变历程17。本文对论文中的关键词、作者、研究方法和研究工具等进行共词分析,通过共词网络来揭示研究对象之间的相互联系,进而去描绘在知识图谱研究的主题结构、作者合作结构等现象。3知识图谱研究成果外部特征的可视化分析3.1知识图谱研究成果的数量从图1看,国内知识图谱研究开始于2005年。近年来,研究论文的数量处于一个快速增长的阶段(2010年只有部分数据)。图1 知识图谱研究发文数量增长趋势图3.2知识图谱研究成果的学科分布 国内知识图谱研究成果发表在31种学术期刊上。从发文期刊看(图2),研究成果主要集中在图书情报学和科学学两个领域。发文3篇以上的期刊有科学学研究、情报学报、图书情报工作、情报科学和情报杂志。图2 知识图谱研究论文的学科分布3.3知识图谱研究的合著网络从统计结果看,国内知识图谱的发文作者已经达到80人。这些作者分布在全国29所高校和科研院所。大连理工大学发文最多,占总体的51%;其次是武汉大学、中国科学院国家科学图书馆兰州分馆、大连海事大学、兰州大学和浙江树人大学。从图3看(图中箭头起点是第一作者,终点是论文的合作者),国内知识图谱研究科研合作现象非常明显,合著率为74%,合作度为2.4人。其中刘则渊、许振亮、侯海燕、陈悦、姜春林等人已经形成了一个规模较大且相对稳定的合作网络。图3 知识图谱研究的合著网络4知识图谱研究成果内容特征的可视化分析国内知识图谱定性研究成果占总体的13%。这些成果又可以分为两类。第一类主要是对知识图谱的概念、类型及其国外研究进展的介绍及综述性文章,如文献1516 18 1920。第二类主要是知识图谱在具体领域的应用前景分析。如文献21探讨了科学知识图谱用于分析学科前沿与热点问题,帮助寻找学科中的盲点,文献22研究了学科知识图谱的绘制及其在学科发展监测与评价中的应用,文献23探讨了利用知识图谱来进行期刊选题策划、遴选审稿专家等。 定量研究的有53篇文献,占总体的87%。它们主要是通过对数据的分析和处理,将某一主题、学科、期刊、机构等对象的研究现状、研究前沿、热点主题等以可视化的方式呈现。下面对定量研究成果做进一步分析。4.1 知识图谱研究依托的数据源及研究数据的时间跨度本文择取了以定量研究为主的研究成果进行分析。从图4看,定量研究文献的数据主要来源于国内外四个不同的数据库,其中国外数据库占67%,而国内数据库占33。这反映出国内知识图谱的研究是以国外数据为主,国内数据的利用相对较弱。从研究数据的时间跨度看(见图5),最长的达到64年,最短的只有一年,最长是10年。时间跨度的长短与数据库收录数据的时间范围有极强的相关性。如CSSCI数据是从1998年开始,直接利用它来进行研究时只能是1998年之后的不同时间段。 图4 研究成果数据源的分布情况 图5 研究成果数据时间跨度的分布情况4.2 知识图谱研究的主题分布关键词是论文作者表达论文的内容和方法的专业术语,它反映了论文的研究主题。本文根据关键词(去重后为114个)的共现数据,利用Ucinet生成一个共词网络。从图6看,知识图谱、科学知识图谱、科学计量学、共词分析、可视化这些关键词在网络中占据着核心的地位。这反映了国内知识图谱研究对象比较广泛,但研究方法、主题相对集中的特点。图6 知识图谱研究的共词网络图7知识图谱实证研究对象的分布情况为进一步分析知识图谱研究的主题,本文将定量研究成果分为三类:主题知识图谱、学科知识图谱和其它图谱。从图7看,这三类当中,主题知识图谱的研究成果最多,占总体的近一半。从表1看,国内知识图谱的研究对象非常丰富,既有自然科学,也有人文社会科学。同时,还可以发现实证对象与研究数据来源有很大的相关性。以web of science等为数据源对国际相关研究领域成果的可视化分析,如国际奥林匹克运动、国际信息政策、国际生物制氢等;而以中国期刊全文数据库、CSSCI等为数据源的成果是对国内相关研究领域研究现状、研究前沿、热点话题等方面的可视化分析。表1 知识图谱定量研究的对象研究内容具体内容主题知识图谱国际奥林匹克运动、国际信息政策、国际科技人力资源、国际旅游、国际生态文明研究、国际生物制氢、国际先进制造技术、国际创新管理、国际创业型大学、国内社区与社区服务、国内生命周期理论、国内自然辩证法、科学传播、国内外企业风险管理、区域创新系统、科学知识图谱、政府绩效管理、创新理论、LED、国际创新管理、引文分析、我国技术创新领域、创新系统、中国技术创新理论、科学传播、独立学院、我国生态可持续发展学科知识图谱国际科学学、国际高等工程教育学、国际生物科学与工程、美国军事医学、力学、管理学、图书情报学、经济学、中国农史、情报学、工程教育、档案学、我国循证医学、认知神经科学、中国科学学其它图谱科学计量学家;科学哲学、中国科技期刊研究、情报科学;卓越科研机构;辽宁高校自然科学学科分布4.3 知识图谱研究方法的共现网络图8知识图谱研究方法的共现网络本文从论文的关键词、摘要、正文等途径获取了定量研究成果使用的研究方法,共涉及到31种研究方法。根据研究方法是否在同一篇文献同时被使用,并利用Ucinet得到了国内知识图谱研究方法的共现网络。从图8看,论文与关键词交叉图、文献同被引、学科共现、概念网络和战略坐标图五种方法相对孤立,而其它节点则可以有机的联系在一起。聚类分析、共词分析、多维尺度分析、因子分析、引文分析和社会网络分析是网络中的重要节点,这个结果与词频次结果相吻合。这反映出知识图谱的研究已经形成了一些较成熟的研究方法。另外,多种研究方法经常被一起使用。从研究主题看,主题知识图谱的研究使用最多的是多维尺度和聚类方法,学科知识图谱研究中使用较多的是聚类方法、因子分析、共词分析等。这反映了不同研究主题有其相适应的研究方法。4.4 知识图谱研究工具的共现网络图9 知识图谱研究工具的共现网络知识图谱研究通常要对大量数据进行处理,选择合适的数据处理工具非常重要。从词频统计看,共涉及到13种软件,其中使用最多的是SPSS、Bibexcel和Citespace。这些研究工具的功能上有所不同,如Wordsmith、Bibexcel主要用于前期的数据处理,以适合其它软件将数据转换为不同形式的图形;Citespace、SPSS、Pajek、Ucinet、Netdraw可以将特定格式的数据做可视化处理。这两类工具经常同时使用,图9的国内知识图谱研究工具的共现网络可以验证这一状况。从相关文献看,研究工具的选择与研究方法有较强的关联性。在采用聚类方法和因子分析时,多选择SPSS;在共词分析和社会网络分析时,选择Ucinet和Pajek;WoS的引文数据分析时多用Citespace。5启示与思考国外知识图谱研究虽然取得了一些成果,但与国外研究相比,有些方面还需要加强。基于前面分析结果,笔者认为,国内知识图谱的研究今后可以在以下方面着力:吸引更多的学科和研究机构人员来参与知识图谱研究。知识图谱研究是一个跨学科的研究领域,因此合作研究非常重要。前面分析表明,国内知识图谱的研究队伍已经形成了一定规模,但研究人员目前主要是科学学和情报学的学者,计算机领域的研究者参与较少。研究工具都是国外软件,国内还没有专门的知识图谱绘制软件。国外软件对英文文献支持较好,对中文文献和数据库支持不足。这也是导致我国知识图谱的研究与国外差距较大的一个客观原因。进一步加强基础研究。前文分析表明,国内在知识图谱以定量研究为主,主要是利用国外知识图谱绘制软件绘制不同领域的知识图谱,定性研究主要侧重于对国外研究进展的介绍和宣传。在知识图谱的基础理论、研究方法、研究热点的发现算法等方面的基础研究有待加强。创新研究方法。尽管从前文分析当中可以发现知识图谱的研究已经有很多较为成熟的方法,但基本都是由国外学者提出并率先使用的,国内学者缺乏自己独特研究中文文献的方法。研究方法的创新应该是今后需要加强的研究内容之一。进一步优化期刊质量,优化数据库的建设。数据质量直接影响知识图谱研究结果的有效性。我国学术期刊在作者、关键词、参考文献等信息的著录格式还不统一。这导致期刊数据库的数据质量存在先天缺陷,进而影响后期数据的处理和分析。与国外SCI等数据库相比,国内数据库起步较晚,利用其做长时间段的研究困难较大。6 结语本文的研究不足之处主要有:本文选取了知识图谱研究主题文献,由于检索策略的局限,可能还有一些文献没有进入数据集,这将影响到本文的数据完备性。对文献内容特征的分析可能受限于文本本身的复杂性和笔者的知识结构。今后,将通过社会性网络中的介数、中心性等定量的指标对不同知识网络结构进行定量分析。参考文献:1刘则渊,陈悦,侯海燕等著.科学知识图谱:方法与应用M.北京:人民出版社,2008:16-262 Garfield, E., I. H. Sher, and R. J. Torpie. The Use of Citation Data in Writing the History of Science. 2010-9-26./papers/useofcitdatawritinghistofsci.pdf3 Price D. Networks of scientific papersJ.Science,1965(149):510-5154 Small H.Co-citation in scientific literature: a new measure of the relationship between publicationJ.Journal of the America society of information scienc,1973,24(4):265-2695White,H.D.,McCain,K.W.Visualizing a discipline: an author co-citation analysis of information sicnece,1972-1995J.Journal of the America society of information scienc,1998,49(4)327-3566 Noyons,E.C.M.,Van Raan,A.F.J. Advanced mapping of science and technologyJ.Scientomtrics,1998,41(1-2):61-677 Hummon N.P.,Doreian P. Connectivity in a citation network: the development of DNA theoryJ.Social networks,1989(11):39-638 Newman. M.E.J.The structure of scientific collaboration networksJ.PANS,2001,98(2):404-4099 Newman. M.E.J.Scientific collaboration networks.I.networkd construction and fundamental resultsJ.Phys Rev E.2001,64:16-13110 Newman. M.E.J. Scientific collaboration networks.II.shorts paths,weighted networks,and centrality. 2010-9-26.http:/www.cs.ucc.ie/rb4/resources/Variations.pdf11 Chaomei Chen, Fidelia Ibekwe-SanJuan, Jianhua Hou .The Structure and Dynamics of Co-Citation Clusters:A MultiplePerspective Co-Citation Analysis.2010-9-26./ftp/arxiv/papers/1002/1002.1985.pdf12 Ketan K. Mane,Katy

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论