CSSCI数据导入Bibexcel实现共现矩阵的方法及实证研究.doc_第1页
CSSCI数据导入Bibexcel实现共现矩阵的方法及实证研究.doc_第2页
CSSCI数据导入Bibexcel实现共现矩阵的方法及实证研究.doc_第3页
CSSCI数据导入Bibexcel实现共现矩阵的方法及实证研究.doc_第4页
CSSCI数据导入Bibexcel实现共现矩阵的方法及实证研究.doc_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

CSSCI数据导入Bibexcel实现共现矩阵的方法及实证研究 姜春林 陈玉光(大连理工大学21世纪发展研究中心 辽宁 大连 116024)摘 要:本文以针对Web of Knowledge开发的文献信息共现分析的应用软件Bibexcel为研究对象,结合CSSCI数据库数据格式特点,解决了Bibexcel不能处理中文文献的瓶颈问题,实现了知识单元共现关系矩阵。并以CSSCI数据库中19982008年“信息可视化”引文数据为例,数据经过预处理后,由Bibexcel构建其知识单元共现矩阵,利用Ucinet、Netdraw软件,实现了作者共现、关键词共现、引文共现的可视化分析。本研究扩展了Bibexcel的应用范围功能,为CSSCI数据的可视化研究提供了一种新的手段。关键词: Bibexcel、CSSCI、共现矩阵、知识图谱、可视化Transform CSSCI Data to Bibexcel data to Actualize Co-occurrence Matrix and A Case StudyJIANG Chun-lin, CHEN Yu-guang(Center of the 21st Century Development and Research, Dalian University of Technology, Dalian 116024)Abstract:This paper researchs on Bibexcel that developed for the co-occurrence analysis of literature information that come from Web of Knowledge, and combined with the characteristics of data formats in the CSSCI database, to resolve the bottleneck of co-occurrence of Chinese literature information which Bibexcel can not handle by itself. We actualized the co-occurrence matrix of knowledge unit relations. CSSCI database in 1998-2008 Information Visualization Citation data as an example, after data preprocessing, the knowledge unit co-occurrence matrix built by Bibexcel,then we use Ucinet, Netdraw softwares,to actualizes the authors cooperative network analysis、keywords cooccurrence analysis and cocitation analysis. This study extends the scope of application of Bibexcel, and provides a new means of visualization for CSSCI data.Keywords:Bibexcel、CSSCI、Co-occurrence matrix、Knowledge map、visualization1. 引 言科技文献数据量的快速增长给我们的研究工作带来了极大便利,同时,文献数量的增长,也给文献的管理与分析利用带来了诸多的不便1 。如何快速、准确地得到所需要的资源,并理解这些大量文献所表达的内容变得越来越困难。共现分析如共作者分析、共词分析、共引分析、共被引分析等以邻近联系法则和知识结构及映射为方法论基础,来发现研究对象之间的亲疏关系,挖掘隐含的或潜在的有用的知识,并揭示研究所代表的学科或主体的结构变化。基于共现分析的信息可视化技术能形象化地表达文献信息蕴含的内容,方便科研人员和情报人员挖掘文献集中所隐含的知识。国外关于文献信息共现关系分析的应用软件已经比较成熟,如美国费城的德雷塞尔大学信息科学与技术学院的陈超美开发的基于JAVA平台的Citespace23 系列应用软件;印第安纳州大学开发的大型网络分析、建模、和可视化的工具包Network Workbench Tool;大型社会网络分析软件Pajek;瑞典科学家佩尔松(persson)开发的科学计量学研究软件Bibexcel4 ;美国斯坦福大学开发的社会科学统计软件包SPSS等等。其中这些软件有一个共性,即主要是针对Web of Science数据进行开发的。而对于从中文社会科学引文索引(CSSCI)数据库下载的中文文献数据,它们还不能直接进行处理。由于这些软件无法对CSSCI文献数据中的知识单元进行共现计算,从而也就很难对其进一步的知识可视化分析。相对于处理英文文献信息共现分析软件的开发,处理中文数据库数据的软件相对匮乏,其中有不少学者做了一些研究,并开发出了一些通用软件。其中周春雷、王伟军等人用Delphi 6 编制了处理中国期刊网题录数据的软件,该软件功能主要是将数据导入Excel,仅限于相关题录数据的统计频次5 。姜春林、杜维滨等人用Visual Basic 6.0语言开发了一款软件Ccmatrix,用ADO技术连接Access自建数据库,处理统计来源文献题录数据和引文数据,实现了共现矩阵6 。针对处理CSSCI数据共现分析相关软件相对较少的现状,为了方便广大科研人员和情报人员对CSSCI数据库中的数据进行分析,本文尝试研究了CSSCI数据导入Bibexcel实现共现矩阵的方法。2 Bibexcel软件简介2.1 功能介绍瑞典科学家佩尔松(persson)开发的文献计量学研究软件Bibexcel7用于帮助用户分析文献数据或者是文本类型格式的数据,实现引文分析。Bibexcel处理的数据来自集成在ISI Web of Knowledge平台上的数据库,包括Web of Science数据库、Derwent Innovation Index数据库和Medline数据库等。Bibexcel除了对来源于上述数据库中数据的相关知识单元(作者、关键词、参考文献等)做频次分析和排序外,还实现了知识单元的共现关系矩阵。将产生的共现数据存入excel表格中,借助Ucinet、Netdraw可视化软件,做进一步的可视化分析。Bibexcel界面如图1所示。图1 Bibexcel界面2.2 Bibexcel在共现分析中的优势与不足Bibexcel的强大功能在于知识单元的共现关系分析,对英文文献数据或专利数据的共现关系分析已经取得令人满意的结果。如栾春娟专利计量研究国际前沿的计量分析7 ,对1995-2007年期间科学计量学出版的关于国际专利计量研究的论文和引文进行计量分析,通过Bibexecel处理,得到高被引作者共被引矩阵、高频关键词共现矩阵和高频次作者共现矩阵,再通过Ucinet绘制作者共被引网络图谱、高频关键词共现网络图谱和高产作者学术合作网络图谱。但是,在CSSCI文献数据库中,Bibexcel对中文献数据的分析存在着局限性,主要原因是在于Bibexcel不能直接处理CSSCI格式数据。中文社会科学引文索引(CSSCI)作为我国社会人文科学主要文献信息查询与评价的重要工具,CSSCI提供来源文献、被引文献、优化检索等多种信息检索。该项目成果填补了我国社会科学引文索引的空白,达到了国内领先水平。从CSSCI下载某一领域的相关文献,并对其进行分析,不但可以科学合理、客观公正地评价人文社会科学研究的成果,而且对了解国内的研究现状和研究热点,因此具有非常重要的现实意义。3 CSSCI文献数据共现矩阵的实现3.1数据下载确定某一研究领域后,进入CSSCI界面(),点击“包库用户入口”,选择来源数据的“年份”和“来源文献”,进入到检索界面。在这个界面中,进一步选择其他限制条件,可以按关键词,也可以按学科类,还可以按期刊名称等进行检索。设定检索条件后,再选择每屏显示记录的条数。为了下载方便,通常情况下选择50条。下载每屏数据,并将其保存为默认的后缀名为.txt文本文档格式。3.2将CSSCI数据格式转换为SCI数据格式从CSSCI下载相应的数据,利用大连理工大学刘盛博开发的中文处理软件对CSSCI数据进行格式转换,将CSSCI数据格式转化为SCI数据格式。经过这个软件处理后,每一条文献记录被存放于一个.txt文本文档当中,由于Bibexcel只能识别和处理一个.txt文本文档,要想对转换格式后的所有文献数据中的知识单元进行共现分析,就需要对所有的文档做进一步的合并处理。用Java编程,找到处理后文本文档所在的目录,顺序的读取文本文档,将其内容写入到一个文本文档中。在合并好的文本文档的开头,加上FN ISI Export FormatVR 1.0这两行代码,保存后关闭文档。3.3知识单元共现关系矩阵的处理流程CSSCI数据经过格式处理和合并文件后,实现知识单元可视化分析的关键一步,就是要构建知识单元的共现矩阵,实现了共现矩阵后,再将其导入Ucinet、Netdraw等分析软件,绘制各类知识单元的共现关系图谱。Bibexcel构建知识单元共现关系矩阵处理流程如下:Step1:打开Bibexcel,出现图1所示的操作界面,在select file here这个框口中选择数据源所在的文件夹,右边的窗口会显示出这个文件夹中的所有文件。选中合并后的文本文档,点击“Misc-convert to diologe format-convert from web of science”,会弹出一个对话框,点击“确定”,就会生成一个后缀名为.doc的文件;Step2:选中.doc文件,点击View file按钮,The list窗口就会显示这个文件的内容。根据你要分析的知识单元,在Old Tag中填写相应的标签代号。作者、关键词、机构、参考文献、被引期刊的标签依次为AU、DE、C1、CD、CD。输入相应的标签后,在Select field to be analysed下拉列表框中选择“Any ; separated field”;如果要分析被引期刊,在输入CD标签后,在Select field to be analysed下拉列表框中选择“JN-Journal”,然后点Prep按钮,在弹出的对话框中,点击“确定”,生成后缀名为.out文件;Step3:选中.out, 在Frequency distribution下拉列表框中选择相应的分析对象,如果分析作者共现,选择“Author”;如果分析关键词共现,选择“whole string”;如果分析机构共现,选择“whole string”;如果分析参考文献共现,选中“Cited Reference”; 如果分析被引期刊共现,选择“whole string”;选择相应的分析单元后,在下面的复选框中选择“Sorted descending”,点击Start按钮,在弹出的窗口中,点击“确定”,生成后缀名为.cit文件;Step4:选中.out文件,在Frequency distribution下面的复选框中选择“remove duplicate”和“make new out-file”,点击Start按钮,在弹出的窗口中,点击“确定”,生成后缀名为.oux文件;Step5:选中.cit文件,点击“view file”, 在The List显示窗口中选择频次较高的前多少位分析对象,然后点击“Analyze-co-occurrence-select units via listbox”,然后选中.oux文件, 点击“Analyze-co-occurrence-make pairs via listbox”,在弹出的窗口中,点击“否”,此时生成后缀名为.coc文件;Step6:选中.cit文件,同样点击“view file”, 在The List显示窗口中选择频次较高的前多少位分析对象,然后点击“Analyze-co-occurrence-select units via listbox”,然后选中.coc文件,点击“Analyze-make a matrix for MDS etc”, 在弹出的对话框中,按照提示,点“是”还是“否”,选择生成方阵还是下三角矩阵,生成的共现矩阵文件名为.ma2,将其打开,另存为后缀名为.xls文件。至此,文献数据知识单元共现关系矩阵构建完毕。Bibexcel可以构建作者共现矩阵、关键词共现矩阵、机构共现矩阵、参考文献共现矩阵。为了直观理解各知识单元之间的共现关系,需要进一步借助可视化分析软件来实现。先使用Ucinet软件将.xls转化为后缀名为.#文件后,再借助Netdraw可视化软件将知识单元之间的共现情况清晰的描绘出来,并分析图谱中节点的中介中心性和边的关联强度等。从CSSCI中的原始文献数据,到中间的知识单元共现关系矩阵,直到最终的可视化图谱,处理流程表示如下图2所示:CSSCI文献数据SCI文献格式数据共现关系矩阵共现网络图谱CSSCI文献格式转化工具;文本文档内容合并处理Bibexcel共现关系分析工具Ucinet、Netdraw可视化分析软件图2 CSSCI文献数据的可视化处理流程4 实证分析4.1数据来源从CSSCI直接关键词检索,分别以信息可视化、知识可视化、知识域可视化、知识图谱、知识地图、概念图、思维导图、认知地图为关键词进行检索,检索年限选择19982008年,下载引文数据,并保存为文本文档。总共检索出274条文献记录,其中有17条是重复的,经过去重处理后,剩下257条文献记录,将其作为本文的研究对象。4.2 高产作者合作网络分析Bibexcel经过频次统计后,选择出现频次大于3的25位高产作者,并构建其共现分析矩阵。经Ucinet软件将其共现矩阵表文件转化为后缀名为.#文件后,使用Netdraw可视化软件绘制知识图谱。高产作者合作网络知识图谱如图3所示。图3 高产作者合作网络知识图谱图中的小圆圈代表的是信息可视化专家,结点的大小代表的是节点的中介中心性(Betweenness)的大小,节点越大,节点在网络中占有的地位就越重要。如果两位作者之间有过合作,他们之间就会用线连接起来,边的粗细代表两个节点关联强度(Tie Strength)。两个小圆圈之间的连线越粗,代表两者共现次数越多,他们研究领域的相关性越大,进行合作研究的次数也越多。从图3可以看出这25位高产作者,形成了两个最为显著的合作群体。第一个合作群体是以周宁为核心人物的9位作者组成的,他们来自武汉大学信息资源研究中心。其中周宁是高被引频次作者,该作者在网络中处于核心位置,张会平、陈勇跃、张芳芳、金大卫、吴佳鑫次之,他们都曾与周宁有过合作。周宁和张会平就大型层次化信息的可视化方法、文本信息可视化模型问题多次合作研究,是合作次数最多的两位作者,相应地在图谱中彼此之间的连线就越粗。第二合作群体来自大连理工大学21世纪发展研究中心WISE实验室。以刘则渊为核心人物,由陈悦、尹丽春、姜春林、侯海燕、侯建华、许振亮、庞杰8位作者构成,他们主要从事科学计量学、知识图谱、信息可视化方面的研究工作。这两个群体内部之间的研究方向和主题具有紧密关联性。4.3 高频关键词共现分析选择频次高于3(阈值)的40个关键词为对象,采用类似的方法,绘制近10年来国内“信息可视化”研究领域的共词知识图谱,如图4所示:图4 高频关键词共现网络知识图谱从图4可以看出,概念图处于网络的中心位置,其中介中心性最大,是网络中最重要节点。概念图(Concept maps)是一种提供可视化信息表示的方法,它利用人类的视觉能力来理解复杂的信息。用概念映射来描述由链接和结点组成的网络里的概念及它们之间的关系,即用结点描述概念,链接描述关系9,概念图以二维图形化的形式显示知识。该方法能够使用户在已有的认知结构基础上吸收和理解新概念和相关知识。概念图被广泛的应用于教学当中。从图谱中还可以看出,围绕着概念图,形成了以可视化、知识组织、科学知识图谱、知识地图、知识管理等研究热点的结构主体,它们之间具有紧密的关联性。4.4 引文共现分析为了简洁明了展示引文网络结构的特征,我们选择被引频次高于3(阈值)的41篇参考文献为研究对象,采用同样方法,绘制引文网络共现知识图谱,如图5所示。图5 引文网络知识图谱图5中每个节点代表一篇引文,节点的大小代表节点的中介中心性的大小,中介中心性大的那些节点,在不同的聚类网络中间可以起到连接和过渡的桥梁作用,它们是网络中的中枢节点。节点间连线的粗细代表两个节点之间的联系强度。关键节点文献对聚类的贡献如表1所示。表1 引文网络连接中的关键节点作者文章标题节点文献对聚类的贡献文燕平WWW信息检索可视化实现原理研究分析有代表性的可视化检索系统,提出了信息检索可视化的实现原理。Novak J.DLearning How to Learn提出了用概念图构建知识及概念图在教学中应用。赵国庆知识可视化的理论与方法介绍知识可视化的研究框架,给出了概念图、思维导图、认知地图、语义网络等知识可视化工具。周宁信息资源描述与存储的可视化研究提出文本信息、语音信息、视频信息可视化方法。宋绍成信息可视化的基本过程与主要研究领域信息可视化的主要研究领域:可视化变量研究、可视化模型的研究、符号系统的研究、空间认知与信息传输研究、心理学和认知科学的研究、虚拟现实研究。4.5被引期刊频次分析一个学术领域的核心期刊既可以揭示本学科文献数量在期刊中的分布规律,也能够反映本学科文献质量和学术影响力的分布规律及其本学科的热点及其前沿10。对信息可视化领域的文献做期刊分析能够准确反映这一领域文献的分布情况,对核心期刊的文献共引频次分析则能够反映出这一期刊所刊登的文献的利用率及其含金量。本文利用Bibexcel对所下载的信息可视化方面的257条文献记录,进行了被引期刊频次分析,分析结果如下图6。图6 期刊共被引频次分布图统计发现,目前国内与信息可视化相关的文献主要发表在以下情报学和科学学类刊物中,如情报科学、情报杂志、现代图书情报技术、图书情报工作、中国电化教育、情报学报、情报理论与实践、科学学研究。这些刊物可以认为是信息可视化研究领域的核心刊物。5 结 语将CSSCI下载的数据经过格式转换后,用Bibexcel构建作者共现矩阵、关键词共现矩阵、参考文献共现矩阵、机构共现矩阵、期刊共被引矩阵,并借助Ucinet、Netdraw可视化软件,将分析单元之间的共现关系以图谱的形式显示出来,取得了较满意的结果,为从大量文献数据中发现它们之间的复杂关系提供了方便,有助于科研新手快速了解某一领域的研究现状和趋势,为其科研选题提供快速通道;也有利于知识计量学研究的方法创新,还有益于情报机构提供精细化的情报信息服务。但由于Bibexcel软件本身的原因,还不能实现被引期刊共现矩阵,这个问题还有待我们今后不断加以探索参考文献1 任智军, 朱东华, 谢菲.科技文本的可视化分析研究J. 北京理工大学学报(社会科学版). 2007,9(1):13-172 Synnestvedt M B, Chen C, Holmes J H. CiteSpace II: visualization and k

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论