CSSCI数据导入Bibexcel实现共现矩阵的方法及实证研究_第1页
CSSCI数据导入Bibexcel实现共现矩阵的方法及实证研究_第2页
CSSCI数据导入Bibexcel实现共现矩阵的方法及实证研究_第3页
CSSCI数据导入Bibexcel实现共现矩阵的方法及实证研究_第4页
CSSCI数据导入Bibexcel实现共现矩阵的方法及实证研究_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

精品文档 1欢迎下载 CSSCI 数据导入 Bibexcel 实现共现矩阵的方法及实证研究 姜春林 陈玉光 大连理工大学 21 世纪发展研究中心 辽宁 大连 116024 摘 要 本文以针对 Web of Knowledge 开发的文献信息共现分析的应用软件 Bibexcel 为研究对象 结合 CSSCI 数据库数据格式特点 解决了 Bibexcel 不能处理中文文献的瓶颈问题 实现了知识单元共现 关系矩阵 并以 CSSCI 数据库中 1998 2008 年 信息可视化 引文数据为例 数据经过预处理后 由 Bibexcel 构建其知识单元共现矩阵 利用 Ucinet Netdraw 软件 实现了作者共现 关键词共现 引文 共现的可视化分析 本研究扩展了 Bibexcel 的应用范围功能 为 CSSCI 数据的可视化研究提供了一种新 的手段 关键词 Bibexcel CSSCI 共现矩阵 知识图谱 可视化 Transform CSSCI Data to Bibexcel data to Actualize Co occurrence Matrix and A Case Study JIANG Chun lin CHEN Yu guang Center of the 21st Century Development and Research Dalian University of Technology Dalian 116024 Abstract This paper researchs on Bibexcel that developed for the co occurrence analysis of literature information that come from Web of Knowledge and combined with the characteristics of data formats in the CSSCI database to resolve the bottleneck of co occurrence of Chinese literature information which Bibexcel can not handle by itself We actualized the co occurrence matrix of knowledge unit relations CSSCI database in 1998 2008 Information Visualization Citation data as an example after data preprocessing the knowledge unit co occurrence matrix built by Bibexcel then we use Ucinet Netdraw softwares to actualizes the authors cooperative network analysis keywords cooccurrence analysis and cocitation analysis This study extends the scope of application of Bibexcel and provides a new means of visualization for CSSCI data Keywords Bibexcel CSSCI Co occurrence matrix Knowledge map visualization 1 引 言 科技文献数据量的快速增长给我们的研究工作带来了极大便利 同时 文献数量的增 长 也给文献的管理与分析利用带来了诸多的不便 1 如何快速 准确地得到所需要的资 源 并理解这些大量文献所表达的内容变得越来越困难 共现分析如共作者分析 共词分 析 共引分析 共被引分析等以邻近联系法则和知识结构及映射为方法论基础 来发现研 究对象之间的亲疏关系 挖掘隐含的或潜在的有用的知识 并揭示研究所代表的学科或主 体的结构变化 基于共现分析的信息可视化技术能形象化地表达文献信息蕴含的内容 方 便科研人员和情报人员挖掘文献集中所隐含的知识 国外关于文献信息共现关系分析的应用软件已经比较成熟 如美国费城的德雷塞尔大 学信息科学与技术学院的陈超美开发的基于 JAVA 平台的 Citespace 2 3 系列应用软件 印第安纳州大学开发的大型网络分析 建模 和可视化的工具包 Network Workbench Tool 大型社会网络分析软件 Pajek 瑞典科学家佩尔松 persson 开发的科学计量学研 究软件 Bibexcel 4 美国斯坦福大学开发的社会科学统计软件包 SPSS 等等 其中这些 软件有一个共性 即主要是针对 Web of Science 数据进行开发的 而对于从中文社会科学 引文索引 CSSCI 数据库下载的中文文献数据 它们还不能直接进行处理 由于这些软件 精品文档 2欢迎下载 无法对 CSSCI 文献数据中的知识单元进行共现计算 从而也就很难对其进一步的知识可视 化分析 相对于处理英文文献信息共现分析软件的开发 处理中文数据库数据的软件相对匮乏 其中有不少学者做了一些研究 并开发出了一些通用软件 其中周春雷 王伟军等人用 Delphi 6 编制了处理中国期刊网题录数据的软件 该软件功能主要是将数据导入 Excel 仅限于相关题录数据的统计频次 5 姜春林 杜维滨等人用 Visual Basic 6 0 语言开发 了一款软件 Ccmatrix 用 ADO 技术连接 Access 自建数据库 处理统计来源文献题录数据 和引文数据 实现了共现矩阵 6 针对处理 CSSCI 数据共现分析相关软件相对较少的现状 为了方便广大科研人员和情 报人员对 CSSCI 数据库中的数据进行分析 本文尝试研究了 CSSCI 数据导入 Bibexcel 实现 共现矩阵的方法 2 Bibexcel 软件简介 2 12 1 功能介绍功能介绍 瑞典科学家佩尔松 persson 开发的文献计量学研究软件 Bibexcel 7 用于帮助用户 分析文献数据或者是文本类型格式的数据 实现引文分析 Bibexcel 处理的数据来自集成 在 ISI Web of Knowledge 平台上的数据库 包括 Web of Science 数据库 Derwent Innovation Index 数据库和 Medline 数据库等 Bibexcel 除了对来源于上述数据库中数据 的相关知识单元 作者 关键词 参考文献等 做频次分析和排序外 还实现了知识单元 的共现关系矩阵 将产生的共现数据存入 excel 表格中 借助 Ucinet Netdraw 可视化软 件 做进一步的可视化分析 Bibexcel 界面如图 1 所示 图 1 Bibexcel 界面 2 22 2 BibexcelBibexcel 在共现分析中的优势与不足在共现分析中的优势与不足 Bibexcel 的强大功能在于知识单元的共现关系分析 对英文文献数据或专利数据的共 现关系分析已经取得令人满意的结果 如栾春娟 专利计量研究国际前沿的计量分析 7 对 1995 2007 年期间 科学计量学 出版的关于国际专利计量研究的论文和引文进行计 量分析 通过 Bibexecel 处理 得到高被引作者共被引矩阵 高频关键词共现矩阵和高频 次作者共现矩阵 再通过 Ucinet 绘制作者共被引网络图谱 高频关键词共现网络图谱和高 产作者学术合作网络图谱 但是 在 CSSCI 文献数据库中 Bibexcel 对中文献数据的分析 存在着局限性 主要原因是在于 Bibexcel 不能直接处理 CSSCI 格式数据 中文社会科学引文索引 CSSCI 作为我国社会人文科学主要文献信息查询与评价的重 要工具 CSSCI 提供来源文献 被引文献 优化检索等多种信息检索 该项目成果填补了 我国社会科学引文索引的空白 达到了国内领先水平 从 CSSCI 下载某一领域的相关文献 精品文档 3欢迎下载 并对其进行分析 不但可以科学合理 客观公正地评价人文社会科学研究的成果 而且对 了解国内的研究现状和研究热点 因此具有非常重要的现实意义 3 CSSCI 文献数据共现矩阵的实现 3 13 1 数据下载数据下载 确定某一研究领域后 进入 CSSCI 界面 点击 包库用 户入口 选择来源数据的 年份 和 来源文献 进入到检索界面 在这个界面中 进 一步选择其他限制条件 可以按关键词 也可以按学科类 还可以按期刊名称等进行检索 设定检索条件后 再选择每屏显示记录的条数 为了下载方便 通常情况下选择 50 条 下 载每屏数据 并将其保存为默认的后缀名为 txt 文本文档格式 3 23 2 将将 CSSCICSSCI 数据格式转换为数据格式转换为 SCISCI 数据格式数据格式 从 CSSCI 下载相应的数据 利用大连理工大学刘盛博开发的中文处理软件对 CSSCI 数 据进行格式转换 将 CSSCI 数据格式转化为 SCI 数据格式 经过这个软件处理后 每一条 文献记录被存放于一个 txt 文本文档当中 由于 Bibexcel 只能识别和处理一个 txt 文本 文档 要想对转换格式后的所有文献数据中的知识单元进行共现分析 就需要对所有的文 档做进一步的合并处理 用 Java 编程 找到处理后文本文档所在的目录 顺序的读取文本 文档 将其内容写入到一个文本文档中 在合并好的文本文档的开头 加上 FN ISI Export Format VR 1 0 这两行代码 保存后关闭文档 3 33 3 知识单元共现关系矩阵的处理流程知识单元共现关系矩阵的处理流程 CSSCI 数据经过格式处理和合并文件后 实现知识单元可视化分析的关键一步 就是 要构建知识单元的共现矩阵 实现了共现矩阵后 再将其导入 Ucinet Netdraw 等分析软 件 绘制各类知识单元的共现关系图谱 Bibexcel 构建知识单元共现关系矩阵处理流程如下 Step1 打开 Bibexcel 出现图 1 所示的操作界面 在 select file here 这个框口中 选择数据源所在的文件夹 右边的窗口会显示出这个文件夹中的所有文件 选中合并后的 文本文档 点击 Misc convert to diologe format convert from web of science 会弹出一个对话框 点击 确定 就会生成一个后缀名为 doc 的文件 Step2 选中 doc 文件 点击 View file 按钮 The list 窗口就会显示这个文件的内 容 根据你要分析的知识单元 在 Old Tag 中填写相应的标签代号 作者 关键词 机构 参考文献 被引期刊的标签依次为 AU DE C1 CD CD 输入相应的标签后 在 Select field to be analysed 下拉列表框中选择 Any separated field 如果要分析被引 期刊 在输入 CD 标签后 在 Select field to be analysed 下拉列表框中选择 JN Journal 然后点 Prep 按钮 在弹出的对话框中 点击 确定 生成后缀名为 out 文 件 Step3 选中 out 在 Frequency distribution 下拉列表框中选择相应的分析对象 如果分析作者共现 选择 Author 如果分析关键词共现 选择 whole string 如 果分析机构共现 选择 whole string 如果分析参考文献共现 选中 Cited Reference 如果分析被引期刊共现 选择 whole string 选择相应的分析单元后 在下面的复选框中选择 Sorted descending 点击 Start 按钮 在弹出的窗口中 点击 确定 生成后缀名为 cit 文件 Step4 选中 out 文件 在 Frequency distribution 下面的复选框中选择 remove duplicate 和 make new out file 点击 Start 按钮 在弹出的窗口中 点击 确定 生成后缀名为 oux 文件 精品文档 4欢迎下载 Step5 选中 cit 文件 点击 view file 在 The List 显示窗口中选择频次较高 的前多少位分析对象 然后点击 Analyze co occurrence select units via listbox 然后选中 oux 文件 点击 Analyze co occurrence make pairs via listbox 在弹出的窗口中 点击 否 此时生成后缀名为 coc 文件 Step6 选中 cit 文件 同样点击 view file 在 The List 显示窗口中选择频次 较高的前多少位分析对象 然后点击 Analyze co occurrence select units via listbox 然后选中 coc 文件 点击 Analyze make a matrix for MDS etc 在 弹出的对话框中 按照提示 点 是 还是 否 选择生成方阵还是下三角矩阵 生成 的共现矩阵文件名为 ma2 将其打开 另存为后缀名为 xls 文件 至此 文献数据知识单元共现关系矩阵构建完毕 Bibexcel 可以构建作者共现矩阵 关键词共现矩阵 机构共现矩阵 参考文献共现矩阵 为了直观理解各知识单元之间的共 现关系 需要进一步借助可视化分析软件来实现 先使用 Ucinet 软件将 xls 转化为后缀 名为 文件后 再借助 Netdraw 可视化软件将知识单元之间的共现情况清晰的描绘出来 并分析图谱中节点的中介中心性和边的关联强度等 从 CSSCI 中的原始文献数据 到中间的知识单元共现关系矩阵 直到最终的可视化图 谱 处理流程表示如下图 2 所示 CSSCI 文献数据 SCI 文献格式数据 共现关系矩阵 共现网络图谱 CSSCI 文献格式转化工具 文本文档内容合并处理 Bibexcel 共现关系分析工具 Ucinet Netdraw 可视化分析软 件 图 2 CSSCI 文献数据的可视化处理流程 4 实证分析 4 14 1 数据来源数据来源 从 CSSCI 直接关键词检索 分别以信息可视化 知识可视化 知识域可视化 知识图 谱 知识地图 概念图 思维导图 认知地图为关键词进行检索 检索年限选择 1998 2008 年 下载引文数据 并保存为文本文档 总共检索出 274 条文献记录 其中有 17 条 是重复的 经过去重处理后 剩下 257 条文献记录 将其作为本文的研究对象 4 24 2 高产作者合作网络分析高产作者合作网络分析 Bibexcel 经过频次统计后 选择出现频次大于 3 的 25 位高产作者 并构建其共现分 析矩阵 经 Ucinet 软件将其共现矩阵表文件转化为后缀名为 文件后 使用 Netdraw 可 视化软件绘制知识图谱 高产作者合作网络知识图谱如图 3 所示 精品文档 5欢迎下载 图 3 高产作者合作网络知识图谱 图中的小圆圈代表的是信息可视化专家 结点的大小代表的是节点的中介中心性 Betweenness 的大小 节点越大 节点在网络中占有的地位就越重要 如果两位作者之 间有过合作 他们之间就会用线连接起来 边的粗细代表两个节点关联强度 Tie Strength 两个小圆圈之间的连线越粗 代表两者共现次数越多 他们研究领域的相关性 越大 进行合作研究的次数也越多 从图 3 可以看出这 25 位高产作者 形成了两个最为显著的合作群体 第一个合作群体 是以周宁为核心人物的 9 位作者组成的 他们来自武汉大学信息资源研究中心 其中周宁 是高被引频次作者 该作者在网络中处于核心位置 张会平 陈勇跃 张芳芳 金大卫 吴佳鑫次之 他们都曾与周宁有过合作 周宁和张会平就大型层次化信息的可视化方法 文本信息可视化模型问题多次合作研究 是合作次数最多的两位作者 相应地在图谱中彼 此之间的连线就越粗 第二合作群体来自大连理工大学 21 世纪发展研究中心 WISE 实验室 以刘则渊为核心人物 由陈悦 尹丽春 姜春林 侯海燕 侯建华 许振亮 庞杰 8 位作 者构成 他们主要从事科学计量学 知识图谱 信息可视化方面的研究工作 这两个群体 内部之间的研究方向和主题具有紧密关联性 4 34 3 高频关键词共现分析高频关键词共现分析 选择频次高于 3 阈值 的 40 个关键词为对象 采用类似的方法 绘制近 10 年来国 内 信息可视化 研究领域的共词知识图谱 如图 4 所示 图 4 高频关键词共现网络知识图谱 精品文档 6欢迎下载 从图 4 可以看出 概念图处于网络的中心位置 其中介中心性最大 是网络中最重要 节点 概念图 Concept maps 是一种提供可视化信息表示的方法 它利用人类的视觉能力 来理解复杂的信息 用概念映射来描述由链接和结点组成的网络里的概念及它们之间的关 系 即用结点描述概念 链接描述关系 9 概念图以二维图形化的形式显示知识 该方法 能够使用户在已有的认知结构基础上吸收和理解新概念和相关知识 概念图被广泛的应用 于教学当中 从图谱中还可以看出 围绕着概念图 形成了以可视化 知识组织 科学知识图谱 知识地图 知识管理等研究热点的结构主体 它们之间具有紧密的关联性 4 44 4 引文共现分析引文共现分析 为了简洁明了展示引文网络结构的特征 我们选择被引频次高于 3 阈值 的 41 篇参 考文献为研究对象 采用同样方法 绘制引文网络共现知识图谱 如图 5 所示 图 5 引文网络知识图谱 图 5 中每个节点代表一篇引文 节点的大小代表节点的中介中心性的大小 中介中心 性大的那些节点 在不同的聚类网络中间可以起到连接和过渡的桥梁作用 它们是网络中 的中枢节点 节点间连线的粗细代表两个节点之间的联系强度 关键节点文献对聚类的贡 献如表 1 所示 表 1 引文网络连接中的关键节点 作者文章标题节点文献对聚类的贡献 文燕平WWW 信息检索可视化 实现原理研究 分析有代表性的可视化检索系统 提出了信息检索可视化的实现原理 Novak J D Learning How to Learn 提出了用概念图构建知识及概念图在教学中应用 赵国庆知识可视化的理论与 方法 介绍知识可视化的研究框架 给出了概念图 思维导图 认知地图 语义网络等知识可视化工具 周宁信息资源描述与存储 的可视化研究 提出文本信息 语音信息 视频信息可视化方法 宋绍成信息可视化的基本过 程与主要研究领域 信息可视化的主要研究领域 可视化变量研究 可视化模型的研究 符号系统的研究 空间认知与信息传输研究 心理学和认知科学的研 究 虚拟现实研究 4 54 5 被引期刊频次分析被引期刊频次分析 精品文档 7欢迎下载 一个学术领域的核心期刊既可以揭示本学科文献数量在期刊中的分布规律 也能够反 映本学科文献质量和学术影响力的分布规律及其本学科的热点及其前沿 10 对信息可视化 领域的文献做期刊分析能够准确反映这一领域文献的分布情况 对核心期刊的文献共引频 次分析则能够反映出这一期刊所刊登的文献的利用率及其含金量 本文利用 Bibexcel 对所 下载的信息可视化方面的 257 条文献记录 进行了被引期刊频次分析 分析结果如下图 6 期刊共被引频次分布图 0 5 10 15 20 25 30 情报科学 情报杂志 现代图书情报技术 图书情报工作 中国电化教育 情报学报 情报理论与实践 科学学研究 现代教育技术 中国图书馆学报 图书馆杂志 心理科学 电化教育研究 图书情报知识 开放教育研究 情报资料工作 期刊名称 被引频次 图 6 期刊共被引频次分布图 统计发现 目前国内与信息可视化相关的文献主要发表在以下情报学和科学学类刊物 中 如情报科学 情报杂志 现代图书情报技术 图书情报工作 中国电化教育 情报学 报 情报理论与实践 科学学研究 这些刊物可以认为是信息可视化研究领域的核心刊物 5 结 语 将 CSSCI 下载的数据经过格式转换后 用 Bibexcel 构建作者共现矩阵 关键词共现矩 阵 参考文献共现矩阵 机构共现矩阵 期刊共被引矩阵 并借助 Ucinet Netdraw 可视 化软件 将分析单元之间的共现关系以图谱的形式显示出来 取得了较满意的结果 为从 大量文献数据中发现它们之间的复杂关系提供了方便 有助于科研新手快速了解某一领域 的研究现状和趋势 为其科研选题提供快速通道 也有利于知识计量学研究的方法创新 还有益于情报机构提供精细化的情报信息服务 但由于 Bibexcel 软件本身的原因 还不能 实现被引期刊共现矩阵 这个问题还有待我们今后不断加以探索 参考文献 1 任智军 朱东华 谢菲 科技文本的可视化分析研究 J 北京理工大学学报 社会科学版 2007 9 1 13 17 2 Synnestvedt M B Chen C Holmes J H CiteSpace II

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论