第3讲 CiteSpace安装及分析功能.pdf_第1页
第3讲 CiteSpace安装及分析功能.pdf_第2页
第3讲 CiteSpace安装及分析功能.pdf_第3页
第3讲 CiteSpace安装及分析功能.pdf_第4页
第3讲 CiteSpace安装及分析功能.pdf_第5页
已阅读5页,还剩43页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第3讲 CiteSpace安装及分析功能配套教程: 李杰, 陈超美著.CiteSpace科技文本挖掘及可视化M.首都经济贸易大学出版社.2016.作者博客: 李杰博客:/u/jerrycueb;陈超美博客:/u/ChaomeiChen李杰1,2,陈超美31.上海海事大学 海洋科学与工程学院2.上海海事大学 科技情报研究所3. Drexel University- College of Computing and Informatics本讲基本内容CiteSpace基本术语CiteSpace下载和安装界面介绍(功能参数区和可视化界面)CiteSpace数据分析的关键步骤CiteSpace结果解读的提示基本术语:CiteSpaceCiteSpace:引文空间是一款着眼于分析科学分析中蕴含的潜在知识,是在科学计量学、数据可视化背景下逐渐发展起来的一款引文可视化分析软件。由于是通过可视化的手段来呈现科学知识的结构、规律和分布情况,因此也将通过此类方法分析得到的可视化图形称为“科学知识图谱”。BSE和CJD研究领域的演变(引文空间的变化)/blog-496649-482376.html动画下载地址/cchen/talks/demo/BSE_CJD_1981-2001_transp.exe基本术语:中介中心性Betweenness centrality:中介中心性是测度节点在网络中重要性的一个指标(此外还有度中心性、接近中心性等)。CiteSpace中使用此指标来发现和衡量文献的重要性,并用紫色圈对该类文献(或作者、期刊以及机构等)进行重点进行标注。出现紫圈的节点的中介中心性=0.1基本术语:突发性探测Burst 检测:突发主题(或文献、作者以及期刊引证信息等)。在CiteSpace中使用Kleinberg, J(2002)年提出的算法进行检测。基本术语:引文年轮Citation tree-rings :引文年环代表着某篇文章的引文历史。引文年轮的颜色代表相应的引文时间,一个年轮厚度和与相应时间分区内引文数量成正比。CiteSpace图例某个时区的引文量被引次数时区图例首次共被引时间发表时间基本术语:阈值阈值,在数据处理中CiteSpace会按照用户设定的阈值提取出各个时间切片满足的文献,并最后合并到网络中。下面给出三个例子,其他的阈值选择方法将在后文全面介绍。研究前沿与知识基础123知识基础是一个有利于进一步明晰研究前沿本质的概念。如果把研究前沿定义为一个研究领域的发展状况,那么研究前沿的引文就形成了相应的知识基础。研究前沿的知识基础是研究前沿在文献中的引用轨迹。研究前沿的三种典型认识:1. 共被引文献聚类2. 共被引文献聚类和所有引用这个聚类的文章3. 引用共群文章的文献聚类。CiteSpace下载和安装登陆CiteSpace的下载页面 /cchen/citespace/download/下载Java /technetwork/java/javase/downloads/jre7-downloads-1880261.html下载并解压即可完成安装小提示只有安装了Java才能运行CiteSpace双击打开安装与自己电脑位数匹配的Java版本下载Java /technetwork/java/javase/downloads/jre7-downloads-1880261.html进入CiteSpace之前的信息界面界面介绍-CiteSpace功能区及参数区项目区处理报告处理过程文本处理时间切片网络配置网络剪裁可视化设置16547832CiteSpace功能区及参数区项目区:新建项目和项目的编辑空间状态:显示所分析数据的分布情况过程报告:分析数据结果的整体参数数据的时间切片:对数据进行时间切分项目区:新建项目和项目的编辑的重点介绍如何调整CiteSpace里project的参数最大引用跨度:如果论文A发表于2015年,并引用发表于1978年的参考文献R,其引用跨度为2015 - 1978 + 1 = 38 年。CiteSpace可以通过参数Look Back Years (-1: unlimited)的设置来滤掉跨度超过一定长度的引用, 比如只考虑10年以内的引用。当该参数的值为-1时,所有跨度的引用都包括再内。最大相邻节点数:Max. No. Links to Retain (-1: unlimited)可调节网络模型中每个节点最多可以有多少相邻节点。当该参数的值为-1时,没有任何限制。当该值为正整数k时,网络中每个节点最多可以有k个相邻节点,而且这k个节点是所有相邻节点中关联最强的k个。每项参数的值或者为on/off或者为数字。如提示为(on/off),则说明系统预先设置的值是前面的on。如果要用到Alias, Exclusion等功能,设相应的参数值为on。陈超美.如何调整CiteSpace里project的参数 /blog-496649-914950.htmlCiteSpace功能区及参数区文本处理:文本处理分为文本处理的知识单元来源和文本的提取网络配置:包含节点、标准化方法和节点提取依据CiteSpace功能区及参数区:网络属性节点类型决定了使用CiteSpace分析的目的作者、机构或者国家的合作网络分析主题、关键词或WoS分类的共现分析文献的共被引分析、作者的共被引分析以及期刊的共被引分析文献的耦合分析合作网络分析共现网络分析共被引分析文献耦合基金分析在CiteSpace中提供了7种节点的选择依据,这里我们推荐top N方法。g-indextop NTop N%Threshold 阈值选择By Citation引证过滤Usage 180Usage 2013U1 使用次数(最近 180 天);U2 使用次数(2013 年至今)top N 提取的数据至少有一年在top N里面,最后计算节点在数据集中的总和。Threshold阈值选择的补充该功能是同时对节点出现次数和关系强度进行的筛选。第一个值2代表了某个项目(item)出现的次数不低于2次,中间的2代表两个items之间的共现次数最低要为2,并且满足标准化后的余弦标准化强度不小于0.2。这里的0.2是软件默认的ccv值。CiteSpace功能区及参数区地理可视化菜单GeographicalCiteSpace功能区及参数区-期刊的双图叠加菜单Overlay Maps下面以国际Scientometrics 期刊1978-2014年的4003篇论文分析为例说明。当然,在实际数据处理中,并不是分析了所有的数据。723393737484462506961797083826296839981891408911587941011141601291311922332262672623620501001502002503003504001978198219861990199419982002200620102014论文量时间1978-2014年发表在Scientometrics 期刊上论文的年度分布国际科学计量学合作网络-作者Glanzel W为当前Scientometrics 期刊的主编L. Waltman为Journal of Informetrics现任主编高产作者列表国际科学计量学合作网络:地理可视化(2001-2014)文献的共被引网络界面介绍- CiteSpace可视化界面菜单菜单栏快捷功能区节点信息列表可视化视图区图形属性调整图形位置调整分析结果参数信息Metrics:中介中心性的手动计算View:查看突发性探测结果。网络布局,通常这里不需要用户任何操作。CiteSpace可视化快捷功能快捷功能区节点标签调整连线调整突发性探测聚类功能区节点属性调整结果保存背景颜色运行/停止主题词标签文献标签连线标签图形布局方式聚类标签得到的聚类数量突发性检测(注意使用这个功能要等到网络运行静止后才有效)拖动工具条放大或缩小图形网络中节点信息检索框在网络中逐年显示信息(每个时间段中新增加的关系)右侧的小空白用于显示年份。关键路径识别CiteSpace可视化快捷功能整体色调的可视化图形节点的可视化年轮中介中心性向量中心性Sigma指数PageRank统一尺寸聚类类别WoS总被引次数usage 180 daysusage 2013图形节点标签的可视化标签阈值和大小设置连线的透明度和过滤聚类标签的阈值和大小调整图形连线的可视化调节图形连线的可视化连线的透明度和过滤Link Filter=0Link Filter=30Link Filter=60视图方式-时间线(Timeline)视图方式-时区图(Time Zone)默认45度60度30度0度时间线视图的调整6. CiteSpace数据分析的关键步骤确定研究主题及其相关术语。确定研究主题及其相关术语。运用尽可能广泛的专业术语来确定所关注的知识领域。这是为了所得到的结果能尽可能地涵盖所关注领域的全部内容。该步骤要求用户对自己所关注的领域要比较熟悉。在此前提下用户才能确定出合理的术语,以及需要重点关注的术语问题。收集数据。收集数据。在上一步确定好要检索的术语以后,接下来则要选择数据库来获取所要分析的数据。当前CiteSpace所分析的数据类型基础是Web of Science格式,也就是说从Web of Science中下载的数据,CiteSpace直接可以读取和分析。而从其他数据库所收集的数据需要通过转换器进行格式的转换才能进行分析。数据转换的思路是把其他格式的数据转换为Web of Science的数据格式(例如:CNKI 2 WoS,CSSCI 2 WoS以及Scopus 2 Wos等)。提取研究前沿术语提取研究前沿术语。从数据库文献的题目(Title)、摘要(Abstract)、关键词(Keywords)、系索词(Descriptor)和标识符中检索N元文法(N-grams)或专业术语,出现频次增长率快速增加的专业术语将被确定为研究前沿术语。时区分割(时区分割(Time Slicing)。在CiteSpace中需要明确要分析的时间跨度(开始时间和结束时间),以及这个时间跨度的分段长度(即单个时区的长度)。CiteSpace数据分析的关键步骤 阈值阈值的选择。的选择。CiteSpace允许用户使用三种方法来设定阈值。分别为Top N法,Top N%法以及Threshold Interpolation法。 网络精简和合并。网络精简和合并。在CiteSpace中提供两种网络精简算法,分别为Pathfinder和MST。在对数据进行初始分析时,一般不做任何精简。通过初步得到的结果,再决定采用何种精简方法。 可视化显示。可视化显示。CiteSpace的标准视图(默认)为网络图,此外还有Timeline和Timezone视图。 可视化编辑和检测。可视化编辑和检测。得到图谱之后借助CiteSpace可视化界面提供的网络可视化编辑功能美化图形,也可以利用提供的网络计算功能对网络进一步分析。 分析结果的验证。分析结果的验证。使用CiteSpace得到分析结果后需要与熟悉本专业的学者、专家进行沟通。特别地,建议对网络中突出的关键节点的作用进行咨询。 结构结构是否能看到自然聚类(未经聚类算法而能直观判定的组合),观察通过算法能得到几个聚类?是否包括一些重要的节点,如转折点(Pivot node,有紫色外圈的节点,具有高的中介中心性的节点)、标志点(Landmark node,如每个节点大小代表它的总被引次数,节点越大则总被引频次越高)和具有高的度中心性的点(Hub node,枢纽节点,具有高的度中心性)。CiteSpace可视化网络中的几类重要节点特征CiteSpace结果解读的提示 时间时间每个自然聚类是否有主导颜色(出现时间相对集中),是否有明显的热点(节点年轮中出现红色年轮,即被引频率是否曾经或仍在急速增加)?通过各个年轮的色彩可判断被引时间分布。时间线显示将每一聚类按时间顺序排列,相邻聚类常常对应相关主题(聚类间共引)。聚类之间的知识流向也可从时间(色彩)上看到(由冷色到暖色)。每个聚类的影响(被引时涉及的主题,摘要,和关键词)和几种不同算法所选出的最有代表性的名词短语。 内容内容每个聚类是否具有足够的相似性(silhouette值是否足够大,太小则无明确主题可言),整个聚类是否有足够节点(太少则很可能全都出自同一篇文献的参考文献,因而缺乏普遍意义)。 指标指标认识CiteSpace提供的一些指标: Density网络密度Density表示网络的密度,含义是网络中“实际关系数”除以“理论上的最大关系数”,即在一个节点数量为n的无向网络中,最大可能的关系数为2=( 1) 2,假设实际的关系数为m,那么该网络的密度就为2 1 。在CiteSpace中的1模网络都为无向网络,而2模的混合网络通常是有向的(例如:混合terms 和references时,从terms到references是有向的)。若一个网络为有向网络,那么一个节点数量为n的网络的最大关系数量为( 1),网络的密度就为 ( 1)。认识CiteSpace提供的一些指标: Modularity值 Modularity是网络模块化的评价指标,一个网络的Modularity值越大,则表示网络得到聚类越好。Q的取值区间为0,1,Q0.3时就意味着得到的网络社团结构是显著的。Q值计算如下式: =12( )(,) 其中A = 为实际网络的邻接矩阵;为零模型中节点i与节点j之间连线边数的期望值;和分别代表节点i与节点j在网络中所属的社团。若i与j属于同一个社团,那么 = 1否则 = 0。Newman M E J. Modularity and community structure in networksJ. Proceedings of the National Academy of Sciences, 2006, 103(23): 8577-8582.认识CiteSpace提供的一些指标: Silhouette值 Silhouette值是用来衡量网络同质性的指标,越接近1,反映网络的同质性越高,Silhouette为0.7时聚类结果是具有高信度的。在0.5以上,可以认为聚类结果是合理的。若Silhouette值无穷大,聚类数量通常为1,这样的结果对于聚类分析而言没有意义。(

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论