我国内科学知识图谱分析.doc_第1页
我国内科学知识图谱分析.doc_第2页
我国内科学知识图谱分析.doc_第3页
我国内科学知识图谱分析.doc_第4页
我国内科学知识图谱分析.doc_第5页
已阅读5页,还剩32页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

南京中医药大学经贸管理学院本科生毕业论文论文题目 我国内科学知识图谱分析 作者姓名 张琼 学 号 012109240 专业、年级 09信管2班 申请学位 管理学学士 指导教师 谢靖 2013年 5 月 17 日学位论文原创性声明本人郑重声明:所呈交的学位论文,是本人在导师的指导下,遵守严肃求实的科学精神,独立进行研究所取得的成果。论文中除已注明引用和致谢的内容外,不包含其他个人或者集体已经发表或撰写过的研究成果。本人完全意识到本声明的法律结果由本人承担。 论文作者签名:张琼 日 期:2013.5.17目 录1引言11.1问题的提出及意义11.2国内外研究现状12知识图谱的方法、工具及数据来源22.1知识图谱的绘制方法及常用工具22.2数据来源及研究思路33内科学2004-2008发文及引用基本情况44内科学分年度研究热点与知识源流54.1内科学分年度研究热点64.2内科学分年度知识源流135内科学知识图谱综合分析205.12004-2008年内科学关键词共现图谱分析205.22004-2008年XX学(XX学校)文献共被引图谱分析225.32004-2008年XX学(XX学校)作者共被引图谱分析256小结27参考文献28致 谢30表目录表1 CitespaceII支持格式4表2 内科学核心期刊2004-2008发文及引文数据4表3 2004年中间中心度排名前15的关键词表4 2004年15个热点关键词表5 2005年中间中心度排名前15的关键词表6 2005年15个热点关键词表7 2006年中间中心度排名前15的关键词表8 2006年15个热点关键词表9 2007年中间中心度排名前15的关键词表10 2007年15个热点关键词表11 2008年中间中心度排名前15的关键词表12 2008年15个热点关键词表13 2004年中介中心度排名前10篇引文表14 2004年被引频次前10篇引文表15 2005年被引频次前10篇引文表16 2006年被引频次前10篇引文表17 2007年中介中心度排名前4篇引文表18 2008年被引频次前10篇引文表19 2004-2008年总出现频次大于200的36个关键词表20 2004-2008年总出现频次排名前30篇引文表21 2004-2008年被引频次排名前30位高影响学者图目录图1 研究思路3图2 2004年关键词共现图谱3图3 2005年关键词共现图谱图4 2006年关键词共现图谱图5 2007年关键词共现图谱图6 2008年关键词共现图谱图7 2004年文献共被引图谱图8 2005年文献共被引图谱图9 2006年文献共被引图谱图10 2007年文献共被引图谱图11 2008年文献共被引图谱图12 2004-2008年关键词共现图谱聚类视图图13 2004-2008年关键词共现图谱Timeline视图图14 2004-2008年文献共被引图谱聚类视图图15 2004-2008年文献共被引图谱Timeline视图图16 2004-2008年作者共被引图谱聚类视图V摘 要: 本文以北京大学中文核心期刊要目总览(2008版)所收录的引文数据为基础,绘制了内科学学科的知识图谱。通过对学科关键词共引、知识源流等的分析,揭示出本学科的发展进程及其趋势。关键词: 知识图谱;关键词共引;知识源流Abstract:This paper draws the knowledge map of the Internal Medicine subject based on the citation data recorded by the Chinese core journals(version of 2008) of Peking University .It shows the development process and trends of the subject by analyzing the keywords co-citation of the subject and the origins of the knowledge of the subject.Key words: knowledge map ; keyword co-citation ; origins of the knowledge1 引言1.1 问题的提出及意义文献是人们获取知识的重要媒介,是人类文化发展到一定阶段的产物,并随着人类文明的进步而不断发展。而随着人类文化的发展,文明的进步,每年发表的文献数量以爆炸式增长,要想从浩如烟海的文献中获取想要的知识,分析当前的研究前沿热点问题,把握一个领域发展的网络就必须要借助于科学计量学、可视化技术等。知识图谱已经成为当今计量学领域学术研究群体共同关注的前沿课题,目前被广泛应用于自然科学与人文科学领域。以往的可视化技术由于存在一系列缺点与在可视化技术上的局限性,因而产生了新一代的可视化技术与知识图谱研究。新兴的知识图谱可将某个学科领域或者知识单元间错综复杂的交互关系用节点与链接等现代可视化技术进行处理与展示,使人们可以清晰直观的了解某个学科或者领域发展进程中的知识结构、研究趋势等。运用知识图谱能够有效的从众多文献中获取知识,也是目前人们从茫茫文献中获取所需的可视化的方法。学术期刊作为文献的一种,对其进行深入挖掘有助于把握学科领域研究的全景,有利于科研工作者了解最新学科内研究热点与前沿,促进学科繁荣与发展。本研究通过运用知识图谱的可视化理论方法,以我国关于内科学学科下的核心期刊为对象,借助CitespaceII可视化工具分别从关键词、作者、被引文献和被引作者四个角度来系统地构建了我国内科学关键词共现图谱、文献共被引图谱、作者共现图谱和作者共被引图谱,比较全面地形成我国内科学科知识图谱。多角度阐述分析了我国内科学学科的研究热点及其发展趋势,揭示了内科学学科知识源流的演进过程,探索了我国内科学学科的主要分支研究领域及各领域代表学者,并深刻认知了我国内科学学者间科研合作现状。从内科学研究角度出发,多方位勾勒出内科学学科发展脉络,以不断促进我国内科学的健康持续发展,从而带动我国整个医学的全面发展和进步。1.2 国内外研究现状科学知识图谱是在应用数学、计算机科学、信息科学等学科的理论方法与科学计量学引文分析、共现分析、社会网络分析等方法相结合的基础上逐渐发展起来的,并利用可视化的图谱形象地揭示出科学的发展趋势和热点问题。知识图谱的研究发端于美国、荷兰等国家。根据有关文献介绍,国外知识图谱的研究主要有以下几方面:(1)以引文分析理论为基础研究不同学科的知识图谱。如加菲尔德等人(1964年)手工绘制了DNA领域的历时态图谱;普赖斯(1965年)运用相同的数据完成了他的经典论文科学论文网络;Small H(1973)首次提出了论文共被引的概念和分析方法,并绘制了SCI中粒子物理学领域高被引论文的共被引图谱。(2)利用复杂网络理论和方法对引文网络、科研合作网络、关键词共现网络等展开研究。如社会学家Hummon(1989年)把社会网络分析方法引入了引文网络研究,提出了引文网络中的关键路径算法;纽曼(2001年)用复杂网络方法测定了生物医药、物理学和计算机科学等领域科学合作网络中最有影响力的科学家,并揭示了科学合作结构具有复杂网络的高集聚和小世界等特性。(3)将计算机科学的理论、方法和引文分析等有机结合,利用专门软件对大量反映知识结构及发展脉络的数据自动处理,生成可视化的知识图谱。如陈超美提出了探索关键路径的pathfinder算法,并开发了供全球用户免费下载使用的Citespace软件,他在2010年还提出了多视角的共引分析方法,对知识图谱的发展做出了重要贡献。总体来讲, 国外学者对知识图谱的理论、方法和可视化软件等方面的研究都处于领先地位,而我国对知识图谱的关注则滞后于国外,但是也取得了一些成绩。从20世纪90年代至今,我国的学者也开始了科学知识图谱的研究。前期的研究并不系统,大多是对绘制方法的探讨。主要的研究成果也有很多,如中国科学院的耿海英毕业论文最后的实证部分,是用共引分析方法等绘制了情报学作者间知识图谱,并和White的结果进行对照,分析异同。李运景(2009)使用HistCite和SPSS对国内引文数据库中杂交水稻领域分别绘制了编年图和同被引图谱。此外,涉及到具体构建知识图谱系统的专家有我国社会科学院的李思经老师,他在知识图谱方面研究比较深入,也有了一些成果,他的学生康永兴在2006年的毕业论文中构建了学科知识图谱系统,是将知识图谱系统应用于科学的一个探索。大连理工大学科学院与科学技术管理研究所的刘则渊老师是我国知识图谱绘制方面研究的代表人物,该研究所的一系列研究人员是我国系统研究科学知识图谱的领头人。中国科学院国家科学图书馆刚刚建成了一个基于SCI和ESI数据库绘制各领域科学图谱的系统。对于我国知识图谱的研究发展,显然研究队伍在不断地扩大,从而知识图谱研究领域也取得了显著进步。不过,有关知识图谱本身的系统研究几乎没有。总体来讲,国内在知识图谱的应用方面缺少理论上的实证分析,主要是将知识图谱作为一个工具,应用于各个领域,相对于国外,对知识图谱的应用研究还比较薄弱。但是由于知识图谱是科学计量学领域的一个新的活跃分支,其历史还比较短,所以,国内外在知识图谱的应用研究方面,差距并不大。2 知识图谱的方法、工具及数据来源2.1 知识图谱的绘制方法及常用工具知识图谱在学界也可称作知识域可视化,是显示知识的结构关系、演进过程和发展趋势的一系列不同的图形。它的基本原理是分析文献、作者、关键词、期刊等的相似性分析及测量。根据不同的研究视角、方法和技术可以绘制不同类型的知识图谱。知识图谱的绘制方法大体可以分为多元统计分析、引文分析、共引分析、共现分析、词频分析、社会网络分析六种。多元统计分析是一种研究多个变量或者因子之间的相互关系的综合分析方法。在构建知识图谱时大多采用该方法中的因子分析、多维尺度分析和聚类分析三种方法。因子分析是从表征对象的多个指标变量中综合出几个少数独立的综合因子来对研究对象进行描述的一种方法,进而对数据进行精简,但图示功能较差。多维尺度分析方法利用低维空间中的散列点来表示原高维空间数据间的位置和亲疏关系,但数据点之间没有链接,无法显示关联性。聚类分析法是根据各个对象间的相似度来进行划分类别的一种分析方法。聚类内的对象性质尽可能相似,聚类间的对象尽可能相异。但该方法无法直观的反映出对象间的距离和结构关系。引文分析是运用数学、统计学和逻辑学对期刊、论文和专著等对象的引用与被引用现象进行分析的一种方法。共引分析是分析两篇(或者两篇以上)文献同时被其他文献所引用的研究方法,主要研究文献之间的共引关系。共现分析是定量化各类信息载体中共现信息的方法,主要是探测研究对象间的亲疏关联。词频分析时利用可表征文献主题内容的主题词或者关键词在学科领域出现的频次大小来确定该学科领域的研究热点和发展趋势。社会网络分析方法是对研究对象之间的关系模式进行分析的一种研究方法。对于绘制知识图谱的常用工具目前国内外学者主要使用国外已开发的针对国外数据库格式的可视化工具。主要有Bibexcel、Thomson Data Analyzer(TDA)、HistCite、VOSviewer、SPSS、Ucinet、Netdraw和pajek等。当然除了这些常用的绘制工具外还有国内的共现挖掘系统BICOMS,英国的词频分析软件Wordsmith Tools等。本文主要选用了集词频分析、引文分析、共现分析、共引分析和社会网络分析于一体的多功能前沿可视化工具CitespaceII来对内科医学进行研究。本文从关键词、来源作者、被引文献和被引作者四个角度来研究相关问题。通过对Citespace中相关阀值的设置来获取比较好的可视化网络图像,寻找当前内科医学的研究热点与研究进展。2.2 数据来源及研究思路本文以北京大学中文核心期刊要目总览(2008版)所收录的内科学科学核心期刊为研究对象,借助中国医药科学引文索引(Chinese Medicine Sciences Citation Index,以下简称CMSCI)数据库中2004年到2008年的引文数据作为可视化研究数据来源。图1 研究思路数据处理说明:(1)目前CitespaceII支持中文处理格式为CNKI及CSSCI下载格式,本研究数据来源为CMSCI数据库,因而要根据软件数据格式进行数据转化;(2)清洗发文及被引数据,由于发文中存在公告、通信,引文中作者标注不规范等情况,需要对发文数据及被引数据进行清洗,并重新建立索引以便进行CitespaceII支持格式输出。表1 CitespaceII支持格式转换后的数据格式来源作者AU张莉来源文献/来源篇名TI 血清血管内皮细胞生长因子在血管瘤诊断与治疗中的应用期刊图书情报工作SO 中华小儿外科杂志标引词DE 血管瘤;血管畸形;酶联免疫吸附试验;血管内皮细胞生长因子机构名称C1 上海第二医科大学附属第九人民医院整形外科, CHINA.年代PY 2011参考文献CR Tan ST, 2000, Plast Reconstr Surg, /Cellular and extracellular markers of hemangioma/ Chang J, 1999, Plast Reconstr Surg, /Proliferative hemangiomas:analysis of cytokine gene expression and angiogenesis/ Mulliken JB, 1982, Plast Reconstr Surg, /Hemangiomas and vascular malformations in infants and children: A classification based on endothelial characteristics/ 胡琼华, 2002, 中华整形外科杂志, /血管瘤病人血清中VEGF的定量检测及意义/ Bielenberg DR, 1999, Int J Oncol, /Progressive growth of infantile cutaneous hemangiomas is directly correlated with hyperplasia and angiogenesis of adjacent epidermis and inversely correlated with expression of the endogenous angiogenesis inhibitor, IFN-beta/ 林晓曦, 1998, 中华整形烧伤外科杂志, /增殖细胞核抗原在血管瘤及血管畸形组织中的表达/ 张莉, 2003, 中华整形外科杂志, /血管瘤和血管畸形的鉴别诊断/此外还需要说明的是:转换时自动删除包含网页形式的引文和没有标明作者或刊名的引文;转换后的参考文献字段顺序为:第一作者、年代、来源、标题。引文作者名中的“,”被替换为空格;如果引用的是图书,则“来源”字段自动用“N”来代替;如果引文的“年代”字段为空,则自动删除。在转换中,去除了部分不规范发文及引文,因而数据与基于CMSCI的医学学科期刊影响力数据略有差异。3 内科学2004-2008发文及引用基本情况表2 内科学核心期刊2004-2008发文及引文数据序号刊名(学科)20042005200620072008发文引文发文引文发文引文发文引文发文引文1肠外与肠内营养120123612212871161360112143511813612中华高血压杂志126138016617252302396222234025629943世界华人消化杂志83521364769176286971726677319015811207774临床心血管病杂志361228233923382972398363325933932005中国动脉硬化杂志226282023130523014070265327318327336中国老年学杂志7065135851691893179611206112991242119277中国实用内科杂志453184855925767855221735569145030058中国糖尿病杂志155109118712371821190280181027119899中国循环杂志1831298181124917814141751348173128210中国心脏起搏与心电生理杂志1741334193151919918132011900178171611中国内镜杂志6463396579362155037585193776327248612中国地方病学杂志2751822292188131120022851831249181413中华传染病杂志151101215010921379772452009217205614中华风湿病学杂志2632589261305024631522523222262347515中华肝脏病杂志3381944355252931926213232919267271516中华结核和呼吸杂志3192633321243031825703183015315298517中华老年医学杂志3492352334247531522613082568307269218中华内分泌代谢杂志2231938238234322822992062230247237119中华内科杂志4072622429260043232844313309379336020中华消化内镜杂志249953227118924515202281404295203721中华消化杂志3572185333219239026293852637337276322中华心血管病杂志4493118400312036732353073336293358523中华血液学杂志2801972260208527824362772593282254724中华肾脏病杂志152124525920272422350269250128026694 内科学分年度研究热点与知识源流本文采集了CMSCI数据库中2004-2008年间的收录的40891篇来源文献,分别从关键词、作者、被引文献和被引作者四个知识单元来绘制图谱。4.1 内科学分年度研究热点1) 2004年内科学研究热点2004年共有4290个不同的关键词,在Citespace中控制阀值的大小使关键词共现图谱中的节点和连接数量在一个合理的范围,并使参考聚类后的Molularity Q和Mean Silhouette值落在较为合适的范围。经过多次调节阀值大小,最后选取了较为合适的一组阀值。节点类型选为Keyword,阀值设为(8,1,10)、(8,1,10)、(8,1,10),得到的个体网络中节点数为258,连接数222,经过pathfinder精简算法简化后自动聚类得到的可视化图像如下:图2 2004年关键词共现图谱图2中圆环的大小与关键词在文献中出现的频次成正比,圆环外层年轮的宽度与中介中心度的大小成正比。但频次大的节点中介中心度却未必也高,这两个指标分别从统计与网络结构两个角度来诠释节点,没有绝对的关联性。有紫色外圈的节点表示中介中心度大于0.1的关键词,上图通过调节聚类标签阀值来控制显示的关键词。聚类标签的阀值依据节点的中介中心度来进行调节,最终得到图中24个关键词。为了找出2004年内科医学的研究焦点与热点,我们列举了2004年中介中心度排名前15的焦点关键词(表3)与出现频次排名前15的热点关键词(表2)。表3 2004年中介中心度排名前15的关键词关键词频次中介中心度关键词频次中介中心度关键词频次中介中心度高胆固醇血症80.48细胞外基质90.44心肌再灌注80.4信号转导80.47转化生长因子110.43糖尿病肾病270.39巨噬细胞120.45内皮生长因子90.42超声检查120.39卡维地洛90.45结缔组织生长因子90.41心脏缺损80.35糖尿病650.44超声心动描记术110.4细胞株90.25表4 2004年15个热点关键词关键词频次中介中心度关键词频次中介中心度关键词频次中介中心度冠状动脉疾病1400.01诊断800.01肝炎630.00腹腔镜1200.00治疗790.00癌620.07高血压1110.00糖尿病650.44心肌梗死620.02老年人1000.00肝炎病毒640.012型糖尿病600动脉粥样硬化840.00细胞凋亡640.00胰岛素抵抗590.19结合图2与表3、表4可以看到高胆固醇血症、信号转导、巨噬细胞、卡维地洛、糖尿病、细胞外基质、转化生长因子等在图谱中具有较高的中介中心度,位于图谱较为中心的位置,是2004年内科医学研究者们共同关注的焦点。而从关键词出现的频次来看(表4),得到冠状动脉疾病、腹腔镜、高血压、老年人、动脉粥样硬化、诊断、治疗、糖尿病、肝炎病毒等具有较高的出现频次,是2004年众多内科医学工作者的研究热点内容。综合分析图2、表3与表4可以看出,根据关键词中介中心度大小与出现频次排名计算出的2004年前15个关键词中可以看到出现频次与中介中心度均较高的为糖尿病,这说明糖尿病为2004年的重要热点关键词,这一年的糖尿病是内科医学工作者的研究热点与焦点内容。除此之外,我们看出一般中介中心度较大的关键词出现的频次并不是很大,而出现频次很大的关键词中介中心度却很小。出现频次较大的关键词是2004年的内科学研究热点内容,而中介中心度较大但出现频次较低的关键词如高胆固醇血症、信号传导、巨噬细胞、卡维地洛等,这些关键词在图谱中具有重要的位置,隐含着未来研究热点的转移。2004年中出现频次与中介中心度均高的关键词很少,表明这年的研究热点持续时间并不长,而未来将会出现很多新的研究热点。2) 2005年内科学研究热点2005年共有5102个不同的关键词,节点类型选取Keyword,阀值设为(10,1,10)、(10,1,10)和(10,1,10),得到的个体网络节点数为274,连接数为196。经pathfinder精简算法简化自动聚类后得到可视化图像如图3所示。图3中共有36个关键节点,图中的关键词按照中介中心度的大小进行调节显示,结合表5可以看出细胞增殖、病理学与病理生理学、心血管疾病、危险因素、信号传导糖尿病肾病、转化生长因子1等具有较高的中介中心度,是2005年内科学研究关注的焦点问题。为了更好的了解2005年内科学的研究状况与热点,我们又列举了这一年出现频次排名前15的关键词,如表6所示。可以看出高血压、糖尿病、腹腔镜、冠状动脉疾病、诊断等具有较高的出现频次,是这一年的研究热点内容。当然对比2004年可以知道细胞凋亡、高血压、冠状动脉疾病、动脉粥样硬化、老年人、腹腔镜、诊断、治疗、癌、心肌梗死、肝炎病毒、糖尿病等12个关键词仍然是2005年内科学的研究热点,不同的是高血压和糖尿病的出现频次相对去年有了很大的提升,而冠状动脉疾病、腹腔镜等的出现频次降低了很多。2005年内科学的研究热点内容只增加了大鼠、胃癌、病理学与病理生理学三个,很多领域仍然是与2004年相同的。不过对比表5和表6可以看出,2005年的重点研究内容为病理学与病理生理学、冠状动脉疾病和动脉粥样硬化,相比2004年重点研究热点内容扩展了很多。通过分析图3、表5和表6可以将2005年的研究热点内容归纳为内科学基础理论研究、内科学各种疾病的研究以及治疗方法的研究。表5 2005年中间中心度排名前15的关键词关键词频次中介中心度关键词频次中介中心度关键词频次中介中心度细胞增殖110.4糖尿病肾病410.3卡托普利180.21病理学与病理生理学720.35转化生长因子1190.29受体150.19心血管疾病260.33冠状动脉疾病960.25自身抗体120.19危险因素430.32氯沙坦140.25rna干扰180.16信号转导120.32血管紧张素290.21动脉粥样硬化890.14表6 2005年15个热点关键词关键词频次中介中心度关键词频次中介中心度关键词频次中介中心度高血压1740动脉粥样硬化890.14胃癌760糖尿病1110细胞凋亡850.04肝炎病毒720腹腔镜970老年人830病理学与病理生理学720.35冠状动脉疾病960.25大鼠800.02癌720诊断910.04治疗780.06心肌梗死710.03 图3 2005年关键词共现图谱3) 2006年内科学研究热点2006年共有5462个不同的关键词,节点类型选取为Keyword,阀值设为(11,1,10)、(11,1,10)和(11,1,10),得到的个体网络中节点数为277,连接数为184,经过pathfinder精简算法修剪然后自动聚类得到可视化图谱如下:图4 2006年关键词共现图谱图4中共有25个关键节点,将关键词按中介中心度大小进行排序得到表7,结合表7可以看到拥有较高中介中心度的关键节点:基质金属蛋白酶9、成骨细胞、细胞凋亡、辛伐他汀、人脐静脉内皮细胞、细胞周期和胰岛素抵抗等,它们是2006年内科学学者们关注的焦点,为了更好的分析2006年内科学的研究热点,我们又按关键词出现频次列出了排名前15的关键词,如表8所示。表7 2006年中间中心度排名前15的关键词关键词频次中介中心度关键词频次中介中心度关键词频次中介中心度基质金属蛋白酶-9130.35细胞周期170.29细胞系180.24成骨细胞150.3胰岛素抵抗830.29糖尿病880.18细胞凋亡1120.29细胞增殖180.27rna干扰340.16辛伐他汀170.29抗药性160.27脂联素290.15人脐静脉内皮细胞150.29罗格列酮280.26瘦素280.14表8 2006年15个热点关键词关键词频次中介中心度关键词频次中介中心度关键词频次中介中心度高血压1790腹腔镜1060诊断920动脉粥样硬化1220.13病理学与病理生理学1040.07糖尿病880.18细胞凋亡1120.29冠状动脉疾病1000胰岛素抵抗790.29糖尿病1080治疗990胃癌770.02心血管病学1060.02老年人980心肌梗死770.03从表8中可以看出2006年的研究热点为高血压、动脉粥样硬化、细胞凋亡、糖尿病、心血管病学、腹腔镜和病理学与病理生理学等。与2005年相比,高血压仍然处于出现频次最高的位置,说明高血压一直是这两年的研究热点,在高血压中还有些需要攻克的难点。动脉粥样硬化、细胞凋亡、病理学与病理生理学、治疗等研究得到了大大的提升。其中病理学与病理生理学是2005年新出现的研究热点,在2006年病理学与病理生理学的研究继续提升。而糖尿病的研究相对减少。2006年的研究热点与2005年和2004年比较接近,但也出现了两个新的研究内容:心血管病学和胰岛素抵抗。其中胰岛素抵抗为2004年的研究热点,2005年出现了中断,在2006年又开始成为了内科学的研究热点。综合分析表7和表8,我们找到中介中心度与出现频次均较高的关键词:细胞凋亡、胰岛素抵抗和糖尿病。说明这三个关键词为2006年内科学的重点研究热点,与2005年的重点研究热点完全不一样,其中糖尿病与2004的重点研究内容相同,说明糖尿病在2005年遇到一定的困难后在2006年得到了很大的发展。结合图4、表7和表8我们可以将2006年的研究热点归纳为:内科学疾病研究、治疗方法研究与老年人研究。其中对于疾病的研究是2005年内科学的研究重点热点内容。而基质金属蛋白酶-9、成骨细胞、辛伐他汀和人脐静脉内皮细胞等出现频次低但中介中心度很高的关键词可能成为以后的研究热点内容。4) 2007年内科学研究热点2007年共有6258个关键词,节点类型选取为Keyword,阀值设置为(12,1,10)、(12,1,10)和(12,1,10),得到的个体网络中节点数为281,连接数为195。经过pathfinder精简算法修剪自动聚类后得到可视化图谱如下所示:图5 2007年关键词共现图谱图5中共有16个紫色外圈的关键节点,我们根据中介中心度的大小列出排名前15的重点关键词,结合表9可以看出mtt法、细胞周期、系膜细胞、结肠癌、逆转录-聚、糖尿病肾病和急性冠状动脉综合症等具有较高的中介中心度,它们是2007年内科学学者们的关注焦点。为了更好的分析2007年内科学的研究热点,我们列出了这年出现频次排名前15的关键词,如表10所示。表9 2007年中间中心度排名前15的关键词关键词频次中介中心度关键词频次中介中心度关键词频次中介中心度mtt法140.28糖尿病肾病580.2病理学与病理生理学700.16细胞周期200.24急性冠状动脉综合症270.18血管平滑肌细胞290.16系膜细胞150.24氧化应激240.18增值280.16结肠癌210.22基质金属蛋白酶-9160.18细胞增殖250.16逆转录-聚170.22辛伐他汀140.18心肌梗死740.15表10 2007年15个热点关键词关键词频次中介中心度关键词频次中介中心度关键词频次中介中心度高血压1890老年人1340胰岛素抵抗1010治疗1450.01细胞凋亡1250心房颤动910.03糖尿病1440冠状动脉疾病1120.03腹腔镜910诊断1430大鼠1110肝炎850动脉粥样硬化1370.03心血管病学1050.01预后820.03由表10及与去年的对比可发现,高血压、糖尿病、动脉粥样硬化、细胞凋亡等仍然是内科学的研究热点,同时随着内科学的发展也出现了新的诸如心房颤动、预后等研究热点。不过总体来说内科学的研究热点内容较前几年没有多少改变。每一年新出现的研究热点较少,综合分析表9与表10可知出现频次与中介中心度均较高的关键词数为0,说明2007年的热点研究内容在整个内科学网络中重要性并不是很高。5) 2008年内科学研究热点2008年共有5696个不同的关键词,节点类型选取Keyword,阀值设为(11,1,10)、(11,1,10)与(11,1,10),得到的个体网络中节点数为278,连接数181,经pathfinder精简算法修剪后自动聚类得到可视化图谱如图6所示。图6中共有23个关键节点,根据关键词的中介中心度的大小进行排序,我们列举了排名前15的关键词,如表11所示。结合图6与表11可以看到增值、细胞凋亡、凋亡、流式细胞术和bcl-2等具有较高的中介中心度,在知识网络中具有重要的地位,是2008年内科学学者们关注的焦点。为了更好的分析2008年内科学的研究内容与热点,我们列举了出现频次排名前15的关键词,如图12所示。图6 2008年关键词共现图谱表11 2008年中间中心度排名前15的关键词关键词频次中介中心度关键词频次中介中心度关键词频次中介中心度增值180.3肝纤维化680.19细胞周期180.18细胞凋亡1120.21癌570.19儿童300.17凋亡650.21基因360.19检测210.16流式细胞术230.2转化生长因子1180.19结缔组织生长因子220.15bcl-2160.2白血病250.18纤维化130.15表12 2008年15个热点关键词关键词频次中介中心度关键词频次中介中心度关键词频次中介中心度糖尿病1790.03冠状动脉疾病1090.01心肌梗死930.01高血压1450胰岛素抵抗1050.10大鼠900治疗1260.03动脉粥样硬化1040.11老年820诊断1210.03老年人1000病理学与病理生理学720.02细胞凋亡1120.21心血管病学960心房颤动690综合分析表12与2007年的数据可以看出糖尿病上升为2008年的最热门关键词,当然高血压、治疗和诊断等关键词仍然为2008年的热门关键词。2008年的研究热点与去年大体相同,只出现了老年一个新的热点关键词。而老年与老年人有些类似,所以属于同一个领域。结合表11与表12发现2008年里只有细胞凋亡是既具有较高的中介中心度又具有较大的出现频次的关键词,因而细胞凋亡是2008年的研究重点与热点内容。与以往相比,我们发现内科学对于疾病方面的研究相对减少了,对于细胞、治疗、诊断等方面的研究增多了。说明内科学的研究在向新的领域扩展,从表11中可以看出,具有较高的中介中心度的关键词一般均为新的领域,关于疾病的很少,表明内科学在随着时间的推移不断的发展。4.2 内科学分年度知识源流1) 2004年内科学知识源流2004年共计来源文献6145篇,有效引文69553篇,节点类型选取Cite Reference,阀值设为(5,1,10)、(5,1,10)和(5,1,10),得到节点数为151,连接数为159,经过pathfinder精简算法精简后自动聚类结果如下: 图7 2004年文献共被引图谱图7中圆环的大小与文献的被引频次成正比,共有14个关键节点,我们将引文按中介中心度大小进行排序得到表13。从表13中可以看出中介中心度排名前三的文献分别为董菁、Tang ZY、Jaboli MF所著,表明其是2004年内科学研究所借鉴的关键文献。其中中介中心度较高的有7篇为英文文献,说明国际间的内科学交流比较广泛为了具体阐述2004年的重要知识源流,我们又选取图谱中被引频次较高的前10篇引文,如表14所示。从表14中可以发现,被引频次排名前10篇引文均为期刊文献,可见2004年期刊文献是内科学的主要知识源流。从表14中可以看出内科学的主要知识源流是在内科学各种疾病的诊断及治疗方案领域,其次则是内科学疾病的发病机制的生物学理论研究等。综合图7与表14可以发现2004年被引频次较高且中介中心度较大的核心关键引文为Tang ZY的Hepatocellular carcinoma-cause 、陆荫英的HBeAg肝细胞结合蛋白基因的筛选与克隆和Gu ZP的VEGF165 antisense RNA suppresses oncogenic properties of human esophageal squamous cell carcinoma 。这三篇关键引文可以看作是2004年内科学学者们的关注焦点和最为重要的知识源流。表13 2004年中介中心度排名前10篇引文中介中心度作者篇名中介中心度作者篇名0.34董菁脂肪肝形成分子机制的研究J0.19Xue FBAssociation of H pylori infection with gastric carcinoma: a Meta analysisJ0.33Tang ZYHepatocellular carcinoma-causeJ0.18刘妍乙肝病毒X基因在真核细胞中的表达及反式激活SV40病毒早期启动子的研究J0.33Jaboli MFLong-term alpha interferon and lamivudine combination therapy in nonresponder patients with anti-HBe-positive chronic hepatitis B: Results of an openJ0.17Gu ZPVEGF165 antisense RNA suppresses oncogenic properties of human esophageal squamous cell carcinomaJ0.26Qin LXThe prognostic molecular markers in hepatocellular carcinomaJ0.17Shi HPrognostic significance of expression of cyclooxygenase-2 and vascular endothelial growth factor in human gastric carcinomaJ0.25Wu YLGrowth inhibition and apoptosis induction of Sulindac on Human gastric cancer cellsJ0.14刘妍乙型肝炎病毒X基因异质性及对其反式激活功能的影响J表14 2004年被引频次前10篇引文频次作者篇名频次作者篇名45中华医学会传染病与寄生虫病学分会、肝病学分会病毒性肝炎防治方案J12Lee NA major outbreak of severe acute respiratory syndrome in Hong KongJ21张之南血液病诊断及疗效标准J12Steppan CMThe hormone resistin links obesity to diabetesJ16成军慢性病毒性肝炎发病机制的分子生物学研究J11中华医学会呼吸病学会慢性阻塞性肺疾病学组慢性阻塞性肺疾病诊治指南J15Ross RAtherosclerosis-an inflammatory diseaseJ11SchenaQuantitative monitoring of gene expression patterns

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论