版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、i2007年度“国家科学图书馆青年人才领域前沿项目”结题报告“科学前沿领域”挖掘的文献计量学方法研究项目负责人:杨立英项目组成员: 周秋菊 岳婷“科学前沿领域”挖掘的文献计量学方法研究目 录1引 言31.1研究背景31.2研究的目的和意义41.3国内外研究现状5国外研究现状5国内研究现状71.4本文工作简介72“科学前沿领域”活动规律的理论研究82.1 “研究前沿”的概念及定义82.2 研究前沿的挖掘技术10同被引技术10文献耦合12词频分析13共词分析152.3 小结183 “科学前沿领域”的文献计量学方法研究193.1基于传统文献计量的“科学前沿领域”遴选方法193.1.1 引文分析方法2
2、03.1.2 词频分析方法21引文分析法和词频分析法的比较21引文法与词频法21词频与词的网状关系方法22共词聚类与共引聚类方法223.2基于现代统计学方法的“科学前沿领域”遴选24统计学方法与科学计量学方法的关系24常用的统计学方法253.2.2.1 聚类分析25主成分分析28多维尺度分析303.3基于研究描绘技术的“科学前沿领域”遴选方法33研究描绘技术的基本概念33基于研究描绘技术的技术挖掘应用研究363.3.3 基于研究描绘的“科学前沿领域”挖掘373.3.4 方法评述383.4基于爆发词的“科学前沿领域”挖掘方法393.5 新兴趋势及其处理技术40新兴趋势的概念及定义40新兴趋势的处
3、理技术413.5.2.1 基于文献计量学指标的可视化方法413.5.2.2 基于文献计量学指标的综合评价方法43基于文献共引聚类网络分析的方法45基于神经网络的机器学习方法473.6小结484“科学前沿领域”挖掘的可视化技术494.1可视化技术的概念494.2常见的可视化系统比较分析494.2.1 Pajek504.2.2 Thomson Data Analyzer514.2.3 HistCite524.2.4 ETD524.2.5 CITESPACE534.2.6 PROTEJ554.2.7 HDDI564.3当前系统特点分析564.3.1 优点分析57处理和可视化基本数据57处理和可视化网
4、络数据57科学前沿领域的主题遴选、聚类和识别574.3.2 缺点分析584.4共现可视化系统原理、方法及其实现59共现可视化原理59共现可视化及其指标、方法59共引可视化的软件工具634.4.4 基于复杂网络理论的可视化科技监测方法654.5基于科学计量的“科学前沿领域”系统解决方案654.6小结675“科学前沿领域”挖掘的应用研究685.1“世界科学前沿领域”的文献计量应用研究68所选领域知识说明68方法与数据69数据分析705.1.3.1 数据总体分析70时间线技术应用:研究前沿领域分析735.3 小结836结论841引 言1.1研究背景科学技术作为现代社会最活跃的因素和最强有力的支撑力量
5、,在经济建设中发挥着重要作用。由于人类对未知世界的探索是无限的,而社会可以用于科学探索的资源却是有限的,因此无论是发达国家要保持在科学知识前沿领域的领先地位,还是发展中国家在原本落后的起点上实现局部突破、跨越式发展,都需要有组织、有选择地确定重点科技项目予以资助,合理配置、有效利用有限的科技资源,以求得本国科学技术最有效的发展。越来越多的国家和政府认识到,在制定统筹安排、整体推进的科技战略规划中,遴选“优先领域”或“重点领域”,是加速科技进步,推动社会经济协调发展的关键所在。各国政府确定“优先领域”或“重点领域”时,都高度关注“前沿领域”。“科学前沿领域”是引起世界科学家高度关注并取得重大突破
6、,带动或推动相关学科发展,涌现出大批科学成果的研究方向。它的发展在整个科学发展中举足轻重的作用:不仅在其内部形成了科学研究的“富矿区”,而且极大的推动和促进了相关学科乃至整个学科群的飞速发展。这些研究领域是全世界最顶级的科学家瞩目的焦点。从广义上讲,科学“前沿领域”包含二部分内容,一部分是引起世界科学家高度关注的对未解的科学难题所做的种种探索并取得了重大突破:另一部分是非常超前的、有可能在若干年后成为科学难题之解的非共识研究工作。在任何时候,前者是科学前沿的主流,它囊括了前沿领域的绝大多数研究工作,因而,本论文的研究内容锁定在前者。“前沿领域”的研究不仅在其内部形成了科学研究的“富矿区”,而且
7、极大的推动和促进了相关学科乃至整个学科群的飞速发展。遴选和挖掘这些领域和研究主题的动态进展,不仅为国家的科技发展战略制定提供了依据,还可以为科学家提供一个多角度观测世界科学发展的空间。任何学科都有自己演化的历史,在演化中形成相应的动态知识结构图,其中蕴藏着数量不等的“研究领域”。这些“研究领域”并不以显而易见的方式为我们所知,而是隐藏在大量的科学论文中。对这些“研究领域”的区分、归纳是描述“前沿领域”的重要基础。长期以来,科学家通过大量地阅读文献或者是通过国际合作和国际交流来了解世界科学前沿,这种基于科学家主观认识作出经验判断的方法是当今的一种主流方法。然而,定性的经验方法往往受到科学家主观认
8、识及专业知识面的限制,会直接影响到科学家的科研选题,也会影响到国家和政府的科学发展战略制定。事物发展体现在数量关系上,往往都会观察到由少到多的规律。在科学演化的不同阶段会表现出不同的特征。科学计量学的奠基人普赖斯在大科学、小科学中用科学家数量、科技论文数量的指数增长、逻辑斯蒂曲线描绘了不同发展阶段的科学增长规律,开创了科学史研究的先河。这说明科学发展的阶段性特征可以通过定量方法来揭示。在定量分析则是建立对“前沿领域”特征深入分析基础上,以大规模的论文数据为研究对象,从中揭示、挖掘科学“前沿领域”。1.2研究的目的和意义“前沿领域”在每个学科内部非常活跃,具备鲜明的活动规律:不仅在短期内取得突破
9、性进展,而且形成了一定的研究规模和影响力。这种规律突出表现在研究成果数量以较快的加速度增长,且有强的学术辐射力。因而,基于对“前沿领域”成果特征的分析,通过对大规模的论文数据分析,对论文的数量、内容及引用关系进行定量研究,来追踪某领域的产生、发展、分化、相互渗透的情况及其动向,从而判断、挖掘“前沿领域”。本研究拟用科学计量学、统计学方法并结合可视化技术的手段挖掘、展示反映科学研究的“前沿领域”。研究从对“科学前沿领域”活动规律、挖掘技术入手,在对 “科学前沿领域”的文献计量学方法进行系统、深入的研究后,总结出一套利用文献计量方法快速挖掘“科学前沿领域”的方法,并用这一方法进行实证研究。本研究用
10、具体的数据和图示让科学家和决策者对于“前沿领域”有一个量的判断,为管理者制订科学技术发展的路线、战略和政策,有效地进行科学技术事业的组织管理提供决策依据,为科学家提供视野更加宽阔的观察视角,具有很好的实际应用价值。1.3国内外研究现状近年来,随着科技文献信息量的猛增、科技信息资源和科学研究朝着数字化方向的发展、计算能力和计算速度的迅速增长、存储容量的不断提高、以及一系列新的挖掘、分析、检索、可视化等技术的成熟应用,给传统的文献计量学不断注入新鲜活力。在文献计量学研究中,对“科学前沿领域”进行挖掘,是因为其具有鲜明的成果产出特征,这是运用文献计量学方法对“科学前沿领域”的论文进行研究的重要理论依
11、据和基本出发点。科技论文中有许多能够表征科学发展和动态的重要信息,其中论文数量或论文的引文数量从无到有,从少到多呈持续快速增长的发展态势是观察和分析“前沿领域”的重要基点。目前,国内外有一些相关的方法研究和实践尝试:国外研究现状在从研究对象看,国外对“科学热点领域”、“科学增长领域”、“突现领域”的关注已经久有历史:从制定科技发展战略决策的需求出发,各国政府都会组织或委托有关部门预测或遴选“优先领域”、“重点领域”,而对科学发展动态的实时挖掘是确定“优先领域”、“重点领域”的重要基础,“科学前沿领域”与“科学热点领域”、“科学增长领域”、“突现领域”在内容上有一定程度的交叉,但不太相同,“前沿
12、领域”不仅关注领域发展现状,也可以反映领域的动态增长,因此,对“前沿领域”的研究和关注尤为重要。根据目前的文献调研,有关“前沿领域”挖掘及其方法研究主要在以下机构和个人层面展开:(1)Thomson 科技信息集团及其首席科学家Henry Small(2)美国海军研究所(ONR)Kostoff博士(3)荷兰Leiden大学科技研究中心(CWTS)(4)美国乔治亚理工学院公共政策研究所(SPP)(5)英国科技政策所(SPRU)(6)日本国家科技政策研究所(NISTEP)(7)兰德公司(Rand com.)(8)美国Drexel大学教授陈超美(9)美国Baker-Hughe公司Steve A Mor
13、ris博士所涉及的主要文献计量学方法有:共引聚类方法 美国情报学家Henry Small于1973年提出的,根据两篇论文同被引的强度作为测度论文间关系程度的一种方法。共引聚类最常见的作法是基于高被引论文的共引聚类,其理论依据是某一主题下的高被引论文隐含的表达了科学家研究所关注的焦点,通过对这一组论文内容联系强度的聚类分析,找到前沿的主题。Henry Small主要利用共引聚类的方法,以WEB OF SCIENCE 为数据基础,对“增长的领域”作了大量的实践研究。作为ISI的首席科学家,共引的方法被用于ESI数据库的Research Fronts中。共词聚类方法词的网状关系指论文的内容词(关键词
14、、主题词)间的联系,通过研究词间关系来分析所涉及的主题内容。最主要的研究集中于词的共同发生率(共词)方法,通过统计任意两个关键词同时出现在一篇论文的频率,用共词聚类的方法把样本关键词分成若干簇,来反映学科内部研究者频繁关注的重点主题领域。用做共词聚类的关键词或主题词一般是高频主题词,也有用低频主题词做的。基于高频主题词的共词,从理论讲比共引聚类的时效性要好。.基于低频主题词的共词理论依据是低频词有可能是潜在的趋势,但也有可能不会成为研究热点,因而用低频词共词聚类的理论依据似乎不足。Law,J与Bauin.S最早提出并利用共词分析来图示环境酸化领域的研究变化,此后,Callon,M等研究者又利用
15、共词的方法进行了一系列的实践研究。总的来讲,国外对这一领域的研究非常重视,但一整套对“科学前沿领域”进行挖掘的文献计量学方法研究的理论成果还没有形成。已有的研究成果,侧重于实践层面上较多,对方法的理论探讨较少;对已知的的研究重点领域进行回顾的较多,挖掘遴选潜在“前沿领域”的较少。国内研究现状与国外相比,国内研究者对“科学前沿领域”活动规律的实践活动基本上是处于起步探索阶段:中国医科大学的崔雷从2000年起开始用同引或共词的方法来挖掘医学领域的热点研究主题,并设计了国内第一个文献计量学共引分析系统,开创了国内用文献计量学方法研究科学活动规律的先河。柴省三等也有专门的文章对共引、共词进行了理论研究
16、。此外,还有一些研究者用时间预测,概率预测、灰色系统、模糊系统的方法来展望未来科学发展的状态。以往国内的研究中,研究者关注的焦点重在“研究领域”的归纳描述和方法自身的理论解释,这给了本研究很大的启示,因而希望在前者的研究基础上,对制定国家科技发展战略急需的“科学前沿领域”进行研究,通过实证分析,总结出一套挖掘“前沿领域”的文献计量学方法。1.4本文工作简介在学科演化的动态过程中,研究内容的结构一定存在着某种规律性,本研究旨在挖掘“科学前沿领域”的活动特征以及映射在论文产出中的规律,但这个规律能否用科学计量学方法捕捉到,很大程度上取决于前期的理论研究和分析。本研究从理论研究出发,通过研究论文数据
17、中反映出来的前沿领域变化特点与规律,研究出一套较为完善的观察遴选“科学前沿领域”文献计量学方法,能够实时动态的观察到世界科学发展变化的情况,为今后科研管理者制定符合中国科技发展的战略决策提供依据,为科研人员站在全景的高度了解本领域和相关领域的发展现状,更好地融入科学共同体中进行交流提供参考。2“科学前沿领域”活动规律的理论研究及时了解科研动态,把握学科方向对科研机构、企业和整个国家都非常重要。无论是科研人员还是科技管理者,都要善于敏锐地发现科研领域中的“新”事物。对于什么是科研领域中的“新”事物,有多种说法,如研究前沿(Research front)、新兴趋势(Emerging Trend)、
18、热点领域(Hot Topic)等。从广义上讲,“科学前沿领域”包含二部分内容,一是非常超前的、有可能在若干年后成为科学难题之解的非共识研究工作。二是引起世界科学家高度关注的、对未解的科学难题所做的种种探索并取得了重大突破。在任何时候,后者是科学前沿的主流,它囊括了世界科学前沿领域的绝大多数研究工作,本研究对科学前沿领域和重要发展方向的遴选锁定在前者。在科学研究的全生命周期中,“前沿领域”代表了科研发展方向,因此对其进行研究具有重要的意义。“科学前沿领域”在每个学科内部研究非常活跃,通过文献计量学的方法,对“前沿领域”在文献数量、内容及相互引用方面的变化关系进行定量分析,挖掘其活动规律,进而追踪
19、某一学科的产生、发展、分化、相互渗透的情况,是进一步考虑如何动态的挖掘到“科学前沿领域”的重要基础。科学技术的“研究前沿”代表的是某一个研究领域的思想现状,它是一个相对的概念。在科研活动中,前沿是根据研究对象当前在学科领域中所处的地位而确定的。研究对象在学科领域中所处的地位领先,可以被称作前沿。对研究前沿进行研究,有助于科研人员和科研管理人员和科研人员迅速了解某个领域的研究前沿和研究热点,及时进入国际新兴主流科研问题研究,抢占科技制高点。同时,对研究前沿的监测能为科学家及时提供高水平的国际合作伙伴,为政府机构对重大科研项目及时提供资助,或者为单位内部分配科研资源提供决策依据,从而推动科学技术或
20、社会经济的发展。2.1 “研究前沿”的概念及定义研究前沿的概念最早由普赖斯(D. J. de S. Price)提出。早在1965年,普赖斯观察到科学家似乎倾向于引用最新发表的文章,并将其称为即时因子(immediacy factor)。某个领域的研究前沿是由科学家积极引用的文章所体现的。普赖斯认为,“研究前沿是基于新近研究成果的,网络也变得越来越紧密”,他估计一篇文章之前有30-40 篇相关文章发表,由此构成研究前沿。普赖斯将200篇有关N-rays主题的文章按年代顺序进行排列,通过引文矩阵(列引用行)来预测学科的研究前沿,研究前沿的包容界限是一篇引文发表前的大约50篇文章。稍早发表的一些论
21、文会被一组新近发表的论文通过参考文献紧密联系起来,这些稍早发表的论文被看作是活跃的研究前沿。1973年,斯莫尔(Small)参考普赖斯的定义提出了共引聚类方法,来分析特定领域内基础性的、较早发表的核心论文,表征当前活跃的研究领域、研究领域结构。他认为共引文章聚类表征着当前活跃的研究领域。共引聚类的本质决定于选择的词集(Word profiles)。假设一个聚类中的文章Di被K 篇文章Di1,Di2,.,Dik引用,选出在Dij文章标题中最常出现的四个词形成文章Di的词集。集合一个聚类中所有词集,选出出现频次最高的N个词,就形成了N-词聚类库(N-word cluster-profile)。这种
22、词库的最大优势就是简单,然而,初始词集的选择因受到K篇引用文献的标题限制,可能不足以揭示潜在主题领域的动态变化。1994年,皮尔森(Persson)将研究前沿定义为与高同被引文献簇关联的施引文献群,即施引文献构成了研究前沿,而将被引的文献称作研究前沿的知识基础。2003年,莫里斯(Morris)等人将研究前沿定义为倾向于引用一组固定和时间不变基础文献的文献集, 由文献耦合数据聚类得到。SCI的创始人加菲尔德(Garfied)在1994年定义了更大的研究前沿范围,将同被引聚类的核心论文和引用这些核心论文的最新文献一起定义成研究前沿。2006年,陈超美(Chaomei Chen)把研究前沿定义为一
23、组突现的动态概念和潜在的研究问题,可以从引文网络中作为研究前沿的知识基础,即引用文献的路径轨迹与关键论文节点加以判别。如前所述,随着认识的发展,40多年来,不同的学者对研究前沿的概念内涵进行了不同的定义和诠释。综合起来,大致可以分成以下3类:大致有以下3种说法:1)将一组高被引文献定义为研究前沿,如Price、Small的定义;2)将一组施引文献定义为研究前沿,如Morris的观点;3) 将突发或热点主题定义为研究前沿,以陈超美为代表。2.2 研究前沿的挖掘技术由于目前关于研究前沿的现有定义大致有三类,因此,不同的定义分别对应着不同的研究方法。将高被引文献称作研究前沿的学者,大多利用同被引聚类
24、的方法来分析数据;将施引文献称作研究前沿的学者,大多利用文献耦合方法来分析数据;而将突发或热点主题称作研究前沿的学者,大多会利用词语分析的方法研究,包括词频分析、共词分析等。同被引技术所谓同被引(Co-Citation,又称共引),是指两篇以上论文共同被后来的一篇或多篇文献所引用,则称这两篇引文同被引,以引用它们的论文数量的多少为测度,这种测度称为同被引频次(Co-Citation Frequency)或同被引强度(Co-Citation Strength) 同被引强度越大。即同时引用这两篇论文的文献越多,说明它们之间的关系越密切。同被引这一概念,是1973年由美国情报学家斯莫尔 (H.G.S
25、mal1)和前苏联女情报学家N.马沙科娃(Marshakova)分别在研究文献的引证结构和文献聚类时不约而同提出来的,作为测度文献间关系程度的另一种方法。Small(1973)在对“粒子物理学专业”进行知识结构描述时,发现两篇论文被相同文献引用的强度可以用来测度其内容相似程度,在此基础上创造性地提出了同被引的概念(见图2-1)。图2-1文献共引图示(方框表示同被引论文)同被引概念不仅局限于同时被引用的两篇论文间的关系,而且还能延伸至被同时引用的作者、期刊、学科等之间在结构上的网络关系。White和Griffith(1981)发表了较有影响的作者同被引:智力结构的文献测量一文,文献通过对情报科学
26、39位知名作者的同被引分析,划分出情报科学五大体系的核心作者,为以后的同被引研究提供了良好的范例。作为同被引分析的奠基人,Smal1利用同被引分析进行了大量的实践研究。经过30多年的演进,以Smal1为代表的研究者从引文数据的选择、共引矩阵的标准化处理,到不同层次、等级聚类方法的改进、可视化方法的引入,对共引分析理论与技术进行了大量研究,研究内容涉及物理学、生物医学、行为科学、信息科学等多个领域,分析了科学领域内重要概念之间关系,并模拟学科知识结构,使得共引分析理论研究与技术日臻完善, , , 。近几年,利用共引聚类来挖掘科学“热点领域、前沿领域、增长领域”正成为研究的焦点,Smal1最近的研
27、究中探讨了追踪与预测“增长的领域”,用共引聚类的方法逐级展示了在碳纳米管、纳米科学、材料科学研究中被研究者关注的领域以及在不同的聚类水平下碳纳米管研究的地位。此外,美国科技信息研究所(Institute for scientific Information,ISI)利用共引方法在“科学前沿”挖掘中作了大量的工作,并运用到数据库实践中。在ISI的基本科学指标库(Essential Science Indicators,ESI)中对高被引论文进行同被引聚类处理,将内容联系密切的高被引论文收敛为若干簇,对每簇内部的论文进行半自动处理,得到了“前沿领域”(Research fronts)。文献耦合计量
28、学中“文献耦合(Bibliographic Coupling)”(1963)最先提出来的,他在对物理评论(Physical Review)期刊进行引文分析研究时发现,越是学科、专业内容相近的论文,它们参考文献中的相同文献的数量就越多。于是他把两篇同时引用一篇论文的论文称之耦合论文(Coupled papers),并把它们之间的这种关系称为文献耦合(见图2-2)相同参考文献的数量即为耦合强度。引文耦合关系也可以推广到多篇论文的情形。显然,耦合强度越高,两篇文献(或多篇文献)的关系越密切。如果多篇文献间具有耦合关系,则构成一个耦合网络。耦合强度为网络的权值,两篇论文共有的引用文数目为这两篇论文的耦
29、合强度。图2-2 文献耦合图示(方框表示耦合论文)Weinberg曾在1974年对文献耦合作过较为全面的综述。此后,许多学者对文献耦合的分析方法又进行了发展。Persson利用文献耦合分析基于同被引分析识别出的知识基础来确定研究前沿。他首先对数据集内的文献建立施引-被引矩阵,矩阵的列是施引文献,行是被引文献,耦合分析重点考察矩阵的列,并采用单链接聚类进行聚类分析。由于被引频次和数量会受到引用频次以及引用数量的影响,有些学者还对文献耦合及同被引数量加以标准化以获得更优化的分析结果。后来,Morris等人采用创新性的时间线方法来分析和展现研究前沿。他们在文献耦合聚类的基础上引入时间轴,可以在图形上
30、展现研究前沿出现和消失的时间、潜在的新兴研究前沿及其基础文档、卓越的专家和研究中心、领域内研究前沿的层级结构、研究前沿间的信息流动等信息,可供领域专家进行技术预测。时间线方法分析研究前沿的主要步骤为:1) 结合分析目标构建数据集,设定阈值筛选文献之后建立施引-被引矩阵,得到数据集文献的耦合频次;2) 使用凝聚型层次聚类法对文献单元样本进行聚类分析,即将每篇文献看作一个类,两两计算其距离之后,采用自底向上的方法迭代地将距离最近的两个类合并,直到产生预定的聚类数量;3) 通过聚类,生成一个树状图,x轴是文献出版日期,y轴是沿水平轨迹排列的树状图的“叶”,即文献簇,通过分析可以得到研究前沿的结构和时
31、间演化。4) 通过对文献簇内论文标题的分析,确定研究前沿的名称,然后由领域专家进行较准确的描述。文献耦合是由论文作者有意识地引用而产生的链接,度量的是由被引文献链接起来的施引文献之间的关联。从时间上看,文献耦合是固定不变的,而且耦合数据在论文发表后就可以立即获得。一些研究者认为,文献耦合分析能够比同被引分析更好地描绘研究前沿。词频分析所谓词频是指某一个单词在文章或讲话中出现的次数。在文献中,不同词汇的使用和出现频次是非常不同的,但并非是任意的和随机的,而是受人类行为支配,具有一定统计规律性,通常称其为“词频分布规律”。词频分析是文献计量学方法中最基本的方法之一,其理论基础是词频的波动与社会、情
32、报现象之间存在内在联系,从而透过词频现象看内容本质的科学方法。词频分析方法依靠统计语言学基础,研究词(字)在科学文献中出现的频率分布,据此建立频率词典。19世纪人们就开始应该这种特殊的计量技术,德国语言学家凯定(F.W.Kaeding)编写了世界上第一部频率词典德语频率词典,样本容量为110万个词的文句。此后,这种独特的科学计量方法开始为人们所认识和重视,先后大约有300余部类似的词频词典问世。科学计量研究的目的是,按照学科领域建立词频词典,从而对科学家的创造活动作出定量分析比较。例如,有人对爱因斯坦和普朗克一生论文标题做过词频分析,结果发现爱因斯坦共用过1207个词,而普朗克只用777个词,
33、据此推知爱因斯坦的科学兴趣和涉猎领域要比普朗克广泛得多。词频分析方法是利用能够揭示或表达文献核心内容的关键词或主题词在某一研究领域文献中出现的频次高低来确定该领域研究热点和发展动向的文献计量方法。词频分析方法在情报学领域应用广泛,最基础的当属利用齐普夫词频分布定律揭示语言统计规律、书目信息特征、组织检索文档和图书情报管理等。在文献数据库中,作者和数据库标引员采用关键词来标识文章中的主要研究内容,如果关于某一问题的研究多,则相应的关键词出现次数也多。因此选出高频关键词作为研究的热点主题,并进行深一步研究。高频词阈值的确定主要有两种方法:1) 结合研究者的经验在选词个数和词频高度上平衡,该方法具有
34、一定的主观性;2) 另一种是结合齐普夫第二定律辅助判断高低频词的界限。通过揭示高频词在各年中的分布变化,可揭示学科的发展热点和脉络,包括:统计各年收录的高频词的差异;统计各个高频词在各年中的频次变化和频次排序变化;与内容分析相结合,分析高频词所承载的科技内容;将这些关键词进行相应的分类与组织,揭示领域研究的热点主题。加拿大蒙特利尔大学的Robert Dalp教授(1997年)曾完成了一份关于世界纳米科技研究状况的计量分析报告,报告以加拿大国家研究理事会( The National Research Council of Canada ,NRC)确定的79 个纳米科技关键词为依据,采用词频分析的
35、方法,不仅分析了全球范围内纳米科技论文的产出,而且分析了世界各国纳米技术专利的分布。梁立明和谢彩霞(2003年)基于中国期刊网题录数据库和中国专利信息数据库,采用关键词词频分析方法,勾勒出我国纳米科技的研究领域,分析了近几年我国纳米科技成果的研究热点和研究弱项。此外,梁立明和李小宁还用词频分析法对国际著名科技创新与科技政策研究机构的工作进行扫描,定位世界范围内该领域的前沿,捕捉研究热点。此后的研究基本上遵循了基于词频分析遴选高频词,作为研究热点的表征,并以统计图表的形式展示研究热点的模式,如纪蔚蔚基于词频分析我国2004年科学学的主要研究热点;张雁等通过词频分析认为:企业、技术、创新、管理、科
36、技、发展、知识、战略、评价、产业、科学等领域是2005年我国科学学的主要研究热点等。在研究前沿热点的应用方面,采用词频统计方法确定研究前沿有操作相对简单,揭示科技发展的方式比较直接的优点。但是,因为词频阈值的确定比较主观,而不同的研究者有不同的标准,可能导致研究结果不一致。由于词频阈值通常是固定的,而词的出现频次具有波动性,因此某些研究从长期来看是属于热点,但是可能在某一年的波动略在词频阈值下方,有可能被忽略掉,导致分析的误差。此外,高频词在形成研究主题的过程中,需要较多的人工干预,需要专家根据自己的知识背景将高频词分成特定的研究主题。2.2.4共词分析共词分析(Co-word、Co-term
37、)的原理是对一组词两两统计它们在同一篇文献中所出现的次数,以此为基础对这些词进行聚类分析,从而反映出这些词之间的亲疏关系,进而分析这些词所代表的学科和主题的结构变化。共词分析的思路最初是在20世纪70年代法国文献计量学家提出的,1986年,法国科研中心 (Centre National de la Recherche Scientifique,CNRS)的M。Callon、J.Law和A.Rip出版了Mapping the Dynamics of Science and Technology,当时被称做“LEXIMAPPE”,。由于在结果分析方面关键词具有得天独厚的直接性,很快引起研究者的高度
38、关注。法国和荷兰是共词研究的主要聚集地,Callon、Law、Courtial、Bauin、Leydesdorff、Raan的研究代表了共词分析的主流, ,。图2-3共词分析图示(方框表示共词论文)论文的关键词、主题词是科学研究内容的提示符和凝炼,共词(Co-word)分析(见图2-3)通过统计词汇(通常是关键词)之间的关系与结合来概述研究领域的微观知识结构,从横向和纵向的角度分析领域学科的发展过程、特点以及领域或学科之间的关系,反映研究领域的科研水平及动态和静态结构,拓展信息检索领域以求帮助用户检索信息。早期的共词聚类理论探讨集中在关键词间相关程度的测试,如包容指数(Inclusion in
39、dex)和临近指数(Proximity index)等指标,前一个指标重在测度领域内最重要的研究主题,后一指标重在测度那些规模较小、容易淹没的研究主题之间的关系。这些共词分析主要涉及关键词之间关系的分析,The UK Advisory Board for the Research Councils (ABRC)应用这些指标作了大量研究,Callon将这些共词研究称第一代的共词研究,1988年Callon提出了对聚类结果进一步描述和分析的“战略坐标”,用密度(Density)和向心度(Centrality)来测度聚类簇与簇之间、簇内部联系程度的强弱,分别计算出各簇(研究主题)密度和向心度,把所有
40、的主题展现在以密度和向心度为X、Y轴战略坐标图中。位于不同象限的研究主题处在不同的发展阶段,其中第二、三象限词簇有可能向“前沿领域”发展。战略坐标将第一代共词分析中对词间关系的考察延伸到研究词簇间关联关系,研究的学者主要集中在法国,Callon称之为第二代共词分析。无论是第一代还是第二代共词分析,绝大多数是基于索引词或主题词的。美国海军研究办公室的Kosstoff博士将基于关键词或主题词的共词分析进一步扩大到基于全文本自动抽取词汇的共词分析数据库内容结构分析技术(Database Tomography,简称DT),这项技术开始是作为检索扩展技术应用,随后Kosstoff将其作为共词分析扩展来发
41、掘词间天然关系,用来发现具有核心竞争力的关键技术。共词分析对于词的选择非常敏感,作者取词的习惯、未经规范的关键词、关键词在表征论文内容的完整性及其它原因都会造成结论的模糊、晦涩。此外,还有一些研究对共词分析结论的可解释性提出置疑,认为存在随意性较大、不确定性的缺陷,因而这一研究远未达到至臻至美,仍需不断地完善和改进,。综上所述,各种“研究前沿”的处理技术都具有自身的特点,而且受数据源和分析原理的影响,可能会或多或少地存在着一些固有的缺陷。词频分析简单易行,但只是从论文关键词计量分析的角度考察学科发展动向,对研究前沿更深入的分析探讨还要靠内行专家;文献耦合在时间维度上是静态的,是作者有目的地链接
42、两篇文献,是基于有意识的行为;而同被引则是不断变化的,是事后建立的关联。不过,对于识别科学研究前沿的应用来说,引文分析始终是一种间接的途径,将引文分析和共词分析相结合已经获得更普遍的认可。美国海军研究所的Kostoff博士在结合运用引文分析和共词分析等文献计量方法来发现潜在研究创新方面作出了重要的贡献。他采用文献相关的发现(Literature-related discovery ,LRD)方法链接两篇或多篇文献中原本尚未联系起来的概念,从而获得全新的、有趣的、可信的和可理解的知识以及潜在的研究前沿。他将LRD 方法分成两个部分:基于文献的发现(LBD)和文献辅助的发现(LAD),并进一步将其
43、各自分成开放式发现系统(从问题出发直到发现解决方案)和闭合式发现系统(从问题和解决方案出发来确定之间的链接机制)。其中,基于开放式发现系统的LRD方法的主要步骤是:1) 目标问题转化成检索式来检索核心文献;2) 通过书目信息获得核心文献的技术框架(利用引文分析等计量方法获得核心作者、研究中心) 和技术结构(利用DT识别出广义主题及主题间的关系),在此基础上识别并扩展检索出与每一个主要的重点领域相关的直接或非直接关联的文献;3) 分析并限定解决方案的类别,分析扩展检索得到的所有记录,从中发现那些可能包含潜在发现的文献并作进一步分析。Kostoff使用LRD方法在帕金森病、多发性硬化等多个领域进行
44、了研究,并获得了有益的研究成果。2.3 小结本章首先从理论研究入手,分析了当前“科学前沿领域”主要内容和相关技术。由于目前关于研究前沿的现有定义大致有三类,因此,不同的定义分别对应着不同的研究方法。将高被引文献称作研究前沿的学者,大多利用同被引聚类的方法来分析数据;将施引文献称作研究前沿的学者,大多利用文献耦合方法来分析数据;而将突发或热点主题称作研究前沿的学者,大多会利用词语分析的方法研究,包括词频分析、共词分析等。3 “科学前沿领域”的文献计量学方法研究如前所述,国外对“科学前沿领域”的研究非常重视,但一整套对“科学前沿领域”进行挖掘的文献计量学方法研究的理论成果还没有形成。已有的研究成果
45、,侧重于实践层面上较多,对方法的理论探讨较少;对已知的的研究重点领域进行回顾的较多,挖掘遴选潜在“前沿领域”的较少。本章在对已有研究进行深入分析的基础上,着重在方法层面上进行理论探讨。3.1基于传统文献计量的“科学前沿领域”遴选方法由于现代社会科学技术的高速发展,信息文献数量猛烈增长,造成所谓的“信息爆炸”。从70年代开始,文献计量研究在英国悄然兴起,80年代后得到进一步发展,在全球兴起一股计量研究热,形成一门新的计量学科文献计量学。美国情报学家怀特(White)在80年代就指出,文献计量学已居于情报学的中心位置,构成情报科学中生气勃勃的一半内容。目前,文献计量学已公认为图书情报领域内最活跃的
46、一个分支学科,成为情报科学的研究主流,科学计量研究的重要组成部分,体现了当代学科管理定量化的趋势。文献计量已经与整个科技活动,科研发展的评价研究融合在一起,伴随着文本挖掘和数据挖掘技术的不断发展,结合可视化技术,基于文献计量的科技资源监测已然成为科学学中定量化分析研究的有力工具和重要组成部分,也成为“科学前沿领域”中具有鲜明特色的一部分内容和处理数据、信息的基本手段和方法。科学计量学的方法通过对学科成长与其文献数量、内容及相互引用方面的变化关系进行定量分析、定量评价和预测,可以追踪某一学科的产生、发展、分化、相互渗透的情况及其动向,可以观测学科的内部结构变更情况等一系列潜在的动态趋势,从而帮助
47、科技人员了解目前科技发展的情况,使他们能够把握科技发展的趋势。科学计量学的引文和词频分析方法是其中应用最多的方法,具体方法类型见图3-1。 科学计量学方法:(科学前沿分析)引文分析法词频分析法引用频率分析(作者,论文等等)引文网状关系分析(作者、论文共引聚类)词的发生频率词的网状关系分析(共词聚类分析) 图3-1 科学计量学方法类型3.1.1 引文分析方法引文分析法是利用各种数学及统计学的方法进行比较、归纳、抽象、概括等的逻辑方法,对科学期刊、论文、著者等分析对象的引用和被引用现象进行分析,以揭示其数量特征和内在规律的一种信息计量研究方法。从不同的角度和标准来划分,引文分析方法有着不同的类型。
48、如果从获取引文数据的方式来看,有直接法和间接法之分。前者是直接从来源期刊中统计原始论文所附的被引文献,从而取得数据并进行引文分析的方法;后者则是通过“科学引文索引”(SCI)、“期刊引用报告”(JCR)等引文分析工具,查得引文数据再进行分析的一种方法。若从文献引证的相关程度来看,则有自引分析、双引分析、三引分析等类型。如果从分析的出发点和内容来看,引文分析大致有三种基本类型:1.引文数量分析:主要用于评价期刊和论文;研究文献情报流的规律等。2.引文网状分析:主要用于揭示科学结构、学科相关程度和进行文献检索等。3.引文链状分析:科技论文间存在着一种“引文链”,如文献A被文献B引,B被文献C引,C
49、又被文献D引,等等。对这种引文的链状结构进行研究可以揭示科学的发展过程并展望未来的前景。引文法用于科学前沿分析的理论依据是论文之间的引用关系可以很好的反映文章间的内容相关程度,通过对论文被引用频率的统计分析科学研究的热点领域。3.1.2 词频分析方法词频分析是文献计量学方法中最基本的方法之一,其理论基础是词频的波动与社会、情报现象之间存在内在联系,从而透过词频现象看内容本质的科学方法。这一方法在.3已有详细介绍,在此不再详述,词频法的理论依据是文献中作者或编者给出的关键词能基本真实的反映出文献的内容,通过对整个文献集中关键词出现的频率进行分析,提取重要的关键词作为遴选学科热点的依据。引文分析法
50、和词频分析法的比较.1引文法与词频法一般认为,引文分析方法和词频分析方法在科学前沿分析中的差异有两点,(1)引文法在及时性方面要滞后于词频法,因为科技论文发表和其高被引之间有一定的时差。(2)引文法以整篇论文为基本研究单位,词频法以关键词(主题词)为单位,两者在表达论文内容上存在着区别,引用关系是通过论文间的外部联系来表达内容上的关联,引文之间的联系是否能够准确的反映文献内容的联系,一直存在着争议。赞同者认为论文之间的引证关系是论文间内容的天然的联系(small),而作者和编者给出的关键词能否全面准确的反映论文的内容还很难说;反对者则认为论文的引证动机的复杂会影响引文分析的结果,而关键词直接表
51、达了论文的内容。.2词频与词的网状关系方法单纯利用词频(主题词,关键词等)分析学科热点是不够的,词频分析形成得是一种线性的关系,不能完整的反映某一学科的研究现状,损失了很多信息。原因:(1)单个的词频率高和词的含义有关,如泛指的词(信息管理)(2)每一个具体的研究领域是由多个词来共同表达的,而简单的词频排序不能反映词间联系,因而单个的词无法精确代表某一具体研究领域,即不能表达完整的概念。词的网状关系指论文的内容词(关键词、主题词)间的联系,最主要的研究集中于词的共同发生率(共词)方法,通过统计任意两个关键词同时出现在一篇论文的频率,用共词聚类的方法把样本关键词分成若干簇,来反映学科内部研究者频
52、繁关注的重点主题领域。用做共词聚类的关键词或主题词一般是高频主题词,也有用低频主题词做的。基于高频主题词的共词,从理论讲比共引聚类的时效性要好。.基于低频主题词的共词理论依据是低频词有可能是潜在的趋势,但也有可能不会成为研究热点,因而用低频词共词聚类的理论依据似乎不足。.3共词聚类与共引聚类方法如前文所述,共引(同引)的概念是美国情报学家斯莫尔(henry small)于1873年提出的,根据两篇论文同被引的强度作为测度论文间关系程度的一种方法。共引聚类最常见的作法是基于高被引论文的共引聚类,其理论依据是某一主题下的高被引论文隐含的表达了科学家研究所关注的焦点,通过对这一组论文内容联系强度的聚
53、类分析,找到前沿的主题。在前面已提到的共词和共引聚类中,首先要构造一个共引或共词矩阵,然后根据这个相似矩阵进行聚类。聚类的结果用于学科前沿分析的依据是当某一学科(主题)大量的内容词或论文共同集中在某一类中,表明科学家关注的热点聚焦与此。在对共引和共词矩阵转换后的相关矩阵(在聚类分析的实际过程中,往往并不直接用共引和共词矩阵聚类,而是进行一定的转换,以消除文献引用特性不同造成的数据相差过大的影响,得到更有易于解释的聚类结果。Small曾把共引矩阵利用Jaccard系数(关联系数的一种)、自定义的距离系数、余弦系数等相似系数转换成相关矩阵。而其它的研究者一般都是把共引或共词矩阵转换成Pearson
54、相关矩阵)。从上面的分析可能看出,共词和共引是分析科学发展热点比较有效的方法,如果要单独的比较两种分析方法的效率究竟孰优孰劣,这方面的研究还未见有人作过。但从理论上讲,笔者认为在大规模的数据背景下,分析结果应该是近似的。原因是(1)科学研究的热点或前沿是由一系列内容密切相关的课题或概念组成,这些热点是众多科学家注意和跟踪的对象。(2)从事某一领域的专家和学者,无论其学科背景如何,在描述其研究的主题内容时使用的词也是基本一致的。(3)从事同一主题研究的科学家,引用的核心参考文献集中在一个较少的范围内,因此同一主题研究领域的不同论文,内容词和参考文献有很大的相似性。(4)科学论文既是内容词的携带者
55、,本身也可以是参考文献。 当然这只是理论上的推测而已,在真实环境下的比较还有待于进一步的案例分析。随着计算机技术的发展,共引和共词方法逐渐与可视化技术结合,研究者纷纷用可视化的形式展示其研究结果。共引可视化以文献、著者、期刊和学科为分析对象,侧重于从微观入手,重点在于对文献、著者、期刊等具体的内容进行分析和可视化。但是,共引可视化,除了存在引文分析所固有的缺陷外,自身还存在一些问题,主要有以下几方面:1)数据搜集过程烦琐且费时,搜集好的数据还需要转化成统计工具或可视化工具所需要的形式,还没有专门的软件工具能够将此过程程序化。2)相似性的计算问题。相似性计算方法众多,每种方法都适于何种情况,哪种
56、方法测度更准确,这些还都有待商榷。3)共引分析的数据源一般都来自ISI,但ISI中只对参考文献中的第一作者进行标注,为了方便起见,传统的ACA都是针对第一作者进行的共引分析研究,但随着合著文献的日益增多,这种第一作者的共引分析无疑会使分析结果在一定程度上失真。4)用共引分析进行科学前沿和热点分析,由于分析时对高被引的论文进行聚类,而一些新出现的研究领域,因为太新可能在分析时还未被高被引,因此,分析结果可能会漏掉一些研究前沿领域。共词可视化以词为分析对象,侧重于从宏观入手,通过分析大量的词及其所隐藏的关系,从宏观的层面来对一个知识领域或者学科的发展概况进行分析和预测。共词分析方法属于内容分析方法
57、的一种,其原理主要是对一组词两两统计它们在同一篇文献中出现的次数,对这些词进行聚类分析,进而分析这些词所代表的学科和主题的结构变化,由此可以形成对该领域学科结构以及与相关领域的联系的描述,并比较不同时期的学科结构描述获得关于学科发展、交叉、渗透和兴衰的趋势的知识。通过时间序列的引入,共词分析可以描绘学科领域的知识演变结构。但是,共词分析基于单个概念作为分析对象,脱离了词汇所在的上下文关系,无法准确表示词汇的语义关系,在科学前沿热点凝聚的效果上还有待于进一步改进。此外,共词可视化进入映射科学领域还是近几年的事情,但是由于其相对简单的原理、较广的适用范围,使其发展比较迅猛,但是仍然不成熟。3.2基于现代统计学方法的“科学前沿领域”遴选3.2.1统计学方法与科学计量学方法的关系统计学的基本原理就是力图通过对各种事件的分类与计数,并以数字、图表和曲线的形式,来描述事物的现象。
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 公共场所从业人员卫生知识培训考核试题(附答案)
- 绿色汽车未来驱动
- 艺术理论研究生入学考试2025年试题及答案
- 2025年新会计考试题库及答案
- 2025年高校辅导员考试题库及答案
- 2025年初级会计职称考试模拟测试题(含答案)
- 2025年保安员考试及答案解析
- (2025年)公卫执业医师考试全真试题及答案
- 解析卷人教版八年级物理上册第5章透镜及其应用章节测试试题(含解析)
- 难点解析-人教版八年级物理上册第6章质量与密度-密度综合测试试题(含详解)
- 2025新闻记者资格证及新闻写作相关知识考试题库附含参考答案
- 数据安全dsg题库及答案解析
- 成都抖音培训课件下载
- 毕业论文园艺系范文
- 群众积分制管理办法
- ECMO护理进修汇报
- MSA-GRR数据自动生成工具
- 血透患者内瘘感染护理查房
- ICU患者的心理护理
- 艾滋病、梅毒、乙肝暴露儿童干预、随访及转介流程
- 江西三校单招试题及答案
评论
0/150
提交评论