(科学技术哲学专业论文)中国在国际数据挖掘研究领域的显示度及华人高产现象.pdf_第1页
(科学技术哲学专业论文)中国在国际数据挖掘研究领域的显示度及华人高产现象.pdf_第2页
(科学技术哲学专业论文)中国在国际数据挖掘研究领域的显示度及华人高产现象.pdf_第3页
(科学技术哲学专业论文)中国在国际数据挖掘研究领域的显示度及华人高产现象.pdf_第4页
(科学技术哲学专业论文)中国在国际数据挖掘研究领域的显示度及华人高产现象.pdf_第5页
已阅读5页,还剩35页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 当今的科技发展已越来越呈现出这样一个特点:传统学科之间相互渗透整合而形成 新的研究领域或学科。在过去的二十几年里,称为数据挖掘( d a t am i n i n g , d m ) 的新研究 领域得到了快速发展。这是一种由统计学、模式识别、人工智能、机器学习、数据库以 及高性能并行计算等学科相互交叉而形成的新研究领域。数据挖掘已在经济、商业、金 融、天文等行业得到了成功的应用,在国际上也掀起了一股空前的研究热潮。 本文利用科学计量学方法对国际与中国数据挖掘研究领域的论文和引文进行分析 研究,揭示国际与中国在数据挖掘研究领域发展的概貌和特点,以及论文产出绩效和学 术影响力。使我们对中国在国际数据挖掘研究领域的显示度及华人高产现象有了一个较 为深入和全面的认识。 本论文的数据来源于美国i s i 公司的w e bo fs c i e n c e ( w o s ) 数据平台。i s i ( i n s t i t u t e f o rs c i e n t i f i ci n f o r m a t i o n ) 译名为科学情报研究所,由美国人e g a r f i e l d 创立。w o s 数 据平台是当今世界上最权威、最受科学家信赖和支持的数据平台之一。本论文选用w o s 数据平台中的三个数据库进行共同检索。这三个数据库分别是:s c i e n c ec i t a t i o ni n d e x e x p a n d e d ( 简称s c i - e ) 、s o c i a ls c i e n c e sc i t a t i o ni n d e x ( 简称s s c r ) 和a r t s h u m a n i t i e s c i t a t i o ni n d e x ( 简称a & h c i ) 。 研究结果主要包括以下几个方面: 第一,中国数据挖掘研究领域的发文量在国际上排名第二,充分显示了中国在国际 数据挖掘研究领域的学术研究水平。但是中国与发文量排名第一的美国差距较大。中国 对数据挖掘领域的研究始于1 9 9 5 年,呈现逐年递增的趋势。在2 0 0 2 年以后中国的论文 增长态势明显强于国际的增长态势。 第二,在国际数据挖掘研究领域发文量居前2 0 位的机构中,有7 家中国( 包括香 港、台湾) 机构,排名第二。显示了中国的高校和科研院所在国际数据挖掘研究领域的 学术地位。但是中国数据挖掘研究领域发文量居前2 0 位的机构中没有公司,对比国际 数据挖掘研究领域的情况,这是不同之处。 第三,中国数据挖掘研究领域论文被同行或其他领域科学家所引用的状况,远远落 后国际数据挖掘研究领域的总体水平。中国数据挖掘研究领域要得到国际同行或其他领 域科学家的认同还需要一定的时间,还需要做非常艰苦的努力。 第四,总体看来,发表引用中国数据挖掘研究领域论文的文献数量居前1 0 位的刊 物的影响因子远小于国际水平。这说明中国数据挖掘研究领域论文的国际认同度有待提 高。从中国数据挖掘研究领域引文发文量居前2 0 位的机构所属的国家( 地区) 看,有 1 3 家属于中国( 包括香港、台湾) 。这说明中国数据挖掘研究领域的成果得到了中国国 内同行的认同,而没有广泛的得到国际同行的认同。 第五,国际数据挖掘研究领域前2 1 位高产著者中有华人著者1 0 人,其中有4 位中 国( 包括香港、台湾) 著者。华人著者在国际数据挖掘研究领域有着突出的科研能力、 学术影响和学术地位。 对中国在国际数据挖掘研究领域的显示度及华人高产现象分析,可为我国关于数据 挖掘研究领域科技政策的研究与制定提供借鉴。 关键词:数据挖掘,科学计量学,显示度,引文分析,华人高产 a b s l 7 r a c t n o w a d a y s ,t h ed e v e l o p m e n to fs c i e n c ea n dt e c h n o l o g yi n c r e a s i n g l ys h o w si t s e l fs u c haf e a t u r e : t h em u t u a lp e n e t r a t i o na n di n t e g r a t i o no ft r a d i t i o n a ld i s c i p l i n e st a k ep l a c ea n df o r mn e wf i e l d so fr e s e a r c h i nt h ep a s t2 0y e a r s ,t h en e wf i e l do fd a t am i n i n gp 的,w h i c hi sa ni n t e r d i s c i p l i n a r yw i t hs t a t i s t i c s ,p a t t e r n r e c o g n i t i o n ,a r t i f i c i a li n t e l l i g e n c e ,m a c h i n el e a r n i n g ,d a t a b a s et e c h n o l o g ya n dh i g h - p e r f o r m a n c ep a r a l l e l c o m p u t i n gd i s c i p l i n e s ,h a sb e e nd e v e l o p e dr a p i d l y ,a n di th a s b e e ns u c c e s s f u l l ya p p l i e dt ot h em a n y f i e l d s l i k ee c o n o m y ,b u s i n e s s ,f i n a n c e ,a s t r o n o m ya n ds oo n i ta l s ob e c o m e saf o c u so fr e s e a r c hi n t h e i n t e r n a t i o n a lc o m m u n i t y i nt h i sp a p e r , w ei n v e s t i g a t e dt h el e c t u r e sa n dc i t a t i o n so ft h ei n t e r n a t i o n a la n dc h i n e s ed a t a m i n i n gr e s e a r c ht or e v e a lt h e i rd e v e l o p m e n tp r o f i l e ,c h a r a c t e r i s t i c s ,o u t p u tp e r f o r m a n c e a n da c a d e m i c i m p a c tb ys c i e n t o m e t r i c s t h i sr e s e a r c he n a b l e du s t oh a v eac o m p r e h e n s i v ec o g n i t i o no nc h i n a sv i s i b i l i t y a n dt h ep r o d u c t i v i t yo fc h i n e s er e s e a r c h e r si nt h ei n t e r n a t i o n a ld a t am i n i n gf i e l d w e bo fs c i e n c eo v o s ) d a t ap l a t f o r md i s i g n e db yi n s t i t u t ef o rs c i e n t i f i ci n f o r m a t i o n ( i s i ) , w h i c hi sc r e a t e db yt h ea m e r i c a n se g a r f i e l d ,i st h ed a t as o u r c ei nt h i sp a p e r w o sd a t ap l a t f o r mi so n e o ft h em o s ta u t h o r i t a t i v ed a t ap l a t f o r mi nt h ew o r l d ,a n ds u p p o r t e db yt h em o s ts c i e n t i s t s i no u rw o r k ,w e s e l e c t e dt h r e ed a t a b a s e si nw o sd a t ap l a t f o r m ,w h i c ha r es c i e n c ec i t a t i o ni n d e xe x p a n d e d ( s c i e ) , s o c i a ls c i e n c e sc i t a t i o ni n d e x ( s s o ) a n dt h ea r t s & h u m a n i t i e s c i t a t i o ni n d e x ( a & h c i ) t h ef o l l o w i n gr e s u l t sa r ed r a w nf r o mt h ea n a l y s i s : f i r s t ,c h i n a sn u m b e ro fp u b l i c a t i o n si nt h ef i e l d0 fd a t am i n i n gr a n k e ds e c o n di nt h ew o r l d , w h i c hf u l l yd e m o n s t r a t e dc h i n a sa c a d e m i cr e s e a r c hl e v e li nt h ei n t e r n a t i o n a ld a t am i n i n gr e s e a r c ha r e a s b u tt h ew i d e n i n gg a ps t i l le x i s tb e t w e e nc h i n aa n dt h eu n i t e ds t a t e sw h i c hh a st h el a r g e s tn u m b e ro f p u b l i c a t i o n si nt h ew o r l d c h i n a sr e s e a r c hi nt h ef i e l do f d a t am i n i n gb e g a ni n1 9 9 5a n ds h o w e dt h e i n c r e a s i n gt 1 c n dy e a rb yy e a r t h el i t e r a t u r e so fc h i n ag r o wm o r es 仃o n g e rt h a nt h a to ft h ew o r l da f t e r2 0 0 2 s e c o n d ,i nt h et o p2 0a g e n c i e so fn u m b e ro fp u b l i c a t i o n si nt h ei n t e r n a t i o n a ld a t am i n i n g r e s e a r c hf i e l d ,t h e r ea l e7c h i n e s ea g e n c i e s ( i n c l u d i n gh o n gk o n g ,t a i w a n ) ,r a n k e ds e c o n d t h i s p h e n o m e n o ns h o w e dt h ea c a d e m i cs t a t u so fc h i n a ss c i e n t i f i cr e s e a r c hi n s t i t u t e si nt h ef i e l do fd a t am i n i n g h o w e v e r , c o m p a r e dw i t ho t h e rc o u n t r i e si nt h ew o r l d ,t h ed i f f e r e n c ei st h a ta m o n gc h i n a st o p2 0d a t a m i n i n gr e s e a r c ha g e n c i e s ,t h e r e sn oc o m p a n yw o r k e di nt h i sf i e l d t h i r d ,c h i n a sd a t am i n i n gr e s e a r c hl i t e r a t u r e sa r el e s sc r e db yb o t hc o t e r i eo rt h es c i e n t i s t si n o t h e ra r e a s ,w h i c hi sl a g g i n gf a rb e h i n dt h eg e n e r a ll e v e lo ft h ei n t e r n a t i o n a lr e s e a r c hi nt h i sf i e l d i ts t i l l n e e d sac e r t a i na m o u n to ft i m ea n dv e r yh a r dw o r kt ob ed o n et om a k ec h i n a sd a t am i n i n gr e s e a r c h i d e n t i f i e db yt h ei n t e r n a t i o n a lp e e ro rt h es c i e n t i s t si no t h e ra r e a s f o u r t h ,o nt h ew h o l e ,i m p a c tf a c t o r o ft h et o p1 0j o u r n a lp u b l i s h i n gl i t e r a t u r e sw h i c hc i t e d c h i n a sd a t am i n i n gr e s e a r c hl i t e r a t u r e si sm u c hs m a l l e rt h a nt h a to ft h ei n t e r n a t i o n a ll e v e l t h i ss h o w st h a t t h ei n t e m a f i o n a lr e c o g n i t i o no fc h i n e s ed a t am i n i n gr e s e a r c hp a p e r sn e e d st ob er a i s e d t h ec o u n t r i e s ( a r e a s ) o ft h et o p2 0o ft h ea g e n c i e sw h i c hc i t e dc h i n a sd a t am i n i n gr e s e a r c hl i t e r a t u r e s ,t h e r ea r e 1 3 b e l o n g i n gt oc h i n a ( i n c l u d i n gh o n gk o n g ,t a l w a n ) t h i ss h o w st h a tc h i n a sr e s e a r c hi nt h ef i e l do fd a t a m i n i n ga r er e c o g n i z e db yc h i n a sd o m e s t i cp e e r , b u tn o tw i d e l yr e c o g n i z e db yt h ei n t e r n a t i o n a l c o u n t e r p a r t s f i f t h ,i nt h et o p2 1p r o d u c t i v i t ya u t h o r s ,1 0a u t h o r sa r ec h i n e s e ,a n d4o ft h e mc o m ef r o mc h i n a ( i n c l u d i n gh o n gk o n g ,t a i w a n ) c h i n e s ea u t h o r si nt h ef i e l do fd a t am i n i n gh a v et h ep r o m i n e n ts c i e n t i f i c r e s e a r c ha b i l i t y ,a c a d e m i ci n f l u e n c ea n da c a d e m i cs t a t u s i v t h r o u g ht h ea n a l y s i so fc h i n a sv i s i b i l i t ya n dt h ep r o d u c t i v i t yo fc h i n e s er e s e a r c h e r si n i n t e r n a t i o n a ld a t am i n i n gf i e l d ,w eh a v eaf u l lk n o w l e d g ea b o u tc h i n a sr e s e a r c ho nd a t am i n i n gt e c h n o l o g y a tt h es a l l l et i m e ,t h er e s u l th e l p st h ep o l i c ym a k i n gi nt h i sf i e l d k e yw o r d s :d a t am i n i n g ,s c i e n t o m e t r i c s ,v i s i b i l i t y ,c i t a t i o na n a l y s i s ,p r o d u c t i v i t yo fc h i n e s er e s e a r c h e r s v 独创性声明 独创性声明 本人郑重声明:所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的 研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已 经发表或撰写的研究成果,也不包含为获得河南师范大学或其他教育机构的学位或证书 所使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确 的说明并表示了谢意。 签名: 垫盘日期:砭鳋圈! 缒 关于论文使用授权的说明 本人完全了解河南师范大学有关保留、使用学位论文的规定,即:有权保留并向国 家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授权河南师 范大学可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩 印或扫描等复制手段保存、汇编学位论文。( 保密的学位论文在解密后适用本授权书) 签名:娅导师签名:鬈豳:隰磁垂鱼豳 1 引言 1 1 选题缘由及意义 1 引言 本研究选题隶属于导师梁立明教授国家自然科学基金项目“强竞争与弱竞争态势下 科技发展与科技评价的科学计量学研究”( 7 0 6 7 3 0 1 9 ) 。 当今的科技发展已越来越体现出这样一个特点:传统学科之间相互渗透整合而形成 新的研究领域或学科。在过去的二十几年里,称为数据挖掘( d a t am i n i n g , d m ) 的新研究 领域得到了快速发展。这是一种由统计学、模式识别、人工智能、机器学习、数据库以 及高性能并行计算等学科相互交叉而形成的新研究领域。已在经济、商业、金融、天文 等行业得到了成功的应用,在国际上也掀起了一股空前的研究热潮【1 1 。 g a r t n e rg r o u p 的一次高级技术调查结果显示,“未来3 5 年内将对工业产生深远 影响的5 大关键技术”之首的是数据挖掘和人工智能。“未来5 年内投资焦点的1 0 大新 兴技术”前两位是并行处理体系和数据挖掘。麻省理工学院的科技回顾公布“改变未 来的1 0 项新兴科技”,数据挖掘就是其中的一项科技。美国国家科学基金会的数据库研 究项目中,数据挖掘被列为最有价值的项引2 1 。数据挖掘的研究和应用变得更加国际化, 在亚洲增长强劲( 尤其是中国) 【3 j 。1 9 9 7 年我国国家自然科学基金首次支持数据挖掘领 域的研究项目。近年来,国内的许多科研单位和高等院校竞相开展数据挖掘的基础理论 及其应用研究,取得了较丰硕的研究成果1 4 】。 科技论文是科技发展水平的一种度量指标。科学论文的数量和质量标志着科学发展 的程度和水平。本文利用科学计量学的方法对国际与中国数据挖掘研究领域的论文及其 引文进行分析研究,并揭示国际与中国在数据挖掘研究领域发展的概貌和特点,以及论 文产出绩效和学术影响力,使我们对中国在国际数据挖掘研究领域的显示度及华人高产 现象有了一个较为深入和全面的认识,同时也为我国关于数据挖掘研究领域科技政策的 研究与制定提供借鉴。 1 2 研究背景 近二十几年来,人们利用信息技术生产和搜集数据的能力大幅度提高,千万个数据 库被用于商业管理、政府办公、科学研究和工程开发等等,这一势头仍将持续发展下去。 中国在国际数据挖掘研究领域的显示度及华人高产现象 于是,一个新的挑战被提了出来:在这被称之为信息爆炸的时代,信息过量几乎成为人 人需要面对的问题。如何才能不被信息的汪洋大海所淹没,从中及时发现有用的知识, 提高信息利用率呢? 要想使数据真正成为一个公司的资源,只有充分利用它为公司自身 的业务决策和战略发展服务才行,否则大量的数据可能成为包袱,甚至成为垃圾。因此, 面对“人们被数据淹没,人们却饥饿于知识”的挑战,数据挖掘技术应运而生,并得以蓬 勃发展,越来越显示出其强大的生命力【5 1 。 1 9 8 9 年8 月,在美国底特律召开的第1 1 届国际人工智能联合会议的专题讨论会上 首次出现“数据挖掘”这个术语【6 】。随着对数据挖掘的深入研究以及在许多领域广泛而成 功的应用,众多的学者根据自己的对数据挖掘的认识和理解,给出了很多定义。而被公 认为比较完整、深刻和全面的定义是由f a y y a d 在1 9 9 6 年的会议论文中提出的: t h en o n t r i v i a le x t r a c t i o no fi m p l i c i t ,p r e v i o u s l yu n k n o w n ,a n dp o t e n t i a l l yu s e f u l i n f o r m a t i o nf o r md a t a 。其中文意思为:数据挖掘是从数据中识别有效的、新颖的、有潜 在价值的以及最终可理解的模式的非常规的过程【7 1 。图1 - 1 给出了数据挖掘过程的图示。 图1 - 1 数据挖掘过程【8 】 人们把原始数据看作是形成知识的源泉,就像从矿石中采矿一样。原始数据可以是 结构化的,如关系数据库中的数据,也可以是半结构化的,如文本、图形、图像数据, 2 1 引言 甚至是分布在网络上的异构型数据。发现知识的方法可以是数学的,也可以是非数学的; 可以是演绎的,也可以是归纳的。发现了的知识可以被用于信息管理、查询优化、决策 支持、过程控制等,还可以用于数据自身的维护。因此,数据挖掘是- i 1 广义的交叉学 科,它汇聚了不同领域的研究者,尤其是数据库、人工智能、数理统计、可视化、并行 计算等方面的学者和工程技术人员【9 1 。数据挖掘的研究是为了将研究成果应用于实际数 据处理中,为科学的决策提供支持。 1 2 1 国外研究现状 目前,国际数据挖掘已成为计算机科学界的一大研究热点。美国人工智能协会主办 的数据挖掘国际研讨会及数据库、人工智能、信息处理、知识工程等领域的国际学术刊 物都开辟了数据挖掘专刊,i e e e 的k n o w l e d g ea n dd a t ae n g i n e e r i n g 会刊率先在1 9 9 3 年 出版了数据挖掘技术专刊,所发表的5 篇论文代表了当时d m 研究的最新成果和动态, 较全面地论述了数据挖掘系统方法论、发现结果的评价数据挖掘系统设计的逻辑方法, 集中讨论了数据库的动态性冗余、高噪声和不确定性、空值等问题,数据挖掘系统与其 它传统的机器学习、专家系统、人工神经网络、数理统计分析系统的联系和区别,以及 相应的基本对策【1 0 】【1 1 】。 不仅如此,在i n t e r a c t 上还有不少数据挖掘电子出版物,其中以半月刊k n o w l e d g e d i s c o v e r yn u g g e t s 最为权威。另一份在线周刊为d s ( d s 代表决策支持) ,1 9 9 7 年1 0 月 7 日开始出版【1 2 l 。在网上,还有一个自由论坛d me m a i lc l u b ,人们通过电子邮件相互 讨论d a t am i n i n ga n dk n o w l e d g ed i s c o v e r y ( 简称:d m k d ) i 拘热点问题。其它相关数据挖 掘的站点有数百个之多,下面列出的是几个较为著名的站点: h t t p :w w w a a a i o r g h t t p :w w w c a l d c s c m u e d u h t t p :w w w d a t a m i n i n g l a b c o m h t t p :w w w c o m p e t i a t o n i h o m e h t t p :w w w c r i s p - d m o r g h t t p :w w w c r m 2 d a y c o m d a t a _ m i n i n g h t t p :w w w k d d r e s e a r c h o r g h t t p :m l i s w w w w k a p n l 3 中国在国际数据挖掘研究领域的显示度及华人高产现象 h t t p :a g e n t s w w w m e d i a m i t e d u g r o u p s a g e n t s 国外很多计算机公司非常重视数据挖掘的开发应用。i n f o r m i x 公司于1 9 9 8 年底收 购了在数据挖掘技术上卓有成效的r e db r i c k 公司。r e db r i c k 数据挖掘在关系引擎中通 过创建模型完成,这些模型在数据库中表现为相应的表,并且这些模型可以通过结构查 询语言( s o l ) ,像普通表一样被访问和操作。向模型中插入数据的时候,数据挖掘计算 就被执行了,然后建立含有计算结果的表。后者可以被观察,用于对计算结果的理解, 并在其它数据集合中进行预测。除此之外,m m 和微软也成立了相应的研究中心进行 这方面的工作,一些公司也己经提出了基于数据挖掘技术的商业智能解决方案。此外, 相关软件也开始在国内销售,如s a s 、s p s s 、p l a t i n u m 、b o 以及i b mi n t e l l i g e n tm i n e r 箜 1 3 1 1 1 4 1 可 。 就目前所收集到的文献来看,国外对于数据挖掘的研究主要以基础理论与实际应用 为主。以实证性的定量分析为主的相关文献较少,如g r e g o r yp i a t c t s k y s h a p i r o 在2 0 0 7 年的d 衄 a m 玳矾g 趾叮dk n o w l e d g ed i s c o v e r y 上发表文章,通过词频分析研究 了数据挖掘研究领域在1 9 9 5 年至2 0 0 6 年间从“理论”向“商业,和“分析”的转变【1 5 】。 1 2 2 国内研究现状 与国外相比,国内对数据挖掘的研究稍晚,直到1 9 9 7 年国家自然科学基金才首次 支持该领域的研究项目。目前进行的大多数研究项目是由政府资助进行的,如8 6 3 计划、 “九五”计划等。从事数据挖掘研究的人员主要在高校,也有部分在研究院所,较少的在 公司。研究所涉及很多方面,一般集中于学习算法的研究、数据挖掘的实际应用以及有 关数据挖掘理论方面的研究,如北京系统工程研究所对模糊方法在知识发现中的应用进 行了较深入的研究;北京大学也在开展对数据立方体代数的研究;华中理工大学、复旦大 学、浙江大学、中国科技大学、中科院数学研究所、吉林大学等单位开展了对关联规则 开采算法的优化和改造;南京大学、四川联合大学和上海交通大学等单位探讨、研究了 非结构化数据的知识发现以及w e b 数据挖掘。但是到目前为止中国还没有自己的商用 工具问世,像复旦大学设计的基于关联规则的数据挖掘工具a r m i n e r 也只是处于实验 室研究阶段【1 6 1 【1 7 1 s 】【1 9 】。 就目前所收集到的文献来看,国内对于数据挖掘的研究同样主要以基础理论与实际 应用为主。但是,以实证性的定量分析为主的相关文献较国外要多。近年来我国数据 4 1 引言 挖掘研究综述和对国内数据挖掘文献的定量分析等探讨了我国数据挖掘研究领域 的发展状况【2 0 】f 2 1 j ;数据挖掘领域的文献计量学研究仅探讨了国际数据挖掘研究领域 的发展状况【2 2 1 。 5 2 数据与方法 2 1 数据 2 数据与方法 本论文的数据来源于美国i s i 公司的w e bo f s c i e n c e ( w o s ) 数据平台。i s i ( i n s t i t u t e f o rs c i e n t i f i ci n f o r m a t i o n ) 译名为科学情报研究所,由美国人e g a r f i e l d 创立。w o s 数 据平台是当今世界上最权威、最受科学家信赖和支持的数据平台之一,收录了8 0 0 0 余 种学术期刊,涉及世界上绝大多数的国家和科学领域,能较全面的覆盖全世界最重要、 最有影响力的研究成果。该数据库收录的内容包括了论文题目、作者、发表期刊名称和 年、卷、期、页,以及著者的机构、国别等重要信息【2 3 1 。 本论文选用w o s 数据平台中的三个数据库进行共同检索。这三个数据库分别是: s c i e n c ec i t a t i o ni n d e xe x p a n d e d ( 简称s c i - e ) 、s o c i a ls c i e n c e sc i t a t i o ni n d e x ( 简称s s c i ) 和a r t s & h u m a n i t i e sc i t a t i o ni n d e x ( 简称a & h c i ) 。 数据挖掘论文是这样界定的:以d a t am i n i n g 为关键词进行数据检索得到的论文。 本论文的所有数据检索及核对工作于2 0 0 8 年1 月至2 月进行。需要说明的是,由 于w o s 数据平台中存在个别论文的发表年与收录年不一致的情况,本文以论文的发表 年为准。 具体检索方法是: 1 ) 由于国际上第一篇以d a t am i n i n g 为关键词论文出现在1 9 8 3 年,故限定1 9 8 3 2 0 0 7 年2 5 年的时间跨度,限定检索方式为:t o p i c ,限定论文类型为:灿ld o c u m e n tt y p e s , 语言为:舢ll a n g u a g e s 。 2 ) 在检索地址栏中输入“d a t am i n i n g 囝进行检索,共检索出6 9 2 2 篇符合条件的论 文。经过排除因发表年与收录年不一致而出现的2 0 0 8 年的论文,最终保留了6 8 9 4 篇论 文,及其引文2 3 5 5 8 篇 。 3 ) 在6 8 9 4 篇论文中检索属于中国( 包括香港、澳门) 的论文,共检索出7 1 8 篇符 合条件的论文,及其引文1 1 4 6 篇。 。t o p i c ( 主题) :包括篇名、关键词和摘要。可检索出这三项中任一项或多项满足指定检索条件的文献。 雪s c i 数据库使用说明,h t t p :a v w w 1 i b r a r y f u d a n e x l u c a e r e s o u r c e s h e l p w o s h t m 毒本文中的引文统计排除自引情况 7 中国在国际数据挖掘研究领域的显示度及华人高产现象 表2 - 1 发文量居前2 0 位的国家( 地区) 分布 国家 发文量百分比 u s a2 5 5 23 7 0 2 p e o p l e src h i n a7 1 81 0 4 1 e n g l a n d4 2 26 1 2 g e r m a n y 4 1 46 0 1 c a n a d a3 9 95 7 9 飞谰k r3 6 45 2 8 】a p 氏n3 2 8 4 7 6 a u s t r a i i a3 1 84 6 1 f r a n c e2 5 13 6 4 s o u t hk o r e a2 4 23 5 1 h 戤2 3 5 3 4 1 s p a 酣1 8 92 7 4 n e t h e r ia n d s1 2 41 8 0 p o l a n d 1 2 21 7 7 s 矾g a p o r e1 1 71 7 0 矾d 认1 1 61 6 8 b e l g i u m1 0 81 5 7 b r a z i l9 11 3 2 f i n i a n d 8 5 1 2 3 i s r a e l8 51 2 3 国家( 地区) 学术研究水平的高低,往往可以通过本国或本地区作者发文量来体现。中 国数据挖掘研究领域的发文量在国际上的排名如何呢? 表2 - 1 显示了国际数据挖掘研究 领域发文量居前2 0 位的国家( 地区) 分布。其中美国排名第一,其发文量达到了2 5 5 2 篇,占总发文量的3 7 0 2 ,即1 3 强的数据挖掘研究领域的论文是由美国著者发表。 其发文量是排名第二中国的三倍多,排名第三德国的六倍。这说明美国在数据挖掘研究 领域拥有绝对的优势地位。 同时值得注意的是,在发文量居前2 0 位的国家( 地区) 中,共有6 个亚洲国家( 地 区) ,总的发文量为1 8 8 5 篇,占总发文量的2 7 3 4 。这说明亚洲国家( 地区) 在国际 数据挖掘领域也拥有一定的优势地位,其中,中国的优势地位更为突出。 2 2 方法 本文主要采用科学计量学研究法、引文分析法和比较研究法。 科学计量学( s c i e n t o m e t r i c s ) 是应用数理统计和计算技术等数学方法对科学活动的 投入( 如科研人员、研究经费) 、产出( 如论文数量、被引数量) 和过程( 如信息传播、 8 2 数据与方法 交流网络的形成) 进行定量分析,从中找出科学活动规律性的一门学科。科学计量学同 文献计量学有一定的交迭。由于科学活动的产出和交流的主要形式之一是科学论文,因 此对这类论文进行年度分布、研究机构分布、论文发表刊物分布、著者分布等统计分析, 从而得出一些有意义的结论。这既是科学计量学研究,又是文献计量学研究。科学计量 学的研究结论较为客观,它有助子加深对科学发展内在规律的认识,从而为科研管理工 作和科技政策制定提供参考和指导弘卅。 引文分析( c i t a t i o na n a l y s i s ) 是利用种种数学和统计学的方法以及比较、归纳、抽象、 概括等逻辑方法,对科学期刊、论文、著者等各种分析对象的引用或被引用现象进行分 析,以揭示其数量特征和内在规律的一种定量研究方法【2 5 1 。 比较研究( c o m p a r a t i v er e s e a r c h ) 作为一种思维方法,比较研究贯穿于各个研究领 域的全过程。无论在科学实验研究的过程中,或是在理论研究中,比较研究都是不可或 缺的基本方法。比较研究是根据一定的标准,对两个或两个以上有联系的事物进行考察, 寻找其异同,探求事物之普遍规律与特殊规律的方法【2 6 1 。 在本选题研究过程中,科学计量学研究法、引文分析法和比较研究法具有同样重要 的作用。有助于我们认识中国在国际数据挖掘研究领域的显示度及华人高产现象;有助 于认识中国数据挖掘研究领域与国际数据挖掘研究领域之间的差异;有助于帮助中国数 据挖掘研究领域取得新突破。 9 3 中国在国际数据挖掘研究领域的显示度 3 中国在国际数据挖掘研究领域的显示度 3 1 数据挖掘研究领域论文增长的时间序列分析 3 1 1 国际数据挖掘研究领域论文增长的时间序列分析 国际数据挖掘研究领域的6 8 9 4 篇论文在2 5 年间的分布如表3 1 。 表3 - 1 国际发文量按年分布 发表年发文量 百分比 1 9 8 31o 0 1 1 9 8 4oo 1 9 8 52o 0 3 0 o 1 9 9 230 0 4 1 9 9 32o 0 3 1 9 9 460 0 9 1 9 9 51 60 2 3 1 9 9 63 6o 5 2 1 9 9 71 0 71 5 5 1 9 9 81 6 3 2 3 6 1 9 9 92 7 23 9 5 2 0 0 03 3 84 9 0 2 0 0 13 9 7 5 7 6 2 0 0 25 7 7 8 3 7 2 0 0 38 0 6 1 1 6 9 2 0 0 49 7 71 4 1 7 2 0 0 51 1 5 41 6 7 4 2 0 0 61 2 2 31 7 7 4 2 0 0 78 1 41 1 8 1 总计 6 8 9 41 0 0 0 0 从上表的统计来看,国际上对数据挖掘领域的研究始于1 9 8 3 年,仅有1 篇论文发 表,直至1 9 9 1 年有关数据挖掘的论文也仅有3 篇。国际数据挖掘研究领域在发展初期, 出现了严重的不连续性,许多年份的发文量为0 篇,如1 9 8 4 年和1 9 8 6 年至1 9 9 1 年。 1 9 9 3 年以后该领域的论文开始逐年递增,并于2 0 0 6 年达到高峰。2 0 0 6 年发表论文1 2 2 3 篇,是历年发表论文最多的一年。之后,在2 0 0 7 年发文量出现大幅下滑,当年仅发表论 文8 1 4 篇。2 0 0 7 年发文量大幅下跌的原因与数据检索时间直接相关。因为本文在2 0 0 8 中国在国际数据挖掘研究领域的显示度及华人高产现象 年1 2 月进行数据检索时,2 0 0 7 年的相关数据尚未录入数据库。 图3 - 1国际数据挖掘研究领域论文增长的时间序列 3 1 2 中国数据挖掘研究领域论文增长的时间序列分析 中国数据挖掘研究领域共7 1 8 篇论文,在1 3 年的分布如表3 2 。 表3 - 2 中国发文量按年分布 发表年 发文量 百分比 1 9 9 510 1 4 1 9 9 610 1 4 1 9 9 7 4 0 5 6 1 9 9 870 9 7 1 9 9 960 8 4 2 0 0 01 82 5 1 2 0 0 11 92 6 5 2 0 0 23 44 7 4 2 0 0 37 71 0 7 2 2 0 0 41 1 51 6 0 2 2 0 0 51 7 32 4 0 9 2 0 0 61 8 72 6 0 4 2 0 0 77 61 0 5 9 总计7 1 81 0 0 0 0 从上表的统计来看,中国对数据挖掘领域的研究始于1 9 9 5 年,仅有1 篇论文发表。 1 9 9 6 年起中国在该领域的研究论文开始逐年递增。中国数据挖掘研究领域在发展初期, 1 2 3 中国在国际数据挖掘研究领域的显示度 并没有出现国际数据挖掘研究领域那样的严重不连续性。中国数据挖掘研究领域在2 0 0 6 年发表论文1 8 7 篇,是历年发表论文最多的一年。之后,在2 0 0 7 年发文量出现大幅下滑, 当年仅发表论文7 6 篇。2 0 0 7 年发文量出现大幅下滑的原因与国际数据挖掘领域的情况 相同,是由于数据录未完全入的问题。 图3 - 2中国数据挖掘研究领域论文增长的时间序列 由于中国与国际在数据挖掘研究领域的发文量,并不是一个数量级的( 6 8 9 4 :7 1 8 ) 。 所以在图3 3 中我们使用了逐年发文量占总量的百分比来对比分析中国与国际在数据挖 掘研究领域的论文增长态势。在这里要特别说明的是,由于中国对数据挖掘领域的研究 始于1 9 9 5 年,所以图3 3 中的逐年对比将从1 9 9 5 年开始。 图3 - 3国际与中国数据挖掘研究领域论文增长的百分比时间序列 中国在国际数据挖掘研究领域的显示度及华人高产现象 从上图中我们看出,中国数据挖掘研究领域经历了早期的缓慢发展期;2 0 0 2 年后 中国数据挖掘研究领域进入迅猛发展期,这一时期中国的论文增长态势明显强于国际。 从总体上看国际数据挖掘研究领论文增长较为平稳。 3 2 数据挖掘研究领域论文的发表刊物分

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论