




已阅读5页,还剩53页未读, 继续免费阅读
(管理科学与工程专业论文)灰色聚类分析法及其在县(市)级科技实力评价中的应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
南京航空航天大学硕士学位论文 摘要 对区域科技实力进行正确评价,有利于区域科技实力的进步,促进区域经济的发 展。本文结合江苏省县( 市) 科技实力发展的客观情况,建立县( 市) 级科技实力评 价指标体系,并确定各指标权重。采用灰色聚类分析法( 主要是灰色定权聚类法) 对 江苏省县( 市) 整体及苏南、苏中、苏北不同类型地区县( 市) 科技实力进行综合评 判。在聚类结果的基础上,生成决策树,利用决策树分析,得出一些有意义的结论。 本文的主要创新点有: 1 、针对县( 市) 科技实力的特点,在广泛调查的基础上,运用层次分析法和德 尔菲法,建立了一套完整的县( 市) 科技实力评价指标体系; 2 、基于灰色聚类评估分析方法,对江苏省5 8 个县( 市) 科技实力进行归类评价: 3 、采用模糊综合评判法对江苏省及苏南、苏中、苏北不同类型地区县( 市) 整 体科技实力进行综合评价; 4 、建立决策树,对聚类评估分析结果进一步提炼、处理,得到一些对江苏省及 有关市、县科技管理部门有实际指导意义和价值的结论。 关键词:灰色聚类分析法;灰色定权聚类;科技实力;模糊综合评判;决策树 灰色聚类分析法及其在县( 市) 级科技实力评价中的应用 a b s t r a c t t h ec o r r e c te v a l u a t i o no ft h e s c i e n c e ,a n dt e c h n o l o g ys t r e n g t ho ft h e d i s t r i c t ,a n dt h eo b j e c t i v ea n a l y s i so ft h es c i e n c ea n dt e c h n o l o g y d e v e l o p m e n t o ft h ed i s t r i c t ,a r eu s e f u lf o rt h e g o v e r n m e n tt oe s t a b l i s hr i g h tp o l i c y , t o c o n f i g u r et h er e s o u r c e se f f i c i e n t l y ,a n dt oc o m p e t ew i t ht h eo t h e rd i s t r i c t s i n t h i s p a p e r ,w ea p p l i e dg r e yc l u s t e rm e t h o d ( e s p e c i a l l yg r e yf i x e dw e i g h t c l u s t e rm e t h o d ) o nt h e a n a l y s i so ft h es c i e n c ea n dt e c h n o l o g ys t r e n g t ho f e a c hc o u n t yo fj i a n g s up r o v i n c e b a s e do nt h er e s u l t s o fc l u s t e r i n g ,w e c r e a t e dd e c i s i o n 。t r e e st of i n do u ts o m eu s e f u lr u l e s a tl a s t ,w eg a v eo u tt h e a s s e s s m e n t t h i s p a p e re m p h a s i z e d o nt h et h e o r ya n dm e r i to f g r e yc l u s t e r i n g ,a f t e r w eg o tt h er e s u l t so fg r e yc l u s t e rm e t h o d ,w eu s e df u z z yc o m p r e h e n s i o n j u d g m e n t m e t h o di nt h ee v a l u a t i o no ft h ew h o l eo ft h ea l lc o u n t i e s a tl a s t ,w e c o u l du s et h er e s u l t so f c l u s t e r i n g t oc r e a t ed e c i s i o n t r e e ,w h i c h i sa n i m p o r t a n t t o o lo f k n o w l e d g ed i s c o v e r y c o m b i n i n g d e c i s i o nt r e ea n d c l u s t e r i n gm e t h o d ,w ec o u l d f i n do u ts o m er u l e sb e h i n dd a t a k e yw o r d s :g r e y c l u s t e r m e t h o d ;g r e y f i x e d w e i g h t c l u s t e r m e t h o d ; s c i e n c ea n d t e c h n o l o g ys t r e n g t h ;f u z z y c o m p r e h e n s i o n j u d g m e n t ;d e c i s i o n t r e e 南京航空航天火学硕士学位论文 一、研究的意义 绪论 “科学技术是第一生产力”。依靠科技促进国家和地区经济发展,是当代生产力发 展的普遍规律。党的十五大以后,“科教兴国”成为我国的国家发展战略。加速县( 市) 科技进步,依靠科技进步促进地方经济和社会发展也已经成为我国市( 县) 党和政府 领导人的共识。“科教兴县( 市) ”工作已经成为全国各个市( 县) 具体落实“科教兴国” 战略的重要举措,也成为国家科技部的一项极其重要的工作川。 县( 市) 科技工作是全国、全省科技工作的重要基础。它具体承担着贯彻落实党 和国家科技方针、政策,组织实施科技法律、法规,推动基层科技进步的重任,是市、 县区域经济和社会发展的重要支撑,对实现国家和全省科技工作总体目标具有至关重 要的影响。对县( 市) 科技实力进行正确评价,客观分析其科技发展状况,有利于相 关部门了解和掌握自身的科技实力,发现自身在竞争中的优势和不足,制定正确的科 技政策,合理地配置科技资源,扬长避短,夺取科技和经济的制高点,提高县( 市) 的竞争力。 4 1 经济的发展离不开科技的进步,依靠科技进步,首先要了解科技进步系统的基本 状况及其发展趋势,只有客观地了解科技进步系统的运行状况,准确地把握其运动规律, 才能科学地制定科技发展规划和政策,从而推动科技进步和社会经济发展。 在县( 市) 级科技实力评价中,所涉及的考察对象一般较多,数据处理较为复杂。 如何有效的对县( 市) 科技实力作一个综合的评价,使之能准确的反映各县( 市) 科 技发展水平,选取合适的评价方法至关重要。 本文所研究的实例是江苏省县( 市) 级科技实力评价。在建立县( 市) 级科技实 力评价指标体系的基础上,应用灰色定权聚类法对江苏省5 8 个县( 市) 进行分析。 本文采用的评价方法 一个实际问题往往是多维的。我们在认识它的时候,常常从多个维度,多个方面 去分析的。因此,我们在评价的时候采用多个变量,或者多个指标。 目前,在科技实力评价中常用的多指标综合评价法,基本步骤包括: ( 1 ) 运用科学的方法研究或根据权威机构的认可,确定若干项全面反映评价对 象各个侧面的指标,构成指标体系,作为评价的依据; ( 2 ) 取得评价对象的评价指标数据,然后采用适当的方法对原始数据进行标准 灰色聚类分析法及其在县( 市) 科技实力评价中的应用 化处理; ( 3 ) 根据各项评价指标在反映评价对象科技实力方面的地位和作用,采用适当 的方法确定各项评价指标的权重系数,形成权重体系; ( 4 ) 在此基础上根据权重系数对标准化处理后的数据采用一定的方法( 例如加 权平均、模糊聚类、灰色聚类等方法) 加权综合,获得对评价对象的综合评价数值, 并进行评价、排序和分析。 对多指标评价的研究由来已久,从无可奈何的专家打分法,到主成份分析法, 因子分析法,聚类分析方法,判别分析方法等等。在研究中,人们普遍关注如何处理 多维数据,如何确立权重等等问题,同样取得了大量的研究成果。本文也在尝试在多 指标评价方面做出一些探索,希望能够在实际应用中发挥一定的作用。 本文所涉及的江苏省县( 市) 级科技实力评价中,有多达5 8 个县( 市) 。如何全 面的评价江苏省各县( 市) 的科技进步发展水平,显然不能简单通过个别几组数据进 行简单的排列。 本文将在建立一套符合县( 市) 级科技实力评价的指标体系的基础上,应用灰色 聚类分析方法对江苏省各( 县) 市进行科技实力评价,从中可以得出一些有益的结果, 同时能为政府决策部门提供依据。 具体实施过程将在下文予以介绍。 三、灰色聚类的应用研究 从灰色系统理论发展的二十多年来,灰色聚类的理论与应用研究一直是人们普遍 感兴趣的问题。国内有多篇文章论述了灰色聚类在农业、林业、气象预报、地质、生 物、医学以及社会经济等领域的应用。 冯玉国在灰色聚类与水质污染综合评价文中应用灰色聚类法确定水质级别, 为解决水质污染问题提供了分类标准。 马保国在飞行保障任务的灰色聚类一文中应用灰色系统理论对飞行保障任务 进行聚类分析,为消耗定额的分级提供了基础,从而为解决航材管理部门的供求矛盾 提供了一条有效的途径。 肖新平在灰色聚类分析用于环境质量的评价一文中改进了灰色聚类法,使灰 色聚类分析法更好的应用于环境质量的评价,并认为在环境质量的评价中更适合采用 灰色聚类法而不是灰色关联法。 冯利华在地区综合实力的灰色聚类评价一文中根据灰色聚类的原理和方法, 对浙江金华市等县( 市) 社会经济发展进行了灰色聚类分析,确定了该地区各县( 市) 综合实力的等级,为该地区进一步深化改革、持续发展提供了重要的依据。 灰色聚类理论的发展推动了其在生产实践中的应用,反过来实际应用的需求又促 进了灰色聚类理论的不断丰富和完善。 南京航空航天大学硕士学位论文 随着理论的发展以及众多学者的深入研究,灰色聚类将更好的在众多领域获得广 泛应用,并取得令人满意的效果和可观的效益。 四、本文的研究思路和主要工作 与将聚类分析方法应用于农业、林业、医学、化学、图像处理、模式识别不同, 本文将聚类分析方法应用在了对科技实力评价中,拓展了聚类分析方法的应用空间。 许多学者对聚类分析法进行了详细的研究,各个聚类分析方法都有其独到之处,但 从本质上讲都是对目标对象进行不定界分类。在同一类的元素中都有其一定的相似 性,而不同类的元素是不相似的。其中,本文将采用灰色定权聚类分析法,该聚类分 析法的具体情况将在下文中予以介绍。 由于研究数据挖掘的学者都将主要注意力放在大数据量下有效的算法上,丽对于 聚类结果的分析、结果的合理性却关注不多。本文将用聚类结果构造决策树,尝试用 决策树来分析聚类的结果,发现一些数据背后的分类规则。这种方法曾有学者提出过, 但只是一些设想,没有太多的具体应用。另外,本文将对所取得的聚类结果进行模糊 综合评判,希望在整体方面能得出一些有益的结论。 本文将灰色定权聚类、模糊综合评判、决策树结合在一起,作为对江苏省县( 市) 级科技实力评价的手段工具,是灰色聚类应用领域一种新的尝试,以期能有利于推进 灰色定权聚类法的应用。但是,此次应用仍有不少工作有待进一步研究,如某些理论 的证明,大数据量下是否有效的问题等等。 五、本文的组织结构 本文第一部分为绪论,介绍本文的研究方法、目的、过程,以及课题背景等;第 一章对县( 市) 科技实力评价进行简要地介绍:第二章介绍聚类分析方法。对现在应 用较多的模糊聚类发与灰色聚类法进行了比较;第三章将详细阐述整个县( 市) 级科 技实力评价过程的每一个步骤,从指标的选取、聚类分析、结果验证到聚类结果的分 析解释;第四章将结合江苏省各县( 市) 的科技进步发展的具体情况,阐述评价的每 一过程是如何实现的;第五章为定性分析篇,针对聚类分析结果,对现有的江苏省县 ( 市) 科技实力进行总体评价,为政府决策部门提供一些依据,并提出一些实质性的 对策与建议;最后为总结与展望,对本文所作的工作做一个总的阐述及一些展望。 六、选题背景 2 0 0 3 年,笔者参与刘思峰教授主持江苏省软科学研究计划重点项目 ( b r 2 0 0 2 0 0 1 ) “江苏省综合实力评价与竞争力研究”。负责主持江苏省县( 市) 级科 3 灰色聚类分析法及其在县( 市) 科技实力评价中的应用 技综合实力评价子课题。 同年1 1 月,江苏省科学技术厅组织专家组对此课题进行了成果鉴定,认为研究 方法先进并有所创新,研究结论可信,达到预期目标( 见苏科鉴字【2 0 0 3 】第6 4 8 号) 。 期间,正值学位论文写作,笔者根据课题研究情况选择灰色聚类分析法在县( 市) 级科技实力评价中的应用作为研究对象,对其展开进一步研究a 南京航空航天大学硕士学位论文 第一章县( 市) 科技实力评价 1 1 科技发展的历史意义 站在2 l 世纪之初,回顾人类社会的发展历史可以发现,在人类社会生产力的发 展过程中,先进生产力取代落后生产力,都是由科学技术的进步或突破引发的。近代 以来,科学技术在推动生产力发展方面发挥了更大的作用,先后经历了三次重大的历 史性突破:第一次是1 8 世纪6 0 年代从英国开始的由于蒸汽机与纺织机的发明而引发 的工业革命;第二次是1 9 世纪7 0 年代开始的科技革命,电力的广泛应用,电机的广 泛应用以及电讯业的迅速发展,使得工业化与电气化结合在一起,极大的解放了生产 力,促进了资本主义经济的发展;第三次是第二次世界大战以后开始的新科技革命, 计算机技术、原子能技术、航天技术的突破性发展,推动社会生产力取得了前所未有 的进步。 实践证明,哪一个国家和地区抓住了科技革命提供的历史机遇,其生产力就能获 得大的发展;哪一个国家和地区错过了科技革命提供的发展机遇,其经济发展就会落 后于时代潮流。 因此,科学技术始终是先进生产力的集中体现和重要标志。在当今世界,科技进 步臼新月异,以信息技术和生命科学技术为代表的科学技术突飞猛进,知识经济迅速 兴起,以知识创新、技术创新、人才和高新技术产业为核心的综合实力的竞争日益激 烈。这些重大而深刻的变化都极其鲜明的提出,一个国家和地区的经济要快速发展, 必须要依靠科技进步。 1 2 我国对县( 市) 科技发展的认识 中国共产党和中国政府深刻认识到这历史发展的必然趋势,邓小平同志早就提 出了“科学技术是第一生产力”的著名论断。党的十五大又明确提出:要充分估量未 来科学技术特别是高技术发展对综合国力、社会经济结构和人民生活的巨大影响,把 加速科技进步放在经济杜会发展的关键地位。“科教兴国”成为我国的国家发展战略。 与此相对应,加速县( 市) 科技进步,依靠科技进步促进地方经济和社会发展也 已经成为我国县( 市) 党和政府领导人的共识。“科教兴县( 市) ”工作已经成为全国 各个县( 市) 具体落实“科教兴国”战略的重要举措,也成为国家科技部的一项极其 重要的工作。 “科教兴县( 市) ”t 作最早出现于二十世纪八十年代中期,当时科技体制改革 5 灰色聚类分析法及其在县( 市) 科技实力评价中的应用 刚刚开始,科技与经济结合逐渐紧密,高新技术产业在一些地方开始兴起,少数城市 先后提出了“科技兴市”、“科技立市”、“科教兴市”的口号。从推动力量上看,主要 是地方政府的自发行为,工作的着眼点在于促进科技与经济结合,推动经济发展。原 国家科委于八十年代末期开始,陆续组织了一系列的有关“科教兴市”战略研究和研 讨活动。1 9 9 1 年正式将“科教兴县( 市) ”作为一项重要工作纳入议事日程,研究制 定了一系列的政策文件,并选择中等城市作为重点,先后确定了3 9 个全国科教兴市 试点市,通过制定试点方案,加强试点城市的指导与支持。还先后召开了几次工作会 和试点会议,总结交流各地的成功经验。此外,原国家科委体改司于1 9 9 0 年印发了 国家科委关于加强重点联系市( 县) 科技工作的几点意见,于1 9 9 0 年确定了3 9 1 个重点联系县。“科教兴县( 市) ”工作开始起步。 。 随着形势的发展,原国家科委为进一步加强对“科教兴市( 县) ”工作的具体领 导,从1 9 9 2 年开始在全国范围内开展了刨建“全国科技工作先进市( 县) ”活动,随 后又开展了创建“全国科技工作先进市”和“全国科技工作先进城区”活动。这些工 作有力的提高了地方对“科教兴市( 县) ”工作的重视程度,推动了“科教兴国”战 略的具体实施。1 9 9 5 年全国科技大会召开。在这次大会上,中共中央国务院关于加 速科学技术进步的决定正式颁布,首次提出了“科教兴国”战略,整个科技工作的 环境为之一变,我国科学技术的发展进入了一个新的阶段。随着“科教兴国”战略的 不断深入落实,地方政府逐渐意识到科技和教育对于地方经济和社会发展的重要意 义,加大了“科教兴市( 县) ”工作的力度,有意识的改变地方经济和社会发展的思 路,通过依靠科技进步来促进地方经济和社会发展。与此同时,以前的众多口号也纷 纷统- - n “科教兴市”和“科教兴县”上面来,不同级别的地方政府还分别提出了“科 教兴省”、“科教兴区”、“科教兴乡”、“科教兴镇”战略。“科教兴市( 县) ”不仅是地 方政府行为,更有了国家层面上的支持与推动,“科教兴市( 县) ”工作从此有了一个 更好的环境,进入一个规范发展的阶段。在“科教兴市( 县) ”战略的推动下,地方 科技投入逐渐增多,高新技术产业发展迅猛,民营科技企业队伍不断扩大,科技与经 济的相互渗透不断加深,有力的促进了地方产业结构的调整和经济的快速增长。社会 发展水平也有了明显的提高。一些地方政府已经不仅仅满足于科技对经济的贡献,更 着眼于依靠科技进步来提高人口素质,改善环境质量,推动整个社会的进步,实现可 持续发展。“科技兴市( 县) ”工作进入规范发展阶段。 2 0 0 0 年8 月,国家技术创新大会召开,中共中央国务院关于加强技术创新,发 展高科技,实现产业化的决定出台,进一步明确了依靠科技进步,促进经济和社会 发展的决心。“科教兴国”战略已经完全深入人心,成为举国上下的共识。更为各级 地方政府推动区域经济与社会发展提供了新的思路和强大的动力。随着整个社会大环 境的变化,“科教兴市( 县) ”的推动力不仅来自于政府,更来自于整个社会。“科教 兴市( 县) ”工作从此进入了一个新的蓬勃发展阶段。相当一部分县( 市) 改变了以 往的工作思路,不再流于单纯参加评比表彰。更突出了如何真正贯彻“科教兴市( 县) ” 6 南京航空航天大学硕士学位论文 往的工作思路,不再流于单纯参加评比表彰,更突出了如何真正贯彻“科教兴市( 县) ” 战略,把工作做到实处,真正有益于地方经济与社会发展,真正有益于人民生活水平 的提高。 1 3 现有主要科技评价方法介绍 瑞士洛桑管理学院公布的国家竞争力年鉴中的国家竞争力包括8 个因素, 一共2 0 0 多个指标,分为硬指标和软指标。其中科学技术这因素又分为1 0 个硬 指标和1 0 个软指标。硬指标是数量性指标,软指标通过调查、专家打分得到。对 所有指标来讲,每个硬指标的权重为1 ,通过专家调查法得出所有硬指标和所有软 指标的比例为3 :1 ,为了符合这个比例,根据硬指标和软指标的个数,计算出每个 软指标的权重为0 8 。因此,科学技术这个因素的1 0 个硬指标的权重都为1 ,1 0 个软指标的权重为0 8 。把有关科学技术这一因素的2 0 个指标都标准化后,乘以相 应的权重,即得到每个国家科技竞争力的得分。这种方法忽视了各个硬指标之间以 及各个软指标之间的相互差异。 目前常用的多指标综合评价法【2 】,基本步骤包括: ( 1 ) 运用科学的方法研究或根据权威机构的认可,确定若干项全面反映评价对象 各个侧面的指标,构成指标体系,作为评价的依据: ( 2 ) 取得评价对象的评价指标数据,然后采用适当的方法对原始数据进行标准化 处理; ( 3 ) 根据各项评价指标在反映评价对象科技实力方面的地位和作用,采用适当的 方法确定各项评价指标的权重系数,形成权重体系; ( 4 ) 在此基础上根据权重系数对标准化处理后的数据采用一定的方法( 例如加权 平均、模糊聚类、灰色聚类等方法) 加权综合,获得对评价对象的综合评价数值,并 进行评价、排序和分析。因此,按照多指标综合评价法评价区域科技实力的关键就在 于评价指标的选择和指标权重的确定。指标权重的确定般采用主观赋权法( 即专家 打分法) 和客观赋权法( 主要有层次分析法( a h p ) 、主成分分析法、主因子分析法) 。 1 4 国内外科技实力评价研究 我国对科技综合实力评价的研究也比较重视,八十年代初期,天津市科学学研究 所的何钟秀等人在吸收、借鉴国内外研究成果的基础上。提出了一套科技综合能力评 价指标体系,由以下4 类综合指标组成: ( 1 ) 科学技术潜力: ( 2 ) 科学能力: ( 3 ) 技术能力; 7 灰色聚类分析法及其在县( 市) 科技实力评价中的应用 这一评价指标体系的1 9 个分指标,基本上覆盖了科技综合实力测度的主要 方面:其中科学能力、技术能力、科技促进经济发展能力3 个综合指标的内涵相互交 叉,尚需进一步调整。 9 9 2 年原国家科委在全国开展创建科技工作先进县活动,推出一套科技工作 先进县验收考核指标,共含l o 大类2 7 项分指标,其中不少指标是定性指标,需要通过 打分的方式进行量化。 近年来,国家科技部又提出了一套科技进步综合评价指标体系,共含科技投入、 科技产出、经济发展、社会发展4 个一级指标和i o 个二级指标、3 4 个三级指标。由于 其中经济发展和社会发展指标占的份量较大,不太适宜于作为科技实力评价指标体系 使用“”。 杨洪春在中国地域科技实力评价指标体系和评价方法研究文中提出的指标 体系包括3 个一级指标,8 个二级指标,2 5 个三级指标。这2 5 个指标虽然大体上可以评 价科技实力状况,不过,由于受现有统计条件的限制,有些指标数据采集的难度较大, 可操作性差。 刘思峰在科技综合实力评估指标与数学模型一文中提出了3 个一级指标,1 4 个二级指标,2 8 个三级指标。该体系能较好地评价省级科技实力,能够为建立县区域 科技实力评价体系提供参考。 南京航空航天大学硕士学位论文 第二章聚类分析法概述 2 _ 1 聚类技术及其发展 2 1 1 聚类概论 聚类就是按照事物间的相似性进行区分和分类的过程,在这一过程中没有人为指 导,因此是一种无监督分类。聚类分析则是用数学方法研究和处理所给对象的分类以 及各类之间的亲疏程度,是在对数据不做任何假设的条件下进行分析的工具。 在人工智能和模糊识别中,聚类分析亦被称为“无先验学习”,是机器学习中知 识获取的重要环节。 “物以类聚,人以群分”,聚类是一个古老的话题,它伴随着人类社会的产生和 不断发展而逐步深化,人类要认识世界就必须区分不同的事物并认识事物间的相似 性。聚类已被广泛应用于各种工程和科学领域,如心理学、生物学、医学、通讯和远 程感应等。 人们根据不同领域的需要,提出了各种不同的聚类方法,其中最受欢迎的是目标 聚类法。在给定聚类数的前提下,根据待聚类样本的属性,优化类中心或隶属度,将 它们划分到各个类中。这有点类似于系统辨识中,假设系统结构确定,来进行参数估 计一样。 另外,从分类角度讲,我们能看到两种分类形式。一种是定界分类,它要求事先 确定预期中类的定义,然后按着协定已将给定的元素分入各类;第二种是不定界分类, 它要求根据给定元素的实际情况,将它们分成若干类,在分类之前不能预见分类的结 构,也不能知道所得各类的定义。无论是定界分类还是不定界分类,其目的相同,即 使得分类后,在某个观点下,同一类中的元素是相似的,而不同类中的元素是不相似 的。 2 1 2 聚类分析技术的特点 ( 1 ) 广泛性 客观世界是丰富多彩的,它表现在客观事物的多样性上,大量的事物需要用多维 变量来进行描述,因此,仅靠单一的指标对客观事物进行分类存在很大的局限性。 例如:某研究对象有5 项指标,每项指标均为数值型变量,范围为o - 1 0 0 0 ,变量 9 灰色聚类分析法及其在县( 市) 科技实力评价中的应用 的最小间隔为1 ,即变量为o - 1 0 0 0 的正整数。此时,分类标准的选择方案为1 0 ”种; 如果根据对研究对象的认识,将分类的步长定为1 0 0 ,那么,分类的标准选择方案即 减少为1 0 5 种,然而这也是一个不小的数目。 这样所进行的分类工作就相当繁杂,并且失去了实际意义。而聚类分析的对象正 是多维变量,它通过将研究对象的多维变量转化为样本之间的相似性度量指标,依该 指标进行分类,从而有效的解决了多维变量问题,可以广泛的应用于实际分类问题中 去。 ( 2 ) 客观性 7 从聚类技术的产生过程中,仅凭经验或专业知识分类具有很大的主观性,它受分 析人员对分析对象认识程度的制约。我们称此种方法为“经验分类法”。在数据应用 中,它表现为多次利用复合判断语句进行查询,从而得出一组分类结果。其过程如下 所示: 经验分类法: a 获取研究对象数据: b 依据实际情况对分类问题进行定性分析,确定研究对象的特征,辨别研究对象 的主要影响因素及影响范围;( 定性) c 确定分类条件,用复合判断语句; d 运行;( 定量) e 对分类结果进行判定( 定性) ,确定是否真实、有效。 聚类分析技术 a 获取研究对象数据: b 依据对象数据性质,选择聚类方法: c 运行( 定量) ,得到分类结果; d 结合研究对象基本信息对分类结果进行判定( 定性) ,确定是否真实、有效。 从以上两种方法的实现过程中,我们可以明确观察到,经验法在确定分类标准时 带有强烈的主观色彩,并且存在大量的假设前提,这对分类结果的客观性产生很大的 影响,而且不易发现隐藏的问题。聚类分析技术是在未对分类标准作任何假设的情况 下,进行的一种比较“原始”的分类方法。虽然在选择聚类方法的细节上也有主观认 识的成分,但它受聚类分析方法适用范围的制约,对聚类结果的客观性影响较小。 聚类分析在对研究数据进行分类的基础上,结合具体实际问题对分类结果进行定 性分析、判定。是客观分析和主观认识的统一,定性分析和定量分析的统一。因而准 确反映了客观现实,是比较先进的分类技术。比如对企业来说,在市场瞬息万变的今 天,挖掘潜在的市场信息对于企业的发展越来越重要,单靠主观判断存在很大的局限 性。已经越来越不适于实际应用,聚类分析技术的客观性不仅使得我们能够发现潜在 的市场机会,而且给以定量的描述,从而制定、实施适宜的营销策略,使企业在激烈 南京航空航天大学硕士学位论文 的市场竞争中立于不败之地。 ( 3 ) 实用性 在信息时代的大潮中,信息量的空前增长、信息内容的日盏复杂迫使企业建立完 善的管理信息系统,来提高信息的收集、加工、存储、传递、利用能力。在这个过程 中,计算机技术、网络通讯技术、数据分析技术得到了空前的发展,及时性、准确性、 易实现性成为评价数据分析技术的标准,聚类分析技术在这几方面得到了充分的体 现。 首先,分析数据的获取变得越来越窑易,流动的是实时的、标准化的管理信息, 这些信息能够直接为聚类分析技术所处理,极大的提高了处理速度。 其次,在管理信息系统的运行过程中,枯燥的数据录入、生成过程大部分为机器 自动生成,杜绝了以前人工统计报告所产生的误差,使得进行分析处理数据的质量得 到了较大的提高,从而保证了聚类分析结果的准确性。同时,计算机技术使得基于数 值计算的聚类分析技术更易于实现。 2 1 3 聚类技术的发展 如前所说,人们已经提出了很多种聚类方法,每一种方法都有各自的理论基础和 应用领域。下面将按其技术发展的成长顺序分别予以介绍。 ( 1 ) 相似聚类法 它依据样本属性值的相似度,将两个样本分入到同一类中,而相似度是关于该样 本属性的一个函数,换句话说,将一个样本分入某类中所要核对的是该样本的属性值 是否满足该类动态形成的要求。 相似聚类又分为系统聚类( 预先不知道应分为几类) 和动态聚类( 预先确定好要 分成几类) 。 相似聚类有着广泛的应用。在地质勘探中根据矿石的各种性态进行合理的分类; 在地震预报中根据各种前兆指标把不同时间段的地质及大小进行分类,但与此同时, 它亦有一些不足之处,这将在下文中逐步提到。 ( 2 ) 环境聚类法 相似聚类属于上下文无关聚类,就是说e 中样本e i 和e 2 的相似性度量完全依赖 于该二样本本身的属性,并不受其上下文( 即与该二元素有关联的环境样本) 影响。 这对于一些“静态”数据聚类分析还是可行的,但对于“动态”数据,应用起来就不 那么令人满意了。 而环境聚类将人们的注意力从客体的相似性推广到相似性之外。尽管所得的类提 供了更多的信息,但环境聚类技术同相似聚类技术一样,也是与概念无关的,没有提 供概念级的聚类,即所得的结果不易于用人类所能够理解的语言表征出来。因而,有 灰色聚类分析法及其在县( 市) 科技实力评价中的应用 可能阻碍了对未来观察的预见或以智能方式恢复已经压缩的数据,为了克服上述局限 性,出现了概念聚类技术。它的出现给聚类技术家族带来了实质性的转变。 ( 3 ) 概念聚类法 从概念聚类的角度来看,一些样本之所以可以被聚成一类,不仅仅是因为它们在 某些属性方面彼此相似或这是与其上下文有着某些特殊的联系。而主要是因为这些样 本在一起能够表达某个概念。而这一概念表征的是这些元素作为一个整体所作为一个 整体所具有的性质。 有人认为,可以把概念聚类过程看成是由三个搜索过程所组成的: 在概念层次空间中搜索,寻找确定较佳概念层次的结构,在该结构的每一个 层次上,执行下属二个搜索过程; 在可能的聚类空间中搜索,寻找确定较优的分割,即确定一种聚类方案; 在完成上述两过程的基础上,在概念描述空间中搜索,为所产生的聚类导出 较合适的概念描述。 由于大多数系统的搜索法都是穷尽法或爬山法,如何提高效率而又尽可能不溜掉 最佳解仍是主要问题。 ( 4 ) 目标聚类法 目标聚类产生的本原在于前面所考虑的聚类技术均为考虑目标为考虑之所以聚 类的目标,未考虑用户对聚类结果的期望,未考虑聚类结果的应用,因而有可能产生 “答非所问”的现象,使得聚类结果与用户的愿望或应用环境不符。在实际中受到普 遍欢迎的大部分都是基于目标函数的方法,该方法设计简单,而且其解决问题的范围 广,最终还可以转化为优化问题而借助经典数学的非线性规划理论求解,并易于计算 机来实现。因此,随着计算机的应用及其快速发展,目标聚类法将成为聚类研究的热 点。 同时,随着众多学者在数学领域的深入研究及计算机技术的快速发展,聚类分析 技术必将不断发展,为人类社会的各个应用领域做出贡献。 2 1 4 模糊聚类分析法 现实的问题往往带有模糊性,一组事物是否能归并为一类,一个事物是否属于某 一类,都不是泾渭分明的,而是有一个程度问题,我们不能明确回答“是”或“否”, 只能作出“某种程度上是”的回答,这就是模糊聚类分析。 聚类可以描述为:设x 的n 个样本,表示为x k ( k = l ,2 ,n ) ,把 x i ,x 2 ,x 。) 区分为 c 个子集,2 c n ,要求相似的样本应该尽量的在同一类,不相似的样本应在不同的 类。 粗略的,我们可以把模糊聚类方法分为:传递闭包法,编网法,基于图伦的方法, 软划分法( 也可以称为基于目标函数的方法) 。 南京航空航天大学硕士学位论文 ( 1 ) 传递闭包法 传递闭包法是最基本也是较常用的一种方法。其理论基础是模糊等价关系。一个 模糊等价关系( 模糊等价矩阵) 可以确定一个模糊分类。通过标定所得的模糊相似关 系矩阵未必是模糊等价矩阵。因此,传递闭包法主要的内容就是根据模糊相似关系矩 阵求出对应的模糊等价矩阵。求模糊等价矩阵常用的方法就是平方法,这种方法需要 就模糊相似矩阵多次自乘,以得到相应的模糊等价矩阵,因此,计算量较大。 ( 2 ) 编网法 我国学者赵汝怀在1 9 8 0 年提出了编网法,它是模糊聚类直接方法在表格上的体 现,避免了传递闭包法的繁琐计算。该方法直接在模糊相似矩阵上操作,使用起来更 为直接简便。 ( 3 ) 基于图论的方法 基于图论的方法主要是利用图伦中“树”的概念构造出来的方法。主要是模糊聚 类最大树方法。与编网法一样,最大树方法也是直接从模糊相似矩阵出发,比较简单, 直观易懂,其基本思路是:构造一个特殊的图,以所有被分类的元素为顶点,当模糊 相似矩阵r 中的元素r “o 时,将顶点x j 与顶点x j 用一条线连接起来,并且标上权重 r i i 。具体画法是先画出顶点集中出的某个顶点,然后按照r 。i 由大至小的顺序依次连边, 标上权值r i j ,在连边时要求不产生回路( 使之成为数) ,直到所有元素连通为止,这样就 得到一棵最大树( 由于具体连发不同,最大树不唯一) ,适当选取 ( 0 1 ) ,砍 去权值低于 的边,相互连通的元素归于一类,这样就得到了一个分类。 ( 4 ) 软划分法( 基于目标函数的方法) 软划分法是相对于硬划分而言。软划分不童接得出样本属于哪类,而是得出样本 属于各类的隶属度。与上面的三种方法不同,软划分法需要事先给出分类数c 。根据 给定的c 进行初始分类,从初始分类出发,通过迭代算法,反复修改初始分类,在使 目标函数达到最优时,得到聚类结果。聚类结果是模糊隶属矩阵和聚类中心。模糊隶 属矩阵是表征每个样本隶属于各类别的隶属度。 2 2 灰色聚类分析法 2 2 1 灰色聚类分析法定义 1 9 8 2 年,我国著名学者邓聚龙教授创立了灰色系统理论。与研究“随即不确定 性”的概率统计和研究“认知不确定性”的模糊数学不同,灰色系统理论的研究对象 是“部分信息未知”的“小样本”、“贫信息”不确定性系统。它通过对“部分”已知 信息的生成、开发去了解、认识现实世界,实现对系统运行行为和演化规律的正确把 握和描述。灰色系统模型对试验观测数据及其分布没有什么特殊要求和限制。 灰色聚类分析法及其在县( 市) 科技实力评价中的应用 灰色聚类是根据灰色关联矩阵或灰数的白化权函数将一些观测指标或观测对象 聚集成若干个可定义类别的方法。一个聚类可以看作是属于同一类的观测对象的集 合。在实际问题中,往往是每个观测对象具有许多个特征指标,难以进行准确的分类。 例如“因材施教”是教育界讨论了许多年的一个问题,由于难以区别各个学生到底属 于哪一类人才范畴而无法付诸实施。至今我们仍旧沿袭着对群天赋不同、志趣各异 的学生“同堂授业”这种既扼杀天才,又使一般人才感到诸多不便的教育方式。在用 人问题上,由于不能准确地对具有不同能力的人进行归类,造成用人失误,给事业带 来损失。 灰色聚类按聚类对象划分,可分为灰色关联聚类和灰类白化权函数聚类。灰色关 联聚类主要用于同类因素的归并,以使复杂系统简化。通过灰色关联聚类,我们可以 检查许多因素中是否有若干个因素关系十分密切,使我们既能够用这些因素的综合平 均指标或其中的某一个因素来代表这几个因素,又使信息不受严重损失。这是属于系 统变量的删减问题。在进行大面积调研之前,通过典型抽样数据的灰色关联聚类,可 以减少不必要变量的收集,以节省经费。灰类白化权函数聚类主要用于检查观测对象 是否属于事先设定的不同类别,以便区别对待。具体做起来,灰类白化权函数聚类比 灰色关联聚类复杂一些。 灰色变权聚类适用于指标的意义、量纲皆相同的情形。当聚类指标的意义、量纲 不同且不同指标的样本值在数量上悬殊较大时,不宜采用灰色变权聚类。 当聚类指标意义不同、量纲不同,且在数量上悬殊很大时,采用灰色变权聚类可 能导致某些指标参与聚类的作用十分微弱。解决这一问题有两条途径:一条途径是先 采用初值化算子或均值化算子将各指标样本值化为无量纲数据,然后进行聚类。这种 方式对所有聚类指标一视同仁,不能反映不同指标在聚类过程中作用的差异性。另一 途径是对各聚类指标事先赋权。第二种聚类方法就是本文所采用的灰色定权聚类法。 关于灰色定权聚类模型的建立,将在下一章予以介绍。 2 2 2 灰色聚类与模糊聚类的区别 灰色聚类和模糊聚类都是研究一组对象的归类问题。但是,这两种聚类分析方法 的理论依据和应用范围是不同的,主要表现在: ( 1 ) 灰色聚类的灰类个数及灰类标准,灰类白化函数都是预先确定的,不变的而模 糊聚类分析的类别标准及类的数目只有经过具体计算后,才能得知,并且与截距水平有 关 ( 2 ) 灰色聚类的关键是指定合适的灰类白化函数公式,即灰类标准;而模糊聚类的 关键是选用合适的相似度计算公式 ( 3 ) 灰色聚类是将各对象纳入指定的若干灰类,特别是允许某些灰类中没有具体 对象归入:而模糊聚类是按等价原则进行相对分组,且每一类中至少有一对象 塑壅堕窒塾丕查堂堡主堂焦笙苎 一 明确以上问题,我们将考虑现有灰色聚类分析模型的一个拓展问题众所周知,通 常的灰色聚类模型所采用的聚类白化数是一个实数,即一维实数轴上的一个点,在许 多实际问题中,的这种取值方法是既必要又可能的,由此得到的聚类结果也是合理可 信的。但是,在有些场合,由于人的或环境的不确定因素影响,人们无法得到白化数 确切数值,而仅能确知取值在某一区间类,这时,我们就面临着基于区间数指标值的 灰色聚类问题,因此必须扩展已有的灰色聚类模型,使之具有更广泛的应用价值。 灰色聚类分析法及其在县( 市) 科技实力评价中的应用 第三章县( 市) 级科技实力评价过程 3 1 县( 市) 级科技实力评价一般程序 根据科技实力评价的普遍过程,结合在本文中采用的处理方法,笔者提出了县 ( 市) 级科技实力评价的过程一般可以分为以下五个阶段: 第一阶段是预处理阶段,在这一阶段,主要完成数据的处理工作,包括对问题的 分析,数据的筛选,指标体系的建立等工作。为后面的数据分析做好完善的准备; 第二阶段是聚类分析阶段,主要工作是在完善的指标体系及有效的数据的基础上 进行聚类分析,得出聚类结果: 第三阶段是结合模糊综合评判对各县( 市) 整体进行评价: 第四阶段是生成决策树分析聚类结果; 第五阶段是针对聚类结果,进行定性分析,提出备县( 市) 科技发展的意见和建 议,为政府决策部门提供依据。 3 2 数据的预处理及指标体系确定阶段 3 2 1 数据的预处理 在评价的第一阶段,针对具体的应用实例,先要对问题作一个全面地分析,这需 要行业专家的密切配合。在对问题有了全面地认识基础上,就可以确定需要什么样的 数据,需要多长时间的数据,数据如何初步处理以方便后面的量化研究等等。 收集到的数据很可能是非常基础且无法位量化分析利用的,这时,我们需要对数据 进行预处理。预处理的第一步是确定用于评价的指标,即
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 汽修一级考试题库及答案
- 中医病因考试题目及答案
- 2025年广州中小学教师心理健康B证班结业考试题目及答案
- 检验技术员考试题及答案
- 科学数学考试卷子及答案
- 中国现代史考试题及答案
- 农民专业合作社与土地承包合同
- 规范税收缴纳承诺书8篇范文
- 合同管理标准化文件模板汇编
- 人员面试笔试题库及答案
- 2025年《燃烧与灭火》教案:从火灾的认识到灭火的技巧
- JJF1033-2023计量标准考核规范
- 人教版三年级下册数学计算题天天练附答案(30天)
- 2025森林抚育技术规程
- 病原微生物菌(毒)种和样本运输-项可霞
- 2024年03月中国工商银行湖南分行2024年度春季校园招考笔试历年参考题库附带答案详解
- 纪委谈话记录模板
- 统编版选择性必修上册7《兼爱》同步练习
- 2024建筑消防设施检测技术规范
- 《儿科病历书写规范》课件
- PAS 2050:2011-商品和服务在生命周期内的温室气体排放评价规范(中文)
评论
0/150
提交评论