基于SVM的我国区域创新能力的甄别技术研究.docx_第1页
基于SVM的我国区域创新能力的甄别技术研究.docx_第2页
基于SVM的我国区域创新能力的甄别技术研究.docx_第3页
基于SVM的我国区域创新能力的甄别技术研究.docx_第4页
全文预览已结束

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于SVM的我国区域创新能力的甄别技术研究 摘要:文章采用基于统计学习理论的小样本分析方法支持向量机(SVM),构建了我国区域创新能力甄别的SVM模型,对我国区域创新能力进行了甄别。研究表明,各组检验样本的平均正确甄别率都在90%以上,证明支持向量机对区域创新能力具有良好的识别能力,特别是表现出对小样本的适应性,为我国区域创新能力评价提供了新的方法和思路。 下载 关键词:区域创新能力;甄别技术;支持向量机 一、 引言 区域创新能力是区域经济增长和竞争的决定性因素,其强弱是衡量一个区域技术创新实力的重要尺度。一个国家、一个地区、一个企业能否在市场竞争中取得优势,在相当大的程度上取决于技术创新能力的大小。如何科学地甄别我国区域创新能力,有利于研究我国区域创新系统的演化规律和落后地区借鉴创新能力较高地区的发展经验,从而促进区域经济协调发展。 目前,对我国区域创新能力的定量测定一般局限于参数估计方法(如因子分析法、聚类分析法和主观加权评分法等)。如:侯风华和赵国杰将区域创新能力分为当前创新能力和潜在创新能力,建立了包含22个指标的区域创新能力评价指标体系,对我国东部地区10省市的创新能力进行了评价。孙锐和石金涛以及周立和吴玉鸣运用因子分析法和聚类分析法对2004年中国区域创新能力的数据结构进行深入分析,并得出了基于因子分析法和聚类分析法的排序结果。何亚琼等采用二次相对评价模型对中国31个省市区域创新能力增长效率进行测算,并通过理论分析与实证研究,比较CCR模型与BCC模型的计算结果在衡量增长效率方面的适用性。任胜钢和彭建华运用因子分析法对中国31个省级地区进行分析,对比东、中、西部区域创新能力,将区域创新能力与经济发展水平进行相关分析,并提出相关政策建议。事实上,由于我国省级行政区只有31个(基本上属于小样本范畴),同时因为区域创新能力的影响因素众多、关系复杂,因此,采用这些方法得出的分析结果的可靠性和准确性还有待进一步提高。 基于此,本文采用基于统计学习理论的小样本分析方法支持向量机,构建了我国区域创新能力甄别的SVM模型,对我国区域创新能力进行了甄别,为我国区域创新能力评价提供了新的方法和思路。 二、 区域创新能力甄别的SVM模型 1. 样本集线性可分情形。支持向量机是利用最大间隔思想来降低分类器的VC维,以实现结构风险最小化准则。假定训练样本(xi,yi),i=1,2,n为样本数,输入集xiRm,m为样本维数,本文代表信息甄别指标的个数;输出集yi-1,0,+1,yi=-1,0,+1为分类标号,本文分别代表基于输入集xi的区域创新能力高低的信息甄别标号,如“领先型区域”(综合因子得分在29分以上)的省市创新能力强,则我们取+1;“追赶型区域”(综合因子得分介于13分29分之间)的省市创新能力一般,则我们取0;“落后型区域”(综合因子得分在13分以下)的省市创新能力弱,则我们取-1。学习目标在于构造一个判别函数g(x)=w?x+b(wx表示向量wRm与xRm的内积)将训练样本尽可能地正确分类,以实现对空间XY的正确划分,在此基础上寻找最优分类超平面。该平面不但可以将训练样本正确分开,而且使两类分类间隔最大(实现对推广能力的控制),最优分类超平面方程为wx+b=0。 通过等比例缩放w和b,对分类超平面做归一化处理,则有: 由此可见,非线性支持向量机由训练样本集和核函数完全刻画,构造和选择合适的核函数K(xi,xj)是确定支持向量的重要内容,目前主要常用4类核函数: (1)线性核函数(Linear):K(xi,xj)=xiTxj; (2)多项式核函数(Polynomial):K(xi,xj)=(?酌xiTxj+r)d,?酌0; (3)径向基核函数(Radial Basis Function,RBF):K(xi,xj)=exp(-?酌|xi-xj|2),?酌0; (4)两层神经网络核函数(Sigmoid):K(xi,xj)=tanh(?酌xiTxj+r)。 其中,?酌、r、d是对应核函数的参数,可以根据测试要求进行调试。 三、 实证研究 1. 指标选择与样本设定。 (1)样本输入集xi的信息甄别指标选择。基于实证研究结果的可比性和对区域创新能力进行甄别的要求,本文选择中国区域创新能力报告中的知识创造能力、知识获取能力、企业创新能力、创新环境以及创新绩效等5个方面来作为区域创新能力高低的信息甄别指标。 (2)样本输出集yi的区域创新能力高低的甄别标号确定。基于输入集xi的区域创新能力高低甄别标号的选择:“领先型区域”(综合因子得分在29分以上)的省市创新能力强,则我们取+1;“追赶型区域”(综合因子得分介于13分29分之间)的省市创新能力一般,则我们取0;“落后型区域”(综合因子得分在13分以下)的省市创新能力弱,则我们取-1,所以我国31个省(市、自治区)创新能力甄别的输出标号见表1。 (3)样本设定。由于本文是对我国31个省(市、自治区)区域创新能力的高低进行甄别考察,所以样本容量为 i=31。为了实验对比的研究需要,本文选择了训练样本和预测样本相互交换的两组样本:第一组样本的训练样本为2005年2006年的知识创造能力、知识获取能力、企业创新能力、创新环境、创新绩效等5个识别指标组成的输入集(输入集维数m=5)和对应区域创新能力高低的甄别标号形成的输出集来组成的样本,预测样本为2005年2006年的对应输入集和输出集;第二组样本的训练样本为2006年2007年的输入集(输入集维数m=5)和输出集,预测样本为2005年2006年的输入集和输出集来组成的样本。 2. 支持向量机的核函数及其对应参数选择。 (1)最优核函数选择。本文运用的支持向量机实验软件是Li- bsvm-2.8。基于各个核函数都与惩罚因子C有关,所以我们先固定C=100,反复调试各个核函数中的其它对应参数,来对比不同核函数对年报信息的甄别效果,从而选择最优核函数。表2中列出了两组样本的实验对比结果。 同时,CV过程能够解决对训练样本的“过拟合”问题,从而提高预测样本对分类识别的准确度,图2显示了CV过程对预测样本两分类效果的改善过程:以上实验对比结果显示:在固定共有惩罚因子(C=100)的前提下,由于选择不同核函数导致SVM对年报信息甄别的效果差异,两组样本的径向基核函数的平均正确识别率最高(82.99%和80.99%),线性核函数的平均正确识别率最低(37%和37.35%)。因此,本部分选择识别能力最强的径向基核函数(RBF)作为最优核函数。 (2)最优核函数(RBF)的最优参数选择。在径向基核函数中涉及两个最重要参数:一是惩罚因子C,一是参数?酌,求解最优惩罚因子C和参数?酌有多种方法可以选择。我们可以利用交叉比对过程(Cross Validation,CV)来实现最优参数的自动搜索。对于v层(v-fold)交叉比对过程,首先将训练样本等容量地分成v个子集,第i个子集通过已经被余下的(v-1)个子集训练过的分类器进行反复测试,选取测试正确识别率最高的(C,?酌)组合作为最优参数。 交叉比对过程可由网格搜索法(Grid-search Appr-oach)来实现。网格搜索法是按指数(Exponential)成长方式增加或减少参数数值来进行试算(如C=2-5,2-3,215、?酌=2-15,2-13,23),将C和?酌分别取N和M个值,用NM个(C,?酌)组合来训练不同的SVM,在NM个(C,?酌)组合中选取最高推广识别率的(C,?酌)组合作为最优参数。富有效率的网格搜索过程分两步来实现:第一步是粗搜索(在所有网格中近似搜索识别精度最高的(C,?酌)组合);第二步是精搜索(在搜索到的识别精度最高的(C,?酌)组合的邻域内进一步搜索精度更高的(C,?酌)组合)。 3. 研究结果。确定最优核函数及对应最优参数后,运行预测子模块(Svm Predict)得到最优预测结果。本文列出了两组样本中对预测样本的实际结果和预测结果对比表3,以便考察支持向量机对区域创新能力进行识别的能力。 四、 结论 支持向量机是一种最新机器学习方法,它利用靠近边界的少数向量构造最优分类超平面,使学习机器与有限训练样本相适应,实现良好泛化能力。目前,国外对支持向量机的研究方兴未艾、发展迅猛,已经成功应用于人脸识别、语音识别、医疗诊断、数据挖掘等方面。本文通过支持向量机对区域创新能力的识别进行了实证研究,得出以下结论。 1. 支持向量机在区域创新能力识别中的实证研究效果良好,两组样本的正确识别率都为93.55%,表现出支持向量机对有限样本的良好泛化能力(特别是对小样本的适应性),证实支持向量机对区域创新能力评价指标信息具有良好的甄别能力。同时,也证实本文所采用的区域创新能力评价指标体系具有一定的合理性和科学性。 2. 支持向量机在区域创新能力识别预测中存在着一定的误识率(两组样本均为6.45%),证实了所采用的区域创新能力指标体系存在着一定程度的问题,干扰了支持向量机对相关信息的甄别能力。 3. 通过训练样本和预测样本实验结果的对比分析发现,训练样本正确识别率(100%)均高于预测样本正确识别率(93.55%),说明支持向量机的推广能力有待进一步改善。支持向量机的识别效果取决于核函数及其最优参数的选择,因此应针对自主创新应用领域对支持向量机作进一步深入研究(包括:核函数的构造与选择、惩罚函数的改进、优化算法的实现过程,以及优化支持向量机的分类性能和信息甄别能力),进一步提高支持向量机对区域创新能力的识别能力。 4. 通过少数错误识别结果的信息甄别指标与绝大多数正确识别结果的信息甄别指标的对比分析发现,错误识别结果的信息甄别指标存在着一定的异常值,这些异常值往往是由地区的相关经济政策变化等影响因素(如重庆设立直辖市)造成的。因此,建立更全面、更科学并且考虑动态变化的区域创新能力的信息甄别指标体系,会进一步改善支持向量机的识别效果。 参考文献: 1. 侯风华,赵国杰.我国东部省市的区域创新能力评价研究.科学管理研究,2008,26(2):21-23. 2. 孙锐,石金涛.基于因子和聚类分析的区域创新能力再评价.科学学研究,2006,24(6):986-990. 3. 周立,吴玉鸣.中国区域创新能力:因素分析与聚类研究兼论区域创新能力综合评价的因素分析替代方法.中国软科学,2006,24(8):96-103. 4. 何亚琼,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论