基于支持向量机的科研立项评审系统研究_第1页
基于支持向量机的科研立项评审系统研究_第2页
基于支持向量机的科研立项评审系统研究_第3页
基于支持向量机的科研立项评审系统研究_第4页
基于支持向量机的科研立项评审系统研究_第5页
全文预览已结束

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于支持向量机的科研立项评审系统研究

统计学习理论是在传统统计基础上发展起来的一种具有坚实理论基础的机械学习方法。自20世纪90年代以来,由于三个原因,它已经形成了一个相对完整的理论体系。统计学习理论是由自身的三个方面组成的。提出了新的支持向量机的新方法。由于神经网络和其他学习方法都很困难,这项研究开始受到关注。目前,SVM已应用到很多领域:医疗诊断、主成分分析和降噪处理、新类别检测等。国内的一些学者也注意到了这一新的研究方向。基金项目的立项评审是一种典型的综合评价问题,且历来受到广大科技工作者、各级基金委员会及评审专家的关注,如何最大限度地克服各种主观因素的干扰,将有限的科研资金投入到最有希望取得明显科研成果的科研项目中去,使其发挥最大的效果成为问题的焦点。本文采用SVM理论,建立基金项目立项评审决策系统:根据评审专家对各申请项目各项指标的评价,对基金项目进行二值分类(资助与不资助),从而决定评审的结果。研究结果表明:与其它方法相比,本方法能取得更好的评审结果。1支持向量机的发展传统统计学是包括神经网络在内的众多机器学习方法的理论基础,它是学习样本数目趋于无穷大时刻的渐近理论,然而在实际中,样本数目往往是有限的,即这一条件得不到满足。因此,基于传统统计学的机器学习方法所取得的学习效果经常不尽人意。VladimirN.Vapnik等人自20世纪60年代开始,一直致力于小样本情况下机器学习理论的研究工作,并由此而发展成为统计学习理论,指出经验风险最小并不能保证期望风险最小;提出了结构风险最小化原理(StructureRiskMinimization,SRM);给出核心概念VC维(Vapnik-ChervonenkisDimension),指出为了最小化期望风险必须同时最小化经验风险和VC维。支持向量机是统计学习理论中最新的内容,也是最实用的部分。正因为SVM的提出,才促进了SLT的推广与发展。1.1族同分布观测系统最优期望风险机器学习是指在未知概率密度函数P(X)和联合概率分布函数F(X,y)的情况下,仅根据n个独立同分布观测样本在一族函数f(X,W),W∈Ω中求一个最优函数f(X,W0),使预测的期望风险取最小。式中L[y,f(X,W)]为采用f(X,W)对y进行预测而造成的损失。对于两类分类问题,损失函数可定义为:1.2经验风险最小期望风险的估算由于未知分布函数F(X,y),因此无法计算式(2)的期望风险最小值,而只能由样本式(1)来估算。因为由经验数据计算得出,所以称其为经验风险。所谓的经验风险最小化原理就是用最小经验风险来代替最小期望风险。目前的机器学习方法大多是基于经验风险最小化原理的,如在神经网络的学习算法中,使对训练样本的学习误差趋于最小甚至0。1.3vc维的定义为了研究从经验风险最小推广到期望风险最小的条件,统计学习理论定义了VC维这一极其重要的概念,详细定义由生长函数给出。模式识别方法中的VC维的直观定义为:对一个指示函数集,如果存在h个样本能够被函数集中的函数按所有可能的2h种形式分开,则称函数集能够把h个样本打散;函数集的VC维就是它能打散的最大样本数h。VC维在统计学习理论中扮演很重要的角色,然而除了一些特殊的例子,如n维实数空间中线性分类器和线性实函数的VC维是n+1,大部分情形下的VC维是无法精确计算的,如常用的前馈多层神经网络的VC维。1.4mp/wsf实际上,从经验风险最小而推至期望风险最小没有可靠的理论依据。统计理论指出:经验风险Remp(W)和实际风险R(W)之间至少以1-η的概率满足如下关系:其中n是样本数,h是函数集的VC维。由(5)式得出,期望风险不仅与经验风险有关,而且与VC维和学习样本有关。Vapnik指出:为最小化期望风险,必须同时最小化经验风险和VC维,即结构风险最小化原理。1.5svm的基本方法支持向量机的研究最初是针对模式识别中的两类线性可分问题,如图1。分割线1和分割线2都能正确地将两类样本分开,即都能保证使经验风险最小(为0),这样的分割线有无限多条,但分割线1使两类样本的间隙最大,称之为最优分类线(更高维即为最优分类平面)。统计学习理论指出最优分类线(平面)的置信范围最小。设线性可分样本集为(Xi,yi),是类别标号。d维空间中线性判别函数的一般形式为g(X)=W⋅X+b,分类面方程为将判别函数归一化,使两类所有样本都满足g(X)≥1,这很容易实现,只需等比例调节W和b即可。这样,分类间隔就等于,因此,求间隔最大变为求最小。满足的样本点,离分类线(平面)距离最小,它们决定了最优分类线(平面),称之为支持向量。图1中带斜杠的样本即为SV。可见,求最优分类面的问题转化为优化问题:本优化问题可以转化为通过对(8)的求解,可得最优分类函数为式中b的求解可通过任选一支持向量,由(7)式的约束方程(此时取等号)求出。根据KT条件,对于大多数的样本而言,αi=0。对应αi≠0的样本即为支持向量。(9)式也说明由支持向量集决定的分类面和由全体样本集决定的分类面是等价的。对于线性不可分问题,Vapnik引入了核空间理论:将低维的输入空间数据通过非线性映射函数映射到高维属性空间,将分类问题转化到属性空间进行。可以证明,如果选用适当的映射函数,输入空间线性不可分问题在属性空间将转化为线性可分问题。这种非线性映射函数被称之为核函数。从理论上讲,满足Mercer条件的对称函数K(X,X′)都可以作为核函数。引入核函数后,以上各式中向量的内积都用核函数代替。从上面的讨论不难看出,具体应用SVM的步骤为:选择适当的核函数→求解优化方程,获得支持向量及相应的Lagrange算子→写出最优分界面方程。上面介绍的是二值分类器,基于SVM的多值分类器的构造可以通过组合多个二值子分类器来实现,具体的构造方法有一对一和一对多两种。2基金项目成绩评审严格地讲,不同级别、不同地方的科研立项评审方法存在差异,如国家自然科学基金较为强调基础理论研究,而省部级基金则可能更为重视与本地、本部门应用的结合。然而,由于各基金主管部门相互之间经验的借鉴和交流,评审的总体思路和具体操作过程大同小异,差别在于具体数据的处理形式上。在此以广东省自然科学基金评审过程为例,说明科研立项评审的具体操作。基金项目立项评审主要是通过多名申请课题所在学科内的专家对申请课题的各项指标进行评估,这些指标是在多年评审中归纳出的一个体系,它可以分为4大项,每一大项又包含3~5个具体指标,如表1所示。基金项目立项评审的具体操作过程大致可以分为3个阶段。(1)打分由5~7个学术专家按表1所示的指标集对申请课题的各项指标进行打分,一般每个指标可以依照水平的高低打A,B,C,D4个值,这样对每一项申请指标都会得到5~7份原始专家评审表。(2)综合由工作人员采取某一方法将这些原始表格进行综合,得到一份与原始表格格式完全一致的综合表格。(3)排序对所得的综合表格按得分高低进行排序,排序公式可为式中xi为第i个指标的得分,wi为第i个指标的权重。得分高的即获得资助。在有些地区可能还会进行下一步骤:协调与评议,即基金委员会根据学科分布、地区平衡等因素对排序靠前的项目进行协调,在此基础上,可能还会请通过协调的项目的负责人集中进行答辩,最后再由评委根据负责人的答辩成绩结合评审专家的打分成绩决定最后的资助情况。从上面的介绍可以看出,在评审的各个阶段都可能存在人为主观因素的干扰:打分过程主要依赖学术专家个人的知识范围、精神状态、道德水准等;综合与排序两步骤所取得的结果与所选择的参数和方法紧密相关;协调和评议更可能会给某些人提供好处。3基于svm的耐评系统设计设计基于SVM的立项评审系统实质上就是将SVM理论应用到模式识别上,即通过学习确定两类申请项目的分界面。图2给出了基于SVM理论的立项评审系统的设计方法框图。本评审系统设计主要涉及3个方面:从较多的样本数据中选择支持向量;由支持向量建造基于SVM的评审系统;对未知类别样本进行评审。3.1支持向量的向量提取以1999年的工程类项目为例,该年总共有131个申请项目,从中随机选择81个项目作为学习样本,剩余50个样本留作评审用。由于本系统具有较强的线性关系,因此可直接采用向量的内积作为核函数,即将81个学习样本各指标的综合得分及与之对应的评审结果代入(8)式,并求解该方程即得到支持向量集及与各支持向量对应的Lagrange系数。本例中共有17个支持向量。3.2最合适的分类将上一步获得的支持向量集及与各支持向量对应的Lagrange系数代入(7)式和(9)式,可得最优分类面3.3对评价模型的改进利用最优分类面进行评审,将评审样本依下式分类为了进一步提高评审的精度

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论