基于支持向量机的肿瘤分类特征基因选取_第1页
基于支持向量机的肿瘤分类特征基因选取_第2页
基于支持向量机的肿瘤分类特征基因选取_第3页
基于支持向量机的肿瘤分类特征基因选取_第4页
基于支持向量机的肿瘤分类特征基因选取_第5页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、计算机研究与发展JournalofComputerResearchandDevelopmentISSN100021239/CN1121777/TP42(10):17961801,2005基于支持向量机的肿瘤分类特征基因选取李颖新阮晓钢(北京工业大学电子信息与控制工程学院北京100022)(lyxboysina1com)FeatureSelectionforCancerClassificationBasedonSupportVectorMachineLiYingxinandRuanXiaogang(SchoolofElectronicInformationandControlEngineerin

2、g,BeijingUniversityofTechnology,)AbstractFeatureselectionisanessentialsteptoperformmicroarrays,fortherearealargenumberofgenesfromwhichtoasmallnumberofsamples1Thisworkaddressestheproblemofselectionofforclassificationfrombroadpatternsofgeneexpressionprofilesby2selectionmethod1Thefirststepusesanewmet2r

3、icproposedinthisclassseparabilitytoremovethegenesirrelevanttotheclassifica2tiontask,andmachinewithradialbasisfunctionkernelisappliedtovalidatetheclas2sificationofthegenesselectedfordistinguishingdifferenttissuetypes1Thesecondstepfiltersouttheredundantgenesbythesensitivityanalysisbasedonthesupportvec

4、tormachineclassifierafterpair2wiseredundancyanalysis1Thetwostepsareappliedtothegeneexpressionprofilesofhumanacuteleukemi2a,andabetterandmorecompactgenesubsetisobtainedincontrastwiththebaselinemethod,whichshowsthefeasibilityandeffectivenessofthemethodproposed1Keywordsfeatureselection;supportvectormac

5、hine;geneexpressionprofiles;cancer摘要依据基因表达谱有效建立肿瘤分类模型的关键在于准确找出决定样本类别的一组特征基因1针对该问题,在分析肿瘤基因表达谱特征的基础上,研究了肿瘤分类特征基因选取问题1首先,提出了一种新的类别可分性判据以滤除分类无关基因,并采用支持向量机作为分类器进行特征基因分类性能的检验1然后,采用两两冗余分析及基于支持向量机分类模型的灵敏度分析法进行冗余基因的剔除1以急性白血病亚型分类特征基因选取为例进行实验,结果表明了上述方法的可行性和有效性1关键词特征选取;支持向量机;基因表达谱;肿瘤中图法分类号TP39114;TP181;Q6171引言随

6、着大规模基因表达谱技术的推广,人们利用DNA芯片可以在一次实验中同时获得组织样本中收稿日期:2004-04-28;修回日期:2005-01-11基金项目:国家自然科学基金重点项目(60234020)成千上万个基因的表达水平11依据DNA芯片测定的基因表达谱建立有效的分类模型,在分子水平上实现对肿瘤类型及亚型的准确识别对肿瘤的诊断和治疗具有重要意义2,31然而,数据集中的每个样本都记录了组织样本中所有可测基因的表达水平,李颖新等:基于支持向量机的肿瘤分类特征基因选取1797而实际上只有少数基因才真正同样本类别相关1如何发现对样本分类而言至关重要的一组基因作为样本的分类特征基因,是建立有效分类模型

7、的关键所在,同时也是发现肿瘤分类与分型的基因标记物及药物治疗潜在靶点的重要手段1鉴于肿瘤分类特征基因选取的重要性,目前已经出现了针对该问题的大量研究文献471本文在分析肿瘤基因表达谱特征的基础上,以急性白血病的亚型分类为例,研究了肿瘤分类特征基因选取问题1首先修正了Golub等人提出的“信噪比”指标以更加全面的衡量基因蕴含的样本分类信息,并以此为依据滤除分类无关基因1然后,采用“两两冗余”分析和基于支持向量机分类模型的灵敏度分析法进行冗余基因的剔除1利用上述方法,本文通过实验得到了16个分类特征基因,利用该组基因的表达水平可实现对急性白血病两种亚型的准确分类1测基因的表达水平1然而只有少数基因

8、才包含了样本具体的类别信息,大部分基因与样本类别并不相关,作为分类无关基因存在,称为“无关基因”或“噪声基因”1在衡量基因包含样本分类信息多少的度量问题(signaltonoiseratio,上,Golub等人提出了“信噪比”S2N)指标4,即(1)d(g)=,g+g-其中,d(g)为基因g的信噪比,g+,g-分别为基因g在ALL和AML两个类别中表达水平的均值,g+,g-由式1)知,在ALL,AML两个,d(g)=0,1然而,如果该基因,比如在ALL中的分布方差很小,而在AML中分布方差很大,那么从生物学角度分析,这种在ALL中近似一致性的表达说明该基因很可能是与ALL致病机理紧密相关的特征

9、基因,依据该基因的表达水平也可以进行样本类别的判断81同时,就模式识别而言,两个类别中样本数据分布方差的较大差异也能提供样本的分类信息91基于上述分析,在衡量基因含有样本分类信息多少的度量问题上,还应考虑到方差不同带来的对样本分类的贡献,这样可以更加全面地评价基因含有的分类信息量1为此,本文对Golub等人提出的“信噪比”指标进行了修正,修正后的指标为d(g)=2DNA芯片所测定的组织样本中基因的表达水平值1本文的分析对象为Gol2ub等人公布的急性白血病基因表达谱数据集41该数据集共有72个急性白血病样本,每个样本均含7129个基因的表达数据1其中47个样本被诊断为急性淋巴性白血病(acut

10、elymphoblasticleukemia,ALL),25个被诊断为急性骨髓性白血病(acutemyeloidleukemia,AML)1整个数据集被划分为训练集和测试集,如图1所示:g+-g-g+g-22+ln122g+g-(2)Fig11Datasetofleukemiageneexpressionprofile1图1急性白血病基因表达谱数据集本文以急性白血病的亚型分类为例,对肿瘤基因表达谱数据进行分析1分析的目标是找出决定样本类别的一组分类特征基因,实现对AML和ALL两类样本的准确分类1为同“信噪比”指标区别开来,d(g)在本文中称为基因的“分类信息指数”(informationin

11、dextoclasssification,IIC)1该指标由两部分构成:第1项实际上是Golub等人定义的“信噪比”指标;第2项体现了表达水平分布方差的不同对样本分类的贡献1依据该指标,即使基因在两类不同样本中表达水平的均值相同,只要分布方差出现大的差别,仍可以获得较大的分类信息指数1基因的分类信息指数越大,含有的样本分类信息就越多,对样本的分类能力也就越强1依据式(2),本文在训练样本集上计算了每个基因的分类信3分类无关基因的过滤肿瘤基因表达谱数据的一个显著特点是样本少、维数高1每个样本都记录了组织细胞中所有可息指数,并做出了基因分类信息指数分布的直方图,如图2所示,具体的分布情况如表1所示

12、11798计算机研究与发展2005,42(10)(1)在训练集上采用(leave2one2out“留一法”crossvalidation,LOOCV)进行样本识别,即在训练Fig12HistogramofIICvaluescalculatedwithtrainingset1图2训练集上基因分类信息指数分布的直方图Table1DistributionofIICValuesofTrainingSet表1训练集上基因分类信息指数的分布情况IIC0100140140180182112NumberofGenes6278655196Percentageof7129Genes(%)881191集上每次保留一

13、个不同的样本作为测试样本,其余样本用做SVM的训练样本1重复该过程,直到训练集上所有样本均有一次机会被用做测试样本为止1记录所有被错误分类的样本数作为留一法的分类错误数,记为ErrLOOCV1(2)利用训练集中的所有样本作为SVM的训练样本,对测试集中的样本逐一进行识别,该过程称(independenttest,IT)实验1所有被错为“独立测试”误分类的样本数作为独立测试实验的分类错误数,记为ErrIT1、多项式核函数、函及(basisfunction,)SVM对样本的,RBF核函数,其形式为(4)1通过实验本文选取=10,SVM上界控制因子C=5001利用该SVM模型作为分类器,在“留一法”

14、和“独立测试”实验中,得到的分类错误数ErrLOOCV及ErrIT均为01这说明利用选出的这196个基因,可实现对原始样本集中所有样本的正确分类,无需进一步扩大基因选取的范围;该组基因已经包含了完整的样本分类信息,以此作为分类特征可有效构建样本的分类模型,从而完成对未知亚型样本的准确识别1K(x,y)=e-x-y222由图2和表1指数都很小,表明这些基因在ALL和AML两个类别中的表达水平无论是均值还是方差均无明显差异,在分布上具有“近似一致性”1只有少数基因才具有相对较大的分类信息指数1本文初步选择了分类信息指数大于018的196个基因作为进一步分析的基础14基因分类能力的检验为检验选出的1

15、96个基因是否包含了完备的样本分类信息,本文以这196个基因作为样本的分类特征,采用支持向量机作为分类器进行样本亚型的识别1支持向量机(supportvectormachine,SVM)是由Vapnik等人基于统计学习理论,采用结构风险最小化原理提出的一种机器学习算法10,可在有限样本条件下获得良好的推广能力1若给定样本集的形式为ST=(xi,yi)|xiRd,yi-1,+1,i=1,N,则SVM的判别函数为sv5冗余基因的排除依据基因的分类信息指数所选出的196个基因可以做到对样本集中所有样本的准确分类,从这个角度讲,该组基因就可以作为样本的分类特征基因1然而在这196个基因中还可能存在冗余

16、1冗余基因尽管也包含了样本分类信息,但其存在与否并不会影响到整个分类特征基因集合的样本分类能力1冗余基因的排除可以进一步降低特征基因集合的维数,从而提高分类器的性能11,12,同时也可以使生物医学研究更具针对性1在此,本文研究了冗余基因去除的方法1511“两两冗余”分析从生物学角度分析,基因之间存在着调控和相互作用的关系,这在表达谱中反映在不同基因在表达水平上存在着一定程度上的相关性1可以据此进行冗余基因的初步排除1基本方法为对得到的196g(x)=sgn(i=1yK(x,x)iii+b),(3)式中sv为支持向量的个数,K(x,xi)为核函数1由于基因表达谱数据集样本数量少,为了获得对分类错

17、误率的可靠估计并同已有的研究成果进行比较,本文采用如下两个步骤进行样本类型的识别:李颖新等:基于支持向量机的肿瘤分类特征基因选取1799个基因,在训练集上计算任意两个基因表达水平间的相关系数,若其相关系数大于指定的阈值,则认为这两个基因是强相关的,排除二者中分类信息指数较小的那个基因1该过程在本文中称为“两两冗余”分析,基因间相关系数的计算本文采用了统计学中常用的Pearson相关系数1表2列出了在不同阈值条件下进行“两两冗余”分析后剩余的分类特征基因的数量以及利用这些基因进行样本识别时的分类性能1样本识别实验及采用的SVM分类模型同第4节1Table2ResultsofPair2WiseRe

18、dundancyAnalysiswithDifferentThreshold数为S(xj)=|xj|,xST(6)其中,S(xj)为xj的灵敏度函数,ST为训练样本集1将式(5)代入式(6),并将RBF核函数的具体形式(4)代入有:S(xj)=xjxSTxST(iyiK(x,xi)+b)xji=1(-iyiexji=12svi=1svsvsv=xSTx-xi222+b)表2不同阈值条件下“两两冗余”分析的结果)NumberofGenesRetainedErrOOCVThreshold(01901801750172501712501714083675900011ErrITxST-iyix-x22

19、2(xij-xj)-xj)=000000S=1y(x,x)(xiisvij由表2知,当阈值=01725时,得到了对原始样本集中所有样本都能正确分类的最小特征基因数1这样,原来的196个基因经“两两冗余”分析,得到了59个分类特征基因1512基于SVM分类模型的灵敏度分析“两两冗余”分析考虑的是“单个”基因间的相互作用关系1为进一步去除冗余,本文直接从各分类特征对分类模型决策函数的影响程度出发,并对分类特征集合整体的分类能力进行考察,研究了基于分类模型进行冗余去除的方法1基于模型的灵敏度分析是指针对某一特定的分类模型而言,各个分类特征影响模型输出能力的大小5,6,即分析模型输出对输入各分量的敏感

20、程度1本文采用的分类模型为采用RBF核函数的SVM,见第4节所述1svSVM的判别函数为g(x)=sgn(xi)+b),其决策函数,即分类决策面为svi=1yK(x,iiO(x)=i=1yK(x,x)iii+b1(5)在此,本文分析了输入特征向量x=x1,x2,x59T中各个分量对决策函数的影响,并定义输入x中第j个分量xj对决策函数O(x)的灵敏度函yK(x,xi)(xij-xj)1(7)2xSTi=1ii输入特征向量x的第j个分量xj即对应于第j个分类特征1利用式(7)可以基于训练集中的样本数据获得每个分类特征对决策函数的灵敏度1分类特征的灵敏度可视为该分类特征影响决策的重要性指标,依据该

21、指标我们可以通过依次去除对决策影响最小的分类特征,从而将剩余特征作为一个整体考察其样本分类能力,以找出具有最佳分类能力且所含特征最少的特征子集作为最终的分类特征集合1然而,每去除一个分类特征后,都将得到一个新的决策函数,这就导致必须依据新得到的决策函数重新计算各剩余分类特征的灵敏度的值,然后依据新的灵敏度的值进行下一个分类特征的排除61该过程可描述如下:(1)利用当前的分类特征集合F训练SVM分类模型,进行样本识别并记录“留一法”及“独立测试”实验的分类错误数1SVM模型同第4节;(2)依据式(7),计算特征集合F中各分类特征的灵敏度;(3)令f为F中具有最小灵敏度的分类特征,从F中去除该特征

22、,即F=F-f1若F= 则退出,否则继续执行步骤(1)1利用上述过程,本文从去除“两两冗余”后得到的59个基因构成的特征集合F59开始分析,每次去除一个分类特征,得到了一系列具有不同维数的分类特征子集F58,F57,F1,并采用第4节所述的样本识别实验对这些特征子集Fi(i=1,2,58)进行分类能力的测试,分类结果如图3所示11800计算机研究与发展2005,42(10)为此,本文对已有的“信噪比”指标进行修正以更加全面的衡量基因所含的样本分类信息1对冗余基因的去除,本文首先利用相关系数进行“两两冗余”分析,去除具有强相关性的冗余基因,然后结合具体的SVM分类模型推导出各分类特征对决策函数的

23、灵敏度公式,并以分类错误率为最终依据求得无冗余的特征基因集合1表3给出了本文在特征基因提取的不同阶段所得到的特征基因的数目及其分类性能,并与Golub等人采用加权投票法(weightedvoting)进行样本分Fig13Classificationperformanceoffeaturesubsetswithdifferentsize1图3不同维数特征子集的样本分类能力由图3知,当分类特征基因的数量下降到16时,仍可以得到“留一法”和“独立测试”实验分类错误数均为0的结果1则F16类所得结果进行了对比1同Golub等人提出的方法相比,、更具样本分类能力的特征基因10016个特征基因与50个特征

24、基因的分类性能,我们6本文将分类特征基因的选取划分为两个步骤,即分类无关基因的过滤和冗余基因的去除1冗余去除并不会增加特征集合所包含的样本分类信息1因此,在进行无关基因过滤时应全面分析基因蕴含的样本分类信息,以免滤除包含重要分类信息的基因1但直到目前为止,对此尚无一种成熟的评价方法1olub等人选出的50个基因作为分类特征,同样以第4节描述的SVM模型作为分类器进行样本识别,以消除因分类器的不同而产生的对样本分类能力的影响1分类结果见表3实验编号5所在行1由该结果知,当采用SVM作为分类器时,这50个基因的分类性能较加权投票法有所提高,但仍难以达到100%的分类正确率,表明本文选出的16个分类

25、特征基因在分类性能上明显优于Golub等人选出的50个分类特征基因1Table3ComparisononExperimentalResults表3实验结果比较ExperimentNo1123FeatureSelectionMethodClassifierNumberofGenesNumberofCorrectlyClassifiedSamplesLOOCVremovalofirrelevantgenesusingIICremovalofirrelevantgenesusingIIC+pair2wiseredundancyanalysisremovalofirrelevantgenesusing

26、IIC+pair2wiseredundancyanalysis+sensitivityanalysisGolubetal1removalofirrelevantgenesusingS2N4Golubetal1removalofirrelevantgenesusingS2NSVMSVMSVM1965916383838383838IT34343434343445WeightedVotingSVM50503638383829343134的关系,在进行特征选取时我们结合了Filter和7结束语由于肿瘤基因表达谱数据维数过高,因此在进行特征选取时导致特征子集的搜索空间过大1就急性白血病的基因表达谱数据集

27、而言,其特征子集空间的大小为271291为平衡计算复杂度与解的质量间Wrapper方法11各自的优点1进行分类无关基因滤除时借鉴了Filter方法的思想,在冗余去除时采用了基于Wrapper的方法,以便在计算复杂度较小的情况下获得具有较好分类性能的解1本文所做工作的核心是希望从信息学的角度分析和理解基因表达谱数据,以便在庞大的基因表达李颖新等:基于支持向量机的肿瘤分类特征基因选取1801(李泽,包雷,黄英武,等1基于基因表达谱的肿瘤分型和特征谱数据集中提取出有用的信息和知识,从而对肿瘤的临床诊断和生物医学研究起到有益的参考和借鉴作用1参考文献基因的选取1生物物理学报,2002,18(4):41

28、3417)91011S1Theodoridis,K1Koutroumbas1PatternRecognition(2ndedi2tion)1NewYork:AcademicPress,20031177179V1N1Vapnik1StatisticalLearningTheroy1NewYork:WileyInterscience,1998M1Dash,H1Liu1Featureselectionforclassification1IntelligentDataAnalysis,1997,1(3):13115612B1José,A1D1Bruce1Featureselectionfro

29、mhugefeaturesets1In:Proc18thIntlConf1ComputerVision(ICCV01)1LosAlamitos:IEEEComputerSocietyPress,20011159165123E1S1Lander1Arrayofhope1NatureGenetics,1999,21(Sup2pl):34S1Ramaswamy,T1R1Golub1DNAmicroarraysinclinicaloncol2ogy1JournalofClinicalOncology,2002,20(7):19321941J1DeRisi,L1Penland,P1O1Brown,eta

30、l1UseofacDNAmi2croarraytoanalysegeneexpressionpatternsinhumancancer1Na2tureGenetics,1996,14(4):457460LiYingxin,bornin19721Ph1D1candidateinBeijingofTechnology,Bei2jing,researchinterestsinclude,machinelearningand14T1R1Golub,D1K1Slonim,P1Tamayo,etal1Molecularclas2sificationofcancer:Classdiscoveryandcla

31、sspredictionbygeneexpressionmonitoring1Science,1999,286(5439):5315375J1Khan,J1S1Wei,M1Ringner,etal1Classificationanddiag2nosticpredictionofcancersusinggeneexpressionprofilingandficialneuralnetworks1NatureMedicine,():博士研究生,主要研究方向为模式识别、1RuanXiaogang,bornin19581ProfessorandPh1D1candidatesupervisorinBei

32、jingUni2versityofTechnology,Beijing,China1Hisresearchinterestsincludecontroltheory,ar2tificialintelligenceandbioinformatics16I1Guyon,J1Weston,S1,1forcan2cerclassificationusing1Learn2ing,2000,46(13):7R1Tibshirani,T1,Narasimhan,etal1Diagnosisofmultiplecancertypesbyshrunkencentroidsofgeneexpression1PNA

33、S,2002,99(10):656765728LiZe,BaoLei,HuangYingwu,etal1Cancersubtypediscoveryandinformativegeneidentificationwithgeneexpressionprofiles1ActaBiophysicaSinica,2002,18(4):413417(inChinese)阮晓钢,1958年生,教授,博士生导师,主要研究方向为控制理论、人工智能、生物信息学(adrxgbjut1edu1cn)1ResearchBackgroundThisworkisapartoftheproject“Studyofsomeproblemsinbioinformaticsinviewofcomplexsystems”whichaimstomakeacomprehensiveunderstandingofbiologicaldatainasystemicway,andissupportedbytheNationalNaturalScienceFoundationofChinaundergrantNo1602340201Thi

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论