




已阅读5页,还剩21页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要内容摘要:支持向量机( s u p p o r tv e c t o rm a c h i n e s ,简称s v m s ) 是建立在统计学习理论的v c ( v a p n i k c h e r v o n e n k i s ) 维理论和结构风险最小化原理基础上的一种机器学习方法。支持向量机在解决实际应用中的小样本问题时具有较大的优势,较好地解决了以往困扰很多学习方法的小样本、非线性、过学习、高维数、局部极小点等实际问题。如果仅从分类的角度来说,支持向量机是一种广义的线性分类器,它是在线性分类器的基础上,引入结构风险最小化原理、最优化理论和核函数方法深化而成的。当前基于支持向量机的模型得到了越来越多的重视和应用。但由于支持向量机最初是针对二分类问题提出的,因此如何将其推广到多类分类问题上就是一个很值得深入研究的问题。聚类分析方法是一种被广泛应用的且很有效的分类方法,它是利用多元统计分析的基本原理,对一批样本进行分类处理的数学方法。其基本思路是将一批样本或变量,按照它们在性质上的亲疏程度进行分类,把样本看成是m 维空间的一个点。在m 维坐标中,定义点与点之间的某种距离,通过距离的远近把样本分成若干类别。因此,本文放弃了以往的只采用聚类分析或支持向量机来分类的方法,在分别介绍了聚类分析和支持向量机分类算法的基础上,采用了聚类分析和支持向量机相结合的方法来解决多类分类问题,并采用这种方法对上市公司的股票进行分类。由于股票数据本身的复杂性,在进行分类之前先采用因子分析的方法对股票数据进行降维简化,从而减少分类时的计算量和程序运行时间。实验证明,这种分类算法有很高的分类正确率,从而说明这种方法是可行的。关键词:因子分析;聚类分析;支持向量机;分类a b s t r a c tc o n t e n t :s u p p o r tv e c t o rm a c h i n e s ( s v m s ) i sam e t h o do fm a c h i n el e a r n i n gb a s e do nv cd i m e n s i o na n ds t r u c t u r a lr i s km i n i m i z a t i o np r i n c i p l eo ft h es t a t i s t i c a ll e a r n i n gt h e o r y s v m sh a sa d v a n t a g e si ns o l v i n gs m a l ls a m p l es i z ep r o b l e m si np r a c t i c a la p p l i c a t i o n s i ta l s ow e l ls o l v e sl a r g en u m b e ro fp r a c t i c a lp r o b l e m ss u c ha ss m a l ls a m p l e ,n o n l i n e a r , o v e rl e a r n i n g ,h i g hd i m e n s i o n a la n dl o c a lm i n i m u mp o i n t t h e s ep r o b l e m se x i s ti nm a n yl e a r n i n gm e t h o d s f r o mt h ep o i n to fc l a s s i f i c a t i o n ,s v m si sag e n e r a l i z e dl i n e a rc l a s s i f i e r s t r u c t u r a lr i s km i n i m i z a t i o np r i n c i p l e ,o p t i m i z a t i o nt h e o r ya n dk e r n e lf u n c t i o nm e t h o da r ei n t r o d u c e di ns v m sa n df u r t h e rd e v e l o p e db a s e do nl i n e a rc l a s s i f i e r m o r ea n dm o r ea t t e n t i o ni sp a i dt ot h em o d e l sb a s e do ns v m sa n dt h ea p p l i c a t i o no ft h e s em o d e l sh a sb e c o m em o r ef r e q u e n t l y h o w e v e r , i tw a sd e v e l o p e df o rb i n a r yc l a s s i f i c a t i o np r e v i o u s l y s oh o wt oe x t e n di tt om u l t i - c l a s sc l a s s i f i c a t i o ni sat o p i cw o r t hf u r t h e rs t u d y i n g c l u s t e ra n a l y s i si sa ne f f e c t i v ec l a s s i f i c a t i o nm e t h o da n db e i n gw i d e l yu s e d i tc a nb ea p p l i e dt om u l t i - c l a s sc l a s s i f i c a t i o n c l u s t e ra n a l y s i si sam a t h e m a t i c a lm e t h o du s e df o rc l a s s i f i c a t i o no fas e r i e so fs a m p l e sb a s e do nb a s i cp r i n c i p a lo fm u l t i v a r i a t es t a t i s t i ca n a l y s i s i t sb a s i ci d e ai st oc l a s s i f yas e r i e so fs a m p l e so rv a r i a b l e sa c c o r d i n gt ot h e i ra f f i n i t yd e g r e e s as a m p l ei sc o n s i d e r e dt ob eap o i n to fm d i m e n s i o n a ls p a c e t h ed i s t a n c eb e t w e e no n ep o i n ta n da n o t h e ri sd e f i n e d ,a n dt h es a m p l e sa r ec l a s s i f i e db a s e do i lt h e i rd i s t a n c e s b a s e do nt h e s ea b o v e ,s v m sa n dc l u s t e ra n a l y s i sa r ec o m b i n e dt os o l v et h ep r o b l e m so fm u l t i - c l a s sc l a s s i f i c a t i o n t h i sm e t h o da l ea l s oa p p l i e dt oc l a s s i f i c a t i o no fl i s t e dc o m p a n i e s s t o c k s c o n s i d e r i n gt h ec o m p l e x i t yo fs t o c kd a t a ,t h em e t h o do ff a c t o ra n a l y s i si su s e dt od e c r e a s et h ed i m e n s i o n so fs t o c kd a t a t h i sm e t h o dr e d u c e sc o m p u t a t i o na n dt i m eo fp r o g r a mo p e r a t i n g t h e r e s u l t so fe x p e r i m e n t a ls h o w st h a tt h em e t h o da p p l i e di nt h i ss t u d yh a sh i g hc l a s s i f i c a t i o na c c u r a c ya n dt h ee x p e r i m e n t a lr e s u l t sc o n f i r m st h ev a l i d i t yo ft h i sm e t h o d k e yw o r d s :f a c t o ra n a l y s i s ;c l u s t e ra n a l y s i s ;s u p p o r tv e c t o rm a c h i n e s ;c l a s s i f i c a t i o n聚类分析和支持向量机相结合的混合预测模型学位论文独创性声明本人承诺:所呈交的学位论文是本人在导师指导下所取得的研究成果。论文中除特别加以标注和致谢的地方外,不包含他人和其他机构已经撰写或发表过的研究成果,其他同志的研究成果对本人的启示和所提供的帮助,均已在论文中做了明确的声明并表示谢意。学位论文作者签名:孬烛尽望日学位论文版权的使用授权书本学位论文作者完全了解辽宁师范大学有关保留、使用学位论文的规定,及学校有权保留并向国家有关部门或机构送交复印件或磁盘,允许论文被查阅和借阅。本文授权辽宁师范大学,可以将学位论文的全部或部分内容编入有关数据库并进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文,并且本人电子文档的内容和纸质论文的内容相一致。保密的学位论文在解密后使用本授权书。学位论文作者签名:独旦日鲷特狮虢由如日期:地3 暨篁臼箜鱼一聚类分析和支持向量机相结合的混合预测模型1 引言1 1 课题的提出及背景传统的统计学所研究的主要是渐近理论,即当样本趋于无穷多时的统计性质。但是在现实的问题中,我们所面对的样本数目通常是有限的,有时还十分有限,这就使得所用理论与实际的数据不匹配。虽然人们实际上一直知道这一点,但传统上仍以样本数目无穷多为假设来推导各种算法,这样得到的结果常常是差强人意。统计学习理论i l l 是建立在有限样本情况下的统计学理论,支持向量机是建立在统计学习理论的v c 维理论和结构风险最小原理基础上的一种机器学习方法,它在解决实际应用中的小样本问题时,具有较大优势,目前在工业控制、医疗诊断、故障测试、人脸识别、手写字体识别、时间序列回归、基因表示数据的分析、蛋白序列分析和股票选择等中都有新的应用。支持向量机结构简单,并且具有全局最优性和较好的推广能力,自9 0 年代中期提出以来得到了广泛的研究。目前,还有很多关于支持向量机的理论和应用问题有待研究。由于支持向量机本身是针对二类分类问题提出的,而在现实生活中遇到的往往是多类分类问题,因此如何将支持向量机推广应用到多类别问题也是一个研究重点。聚类 2 j 是数据挖掘中的一种重要技术,是分析数据并从中发现有用信息的一种有效手段。基于“物以类聚”的朴素思想,它将数据对象分组成为若干个类或簇,使得在同一个类中的对象之间具有较高的相似度,而不同类中的对象差别很大,通过聚类人们能够识别密集和稀疏的区域,发现全局的分布模式以及数据属性之间有趣的相互关系。聚类分析在客户分类、基因识别、空间数据处理、卫星照片分析等领域有着广泛的应用。聚类分析是一种行之有效的指导证券投资的方法。聚类分析首先是基于各类股票的待业因素、公司因素、收益性、成长性等基本层面的考察,然后利用综合评价指标体系来衡量样本股票的“相似程度 。运用聚类分析模型能帮助投资者准确地了解和把握股票的总体特征,确定投资范围,并通过类的总体价格水平来预测股票价格的变动趋势,选择有利的投资时机。因此,本文放弃了一般的单独用聚类分析方法或者单独用支持向量机对股票进行分类预测的思想,而采用支持向量机和聚类分析相结合的方法来对上市公司的股票进行分类预测。1 2 主要工作和安排聚类分析和支持向量机相结合的混合预测模型本文主要研究了用支持向量机和聚类分析相结合的方法来对上市公司的股票进行分类预测。但由于金融数据都是维数很高( 有的是数十维) 、结构十分复杂的数据,因此本文在对股票数据进行分类之前,先采用因子分析的方法对数据进行降维,将原本比较复杂的数据简化,同时又保留了原来的绝大部分信息,从而提高模型运算效率,减少模型拟合时间。其主要思想是:首先,应用因子分析将上市公司股票的数据指标( 高维数据) 变换到低维空间上。也就是采用因子分析进行特征提取,将复杂的股票数据信息简化;其次采用支持向量机和聚类分析相结合的方法建立模型对股票进行分类预测;最后再用支持向量机进行训练并检测之前混合模型的分类正确率。1 3 论文的组织结构论文共分6 章:第一章是引言,介绍了本论文研究的背景及意义。第二章详细介绍了支持向量机的基础理论,并简单介绍了支持向量机的几种多类分类算法。第三章介绍了聚类分析理论。第四章介绍了因子分析理论,以及模型的建立。第五章是文章的重点,给出了基于因子分析的聚类分析和支持向量机相结合的混合预测模型,并通过上市公司的股票数据对该模型进行检验,实验结果令人满意,说明该模型是有效的。第六章文章的最后是对全文的总结与展望。2聚类分析争支持向量机相结合的混合预测模型2 支持向量机理论2 1 引言9 0 年代中期,v a p n i k 和他的a t & tb e l l 实验室小组提出了支持向量机算法,进一步丰富和发展了统计学习理论,使它不仅是一种理论分析工具,还是一种能构造具有多维预测功能的预测学习算法的工具,使抽象的学习理论能够转化为通用的实际测算法。作为结构风险最小化准则的具体实现,支持向量机方法具有全局最优、结构简单、推广能力强等优点,近几年得到了广泛的研究。下面将对支持向量机理论进行具体阐述,并就多类别分类问题开展了初步的研究。2 2 支持向量机的几个基本概念2 2 1v c 维比维1 3 5 j ,简而言之,它描述了组成学习模型的函数集合的容量,也就是说刻画了此函数集合的学习能力。v c 维越大,函数集合越大,其相应的学习能力就越强。接下来引入v c 维的概念:定义在实例空间x 上的假设空间h 的v c 维,是可被日打散的最大有限子集的大小。如果x 的任意有限大的子集可被打散,则日的v c 维无穷大。一个函数集的v c 维是指能够被集合中的函数以所有可能的2 6 种方式分成两类的向量而,z :,毛的最大数目j i l 。v c 维反映了函数集的学习能力,一般而言v c 维越大则学习机器越复杂、学习量越大。遗憾的是目前还没有通用的关于任意函数集v c 维计算的理论,仅知道几种特殊的v c 维的具体值。2 2 2 结构风险最小化原理v a p n i k 和c h e r v o n e n k i s 提出结构风险最小化原则【3 ,5 i ,为小样本统计理论奠定了基础。他们深入研究了经验风险与期望风险的关系,得出如下不等式以概率( 1 一,7 ) 成立:3聚类分析和支持向量机相结合的混合预测模型r ( f ) - ( ,) +( 2 1 )式中,卜一样本点数目,7 ( o s r s 1 ) 参数j l 函数厂的维数,简称v c 维。式( 2 1 ) 的重要意义:不等式的右边与样本的具体分布无关,也就是说,v a p n i k的统计学习理论无需假设样本分布,克服了高维分布对样本点数目需求随维数而指数增长问题。这是与经典统计理论的本质区别,也是我们将v a p n i k 统计方法称之为小样本统计理论的原因。如果比值z h ( 数据样本点数目与分类函数集的比维之比) 较小,比如z 胁 2 0 ,则我们称大小为z 的样本集为小样本集。从式( 2 1 ) 可以看出,如果,肛较大,则期望风险( 实际风险) 主要由经验风险来决定,这就是经验风险最小化原则对于大样本集能经常给出好结果的原因。然而,如果较小,小的经验风险值( ,) 并不能保证有小的实际风险值。在这种情况下,为了最小化实际风险值,我们必须同时考虑不等式( 2 1 ) 右边的两项:经验风险尺舯( 厂) 和置信范围( 称之为v c 维信任度) 。v c 维h 在其中起重要作用,实际上置信范围是h 的增函数。在样本点数目z 一定时,分类器越复杂,即v c 维h 越大,则置信范围越大,导致实际风险与经验风险的差别越大。因此,要想使实际风险最小,不仅要使经验风险最小,还同时要使分类器函数,的v c 维尽可能小,这就是结构风险最小化原则( s t r u c t u r a lr i s km i n i m i z a t i o n ,s r m ) 。结构风险最小化原则:为了最小化期望风险,应同时最小化经验风险和置信范围( 即分类函数集合的结构复杂度比维h ) 。通俗地说,结构风险最小化原则告诉我们:应该尽量采用v c 维最小的函数厂去尽量好地完成分类任务。在结构风险最小化原则下,一个分类器的设计过程分为二步:( 1 ) 选择分类器厂的模型,使其v c 维较小,即置信范围小。( 2 ) 对模型进行参数估计,使其经验风险最小。4聚类分析和支持向量机相结合的混合预测模型2 2 3 核函数目前主要使用的内积核函数【4 j 主要有以下三类:1 多项式形式核函数,r ( x ,) ,) 一眙y ) + f f 为一个d 阶多项式分类器。2 径向基形式核函数,k g ,y ) :c x p 一巨,所得的s 是一种径向基分类器。3 s 形核函数,k 0 ,y ) 一t a n h o b y ) + c ) ,得到的s v m 是一个两层的感知器网络,但是其网络的权值、隐层节点数目都是由算法自动确定,而不象传统的感知器网络那样由人凭借经验确定。s v m 的学习性能基本是由核函数决定的,令人遗憾的是,针对特定的实际问题如何选择一个核函数以使s v m 的学习性能最优,仍是一个未彻底解决的问题,还没有科学的理论可利用,只能通过反复实验来确定。2 3 支持向量机基本方法支持向量机吣4 6 j 是统计学习理论中最实用的部分,其核心思想是将结构风险最小化原则引入到分类。支持向量机是从线性可分情况下的最优分类超平面发展而来的,其本质是在训练样本中找出构造最优分类超平面的支持向量,在数学上归结为一个求解具有不等式约束条件的二次规则问题。假定训练样本集x i ,y 。l f l ,z ,由二类组成,如果x ie r “属于第一类,则标记为正( y ,一1 ) ;如果x ie r ”属于第二类,则标记为负( y ;一一1 ) 。学习的目标是构造一个决策函数,将测试数据尽可能正确的分类。针对训练样本集为线性或非线性两种情况进行讨论。2 3 2 线性可分如果存在分类超平面:工) + 6 05( 2 2 )聚类分析和支持向量机相结合的混合预测模型白x i ) + b21 , y j = 1白x f ) + 6s 一1 , y f 一一1 ,f - 1 ,2 ,z( 2 3 )则称训练集是线性可分的,其中似石) 表示向量尺“与z 尺4 的内积。上述两式中的x 尺”,b e e r ”都进行了规范化,使每类样本集中与分类超平面距离最近的数据点满足( 2 3 ) 的等式要求。对于式( 2 3 ) ,可写成如下形式y ,( ( 而) + 6 ) 1 , i = 1 , 2 ,z( 2 4 )由统计学习理论可知,如果训练样本集没有被超平面错误分开,并且距离超平面最近的样本数据与超平面之间的距离最大,则该超平面为最优超平面,如图2 1 所示。研2 ,肛i图2 1 最优超半曲由此得到的决策函数,b ) = s 印( ( w z ) + 6 )( 2 5 )其推广能力最优,其中s 印( ) 为符号函数。最优超平面的求解需要最大化志,即最l i 训l小化昙1 2 。归结为如下的二次规划问题m 。一i n i z1 0 叫1 2( 2 6 )约束为y f ( ( x i ) + b ) a1 , i 一1 , 2 ,f( 2 7 )6聚类分析和支持向量机相结合的混合预测模型二二= = = = 二一一我1 门米用l a g r a n g e 优化方法。为此必须找到l a g r a n g e 函数上( 鸭6 ,口) = 割叫1 2 一砉q ( y ,( 白鼍) + 6 ) 一1 )的鞍点。式中q o 为l a g r a n g e 乘子。函数( 2 8 ) 式中的最小值必须满足条件旦墨署兰笋型尘一一妻y 。口。石;。d 倒掣= 善iy 舻。a 白“。由此得到加善y 麒而( 2 8 )( 2 9 )善呲- 0( 2 1 0 )将式( 2 9 ) 代入式( 2 8 ) 并考虑式( 2 1 0 ) ,我们得到比) = 善1q 一吾私叫k 一)( 2 1 1 )这里,我们已经将符号从( 鸱6 ,口) 改成q 仁) ,以反映出最后的转换。q 仁) 的表达式( 2 1 1 ) 称之为l a g r a n g e 对偶目标函数,在约束条件:善呲_ 0( 2 1 2 )q 0 ,i ;1 , 2 ,1( 2 1 3 )下对q 求解函数q 缸) 的最大值,所得到的解q 只有一部分( 通常是少部分) 不为零,对应的样本就是支持向量。应该注意的是最优化问题的目标函数酬2 善iq 一三麓峨岫k _ )与向量x 的维数无关,但是与两个向量的内积有关。这一事实将允许我们随后在高7聚类分析和支持向量机相结合的混合预测模型维空间( 甚至在无限维的h i l b e r t 空间) 中构造分类超平面。2 3 3 线性不可分1 核方法为了解决线性不可分问题,我们采用一个非线性变换g ) 把输入变量x 影射到一个高维特征空间h ,然后在这一特征空问( 可能为无限大的) 中构造一个最优分类超平面,并得到分类器的决策函数。因此,在非线性情况,分类超平面为西b ”+ 6 = 0( 2 1 4 )决策函数为厂仁) = s 印( ( 西g ) ) + 6 )( 2 1 5 )由式( 2 1 1 ) 可以看出,对于在特征空间日中构造最优分类超平面,我们并不需要以显式来表示特征空间。我们仅仅需要计算特征空间中的向量之间的内积。假定,我们将输入向量x e r ”映射到一个h i l b e r t 空间,即。g ) ,中:g ) ,中。g )根据h i i b e r t s c h m i d t 理论,h i l b e r t 空间中的内积有一个等价表达式:伪h ) = 善吃g ,h o z ) 兮k b 。,茗z l q o( 2 1 6 )式中k b ,z :) 为满足m e r c e r 定理的对称函数,称之为核函数。目前常用的核函数有1 0多种,其中流行的核函数是:d 次多项式:k b ,x i ) - 1 + x 毛y( 2 1 7 )高斯径向基函数:k b ,t ) :e x p ( - i k - - x i0 2 台z )( 2 1 8 )神经网络核函数:k g ,毛) = t a n h k 。g 毛) + 足:( 2 1 9 )核方法的基本思想是:对于满足m e r c e r 条件的任何核函数k 0 ,五) ,存在一个特征空间仕,g ) ,西:g 工,西,b x ) ,在这一空间中这个核函数生成内积。也就是说式( 2 1 6 )的左端绝对一致的收敛于函数k b ,x ;) ,即r聚类分析和支持向量机相结合的混合预测模型k b ,x i ) - 口,h ,g 海,x i )( 2 2 0 )衙由此可见,样本空间的内积运算已替换成核,事实上,运算是在样本空间进行的,而不是在高维特征空间进行的,这就是核技巧的思想。核方法的优点:由于输入空间的核函数实际上是特征空间内积的等价。因此,在实际计算中,我们不必关心非线性映射m g ) 的具体形式,只需要选定核函数k g ,而) 就行。核函数比较简单,而映射函数可能很复杂,而且维数很高。因此,引入核方法才能克服“维数灾难”问题。2 算法实现根据核方法思想,对于非线性分类,首先采用一个非线性映射西b ) 把数据影射到一个高维特征空间,然后在高维特征空间中进行线性分类,映回到原空间后就成了输入空间中的非线性分类。为了避免高维空间中的复杂计算,支持向量机采用一个核函数k g ,y ) 代替高维空间中的内积运算细g ) 西( y ) ) 。另外,考虑到可能存在一些样本不能被分离超平面正确分类,采用松弛变量解决这个问题,于是优化问题为:m i n 三1 1 0 ) 1 1 2 + c 妻氧( 2 2 1 )约束为y i ( ( 西g ;) ) + 6 ) 芝1 一邑,i 一1 , 2 ,l( 2 2 2 )舅o , i 一1 , 2 ,( 2 2 3 )其中,c 为一正常数。式( 2 2 1 ) 中第一项使样本到超平面的距离尽量大,从而提高泛化能力;第二项则使分类误差尽量小。引入拉格朗日函数l = 扣0 2 + c 塞毒一善lq ( y ,( m g ;) ) + 6 ) 一1 + 岛) 一妻y 磊( 2 2 4 )其中,口f ,n 0 ,i = 1 ,z函数l 的极值应满足条件9聚类分析和支持向量机相结合的混合预测模型旦三。o , 0 - - _ , o , 工:0( 2 2 5 )a o b。a 毫;于是得到甜。著y 舟西k ) ( 2 2 6 )善a 挑暑0心卫7 )c 一口j 一岛一0 ,i 一1 ,l( 2 2 8 )将( 2 2 6 ) 一( 2 2 8 ) 代入式( 2 2 4 ) 中,得到优化问题的对偶形式为:m a x 塞q 一三塞套啦口,y ;) ,k k ,z ,)c 2 2 9 )约束为善刚r 暑o 。0s 嘶墨c ,i 一1 ,l( 2 3 1 )一般情况下,该优化问题的特点是大部分q 将为零,其中不为零的q 所对应的样本为支持向量( s u p p o r tv e c t o r ,s v ) 。根据k k t 条件,在鞍点有a i ( y ,( m k ) ) + 6 ) 一1 + 毒) 一o ,i = 1 ,z( 2 3 2 )( c q 壕= 0 , i = 1 ,z( 2 3 3 )于是可得b 的计算式如下:y r ( 套口,y ,k g ,薯) + 6 ) - 1 - 0 , a ,e ( o ,c )c 2 3 4 )因此,可以通过任意一个支持向量求出b 的值。为了稳定起见,也可以用所有的支持向量求出b 的值,然后取平均。最后得到决策函数为,b ) = s 印( 骞q y r k k ,z ) + 6 )c 2 3 5 ,1 0聚类分析和支持向量机相结合的混合预测模型2 4 多类支持向量机由于支持向量机最初是针对二分类提出的,因此,存在一个如何将其推广到多类分类问题上,目前有以下几种常用的方法【6 】:( 1 ) 一对多法。其思想是把某一种类别的样本当作一个类别,剩余其他类别的样本当作另一个类别,这样就变成了一个二分类问题。然后,在剩余的样本中重复上面的步骤。这种方法需要构造k 个s v m 模型,其中,k 是待分类的个数。这种方案的缺点是训练样本数目大,训练困难。( 2 ) 一对一法。其做法是在多类分类中,每次只考虑两类样本,即对每两类样本设计一个s u m 模型,因此,总共需要设计七仅一1 ) 2 个s v m 模型。这种做法需要构造多个二分类器,并且测试时需要对每两类都进行比较,导致算法计算复杂度很高。( 3 ) s v m 决策树法。它通常和二叉决策树结合起来,构成多类别的识别器。这种方法的缺点是如果在某个节点上发生了分类错误,将会把错误延续下去,该节点后续下一级节点上的分类就失去了意义。( 4 ) 确定多类目标函数方法。w e s t o n 在1 9 9 8 年提出一种多类分类算法,它是直接在目标函数上进行改进,建立了多类分类支持向量机。该算法如下:1mfm i n 壹三 + c f( 2 3 6 )一m - jl i j ,竹一见约束为( 岷,x i ) + b y , 之弧,t ) + k + 2 一f( 2 3 7 )f 0 ,f 一1 ,zm e l , ,m ;) ,y ;姐,m )( 2 3 8 )其中f 是样本数量,y ;札,m 是模式而对应的多类分类指标。这种算法由于变量数目过多,所以只在小型问题的求解中才能使用。( 5 ) 有向无环图构造方法( d a g s v m ) 。该方法由j o h nc p l a t t 提出,结合有向无环图和支持向量机方法来实现多类分类。( 6 ) e c c s 方法( 误差纠错码方法)对类别进行二进制编码可以将多类分类问题转化为多个两分类问题,并且可以达到一定的纠错能力。对于m 类数据分类问题,对每个类进行长度为l 的二进制编码,就可以把肘类数据分类问题转化为l 个两类分类问题。每个码位只是一个两类分类问题,可以采用标准的支持向量机方法。对于一个新的样本,l 个s v m 的分类结果构成一个码字1 1聚类分析和支持向量机湘结合的混合预测模型s ,m 个编码中与s 的汉明距离最小的码字所代表的类别就是新样本所属的类别。把具有纠错能力的编码称为纠错编码( e r r o rc o d e s e c c ) 。把对类别进行e c c 编码后,采用s v m 进行码位分类的方法称为e c c s v m 方法。e c c - s v m 算法中,第f 个s v m 训练样本的组成是把编码矩阵中第f 列取值为0 的所有类别的样本归为一类,把取值为1 的所有样本归为另一类。e c c 码的优点是可以纠正分类时产生的错误。缺点是也需要构造多个二分类问题,导致计算复杂性很高。( 7 ) 采用一类分类方法的多类支持向量机一类分类支持向量机是针对异常值检测提出的一类特殊的分类技术,是通过求解一个超球来实现一类分类。该方法很容易推广到多类分类问题,具体内容将在第五章中介绍。1 2聚类分析和支持向量机相结合的混合预测模型3 聚类分析理论聚类( c l u s t e r i n g ) 7 - 9 j 是一个将数据集划分成若干组或类的过程,使得同一类内的数据对象具有较高的相似度,而不同类之间的数据对象相似度较低。聚类问题的关键是把相似的事物聚集在一起。聚类可以是一个独立工具,也可以是已知模式算法的一个预处理过程。聚类被人们认为是数据挖掘中知识发现的基本工具。聚类在处理模式识别和图像处理领域发挥着重要的作用。它应用在:无导师学习、语音识别、图像划分以及人脸识别等方面。聚类技术可以解决以下问题:哪类投资者喜欢哪类股票,喜欢同一类股票的人之间有什么共同点。聚类分析按照数据对象在性质上的距离远近的程度进行分类。为了得到合适的聚类,必须给出度量数据对象之间的相似性的方法。刻画数据对象之间的相似性主要有以下两类函数:1 距离函数:设使用以个指标特征变量来描述数据对象,那么我们就可以把每个数据对象看作以维空间中的一个点,进而使用某种距离来表示数据对象之间的相似性,距离较近的数据对象性质较相似,距离较远的数据对象则差异较大。2 相似系数:两个数据对象愈相似,则相似系数值愈接近l ;数据对象愈不相似,则相似系数值愈接近0 。这样就可以使用相似系数值来刻画数据对象性质的相似性。下面给出了常用的3 种距离函数和2 种相似性函数,并对它们的特点做了分析。首先来看一下常用的3 种距离函数。( 1 ) 明氏( m i n k o w s k i ) 距离d q ( x , y ) = i x i - 圳乃( 3 1 )当日取0 ,1 ,2 ,无穷大时,则分别得a 绝对值距离b 欧式( e u c l i d ) 距离c 切比雪夫( c h e b y s h e v ) 距离( 2 ) 兰氏( l a n c e ) 距离毗y ) = ;嘲( 3 2 )兰氏距离克服了明氏距离受量纲影响的缺点,但是没有考虑多重相关性。聚类分析1 3聚类分析和支持向量机相结合的混合预测模型中不仅要将数据对象聚类,在有些场合还需要对特征变量进行聚类。( 3 ) 马氏( m a h a l a n o i s )d 伍,y ) ;伍一y 厂罗4 奉伍一y )( 3 3 )其中,罗是样本矩阵彳的协方差阵,是总体分布的协方差估计量。马氏距离是明氏距离的改进,它对于一切线性变换是不变的,克服了明氏距离受量纲影响的缺点;马氏距离也部分克服了多重相关性。用距离作为相似性度量的方式是一种非常直观的方式,也是在聚类算法中经常用到的相似性度量方式。特别是欧氏距离,在以间隔尺度为特征变量度量的数据中应用最为广泛。下面再来看一下2 种常用的相似系数函数。1 夹角余弦c ( x ,y ) -置幸k( 3 4 )夹角余弦函数忽略各个向量的绝对长度,着重从形状方面考虑它们之间的关系。当两个向量的方向相近时,夹角余弦值较大,反之则较小。特殊地,当两个向量平行时,夹角余弦值为l ;而正交时余弦值为o 。2 相关系数c ( x ,y ) 一伍;一牙) 宰位一歹)( 3 5 )相关系数是对向量做标准化后的夹角余弦。它表示两个向量的线性相关的程度。从以上的分析来看,3 种距离函数和2 种相似系数函数都有各自的特点。但是在所有的这些度量相似性的函数中,欧氏距离非常直观而且计算方便,所以本文采用欧氏距离来度量数据对象的相似性。1 4聚类分析和支持向量机相结合的混合预测模型4 因子分析理论4 1 引言在多元统计中,因子分析是一种很有效的降维和信息浓缩技术,是用最少个数不可观测、互不相关的若干公共因子与一个特殊因子的线性组合,来描述原来一组可观测的相互有关的每个变量,其目的是尽可能合理地解释存在于原始变量之间的相关性,并简化变量的维数与结构。4 2 因子分析模型因子分析【l “3 j 法是把一些具有错综复杂关系的变量归结为少数几个无关的新的综合因子的一种多变量统计分析方法。其基本思想是根据相关性大小对变量进行分组,使得同组内的变量之间相关性较高,不同组的变量相关性较低。每组变量代表一个基本结构,因子分析中将其称为公共因子。假设观测系统( 即评价总体) 有k 个评价指标,n 个观测单位,因子分析的数学模型就是把咒个观测单位分别表示为p o 为的特征根, 代表第f 个主成分的方差,且总方差善= 善 ,e ,p z ,气为对应的标准正交】5聚类分析和支持向量机相结合的混合预测模型化特征向量,根据线性代数知识可分解为:- p - e l + 屯p :e z + + 九气气。慨,碡:,3 - 石t e 。)不。再:瓜e k上式的分解是公共因子与变量个数一样多的因子模型的协方差阵结构。采用因子分析方法总是希望公共因子的个数小于变量的个数即m 七。当最后k m 个特征根较小时,通常略去最后七一m 项一九+ e 州e 。+ t + + t t e k e k 对的贡献,从而得到:一嘛,压:,再,瓜)再。再:压e m其中:a ,e ,为第j 个公共因子的因子载荷。( 2 ) 将公共因子表示为变量的线性组合,得到评价对象在各个公共因子的得分。由于因子得分函数中方程的个数m 小于变量个数p ,因此不能精确计算出因子得分,通过最小二乘法或极大似然法可以对因子得分进行估计:f q ;p m + p a x i + p t 2 x 2 + + p 。x j + p 傲x k( 4 2 )( 3 ) 以各公共因子的方差贡献率占公共因子总方差贡献率的比重作为权重进行加权汇总,建立因子综合得分函数:y := y ,丘,+ y :丘j + + 以r + + y p j g - - 1 ,2 ,p )( 4 3 )其中:一是第个评价对象的综合得分,扇为第j 个评价对象在第f 个公共因子的得分,扎为第i 个公共因子方差贡献率占公共因子总方差贡献率的比重,即n2 衫善如1 6聚类分析和支持向量机相结合的混合预测模型5 聚类分析和支持向量机相结合的混合预测模型5 1 混合模型为了检验本文想法的合理性,本文选取了8 0 家上市公司的股票,根据2 0 0 8 年第一季度各股票的信息及数据,选取了每股收益、每股净资产、净资产收益率、投资收益、利润总额、净利润、流通a 股这7 项重要的财务指标进行分析。本文建立混合模型可以分为三步:第一步,采用因子分析的方法对高维的股票数据进行降维,使其简单化。假设原有变量有p 个,分别用x a ,x 2 ,x 3 ,x p 表示;因子变量有m 个,分别用最,最,e 3 ,l 表示,运用多元因子分析法可建立如下数学模型1 1 3 1 :一n五。口1 1 厶+ a 1 2 p 2 + + a i m + a 1 岛_t 一x 2 。口2 l + 口2 2 ,2 + + a 2 r a 匕+ a 2 占2讳2 口p 1 e + 口户2 e + + a p m f m + 口p 占p该数学模型的矩阵形式为:x | a f a e其中f ;佤,ly 为公共因子,彳;f 口l l 1 为因子载荷矩阵,这里的 a p l 口朋( f - 1 , 2 p ,j = 1 2 ,朋) 称为因子载荷;= k l 一,占p ) 为特殊因子,在实际中通常忽略不计。多元因子分析法就是运用数学方法找出因子载荷矩阵a ,对所得到的各因子,首先观察它们在哪些变量上的载荷较大,在哪些变量上的载荷较小,再根据载荷大的变量本身的内容说明因子的含义。第二步,采用聚类分析模型对已经被简化的股票数据进行分类。本文中,聚类分析采用离差平方和法聚类,相似性统计量采用欧氏距离系数。其具体的计算过程如下【l 扣1 7 :a 原始数据标准化,构成标准化数据矩阵。b 计算欧氏距离矩阵,选出最小距离样本组。计算两两样本间欧氏距离构成距离矩阵,从中选出具有最小距离的样本组。将具有最小距离的样本组归并为一类,当计算新类与其他样本类之间的距离时,采用离差平方和法计算类之间的距离,计算完毕后再1 7聚类分析和支持向量机相结合的混合预测模型从中选择具有最小距离的两类。c 用新的样本类代替原来的一对样本类。d 对新形成的样本数据与其余样本数据重新计算欧氏矩阵,以代替原矩阵,再找出新矩阵中最小距离的对应样本类,如此重复c 到d 的步骤,直到把所有样本都归为一类为止。e 最后按下列原则连接成谱系图:( 1 ) 若两个样本在已经归并成类的类中未出现过,则它们归为一个新类;( 2 ) 若两个样本中有一个在某类中出现过,则另一个就加入该类;( 3 ) 若两个样本都在同一类中,则这对样本不再归类:( 4 ) 若两个都已在不同类中出现过,则把两类归并在一起。以上过程全部通过s p s s 软件来实现。第三步,采用基于类分类的多类分类算法对数据分类,并从中选出一部分样本进行测试,以检验分类的正确率。具体算法如下【6 1 1 s 一加1 :设训练样本为g x ,y 。) ,g ,y ,h cr “y ,y 一乱2 ,m ) ,其中,n 为输入向量维数,m 为类别数。将样本分成m 类,各类分开写成似) ,y 坶一,嘶,y 0 l s 一,m j其中,妊f “,y f ) l f = 1 ,z , 代表第s 类训练样本,+ + o ;l 。首先给出原空间中的优化算法,为了求包含每类样本的最小超球体,同时允许一定的误差存在,构造下面的二次优化:m n 薹群+ c 薹喜氏( 5 1 )约束为g p ) 一a s ) rg “一a s ) s 尺;+ 氏s = 1 ,m ,f 一1 ,z ,( 5 2 )o ,s = 1 ,m ,f = 1 ,z ,( 5 3 )该优化问题的对偶形式为:m a x 萋叁口f 5 ) 一善m 善i , 善t , 口p k ;j ( 5 4 )约束为:0s 口y sc ,s = 1 ,m ,f 一1 ,( 5 5 )聚类分析和支持向量机相结合的混合预测模型茏口,= 1 ,s 一1 ,m( 5 6 )借助核映射思想,首先通过映射妒将原空间影射到高维空间,然后在高维特征空间中进行上面的优化,并通过引入核函数k g ,y ) 代替高维特征空间中的内积运算,于是可以得到核方法下的优化方程为:m a x 萋扣蚶) 圳一薹妻骞母) 口眦;“圳慨7 ,约束为:0 墨口p ) sc ,s = 1 ,m ,i 一1 ,z ,( 5 8 )骞口j 订山以一,m( 5 9 )上面优化式是多类分类问题最终的优化方程,待优化的参数个数是样本总数1 。因此,该优化方程的计算复杂性主要与总的样本数量有关,而样本的分类数对算法复杂性的影响很小。由此可知,该算法在处理多类分类i , - j 题时比用s m l v l 构造一系列二分类要简根据k k t 条件,对应于o 口j ) c 的样本满足:r ;一( k ( x ,x 5 ) ) 一2 荛口p k g s ,x ( s ) + a :) 5 。( 5 。)利用式( 5 1 0 ) 分别计算出r 。的值,s 一1 ,m 。给定待识别样本z ,计算它到各个中心点的距离:正g ) = k g ,z ) 一2 喜1a j 5 k g ,5 ) ) + 叁妻口p ) 口夕k 似“,z p ) ,s = 1 ,m( 5 - )比较大小,找出最小的 g ) ,则zn - j = 第k 类。同时可定义该分类结果的信任度f1 ,当r 之 ( z )耻 彘,硼u1 2 ( 5 1 2 ) 式表明当所得的 ( z ) 值位于超球体内部时,此时的信任度为1 ,否则,信聚类分析和支持向量枳湘结合的混合预测模型任度小于1 ,并且距离超球体中心越远,信任度越小。该算法的关键是找到各类的中心点,因此还可以通过适当调整参数c 的取值来抑制噪声的影响。5 2 实验分析本文选取了2 0 0 8 年第一季度8 0 家上市公司的股票,数据均来自大富豪炒股软件,针对以上提及的7 项财务指标,采用s p s s 软件,最终得到3 个主成分,其累积贡献率达到8 5 7 8 。说明用这3 个综合因子可以概括出原来数据的绝大部分信息。因此可以用这三个综合因子来代替原来的7 项财务指标。再次使用s p s s 软件,对简化的股票数据采用聚类分析的方法进行分类,聚类分析采用离差平方和法聚类,相似性统计量采用欧氏距离系数。通过对聚类图的分析,将上面的8 0 家股票分为了3 类较合适。根据上市公司以往的表现和业绩,可以将这三类股票分为蓝筹股、一般股和垃圾股。最后从8 0 个上市公司的股票中随机选取5 0 个股票数据作为训练样本,剩下的3 0个股票数据作为测试样本。本文所构
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025版儿童鞋类线上线下融合销售合同
- 2025年度珠宝设计品牌委托合同范本
- 2025版智能硬件退伙协议书
- 2025年度金融创新项目借款协议书模板下载
- 2025不锈钢室内外照明工程承包合同
- 2025年大数据分析程序员合作项目合同
- 2025年度电力工程材料供应合同范本
- 2025版山林地租赁合同与林业用地流转管理协议
- 2025年度生物科技研发与应用合作协议书范本
- 2025便利店运营管理简易劳务合同范本
- Axure RP 互联网产品原型设计课件 第10章 团队合作与输出
- 《金融衍生品交易课件:股指期货入门教程》
- 《支架外固定的护理》课件
- 正规按摩店劳动合同协议
- 以房抵债协议书二零二五年
- 教师沟通技巧培训
- 医院消防知识培训课件
- 2025年高级考评员职业技能等级认定考试题(附答案)
- 实验室生物安全管理手册
- 国自然申请攻略
- 锂电池pack生产线可行性报告
评论
0/150
提交评论