(管理科学与工程专业论文)支持向量回归机研究及其应用.pdf_第1页
(管理科学与工程专业论文)支持向量回归机研究及其应用.pdf_第2页
(管理科学与工程专业论文)支持向量回归机研究及其应用.pdf_第3页
(管理科学与工程专业论文)支持向量回归机研究及其应用.pdf_第4页
(管理科学与工程专业论文)支持向量回归机研究及其应用.pdf_第5页
已阅读5页,还剩52页未读 继续免费阅读

(管理科学与工程专业论文)支持向量回归机研究及其应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

查塑王奎堂堡主兰垡堡塞 一一摘要 支持向量机( s v m ) 是九十年代中期发展起来的新的数据挖掘技术,它是建立在统 计学习理论基础上的通用学习方法,着重于研究小样本条件下的统计规律。目前其理论 研究和实际应用都处于快速发展阶段。 支持向量机主要包括支持向量分类机( s v c ) 和支持向量回归机( s v r ) 两个领域。 其中支持向量分类机的理论和实际应用研究相对成熟,而支持向量回归机的研究还缺乏 广度和深度。针对目前支持向量机研究工作中所存在的问题,本文主要在如下方面进行 了研究和探讨: 1 ,给出了个广义加权型支持向量回归机。该模型通过引入加权参数和一个灵活可 变的凸函数,在支持向量回归机的推广能力和经验风险之间进行平衡,使其可以包含若 于种已有的支持向量回归模型。该模型不但拓展了支持向量祝的应用形式,而且在核函 数的选取和实际风险的确定上都比原有方法有着显著的提高。 2 提出了多维输出的支持向量回归模型。目前的支持向量回归理论多集中于维输 出、多维输入的问题,对于多维输出的情况涉猎甚少。该多维输出模型通过建立基于矩 阵的回归超平面,采用迭代式支持向量回归训练方法,可以得到多维加权的回归系数, 适用于某一序列上的连续性输入输出问题,并通过实际问题的解决验证了其有效性。 3 将支持向量机的先进理论应用于银行客户分析领域。通过建立不同类型的支持向 量模型,解决了包括客户群体分类、信用评估、客户盈利能力预 奥9 等客户分析领域的众 多复杂问题。对本文所提出的支持向量回归模型进行了检验,并通过对比实验分析了不 同情况下支持向量模型的应用效果。 4 在实例的样本训练中,通过引入不确定核参数使核函数的选取更倾向于数据本身 的特点。根据信息增益大小确定参数值,提高了支持向量机的训练准确率和推广能力, 并通过对比实验说明了不同参数值对结果的影响程度。 关键词;支持向量回归机:多维输出;核函数;客户分析 支持向量回归机研究及其应用 s u p p o nv e c t o rr e g r e s s i o na n d i t sa p p l i c a t i o n a b s t r a c t s u p p o r tv e c t o rm a c l l i n e ( s 田i sn e wd a c am i n h gt e c h n i q u ed e v e l o p e d 矗d m 血e m i d d l eo f1 9 9 0 s s v mb a s e do nt l l ef o u n d a t i o n so fs t a l i s t i c a ll e a m i n gt h e o r y ( s l t ) ,w h i c h i sas m a l l s a m p l es t a t i s t i c sa n dc o n c e r n sm a i n l yt l l es t a t i s t i cp r i n c i p l e s 、v h e ns a m p l e sa r c 1 i m i t e d s v mi sd e v d o p i l l gp r o m j s i n 西ye i t h e ri nm e o f yo ra p p l i c a t i o n s 1 1 1 e r ea r em a i n l yt w of o c u s e so fs v m i n c l u d i n gs u p p o r tv e c t o rc l a s s 讯c a t i o n ( s v c ) a n d s u p p o r tv e c t o rr e g r e s s i o n ( s v r ) ,w h i l em er e s e a r c ho fs v r i sn o tap a c c ho ns v ce i m c ri n l h e o r ) ,o ri na p p l i c a t i o n s t h i sp 印e rf o c u s e so ns v mi ns e v e r a la s p e c t s ,i n c l u d i n gm e o r y f b u n d a t i o na n da p p l i c a t i o n 1 ag e n e r a l i z e dw e i 西1 t e dm o d e lo fs v ri sp r o p o s e d ,i nt h eo p t i m i z a t i o np r o b i e mo f w h i c han e x i b l ec o n v e x 劬c t i o na 1 1 dm ew e i g h t e dc o e 街c i e m 盯ei n c l u d e d 1 1 1 ed i 脯r e n t c h o i c e so fm em n c t i o na 1 1 dt h ec o e f f i c i e n t 研l le q u a t em eb a l a f l c eb e t w e c i lm eg e n e r a l i z a t i o n a n dt l l er i s k ,w h j l e 研1 1d 商v es o m e1 ( i n d so fc x i s 恤ga l g o r i 恤n so fs v r t h em o d e li sm o r e e 行b c t i v ei nm es e l e c t i o no f m ek c 丌l e l 缸c t i o na n dt i l ec o n f i 衄a 石o no f m er e a l s k 2 am u l t i d i m e l l s i o n a lo u t p u ts u p p o r tv c c t o rr e 笋e s s i o nm o d e l i sd e s i 鲫e dt l l a t 锄d u c e s t h es o i u t i o no ft l l em u l t i - o u t p u t st r 面n i n g 1 1 1 ep r e s e n ts v ii so n l yu s e f h lf o rt l l ep a t t e mw i m m u l t i i 1 1 p u ta n ds i n 舀eo u t p m ,a l l d t l l e r ea r en o t e n o u 9 1 l d i s c u s s i o n si nm et o p i co f m u l t i - o u t p u t r e 孕e s s i o nh y p e r p l a n eb a s e dm a 啊x i ss t 九1 c t l l r e d ,w h i c hc a nb ei m p l e m e n t e db y s o l v i n gt 1 1 ei t e r a t i v ep r o c e d u r e so ft 1 1 eb a s j cs u p p o nv c 曲wr e g r e s s i o nm o d e l 1 1 1 s t e a do ft h e v e c t o rc o e 衢c i e n t ,aw e i g h t e dm a 仃讧c o e 瓶c i e n ti sg a i n e da s 也er e s u l t t h i sm o d e li su s e 削 i 1 1e s t i m a t i n gt l l em o v 锄e n tt r e n do ft l l em u l 石一o m p u t s ,a i l dt 1 1 ee x p e r i 互。n t ss h o wt h a tm e m o d e li sf e a s i b l ea n de f f e c t i v e 3 d i f f b r e ms u p p o nv e c t o rc l a s s i f i c a t i o na n dr e f e s s i o np r e d i c tm o d e l sa r cc o n s t n l c t e d 柚da p p l i e dt om es o l l n i o no ft l l ec l l s t o m 盯c l 勰s i f i c a t i o n ,c r e d i ts c o r i n 岛b u s i 们s sp r 酣i c t i o n a n ds oo n s o m ee x a m 协a t i o nf o rt h es 1 1 p p o nv e c t o rr e 黟e s s i o nm o d e l sa r ep r e s e n t e di nm e p 叩e r ,a sw e l la st h ep a r t i c u l a ra n a l y s i sf o rm ed i f f h e n tr e s u l t sw i t hc o n t r a s t i n ge x p e r i m e n t s 4 u n f i x e dm ek e r n e l 劬c t i o np 撇m e t e ri si n t r o d u c e dw h i l et r a i n 岖1 1 1 ec h o i c eo f 也e k c m e lf h n c t i o na n d p a r a m e t e rw i l lb ea c c o r d j l l gt ot l l ec h a r a c t e r i z a t i o no f t h ed a t e ,r a m e rm a n l y i n go nt l l ee x p e r i m e n t e r se x p e t i e l l c e t h ee x p e r i m e n tw i t l lk e m e l 凡n c l i o na c c o r d i n gt om e i n f b 肋a t i o ng a i n ss h o w sm o r ea c c u r a c ya n dg e n e m l i z a t i o n ,a n dt h e r ea r ea l s or e s m tt a b l e s , w h i c hi n d i c a t et h ei m p a dw h e nd i 幅嗍1 tp a r 锄e t e f sa r ec h o s e 查塑三盔塑主鲨堡苎 k e yw o r d s :s u p p o r tv e c t o rr e g r e s s i o n ;m u n i - o u t p u t s ;k e r n e lf h n c t i o n ;c u s t o m e r a n a l y s i 8 独创性说明 作者郑重声明:本硕士学位论文是我个人在导师指导下进行的研究工 作及取得研究成果。尽我所知,除了文中特另桶以标注和致谢的地方外, 论文中不包含其他人已经发表或撰写的研究成果,也不包含为获得大连理 工大学或者其他单位的学位或证书所使用过的材料。与我同工作的同志 对本研究所做的贡献均已在论文中做了明确的说明并表示了谢意。 作者签名;莶总游日期: 大连理工大学硕士研究生学位论文 大连理工大学学位论文版权使用授权书 本学位论文作者及指导教师完全了解“大连理工大学硕士、博士学位论文版权使用 规定”,同意大连理工大学保留并向国家有关部门或机构送交学位论文的复印件和电子 版,允许论文被查阅和借阅。本人授权大连理工大学可以将本学位论文的全部或部分内 容编入有关数据库进行检索,也可采用影印、缩印或扫描等复制手段保存和汇编学位论 文。 作者签名 导师签名 巷态选 缓 大连理工大学硕士学位论文 1 绪论 1 1 数据挖掘与银行客户分析 1 1 1 客户关系管理概念 自从有商务活动以来,客户关系就一直是商务活动中的核心问题,也是商务活动成 功与否的重要影响因素。客户关系管理( c h t o m e rr d a t i o n s h i pm a l l a g e m e n t ,简称c r m ) 作为现代企业管理的思想和方法,是随着当今世界经济发展趋势以及当代管理技术和信 息技术不断发展而逐步成熟起来的。 客户关系管理最早起源于美国,到目前为止,许多研究人员和机构都对其定义提出 过自己的解释。如今学术界普遍认同的定义是由r o m a n o 提出的:吸引并保持有经济价 值的客户,驱除并消除缺乏经济价值的用户【l 】。具体说来,客户关系管理是“以客户为 中心”的经营理念作为指引,利用计算机、数据处理、通讯和网络等相关技术手段,对 客户信息进行有效的收集、管理和分析,找出有价值的分类客户,并进行针对性营销和 服务,达到保留和吸引客户、提高客户的满意度、忠诚度,最终增加收益、降低成本并 且提高市场占有率的目的。 客户关系管理作为体现先进管理思想的方法,它的产生和发展与营销管理有着密切 的关系。同时,伴随着营销理念的转变以及各项i t 技术手段的快速发展,客户关系管 理应用系统逐渐成型。经过近2 0 多年的发展,客户关系管理系统逐步成熟,在国外已 成功地运用到金融、邮电等客户密集性企业中,取得了较好的实际效益,并逐渐地引起 了国内学术界和氽业的关注。 1 。1 。2 银行客户分析的必要性 利润通过竞争来实现,这是市场经济永恒的法则,银行业也不例外。根据银行业的 “2 0 w 8 0 ”法则,这些占2 0 的银行优质客户创造了银行8 0 的利润。故此,哪家银 行拥有了广大的优质客户,哪家银行就拥有了广阔的生存和发展空间。 由于国家金融政策的改革,特别是中央银行监管政策及市场准入政策和退出政策的 改变,使得银行同业数量的增加,由此带来了客户对金融产品和服务选择的扩大。尤其 在加入w t 0 后,大量国外金融资金的注入,更大大加剧了国内金融业的竞争风险。外 资银行凭借其雄厚的金融资本、良好的经营理念、先进的金融技术和丰寓的市场经验, 从多方面对中罔的银行业进行排挤【。 支持向量回归机研究及其应用 在这种激烈的国际竞争环境下,客户关系管理已经引起了以客户作为主要资源的国 内银行业的注意。国内银行必须依靠自身的信息优势,尽快推动银行经营理念的转变, 由原来的“以资金为中心”转变为“以客户为中心”;利用当代信息技术和互连网技术 对c r m 进行系统地建设,收集c r m 系统中的数据进行客户行为分析,全面掌握客户 偏好和客户信息,充分了解客户的需求和信用风险;正确制定营销服务策略,利用现有 渠道进行交叉销售,将信息的控制能力和快速反应能力转化成竞争力,提高顾客满意度, 形成银行的核心竞争力。只有这样,我国银行才能在激烈的市场竞争中生存下来。 由于市场竞争变得日益激烈,银行对客户的依存度也会越来越高,能否拥有一定数 量和忠诚度的优质客户便成为了银行能否持续发展的关键影响因素。因此,保持一个良 好的、牢靠的客户关系,已经显得比以往任何时候都重要,加强对客户关系的管理并针 对客户资料进行银行客户分析已经成为必然的趋势【3 】。 但是,我国银行业客户信息管理一直存在分散性和片断性的缺路! “。长期以来,我 国银行信息系统只是单纯模拟原来手工处理流程来处理银行交易,系统的设计均以账号 为中心,而且根据客户与银行往来业务品种的不同,其在银行内部各个业务系统中的账 号也各不相同,很难将同一客户在银行内部的所有信息进行整合。因此我国银行客户信 息的最大特点是分散性( 市场、销售、服务各个部门都有自己独立的信息系统) 和片断 性( 各部门信息相互割裂) ,银行内没有一个部门可以看到客户信息的全貌,导致同一 个客户在办理不同的银行业务( 存款、贷款、办卡等) 时,其个人背景信息都要重复地 填写。而且,客户在同一家银行办理不同的业务,往往需要办理不同的银行卡,导致同 一客户手中经常持有同一家银行的多张存折和银行卡,给客户造成诸多不便。这种情况 不但造成了时间的浪费和营运成本的增加,还阻碍了新业务的拓展。从客户的角度看, 当与同一家银行进行不同的产品或服务查询时,不得不重复一些相同的步骤,而且得到 的回答是来自不同的银行、不刷的人给出的不同回答:从银行领导的角度来看,从不同 的部门得到的分析统计结果也往往不一样,而且效率非常慢,月报、季报都不能按时上 交;从市场营销的角度看,由于不能准确详实地了解客户信息,无法对客户进行明确细 分,从而不能针对不同客户的需要,提供相应的服务和产品,对保留现有客户和发掘潜 在客户都造成了困扰。总之,客户信息的分散性和片断性,已经成为我国银行把握客户 和市场需求、进行有效决策、提高市场竞争力的严重阻碍,采用有效的客户关系管理手 段与客户分析技术成为银行业照待解决的重要课题。 大连理工大学硕士学位论文 1 1 3 数据挖掘的概念 在过去的数十年中,由于数据库技术的成熟和数据库管理系统的广泛应用,企业生 成和收集数据的能力已经迅速提高,尤其作为全球信息系统的万维网的流行,已经将我 们淹没于数据和信息的汪洋大海中。于是,人们渴望从这些爆炸性增长的数据中获得更 有价值的支持决策的信息。传统的查询、统计分析等方法,其处理方式都是对指定的数 据按指定的方式进行处理,而不能对这些数据本身所包含的潜在消息和规律进行发现和 提取,无法在更高层次上提供数据分析功能,从而无法实现对决策或科研工作的进一步 支持。数据挖掘技术的出现给这一历史遗留问题的解决提供了新的活力。 “数据挖掘”一词于1 9 9 5 年加拿大蒙特利尔召开的第一届知识发现和数据挖掘国 际学术会议上正式提出。简单的说数据挖掘就是从大量数据中提取或“挖掘”知识p j 。 中国工程院李德毅院士曾经为数据挖掘做过如下定义:数据挖掘是从大量的、不完全的、 有噪声的、模糊的、随机的,实际应用中的数据中,提取隐含在其中的,人们不知道的, 但是又是潜在有用的信息和知识的过程。 数据挖掘是一个多学科领域,它融合了数据库技术、人工智能、机器学习、神经网 络、统计学、模式识别、统计学、知识库系统、知识获取、信息检索、高性能计算和数 据可视化等多种技术。数据挖掘与以往技术相比的优势在于它不仅仅是对历史数据的回 顾,更为重要的是可以得到对未来的预测模型 6 】。表1 1 显示出了这种差异。 表1 1 预测和回顾模型比较 t a b 1 1t h em o d e lo f p 砌i i c t i o n 蚰dr c v i e w 传统d s s ,e i s 工具应用案例 数据挖掘工具应用案例 “打印出上个月所有交易明细账单” “预测下半年市场交易变化” “从最近半年账单中列出十大消费客户”“找出目标客户,提高销售活动的影响率” “客户取消合同或流失的统计”“客户流失预警”“发现客户行为偏好” 1 1 4 数据挖掘为银行客户分析提供技术支持 银行客户关系管理系统包括3 个层面的应用:交流层次的c r m 、操作层次的c r m 以及分析层次的c r m 。其中分析层次是银行c i t m 的核心内容。 现代银行每天都需要分析处理大量的数据,而日益增长的业务使银行数据库中保存 了海量的客户资料,这使得传统的联机事务处理系统( o n l i n et r a l l s a c t i o np m c 黜s n g , 简称o u l p ) 不能满足对数据进行深层次多维分析的要求。于是人们提出了数据仓库和 数据挖掘技术对分布在银行内部各处的数据进行抽取、净化,为银行决策分析提供所需 的基础数据。在一个“以客户为中心”的银行系统中,需要对银行客户数据进行多维分 析处理,并将分析结果以多维视图的方式展现给决策者,银行决策者从而做出相应的决 策。因此,具有对大量多维客户信息进行快速分析功能的数据挖掘技术,成为了银行客 户数据处理的核心。 通过先进的数据仓库技术与数据挖掘技术,分析现有客户和潜在客户相关的需求、 模式、机会、成本和风险,可以最大限度地赢得企业整体经济效益。例如,银行通过分 析客户对产品的使用频率、持续性等指标来判别客户的忠诚度,从而对客户进行定位、 分类,并对忠诚客户提供优惠服务,以确保这些客户可以享受到一流的服务f 7 j 。 在分析层次的c r m 中,客户分析成为数据挖掘的主体。数据挖掘技术以其模式的 多样性为c r m 提供了如下的技术支持:概念类描述、关联分析、分类和预测、聚类分 析、孤立点分柝、演变分析等。适当的使用这些数据挖掘技术,准确地的应用于客户背 景分析、客户消费预测、客户细分、信贷风险分析、收益分析等c r m 核心问题中,是 成功的实现客户关系管理体系建设,真正做到“以客户为中心”的命脉所在。 目前,应用于银行客户分析层次的主要技术有多元判别分析、人工神经网络、专家 系统、分类树及其他多种软计算方法。虽然这些分析技术的应用在一定程度满足了预期 挖掘的要求,但也不可避免的出现一些无法弥补的缺陷,因此寻找更为合适的数据挖掘 技术变成了当务之急。支持向量机理论的出现和日益成熟,为这一难题的解决提供了新 的思路。 1 2 支持向量机理论 支持向量机( s u p p o r tv e c t o rm a c b n e ,简称s v m ) 是一种基于统计学习理论 ( s t a f i s t i c 缸k a m i n g n e o r y ,简称s l t ) 的v c 维理论( v 8 p n i k c h e r v o n 跳i s d j m 鼬s i o n , 简称v c ) 和结构风险最小化( s 咖c t i l r a ir i s km i n i i i l i z a t i o n ,简称s r m ) 理论的全新的 机器学习方法。支持向量机提出了最优超平面的概念并且与核空间相结合,以一个凸二 次优化及其w 0 1 f e 对偶来构造分类问题。通过引入e 不敏感损失函数来软化最优分类超 平面函数,用以处理含有噪声的数据分类问题;核函数的引进则可以使输入空间映射到 高维空间以求得到更好的线性表示,并且大幅度的降低了训练时间。 支持向量机方法是实现s r m 的具体算法,它设计函数集的某种结构使每个子集中 都能取得最小的经验风险( 如使训练误差为o ) ,然后只需选择适当的子集使置信范围 最小,则这个子集中使经验风险最小的函数就是最优函数。该算法将原始数据集合压缩 到支持向量集合( 通常为前者的3 5 ) ,然后用子集学习得到新知识,同时给出 大连理工大学硕士学位论文 由这些支持向量决定的规则。并且可得到学习错误的概率上界,即支持向量的期望数目 和训练集合大小的比值。 总体来说,支持向量机具有以下四个理论要点:非线性映射是理论的基础;对特征 空间划分的最优超平面( o p t i m a lh y p e r p l a l l e ,简称o h p ) 是支持向量机的目标;支持 向量( s v ) 是支持向量机的结果:二次规划是计算s v 的手段。 1 2 1 统计学习理论与v c 维理论 与传统统计学相比,统计学习理论是一种专门研究小样本情况下机器学习规律的理 论。v a 舯i k 等人从六、七十年代开始致力于此方面研究眈到九十年代中期,随着其 理论的不断发展和成熟,也由于神经网络等学习方法在理论上缺乏实质性进展,统计学 习理论开始受到越来越广泛的重视。 统计学习理论是建立在套较坚实的理论基础之上的,为解决有限样本学习问题提 供了一个统一的框架。它能将很多现有方法纳入其中,有望帮助解决许多原来难以解决 的问题( 比如神经网络结构选择问题、局部极小点问题等) 。 v c 维是统计学习理论的一个核心概念,是有关函数集学习性能的指标【9 1 。v c 维的 直观定义是:对一个指示函数集,如果存在 个样本能够被函数集中的函数按所有可能 的拍种形式分开,则称函数集能够把 个样本打散:函数集的v c 维就是它能打散的 最大样本数目 。若对任意数目的样本都有函数能将它们打散,则函数集的v c 维是无 穷大。v c 维反映了函数集的学习能力,v c 维越大则学习机器越复杂( 容量越大) 。如 图1 1 所示。 3 个分类超平面的函数集 能否打散7 个样奉 1 个椭圆函数集 能否打散4 个样本 7 个样本完全被包含3 个分类超平面的 4 个样本没有完全分开,函数集只 函数集分开,该函数集的v c 维等于7 能分开2 类样本,它的v c 维等于2 图1 1v c 维示意图 f i g 1 1v cd i m e n s i o n 支持向量回归机研究及其应用 1 2 2 推广性的界 在分析学习过程中,核心问题是如何能最小化风险。传统算法中般以经验风险来 衡量机器学习的推广能力,即经验风险最小化原则。然而在实际的应用当中发现,经验 风险最小化并不代表实际风险最小化,因此在某些问题上只关注经验风险往往会引发 “过学习”现象。 统计学习理论系统地研究了对于各种类型的函数集,经验风险和实际风险之间的关 系,即推广性的界。关于两类分类问题,对指示函数集中的所有函数的经验风险r ( 门 和实际风险r ( n 之间以至少1 一碍的概率满足如下关系 1 d 】; 附脚一小犀霉亟 。, 其中 代表函数集的v c 维,l 代表样本数。这一结论从理论上说明了学习机的实 际风险由经验风险( 训练误差) 和置信范围两部分组成。它表明在有限训练样本下,学 习机的v c 维越高( 复杂性越高) 则置信范围越大,导致真实风险与经验风险之间可能 的差剐越大。这就是为什么会出现“过学习”现象的原因。 1 2 3 结构风险最小化原理 从推广性的界理论可以看出,经验风险理论在样本有限时是不合理的。实际上,在 学习中我们需要同时最小化经验风险和置信范围,这样才能取得较小的实际风险。即对 未来样本有较好的推广性。图1 2 体现了经验风险和置信范围对实际风险的影响。 统计学习理论提出了一种新的策略:把函数集构造为一个函数子集序列,使各个子 集按照v c 维的大小排列,在每个子集中寻找最小经验风险,在子集间折衷考虑经验风 险和置信范围,以取得实际风险的最小。这种思想称作结构风险最小化原理。实现s r m 原则可以有两种思路,一是在每个子集中求最小经验风险,然后选择使最小经验风险和 置信范围之和最小的子集。显然这种方法比较费时,当子集数目很大甚至是无穷时不可 行。因此有第二种思路,即设计函数集的某种结构使每个子集中都g 取得最小的经验 风险( 如使训练误差为o ) ,然后只需选择选择适当的子集使置信范围最小,则这个子 集中使经验风险最小的函数就是最优函数。支持向量机方法实际上就是这种思想的具体 实现, 大连理工大学硕士学位论文 函数集子集:s l c s 2 ( = s 3 v c 维:h 1 h 2 h 3 图1 2 风险最小化示意图 f i g 1 2r i s km i n i m i z a t i o n 1 2 4 最优超平面 支持向量机是从求解两类分类问题的最优超平面发展而来。 假设对于样本集r = 戤,m l f _ j ,2 , ,其中输入t 尺”,输出y ,卜1 ,+ 1 ,为 样本数,存在一个超平面可以将它划分。支持向量机的基本思路是寻找一个最优超平面, 使它的分类间隙最大。对二维问题,即寻找最优分类线,如图1 3 所示。图中圆形实心 点和圆形空心点分别表示两类样本,h 为把两类没有错误地分开的分类线,h l ,h 2 分 别为过两类样本中离分类线最近且平行于分类线的直线,h 1 和h 2 之间的距离叫做分类 间隙。所谓最优分类线就是要求分类线不但能够将两类无错误的分开,而且要使分类间 1 隙最大。设分类线方程为细t ,+ 6 = o ,咒伽五,+ 砂l 一毒,则分类间隙为志,使 i i 埘0 间隙最大等价于使恻f 最小,因此满足此条件且使 f h f 2 最小的分类线h 就是最优分类 支持向量回归机研究及其应用 线。h 1 ,h 2 上的训练样本点就叫支持向量。恻l 最小,即结构最简单,支持向量机正是 通过对分类间隔最大来控制泛化能力,这正是支持向量机的特色。推广到高维空间,最 优分类线就成为最优分类面,即最优超平面。 h 2 图1 3 最优超平面示意图 f i g1 - 30 p 缸a l 时h y p e r p l a n e 1 2 5 核函数 核函数是核技巧的基础,而核技巧是支持向量机的重要组成部分。在支持向量机训 练过程中,算法复杂度只是由样本数来决定的,特别是样本中支持向量的数目。然而在 支持向量的训练过程中,特别是线性不可分情况,样本内积的计算将会变得非常复杂。 通过引入核函数将非线性可分的数据样本在高维空间转化为线性可分,巧妙避开了高维 空间数学运算量庞大的问题,使得支持向量机可以在有限样本下,有效处理高维问题, 解决了传统机器学习方法的“维灾难”,这是支持向量机又一个优越于传统机器学习方 法的特点。 核函数的定义为:设z 是r “中的一个子集,称定义在j 上的函数 ( 石,一) 是核 函数( 正定核或核) ,如果存在着从j 到某一个h i l b e n 空间,的映射, 使得 x 啼f m : x 一巾( 曲 七( z ,x ) = q ( x ) 中( x ) ( 1 2 ) ( 1 3 ) 查垄里三查塑主堂篁堕苎 其中表示f 中的内积。图1 4 展示了核函数的设计思想。 样本空间 特征空间 图1 4 核函数原理示意图 f i g1 4i d e ao f k e r i l e l 鼬嘶o n 从本质上说,核函数决定了特征空间的结构,它的选择直接影响到算法实现与效果。 目前常用的核函数主要有如下三种: ( 1 ) 线性核函数 丘b ,y ) = x y ( 1 4 ) ( 2 ) 多项式核函数 足g ,y ) = y ) + c r ,凸d 为参数。 ( 1 5 ) ( 3 ) 高斯核函数 砘y ) _ e 一一学1 御戮 ( 1 s ) 1 2 6 支持向量机的优势及应用意义 虽然传统数据挖掘技术已经比较成熟,但其本身存在无法避免的缺点。如多元统计 分析对数据要求过于严格,神经网络存在“过学习”现象,传统统计学无法适用于小样 本训练等,这些客观存在的缺陷已经成为数据挖掘技术在实际应用中的瓶颈。而作为数 据挖掘新兴方法的支持向量机为解决传统数据挖掘的缺陷,更好地应用数据挖掘技术解 决实际问题提供了新的发展机会。支持向量机是近年来发展起来的一种通用的机器学习 方法,在许多分类问题和函数拟合问题上都已获得了很好的效果。对于少量样本的分类 支持向量回归机研究及其应用 问题,支持向量机具有调节参数较少,运算速度快等优点。而在大规模样本训练中,支 持向量机也体现出很好的推广能力。支持向量机理论虽然尚未完全成熟,但近年来已经 有了明显的改进并在实际应用中体现了它的优越性。同时,支持向量机的分类方法和回 归方法可以分别适用于定性分析和定量分析中。因此,把支持向量机理论应用到银行客 户分析中,具有很强的理论可行性。 同样,在银行客户分析领域融入支持向量机方法,也有着实际的应用价值。由于银 行客户管理生命周期的各个阶段都会用到数据挖掘技术,这就为支持向量机方法的应用 提供了广阔的发展空间。通过支持向量机方法可以发现购买某一商品的客户的特征,从 而可以向那些也同样具有这些特征却没有购买的客户推销这个商品;通过支持向量机方 法可以发现流失客户的特征,就可以在具有相似特征的客户还未流失之前,采取针对性 的措施;使用支持向量机方法可以建立使用信用卡损耗模型,可以预测哪些客户将停止 使用银行的信用卡,而转用竞争对手的卡,根据支持向量方法训练结果,银行可以采取 某些措施来保持这些客户的忠诚度。 因此,支持向量机技术与银行客户分析相融合,不仅是对支持向量机的理论提升和 实践检验,也是银行客户关系管理领域的勇敢尝试和重要突破,具有很强的理论意义和 实践意义。 1 3 国内外研究情况综述 支持向量机的概念是由v a p n i k 提出的一种基于统计学习理论的全新机器学习方法 【1 1 。12 1 。它提出了最优超平面的概念并且与核空间相结合,以一个凸二次优化及其w o l f e 对偶来构造分类问题,并且在此基础上发展成多类分类和函数回归问题。 1 3 ,1 支持向量机分类算法 标准的支持向量分类算法是给定洲练集,= k ,只l f = j , ,其中输入r ”, 输出y , 一1 ,+ 1 ,为样本数,采用函数中( x ) 将输入数据映射到一个高维空间以求得到 线性模型,并且定义k ( x ,y ) = 西b 徊o ) 为核函数,用来取代向量的内积运算。然后求解 下列最优化问题【i 3 l : 唑抑1 2 + c 喜参 s , 如x ? + b l 一 善,o ,f - l ,2 ,z ( 1 7 ) ( 1 8 ) ( 1 9 ) 大连理工大学硕士学位论文 其中参0 为松弛项,表示错分样本的惩罚程度:c 为常数,用于控制对错分样本 惩罚的程度,实现在错分样本数与模型复杂性之间的折衷;甜和6 为判决函数中的权向 量和阈值。当无错分样本时,最小化目标函数的第一项等价于最大化两类间的间隔,可 降低分类器的v c 维,实现结构风险最小化原则。其对偶形式如下: 呼;毫妻删粥地州一骞吩 s ,t ,y ,口f = o ( 1 1 1 ) 0 c ,f - 1 ,2 ,( 1 1 2 ) 从而可以得到决策函数 ( x ) = s g n ( 咒瓦;置( t ,算) + _ ) ( 1 1 3 ) 1 3 2 支持向量机回归算法 给定训练集r = 融;,y j ) ,江z , ,其中输入葺r ”,输出弘r ,为样本数, 选择e 一不敏感函数为b 一厂g 】= m 鼎 d ,抄荆卜s 。构建二次规划原始问题 瓣扪k 喜( 鼻+ 鼻) ( 1 1 4 ) s t r x j j + 彬一y i 占+ 磊,f = 1 ,2 ,一,z( 1 1 5 ) y 一幻t j + 印f + 芬,f = 1 ,2 ,一, ( 1 1 6 ) 点,善o ,f - 1 ,2 ,( 1 1 7 ) 支持向量回归的决策函数采用如下形式 ,( x ) = ( 石t + 一i i ( ,工) + 云 ( 1 1 8 ) 其中系数匾,瓦+ 通过求解标准二次规划( 1 1 4 ) 一( 1 1 7 ) 的如下对偶规划得到: 噼三毫( 小引( 巾吩坶( 抄 支持向量回归机研究及其应用 , s ( 口j + 口,) 一y ,( 口i 一口) i = i- t i s t ( 吒一口;) = o 一;孚,f :1 1 2 , ( 1 1 9 ) ( 1 - 2 ( 1 2 1 ) 如果求出的最优解为口( ) :( 僻,口? ,嚷,口? ) r ,首先考虑o 吒 导的情况,根据 k k t 条件 口,( s + 亡,+ y ,一细一,一矽= 0 ( 1 - 2 2 ) 争咄- o n z , 得到晏= 0 和m 一细工,j 一6 = 一 s ,于是根据原始最优化问题( 1 1 4 ) 。( 1 1 7 ) 的约束臻件 ) ,j 一“钿x j j + 彬+ 毛+ ( i 2 4 ) 得知f ,= o ,再根据i o 汀条件 g :瞄七? 一y l + f ( d 毛) 七够= qn 2 秘 有口,:o ,另外同理可证,当某个o d ,+ 导时,一定有:o 。 再考虑当口= 孚的情况e 根据脚。条件( 孚一啦 喀= 。有毒。,此时分为两种情 况:当点= o 时,那么根据k k t 条件口,+ p + 茧y j + 细x ,十缈= o 可以得到 “一向x ,j 6 = 一占 o 时,根据舯条件a j + 0 + 茧+ 一”+ 阳工。门功= 0 得到 儿一阳,一6 = 一s 一手 0 ,和任意的核函数k ,问题( 2 2 ) 一( 2 5 ) 一定有可行解。 2 3 支持向量回归求解 引进关于的函数, g 0 ) = 去“7 协 ( 2 6 ) 二 其中日r w 是正定矩阵。这样把构造超平面的问题转化为如下的最优化问题 ,隅丢“7 协+ c 主s ,皓。+ 茧) 咄f ”2 智”“7 s t 圭坼k 0 ,工,) + 6 一y ,口,+ 茧,f :1 ,2 ,z ( 2 7 ) ( 2 8 ) 咒一圭。;k g ,x ,) 一6 甜。+ 参+ ,f :1 ,2 ,z ( 2 9 ) 毒,毒2o ,f = 1 ,2 , 选择l a 掣a n g e 乘子d “,求解二次规划 ( 2 1 0 ) 大连理工大学硕士学位论文 由此 三p 一川= 扩协+ c 参售+ 点) - 吼f 矾+ 毒一杰。;k g ,x ,) 一6 + y , 一吒f 或+ 鼻+ 圭“,足g ;,- ) + 6 一_ y ;1 j _ l l :1 圭如每+ 屈善;) 等:o j “:足岳+ 面) d “ 、 芸一静飞) = 。 ! :o j c s i 一筐i 一? j :o d i tt7 詈- o 一,叫t i 屈- o 把上述结果代入( 2 1 1 ) ,得到对偶形式 s t d ,k k ,_ 归。1 置g 一,k ,一d ,) + e 圭b ;+ + q ) o 口,q o ,f - 1 ,2 , 其中石:h 一- k e 一云,) ,这样就得到最优回归超平面 ( x ) = i ,k ( 丑,x ) 十i ( 2 1 1 ) ( 2 1 2 ) ( 2 1 3 ) ( 2 1 4 ) ( 2 1 5 ) ( 2 1 6 ) ( 2 1 7 ) ( 2 1 8 ) ( 21 9 ) ,p ,憎 1 2 n 旷爬 、_j a一 ,p y ,h o l l 、-j 口一 ,p ,日 支持向量回归机研究及其应用 2 4 解的推广情况 在应用广义加权型支持向量回归方法时,要事先评价样本点的重要性,然后根据样 本点的重要性确定权参数。如按照欧几里德距离作为重要性指标,测试样本与训练空间 距离越短,该训练样本的重要性越大。确定样本点权参数后,根据实际的精度要求设定 阀值,对样本集进行删减,这样可以大大简化训练时间。同时,在核函数选择上,考虑 h 的取值,如当h = k 时,对偶形式就转化成了标准的支持向量回归机 壹b ,一口,) = o o 口,+ o ,f = 1 ,2 , 进一步,如果取h 为单位阵时,那么原问题就转化为如下对偶问题 艇3 ,丢杰g ;一k b ,k b ,k ,一口,) + 以r 2 。2 篇 “”“ s 矗仁。4 蚂) 一圭m ,+ 飞) 圭k 一哆) o ( 2 ,2 1 ) ( 2 2 2 ) ( 2 2 3 ) 0 口,d ,o j ,f - 1 ,2 ,( 2 2 4 ) 在标准支持向量回归机中,对核函数的要求比较严格,必须满足正定或半正定的要 求。而在问题( 2 2 2 ) 一( 2 2 4 ) 中,由于k k ,一皿b ,x ,) 本身是半正定的,即对于任意向量x , 必然满足艇g ,x ,k g ,x ,弦7 o ,这样就可以不对核函数做正定或半正定的要求,并 且上述问题是有解的凸二次规划。因此求解最优解口9 ,并从原始问题( 2 7 ) ( 2 1 0 ) 求解 最优解五和云,就可以构造最优超平面为 ,( x ) = 五,k ( _ ,x ) + 云( 2 2 5 ) 2 伫 乃 0 。1 叫 , # 粒 k 专 k ,m 卜 坼 b k 蓬。 震 奎堡望三盔堂堡主堂垡i 坚 一 - - _ _ _ _ _ _ - _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ - _ _ _ _ _ _ _ _ _ _ _ _ _ _ - _ _ _ _ _ _ _ 如果选取g ( “) = ,把目标函数变分段函数,将导致下面的二次规划 薏粤车+ c 喜置b + 鼻+ ) “圭。,k g ,) + 6 一_ y ;鼠+ 鲁 f = 1 只一圭“,臣g ;,x ,) 一6 甜,+ 鼻 i = l ( 2 2 6 ) ( 2 2 7 ) ( 2 2 8 ) 善f ,善f o ,f - 1 ,2 , ( 2 2 9 ) 由于目标函数在某些点不可微,我们通过引入新的变量埘,把问题等价转化为如下二次 规划 。职毒”c 参侈心) ,。, 。i 圭。,k g ,。) + 6 一y ;茎口。+ 鼻 咒一圭蚝臣g ,工,) 一6 巩+ 茧 一,竹“, 量,点+ 0 ,f = l ,2 , ( 2 3 1 ) ( 2 3 2 ) ( 2 3 3 ) ( 2 3 4 ) 通过求解该二次规划,得到最优解“,卅,6 ,代入原始问题( 2 2 6 ) 一( 2 2 9 ) ,这样就得到 最优回归超平面 ,( 工) = i 。足( ,x ) + 五 ( 2 - 3 5 ) 考虑更为一般的情况,当g ( “) = l i p “0 时,原目标函数变为线性分段函数的一般形式, 这样将导致下面的二次规划 职孝l ( p “) ,卜c 喜毛幢+ 喜) ( 2 3 6 ) 支持向量回归机研究及其应用 s - t 壹五b ,- ) + 6 一y ,矾+ 喜 y ,一圭。,足g ,。) 一6 砖+ 喜 f

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论