(计算机应用技术专业论文)智能分类算法在银行客户洗钱风险评估中的应用研究.pdf_第1页
(计算机应用技术专业论文)智能分类算法在银行客户洗钱风险评估中的应用研究.pdf_第2页
(计算机应用技术专业论文)智能分类算法在银行客户洗钱风险评估中的应用研究.pdf_第3页
(计算机应用技术专业论文)智能分类算法在银行客户洗钱风险评估中的应用研究.pdf_第4页
(计算机应用技术专业论文)智能分类算法在银行客户洗钱风险评估中的应用研究.pdf_第5页
已阅读5页,还剩57页未读 继续免费阅读

(计算机应用技术专业论文)智能分类算法在银行客户洗钱风险评估中的应用研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

浙江人学硕i :学位论文摘要 摘要 金融领域的信息技术应用,在加快经济活动运作的同时,也给金融监控带来 了很多困难。这使得类似洗钱这类犯罪行为,在网络时代来临的2 0 0 0 年以后开 始变得日益猖獗。 洗钱是指将毒品犯罪、黑社会性质的组织犯罪、恐怖活动犯罪、走私犯罪或 者其他犯罪的违法所得及其产生的收益,通过各种手段掩饰、隐瞒其来源和性质, 使其在形式上合法化的行为,对社会危害严重。之所以产生这种犯罪同益猖獗的 原因是,传统人工审查效率低下,无法在新的时代环境下胜任,而传统规则技术 下的自动审查则准确率很低,不具实用性。 世界各国政府针对这种现状都在开发智能反洗钱系统,我国这方面的研发已 经进入了第二代,将使用大量人工智能中的智能处理技术。本文根据系统中,基 于客户信息进行洗钱风险评估,这一坏节目前相关研究还相对空白的情况,提出 了使用逻辑回归、神经网络和支持向量机这三种数据挖掘中的智能分类技术,对 客户潜在风险进行分类评估的方法。文章详细说明了算法的理论,数据处理过程 和实施过程,并分析指出了各个算法的优缺点,以及在客户信息洗钱风险评估中 的使用意见。 关键词:数据分类,机器学习,反洗钱,逻辑回归,神经网络,支持向量机 浙江人学顾j j 学位论文 a b s t r a c t a b s t r a c t a p p l i c a t i o no fi n f o r m a t i o nt e c h n o l o g yi n t h ef i n a n c i a lf i e l d ,a tt h es a m et i m e a c c e l e r a t i n gt h eo p e r a t i o no fe c o n o m i ca c t i v i t i e s ,b u ta l s ot ot h ef i n a n c i a lm o n i t o r i n g h a sb r o u g h tm a n yd i f f i c u l t i e s t h i sm a k e sm o n e y l a u n d e r i n gc r i m e si n c r e a s i n g l y r a m p a n ta f t e ry e a r2 0 0 0w h e nt h en e t w o r k e r ab e g a n m o n e yl a u n d e r i n gu s u a l l yr e l a t e st oc o n c e a lt h ei l l e g a ls o u r c ea n d n a t u r eo ft h o s e r e v e n u eg e n e r a t e dt h r o u g ht h ed r u g - r e l a t e dc r i m e s ,m a f i a - t y p eo r g a n i z e dc r i m e s , t e r r o r i s tc r i m e s ,s m u g g l i n go ro t h e ri l l e g a lp r o c e e d so fc r i m e sb yv a r i o u sm e a n so f b u s i n e s sd e a l t h eb e h a v i o rd o e ss e r i o u sh a r m st os o c i e t y b u tt h et r a d i t i o n a lm a n u a l r e v i e wi sn ol o n g e rp r a c t i c a lu n d e rt o d a y st e c h n o l o g ye n v i r o n m e n t a n dt h e t r a d i t i o n a lr u l eb a s e ds y s t e mi sa l s oc o m p a t i b l et ot h ec h a n g i n gs i t u a t i o n t of a c et h ep r o b l e m ,g o v e r n m e n t sa r o u n dt h ew o r l da r ea l li nt h ed e v e l o p m e n to f a ni n t e l l i g e n ta n t im o n e y l a u n d e r i n gs y s t e m s o u rc o u n t r y sr e s e a r c ha n dd e v e l o p m e n t i n t h i sa r e ah a se n t e r e das e c o n dg e n e r a t i o n ,w h i c hw i l la d o p tal a r g en u m b e ro f a r t i f i c i a li n t e l l i g e n c et e c h n o l o g i e s b a s e do nt h ef a c to fc u r r e n ta c a d e m i cr e s e a r c h e s , s y s t e mo nm o n e yl a u n d e r i n gr i s ka s s e s s m e n tu s i n gc u s t o m e ri n f o r m a t i o nn e e d ss o m e a t t e n t i o n s i nt h i sd i s s e r t a t i o nw em a k et h eu s eo ft h r e ei n t e l l i g e n tc l a s s i f i c a t i o n t e c h n o l o g i e si nd a t am i n i n ga r e af o rt h eu p p e rq u e s t i o n ,w h i c ha r el o g i s t i cr e g r e s s i o n , n e u r a ln e t w o r k sa n ds u p p o r tv e c t o rm a c h i n e w ew i l ld e s c r i b ei nd e t a i lt h et h e o r yo f a l g o r i t h m s ,d a t ap r o c e s sa n di m p l e m e n t a t i o np r o c e s si nt h ed i s s e r t a t i o na n da n a l y z e t h ea d v a n t a g e sa n dd i s a d v a n t a g e so fv a r i o u sa l g o r i t h m s s o m es u g g e s t i o n so nb u i l d i n g ar e a ls y s t e mc o m p o n e n ta r ea l s op r o v i d e d , k e y w o r d s :d a t ac l a s s i f i c a t i o n ,m a c h i n el e a r n i n g ,a n t im o n e yl a u n d e r i n g ,l o g i s t i c r e g r e s s i o n ,n e u r a ln e t w o r k s ,s u p p o r tv e c t o rm a c h i n e 浙江人学顾1 :学位论文 图日录 图目录 图1 1 反沈钱的步骤及技术【2 】3 图2 1 神经元基本结构1 0 图2 2 最优超平面示例【2 l 】1 7 图4 1 梯度向下算法输出4 0 图4 2 l m 算法输出4 0 图4 3 贝叶斯正则算法输出4 l 图4 4 任意可用核函数参数下,较小惩罚度的支持向量机分类结果4 5 图4 5 任意可用核函数参数下,较大惩罚度的支持向量机分类结果4 5 图4 6 优化可用核函数参数后,向量机分类结果4 6 图4 7 洗钱风险评估模型5 1 v 浙江人学硕f j 学位论文表u 录 表目录 表3 1 数据原型2 1 表3 2 模拟数据示例2 3 表3 3 注册地洗钱风险2 4 表3 4 所属行业沈钱风险2 6 表3 5 银行服务洗钱风险2 6 表3 6 企业规模洗钱风险2 7 表3 7 原有数据专家评估结果2 7 表3 8 模拟数据评估示例2 9 表3 9 十迸制编码示例31 表3 10 二进制编码示例一31 表3 11 p c a 结果统计3 3 表4 1 最优逻辑回归分类器权值3 7 表4 2 逻辑回归分类准确率示例3 8 表4 3 神经网络训练数据结果4 2 表4 4 神经网络泛化测试结果4 2 表4 5s v m 分类结果准确率示例4 8 v i 浙江人学硕i j 学位论文第l 章绪论 第1 章绪论 1 1 课题背景及来源 1 1 1 洗钱 随管网络、数据库技术及经济全球化体系地不断发展,大到各国之间,小到 各人之间的经济来往,j 下以不可阻挡的趋势,变得日益密切和频繁,而这些交易 行为的数字总额也在不断扩大。这象征经济地不断繁荣,但是同时,也给各类经 济犯罪提供了越来越多的可能性。其中,洗钱( m o n e yl a u n d e r i n g ) 即是一种牵 涉广、涉及金额数量大、过程复杂,并对国家安全、金融体系以及全球经济发展 都会造成严重危害的犯罪类型。 依据2 0 0 3 年出台的金融机构反沈钱规定中第三条,洗钱是指将毒品犯 罪、黑社会性质的组织犯罪、恐怖活动犯罪、走私犯罪或者其他犯罪的违法所得 及其产生的收益,通过各种手段演示、隐瞒其来源和性质,使其在形式上合法化 的行为。从定义中我们可以看到,和沈钱相关的主要都是毒品、走私、黑社会、 贪污腐败和恐怖活动等对正常社会活动危害极大的刑事犯罪活动,放任不管将会 助长这类犯罪的气焰,严重威胁社会生活秩序。同时,由于走私及贪污腐败这类 案件中,被告不明来源的财产是一项至关重要的犯罪证据或量刑依据,放任沈钱 行为,等于为其制造了一个避风港,即让犯罪分子丌脱了罪名,又大大增加了公 安机关对这类犯罪活动侦破的难度。 另一方面,根据历史经验,一个典型而完整的洗钱过程往往分为放置、培植 然后融合几个阶段。而洗钱者采用手段,概括而言,通常是首先将非法所得现金 存入银行,再通过一系列复杂且随时代不断变化的经济手段,掩盖原资金的真实 来源,使其合法化,最后收回。这其中,涉及的经济行为可能从简单的银行转账、 现会交易、珠宝古玩收购,到股票、期货的金融工具交易,甚至于跨国资会转移 及各类工程项目投资。由于其涉及经济盒融个个方面,因此沈钱还会对困家的经 济体系政策造成严重危害,造成市场混乱,不合理投资频繁,引起经济的扭曲和 浙江人学硕1 j 学位论义第l 章绪论 不稳定。 综合这两方面,我们可以看到沈钱犯罪不仅能够通过辅助刑事犯罪危害人民 社会生活秩序,更有可从经济根基上破坏一个国家的稳定格局的严重危险性。世 界各国正是看到了这点,- a 纷纷将洗钱归入到了最严重犯罪行列,并丌始积极地 建立各类反洗钱的机构和数据系统。 1 1 2 反洗钱系统 洗钱的法律概念正式出现于上世纪8 0 年代术。因而,各国的反沈钱系统, 也多从那时开始兴起,然而,随着近二十年来,通信、网络及数据仓储技术的发 展,如今金融全球化发展迅速,各种高新技术纷纷被应用于金融领域。这使金融 中可能涉及沈钱的数据数量爆炸式地增长,洗钱操作变得更复杂化、专业化、高 科技化,最初的人工审查方法完全失去的可行性,甚至于早期的计算机自动侦测 系统,因为规则的僵化,也已经基本不具有任何可用价值。 面对这种困境,相对而言世界发达国家,还是在利用先进人工智能技术开发 高效智能系统【l 】上,占得了先机。比较著名的有美国金融犯罪执法网络( f i n c e n ) 使用的反洗钱人工智能系统,可通过分析提交交易报告,发现可疑的金融交易行 为,识别未知的,潜在的可疑金融交易行为;澳大利亚交易报告和分析中心 ( a u s t r a c ) 使用的s c r e e n l t 反洗钱系统,可筛选高度可疑的交易,并能根据 专家知识和样本数据自动推断某些交易、账户或公司是否具有沈钱特征,每天可 处理4 2 0 0 0 份申报。 而对于我围来说,在过去数年中,我们也在大力发展反沈钱系统,鉴于第一 代基于规则的系统对于新的规避现有法规的洗钱活动的束手无策,采用以神经网 络、规则引擎和统计方法为核心的第二代反沈钱数据挖掘系统,讵在由各方紧密 合作丌发。其四个关键组成部分分别为客户风险评估、交易风险估量、行为检测 技术和工作流及报告工具。图1 1 给出了第二代系统的一个基本步骤| 2 j 。 浙江人学硕 :学位论文 第l 章绪论 数据处理 和转换 客户分类及 特征提取 身份认证= i 淼: 竺 k y c 阶段客户特征提取 基于规则 系统 神经网络 二二= j - _ - _ _ _ - _ - _ _ 一 统计分析 关联分析 可疑交易检测 工作流管理 案件管理 报告和后续 管理 :预葡隙: 图1 1 反洗钱的步骤及技术2 1 由于四个部分是相互协作的,虽然各自侧重不同,采用不同技术,但必须共 同联合,才能构成一个高效智能的反洗钱侦测系统。而最近几年相关研究多集中 在完善系统整体架构和对可疑交易和行为的检测,客户风险评估尚比较空白,只 有( 汪素南,2 0 0 7 ) 【2 】曾经尝试使用i d 3 分类算法,在这方面进行过尝试。因此, 为进一步改善整体系统性能,本文将仞步比较使用数种智能分类技术,研究完善 客户风险评估部分表现的方法,以求为整体的二代系统开发和构成,提供更多学 术与理论依据。 1 1 3 客户风险评估 客户风险评估,在反洗钱系统中要负责的主要是利用详细的客户信息、以及 开户后收集的客户交易行为的统计信息,通过研究比对,对其潜在的洗钱风险进 行评估分类。这一过程并不直接指出某客户是否参与洗钱活动,但是会根据该客 户的存在形态和活动状况判断其参与洗钱的可能性大小,促使系统其他部分和相 关人员,投入更多关注。 客户l x l 险评估存在的必要性在于,首先,现今商业银行数据库中的每r 交易 浙江人学顺l j 学位论义第1 章绪论 记录数量巨大,全范围无差别的检测所有行为,太过低效,也不易实现;其次, 这种无差别的盲目检测统一判断也不正确,因为不同风险的客户的相同交易行为 往往有完全不同的含义。如果后期检测不能够讵确地将客户分类,而统一地对某 些行为赋予相同的意义,那么最后整个系统就只能是既浪费了资源,又得不到合 理的结果。因此,只有通过合理的将客户依据各自的信息,按照潜在风险分类, 才能帮助二代系统在行为检测等环节获得更好的结果和更高的效率。 然而,对于什么类型的银行客户最有可能洗钱,这样的问题,事实上非常难 以界定。对于面向公众的大型企业来说,这种界定如若设置不当,更可能引来类 似对特定群体歧视之类问题的质疑声,同时由于时局的变化,这一界定问题的结 果也会不停变化。因此,本文认为,在反洗钱系统中,若要对客户风险进行评估, 相对传统的规则判定,采用机器学习、模式识别中能够根据现实情况的不断调整 自己的统计方法以及神经网络等数据挖掘中常被用来进行分类的智能分类算法 是一个比较合适选择。相关技术已于金融领域的其他方面有所应用,并成为了近 年来的研究热点。本文将在下一小节叙述反洗钱领域相关研究之后,也列举出近 年柬相关领域,关于智能分类技术可借鉴的研究结果。 1 2 相关研究概况 1 2 1 智能反洗钱领域研究概况 由于洗钱犯罪对社会危害性引发的关注,有关反沈钱系统的研究也越来越多 的受到各方关注。其中比较主流的意见是将如今广泛应用于电子商务领域的数据 挖掘技术,改进应用于新的反洗钱系统3 】1 4 1 【5 1 中去。其中以( z h a n gz f 等,2 0 0 3 ) 为比较典型的一例,他们在文章中提出了一套相当完整的应用数据挖掘技术进行 反洗钱工作的系统,其中包括从文档处理,数据生成,交易行为分簇,到洗钱团 伙辨别等一系列组件,可算是如今流行第二代反洗钱系统的一个先驱模型。而之 后,其他类似研究在近些年的相关刊物上,更是屡见不鲜。 另一方面,上一节已经提到过,针对第二代的四个关键组成部分,虽然本文 将要着重研究的客户信息评估并没有太多类同研究,但是其他部分仍有不少可供 浙江人学顺 j 学位论文第1 章绪论 参考的文献,例如关于可疑交易的分类,同为反沈钱领域的分类问题,( j u nt a n g , j i a ny i n ,2 0 0 5 ) 【6 1 ( l i n t a ol v 等,2 0 0 8 ) f 7 j ( 孙小林,卢正鼎,2 0 0 4 ) t 8 1 矛1 ( x u a n l i u 等,2 0 0 8 ) 1 9 1 分别采用了支持向量机( s v m ) 、径向基神经网络、增量聚类算 法和序列比对算法对问题进行了尝试,虽然结果由于各研究人员实验所用数据并 不相同,不宜比较,但使用类似方法可以将数据根据专家意见,按照洗钱风险分 类的做法是对本文使用智能分类算法进行客户风险评估的重要启迪。 1 2 2 智能分类算法在其他金融领域的应用 由于金融领域相关问题涉及的数据量通常都比较庞大,因此智能的自动化判 别技术在会融领域始终有着很大的需求量。随着数据挖掘理念的兴起,其实很多 智能分类技术已经通过数据挖掘在金融领域的各个方面得到应用。 ( r o yr a d a ,2 0 0 8 ) 1 0 j 回顾近些年金融领域中研究热点和应用技术热点的 转变,据文章统计,1 9 9 1 到1 9 9 6 年最常被引用的智能技术概念为专家系统【1 2 1 , 但是随着人工智能技术的发展,到2 0 0 6 年及2 0 0 7 年间,有关金融领域问题的研 究最长引用的技术已经转变为了各类演化计算【1 3 】【14 1 ,其中包括遗传算法、决策树、 神经网络、模式识别和支持向量机的等等,其中以神经网路与支持向量机被研究 的最多。这种演化正与本文涉及反洗钱系统的演化相统一,早期的反洗钱系统多 为基于知识的规则系统,而新一代的系统则越来越多地借助于基于统计学或神经 网络的一些智能方法,可见各个领域确可相互借鉴。而这些相关领域的研究近况, 参考近期一些统计结果如下。 沈钱需由不同银行客户相互协作完成,因而对用户这方面j x l 险的判断,可以 看作客户关系管理中的客户认定一个特殊类型。e w tn g a i 等在他们0 9 年发表 的关于客户关系管理的研究回顾5 】中列出了近期用于客户认定的智能算法,其中 有决策树【1 6 】、自组织网络、马尔可夫链、k - m e a n 算法【1 7 】、逻辑回归( 1 0 9 i s t i c r e g r e s s i o n ) 。而在另一相关方面,客户信用评估的研究中,( j o n a t h a nn c r o o k 等, 2 0 0 7 ) 1 18 j 则提到,在客户信用评级中,目前在商用领域中得到最广泛应用的是类 似逻辑回归这类统计方法【1 9 】。神经网络,作为逻辑刚归模型的扩展也证在逐步被 浙江人学顾i j 学位论义第l 章绪论 越来越多的使用,而其他研究中的方法还包括粗糙集、支持向量机等等【2 0 】。 综合这些相关研究以及学科情况,本文选择了逻辑回归、神经网络和支持向 量机三种算法在客户风险评佶问题上进行研究,原因如下。首先,逻辑回归,作 为一种线性回归的推广,以统计学为理论基础,是现在商用金融分析软件中使用 最为频繁的一种算法,其能得到广泛应用,必有其特别的原因。其次,神经网络, 因其从形式上可视作是逻辑回归的一种推广,并且现在也正逐渐被各类系统采 用,对我们的分类问题上可能体现不错的效果。最后对于支持向量机,尽管商用 领域现在很少有这一算法的应用,但由于其根据结构风险最小化原理设计,理论 上应该可以找到一个最优的分类平面,若采用核函数与神经网络和逻辑回归对 应,与前两者比较,具有较大的分析意义,可以帮助我们揭示一些存在于客户信 息中数据特征。本文将在后文详细叙述采用这三种智能分类方法对已有数据进行 客户沈钱风险分类的过程方法,并对结果总结讨论,描述一个客户洗钱风险评估 的智能算法方案。 1 3 论文组织结构 第一章中我们已经简述本文课题的现实来源与研究意义,定义了洗钱,说明 了其对国家经济金融体系的危害,以及世界各国针对这类犯罪采取的措施和相关 研究领域的进展。而在后文中,我们将就论文的实际工作详细展丌。 第二章概述了逻辑回归、神经网络、支持向量机,三种将要应用于客户信息 评估的智能分类方法,以说明算法思路,从理论上突出三种算法的异同和联系为 主。 第三章陈述了算法需要的训练集数掘的生成,包括数据原型的来源,模拟数 掘的生成,期望输出的判定以及几种预处理过程。 第四章运用了三种方法对经过预处理的客户信息进行了分类,洋细描述了分 类的过程和方法,记录了分类的结果,并通过比较三种方法在实验中的表现和出 现的问题,提出了根据银行客户信息,对其潜在沈钱风险进行分级的算法模型。 最后第血章中,我们将总结本文课题研究的结果和观点,并对今后的研究结 果进行合理的展望。 6 浙江人学顺l :学位论文第2 章智能分类算法简介 第2 章智能分类算法简介 2 1 智能分类算法概述 本文所述智能分类算法,主要指数据挖掘过程中与数据分类、预测有关的相 关算法模型,除本文使用的三种分类方法以外,常见的分类算法还包括有规则分 类引擎、贝叶斯分类算法、关联分类算法、k n n 算法和范例学习等。根据训练数 据集中是否需要提供期望输出,各种算法又可分为监督学习算法和自主学习算 法。本文的三种分类算法皆为监督学习算法,需要期望输出,因此下一章,读者 将看到我们如何为所有算法都提供的期望输出结果,而在这章我们将首先说明各 算法的理论原理。 要比较不同算法在客户沈钱风险估计问题上的表现,首先需要明确判断一个 智能分类算法的优劣的标准。根据数据挖掘:概念与技术1 2 1 】的论述,判断智 能算法的优劣一般从如下五方面分析: 1 准确性,包括算法在训练集内的准确性和未知数据中的准确性,前者是 对算法训练程度的衡量,而后者则是算法实际应用后的效果的一个重要估计。 2 速度,即生成和使用算法模型的计算代价。 3 鲁棒性,即系统在不正确的数据或噪音数据下的正确率。 4 可扩展性,即系统对于不断扩大的数据集的适应能力,增量学习能力。 5 可解释性,一个好的系统不仅需要证确给出预测分类结果,同时也要能 够让使用者明白其分类判断的依据。这样使用者彳可能更多地信任分类系统。 我们在本章丌头首先提出这些概念,而在第四章得到各模型训练结果以后, 我们将依照上述标准,通过实际结果,对比各模型的不同表现。下面我们首先来 详细描述逻辑回归、神经网络和支持向量机三种算法的基本框架与思想。 浙江人学硕l :学位论义第2 章智能分类算法简介 2 2 逻辑回归( l o g i s t i cr e g r e s s i o n ) 2 2 1 逻辑回归概念 逻辑回归1 2 2 1 是种广义线性分类模型,不同于原始线性回归模型多用于通过 已知数据拟合位置线性函数,逻辑回归更多的时候被视为一种多元统计方法,用 于二分类或多分类问题。 逻辑回归是由贝叶斯概率分类理论发展而来的,我们首先简单 兑明一下逻辑 回归中l o g i s t i cs i g m o i d 函数的形式是如何确定的【2 2 1 。以二分类问题为例,假设已 知因素可以用向量x 表示,根据贝叶斯条件概率理论,在自变量向量x 下,事件 y 属于第一分类c l 的后验概率可以使用如下公式表示: p ( c ll 加而纛鞘箍丽 p l x il 1 ) p 【l 1 ) + p 【x ll 2 ) p ( l 2 ) 如果我们定义如下所示的一个0 【 口:砌竺! 兰! 刍2 翌( 刍2 p ( x ic 2 ) p ( c 2 ) 代入到公式( 2 1 ) 则我们可以得到 公式( 2 1 ) 公式( 2 2 ) p c 1f x 2 了南2 盯口 公式( 2 3 ) 以仅) 就是l o g i s t i cs i g m o i d 函数。一般的回归算法,求取极大似然时通常需要 利用假设的已知随机变量的分布作为似然函数介入,由于最常使用的假设分布是 正态分布,因此计算难度往往很大。但是逻辑回归却直接使用系数向量和随机 变量x 的内积替代了a 来计算后验概率1 2 2 j ,形如: 1 1 1 + e x p ( 一x ) 公式( 2 4 ) 大大减小了模型的计算难度。但由于s i g m o i d 函数的形式本身由般的贝叶斯概 率公式得到,因而逻辑回归虽然假设简单,在分类问题中却往往有很好的效果。 浙江人学坝i j 学位论文第2 章智能分类算法简介 2 2 2 逻辑回归的训练 逻辑回归的训练2 2 1 即是对上一小节中参数向量的确定,使确定后的模型在 接受新的未知数据时可以给出模型所能够提供的最准确的结果。训练使用的基本 思想是极大似然原理,即对于一组样本嵇其中 0 ,l ,f en ,被抽样出来的 样本集应该有最大的似然函数,于是,我们就可以在公式( 2 4 ) 的基础上构造一 个似然函数 2 珥力旷只) l - 公式( 2 5 ) 并通过求其极大值来确定矽的值。为简化计算,算法中常在等式两边加上肪 将指数,变为系数,连乘运算改变为连加来处理。 酮= l n l = f = l t , i n b + ( 1 一州1 一删 公式( 2 6 ) 在逻辑回归的极大似然函数上使用线性回归的极大似然分析算法并不能找 到一个封闭的解。因此通常,逻辑回归的训练使用n e w t o n r a p h s o n 多次逼近算 法。 p n “= p “d h v e ( f 1 ) 公式( 2 7 ) 其中是t 7 是h e s s i a n 矩阵,为e 泐关于系数向量夕的二次导数矩阵。 2 3 神经网络 2 3 1 神经网络基本概念 神经网络理论【2 3j 受启发于生物神经系统。在人工智能领域中一直占有一个相 对独立且重要的地位,因其独有的学习适应能力,可以应用于众多复杂问题1 2 4 | 。 应对不同的任务有不同的类型的神经网络,而对于数据分类和预测问题,最常用 的神经网络一般是多层前馈式神经网络或叫b p 网络。 b p 神经网络的基本组成部分,称为神经元,是其生物原型的一种简化,其 基本结构通常接受一个实数向量p ,与之对应,神经元即由一个州样维数的权值 向量,一个阈值b 和一个传递函数厂组成,输出为传递函数变鼍值,f ,胛+ 功 9 浙江人学硕l :学位论艾第2 带智能分类算法简介 时的函数值。图2 1 是这种结构的一种常见的图形表达方式。 i n p u t g e n e r a ln e u r o n n 厂、 爱 摹 : & l 一 !一, a = w p + 扫) w h e r e r = n u m b e ro f e l e m e n t si n i n p u tv e c t o r 图2 1 予申经兀基本结构 将多个图2 1 中的神经元,首尾相连,使用前一个输出作为后一个的输入, 构成多层无反馈网络,即构成了前馈式神经网络。不难从神经元的结构看出,如 果我们使用上一节逻辑回归的l o g i s t i cs i g m o i d 函数替代传递函数,一个神经元的 输出就是逻辑回归函数的输出。因此,神经网络也经常被看作是逻辑回归的增强 模型。但是本文并不打算使用同样的s i g m o i d 函数作为本文实验网络的传递函数, 因为有文献【2 3 j 支持表明,当采用形如 e ”一e 一” a = 一 e ”+ e 一” 公式( 2 8 ) 的t a n h 传递函数,其中f = w p + b ,b p 神经网络除输出层外,只使刚一层中间层即可完成 趋近所有含有有限极点的1 f 线性函数的任务。新的传递函数利l o g i s t i cs i g m o i d 在形态上非常 相似,只是输出范同从( 0 ,1 ) 变为了( 1 ,1 ) 。 2 3 2 神经网络的训练方法 b p 神经网络训练f 2 3 j 的目的在于通过调整网络中每个神经元的权值,使网 络最终输出等同于训练集中的期望输出,并在这一过程中使网络趋近一个未知的 非线性函数,以达到未知输入数据的正确映射或分类。由于训练过程中需要最小 化的目标误差函数的信息是由输出端向输入端沿网络计算输出时反方向传播,故 而得名b p 即反向传播。 1 0 浙江人学硕j :学位论文第2 章智能分类算法简介 b p 神经网络一般选用期望输出【2 3 l 与实际输出的平方误差为最小化的目标函 数 e = ( d d 酬) 。( d a o w ) 公式( 2 9 ) 其中d 为训练集给出的期哩输出,( 1 0 u t 为网络的实际输出,向量维度由输出层神 经元决定,若是训练使用得到所有模式输入结果后,批处理训练方式,此二向量 维度还由训练模式数量参与决定。 最初的神经网络训练技术使用梯度下降方法,将网络中的权值,沿误差函数 关于它们的梯度的反方向调节以减小误差函数值,即 w n e w = w 幽一p 熹 公式( 2 1 0 ) 而其中求梯度的过程就涉及到反向传播。我们简单介绍下【2 3 】,对于输出层中神经 元,这个问题很容易解决,推导如下 一a e :罢墼:皖以o w o * to n o h to w o h | 公式( 2 1 1 ) 其中 万:要挈:掣八疗):一2(dout o u t一口o u l ) 八,z o u t ) v ,、。, 。 ,- ,、。, 峨魄甜 呶“, 公式( 2 1 2 ) 而对于中间层的神经元,则计算必须依赖于前一层的结果,以输出层前一层来说, 考虑该层输出就是输出层的输入口印洲,使用公式( 2 11 ) 同样有规则 a ea e8 n 一 = - = 一= 6 p o w锄o w 公式( 2 1 3 ) 而这时的6 的值便要依赖于后一层神经元的结果 万:罢:瓯磐_ b a :饥埘厂( 门) 睨w a n 呶“,o n 公式( 2 1 4 ) 可见,只有在更靠近输出层的后一层的结果被计算出以后,前一层才能被计算, 即计算以反向传播的方式进行。 梯度下降方法属于渐进求解方法,逐步改变网络状态,达到目标状态。实际 浙江人学顾l j 学位论义第2 帝智能分类算法简介 使用过程中,这种训练方法更适合增量训练,因为梯度下降方法不会快速改变网 络原有权值状念,对于已完成大规模训练的网络,这种特性意味着对于网络原本 已经记忆的模式的较少破坏,当新的模式被输入,网络只需要微量调节一些权值, 使总的结果对新模式反应合理即可。但是对于一个全新的系统,使用梯度下降方 法,却会因为两大因素速度缓慢。第一,当误差函数进入一个相对平缓的区域, 由于每一次求得的梯度的数值总是很小,网络训练进度也会变得非常缓慢;第二, 梯度下降方法不能区别误差函数的局部最小值和全局最小值,往往因为网络权值 的初值问题,陷入一个局部的最小值而丧失判断的准确度。因此,对于新网络, 要批量训练新模式时,通常使用一些改进方法,比较典型的是l m 算法。 l m ( l e v e n b e r g m a r q u a r d t ) 算法【2 3 1 ,演化自数值类的牛顿渐近法,以 。= 一日g 公式( 2 1 5 ) 的方式更新网络权值,其中h 为h e s s i a n 矩阵,g 为当前误差函数关于权值向量 形的梯度。牛顿方法结论由于是直接通过求导推导所得,不受局部平台和局部最 小值的影响,因而可以很好的解决上一段提到的两个问题,但是由于神经网络不 比逻辑回归( 事实上每一个单独神经元的h e s s i a n 矩阵计算量都相当于一次逻辑 回归) 计算h e s s i a n 矩阵的代价非常大,多数研究都认为,牛顿方法不实用。而 l m 算法则提供了一个则中的选择。 l m 算法使用h e s s i a n 矩阵估计方法,对于一个共有个权值、输出神经元 数量与训练集模式乘积为q 的网络,l m 算法构造了一个j a c o b i a n 矩阵 丘e i 口w l 口2 口w l 8 e p a w i 毋e i # w z a e 2 附2 8 p p 附z a e i 知k 8 叠, 抛k a p p 附k 公式( 2 1 6 ) 其中p 2z q o ,于是h e s s i a n 矩阵h 和梯度g 的便可分被表示为 g = 2 j 7 p 公式( 2 17 ) 浙江人学坝h 学位论文第2 幸智能分类算法简介 h = 2 ( j 7 ,+ s ) 公式( 2 1 8 ) 由于式( 2 1 9 ) 中的s 在误差函数接近最小值是可以被忽略,因而最终,l m 算 法下网络权值更新的方式如下 w = w 州- j r j + i t l 一1 d 7 。p 公式( 2 1 9 ) 其中,为单位矩阵,为保证括号中矩阵可逆而添加。实际训练中在不同训练阶段 使用不用的大小的可以使l m 算法接近牛顿算法或者梯度下降方法,以保证不 同阶段的速度和准确性的协调。 2 3 3 神经网络的贝叶斯正则化 要使神经网络通过训练集的训练,在目标问题上达到最好的分类效果,必须 有几个重要因素需要控制。首先,到目前为止,本文只提到过如何构造网络,但 没有就某特定问题下,网络具体规模的确定进行过讨论。其次,虽然神经网络虽 然是逻辑回归的扩展,但神经网络对分类问题,并没有概率上的假设,因而训练 时间也成为一个问题,训练时间不同,网络实际的效果也会不同。通常情况都是, 网络在训练数据集上的输出总是能够得到保证,但在未知测试数据集上的表现 ( 泛化性) 却无法确定,有时网络会因为过长时间训练,而向测试集样本特化, 产生过学习现象。这是由最小化误差函数,只减小系统的经验风险而造成的,传 统机器学习往往都有这类弊病,因此需要额外的方法来辅助。系统是否过学习的 衡量标准是在支持向量机的理论中出现的,在下一节中,我们将更详细地讨论相 关问题。 事实上,神经网络规模的问题和过学习问题通常相互牵连。对于b p 网络来 说,由于使用t r a n s i g 传递函数的网络理论上只需要一个中间层,或叫隐层,而输 入输出维数通常来说都是固定的,所以网络规模也就等同于中间层中神经元的数 量。过去的研究表明,对于某一特定问题,要使泛化性能最优,使用能够拟合训 练集数据的最小的网络是最佳选择,而网络越大,越容易快速进入过学习时间, 于是为了判定合适网络规模,就不得不对网络不断反复裁剪测试,这是一个很繁 琐的过程。不过,也有另外一种选择,就是f 则化【2 引,即在目标误差函数中加入 浙江大学硕l 学位论文第2 章智能分类算法简介 网络中所有权值的平方和 e ( w ) = + 口玩 公式( 2 2 0 ) 这样可以通过限制网络权值的大小,兼顾网络的正确性和输出平滑性。而规模最 小的网络的输出就是最平滑。 式( 2 2 0 ) 中右侧两项的系数的选择决定了网络是注重训练集中的准确性, 还是输出平滑性。为选择最佳的组合,研究中常使用贝叶斯模型选择方法判定【2 5 1 , 方法同时还能决定网络大小,大致原理如下。 使用d 表示网络需要处理的数据集,膨表示网络结构,按照贝叶斯理论,在 已知数据集的情况下,不同的网络权值向量w 出现的概率密度函数【2 5 j 可以写成如 下形式 p ( w i 。,历:量,m ) = ! 垦2 与安星寿笔铲 公式。2 2 。) 而针对既定网络m 和数据集d ,不同仅、口是最优组合的概率可写成 艄蛉型絮鬻趔 公北2 2 ) 假设式( 2 2 1 ) 中的各个概率密度都属于正态分布情况下,将网络的目标误差函 数在最小值附近用泰勒级数展开进行估计,可以解得式( 2 2 1 ) 中的归一化因子 的确切形式,而由于该归一化因子同时是式( 2 2 2 ) 中的似然函数,所以最大化 这个似然函数就可找到最优化的6 c 、对f 2 5 1 ,其中a 可以通过方程 2 a e 。= 一2 a 。,a e p ( i - 一1 ) 公式( 2 2 3 ) 解得,而等号的右边结果常用7 表示,是网络中有效的权值数量,可以使用来确 定合适大小的网络。相应的则为 2 等 2 埘, 其中p 为输出节点数与训练集模式数的乘积。每轮训练后,利用以上两式调 整a 、值,即可保证训练的网络有较好的泛化性能,并且利用7 可以裁剪网络到 合适大小。 浙江人学顺一卜学位论文第2 章智能分类算法简介 2 4 支持向量机( s v m ) 支持向量机( s u p p o r tv e c t o rm a c h i n e ) 是c o r t e s 和v a p n i k 于19 9 5 年首先在统计 学习理论中提出的【2 6 1 ,它在解决小样本、非线性及高维模式识别中表现出许多特 有的优势,并能够推广应用到函数拟合等其他机器学习问题中i j 。其基本思想是 通过求取最优线性分类面,将数据样本按照结构风险最小化的原则分类,如果数 据样本在原空间线性不可分,就利用适当的内积核函数将原空间非线性转换到某 一高维的特征空间,然后在这个新空间中尝试结构风险最小化的分类。 2 4 1 支持向量机的基本特点 统计机器学习与传统机器学习之间的本质区别,也就是本章所述前两种算法 之间的区别,在于统计机器学习能够精确的给出学习效果,能够解答需要的样本 数等等一系列问题。统计机器学习的结果有很强的可解释性,而传统的机器学习 则更多的依赖于研究人员的个人经验,用传统的机器学习方法构造分类系统可能 在某些时候得到非常出众的结果,但另外一些时候却非常不理想。 支持向量机是建立在统计学习理论的v c 维理论和结构风险最小原理【2 6 j 基础 上的,理论上是根据有限的样本信息,在模型的复杂性( 即对特定训练样本的学 习精度,a c c u r a c y ) 和推广能力( 即无错误地识别任意样本的能力) 之间寻求最 佳折衷的算法。 所谓v c 维是对函数类的一种度量,主要用于度量模型的复杂度,主要用于 判定对某一机器学习模型所处学习过程的学习状态,是过度学习或者是欠学习。 v c 维太大的系统可能太过拟合训练集数据,而v c 维太小的系统可能无法容纳 训练集所包含的模式数量。 而结构风险最小原则,则主要基于以下思想。机器学习本质上是一种对问题 真实模型的逼近。由于真实模型未知,我们只能对我们的假设进行风险估计。这 个过程中,最直观的想法就是使用分类器在样本数据上的分类的结果与真实结果 之i 日j 的差值来估计风险。这罩估计的风险叫做经验风险尺。脚m 。传统机器学习方 浙江人学硕l :学位论文第2 章智能分类算法简介 法都把经验风险最小化作为努力的目标,但在样本数量不足时,往往出现很多分 类器能够在样本集上轻易达到1 0 0 的正确率,但在真实分类时却效果不佳。产 生这种现象的原因在于在样本数量有限的情况下,经验风险不能有效的逼近真实 风险。 统计学习因此而引入了结构风险概念,通过两部分内容刻画真实风险,一是 经验风险,代表了分类器在给定样本上的误差;二是置信风险,代表了我们在多 :, 大程度上可以信任分类器在未知数据上分类的结果。 置信风险与两个量有关,一是样本数量,显然给定的样本数量越大,我们的 学习结果越有可能正确,此时置信风险越小;二是分类函数的v c 维,v c 维越 大,推广能力越差,置信风险会变大。 由于置信风险只能确定范围,因此结构风险也叫推广界【2 6 1 ,用下式表示: r ( 们( w ) + ( 鲁) 公式( 2 2 5 ) 公式中r m 就是真实风险,r 聊俐就是经验风险,痧以例就是置信风险。结 构风险最小化即是寻求经验风险与置信风险的和最小界。 2 4 2 最优超平面分类 s v m 分类的基本过程即是寻找最优超平面。所谓超平面,其实是对二维空间 中直线,三维空间中平面在多维空间中的推广,即对于样本集合 ,只) ,x r ”, y + 1 ,一1 ) ,f - 1 ,2 ,“n ,存在的一个形如 w ox + b = 0 公式( 2 2 6 ) 将样本集根据乃的值进行分类的边界。因其形式上与平面一致,故而得名。分类 时,一般使用 g ( x ) = ( w x ) + 6 公式( 2 2 7 ) 根据g 俐的符号进行类型判断,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论