(控制理论与控制工程专业论文)带置信度分类器的研究与应用.pdf_第1页
(控制理论与控制工程专业论文)带置信度分类器的研究与应用.pdf_第2页
(控制理论与控制工程专业论文)带置信度分类器的研究与应用.pdf_第3页
(控制理论与控制工程专业论文)带置信度分类器的研究与应用.pdf_第4页
(控制理论与控制工程专业论文)带置信度分类器的研究与应用.pdf_第5页
已阅读5页,还剩114页未读 继续免费阅读

(控制理论与控制工程专业论文)带置信度分类器的研究与应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 高风险领域的分类问题对模式分类算法提出以下三个挑战: 1 ) 能否设计一种分类器模型,使得它的输出结果能够附带置信度; 2 ) 预测输出的置信度是有效的,应该使得算法的准确率能够被置信度所控制。 3 ) 算法应能够独立地对每个测试数据提供相应的置信度评估,也就是说,能够 根据指定的置信度产生相应的预测结果。 针对上述三个挑战,我们引入了基于转导推理和随机性检验的置信预测方法 来解决这些问题。近年新发展起来的一致性预测器( c p ) 是这种方法的典型代 表。但是,c p 在实践中的实用性较差,主要是其固有的运算效率低下、以及对 样本奇异函数的设计缺乏指导性准则。我们的工作主要是改进了c p 的理论模型, 提出了混合压缩一致性预测器( h c c p ) 的算法框架及其实现技术,使其更适合于 实际应用。 h c c p 在预测性能与计算效率间取得了一个较好的折衷,它在处理大数据集 学习问题时,在保持算法的预测效率的同时大大提高了c p 的运算效率。h c c p 的 运作特点是将用于学习的样本序列划分成两个部分,并采用两阶段混合压缩:第 一阶段先将前一部分序列样本压缩成一个模型,并以知识的形式保存;第二阶段 再将上述知识传递给后续的检验样本序列用于置信预测。在算法实现技术方面, h c c p 采用有监督的度量学习方法来实现有效信息在两个子序列( 训练样本序列 和检验样本序列) 中的传递。并分别通过有监督核学习方法( h c c p k e r n n ) 和 随机森林技术( h c c p r f ) 实现了度量学习和样本奇异函数的设计。我们还从 实验角度展现了h c c p r f 算法在田纳西一伊斯曼化工过程( t e p ) 这样的流程工 业大系统的在线故障置信检测中的适用性和有效性。 针对小数据集的学习问题,我们也提出了一种无划分的h c c p r f 算法,它 取消了对学习样本集的划分,更加适用于处理小样本数据。通过对慢性胃炎中医 诊断数据集的实验,验证了该算法的有效性。 最后,对本文的工作进行了总结,并对今后的研究工作提出了展望。 关键词:分类问题;置信预测;一致性预测器 a b s t r a c t t h e r ea ret h r e ec h a l l e n g e st ot h er e s e a r c h e r so i lt h ec l a s s i f i c a t i o ni nt h eh i g h r i s k a r e a s : c a nw ed e v e l o pac l a s s i f i c a t i o na l g o r i t h mt h a to u t p u t sp r e d i c t i o n sc o u p l e dw i t h c o n f i d e n c el e v e l ? 2 ) a r et h e s ec o n f i d e n c e sf o rt h ep r e d i c t i o n sr e a l l yv a l i d ,i e ,c o u l dt h ea c c u r a c yr a t e b eg u a r a n t e e db yt h ec o n f i d e n c el e v e l ? 3 ) c o u l dt h ea l g o r i t h mg i v eap r e d i c t i o nw i t hac o n f i d e n c el e v e lt a i l o r e df o re a c h i n d i v i d u a li n s t a n c e ,i no t h e rw o r d s ,c o u l di tp r o v i d eap r e d i c t i o nc o r r e s p o n d i n gt o t h ec o n f i d e n c el e v e lp r e d e f i n e d ? f a c e dt ot h e s ec h a l l e n g e s ,w eh a v ei n t r o d u c e dam e t h o dw h i c hu s e st h e t r a n s d u c t i v ei n f e r e n c ea n dt h er a n d o m n e s st e s to fi i d s e q u e n c e st od e v e l o po u r s o l u t i o n t h er e c e n t l ye m e r g e dc o n f o r m a lp r e d i c t o r ( c p ) i sa na l t e r n a t i v es o l u t i o n w h i c hc a no u t p u tp r e d i c t i o nw i t hv a l i dc o n f i d e n c e h o w e v e r , t h e r ea r es t i l lc e r t a i n d i s a d v a n t a g e si nt h ef r a m e w o r ko fc p , s u c h a st h ei n h e r e n tc o m p u t a t i o n a lc o s t l i n e s s a n dt h el a c ko fg u i d a n c ef o rt h ed e s i g no ft h ee x a m p l en o n c o n f o r m i t ym e a s u r e w e h a v ef o c u s e do nt h ei m p r o v e m e n ta n dt h ee n h a n c e m e n to fc p , a n dh a v et h e n p r o p o s e dan e wh y b r i d c o m p r e s s i o nc o n f o r r n a lp r e d i c t o r ( h c c p ) w h i c hp e r f o r m s h c c pa i m st oo b t a i nag o o db a l a n c eb e t w e e nt h ep r e d i c t i v ep e r f o r m a n c ea n dt h e c o m p u t a t i o n a le f f i c i e n c y i tc a nm a i n t a i nar e l a t i v e l yh i 曲p r e d i c t i v ep e r f o r m a n c e w h i l ei m p r o v i n gg r e a t l yt h ec o m p u t a t i o n a le f f i c i e n c yi nd e a l i n gw i t hl a r g ed a t as e t s h c c pd i v i d e st h ew h o l et r a i n i n ge x a m p l e si n t ot w os u b s e t s ( c a l l e da st h et r a i n i n gs e t a n dt h ev a l i d a t i o ns e t ,r e s p e c t i v e l y ) a n de x e c u t e st h ep r e d i c t i n gp r o c e s si nt w os t a g e s f i r s t l y , i ta b s t r a c t sac o m p r e s s i o nm o d e lm b a s e do nt h et r a i n i n gs e t ;s e c o n d l y i t d e s i g n a t e s ,f o re a c he x a m p l ei n t h ev a l i d a t i o ns e t ,t h en e wf e a t u r e sw h i c ha r e g e n e r a t e db ym a n dw o u l dt h e nb ea p p l i e db yt h ec l a s s i c a lc pa l g o r i t h mt oo u t p u tt h e p r e d i c t i o nw i 也c o n f i d e n c el e v e l w eh a v ep r o p o s e dam e t h o db a s e d o nt h es u p e r v i s e d m e t r i cl e a r n i n gt ot r a n s f e rt h eu s e f u li n f o r m a t i o nf r o mt h ef i r s ts t a g et ot h es e c o n d s t a g e i nd e t a i l ,w eh a v ei n c o r p o r a t e dt h ea d a p t i v ek e r n e l b a s e dd i s t a n c em e t r i c l e a r n i n gm e t h o d ( a si nh c c p k e r n n ) a n dt h e r a n d o mf o r e s ta l g o r i t h m ( a si n h c c p - r f ) ,r e s p e c t i v e l y , t or e a l i z et h es u p e r v i s e dm e t r i cl e a r n i n ga n dt h ee x a m p l e n o n c o n f o r m i t ym e a s u r e t h ea p p l i c a t i o ni ss i m u l a t e do nt h es t a n d a r dl a r g ed a t as e ta s t e n n e s s e ee a s t m a np r o c e s s ( t e p ) t h ea p p l i c a b i l i t ya n de f f e c t i v e n e s so ft h e p r o p o s e dh c c p r fa l g o r i t h m a l ei l l u s t r a t e do nt h i so n l i n ef a u l td e t e c t i o no f l a r g e s c a l ei n d u s t r i a lp r o c e s s t od e a lw i t ht h ep r o b l e mo fs m a l l - s a m p l ec l a s s i f i c a t i o n ,w eh a v ea l s op u t f o r w a r dt h en o n - p a r t i t i o nh c c p r fa l g o r i t h r n ,w h i c hd i s c l a i m st h ep a r t i t i o no ft h e w h o l el e a r n i n gs e to fe x a m p l e s t h ea p p l i c a t i o ni ss i m u l a t e do nt h et r a d i t i o n a l c h i n e s ec l l r o n l cg a s t r i t i sd a t as e t ,w h i c hi sat y p i c a ls m a l l - s a m p l ep r o b l e m t h e i n f o r m a t i v ea sw e l la se f f e c t i v ep r e d i c t i o n so ft h en o n - p a r t i t i o nh c c p r fa l g o r i t h m h a v eb e e ns h o w ni nt h ee x p e r i m e n t f i n a l l y , t h es u m m a r yo fo u r w o r ka n dt h ef u t u r er c s e a r c ha r ep r e s e n t e d k e y w o r d s :c l a s s i f i c a t i o np r o b l e m ,p r e d i c t i o nw i t hc o n f i d e n c e ,c o n f o r m a lp r e d i c t o r 厦门大学学位论文原创性声明 本人呈交的学位论文是本人在导师指导下,独立完成的研究成果。 本人在论文写作中参考其他个人或集体已经发表的研究成果,均在文 中以适当方式明确标明,并符合法律规范和厦门大学研究生学术活 动规范( 试行) 。 另外,该学位论文为() 课题( 组) 的研究成果,获得() 课题( 组) 经费或实验室的 资助,在() 实验室完成。( 请在以上括号内填写课 题或课题组负责人或实验室名称,未有此项声明内容的,可以不作特 别声明。) 2 裟篙日砰歹 捌年珀习日 j 厦门大学学位论文著作权使用声明 本人同意厦门大学根据中华人民共和国学位条例暂行实施办法 等规定保留和使用此学位论文,并向主管部门或其指定机构送交学位 论文( 包括纸质版和电子版) ,允许学位论文进入厦门大学图书馆及 其数据库被查阅、借阅。本人同意厦门大学将学位论文加入全国博士、 硕士学位论文共建单位数据库进行检索,将学位论文的标题和摘要汇 编出版,采用影印、缩印或者其它方式合理复制学位论文。 本学位论文属于: () 1 经厦门大学保密委员会审查核定的保密学位论文, 于年月日解密,解密后适用上述授权。 ( ,) 2 不保密,适用上述授权。 ( 请在以上相应括号内打“”或填上相应内容。保密学位论文 应是已经厦门大学保密委员会审定过的学位论文,未经厦门大学保密 委员会审定的学位论文均为公开学位论文。此声明栏不填写的,默认 为公开学位论文,均适用上述授权。) 嚣为日馥节珍 炒i 耵月7 日 第1 章引言 第1 章引言 1 1 基于机器学习的分类问题 1 1 1 分类问题描述 随着信息技术和存储技术的快速发展,政府、商业、企业等各行各业出现了 越来越多的复杂非线性高维数据。如何根据用户的特定需求从海量数据中发现有 用的知识或者构造从经验中学习的机器,用于对未来数据进行预测成为一个十分 迫切的富有挑战性的研究课题。机器学( m a c h i n el e a r n i n g ,m l ) 致力于让计算机 模仿人类从实例中学习的能力进行数据分析和建模( 估计某系统隐藏的、复杂的 输入输出关系) ,使它( 这种关系) 能够对未知输出做出尽可能准确的预测【l 】。 模式分类是实际应用中普遍存在的问题,也是机器学习领域的基础研究之一。 现实生活中存在大量的分类问题,如:机械故障诊断、医学诊断、语音识别、人 脸识别、信用评估、文本分类、网络入侵检测、图像识别等。分类的作用和根本 目的在于面对某一未知类别的具体事物时,能按照已知的信息将其正确的归于某 一类。将某一研究对象正确归入某一类的方法即分类方法。在机器学习领域,模 式分类致力于从有限观察发现观测数据中暗含的各种关系,具体说就是从实际问 题的一个有限的子集( 样本集) 出发,探求问题的内在规律( 建立模型) ,从而 对未知数据做出正确判断( 分类) 。这就是机器学习领域的分类问题 ( c l a s s i f i c a t i o n ) 。 分类问题用数学语言可以简单描述如下:实际问题的具体对象一般有很多属 性,可用高维向量x = ( x 1 ,x 2 一,x d ) r e x 表示,其中数据x 的上标l 2 一,d 是向 量的维数序号,也就是对象的属性序号;x = 酞d 表示d 维实数空间。假设实际 问题对应有限c 个可选类别,用标识变量y e y = 1 ,2 一,c ) 表示对象的类别,其中y 叫做类别空间。对象及其类别构成数据对z = ,y ) e z ,z 叫做样本空间, 盈,f = 1 , 2 ,l 是样本空间中的样本( 点) ,其下标“”表示样本编号。模式分 类定义为: 带置信度分类器的研究与应用 定义1 1 ( 分类;溜d 根据给定的训练样本集z ( = ( z 1 ,z 2 一,) ,其中z ( n ) 表示含有n 个样本的样本集,z i z ,f = 1 ,7 l 表示样本,产生一个分类器 妒? r d _ ( 1 ,2 ,c ) ,使得它对新的待测试数据x 孔+ 1 ,x n + 2 一,x n + 丘的实际类别 值产生相应的预测值九+ 1 ,九+ 2 ,+ k 。我们要求该分类器要能对整个样本空间 可能的分布有一个尽可能小的期望判别误差。 从定义1 1 看,模式分类技术模仿了人类的逻辑推理过程。逻辑推理遵循的 一般性途径大概分为两种方式:即归纳推理和演绎推理,它们两者的相互关系见 图1 1 i 演绎推理j 一般性的规则个别性的事实 【l 臼纳推理】 ( 有限、特殊、) 图1 1 逻辑推理示意图 由上图可知,模式分类的学习过程是归纳推理,它从个别性的事实( 一般是 有限个的,具有特殊代表性) 出发归纳出一般性的规则,而分类器的预测过程是 演绎推理,它从一般性的规则推理出个别性的事实。 1 1 2 分类问题研究进展 随着1 9 6 8 年k p o p p e r 用不可证伪的概念提出了关于归纳问题的理论 2 1 ,统 计学被看作是归纳推理的一个数学模型,因此统计学也成为模式分类的重要理论 基础之一。在此基础上已经出现了多种以经典统计理论为工具刻画的模式分类方 法,如:贝叶斯决策、k - 近邻、线性判别分析、决策树等等【3 羽。这些经典的统 计机器学习方法在机器学习问题中起着基础性的作用。然而统计分类器偏离了统 计推理的本质模式( 它应该是根据观测数据寻求感兴趣的分类器( 函数) ) ,而变 成具有r f i s h e r 参数估计特点的模型辨识方法。f i s h e r 统计是基于参数估计的 统计推理,他把从给定数据估计函数这个问题( 分类问题、回归问题和密度估计 问题) 表达为特定( 参数化) 模型的参数估计问题,并提出了估计所有模型未知 2 第l 章引言 参数的方法,即最大似然方法。f i s h e r 统计推理渐渐暴露出它的局限性,也就是 f i s h e r 统计推理的维数灾难问题。自从计算机被发明以来,人们考虑问题的复 杂性大大增强,实际数据往往具有很多的属性特征。处理低维函数估计问题的 f i s h e r 统计推理并不能反映出高维情况下的奇异性,甚至无法解决高维数据的统 计分析。另外,这些传统的统计学分类方法以经验风险最小化( e m p i r i c a lr i s k m i n i m i z a t i o n ,e 砌订) 原则作为出发点,在样本数趋于无穷大的假设下进行学习。 在实际问题中,当面对的问题较复杂,具有高维、小样本特点时,基于统计的分 类器表现不尽如人意。传统的统计分类方法面临了严峻挑战。 2 0 世纪9 0 年代以v a p n i k 的著作 t h en a t u r eo fs t a t i s t i c a ll e a r n i n gt h e o r y ”为标 志的统计学习理论( s t a t i s t i c a ll e a r n i n gt h e o r y , s l t ) 是一套比较好的有限训练样 本下机器学习理论和通用方法学f 6 ,7 1 。它及其派生的支持向量机技术( s u p p o r t v e c t o rm a c h i n e ,s v m ) 1 3 】能较好地解决小样本、非线性、高维数和局部极小点等 实际问题。统计学习理论试图建立有限样本的学习理论,具体地说,将学习用的 训练样本集理解为从问题世界随机选取的子集,由于不同的训练样本集对应不同 的模型( 也称为假设函数) ,而不同模型对问题世界为真的程度不同( 泛化误差 的大小不同) ,如何计算对问题世界“最真”的模型就是主要学习任务。这样,训 练样本集成为影响模型预测能力的随机变量,是风险描述的重要因素。换句话说, 影响模型预测能力的因素不仅是经验风险( 它说明了被选中的模型函数多大程度 上真实地刻画了样本空间的分布) 还有容量因素( 它描述了包含所有可能假设函 数的函数集的复杂性,也称为置信范围) 。这就是结构风险最小化( s t r u c t u r a l 黜s k m i n i m i z a t i o n , s r m ) 学习理论。实现s r m 原则可以有两种思路,一种办法是,对 包含所有可能假设函数的假设空间取一列嵌套的子集,使得该子集列对应的复杂 度( 置信范围) 单调上升;在每个子集中求各自对应于最小经验风险的子集最优 假设函数,然后选择使相应的最小经验风险和置信范围之和最小的子集的最优假 设函数。这种方法比较费时,在子集数目很大甚至无穷时是不可行的。第二种思 路是,设计函数集的某种结构使在每个子集中都能取得零经验风险,然后只需选 择适当的子集使置信范围最小,则该子集中使经验风险为零的函数就是最优函数。 1 9 9 2 年至1 9 9 5 年,在统计学习理论基础上发展出一种新的通用的学习方 法一支持向量机( s v m ) 是上述第二种思想的具体实现。s v m 是统计学习理 3 带置信度分类器的研究与应用 论中最新也是最实用的部分,它以结构风险最小化归纳原则作为出发点,在有 限样本假设下进行学习。s v m 选择线性判别函数集的适当子集使结构风险最小, 该子集中使经验风险为零的函数就是最优判别函数。它对训练样本集采用最大 间隔分类方法获得零经验风险,这种分类技术无论在直观的几何解释上,还是 在指导算法设计上均具有重要意义。除此之外,s v m 还通过用内积函数定义的 非线性映射( 核技术) 将线性不可分问题变为在另一个空间中线性可分问题【9 l , 从而在算法研究中只需考虑线性可分问题,将棘手的非线性问题转化为一个较 简单的线性问题。 围绕着统计学习理论所产生的现代模式分类方法形成了一系列算法,比如支 持向量机、核机器以及各种组合分类器。这些算法已成为机器学习和数据挖掘领 域的标准工具。在模式识别、时间序列预测、图像处理、基因序列分析、孤立点 检测等领域得到成功的应用【1 m 1 2 1 。在模式识别领域,一个最突出的应用研究是贝 尔实验室对美国邮政手写数字库进行的实验【6 】。该数据库从实际邮政编码中收集 到7 2 9 1 个训练样本和2 0 0 7 个测试样本,每个样本是1 6 1 6 像素点的图像,即 输入空间的维数是2 5 6 ,类别是肚9 的十个类别。使用决策树的方法识别错误率 是1 6 2 ,使用两层神经网络识别的错误率为5 9 ,采用s v m 识别的错误率小 于4 2 t 1 3 1 。 然而,随着机器学习和数据挖掘的普及应用,在应用和算法的双重驱动下, 模式分类技术被赋予更多复杂的功能。下面将深入阐述模式分类技术在高风险领 域所遇到的新挑战。 1 2 高风险领域模式分类的挑战 在模式分类范畴内,高风险领域一般指模式分类的对象具有较高的风险或者 分类失败会带来严重的损失,比如故障检测、医疗诊断和金融评估等实践。以故 障检测为例,随着现代工业及科学技术的迅速发展,现代化的工业系统不断朝着 大规模、复杂化、集成化的方向发展,自动化水平也不断地提高。与此同时,其 发生故障的可能性也随之增加。故障检测技术致力于监控大工业系统的状态以便 及时、准确地检测出相应的故障。显而易见,如果故障检测算法发生错误,不仅 将对大工业系统造成巨大的危险,还会造成人员和财产的巨大损失,同时对生态 4 第1 章引言 环境也会造成不可挽回的影响。此外,模式分类器已成为医疗诊断非常重要的辅 助工具。比如在白血病诊断中,大多数被测的新样例都能容易地被分到某个白血 病亚型中,但在实践中也有例外。由于不寻常的环境条件,比如基因易位等,少 数样例不容易被诊断出来,非常容易诊断错误。这时将一个“白血病人”诊断成“健 康人”,往往会误导患者,贻误了治疗时机,给患者带来经济和精神上双重的压 力。 1 2 1 算法能否输出预测置信度 在高风险领域,比起关心预测模型对整个样本空间的平均泛化准确率,使用 者更关心算法对新数据( 比如工业系统监控数据或新病人) 的预测在多大程度上 接近真实值。如果分类算法能够对预测输出结果附加一个风险评估,比如置信度 ( c o n f i d e n c e ) ,则使用者可以了解该预测结果的可靠程度,进而评估预测错误的风 险水平。比如通过对乳腺癌超声图像数据或者乳腺癌患者基因数据进行学习建模, 可以进行乳腺癌的识别与诊断。模式分类器对新病人的乳腺癌超声图像数据判别 时,要能够给出“乳腺癌,置信度为9 5 ”这样的预测结果,则患者可以对医生的 诊断进行可靠性评估。另一方面,算法的置信度还可以用做过滤机制,算法输出 满足一定置信度的预测,即算法将输出所有符合条件的预测值( 可能含有不止一 个类别) ,同时抛弃不符合条件的那些类别。这样带来两个好处,其一,算法输 出了所有大于错误风险水平的类别,这种域输出( 预测集) 的形式包含的信息量 增加了。这样的输出模式对大工业系统故障检测将带来非常大的利益,它能够指 引使用者逐一分析故障的原因,不容易遗漏真正的故障( 弃真) ,改善诊断系统的 “弃真率( f a l s en e g a t i v e ,踟。 1 2 2 置信度估计是否有效 更进一步,分类算法对预测结果附加的置信度应该是有效的置信度( v a l i d c o n f i d e n c e ) ,即置信度值能准确地反映预测结果的可靠程度。比如在上述提到的 乳腺癌分类例子中,若分类器输出的置信度9 5 ,则表明分类算法判断正确的概 率不小于9 5 ,判断错误的概率不大于5 。有效的置信度指的是算法的准确率 能够被置信度控制,或者说算法的错误率能够被算法风险水平所控制。置信度与 5 带置信度分类器的研究与应用 算法风险水平互补,两者之和等于1 。图1 2 展示了有效和无效置信度的区别, 横坐标代表置信度,纵坐标代表准确率。 图1 2 置信度的有效性示意图 图1 2 置信度的有效性示意图中的对角线表明准确率与置信度严格对等, 这种情况下置信度估计是恰好有效的( e x a c t lyv a l i d ) ,如图中“- - ”形的曲线所示。 图中,+ ”形曲线始终分布在对角线上面,说明算法的准确率以置信度为界,该 置信度是有效的置信度;_ 形曲线跨越了对角线,说明算法的准确率不能 被置信度控制,置信度是无效的。 1 2 3算法能否对单个预测输出特定置信度下的预测结果 另外,在高风险领域中,使用者往往需要独立地对每个待测数据的预测结果 提供相应的可靠性分析。比如在乳腺癌分类实践中,临床医生往往需要根据病人 不同特性给出不同的诊断结果。比如有的病人经济状况困难,心理承受能力脆弱, 医生给这样的病人做出的诊断结果必须是高度可靠的,也就是说分类器模型要能 够以非常高的置信度给出诊断结果“置信度9 9 ,癌症”;而有的病人积极 乐观、心理承受能力很高,医生会容许以比较低的置信度给出诊断结果一置 信度8 0 ,癌症”。也就是说,医生可以预先设定置信度,让算法能够根据指定 的置信度输出相应的结果。上述问题需要算法能够实现由置信度控制的输出,也 即预先指定一个置信度,算法能够根据这个置信度进行相应的输出。 6 第1 章引言 总之,高风险领域的分类问题迫切需要分类模型能够实现有效的置信预测。 它对分类技术提出以下三个挑战。 ( 1 ) 能否设计一种分类器模型,使得它的输出结果能够附带置信度。 ( 2 ) 预测输出的置信度应该是有效的,应使得算法的准确率能够被置信度所 控制。 ( 3 ) 算法应能够独立地对每个测试数据提供相应的置信度评估,也就是说, 能够根据指定的置信度产生各自相应的置信预测。 现在流行的模式分类方法一般无法完成上述三个挑战。这些算法存在的局限 性将在下一章进行阐述。最近发展起来的一致性预测器( c o n _ f o r m a lp r e d i c t o r ,c p ) 能够对上述三个挑战做出正面的回答。它能够实现有效的置信预测,其预测结果 可以由预先指定的置信度控制,并且能够独立地对每个测试数据提供相应的置信 度。总之,一致性预测器是一种解决高风险领域模式分类问题的新的机器学习范 式。 1 3 论文内容和结构安排 一致性预测器从1 9 9 8 年提出至今,还处于初级发展阶段。其理论体系虽已 初步形成,但是一致性预测器在实践中的实用性比较差。本文将围绕一致性预测 器展开工作,并就其存在的缺陷进行研究,主要立足于对一致性预测器的理论模 型和在实际中的应用进行完善、推广和创新。本论文的内容具体组织如下: 第一章介绍高风险领域对模式分类技术提出的挑战,迫切需要分类算法能够 对预测结果进行有效的置信度评估,且独立地对每个测试数据提供相应的置信度。 第二章介绍机器学习在预测可靠性分析方面的研究,重点分析现有模式分类 算法在置信度分析方面的不足。 第三章介绍基于转导推理和算法随机性检验的置信预测思路和方案,重点 介绍一致性预测器的理论背景和算法思想,并论述一致性预测器在实现有效置信 预测方面的特性。 第四章提出新的混合压缩一致性预测器( h c c p ) ,并阐明其算法思想和实 现方法。它具有更好的实践适用性,是本论文的重要创新点。 第五章以流程工业大系统故障检测为例,展示h c c p 在解决大数据集学习 7 带置信度分类器的研究与应用 问题时的特点和优势。 第六章介绍h c c p 在小样本中医慢性胃炎症型诊断中的应用。它放宽了对 数据分布的要求,是拓展一致性预测器适用范围的有效尝试。 第七章总结了本论文的研究工作,并提出了将来要继续深入的方向。 8 第2 章机器学习算法的预测置信度分析 第2 章机器学习算法的预测置信度分析 当前的模式分类技术有两个子领域涉及预测的置信度分析,它们就是贝叶斯 方法和统计学习理论。除此之外,还有一些基于特定数据集的计算得到的误差率, 它们也常被用于估计机器学习模型的可靠性。上述三种方法虽然能够对预测结果 进行某种程度的可靠性分析,满足高风险分类问题的第一个挑战( 见第一章1 2 节) ,但其可靠性分析一般不是有效的,也就是说,它们的算法不具备可校准性, 无法满足高风险分类问题的第二个挑战。更重要的是,这些方法都无法满足高风 险分类问题的第三个挑战。 本章将介绍现有的分类算法在置信度分析方面的研究及其局限性。内容安排 如下:在2 1 节介绍置信度这个概念;在2 2 节分析贝叶斯方法在置信度分析方 面的特点和局限性;在2 3 节介绍统计学习理论在预测可靠性分析方面的特点和 局限性;在2 4 节论述基于特定数据集计算得到的误差率技术在可校准性方面存 在的局限性;2 5 节是本章小结。 2 1 置信度 “置信度( c o n f i d e n c e ) ”这个概念更多情况下是出现在统计学和社会科学中。 在将它引入机器学习领域之前,先概述一下它在其他学科中的定义和意义。 2 1 1 社会科学领域的置信度 在社会科学领域中,置信度是评价理论的信度分析方法之一。众所周知,信 度( r e l i a b i l i t y ) 和效度( v a l i d i t y ) 是衡量任何一种科学研究的两个相互关联的重要标 准【1 4 1 。信度( 即置信度) 是研究结果一致性和稳定性的评价标准。一个具有信度 的研究程序,不论其过程是由谁操作,或进行多少次同样的操作,其结果总是非 常一致的。信度指标多以相关系数表示,具体评价方法大致可分为三类:稳定系 数( 跨时间的一致性) ,等值系数( 跨形式的一致性) 和内在一致性系数( 跨项 目的一致性) 。效度是研究结果正确性的评价标准。效度分为三种类型:内容效 度、准则效度和结构效度。信度是效度的必要前提,没有信度,效度不可能单独 9 带置信度分类器的研究与应用 存在,也就是说,一项研究不可能没有信度却具有效度。信度对于效度是必要条 件,但不是充分条件。有信度并不保证一定有效度,一个可靠的研究程序并不证 明内容一定有效。 2 1 2 统计学领域的置信度 置信度这个概念更多的是属于统计学范畴,常用于统计假设检验中【1 5 】。从统 计学的观点,置信度是指特定个体对待特定命题真实性相信的程度。在抽样对总 体参数做出估计时,由于样本的随机性,其结论总是不确定的。因此,采用一种 概率的陈述方法,来衡量估计值与总体参数在一定的允许误差范围内,两者相等 的概率有多大,这个概率称作置信度。下面给出严格的统计学定义如下: 定义2 1 ( 置翩设p 为总体x 的分布一个未知参数,若对事先给定的口 ( d 口 j ) ,存在由样本( x l ,x 2 , 五) 所确定的两个统计量 b = 岛( 五,夏,以) 粤岛= 0 2 ( 五,置,以) 使得 p 爵 0 e 【岛】。实践中,交叉检验方法 被指认为是无偏性估计,这个推断包含着两个观念,第一个是一种比较流传的观 念,认为交叉检验方法是无偏的。但实际上,交叉检验存在一个正的、不能忽略 的残余偏差。第二个观念认为,交叉检验在平均意义上是无偏的,也就是说,它 能保证平均误差估计是无偏的。一个误差估计东如果满足f 】= e ( 【】= ) ,就能保证所谓的期望无偏性。 尽管采取了多次重复自助抽样,自助估计量仍然是一种具有上偏移的泛化误 差估计技术。, 另外,上述总结的各种误差率都是基于特定的数据集计算出来的,它与该数 据集的规模和数据质量有关。图2 2 展示由于给定数据集的规模不同造成了泛化 误差的不稳定性。 图2 2 泛化误差函数随样本数变化规律曲线 ( 图2 2 摘自参考文献【2 4 】) 1 9 带置信度分类器的研究与应用 上图中用无条件泛化误差来示意泛化误差估计( 条件泛化误差) ,因为泛化 误差估计与特定的训练样本集有关,它或多或少会偏离无条件泛化误差曲线,但 都会紧紧围绕在。特别是随着学习样本数量7 i 的增大,条件泛化误差偏离肛n 的方差会减小,因此更贴近肛n 。从上图中可以看出,由于样本规模的增加,的 值( 泛化误差估计的值) 急剧下降,并渐近地趋向于最优的b a y e s 泛化误差线。 不过我们必须假设在学习过程中构建的分类器是有效的,能尽量反映样本空间的 分布特征,将样本依据类别有效地分离开来。因此,当n 贴近b ,随着样本 数7 l 的继续增加,肛n 的值不再增大,即不再离开b 曲线。在学习实践中,所 有常用的分类器算法都要求训练样本数量要充分地大,其泛化误差估计都能随着 样本数量的增加,趋于稳定。 上图中还有一个特殊的区域值得特别关注,那就是左下角小样本情况下误差 的变化规律。在这个区域,样本量7 l 的微小变动都引起的急剧变化,由此 也将造成泛化误差估计的大幅度变化。这段曲线称为小样本误差曲线,其实,它 不仅与样本量7 l 有密切的关系,还与所采用的分类器模型甚至样本属性的维数 相关【3 0 。7 】。对于小样本区域,脱离实际训练样本的分类器性能评估方法将变得非 常不适宜,由此得出的误差估计将变得不稳定,急剧变化。因此,基于小样本构 建的分类器性能及其预测质量值得特别关注,需要特别对待。 从某种意义上说,特别是对小样本分类器的误差估计来说,方差是更重要的 衡量指标。具有小的偏差和微小方差的误差估计会比无偏和大方差的误差估计更 可取。如果对于给定的样本,误差估计由于具有很大的方差,使得误差估计经常 大幅度的偏离真实的泛化误差,那么这样的无偏估计应该被限制使用。对于小样 本分类器,使用交叉检验常常导致这种高方差的无偏估计。比如具有典型的高维 小样本特点的基因芯片数据,小样本误差估计失真是其在分析处理过程中的一个 巨大障碍。 总之,利用特定的数据集对模型的性能或预测可靠性进行分析的方法,纯粹 是一种计算方法,缺乏理论意义。显而易见,不同的数据集上计算出来的误差率 一般是不同的,也就是说估计出来的误差率的信度很差,对未来新出现的待测数 据判断错误的概率估计是不稳定的,这样的误差率不具有可校准性。除此之外, 这些方法都只能对已经输出的预测结果进行可靠性分析,它们无法令算法依据给 第2 章机器学习算法的预测置信度分析 定的置信度( 可靠性) 输出相应的结果,因此算法风险不具备可控性。 2 5 本章小结 本章概述了目前流行的机器学习方法在带置信度预测方面的特点和局限性。 贝叶斯分类器是利用f i s h e r 统计推理构建的分类模型,是一种生成式模型 ( g e n e r a t i v em o d e l ,s t a t i s t i c a lm o d e l ) 【3 引。它基于数据的分布信息,能够给出 清晰的概率估计,此概率输出形式一般具有可靠性分析( 置信度分析) 。但是在 应用贝叶斯理论构建分类器之前,必须预先设定样本所属分布的概率密度信息。 当处理的是现实世界复杂巨量的数据集时,先验知识往往不准确,在这种情况下 贝叶斯方法给出的置信度分析不是有效的,算法的错误率不具有可校准性。 基于统计学习理论的分类器是一种基于判别式的计算模型( d i s c r i m i n a t i v e m o d e l ,c o m p u t a t i o n a lm o d e l ) 3 8 】,它对变量之间的关系不明确,因此无法产生 完美的模型结构,也就无法对模型的不确定性和风险进行有效的评估。p a c 误差 界有非常重要的理论意义,但是它所做出的置信度分析一般不是有效的,导致算 法不具有可校准性。另外p a c 理论不能为单个测试数据给出置信度分析。 除此之外,现代机器学习方法往往根据过去的经验( 一般根据对训练样本的 估计) 给出一个近似的预测错误率。但是这些估计方法信度( 稳定性) 很差,这 样的误差率不具有可校准性。除此之外,这些方法无法令算法依据给定的置信度 ( 可靠性) 输出相应的结果。 总之,在高风险领域,对预测结果进行有效的置信度估计,并且能够独立地 对每个测试数据提供相应的置信度评估,应该成为分类模型的重要功能之一。但 是现代模式分类方法在对新数据进行预测时,一般只给出测试数据的类别,这种 输出模式并没有包含预测的可靠性估计;现代机器学习方法一般以对整个样本空 间的期望判别误差的最小化为建模目标,追求模型具有最大的分类准确率,忽略 了模型可靠性分析的质量;现代机器学习方法一般采用归纳推理的学习原则,从 训练集中学习出模型后将模型保存下来,然后利用这个模型对新来的数据进行演 绎判断。模型性能的分析依托测试数据集整体的分布信息进行估计,而没有针对 单独每一个样本的进行估计。 2 l 带置信度分类器的研究与应用 第3 章一致性预测器 如何让机器学习方法实现有效的置信预测、增强机器学习的适用性,是一个 值得研究的方向。目前流行的机器学习算法在置信度分析方面的局限性来源于一 个共同点,那就是它们的置信度都是针对成批的数据进行统计运算得到的,较少 考虑了特定待测数据的特定信息。这是因为传统的归纳推理( i n d u c t i v ei n f e r e n c e ) 企图从有限的个别事实( 经验) ,推出一般情况( 无限) 下普遍成立的结论。但 从我们的技术发展看,我们能收集到的样本个数只能是有限的,也就是说,我们 收集的用于归纳的训练样本是有限的,要求建立对所有的样本都适用的规则必然 存在误差。而且在实践中,针对特定的问题,分类算法所需要预测的未来的数据 其实往往是有限的,甚至是具体的。特别是高风险应用领域,人们并不关心分类 器在整个样本分布上的总体性能,而只是期望分类算法能够针对感兴趣的数据点 尽可能地给出准确的判断。这促使分类算法采用更为特殊的推理机制( 或者说: “转导推理”) ,在分类过程中,它同时使用了训练样本、以及测试数据本身所包 含的有用信息来进行推理,这样它所做出的置信度应该更有效。基于这种研究思 路的一个方案是一致性预测器( c o n f o r m a lp r e d i c t o r ,c p ) ,它是由英国伦敦大 学皇家哈勒维学院机器学习研究中心( c o m p u t e rl e a r n i n gr e s e a r c hc e n t e r , c l r c ) 的v l a d i m i rv o v k 、a l e xg e r m a n m a n 、g l e n ns h a r e r 等学者组成的一个研究小组发 展起来的,该小组成员都是v l a d i m i rv a p n i k 的同事。这个理论最早出现在1 9 9 8 年,是由a l e xg a m m e r m a n 和v l a d i m i rv a p n i k 讨论转导推理学习( t r a n s d u c f i v e i n f e r e m c e ) 的适用性和算法原理开始的。当时他们提出了结合s v m 实现转导学 习的方案,即通过穷举测试数据所有可能类别实现转导推

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论