(光学工程专业论文)支持向量机算法改进和光谱定量识别方法的研究.pdf_第1页
(光学工程专业论文)支持向量机算法改进和光谱定量识别方法的研究.pdf_第2页
(光学工程专业论文)支持向量机算法改进和光谱定量识别方法的研究.pdf_第3页
(光学工程专业论文)支持向量机算法改进和光谱定量识别方法的研究.pdf_第4页
(光学工程专业论文)支持向量机算法改进和光谱定量识别方法的研究.pdf_第5页
已阅读5页,还剩49页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

ab s t r a c t s u p p o rt v e c t o r m a c h i n e ( s v m ) l e a r n i n g a l g o r i t h m a n d t h e p r i n c i p l e o f i n d e p e n d e n c e c o m p o n e n t a n a l y s i s ( i c a ) a r e d i s c u s s e d r e s p e c t i v e l y i n t h i s d i s s e r t a t i o n . a n i m p r o v e d n e u r a l n e t w o r k l e a rn i n g a l g o r i t h m i s p r o p o s e d b a s e d o n t h e f u s i o n o f s v m a n d a q u a n t i t a t i v e a n a l y s i s a p p r o a c h b a s e d o n i c a i s p r o p o s e d f o r a n a l y z i n g t h e c o m p l i c a t e d n o n l i n e a r fl u o r e s c e n t s p e c tr a o f t h e a i r . t h e c o n t e n t s i n t h i s d i s s e r t a t i o n i n c l u d e : 1 . i m p r o v e m e n t o f s v m l e a r n i n g a l g o r i t h m s v m l e a rni n g a l g o r it h m i s o n e o f t h e mo s t im p o r t a n t l e a r n i n g a l g o r it h m s i n t h e fi e l d o f s t a t i s t i c a l l e a rn i n g t h e o ry , w h i c h i s w i d e l y u s e d i n p a t t e rn re c o 加t i o n a n d c l a s s i fi c a t i o n . a n i m p r o v e d n e u r a l n e t w o r k l e a rn i n g a l g o r it h m i s p r o p o s e d b a s e d o n t h e f u s i o n o f s v m a n d c l u s t e r i n g e n c o d i n g , w h i c h h a s s h o w n a h i g h e r r a t e o f c o r r e c t n e s s a s w e l l a s a b e t t e r s p e e d w h e n u s e d i n l i c e n s e p l a t e c h a r a c t e r r e c o g n i t i o n b e s i d e s , a p l a n e - a l t e r a b l e s v m h a s b e e n p r o p o s e d a n d s t u d i e d f o r t h e g e n e r a t i o n o f s u p p o rt v e c t o r m a c h i n e t h e o ry. 2 . q u a n t i t a t i v e a n a l y s i s a p p r o a c h b a s e d o n i c a a t m o s p h e r e p o l l u t i o n h a s b e c o m e v e ry s e r i o u s p r o b l e m s . ho r d e r t o c o n t r o l a n d t re a t w i t h p o l l u t i o n , a q u a n t i t a t i v e a n a l y s i s a n d f e a t u re e x t r a c t i o n a p p r o a c h b ase d o n i c a i s p r o p o s e d f o r a n a l y z i n g t h e c o m p li c a t e d n o n l i n e a r fl u o res c e n t s p e c t r a i n d u c e d b y n o n l i n e a r i n t e r a c t i o n s o f f e m t o - s e c o n d ( f s ) l a s e r p u l s e s w i t h c o m p o u n d g as m e d i u m t h r o u g h w h i c h t h e l a s e r 州 s e s t r a n s m i t . t h e p r e d i c t i o n a b s t r a c t r e s u l t s o n s p e c t r a o f d i ff e r e n t i m p u r i ty c o n c e n t r a t i o n u s i n g t h e e x t r a c t e d f e a t u r e s s h o w a l o w e r r o r c o m p a r e d w i t h t h e e x p e r i m e n t a l v a l u e s . t h e r e s u l t s o f a q u a n t ita t iv e a n a ly s i s fo r th e im p u r ity c o n c e n tr a ti o n o f t w e n ty - s e v e n se ts o f s p e c t ra d a t a a r e s a t i s f y i n g . k e y w o r d s : s t a t i s t i c a l l e a rn i n g t h e o ry , s u p p o rt v e c t o r m a c h i n e , n o n l i n e a r fl u o r e s c e n c e s p e c t r a , i n d e p e n d e n t c o m p o n e n t a n a l y s i s , f e a t u r e e x t r a c t i o n , g a s c o mp o n e n t r e c o g n i t i o n m 南开大学学位论文版权使用授权书 本人完全了 解南开大学关于收集、保存、 使用学位论文的规定, 同意如下各项内容:按照学校要求提交学位论文的印刷本和电子版 本;学校有权保存学位论文的印 刷本和电 子版,并采用影印、 缩印、 扫描、 数字化或其它手段保存论文; 学校有权提供目 录检索以 及提供 本学位论文全文或者部分的阅览服务; 学校有权按有关规定向国家有 关部门 或者机构送交论文的复印 件和电子 版; 在不以 赢利为目 的的前 提下,学校可以 适当复制论文的 部分或全部内 容用于学术活动。 学 位 论 文 作 者 *, y :嚼 、7 年 f 月 弓 ! 日 经指导教师同意, 本学位论文属于保密,在年解密后适用 本授权书。 指导教师签名:学 位论文作者签名: 解密时间:年月日 各 密级的 最长保密年限 及书写 格式 规定如 下: 内部 5 年 ( 最长5 年碑 可少于5 年 秘密青7 0 年 机密*2 0 年 ( 最长1 0 年班 _ 可少 于 1 0 年) ( jj -, 2 0 tf , 7 , l i 7 20 ) 南开大学学位论文原创性声明 本人郑重声明: 所呈交的学位论文, 是本人在导师指导下, 进行 研究工作所取得的成果。 除 文中已 经注明引用的内容外, 本学位论文 的 研究成果不包含任何他人创作的、 已 公开发表或者没有公开发表的 作品的内容。对本论文所涉及的 研究工作做出贡献的 其他个人和集 体, 均己在文中以明 确方式标明。 本学位论文原创性声明的法律责任 由 本人承担。 泌多j日 尹.乙弓2护 一戈月 学位论文作者签名: 2- l 年 第一章绪论 第一章绪论 互 1 . 1 研究内容及意义 芬 1 . 1 . 1 主 要 研究内 容 本文在支持向 量机( s u p p o r t v e c t o r m a c h i n e : s v m ) 研究的 基础之上,对支 持向量机的学习算法进行了扩展性研究,提出了可变最优分类平面支持向量机 和聚类编 码多 分类支持向 量机学习 算法; 此外, 本文采 用独立成分分析的方法 对大功率超短脉冲激光与大气的非线性相互作用得到的非线性荧光光谱数据进 行了特征提取,并对大气中有害气体成分进行了定量分析,取得了比较好的效 果。 1 . 1 . 2 支持向量机改进算法的研究意义 支持向 量 机学习算 法是建 立在统 计学习 理论 ( s t a t i s 七 i c a l l e a r n i n g t h e o r y : s l t ) 上的第一个学习 算法。 支 持向 量机以分 类的 泛化性能为目 标, 所 以与传统的 人工神经网 络( a r t i f i c i a l n e u r a l n e t w o r k ) 和最小二乘法等 方法具 有显著的区别。泛化性能指的是分布意义下的总体错误率。支持向量机是从数 据到分布进 行推理的一个 成功范例。支持向 量机标志着人们已 经从单纯的实 验 验证向理论分析过渡。 由 于支持向 量机学习 算法与原有的人工 神经网 络其他算法相比 具有显著的 优势,因而 近年来 对于支持向 量机学习算法的 研究工作一直在继续,出现了 很 多新的问 题 和与 之相对应的 衍生算 法 1 -4 1 . 本文的 研究意义就 在于将支持向 量 机 学习算法进行了一般化的扩展, 同时还提供了一种聚类编码多分类支持向量机, 为以后诸多领域的应用提供了依据。 第一章绪论 互 1 . 1 . 3 非线性荧光光谱定量分析的研究意义 随着工业的快 速发展 和交通工具的 急剧 增加,大 气污染成为 一个事关国 计 民生的非常严重的问题。为了更好地控制和治理污染,提高大气质量,改善人 民的 生活环境, 需要对大气进行实时的 监测, 及时了 解和掌 握大气 污染的 程度, 以 便采取必要的治 理措施。 传统的 空气污染监测是以 湿式 化学技术和 吸气取样后的实验 分析为基础。 这些方法大多需要对监测的气体 进行取样而后再 进行分析, 不能实时 发现和报 告大气中的有害气体成分。 近年来, 随着超短脉冲激光技术的快速发展,超短 脉冲 激光与 物质相互作用的研究受到了 世界各国的 重视。 非线性荧光光 谱是 利 用大 功率超 短脉冲激光和气体的 非线性 作用得到的。由 于不同的 物质具 有不同 的特征非线性荧光光谱,因此这些光谱可以作为物质的指纹模式加以识别,从 而得到大气中污染气体的成分和浓度。同时,上述方法还可以把激光光源与探 测系统集成为一体形成车载、船载或机载系统,因此它的机动性很强,潜在的 应用领域更广。 但是无论是大气污染法律法规的制定,还是对大气的实时监测,都需要对 大气中各种杂 质气体的 浓度进行定量的分析 和研究, 因此堕需一 种定 量的 分析 方法。本文 研究的 意义在于提供了 一种非线 性荧光光谱的定量分 析方法,同时 也为 其它类型复 杂光谱的 定量分析提供 依据,因 而具有广泛的 应 用前 景。 互 1 . 2 本论文的主 要工作 芬 1 . 2 . 1 支持向量机算法改进的研究 本文从人 工神 经网络的发展的角 度, 总结了 统计学习 理论以 及在此基础上 产生的一种学习算法 支持向 量机, 并对支 持向量 机理论进行了 一般化的 扩 展, 增加了对于样本分类目 标的容 错性的 期望, 提出了 一种可变最优分类面的 第一章绪论 支持向量机学习算法,在经验风险最小的情况下,可以有效的控制最优分类面 ( o p t i m a l h y p e r p l a n e )的 选取,很大 程度的 抑制了由 于出 错可能 造成不良 后 果的 那一类样本出 现错误的 概率, 达到预期目 的。 此外,还介 绍了 几种多分 类 支持向量机的方法,提出了一种聚类编码多分类支持向量机。通过对车牌字符 的 分类研究,我们发现它 不仅可以消除b p网 络陷入局 域极小的 缺点, 提高了 识别的 正确率, 而且与其他多分 类支持向量 机相比, 具有计算复杂 度低,训练 和识别时间短等特点。 互 1 . 2 . 2 非线性荧光光谱的研究 通过对加拿大拉威尔大学超强、超快激光研究中心提供的掺有杂质气体的 非 线性大气荧光光谱数据的独立 成分分析, 提取了杂质 气体的 光谱特征,并通 过多 项式拟合的 方法, 预测已 知杂 质气体的 浓度值的光 谱分布, 其中 一个光谱 ( 0 . 2 0 %的n - 丁烷)曲线与原始光谱曲线相比,标准差为0 . 0 4 1 2 6 8 。另外,根 据测量出的实验光谱数据进行了定量分析,预测出了相应杂质气体的浓度值。 这两方面的预测对大气污染的定量监测有着较广泛的应用前景。 互 1 . 3 本论文的主要创新点 本论文的主要创新点在于: 1 . 在总 结统计学习 理论和支持向 量机学习算法的 基础上, 提出了一种 用于多目 标分类的聚类编码支持向量机的方法。 实验的结果显示, 这种方法与传统的 b p算法 相比,识别 效率具有很大的 提高: 与o n e - a g a i n s t - t h e - r e s t 多分类支 持向 量机相比, 其计算复杂度大 大降 低,节省了 训练和识别的时间。 2 . 对支持向量 机理论 进行了 一般化的 扩展, 增加了对于样 本分类目 标的容错性 的期 望, 提出了 一种可变最 优分类面的支 持向 量机。 在经验风险最小的情况 下, 可以 有效的 控制最优分 类面的 选取, 很大程度地抑 制了由 于出 错可能造 成不良 后果的那一类样本出现错误的概率,达到预期目的。 第一章绪论 3 .提出了一种基于独立 成分分析的非线性荧光光 谱分析的 方法。 利用这 种方法 不仅提取了复杂光谱的 特征, 而且根据这些分 析特征对 光谱进行预测和定量 分析,取得了比较满意的效果。 1 . 4 本论文的内 容安 排 第二章总结了人工神经网络的原理和统计学习理论原理,并且在此基础上 介绍了支持向量机学习算法; 第三章总结了 独立成分分析的 基本原理, 介绍一 种f a s t i c a的 算法; 第四章从支持向量机的原理出发,对支持向量机的原理进行了一般化的讨 论, 介绍了 一种可变最 优分类面的支持向 量机。 此外, 我们还 针对现有多分 类 支持向 量机的不足,给出了 一种聚类编码多分类支持向 量机的方 法,并 且与 现 有方法进行了比较; 第五章 做了基于独 立成分分析的非线性荧光 光谱的 预测和定量研究工作: 第六章 对本论文的 工作进行了总结并对后续的 研究工 作进行了 展望。 第二章人工神经网络与支持向量机 第二章人工神经网络与支持向量机 芬 2 . 1 人工神经网 络原理 2 . 1 . 1 人工神经网 络定义 自从认识到人脑的信息处理与传统的数字计算机相比有完全不同的方式开 始, 关于 人工神经网 络的研究就开 始了。 人脑是 一个高 度复 杂的、 非线 性的 和并 行性的信息处理系统 5 1 。 最普通形式的 人工神经网 络就是对人脑完成特定任务 或感兴趣功能的方法进行模拟的理论模型;网络一般用电子器件实现或者用软 件在数字计算机上 模拟 6 1 互 2 . 1 . 2 人工神经网络分类器 自2 0 世纪5 0 年代r o s e n l a t t 提出 感知机模 型 7 8 1 以 来, 人工神经网 络研究 己 经有了 很大的 发展。 人工神经网络关注的要 点是尝试在某种 程度上 模拟人类 的大脑,让分类器的工作机制更加类似人脑。目 前,应用最为广泛的神经网络 分类器是多层前馈神经网络 ( 多层感知机) 。 2 . 1 . 3 多层前馈神经网络与b p 学习算法 多层前馈神经网络包 括一个输入层、 若千个隐 藏层和一个输出 层。 各层 之 间通过可调节的权 值联结。 多 层前馈神经网 络可以 看成一个映射: f : r - - r , d 维向量 x 输入给网络产生一个 m 维输出。 虽然多层前馈神经网络可以 解决非线性分 类问 题, 但是由于没 有适当 的训 练方法, 导致了 在2 0 世纪6 0 年代和 7 0 年代人们 对人工神经网络研究兴 趣的 衰 退。 直到8 0 年代中 期r u m e l h a r t 和m c c l e l l a n d 等学 者才重新阐述t使 用可微 的s i g m o i d 函 数 的 误 差 反 传 ( b a c k p r o p a g a t i o n : b p ) 学 习 算 法 19 1 。 该 算 法 不 第二章人工神经网络与支持向量机 仅为解决多层网络的 学习问 题开辟了 一条成功 之路,而且客观上 将神经网络的 研究推向了高潮。 误差反传 ( b p ) 学习 算法是训 练多 层前馈 神经网 络的常用算法,其实质是 在权值空间 中用梯度 下降 搜索对一 个反映 期望输出 和实际输出 之间误差的目 标 函数进行最小化。 基本的 学习 过程是: 对于一个 未经训练的网 络,提供一个输 入模式给输入层并使其通 过该网 络, 在网 络的 输出 层得到相应的输出 结果。 接 着把这些输出 结果与期望目 标进行比较, 如果存 在差别 就表示网 络存在误差, 可以 通过调整权值来减小 误差。 我们考虑一 个已 知 模式的 训练误差, 设期望输 出是t k ,网 络的实 际输出是z k , 那 么总的 误差是 : j (w ) = 告 熟一 、 )z = 1 it- zii ( 2 . 1 . 1 ) 其中c . w 分别代表网络中的输出向量的维数和网络的所有权值。 b p算法的基本思想是基于梯度下降的,沿着减小误差的方向来调整权值: v , = 二 ai 或 者 ; w _ = 一 。 典 rn v“o w m ( 2 . 1 . 2 ) 其中刀 是学习 速率. 2 . 1 . 4 反馈神经网络与h o p f i e l d 算法 反馈神经网络是一个反馈动力学系统, 具有更强的计算能力。1 9 8 2 年美国 物理学家 j . h o p f i e l d 提出的 单层全互连 含有对称突触 连接的反 馈网 络是 最典 型的反馈网络模型。 h o p f i e l d 用能 量函数的思 想形成了一 种新的 计算方法,阐 明了神经网络与动力学的关系, 并指出信息存储在网络中神经元之间的连接上, 形成了 所谓的h o p f i e l d 网 络。 1 9 8 4 年, h o p f i e l d 设计与研制了h o p f i e l d 网络 模型的电 路, 指出 神经元可以用 运算放大器来 实现, 所有神经元的连接可用电 子线路来模拟1 1 0 1 . h o p f i e l d 成功地 显示了 采 用这一模型解决典型的n p问 题 一 一旅行员 推销问 题 ( t s p ) 的可能性。 h o p f i e l d网 络是神经网 络发展历史上的 第二章人工神经网络与支持向量机 一个重要的里程碑。 h o p f i e l d 网 络算法详见文献 5 1 . 2 . 2 统计学习 理论 统计学习理论是以统 计学为工具来研 究和设计机器学习 算法的, v i p n i k的 著 作 1 1121 的 出 现是 统 计 学 习 理 论 得 到 正 式 承 认 的 标 志。 如 何 设 计以 训 练 数据 为 目 标函 数的 机器学习算法,从有限的 样本集合得到 分布 意义下的最优,这是统 计学习 理论研究的主要内容。 统计学习理论试图 从更本质上研究 机器学习问 题, 从而克 服原 有网 络的固 有缺陷。 互 2 . 2 . 1 经验风险最小化原则 给出的 样本中 是否包括足够的信息?用一定 数量的 样本训练后的学习 机是 否具有良 好的推广性 ( g e n e r a l i z a t i o n ) ?对 这些问 题的的回 答, 要用到 v i p n i k 和c h e r v o n e n k o 的 经验风险 最小化理论,即e r m准则 1 3 1 4 经 验风险 最小 化理论在多年的机器学习 方法研究中占 据了 主要地位。人们 多年来将大 部分注意力集中 到如何使经验 风险 最小化上,而实际 上单纯训练误 差小并不总能导 致好的 预测效果。 在某些 情况 下,训练误差过 小反 而会导致推 广能力的下降 ,即 真实风险的 增加,这就是过学习问 题。 从简单的例子可以看出 【 1 5 , 经验风险最小 并不一定意味着期 望风险 最小, 所以 我们需要一种能够指导我 们在小样本情况下 建立有效的 学习和获 得最好推 广性的方法和理论。 2 . 2 . 2 v c 维数 v c 维 ( v a p n i k - c h e r v o n e n k i s d i m e n s i o n ) 是统计学习 理论中的 一个重要 的概念,他代表的是函数类 ( 分类函数簇)的容量。 第二章人工神经网络与支持向量机 假定p 维实空间r 0 中有n个 样本 ( z ,。 ) , x e r 0 ,。e 0 , 1 ( 即研究 的 是两类划分问 题) , ( x ,。 ) 是随 机地从r 0 x 0 , 1 上按某 个概率上抽取的, f 是r 0 一 0 ,1 的 某 种函 数 , 令s 表 示r 0 中 的 n个 点 的 集 合 , d , ( s ) 表 示由 于f e f 对s 产 生的 不同 的 二 分 割 数 , 且d , ( n ) = m a x d , ( s ) , 其中s 是 所 有 点 数 为n的s c r 0 的 集 合。 当d , ( n ) 能 实 现s 中 所 有 的2 n 个 可能 的 二 分 割 ( 即d , ( n ) = 2 n ) 时 , 称s 可 被f 细 分( s h a t te r ) 。 函 数 类f 的v c 维 定 义为 能 被f 细 分 的s 的 最 大 元 素 数 ( c a r d in a lity o f s ) , 即 能 使d , ( n ) = 2 n 的 最大 的n值。 如果用函 数类 f ( x ,。 ) ,w e w 代表一个学习机。 确定后 就确定了一 个判别函 数 f e f ,因 此也可以 把 v c 维数理解为该学 习机能 学习的可以由分类 函数正确给以所有可能二值标识的最大训练样本数。 2 . 2 . 3 推广性的界 统计学习 理论系统地 研究了 对于各种类型的函 数集, 经验风险和实际风险 之间的 关系 ,即 推广性的 界。 关于两类分 类问 题,结 论是: 对指示函数集中 的 所 有函 数( 包 括 使 经 验 风 险 最 小 的 函 数 ) , 经 验 风 险 r , ( w ) 和实 际 风 险r ( w ) 之间以 至少1 - r 7 的概率满足如 下关系: r 仲) - 0 矿 x , + b 0 对 于 y , = + 1 ( 2 . 3 . 2 ) 对于 y i = - 1 ( 2 . 3 . 3 ) 综合上面 ( 2 . 3 . 2 ) ( 2 . 3 . 3 )两式得到 y , (w x , + b ) - 1 ? 0对 于i = 1 , 2 , , n ( 2 . 3 . 4 ) 此 时 分 类 间 隔 等 于 躺, 使 间 隔 最 大 等 价 于 使 w lil最 /j.o 满 足 条 件 (2.3.4)11 使 ilw l叼 最 . m,分 界 面 就 叫 做 最 优 分 界 面 。 、 , h z上 的 训 练 样 本 “ 就 称 作 支 持向 量 ( s u p p o r t v e c t o r ) . 使分类间隔最 大实际 上就是 对推广能力的优化, 这是s v m 的 核心思想 之一。 上述问 题可化为 “ 有约 束条件的 优化” 问题。 利用 拉格朗日 乘子法( l a g r a n g e m u l t i t) l i a n s ) ,建 立拉 格朗日 函数: mi n j ( w , b , a )= 生 w t w - 艺a , y , ( w t x , + b ) 一 1 ( 2 . 3 . 5 ) 式中a , ? 0 , 即非负的拉格朗日 乘子。求上式的极 小值有: 令a j ( w , b , a ) a w =0 得 : 二 = 艺a , y ,x , ( 2 . 3 . 6 ) 再令a j ( w , b , a ) 8 b =0得 : yy ,a , 二 0 ( 2 . 3 . 7 ) 利用l a g r a n g e 优化方法 可以 把上述最优分 类面问 题转 化成其对偶问 题, 即 在约束条件 i y , a , = 0 ( 2 . 3 . 8 ) 第二章人工神经网络与支持向盘机 a , ? 0 2 ,,n( 2 . 3 . 9 ) 下对a , 求解下列函 数的 最大值 q (a ) = 争一 告 务a,y ,yj(x,t x,) ( 2 . 3 . 1 0 ) a , 为 与 样 本 对 应的 l a g r a n g e 乘 子 。 这是 一 个 不 等 式 约 束 下的 二 次函 数 寻 优 问 题, 存 在 唯 一 解。 容 易 证 明 , 解 中 只 有 一 部 分a , 不 为 零 , 对 应 的 样 本 就 是 支 持 向 量 。 解上述问题后得到的最优分类函数为 a x ) = 可x + b o (2 . 3 . 1 1 ) 其中 得到最优权值向 量w o 为 w o = 艺a o .+y ,x , ( 2 . 3 . 1 2 ) 最优偏置b o 为 b o = 1 一 可 x ( ,对 于 y (-) = 1 ( 2 . 3 . 1 3 ) 2 . 3 . 2 非线性支持向量机 我们现在考虑线性不可分模式的情况。给定这样一组训练数据,不可能在 现有的空间 建立一个不具有分 类误差的分 类超平面。 然而我们 希望找到 一个最 优超平面,目 前为止,最行之有效的方法就是将输入向量映射到一个高维的特 征向量空间,并在该特征空间中构造最优分类面,这又回到了支持向量机的方 法, 它能 够避免在多层前馈神经网 络中 无法克 服的一些缺陷。并且经 过证明 可 以得到如下结论:如果选用适当的映射函数,大多数输入空间线性不可分的问 题在特征空间 可以 转化为 线性可分问 题来解决。 但是在低维输入空间向高维特征空间映射的过程中,由于空间维数急速增 第二章人工神经网络与支持向量机 长,使得在大多数情况下难以直接在特征空间计算最优分类面。支持向量机通 过定义核函 数 ( k e rn e l f u n c t i o n ) ,巧妙地将 这一问 题转化到输入空间来 计算, 其具体机理如下: 注意到在上面的问题求解中都只涉及内积运算,因此可以假设有非线性映 射(d : r -+h将输 入空间 的样本映射到高 维特征 空间h中, 当在特征空间中构 造 最 优 超 平 面 时, 训 练 算 法 仅 使 用 特 征 空 间 中 的 点 积, 即 4 ) (x , )d d ( x , ) o 所以 若 能 找 到 一 个 函 数k o 使 得k (x x j ) = 4) (x ,) d d ( x j ) , 这 样, 在 高 维 空 间中 实 际 只 需 要进行内 积运算, 甚至可以 不知道变换中的形 式。 于是 在 给 定 样 本 ( x , , y , ) , i0 l ,. . . . , n , x e r 0 , y e ( - 1 , 1 ) , 最 大 化目 标 函数表示为 q (a ) = 郭一 合 补a ,y,y,k (x,x,) ( 2 . 3 . 1 4 ) 此时决策函数也就相应的变成了 i (x ) = 艺a o ,y ;k ( xx ) + b o ( 2 . 3 . 1 5 ) 而算法的 其他条件均不变。由 于最终的 判别函 数中 实际只包 含与支持向 量的内 积以及求和,因此识别时的计算复杂度取决于支持向量的个数。 选择不同的核函数可以生成不同的支持向量机,从而在特征空间对应着不 同的 最优分 类超平面 1 8 , 常用的核函数 有: ( 1 ) 线性 核函 数: k ( x , x ) = x l k , ( 2 . 3 . 1 6 ) ( 2 ) 多项 式核函 数: k ( x , x , ) = ( x 戈) + 0 ( 2 . 3 . 1 7 ) ( 3 ) 径向基函数 ( r b f ) : 第二章人工神经网络与支持向量机 一 、_ _ x - x ,z , ( 2 . 3 . 1 8 ) ( 4 ) s i g m o i d 函数: k ( x , x ) = t a n h v ( x d r , ) + c l ( 2 . 3 . 1 9 ) 物出 决 策规 只 弓 h y = s g n ( 艺a ; y ,k (x , x ) + b ) 、o 权ma d, k ( z z ) 裁于. 个支 持间 量气, x = , . . , x , 的a k 蜕性 变换( 内 积) 输 入 向 呈 x 二 ( x ,: 2 ., x s x 勺 图 2 . 3 支持向量机示意图 2 . 4 本章小结 本章分别介绍了多层前馈神经网 络及 b p学习算法和反馈神经网 络及 h o p f i e l d模型,并且指出了 多层前 馈神 经网 络 在解决最优分类问 题的 局限 性, 由 此引出了 对分类问 题更深层次 机理的 挖掘 统计学习理论。 支持向 量机是 建立 在统计 学习 理论基础之上的 第一个学习算法。 我们详细讨论了解决 线性可 分问题的支持向量机和解决非线性可分问题的支持向量机的学习算法,并且对 其中核函数的概念进行了介绍。 第三章独立成分分析基本原理 第三章独立成分分析基本原理 夸 3 . 1 独立成分分析概述 独立成分分析( i n d e p e n d e n t c o m p o n e n t a n a l y s i s : i c a ) 是近几年才发展起来 的 一 种 新 的 统 计 方 法 19 -14 1。 该 方 法 的目 的 是 , 将 观察 到的 数 据 进 行 某 种 线 性 分 解 , 使其分解成统计独立的成分。 从原理上看,p c a应用的是 二阶统计量, 而 i c a 作为 基于高 阶统计量的 信号处理方法, 能分解出 相互统计独立的 非高斯 信号, 因 而具有较 p c a更为 广泛的 应用价值,受到了学 术界的 广泛关 注。 随 着近年来在 i c a 方面研究兴趣的增加, 使它在许多领域有了非常有趣的应用。 3 . 2 i c a 的基本原理 互 3 . 2 . 1 i c a 的定义 最早提出 i c a概念的是 j u tt e n和 h e r a u lt 9 1 。 当时他 们对 i c a给出了 一 种相当简单的 描述,认为 i c a是从线性混合 信号里恢复出一些基本的源信号 的 方法。为了给 i c a下一 个严格的 定义, 我们使用一个隐 藏的统计 变量模型。 假设 我们能 观察到 月个 独立成分的线性组合 x 1 s v b . . . . x n , 用式子表 示为: x , =an s i + a2 s s + +a m s . ( 对任何的 1 而言)( 3 . 2 . 1 ) 在 i c a模型里, 我 们假设每个混合信号 x 1 同独立成 分 s k 一样是一个随机 变量,而且混合信号和独立成分都具有零均值。利用向量一 矩阵记法,上面混合 模型可写作: x = a s ( 3 . 2 . 2 ) 其中,随 机向 量 x 的 元素是混合信号 x l r x 1 r - - , x n ,同 样, 随机向 量 s的元 素 第三章独立成分分析基本原理 为s i,s b . .,s n r a是 其 元 素 为a # 的 混 合 矩 阵 。 下 面 所 有 的 向 量 均 指列 向 量, 这 样 x 7 ( x 的 转置) 是一 个行向 量。 有时我们需要用到 矩阵a的列 a i , 该模型也 可写作如下: x = 艺 a , s , ( 3 . 2 . 3 ) 等式( 3 . 2 . 2 ) 中的 统计模型称为独立成 分分析, 或者 i c a 模型,它表示被观察 到的 数据是 如何由 独立成分混合 而产生的。独立成分是隐 藏的 变量,意味着它 不能直接被观察到,而且混合矩阵也被假设为未知的。 i c a 的问 题是: 所有我们能 观测到的仅仅只是随 机向 量 x , 我们必须估计出 a和 s , 而且尽量在很少的 假设条 件下完成它。 如果我们能 计算出a 的 逆 w , 这样可以很简单地得到独立成分 .s =w x ( 3 . 2 . 4 ) 给定 m 个混合信号, i c a能同时 估计出 m个独立成分 2 5 1 或 k - m 个 独立成分2 6 1 在许多实际应用情况下,模型中都含有噪声。但是为了简单起见,我们将 忽略 模型中噪声的 影响, 有噪声的 i c a参见文献 2 7 , 2 8 1 . 为了保 证 i c a基本模型能 被估计, 我们必须对它 做出 某种假设和约束。 ; 3 . 2 . 2 i c a的基本假设和不确定性 1 . i c a 的 基本假 设 ( 1 ) 独立成分是统计独立的 由于统计独立是 i c a方法的前 提, 首先要 给出 统计独立的 确切定 义。 对 随 机 变 量y l,p b ,y n , 如 果y i 的 值的 信息 不 包 含y i 的 值 的 任 何 信 息, 我 们就说 y vb ,y . 是独立的。 这 种情况是 对于 变量 s h s 2 - - - , s n 而言的,而 不是 对 于混合信号 x l , x 2 . . . . x n e 统计独立性也可用概率密 度2 9 1 来定义。 如果定 义两个随机变量 y l 和.v 2 是 第三章 独立成分分析基本原 理 统计独立的 , 当 且仅当 它们的 联合概率 密度可按下 式分解: p 恤, y 2 ) 二 p i (vi)p2树 。 该定 义可扩展到 n个随 机变量 ,这种情况下 联合概率密 度是 n个随 机变量的 边缘概率密度的乘 积。 p ( v 1 ,y b 痴 = p t 饥) p 2 树 . . . p . 闯( 3 . 2 . 5 ) 统计独立的一 个比 较弱的 形式是不相关。 如果两 个独立变量y t 和 y 2 的协 方差为零,那么我们称之为不相关 c o d (y , y 2 ) =e y j y 2 ) e y 1 e y 2 ( 3 . 2 . 6 ) 如果随机变量是 独立的, 那么它们不相关。 这是因为 如果 y , 和 力独立, 那么对两个函数 h l 和 h 2 来说, 下式成立 e h l ( y 1 ) h 2 ( y z ) ) = e ( h t ( y j ) ) e h 2 ( y 2 ) ) ( 3 . 2 . 7 ) 令h l ( y l ) = y l , h 2 ( y 2 ) = y 2 , 我们 看到它们将不相 关。 另 一 方 面 , 不 相 关 并 不 意 味 着 统 计 独 立 。 例 如, 假 设 (y 1, y 2 ) 是 离 散 值, 且 它们的等概率分布为 下面四 个 值: ( 0 , 1 ) , ( 0 , - 1 ) , ( 1 , 0 ) , ( - 1 , 0 ) , 通过简 单地计算, 我们可得出y l 和y 2 是不相关的。 但是 e y , 2 劝=0, 而e l y 2 ) e y 2 2 ) = 1 / 4 ( 3 . 2 . 8 ) 显然,上式与( 3 . 2 . 7 ) 式相违背。从而 可得出 , y 1 和 y 2 这两 个变量不独立。 ( 2 ) 独立成分具有非高 斯分布 独立成分必须 具有非 高斯分布。 对高 斯分布来说, 其高阶累积量为零.但 对于 i c a模型估计 来说, 这些高阶累 积量所含的 信息是最重要的。 对具有高斯 分布的独立变量来说, i c a是不 适用的 。 在 i c a模型里, 我们并没有假设独立 成分的非高斯分布己知, 如果己 知问题将 得到简化。 ( 3 ) 混合矩阵 是方阵 为了简 化起见,我们 假设未 知混合矩阵是 方阵。 换句话说, 独立成分的个 数等于观测混合信号的 个数, 有时这个 假设可以 适当 放松f i l l 。 在这里我们做出 这 个假设,是因为它 可以极 大的 简化估计。同 时, 这里 我们还假设混合矩阵 a 可 第三章独立成分分析基本原理 逆。 如果混合矩阵 不是方阵, 我们找到的 独立成 分的 个数将不等于观测混合信 号的个数。 在前一个假设条 件下, i c a模型是 可以 辨 识的。即,在一 些不确定 性因 素 下,混合矩阵和独立成分是可以估计出来的。 2 . i c a的 不确定性 等式( 3 . 2 . 2 ) 中的 i c a模型,存在 如下的 不确定 性: ( 1 ) 不能 确定独立成分的方差( 能量) 理由 是,由 于 s和 a都未知,任 何标量 乘以 其中的 一个信号 s 1 , 都能 通 过用同 一个标量除以a 的列 a i 而抵消前 面的 操作, 即 x 一 e ( 生 a ,)( s ,a ) ( 3 . 2 . 9 ) a t 由 于它们都是随 机变量, 最直接的 方式是 假设 它们都具有单 位方 差:e s ;1 = 1 。那 么 在 解 决i c a问 题时 , 矩阵a将自 动的 考 虑 到 这 个 约 束 。 注 意: 这里仍存在符号的不 确定性。因为 用 一 1 乘以 一 个独立成分,并不会 影响 到 模型的 建立。值得庆 幸的是,实践 证明: 这种 不确定性 在大多 数应用中都无 关紧 要。 ( 2 ) 不能确定独立成分的顺序 理由是,由于 s和 a 未知, 在式( 3 . 2 . 3 ) 的和中我们就能轻易地改变独立 成分的 顺序,而称其中的任何一 个为 第一个独 立成分。 将 p和 p的逆 加到 模 型( 3 . 2 . 2 ) 中, 得到 x = a p 1 p s , p s的元 素是原 始的 独立变量 s ; ,但顺序却不 一样。 矩阵 a p - 恰好是一个新的 未知混合阵 ,它 将由 i c a算法求解。 第三章独立成分分析基本原理 互 3 . 3 独立成分分析的估计原理 当前估计i c a模型的 主要方法 有非高 斯的 最大化、 互信息的 最小化、 最大 依然函数估计等。本节,我们主要介绍一种基于非高斯最大化的原理,该原理 起源于中 心极限定 理。 在i c a估计中, 非高斯性实际 上是一个相当重 要的概念。 没有非高斯性, i c a估计也就 无从谈起。因 此, 人 们将非 高斯性作为i c a估计 的 一个主要原理。在 大多数 古典 统计理论里,随 机变量都被假设为高 斯分布, 从而阻碍了i c a方法的发展, 这也就是为 什么i c a研究 最近才开始 热门 的一个 主要原因。 3 . 3 . 1 i v 高斯性 在概率 论中, 一个经典的结论是中心极限定 理。 在某些条 件下, 独立随 机 变量 和的分布趋于高斯分布。简单的说,两个 独立随机变量 和的分布比原 来随 机变量中的任何一个的分布更接近于高斯分布。 现在假设数据向量 x 服从 i c a 数据模型( 式( 3 . 2 . 2 ) ) , 即可认为它是独 立成分的混 合信号。为了 简单起见, 现在假设所 有独立成分都具 有相同 的分布, 独立成分的 估计可通过找到式( 3 . 2 . 2 ) 右边的 混 合矩阵的 逆而得到。 s=a - x ( 3 . 2 . 1 0

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论