




已阅读5页,还剩35页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
山西医科大学 硕士学位论文 非线性主成分分析方法及其在医学中的应用 姓名 苗丽花 申请学位级别 硕士 专业 流行病与卫生统计学 指导教师 郭东星 20090510 l I 阳医科人学坝l 学位沦史 非线 生主成分分析方法及其在医学中的应用 摘要 在医学多变量研究中 经常会遇到各变量之M 呈非线性关系的情况 此时如果仍用一 般的线性数据处理方法分析数据是不妥的 由此 各种非线性数据处理方法应运而生 基 于核函数技术的非线性数据处理方法由于其操作简簟的优良特性而倍受青睐 核函数技术通过非线性映射把输入空问的数据映射到高维特征空问 在特征空间进行 数据处理 它的关键在于通过引入核函数 可以把非线性变换后的高维特征空间的内积运 算转换为原始输入空f b J 中的核函数计算 而不用显式地计算非线性映射 从而实现了输 入空间上的非线性化 本研究探讨了基于核函数的核主成分分析法 K e r n e lP r i n c i p a lC o m p o n e n tA n a l y s i S K P C A 的基本原理和数学模型 主成分分析 P r i n c i p a lC o m p o n e n tA n a l y s i s P C A 是 一种经典的统计方法 它对多元统计观测数据的协方差结构进行分析 以期求出能简约地 表达这些数据关系的主成分 具体地蜕也就是通过线性变换将原始 l 维观测值化为个数相 同的一组新特征 即每一个新特征都是原始特征的线性组合 如果这些新特征互不相关 其中少数m 个 ms 刀 包含了原始数据主要信息的最重要的特征就是主成分 P r i n c i p a l C o m p o n e n t P C 主成分分析是一种特征提取的方法 也可以认为是一种数据压缩 降维 的方法 核主成分分析则是在特征空间中进行通常的线性主成分分析 是在高维特征空间 中对角化核矩阵K 其非零特征根的数目最多为Z 个 观测值的个数 它通常高于样本 的维数 特征空间的维数很高 甚至是无穷维的 但是K P C A 并不是在整个特征空间中寻 求主成分 而只是在由 个观测数据所张成的孑空问中寻求主成分 不必计算非线性变换 和内积 只需计算核函数 因而与P C A 相比计算量的增加不会太大 对于特别复杂的问题 甚至可以不用计算全部特征值 只需用特别的算法计算最大的一个或两个特征值即可 研究结果表明核主成分分析比主成分分析具有更好的降维效果 且能有效地处理变量 间的非线性关系 为在医学研究中的应用提供了理论依据 本课题实例分析使用M a t l a b 软件作为运算分析平台 关键词 主成分 核主成分 核函数 协方差函数 l I I 州医科人学坝I 学位论史 N o n l i n e a r p r i n c i p a lc o m p o n e n ta n a l y s i sm e t h o da n di t sa p p l i c a t i o n si n m e di c i n e A b s t r a c t T h e r ea r em u l t i v a r i a t ea n a l y s e si nt h em e d i c a lr e s e a r c h a n dw eo f t e ne n c o u n t e rt h e v a r i a b l e sw h i c ha r en o n l i n e a rr e l a t e da m o n gt h e m I nt h i sc a s e i ti si n a p p r o p r i a t et h a tt oh a n d l e t h ed a t aw i t hal i n e a rm e t h o d T h u s m a n ym e t h o d sw h i c hc a nd e a lw i t ht h en o n l i n e a rd a t aa r e p r o p o s e d A m o n gt h e m n o n l i n e a rd a t ap r o c e s s i n gm e t h o d sb a s e do nk e r n e lt r i c ka r ev e r y p o p u l a rt od e a lw i t ht h e s ev a r i a b l e sf o ri t se x c e l l e n tp r o p e r t yt h a ti ti se a s yt oo p e r a t e T h em a i ni d e ao fk e r n e lm e t h o d si s o r i g i n a li n p u ts p a c ed a t a a r em a p p e di n t o h i g h d i m e n s i o nf e a t u r es p a c e st h r o u g hn o n l i n e a rm a p p i n g D a t ai sa p p l i e dt od e a lw i t hi nt h ef e a t u r e s p a c e s I t sk e yi si n d u c t e di n t ok e r n e lf u n c t i o n t h a ts c a l a rp r o d u c to p e r a t i o ni nh i g hd i m e n s i o n f e a t u r ei st r a n s f o r m e di n t ok e r n e lf u n c t i o nc o m p u t ei n i n p u ts p a c e a n dd o n tn e e dt oc o m p u t e n o n l i n e a r m a p p i n g S On o n l i n e a r i z a t i o ni sa c h i e v e di ni n p u ts p a c e s I n t h i sp a p e rw ed i s c u s st h ew o r kp r i n c i p l ea n dm a t h e m a t i c sm o d e lo fk e r n e l p r i n c i p a l c o m p o n e n ta n a l y s i sm e t h o d P r i n c i p a lc o m p o n e n ta n a l y s i si sat r a d i t i o n a ls t a t i s t i cm e t h o da n d i t sa n a l y s i so b j e c ti st h ec o v a r i a n c es t r u c t u r eo ft h em u l t i v a r i a t eo b s e r v e dv a l u ea n di t sp u r p o s e i so b t a i nt h ep r i n c i p a lc o m p o n e n tw h i c hc a ns i m p l yd e s c r i b et h er e l a t i o no ft h eo b s e r v e dv a l u e I nd e t a i l P C Am e t h o di sc h a n g i n go r i g i n a lnd i m e n s i o no b s e r v e dv a r i a b l ei n t oas e to fn e w f e a t u r ew i t ht h es a m enn u m b e rt h r o u g hl i n e a rt r a n s f o r m a t i o n a n de a c hn e wf e a t u r ei s t h e l i n e a rc o m b i n a t i o no ft h eo r i g i n a lf e a t u r e I ft h e s en e wf e a t u r e sa r eu n r e l a t e db e t w e e ne a c h o t h e f t h es m a l ln u m b e rm a i nf e a t u r e sa m o n gt h e mw h i c hc o n t a i nt h ep r i n c i p a li n f o r m a t i o no f t h eo r i g i n a ld a t aa r ec a l l e dp r i n c i p a lc o m p o n e n t s P C Ai sam e t h o do ff e a t u r ee x t r a c t i o na n d d i m e n s i o n a l i t yr e d u c t i o n W h i l ek e r n e lP C Ai san o n l i n e a rg e n e r a l i z a t i o no fP C Ai nt h es e n s e t h a ti ti sp e r f o r m i n gP C Ai nf e a t u r es p a c e sa n d d i a g o n a l i z i n gk e r n e lm a t r i xi nh i g hd i m e n s i o n a l s p a c e s K e r n e lP C Ac a nf i n da tm o s t t h en u m b e ro fo b s e r v e dv a l u e n u m b e ro fn o n z e r o e i g e n v a l u e s w h i c hc a ne x c e e dt h es a m p l ed i m e n s i o n a l i t y T h ed i m e n s i o n a l i t yo ff e a t u r es p a c e s i sv e r yh i g h e v e nt oi n f i n i t e H o w e v e r k e r n e lP C A d o n tn e e dt ol o o kf o rp r i n c i p a lc o m p o n e n t s i nt h ef u l ls p a c e sEb u t j u s ti nt h es u b s p a c es p a n n e db yt h eo b s e r v e dd a t a K e r n e lP C An e e d o n l yt oc o m p u t ek e r n e lf u n c t i o na n dr a t h e rt h a nt oc o m p u t en o n l i n e a rt r a n s f o r m a t i o na n ds c a l a r p r o d u c t T h u s t h ea m o u n to fc a l c u l a t i o no fk e r n e lP C Ai s n t v e r yc o m p l i c a t e dc o m p a r e dt o l l 叫医科人学硕I j 学伸论文 P C A W h e nc o m et oe s p e c i a l l yc o m p l e x i t yp r o b l e m w ee v e nd o n tn e e dt oc o m p u t et h ew h o l e e i g e n v a l u e o n l yn e e dt oc o m p u t et h el a r g e s to n eo rt w oe i g e n v a l u e s O u rr e s u l t sd e m o n s t r a t et h a tk e r n e lp r i n c i p a lc o m p o n e n ta n a ly s i ss h o w sb e t t e rr e s u l t st h a n p r i n c i p a lc o m p o n e n t sa n a l y s i si nd i m e n s i o n sr e d u c t i o na n dc a nd e a lw i t ht h en o n l i n e a rr e l a t i o n b e t w e e nt h ev a r i a b l e s P r o v i d eat h e o r e t i c a lb a s i sf o rt h e p o p u l a r i z e da p p l i c a t i o no ft h e s e m e t h o d si nm e d i c a ls t u d i e s W eu s eM a t l a bs o f t w a r ea sp l a t f o r mt oh a n d l et h ea n a l y s i so fo u ra p p l i c a t i o ne x a m p l e K e yw o r d s P r i n c i p a lc o m p o n e n t K e r n e lP r i n c i p a lC o m p o n e n t K e r n e lF u n c t i o n c o v a r i a n c e f u n c t i o n m h 叫医科人学硕l 学位沦文 j 上 一 日I J吾 在医学研究中经常会遇到多个指标的实际问题 指标数目的增多必然会带来统计分析 的复杂性 比如描述牙槽弓形念特征的可有2 2 个指标 衡量甲状腺机能的有2 1 个指标等 指标较多时不但增加了资料搜集的工作量 而且给资料分析带来很多麻烦 增加了分析问 题的复杂性和难度 例如 在儿章的生长发育的评价中 某科研工作者收集到了1 4 8 名儿 章的身高 体重 胸围 头围 坐高 肺活量等十个指标 要求根据这十个指标对研究对 象做出合理的评价 如果分别用每一个指标对儿章的生长发育作评价 这种评价只能是孤 立的 而不是综合的 那么 去寻找一种合理的 综合性的方法 既可减少分析指标 又 尽量不损失或少损失原指标所包含的信息 而又能对资料做出全面的分析就非常必要 事 实上 许多指标之间往往具有一定的相关性 因此有可能用较少的起主导作用的综合指标 把存在于各原始指标中的主要信息分f J 另J 类地提取出来 这些为数较少的综合指标既能综 合反映原始指标中所包含的主要信息 而且相互之间又是无关的 同时分别具有各自的独 特含义 可以避免不必要的重复 这种处理问题的方法就是主成分分析方法 综合后的指 标就称为是原始指标的主成分 主成分分析 p r i n c i p a lc o m p o n e n ta n a l y s i s 也称主分量分析 于1 9 0 1 年由P e a r s o n 首先提出 1 9 3 3 年由H o t e l l i n g 作了进一步的发展 主成分分析是一种经典的统计方法 它对多元统计观测数据的协方差结构进行分析 以期求出能简约地表达这些数据依赖关系 的主成分 主成分分析是一种特征提取的方法 也可以认为是一种数据降维的方法 一般来说 主成分分析的实施效果与评价指标间的相关程度高低成正比 评价指标 间相关程度越高 主成分分析的效果就越好 当指标之间相关性不大时 第一个主成分所 提取的原始指标的信息常常是很少的 这时 为了满足累计方差贡献率不低于某阈值 比 如8 5 就有可能选择较多的主成分 此时的主成分分析的降维作用不明显 这是经典 主成分分析的一个不足之处 它的另一个不足之处是只能处理 线性 问题 只是一种 线 性 降维技术 一方面 对原始数据进行标准化处理后 协方差矩阵就变成相关系数矩阵 而相关系数只能反映指标间 线性 程度 在现实生活中 指标间的关系也有呈非线性关 系的 如果这时非要用 线性 关系去反映 会得到不正确的结论 另一方面 主成分是 指标的线性组合 当主成分与原始指标之间呈非线性关系 此时简单地进行线性处理就有 可能导致对现实关系反映上的偏差 现实生活中有许多变量之间呈非线性关系的数据 要 对这些数据更加合理的处理和解释 就不能用经典的主成分分析方法 基于以上原因 有 必要对经典的主成分分析加以改造 进行非线性主成分分析方法的研究 为此 专家 学者提出了一系列的非线性主成分方法 主要分为三类 1 由l r i c 和K a w a t o 提出的基于主成分分析的多层感知器方法 此类方法需预先确定主成分个数 I V 心医科人学硕I 学位论文 并且在网络隐含层较多时 学习训练能力会下降 2 由H a s t i e t 和S t u e t z l e 提出的主曲 线和主曲面方法 此类方法同样需要预先确定主成分个数 而且即使在给出了适合的个数 时 也不能清楚地确定各主成分的方差贡献率的大小 3 由S c h o l k o p f 1 9 9 8 1 9 9 9 及 M u l l e r 2 0 0 1 引入的核主成分分析 该方法能够映射输入变量数据到高维空间进行非线 性主成分分析 N P C A 且获得的第一主成分能捕捉绝大多数的数据信息 基于核函数的非线性主成分分析方法 简称为核主成分分析 K P C A 于1 9 9 8 年由 S c h o l k o p f 首次提出 主要应用于模式识别 信号处理等 如果选用适当的映射函数 输 入空间线性不可分问题在特征空问将转化为线性可分问题 这利 非线性映射函数被称之为 核函数 K e r n e lF u n c t i o n 将核函数与一般的主成分分析 P r i n c i p l eC o m p o n e n t A n a l y s i s P C A 有机融合而形成的基于核的主成分分析 K e r n e lP r i n c i p l eC o m p o n e n t A n a l y s i s K P C A 不仅具有优秀的主成分提取性能 尤其适合于处理非线性问题 其 应用前景更为广泛 V 学位论文独创性声明 本人声明 所呈交的学位论文系在导师指导下本文独立完成的研究成果 文中 任何引用他人的成果 均已做出明确标注或得剑许可 论文内容未包含法律意义 上己属于他人的任何形式的研究成果 也不包含本人已用于其他学位申请的论文 或成果 与我一同工作的同志对本研究所做的任何贡献均己在论文中作了明确的 说明并表示谢意 本文如违反上述声明 愿意承担以下责任和后果 1 交回学校授予的学位证书 2 学校可在相关媒体上对作者本人的行为进行通报 3 本文按照学校规定的方式 对因不当取得学位给学校造成的名誉损害 进 行公开道歉 4 本人负责因论文成果不实产生的法律纠纷 论文作者签名 学位论文版权使用授权书 本人完全了解山西医科大学有关保留 使用学位论文的规定 同意学校保留或 向国家有关部门或机构送交论文的复印件和电子版 允许论文被查阅和借阅 本 人授权山西医科大学可以将本学位论文的全部或部分内容编入有关数据库进行检 索 可以采用影印 缩印或其他复制手段保存论文和汇编本学位论文 本人离校后发表或使用学位论文或与该论文直接相关的学术论文或成果时 署 名单位仍然为山西医科大学 保密论文在解密后应遵守此规定 论文作者签名 指导教师签名 同期 年 月 日 日期 年 月 日 本声明的版权归山西医科大学所有 未经许可 任何单位及任何个人不得擅自使刚 州医科人学硕I 学位论文 1 1 核的定义及定理1 1 2 1 第一章核函数理论 定义1 设X 是R 中的一个子集 对一个在X X 上的函数k x Y 如果存在从X 到 H il b e r t 空问H 的映射 J H 使得k x Y 妒0 y 其中 表示日中的内 积 则称k x Y 为核函数 核函数的定义并不能使我们很容易地选择和确定核函数 然而M e r c e r 定理不仅从理 论上解决了核函数的确定 并且给出了其特性 定理1 M e r c e r 定理 1 3 1 令X 是一个R 的紧凑子集 k 是Xx X 上的一个连续的对称函数 使得积分算子 瓦 2 似 呻L2 X T k f Y fk x y f x d x 是正的 也就是说对所有的fE L x 有 L J 七o y f x f y d x d y o 则k x y 可表示为xx X 上的一致收敛序列 k x y 一罗A 谚o 谚 y Ms 其中A o 是瓦的特征值 谚 如 x 是对应凡的特征函数 慨k 1 定理2 满足M e r c e r 定理的对称函数k x Y 是核函数 满足M e r c e r 定理1 4 I 的核函数 被称之为M e r c e r 核 定义2 若对称函数七 xx X R 满足对于任意的 l 当a 1 以 口 E R 及 屯 x E X 有 吒口 尼 x o 则称七 为正定核 M e r c e r 核是正定笥 因为 私n 咿吣抄 扣一 栌 陪中 卜 给定一个向量集合S 一 西 G r a m 矩阵被定义为l x l 的矩阵K 其元素为 一 z f i j 一1 oo l G r a m 矩阵是对称矩阵 又称为核矩阵 一个核函数对应一个半正定的矩阵 核矩阵的这个有限半正定性质是核方法理论的核 心成分 核函数方法实施步骤可以简单地描述如下 寸忑卜 厂 x 罗口 七O 工 J 样本 Z n 核函数核矩阵 算法模式函数 图1 1 常用的M e r c e r 核函数有1 1 6 1 多项式核k x Y s x y c 其中c 芝0 d 是整数 它们为自定义参数 G a u s s 径向基核七 工 y e X p 一竖三 其中 是自定义参数 S i g m o i d 核k x Y t a n h 一b x Y 一C 其中6 C 是自定义参数 傅立叶核七o y 夏E 乏i 1 瓦 q 云2 了i 孬 其中q 是满足O q l 的自定义参数 1 2 核的构造 5 7 1 不同的核函数对应不同的非线性变换 决定了特征空间的性质 上面给出了一些具体 的核 如多项式核 高斯径向基核等 如何针对具体问题来选择合适的核函数以及参数已 成为研究的重点 因此从已知的核中构造新的核显得尤为重要 定理3 令k l k 2 x xX R k 3 R x R 一R 是核函数 a E R 厂 x 尺的实值函数 和 X R 那么下列函数都是核函数 1 k x 一k l G y 七2 0 y 2 k x y 口七 x y 3 k x y 一k l z y k 2 y 4 k x y z 厂 y 5 k x y t e 6 k x y k 3 驴 x 驴 y 2 I l V t i 医科人警硕I 学化沦文 证明 令S 是一个有限点集 9 9 X 令K 和K 2 分别是通过七 k 限制于这些点 而得到的对应的核矩阵 考虑任意一个向量a E R 矩阵K 是半 F 定的 当且仅当对所有 的口 有a K a 0 故有 1 口7 K l K 2 净 a K a 口 K 2 口 0 所以K 是 I 止定的 k l 七2 是一个核函数 2 类似地 D 么K 口 a 口 K 口 0 因而a k l 是一个核函数 3 令 K K o K 它是矩阵K 和K 的张量积 它通过用K 中的每一个元素和 墨相乘所得的积去取代K 中原来的那个元素而得到 两个半 F 定矩阵的张量积本身也是 半正定的 因为乘积的特征值是两个成分的特征值的所有乘积对 对应于函数k l k 的矩阵 被称为K 和K 的S c h u r 积 其元素是两个成分中的对应元素的乘积 矩阵H 是K 的主 子矩阵 由一个列集合和同一个行集合定义 因此 对于任意一个a 尺7 存在对应的 口1 R r 使得口7 H a a x a l2 0 所以H 是半 F 定矩阵 得证 4 考虑一维特征映射 巾 xk f x E R 那么k x z 就是对应的核 5 指数函数可以被具有正系数的多项式函数任意的地逼近 由第 1 2 和 第 3 部分可得 具有正系数的多项式p 暇 z 是核函数 而指数函数是这个核函数的 极限 由于有限半正定性质在按点态方式取极限的情况下是封闭的 结论成立 6 由于足 是一个核 通过把限制于点 而得到的矩阵是半正定的 得 证 主成分分析 P C A 方法被成功的运用于医学数据的处理 且取得了很好的效果 然而 主成分分析方法在处理数据时是基于变量问的线性关系 当变量问呈非线性关系时 效果 不理想 核函数方法与经典的主成分方法相结合而形成的核主成分分析方法 能有效处理 非线性数据 且取得了满意的效果 成为现在研究的一种热门方法 3 州医科人学硕l 学位论文 第二章核主成分分析 主成分分析 P C A I S l o 是一种从高维数据集有效地提取数据结构的技术 通过求解 特征值问题或使用估计主成分的迭代算法可以很容易地来实现 回顾现有的文献 见 J o l l i f f e 1 9 8 6 D i a m a n t a r a s t 和K u n g 1 9 9 6 一些经典的学术论文见P e a r s o n 1 9 0 1 H o t e l l i n g 1 9 3 3 K a r h u n e n 1 9 4 6 主成分是对描述数据的相应的坐标系的对角化 转 换后用来描述数据的新的坐标值 称为主成分 通常情况下 较少的主成分就可以表示数 据的结构 称为数据的因子或潜变量 经典的主成分分析方法 变量间呈线性关系 已相当成熟 目前对P C A 的研究 更 侧重于对输入空问的变量问呈非线性关系的主成分的研究1 1 1 通过输入空问的核函数在特征空间进行内积运算 而不需要显式地使用变量本身 这 种核方法能够构造不同的非线性形式 尽管该方法已被熟知 然而在医学研究领域中的应 用却很少 下面来回顾一般的主成分算法 为了能够把一般的主成分用非线性形式来表示 我们 将公式表示为内积的形式 2 1 在特征空间中进行主成分分析 给出一组中心化的数据集 以E R k 一 M y x k 0 计算主成分相当于对 一 J 角化协方差矩阵 1 2 1 5 1 c 一 乏M v r 2 1 肘幺l 解方程的特征值加一C v 2 2 因为 肼r 弘 O v x 对于特征值A 0 和特征向量y 尺 0 因为 A y c y 专差X j X j T 1 f f i 百1 荟M V 咖 2 3 所有满足特征值A 0 的特征向量 必然属于空间 公式 2 2 等价于以下公 式 A O t 一O I C v k 一1 2 M 2 4 在特征空间F 中描述同样的算法 特征空间是输入空间经非线性映射得到的 R 呻F z 呻X 2 5 特征空间F 非常大 也可能是无限的 1 9 2 0 大写字母代表特征空间F 中的元素 4 小写字母代表输入空间尺一中的兀素 假定待处理的数据己中心化 妒 0 在特征空间 罩 协方差矩阵可以表 示为以下的形式 万 上壹m m 2 6 M 台l 一 一 如果特征空问F 为无穷维 可以把驴 石 x r 看作是在特征空间F 上的线性变换 X 钟驴O J X 2 7 现在需要找出满足式 2 8 的Az O 的特征值和特征向量y F o A y 砂 2 8 所有的A 乒0 的特征向量y 落在驴 x 驴 所张成的空问罩 式 2 8 的两边同乘 得到以下方程 A 吒 y 矽 吒 一c v k 1 M 2 9 存在系数呸O 1 M 使得 y 2 酗妒 2 1 0 合并式 2 9 和 2 1 0 得到 A 萋q 庐 一吉善q 也 薹妒 从 o 驴 2 1 1 对所有的七一1 M 定义一个Mx M 的矩阵K 可以得到 值 0 一 妒 t 妒O M 九K o K 2 G 2 1 2 2 1 3 口代表一个列向量q 口肘 求解式 2 1 3 也就是求解式 2 1 4 的非零特征 M 九o cIK c 2 1 4 因为K 是对称矩阵 2 2 矧 K 有一组呈正交基的特征向量 卢 和相应的特征值段 对 所有的f K 声 以卢 U 1 M 为了清楚公式 2 1 3 和 2 1 4 的联系 假设厶口 满足公式 2 1 3 用核矩阵K 的特征向量基来表示口 那么有口一 二q 卢 公式 2 1 3 则变为 5 心医科人学硕I 警f 讧论文 肘A 刚t 卢 2 q 彳卢 2 1 5 或者 相应的对所有的f 1 o M M A a 肫 q 这意味着对所有的i 1 M M A 以或口j 0 或以 0 2 1 6 接下来 我们假定A 口满足公式 2 1 4 则有 M t a r 卢 q 肛卢 2 1 7 也就是对所有的i 一1 M M A 心或q 0 2 1 8 比较 2 1 6 和 2 1 8 得出 所有满足式 2 1 3 的解都满足式 2 1 4 而式 2 1 6 和 2 1 8 并没有给出全部的解 给出式 2 1 4 的一组解 可以添加许多核矩阵K 的 特征值为O 的特征向量仍然可以满足式 2 1 3 这意味着存在式 2 1 3 的解 它们具 有不同的特征值而在口 的空间旱不是正交的 这并不是说在特征空间F 里的协方差矩阵 C 的特征向量不是正交的 事实上 如果a 是核矩阵K 的特征值为O 的特征向量 那么 相应的向量罗 q m 薯 和所有的特征空间F 中币 x f 所形成的区间的向量都是J 下交的 因 为对所有的 来说 q 垂 t 一 K a J o 也就是 呸 o 所以 式 2 1 3 和 2 1 4 的解是不同的 且它们之间解的不同是无关联的 我们要求与式 2 1 3 相关 的解 只需要对角化核矩阵K1 2 5 硎 定义矩阵K 的特征值As 九s sk 也就是式2 1 4 中M A 的解 口1 口埘是与 特征值相对应的特征向量 A 是第一个非零的特征值 将口p 口肼归一化 假定非线性 变换西不为O V 1七一p M 2 1 9 将式 2 1 0 和 2 1 4 代入式 2 1 5 得到将口P 口 归一化的条件 2 8 1 1 摹 a 弼驴 xr 驴 x 伪 墨i a a 2 2 0 a 七口 一A I 口 a 为了提取主成分 在特征空间计算特征向量V 七 p M 上的投影 让z 作为 一个测试点 在特征空间映射为驴 石 那么有 妒o 一善彰 2 2 1 式 2 2 1 称为与非线性 变换相对应的非线性主成分 主成分的计算概括起来有以下几个步骤 2 9 1 6 1 计算矩阵K 2 计算矩阵K 的特征值 并在特征空问F 中将其归一化 3 计算一个测试点在特征向量上的投影 2 2在高维特征空间中心化数据1 3 0 3 2 1 在输入空间中对观测值进行中心化比较容易实现 但在特征空间F 中 由于不能精 确计算观测变量在特征空间F 中映射后的均值 要对观测值实现中心化是相当困难的 那么 可以通过对基于核的主成分方程稍加修改的方法来实现高维特征空间数据的中心 化 给出任意的驴和一组观测值t X M 记 确 叫誓 一吉荟驴 2 2 2 多 薯 是中心化数据 在特征空间中定义协方差矩阵以及毫f 多瓴 莎 x f 则有 互 霞 2 2 3 就公式 2 2 2 来讲 是特征空间F 里一个特征向量的膨胀系数 矿 5 歹 t 如果没有中心化的数据则不能直接来计算矩阵霞 但是 可以用与之相应的没有中心化 的矩阵K 来计算 令 t 妒0 并对所有的i 歹 令1 一1 k 甜 1 M 来 计算磊 芗 鼍 毛 誓 一吉荟 o 一吉善矽 一 一击薹1 拥 一万1 善M 蚝1 哪 矿1 互M k k 2 2 4 K k K K 1 肼 1 M k l 肘 i j 这样可以通过矩阵K 来计算霞 求解式 2 2 3 的特征值问题 在式 2 2 0 中 通过归一化特征空间F 中相应的向量矿 来求解 即五 舀 一1 总之 庐可以看作是到高维空间F 中的非线性映射 在这种情况下 并不需要清楚地 知道映射后的具体数值 只需要对输入向量经过非线性驴映射后的点积进行运算 式 2 1 2 和 2 2 1 进行点积运算时 使用的核的形式决定了特征空间F 7 2 3 核主成分的基本思想i 3 1 核主成分是在高维特征空l 开JF 中 图2 2b 做通常的线性主成分分析 图2 1 特征空间是输入空间 通过妒 非线性变换得到的 在主向量上的连续投影的等高线在输 入空问变为非线性的 用箭头表示 在输入空间画不出特征向量的原象 对核主成分来 说 其关键在于不必在特征空间对经过多映射后的数据直接进行计算 所有的计算将通过 输入空间中的核函数来实现 线性主成分分析 P C A k x Y X y J R 2 X 一 I 叉 t 一 之 x r x 芦 一 0t 分 图2 1 核主成分分析 K P C A 例如 k x Y 0 y d 一 一7 II R 2 一 毒 x 一 x X x x 一 X 冀 志 jU 2 4 核主成分的算法 图2 2 JI 蟛 r x x 琴 o x p 一 一 j F 厂 卜 一 b 计算基于核的主成分 又称为核主成分 步骤如下 1 计算矩阵k o 一 石 玎 2 通过将K 对角化求解式 2 1 4 并通过使九 a 一 一1 来归一化特征向量相 对应的系数口 3 提取一个测试点x 的主成分 按照相应的核k 根据下式计算特征向量的映 射 8 州医科人学硕I 学化沦艾 y 驴0 罗口 足 x 霄 如果使用的核满足核函数的条件 相当于在高维的特征空问做经典的主成分分析 将 输入空间中有关数据的主成分的特性引用到特征空间中 需要选择一个特殊的核函数 核主成分分析的在M a t l a b 软件中的实现步骤1 1 7 1 8 l 1 输入数据s 一 工 屯 西 投影后数据维数k 2 计算核矩阵 K 七 七盯一 一 x f i 1 2 z 3 将核矩阵中心化 K K 一 万K 一 蚴 吾 勾 办 其中 是元素全为1 的向量 4 计算核矩阵的特征值和特征向量 A j i e i g K 5 将特征向量q 规范化 舀 q 五 1 2 k 6 数据重建 i t 每 K i 1 2 七 7 输出变换后的数据集 j s 函 2 5 核主成分的特性1 3 4 3 5 l 核主成分 实际上就是在特征空间做普通的主成分 因此 所有有关主成分的数学的 和统计的特性都适用于核主成分 只是在特征空问是对一组输入空间的数据经过庐变换后 的数据爹 鼍 f L M 进行操作 在特征空间F 中 主成分是具有以下特性的正交变换 假定特征向量是按特征值的大小降序排列 各主成分之间不相关 h 茸q q E 1 M 个主成分 也就是在特征向量上的投影 比其它任何正交方向上 的投影所提供的方差贡献率要多 观测数据的前q 个主成分的均方误差最小 前q 个主成分包含了输入空间最大的信息 这一结论是在高斯性的假设之下 并 依赖于数据及所选择的特殊的核得到的 2 6 计算的复杂性 3 8 一个2 5 6 维输入空间的5 次的多项式核可以生成一个1 0 o 维的特征空间 核主成分可 以对这么高维的特征空间进行运算 有两个原因 首先 不需要在整个特征空间F 中寻找 特征向量 而是在观测值屯在特征空间F 中所生成的映射所张成的子空间中进行 其次 当我们使用核函数时 不需要明确地计算特征空间中向量之间的点积运算 事实上 即 使向量在低维度的子空间这一点也不可行 因而与P C A 相比计算量的增加不会太大 对 于特别复杂的问题甚至可以不用计算全部特征值 只需用特别的算法计算最大的一个或两 个特征值即可 9 I I I C t i 医科人学硕I 学化论文 第三章模拟及实例分析 3 1 模拟研究 在m a t l a b 软件中产生8 组正态分布的模拟数据 组成模拟数据集见表3 1 试做主 成分分析 表3 14 9 例模拟数据 编号 X 2 1 0 1 7 4 2 04 6 9 9 0 02 2 1 5 0 2 5 3 4 2 05 9 7 0 1 01 8 9 7 6 01 6 6 4 2 01 6 9 3 0 1 0 1 8 1 7 04 6 8 1 8 02 2 1 3 02 5 5 51 0 5 9 8 4 5 01 8 5 7 7 01 6 2 8 5 01 6 9 0 0 1 0 1 8 6 7 0 4 7 5 8 6 02 2 1 1 02 5 8 9 1 05 9 9 8 9 0 1 8 3 5 2 01 6 0 4 8 01 7 2 9 0 9 4 1 3 0 05 9 3 0 6 0 2 3 2 4 02 7 5 7 0 03 7 2 9 3 04 19 9 0 9 4 0 7 6 05 8 2 1 0 02 3 3 1 0 2 6 7 6 5 03 7 7 6 6 04 3 3 1 0 9 4 0 7 3 05 6 6 7 6 02 3 2 0 02 4 7 2 7 0 3 8 5 3 2 04 4 7 0 0 9 5 5 4 9 05 7 9 1 1 0 2 2 3 6 02 5 4 5 2 04 4 2 5 5 04 9 6 6 0 9 3 3 7 5 06 0 3 6 8 02 3 1 7 0 2 6 3 9 5 03 5 4 3 6 03 6 2 4 0 9 3 8 9 2 0 5 9 8 4 8 02 3 0 3 02 6 11 5 03 5 8 5 4 03 6 4 6 0 9 4 1 6 6 05 9 4 6 5 02 2 9 4 0 2 6 7 3 3 03 6 4 0 0 03 8 0 2 0 9 4 1 9 0 0 5 9 5 5 0 02 3 0 7 02 7 6 6 1 0 3 6 8 3 4 04 0 3 2 0 9 4 1 9 4 0 5 7 2 0 2 02 3 0 6 02 3 8 5 2 03 9 3 2 2 04 4 7 1 0 9 4 5 2 2 05 8 3 6 7 0 2 2 8 3 02 3 7 3 3 04 0 4 3 6 04 4 0 4 0 9 4 9 7 4 05 7 6 0 3 02 2 6 2 0 2 4 4 3 2 04 1 4 8 9 04 4 5 3 0 9 5 2 3 9 0 5 6 4 5 6 02 2 5 5 0 2 4 8 1 3 04 2 3 1 5 04 5 6 9 0 9 5 3 9 0 0 5 6 1 4 6 02 2 5 2 02 4 9 5 1 04 2 8 0 1 0 4 6 6 9 0 9 5 5 4 1 05 6 9 2 1 0 2 2 4 5 02 5 0 7 8 04 3 4 4 1 0 4 8 4 1 0 9 3 0 7 9 0 9 2 7 6 2 0 9 2 7 4 0 0 9 2 7 9 5 0 9 3 5 8 1 0 9 3 9 1 2 0 5 5 0 9 0 0 2 2 4 1 02 9 9 4 5 04 6 5 4 6 0 5 1 8 2 0 5 1 5 1 5 0 2 2 5 2 03 0 0 8 7 04 6 3 3 7 0 5 4 2 3 0 5 2 3 3 0 0 2 2 5 2 03 0 1 2 6 04 6 2 0 0 05 4 6 5 0 5 3 9 7 8 0 2 2 5 1 03 0 0 0 2 04 6 0 6 8 05 4 6 6 0 5 8 3 7 6 02 2 6 7 03 1 2 2 6 04 5 5 8 3 05 4 1 6 0 5 8 8 2 3 02 2 6 6 03 2 4 2 9 0 4 5 5 2 9 05 3 6 1 0 l O 4 4 0 5 0 4 5 6 2 0 4 6 8 3 0 5 0 3 4 0 3 7 7 6 0 3 7 7 5 0 3 9 3 2 0 4 2 0 6 0 4 6 2 9 0 4 5 0 1 0 4 5 2 3 0 4 6 3 8 0 4 7 3 8 0 4 9 0 8 0 5 2 1 8 0 5 4 5 3 0 5 4 9 0 0 5 4 8 1 0 5 3 8 5 0 5 3 1 5 0 2 7 6 6 0 2 8 5 9 0 2 9 5 7 0 2 7 7 1 0 2 9 0 5 0 2 9 5 9 0 2 8 0 7 0 2 7 9 6 0 2 9 1 2 0 2 7 7 1 0 2 5 8 0 0 2 5 8 3 0 2 6 4 0 0 2 7 3 0 0 2 6 5 5 0 2 7 5 8 0 2 5 8 7 0 2 4 1 0 0 2 5 1 3 0 2 4 6 6 0 1 2 3 4 5 6 7 8 9 m n 他 B H 坫 M 擂 侈 加 殂 挖 为 阳医科人学颂l 学似沦文 1 l 在S P S S 软件中做散点图矩阵 见图3 1 从图中可以看出各变量之间不存在线性趋 势 因此采用非线性数据处理方法可能更为恰当 用主成分和核主成分两种方法对数掘进 行处理 并对两种方法处理结果进行比较 l 焉帑笋潞吩 牵沓同 帑 X 2 铲鲈萨麓警警案曲 甚矗矗日B矗矗 橇遴 3 譬毋 蓍誊蘑掣 mnoada 器帮费耄I孽罄露 p 罐眷罐 X 4 蕈 鞋 蓥 霜匈囊 CmDa廿na 嘴嘲 畔 5 飞船 口 口 一 口 X 6 d 删 I 一 鞠糠 嬲衄 i如曩 曩 X 7 廖嗡q 酗潮函臆 鳓辫 岛 登 茸 蒯岛薯嚣 净罐嗡萨紫礁嚆簟翻 X 8 出矗 凸a矗 3 1 1 常见描述分析 图3 1 表3 24 9 例模拟数据的均数和标准差 1 2 医科人学碳I 节付沦文 表3 44 9 例模拟数据相关矩阵的特征值 3 1 3 核主成分分析 使用多项式核函数r x Y 一O O y c d 在m a t l a b 软件中编程 调用K P C A 函数得 结果如下 1 3 I l I 西医科人学硕I 学僦论文 表3 64 9 例模拟数据做多项式核主成分分析所得特征值 s 一1 c 1 d 2 0 结果解释 由表3 4 我们看出 做经典的主成分分析 前五个特征值依次为5 2 4 1 0 1 2 7 6 9 0 6 8 2 5 0 3 2 9 7 0 2 6 1 5 累积贡献率
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年联合创业股权投资合同
- 商业合同范本与注意事项解析
- 兼职写手员工合同5篇
- 拆迁房屋合同书范本一5篇
- 印染技术员工工资合同6篇
- 2025年城镇房地产中介服务合同协议
- 2025年新疆糖料甜菜种植与糖业公司收购合同
- 2025国网山西省电力公司博士后科研工作站招聘1人考前自测高频考点模拟试题附答案详解
- 2025湖南省中南林业科技大学第一批招聘21人模拟试卷及完整答案详解
- 2025年福建省厦门市翔安区实验学校招聘1人模拟试卷附答案详解
- 稳评从业人员培训考试及答案解析
- 2025年甘肃省兰州市榆中县招聘乡村医生考试参考试题及答案解析
- 燃气入户安检课件
- 预防静电安全知识培训课件
- 临时用电专项施工方案(老旧小区改造项目)
- 2025党校中青班入学考试试题及答案
- 2025年中国咖啡饮料行业市场深度分析及发展战略规划报告
- 小学生科普课件向日葵
- 铁路工务介入管理办法
- 25年一建建筑实务真题及答案
- 烈士陵园介绍课件
评论
0/150
提交评论