(计算机应用技术专业论文)一种基于张量场的数据约简方法及应用研究.pdf_第1页
(计算机应用技术专业论文)一种基于张量场的数据约简方法及应用研究.pdf_第2页
(计算机应用技术专业论文)一种基于张量场的数据约简方法及应用研究.pdf_第3页
(计算机应用技术专业论文)一种基于张量场的数据约简方法及应用研究.pdf_第4页
(计算机应用技术专业论文)一种基于张量场的数据约简方法及应用研究.pdf_第5页
已阅读5页,还剩57页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

一种基于张量场的数据约简方法及应用研究中文摘要 一种基于张量场的数据约简方法及应用研究木 中文摘要 当今对图像、视频、药物分子、文本、空间数据、基因等数据的高阶高维信息规 律进行分析是目前机器学习、数据挖掘等领域迫切需要解决的问题之一。相对传统的 向量化的数据分析方法,张量方法为数据描述提供了一种更加自然的描述形式,同时 张量场方法也为研究数据全局与局部关系提供了可行的数学方法。本文针对高阶高维 的数据对象进行研究,主要内容包括: ( 1 ) 结合张量场的相关理论和现有的张量分解技术,给出了张量场的数据约简模型、 基于张量丛的学习模型和张量场的数据集分类模型; ( 2 ) 结合模式识别给出了基于张量丛学习模型的算法设计,针对数据分类任务给出了 基于张量场数据分类算法; ( 3 ) 通过应用实例,验证了算法的有效性。 关键字:张量场,数据约简,数据分类,机器学习 本文研究得到国家自然科学基金资助( 6 0 7 7 5 0 4 5 ) 作者:李祥亮 指导老n - 李凡长( 教授) a b s t r a c t r e s e a r c ha n da p p l i c a t i o no nad a t ar e d u c t i o nm e t h o db a s e do nt e n s o rf i e l d r e s e a r c ha n d a p p l i c a t i o no nad a t ar e d u c t i o nm e t h o d b a s e do nt e n s o rf i e l d a b s t r a c t i t i sa ne x i g e n td e m a n dt oa n a l y z et h el a wo fh i g h - - o r d e ra n dh i g h - d i m e n s i o n a l i n f o r m a t i o nr e f e rt oi m a g e s ,v i d e o s ,d r u gm o l e c u l e s ,t e x t ,s p a t i a ld a t aa n dg e n e si nm a c h i n e l e a m i n ga n dd a t am i n i n g r e l a t i v et ot r a d i t i o n a lm e t h o d sv e c t o r i z i n gd a t a , t e n s o rm e t h o d s p r o v i d e am o r en a t u r a ld e s c r i p t i o nf o rd a t aa n dt e n s o rf i e l dp r o v i d e sav i a b l em a t h e m a t i c a l m e a s u r et os t u d yt h e g l o b a l a n dl o c a l r e l a t i o n s h i po fd a t as e t s t h eh i g h - o r d e ra n d h i g h d i m e n s i o n a ld a t aa r es t u d i e di nt h i sp a p e r t h em a i nr e s e a r c hr e s u l t sa r ec o n c l u d e da s f o l l o w s : ( 1 ) i n t r o d u c t i o no fc o n c e p t si n c l u d i n gm u l t i - l i n e a ra l g e b r a , t e n s o rs p a c e ,t e n s o rf i e l da n d t e n s o rb u n d l e ; ( 2 ) d a t ar e d u c t i o nm o d e lb a s e do nt e n s o rf i e l d ,m a c h i n el e a r n i n gm o d e lb a s e do nt e n s o r b u n d l ea n dd a t as e t sc l a s s i f i c a t i o nm o d e lb a s e do nt e n s o rf i e l da r eg i v e n ,a l lo fw h i c h m a k eu s eo ft h ee x i s t i n gt e n s o rd e c o m p o s i t i o n t e c h n i q u e ( 3 ) t h ea l g o r i t h mo ft e n s o rb u n d l e 谢t l lr e f e r e n c et op a t t e mr e c o g n i t i o na n dt h ea l g o r i t h m o fd a t as e t sc l a s s i f i c a t i o nb a s e do nt e n s o rf i e l di si m p l e m e n t e d ( 4 ) e x a m p l e sf o rp r o p o s e dm o d e l sa n da l g o r i t h m sa r eg i v e n k e yw o r d s :t e n s o rf i e l d ,d a t ar e d u c t i o n ,d a t ac l a s s i f i c a t i o n ,m a c h i n el e a m i n g w r i t t e nb y s u p e r v i s e db y s u p p o r t e db yn a t i o n a ln a t u r a ls c i e n c ef o u n d a t i o no f ei lc h i n a ( 6 0 7 7 5 0 4 5 ) l i l ix i a n g l i a n g l if a n z h a n g 苏州大学学位论文独创性声明及使用授权的声明 学位论文独创性声明 本人郑重声明:所提交的学位论文是本人在导师的指导下,独立进 行研究工作所取得的成果。除文中已经注明引用的内容外,本论文不含 其他个人或集体已经发表或撰写过的研究成果,也不含为获得苏州大学 或其它教育机构的学位证书而使用过的材料。对本文的研究作出重要贡 献的个人和集体,均已在文中以明确方式标明。本人承担本声明的法律 责任。 研究生签名: 雒日期:舭 学位论文使用授权声明 苏州大学、中国科学技术信息研究所、国家图书馆、清华大学论文 合作部、中国社科院文献信息情报中心有权保留本人所送交学位论文的 复印件和电子文档,可以采用影印、缩印或其他复制手段保存论文。本 人电子文档的内容和纸质论文的内容相一致。除在保密期内的保密论文 外,允许论文被查阅和借阅,可以公布( 包括刊登) 论文的全部或部分 内容。论文的公布( 包括刊登) 授权苏州大学学位办办理。 研究生签名:垄叠塾日期: 导师 一种基于张量场的数据约简方法及应用研究第一章绪论 1 1 数据约简方法介绍 第一章绪论 数据约简是机器学习等领域的核心内容之一n 2 3 ,其目的是在尽可能不损失数据信 息的基础上对大型数据集进行约简,以达到可以在较小数据集进行数据分析的目的。 在维数约简方法方面主要可以分为线性维数约简和非线维数约简。线性降维方法 一般做法是将数据x 表示成高维向量,然后通过线性变换u 得到低维表示z b 制,如 图1 1 ,设x r ,z r ”,存在变换z = u7 x 。经典的算法有p c a ,l d a ,i c a , n m f 等,下面就相关的算法进行介绍。 图1 - 1 线性维数约简示意图 1 ) 主成分分析( p r i n c i p a lc o m p o n e n ta n a l y s i s ,p c a ) p c a 碡3 又称k l 变换,其目的是设计一种变换,以便将数据集转化为由维数较少的 “有效 特征成分来表示,而不减少原始数据所包含的内在信息内容,并使其在最小均 方误差下达到维数压缩的目的,如图1 2 ( a ) 。 设置r ”( f = 1 ,聊) 是集合x 的m 个样本,样本均值记为i ,则样本的协方差矩阵c 可表示为 c = 三( x ,一习( x ,一i ) r ( 1 1 1 ) m 智一 一 、7 第一章绪论一种基于张量场的数据约简方法及应用研究 令矩阵p = 【p l ,p 2 ,p 。 ,其d p p l ,p 2 ,p i l 是协方差矩阵的特征向量,被称为主成分 轴,或k l 变换轴。定义x = 【x l ,x 2 ,x m 】r n x m 是由样本向量组成的矩阵,y = 【y l , y 2 ,y m r r m 是由重建向量组成的矩阵,若要求集合x 中的样本向量变换后的维 数为r 维,则需选用与前r 个最大特征值对应的特征向量p l ,p 2 ,p ,作为变换轴,其变 换后得到的集合y 中的重建向量是集合x 中的样本向量的r 维最小均方误差重建向量。 其中, y = 牟x ,p ,= p l ,p 2 ,p ,】j r “7 ( 1 1 2 ) 因此,主成分分析方法是一种最小均方误差下的最优维数压缩方法,常用于降低数据 集维数,同时保持数据集上对方差贡献最大的特征。 0 影 : 荔主。毫 厶彰 -_ 薹:t z : - o “。 t , ( a ) p c a ( b ) l d a ( c ) i c a 图i - 2p c a 、l d a 、i c a 降维示意图 2 ) 线性判别分析( l i n e a rd i s c r i m i n a n ta n a l y s i s ,l d a ) l d a h l 是一种用于判断样本所属类别的统计分析方法,其基本思想是:首先通过 找出特征向量w ,将k 类数据投影到另一个更低维的方向,使投影后类间尽可能地分 开,而类内的关系更加密切,然后在新空间中对样本进行分类,如图l 一2 ( b ) 。 在给定的训练样本中,平均类内散度矩阵s w 和平均类间散度矩阵s b 可分别定义为 cc j s 。= s w = ( y ? - h ,) ( y ? - , u j ) 川 ? 。1 ( 1 1 3 ) cc s 。= = ( 纷一。) ( ,- , u 。) j = l= l 2 一种基于张量场的数据约简方法及应用研究 第一章绪论 式中,矿瓦1 善jy 触靳类样本均值,舻专喜蛎莉类中脚个样本。为使投 影之后类间散度更大,各类的类内散度更小,l d a 特征选择确定了最佳的矩阵w e ,使 得下列准则函数j l d a 最大。 = 驴 ( 眈s w 睨) 。1 ( 唉& 睨) 】 ( 1 1 4 ) 3 ) 独立分量分析( i n d e p e n d e n tc o m p o n e n ta n a l y s i s ,i c a ) i c a 是近年来发展起来的一种信号分解技术。该方法以非高斯源信号为研究对象, 在它们统计独立的假设下,对多路观测到的混合信号进行盲分离,从而较完好地分离 出隐含在混合信号中的独立信号源信号,如图1 2 ( c ) 。 假定从n 个通道获得n 个观测信号,( i - 1 , 2 ,n ) ,其中每个观测信号都是m 个相 互独立的源信号s j ( j = 1 ,2 ,m ) 的线性混合,即 卅 z = 口 ,s ,或z = a s ( 1 1 5 ) j = l 其中,f = f l ,龟,矗】1 是观测信号向量,s = s l ,s 2 ,s m 1 是源信号向量,a 是未知 的nx m 维的混合矩阵。i c a 的目的是找到一个对越行线性变换的矩阵w ,使得f 经变 换后得到的新向量;= wf = w a s 为源信号的估计。 基于上述的i c a 模型,i c a 的核心问题是求解分离矩阵w 。目前常用的i c a 模型估 计方法有:信息最大化( i n f o r m a x ) 法、互信息最小( 负熵最大化) 法、极大似然估计法等。 4 ) 非负矩阵分解算法( n o n - n e g a t i v em a t r i xf a t o r i z a t i o n ,n m f ) l e e 和s e u n g 于1 9 9 9 年在n a t u r e 上发表了非负矩阵分解算法畸1 ,该算法是在矩阵 中所有元素均为非负的条件下对其实现非负分解。从计算的角度来看,矩阵分解的结 果中可以存在负值,但负值元素在实际问题中往往缺失物理意义。非负矩阵分解方法 则提供了一种新的矩阵分解思路,由于其分解算法实现简便,分解的结果中不出现负 值,而且具有可解释性和明确的物理意义,以及占用存储空间少等优点,已经引起许 多科学家和研究人员的广泛重视。通过学习得到的基向量中含有关于物体的局部特征 的信息。与传统的p c a 相比,非负矩阵分解的结果合乎大脑感知的直观体验,并具有 明确的物理含义。 非负矩阵分解是一种多变量分析方法。假设处理m 个n 维空间的样本数据,用x 。 第一章绪论 一种基于张量场的数据约简方法及应用研究 。表示。该数据矩阵中各个元素都是非负的,表示为x 0 。对矩阵x 。进行线性分解, 有 x 。b 。,c , ( 1 1 6 ) 其中b 。x 。称为基矩阵,c m 为系数矩阵。若选择r 比n 小,用系数矩阵代替原数据矩 阵,就可以实现对原数据矩阵的降维,得到数据特征的降维矩阵,从而减少存储空间, 节约计算资源。 上述这些典型的降维方法在各自领域中都取得了很好的效果,成为人们处理数据 的有力工具。存在的问题是维数过高时计算量过大,其次是对噪音比较敏感。 1 2 基于张量方法的数据约简研究 现实应用中面临许多数据,不仅是高维的,而且是多路的,面对这类问题,除了 传统的数据降维方法外,基于多重线性代数( 张量) 的方法作为一种新的数据降维的方 法,开始引起研究者的关注订。10 1 。张量是多重线性代数中的一个术语,它是向量概念 的一般化,一个向量数据结构就是一个一阶张量数据结构。高阶张量是对于描述高阶 多路数据显得更加自然,张量方法为多路多因数问题提供了一种有效的方法。 目前基于张量的方法已经开始被应用于模式识别n 卜1 4 1 、w e b 数据挖掘n 明、文本分 析嫡j 6 3 和信号处理等领域。张量方法在信息处理还处于起步阶段,但已有一些应用在 数据约简和数据挖掘中的方法,下面简单介绍一些当前比较流行的与张量相关的几个 算法。 1 2 1g l r a m g l u m ( g e n e r a liz e dl o wr a n ka p p r o x i m a ti o n ) n 铂算法针对这样一个问题模型: 给定一个i j 的矩阵集 k ,如一组图像,通过同一个矩阵投影,得到一组低维的同 构矩阵表示。相对于p c a 算法将图像向量化的做法,g l r a m 保持了图像的矩阵形式本 质属性,其核心思想是找到一系列的核矩阵m r “,i = 1 ,n 以及两个投影矩阵 l r ,r r 以屹,l ,r 列向量正交,以得到下式的最优化: 4 一种基于张量场的数据约简方法及应用研究 第一章绪论 三。月,m 。,i n :,y ; i i m 一一l m ir r | i ; ( 1 2 1 ) r e x ,2 r 7 月:, 一1 庇e 只q ”,f - 1 ,n 该式求解方法是采用迭代计算法,式1 2 1 等同于最大化式1 2 2 , 矽= ,i ie m 。r 临 ( 1 2 2 ) 通过一个迭代的过程求出l ,r ,即令r 固定并最小化矽而求得l ,接着令l 固定并最 小化矽而求得r ,算法开始先给予r 一个初值,构造矩阵 q 三m , r r7 1 群 ( 1 2 3 ) l = l 其r 1 个最大特征值所对应的特征向量构成了新的= h , ,然后通过互换l 和r 的角色求得新的r ,这样的迭代过程持续到l 、r 最终趋于稳定时结束。于是核 矩阵m 。可通过m = i f m , r 求得,则m ,三詹,r7 为m ,的近似表示。g l r a m 其实是 2 d - p c a 的扩展,如果把m 。看成是张量数据的话,g l r a i v l 是可视为2 阶张量数据约简 算法的原型,在向更高阶的张量形式扩展时需要借助张量分解技术。 h 0 0 1 ( h i g h e ro r d e ro r t h o g o n a li t e r a t i o n ) 算法n 印是一种主要针对三阶张量数 据进行近似的数据约简算法。设一个n 阶张量a r 小印“村,k o 为给定的满足 k n i 。( n = l n ) 的n 个实数,h 0 0 i 算法可以求出一个高阶张量的低维表示,即找到n 个各自列向量正交的投影矩阵u ( ”) r 1 x 岛和核张量s 尺k 斌:”“,以满足下式, m i 。i la s x lu 1 2u 2 u 帖u r u = 1 ( 1 2 4 ) u o ) u ( 2 ) ,i s “ 12。, 为简单化,h 0 0 i 算法只考虑t 3 阶张量的情况,求解式( 1 2 4 ) 的方法与g l a r m 类 似,即在算法的每一次迭代中,固定其中两个投影矩阵来求解第三个投影矩阵n 钔。 h o o f 算法如下: 第一章绪论一种基于张量场的数据约简方法及应用研究 输入:,j k 张量a ,约简维数k 。,k 。,k 。 输出:l r7 l 。x l ,r r 如。x :,r r l , 。x 3 ,s 步骤: ( 1 ) 选择r 、v 的初始值,使得r 、v 有正交的列向量 ( 2 ) d o : c = a x 2r r 3v 7 三= s v d ( k 1 ,c ( 1 ) ) d = 彳lr 3v 7 r = s v d ( k 2 ,d ( 2 ) ) 占= 彳l 2r r v = s v d ( k 3 ,& 3 ) ) u n t i l 收敛 ( 3 ) 计算s = s 3v 7 1 其中u = s v d ( k , ,c ( 表示对c 的k - m o d e 展开进行奇异值分解,取k i 个c ( i ) 的最 大奇异值对应的特征向量组成u 。当算法最终收敛时就得到了三个矩阵投影矩阵l ,r , v ,因为r l i ,r 2 j ,r 3 k ,从而达到了维数约简的目的。 1 2 32 d p c a 相对与经典的p c a 算法,2 d p c a 算法啪3 是矩阵形式的主成分分析方法。 设x 表示1 3 维单位化的列向量,2 d p c a 的思想是将m xn 的矩阵a 通过线性变换y = a x 直接投影到x 上,得到一个矩阵a 的投影特征向量y 。设c 个模式类:岱。,:, c ,每类有训练样本矩阵n t 个:a - ,a :,a i ( m = 刀,) 为训练样本总数,每个样本 i = l 是m xn 矩阵。模式的类间散布矩阵为: 6 一种基于张量场的数据约简方法及应用研究第一章绪论 1 m g 2 玄善( 4 一万) ( 4 一j ) r ( 1 2 5 ) 其中:万2 玄善4 为训练模式总体的均值矩阵,定义准则函数 j ( x ) = x 7 g x( 1 2 6 ) 最大化该准则函数,其单位向量x 称为最优投影向量。其物理意义是矩阵在x 方向上投 影后所得特征向量的总体分散程度最大。事实上,该最优投影向量即为矩阵总体散布 矩阵g 的最大特征值所对应的单位特征向量心。 1 2 4c u b e s v d c u b e s v d 算法n 朝是高阶奇异值分解h o s v d 乜2 1 的一个应用,是一种使用张量对高 阶异构数据进行建模算法,比如在w e b 数据挖掘中,为了发现用户,查询词和网页 之间的隐含关系,建立如图1 3 所示的张量模型。 网 图1 3 用户、查询词、网页 c u b e s v d 算法对描述用户,关键词和网页之间的关系的张量进行高阶奇异值分 解。张量a r 7 :。1 3 的高阶奇异值分解为 a = s x lk 圪巧( 1 2 7 ) 其中k = ( v 。n ,v 2 n ,v ,) ,江1 , 2 ,3 ,分别是对应于行、列、层三个方向的正交奇 异向量组,s 是核张量,一般而言,s 中几乎所有元素都是非零的。如果只保留s 中 行列层三个方向里的前k l ,k 2 ,k 3 维,那么张量a 可以被一个重建的张量a ( k l ,k 2 ,l 【3 1 来近似。 7 第一章绪论一种基于张量场的数据约简方法及应用研究 4 :南) = s ( 铀1 ”嗜臂 ( 1 2 8 ) 这样在重建后的三阶张量中就获得了大量原始数据未显示的隐含信息乜3 1 。 1 2 5t s a t s a ( t e n s o rs u b s p a c ea n a l y s i s ) 阳3 主要针对图像数据给出了二阶张量子空间的 线性维数约筒算法。它将每个图像视为r 1 r - 2 中的二阶张量,r “,r 恐为两个向量 空间。其问题模型可以描述如下:设m 是嵌入r mo r 啦中的子流形,x 。,是m 上的 一个数据集,找到两个转换矩阵u 和v ,大小分别为n 。1 。和n :12 将数据集中的点映射 成y 。,y - r t , or t 2 ( 1 。 n ,l : n 。) ,y ,与x ,的转换关系为y ,= u t x ,v 。t s a 很自然的描述图像的列向量空间和行向量空间之间的关系,并通过学习一个低维的张 量空间来检测出张量空间中内在的几何结构。 在以上的这些算法中,g l r a m 是一种矩阵近似算法,可看作二阶张量形式的近似, 而h o o f 则是三阶张量的近似算法。二维主成分分析2 d p c a 是p c a 在矩阵形式下一个延 伸,它用二维矩阵直接表示图像。张量子空间分析( t s a ) 用张量的表示方法在致密黎 曼流形上对l a p l a c i a nb e l t r a m i 算子进行了线性近似,它致力于保持流形的局部结 构。本文所提出的张量场数据约简模型是在这些算法和高阶奇异值分解h o s v d 的基础 上提出来的,h o s v d 将在下一章中重点介绍。 1 3 问题提出 张量场是一个物理学和几何学上很普通的概念,广泛应用于微分几何、流形理论、 代数几何、广义相对论和材料的应力和应变的分析中 2 4 - 2 6 在物理科学和工程的无数 应用中发挥着重要的作用,例如曲率张量用在微分几何中,应力能张量用在物理和工 程分析上,这两者都与爱因斯坦的广义相对论理论相关。向量场可以视为从点到点变 化的向量,而张量场是向量场的一般化。工程上很多流形通常是欧氏三维空间张量场 赋予流形的任意给定点一个空间矿o ov y 0 0v 中的张量。 目前张量场在信息技术领域研究得相对较多的是在医学成像上的扩散张量磁共 8 一种基于张盘场的数据约简方挂及应用研究第一章绪论 振成像( d i f f u s i o nt e n s o rm a g n e t i cr e s o n a n c ei m a g i n g ,d t - m r i ,d t i ) “喇3 。d t i 图像数据不同于传统的灰度和彩色医学图像,它是已知复杂的扩散张量数据场,基三 维数据空间中每一个体素数据为一个对称正定的二阶张量。此外,张量场分析方法还 应用于基于局部结构张量的图像结构分析和电磁学上材料的压力和应力分析中 3 ,无论何种应用,在获取张量场的过程中都需要进行一些规则化或过滤处理以减 少噪音。由于数学上张量是一个与多向量空间相关的线性函数,其高阶性复杂性使其 不易被理解,为此叉引发了部分学者对张量场可视化工作的研究“州3 ,如图卜4 。 圉l - 4 张量场的可视化研究 综上所述,张量场在许多领域都已经有了一些比较好的应用,但由于张量场数据 具备高阶高维的特性,将张量场理论应用于计算机信息处理领域尚处于初步的探索阶 段,还有许多需要进一步解决和深入研究的问题。本文充分利用张量的特点,结合张 量的分解技术和张量场理论工具,建立张量场学习模型,提出基于张量场的数据约简 算法,为机器学习应用提供范例。 1 4 内容安排 本文研究目标是针对数据约简问题给出基于张量场的的学习模型及算法。 本文的研究内容分为六章。 第一章绪论主要介绍了数据约简方法研究现状及张量场学习相关的研究背景 第二章给出基于张量场的数据约简模型及其算法,并给出了实例验证。 第三章介绍两个基于张量场的学习模型及算法设计。 第四章是应用实例。 第五章为总结与展望。 第二章基于张量场的数据约简模型一种基于张量场的数据约简方法及应用研究 第二章基于张量场的数据约简模型 结合张量场的相关理论知识,本章将探讨基于张量场的数据约简模型及算法。第 一节给出流形上张量场的概念,第二节给出张量场的数据约简模型,讨论数据在张量 场理论下约简形式。第三节给出了基于张量场数据约简算法的设计过程,并在第四节 中给出了实例验证。 探讨数据在张量场形式下的约简方法,需要找到数据在张量场下的描述形式,为 此本文从流形的角度出发,分析张量场的形式化表达。 2 1 流形上的张量场 当代张量场思想的数学表达把张量场分为两步,首先有向量丛的想法,实际上就 是依赖于参数的向量空间,参数是一个流形;其次是张量丛的引入,因为张量积概念 和任何基的选择无关;通常的做法是将流形m 上的两个向量丛做乘积得到张量丛,进而 张量的无分量处理机制得以照搬过来,而且也是坐标无关的;最后与向量场定义类似, 张量场的一个定义就是作为某个张量丛的一个截面乜 2 5 3 制。 对于数据约简分析中要处理的数据对象,为了利用张量场的处理的方法,本文将 其抽象为张量空间中的元素,即若干向量空间的张量积的结果。张量空间有如下定义: 定义2 1 1 设v 1 ,v 2 和w 为给定的向量空间,如果存在一个向量空间w 和一 个双线性映射圆:k 砭一w ,使得 ( i ) w = - , ( i i ) 对于任意的向量空间z 和双线性映射f :k 心寸z ,都存在线性映射 g :w 专z ,使得f = g 。0 ,即有交换图2 1 ,那么w 称为由v l ,v 2 张量积生成的 张量空间。 1 0 种基于张量场的数据约简方法及应用研究第二章基于张量场的数据约简模型 圆 , z 图2 1 设m 是一个n 维微分流形( c ”流形) ,以f ( m ) 表示m 上可微函数的集合,自然 可以视f ( m ) 为实数域上的结合代数。 以d 1 ( m ) 表示m 的所有可微向量场的集合。也就是说,v x d 1 ( m ) 是f ( m ) 的一个 变换,而且满足下列两个条件: x ( ( z fq - f i g ) = a x ( f ) + f i x ( g ) ,v o t ,r ;f ,g f ( 聊) x ( f g ) = f x ( g ) + g x ( f ) , 即x 是f ( m ) 的导子。d 1 ( m ) 中可定义加法,也可定义d 1 ( m ) 与实数域r 中元素的乘 积。d 1 ( m ) 成为r 上线性空间。 从几何的观点来看,如果以m 。表示m 在p 点的切空间,那么d 1 ( m ) 中元素x 在p 点的值x ,就是m 在p 点的一个切向量,即x p m p 。在流形m 中取好坐标系之后,d 1 ( m ) 中元素可以用坐标的解析式来表达。当然,d 。( m ) 中元素也可以用坐标的解析式来表 达。 定义2 1 2 设y ( t ) 是流形m 在点y ( t ) 处的一个切向量,即y ( t ) t ,( t ) ( m ) 。如果 y ( t ) 可微地依赖于t ,则称y ( t ) 为定义在丫( t ) 上的向量场。 设m 为m 维c 。流形,p e m ,t p ( m ) 为i l l 在p 点的切空间。以譬,( m ) 表示向量空间 t ,( m ) 上的( r ,s ) 型张量空间,并令 巧( m ) = u ( m ) ( 2 1 1 ) 则川x 1 ,为m 的任一个坐标图,则 ( 乱b 渤) 肌的一组自然基, ( 出) p ,1 i 聊 为t ,( m ) 上的对偶基。于是p 巧p ( m ) 可表示为 第二章基于张量场的数据约简模型 一种基于张量场的数据约简方法及应用研究 卟咏奠( 去) p 。 ( 軎) ,。c 吮。圆c 帆 亿坨, 记 u = p t 跏r ( m ) ip u ) , 且定义映射万:疗一伊( u ) r 肼”, ph ( x ( p ) i i - i r ,) ,1 i ,f 1 ,i ,五,工sm ( 2 1 3 ) 对于任意的开集彳c 妒( u ) ,bc r ”,定义 一( axb ) c 巧( m ) , 为巧( m ) 的开子集。此外,自然地有映射 万:巧( m ) 专m ,ph p ( 2 1 4 ) 定理2 1 1设m 为m 维c k 流形,则在巧( m ) 上存在一个拓扑,使得对于m 的每 一个坐标图( u ,p ) ,疗= 万一1 ( u ) 为巧( m ) 的开集,多:疗寸9 ( u ) xr ”为同胚,且坐 标图册 ( 疗,痧) 决定了巧( m ) 上的一个c k - , 微分结构,使得巧( m ) 为m + m ”维c k - i 微分 流形。 ( 巧( m ) ,7 1 ,m ) 称为m 上( r ,s ) 型张量丛,巧( m ) 称为全空间,m 为底空间,万 为投影,巧( m ) 称为纤维,有时也简单地称巧( m ) 为m 上( s ,r ) 型张量丛。 特别,人,巧( m ) 是巧( m ) 上的r 阶反称共变张量空间,再令 k t + ( m ) = u 人,巧( m ) ( 2 1 5 ) 则它有一个自然的c h 微分结构,使之成为聊+ ( 了 维c 卜1 流形。人,丁( m ) 称为m 上r 次外微分形式丛,或简称r 次形式丛。 现可推广向量场的概念如下: 定义2 1 3c “流形m 上的一个( r ,s ) 型张量场是一个映射:m 专巧( m ) , 使得万。= i 。这里i 表示恒同映射,即:ph p k p ( m ) 。一个( r ,s ) 型张量场 一种基于张量场的数据约简方法及应用研究第二章基于张量场的数据约简模型 也称为m 上( r ,s ) 型张量丛巧( m ) 的一个截面。一个张量场是m 上的无限可微分张 量场的( m ,n ) 型张量丛的截面集的一个元素。 设( u ,缈:x 1 ) 是m 的一个坐标图,( r ,s ) 型张量场局部地可以表示成 ( 班咋i l j 弘e j c ) 砉 一圆嘉p 别殴一。彬 ( 2 1 6 ) 如果每一个坐标图上,:& ( x ) 均为c 。的,1 f ,f 1 ,五,上肌,则称为 c “张量场,显见,的c “性质与局部坐标系的选择无关。此外,的分量在不同坐 标系x 1 和x _ 中的变换公式为 譬奠p 叫:瓮( x ) 筹筹筹筹 ( 2 ) m 上光滑的( r ,s ) 型张量构成的集合记作f ( m ) 。 2 2 基于张量场的约简模型 在许多具体问题中,描述问题的实际数据是容易得到的,但是隐藏在数据中的内 在信息或知识却不容易直接获得,因此需要对数据进行分析或分类以提取有效信息。 像图像这样的样例,包含从纹理到抽象语义的多个概念层次,但通常都是用高维空间 中的点表示的,这就使得计算机不能有效地提取出样例中蕴涵的大量有用信息。事实 上,图像可以看作是行向量与列向量张量积,即一幅灰度图属于张量空间尺n 圆r “, 换言之,图像空间通常是嵌入在r n 圆r 也中的子流形n ,如图2 2 。 老 图2 2 灰度图的张量空间r 仇 r b 第二章基于张量场的数据约简模型一种基于张量场的数据约简方法及应用研究 根据文献 3 5 ,用张量描述的数据对象,不应随使用的坐标系而有所变化,但任 何张量都是一定数目的分类的有序组合,相对于不同的坐标系,同一张量的分量可以 不同,但该张量所描述的客观数据却是同一个实体。那么张量场数据在不同的坐标系 中必然存在着一定的关系,据此可以分析张量场的数据约简模型。 设x 是输入数据集,为要处理的数据对象,首先抽象出数据的张量特性,得到数 据集x 存在于某个坐标系的张量场函数o ( x ) 表达方式。为得到数据的约简形式,需 要找到张量场o ( x ) 的另一个坐标系的张量场。( x ) 表达式,即需要得到一个仿射变 换厂,在仿射变换下( x ) 有( x ) 的形式。这里给出张量场的数据约简模型 : x :输入数据集x = x l ,x n ) ; :张量场,由输入数据集生成; f :张量场仿射变换函数; :张量场的约简形式; y :由y 可以从数据集x 抽象出张量场,少:x - - - ) ; x 是需要处理的原始数据对象,如在2 4 小节中的图像集。这里表示由原始数 据抽象出张量场模型的方法,通过沙得到原始数据的张量场表达形式,如将图像视为 张量空间尺”,o r “:中的元素,则每个数据对象x i 在张量场中对应着一个张量元素 a i 。而是经过约简处理后张量场,约简处理的过程通过张量场仿射变换函数厂完 成,其具体实现形式将在下一节中讨论。这里首先引入张量场函数的概念。 定义2 2 1 若空间某个域内每点( 矢径为,) 定义有同型的张量 丁( ,- ) = 巧? g g ,g g ( 2 2 1 ) 则称t ( r ) 为该域内的张量场函数。 1 4 一种基于张量场的数据约简方法及应用研究第二章基于张量场的数据约简模型 y 1 图2 - 3 每一点处定义的张量,其分量在该点的局部基矢量上就地分解 本文讨论的张量场函数不仅局限于直线坐标系,而是将问题的讨论延伸至任意曲 线坐标系当中,如图2 - 3 。此时,由于矢径r 不是坐标x 1 ,x 2 ,x 3 的线性函数,协变 基矢量g ,= 要以及与其对偶的逆变基矢量将是随点变化的局部基矢量。对于场函数 定义域内每一点处定义的张量,其分量应在该点的局部基矢量上就地分解:从而,即 使是常张量,在不同的点对当地的基矢量分解,也将得到不同的分量,故张量分量 z f z 。总是点位置如r ( x 1 ,x 2 ,x 3 ) 的函数。 定义2 2 2 在n 维欧氏空间中,一个曲线坐标系( x 1 ) 可能变换到新的曲线坐标 系( x r ) x 。= f ( x 1x 2 ,x ”) ( 2 2 2 ) 仿射标架的变换公式郇= 等q 。 o 譬 由此可见,张量场的分量表达在不同的坐标系下是不同的,在模型 中,数据约简的方法就是找到一个合适的仿射变换厂,求得在厂 作用下的一个低维空间下的张量场的分量表达形式。由于张量的不变性,厂是可逆的。 图2 4 是一个二阶张量场的可视化图m 1 ,描述了不同曲线坐标系下张量场的不同形式。 里三里至些星垫堕墼塑垫笪塑型 二壁薹王壅量鱼塑墼堡丝堕直垫垦堕里叠塞 图2 - 4 不同曲线坐标系下张量场的不同形式 2 3 基于张量场的数据约简算法设计 为求得在,作用下的一个低维空间下的张量场的分量表达形式,亦即得到数据对 象在多重线性子空间中一个约简表示,这里将仿射变换_ r 的求解将借助高阶奇异值分 解技术h o s v d 。h 0 $ v d 是一种比较常用的张量分解方法,它使得一个张量可以表达成 若干矩阵与核张量的张量积形式。 2 3 1h 0 $ v d 分解技术 定义2 3 1 张量n - m o d e 积张量x 且”p4 , v m 和矩阵u r 肌的n m o d e 积 x x d u 是一个m ”虬一l n x 州心张量: 皤。u ) 。= ( x 。) ( 2 31 ) 0 定义2 3 2 n m o d e 展开张量爿冉肛”的模n 展开4 m = 五“k 。 是一个 矩阵其元素q ,。行坐标为,列坐标为 q m t ) i o 。:l m in i 一l 。 + u m 一m i 州i n i l l l i + ( 一1 ) l l + ( 一1 ) l + l 一- + ( k 一1 ) 1 3 1 4 一l + + 一。 一种基于张量场的数据约简方法及应用研究 第二章基于张量场的数据约简模型 够叽粤1 3 够叭:嘻 廖叭,窜 图2 - 5 一个三阶张量的三个n m o d e 展开示意图 定义2 3 3n m o d e 向量张量a r ”灯中通过变化其中的第i n 阶坐标,而其 它各阶保持不变,将得到维数为i n 的共1 1 i n 1 i n + 1 i n 个n m o d e 向量。 n m o d e 向量与n m o d e 展开a 。) 的关系是张量a 的n - m o d e 向量就是a 。) 的列向 量。 h o s v d 使得每个张量a r 小蚶都可以写成如下n m o d e 积的形式: a = s x lu 1 2u 2 u ) ( 2 3 2 ) 其中: ( 1 ) u ( 月) = ( “? 磋“盖) ,包含相互正交的向量,称为n m o d e 奇异向量u ”r 7 。厶为 一。矩阵。 ( 2 ) s r 枷村 ,称为核张量,其子张量& :。表示将第n 个下标固定为a 而得到的 子张量。子张量有两个性质: a ) 全正交性质,即对于任意口,口,有 s 。口,s 。:声) = 0 。 b ) 有序性,即| i & 司恻i 墨:忙剖s h 忙0 第二章基于张量场的数据约简模型一种基于张量场的数据约简方法及应用研究 5 图2 - 6 一个三阶张量的分解示意图 张量的有序性晗2 3 意味着,直观上,核张量的能量集中于( 1 ,1 ,1 ,) 一端,基于 这一点可对张量数据进行逼近处理。下式中用a 逼近张量a : a = s x lu 1 ) 2u 2 、u ) a = j s lu 1 2u 舶j vu ( 2 3 3 ) 其中彳,s r ”“几,a ,s r k l ”。h ,u ( ”r 1 。要衡量么对彳的逼近的程度 可以考察a 中被舍去的n - m o d e 奇异值情况 2 2 ,性质1 0 。 2 3 2 算法设计 根据h o s v d 的分解方法可以找到 中厂的实现形式。 设张量彳,r ”“,s r 局”“h ( 扛1 m ) ,分别属于仿射变换前后的张量场和 ,满足 s = 厂( 4 ) = 4 lu 1 x 2u u m ( 2 3 4 ) 其中u ”r 7 一,其中u ”( u ”) 7 = l ,u ”是厂的变换矩阵。因为 k ,。,2 = l ,因而是的约简形式。可通过f ( o ) 近似表达,即 o f ( o ) ( 2 3 5 ) 具体地我们要解决这样的最优化问题: u f i m ) i u n l i4 一s x 1 ( u 1 ) r 2 ( u 2 ) r ( u ) r 畦 ( 2 3 6 ) s 、s n 通过考察文献 2 8 可以推导出最小化式( 2 3 6 ) 等价于最大化下式: 帆m a x ,川4x 1u 0 ) - - x | ,u 睡 ( 2 3 7 ) 皿 印够 印 彰 一种基于张量场的数据约简方法及应用研究 第二章基于张量场的数据约简模型 令矿为: 夥= 4 l 1 m m x ( 2 3 8 ) 矿。表示p 的k - m o d e 展开。于是式( 2 3 7 ) 可以重写为: ,1 1 4x iu o 2u 2 ) _ u 眩 = 。l ie 七u 似临 = = ,l l ( r , i c i ,) 7 。u c 女,i i ; = = ,r ( u ( i ) ,z 。( ( z ( t ) ru ( t = = ,r ( u ( ) r ( ,r 。( ( r 。( i ) r ) u ( t ( 2 3 9 ) 求解u 的方法与h o o i 算法的最小二乘迭代方法类似,首先假设除u ( 。外, u n ,u 孙,u 均为已知,为使得式( 2 3 9 ) 最大化,u ( 。r l k x 缸应该包含 ,p 女( z m ) r k k 个最大特征值所对应的磁个特征向量。u ( 1 ) ,u ( 2 1 ,u ( m 以同样 的方法得到。整个过程使得每个u (

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论