已阅读5页,还剩33页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 本文通过适当的函数变换将b 样条基函数粗糙惩罚光滑模型应用到某些具有 特殊约束限制的函数型数据光滑化上,从而有效的改进了对此类数据的光滑拟合效 果本文首先介绍了获得b 样条基函数的方法及b 样条基函数的优良性质,接着介 绍了b 样条基加权最小二乘光滑拟合函数型数据的方法。由于这种方法对基函数个 数的选择在实数域内并不连续,以致在数据具有强烈局部特征的情况下难以获得满 意的光滑效果为了克服这个问题,第四章我们利用b 样条基函数的优良性质,引入 函数粗糙度以及光滑参数的概念,从而建立b 样条基函数粗糙惩罚光滑模型,这个 方法通过选择适当的光滑参数来控制对数据的拟合程度和函数的粗糙度来获得更符 合实际情况或实际需要的光滑函数由于实际应用中往往会产生一些具有特殊意义 的数据,当观测数据具有某种特殊约束限制时,直接利用b 样条基函数粗糙惩罚模 型经常获得与实际情况明显不符的结果,因而本章第五节通过适当的函数变换将具 有约束限制函数型数据的光滑问题转化为无约束限制函数型数据的光滑问题,然后 利用粗糙惩罚光滑模型来光滑此类数据,如恒正函数型数据、概率函数型数据以及 单调函数型数据最后一章通过对一些数据光滑例子的分析比较展示了本文所提方 法在光滑具有约束限制函数型数据方面的效果及优点 关键词b 样条基函数;最小二乘法;光滑;函数型数据;光滑参数;粗糙惩罚;局部特 征;约束函数型数据 a bs t r a c t i nt h i sp a p e r , t h ec r i t e r i o no fb - s p l i n ew i t hr o u g h n e s sp e n a l t yi su s e dt os m o o t h s o m ec o n s t r a i n e df u n c t i o n a ld a t at h r o u g hp r o p e rf u n c t i o nt r a n s f o r mi no r d e rt oo b t a i n b e t t e rs m o o t h i n ge f f e c t f i r s t l y , w ei n t r o d u c et h em e t h o do fg e t t i n gb - s p l i n eb a s i sa n d s o m ee x c e l l e n tp r o p e r t i e so fb - s p l i n e t h e n ,t h em e t h o do fs m o o t h i n gf u n c t o n a ld a t au s i n gb s p l i n eb a s i sb yl e a s ts q u a r em e t h o di sp r e s e n t e d b u tb e c a u s ew ec a n tc h o o s ek c o n t i n u o u s l yi nr e a ld o m a i ni nt h i sm e t h o d ,s ow ec a n to b m i ns a t i s f a c t o r yr e s u l tw h e n t h ed a t ah a v es t r o n gl o c a lc h a r a c t e r s f o rt h es a k eo fo v e r c o m i n gt h i sp r o b l e m ,i nt h e f o u r t hc h a p t e r , w ei n t r o d u c et h en o t i o n so f r o u g h n e s sp e n a l t yo faf u n c t i o na n ds m o o t h i n gp a r a m e t e r c o n s e q u e n t l y , t h ec r i t e r i o no fs m o o t h i n gf u n c t i o n a ld a t au s i n gb - s p l i n e b a s i sw i t har o u g h n e s s p e n a l t yb yl e a s ts q u a r em e t h o di se s t a b l i s h e d t h r o u g hc h o o s i n g p r o p e rs m o o t h i n gp a r a m e t e r , t h i sm e t h o dc a l lf i xt h en u m b e rko fb a s i sa n dc o n t r o l st h e r o u g h n e s sd e g r e et oo b t a i nt h es m o o t h i n gf u n c t i o n sw h i c hc a nb e t t e ra c c o r dw i t hr e a l c o n d i t i o no rr e a lr e q u i r e m e n t i np r a c t i c a la p p l i c a t i o n s ,b e c a u s et h ed a t at h a tw ec 0 1 1 e c t e da l w a y sh a v es o m es p e c i a lm e a n i n g s ,w h e nt h ed a t ah a v es o m es p e c a i lc o n s t r a i n s , w eo f t e nc a n tg e ts a t i s f a c t o r yr e s u l t ,s o ,i ns e c t i o n5o ft h i sc h a p t e r , w es m o o t h i n gs o m e c o n s t r a i n e df u n c t i o n a ld a t at h r o u g ht h ec r i t e r i o no fb - s p l i n ew i t hr o u g h n e s sp e n a l t ya f - t e rp r o p e rf u n c t i o nt r a n s f o r m ,s u c ha sp o s i t i v ef u n c t i o n a ld a t a 、p r o b a b i l i t yf u n c u i o n a l d a t aa n ds t r i c t l ym o n o t o n ef u n c t i o n a ld a t a f i n a l l y , t h r o u h ga n a l y s i sa n dc o m p a r i s o n , w ed i s p l yt h ee f f e c ta n dm e r i t so fs m o o t h i n gf u n c t i o n a ld a t aw h i c hh a v es o m ec o n s t r a i n s u s i n gt h em e t h o d si n t r o d u c e di nt h i sp a p e r k e y w o r d sb s p l i n eb a s i sf u n c t i o n ;l e a s ts q u a r em e t h o d ;s m o o t h i n g ;f u n c t i o n a ld a t a ; s m o o t h i n gp a r a m e t e r ;r o u g h n e s sp e n a l t y ;l o c a lc h a r a c t e r ;c o n s t r a i n e df u n c t i o n a ld a t a v 学位论文独创性声明 本人所呈交的学位论文是在我导师的指导下进行的研究工作及取得的研究成 果据我所知,除文中已经引用的内容外,本论文不包含其他个人已经发表或撰写的 研究成果对本文的研究做出重要贡献的个人和集体,均已在本文中作了明确的说 明并表示谢意 作者签名:生丝圭 日期: 学位论文使用授权声明 沙稻,6 1 歹 本人完全了解华东师范大学有关保留、使用学位论文的规定,学校有权保留学 位论文并向国家主管部门或指定机构送交论文的电子版和纸质版有权将学位论文 用于非赢利目的的少量复制并允许论文进入学校图书馆被查阅有权将学位论文的 内容编入有关数据库进行检索有权将学位论文的标题和摘要出版保密的学位论 文在解密后适用本规定 1 ) 学位论文作者签名:至丝导师签名:型趔 期:竺乡! ! ! 了 第一章引言 1 1 问题的背景 随着生产实践的发展,在许多领域中,函数型数据和曲线型数据已越来越常见 了因此我们很自然会想到把曲线看作基本单元来进行分析,如主成分分析、典型相 关分析等【l 卜【0 1 ,我们称之为函数型数据分析( f d a ) 函数型数据分析最早由r a m s a y 7 1 一【1 1 】和s i l v e r m a nr a m s a y 1 2 1 一【16 】提出,他们 对f d a 的理论和现实应用作了大量讨论,并举了许多具体例子函数型数据分析是 对传统多元分析的发展f d a 是一个新的研究领域,它在环境科学、气象学、生物学 以及医学等【1 7 卜【2 l l 传统多元分析涉及到的众多领域中有着广泛的应用,另外它还 在数据挖掘和机器学习【2 2 卜【2 5 】等新兴领域内得到越来越多的应用与传统的多元 分析相比较,由于分析对象从离散的数据转换为连续光滑的数据的重大转变,函数型 数据分析面临着许多亟待解决的问题,其中函数型数据的光滑化就是一个重要问题 在进行函数型数据分析之前,我们首先要对函数型数据进行光滑处理,因为在现 实生活中,我们获得的函数型数据都是离散的n 个数对( ,y j ) 习惯上我们常把时 间t 作为记录观测值的一个连续统,当然,实际应用中也会涉及其它连续统,如空间 位置、重量等我们之所以称之为函数型数据,是因为我们认为存在一个潜在的连续 光滑函数产生了这些观测值蜘,不过这里的观测值通常含有测量误差和由一些不确 定因素产生的噪声,数据光滑的目的就是消除这些因素的影响,估计出潜在的光滑函 数z 光滑意味着函数拥有某阶导数,我们记d m x 为函数x 的m 阶导数,这是潜在 函数z 的一个性质,这个性质在原始数据向量y = ( y 1 ,y 2 ,) 中并不明显,如果 设f 为t j 处观测值的误差或噪声,则我们可以有表达式 y j = x ( t j ) + 勺,j = 1 ,2 ,n , ( 1 1 ) 用向量表示为 y = z ( t ) + e , ( 1 2 ) 华东师范大学硕士论文基于b 样条基粗糙惩罚的某些约束函数型数据光滑方法研究 其中y ,t ,o 均为佗维向量 在标准模型中,我们假设e f 服从均值为零,方差为盯的独立分布根据这个模型 有 v a r ( y ) = a i ,( 1 3 ) 这里i 为佗阶单位矩阵 在对函数型数据进行光滑h 寸,我们一般从以下几个方面衡量光滑拟合效果 一、对观测数据的拟合精度 我们的光滑程序是以原始观测数据为依据的,因此我们的估计函数应在一定程 度上保持与原数据的一致性 二、估计函数的光滑性 这是我们对函数型数据进行光滑化的主要目的,在实际应用中,我们要能够根据 数据的不同性质以及实际需要选择适当的光滑方法或光滑参数来获得满足要求的光 滑函数,另外由于数据往往包含有测量误差和噪声,光滑处理还要考虑将其消除 三、光滑程序的经济性 所谓经济性是指求解过程中所需内存及计算时间的多寡有不少光滑方法能够 较好的满足以上的两个条件,但是在所需内存和计算时间上开销都比较多,因而如何 加速计算过程也是当今对数据光滑方法研究的一个重要内容 1 2 问题的现状 数据光滑是函数型数据分析的重要内容,为了估计出隐藏在数据背后的光滑函 数,人们对数据光滑拟合方法作了持续有效的选择和改进早期常用的方法为数据 插值,如牛顿插值、拉格朗日插值、多项式插值和样条插值等插值是对数据的精确 拟合,只有当观测数据非常精确时才会有好的效果,而我们实际观测的数据往往包含 有观测误差和由各种因素引起的噪声因而数据插值在近年来的函数型数据分析中 并不常用 为了能够消除测量误差和噪声的影响,人们提出了许多行之有效的数据光滑方 法来光滑函数型数据,主要有基函数最小二乘光滑【2 6 卜【2 8 l 和局部最小二乘光滑方 2 己 华东师范大学硕士论文基于b 样条基粗糙惩罚的某些约束函数型数据光滑方法研究 法【d 】“【3 3 】基函数最小二乘光滑方法中常用的基函数有傅立叶基、多项式基、b 样 条基和小波基等基函数最d x - - 乘光滑方法通过选择适当数量的基函数可以控制对 数据的拟合程度,从而较为有效的消除观测误差和噪声获得光滑的估计函数然而这 种方法并没有有效的方法来选择基函数的数量,从而很难在数据的整体拟合与局部 特征的抓取之间达到平衡局部最小二乘光滑方法包括核光滑法和局部基函数光滑 法等,这种方法利用相邻数据之间的依赖关系进行分段光滑,从而有效的抓住了数据 的局部特征但是这种方法对每个数据点都需要进行一次光滑计算,因而会导致计 算负担的增多,另y l - , 由于在数据两端可供使用的数据较少以及带宽选择的不同,致 使在数据端点往往没有好的光滑效果 1 9 9 4 年,g r e e n 和s i l v e r m a n 提出了粗糙惩罚光滑方法【3 8 l 【4 1 】,这种方法通过 在每个样本点放置一个结点的方法来解决基函数个数问题,通过在最小二乘光滑模 型中增加一个粗糙惩罚项来控制函数的粗糙程度,从而有效地消除观测误差和噪声 目前,人们提出的数据光滑方法往往只能光滑约束限制不强的数据,数据适应性 还不是很强,而且计算负担比较大,尤其对那些具有强烈局部特征以及具有某些特殊 约束限制的函数型数据很难有较好的光滑效果因此,如何减轻计算负担,如何有效 地增强光滑程序的数据适应性仍需进一步研究 1 3 本文的工作 考虑到b 样条基函数的众多优良性质,本文主要利用b 样条基作为基扩张的基 底,因此本文第二章首先介绍了b 样条基的构造方法及其性质第三章开始介绍如何 用传统的b 样条基函数扩张方法来光滑拟合函数型数据此方法模型构造简单,计 算速度快,而且导函数估计方便数值实验表明,该模型对一般数据有较好的光滑拟 合效果,而对那些有强烈局部特征或具有某种约束限制的数据往往不能获得令人满 意的结果 由于目前大多数数据光滑模型要么计算量过大,要么很难兼顾拟合偏差与拟合 方差这两方面的要求,因此本文第四章在原有的基扩张模型中引入了粗糙惩罚项,从 而建立了b 样条基粗糙惩罚模型通过采用适当的方法选择光滑参数来控制函数对 数据的拟合程度,从而既能有效地抓住数据的局部特征,又能适当的消除测量误差和 3 华东师范大学硕士论文基于b 样条基粗糙惩罚的某些约束函数型数据光滑方法研究 噪声,最终在拟合偏差与拟合方差之间达到平衡 另外,在实际应用中我们获得的数据经常具有某种约束限制,如恒正函数型数 据、概率函数型数据、单调函数型数据等,若直接将粗糙惩罚模型应用到此类数据 上往往难以获得符合实际情况的结果,因此在第四章的第四节,我们重点研究了对 这三类数据的光滑方法本文通过适当的函数变换将具有约束限制函数型数据的光 滑问题转化为无约束限制函数型数据的光滑问题,然后利用粗糙惩罚模型来光滑拟 合此类数据,从而不但获得了较好的光滑拟合效果,而且加快了计算速度,尤其是在 光滑概率函数型数据上,本文构造了一种有别于传统l o g i s t i c 回归方法【叱】”【 】的简 单有效的函数变换形式,从而在保持优良光滑拟合效果的同时大大减轻了计算负担 4 第二章b 样条基系统 2 1 引言u b 样条基函数是本文光滑函数型数据方法的主要工具,本章对b 样条基函数的 定义、构造方法及其重要性质作了较为详细的介绍不过,由于篇幅限制,本章对所 涉及到的定义、定理和引理的具体出处和证明不再赘述,详情请读者参阅文后的参 考文献 3 4 】一 3 7 】 2 2 样条函数空间 对区间陋,6 】作划分:a = x o x l x n = b ,此分划将陋,6 】分 成个子区间 一1 ,x i ( i = 1 ,2 ,) 定义2 2 1 当函数& ( z ) 满足下列两个条件: ( i ) 在每个子区间 x i 一1 ,x i 】( i = 1 ,2 ,) 上函数最p ) 是次数不高于佗的多项 式; ( i i ) 叉( z ) c n - - 1 k ,6 】 则称& ) 为关于分划的礼次样条函数点反( i = 0 ,1 ,2 ,n ) 叫做样条函 数& 0 ) 的结点 特别当a = 一o 。或b = o o 的无穷区间上,样条函数的上述定义也是适宜的 如果满足定义2 2 1 的样条函数& ( z ) 的n 阶导数是连续的,则此钆次样条函数 就成为区间陋,6 】上的n 多项式了即样条函数& ( z ) 在【a ,6 】上退化为多项式了 定义2 2 2 当函数瓯,。( z ) 除满足定义2 2 j 中的第一条外还要使& ,口( z ) c n 刈陋,6 】, 佗,秒钧为正整数且秒 礼一移) 都 是右连续的即 s 一( n j ”) x 。,= s ( j ) ( ,x i + 0 ) ( 江0 ,1 ,一1 ) 于是次多项式成为【a ,6 】上亏数为零的扎次样条函数 满足定义2 2 2 的样条函数最,管( z ) 在各个内结点处的亏数均为u 一般来说在 各个内结点处亏数是不同的,为了确切的描述在各个内结点处的亏数,我们引入亏数 向量v = ( 钞l ,u 2 ,v n 一1 ) ,其中v i 表示在以处的亏数 定义2 2 3 当函数晶,”( z ) 除满足定义2 2 j 中的第一条外还要使 5 l j 2 | :( 戤一o ) = 蹬2 ( 甄+ o ) 0 = 0 ,1 ,n u ;t = 1 ,2 ,n 一1 ) , 且当j = n 一姚+ 1 时此等式不成立则称岛,口 ) 为以v 为亏数向量的n 次样条函 数 作为样条函数的例子,我们引入单位阶跃函数与截幂函数如下 单位阶跃函数定义为 u c z ,= 0 时,z 至是连续的,且有 d z 华= n x :- 1 ,d n 1 z n + = n ! z + ,d n 。;= 几! 让( z ) , 其中d = 丢为微分算子函数z 军是区间( 一o 。,o o ) 上亏数为l 的扎次样条函数它 在仅有的一个内结点z = 0 处其导数直到死一1 阶都是连续的,而船阶导数是间断 的 华东师范大学硕士论文基于b 样条基粗糙惩罚的某些约束函数型数据光滑方法研究 当兢是 a ,6 】上分划的一个内结点时,函数( z 一瓤) ;可以看做是 a ,纠上亏 数为1 ( 实际上只在兢处亏数为l 而在其余的结点上亏数为0 ) 的n 次样条函数 定义2 2 4 在区间 a ,纠上给定一个分划,满足定义2 2 2 的样条函数全体所构成 的集合通常称为n 次样条函数空间记为,口( ) 而把满足定义2 2 3 的全体函数 构成的空间记为& ,y ( ) 特别当 = l 时,晶,1 ( j ) 表示满足定义2 2 j 的所有样条 函数构成的空间 显然,& , ( ) 是一个线性空间,根据定义2 2 2 ,晶, ( ) ( 口= 0 ,1 ,) 有下面 的包含关系 & ,o ( a ) c 岛,i ( a ) c & ,2 ( a ) 其中鼠,o ( a ) 实际上就是佗次多项式空间凰,于是函数族 。z 二2 ;,车,。:礼一u + 1 ,n ! 乞i 兰:) :i 二:) - 1 ,2 ,一1 ,c 2 3 , 中的每一个函数均在& , ( ) 之内 定理2 2 1 样条函数空间最,”( ) 是n + 1 + v ( n 一1 ) 维的线性空间 于是由线性空间的理论即知函数族( 2 2 ) 中的n + 1 + v ( n 一1 ) 个样条函数,构 成了样条函数空间& ,”( ) 的一组基底,即& ,”( ) 中任一样条函数& ,”( z ) 均可 用( 2 2 ) 中的佗+ 1 - i - v ( g 一1 ) 个函数线性组合表示为 n一1 n & ,口( 。) = e o 。七+ 弓( z 一) , ( 2 4 ) i = oi = 1j = n - v + l 定理2 2 2 样条函数空间& ,v ( a ) 是nq - 1 + l 维的线性空间 其中的任一函 数& v ( x ) 可以表示为 扎一1 n 晶,y ( z ) = c 0 矿+ 巧 一兢) 宰, ( 2 5 ) 特别& ,l ( a ) 中的函数s ( x ) 可以表示为 7 n + z z 龟 m :l + 知 z 以 n 瑚 = z c , : 华东师范大学硕士论文 基于b 样条基粗糙惩罚的某些约束函数型数据光滑方法研究 其中己= 岂1v i 推论2 2 1 样条函数& ( z ) 的各内结点的亏数向量( v = ( u 1 ,v 2 ,v n 一1 ) 和其各内 结点的重数向量相同 由推论2 2 1 可知,若x l 为2 重结点,则函数晶( z ) 在既处只能具有直到佗一2 阶 的连续导数 2 3b 样条函数 样条函数空间最( ) 和& ,。( ) 分别有一种计算简便,应用广泛的基底,它就 是b 样条基底 2 3 1b 样条函数的定义 定义2 3 1 在实轴上取结点序列 称 z n z 0 x n + n = ( x i + n + 1 - - x i ) 善1 燮w i , n + l ( x k ) ( 2 6 )鼠州z ) = ( ) 坚 ( 2 6 为第i 个住+ 1 阶b 样条函数其中 + n + 1 蚴,州( z 七) = ( 钆一巧) j = i ,j c k 由表达式( 2 6 ) 可明显地看出b i , n + l ( x ) 是分段n 次多项式如果取z n = = z 一1 = a = x o z 1 x n = b = x n + 1 = = x n + 竹,贝0 我f f 可称b - n , n + l ( z ) , b - n + l ,卅1 ( z ) ,b 一1 , n + l ( x ) 分别是以z = a 为佗+ 1 重,n 重,二重结点的几+ 1 阶b 样条函数,b _ 1 n + 1 ( z ) ,b n 2 n + 1 ( z ) ,风一 + 1 ( z ) 分别是以z = b 为n + 1 重,n 重,二重结点的佗+ 1 阶b 样条函数其余的b i , n + l ( z ) ( i = 0 ,1 ,一 n 一1 ) 均为单结点的n4 - 1 阶b 样条函数这些带有重节点的b 样条函数是以极限 的形式来定义的 8 华东师范大学硕士论文基于b 榉条喜塞徂犍堡邈笪苤些约塞鱼墼型墼堡鲞塑查鎏堑塞 2 3 。2b 样条函数的基本性质 由b 样条函数的定义及其表达式( 2 6 ) ,我们知道,b i ,n + 1 ( z ) 是以z t ,2 7 i + 1 ,z 件犯+ 1 为 结点的n 阶样条函数,可以由定义直接推得它具有下列性质 ( 1 ) b 样条函数具有下面的递推关系式 b 。i , k + l ( z ) = ;三主i 兰鼠,t ( z ) + ;三篙鼠+ ,e ( z ) ,( 2 - 7 ) 其中k = 1 ,2 ,佗 ( 2 ) 局部正支撑性,即b 样条函数b i , n + l ( z ) ( t = 一礼,n 一1 ) 满足 鼠,n + ,c z , 三兰:主隹:三:二:;j c 2 8 , ( 3 ) 叠加性,即对于分划a 中的任何两个结点及,当 z 时,有 ( 2 9 ) ( 4 ) b 样条函数的微分性质竹次b 样条函数的微分可用两个底一次的b 样条函 数的线性组合来表示,即 “硼7 = 瓦蹦z ) 一瓦祟丽刷 ( 2 1 0 ) 9 i l z +邑 “一 第三章b 样条基最小二乘光滑函数型数据 3 1 介绍 有了第一章关于b 样条基函数的基本知讽我们便可以初步利用b 样条基函数 来光滑拟合函数型数据了本章主要介绍用b 样条基函数最+ - - - 乘光滑拟合函数型 数据的方法和模型,我们简称之为“样条光滑”,另外,第三节介绍了线性光滑子的概 念以及b 样条基在这里的计算优势第四节介绍了拟合偏差与估计函数方差之间的 制约关系从而讨论了选择基函数个数k 的一般标准本节所涉及到的有关光滑模型 及相关概念详情可参阅参考文献 4 7 】 2 6 2 7 2 8 3 2b 样条基最小二乘光滑模型 我们的目标是用模型约= z ( 如) + 勺来拟合离散的数据协,j = 1 ,2 ,n 我们 正是用b 样条基函数扩张来获得x ( t ) 如下式 其中c 7 = ( c ,c k ,o k ) ,妒= ( 咖1 ( ) ,饥( 亡) ,咖k ( ) ) ,k 为基函数个数 3 2 1 普通最小二乘光滑模型 通过最小化最j 、- 乘光滑模型 nk s m s s e ( y l c ) = 协一c 七纯( 屯) 】2 ( 3 1 ) j - - 1 七 可以确定扩张系数铅。( 3 1 ) 式可用矩阵形式表示为 s m s s e ( y c ) = ( y 一圣c ) ( y 一西c ) ,( 3 2 ) 其中,y = ( y l ,) 7 ,垂为礼k 阶矩阵,圣( 歹,k ) = 机( 巧) ,( k = 1 ,k ;j = 1 ,n ) 此公式的右侧经常表示成函数的模的形式l i y 一圣c f | 2 1 0 、u= 七 k知 l l z 华东师范大学硕士论文 基于b 样条基粗糙惩罚的某些约塞运墼型墼堡鲞塑查鎏g 究 在模型s m s s e ( yl c ) 中关于c 求导可得方程 2 西西c 一2 圣7 y = 0 解这个方程可得c 的最小二乘估计值 e = ( 圣7 西) 一1 西7 y , 由此可得拟合值向量 夕= 西e = 圣( 圣7 圣) 一1 圣7 y ( 3 3 ) ( 3 4 ) 普通最i j 、- - 乘光滑较适用于当我们假设剩余量勺关于真实曲线是均值为0 方 差为盯2 且为独立同分布时的情况,也就是说,在1 1 节提到的标准误差模型中,我 们倾向于使用这种方法 3 2 2 加权最小二乘光滑模型 在1 1 节中我们知道,标准误差模型往往是不现实的为了处理非静态误差,我 们引入不同的剩余权重,把最1 j 、- - _ _ 乘光滑模型扩充为如下形式 s m s s e ( y f c ) = ( y 一西c ) 7 w ( y 一圣c ) ( 3 5 ) 这里w 是一个正定矩阵,如果我们知道剩余量勺的方差协方差矩阵。,则w = i 1 在应用中,往往不容易估计出。,我们经常假设误差间的协方差为零,这 样w 就是一个对角矩阵,其对角线上的元素就是所有珊所对应误差的方差的倒数 在标准误差模型中w = i 用加权最小二乘法估计系数向量c 可得 e = ( 垂7 w 雪) 一1 圣7 w y ( 3 6 ) 无论是普通最小二乘光滑还是加权最小二乘光滑,我们都可趴用更一般的函数 表达式s m s s e ( y l c ) = l l y 一圣c j l 2 来表示 华东师范大学硕士论文 基于b 样条基粗糙惩罚的某些约束函数型数据光滑方法研究 3 3 看作线性变换的最小二乘光滑 本章描述的光滑方法都有线性的性质,线性化可以使计算问题大大简化,在实际 应用中大部分的光滑方法都是用线性程序来做的这里我们要考虑在光滑程序中线 性意味着什么 3 3 1 线性光滑子的工作方式 线性光滑子通过离散数据的线性组合 圣( 巧) = 岛( 如) 讹 ( 3 7 ) = 1 来估计函数值功= 2 ( t j ) ,这里s j ( t ) 对第粤个观测数据进行加权从而产生对纷的 拟合 上式的矩阵形式为 岔( t ) = s y ( 3 8 ) 这里岔( t ) 是一个列向量,它的元素是函数z 在每个样本点t j 处的估计值 例如,在非加权最小二乘光滑下( 式3 4 ) s = 圣( 西7 圣) 一1 圣7 ( 3 9 ) 在最小二乘光滑中,光滑矩阵有投影矩阵的性质,这意味着,它可以在由矩阵c i , 的列 向量扩充的空间中产生一个关于y 的像夕,使得剩余向量e = y 一夕与拟合向量夕是 正交的,即 ( y 一夕) 7 夕= 0 反过来这个性质可以表明光滑矩阵有幂等性,即s s = s 在下一章的粗糙惩罚光滑 模型中,我们将会看到这个性质将不再成立 在加权最小二乘光滑中,对应的光滑矩阵为 s = 圣( 圣7 圣) 一1 c i , 7 w ( 3 1 0 ) 1 2 华东师范大学硕士论文基于b 样条基粗糙惩罚的某些约束函数型数据光滑方法研究 矩阵s 仍旧是一个正交投影矩阵,只不过现在是在 ( y 一多) 7 w 9 = 0 的意义下,剩余向量和拟合向量是正交的 我们用的大部分光滑子都是线性的。在很多情况下,光滑子的线性性质 s ( a y + b z l = a s y + b s z 是一种理想的条件 在数据光滑程序中,计算速度是一个关键的问题,一个适用于几百个数据点的光 滑子对上千个数据可能完全不适用对于一个较大的n ,利用一个光滑子计算出礼个 光滑值圣( s j ) 所需要的操作次数正比于礼( 我们简记为o ( 扎) ) 是至关重要的,如果s 是 带状的,即在每列中只有分布在对角线两侧的少量元素是非零的,那么o ( n ) 条件就 能得到满足,根据b 样条基函数的局部支撑性我们不难发现金( s j ) 满足o ( n ) 性质 5 3 3 2 线性光滑的自由度 在大部分的文献中,光滑自由度的概念意思是指为了利用数据确定模型所要估 计的参数的数量我们不加改变的将这个自由度的概念应用到最b - 乘数据光滑上 来,这里参数的数量就是系数向量c 的长度k 因此误差的自由度的数量就是r t k 不过,在第四章的粗糙惩罚光滑方法中,问题将不会这么简单,我们将会需要一 种更普遍的方法来计算数据光滑拟合的有效自由度,进而计算出对应的误差的自由 度我们通过下式来定义光滑拟合的自由度 d i = t r a c e s ,( 3 1 1 ) 这里的s 如上文所述,t r a c e s 为s 的迹,即为s 的所有对角元素之和这种更一般的 定义并没有提出任何新内容,但是,在后面的章节中我们会发现这种定义更有价值 在其他情形中,我们还有更合适的定义 d f = t r a c e ( s s ,) ( 3 1 2 ) 不过在大部分情况中我们还是用( 3 1 1 ) 式,在最小二乘光滑中,这两种定义所得的结 果是相同的 13 华东师范大学硕士论文基于b 样条基粗糙惩罚的某些约束函数型数据光滑方法研究 3 4 基函数个数k 的选择 如何选择基扩张中基函数的个数k 呢? k 越大,对数据的拟合就越好,但是很 显然也会冒拟合到噪声或我们希望忽略的变化的风险另一方面,如果选择的k 太 小的话,我们可能会失掉我们要估计的光滑函数z 的某些重要特征 3 4 1 拟合偏差和方差之间的平衡 我们可以用另一种方式表达这种平衡对于较大的k ,估计z ( t ) 的偏差 b i a s 文( t ) 】= x ( t ) 一e ( 文( t ) ( 3 13 ) 就会比较小实际上,如果假设噪声的期望为零,那么当k = 礼时偏差就会为零 不过,这只是问题的一个方面,我们对数据进行光滑处理的一个主要目的是减少 噪声或可忽略的变化对估计函数圣的影响因此,我们也对估计函数的方差 v a r 文( t ) 】= e 文( t ) 一e 【文( t ) 2 】( 3 1 a ) 感兴趣如果k = 扎,这个值会大得难以接受为了减少方差,我们需要寻找较小 的k 值,当然k 也不能太小,致使偏差太大数据的信噪比越低,相对于控制偏差来 说,我们就越要减小样本方差 我们可以用另外一种表达方式来获得我们想要的结果,这就是均方误差 m s e 障( t ) 】= e f c ( t ) 一x ( t ) 2 】,( 3 1 5 ) 也叫做l 2 损失函数在大部分应用中,由于我们并不知道z ( 亡) ,所以我们不能直接 最小化此式来估计光滑函数不过,在统计学中有如下的一个重要的方程可以把均 方误差同偏差和样本方差联系起来, e 文( t ) 】= b i a s 2 文( t ) 】+ v a r 障( t ) 】 ( 3 1 5 ) 这个方程告诉我们,如果能够减小样本方差,即便有些偏差也是值得的事实上,在几 乎所有的情况中,这都是对数据进行光滑处理的主要原因在第四章我们还会回到这 个问题上来 1 4 华东师范大学硕士论文基于b 样条基粗糙惩罚的某些约束函数型数据光滑方法研究 3 4 2 选择k 的计算方法 有许多文献讨论过如何来确定基函数的个数,例如逐步变量选择法,这个方法的 实施过程是每次增加一个基函数,每增加一个基函数都要检测一下这个新增加的基 函数是否有效改善了光滑效果,同时还要核对一下原有的基函数是否仍旧起着重要 作用相反,变量修剪法经常用在高维模型中,这种方法是首先选择一个较大的k , 然后每步去掉一个对光滑效果影响不大的基函数 这些方法均有他们的局限性,而且经常会被滥用事实上,在面对确定模型维数 这一难题时我们并没有一个绝对有效的标准方法一个主要问题是k 的选择是离散 的,即我们无法在实数域内连续地选择k ,在第四章我们将介绍一种能够连续选择 光滑参数的函数型数据光滑模型 1 5 第四章b 样条基粗糙惩罚光滑函数型数据 4 1 介绍u- 为了克服无法在实数域中连续选择基函数个数k 的困难我们在第三章所建立 模型的基础上引入了粗糙惩罚项本章首先给出了函数粗糙度的定义,然后在第二节 详细介绍了粗糙惩罚模型的计算方法及其导数的估计方法,并介绍了光滑参数a 的 选择标准和两个常用的具体计算方法,即交叉验证和广义交叉验证方法在第五节 提出了如何进行适当的函数变换来利用粗糙惩罚模型光滑某些带有特殊约束条件的 函数型数据,如恒正函数型数据、概率函数型数据以及单调函数型数据本章第四节 之前的定义及粗糙惩罚模型的详细内容可参阅参考文献 38 一【4 l 】 4 2 样条光滑 我们用最简单的函数型数据来阐述本节所述模型的建立及使用,我们用这个方 法根据一个离散的含噪声数据向量y 来估计一个函数z 我们继续讨论第四章描述 的数据光滑问题,不过对本节描述的粗糙惩罚方法我们仍旧使用“样条光滑”这个 术语 4 2 1 函数估计的两个竞争目标 样条光滑法是要用数据协= z ( 亡,) + g ,来估计一个曲线z ,在这个过程中明显 有两个相互抵触的目标一方面我们希望确保估计得到的曲线能够很好的拟合观测 数据,例如可以用剩余平方和协一z ( 巧) 】2 来衡量另一方面,我们也不希望过度拟 合,致使估计曲线过度波动或局部震动 这两个相互竞争的目标对应于上章描述的统计学中的一个基本理论,即均方误 差等于偏差的平方加样本方差我们可以产生一个完全无偏的估计函数来精确的拟 合数据协,因为根据我们的误差模型,数据本身就是x ( t j ) 的无偏估计但是,任何这 样的曲线都会有非常高的方差,其表现就是曲线局部急剧波动 1 6 华东师范大学硕士论文基于b 样条基粗糙惩罚的某些约束函数型数据光滑方法研究 与其它光滑方法一样,样条光滑也是用均方误差m s e 来衡量通常意义下的光 滑效果的为了减小样本方差而牺牲一些偏差往往可以戏剧般地降低均方误差,这也 是对被估曲线实施光滑的一个关键原因通过要求估计值从一个值到下一个值仅有 较小的变化,我们可以有效的从邻近的数据值“借信息”这种信息汇聚方式虽然会 损失一些偏差,但是可以使我们的估计曲线更加稳定粗糙惩罚清楚地表示出我们 为减小m s e 而牺牲的偏差 4 2 2 粗糙度的定义 如何量化一个函数的粗糙度呢? 一个函数在t 处的二阶导数的平方常被称为它 在t 处的曲率,我们都知道一条直线没有曲率,而且它的二阶导数为零因此,函数粗 糙度的一个自然的度量方法就是它的二阶导数平方的积分 , p e n 2x ) = d 2 x ( s ) 】2d s ( 4 1 ) , 随时间变化越快的函数,他们的p e n 2x ) 值也就越大,因为这些函数至少在他们定 义域的某些子区域内有较大的二阶导数 当然,如果实际曲线本身是m 阶可导的话( m 为正整数) ,我们也可以定义如下 粗糙度 , p e n mx ) = d “x ( s ) 】2 ( i s ( 4 2 ) , 4 2 3 粗糙惩罚光滑模型 在第三章中我们定义过一个加权最1 、- - 乘光滑模型( 3 5 ) ,为了使粗糙惩罚p e n 2 ( x ) 在 估计x ( t ) 中发挥作用,我们需要对这个模型进行修改设x ( t ) 是一个向量,它的元素 是函数z 在自变量向量t 处的值我们通过下面的一个惩罚误差平方和来定义粗糙 惩罚光滑模型 s m s s e ( x y ) = y z ( t ) 】7 w y z ( t ) 】+ a p e n 2 ( x ) ( 4 3 ) 我们在。所在的函数空间中定义了p e n 2 ( x ) ,并且在这个空间中通过最小化s m s s e :、_ ( x ) 来 找到z 的估计函数 1 7 华东师范大学硕士论文基于b 样条基粗糙惩罚的某些约束函数型数据光滑方法研究 参数入称为光滑参数,通过它来测度函数z 对数据的拟合精度与函数本身波 动性之间的平衡率,前者由该模型的第一项来衡量,后者由该模型的第二项来衡量 a 越大,那些非线性的函数就会通过p e n 2 ( x ) 获得更多的粗糙惩罚,因此,组合模 型p e n s s e a ( x ) 必定会更加强调函数z 的光滑性,而相对较少的强调z 对数据的 拟合正是由于这个原因,当入_ 0 0b 寸光滑拟合曲线z 就会演变为对数据的标准 线性回归,此时p e n 2 ( x ) = 0 另一方面,对于较小的a ,所得光滑拟合曲线将会有较大的波动性,这是因为我 们对它施加了较小的惩罚,当a 一0 时,拟合曲线z 就会演变为对数据的插值,对所 有的j 满足x ( t j ) = 协尽管如此,即便在这种极限的情况,所得的插值曲线也不是 任意波动的;事实上,它是精确拟合所给数据曲线中最光滑的二阶可导函数 4 2 4 光滑样条的结构 下面我们除了要求函数z 二阶可导之外,不再对它作其它任何假设,同时我们也 假设样本点t j ,歹= 1 ,扎各不相同那么我们用什么样的函数来最小化这个惩罚 误差平方和呢? 为了保证光滑函数二阶可导,我们可以用三次样条函数来最小化s m s s e a ( x l y ) 注意这里我们并没有对z 的具体构造方法作任何假设我们将在三次样条函数空间 中对目标函数进行优化这种解是函数而不是参数的问题称为变分问题在进行样 条光滑时,我们把结点放在各个数据点,这样就消除了在何处放置结点的问题,从而 确定基函数的个数样条光滑能够自然地适应非等距分布的样本点因此可以自动 利用数据密度较高的区域,同时在数据点较少的区域拟合函数会尤其光滑 样条光滑的最普通的计算方法是用一个结点在样本点的四阶b 样条基函数扩 张关于扩张系数来最小化模型( 4 3 ) 这种情况下所得的光滑函数是分段三次的,这 种方法称为三次样条光滑 回想我们在第二章中介绍的结点数量、样条阶数以及基函数的个数之间的关系, 这里用四阶b 样条意味着我们有佗+ 2 个基函数,很明显,如果a = 0 ,这足可以精 确拟合n 个数据点了 1 8 华东师范大学硕士论文基于b 样条基粗糙惩罚的某些约束函数型数据光滑方法研究 4 2 5 粗糙惩罚光滑的计算方法 首先我们来考虑第三章中的表达式和关系式,这将有利于我们看到加上粗糙惩 罚时如何改进了光滑程序 回想,如果不加粗糙惩罚,在扩张 中的c 有解 k z ( 亡) = 加) = c 7 = ( t ) c k 己= ( 圣7 w 西) 一1 垂7 w y ( 4 4 ) 其中c 是k 维系数向量,是k 阶基函数向量;西为佗k 阶矩阵,它的元素 为k 个基函数在n 个样本点处的值,w 为一个加权矩阵,向量y 是我们要进行光 滑处理的离散数据与数据对应的拟合向量为 夕= ( 圣7 w 圣) 一1 圣7 w y = s 西y , ( 4 5 ) 这里,s 西是对应于基系统咖的投影算子 s o = ( 雪7 w v ) - 1 垂7 w ( 4 6 ) 我们可以用矩阵形式重新表示粗糙惩罚p e n m ( x ) 如下 p e n m ( x )
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 安全检查巡查准则
- 2026西北大学招聘150人备考题库附答案详解
- 2026恒安标准人寿保险有限公司天津分公司招聘备考题库及答案详解1套
- 2026江苏南京大学YJ20260647教育研究院特任副研究员招聘1人备考题库及一套完整答案详解
- 2026贵州省纺织产业发展集团有限责任公司度选聘职业经理人5人备考题库及一套完整答案详解
- 2026中国传媒大学第二批教学科研岗招聘13人备考题库参考答案详解
- 2026四川德阳市罗江区就业创业促进中心城镇公益性岗位招聘2人备考题库(区人社局)完整参考答案详解
- 2026春人教版数学一年级下册期末复习重点必练易错专项练习卷附参考答案
- 2026中核八二一广元运业有限公司海南分公司招聘4人备考题库及一套答案详解
- 2026广东中山市西区聚星学校秋季学期教师招聘24人备考题库及答案详解1套
- 应急救护技能比赛评分标准
- T/CHES 70-2022内陆干旱半干旱区季节性河流生态流量(水量)确定技术导则
- 深度学习 课件 第2章 卷积神经网络
- DBJT15-162-2019 建筑基坑施工监测技术标准
- 银行装修施工方案
- 安全生产管理制度-普货运输
- 保洁服务项目投标技术方案(技术标)
- 环北部湾广西水资源配置工程环评报告
- 村委会规范化建设课件
- 胸腔积液诊断的中国专家共识(2022版)解读
- 医务人员职业暴露预防及处理标准操作规程
评论
0/150
提交评论