




已阅读5页,还剩54页未读, 继续免费阅读
(计算数学专业论文)高阶parzen+windows及随机采样.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
籀要 摘要 本文中,我们透过戮入高阶凇撞w i 鑫d 渊s 的方法研究学习理论翊题中的 一些算法,并应用到多变量的随机采样问题中。最初的想法主要来源于p a r z e n w i n d o w s 估计密度函数和采样理论。 首先,我们定义出基窗口函数,由基窗口函数构造出离阶p a r z e 珏w i 斌o w s 函 数。当边缘分布函数在采样的定义域附近满足一定的衰减性条件,我们给出 了最小平方形式下的回归番数| 帮密度估计函数的学习率。并且当边缘分毒 函数衰减很快,以及高阶p a r z e nw i n d o w s 的阶足够大的情况下,我们给出的 学习率能达到理论最优。与标准的p a r z e nw i 聪洲s 不一样的是,当高阶p 粼n w i n d o w s 的阶t j r 大于2 时,高阶p a r z e nw i n d o w s 函数本身不再是密度函数。 对于平移不变空间的随机采样问题,我们给出了在全空间r 钵中的逼 近阶。当样本点不是独立同分布,丽是受规则嬲格是舻上的噪音干扰( 这 里危 0 是一个常量) 。同时,我们还假设噪音的密度函数,以及要逼近的目标 函数满足一定的衰减和规则性条件。选择合适的窗誓宽度,得到的逼近阶仅 与逼近函数本身的性质,噪音的密度函数以及p a f z e nw i n d o w s 的阶有关。 接下来,我们继续讨论高阶p a r z e nw i n d o w s 方法在多元逼近论问题中的应 用。不同的是这里的函数空间是s o b o l e v 空间,并且样本点不再是一致采样,蔼 是受到均匀网格附近有微小平移的噪音函数影响。采样点对应的函数值的期 望值等于要逼近酶露标函数的值。我们给出了在s 曲。戤空闻逼近曩标蘧数酶 误差界。 最后,我们应用高阶p a 戳nw i n d o w s 解决一个实际应用阿题。考虑的算法 的效率以及实际问题的需求,我们仅采用一个二阶p a r z e 娃w i n d o w s 函数估计密 度函数。无论是对实验数据还是真实数据,算法都非常有效。 关键词:学习理论,高阶p a r z e nw i n d o w s ,采样理论,基窗口函数,学习率,密 度估计,拟插值,一致采样,非一致采样 a b s 豫a c t a b s t r a c t h lm em e s i s ,h i g ho r d e rp a r z e nw i n d o w sa r es m d i e df o ru n d e r s 咖d i n gs o m ea l - g 撕氆礁s 遗l e 皴垃n g 掇e 翻了褫d 凇d o 瘫z e 纛s 越印 l i 建gi 鑫融醢l 矗v 撕毪绝 薹f o x i 臻纛基。珏 0 u ri d e a sa r ef 两mp a 彪e nw i n d o wm e t l l o df o rd e n s i 锣e s t i m a t i o na n d s a i i l p l i n gm e o 巧 f i f s t ,w e 如矗n eb a s i cw i n d 。w 如n c t i o n st 0c o n s t n l c to u f 圭l i 曲o r d e rp a f z e n 嘶n _ d o w s 。w r ed e 矗v e dl e a m i n gf a t e sf o rt kl e a s t s q u a r er e g r e s s i o na n d d e n s i 移e s 垃m 撕o n o nb o u n d e dd o m a i n su n d e rs o m ed e c a yc o n d i t i o n sn e a rm eb o u n d a d ro nt l l em a 鸩i n a l 磁s 囊堍蛀o a 西氇ep b 曲i 脚溅燧溅e 参雕s 糕攀l i 拄g 。强e s e 继沦sc 觚a l 鼢髓叩纛m 曩呈 w h e nt h em a 玛i n a ld i s t r i b u t i o nd e c a y s f a s ta i l dm eo r d e ro ft h ep a r z e nw i n d o w si sl a 玛e e n o u 曲c o m p a r 甜w i ms t 勰d 蕊p a r z e nw i n d o w sf ;d e n s i 移e s 赣m a t i o n ,氇e 薛沿 d e rr 睨e nw i n d o we s t i m a t o ri sn o tad e n s i 够f u n c t i o nw h e nt l l eo r d e rji s 鲈a 舱r 也a n 2 髓。魏f 瑚d o 璁i 怼ds 鑫l 鞑p l i 驾i 狂s 挝f o i 羲v a 蠢a 疆s p a c e s ,w ei 辫e s 蛀g a 捃m e 妒 p r o ) 【i m a t i o no ff u n c t i o n so nt h ew h o l es p a c e 酞n w ec o n s i d e rt h es i t u a t i o nw h e nm e s 甜n p l i l l gp o i n t sa f en e i 氆c ri i d n 甜r e g 珏l a r ,b 珏ta 糙n 蕊s e d 董两撒f e g 珏l 雒鲥豳悫矛 f o rs o m ec o n s t a i l t 九 0b yp r o b a b i l 姆d e n s i t yf u n c t i o n s w ea s s u m es o m ed e c a y 锄d r e g u l a r i 锣c o n d i t i o n sf o rt h en o i s ep r o b a b i l 埘f u n c t i o na l l dt h ea p p r o x i m a t e df u n c t i o n o 嚷襄n ,u n d e fs 滋a b l ee h o 主e e so f 出es c 蕊i l l gp 毅粼纶r ,搬e p 妁x i m 艇o 觳础r s 粼 e s t i m 删b ym e a i l so fr e g u l a r i 够0 fm ea p p r o x i i i l a t e df u n c t i o n ,t h ed e n s i t ) ,f u n c t i o n a l 避疆eo 砖e fq f 垃把p o 毗e 珏w i 娃d g w s n e x tw es t u d yt h ea p p r o x i m a t i o no fm u l t i v 撕a t ef u n c t i o n si l ls 0 b o l e vs p a c e sb y 城g ho r d e rr h z e nw i n d o w si nan o n u i l i f o r ms a m p l i n gs e t t i n g s a m p l i 蜡p o i n t sa r e l 掂i 也锻i 。i 。d 。翻泔托g u l a f ,b u a 托n o i s 甜f 幻mf e g u l 皴鲥d sb yn o 鼢幽溉s 量l i f 弧o fa p r o b a b i l 埘d e n s n yf n n c t i o n s a n 叩l ef u n c t i o nv a l u e sa ts a n m l i n gp o i n t sa r ed r a w na c c o 砖i 薤g 抡p b 曲i l i 毋黜a s l l 瓣sw 主盎e x p e e 埘v 痰珏e s 跷i 羲gv 蠢珏e s 醴氇e 雒擎硒x i 嫩a 耙d f u n c t i o n o u rm a i nr e s u l tp r o v i d e sb o u n d sf o rt h ea p p r o x i m a t i o no ft l l et 龇謦e tf u n c t i o n o n 酞ni ns o b o l e s p a c e s f i n a l l y ,w ep r o v i d ea ne 印碰珏瓣嫩e x 烈啦e 硒mar e a 羔a p p l i c a t i o n w | eu s e c - l 趟s 豫a 甜 o n do r d e rb a s i cw i n d o wf u n c t i o n st oc o n s t r u c tas e c o n do r d e rp a r z e nw i n d o w s t h e a l g o r i t h mw o r k sw e nb o t hi na n i 矗c i a ld a 像a n di nt h e 豫a la p p l i c a t i o n 叠汪y 协碡s :k a r 芏l i n gt 量l e o 吼h i 曲o r d e rp a r z e nw i n d o w s ,r 馘d o 踮z 丽s 锄p l i n g ,b a s i cw i n d o wf u n c t i o n l e a m i n gr a t e ,d e n s i 够e s t 主m a t i o 觳,q u a s i i n t e p o l a t i o n ,u n i f o r m s a i n p l i n g ,n o n - u i l i f m ms a m p l i n g 插图 插图 1 1 厶,a 和厶在函数空间l ;x 中的关系。 1 2 一致采样与非一致采样 1 3 核函数方法对1 0 0 个正态随即样本的估计 2 1 z x :i n f 毫,r n xi z 一可i t ) 4 1 数据集互的直方图 4 2 数据集疋的直方图 4 3 数据集五,基函数为k ( 钍) = ( 1 一l u l ) 1 ( i u i 1 ) 不同窗口宽度下结 果比较。 4 4 数据集噩,基函数为k ( u ) = 去e 一;铲不同窗口宽度下结果比较。 4 5 数据集五取不同核函数对密度的估计比较 4 6 三次样条对数据集乃,的密度拟合。 v 3 4 8 1 6 4 2 4 3 4 4 4 4 4 5 4 6 中国科学技术大学学位论文原创性和授权使用声明 本人声明所呈交的学位论文,是本人在导师指导下进行研究工 作所取得的成果。除已特别加以标注和致谢的地方外,论文中不包 含任何他人已经发表或撰写过的研究成果。与我一同工作的同志 对本研究所做的贡献均已在论文中作了明确的说明。 本人授权中国科学技术大学拥有学位论文的部分使用权,即: 学校有权按有关规定向国家有关部门或机构送交论文的复印件和 电子版,允许论文被查阅和借阅,可以将学位论文编入有关数据库 进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位 论文。 保密的学位论文在解密后也遵守此规定口 作者签名:巨避 研年皇月万日 第l 牵会绥 第1 章介绍 1 。i l最小二乘回归的学习框架 在开始正文之前,我们先对学习理论做个简单的介绍。学习理论是最近 几年发展起来的一门新兴学科。学习理论最开始主要来源于计算机科学和统 计学。现在学习理论的主流方向是通过一些受噪音于扰的样本学习要逼近 的目标函数。设x 是一个度量空间,我们的函数都定义在x 上,并且称度量 空闻x 为输入空闻,对应的称y = 黧为输出空润。记p 是z = x y 主的一 个b o r c l 概率测度。最小二乘问题的主要目标是找一个函数厂,使得最小平方 误差 ( ,) 拳易( ,) ( ,( 茹) 一爹) z 咖 jz 最小,在不引起混淆的情况下,我们经常把最小平方误差简称为,的误差。学 习理论的主要任务就是希望找到一个,使得( ,) 最小。记目标函数为 ,4 = a r g m i n ( ,) , ( 1 1 ) 这里,取,:x _ y 上的所有可测函数。 定义厶:x _ y 为 厶( 第) = y 咖( 秒| z ) t ,y 称函数厶是概率测度p 的回归函数。对任意z x ,靠( z ) 是随机变量箩在 o y 上的期望。 记仃2 ) = 止白一厶( 。) ) 2 咖( 可i z ) ,露一厶仃2 ( z ) 咖由h 3 1 ,我们有如下 命题 命题l 。薹。对歹:x e ( ,) = 7 ( ,( 名) 一矗( 髫) ) 2 函峻+ 露 jx 可知与,无关,所虢厶使得误差( 歹) 最小并且最小误差为露。不幸 的是在实际情况中,一般概率测度p 是未知的,所以不能宜接计算厶。 第1 章介绍 记z = ( z 1 ,1 ) ,( z m ,蜘) ) z m 为一个采样,也就是说仇个样本都是 根据概率测度j d 独立选取。定义厂的经验误差( 与采样z 有关) 为 己( ,) = 去( m t ) 一犰) 2 ( 1 2 ) i = 1 根据大数定理,当函数,固定的情况下,以某种置信度有下面的等式成立 l i m ( 厂) = 占( t 厂) 所以,我们希望使得& ( ,) 最小化的函数厂能很好地逼近目标函数厶。通过插 值的方法,我们很容易可以找到函数厂使得,( 黝) = 犰,t = 1 ,m 。虽然对已 知样本已( 厂) = 0 ,但是对于测试集的样本,的拟合能力可能会很差,这就是 拟合问题中经常提到的过拟合( o v e r f i t t i n g ) 。因此,如果在所有可测函数集寻 找函数使得己( 厂) 达到最小是不合理的。在学习理论中,我们定义一个新的函 数集称作假设空间,并且在假设空间中寻找函数厂使得邑( ,) 最小。 假设咒是一个假设空间,函数厂冗,误差 巩( ,) = ( 厂) 一( ) , 被称为正规化误差。其中 使得占( t 厂) 在冗中达到最小。 对总误差进行分解 忆一眺2 上( 厶一厶) 2 d 触 = ( 厶) 一( 厶) = 占( 厂z ) 一( ) + ( a ) 一( 厶) 、。- - 、,。- - - - _ ,、_ - _ - l - 、,- _ - 一 样本误差逼近误差 样本大小m 取定的情况下,如果假设空间h 变大,则逼近误差变小,但样本 误差会增大。反过来,如果h 变小,则逼近误差变大,样本误差会减少。在这 种情况下,如何选取假设空间冗使得误差e ( 厶) 较小构成了所说的偏差一方差 平衡问题。简单的理解,偏差对应的就是逼近误差,方差则对应样本误差。下 面的图形从逼近论的角度解释了函数厶,a 和厶三者在函数空间中的关系。 由上图可以看出,z 和厶的距离固定的情况下,如果咒太小,则有较大 的偏差。相反,如果咒太大,则有较大的方差。偏差和方差是两个互补的量, 如果不能在二者之间找到一个合适的折中就会导致欠拟合( 大偏差) 或者过 拟合( 大方差) 【1 3 1 。 2 第l 章介绍 图i 1 ,z ,a 和,p 在函数空间l :x 中的关系 1 。2s h a n n o n 采用理论 如果没有样本,学习理论也都是空谈。实际上,无论是在科学研究,还是 工程中,采样理论都有很多应用,例如信号处理,信息提取,以及医学图像等 都大量的应用到采样理论。在数学上也有大量应晨,例如调和分析,小波和样 条理论,以及逼近论。1 2 4 】有很多关于采样的介绍,心1 有关予这一理论最新的 发展。 什么是采样? 一般来讲,可以认为采样是把连续时间域上的信号, ) ,z 酞用离散信 号,( ) ,歹z 表示的过程。如果我们在连续时间域上等距离的选取离散信 号,例如每隔危秒,危 0 ,z ,= ,危,这就是所谓的一致采样。如果不是等距离 的采样,也就是说采样点茹。可以是酞上的任意一点,我们称这种采样为非一 致采样或不规则采样。我们用图( 1 2 ) 对二者进行比较。 在采样理论中,最基本的一个结果是经典w h i t t a k e r s h a 姗。小n y q u i s t 采 样定理或者简称为强魏n 魏定理【钥。骚雒n o n 定理给出了在融上,能够遥过 整数点上采样的样本值重构出采样函数的条件【3 7 1 。 定理1 2 记( z ) = 警,也( 鬈) = 妒扛一亡) 如暴函数,三2 ( 酞) 的傅立叶变换 3 第l 章会绍 图1 2s a 【p l i n gr e c o n s t r u c t i o n i l 】 上:定义域为酞上的函数,的一致采样 下:嗣样的函数,在酞上非一致采样 采样点巧用符号表示,采样点对应的溺数值,( ) 用符号。表暴。 的支集为 一7 r ,丌】,那么 ,= 雄溉 t z 定理l 。2 是工程和数字信号处理的应耀基础,它给出了连续信号和离散信 号序列之间相互转换的基本框架。对一个能量有限的有限带宽信号,可以完 全由采样点刻画。更多有关这方面的介绍参见 2 ,3 1 。 关于采样闻题的研究主要有两个大的方向f l l 。一个方向是研究在佧么的 条件下,连续信号可以由离散的采样点重构;第二个方向是利用已经有的分 析结果重构函数,绘出霹以重椽酶骧确算法。具体地讲,采样阀题有下面两个 主要部分构成: 4 第l 章会绍 ( a ) 假设y 是空间础上的某一类函数,采样集为x = 酞d :j j ) ,这 里了是一个可数指标集,簧研究的主要问题是找满足函数,y 可以唯 一并且稳定从采样点,( 殇) :奶x 重构的条件。 ( b ) 根据采样设计快速有效的数值算法求重构函数,y 。 1 。3 非一致采样 在有些应用中,采样集x 一 g l :j f 了 是一致采样,i - e ,x 是一个规则 的礼维标准网格或者x 一 幻:j j ) ,九是一个大于0 的常量,( 蚓就是这一 情况。现在,已经有大量成熟的技术处理一致采样的闻题,并且有高效静实现 算法。但是,更多的实际问题是采样数据是非一致采样的,如【5 5 1 。 豳1 对非一致采样闷题及其应用做了总结性的介绍。并且对m e y 和 w i e n e r1 9 3 4 年在采样问题的一些理论工作做了简要的介绍。对应一致采 样定理,在非一致采样问题中对应的也有一个非常重要的定理:k a d e c s t t l 艘,定理e 磁。该定理主要给如了一个菲一致采样重构的条件。定理大致 内容是如果x = z 七酞) ,对任意七z ,满足l 一知l l o 是一个光滑因子,称为窗口宽度或放缩参数。如果分 布船的密度函数为p ( 。) ,p a 瞅n 证明了如果阻下两个条件成立 i 嗡一( m ) 2o ,当巴州一( m ) 】”2m 那么加( 。) 收敛到密度函数p ( z ) 记m ( z ) 是密度函数p ( z ) 的一个估计。对单变量的情形,v 。r ,砧。( z ) = 击啬妒( ! ) 。因为在每一点z 处,函数p m ( z ) 是有偏的,我们可以用均方 误差( m s e ) 作为衡量逼近程度的好坏。定义密度函数p ( z ) 对应的逼近函 8 第l 章会绍 数矾0 ) 的均方误差为 m s e ( z ) 】= e ( ( ) 一p ( z ) ) 2 ) 均方误差可以改写成偏差的平方和方差的和 m s e ( z ) 】一b i a s 2 ) 】+ 如m ( z ) 】 = ( e 扫挽( 茹) ) 一爹( 。) ) 2 + e 2 ( 。) 一e 扫m ( 。) ) 】 泰勒级数震歼 一晰肛去蚓茹) + 丢( 嘶) 如) 2 ( 允茁) ) 2 + 。 ( m 盯) 以+ 矿4 ) 。 对均方误差积分,可得到积分均方误差( m s e ) i m s e m ( z ) ) = m s e 如m ( z ) 】如 = 去砒+ “让2 出) 毗) 2 - 儿,( z ) ) 2 如 渐避、f 均积分均方误麓( a m i s e ) 如 。 豳上面的表达式,可以得如结论:要提高渐进乎均积分均方误差的收敛 阶,只能通过提高偏差的收敛阶。而且,最优的收敛率会无限接近于1 ,但不 等于重。所以,如果能构造出核函数具有某种磨光性质,能使得偏差部分的 收敛阶提高,那就能提高总的收敛阶。同时我们可以看出,满足这种性质的函 数舻需要放宽对核函数的一些限制,例如可能不再要求必须是一个取值菲负 的密度函数。这正是接下来要介绍的高价p a r z e nw i n d o w s 方法的最初想法。 1 7 论文的主要结构 这一节对本文的结构组织做一个简要介绍。第二章通过先定义基窗口遗 数给出了高阶p a 胧e nw i 耐o w s 方法的定义。我们给出了学习理论中的一些算 法,以及多变量逼近润题中关予随枧采样酶一些结果。对学习理论问题,当 采样的边缘分布函数在定义域的边界满足一定的衰减性条件的时候,我们推 9 第l 章会缓 导出了最小二乘回归和密度估计的学习率。随机采样问题中的采样点是非独 立等同分布,采样点受到规则嘲格点上的概率密度函数的噪音干扰。我们给 出了估计函数的逼近阶。第三章我们继续讨论第二章光于随机采样闯题的学 习。这章主要是对第二章进行扩展,在s o b 0 1 e v 空间定义了高阶p a r z e nw i n d o w s 方法。和第二章不同,这一章我们的采样点不仅非独立等同,受到的噪音干 扰也不再是按照规则网格上的概率密度函数生成,而是在规则网格附近有微 小鹊平移螽的噪音。采样点对应的采样蕊数的值也受到一定概率测度的嗓音 影响,但在每点处的期望值等于要逼近的暇标函数在这一点的函数值。第四 章是一个应用高阶p a r z e nw i n d o w s 方法的实际用例,主要是用一个二阶p a r z e n w i 耐渊s 函数估计采样的密度函数。最后一章主要讨论学习理论的一些最新发 展以及我们将来的研究工作。 1 0 第2 章高除鞭浅珏戳珏面w s 方法及蘧枫采样 第2 章高阶p a r z e nw i n d o w s 方法及随机采样 2 。1基本框架 我们从几个方面去学习高阶p a r z e nw i n d o w s 。首先,我们应用一些学习算 法去学习有界区域上的回归和密度函数。在边界上如果边缘分布概率函数满 足一定的衰减性质,在2 空间中我们得出了令人满意的学习率。同时,我们还 结合随机采样,拟插值和函数重构给出了一个多元逼近的框架形式。我们考 虑了样本点和相应的蘧数值都是受一定噪音于扰的情况下的函数回归和密度 函数估计。为提高学习率和减小逼近误差,p a r z e n 、m n d o w s 的阶起了很关键的 作用。 假定x 是r 扎中的一个子集,我们考虑定义在x 上的函数的逼近和学习。假 设z 琶x 的每一点对应的条件概率函数是定义在y := 酞的函数,记为m 。定义 要学习约尽标函数为 , 厶( o ) 一f 爹觑, 。x 。 ( 2 羔) ,y 学习理论孛,一般记回归函数为厶。采样理论或多元逼近中,厶记为要学习的 逼近函数。假设有m ( m 是一个正整数或) 个样本点,我们要从这m 个样本点 学习出雷标蘧数厶。 我们考虑的模型是在z := x y 上按照一定的概率测度序列 p ( ) ) ! ,分 布的样本点。特殊的情况,例如所有样本点都是独立同分布的情况,即所有样 本点不仅独立,并且他们的分布依据的概率测度序列都是相等的,这也是我 们在统计中最经常遇到的一种。对随机采样的学习,我们只保留了独立分布 这一条箨,两各个样本点分布依赖的概率测度不褥是相褥。也就是说,样本 点 鼢) 銎,依据的概率测度序列记为p 要各不相同。一般情况下,我们引用删 的假设条件,如下所示: 假设2 1 假设掰o 为一固定常数,样本点分布的概率测度序列为 强銎1 以 及条件概率为 如:z x ) 满足如下条件: f f jv z x ,触的支集为 一m ,卅; l l 第2 章裹除p a 徽罨w i n d 鹈曝方法及随辊采样 f ,彬vl tgm ,条件概率j 。( i ) 为如; 似) 所有按概率测度序列 p ( 习) 翟l 取的样本点z := ( 觑,犰) ) 銎1 都是独立的 如果趟记为p 匐在x 上的边缘分布函数,并且崩的期望为t 十i 。那么,i 然 张 銎l 都是x 上的序列点。这些点可以是弱一个穗霹的点,错如所有样本点 都是按照x 上的嗣一概率测度p x 分布f 3 8 4 5 1 ,则他们的期望值是同一个值。这 些廖期点也可以是个挽则或者不规则的霈格 1 3 朝,在采群理论秘多变量遥近孛 经常是这种情况。 假设鹩条件( i ) 表鹎对任意的z x , 靠( o ) m 。 铡2 重 回精阖题) 设z 上豹概率测度分布为p 。j d 可以分解为x 上的边缘 分布,以及对任意g x 的条件概率分布涵数p ( l 。) 。样本个数m o , 碳 莛妒并且故2 ( 一砸) , 那么样本点 巧) 都是按照概率p 弦分布的,但对应的均值吾= 幻b 舻是规则 网格耀露。如果尹是要逼近的菊数,那我们假设对铗意霉x ,概率测度应鲶 期望是厂+ ( z ) 。 1 2 第2 章高阶p a r z e nw i n d o w s 方法及随机采样 2 2高阶p a 亿e nw i n d o w s 样条空间中研究函数的逼近阶是样条理论的一个主要的基本目的之一。 数学上有大量关于高阶逼近理论的文献,其中,【2 5 】非常深入的研究了己2 ( r ) 空 问中的平移不变子空间上放缩线性算子的逼近阶,作者给出了在满足某些椭 圆犁性条件下的一些相关函数的逼近阶特征的完整刻画。【3 6 】分析了在一个空 间的有向集上的逼近阶,并指出在一定的正则化条件下,通过准插值的方法 可以达到最优的逼近阶。 本文主要引入高阶p a r z e nw i n d o w s 【4 】的方法并在此基础上给出了有界 区域边缘附近的边缘分布函数的逼近误差。关于边缘分布函数的逼近误 差在这之前就有不少文章介绍过,【2 9 ,4 1 1 讨论了x = 酞竹的情况;晰1 讨论了 在有界区域内部的情况。我们先定义基窗口函数,然后通过基窗口函数 给出我们的高阶p a r z e nw i n d o w s 的严格定义。记q = ( q 1 ,q 2 ,q n ) z 华为 指标集,r n 空间的样本点z = ( z 1 ,z 2 ,矿) r n ,多元变量单项式记 为扩= ( z 1 ) a ( z 2 ) ( 扩) ,同时记单项式的次数为川= q 1 + q 2 + + q n 定义2 1 记j n ,映射圣:胀r 竹_ r 。如果满足以下两个条件: ( i ) 厶。西( z ,让) 也三1 ,并且o 0 , 瞅掣) l 矸亡丽比,u 砂 ( 2 - 2 ) 那么,我们称圣是阶为j 的基窗口函数。 现在我们可以定义高阶p a r z e nw i n d o w s 。 定义2 2 如果j n ,圣:r n 黔一r 是阶为j 的基窗口函数。样本z = 毛,鼽) 竺1 ,则定义阶为j 的高阶p a r z 蛐w i n d o w s 为 眦) 2 著玑圣( ,z 啮 ( 2 3 ) 这里参数盯= 仃( m ) 0 称为窗口宽度。 高阶胁e nw i n d o w s 有个很大的优点是算法简单,而且不需要通过最优 化f 4 5 】就能直接求解。 1 3 第2 章高阶融z e 珏w i 珏曲臀s 方法及隧辊采样 接f :来我们介绍两种基本的窗口函数其中一类由平移不变核m ( z ,u ) 一 ( 珏一z ) 组成,有大量的密度估计和回归的文章【2 9 蠢1 硒l 讨论这类函数的误差分 析。 命题2 2 函数妒:舯_ r ,记m ( z ,u ) = 妒( 珏一z ) ,那么,垂是阶为了( ,n ) 的 基窗搿函数如果对g 纷+ z 白 o ,| 妒( z ) | 两薪并且 7 妒( 嚣) 如一l , 7 ( z ) z 穗菇嚣= o湘 | a | 2 ,那么汐不再是概率密度函数,在定义域上可能取到负值。 例2 5 命题2 2 表明妒己2 ( 黔) 时,妒的傅立叶变换妒( 枣) = 矗。妒缸) e 一茹如, 有驴( 善) g j - 1 ( r 竹) ,所以( 2 4 ) 等价于9 ( 0 ) = 1 。并且对任意o 川 t 7 r , 有d 穗( ) ( o ) = o 那么,豢满足命题2 。2 所述的衰减性质显矗。妒( ) 如o ,我 们总能找到妒以及对应的系数 ) b i ,使其满足( 2 4 ) : 蛐= 妒( 一歹) 戮 j 记6 ( 毒) = j 幻e 一筵,由( 毒) = p ( ) 6 ( ) ,我们只需要系数 幻) 瞄i ,满足 州蝴) 2 薹赢旷恸愀 ) ( 0 ) 地。v 川 z 由6 ( o ) = 淤 j 吩= 高,我们可以定义 d 口( 6 ) ( o ) = 隧,( 一颤) a ) 礼+ j 。 下面是一个关于双正交小波分析f 掰】的例子。在双正交小波分析中经常会 用到一对平移函数( 妒,) 作为基窝口函数,并且不像这些基窗口函数经常是不 对称的。这正是下面我们要介绍的第二类基窗口函数。 倒2 6 记量( z ,镪) 一f z 。妒0 一歹) ( 镪一歹) 其中妒,9 :静_ 酞满足对任意 的g + j ,l ,缸) l c 鼙( 1 + l 茹1 ) 一q 并且 d n ( 烈2 力) 一屯,o 以,o舻,i 口i z ( 2 5 ) 第2 章高阶胁z e n 晰n d o w s 方法及随机采样 兵中条件( 2 5 ) 称之为& m 门g 一礅条件。在1 4 2 j 的文苹中指出当且仅当对舻中任 意次数小于或等于,一1 的多项式p 满足歹z 。p 0 ) 厂( z 一歹) 兰p ( z ) ,( 2 。5 ) 才会 成立。因此,对任意川 j ,我们有 圣( z ,u ) ( 钆一z ) 口砒 r t l 2 三以俨力小一力心川) a 砒 2 互以一力小卅一尸砒 2 薹刊篆赢小咖( 巾广卢 2 薹出刊篆茄一纠矿( ( 巾) o _ p = 妒 一舢一z ) a j z n = 瓦- 0 - 其中妒和的衰减性质保证了定义2 1 中的第一个条件成立。所以m 是一个阶 为了的基窗口函数。 当m = 。o 的时候,为了保证( 2 3 ) 中的级数收敛,我们需要对分布函 数p ( ) 作一些限制,将在下一节中作更详细的讨论。特别地,记阢的方差为 , 程:= ( 可一,p ( z ) ) 2 d 阢 ( 2 6 ) ,y 在接下来的几章里将经常用到。 2 3 边界条件定义和相关函数空间 整个文章中,我们总假设集合x 是一个凸集。为了度量函数空间的正则 性,我们引入了两种函数空间。第一种函数空间为c j ( x ) 函数空间,为x 上 所有满足范数i i 州e - ,( x ) := l a i 0 且o o 边缘分布函数似的密 度函数为船存在而且满足 蚓帆 洲;。f 删、。酬驯s o 护 v 0 o ,p 可以取简单的形式p = m i n 以口一) 。 如果触在x 的边界的临域附近取值为零,那么( 2 7 ) 对任意大的p 0 都 成立。那么舞高可以任意接近口一亿 j 。另外一种特殊的情况是当p 挚离 总之,两种情况下我们都能简单地直接取p = j ,在此条件下,有如下推论。 推论2 4 在定理( 2 3 ) 的假设条件下,如果伊 挚舞或者在 z x : i n 毛r n 协i z 一可i ) 上有舰三o ,其中 o ,那么对任意o 2 并且秽 掣时, 我们的收敛率会优于标准的p a r z e nw i n d o w s 对密度估计的收敛率。其中, 对护 警爱的限制表示要求密度函数在边界上衰减很快,这对于要得到更 好的密度估计函数是一个合理的假设条件。特别地,当觞 4 ,取e j ( x ) 并 且x 的边界满足l i p s c m t z 条件,那么限制条件臼一鸶与口 掣高是等价的 高阶魏r z e nw i 耐o w s 方法一般是指歹 2 。我们可以注意到了在推论2 5 中对收 敛阶的关键作用并且当, 2 时,密度估计函数去墨l 垂( 詈,警) 不荐是一 个密度函数。 已经有有大量对于离阶核蘧数的研究文献,推论2 。4 和2 。5 给出的学习 率d ( m 南) 是个标准的结果,例如【2 9 ,4 1 1 给出了在全空问x :础的学习 率0 ( 隗赢) 、以及娜l 给逝了在x 内部并且运离x 的边界的区域知x : i n f 妊鼬何i z 一彰l 盯 上的学习率。我们的主要贡献在于研究了在边界上满足 第2 章高阶p a r z e nw n d o w s 方法及随机采样 一定衰减条件的边缘分布函数以及更加一般性的核函数来估计密度函数和回 归函数。 2 4 3 平移不变空间中有噪音的采样问题 本章最后一个主要结果是关于在全空间r n 上的一个规则网格危刀的多元 逼近问题,其中常数 0 。和经典的逼近问题不同的是,这儿的采样点不再 是准确选取,而是收到一定噪声的干扰而得到的数据。我们用黔上的一个概 率密度函数p 作为对采样点的噪音。所以原本的网格点幻,其中,矛,被 密度函数p ( 一幻) 的采样点取代。为了对误差分析,我们假定p 和厶具有一 定的衰减性和正则性条件。 定理2 6 假设圣是一个阶为j n 的基窗口函数,满足条件( 2 2 ) ,p 是瞅上 的一个概率密度函数设厶c j ( 黔) ,p ( 舯) 常量参数岛 0 ,刀 2 礼,对所有i q l j ,函数d 口厶,d a p 和满足下面的衰减性条件 i m ) i 南v z 肚 ( 2 1 0 ) 如果对o 1 ,样本z 和测度序列 户) j 加满足假设2 j ,并且辔= p ( 一幻) 和,p ( z ) = 矗秒却z ,那么当盯= m 一南时,v 0 6 1 ,我们有置信 度为1 6 的如下不等式 忡黼厶,口一j c 9 忆( r 。) 或 c 口c ,7 ( 2 m + 1 ) + c 口焉+ c ,7 | i 厶i | 以) 赫l o g 昙 其中磊,m ,是仅与q ,佗,叩,j 有关的常量参数。 2 5 样本误差 下面的等式是高阶p a r z e nw i n d o w s ( 2 3 ) 的极限形式 厶一z ,= 上圣( 詈,詈) 厶c 让,d ( 姜摆) c 毗 z x c 2 m , 为了给出厶,盯和厶的差异,我们利用3 9 1 或f 3 5 】的引理l 很容易地推导出随机 变量值在希尔伯特空间中的概率不等式。 1 9 第2 聿高玲豫r z e 致戳n 莲潲s 方法及瞧撬采样 引理2 7 。记希
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论