




已阅读5页,还剩61页未读, 继续免费阅读
(概率论与数理统计专业论文)密度核估计中最优窗宽选择的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 根据从一个总体中抽取的样本去估计总体分布的密度函数,在应用上 有重要意义通过这种估计,有助于识别和选定一个统计模型。密度核估 计方法是解决该问题的一类重要的非参数统计方法,有着重要的应用价值。 因此,对密度核估计进行深入,系统,广泛的研究显得非常重要。论文主 要研究了以下几方面的内容:, ,首先介绍了密度核估计的基本知识,从它的产生背景入手,通过对密 度核估计中核函数和窗宽的介绍,给出了密度核估计的定义以及核函数与 窗宽的研究概况,并讨论了密度核估计的大样本性质,包括密度核估计的 不可无偏性、渐近无偏性、均方相合性、均方误差的渐近性态、以及核估 计的一致相合性和多维总体核估计的致强相合性,其中重点讨论了多维 总体核估计的一致强相合性,给出了若干定理及其证明过程。 、 其次指出了在样本容量胛足够大的情形下,密度核估计能否成功的关 键是窗宽的选择问题。第三章主要研究的是如何选择最优窗宽问题,并在 选取高斯核的情形下;从实际计算的角度,讨论了核估计中两种选择最优 窗宽的新方法,并分别进行了随机模拟,通过表格数据分析与m a t l a b 作图 得出最优窗宽值,然后与理论上的最优窗宽值代入密度核估计表达式进行 比较;在均方误差最小意义下,验证了密度核估计中用新方法选择最优窗 宽是一个非常有效的途径 以上讨论都是在固定窗宽的情形下研究的,第四章从一个崭新的角度 提出了变窗宽密度核估计思想,并对其性质给出了理论上的证明。而第五 章则在测度弱收敛的意义下,研究了一般概率测度“的核估计虬,并且得 到了它的渐近无偏性,强相合性以及在给定条件下的收敛速度。文章最后 对部分内容提出了相关的问题,这也为以后的研究提供了方向。“ 关键词密度核估计;窗宽;样本容量;均方误差;递归算法;概率测度 相合性;收敛速度 燕山大学理学硕士学位论文 a b s t r a c t i ti sv e r yi m p o r t a n tt oe s t i m a t et h ep o p u l a t i o nd e n s i t yf u n c t i o nb ys a m p l e s w h i c hc o m ef r o mt h ep o p u l a t i o n t h ed e n s i t yk e r n e le s t i m a t i o ni sam e t h o do f n o n - p a r a m e t e r s t a t i s t i c sw h i c hi su s e dt os o l v et h ep r o b l e m , a n dt h em e t h o dh a s i m p o r t a n tv a l u ei na p p l i c a t i o n i nt h i sp a p e r , w ew i l le m p h a t i c a l l yd i s c u s st h e f o l l o w i n gc o n t e n t s : w ef i r s t l yi n t r o d u c et h eb a s i ck n o w l e d g eo fd e n s k yk e r n e le s t i m a t i o n f r o mi t sb a c k g r o u n d , a c c o r d i n gt ot h ei n t r o d u c t i o no fk e r n e lf u n c t i o na n d b a n d w i d t h , w eg i v et h ed e f m k i o no fk e r n e le s t i m a t i o na n dt h eg e n e r a l s u m m a r i z a t i o n i ns u c c e s s i o n , w er e s e a r c ht h eb a s i cp r o p e r t i e s i n c l u d i n g n o n - p a r t i a lp r o p e r t y , a s y m p t o t i cn o n - p a r t i a lp r o p e r t y , t h em e a ns q u a r e c o n s i s t e n c y , t h e m e a ns q u a r ee r r o r a s y m p t o t i cp r o p e r t y , t h e u n i f o r m c o n s i s t e n c yf o rt h ek e r n e le s t i m a t i o na n dt h eu n i f o r ms t r o n gc o n s i s t e n c yf o r t h em u l t i v a r i a t ep o p u l a t i o nd e n s i t yk e r n e le s t i m a t i o n i nt h e s ep r o p e r t i e s ,w e h i g m i g h tt h el a s tp r o p e r t ya n dg i v es o m et h e o r i e sa n di t sp r o o t h e o r e t i c a la n ds i m u l a t i o na n a l y s i sh a v es h o w nt h a tt h ec h o i c eo ft h e k e r n e lf u n c t i o ni sn o tc r u c i a lf o rd e n s i t ye s t i m a t i o ni nt h ec a s eo fi n d e p e n d e n t i d e n t i c a l l yd i s t r i b u t e dr a n d o mv a r i a b l e s t h em o s ti m p o r t a n tp a r ti nk e r n e l e s t i m a t i o nm e t h o di st os e l e c tt h eb a n d w i d t h t h e nn e x tc h a p t e ri sa b o u tt h e p r o b l e mo fh o w t oc h o o s et h eo p t i m a lb a n d w i d t h f r o mt h ea n g l eo f p r a c t i c a l c a l c u l a t i o n , w et r yt og i v et w on e wm e t h o d sw h i c ha r eu s e dt os e l e c tt h e o p t i m a lb a n d w i d t h t h eo n ei st h er e c u r s i o nf o r m u l ao fb a n d w i d t hs e l e c t i o n w h i c hi su s e dt oc h o o s et h eo p t i m a lb a n d w i d t h , a n dt h eo t h e ri st h ed e c i d e d e x p r e s s i o nw h i c hi su s e dt oc h o o s et h eo p t i m a lb a n d w i d t hb ym i n i m i z i n g a c c o r d i n gt og r a p h i c sa n dm b l e s ,w es h o w t h a tt h et w om e t h o d sp e r f o r mv e r y w e l lb ym e a n so f c o m p a r i s o n t h ef o l l o w i n gc o m e mi st h ei d e ao f v a r i a b l eb a n d w i d t hf o rk e r n e ld e n s i t y a b s t r a c t e s t i m a t i o nw h i c hi sc o n s i d e r e df r o man e w p o i i i to f v i e w f u r t h e r m o r e ,w eg i v e an e wm e t h o do ft h ek e r n e le s t i m a t i o na n dp o i n to u tt h ec o n s i s t e n c yo ft h e m e t h o d , a n dt h e nw es h o wt h ep r o p e r t yi nt h ef o r mo ft h e o r e mi nt h el a s t c h a p t e r , t h ek e r n e le s t i m a t i o nu , o f g e n e r a lp r o b a b i l i t ym e a s u r et i ss t u d i e d 1 1 1 e a s y m p t o t i cn o n - p a r t i a lp r o p e r t y , t h es t r o n gc o n s i s t e n c ya n dr a t eo f c o n v e r g e n c ea r eo b t a i n e du n d e rg i v e nc o n d i t i o n s f i n a l l y , t h ea u t h o rp u t f o r w a r ds o m eq u e s t i o n sw h i c hh a v e n tb e e n w o r k e do u ti nt h i sp a p e r t h eq u e s t i o n sp r o v i d et h ed i r e c t i o no f i n v e s t i g a t i o ni n t h ef u t u r e k e y w o r d sd e n s i t yk e r n e le s t i m a t i o n ;b a n d w i d t h ;s a m p l ec a p a c i t y ;m e a n s q u a r ee r r o r ;r c c u r s i o nf o r m u l a ;p r o b a b i l i t ym e a s u r e ;c o n s i s t e n c y ; r a t eo f c o n v e r g e n c e 燕山大学硕士学位论文原创性声明 本人郑重声明:此处所提交的硕士学位论文密度核估计中最优窗宽 选择的研究,是本人在导师指导下,在燕山大学攻读硕士学位期间独立进 行研究工作所取得的成果。据本人所知,论文中除已注明部分外不包含他 人已发表或撰写过的研究成果。对本文的研究工作做出重要贡献的个人和 集体,均已在文中以明确方式注明。本声明的法律结果将完全由本人承担。 作者签字氰咝元 日期:卿箨1 1 月幻日 燕山大学硕士学位论文使用授权书 密度核估计中最优窗宽选择的研究系本人在燕山大学攻读硕士学 位期间在导师指导下完成的硕士学位论文。本论文的研究成果归燕山大学 所有,本人如需发表将署名燕山大学为第一完成单位及相关人员。本人完 全了解燕山大学关于保存、使用学位论文的规定,同意学校保留并向有关 部门送交论文的复印件和电子版本,允许论文被查阅和借阅。本人授权燕 山大学,可以采用影印、缩印或其他复制手段保存论文,可以公布论文的 全部或部分内容。 保密口,在年解密后适用本授权书。 本学位论文属于 不保密叫 ( 请在以上相应方框内打“”) 作者签名:孓咝无 别噬轻彩砗 日期:“年l 月p 日 日期:卅年【问佣 第1 章绪论 第1 章绪论 1 1 课题背景 概率密度函数是概率统计中最重要的概念之一。虽然在统计学上常提 “总体分布”这个名词,其实,使用密度的概念去规定或刻化一个统计模 型不仅常见i 而且比使用分布概念更合适和方便。在各种实际问题中,变 量取值的分布呈现“两头小、中间大、左右对称”这种“正态类似型”者 为数颇多。这些特点在密度函数的图像上一目了然,而在分布函数的图像 上则不然。密度估计问题,就是要通过从总体中抽取的样本去估计其概率 密度函数厂( 工) 。如果概率密度函数形状被假定或已知,那么就用参数估计 法如果概率密度函数的形状未知,则用非参数估计法【l - 2 1 。但一般不要求 密度函数有某种特定的数学形式,如密度为正态或伽玛分布唧之类,也就是 说未知密度函数的所属类型并不知道。理由很明显:若密度函数的数学形 式已知,而只含少量未知参数,则不如径直考虑这些参数的估计问题,而 不提密度估计问题。因此,密度估计问题在本质上说是非参数性的。如今 最熟悉和最流行的非参数密度估计法是密度核估计法,也称为p a r z e n 密度 估计法 4 - 9 1 。 密度核估计作为一种非参数统计方法,在近三十余年来吸引了不少学 术界的注意,通过研究发现密度核估计的方法并非建立在某种艰深的概念 或数学工具的基础上,而不过是古老的直方图方法的自然发展,这在统计 发展史上有一定的代表性。 最近几年,特别是随着数据库的广泛应用和数据挖掘【1 0 】技术的兴起, 概率密度估计又有了许多新的应用,其应用领域涉及社会科学、物理科学、 生物科学以及各种工程技术领域7 1 。应当指出的是,密度估计的重要性 并不在于它的单独使用,而是作为统计推断的中间环节发挥作用。著名统 计学专家s i l v e r m a n 曾指出,概率密度函数估计在数据统计处理的所有阶段 都是有用的。 燕山大学理学硕士学位论文 1 2 密度核估计的兴起与发展 1 2 1 直方图法 很早时期,由于概率和数学工具都有限,当遇到统计问题时,只有从 直观的角度提出处理方法:以频率估计概率,以直方图估计密度。所以直 方图方法成为一种最常用的密度估计方法。直方图估计法就是:随机变量x 如有密度f ( x ) ,则x 取值在区间【口,b 】上的概率p ( a x b ) 等于 j :f ( x ) d x 。若有x 的简单样本五,恐,k ,贝l j p ( 口x 6 ) 可用 # p :l j h ,五b n 来估计,其中# ) 表示集a 所包含的元素个数。因此p ( a z 6 ) ( 6 一a ) 即r 厂( x ) 出( 6 一口) 可以用 # i :l i n ,口五 b n ( b - a ) 来估计:当6 一口充分小时,r 厂( x ) 出( 6 一口) 可近似表示厂o ) 在区间 口,b l - _ 之值,这样就得到了f ( x ) 的一个估计这个估计的图形是一个边长为h 的 阶梯型,若从每一个端点向底边作垂线以构成矩形,则它是由一些直立的 矩形排在一起而成的,以此得到直方图之名。 基于此原理直方图估计法可具体描述如下,选择一个适当的正数h ,把 全直线分成若干长为h 的区间,任取这些区间之一,记为,对x i ,贝l j f ( x ) 的估计可定义为 工( 加坐堕掣o q ) 即疗 直方图估计法的优点在于简单易行,在”较大而容许h 较小的情况下,所得 图像尚能显示密度函数的基本特征,但它是阶梯函数,是不连续的,且从 统计角度看一般说效率较低,于是人们想法改进它。不难想象,这种估计 对计数区间 a , b 】中心部分比较精确,而对计数区间端点处精度稍差。 2 第1 章绪论 1 2 2r o s e n b l a t t 法 为克服上文提到的直方图法的一个缺点对每个区间边缘部分密度 值的估计较差,r o s e n b l a t t 1 8 1 于1 9 5 5 年提出了一个简单的改进。指定一个 正数 ,对每个工,以l 记以x 为中心,长为 的区间,即ix 一冬,x + 冬l 。 以作为( 1 1 ) 式中之,算出之值作为在点工处取值,o ) 的估计。这就 是r o s e n b l a t t 估计。即 z :坐兰孚型 r o s e n b l a t t 法与直方图法不同之处仅在于,它事先不把分割区间定下来,而 让区间随着要估计之点工跑,使x 始终处在区间的中心位置,而获得较好的 效果理论上可以证明:从估计量与被估计量接近程度的数量级上看, r o s e n b l a t t 方法确实优于直方图法。 1 2 3p a r z e n 的核估计t ,不难看出:r o s e n b l a t t 估计仍为一个阶梯函数,只不过与直方图估计比 较起来,各阶梯之长不一定相同而已,仍非连续曲线。另外,从r o s e n b l a t t 估计的定义中可以看出,为估计厂在点工的值,( 力,对与工在一定距离( 确 切地说,是彰2 ) 内的样本来说,所起的作用一样,而在此以外的样本则毫 不起作用。直观上可以设想:为估计f ( x ) ,与x 靠近的样本,所起的作用 似应比远离x 的样本要大些。这些在p a r z e n 于1 9 6 2 年提出的核估计中得到 了体现。下面给出p a r z e n 核估计【6 】的定义。 定义1 2 1 设置,五,j 0 是从一维总体x 中抽出的独立同分布样 本,z 具有未知的密度函数o ) ,x r ,则f ( x ) 的核估计为 删= 去喜k l ( x - x , j 其中k ( ) 为r = ( m ,+ 。) 上的肋陀,可测函数,称为窗或核函数,吃是一 个同”有关的正数,称为窗宽或光滑参数或带宽。若k ( ) 为卜1 ,1 】上的均 3 燕山大学理学硕士学位论文 匀概率密度函数,则核估计就是落在i 工一吃,x + l 的置对应的z ( x ) 的简 单算术平均值,所以称参数吃为窗宽,越小,参加平均的( x ) 就越少; 吃越大,参加平均的z ( x ) 就越多。 为保e f c x ) 作为概率密度函数的合理性,既要保证其非负性,又要保 证积分的结果为1 ,这一点可以通过要求核函数k ( ) 是分布密度函数得到 保证,即k ( x ) 0 ,i k ( x ) 出= 1 ,实际上有 肛威= 镛d 等卜 丢喜串【等卜 三f 足( “) d u = 1 甩面。 由核估计的定义可知,工( 力既与样本容量玎有关,又与核函数k ( ) 及窗宽 吃的选择有关。在给定样本之后,一个核估计性能的好坏,取决于核函数 及窗宽的选取是否适当。窗宽吃随 增大而下降,从理论上说,是随着 盯一而趋于0 。 。取得太大时,由于工经过压缩变换 一五) 之后平均 化作用突出了,而淹没了密度的细节部分,反之太小了,随机性的影响会 增加,从而使工( x ) 呈现很不规则的形状,这可能掩盖f ( x ) 的重要特性。所 以应该适当地选择吃以平衡上述两种效应;而对核函数k ( ) 的要求可适当 放宽,即不一定要求核函数足( ) 为概率密度函数,但是从实际上讲,要求 核函数k ( ) 为概率密度函数是合理的。这是因为当核函数k ( ) 为概率密度 函数时,容易验证估计f c x ) 也是概率密度函数。而且如果核函数k ( ) 满足 某些光滑性条件时,如连续性、可积性,则估计l ( x ) 也同样继承了这些性 质。因此选择核函数k ( u ) 是否适当影响着核估计的精度。原则上,我们可 以对核函数k ( ) 施加一定的限制,使得估计量与被估计量的偏差在一定意 义下尽可能地小。例如:可以要求核函数量( ) 是非负的、对称的、有界的、 连续的或其一阶矩为零等等。因此,在实际应用中核函数k ( ) 与窗宽吃的 4 第1 章绪论 选取相当重要,它们关系着整个核估计的成败与否。 还有许多密度估计法,如正交序列估计法【1 9 1 、最近邻估计法【1 1 、级数 估计法、极大似然估计法口她目等,由于在许多文献中,普遍使用的密度估 计法是核估计法,而在核估计中最受关注的是核函数的选择与窗宽的选择 问题,因此统计学家们就这方面做了许多研究 2 3 - 3 u 。 1 3 窗宽选择概况 1 3 1 核函数 。以一维情况为例,常用的核函数1 3 2 1 见表1 - 1 所示,其中最后一列表示 s p 1 l l s 的密度核估计中可能选择的核函数,也是最常用的四类核函数,不 同的核函数表达了根据距离分配,各个样本点对密度贡献的不同情况。 表1 - 1 常用的核函数 t 曲l el ls e v e r a lc o m m o nk e r n e lf u n c t i o n s 核函数名称 核函数丘“) s p i 邺中 p a r z e n ( u n i f o r m ) ,s t ) 2 0 = _ i 角( t r i a n g l e )( 1 - ,叫1 ) v e l ,a n e c h i k o v 3 ( 1 - u 2 ) ld “is1 ) 4 四次( q u a r t i c l 1 5 ( 1 - u ) l 删s 1 ) 1 6 三权f 肼w e j g i l o 3 5 ( 1 一h ) ,删1 ) s 2 高斯( g a u s s ) e x p ( - u 6 余弦( c o s i n u s ) z c o f 2 ) ,d “id 4 指数( e x p o n e n t ) 面洲) 下面画出表l - 1 中最常用的四类核函数的图像,见图1 - 1 所示。 很多学者对于核函数的选取工作做了不少的研究,c o l i n0 ,w u l 3 3 1 曾经 在1 9 9 7 年提出了核函数的不同选取对于密度核估计收敛速度1 3 4 - 3 7 的影响, 燕山大学理学硕士学位论文 妊 岛 越 翻 妊 闰 魁 韶 x 随机变量 ( a ) 均匀核 c a ) p a r z e n 妊 圈 魁 韬 ( b ) 高斯核 ( b ) g a u s s x随机变量x髓机变量 (c)余弦核(d)三角核 ( c ) c o s i n u s( d ) t r i a n g l e 图1 - l四类常用核函数的图像 f i g i - 1p l o t so f f o u rk e r n e lf u n c t i o n s 得出了最优核函数为e p a n e c h i k o v 核h e o k ( u ) = 3 ( 1 - u 2 ) i ( 】u l 1 ) 4 ;薛留 根、古震离、郑忠国【3 8 】利用随机加权核的思想通过找概率密度函数估计的 6 第l 章绪论 随机加权统计量,在适当的条件下证明了随机加权分布逼近核估计误差分 , ,! 丝、 布的精度为d l 九2 “2 ( 1 0 9 n ) 4 。l + 4 gi ;王洪春则在把核估计改进为包括无界支 l , 撑甚至是不可积的情形下,得出了回归函数的核估计及在删失情形口明下的 收敛速度等等。 有关核函数的研究一直是人们研究的重点 4 0 - 4 5 ,如何根据所给数据选 择合适的核函数成为人们所关注的核心问题。吴涛、贺汉根、贺明科m 三 人提出利用散乱数据插值的办法确定特征空间中感兴趣点的内积值以代替 传统核函数的一般式方法,此方法的泛化能力优于绝大部分的基于传统核 函数的支持向量机;而许建华:张学工、李衍达 4 7 j _ - - 人则利用简单核函数 的迭代算法来实现线性分类器的设计。 j 如果能采集足够多的训练样本,无论实际采取哪一类核函数形式,从 理论上讲,最终一定可以得到一个可靠的收敛于密度的估计结果,也就是 说在样本容量足够大的情况下,核函数的选取对总体密度的估计并不是至 关重要的,对于总体密度函数的任何一个估计,窗宽吃的选取是密度核估 计能否成功的关键 4 s 。4 9 】。 1 3 2 评价标准 由于z ( x ) 既同样本有关,又是考察点的函数。因而对固定的考察点工, 估计精度的一种自然测度为 距【工( 功】= e 【正( 功一,( 叫2 ( 1 - 2 ) 称式o - 2 ) y oz ( 力的均方误差我们熟知有 煅龇五o ) 】= 研工( x ) 一厂( x ) 1 2 = e 【z ( x ) 卜厂o ) 2 + 玩r ( z o ) ) ( 1 - 3 ) 。 式( 1 3 ) 右端由两个部分组成:第一项是偏差项,而第二项是估计的方差。 7 燕山大学理学硕士学位论文 我们自然希望式( 1 3 ) 的两部分越小越好,但是要同时减少这两部分是困难 的。如降低偏差,则方差有增大的趋向,反之亦然。直观上看,偏差项表 明估计量对厂的光滑修正的程度,一个估计量的光滑程度越高,可能更多 地忽略,的某些细节,从而增加随机误差。对于z ( x ) 为核估计时有 e ( x ) 】= i k ( y ) 厂。一h y ) d y v a r f ( x ) 】2 去p ( 朋卜h y ) d y 一 土f 陋 ) 厂( x h y ) d y 2 因而一个核估计的光滑程度只与光滑参数吃有关( 当核函数k ( ) 已确定 时) ,而与n 无直接关系。为降低其均方误差,必须调整光滑参数( 即窗宽) 吃。 对于密度估计来说,更有实际意义的精度度量应该是整体性测度。首 先由r o s e n b l a t t 等人提出而后被广泛使用的一个整体测度是积分均方误差 m i s e f , ( x ) 】_ e j ( ( x ) 一,( x ) ) 2 出 _ j 砸协( x ) 】出= ( 1 - 4 ) 儿e o ) 卜,( x ) 2 凼+ p 碲( z ( x ) ) 出 因而有m i s e = 积分偏差平方和+ 积分方差,由式( 1 - 4 ) ,前段对均方误差的 分析同样可适用于积分均方误差:对于核估计来说,应该选择使得相应 的核估计的m i s e 达到最小。 本文考虑采用检验拟合优度的一个常用原则就是使得均方误差 m s e m ( m e a ns q u a r ee r r o r ) 最小作为评价标准来选择最优窗宽。由于用核估 计法需要计算每一个z ( x ) 与f ( x ) 的均方误差,计算量很大,因此本文考 虑用m a t l a b 5 0 - s 2 编程实现其过程。 1 3 3 近几年窗宽研究概况 1 9 7 6 年,k u e l b s t 5 3 搿1 讨论了核为有界变差函数,常数窗宽h 条件下, 核估计的一致强相合性;柴根剩5 5 巧q 于1 9 8 4 年讨论了核具有有界支撑时, 第1 章绪论 随机窗宽核估计的一致强相合性;刘海燕,赵联文【5 7 】在1 9 9 9 年给出了一种 变窗宽密度核估计的构造方法。理论上和大量的模拟已经证明,在样本容 量足够大的情况,核函数尉) 的选取对总体密度估计并不是至关重要的, 对于总体密度的任何一个估计,窗宽吃的选取是核函数密度估计能否成功 的关键。s f l v e r m a n 和r a u d y s 也分别指出了窗宽吃具有核估计的最重要特 性。p a r z c n 早在1 9 6 2 年就从理论上给出最优窗宽吃的表达式。从实际计算 的角度,r u d e m o ( 1 9 8 2 ) 和b o w m a n ( 1 9 8 4 ) t 5 s 】提出了用交叉验证法选择最优窗 宽吃,h a l l l 5 9 在1 9 9 2 年做了进一步工作,提出了用光滑交叉验证法选择最 优窗宽吃,a h m d 【6 0 i 和r a n 在2 0 0 5 年提出了用对比方法选择最优窗宽吃。 本文的主要工作是重点研究核估计中最优窗宽吃的选择问题,并通过 对核估计定义的理解,从一个崭新的角度提出变窗宽密度核估计的思想, 最后给出一般概率测度的核估计 1 4 论文的章节安排 本论文共分5 章内容来研究密度核估计中窗宽选择的问题,其中每章 内容的最后部分都以“本章小结”的形式进行总结。 第1 章绪论。第一节主要介绍密度核估计的产生背景和历史概况; 第二节介绍密度核估计的发展;第三节是窗宽选择概况;第四节是论文的 章节安排。 第2 章密度核估计的大样本性质研究。第一节是密度核估计的不可 无偏性;第二节是密度核估计渐近无偏性,给出了定义、引理及简单证明; 第三节介绍密度核估计的均方相合性;第四节介绍密度核估计均方误差的 渐近性态;第五节是核估计的一致相合性;第六节是多维总体核估计的一 致强相合性,并给出了证明 。 第3 章两种选择最优窗宽的方法。这是本论文的重点章节部分。第 一节介绍了窗宽选择的重要性;第二节、第三节从实际计算的角度给出了 两种选择最优窗宽的新方法,并通过随机模拟验证效果很好。 第4 章变窗宽密度核估计的构造及均方相合性。第一节是核估计的 改进;第二节是改进后核估计的性质,并给出了证明;第三节通过随机模 9 燕山大学理学硕士学位论文 拟验证了这个重要结论。 第5 章一般概率测度的核估计。给出一般概率测度核估计的定义, 并证明其若干大样本性质。 1 5 本章小结 作为首章绪论,本章的主要目的是介绍课题背景和铺垫全文,主要包 括以下几个小节。 第一节课题背景部分,阐述了课题的来源,其所属领域与该领域的历 史发展,为本文做一个全局的定位。另外,本节阐明了关键词“密度核估 计”精确的数学定义,这是本文的理论基础。 第二节核估计的兴起与发展,从介绍直方图这种最简单而常用的密度 估计开始,根据核估计发展的顺序,分别介绍了r o s e n b l a t t 核估计与p a r z e n 核估计,且说明核估计中核函数选择和窗宽选择对估计值的影响。 第三节中简单介绍了常用的核函数,通过图示法展示了四类最常用的 核函数,并给出选择窗宽的一个常用的原则,这是后面章节中所有模拟计 算部分的重要依据。最后总结出近几年窗宽的研究概况。 第四节中介绍了本篇论文的结构安排,给读者呈现一个清晰的层次。 有了本章的基奠,后面章节的论述才能言之有据,据理成章。 1 0 第2 章密度核估计的大样本性质 第2 章密度核估计的大样本性质 2 1 核估计的不可无偏性 定理2 1 1 对所有x r ,核估计量不可能无偏。 证明用反证法,假设e 【五( 力】= ,( 力,对所有的x r ,则r z o ) a x 为f ( b ) - f ( a ) 的一个无偏估计量。这是由于 e j :五o ) 出 = e 正瓦o ) 出= f ( 6 ) 一f ) 由此可以看出,f ( b ) - f ( a ) 的唯一的无偏估计量,即在五,五,五中为 e ( 6 ) 一e ( 口) ,其中e ( x ) 表示经验分布函数,此导致矛盾。这是因为,由 此表明经验分布函数是可微的【6 1 1 。证毕。 2 2 核估计的渐近无偏性 设五,恐,五是来自总体密度为厂 u d 样本,引进核估计 删= 去喜k ( 警 p , 固定x ,所谓z ( 砷是( x ) 的渐近无偏估计,是指 挑叫( x ) 】= ,o ) ( 2 - 2 ) 成立。当然使得式( 2 2 ) 成立的条件包含在下述引理中 引理2 2 1 1 1 足( “) 和g o ) 都是定义在( ,+ ) 上的肋r d 可测k 2 1 函 数,满足条件 ( 1 ) k 在( 哆+ ) 有界; ( 2 ) j 二l 足 ) i 幽 ; 燕山大学理学硕士学位论文 ( 3 ) 孽墨u k ( u ) = 0 或者g 在( m ,+ 。) 有界; i “l ( 4 ) c i g ( x ) i 出 。 令球,= 去c k ( 薏 g c m 式中”。为撇吃吡则当x 是g 的连续点时,有 溉岛( x ) 2g ( 参) l k ( u ) d u 又若g 在( m ,+ o o ) 有界且一致连续,则 熙 s u p 陋) 一删亡脚) 如| ) = o 定理2 2 i t l 】若核函数k ( ) 满足引理的条件,且 c 世 ) d u = 1 ( 2 - 3 ) 而舰h - o ,则对厂的连续点x 有式( 2 2 ) ,若,在全直线上一致连续,则 嬲 s u p l e z ( 垆似) 1 ) = 。 2 3 核估计的均方相合性 设有核估计式( 2 1 ) ,对某个x 有 舰e 阮( x ) 一,( 石) 】2 = 0 ( 2 - 4 ) 则称工( z ) 是厂( x ) 的均方相合估计,这时正( x ) 必是弱相合的,即当刀一o 。时 五( x ) e 斗,( 膏) 定理2 3 1设核函数k ( ) 满足以上引理的条件及式( 2 3 ) ,且 1 2 第2 章密度核估计的大样本性质 熙2o l i m 7 囊2 o 。,则对。( x ) 的任一连续点x ,式( 2 4 ) 成立 证明由于五,五,瓦为f j 彳,且有密度,( 工) 可知 吨1 = i 言哳m x - x , _ 嘉e 卜2 降炉, 面1 瓦1j 二k ( 斟砌= 去去亡誓2 ( 期m 训砌 , 不难验证,若k ( ) 满足引理2 2 1 的条件,则k 2 ( ) 亦然。因为f c 在x 点连 续,由引理2 2 1 知 1 | 吨l i r a ! f 。+ = k 2 曙 m 叫砌锁功c 酸岫 o 。 式( 2 - 5 ) 就变为 哳瞰叫= - - - 麦f ( x ) ( k ( f ) ) 2 衍+ 。( 去j 去m ) ( k ( f ) ) 2 西 于是有 v a r i f ( x ) = 0 。又根据定理2 2 1 ,有船e 阢o ) 】= 厂( x ) ,所以 当”一时 e 【( x ) 一厂( x ) 】2 = e 【工( 工) 卜( 功 2 + 陆【z ( 工) 】,o 证毕。 2 4 均方误差的渐近性态 现在进一步求出均方误差的主要部分,由此可以对吃和k ( ) 的选择提 供一些信息。 假定总体密度,满足条件。( x ) 在( - ,+ m ) 上有界且处处连续。又设核 燕山大学理学硕士学位论文 幽毅k ( ) 为概翠罾厦,满足条仟 向= c 斌 ) a u = o ,如= c 甜2 置 ) d u o o ( 2 - 6 ) 记吒 ) = 研( x ) 卜厂( 工) ,则易见 屯( x ) 贸= j :k ) 【厂 一吃“) 一,( 工) 】瑶d h = j :k ) 厂 一“) + “f ( x ) 一,( x ) 】瑶d “= 二足( “) “2 f ( x o h 甜) 妇2 此处例1 ( 日与x ,“,疗有i y e ) ,+ 由式( 2 - 6 ) 和控制收敛定理眄2 1 知若,。( 功o , 则有 玩( x ) = i i 厂( 功屯醒+ 。( 瑶) ( 2 - 7 ) x 知若f ( x ) 0 ,有 叫删= n - 去f ( x ,亡鳓幽+ 。陆) p s , f l 拭( 2 7 ) 、式( 2 - 8 ) 得 朋船( z ( x ) ) = 叫 o ) 二,o ) 】2 = 【e l ( x ) 一,( x ) 】2 + 哳阢o ) 】= 抄烤n 去m ) j 二戤蛐+ 高阶无穷小项 ( 2 9 ) 主要部分就是式( 2 - 9 ) 的前两项之和,为了使这主要部分达到最小,应取 吃= 沁) c 破“) 州( 矿( x ) ) 2 卜“5 ( 2 - 1 0 ) 1 4 第2 章密度核估计的大样本性质 这时有 脚( 胎) ) - 和( 呻( e 脚) 砌) 2 乞厂叫2 5 ( ,7 5 ) ( 2 - 1 ) 特别,7 当k ( j 为均匀核时,式( 2 1 0 ) 和式( 2 1 1 ) y 戎为 = 9 f ( x ) 2 f 2 j l ,n - ” 乜1 2 ) m s e = ( z ( x ) ) = - ;1 4 4 4 ”( 厂4 ( 彤。) “5 一”+ d ( ,z “5 ) 由式( 2 1 1 ) 可以看出在前面推导中所提及的条件都满足的情况下,随着样本 容量疗的增加,尬e ( 工o ) ) 最多可以用一”的速度收敛于0 ,而为了达到 这个速度,吃必须以行。1 ”的速度趋于0 。自然,无论是式( 2 1 0 ) 或式( 2 1 2 ) 都不能用于具体确定吃的值,这因为其表达式中涉及未知量厂o ) 和厂 ) 。 表达式( 2 1 1 ) 解释了在前面提到过的一个事实,即r o s e n b l a t t 的估计式 优于直方图估计,因为与以上类似的计算表明:对直方图估计而言,均方 误差至多只能达到玎“3 的数量级 2 5 核估计的一致相合性 设z ( 力是以茁( ) 为核的核估计,作为一个整体,工o ) 与总体密度厂( 力 的接近程度可用许多方法去刻化,一个自然的度量就是 乞= 乞( 五,五,x ) = s u p l f ( x ) - f ( x ) 1 j 要研究的问题是在什么条件下,当珂寸。时,毛依一定的意义收敛于0 。 以k o , ) 记置( ) 的f o u r i e r 变换 k f y ) = ie - 掣k ( u ) d u 有下面的定理 定理2 5 1 设以下条件满足 ( 1 ) f 在( _ 一,+ ) 一致连续; 燕山大学理学硕士学位论文 ( 2 ) i i ) l 砂 m ,k ( ) 为概率密度; ( 3 ) 当卯时。o 时,吃 o ,甩2 寸。则当n o o 时 己山o 证明由条件( 2 ) ,用反演公式,可得 脚) = 去c ”k ( y ) d y 锄 ( 2 1 3 ) 由此知k 在( 一,+ o 。) 有界;又由条件( 1 ) 易知厂在( o 。,+ 。o ) 有界。于是引理 2 2 1 的条件满足,由其结论可得 i m s u p e l ( x ) 一( x ) i l = 。 ( 2 1 4 ) 记吣) 弓芸 其中i 2 = - - 1 ,在胸) 的表达热撇l ( x - x j l 习 式( 2 - 1 3 ) 代替,再经过适当的整理得 z ( x ) = 石1 l + m p 一。 ) k c - h 甜) 幽 于是有s u p 阮( 力一e ( 工) i - - e i k + ( - h ) 卜i i f ,。( “) 一影。 ) la u ,再注意到 e b 胁) 一e l ( x ) i c 陪酬x z 阿( u ) - z v ( u ) l d u _ ( 2 - 1 5 ) ( 魂) 。1c 胁) l d u o o 因e h l 0 引理2 6 2 设五,五,z 是枷的随机变量,若 ( 1 ) 核函数k 为r 一上的一个概率密度函数,且满足 i 毂6 x 旷k ( x ) = o ,s u 。p 量( o ,e x p ( 毛,z 瑶) 0 ,使得 e ( 彳) l , 簖,足【( 】,一x ) h , , 2 s o y ) d r 霄90
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 期末说课稿-2025-2026学年中职基础课-拓展模块-教科版(2021)-(英语)-52
- 2025成都市房地产交易代理服务版合同
- 2025二手房屋买卖定金合同模板
- 随州事业单位笔试真题2025
- 2025年中国国际贸易中合同风险与防范策略研究
- 印刷厂员工调岗补贴管理规定
- 2025年签订合同的重点留意事项盘点
- 郴州事业单位笔试真题2025
- 化肥厂质检设备更新规章
- 化肥厂车间通风检查制度
- (一检)泉州市2026届高三高中毕业班质量监测(一)数学试卷(含标准答案)
- 2025年福建省榕圣建设发展有限公司项目招聘12人笔试参考题库附带答案详解
- 矿山设备检修安全培训课件
- 2025-2030数据安全合规审计服务市场爆发及等保测评机构并购价值评估
- 纤维转盘滤布滤池运行维护技术说明
- 2025至2030中国无烟产品行业发展趋势分析与未来投资战略咨询研究报告
- 2025年中国华电集团招聘面试题解析及备考建议手册
- 2025年机器人面试题及答案解析
- 高三第一次月考总结主题班会课件
- 参考活动2 善待身边的人教学设计-2025-2026学年初中综合实践活动苏少版七年级下册-苏少版
- 2025年度江苏省档案管理及资料员基础试题库和答案
评论
0/150
提交评论