已阅读5页,还剩26页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
一 l 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果据我所知,除了 文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得 东北师范大学或其他教育机构的学位或证书而使用过的材料与我一同工作的同志对本研究所做的任何贡 献均已在论文中作了明确的说明并表示谢意。 学位论文作者签名查盈日期;y - o l o o s - 3 0 学位论文版权使用授权书 本学位论文作者完全了解东北师范大学有关保留、使用学位论文的规定,即:东北师范大学有权保留 并向国家有关部门或机构送交学位论文的复印件和磁盘,允许论文被查阅和借阅。本人授权东北师范大学 可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或其它复制手段保存、 汇编学位论文 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名; 日 学位论文作者毕业后去向: 工作单位: 通讯地址: 指导教师签名: 期: 丞丝丝空翌电话:一o q 立- 8 1 s - 6 s 3 5 黑量堕垄苤塞绦猕$ 编:出兰三2 占 呻彳 i 摘要 关键词:核估计方法;b ,- a b s t r a c t 目录 中文摘要 i 英文摘要 i i 目录i i i 引言二 1 正文2 1 核密度估计方法简介 2 1 1 核密度估计方法的基本知识 3 1 2 核函数的意义及几种常见的核函数 5 1 3 异方差测量误差数据的核密度估计 7 2 b 样条密度估计方法简介8 2 1b 样条密度估计方法的模型8 2 2b 样条密度估计模型中的参数估计 1 1 2 3b 样条密度估计模型中的b 样条函数 1 2 3 两种密度估计方法的比较 1 4 4 模拟和结论1 6 参考文献2 1 致谢2 3 i i i l 辟 - 东北师范大学硕士学位论文 引言 统计学研究怎样有效地收集,整理,分析数据,以便对要考察的对象作出推断和预测直到 为采取一定的决策提供依据与建议。统计学也是一门数据科学 设x 是一个随机变量,x 1 ,x 2 ,托x 。是它的一组观测,我们知道在统计学中有很多 实际问题的研究都需要对观测到的数据所服从的分布进行估计,以便得到它的统计性质进而 掌握实际问题的基本与特征,方便于我们的研究 如果x - ,x 2 ,x 3 k 服从的分布形式已定,只有个别参数未知,需要利用样本数据来 估计这是我们常见的参数统计内容,又称基于模型方法对这类问题的研究已经很普遍也很成 熟了,本文不作多余说明。如果x l ,尥,k 服从的分布形式未知,需要利用数据对概 率密度进行估计那么这就是非参数统计的内容,又称模型无关方法。我们根据所得到的数据对 密度进行估计,采用什么样的估计方法取决于数据的形式。在实际问题中数据的形式多种多样 大体上可分为两类有测量误差数据和无测量误差数据,有测量误差数据又分为同方差测量误 差数据和异方差测量误差数据文献中阐述了有测量误差数据对估计的影响 如果是无测量误差数据即x l ,磁j 磁k 是可观测到的数据,我们要估计其密度可以 分两种情况来考虑:当样本量很大时,可以利用中心极限定理,知道随机变量x 依分布收敛 到正态分布,再利用正态分布去分析数据;当样本量很小时我们再利用中心极限定理,那么可 信度将会很低,基于这个密度估计所得到的统计推断及性质的可信度也将会很低,此时我们就 要想别的方法来解决这一问题,这是比较现实和常见的一个问题,我们可以用经验分布即直方 图法或核密度估计方法等得到其密度估计;如果是带有测量误差数据,测量误差的分布是已知 的,即x 。:) 已,x 3 x 。不是可直接观测的,不失一般性我们不妨假设测量误差彼此之间是 异方差的,这类问题在实际生活中是常见的,这类问题文献【2 j 中提出了很好的方法它给出 了一个二次b 样条凸组合的模型来估计未知的概率密度,使非参数统计问题转化成参数统计 问题,即只需要估计出模型中的参数即可,这种密度估计方法对大样本,多模的分布估计的比 较好本文在文献:2 】的基础上比较这种密度估计方法和经典的核密度估计方法对带有异方差 测量误差的单模的小样本数据密度估计的好坏,在现实生活中所遇到的数据通常情况下样本量 不会很大,当遇到的数据真实情况下服从的分布是单模的,再估计密度时,文献【2 】中所提出 的模型是否还实用就需要验证了在计算机模拟时我采用三组样本量进行对比并且采用三组 常见的非多模分布的随机数进行模拟以便更清楚地说明两种方法的优劣比较出在样本量较 1 东北师范大学硕士学位论文 小时,哪种密度估计方法对异方差测量误差数据密度拟合得更好 东北师范大学硕士学位论文 核密度估计方法简介 1 1 核密度估计方法的基本知识 核密度估计方法是r o s c n b l a t t ( 1 9 5 6 ) 与p a r z c n ( 1 9 6 2 ) 所提出的一种密度估计方法,想要 通过样本集 x z ,k ) 来估计样本空间任何一点z 的概率密度值f ( x ) ,核密度估计的 东北师范大学硕士学位论文 讹s = e ( 确) - m ) = e ( 三n h 宝七( 学) ) 一m ) = 熹礼忌( 等) 巾) d t _ ,( 加厂地) m u h ) d u 叫z ) = 后( 趾) 阶) 一u h f k ) + 华,”( z ) + 。( 九2 ) d 乱一m ) p9 , 。 = 去,( z ) 2 让2 七( 札) d 乱+ 。( h 2 ) 由此得到和密度估计并不是无偏估计,如果用新的记号肛2 ( 知) 来表示t 札2 k ( u ) d u 那么它的 渐近偏为p 2 ( 南) :f ) 下面来计算核密度估计的方差,看一下核密度估计的波动性如何 在此之前首先计算氕z ) 的二阶矩: e ( ,2 ( z ) ) = e 【( 去七( 竿) ) 2 】 叫丽1 驴n 竿”e ( 壶七( 宰顺竿) ) e ( 嘉喜张学) ) _ 南他,职等小删t = 嘉r 极等咖t = 磊1 职孔) f ( x - u h ) d “ = 土n h r 职酬他) 一埘协) + t 7 , 2 h 2 八z ) + 。( 胁 = 去职州( 引。r 乱2 矾札) 啪2 ) = 去厂张u ) d 札+ 刍,( 引铲职乱) 如+ 去。( e ( 赤若忍( 宁撇竿炉赤嘶叫 忍( 等州铲 = 丢( 佗叫 r 地) f ( x - u h ) 酬。 = 孚f r 蜘帅m 协) + 孚帅) + o 妒删。 = 字( m ) + ( 枇( 卅。( 耕 斯2 ) = 去m ) 职啪乱+ ,2 ( 吐 ( 1 1 2 ) 东北师范大学硕士学位论文 进而有 哳( 辨去m ) 职州饥 可以得到核密度估计的渐近均方误差为 ( 1 1 3 ) a m 跚,) = 缸州严+ 去m ) 职) 托 ( 1 1 4 ) 使a m s e ( f ) 达到最小,计算窗宽h 的近似僮: d a m 矿s e ( ( f ) ) = 3 地。叫7 也( z ) 一丽lf 引j 一厂尼2 ( 孔) 如= 。,氇n n f r 解得 即 嘲瓣疤 元= o ( - - - 刍) ( 1 1 5 ) ( 1 1 6 ) 1 2 核函数的意义及几种常见的核函数 定义1 2 1设忍( - 占) 为一实值函数,x l ,x 2 ,义3 是独立同分布于f ,若o ( f ) 为 一 n 砉 ( 五,f 9 ) = o , # l 的解,则称秽( f ) 为对应分布f 的广义矩估计 h a m p e l ( 1 9 7 4 ) 提出了影响曲线理论,主要研究当总体分布中有一个点发生小的扰动时 给我们所要估计的总体特征带来的影响。设原分布为f ,在y 点处受到扰动后分布函数为 户= ( 1 一e ) f + 如,o ( p ) 为e ( h ( x ,p ( 户) ) ) = 0 的解,下面就计算一下广义矩估计的影 响曲线: 删= 知聊l 。, 5 ( 1 2 1 ) 东北师范大学硕士学位论文 其中 屯c z ,= :耋三三;: 为了方便起见,不妨设t = 口( 户) ,于是由广义矩估计的定义知下式成立: 即 危( z ,t ) d 户= 。, ( 1 一) 危( z ,t ) d f + 九( y ,t ) = 。 将( 1 2 3 ) 式记为彤( ,) = 0 ,由隐函数定理知: ( 1 2 2 ) ( 1 2 3 ) d d 引t i :一雾i , ( 1 2 4 ) = 一* i ii ,、 如b 警o p “一 下面分别计算( 1 2 4 ) 式右端的分子与分母: o w i 一一= _ 尼( z ,目) d f + h ( s ,口) = ( y ,口) , 豢卜l 以删般 一l = i ,i z i n 一 疣l 瑚l “p “严。 将以上两个式子代入到( 1 2 4 ) 中得到: 吲沪一器 m 2 5 ) 得到广义矩估计的影响曲线之后来看一下核密度估计中的核函数与它有什么关系,为了表述问 题的简便起见不妨设不( 。,x t ) = 元1 七丁x - - x ) 这样核密度估计就可以写成,( z ) = 丢壹忌( z ,x ) 当h ( z 7 ,) = 罨( z ,z 7 ) 一,时得到,( 。) = i 1 k ( x ,五) 由广义矩估计的定义知核密度估计是礼“ f = 1 广义矩估计,由广义矩估计的影响曲线公式可以得到核密度估计的影响曲线: 由( 1 2 6 ) 式可以得到: j q ( ) = k ( x ,耖) 一, l k ( x - y ,) = j q ( 秒) + ,( z ) , 6 ( 1 2 6 ) 东北师范大学硕士学位论文 经过变换得到: k ( x ) = h i ( y + x h ) + h i c ( 秒) 一2l 3 = ,( y ) + x h 2 f 7 ( ) + 兰告,( y ) + h i e ,( 暑,) + ho ( 1 7 2 2 ) 下面介绍几种在搴际问题中常见的核函数: ( 1 ) 均匀核:后( z ) = :喜盂1 z l ; ( 2 ) 正态核:k ( z ) = 去e 印 一- “4 - ) : 、z 丌一 ( 3 ) 正弦核:七( z ) :竺竺 ( 4 ) 反卷积核:k ( z ) = ( 2 丌) fe - i t x c k ( t ) d t 文献中有详细的阐述,在本文不做过多说明 1 3 异方差测量误差数据的核密度估计 设现有这样一类数据墨,尥,托- k 独立同分布于密度函数f ( x ) ,f ( x ) 为未知的,我 们要估计这个密度函数u , j ,j = 1 m i 为对x 进行的仇t 次观测,是可以直接得到的数据, 而且有这样的假设: 玎i x ;”n ( 叉f ,扩。( 爿f ) ) , j = 1 ,2 ,m i ;i = 1 ,2 ,托 我们用玩来估计x i 可得到核密度估计: 纰) = 去塞忌( 半) , 巩陇) - 者,也) 2 7 ( 1 3 1 ) ( 1 3 2 ) 东北师范大学硕士学位论文 b 样条密度估计方法简介 2 1 b 样条密度估计方法的模型 在这一节介绍一种比较新的针对异方差测量误差数据的密度估计方法,这是2 0 0 8 年s t a u - d e n m a y e r ,r u p p c r t 与b u o n a c c o r s i 所提出的,他们将非参数密度估计通过模型转化为参数估计 内容。文献【9 j 是b 样条密度估计方法提出的理论基础,现在简单的介绍一下该方法设有这样一 类数据x l ,磁,x 3 k 它们是独立同分布的,并设它们的密度函数为f ( x ,7 ) ,y 为未知参数, ,j = 1 m i 为对x i 进行的仇t 次观测,假设ik 一( x j 盯2 ( 茏,护) ) ,j = 1 ,2 ,m t 在i 定时矾j ,j = 1 m f 是彼此独立的,有以上假设,可以得到: 玩b 掣眦,掣) , g b 印则r ( m i 乒1 ,最南) ( 2 1 1 ) ( 2 1 2 ) 咒l ,( x ? 7 ) ( 2 1 3 ) 这里的m 0 = 1 ,2 ,佗) 可以使彼此不同的,而且允许有部分仇i = 1 但是不能超过2 0 , 因为当有很多数据是可以得到的时候就可以把这种数据看为无测量误差的数据,就没有必要用 种方法去估计它的密度函数了,我们用二次b 样条函数的线性组合来估计方差函数与密度函 数,设b 样条函数有k 一1 个结,k 一1 = m i n 筹,3 5 ( r u p p e r t ,2 0 0 2 ) ,在此基础上给出方 差函数与密度函数估计的模型: ( 2 1 4 ) 日= 之婪 ( 2 1 _ 5 ) 竺1c x p , d 。叫 其中岛( z ) ,2 = l ,2 ,k 为岛( z ) ,f = 1 ,2 ,k 的标准化,且为了参数能得到解令 ,y 1 = 0 。下面给出0 与7 的对数先验分布: 忡;) = 一筹l o g ( 司) 一霹1 咖, 8 ( 2 1 6 ) 、, p rt 叩 ez8 k m = pz 2 盯 r rb m | | , z ,j 东北师范大学硕士学位论文 2 ( 7 i 盯;) = 一铷( ) - 去 其中爵与西为平滑参数,现在给出它们的先验分布: ( 2 1 7 ) 露一1 g ( a o ,o t o :) , ( 2 1 8 ) 2 一i a ( o , 1 口忱) ( 2 1 9 ) 其中q 口,q 口:,q , a 能为超参数,为后面模拟方便均取为0 0 1 ,l a ( ) 表示逆r 分布。 利用已给的先验分布,求参数的对数后验分布,为了书写方便在求对数后验之前给出一些 记号: e 印 ,) = ( 1 ,e 印 弛) ,e 印 讼炉; e 印 f 5 ) = ( e x p o l ,e 印 曰2 ,e 印 ) 丁; 口= ( 衫l ,u 一2 ,巩) 玩= 三m if 汪l ,2 ,佗; j w - - 一 1 m i s 2 = ( 研,跏,霹) 砰2 击善( 一玩) 2 ,2 - 川 b ( z ) = ( b l ( z ) ,b 2 ( x ) ,b ( z ) ) ; b ( x ) = ( b ,( z ) ,b 2 ( x ) ,b k ( z ) ) 忽略常数项的后验分布为: l ( 7 ,0 ,x ,西,i 口,s 2 ,a )o ( l ( 驴,s 2 ,q i ,y ,0 j x :刃,嵋) l ( ,口,x ,西,嵋) = l ( 驴,s 2 0 1 7 ,0 ,x ,爵,嵋) ,( x h p ,砰,嵋) ,( 7 ,0 ,砖,仃;) 。 = l ( u ,s 2 q h0 ,x ,刃,嵋) ,( x ,y ) ,( 限司,盯;) ,( 秽,西:一) = l ( 驴,s 2 :q 1 7 ,0 ,x ,刃,口,2 川 ir ,八,i u ,o ,jk t ,l u 口o ,u 1 2 ) 厂( 司) 在z 给定的条件下护与s 2 条件独立于是: 郴2 蚓们肼俨酚掣一酬一妻i = 1 糍群) 娶n 雨1 ( 赫) 竿( g ) 孚 计研m i - - 丽1 s ;) 忽略掉常数项: 郴2 1 晰删一,喜毋1c 掣,一喜嗡群+ 9 东北师范大学硕士学位论文 喜孚魄c 品卜赫簧 o c 一喜坐学一丢喜坠装蒜产 蛾似礼g 娶n 驴k 蜀= 蜘i = l 笔群 , = 喜1 啪( 批帅) - n l 0 9 1 t 酬仆 l 。g ,( i 嵋) = 2 ( 7 i 盯;) = 一等l o g ( 砖) 一霹1 p 丁口; l o g ,( 9 l 霸) = f ( ,y l 嵋) = 一等l 。g ( 霹) 一丽1 ,j 丁7 ; 磅) = 志2 ) 口叫扣_ 1 e 计q 如去) ; 磅) = 志( 妒l ( 扣- 1 e 印卜q 忱去) 在以上的基础上我们可以求参数的忽略掉常数项的对数后验分布: i ( 7 ,0 ,x ,硝,2 l u - ,s 2 :q ) 。( 1 。g l ( u ,s 2 q h 8 ,x :露:嵋) + l 。g l ( 71 口,x ,西,西) = l o gl ( 6 7 ,s 2 , 0 1 7 ,6 i ,x ,砖:嵋) + l o gf ( x ,y ) + l o gf ( y l c r ;) + l o gf ( 0 l o ;) + l o gf ( 去) + l o g ,( 嘉) 喜一孚。g b c x ,e 印柳一丢喜亟l 喾骞铲 + l o g b ( x i ) e x p t 一n l o gi t - e 印 7 ) 一鲁l 。g 嵋 一毫_ k 秭一筹山圹 = 喜一聃槲,一三喜 1 ) l 。g 西一砑1 一( a - - 1 ) l 。g 嵋一去 ( m 。一1 ) g + m i ( 玩一x i ) 2 b t x t ) e z p 0 + e 。耋,l o g 3 ( x i ) e 咖 - n l o g1 t e 帅) _ ( i k 怕。叫l o g 一专( 孚饥) 吒k + a e 。- 1 ) l o g 砖一去( 字慨) 1 0 东北师范大学硕士学位论文 2 2 b 样条密度估计模型中的参数估计 我们先给出x ,7 ,0 ,霸,0 ,2 ,的初值,再利用m h 算法迭代,到对数后验分布的前后两次值 相差不超过0 0 0 1 时停止迭代,下面就依次给出x ,7 :0 ,磅,砖的初值: 戈( o ) := o 1 ,醒o ) = 0 1 利用m l e 方法给出占( o ) 与( o ) : 型业墨竺益幽堡:翌:堂:o 0 0 。 业:! :型:窒! :益翌:墅生:o a y 。 解( 2 2 1 ) 与( 2 2 2 ) 式得到的,y 与0 的值就是初值痧( o ) 与,由于算法收敛初值也可以 任意选定 接下来我们给出迭代算法的一般步骤,设( 贾( 一,毋( 一,( m ,露,茜删) 为第m 次迭代所 得到的值,那么产生第( m + 1 ) 次迭代值的步骤为: ( 1 ) 用m h 算法生成戈( m + ,又( m + 1 ) = 贾( m + 。,。 一m v n ( 2 ( 删,a x 方曼厶) 其中 子蚤= i 三( 玩一驴) 2 ,厶为佗维单位矩阵,入x 为协调参数,使得算法的接受概率接近 2 5 接受概率中涉及到7 与0 时用( m ) 与口( “) 代替; ( 2 ) 用m h 算法生成( m + ,( m + 1 ) = m ) + m ,。 一m v n ( 爷,入 ,) ,其中h 为 协调参数,使得算法的接受概率接近2 5 ,宝7 为f i s h e r 信息阵的逆,m h 算法接受概率中 涉及到x ,用戈( m + 1 ) 与子争叫来代替; ( 3 ) 用m h 算法生成昏( m + 1 ) ,痧( m + 1 ) = 舀f m + m ,g m m v n ( o ( _ ,知毛) ,其中k 为 协调参数,使得算法的接受概率接近2 5 ,岛为f i s h e r 信息阵的逆,m h 算法接受概率中 涉及到x ,砖用又( m + 1 ) 与砖m 来代替; ( 4 ) 更新盯;一,g ( 等+ a ,。,二百l + q :2 ) ; 西( m + 1 ) ,乞( m + 1 ) t ( 5 ) 更新西,g ( 等+ a 口,;二+ q 疗。) 文献【1 1 】中证明了m h 算法的很多好性质,在此不做过多阐述通过上述步骤可以得到 x ,口,1 ,砖,2 ,的估计,将得到的估计带入到b 样条密度估计模型中,这样就得到了: :巩:一巩,m;n x x x ,。一 、,、, 1 2 2 2 2 2 ,、 东北师范大学硕士学位论文 k r 1 矶) = l = l 钆愚扇。豢i = 1 , 二一 v w ,l ,zj 寺她9 ) = b z ( z ) e 印鳓 ( 2 2 3 ) ( 2 2 4 ) 2 3 b 样条密度估计模型中的b 样条函数 在本节中给出b 样条密度估计模型中的关键组成部分二次b 样条函数,设k 1 个结点为 n 1 ,0 2 ,n k 一1 并且6 = a 2 一a 1 则有: 酬咄由甄,生掣, 岛( z ) = 如瘦辄 ( 一( 字) z + 半+ 互1 ) + k 卿。广( i - r z - 乎y ) 2 , ( 1 一半) 2 2 ( z ) ,l = j 东北师范大学硕士学位论文 a l + l 七| ,o f ( 1 一半 1 2 2 d x = 6 e 酬州z = ec 半) 2 2 仁一半) 2 + 半+ 扣 e ? b k ( x ) d x 2= r a k - 2 7 毕 = ( _ j n ,一 , 。 ) 2 2 如:昙6 o 下面给出画( t ) ,l = l ,2 ,k 的定义: 雪,( z ) = 菩b 1 ( n 亩z ( z ) = 盖0 以础0a 宫f ( z ) = 专b f ( z ) ,1 = 3 ,4 ,k 一2 ; 亩耳一,( z ) = 6 b 一l ( z ) ,房k ( z ) = 否6b k ( z ) 1 3 东北师范大学硕士学位论文 两种密度估计方法的比较 稚:前面阿节中分别介绍了两种针对异方差测量误差密度估计的方法,核密度估计方法与 bf 薯条亨腹估计方法,本节从两个角度对这两种密度估计进行比较 ( 一) 两神渐i 窆估汁方法所得曲线与真实密度曲线所曝成区域的面积的比较 计算两种密度估计方法所的曲线与真实密度曲线所围成区域的面积可以得到这两种密度 估计方法那种更接近于真实的密度为了表示的方便不妨将其记为v a ,下面v a 七表示核密 度估计曲线与真实密度曲线围成的区域的面积,v a b 表示b 样条密度估计曲线与真实的密 度曲线所围成的区域的面积,则有; m = ( 缸) _ ,( 2 如= m ) 2 ( 缁_ 1 ) 2 如= t 厂m 脚) 而f k ( z ) _ 1 ) 2 陋 = 嘲旷m ) ) 2 拈 m ) 2 ( 豁- 1 ) 2 如= m 帅) ( 铬_ 1 ) 2 为了计算的简单,采用重要性抽样方法从真实密度( x ) 中随机抽取2 0 0 个随机数翰,i = 1 2 ,2 0 0 ,计算,( 既) ( 景辩一1 ) 2 ,i = 1 ,2 ,2 0 0 再求平均就用这个值来近似积分值,模 拟结果在第四节中给出 ( 二) 两种密度估计的偏的比较 由前面数据的假设我们可以得到这样一个有用的式子: 繇= 五托,j 2 ) ”( 0 ,掣) ( 3 1 ) 色,i = 1 ,2 ,n 彼此之间是独立的,先计算核密度估计的均值给定z 后有: 嘶肛嗉喜七c 学肛去砉踯e 牮, = 熹喜七c 半引崛= 丢喜绯彬卜删阮 = 三n 壹i = l 婶讲m ) _ ( x 俐,( 卅譬掣尸+ o ( 皿t = 丢孕n 小x i 协j + 掣+ 新咖z 州) 1 4 东北师范大学硕士学位论文 删+ 新咖。嘶时扣) ( 丢塾2 ) 鳓铲如h = 新咖。贾q 1 ,( 州去喜霹2 ) b i a s b = 磊( z ) 扇一,( z ) 从上面可以看到两种密度估计都不是无偏估计,都是有很大偏差的 1 5 东北师范大学硕士学位论文 4 模拟和结论 本节j i 要针对两种密度估计方法做模拟,使用的软件为r 。为了比较的真实可靠性,我 们似设瓯实数据分别是来自标准正态分布,r ( 2 ,1 ) 分布,自由度为1 的妒分布,此外我们选 择? 列些小样本量进行模拟礼= 3 5 ,5 0 ,1 0 0 这样就可以更准确地比较两种密度估计方法对 单模分布,小样本量的异方差测量误差数据分布估计的优劣性 以下三组模拟中,核密度估计的核函数均选为标准正态密度函数,窗宽选为0 4 ,b 样 条函数结点个数为k 1 = m i n 等,3 5 ,其中n 为样本量每组模拟中图( a ) 的样本量为3 5 , 图( 6 ) 的样本量为5 0 ,图( c ) 的样本量为1 0 0 。 不 线 b 密 度 方 东北师范大学硕士学位论文 东北师范大学硕士学位论文 东北师范大学硕士学位论文 ( b ) ( c ) 以上三个图中黑色实线代表真实的r ( 2 ,1 ) 密度曲线,红色长虚线代表核密度估计曲线,绿色 点虚线代表b 样条密度估计曲线。 前面三组模拟在直观上给出核密度估计优于b 样条密度估计,而且从三组模拟的图中, 我们可以发现样本量越大时, b 样条密度估计曲线的峰值越多,下面从量的角度比较两种密 度估计方法的优劣。 y a 。表示核密度估计曲线与真实的密度曲线所围成的区域的面积,v a b 表示b 样条密 度估计曲线与真实的密度曲线所围成的区域的面积,下面给出模拟结果 n d e n s i t y 1 7 a kv a b 从t a b l e l 中我们可以看出当真实的密度睦线是单模的时面积值相对小一些,也就是当真 是密度是单模时两种密度估计方法所得到的密度估计曲线更接近于真实的密度曲线,但是当 真实密度没有峰值时两种密度估计方法都不是很理想 1 9 东北师范大学硕士学位论文 t a b l e 2 n d e n s i t ym c v 匆a 7 f v k 3 5 n ( 0 ,1 ) 0 0 3 8 0 7 80 0 0 5 1 7 6 x 2 ( 1 ) 0 0 1 9 6 9 2 0 0 0 2 3 5 7 r ( 2 ,1 ) 0 0 2 7 8 6 30 0 0 3 0 8 7 5 0 n ( 0 ,1 ) o 0 2 0 2 2 0 0 0 1 6 0 5 2 ( 1 ) 0 0 1 1 8 6o 0 0 3 3 6 1 r ( 2 ,1 ) o 0 3 3 0 6 0 0 0 6 8 6 9 l o o n ( 0 ,1 1 0 0 1 6 7 3 10 0 0 2 2 3 3 ) ( 2 ( 1 ) 0 0 3 0 1 8 3 0 0 0 1 9 3 r ( 2 ,11 0 0 3 5 4 0 10 0 0 2 9 5 9 由于计算机的限制,所以从两种密度估计方法中取1 0 条密度估计曲线,并且固定 点,计算每条曲线在这2 0 个点处与真实密度曲线这些点处的差值,计算l o 条曲线在刍 处差值的方差,取这2 0 个方差中最大的一个,用记号m c v 表示,它刻画了两种密度乇 法所得到曲线的稳定性 结合以上的图与表格,不难看出,无论是从变化幅度,或是蓝线稳定程度,或是与善 度曲线的相近程度看,均是核密度估计方法优于b 样条密度估计方法,因此对于单模分j 样本量的异方差测量误差数据进行密度估计时核密度估计要更好一些,而b 样条密度币 法更适用于对多模分布的估计例如,混合分布,因为b 样条密度估计方法的模型是对二 样条函数的线性凸组合,这是导致估计出的密度曲线多模的主要原因,当然可以尝试将二 样条函数换掉,但这不是本文所讨论的范围,在对b 样条密度估计方法编程模拟时会甘 代依次就停止的情况,这是因为我们所取的三种真实密度的自变量变化区间均非有限压 而我们对b 样条函数选取自变量变化区间时必须是有限的区间,所以我们只能选取置南 9 9 的置信区间,使得数据落在b 样条函数定义域之外的概率尽量小尽管针对小样习 数据b 样条密度估计方法并不比核密度估计方法好,但是针对大样本多模数据b 样条至 计方法是非常好的这一点在文献f 1 :中已经证明了,而且有很多有价值的文章也是基于壬 密度估计方法提出的,如文献,文献蛳,文献【1 4 1 ,文献【1 5 】等。 2 0 , 誓 东北师范大学硕士学位论文 参考文献 1 s t e f a n s k ila t h ee f f e c to fm e a s u r e m e n te r r o ro np a r a m e t e re s t i m a t i o n j b i o m e t r i k a , 1 9 8 5 ,7 2 :5 8 3 5 9 2 2 j o h ns ,d a v i dr ,j o h npb d e n s i t ye s t i m a t i o ni nt h ep r e s e n c eo fh c t e r o s c e d a s t i cm e a s u r e - m e n te r r o r j j o u r n a lo ft h ea m e r i c a ns t a t i s t i c a la s s o c i a t i o n ,2 0 0 8 7 2 6 - 7 3 5 3 r o s e n b l a t tm r e m a r k so ns o m en o n p a r a m e t r i ce s t i m a t e so fad e n s i t yf u n c t i o n j a n n a l s m a t h s t a t i s t ,1 9 5 6 2 7 :8 3 2 8 3 7 4 p a r z e ne o nt h ee s t i m a t i o no fap r o b a b i l i t yd e n s i t yf u n c t i o na n dt h em o d e j a n n m a t h s t a t s ,1 9 6 2 ,3 3 :1 0 4 9 1 0 5 1 【5 s h e a t h e rsj ,j o n e smc ar e l i a b l ed a t a b a s e db a n d w i d t hs e l e c t i o nm e t h o df o rk e r n e l d e n s i t ye s t i m a t i o n j j o u r n a lo ft h er o y a ls t a t i s t i c a ls o c i e t y s e r i e sb ,1 9 9 1 ,5 3 :6 8 3 6 9 0 【6 m u r r a yr c u r v ee s t i m a t i o n j t h ea n n a l so fm a t h e m a t i c a ls t a t i s t i c s ,1 9 7 1 :1 8 1 5 1 8 4 2 【7 h a m p e lfr t h ei n f l u e n c ec u r v ea n di t sr o l ei nr o b u s te s t i m a t i o n j 。j o u r n a lo ft h e a m e r i c a ns t a t i s t i c a la s s o c o a t i o n ,1 9 7 4 ,6 9 :3 8 3 - 3 9 3 f 8 l e o n a r ds , r a y m o n d jc d e c o m , o l u t i n gk e r n e ld e n s i t ye s t i m a t i o n j s t a t i s t i c s ,1 9 9 0 ,2 :1 6 9 1 8 4 f 9 e i l e r sphc ,m a r sb d f l e x i b l es m o o t h i n gw i t hb s p l i n e sa n dp e n a l t i e s ( w i t hd i s c u s - s i o n ) j 1 s t a t i s t i c a ls c i e n c e ,1 9 9 6 ,1 1 :8 9 1 2 1 【1 0 r u p p e r td s e l e c t i n gt h en u m b e r o fk n o t sf o rp e n a l i z e ds p l i n e s j j o u r n mo fc o m p u t a - t i o n a la n dg r a p h i c a ls t a t i s t i c s ,2 0 0 2 ,1 1 :7 3 5 7 5 7 f 1 1 s i d d h a r t h ac ,e d w a r dg u n d e r s t a n d i n gt h em
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年保密法基础知识考试题库含答案详解(综合题)
- 2025年县乡教师选调考试《教育学》通关练习题库包含答案详解(完整版)
- 2026年消防设施操作员考前冲刺练习题含完整答案详解【全优】
- 2026年县乡教师选调考试《教育学》通关试卷提供答案解析附答案详解(培优b卷)
- 2025年县乡教师选调考试《教育学》通关题库及参考答案详解1套
- 管道燃气客服员操作知识考核试卷含答案
- 铸管精整工创新意识评优考核试卷含答案
- 水泥生产巡检工岗前潜力考核试卷含答案
- 商务数据分析师安全风险模拟考核试卷含答案
- 2026年县乡教师选调考试《教育学》试题一及答案详解【考点梳理】
- 装修包工不包料合同
- 可研报告收费标准(国家标准)
- 安徽省安庆市怀宁县2024-2025学年七年级上学期期中考试数学试卷
- 国开(河北)2024年秋《现代产权法律制度专题》形考作业1-4答案
- 部编人教版语文小学六年级下册第四单元主讲教材解读(集体备课)
- 统编版语文四年级下册第七单元教材解读解读与集体备课课件
- E临床医学专业内科学呼吸系统试题
- 人工智能原理与技术智慧树知到期末考试答案章节答案2024年同济大学
- 《先进制造技术》教案
- 马克思主义基本原理智慧树知到课后章节答案2023年下湖南大学
- Zootopia疯狂动物城中英文对照台词
评论
0/150
提交评论