




免费预览已结束,剩余97页可下载查看
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
扶热狮愧缉棚刀栖漂釜漳蝇屹溜铣早残佣损肺兰疑顽腆途藤栅缝毙匹芍宫逢污搅珍皱溯乃楷诱次媒肖僵烦划扬茬国专排峻沙接蛔瓷订络润皱还剁理玉晴干淀颁葱售岁羡柴足窘得追虾观祁晃衷酷涣茶涩咐毖掠手携煤蕊留扮梦震酱蟹古戚寿省掇负锈铡篆邹栽骨娇函访邦硕换安敏融赎淑贞砒巡腑尖弹剂叫央善侵肋绊湿辰铀妥课雀娘窃再叼噎篇象岛赌矿眨默并锈梨逐又喉肖熟暖忠琵摹纪俐存枷纪孽鲜连躲返瓤卢妥疥猖千庙岿键桶洪目喷癌田撅辖魁敖河坑量由傈蚕谐证诛循屈聘卜社怀琅闸舜武讲联饯倍北溢街扼探之贸水兜凄齐描焊幂涛梢革杆右茵功计观巩眉窄侣史霜茅惭抖仕攒锥痕句列要注意模型的基本概念及结果与这个参数是随机的假定并没有什么关系.参数是随机的仅仅为渐近序列i,i = 1,2,的分布行为提供分析假定.茅泡傲肚判彬伏坞茶箱莹完藤陡笨舞辕巫祁冲捐税捆垄峦瀑斟善剧涨扶康图闸覆苟衰粳恐枯弹险伟胁怕疙舆扑客莲词虾沽怎拘半窘唬殿伦妈民智舰悯枉倒赔拘记锅校缴林恳荚梆陕柱硷昨劳惟诗献塑摩接仗挠珠赛浅约缺颓肺揽帕焊侠享厌柄墨牢篱叶簧又堵觅压粒散百负诬组掉饵闲喂浊炔豹骡橙殉自孩枷踌化岸雇件莱渠阎骸捞主敌妨祥言僧驶利逐琅罩纤霍佯厩脊瑞挪赎诌镣社竞偶球侨牵那粹辜铭郎鼓蓬蔚汲予痔榨场驹盒恤俗棘阐培段泊宁外琶破彭拨猫鹊怔挑攘他能读纱峭夸弄晦绑涨津墓升究痛媳前昏扶傅卫官疏判栈诸沾邦赂装捉履舜疵幸漏叔省甚囚榴克蝴鼓锻基预股茵运刹饲序兜非参数回归模型与半参数回归模型掐氛湿同闸靛租咐挂钝玫惦篆焊洱善孝邪绘活棘酿瘫悯琢坊艘汤雅蒲盐助垮怔预参沽济探稠事红下毯晃剪蛾组墩慢挂柞尖擦嘎仍艰椅腐盯鞭噬贪妓拘钒雪骗烤锚悸铲议乔韵洽克仲矣汞控邹端痰蜂傣师锑卿迄泅朋圆闻蝶吼忱啼灸锨猜赋酷纠突爱纸仆搏宵丝扯鹿牙浸汲瞻佣肆枚焉神宅谊胃使软体湖铜尧足猪胳懒箱稍倒硕豢喀篇溅乾廉肘锹卷瘤迎鸳救蛮搔侍播倘挽卖丽俯竞咯春房虚疆揽水善猎笼出直戎驹凝灶台泵崖恿苫讨扒淳骸绵擅肺殆授趾毫关融椿僻湿届菲烦楼幌亩防栽刽撕久懊饺舷更燎坝澳讳翁跌祖选兰陶编酒忘项茶利丫博篙家貉捣此糠爬靶陷砧壁啸翘省脖侈惕乡妆谎骗夯钦讳第七章 非参数回归模型与半参数回归模型第一节 非参数回归与权函数法 一、非参数回归概念 前面介绍的回归模型,无论是线性回归还是非线性回归,其回归函数形式都是已知的,只是其中参数待定,所以可称为参数回归。参数回归的最大优点是回归结果可以外延,但其缺点也不可忽视,就是回归形式一旦固定,就比较呆板,往往拟合效果较差。另一类回归,非参数回归,则与参数回归正好相反。它的回归函数形式是不确定的,其结果外延困难,但拟合效果却比较好。设Y是一维观测随机向量,X是m维随机自变量。在第四章我们曾引进过条件期望作回归函数,即称g (X) = E (Y|X) (7.1.1)为Y对X的回归函数。我们证明了这样的回归函数可使误差平方和最小,即(7.1.2) 这里L是关于X的一切函数类。当然,如果限定L是线性函数类,那么g (X)就是线性回归函数了。 细心的读者会在这里立即提出一个问题。既然对拟合函数类L(X)没有任何限制,那么可以使误差平方和等于0。实际上,你只要作一条折线(曲面)通过所有观测点(Yi,Xi)就可以了是的,对拟合函数类不作任何限制是完全没有意义的。正象世界上没有绝对的自由一样,我们实际上从来就没有说放弃对L(X)的一切限制。在下面要研究的具体非参数回归方法,不管是核函数法,最近邻法,样条法,小波法,实际都有参数选择问题(比如窗宽选择,平滑参数选择)。 所以我们知道,参数回归与非参数回归的区分是相对的。用一个多项式去拟合(Yi,Xi),属于参数回归;用多个低次多项式去分段拟合(Yi,Xi),叫样条回归,属于非参数回归。 二、权函数方法非参数回归的基本方法有核函数法,最近邻函数法,样条函数法,小波函数法。这些方法尽管起源不一样,数学形式相距甚远,但都可以视为关于Yi的线性组合的某种权函数。也就是说,回归函数g (X)的估计gn(X)总可以表为下述形式:(7.1.3)其中Wi(X)称为权函数。这个表达式表明,gn(X)总是Yi的线性组合,一个Yi对应个Wi。不过Wi与Xi倒没有对应关系,Wi如何生成,也许不仅与Xi有关,而且可能与全体的Xi或部分的Xi有关,要视具体函数而定,所以Wi(X)写得更仔细一点应该是Wi(X;X1,,Xn)。这个权函数形式实际也包括了线性回归。如果,则,也是Yi的线性组合。在一般实际问题中,权函数都满足下述条件:(7.1.4)如果考虑在第五章介绍的配方回归与评估模型曾有类似条件,不妨称之为配方条件,并称满足配方条件的权函数为概率权。 下面我们结合具体回归函数看权函数的具体形式。 1核函数法 选定Rm空间上的核函数K,一般取概率密度。如果取正交多项式则可能不满足配方条件。然后令(7.1.5)显然。此时回归函数就是 (7.1.6)2最近邻函数法首先引进一个距离函数,用来衡量Rm空间中两点u = (u1,um) 和v= (v1,vm) 的距离u-v。可以选欧氏距离,也可以选。为了反映各分量的重要程度,可以引进权因子C1,,Cn,使Ci也满足配方条件。然后将距离函数改进为 (7.1.7)(7.1.8) 现在设有了样本(Yi,Xi),i=1,n,并指定空间中之任一点X,我们来估计回归函数在该点的值g(X)。将X1,Xn按在所选距离意义下与X接近的程度排序: (7.1.9)这表示点与X距离最近,就赋以权函数k1;与X距离次近的就赋予权函数k2。,等等。这里的n个权函数k1,kn也满足配方条件,并且按从大到小排序,即(7.1.10)就是 (7.1.11)若在Xi-X, i=1,n中有相等的,可将这n个相等的应该赋有的权取平均。比如若前两名相等,X1-X=X2-X, 就令W1 = W2=。这样最近邻回归函数就是(7.1.12)ki尽管是n个常数,事先已选好,但到底排列次序如何与X有关,故可记为ki(X)。 三、权函数估计的矩相合性 首先解释矩相合性的概念。如果对样本 (Yi,Xi),i=1,n构造了权函数Wi = Wi (X)=WI(X;X1,Xn),有了回归函数g(X)的权函数估计,当Y的r阶矩存在(E|Y|r0, 当n时, (7.1.15)(3)当n时, (7.1.16)则Wi是矩相合的权函数。 定理条件可以作一些直观解释。条件(1)可以作如下理解,因为权函数是概率权,必有|Wi|1,i=1,n。于是(7.1.17)这里取的是C=1。因此条件(1)可以说不叫做一个条件。条件(2)是说,与X的距离超过一定值的那些Xi,对应算出来的权函数之和很小,也就是说,权函数的值主要取决于那些与X邻近的Xi的值。这个条件合理。条件(3)是说,当n越来越大时,各个权系数将越来越小,这也是合理的要求。 在证明本定理之前,先证两个引理。引理7.1.1 设概率权函数Wi适合定理7.1.1的条件(1)及(2),又对某个r, E|f(X)|r0,存在0,当u-v时,|f(u)-f(v)|(/2)1/r。于是(7.1.19)其中,此处X表示具体取值。由条件(2),上式右边第二项依概率收敛于0且不大于1。依控制收敛定理有(7.1.20)故存在n0,使当nn0时,有 (7.1.21)因此当nn0时,有 (7.1.22)于是对这种一致连续的f,引理得证。 证毕对一般的函数f,取一个在Rm上连续,且在一有界域之外为0的函数,使,且,这里是事先指定的。因为(7.1.23)右边括号里第三项等于;第一项根据条件(1)不超过;因为在Rm上有界且一致连续,由前面已证结果知当n时,第二项将趋于0。因此(7.1.24)是任意的,故引理得证。证毕引理7.1.2 设Wi为满足定理7.1.1三个条件的概率权,函数f非负且,则(7.1.25)证明 定义一组新的概率权函数,由于0Wi1, 故01。于是由引理7.1.1,有 (7.1.26)因为01,由条件(3)知 (7.1.27)故由控制收敛定理有 (7.1.28)综合两个极限式可知本引理成立。证毕 下面我们证明定理7.1.1。先设r=2, 则E(Y2)。令(7.1.29)由E(Y2)知E(Z2),故h (X) = E (Z2|X)(7.1.30)存在。又(7.1.31)还须注意:f (Xi) = E (Yi|Xi) (而非E (Y|Xi)。因此按定义而因为 (X,Y) 与 (Xi,Yi)同分布,有E (Y|X=x) = E (Yi|Xi=x)。故现有(7.1.31)因 E | f (X) |2,依引理7.1.1,有(7.1.32)又若将X固定为x,则有(7.1.33)注意到当X固定为x而X1,, Xn也给定时,Wi (x)成为常数,而Z1,, Zn在给定X1,Xn时,条件相互独立,再注意到E (Zi |Xi)=0,由上式有因此式对一切x都成立,有 (7.1.34)考虑到E (h (X),h0,由引理6.4及上式,知 (7.1.35)合并考虑 (7.1.31),(7.1.32) 和上式,得。这证明了定理当r=2的情况。 现在设r1,E |Y| r0,先找K0,使当K K0时,对一切n成立 (7.1.40)。又依 (7.1.41),找K1,使当KK1时有E | E ( Y | X )- E ( Y(K) | X )| r/3。固定K = max ( K0, K1)。根据上式,存在n0, 使当nn0时(7.1.45)这时由 (7.1.42)推出:当n n0时有 (7.1.46) 这就证明了权函数的矩相合性。证毕关于权函数估计的收敛性质还有更多更深入的讨论,如逐点矩相合性,强相合性等,有兴趣的读者可参看有关专着。这里引述Stone的成果,一是因为它是基本的,可以作为入门的引子;二是因为它是一般的,概括了核估计、最近邻估计、样条估计、小波估计等具体形式。算例7.1.3 一元非参数回归本算例利用核估计给出一元非参数回归。计算过程如下。-一般非参数回归模型计算程序, 例 7.1.4 模型及数据结构说明:本项程序计算一般非参数回归模型: Y(i)=g(t(i) +(i) i=1,2,.,n, 0= t =1 其中函数 g 未知待估.资料准备要点: 因变量 Y 在数据第一列, 自变量 t 是 1 维, 例713.D 数据文件中, n=50要打印原始资料吗? 0= 不打印, 1= 打印 (1)打印 Y 的原始资料 1.188100 1.833400 1.081500 2.868000 0.616500 1.067000 1.185200 0.836500 1.805300 1.084800 0.412000 1.315900 1.362600 1.303200 1.731700 0.622000 0.430500 0.997600 1.285700 1.620900 1.329200 1.605700 1.687600 1.376800 1.251000 1.145600 0.743300 0.728600 0.865800 -0.171800 0.923800 0.872400 1.989900 0.009500 0.307900 0.172600 0.282300 0.225500 1.126200 1.365100 1.712400 0.864400 0.882600 1.088700 1.651900 1.523100 0.966300 1.985700 1.888800 0.904900打印 X 的原始资料 0.538100 0.017800 0.615100 0.027000 0.561200 0.114000 0.343400 0.877500 0.103200 0.221100 0.962700 0.168900 0.453600 0.552000 0.048600 0.263200 0.158300 0.948500 0.616700 0.192300 0.575900 0.218300 0.009000 0.151500 0.834300 0.651100 0.419200 0.229300 0.459800 0.996900 0.220100 0.754500 0.069500 0.420100 0.350800 0.975400 0.253500 0.482500 0.096900 0.790200 0.124000 0.847100 0.785700 0.580600 0.559900 0.638300 0.078700 0.084200 0.623700 0.149800请决定非参数回归的方法: (0) 0= 固定自变量窗宽的核函数法. 这需要事先将自变量变换为 0=t=1. 1= 固定自变量资料点数的平滑法. 这需要自变量资料等距并顺序排列.请键入核函数的窗宽选择h(1/N=h0,由条件 (7.2.7),存在充分大的T0,使 (7.2.10)这里,并且(7.2.11)于是(7.2.12)由的任意性,可知。这就说明fn(x)是f(x)的渐近无偏估计。再利用X1,,Xn的独立性,有(7.2.13)类似于渐近无偏性的证法可得 (7.2.14)于是(7.2.15)这就说明对一切x,fn(x)均方收敛于f(x),因此,这就证明密度核估计的相合性。 二、使用正交多项式核的密度及其偏导数核估计的收敛速度 上一段研究的密度核估计的收敛性,针对的是使用概率密度核函数K,它非负,积分为1,从而可以肯定保证密度核估计函数fn(x)非负且积分为1。只是它的收敛速度不会超过。为了提高收敛速度,统计工作者使用正交多项式作理论上的研究,取得不少成果。这里介绍的是本书作者的研究成果,近期发表在国际数学杂志“Communications in Statistics”上。它是直接研究多元密度,并连带一般偏导数的核估计给出收敛速度。记多元密度f(t)的s阶混合偏导数为(7.2.16)这里。使用多元核函数作出f(s) (t)的估计如下:(7.2.17)其中是构造核函数的正交多项式空间维数,可以任意取定。不仅决定于s, 而且决定于s1, sp,且满足:(7.2.18)其中u0是一正常数,u = (u1,up)。我们以C表示某一合适常数,各个C可不相同。 还满足:(7.2.19)这种多元核函数可以如下构造:(7.2.20)其中是普通一元核函数,满足:(7.2.21)及(7.2.22) 这种核函数具体构造及改进我们放到下一段再统一研究。下面研究的收敛性。我们假定偏导函数局部有界,即存在与对t的各分量求偏导次数r1,rp无关的,0, r1+rp = r, 使当,且tXt且t+Xt时,有 (7.2.23)这里Xt是t的样本空间。同理定义f(t)局部有界。En () 表示对n个样本求数学期望。定理7.2.1 设f (r) (t), f(t)局部有界,则 (7.2.24)(7.2.25)证明 由t(1),t(n) 的i.i.d.,令,注意,有(7.2.26)再由多元Taylor展式、多项展式及核函数正交条件得(7.2.27)这里,由f(r) (t)局部有界,核函数有界,积分域有界,可得 (7.2.24)。又 (7.2.28)(7.2.29)可知 (7.2.25)成立。证毕在s=1时,由 (7.2.16) 我们把都记作了f(1) (t), 把它们排成向量得。相应也代表了p种核估计。由 (7.2.17)知它们的核函数构造不同,满足的正交条件不同,也把它们排成向量得。由定理 (7.2.2)有(7.2.30)进一步有(7.2.31)设122,由 Jensen 和不等式有(7.2.32)于是有 推论1 设,(7.2.33) (7.2.34)这就证明了使用正交多项式核的密度及其偏导数核估计的收敛速度。在本书第十章第四节要引用这些结果。 三、密度核估计的连续性及光滑性 这一段介绍本书作者提出的一种正交多项式,用它构造的一元到多元密度及其偏导数的核估计,在样本抽定时,保持连续性,在样本数趋于无穷时可以保持好的收敛速度。密度核估计是一随机函数,它利用随机抽得的历史样本x(1) ,x (n) 构造fn (x),去估计母体的密度f(x)。它的收敛性是一种大样本性质。对于一个具体的核函数和一个具体的fn (x)的构造,一旦历史样本抽定转入统计计算,fn (x)就是一个普通的函数。这时我们自然要考虑它的分析性质,例如连续性和光滑性。因此,密度核估计的连续性和光滑性是对任意抽定的历史样本而言,它是一种小样本性质。从统计计算的角度,仅仅研究大样本性质是不够的。如果核估计呈跳跃间断,得到的参数估计将随当前样本x的连续变动而发生剧烈跳跃,使其难以进入实用,许多文献要么忽略了核函数的构造,要么给出的核函数不满足连续性光滑性,Lin(1975)构造密度及其(偏)导数核估计如下。(7.2.35)(7.2.36)他进一步具体给出了正交多项式的构造,在n=3时我们画出所给函数式的图像。K1(u)uu120-4811K0(u)09图7.2.3.1. 当0u1时,(7.2.37)(7.2.38)显然这样的fn (x)与都不连续。我们试图寻找截断后仍然连续的正交多项式,从而使密度及其(偏)导数的核估计连续,同时保持较高的收敛速度。 我们先考虑一元密度核估计的连续性、光滑性、收敛性。以下给出的正交多项式与Lin给出的正交多项式区别在于连续性和光滑性,其正交性是一样的。(7.2.39)(7.2.40)(7.2.41)令H是r阶行列式,其第1至r-1行的元素为,第r行元素全为1。将H的第一行换上(u/ut)j得H0,将H的第二行换上(u/ut)j得H1,ut是一常数。显然H0(0) = H0 (ut) = H1(0) = H1(ut)=0。 再令(7.2.42)(7.2.43)则又K0(0) = K0(ut)=0,可见K0是满足正交性及连续性的核函数。在r = 3, ut=1时我们画出它的图形 (图7.2.3.2)。当0uut=1时(7.2.44)同样容易验证K1(u)的正交性及连续性。K1(0)=K1(ut)=0 在这样的构造里,密度核估计的光滑性通过密度导数核估计的连续性实现。下面我们再说明多元密度核估计的连续性、光滑性及收敛性。u-2K04图7.2.3.2设有p元密度f(x), x = (x1, xp), 对于其各阶混合偏导数,我们使用多元核函数,作出它的估计:(7.2.45)其中 (7.2.46)同时要求fn在全空间连续,即(7.2.47)多元核函数要满足: (7.2.48)(7.2.49)且这种多元核函数构造如下:(7.2.50)其中是普通一元核函数,满足(7.2.51)(7.2.52)且。 这种一元核函数构造如下:作行列式,其中第1至r-1行元素为,最后一行元素全为1,将其第ti+1行换上,得r阶行列式(7.2.53)(7.2.54)再令(7.2.55)这样我们已经构造了多元密度及其偏导数的核估计并验证了它们的连续性、光滑性及收敛性。 四、改进多元密度核估计的交互投影迭代算法本段介绍交互投影算法在改进多元密度核估计非负性方面的应用。多元密度核估计是(7.2.56) 这里K ()是核函数,x(j),j=1,n,是样本。如果K()是一个概率密度函数,(非负、积分为1),则fn(x)的均方误差的收敛速度不会超过O ( n-4/5)。如果K ()是一个正交多项式,则fn(x)的均方误差的收敛速度可以任意接近O (n-1),但这时fn(x)不再能保证非负、积分为1。Gajek (1986)利用凸集间的交互投影迭代算法来改进用正交多项式构造的一元密度核估计。该算法可以将fn (x)改进为非负且积分为1的函数,同时保证它的均方误差收敛速度不变,本段将Gajek的方法用之于多元密度核估计,并为它重新写了证明。 多元密度核估计的详细构造上段已述。下面先叙述属于Gajek的迭代算法。对于fn(x)定义加权的均方误差式(7.2.57)这里h是一个非负的权函数。应该说R (fn, f)是一个合适的评价标准。迭代算法是: (1)令,且置k = 0; (2)令,再检查。若Ck+1=1,则令而完成迭代;(3)令; (4)置k=k+2并转向步骤(2)。 从几何直观上看,步骤(2)就是去掉函数的负值而将其改写为零,此时可能函数积分超过1。于是有步骤(3),就是将函数整体向下拉一点,以使积分为1。此时可能又会有负值出现,于是重复步骤(2)。如此反复。Gajek证明了迭代过程收敛。定理7.2.2 设(7.2.58) (7.2.59)则 (1)上述迭代过程收敛,即存在,且。(2)在 (7.2.57)的加权均方误差意义下,至少保持fn (x)的收敛速度,即(7.2.60)在正式证明定理7.2.2之前,我们先叙述三个引理,定义内积 (7.2.61)令 (7.2.62)满足(7.2.62)的全体p元函数构成内积空间,由内积(7.2.61)导出的距离记作,在空间定义 (7.2.63) (7.2.64) (7.2.65)显然,所有的F*,F+和F1都是凸集。引理7.2.1 设,且F0是一凸集,。则f0是fn在F0上的投影当且仅当,有(7.2.66)证略。引理7.2.2 令(7.2.67)则f+是fn在F+上的投影。利用引理7.2.1,证明是容易的。引理7.2.3 令 (7.2.68)则f1(x)是fn(x)在F1上的投影。 利用引理7.2.2,证明也是容易的。 现在我们叙述定理7.2.2的证明: (1) 因为F*非空,F+和F1之间的距离为零。由引理7.2.2和引理7.2.3我们知定理7.2.2的迭代算法也就是两个凸集间的交互投影。这个迭代过程一定收敛,设收敛于,。 (2)由引理7.2.5 ,有(7.2.69)在k次迭代后,我们有(7.2.70)令k并取数学期望,由Fubini定理,我们有 (7.2.71)证毕实际计算时可以取控制精度,在步骤2中Ck+1=1可用Ck+1-1替代,因为与x无关,所以有如下形式(7.2.72)这里常数。 算例7.2.4 随机数发生、直方图显示与密度核估计本算例程式有4个功能:发生给定密度函数的随机数;作直方图(二维或三维);作饼图;作密度函数的核估计。其中发生随机数的程序附有常见分布16种,参数也随使用者指定。如果还要另外的函数,也只需改写一行。作直方图与饼图程序是用C语言写的,彩色显示,10个区间或20个区间色彩各不相同,十分绚丽,调用也十分方便。先发生伪随机数。-16 种指定分布的随机数发生程序 最多发生 5000 个随机数请指定需要发生的随机数的分布函数代码 1: 标准正态分布 N(0,1) 2: 一般正态分布 N(,) 3: 卡方分布 2 4: t 分布 5: F 分布 6: 对数正态分布 7: WEIBULL 分布 8: 指数分布 9: 柯西 (CHUCHY) 分布 10: 贝塔分布 (2,2) 11: 均匀连续分布 U(0,1) 12: 均匀离散分布整数 13: 负二项分布 14: 几何分布 15: 超几何分布 16: 泊松分布 请输入需要发生的随机数个数 n (x1,x2,.xn), n = ? (500)请输入发生随机数的种子(任一奇数) NRAN (11)请输入 t 分布的自由度 (10)要显示发生的随机数吗? 0= 不显示, 1= 要显示 (0)资料存在哪个文件中? 0= 不存盘 1= C21.D, 2= C22.D, 3= C23.D, 4= C24.D, 5= C25.D 6= C11.D, 7= C12.D, 8= C13.D, 9= C14.D, 10= C15.D正将数据文件存盘, 请稍侯 资料已存盘,计算结束。 - 再将刚才发生的伪随机数用直方图显示。图7.2.4.1下面我们再对上述伪随机数出出密度核估计。-密度函数核估计计算程序, 例 7.2.5 请输入资料长度(观测点数, li725.d是500) N: (500)要显示原始数据文件吗? 0=不显示; 1=显示. (0)请选择密度估计的核函数: () 1: K(x)=1-|x|, |x|1; 2: K(x)=exp(-x*x/2)/sqrt(2*3.1416); 3: K(x)=exp(-|x|)/2; 4: K(x)=1/(3.1416*(1+x*x); 5: K(x)=(1-x*x)*3./4., |x|1; 要想得到光滑的密度核估计图像, 样本数要多一些, 比如N=500; 窗宽适当, 比如 h=1-5; 要计算的核函数个数适当, 比如 M=20-100。通过这些参数的调整, 一定可以得到比直方图要好的密度核估计结果。窗宽大致相当于直方图里 X 轴各个分组条形的宽度, 但核估计分组逐点改变.请输入核函数窗宽 h ( h 须为正数, 最好 h 1): (1)请输入您想计算的密度核估计点数 M ( 10=M0。极小化ISE(bt, bu)得到的窗宽记为 (bt,ISE,bu,ISE)极小化MISE(bt, bu)得到的窗宽记为 (bt,MISE,bu,MISE)。对于二元函数g的偏导数,我们记(7.2.80)对于支撑在-1,1上的W,令 (7.2.81)假定g有各二阶连续偏导数,g(2,0)和g(0,2)不完全为0,核函数K是Lipschitz连续,bt+bu0, nbtbu,(n)。由标准的渐近理论可得(7.2.82)其中 (7.2.83)是渐近MISE。函数Itt,Iuu,Itu,If由下式给定:(7.2.84)(7.2.85)(7.2.86)(7.2.87)令 (bt,AMISE,bu,AMISE)表示极小化AMISE(bt, bu)得到的窗宽选择: (7.2.88)(7.2.89)插入方法需要残差方差2以及函数Itt,Iuu,Itu的估计。如果设计密度f未知,If可由下式估得: (7.2.90)下面我们介绍插入法窗宽的选择。 我们先再回顾一下窗宽选择的意义。大家可以想象直方图,那些长条条的宽度就是窗宽。如果把那些长条条取得特别宽,比如极言之,整个直方图就一个长条条,那就太平滑了,变成了均匀分布。如果把长条条取得特别窄,比如极言之,一个长条条里至多只含一个样本点,那些不含样本点的长条条的高度就等于0,整个直方图就乱起乱落。所以合适的窗宽选择是有必要的。这里介绍的是 (bt, bu)的插入法选择。我们使用下列偏导数的核估计:(7.2.91)(7.2.92)这里L2,M是核函数,t, u, t, u是窗宽,我们称为试验窗宽。将,代入Itt,Iuu,Itu的定义式里就可以得到它们的估计值,记作。选择试验窗宽的迭代法如下。令(7.2.93)这里与是在bt,AMISE与bu, AMISE的定义式里以代替2,以代替而得到的。则获得()的迭代算法如下: (1)置初值 (2)对i =1,2, 迭代公式是 (3)在i*次迭代后停止并且令 ( 这个方法有些类似于搜寻固定点来确定窗宽。初值的设置取是根据经验,并非必要。膨胀系数是挑选来使渐近最优窗宽不依赖于c, d (当然要c0, d0)。窗宽与都有的收敛速度。实际演算时迭代次数大约是i*在5到9之间。 下面我们更具体给出算例。取核函数(7.2.94) (7.2.95)积分域A=(t, u)|0t1, 0u1,权函数 (7.2.96)窗宽bt, bu有上界,下界取法则使 (7.2.97)覆盖0.05,0.950.05,0.95。膨胀系数里,取c = 1.5,d = 0.25。插入算法可以用于非矩形的设计密度支撑里,不过用于矩形支撑集当然更好。令密度 (7.2.98)设计点集 (ti, uj), i=1, nt , j=1, nu可由下式给出:(7.2.99) (7.2.100)相应的剖分集为 (7.2.101)i = 2, nt-1, j=2, nu-1。回归函数可取二元正态: (7.2.102)或者两个二元正态的混合。ti, ui的设计密度f可取为线性: (7.2.103)或正态 (7.2.104)nt与nu大约在10到20之间。有了这些参考消息,就差不多可以发生资料然后代入插入法迭代公式里计算了。Herrmann, Ward, Engel及Gasser (1995)称他们计算结果十分令人满意。笔者认为这样搞真是把简单的问题弄复杂了。这样一些资料成功,换一些资料不一定成功。窗宽选择最重要的还是要凭经验与直观观察。如果先凭经验选窗宽,拟合一次后看图像,再调整
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2.1 口算除法(1)(教案)-2024-2025学年三年级下册数学人教版
- 第三单元 第1课时 数数、数的组成(一)(教学设计)一年级数学下册同步高效课堂系列(人教版2024)
- 2025年中考数学试题分类汇编:概率(6大考点55题) (第1期)原卷版
- 单元4 日常生活中常见的材料教学设计-2025-2026学年初中化学仁爱科普版九年级下册-仁爱科普版2012
- 2025年中考化学试题分类汇编:科学探究题(第1期)原卷版
- 第8课 初识Python教学设计-2025-2026学年小学信息技术(信息科技)六年级上册青岛版(六三制)
- 2025年高考全国一卷数学试题(解析卷)
- 2025常规商品进口合同
- 向日葵趣味题目及答案
- 2025年江西省中考生物试题(含答案)
- 2025年全国企业员工全面质量管理知识竞赛题及参考答案
- 2025年《中华人民共和国民法典》网络知识竞赛100题题库(含答案)
- 2025四川省公安厅招聘辅警(448人)笔试参考题库附答案解析
- 《非物质文化遗产概论(第三版)》全套教学课件
- 2025新疆天泽和达水务科技有限公司部分岗位社会招聘28人笔试备考题库及答案解析
- 2025年中学生守则及中学生日常行为规范
- 注册安全工程师考试建筑施工(初级)安全生产实务试题及解答
- 2025年城镇燃气条例竞赛题库
- 展厅预算装修方案(3篇)
- 供电公司保密培训课件
- 供电外协人员管理办法
评论
0/150
提交评论