已阅读5页,还剩23页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 y7 7 5 9 9 8 本文是一篇关于半参数回归估计的文章。半参数回归模型是8 0 年代才发展 起来的一种重要的统计模型。其目的是在允许回归函数未知但是光滑的条件 下,降低对回归函数形式的要求,使估计出的函数能更好地描述数据。本文中 用局部多项式拟和方法去估计相关函数,从理论和实际观点来看都是很具吸引 力的。它是一种非参数回归方法。文中从半参数多元回归模型着手,假定期望 函数为e ( y i x ) = 肛( x t 卢) ,这里x 是维数为p 的列向量,卢是未知参数,“( ) 函 数形式未知。由于此模型不容易满足假设条件:误差方差齐性和误差分布正态 性,我们对该半参数回归模型两边同时应用含参数a 的b o x c o x 变换,使得变 换以后新的回归模型满足了误差方差齐性和误差分布正态性条件。应用局部 线性技术及极大似然方法,通过两步迭代,对未知参数卢,a 以及未每函数“f ) 进行了估计。 关键词:半参数t b s 模型,b o x c o x 变换,局部多项式回归,局部线性拟 合,交叉核实法。 a b s t r a c t t h i si sap a p e rf o rs e m i p a r a m e t r i cr e g r e s s i o ne s t i m a t e s e m i p a r a m e t r i cr e g r e s s i o nm o d e li sa ni m p o r t a n ts t a t i s t i c a lm o d e la r i s i n gf r o m19 8 0 s t h ea i mo fs e m i - p a r a m e t r i cm e t h o d si st or e l a xt h ea s s u m p t i o n so nt h ef o r mo f ar e g r e s s i o nf u n c t i o n , a n dt ol e td a t as e a r c hf o ras u i t a b l ef u n c t i o nt h a td e s c r i b e sw e l lt h ea v a i l a b l ed a t ab y a l l o w i n gt h el i n kf u n c t i o nt ob eu n k n o w n b u ts m o o t h t h em e t h o d ( l o c a lp o l y n o m i a lf i t t i n g ) t oe s t i m a t et h e1 i n kf u n c t i o ni sa na t t r a c t i v em e t h o db o t hf r o mt h e o r c t i c a la n dp r a c t i c a lp o i n to fv i e w , t h i sa p p r o a c hi sc a l l e dn o n p a r a m e t r i cr e g r e s s i o n w eb e g i nf r o mt h em u l t i v a r i a t es e m i p a r a r n e t r i cm o d e le ( z l x ) = u ( x 7 p ) i nt h i s p a p e r , h e r exi s ap d i m e n s i o n a lv e c t o r , | | a n d8a r eu n k n o w n s i n c et h em o d e l i sl e a s tl i k e l yt os a r i s f yt h ec o n d i t i o n :t h eh o m o g e n e i t yo fe r r o r sv a r i a n c ea n dt h e n o r m a l i t yo fe r r o r sd i s t r i b u t i o n ,w et r a n s f o r mb o t hya n dp ( x t 卢) b yt h es a m e f u n c t i o ni no r d e rt os a t i s f yt h ec o n d i t i o no fh o m o g e n e i t ya n dn o r m a l i t y h e r ew e u s eb o x c o xt r a n s f o r mc o n t a i n i n gp a r a m e t e ra f i n a l l yw ee s t i m a t et h eu n k n o w n p a r a m e t e r s 卢, a n dt h em e a nf u n c t i o n 肛( ) u s i n gl o c a ll i n e a rt e c h n i q u ea n dm a x i m u ml i k e l i h o o dm e t h o dt h r o u g ht w o - s t e pi t e r a t e da l g o r i t h m k e yw o r d s :s e m i p a r a m e t r i ct b sm o d e l ,b o x c o xt r a n s f o r m a t i o n ,l o c a l p o l y n o m i a lr e g r e s s i o n ,l o c a ll i n e a rf i t t i n g ,c r o s s - v a l i d a t i o n 四川大学硕士学位论文 半参数t b s 模型的局部线性估计 半参数回归分析是通过建立半参数模型来研究变量之间相关关系( 巧i 确 定性关系) 的一种统计方法。其目的是为了降低回归函数的假设条件,使函 数能更立了地描述数据。设x 和y 分别是d 维和一维随机变量。似定e l y i 0 ,当该 条件不满足时,我们只需要对l 厂做一个相应的平移变换即可。所谓两步迭代方 法,即是通过迭代分别对参数和函数进行估计。 2 1 参数的估计 假设经过b o x c o x 变换后的新数据为 + = 9 ( k ,a ) ,g ;= g ( 弘( x f f l ,a ) ) , 则 + 一( 菇,口2 ) 且同时似然函数等价于: 婴, 1 丽1 吲一学) 箬 由b o x c o x 变换( 3 ) ,我们有 垂箬= 娶n ( 8 ) 于是将( 7 ) 式转化为: 垂杂耐一磊1 c 寿一番片, 因此,对给定的a ,令墨对= ! :日,则( 9 ) 式似然函数可看作是服从正 i i l k “ 态分布的随机变量z 】的概率密度函数乘积,我们以该似然函数作为目标函 数,并极大化此函数从而求得a ,卢,口的估计值。 2 2 函数的估计 现在我们考虑非参数函数p ( ) 的估计。为简便起见,记p = ( p ,a ,。因 四川大学硕士学位论文 为的形式未知,我们只能依赖它的某些性质特征。由p ( ) 的非参数性可知,距 离岫越远的数据点包含关于p ( 响) 的可用信息越少,所以运用v o 附近的数据点 来估计p ( 峋) 是有效的。 假设函数“( ) 足够光滑并能满足泰勒展开的条件,对每一个给定的岫,以 及其附近的点,我们有 p ( ) a o + n 1 ( v i 0 ) ( 1 0 ) 这里耻o = “( 蜥) ,口1 = 卢7 ( 峋) 。 对给定的日,既然一( 孵,口2 ) ,我们可通过极小化下面的函数工来估 计o o ,o 】,其中l 的表达式为: n l = 阱- g ( a o + c q ( 霹p 一) ,a ) 2 k 舢即一峋) ; ( 1 1 ) i = 1 i 担k h ( t ) = k ( h ) h ,k 是对称概率密度函数。通常称k ( ) 为核函数, 称h 为窗宽,它表示局部邻域的大小,引入核函数的目的仅仅是为了限制局部 模型0 0 ) 。 记。= ( a o ,n 1 ) ,极小化目标函数l ,可得口的估i - l - ( d o ,电) ,因此, u ( u o ) 的估 计丘( 的) 一岛。注意到口是依赖于蜘的,因此l 也依赖峋。整条曲线p ( ) 的估计可 以通过对估计区域不同的应用上述局部线性过程得到。 由于伪似然函数( 1 1 ) 只有在卢( ) 展开为零阶时有显示解,所以我们通常用 n e w t o n r a p h s o n 方法求得渐近解。估计口及p ( ) 的算法简述如下: 初始化口:p 的初值可通过假设p ( ) 为线性函数得到; 第一步:对给定的口,d a ( 11 ) 式估计p ( ) ; 第二步:对给定的弘( ) ,由( 9 ) 式估计口。 重复上述两步过程,直到口,芦( ) 的值稳定为止。这可以通过两次连续迭代 6 四川大学硕士学位论文 结果中参数的增量大小来度量。 3 参数的选取 3 1 局部多项式回归基本知识 7 我们知道回归分析是研究变量之间的相关关系( 不确定性关系) 的一种统 计方法。它是数理统计的一个重要分支,其丰要内容包括; ( 1 ) 从一组数据出发,确定这些变量间的定量关系式; ( 2 ) 对这些关系式的可信程度进行统计检验; ( 3 ) 从影响某一个量的许多变量中,判断哪些变量的影响是显著的,哪些 是不显著的: ( 4 ) 利用所求得的关系式对过程进行预报和控制; ( 5 ) 根据回归的分析方法,选择试验点,对试验进行某种设计: ( 6 ) 寻求点数较少,且具有较好统计性质的回归设计方法。 因此,选取合理的回归模型至关重要。考虑来自总体( x ,y ) 的独立同分布 的样本 ( 五,k ) :1 如。,我们的兴趣是估计m ( 。o ) = e ( y i x = 。o ) 以及它的 导数m 7 ( ) ,m ( p 如o ) 。为了帮助我们更好的理解估计的方法,我们可以假定 数据是由如下模型产生的: y 2 ”( x ) + 盯( x ) 5 , ( 1 2 ) e ( e ) = 0 ,v a r ( e ) = 1 : 这里的x 和s 是独立的。如果m ( 嚣) 的p + l l g r 导数存在,那么我们可用p 阶 多项式来局部近似它。若r e ( z ) 2 :够光滑并能满足寨勒展开的条件,我们把它 四川大学硕士学位论文8 在z 。的一个邻域内展开为: m ( x ) m ( x o ) + m ( z o ) ( x x o ) + 掣( 0 ) 2 + ”,+ 学扛 这一多项式可通过极小化下列加权最小二乘问题来做局部拟和 ( 1 3 ) l l = i t , 一岛( x ,一z o ) 1 2 k h ( x ,一o ) ,0 4 ) x = ( :二二三:一;三二:二) ,。= ( 二) ,口= ( 主) c s , 设是g x n 权对角矩阵,w = d i a g k h ( x 一o ) 】o 于是,令卢= ( 阮,岛) 7 加 权最小二乘问题( 1 4 ) 可被改写为: l l = r a i n 口( y 一y p ) 7 w ( y x 卢) , ( 1 6 ) 根据加权最小二乘理论。解向量为: 西= f x 7 w x ) 一1 x 7 i v y ; ( 1 7 ) 由( 1 7 ) 可知: e ( p i x ) = ( x 7 w x ) 一1 x 7 w m = p + ( x r w x ) 一1 x t w _ ( 1 8 ) 四川大学硕士学位论文 v a r ( 西l x ) = ( x 7 w x ) 一1 ( x r x ) ( x 7 w x ) ( 1 9 ) 这里m = m ( x ,) ,m ( ) ) 7 ,卢= m ( 跏) ,型蛳p ! j 1 7 r = m x 7 卢,= d i a g 聪( x 。一z o ) 口2 ( 五) 。称r 为残差。 可见,偏差和方差是跟残差r 和对角矩阵有关,而r ,是未知的。所以我 们在下一节参数选择时以使得渐近的偏差平方与方差和极小为目的。 3 2 核函数的选择。 我们在做估计时,假定无限远处的置对估计点z 的影响相同是不合理的, 因此嫡过设定权值来减少远处点的影响,由于估计是基于局部模型( 1 4 ) 的,所 以k 必须是非负的,k ( k ) 的大小表示该样本点( 五,) 在估计m ( ) 时的重要 程度。将其一般化,我们得到下面的定义; 定义3 1 设i ( o ) = 眦( z ;x 1 ,) ,i = 1 :,n 是选定的n 个依赖于x 和 x 1 ,k 的函数,则 称为回归函数m ( 。) 的权函数估计, m ) 称为权函数。通常满足如下条件 的称为概率权函数: ( 1 ) 眦( 。;x ”,誓,) 2o ; ( 2 ) 墨1 姒( z ;x ,) = 1 在核函数估计中,若令 脚,瑚吲学) 喜( 宰) - ( 2 1 ) 只要k 非负,它就是一个概率权函数。由此作出的权函数估计称为n a d a r a y a w a t s o n 估计。另外一种常见的权函数估计是: o 但k 扛 眠 。 | i z胤 四川大学硕士学位论文 1 0 m ( z ) = :。壁。风( “一z ) d u y t , 这里s 。= ( x t + x i + 1 ) 2 ,i = l ,2 ,n x o = 一o 。,j 0 + l = + 。这种估计 就是g a s s e r - m i i l l e r 估计。 局部多项式方法与这两种非参数方法:n a d a r a y a w a t s o n 估计,g a s s e r m f i l l e r 估计做比较 q ,由于n a d a r a y a w a t s o n 估计的分布是随机的,给理论分析增加了 难度,会带来不理想的偏差,g a s s e r - m f i l l e r 在处理随机模型时方差也大,斯局 部多项式正好弥补了它们的这些缺点。后两种估计通常适用于均匀的数据点, 局部多项式则能自动适应各种设计,在边界上也不需要修正,它最根本的是心 用加权最小二乘理论,所以可以被广泛使用。 我们在本文的估计过程中选择的是e p a n e c h n i k o v 核,以下我们将说明它是 估计局部线性模型时最优的核函数。 2 ( 茇 。o ) ( 墨x o ) , ( 2 2 ) 蚓山纠旷匪 炙, p + 1 | ( 2 3 ) j l s 。却1 舻h 牌 r 蜘 暖恐 酬砌 陇昂 ( t 引 凳备 岛 e 四川大学硕士学位论文 这里 鼠靠1 x 7 w ”= 喜w ( 半胍 ( 2 4 ) 管( t ) = e l l 靠1 1 ,t h ,( ) ) 7 k ( t ) h ( 2 5 ) 上面表达式说明怠仍然是m 的线性组合,若将w 了看作是核,岛具有核估 计的形式,这也证明了局部多项式方法具有更强的适应性。 理3 1 :w 了满足如下离散矩条件: 7,一z。)txi-xoq n x i - - x 0 ) :o uq 墨p( 2 6 )一z o ) t ) = o uq 墨p( 2 6 ) 这一关系的直接结果就是当估计直到p 阶的多项式时有限样本偏差是零。 我们考虑下述表达式: & ,= n m f ( x o ) 地 1 + d p ( 1 ) ) , ( 2 7 ) 从而由( 2 3 ) 有: 又= ( & ,j “) o i z 9 = n f ( x o ) h s h 1 + 绵( 1 ) , ( 2 8 ) 这里日= d i a g ( 1 ,h ,胪) ,我们在附录中将要给出岛j 这一表达式的证 明。m w :定义( 2 5 ) 以及( 2 8 ) 有: 叼( t ) = 而1 e 0 ,蹦1 ,t ,护) t 圳 1 + 0 p ( 1 ) ) ,( 2 9 ) 由( 2 4 ) 式 岛= w ( 学) m :纛砉弼c 学心,。 四川大学硕士学住论文 这里 p e ( z ) = e t s 。1 ( 1 t ,t ) 7 ( t ) = ( s “t ) k ( t ) , ( 3 i ) s = ( s j ) o 剑! p 我们称k :为e q u i v a l e n t 核,它满足如下条件 f u q g ;( u ) 毗= d v , q , 0 v ,q p ( 3 2 ) 我们可用类似证明引理的方法来证明之。 在某些特定的p 和处,见下表,e q u i v a l e n t 核就是e p a i l e c l l i l i k o v 核k ,如下 ( z ) = i ( 1 一= z ) 州暑i l p 蟛,( t ) 0l k ( t ) o3 ( p 4 一p ;) 一1 ( 肛4 一# 2 t 2 ) k ( t ) l 2 阿1 t k ( t ) 23 ( 肛4 一疋) 1 ( t 2 1 - 2 ) k ( t ) ( 3 3 ) 我们在本文采取局部线性估计原函数p ( ) ,既当= 0 1 p = 1 时,凼此我们 在模拟时,选取e p a n e c l l n i k o v 核k ,详见f a n & g i j b e l s 7 。 3 3 窗宽的选取 在做局部多项式拟和时,一个很自然的问题就是:局部邻域选择多大时 方法才有效? 这就等价于说要选取多大的窗宽,因此窗宽的选择非常关键。如 果棚阪得太小,随机性的影响增加而被估函数呈现不规则的形状,可能掩盖被 估函数的重要特征。反之, 取得太大,参加平均的样本就多,会提高估计精度, 1 2 四j 1 l 大学硕士学位论文 1 3 但被估函数将受到过度的平均化,使其比较细致的性质不能显露出来。我们可 将窗宽分为常数窗宽和可变窗宽,常数窗宽也就是全局窗宽,可变窗宽又可分 为全局可变窗宽和局部可变窗宽两类。局部可变窗宽h ( x o ) 随着局部点z o 而变 化,全局可变窗宽h ( x d 根据数据点的不同而不同。可变窗宽可以达刽不同的 光滑度,因此可以减少峰度大区域的偏差和平坦区域的方差。这就提高了局部 多项式拟和的的稳定性。 先给出一些记号:记核函数,k 2 的矩分别为: 如= i ( ( u ) d u ,吩= 口2 ( u ) d u , ( 3 4 ) 由矩构成的矩阵和向量记为: s = f 肌f 1 , o ,l o n d o n w e i n h e i n g n e wy o r k t o k y o m e l b o u m e , q v l a d r a s :c h a p m a n & h a l l ( 1 9 9 6 ) 8 j e n g - m i nc h i o ua n dh a n s g e o r gm u l l e r ,q u a s m i k e l i h o o dr e g r e s s i o n w f t hu n 砌o w nl i n ka n dv a f i a n c ef u n c t h g n j o u r n a lo ft h ea m e r i c a ns t a t i s t i c sa s s o c i a t i o n ,9 3 ( 1 9 9 8 ) ,p p 1 3 7 6 - 1 3 8 7 9 】g n a i s y i nw a n ga n dd a v i dr u p p e r t ,n o n p a r a m e t r i ce s t i m a t i o no f t h et r a n s f o r m a t i o ni nt h et r a n s f o r m - b o t h - s i d e sr e g r e s s i o nm o d e l j o u r n a lo f t h ea m e r - m a ns t a t i s t i c sa s s o c i a t i o n ,9 0 ( 1 9 9 5 ) ,p p 5 2 2 5 3 3 1 0 r j c a r r o l la n dj i a n q i n gf a ne r e ,g e n e r a l i z e d p a r t i a l l yl i n e a rs i n g l e 参考文献 i n d e xm o d e l s , j o u r n a lo ft h ea m e r i c a ns t a t i s t i c s
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年中小学教师信息技术应用能力提升-教育APP选择与应用考核试卷
- 光伏组件边框材质耐腐蚀性考核试卷
- 2025年供应商协同管理平台应用实体零售升级能力考核试卷
- 2025年工业废气SCR脱硝催化剂性能评估考核试卷
- 2025山东省社会治安综合治理中心招聘考试笔试备考题库及答案解析
- 2025江西南昌汉代海昏侯国遗址管理局招聘国有企业正职背景调查笔试考试参考题库及答案解析
- 2025四川宜宾钲兴智造科技有限公司第四批项目制员工招聘3人笔试考试参考试题及答案解析
- 2025中国农业科学院附属小学招聘12人笔试考试备考试题及答案解析
- 2025湖南永州市蓝山县引进急需紧缺高层次专业人才20人(第二期)考试笔试模拟试题及答案解析
- 分布式光伏运维体系构建
- 民兵应急救援知识培训课件
- 2025年合肥市轨道交通集团有限公司第二批次社会招聘12人笔试历年参考题库附带答案详解(3卷合一)
- 安全文明施工监理实施细则(水利工程)
- 2025年时事政治必考题库附参考答案
- 加气站安全生产费用提取和使用管理制度
- Unit4Weatherandourlife(单元解读讲义)英语鲁科版五四制四年级上册
- 铝合金门窗施工重点难点分析报告
- 蜡疗技术的应用
- 《组织行为学》课件-第12章 组织文化
- 2025年高纯硼酸行业研究报告及未来行业发展趋势预测
- 电机制造工作业指导书
评论
0/150
提交评论