(概率论与数理统计专业论文)函数型回归模型的成分选取.pdf_第1页
(概率论与数理统计专业论文)函数型回归模型的成分选取.pdf_第2页
(概率论与数理统计专业论文)函数型回归模型的成分选取.pdf_第3页
(概率论与数理统计专业论文)函数型回归模型的成分选取.pdf_第4页
(概率论与数理统计专业论文)函数型回归模型的成分选取.pdf_第5页
已阅读5页,还剩15页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 一般地说,多元数据分析处理的对象是刻画所研究问题的多个统计指标在多次观察中呈 现的数据。样本数据具有离散且有限的特征,但是现代的数据收集技术所收集的信息,不但包 括传统统汁方法所处理的数据,还包括具有函数型形式的过程所产生的数据在处理数据的时 候我们就会遇到模型建立的问题,这时候我们就把一些多元数据分析模型应用到函数型数据中 ( 比如线性模型) 那么在线性模型中变量的选择f b j 题就很重要了在分析这种模型的时候, 人们根据问题本身的的专业理论及有关经验常常把各种与因变量有关的自变量引进模型,其 结果是把一些对因变量影响很小的,甚至没有影响的自变量也选入了模型中,这样一来,不但 计货:量大,而且估计和预测的精度也会下降,此外在一些情况下,某些自变量观测数据的获得 代价昂贵,如果我们对这些本身对因变量的影响很小或根本没有影响的自变量不加选择的引 入到模型当中,势必会造成观测数据收集和模型应用费用的不必要加大因此,本文基于函数 型数据的普遍特征,在函数型数据分析时,对进入模型的自变量作了精心选择 本文主要的工作是利用t i b s h i r a n i ( 1 9 9 6 ) 提出的l a s s o 方法,将函数型回归模型系数进行压 缩,并且使某些系数变为0 ,再利用其他方法将变为0 的系数截去,从而来确定模型的阶数, 进而达到变量选择的目的 关键词:函数型数据,核估计,变量选择,l a s s o a b s t r a c t g e n e r a l l y ,t h eo b j e c to fu m l t i v a r i a t ed a t aa n a l y s i si nar e s e a r c hi st op o r t r a yan u m b e ro fo b s e r v a - t i o n a ld a t aw h i c hp r e s e n t e di nan u m b e ro fs t a t i s t i c a li n d e x e s s a m p l ed a t ah a st h ec h a r a c t e r i s t i c so f d i s c r e t e n e s sa n df i n i t e n e s s h o w e v e r ,t h ei n f o r m a t i o nw h i c hi sc o l l e c t e db yt h em o d e r nd a t ac o l l e c t i o n t e c h n i q u e s ,n o to n l yc o n t a i n st h ed a t aw h i c hi sd i s p o s e db yt h et r a d i t i o n a lw a y ,b u ta l s oc o n t a i n st h e d a t aw h i c hi sp r o d u c e db yt h ef u n c t i o n a lf o r mp r o c e s s t h e r e f o r e ,w ew i l le n c o u n t e rt h ep r o b l e mo f f o u n d i n gm o d e lw h e nw ed i s p o s et h ed a t a a tt h i st i m ew ew i l la p p l ym u l t i v a r i a t ed a t aa n a l y s i sm o d e l t of u n c t i o n a ld a t a ( f o re x a m p l e ,l i n e a rm o d e l ) s ot h ep r o b l e mo fh o wt os e l e c tv a r i a b l e si nl i n e rm o d e l i si m p o r t a n t d u r i n gt h ep r o c e s so fa n a l y z i n gt h i sm o d e l ,p e o p l ea l w a y sb r i n gs o m ed e p e n d e n tv a r i a b l e i n t ot h em o d e l t h e s eu s e l e s sd e p e n d e n tv a r i a b l e sw i l lr e s u l t i nl a r g ea m o u n to fc a l c u l a t i o n ,a n di t w i l li n f l u e n c et h ep r e c i s i o no fe s t i m a t i o na n df o r e c a s t i n g m o r e o v e r ,s o m eo b s e r v a t i o n a ld a t ai sv e r y e x p e n s i v e s ot h i sa r t i c l ew i l lr e s e a r c hh o wt os e l e c td e p e n d e n tv a r i a b l e si nt h ep r o c e s so fa n a l y z i n g f u n c t i o n a ld a t , am o d e l i nt h i sa r t i c l e ,w ew i l lu s et h em e t h o dw h i c hc a l l e dl a s s o ( t i b s h i r a n i ( 1 9 9 6 ) ) t h em a i nw o r ki st o r e s e a r c hh o wt oc o n t r a c tc o e f f i c i e n t si nt h ef u n c t i o n a lr e g r e s sm o d e la n dm a k es o m ec o e f f i c i e n t st u r n i n t o0 t h e n u s i n go t h e rw a yt ob i t eo f ft h ec o e f f i c i e n t sw h i c hi s0 t h r o u g ht h i sw a yw ec a na s c e r t a i n t i l eo r d e ro ft h el n o d e l ,t h e nw ec a ns e l e c tc o e f f i c i e n t s k e y w o r d s :f u n c t i o n a ld a t a ;v a r i a b l es e l e c t i o n ;k e r n e l ;l a s s o i i 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果据我所知,除了 文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得 东北师范大学或其他教育机构的学位或证书而使用过的材料与我一同工作的同志对本研究所做的任何贡 献均已在论文中作了明确的说明并表示谢意 学位论文作者签名物证咻丝21 垒 学位论文版权使用授权书 本学位论文作者完全了解东北师范大学有关保留、使用学位论文的规定,即:东北师范大学有权保留 并向国家有关部门或机构送交学位论文的复印件和磁盘,允许论文被查阅和借阅本人授权东北师范大学 可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或其它复制手段保存、 汇编学位论文: ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名;名硅指导教师签名: 日期:型仝:垒s 日 学位论文作者毕业庸去向: 工作单位: 通讯地址: 电话: 邮编: 期: 啦 东北师范大学硕十生学位论文 已i古 - ,l口 在传统的统计数据分析中,数据一般具有这样的特征,即数据要么是时间序列数据,要 么是横截面数据而实际中获得的许多统计数据,往往是在时间序列上取多个截面,再在这 些截面上同时选取样本观测值所构成的样本数据,称这样的数据为“面板数据”或纵向数据 ”( 1 0 n g i t u d i n a ld a t a ) 近二十多年来,许多学者研究分析了面板数据但是,研究面板数据的模 型是以线性结构描述变量之间的因果关系,且模型太过于依赖诸多的假设条件,从而使得方法 的具体应用及方法适用的数据类型,均具有一定的局限性为了弥补面板数据在模型分析方法 及其它统计分析方法的缺陷,本文基于统计数据的函数性特征,介绍一种从函数视角对数据进 行分析的方法一一函数性数据分析 一般地说,多元数据分析处理的对象足刻画所研究问题的多个统计指标在多次观察中呈 现的数据,样本数据具有离散且有限的特征但是,现代的数据收集技术所收集的信息,不但 包括传统统计方法所处理的数据,还包括具有函数形式的过程所产生的数据在处理数据的时 候我们就会遇到模型建立的问题,这时候我们就把一些多元数据分析模型应用到函数型数据中 ( 比如线性模型) 那么在线性模型中变量的选择问题就很重要了在分析这种模型的时候, 人们根据问题本身的的专业理论及有关经验,常常把各种与因变量有关的自变量引进模型,其 结果足把一些对因变量影响很小的,有些甚至没有影响的自变量也选入模型中这样一来,不 但计算量大,而且估计和预测的精度也会下降此外,在一些情况下,某些自变量的观测数据 获得代价昂贵,如果这些自变量本身对因变量的影响很小或根本没有影响,但我们不加选择都 引到模型中,势必造成观测数据收集和模型应用费用不必要的加大因此,本文基于函数性数 据的普遍特征,在函数型数据分析时,对进入模型的自变量作精心的选择 东北师范大学硕士生学位论文 1 函数型线性模型的成分选择 1 1 函数型数据模型 实际中,越来越多的研究领域所收集到的样本观测数据具有函数性特征,这种函数性数据 是融合时问序列和横截面两者的数据,有些甚是曲线或其他函数图像,函数型数据分析的概念 最初由加拿大统计学家r a m s a y 和d a l z e l l 于1 9 9 1 年发表的论文( ( 函数型数据的一些工具提 出,近年来一些国外的专家和统计学家就函数型数据做了许多研究,也取得了一些成果,但是 国外在这个方面的研究还是处于摸索阶段,还有很多问题需要完善 在实际的统计数据分析中,函数型数据很常见例如,考古专家挖掘的骨块形状;不同地 区的多期温度、降雨量数据;多个地区、行业或者企业的多年度经济总量;多家商业银行历年 的资本结构;不同时间上多个省市的失业数据等这些统计数据往往呈现函数特征,即每个个 体对应着一个函数或者曲线在对函数性数据进行分析时,将观测的数据( 函数) 看做一个整 体,而不是一串数字,这是函数性数据分析不同于传统分析之根本所在 我们从o r a m i p ( o b s e r v a t o i r ed e1 a i ed er e g i o nm i d i p y r e n e e s ) 获取了一些法国南部m i d i p y r e n e e s 地区的大气数据他们收集到了t o u l o u s e 市的从2 0 0 8 年5 月1 5 日到2 0 0 8 年8 月 2 2 日之间的臭氧浓度( 0 3c o n c e n t r a t i o n ) 、一氧化氮浓度( n oc o n c e n t r a t i o n ) 、二氧化氮浓度 ( n 0 2c o n c e n t r a t i o n ) 、风速( w s ) 、风向( w d ) 、可吸入颗粒浓度( p m l 0 ) 和可见颗粒浓度( p m 2 5 ) 一天2 4 小时随时问变化的数据。我们用这些数据来估计第二天的臭氧浓度最大值,并且在模 型中对其中的变量进行选取 一种非参数模型经常被应用到函数型数据的分析之中,它是这样定义的: y = n ( x ) + e 在这里,x 足解释变量,y 是响应变量,e 是一个不可观察的随机误差要想得到y 的估计, 我们必须对r 进行估计 这个模型之所以被称作是函数型的,是因为x 是来自于一个函数空间,在实际中我们获 取数据一般是一个集合或者是在各个时间点上的观测,之所以用函数的视角对数据进行分析 是因为:( 1 ) 获取数据的方式和技术日新月异,多种多样,例如越来越多的研究就可以通过 自动收集系统获取大量的数据,更重要的屉,原本用于工程技术分析的光滑和差值技术,可以 由有限组的观测数据产生出相应的函数表示;( 2 ) 尽管只有有限次的观测数据可供利用, 但是有一些建模问题,将其纳入到函数范式下进行考虑,会使分析更加全面、深刻;( 3 ) 在 有一些情况下,如果想利用有限组数据估计函数或者它的导数,则从本质上来看就具有函数 性的特征;( 4 ) 将平滑性引入到一个函数过程所产生的多元数据的处理中,对分析具有重 2 东北师范大学硕士生学位论文 要意义r 不受任何参数的控制,这是一个非参数模型x 是一个p 维的函数随机变量,即 x = ( x 1 ,x 2 ,x p ) ,其中x ( t = 1 ,2 ,p ) 是每个变量在一天中的变化曲线所以模型( 1 ) 叫做多元函数型非参模型f e r r a t ya n dv i e u ( 2 0 0 2 ) 已经给出了r 的估计,他们用的是核估计 的方法,即: 壳( x ) = 嘶,。( z ) k ( 2 ) 其中权函数 ( 班k ( 垫) nk ( 垫) ( 3 ) d ( u v ) 是两个多元函数型随机变量之间的距离,h 足光滑参数( 窗宽) ,k 足一个给定 的核函数f e r r a t ya n dv i e u ( 2 0 0 2 ) 已经得出一些结果,d 和h 是影响这个模型的两个非常重 要的参数h 影响函数光滑的程度d 则反映的是两个函数随机变量之间的关系,这里: d ( m ) _ ( z 6 掣蹦 那么我们在处理袁的时候,必须要考虑到h 和d 的选取 为了解决这个问题,我们用到了交叉核实( c r o s s v a l i d a t i o n ) 的方法( h a r d l ea n dl 、,l a r r o l l ,1 9 8 5 ) , 换句话说,就是先把第i 个样本剔除形成新的样本,然后对r 进行估计,得到应,这时候我 们再利用剔除的样本x i ,计算 c v = ( m 一袁。( ) ) 2 不断的变换h 和d ,找到令其c v 达到最小的h o 和d 0 ,得到h = h o 和c i = 幽 1 2 函数型回归模型 样本一般是以( x ? :x ? ,义 ,k ) 的形式获取,我们在处理多个解释变量对一个响应变量 作用是,通常会选择线性回归模型南此我们给出如下: p k = ,- + 吩( 霹) + e ( 4 ) j = 1 其中岛( 霹) ( j = l ,2 ,p ) 满足( 2 ) 式子中的定义,它表示第j 个变量在第i 天对k 的影响, 这样我们就建立了线性回归模型。我f | j 的日的就是在这个模型中,用l a s s o 的方法进行变撼的 选取工作 令马( x j ) 和y 标准化后记为z j 和y 那么( 4 ) 式就变为 p y + = 岛乙+ e ( 5 ) 3 东北师范大学硕士生学位论文 则 下面利用l a s s o 的思想对其进行变量选择,若 奎= 刍砉( k 棚( m 棚丁 卢= ( f l l , f 1 2 , , 纠 p m 礼( k f l i x i ) z _ 1 ( k 一屈托) t l = 1 p 恻t ,t 0 t = 1 t 是调整参数 适当调整t ,使得有些变量前的系数变为0 ,从而达到变量选择的目的 4 东北师范大学硕士生学位论文 2 l a s s o , l a r s 的基本思想和算法 2 1 l a s s o 的基本思想和算法 考虑线性模型 且岛是独屯同分布的,我们有数据( z 1 ,x 2 ,y i ) 这里一是一个个体第i 个响应变量通 过使残差平方和达到最小,可以得到芦= ( p 1 ,侥,纬) t 的最i b - 乘估计,即 n p = o r g m i n ( y i 一屈翰) 2 l = 1 最小二乘估计有很多好的性质,但仍存在一些不足一是预测精度问题,虽然最t b - 乘估计的偏 较小,可是它的方差却很大二是模型的可解释性问题,进行大量预测时,我们希望其中的非 零分量少一些,同时每个分量对响应变量的影响要相对大一些,为了预测的准确,我们希望使 某些回归系数减小到0 ,这样虽然柄牲了一些偏,但却减小了预测误差,同时减少了变量,但 最b - - 乘估计做不到这些 有两种方法可以对最b - 乘估计进行改进,分别足s u b s e ts e l e c t i o n 和r i d g er e g r e s s i o n ,但 足他们也有自己的缺点,s u b s e ts e l e c t i o n 虽然使模型可解释,但由于变量选择过程均为离散过 程,所以数据的小变动都会引起选择模型的改变,也就降低了预测的准确性r i d g cr e g r e s s i o n 是 一个连续型的方法,它缩小了回归系数,而且没有简单地抛掉哪个变量,模型比较稳定,但止由j : 它不能将任意的卡h 关系数置为0 ,使得模型中变量太多,模型的可解释性不好t i b s h i r a n i ( 1 9 9 6 ) 提出一种新的方法,这种方法将回归系数进行压缩并且使某些回归系数变为0 ,它即取s u b s e t s e l e c t i o n 和r i d g er e g r e s s i o n 各自的优点,又能弥补各自的不足 像通常的回归结构中一样,我们假设观测值彼此独立,或者响应变量y f 在观测值给定的 情况下独立,即驮关于兢条件独立,同时假设而是标准化的则l a s s o 的估计为 p ( a ,口) = ( i t g r o i n ( 矾一q 一岛观) 2 ) t = lt = l 其中娶1i 岛i t ,这里t 是调和参数,此时对一切的t ,有不失一般性,我们假设9 = 0 这 样就可以省略了a ,调和参数t 的控制使回归系数总体变小若令t o = p 忙。| 屈| ,即t o t ( 其 中t 是最i j 、z _ 乘估计系数模的和) ,就会使一些回归系数缩小并趋于0 ,一些系数甚至就等于 5 2 仃o 旬 +z 展 p 澍 = 玑 东北师范大学硕七生学位论文 0 实际上,我们选择的调和参数t 使得l a s s o 中非零回归参数的个数不超过m i n ( p ,n ) 个,这对 我们解决p 远远小于n 时的i 口j 题很有用 对于l a s s o 的计算,主要就是调和参数t 的确定和解二次规划问题。确定调和参数t 的方 法有交叉核实、广义交叉核实等t i b s h i r a n i ( 1 9 9 6 ) 已经给出了详细的描述,本文不再赘述确 定了调和参数就只用考虑二次规划问题了要注意的是约束条件娶。i 屈i c 2 ( 肺) l a r s 将在z 1 的方向上增加扁有: f l = 肺+ - f i x l 在这里7 1 = 甄2 一卢l ,这是因为沈一口1 在x l 和x 2 的等角线上,且使c 1 ( f 1 ) = c 2 ( z , ) ,设i t 2 为等角 线上的单位向量,l a r s 的下一步为 如= 口1 + 晚x 2 选择恍的值,使得如= 尻,但是当有两个以上的预测变量时,晚的值会更小,这时l a r ,s 的 后续步骤,也是沿着已选出的自变量的等角线进行的,会逐步的计算出喷,晚, 假没自变量x 1 ,x 2 ,x 。足线性独屯的,h 是指标集1a 襻,2a 社,a 带,竹z 的 子集合,定义矩阵 x h = ( s j 玛) 在这里勺等于1 或者一1 ,定义: g h = x 石y 日 a h = ( ,吾9 五1 咕) 如是各个位置都为1 的向量,长度等下h 中元素的个数,这时 u h = x h w h s t u h = ( a t h g h l i h ) x h 与u h 的各列形成的角的角度足相等的,且都小于9 0 度 x l ;u = a h i h = 1i i u 1 1 2 = 1 7 东北师范大学顶十生学位论文 现在我们全面的描述l a r s 算法,就像s t a g e w i s e 一样,我们开始下廊= o ,然后逐步的建 立肺,假没妇是当前的l a r s 估计 6 = x 丁( y 一妇) 当前的关系向量,集合h 是与当前残差向量相关系数的绝对值最大的自变量的指标集合 c m o z i 弓i= j :i 岛= 岛l 让s j = s i 9 n ( 弓) 对j 6 h 我们按照以上步骤计算x n ,a h 和u 0 ,且计算下列内积 a = x t x h l a r s 算法更新庙的下一步为 廊= 砌+ = 仇i n ( 糕,糕) 显然,这样运行的结果是得到一个序列,这个序列是按照自变量对因变量作f :的,排在第一位 的是对因变量影响最大的,越往后影响越弱,而且通过对寺和u h 的计算,我们也可以得出变 量系数的值 由前面的叙述我们知道,将一些可有可无的自变量去掉,可以使预测误差减小,提高预 测精度,所以我们首先进行变量选择,变量选择的方法很多,但我们本着计算量少的原则用 l a r s ,而且我们还可以得到按自变量重要性的一个排序但是,出于对预测精度和变量选择 的考虑,应选出一个自变量的子集,我们可以用a i c 或者b i c 准则来进行,由于已经对预测 变量进行了排序,为巧l ,。,故进行计算的了集只有下面这些巧l ,。,用a i c 或者 b i c 定阶,我们可以得到一个最优的子集,下面介绍a i c ,b i c 准则 2 3 ,a i c 准贝l 】幂b i c 准贝l j a i c 准则足1 9 7 1 年日本学者赤池a k a i k e 给出了一种适用面非常广泛的统计模型选择准, 称为最小信息准则( a k a i k ei n f o r m a t i o nc t ,i t e r i o n ) 运用这一准则,可以在模型参数极大似然估 计的基础上估计线性模型的阶数p ,上一节最后得到的是估计值卢各分量的一个排序,例如 可以是卢h 一,岛,但是我们希望参数中非零分量少一些,同时每个分量对响应变量的影响要 相对大一些,为了预测的准确,我f f j 希望使某些回归系数减小到0 因此,我们必须对得到的 排序做一个截断,这里主要用a i c 准则和b i c 准则 a i c 准则函数定义如下: a i c ( q ) = - 2 l o g ( m a x i m u ml i k e l i h o o df u n c 览i ( m ) + 2 ( q ) r 东北师范大学硕士生学位论文 a i c 越小说明模型越精确,这里2 ( 模型最小参数个数) 为惩罚项,由于惩罚项与样本容量 无关,所以在理论上a i c 准则不能给出相合的估计,也就是说,当n 一时,采用a i c 准则 的方法给出模型阶数估计值并不能依概率收敛到真值为了改进这个问题,我们给出b i c 准 则 b i c 准则函数定义如下: b i c ( q ) = 一2 l o g ( m a x i m u ml i k e l i h o o df u n c t i o n ) + l o g ( n ) ( q ) 即a i c 准则函数中的2 被l o g ( n ) 所替代,b i c 越小说明模型越精确 一般地,l o g ( n ) 远远大于2 ,对于同一个数据序列进行拟合的时候,用a i c 准则往往用 b i c 准则确定的阶数要高,定义不同的准则函数,其日的是为了拟合残差与参数个数之间不同 的权衡,当样本量n 趋于无穷时,用准则挑选的最佳模型的阶数往往是过相容的,也就是说, 选定的阶数往往比真实模型的阶数高,具体情况要依据具体要求合理地选择不同的准则 9 东北师范大学硕士生学位论文 3 数据分析和结论 3 i 数据分析 在当代环境科学研究中,臭氧层空洞足一个十分严峻的同题,臭氧层是指大气层的平流屉 中臭氧浓度相对较高的部分,主要作用是吸收短波紫外线而紫外线是对地球上的生物有害的 一种射线所以臭氧层屉保护我们和地球上其他牛物最终的屏障但是现在随着人类社会不断 的发展,尤其是f 业排放的一些剩余产品,对其影响很大本文作者通过对一些数据的分析, 希望得到有哪些凼索对臭氧浓度的变化起到影响的作用通过观察臭氧浓度的变化呈周期变化 的趋势,比较适合运用函数型数据分析的方法米解决问题 现在利用已经得到的1 0 0 组数据对模型( ) 估计,栽从o r a m i p ( o b s e r v a t o i r ed e a i cd er e r g i o nm i d i - p y m ) 获取了些法阿南部m i d i p y i m s 地区的大气数据他们收集到了t o u l o u s e 市的从2 0 0 8 年5 月1 5 日到2 0 0 8 年8 月2 2 日之间的臭氧浓度( 0 3c o l , c o n t r ;l t i o n ) ,一氧化氯 浓度( n oc o i i c e l x t r l l i o l l ) 、二氧化氮浓度( n 0 2c o u c e n t r a t i o n ) 、风速( w s ) 、风向( w d ) 、 粉尘维度( i ,m l o ) 和可吸入颗粒浓度( p m 2s ) 一天2 小时随时间变化的数据( 数据,源r h t t p :w w wo r a m po r 9 1 很可惜的足我们没有找到温度和一些射线强度的数据接下来我“j 的 想法是利用每个变母的前8 f j 组作为样本对模型进行估计,后2 组作为榆验集台我们的目的 足利用“今天”的变量值束预删“日】天”的臭氧浓度最大值 我们再利用u 样条耐牧,对每天解释变量的变化进行光滑( 程序包来自1 :h t t p :w w w1 s 叫陟 t l s ef t s t a p h ) ,得到 x ,= ( x 小) 1y ,( 2 , ,x 。( c ) 7 ) 一( 0 3 ,一1 一 一 履 ,斟 oecebus 东北师范大学硕士生学位论文 由结果可知,我们从臭氧浓度( 0 3c , o n c e n t r a t i o n ) 、一氧化氮浓度( n oc o n c c n t r a t i o n ) 、二氧化 氮浓度( n 0 2c o n c e n t r a t i o n ) 、风速( w s ) 、风向( w d ) 、粉尘浓度( p m l 0 ) 和可吸入颗粒浓度 ( p m 2 5 ) 这些变量中,选择出了4 个变量,从而达到变量选择的目的 实际中,从自然科学可知,影响臭氧浓度的因素有气压和一些化学物质等,那么在我们得 到的模型的变量中,风速可以反映气压的变化,而且一氧化氮足直接影响臭氧的一种化学物 质,p m 2 5 反映的是工业排放的指标由此可见我们的模型符合科学研究,这说明我们的方法 还是可行的 我们在预测臭氧浓度最大值的时候,以前已经有了几个模型,其中两个是经验模型,还有 一个是一般的线性模型,在此我们对这几个模型进行一下介绍,并且用它们与函数型回归模型 进行一下对比 模型一; 妊瓦1 薹巧 这个模型的意义是对我们已有的数据结果取平均,作为接下来0 3 浓度最大值的预测在 此我们把它记为:模型m 1 它比较直观,但是它忽视了在一些特殊情况下,一些变量对臭氧 的影响,所以它预测的不是十分准确。 模型二; k = r n o x 0 3 i 一1 ( t ) t 【0 ,2 4 】 模型二是对模型一的一种改进,它是利用前一天的臭氧浓度最大值作为第二天臭氧浓度 最大值的估计我们在这里把它记为:模型m 2 模型三: 下面我们来介绍一个线性模型,d a m o na n dg u i l l a s ( 2 0 0 2 ) 通过对数据的分析得到下面的模 型 k = 应+ 历( m a x 0 3 ,f 1 ) + 晓( m a x n o i 一1 ) + 统m a x w 岛一1 ) 这个模型就是利用前一天的臭氧浓度最大值,一氧化氮浓度最大值和最大风力作为变量来线 性拟合第二天的臭氧浓度最大值。在这里我f | j 把这个模型记为:模型m l 模型四: 我们上面得到的函数型同归模型 矿= 1 2 9 4 7 8 , 1 0 2 0 3 + 0 9 2 6 0 0 6 8 z 辨n 2 5 + 0 4 4 6 1 3 , 1 2 z , 0 2 + 1 0 3 2 7 9 0 9 z u ,3 在这里我们把这个模型记为:模型m f 1 3 东北师范大学硕士生学位论文 判断模型好坏,我们通常都要看它的预测效果怎么样下面我们定义 m s r = 寿i e n t 萨评 通过对数据的分析,我们得到如下的结果: 表3 3 预测比较 模型 m s r m l 5 7 5 7 4 1l m 26 7 6 7 2 3 7 m l2 6 1 6 7 9 6 、i f 2 5 3 2 5 2 2 从上面的结果我们可以得f l :,函数型回归模型在处理臭氧浓度最大值预测这个问题上要 优于其他一般的模型 3 2 结论 在一般的甬数型非参数模型 y = n ( x 1 + e 其中 n ( x ) = e y i x = z 】 = 耋kc 竿m 薹k c 挈, 若其中的x 是一个多元的随机变量,那么我们就引进了函数型回归模型: 其中r j ( x ? ) ,( j = 1 ,2 ,p ) 表示的是每个变量对响应变量y 的影响那么在我们对问题分析 的时候可能得到的变量的个数会有很多,其中包含着有用的变量和一些没有用的变量,那么就 涉及到了对变量进行选择的问题,增加模型的准确率关于变量选择的问题,前人已经做了很 多工作,比如,简单的变量选择,这种方法可以使模型可解释,但却使模型变得不稳定,这是 由它的离散型的程序决定的一些同归系数要么是被保留,要么就是被简单的从模型中抠掉,这 就使得观测数据的一个小的差别就可能导致要选择不同的模型,从而影响了预测的准确性所 1 4 十 , x 马 p 一 + p = k 东北师范大学硕士生学位论文 以t i b s h i r a n i 提出了一种新的方法一一l a s s o ,这种方法使一些回归系数变小,有些甚至被压 缩为0 ,但忽略了相邻两个回归系数间的差异,使估计值波动性很大在2 0 0 5 年,t i b s h i r a n i 和s a w n d e r s 又将此方法改进,又加入了约束条件,控制了回归系数p 的波动性 变量选择的方法可以应用到很多回归模型中,本文将其应用在函数型回归模型中,所以在 模型中可以选择f i ;影响响应变量的主要因素,在变量选择之后,进而确定模型的阶数,这样就 提高了模型的预测性 而且本文在处理实际问题的时候,应用到了上面的方法,同时用得到的模型同其他已经有 的模型进行了对比从结果中得出,在分析一些问题的时候,函数型数据模型要优下其他的模 型。 1 5 东北师范大学硕士生学位论文 参考文献 【11 t i b s h i r a n i ,r ( 1 9 9 6 ) r e g r e s s i o ns h r i n k a g ea n ds e l e c t i o nv i at h el a s s o j o u r n a lo ft h er o y a l s t a t i c a ls o c i e t y s e r i e sb 5 8 ,2 6 7 2 8 8 【2 】f e r r a t y ,f a n dv i e v ,p ( 2 0 0 2 ) t h ef u n c t i o n a ln o n p a r a m e t r i cm o d e la n da p p l i c a t i o nt os p e d t r o m e t r i cd a t a c o m p u ts t a t i s t 17 ,5 4 5 5 6 4 【3lp e r e z ,a a n dc a r d o t ,h ( 2 0 0 4 ) m a x i m u mo z o n ec o n c e a t r a t i o nb yf u n c t i o n a ln o n p a r a m e t r i c a p p r o a c h e s e n v i r o n m e t r i c s ,v 0 1 1 5 ,6 7 5 6 8 5 , 【4le f r o n ,b ,h a s t i e ,t a n dj o h n s t o n e ,i ( 2 0 0 4 ) l e a s ta n g l er e g r e s s i o n ,t h ea n n a l so fs t a t i s t i c s 3 2 ,4 2 7 4 9 9 【5lh a s t i e ,t a n dt i b s h i r a n i ,r ( 1 9 9 0 ) g e n e r a l i z e da d d i t i v em o d e l s c h a p m a na n dh a l l ,n e w y ( ) r k 【6 】l a w s o n ,c a n dh a n s e n ,r ( 1 9 7 4 ) s o l v i n gl e a s ts q u a r e sp r o b l e m s p r e n t i c e - h a l l e n g l e w o o d c l i f r s n j 【7l f c r r a t y , f a n dv

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论