(应用数学专业论文)样本的误差分析及其应用.pdf_第1页
(应用数学专业论文)样本的误差分析及其应用.pdf_第2页
(应用数学专业论文)样本的误差分析及其应用.pdf_第3页
(应用数学专业论文)样本的误差分析及其应用.pdf_第4页
(应用数学专业论文)样本的误差分析及其应用.pdf_第5页
已阅读5页,还剩27页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 本文主要通过对一类样本问题通常处理方法的分析,找出这些 方法的主要特征及其产生误差的主要因素,并对这些因素产生的误 差进行估计,分析其中的关系。最终得出一个重要的结论:统计方 法的选择是与样本的均方偏差有关,而均方偏差的大小与样本数的 多少和自身误差的波动程度有关。在本文中从减小均方偏差的角度 出发,提出了两个算法,这两个算法通过对样本的搜索,使得估计 值点的均方偏差得到优化,从而减少误差。 关键字:均方偏差,动态搜索,i 笺主哆磊 分图编号:0 2 1 2 2 a b s t r a c t i nt h i s p a p e r , b a s e d o n a n a l y s i n g ak i n do fs a m p l e p r o b l e m ,f i n d b a s i c a lc h a r a c t e r i s t i ca n dc a u s eo ft h ee r r o r ,a n de s t i m a t e dt h i se r r o r ,a n d a n a l y s e dt h e i rr e l a t i o n a t l a s te d u c ea ni m p c l r t a n tc o n c l u s i o ni st h a ta s e l e c t q t a t i s t i c a l m e t h o db e a r sr e l a t i o nt ot h e s a m p l e sm e a n s - s q u a r e d e v i a t i o na n dt h a t m e a n s - s q u a r ed e v i a t i 0 0 s s i z e g e ta l o n gw i t h t h e s a m p l e sn u m b e ra n d t h ee r r o rf l u c t u a t i n ge x t e n to fs e l f i np r a c t i c e ,i 。 a mf r o mt h ep o i n to fv i e wt h a ti sm i n i s h i n g m e a n s - s q u a r ed e v i a t i o n ,c o m e o u t t w oa r i t h m e t i c t h i s t w oa r i t h m e t i c a r ct h r o u g hs e a r c h i n g t h e s a m p l e ,m a k e e s t i m a t e dp o i n t 。sm e a n s s q u a r ed e v i a t i o ng a i no p t i m i z a t i o n , t h e r e b yr e d u c e t h ee r r o r k e yw o r d s :m e a n s - s q u a r e d e v i a t i o n d y n a m i cs e a r c h 第一章 1 f j l 一 月i j 舌 在生活实际应用i ;1 题中我们经常碰到样本分析问题,通过一组受到随机性 干扰的数据,对样本结构作出统计推断和预测。现在来看一下我们需要研究的 一类样本问题,这类问题在医学研究与保险业中经常遇到。 这类样本问题的一般形式可以用概率密度函数( p ( 巩y ) 来描述,这里a 是一个 离散的状态空间s 上的一个变量,譬如说有一组患有某种疾病的病人,正受到 观察,把他们的病情分为不患病、患病两种情况,( p ( 乱y ) 是相应的概率。y 是风 险因素,风险因子可以是一个、两个或者更多,这些风险因子可能是离散的, 也可能是连续的。例如高血压病,风险因子一般取某人的年龄、肥胖程度,再 例如死亡率,风险因子取某人的年龄、性别,在向保险公司投保时,有些保险 公司可能还需要考虑此人的职业。从上可以看出,函数q a ( a , y ) 的实质是对每个 固定的y ,( p ( a ,y ) ,a s 是s 上的密度函数,也就是说函数( p ( a y ) 是关于参数y 的一个密度函数分布族。 本文所研究的情况是y 只取一个风险因子,且y 是取值在一个有限闭区间【c ,d 】 内的连续变量,例如取年龄范围 o ,1 0 0 。通常我们在估计函数( p y ) 时,一般用 的是统计频率方法,在样本数较少时,有时会对统计频率方法初步推断的结果, 作修匀处理。本文针对y 是连续变量的情形,给出对统计频率方法作出统计上 的改进后的处理方法,并讨论通常的统计频率方法和对统计频率方法作出统计 上的改进后的处理方法之间的关系, 在理论上,本文一直用均方偏差的大小来衡量方法的好坏,在实际应用中, 引进相对误差来衡量结果的好坏。 本文首先对均方偏差进行了分析,得出一个重要的结论就是均方偏差的大 小与样本数的多少和自身误差的波动程度有关。然后本文从减少均方偏差的角 度出发,提出了两个算法。一个是理论上的算法,它需要假定函数妒( a ,y ) 是已知 的,通过对被估计点附近的样本的搜索,使得在这点上的估计值的均方偏差达 到最小,从而得到优化。然而在实际应用中,函数( p ( a ,y ) 正是我们需要估计的, 所以在实际应用中,我们的算法必须改变,第二个算法就是实际应用中的算法, 通过确定一个阀值参数和已知的样本,对被估计点附近的样本进行搜索,使得 在这点上的估计值的均方偏差变得较小,从而得到一定程度的优化。 以下第二章对均方偏差进行了分析,提出了两个算法。第三章通过两个实 例来说明两种方法之间的差别。第四章是本文的一个总结,对本文的观点进行 了进一步的探讨。 2 第二章误差分析和算法 2 1 一般情况 我们首先考虑函数( p y ) 的性质。 这里设p 的状态空间为s ( 有限的实数集合) ,y 取值在一个有限闭区间 c ,d 内,而且满足以下性质 性质1 :( p ( a k ,y ) = l y c ,d 】 a k 性质2 :0 三( p ( a k ,y ) 主la s ,y c , d 】 统计频率的计算过程:对于函数( p ( a k ,”,a s ,y 【c ,d 】,对于每个a k 我们 要估汁( p ( a k ,y ) 。将区间【c ,d 】分为n 个距离相等的区间【c 。,c :】 c i , c 1 + 1 】 c o l c 。】,y j 为第i 个小区间的中点,统计每个小区间内的a k 状态的个数b 。与每 个小区间内总的个数i l i 之比作为( p ( a k ,y i ) 的估计值,记这个估计值为g ( a k ,y 。) ,在 y 与y 。之间的点的估计值用线型插值得到。 这里我们假定样本数据在每个区间【c 。,c 。+ 。】内独立同分布,而且将每个区间 【c i , c 。 作为一个整体单独考虑。下面我们来讨论实际值与估计值之间的差。我 们知道在点( a k ,y i ) 的实际值( p ( a k ,y j ,作为( p ( a k ,y 。) 的估计值为g ( a b 妫。 将取值a 。s 的随机变量记为a ,取值y e c ,d 的随机变量记为y ,设a 与 y 的密度函数为p ( a k ,”。于是函数( p ( a k ,y ) 可视为条件概率密度函数 q ( a k ,y ) = p r o b a = a k i y = y 2p ( a k ,y ) p r ( y )( 1 ) 其中边际密度p ,( y ) 3 。, ,y ) 。以下设条件概率f i ( a o 2 p r o b a = a k l y c ,c 。+ 。】 = f ”妒瓴,y ) p r ( y ) 砂e ”矽( y ) 咖 引理1 在统计频率方法中,估计值g ( a k ,y 3 的期望值是( 哟 征明:由题设,设这1 1 1 个样本变量为x 。,x 2 ,x n ;由对称性我们 只需考虑一个样本的期望值即可,不妨设这个样本为x 1 ,这个样本的y 值在区 间【c c + 。 内,在( y ) 处的联合密度函数为p ( a k ,y ) ,故g ( a k ,y j ) 的期望值是 e ( g ( a k ,y 。) i y c c c + 1 ) = p r o b x l = a d y c c + 1 ) 2 r “妒( 吼,y ) p r ( j ,) 砂e “p r o ) 砂;f i ( a o 由大数定律知在区间 c ,c 。+ 1 】内样本数趋近无穷时,g ( a k ,y 。) 概率逼近f i ( a o 。 这里我们需要注意一点,条件概率( 心并不等于平( a k ,y i ) ,它们两个是有区 别的,q o ( a k ,m ) 是区间 c i ,c 。】中点的值,l i ( a o 是区间 c i c 。】内平( a k ,y 。) 的加权平均值。 但显然( a k ) 满足下面条件 m a x q ) ( a k x ) lx e c 。,c 。1 】) ( a o - m i n , p ( a k ,x ) i ,【 c c + 1 ) 现在我们来看一下g ( a k ,y 。) 的方差,这里我们为方便起见,记f i ( a o = p 。 定理1 如果n 。个样本数据在区间【c i c 。】内独立同分布,则g ( a i 【,y ) 的方差为 ( 1 p ) p n 。 证明:设这n i 个样本变量为x 。,x :,x i l i ;( n 。个x i ,j = 1 ,h i , 当 相应的样本数据具状态a k 时,x ,取值1 ,其他情形取值o ) 贝ug ( a k ,y i ) _ ( x l + x 2 + + x n 。) n , 记g ( a l c ,y ) 的方差为6 2 由于对每个j ,x j = m 的概率为p ,x i = 0 的概率为1 - p , 于是62 = e ( ( x l + x 2 + + x i l j ) n ,- p ) 2 l y 【c c + 1 】 儿 2 e ( x j p ) 2 ly c ,c m 2 j = l 。1 1 。( 1 - p ) p n i 2 = ( 1 - p ) p n 定理2 如果r h 个样本数据在区间 q ,咯。 内独立周分布,则g ( 蚴关于( d ( y 3 的均方偏差是p ( 1 一p ) q + ( p q ) 2 ,其中q = g ( a k ,y 。) 。 证明:设这n 个样本变量为x 1 ,x :,x 1 1 i ; 则g ( a l 【,y 。) 关于( p ( 钆,y 。) 的均方偏差是 e ( ( x 1 + x 2 + + x n 。) n ;一q ) 2 1 y c 。,c 】 = e ( ( x l + x 2 + + x n ) n 。- p + p q ) 2 i y 【c i c = e ( ( x l 十x 2 + + x n ) n ,p ) 2 i y c c i 】 + 2 ( p - q ) e ( ( x l + x 2 + + x 珥) ,n i p ) i y 【c c + 1 + ( p - q ) 2 4 2 ( 1 一p ) p n + o + ( p q ) 2 2 ( 1 - p ) p n ,+ ( p q ) 2 从上式可以看出,g ( a k ,y ,) 关于( p ( a k ,y t ) 的均方偏差是有两部分引起的,部 分是g ( a k ,y 。) 的方差p ( 1 - p ) n ,另一部分是由g ( a k ,y ) 与( p ( a k ,y ) 的离差( p q ) 2 。 现在我们考虑对于估计q ) ( a k ,y 。) 时,如果估计区间扩大时对它的影响。电就 是说估计p ( a k ,y ) 对,估计区间为 d i ,d ,】,d i c 。,并且满足c 一d = d 。- c 。 和c t + - c 看( d 。一d 。) ,y i 仍i e 是区间【d d + 。 的中点,则估计值g ( a k ,y 。) 等于区间 d d + 。 内a k 状态的个数b 。与区间【d d + 。 内总的个数n 之比,那么估计值g ( a k ,y ) 的期 望值是f ( a o = p r o b a = a k l y d d + 。】) ,如果( p ( a i 【,y ) 在区间 d d + 】中为常数的话, 设q ) c a k y ) 2 9y e d d + 1 。 那么( a t ) = p r o b a = a k y d j ,d + - 】 2 f “1 妒( 吼,y ) p ( y ) 咖e “p r ( y ) d y 2 j i d f + 1g p r ( y ) 砂e ”p ,- ( y ) d y 2 9 2 e “g p r ( y ) 砂e “p r ( y ) a y = r ”妒( 咏,y ) p r ( y ) 砂e “p r ( y ) a y :( 的2 t p ( a k ,y ) 记e ( a o = p ,此时估计值g ( a k ,y 1 ) l 钓l 方差与均方偏差分别是( 1 一p ) p ,n 与( i p ) p n ,+ ( p 一q ) 2 ,如果p k p ,显然n ,n 。,则 ( 1 - p ) p n 。+ ( p q ) 2 ( 1 - p ) p yn + ( p 一q ) 2 这说明估计区间为【d ,d 。l 】的均方偏差小于等于估计区间为h c 。】的均方偏差, 此时估计区间为【d j ,d j + 】的效果要好于估计区间为【c j ,c 。+ 。】。 如果p p ,此时需要比较它们两个的均方偏差的大小,如果估计区间为 d i , d 。+ 1 】的均方偏差更小,则估计区间用 d i ,d 。+ 。】,如果估计区间为 c i ,c 。 的均方偏 差更小,则估计区间用i t , ,c 。】。 在实际应用中,我们计算均方偏差对与前面会有所不同,因为我们在取得 样本后,对于区间 c ,d 】的任一子区间【c ,d 】内的样本数是确定的,并且对于区间 内的每个样本的y 的值已经确定,而由取样的特点可知各个样本之间是独立的。 有了这些信息后,我们再次考虑估计区间为【c ,c 。+ 1 时的期望值与均方偏差。 设估计区间【c i , g 。+ 1 】里有1 1 i 个样本,并设这巩个样本变量为x 1 ,x 2 , x i l 。,它们在y 坐标上的取值为x l ,x :,) 【t 1 。 令随机变量u = ( t 1 ,t :,t n ) c ,c 。+ 。】 令随机变量v = ( s ,s :,s 。) s j s 这里随机变量v 表示的足f 计区间 c c + 】里的n 1 个样本,而这n i 个样本变量的状态为s t ,s z ,- ,s n 。 则v 与u 的联合密度函数为兀p ( 国,) j 函数v ,( s ,s :,s 。,t 。,t z ,t 。) 设为条件概率密度函数 v ( s 1 ,s 2 ,s n ,t l ,t 2 ,t n 。) = p r o b v = ( s i ,s 2 ,s n i ) l u 3 ( t i ,t 2 ,- ,l ,) = 兀p ( 与,) 仉p r ( 4 ) = 兀妒 ,6 ) 其中p ,( t j ) 为边际密度 j| 令随机变量z = ( x l + x 2 + + x n 。) ,珥 令n = ( p ( a k ,x j ) j = l ,2 ,n i 设估计值g ( 氐,y 。) 2 e zj u 2 ( x 1 ,x 2 ,? - ,) ( n ,) 则估计值g ( a k ,y j ) l 构期望值 e ( g ( a k ,y 。) ) = e z i u = ( x l ,x :,x o = e ( x l + x 2 + + x n 。) n , l u = ( x l ,x 2 ,- ) 【r i ) 】 = e x j l u = ( x - ,x 2 ,) 【n 。) 】,m = ( p l + p 2 + - + p o , ) n i = u 如果( p ( a k ,y ) 在区间【c 。,c 。+ 1 】中为常数的话,u = f i ( a o ,一般情况下u 随着样本 点的y 坐标的变化而变化,显然 m a x , , p ( a k ,x ) lx 【c 。,c j u m i n 币( a k ,x ) fx 【c 。,c i + 1 】 g ( a i 【,y 。) 的方差为62 ,则 62 = e ( z u ) 2 l u = ( x 1 ,x 2 ,) 1 1 ) 】 = e ( x u ) 2 lu 2 ( x - ,x 2 ,- ,x n i ) + y e t x u 1 u = ( x ,x :,x n ,) + - e ) ( j u i u = ( x t ,x :,) 1 1 n i 2 j = ( u u 2 ) n i 一( p j u ) 2 n i 2 ( 2 ) j 6 2 p ( 1 一圳n i 2 j 从( 2 ) 式可以看出此时的方差的第一项相当于n i 个样本独立同分布时 ( 此时的独立同分布指得是( x ,x :,一x n ,) 而不是t , e c ,c 。 ) 的方差, 第二项是大于等于。的( 这是由于我们事先已知样本的分布点,从而增加了某 种确定性) ,故此时的方差是小于等于独立同分布时的方差,如果( p ( a k ,y ) 在区间 c i , c i + j 】中为常数的话,u = p ,则第二项等于0 。 则g ( a k ,y ) 关于( p ( a k ,y 。) 的均方偏差是 e ( z q ) 2 iu = ( x 。,x 2 ,x 。) 】 = e ( z u + u q ) 2 i u = ( x l ,x 2 ,x 。) 】 = e ( z u ) 2 i u 2 ( x 】,x 2 ,x 。) + e 2 ( z u ) ( u q ) i u = ( x 1 ,x 2 ,x n ) + e l - ( u q ) 2 u 2 ( x l ,x z ,) ( 1 1 ) = ( 1 - u ) u n 。一( p j u ) 2 + 2 ( u q ) e ( z u ) l u = ( x l ,x 2 ,x 。,) 】+ ( u q ) 2 j = ( 1 - u ) u n , - ( p j - u ) 2 + o + ( u q ) 2 j = ( 1 - u ) u n i - z ( p j u ) 2 + ( u q ) 2 ( 3 ) 2 p j ( 1 一p j ) n i2 + ( u q ) 2 j 从 :面的性质出发,本文提出下面的优化算法,这个算法的实质是通过对 被估计点附近的样本的动态搜索,找出合适的估计区间,使得这点上的估计值 的均方偏差达到最小,从而优化我们的估计。 下面我们分两种情况讨论改进后的处理方法,第一种情况是理论上的算法, 第二:种情况是实际应用上的算法。理论上的算法与实际应用上的算法的最大区 别是在理论上的算法时函数p ( a , y ) 的值是己知的,用( 1 ) 式我们可以求得 ( p ( a 。,y ) ,而在实际应用时函数( p ( a k ,y ) 的值我们事先无法求出。 1 理论上的算法 在这种情况下,函数舻( a k ,y ) 是已知的,对每个估计点,我们首先对每个估 计点给出一个初始的估计区间,定义一个步长,从这个估计区间开始,慢慢地 扩大估计区间,每次一个步长,最大达到原始估计区间的两倍,计算每个估计 区问内样本的均方偏差,记录下均方偏差最小的估计区间,用这个估计区间作 为这个估计点的估计区间,计算出估计值。算法过程如下: 已知函数( p ( a k ,y ) ,a s ,y 【c , d 】,将区间 c , d 分为n 个距离相等的区间 【c ic : c i ,c 。 【c n ,c 。 ,y ,为每个小区间的中点,对每一个小区间都执 行下面的算法一次 ( 1 ) 初始化区间 d d + 1 ,其中d = c 。,d = c 。1 = 1 ,如果d i = c 或者d i + l = d ,a = o , 转向( 5 ) ,否则我们将区间 y 。,c 。 和区间【c 。,y 。+ 1 】各自等分为k 个小区问1 , 由于区间眦。c 和区f b q c 。y + 。】是等长的,设这2 k 个小区间每个的长度为 a ,q = q ) ( a k ,y 。) ,j _ l ,转向( 2 ) 。( 2 ) ( 2 ) 获得区间h ,d 。+ l 】内的1 1 i 个样本x 。,x :,x n j ,计算u ,u = 却( a k ,x 。) + ( p ( 札,x 2 ) + + ( p ( a k ,x n ) ) n i f 算v j 一- 妒( a k ,x o ( 1 一妒( a j 【,x , ) ) n j2 + ( u q ) 2 ,转向( 3 ) 。 ( 3 ) 如果j 。l ,v = v l 。如果j l ,并且v j k + 1 ,转向( 5 ) ,否则令d 。= d i - a ,d l + l = d i + l + a ,转向( 2 ) 。 ( 5 ) 令d ,= c ,一( 1 1 ) a ,d 。= c 。+ ( 1 - 1 ) a ,区i a q d d + 。】作为估计区间,计算在区间 【d i , d 。】内b k 状态的个数b 。q d d + l 】区间内总的个数b i 之比g ( a k ,y ,) ,作为 q ) ( a k ,y 。) 的估计值。 对这个算法执行n 次,我们就得到了( p ( a k ,y 。) 的估计值 g ( ,y ) j - 1 ,2 ,1 在y 与y 。之间的点的估计值用线型插值得到。 在第三章中,我们用统计模拟的方法来构造数值例证。事先给定一个函数 ( p ( a k ,y ) ,然后通过产生随机数的方法得到随机的样本,将这两种方法进行对比。 2 实际应用上的算法 实际应用上的算法与理论上的算法相比,主要的难点我们事先并根本不知 8 道函数( p ( a b y ) 的值,所以我们无法计算出v ,就无法判断何时均方偏差最小。 这时候我们就需要在理论上的算法的基础上作出一些改变,实质就是我们如何 去度量此时的均方偏差,也就是说我们如何用一个可以计算的值去代替均方偏 差,作为均方偏差的近似,在本文中通过每个区间定义个阀值u 的方法去解 决,这个阀值是作为这个估计区间波动程度的度量。 下面我大致介绍一下思想;首先我们通过统计频率方法,将区i n c ,d 1 分为n 个距离相等的区间【c ,c :】 c 。,c ,1 【c n ,c n + 】,统计每个小区问内的a k 状态 的个数b 。与每个小区间内总的个数n i 之比作为初始估计值t 。,对每个估计点, 初始估计区间就是统计频率方法的估计区间,定义一个步长,从这个估计区间 开始,慢慢地扩大估计区间,每次一个步长,最大达到原始估计区间的两倍, 计算每个估计区间内样本的均方偏差,这时候均方偏差的计算与理论上的算法 是不同的,用t i ( 1 一t 。) 码一e ,u 2 + b ,2 u 2 作为样本的均方偏差的近似,这分别对应于( 3 ) 式的第l 、2 、3 项,这里b j 是样本点与估计点偏离的个度量,记录下均方偏 差最小的估计区间,用这个估计区间作为这个估计点的估计区间,计算出估计 值。算法过程如下: 被估计函数( p ( a k ,y ) ,a s ,y 【c , d ,将区间【c , d 分为n 个距离相等的区间 c ,c 2 【c i ) c 。 c n ,】( 这里区间的划分一般根据经验、样本数的大小、 习惯) ,y ,为每个小区间的中点,对每一个小区间都执行下面的算法一次 ( 1 ) 通过统计频率方法得到初始的( p ( a b y 。) 的估计值t ,从初步的估计中得到一个 阀值u 2 ,转向( 2 ) 。 ( 2 ) 初始化区间【d d + 1 ,其中d = c 。,d i + l = c i l = 1 ,如果d l = c 或者d i + 1 = d ,a = 0 , 转向( 6 ) ,否则我们将区间 y i 。c 。】和区间 c 。y l + 1 各自等分为k 个小区间,由 于区间【y 。,c 。】和区间【c 。y 。+ 1 是等长的,设这2 k4 d 、区间每个的长度为a , j = 1 ,转向( 3 ) 。 ( 3 ) 获得区间【d d + 1 内的q 个样本x 1 ,x :,x 1 1 i ,将1 1 j 个样本x , x :,x 码在y 上的坐标值分别x 。,x :,、与y 。相减取绝 1 这里k 是扩大区间的次数。 :润值u 要通过样本初步统计结果的波动程度、函数p ( a ,y ) 的特点来确定,在第四章中将对此作进一步的 说明,具体的计算公式本文无法给出。 9 刈值得到n j 个值v ,v 2 ,v n ,将v 。,v 2 ,v n 的平均值设 为b j ,将v 2 ,v z 2 ,- ,”1 2 的平均值设为e j ,b j = b j ( c 。一c 。) ,e j = e j ( c 。圹 c ) 2 ,转向( 4 ) 。 ( 4 ) 1 篓草v j - i ,( 1 一t 。) n j e j u 2 + b j 2 u 2 。如果j = l ,令l = 1 ,v :v 1 。如果j l 并l k vi k + 1 ,转向( 6 ) ,否贝j j 4 - d = d ,- a ,d j + 。= d 。+ a ,转向( 3 ) 。 ( 6 ) - d i 2 c i o - o a ,d i + 2 c i + ,+ ( 1 1 ) a ,区间 d d + 】作为估计区间,计算在区间【d d + 1 】 内a k 状态的个数b l k 与每个小区间内总的个数n 。之比g ( a k ,y 。) ,作为( p ( a 。,y 。) 的估计值。 这个算法执行n 次,我们就得到了( p ( a i c ,y 。) 的估计值 g ( a l 【,y 。) i = i ,2 ,1 1 在y 与y 。+ ,之间的点的估计值用线型插值得到。 这里我需要说明一下,阀值的选取非常重要,好的阀值可以是算法达到理 论上的效果,差的阀值改进效果不大。所以阀值的选取需要根据初步的统计结 果和经验来得到,这种效果一般较好,在第四章中将对此作进一步的说明。 1 0 2 2 推广情况 卜节我们是将区间【c ,d 】内的每个点同等对待的,现在我们看下区间【c ,d 】 样本的权取不同的值时的情况,这里样本的分布仍旧满足均匀分布,一般我们 有下面的规则。因为我们需估计的是p ( a k ,y ) ,所以越靠近y 。的点应该权越大, 我们记t o ( u ,y 。) 为u 在的y i 权,而且满足以下两个条件: ( 1 ) ( u ,y j = 1 ,0 兰( u ,y ,) 三1 ; ( 2 ) w ( u ,y i ) 关于u 连续,并随lu - y 。i 的值增加而递减。 下面看一个典型的w ( u ,y i ) ,由于y 是区间【c i c ,+ 。】的中点,设c 。圹y 。= s ,并设( c , y ) = w ( c ,y ,) = o ,v ( u ,y ,) = l ( s i u y ii ) sl t ,0 n ( p ( a k ,x ) x 【c 。,c 】; 设( u l x l + u 2 x 2 + - - u n i x q ) ( u l + u 2 + - + u 。) - z ,记g ( a k ,y 。) 的方差为6 2 , u ( u l + u 2 + - + u n ) 5 t , n 62 = e ( z u ) 2 j u = ( x 】,x 2 ,一x n ! ) 】 = e 2 ( x j u ) 2 i u = ( x 1 ,x 2 ,x n ) 】+ e x uj u = ( x 1 ,x 2 ,。) 】+ 一e x u i u = ( x l ,x 2 ,) ( n 。) 1 t j 2 n i 2 j = ( p j 一2 u p j + u 2 ) t j 2 ( t j ( p j u ) ) 2 j j = p j ( 1 一p , ) t j 2 则g ( a k ,y 。) 关于叩( ,y i ) 的均方偏差是 e ( z - q ) 2 1 u = ( x l ,x 2 ,x 。) 】 = e ( z u + u q ) 2 f u = ( x l ,x 2 ,x 。) 】 = e ( z - u ) 2j u = ( x l ,x 2 ,x 。) 】+ e 1 2 ( z - u ) ( u q ) 1u = ( x l ,x 2 ,k ) 】+ e ( u q ) 2 l 泸( x l ,x 2 ,x 。) 】 2 ( p j 一2 u p j + u2 ) b 2 一z ( t j ( p j u ) ) 2 + 2 ( u q ) e ( z u ) lu 。( x 】,x ? ,) ( n ) + jj ( u q ) 2 2 ( p j 一2 u p j + u 2 ) b 2 一( t j ( p j u ) ) 2 + o + ( u - q ) 2 ,j 2 ( p j 一2 u p j + u2 ) t j 2 ( t ( p j u ) ) 2 + ( u q ) 2 ( 4 ) jj 2 p j ( 1 一p j ) t j 2 + ( u q ) 2 这里我们也分两种情况讨论如何估计( p ( y 。) 。本节的思想与上一节是一样 的,本文就不再重复了。 1 理沦上的算法 在这种情况下,函数平( 妣,y ) 是己知的,对每个估计点,我们首先对每个估 计点给出一个初始的估计区间,定义一个步长,从这个估计区间开始,慢慢地 扩大估计区间,每次一个步长,最大达到原始估计区间的两倍,计算每个估计 区间内样本的均方偏差,记录下均方偏差最小的估计区间,用这个估计区问作 为这个估计点的估计区间,计算出估计值。算法过程如下: 已知函数( p ( a l 【,y ) ,a s ,y 【e , d 】,将区间【c , d 分为1 1 个距离相等的区间 c l , c :】【c i ,c 。】 c 。, ,y 。为每个小区间的中点,对每一个小区间都执 行下面的算法一次 ( i ) 初始化区间 d i ,d 。+ l 】,其中d 。= c 。,d m = c 1 = i ,如果d i = c 或者d 。= d , a = 0 ,转向( 5 ) ,算法结束,否则我们将i n y 。,嘲和区n e i + ,y 。+ 。】各自等 分为k 个小区间,由于区间【y i 。q 】和区间【。,y i + 。】是等长的,设这2 k 个小 区间每个的长度为a ,q = q o ( a k ,y 。) ,j = 1 ,转向( 2 ) 。 ( 2 ) 获得区间【d 。,d j + 。 内的码个样本x t ,x :,x q ,将n j 个样本x , x :,x 码在y 上的坐标值分别x 1 ,x :,x n 。与y ,相减取 绝对值得到n j 个值v f ,v 2 ,一v n , p ,= 驴( 戤,劫,u 。= l v r ( d 。州- d 。) , r = l ,2 n j ,l i = ( u l p l + p 2 x 2 + - + u 。i p q ) ,( u l + i j 2 + + u 1 1 ,) , t ,= u ( u 1 + u 2 + + u n ,) r = 1 ,2 “i ,vj = p r ( 1 - p f ) b2 + ( u q ) 2 , 。 r 转向( 3 ) 。 ( 3 ) 如果j = 1 ,l = 1 ,v = v i 。如果j l ,并且v j k + 1 ,转向( 5 ) ,否则令d 。刊。一a ,d i , l = d i + a ,转r 。- j ( 2 ) 。 ( 5 ) 令d ,= c ,一( 1 1 ) a ,d + ,= c 。+ ( i 一1 ) a ,区间【d i ,d 。+ 。】作为估计区间,获得区间h d 。】 内的码个样本x 。,x 2 ,x 码,计算u l = 1 1 鸣一y ,l ( d - y 。) ,g ( a l 【,y 。) = ( u 。x l + u 2 x 2 + + u n x r g ( u l + u 2 + + u n ) ,作为( p ( a k ,y 。) 的估计值。 对这个算法执行n 次,我们就得到了p ( a k ,y 。) 的估计值 g ( a k , y 。) 滓1 ,2 ,n 在y 与扎。之间的点的估计值用线型插值得到。 在第三章中,我们用统计模拟的方法来构造数值例证。事先给定一个函数 q ) ( a k ,y ) ,然后通过产生随机数的方法得到随机的样本,将这两种方法进行对比。 2 实际应用上的算法 实际应用上的算法与理论上的算法相比,主要的难点我们事先并根本不知 道函数( p ( a k ,y ) 的值,所以我们无法计算出p j 与v ,就无法判断何时均方偏差最 小。这时候我们就需要在理论上的算法的基础上作出一些改变,实质就是我们 如何去度量此时的均方偏差,也就是说我们如何用一个可以计算的值去代替均 方偏差,作为均方偏差的近似,在本文中通过每个区间定义一个阀值u 的方法 去解决这个阀值是作为这个估计区间波动程度的度量。 下面我大致介绍一下思想;首先我们通过统计频率方法,将区间【c ,d 分为n 个距离相等的区间【c ,昀【c i ,c 。+ 1 】【c n ,c a + 。 ,统计每个小区间内的a k 状态 的个数b 。与每个小区间内总的个数1 1 j 之比作为初始估计值t 。,对每个估计点, 初始估计区间就是统计频率方法的估计区阃,定义一个步长,从这个估计区间 开始,慢慢地扩大估计区间,每次个步长,最大达到原始估计区问的两倍, 计算每个估计区间内样本的均方偏差,这时候均方偏差的计算与理论上的算法 是不同的,用t i ( 1 一t 3 矗2 一e j u 。2 + ( b j u ) 2 作为样本的均方偏差的近似,这分别对应 r 于( 4 ) 式的第1 、2 、3 项,这里b 是样本点与估计点偏离的一个度量,记录下均 方偏差最小的估计区间,用这个估计区间作为这个估计点的估计区间,计算出 估计值。算法过程如下: 被估计函数( p ( a i c ,y ) ,a s ,y k d ,将区间【c , d 】分为n 个距离相等的区间 c 。,c : 【c i c 。 c n ,乌旅这里区间的划分一般根据经验、样本数的大小、 一。_ 习惯) ,y 。为每个小区间的中点,对每一个小区间都执行下面的算法一次 ( 1 ) 通过统计频率方法得到初始的( p ( ,y i ) 的估计值t ,从初步的估计中得到一 个阀值u ,转向( 2 ) 。 ( 2 ) 初始化区间【d i ,d j + , ,其中吐= c j ,d j + := ,1 = 1 ,如果4 = c 或者d j + ,= d ,a = 0 , 转向( 6 ) ,否则我们将区间眈。蝴和区间 c 。y i + 1 】各自等分为k 个小区间, 由于区间隗。,c 。】和区间 c 。y ,l 】是等长的,设这2 k 个小区间每个的长度为 a ,j = 1 ,转向( 3 ) 。 ( 3 ) 得区间 d d + 。 内的i l j - v f 4 $ x 。,x :,x 码,将q 个样本x 。, x :,x q 在y 上的坐标值分别x ,x :,k 与m 相减取 绝对值得到f l j 个值v 1 ,v 2 ,u ,u 。= 卜v r ( d 。+ 1 - y ,) ,r = 1 ,2 , n j ,将( 1 u ) u ,( 1 - u o u :,( i 、) 、的和设为w ,令b j = 、v ( “1 y 。) ( u i + u 2 + - - + u r i ) ( c i + 1 q ) ,e = u ( u , + u 2 + + u n ) ,r = 1 ,2 , n j ,e j = ( d 一一y ,) 2 ( ,+ ”,) ( c 一- c 。) 2 ,转向( 4 ) 。 ( 4 ) j - j g v j = ( 1 一t ,) t ,1 2 f ,:- e j u 2 “b j u ) 2 ,如果j = 】,令j = 1 ,v = v 1 。如果j l 并 且v ; n 1 ,转向( 6 ) ,否则令d 。= d :一a ,d 。+ 。= d l 。+ a ,转n ( 3 ) 。 ( 6 ) 如果l 1 ,令d 。= c i 一0 - 1 ) a ,d :+ l = c i + ( 1 1 ) a ,区间 d ,吐+ ; 作为估计区间, 获得x e l 司 d d1 内的n j 个样本x 、,x :,x 码,;, t - g u 。= 1 一i , q y ,l ( d 。+ 广y ,) ,g ( a k ,y 。) = ( u l x l + u 2 x 2 + + u n x n j ) ( u 1 + u 2 + + u 。) , 作为( d ( 砘,y 。) 的估计值。 对这个算法执行n 次,我们就得到了( p ( a k ,y 。) 的估计值 g ( a b y 。) 滓1 ,2 ,n 在y 。与y ,。之间的点的估计值用线型插值得到。 第三章优化算法的实际应用 3 1理论算法的一个例子 首先我们给出一个函数f 【a k ,y ) ,a e s = o ,1 ) ,y e 【一o5 ,1 0 5 ,从05 开始 以o2 5 为步长,到1 05 结束共4 5 个点赋予4 5 个函数值,如下表所示: y 点的值函数值( a _ 1 )y 点的值函数值( a :1 )y 点的值函数值( a = 1 ) 一o5o1 43 2 50 2 870 3 4 02 501 53 5o2 672 503 4 o01 637 5 02 5 7 503 4 o2 5o1 4402 477 5o3 6 o5o1 542 50 2 38o3 8 o7 5o1 345 02 5 82 50 3 8 lon 47 50 2 68 503 7 12 5o1 0502 887 5o3 6 l5o1 452 5 03 0 9 o3 5 17 501 75 50 3 19 1 2 503 6 201 857 503 19 5 03 4 22 5 0 2 160 3 29 7 503 3 2 5 o2 26 2 50 - 3 2 1 00 3 3 27 502 265 03 31 0 2 50 3 4 3o2 56 7 503 4 1 05o 3 3 表3 一l 并且满足f ( o ,”= 1 h 1 ,y ) ,这4 5 个点中相邻两点之间的值用线型插值得到。 设a 与y 的联合密度函数 p ( 1 ,y ) = f ( 1 ,y ) 1 1 ,v ( o ,y ) = f ( o ,y ) ,1 1 y 【一o5 ,1 0 5 】 由式( 1 ) 可知( p ( 1 ,y ) = f ( 1 ,y ) ,m ( q ,y ) = f 【o ,y ) y e 【一o 5 ,1 0 5 则函数( p ( 1 ,y ) y e - o5 ,l o 5 的函数曲线如下图 函数曲线 圈3 1 我们用随机数产生1 1 0 0 个随机样本。对这1 1 0 0 个随机样本进行估

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论