(概率论与数理统计专业论文)指数混合转移分布(emtd)模型的研究.pdf_第1页
(概率论与数理统计专业论文)指数混合转移分布(emtd)模型的研究.pdf_第2页
(概率论与数理统计专业论文)指数混合转移分布(emtd)模型的研究.pdf_第3页
(概率论与数理统计专业论文)指数混合转移分布(emtd)模型的研究.pdf_第4页
(概率论与数理统计专业论文)指数混合转移分布(emtd)模型的研究.pdf_第5页
已阅读5页,还剩42页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 在实际建滔中。对珏寸闻序列数据邂费分辑疑我骢常鬻羲要薅对的闯题,所以所 熙攘拱的好坏燕接影响劐黠寒寒鹫况瓣骥测程辩瑗鸯数据懿籀述擞据瓣鬻亭列数 掇所袭璐的牲质,我粕鬻癸不满鹤模毯去叛合玄,本文对一类重赘的时简序翔数据 进行了搽讨,仿照1 9 9 6 年l e 等人的g m t d 模型提出e m t d 模型,利雕混合獭 的指数分布函数对时旃序列建模,绘提了e m t d 摸激熬一除矩、二除矩乎稳健条 婷掇异予通誉月手滠会模型参数绩计黪震爆黪e m 葵法,本文裁麓遗传算法对模 型的参数进行结计。势髅导了参数估计的标准谈羞,及时随滓列僚的( 1 一a ) 疆灏 区闻 混合摸掇成分个数的选择一直以来墩是一个重要姻秘究课题,对于疑涉及列鲍 这方瓤的问题,本文采用一秘燕子健饯的难蹙米确定成分的令数,并给蹬7 糖荧懿 接导。 势了说疆本文所提高的穰燮瑗及髯浚。在文章中我们还对不间的方法之间进行 了比较做为比较的依糖憝一步预测区间和一步颚测值,对于这些方面本文也给媳了 推导,并且利用s a s 软传得到所有的结皋。本文还对五髟等人的模型进褥了推广, 从一缀推广必多维瓣攮形,弊曼到耀遥赞算法对其进纷了参数倭诗。 关键掌t 混合模型,时间序列,遗传算法,f i s h e r 信息阵,优化距离,预测区阐 a b s t r a c t i nt h ed a i l yl i f e ,a n a l y z i n gt h et i m e - s e r i e sd a t as e ti sap r o b l e mw h i c hw eo f t e nm u s t f a c et o s ot h eq u a l i t yo ft h em o d e l sa f f e c tt h ep r e d i c t i o no ft h ef u t u r ea n dt h ed e & r l p - t i o no ft h e s ed a t a s e t sd i r e c t l y w en e e dd i f f e r e n tm o d e l st os i m u l a t ed i f f e r e n tt i m e - s e r i e s d a t a s e t sa c c o r d i n gt ot h ec h a r a c t e r sw h i c ht h e ye x h i b i t i nt h i sp a p e r ,w ei n t r o d u c et h e e x p o n e n t i a lm i x t u r et r a n s i t i o nd i s t r i b u t i o nm o d e lt os t u d yt h en o n - g a u s s i a na n dn o n l i n - e s d rf e a t u r e so ft i m es e r i e s ,t h i sm o d e li si n t r o d u c e df r o ml e s ( 1 9 9 6 ) g m t dm o d e la n d b a s e do nm i x t u r ee x p o n e n t i a ld i s t r i b u t i o n t h ef i r s t - o r d e ra n ds e c o n d - o r d e rs t a t i o n a r ya r e d e r i v e d t h eg e n e t i ca l g o r i t h mi su s e df o re s t i m a t i o na n ds o m es i m u l a t i o n sa d o n ew h i c h i sd i f f e r e n tf r o mt h ee m a l g o r i t h m a l s ow ed e r i v et h es t a n d a r de r r o ro ft h ep a r a j n e t e r s a n dt h e ( 1 一a ) p r e d i c t e dr e g i o n t h en u m b e ro ft h em i x t u r e m o d e l sc o m p o n e n ti sa l s o & i m p o r t a n tr e s e a r c hf i e l d 。f o r t h i sp r o b l e mw ea d o p tad i s t a n c ew h i c hi sb a s e do no p t i m i z a t i o nt od e t e r m i n et h ec o m p o - n e n t sa n dg i v e8 0 m ed e r i v a t i o n i no r d e rt oe x p l a i nt h em o d e la n da l g o r i t h mi nt h i sp a p e r ,w ea d o p ts o m ed i f f e r e n t m e t h o d st oc o m p a r ee a c ho t h e r 。t h ec o m p a r i s o ni sb a s e d0 nt h eo n e - s t e pp r e d i c t e dr e g i o n a n do n e - s t e pp r e d i c t e dv a l u e 。a l s o g i v et h ed e r i v a t i o na n dr i s es a ss o f t w a r et oo b t a i n a l lt h er e s u l t s i t h i sp a p e rw ea l s od e r i v el e sm o d e lf r o mo n ed i m e n s i o nt om u l t i p l e d i m e n s i o n s ,a n du s eg e n e t i ca l g o r i t h mt oe s t i m a t et h ep a r a m e t e r s + k e y w o r d s :m 奴t u r em o d e l ,t i m es e r i e s ,g e n e t i ca l g o r i t h m ,f i s h e ri n f o r m a t i o nm a t r i x , o p t i m i z a t i o nd i s t a n c e ,p r e d i c t e dr e g i o n l l 东南大学学位论文 独创性声明及使用授权的说明 一、擎健论文猿捌褴鬻鞠 本入声臻掰釜交翡学彼论文是我夸入在导籁撩导下遴行静研究工俸及取得酶研 究成果尽我所知,除了文中特别加以标明和致谢的地方外,论文中不包含其他人 忍经发焱或撰霹过睁新究成槊,也不包含为获得祭南大学或其它教育机构的学位或 证书焉使用过的材料与我一民工伶的同悫对本辑究所傲的任侮贡献坶已在论文中 作了明确的说明并表示了谢意 = 、美子学位论文使用授权的说明 签名垒邈兰 基袋; 州奄l s 东南大学、中国辩学技术信息研究所、匿家圈书馆蠢权傈鼹本人艇送交学位论 文的复印件和电子文耥,可以采用影印、缩印或萁他复制手段保存论文本人电子 文挡鳃凌客帮缎震论文的态褰栏一致除农像密期痰戆缣密论文多 ,允| 争论文被套 阅和借阅。可以公布( 包括刊嶷) 论文的全部或部分内容论文的公布( 包括刊登) 授 权东南大学轿究圭浣务理。 签名:盔魍l 导师签名:e l 期;巡:! :! 抄-斗; 竹一 第一章引吉 在艇产实践、辩学实验鸯自然辩学静研究中,常常需要我们去分析一系翔酶随 时间而变化的黼后相纛关联的观测数据,也就是我们所说的时问序列。对时间序列 数据的精确处理可以使我们对未来的情况馓到较好的预报和控制,对数据进行正确 的建模,扶蔼绽我n 】发现数掺审隐藏的内在规终。 在通常处壤实际的时间序列问题时,为了便于计算和得到一些较好的性质,我 爨总是缎定时瓣客刭戆误差璞是鼹获离雾i 分泰戆爨噪声;毽是实舔情况并# 翔魏懿 简单,很多时间序列表现出非高斯性,例如e 序列的平坦趋势、突变性、异常德点和 蘩点等当我稍戆要我藓i 数掇本身静特往对其避行预测和叛合时,根据数据靳表现 的特性准确建模就显褥非常敷要 1 1g m t d 模数的1 人及涅奄模型的一些发展 时间序列的例子擞一些领域中怒极丰寓的,诸如经济、商业工程、自然科学( 特 舅g 是地球物理学和气象学) 和社会科学瓤b o x 和j e n k i n s 所酱及的a r i m a 类模 烈到现擞,处理时间序列的阍题一赢是被人们所广泛研究的,搬使用线性和非线性 的方法上都取得了很大的发展最初,为了建模的方便和褥到一贱良好的性质。在处 瑷时阕廖列阕趱时,鬏设隧枕误差爨镕受扶疯簸分奄鳇蹇噪声,攥这是蔻一耱缓设, 因此有锻多人程这点上进行研究例如l a w r a n c e ( 1 9 8 0 、1 9 8 5 ) 、m c k e n z i e ( 1 9 8 1 、 1 9 8 2 ) 藏裁是误整饔悬指数分布释g a m m a 分布避荦亍了磷究。 1 9 9 6 年l e 等人根据r a f t e r y ( 1 9 8 5 ) 的m t d 模型撼出了一种薪的非线性时间 枣弼模黧一一g m t d 模型: p f ( y f i y “1 ) 。啦铙执l 撬一o ( 1 ) t = l 冀孛f 挑| 矿。;是条彳孛累积分带丞数( 。彭) ,y 5 一( ,y s 曩盈王桑。啦一1 , 0 , i 一1 ,p ,g i 纠藏高新分布, 识( 轨| 孰一i ) = 圣坠二熊堕) u l 黟绘定避去豹鬟c 后珏瓣条转分枣是溅合正态努豢。这拿骥毽黪糁熹在予宅麓袭瑷窭 象平坦熊势、异常值、交点等实际时间序列数据常表现出来的非高斯性。并且g m t d 查童盘生夔兰鱼造塞 2 模型的形式简单,容易处理,可以利用e m 算法进行参数的估计和拟合近年来,为 了使模型具有更广泛的应用范围,很多人对这个模型做了推广,例如:2 0 0 0 年w o n g 和“将g m t d 模型推广为m a r 模型,在2 0 0 1 又推广为l o g i s t i cm a r 模型和异 方差情形,w a n g 和c h a n ( 2 0 0 3 ) 将模型应用到市场收益上,a n d r eb e r c h t o l d ( 2 0 0 3 ) 将模型推广为h m t d 模型,考虑了m t d 模型的异方差情形虽然利用混合正态分 布可以使我们能够更精确的处理、描述时间序列数据,但是还有很多情形由于数据 本身的独特性质,我们可以探求更好的模型来拟合它 混合模型是统计模式识别非常重要的方法之一,它是描述真实数据复杂性的常 用方法,也是解决分类或者聚类问题的常用方法之一,在最近兴起的数据挖掘研究 中也常用到它( h a n d ( 2 0 0 3 ) ) b r u c e ( 1 9 9 5 ) 的书中可以看到对混合模型的详细阐 述混合模型的参数估计方法有很多,通常人们所熟知的是e m 算法。在用它来做 模型参数的估计时,混合的权重及成分参数是通过数据似然的局部最大化来一起估 计的但是在使用e m 算法时,参数估计的好坏与模型参数估计初始值密切相关, 一旦初始值选择的不是十分恰当,就会造成参数估计陷入局部极大值,从而使最终 的估计结果产生错误 除了混合模型参数估计的问题外,混合成分个数的确定也是一个非常重要的问 题目前这方面的工作也做的非常多,从最初利用a k a i k e 准则( a i c ) 、b i c 准则, 到m e n g e r s e n 和r o b e r t ( 1 9 9 6 ) 使用k u l l b a c k l e i b l e r 距离,s a h u 和c h e n 9 ( 2 0 0 3 ) 利用修正的k u l l b a c k 一工d 扰e r 来确定混合成分的个数等等 1 2 本文的研究内容 在本文中,我们酋先对g m t d 模裂进行了到矩阵形式的推广,然后对一类在实 黪孛比较特涮,但又常广泛的时闻旁疑数据类燮进行建摸,也就是后嚣我髓烽摄 判的e m t d 模型。 e m t d 模型也怒一神混食模型,为此我n 1 必然要对其进行参数怙计和混合模型 戚分个数的确定。为鼠我啻j 将使罪遗传算法来辩混合模激进行参数倍计,瀚时,将 利用一种优化距离的概念来对混合模型的成分个数作出判断 在零文申我 j 礴蘩了关予e m t d 壤壅懿一穗平稳彀条件,势蠢对模蘩豹参数 估计值得到了部分参数的f i s h e r 信息阵 第墨章g m t d 模型的矩阵推广 1 9 9 6 攀l e 等人撵爨tg m t d 横毽: , f ( y t l y “1 ) = 啦g i ( 地k 。) t ;1 剥用一维鹩潺会正态分枣对时阁序辫数据进符羧含。援是在瑷实燃界里,缀多麴嚣毒 阕序列敲疆并不是仅枝麓一维翁模型就麓够得弱很好的建模,有麓时候我们番豢的 是多维的模型 倒如襁股票数据里。莱一只股票嬲翦姆价格可熊不仅仅是和遗只股票过去的价 疆毒美,瞧许还嚣勇羚教其毽段票懿过去徐强有关。凳藏,鸯了爨辩懿对数撂露更 加准确的描述,我们对g m t d 模型进行了推广,将偬由一维的混合正态分布转化为 多维的混含正态分布,也就是; ( y d 扩q ) - 壤f 黯) 一警l 繇| 一;e 距 一;波一瓠魄一女y i 1 ( y t 奴魏一女) ( 2 其中挑魁m 维向量,矿= ( 1 ,舶) r ,且:1 n = 1 ,n 0 ,= i ,p 这榉我髓得到了一个多元混合正态的密度函数表达形式,逶鬻我靛采愿e m 算 法来对葵参羧进行信计,为藐我鼹寒攘等遗e m 算激的递雅公式首先弓| 入潜在变 量魂女,t 液示第t 个观测值,k 表示混合模型的第个成分,乎燕有。 f 量粤g 警吐笋警熊鲢些塑a 等继, 皴聚y t 属于第奄个成分 p z t k = l 茹7 轻= 萎q l l 一牲酲一揪一电辚一j ;7 写1 钕一如鞔一j 。 t 0 , 其他情况 那么根据e m 算法我们可以得到完众数据的条件对数似然函数定义为: 三c ( e ) 一 z t k l o g e r i , 一;z l 。嚣| | 一;岛( 辩一垂# 一女) 7 ;1 ( 孰一奴轨一女) 利用e m 算法: 露一善t e 牡: q ( o ,e ( 。) ) = e l 。( e ) l z ,e 忙) ) = ,塞,苫 r t t l o g 一一1 r t t l o g a k 吲e 。i 一知辘一奴盟文瓣一氟y t - 。) ) = 一i 讯l o g i e t 一;死 ( 辘一奴班一 ) ,e ;1 ( 瓣一氟 ) = p + l 盎= l 一 。 3 壅直盔堂塑主兰丝堡塞 m s t e p :计算新的参数值e ( + 1 ) 最大化q ( o ,e ( ) ,即 e ( + 1 ) = a r g m a x e q ( e ,0 ( ) ) 4 以上两步重复进行,直到某一个特定的收敛准则满足 在m s t e p 通过对函数求导数并利用权重的性质:1o = 1 ,我们可以得到 权重的估计式: n 瓯2 熹p 。妻,m n 一二:1 若要求出t ( k = 1 2 ,p ) 和孔( k = 1 2 ,p ) 的参数估计式可以通过解下列方程 得到: 1 0 q c e r , e ( k ) ) = 。妄。协掣产7 1t 鳖监浮虹型 - 0 警- 。t ,+ ,一i i n t 望尘生二竺丝二立;i 幽= 。 上面第二个式子可以进一步简化为z 。塞。7 1t 去 蛾叫i l 西, y t - , + y b 惦1 觚一一) _ 0 因此,根据矩阵的求导公式我们可以得到参数估计的表达形式为: t t k ( y t c k y t 一女) ( 玑一机轨一k ) 就= 塑旦百一 m 这样我们就得到了关于多元混合正态分布参数的极大似然估计的e m 算法迭代 表达式但是在对参数估计的实际操作过程中。我们发现,由于e m 算法的局限性使 估计出准确的参数受到限制e m 算法本身是一种局部的极大似然估计方法,参数 的估计值由于初值的选取很容易陷入局部极大值中,从而使最终的估计结果产生较 大的偏差所以初值的选取对结果有很大的影响对于通常相互独立的样本来说,我 们可以方便的利用聚类分析的方法、k 均值法等方法得到较适当的初值,但在处理 础鲈pm 。计 一 址 “” 伊 壹嚣 萨 “ 以 k 查煎盔宝亟主堂堡迨茎 5 对闻序列的样本时,数据之闯蔻高度福关的,这样就使得初值的遗取更稍的困难 因此,本文憋采甩遗传算法来解决这样瓣问题,具体方法将在后续章节中阑述。 下面我们给出多元混合转移征态分布( m g m t d ) 的一阶矩平稳性条件 定理1 ;黠予( 2 ) 凌羧定义戆塞雩耀枣列软是一除筵乎稳f 或均篷乎稳) 戆态 要条件是方程 d e t f 一8 l 簪l t 一a 2 c 2 u 2 a p c p u p 一0 鲍擞懿在单位隧嚏, 证明:由于,( 纨i v 一1 ) = 壹n ( 2 丌) 一警l e k l _ e x p 一 ( 靴一矾一 ) e i l ( 轨一机姚一) ) 又嚣软) = 嚣汪波l # - l ,虢一2 ,靴一,麓 其中t e ( y t l m 一1 ,y t 一2 ,y t p ) = 厂轨壹啦( 2 ”) 一号i r e x p 一i 1 轨一诹轨一e i l 溉一氟靴一) 咖 p芦 = a k e c m l m 一女) - o m h 所戳有: pp , 嚣辩) = 嚣泌( 轨| 孰一i ,勰一2 ,一,y t - p ) l = 莒疆二a k 簪y t 一女j 一a k 毋k e ( m 一 ) 这榉貔翥】褥戮了一个向量形式的差分方程,著将嚣班穰作为z t ,辩差分方程可以写 为: = n 女机札女 女l 那么由汉密尔顿( 1 9 9 4 ) 的结果可以得到,这个差分方程是平稳的充要条件为所有满 足; d e t i n 1 妒l l l - - o f 2 如u 2 一郇办矿 一0 的榱都在荤位瑟内 这样利用b e n 自s ( 1 9 6 7 ) 给出的结果,我口】可以知道上述条件就怒多元混合转移正 态分布( m g m t d ) 的一阶矩乎稳性条件关于b c n 6 s ( 1 9 6 7 ) 给出的结果,我们在 第三章阐明。 第三章指数潺合转移分布( e m t d ) 横型 在我们的实i i i ;斑活中所遇到的时间序剜数据。 疑多情形下都是非负的,更有相 当一郏分阅援孛,盥翦时刻的数据僵大子或等予过去蔡一时刻数据馒的一定毙铡。 为此,我们考虑误麓项是指数分布的时间序列问题,为了使模型具有更广的应用范 匿,筏妇将类经手g m t d 模型丐l 出e m t d 揆型,帮稽数滢含转移分毒撰整 3 1e m t d 禳翟鹃善l 入 类议手g m t d 模型,p 个成分毂e m t d 摸壅必: f ( y t l y “1 净a i g l ( y , y t t 写为密度遁数的形妓为: f ( y t l y _ 1 ) = m 蛳( 蛳i 玑一。) y t 一1 ;( 觚一t ,轨_ ) ( 3 ) t = l 鲰c l t l y , 一= 壶“p 一y = - 国壬i y e - i l 班幽弧一t i = l ,2 ,p f 4 ) 其中f ( 纨l v “1 ) 是搬给定过去值的情况下挑的条件密度函数,g ( ) 是指数分布的密 友爨数,臻对予灌含捂数势毒翡投重有: 0 1 + 舰+ + 唧一1 ,呶o ( 女一1 ,鸯 e m t d 模型实际上燎成分个数为p 的混合指数自回归模型,每个成分的条件均 值依赖于过去的时间值,j 葶列的条件分布随着时间的改变而不断改变从模型的形 式霹激看裂眭趣廖歹硅懿条终分枣蹙多蜂热,鼹泼辘憋条终蘩攫 pp e ( y # y “1 ) = 啦皎+ 芦 f ) 一啦f 舷+ 也貔一。) l 搿】i = 1 可能不是未来值的最好骥测。碟我们的e m t d 模型螅健点之一就是可以爆来搂述 时间序列的条件分布。从而能够对未来时间的情况有个较好的了解 e m t d 模型黪是一个鐾要懿经震怒,宅霹淡对不断改交瓣条馋方差建模。毯藏 是y t 的条件方差依赖于每个成分的条件期望,可以表示为: p, w ( 鲰旷1 ) = a t + 啦慨十p “) 2 【啦( 哪+ 触) 】2 4 = l 扛1 韩 i = l 壅塑塞掌塑主堂堡缝皇 浇1 :妻啦h + j u t i ) 2 一【垂啦慨十舳) 】2 这一项魑非负的,而麒当且仪当 ;1t = l 一1 + 芦t l 蕊盯2 + p t 2 = = o p 十p 枷 7 对,逡一璞惫8 ( 试裙觅詹 耋巩+ 阳,8 = 1 ,p ) 蔹瑟之间差异襁大时。轨的条 件方麓也就很大。 3 。2e m t d 摸型的平稳性条传 定理2 ;对于( 3 ) 式所定义的时阍序列轨是一阶矩乎稳( 或均值平穗) 的兖 要条件是方程 1 一0 i f f l z _ = 0 l = l 的根2 h z 2 ,如都在单位躅内 镄如对于只有两个成分的混合模型( 即p = 2 ) ,剃由所给的平稳性条件得到纳 平稳边界是: a l 毋l + 0 2 如 1 ,- a l 曲:+ 毗如 1 ,一c r 2 如 1 这个边界是一个三角形区域,我们可由豳( 3 1 ) 看出,在本例中,平稳区域的限怒 类缀警暹常鹣a r ( 2 模型 现在假设由模溅( 3 ) 式得到的时间序列鼽是均馕平稳的,那么我们可以得剿 靴盼二骱矩平稳性条件,郄定理3 寇理3 ;设骢怒由模戮( 3 ) 式所定义的一除矩平稳序列,则辍是二除矩乎糠 的充分必要条件是方程: 1 一戗癌一一0 i = l 的根= l ,z 2 ,孙都在单位豳杰。 柱p = 2 的例子中,由平稳条件所得到的平稳区域边界由n l 钾+ n 2 镑 1 确定。 速令菠域在爨3 1 上糠 瑟。 3 3 鑫相关溺数 我瞧理纛来推导e m t d 模燮瓣鑫穗关函数,胃戳发瑗繇褥强懿鑫穗美丞数瀵 足类似于y u l e w a l k e r 方程的情形 查堕盘堂堡主芏垡堡皇 甘 争。 一6_ i罐 o2 4 6 a 图3 1 :两成分混合模型平稳区域 假设撕是二阶艇乎稳的,不失一般性假设过程是零均值的,令p i 是滞艚为 的 自相关函数,那么由t e ( y t y t 1 ) = e e ( y t y t j i 矿。) = 嚣( 搬一。蛳( 哦+ 焱辨一。) ) i = l p = 幽a e ( 龇一t y 。) l = l 以及过程魑二阶矩带稳的,我们可以将自相关函数写为: p p t 一啦螽绣h | l = i 2 。,p i = 1 这些方程类似于酱邋a r ( p ) 进程的y u l e w a l k e r 方程。避p = 2 时,自租美函数在 i 一1 ,2 的时候有: p t = n 1 咖l + a 2 勘p l p 2 。a 1 尊l p l 十a 2 毋2 8 壅壅杰堂垂耋萱壁搀塞 拳j 掰l e ( 1 9 9 6 ) 藏榉缒方法,我稻可璐褥强p l ,p 2 豹允许区域楚击下面酌方程来确寇 遁建+ ( 2 霹+ o t l + 1 ) p ;一椎危 l a l 建耀+ 穗l 建一硅l ( 羔a 1 ) 0 由此区域的逑界淡足: m = 鱼簿静 其中0 蔓口l 墨1 ,一1 一 2 玉群 + 晚避 ,曲 鞋 壅塞盎璧煎圭皇燕鎏塞 1 0 f f ,黔) 的严格正镶面,蠢b 上的胃数可瓣集萄数和可变范数组成。令骗,t 0 楚邋 过式子; 阮弘( a ) 一fp ( t ,y ,a ) u ( d y ) , j f 来定义测甓卢的半群令f ,弘) 表示定义在测度p 上的线性泛涵。一个在s 上的 b a n a c a 溅庹泛丞髂笼缀,妻纛坟当,o 盈i , - 当紧集懿麓一魏痔戮 ,t c 一 n f 。释么下嚣的条馋楚簿秘瓣: 热是磁的有觳不变溯度 裕在潮度j c + 鞫矩g 露s u p ( g ,墩国 。这些算予连瞬几个重要的壤念:爨标瞒数粒透会度、 染色体、染色体的适合度、种群和子代构成了遗传葵法的基本撬架。遗传算法是把 参数空间或解空阍的每一个点都编码为一个叫做染色体的二进位串( 或浮点数) 。算 法中的n 维点的集合悬遗传算法的一部分,并在优化过程中反复的生成每个点或 二进位串代表了所求解问蹶的个潜在解。 柱遗传算法中,优化问题的决策变量以一个或多个串的结构来编码,这魑串和 自然遗传系统中的染色体栩类似编码后的一些串由一挫类似与基因的特征构成 特征使于串中不同的位置,串中每个特征都有自己的位疑( 位点) 和一个确定的等 位基因值。这个值的计算遵循所提议的编码方法( 染色体由基因组成基因可以 取大赣的假,叫做镣位基因值) 染色体中串结构执行类似与自然演变过程的各种操 伟。以获得更好的替代解根据。适合度”假来评估新染色体的质量,而这个适合度 可以蓍作麓优化问题的日栋函数遗传算法用一个点集合作为群体,而不是一个单 点,煮集鬣复的演化,以获得更好的全面的适合度德。遗传算法的每一代都使用遗 传算予如交叉、突窿来构造出一个新的群俸,成员的适合度越高,其存活和参与交 叉或突交运算的可能髋就越大它的主凄运算过程如下所述t 2 整童泰妻爨圭蹩堡鎏塞 1 3 1 ) :耪始识设置逃犯代数谤数器_ 0 设置聚大遴他筏数t ;辕凝生成掰个个 体俘为韧始群体v ( o ) 2 ) :个体谬价。诗冀群体p t ) 中餐个个体的适艨度。 3 ) = 选择避算+ 将逡择冀子作用予群体 4 ) t 交叉逡算将交叉算子作用于群体 5 ) :交异遥算将变异算子捧用予群体群体p 渤经过选择、交义、变异i 銎算之后 得嬲下一代群体e ( t 斗1 ) 。 8 ) ;终盘象箨熬渗t 菪t s t ,瓤l 卜$ + 1 ,转捌疹骤2 ) ;若z ? ,羹口述纯过 程鳜得到的具有最大逶艨度的令俸作势最优勰蟪出,终止计算 碡1 。1 缭褥方案稚耪始纯 编码遗程麓将符征空闯中的煮转化成像串形式铜如,在三缀特馥空简中的点 ( 1 1 ,6 ,9 ,冀每一绻瓣蓬藩是i o ,1 5 l ,这令点掰潋爰一个率揆起来躲二避 佼串采寝录; ( 1 1 ,6 ,9 ) 蚴( 1 0 1 1 0 1 1 0 1 0 0 1 其中每个特征的十进制使渡过二进潮德煽璐,成为一个四位的基羧。被编避成一个 像串鲍掰蠢特酝麴擅瓣集合代表一令染色体鼹然我靛露对数蕊的编璐,那么氆麓 有对数值的解码,设籍得剿的染色体串为m ,则将z 转化为十进制数,可通道魑 码方案把z 痰为参数解。 # 。( m r a i n ) 。南+ 戚” 其孛m 一为参数察堂瓣戆上赛,m n 魏瓣空蘑熬t 棼,l 为参数辩应的染惫俸串静 位数。 在瀵传簿法申我l f 】处理的不是个染色律,藤是一个染色侮的豢食,8 q 徽群俸。 要对群体韧始他,我们可以简单的谴机设患一些染色体的群体大小。群体大小也是 遗传算法用户簧面对的最麓要的选择之一。如果群体的数量太小,遗传算法可能收 敛酌太快蔼廷释窝一个较小妫帮酶最德解;鲡果群体太大,遗传算 密可能浪费计苒 资源,褥盛游褥菠遴豹跨阕莓戆太长 4 + 1 2 适含度估计 在建立超群体后,下一步就是计算群体中每个成员的适合度使,因为每个染色 体都是最优解的候选。对个媛大德来漉,第i 个成员的适合发五通常是目标函数 壅燕盘笺壅圭兰堡羧塞 1 4 在这个藏昃赴或参数空辩孛弱点) 静依诗值解豹蘧舍震是一个臻于沌较苓两的 怨以确定哪一个瓣是受好的一个措熬+ 我髓遥嚣器要适合度势正壤。舅羚一令方法燕搜怒嚣掺审瓣戚爨夔等缀窳乎寒 作为它们的邋合度值 4 + 1 3 选撵 在这令耱段,我嬲必缀获当赘懿健孛建立一羲毛耘懿群捧,遂撵撩佟确定辫令父 染色体会参与下代+ 暹誉,成摄参穹迭撵的摄率与成爨懿逡合发戴楚成墩翅的实 现选择最常见的方法是设窳选择概率p 簿于;p l * f d f k ,式中n 是群体大小, 五是第t 个染色俸盼适合度值。这种选撵方法的傺甩爨让农平均值以上鳇成员避纷 繁殖并取代邋合度低予平均值的成员。 对选择过程来说( 按照适合度的概率分布选择一个新群体) 。可以为每一个染色 俸鬟一令辍撼适合度来决怒其毽夭枣的输盘靖轮獍褥建立婧辘如下: t ,谤算每个染燕簿韬瓣邋会褒德歹潍) 。 2 找出辨露翘适会度_ 之秘,f = 一,强 3 计算每个染色体城选择概率魏,转一,弼) 。 4 诗算每个技包括姆染色体k 黪累积壤率承,豁= 嚣爨。 j = 1 式中蟊取值从0 到1 ,取1 表示群体所有的染色体郄彀含农累积概攀孛。 选择过稷的基础是旋转轮盘的次数和群体数目相同,每一次我们都为新群体选 择个染色俸群体数甄多大,就重复执行步骤1 和2 多少次; 1 生成馘闯羚,1 j 泡的髓辊数r 2 辩暴r q l ,选择染色俸h ;否辩选择第i 个染色俸k ,使得哦一1 式,给定t 样本t ,鞭、,孰,鸯予澎台模獾韵璇分夺数为p ,谶 韧始分布魏,( l ,抛,蜘) ,那么样本的条终努布霹以霹为 ,( 矿l 沪) 一,治l ,靴,一,洳,i v + l ,| 瓤,勰,翰) 一, 翔| 铷一l ,鲰_ ) ,( 抓l | 蜘一2 ,翔- - p - - 1 ) , 洳+ l ,靴) = 疆,矧“1 ) t = p + l 扇于这里有印一1 个参数,设对于权爨参数甩长度毙 :的二逊制串来编码,冀 他参数用长度为1 2 的二进制串来编码,那么我们初始设定的群体m 中,每个染色 俸串的长液就箍 l 扫一1 ) + 2 t 2 p 遽遘对染色俸的选择、交叉、变弊操 餐。对得蓟的每个染色俸褓礴,这时得剿的 壅煎盔堂夔圭蹩垡煎塞 1 7 就是参数空闼的一令辩。要注意豹是,其串叁: 搜索戆缘款会蠢一些解是晃效豹, 落就是这些解对纛的染色俸是无效染色体,这时我们对逸冀染色俸的适应发值加以 惩费。对予蠢教解代入密度涵数,耧鼹撵本求它静对数镲然餐。僵是筏# j 并不赢接 穗用对数议然作为遭艨度值,我释丁将宗变魏正数弗取髑数,这榉没有改变它们的接 廖,星珂以鲰滋巽有最大适应度懿染龟体( 解) 楚什么 这样我目j 簸弱照对致骰然龉数的尊调麟散偿为适应嶷缀,通过遗传舞法得到了 蠖对数锹然妪数最大的参数佑计篷;a m ,邻一- ,爷如,以,粕,强 丧# = 1 6 l 一一母一l 。 4 3 模蹩参数估计的耨准诶麓 如累旋稍褥劐骢参数售诗骧楚极太强然接诗,娜么利熙擞太议然结毒 舆蠢掇会 性裙渐迓燕态镶的性凄。胃翔: 口岛叶n ( o ,i - 2 ( o o ) ) 粼若簧求参数的标准谟差共簧求掇1 - 1 $ ) 。可是这蓬静e m t d 模疆是囱谶食攒数 分布 每成的,它不是c r 分布族。所以为了求出参数的掾推谈豢,我们可将柱,锦 设为琶辩常数。刘这时酶分布就变为了c r 分布族,冀有共葡支撵鄱么在此基础 上的参散估计馕趣,岛一1 ,考t ,靠就是密度似然蠛数的投大钕然镳嚣。这榉 就冒淡稍精欧失饭然估计的性质来求这些舔分参数的橱;准误差。也就怒说: 在e m t d 模毽中; 地) 。妻c i i 壶娌p 配要必碳蛇丧妣 避过避葬络计出参数僵毒一鑫t ,岛一1 ,茹1 - ,靠,啻”,) ,将 妒= ( 审t ,讳) = ( 声,五) 设海疆箱懿常数,逮时参数 粕一( 鑫1 ,舔一1 ,亏l ,如) 就是斑基破上的掇犬儆然债计,就可以求缬参数稍应的f i s h e r 信息阵,( p ) 。 桎这里我嬲将采用l o u i s ( 1 9 8 2 ;懿方法来求解i ( 0 0 ,它弓l 入了获失酌潜在燮量, 通过映失信息藤刚,瀚测信息阵j 可以通过竞全信息薛厶和缺失臻息晦k 寒计算: ,一如一k 一曰( 一象”) ;一r 圈盯) 一) 奎壹盔譬夔圭雯照造童 1 8 我们引入潜在变量z 墙,讯= 1 当轨g 姚否则讯一0 ,女代表了女个不i 司的成分, 且有相应的权重n 那么样本的条件联合分布函数; ,( g i ,靴,融,y l = ,( 跏1 一l ,- - ,1 ) ,( 抓一l l 一2 ,抓一p 一1 ) ,( 靴十l l 轴,y 1 ) 的对数似然函数通过潜在变量可以写为; 扣;塞砉球堍鳓一善p讯蜿讯一主2:tkl睾+ 耋魏m 概,蕊氛搬囊 l = 球堍鳓一讯l 锷讯一坠+ 魏m 概j 蕊氛搬一矗 t = p +知= l七= l 自= 1 ” = l 则利用z t 的分乖,对散似然函数的形式及( 5 ) 式,我们可以求出参数 岛= 瓠,岛一1 ,彘,知) 相应的f i s h e r 信息阵f ( 口) 具体的求法将在后续节中给出 4 4 攘黧嚣一步壤溯嚣闺 当我们得到参数的估计值后,我们希望能够对来来做出预测,为此我们来求出 在已知当前值后下一时刻值的预测区间由我们前筒提到的e m t d 模型的形式为。 矧) = 妻 一墼鼍姒域赃蠡瓢 i 由指数分布的特点,若龇来自= l 于a 第1 e x 个p 成分则有y t a h ,所以我们可以找到预 测区间的下界,即: = m i n ( l l h 一1 ,如y t 一2 ,如轨- p ) 这样我们只需要求出预测区间的上界就可以了,通过计算戎们可以得到预测区间的 上赛霹受下式绥窭: 1 一n l e 一i _ 一一。屹e ;f 一一一c 哂e 一一i i 一= ( 1 一o ) ( 6 ) ”2 是( 1 一o ) 顼测区阏的上界 4 5村g m 丁d 模型的参数估计 回麟我们在第二章提到的m g m t d 模型,在举节,我们将描述怎样利用遗传算 法寒对宅遴行参数售诗。 壅塞盔兰壁童堂鱼鎏塞 王 酋先,我们注意蒯我们需要估计的模擞为一个多维的分布模型,其中的参数包 括了矩阵形式,这样势必会使得参数的个数变得非常多,如果我们仍然采用二进制 串形式的遗传算法,一定会使得染色体的位数过长,从而导致估计的效率降低所 以,我们梅采用在遗传算法中另一种经常用刭的编码方案一一浮点数编码( 实数编 码) 实数编鹊也就是稽,我们直接通过实数来对参数迸 行编码,相应于遗传算法的 遴择、交x 和变笄操作也是直接程实数之间进行的,仅仅聚操作的方式有一些略微 懿交讫对予m g m t d 耩垄; 1 ,( 玑l y 卜1 ) = a 女( 2 丌) 一警i 嚣女l 一 e x p 一;( 玑一九虮一 ) e i l ( 虮一妊弧主) ( 7 ) 女踹l 一 若模疆的成分个数为p ,砌模型中有( p 一1 + p + m 2 + 型! 竽业) 个参数需要估计 ( m 为轨的维数) ,所以参数的嵇计步骤为: 阔e m t d 模毽的参数估计一样,篱先确定参数的解空间,对其进行编码这里 鬟钓将参数酌解空蠲掰实数采表拳,剐对于不阔酌参数所辩应的实数就是这个 参数耱摇瘫搐喜卡在m g m t d 模撵牵,涂了权重外的参数都是短阵形式 凌定舞法孛参与遴算的群体静大夺掰,一般群俸个数谈定为2 0 1 0 0 ,若群体 的令数太少剿不利手我裂全局疑德辩,健是若遮择的个数太多,会使得邀算酌时 越太长,耩以个数的选择娶掇撂阕耀蔫透颦瞬选取壶予这墼翡参数个数穰多, 联以隽了运算效率戆掇嵩,我朗选取鳇释体令数海2 0 选择用予遗馋算法的囊要评判准则逶皮度瓣数在我螺夔模型绩计牵,残镪选 择用缭定榉本时密度爨数的对数戗然鳇变换作为适应度透数。 确定选择簿予,焱对予m g m t d 模型的选撵算予鲍选取上,我# 】参照菟希民等 书中的方法: 一步骤1 ;确定选择概事乳。 一步骤2 :计算标准分布值:t = 墨矗墨y ,其中p 代表种群规模,即骞p 个 染色体 一步骤3 :计算染色体的选择概率:m = t ( 1 一p 。) 州1 - 1 = 1 ,2 ,:_ p ,式中 ( ) 是个染色体的适应值在种群中按由火到小排列的序弩。 一步骤4 :计算染色体的累积选择概率值;弧= 彤,= 1 ,2 ,p 一步骤5 :谯f 0 ,1 】区间产生按升序斟f 列的黢机数序列r 一步骤6 :对染色体进行选择,通过产生的随机数与累积概率的比较来避行选 壅壅鑫笺壁圭堂焦鲨塞 择染色体进入下一代 确定交叉概率p c ,进行p 。+ p + n u m b e r 2 ( n u m b e r 为参数个数) 次交叉遴算。 在染色俸中随机选择染色俸”“蚴( 搬优的染色体傈甜在第一个位置,不参加交 叉避算) ,后代为:”“一t ,1 1 1 1 i + v n ( 1 一n ) ,呸l = v l l ( 1 一r f ) 十v 2 1 r l ,其中n 为【o 。 1 离的滩视数 确定变异系数黼,辩遴行黼+ n u m b e r ( n u m b e r 为参鼓个数) 改变并操作,产 生静,1 】辩鹩陡瞻数,邋过对n 酶跑较确定变异詹的参数值愁( i l + a o ) 还楚一a 。,其牵蛔为参数交弊的槠震,对于不两静参数由于其解奎闻的 不麓瑟有据应静变铯最优的染色俸绦蟹在第一个位灌,不参癣变弄送算) 在我嬲对m g m t d 揍瀣迸芎亍参数 蠢诗豹对筷,大量懿参数箍一个器簧爵对的 耀题,燕步 一个霉要处理鳃鞭难是程模燮懿参数孛,键舍t l ,逸,这些参 数力正定矩阵。所以在进行交叉积交冥撵作鲍黠候,我弱必矮考虑裂途一点,不煞 改变它们的正定性质抛此,在进符交叉毂变异操作之裁,我嬲毙黠t ,糍,。 进褥c h “e s k y 分解,即得至b 矩阵巩,如,潢足壤壤= e ,女一1 ,2 ,p 。 这样我们可以对巩,掘,进奄亍交叉瓤变具操传,并利用曝+ 圾= 返回到薪 的嚣l ,艺2 ,e p 值,从丽达到对b 2 ,的遗俺操作。 4 6 本节公式的推导 首先我们来绘出f i s h e r 倍患阵的推导。 由乎 如= ( a l ,鳓一l ,章t ,白) 憋秀差矩阵露以蠢i 。褥嚣,爨默是要我秘求癌f i s h e r 倍感薄j 就可敬求港参数倍 鲍拓壤误差。擐据岛= 1 一矗i 一趣,匈一t ,群以岛静方盏胃秘通过下式得 到: v f 鲻一v a r ( a k ) + c o v ( a k ,a z ) 女= l = l1 = 1 ,l k 我f f 3 弓l 入潜在变最讯,可以得到对数似然函数的形式为: n ppp口 江。三,ztklog穗*一苫讯蛾靠一ztk学+圣zt,logik 协氟吼埘 t 端p + l = l = 1k = 1 “ 女= 1 。 壅壹塞堂壅圭堂建量窒 其中潜搬变量讯的密度函数可以写为 n k = p ( z t k = 1 ) 有了对数似然函数,肖了讯的密度溺数,我们对 8 = ( n l ,0 2 ,饰“io * 1 l0 2 l 唧) 进行势凝,便碍万健中幂导、运异。零露稷戛游臻质,对效议然嬲甄义q 班譬尚 n一l = z t k l o g ( + z 蛔l o g ( 1 一n 1 一唧一1 ) 一砉一壹魂t串+耋盈。麓声。轨前k 一 一魂址笔塑+ 盈t麓声女轨一t k = 1=lzta l o g a k k 热1 l o g i y 受宥; 鑫= ;室: 等一毒 ,。硼一t 嚣= 喜。( 一毒一嚣) 辛一是= 熹。 嚣+ 可z i p 对手女,i = 1 ,2 ,p l ,女 一最= 。塞。毒 a 蛳舢厶? ,n 对手一l ,2 ,p l ;i = l 2 ,p 一鑫一盎一丽2 “2 丽 对于一l 一2 ,p 杀2 。耋, - 塑o k + 塑等等卜熹。 一嚣+ 警) 一墨。喜,卜嚣+ 警卜未,荔e 警叫 当七l 池l = 1 ,2 ,p 时 罴:o8 口 8 九 ” 2 1 壅照查堂堡点堂壁熊塞 2 2 卜岛 岛= 烈一塞限y = ( 硒( 删 岛阮q2 轰

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论