（应用数学专业论文）数据预处理在预测模型中的应用.pdf

上传人：灰*** IP属地：宁夏上传时间：2019-12-08 格式：PDF 页数：71 大小：2.61MB 积分：0 举报 版权申诉

已阅读5页，还剩66页未读，继续免费阅读

（应用数学专业论文）数据预处理在预测模型中的应用.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

兰州大学2 0 1 0 届硕士学位论文摘要本文提出了两种建模思路，一是考虑趋势项和周期项的单维时间序列预测分析，二是对对数据经过粗糙集方法做属性约简的多维时间序列预测分析；在对数据系统结构分析的基础上不仅提高了预测精度也减少了运算的时间和空间代价。对于具有周期性但噪声较大的单维时间序列，如果考虑到其趋势成分和周期 ( 季节) 成分，对原始数据在使用预测模型前先做适当的预处理，滤波了趋势成分和周期波动，再对输出的相对平稳序列进行预测，精度会比直接使用原始数据有显著的提高。支持向量机方法用结构风险最小化原则代替了传统的经验风险最小化原则，其基本思想是首先通过非线性变换将输入空间变换到一个高维空间。甚至是一个无限维空间，然后在这个高维空间求取最优分类面。本文将考虑趋势项和周期项与f 一不敏感损失函数支持向量机方法相结合，取得了令人满意的结果。对于多因素时间序列的预测，通常很难确定各因素对目标序列的影响；如果考虑因素过多则容易包含大量冗余信息，不仅影响模型精度而且增加运算的时间和空间代价；反之则造成信息丢失，改变系统数据原有的结构，同样影响模型的精度。粗糙集理论是处理不精确、不确定与不完全数据的理论，能有效地分析不精确、不一致、不完整等各种不完备信息，但是粗糙集对噪声数据敏感且泛化能力弱，神经网络模型具有较强的适应能力，容错能力及泛化能力，可以弥补粗糙集的不足；再用粒子群算法优化b p 网络的参数；在大量数据面前b p 和g m d h 方法不能很好的确定相对重要的属性组合，网络结构的构造缺乏通用的方法，推理过程不够透明，且缺乏解释能力，这些不足可以用粗糙集方法的优势来改进。关键词：数据预处理：宣一不敏感损失函数支持向量机；粗糙集；r s p s o - b p 网络；r s - g m d h 网络；预测兰州大学2 0 1 0 届硕士学位论文 a b s t r a c t t h i st h e s i sp r o p o s e dt w om o d e l i n gf r a m e w o r k s f o ro n et h i n g ，f o r e c a s ta n d a n a l y s i so n e d i m e n s i o n a lt i m es e r i e st a k i n gt e n d e n c ya n dp e r i o di n t oa c c o u n tf i r s t l y f o ra n o t h e rt h i n g ，f o r e c a s ta n da n a l y s i sm u l t i d i m e n s i o n a lt i m es e r i e sa f t e rr e d u c i n g t h ea t t r i b u t e sb yr o u g hs e tm e t h o d b a s e do nt h es t r u c t u r a la n a l y s i so f t h ed a t as y s t e m t h e s em o d e l sn o to n l yi m p r o v e dt h ef o r e c a s t i n ga c c u r a c yb u ta l s od e c r e a s e dt h et i m e a n ds p a c ec o s t so f c o m p u t i n g f o rt h eo n e - d i m e n s i o n a lt i m es e r i e sw i t hp e r i o db u tl a r g en o i s e i f w ec o n s i d e r e d t h et e n d e n c ya n dp e r i o da n do p e r a t ec e r t a i na p p r o p r i a t ep r e t r e a t m e n ta n df i l t e r t e n d e n c ya n dp e r i o db e f o r ee m p l o yam o d e l ，t h e nf o r e c a s t e dt h er e l a t i v e l ys m o o t h s e r i e s ，f m a l l yw ec a no b t a i nah i g h e ra c c u r a c yc o m p a r e dt ot h ef o r e c a s t i n gw i t h o u t p r e t r e a t m e n t t h es u p p o r tv e c t o rm a c h i n es u b s t i t u t e st h et r a d i t i o n a lp r i n c i p l eo f r a i n i m i z i n gt h ee m p i r i c a le r r o rb yt h es t r u c t u r a lr i s km i n i m 妇i o np r i n c i p l e ，w h o s e b a s i ci d e ai st ot r a n s f o r mt h ei n p u ts p a c et h r o u g ht h en o n 1 i i l e rt r a n s f o r m a t i o ni n t oa h i g l l d i m e n s i o n a ls p a c e ，o re v e na ni n f i n i t e d i m e n s i o n a ls p a c e ，a n dt h e nc a l c u l a t ea n d o b t a i nt h eo p t i m a lc l a s s i f i c a t i o ns u r f a c ei n t h i sh i g h d i m e n s i o n a l t h i st h e s i s c o n s i d e r e dt h et e n d e n c ya n dp e r i o di t e m sc o m b i n e dt ot h e 占s v mm o d e l ，f i n a l l y p e r f o r m e das a t i s f y i n gr e s u l t f o rt h ef o r e c a s t i n go fm u l t i f a c t o rt i m es e r i e s i ti so f t e nd i m c u l tt oa s c e r t a i nt h e i m p a c to ff a c t o r so nt h et a r g e ts e q u e n c e t a k i n gi n t oa c c o u n tt o om a n yf a c t o r sw i l l e a s i l yc o n t a i nal a r g en u m b e ro fr e d u n d a n ti n f o r m a t i o n w h i c hw i l ln o to n l ya f f e c t s t h ea c c u r a c yb u ta l s oi n c r e a s et h et i m ea n ds p a c ec o s td u r i n gc o m p u t i n g i ft h ef a c t o r s w ec o n s i d e r e da r ef e w , i tw i l lc a u s et h ei n f o r m a t i o nl o s sa n dc h a n g et h eo r i g i n a l s y s t e ma n dd a t as t r u c t u r e ，a l s oa f f e c ta c c u r a c yo f t h em o d e l r o u g hs e tt h e o r y , g o o da t d e a l i n gw i t hi m p r e c i s e ，u n c e r t a i na n di n c o m p l e t ed a t a , c a ne f f e c t i v e l ya n a l y z e i n a c c u r a t e i n c o n s i s t e n ta n di n c o m p l e t ei n f o r i l l a t i o n r st h e o r ya r es e n s i t i v et on o i s e a n dw e a ko ng e n e r a l i z a t i o na b i l i t y , b u tn e u r a ln e t w o r km o d e lo w n ss t r o n ga d a p t a b i l i t y , f a u l t - t o l e r a n ta b i l i t ya n dg e n e r a l i z a t i o na b i l i t y , t h e r e f o r ec a l lm a k eu pf o rt h el a c ko f r o u g hs e t , t h e ne m p l o yp a r t i c l es w a r mt oo p t i m i z et h ep a r a m e t e r so fb pn e t w o r k i n t h ef r o n to fl a r g ea m o u n t so fd a t a , b pn e t w o r ka n dg m d hm e t h o dc a n n o td e t e r m i n e t h ea t t r i b u t ec o m b i n a t i o no fr e l a t i v ei m p o r t a n c e a n dt h ec o n s t r u c t i o n so ft h en e t w o r k a r ea b s e n c eo fac o m m o nm e t h o da n dt h er e a s o n i n gp r o c e s sa r en o tt r a n s p a r e n t e n o u g h ，a n da r el a c ko fe x p l a n a t o r ya b i l i t y t h e s es h o r t c o m i n g sc a nb ei m p r o v e db y r o u g hs e tm e t h o d k e y w o r d s ：p r e - t r e a t m e n to fd a t a ；s v m ；r o u g hs e t ；r s - p s o - b pn e t ；r s g m d h n e t ；f o r e c a s t i n g 兰州大学2 0 1 0 届硕士学位论文原创性声明本人郑重声明：本人所呈交的学位论文，是在导师的指导下独立进行研究所取得的成果。学位论文中凡引用他人已经发表或未发表的成果、数据、观点等，均已明确注明出处。除文中已经注明引用的内容外，不包含任何其他个人或集体已经发表或撰写过的科研成果。对本文的研究成果做出重要贡献的个人和集体，均已在文中以明确方式标明。本声明的法律责任由本人承担。论文作者签名：辫日期：堡! ! ：。兰州大学2 0 1 0 届硕士学位论文关于学位论文使用授权的声明本人在导师指导下所完成的论文及相关的职务作品，知识产权归属兰州大学。本人完全了解兰州大学有关保存、使用学位论文的规定，同意学校保存或向国家有关部门或机构送交论文的纸质版和电子版，允许论文被查阅和借阅：本人授权兰州大学可以将本学位论文的全部或部分内容编入有关数据库进行检索，可以采用任何复制手段保存和汇编本学位论文。本人离校后发表、使用学位论文或与该论文直接相关的学术论文或成果时，第一署名单位仍然为兰州大学。保密论文在解密后应遵守此规定论文作者签名：牲导师签期：丝 2 ：名兰州大学2 0 1 0 届硕士学位论文 1 1 研究背景及意义第一章绪论数据挖掘在1 9 6 6 年就作为一个词组在统计学的论文中出现了，但由于当时大规模的数据存储和处理技术还不成熟，并没有引起广泛的重视。随着i n t e r n e t 和数据库( d a t a b a s e ) 技术的迅猛发展和广泛应用，数据库中存储的数据量以惊人的速度增加，庞大的数据量渗透到社会生活和生产的各个领域，其结果导致传统的统计技术及数据库管理工具不再适用于分析这些巨量的数据集。为了帮助人们智能化地分析这些“丰富的数据，贫乏的知识”，数据挖掘( d a t am i n i n g ) 与知识( k n o w l e d g ed i s c o v e r yi nd a t a b a s e ，l ( d d ) 发现已成为当前非常活跃和意义重大的研究领域。“数据库中的知识发现”这一概念首次出现在第十一届国际联合人工智能学术会议的“数据库中知识发现研讨会( i j c a iw o r k s h o po n k n o w l e d g ed i s c o v e r yi nd a t a b a s e s ) 上，人们开始希望能够用“在数据中通过挖掘”的方式处理数据，获取有用信息。p i a t e t s k y s h a p i r o 和f r a w l e y 编辑的论文集( k n o w l e d g ed i s c o v e r yi nd a t a b a s e 就汇集了早期的一些研究论文，之后，由美国人工智能协会主办的k d d 国际研讨会议召开了多次，规模从原来的专题讨论会发展到国际学术大会，研究重点也逐渐从发现方法转向系统应用，注重多种发现策略和技术的集成，以及多学科间的相互渗透。1 9 9 6 年出版的有 f a y y a d 、p i a t e t s k y - s h a p i r o 、s m y t h 和u t h u r u s a m y 编辑的论文集( a d v a n c e s i nk n o w l e d g ed i s c o v e r ya n dd a t am i n i n g 则反映了数据挖掘技术比较深入的一些成果，数据挖掘和知识发现技术开始在海量数据处理中发挥作用n 1 。 k d d 指从大型数据库中自动提取知识，目标是发现数据中隐藏的、以前未知的、潜在有用的知识，本质上是在大的数据集合中寻找数据间的规则及普遍模式。 1 兰州大学2 0 1 0 届硕士学位论文数据挖掘可以视为用来发现这些规则和模式的方法。数据挖掘可以帮助用户发现隐藏在大型数据库中的规律和模式，它融合了人工智能( a r t i f i c i a l i n t e l l i g e n c e ) 、统计( s t a t i s t i c s ) 、机器学习( m a c h i n el e a r n i n g ) 、模式识别( p a t t e r nr e c o g n i t i o n ) 和数据库等多种学科的理论、方法与技术，已经在商业、政府、企业、科研及体育等多种不同类型的组织机构和研究领域中获得了非常广泛的应用。从功能上讲可将数据挖掘的分析方法划分为自动预测趋势和行为、关联分析、聚类分析、概念描述和偏差检测五种。数据挖掘自动在大型数据库中寻找预测性信息，以往需要进行大量手工分析的问题如今可以迅速直接有数据本身得出结论。一个典型的例子是市场预测问题，数据挖掘使用过去有关促销的数据来寻找未来投资中回报最大的用户，还有在第三章中详细描述的对大气污染物浓度的预测闯题。数据挖掘所发现的知识最常见的有以下五类铂：广义知识( g e n e r a li z a t i o n ) 。广义知识指类别特征的概括性描述知识，并概括这类对象的有关特征。根据数据的微观特性发现其表征的、带有普遍性的、具有较高层次概念的知识，反应同类事物共同性质，是对数据的概括、精炼和抽象。关联知识( a s s o c i a t i o n ) 。关联知识反应一个事件和其他事件之间依赖或关联的知识。关联分析的目的是找出数据库中隐藏的关联网。关联规则挖掘过程主要包含两个阶段：第一阶段必须先从资料集合中找出所有的高频项目组( f r e q u e n ti t e m s e t s ) ，第二阶段再由这些高频项目组中产生关联规则 ( a s s o c i a t i o nr u l e s ) 。如果两项或多项属性之间存在关联，那么其中一项的属性值就可以依据其他属性值进行预测。分类知识( c l a s s i f i c a t i o n ) 。分类是反映同类事物共同性质的特征型知 2 兰州大学2 0 1 0 届硕士学位论文识和不同事物之间的差异型特征知识。目的是构造一个分类函数或分类器，挖掘一些指定的事件是否属于某一特定数据子集的规则。预测型知识( p r e d i c t i o n ) 。预测型知识是指根据时间序列型数据，由历史的和当前的数据去预测未来的数据，也可以认为是以时间为关键属性的关联知识。偏差型知识( d e v i a t i o n ) 。偏差性知识是对差异和极端特例的描述，揭示事物偏离常规异常现象，如标准类外的特例，数据聚类外的离群值等。偏差检测的基本方法是寻找观测结果与参照值之间有意义的差别。所有这些知识都可以在不同的概念层次上被发现，并随着概念层次的提升，从微观到宏观，以满足不同用户不同层次决策的需要。用数学语言可以用如下形式定义：定义1 1 令庐觎如面o o o p 彬为要分析的数据集合，数据挖掘可描述为一个过程，其目的是要发现： 1 ) d 的一个子集口，刀一般要在数量上少于历且维数也较低； 2 ) 关于d 的一个假设仞，功。其pc 是用户认为有用的上下文。由于数据经常被组织成关系或类，所以刃可看作是多个关系以尼o 0 0 7 尼的并集，即庐u 尼，关系的维数分别为m ，盹，弛，可处理整个数据库或者单个关系( 矽司或d 硼，或处理数据库的子集( d e 1 ) ，p 1 “i d i ) 。h 有如下功能：描述满足大部分数据项p 印的性质( 刃c 伪；将d 根据不同的情况分为不同类己只矧疗矧，当国e 矗e 2 g 且j z 尼为某种性质；存在两维或多维函数依赖f ，即：西，币阮如e o o j 副或满足关京r ( d n d i 2 o e o pd 瞳) 。 3 兰州大学2 0 1 0 届硕士学位论文通过数据挖掘，有价值的知识、规则或高层次的信息就可以从数据库的相关数据集合中抽取出来，并从不同角度显示，从而使大型数据库作为一个丰富可靠的资源，为决策服务。数据挖掘融合了人工智能、统计及数据库等多学科的理论、方法和技术，这些学科中的许多技术和方法都可以直接应用在数据挖掘的过程中。例如，在统计中，除了实验设计和数据挖掘的关系不大，几乎所有其他方法，如概率分布、估计、一致性、不确定性、鲁棒性、假设检验、回归分析、相关分析、主成分分析、马尔科夫链、基于案例的推理、时间序列分析及预测方法等，都可以用于数据挖掘，这些方法有得可以用于分析属性之间的函数关系( 能用函数公式表示的关系) ，有些可以用于表述相关关系( 不能用函数公式表示的关系) 。常用的数据挖掘的方法包括统计分析方法、聚类分析、概念描述、关联规则挖掘、决策树、遗传算法、粗糙集方法、神经网络、模糊逻辑、支撑向量机、可视化技术等等。就预测而言，预测是一门包含采集历史数据并用某种数学模型来外推的科学，指人们利用已有知识、经验和手段，为对事物的未来、发展趋势或未知状况预先做出恰当的估计、分析、推测和判断而进行的活动，主要包括社会预测、经济预测、科学预测、技术预测、军事预测和市场预测等；就其应用方法分为定性预测和定量预测；就其预测期限分为长期预测、中期预测和短期预测b 1 。预测分析是本世纪4 0 年代形成并发展起来的，之后在经济、科学技术、社会领域得到广泛应用。预测h 1 的重要意义就在于它能够在自觉地认识客观规律的基础上，借助大量真实客观的信息资料和现代化的计算手段与先进的数学方法，比较客观准确地揭示出客观事物运行中的本质联系及发展趋势，预见到可能出现的种种情况，勾画出未来事物发展的基本轮廓，提出各种可以互相替代的发展方案，为人们未来的行动指明方向和前景，这样就使人们具有了战略眼光，为决策提供了科学的理论依据。科学预测的重要性不断为社会所认识，正逐步成为现代企业掌握 4 兰州大学2 0 1 0 届硕士学位论文客观生产规律，制定和完善生产计划的重要手段。 1 2 国内外研究现状预测对象千千万万，预测方法种类繁多，不同的预测对象适用不同的预测方法，而同一预测对象在不同时期也可能运用不同的预测方法，所以，对预测方法本身的研究就成为预测研究的重要内容之一。同时由于现代社会的海量信息和大规模数据库，传统的预测方法的局限性逐步凸显，对预测精度不断的追求，预测适应范围的扩大，特别是过去无法预测的领域，就成了现代预测技术追求的目标。预测方法从技术上分为定性方法和定量方法两种。定性预测是预测者在已掌握的历史资料和直观材料的基础上，通过对事物的过去及现在变化规律的分析，通过一定形式综合各方面的意见，对该事物未来发展的趋势和状态做出判断和预测的一种方法，主要依靠一些领域专家，根据经验来判断系统的大致走势。定性预测在工程实践中被广泛使用，定性预测法综合性强、需要的历史数据少，并能考虑到某些无法定量的因素，特别适合于对预测对象的数据资料( 包括历史的和现实的) 掌握不充分，或影响因素复杂：难以用数字描述，或对主要影响因素难以进行数量分析等情况啼1 。其准确程度主要取决于预测者的经验、理论素质、业务水平以及掌握的情况和分析判断能力，能发挥专家经验和主观能动性，着重对事物发展的趋势、方向和重大转折点进行预测：而定量预测要求有完整的历史数据和先进的计算手段，所以计算结果较为科学、可靠，受主观因素的影响小，但是比较机械，不易处理有较大波动的资料，更难于事物预测的变化。定量预测是使用历史数据或因素变量来预测需求的数学模型，它主要是通过对过去一些历史数据的统计分析，用量化指标来对系统未来发展进行预测。它根据已掌握的比较完备的历史统计数据，运用一定的数学方法进行科学的加工兰州大学2 0 1 0 届硕士学位论文整理，借以揭示有关变量之间的定量化关系或者相应的函数关系。定量预测方法也称统计预测法，其主要特点是利用统计资料和数学模型来进行预测。然而，这并不意味着定量方法完全排除主观因素，相反主观判断在定量方法中仍起着重要的作用，不同之处在于定量预测更注重用数据资料说话。定量预测主要采取模型法，模型方法是一种科学的分析方法，定量预测基本上可分为两类：一类是时序预测法；另一种是因果分析法，它包括一元回归法、多元回归法和投入产出法。目前主要采用的定量预测方法有：回归分析法7 1 、时间序列分析法8 9 1 、灰色预测法加1 1 1 、人工神经网络法1 2 埘、支持向量机法“、1 司、组合预测、法璩“刀等。定量预测偏重于数量方面的分析，重视预测对象的变化程度，能作出变化程度在数量上的准确描述；它可以利用现代化的计算方法，来进行大量的计算工作和数据处理，求出适应工程进展的最佳数据曲线。缺点是比较机械，不易灵活掌握，对信息资料质量要求较高。定性研究与定量研究的结合，是科学的预测的发展趋势。在实际预测工作中，应该将定性预测和定量预测结合起来使用，即在对系统做出正确分析的基础上，运用统计方法和数学模型，对事物现象、未来发展状况进行测定。 1 2 1 单维时间序列预测中的数据预处理和支撑向量机方法对于预测型知识的挖掘，首先要检查数据序列的工整性，即数据序列有无缺失值，有无突变点，进一步，是否在相对长期行为中存在趋势性，周期性，等等。在对数据的结构有一个相对长期的宏观的把握之后，再采取适当的预测模型，这样即把握了数据的整体趋势，又能掌握周期突变等行为，从而真正实现预测型知识挖掘的价值。趋势成分显示了序列的长期行为规律，主要呈增长、下降和平稳三类特征。前两种特征可用多项式、指数函数等描述，平稳性的结构特性需要时序建模来体 6 兰州大学2 0 1 0 届硕士学位论文现。序列往往含有不只一个周期，起振幅亦可能随时间增大或衰减。该类规律可通过滑动和滤波，也可用三角函数的组合来描述，特别地，转称一年一度的周期性变化为季节性。系统结构分解的季节调整思想源于经济数据规律的分析。经济学家希望分离数据中的季节波动并获取被其掩盖的本质趋势，将这种数据处理方法称之为季节调整。1 9 1 9 年美国经济学家w m p e r s o n 最早提出季节调整思想并成功的预测了当年经济衰退至次年复苏的过程。该法近几十年来已充分发展为经济数据分析、气象数据、天文数据等分析的有效工具。目前国际常用的季节调整方法有三种：x _ 1 1 法，x _ 1 la r i m a 法和b a y e s 方法n 8 1 蚰。支持向量机( s v m ，s u p p o r tv e c t o rm a c h i n e ) 是一种9 0 年代中期发展起来的基于统计学习的机器学习方法，在1 9 9 2 年计算学习理论的会议上介绍进入机器学习领域，它是机器学习领域若干标准技术的集大成者。它集成了最大间隔超平面、m e r c e r 核、凸二次规划、稀疏解和松弛变量等多项技术。它通过寻求结构风险化最小，最初用于分类问题，后来推广到函数回归问题。它结构风险最小化算法代替传统的经验风险最小，最小化推广误差的上界，从而达到在统计样本较少的情况下，也能获得良好统计规律的目的。统计学习理论( ( s t a t i s t i c a l l e a r n - i n gt h e o r y ，s l t ) 是由v a p n i k ，v n 嘧町( 1 9 9 5 ) 等人提出的一种专门研究小样本情况下机器学习规律的基本理论和数学构架，也即v c 维理论，它的一个重要特性就是对未知数据的泛化能力强，在这种体系下的统计推理，不是要得到样本趋于无穷大时的最优解，而是在有限样本条件下达到最优，因此它也是小样本统计估计和预测学习的最佳理论，基本原理是根据有限的样本信息在模型的复杂性( 即对特定训练样本的学习精度) 和学习能力( 即无错误地识别任意样本的能力) 之间寻求最佳折衷，以期获得最好的推广能力。其中支持向量机是统计学习理论的核心和重点。支持向量机是结构风险最小化原理的近似，它能够提高学习机的泛化能力，既能够由有限的训练样本得到小的误差，又能够保证对独立的测 7 兰州大学2 0 1 0 届硕士学位论文试集仍保持小的误差，而且支持向量机算法是一个凸优化问题，因此局部最优解一定是全局最优解，这样，由v a p n i k 等人提出的支持向量机就克服了神经网络收敛速度慢和局部极小点等缺陷。核函数的选取在s v m 方法中是一个较为困难的问题，至今没有一定的理论方面的指导。j d b n e ls o n ，ri d a m p e r 口1 ( 2 0 0 8 ) 和s h u i - s h e n gz h o u ( 2 0 0 9 ) 嘲进一步研究了支持向量机的支持向量集和核函数的关系，研究表明对非线性可分情况，对一个特定的核函数，给定的样本集中的任意一个样本都可能成为一个支持向量。这意味着在一个支持向量机下观察到的特征在其它支持向量机下( 其它核函数) 并不能保持。因此，对解决具体问题来说，选择合适的核函数是很重要的。 s v m 的应用主要在模式识别和函数逼近两个方面，在模式识别方面主要集中在图象处理领域，最突出的应用研究是贝尔实验室对美国邮政手写数字库进行的实验。支持向量机已经广泛用于解决分类、回归、异常值检测以及时间序列预测等问题。支持向量机通过某种事先选择的非线性映射将输入空间映射到一个高维特征空间中，在这个特征空间中的平面上构造最优分类超平面。支持向量机以其具有逼近任意复杂系统的能力和先进完备的理论体系而备受学术界的瞩目，并已在各个领域得到了广泛应用。s w 在时间序列预测方面的应用思路具体来说是在给定的误差惩罚因子下找到一系列向量点，由这些支持向量点框定整个序列变化的趋势范围，如同一个软管道。然而由于受到多种因素的影响，系统的发展变化是高度非线性的，尤其当原始数据序列噪声很大甚至出现突变点时( 异常值) 很难直接找到描述系统发展变化规律的函数。大多数的文献都是关注与如何减少算法复杂度堋、如何选择合适的核函数嘲、如何设置合适的参数嘲。常用的算法如块算法，由c o r t e s 和v a p n i k 明于1 9 9 5 年提出，它是基于支持向量机方法得到的判别函数只与支持向量有关而与其他训练样本点无关的原理，在求解海量样 8 兰州大学2 0 1 0 届硕士学位论文本数据时提出的优化算法。而固定样本集算法则把整个问题分解成固定样本数的子问题，在这个算法中，首先建立合适的工作集并保持其大小不变，每次解决凸二次规划子问题时以一个不满足k k t 条件的样本代替原工作集中的一个样本再进行优化渊。l i uc h u n f u ，w a n gs h e n g d e t 嚣j ( 2 0 0 2 ) 提出的模糊超球支持向量机算法、范昕炜例( 2 0 0 3 ) 提出用加权的s v m 解决样本不均衡带来的识别问题、马永军与李孝忠口妇( 2 0 0 5 ) 用模糊s w l 针对隶属度确定问题提出了基于核函数的解决方法等等，都对支持向量机的发展和应用做出了积极的探索并且颇具成效。胡国胜，任震恤1 ( 2 0 0 6 ) 应用神经网络中的聚类算法将历史数据分割成不相连的数据域，对每个数据域选择最佳核函数预测单个s w l s 。封筠与陈志军嘲以黎曼几何为理论依据，对核函数进行数据依赖性改进，结果表明新保角映射快速显著地改善分类器泛化能力，取得了较好的实验效果。虽然国内外已有很多文献用s v m 方法对电力需求量进行预测，但都存在然而对原始数据序列的结构进行分析分解，做出适当的预处理，对提高s v m 方法的解决问题能力常常起到事半功倍的作用，然而这方面的研究却很少。这种先着手于数据结构的分析方法，不仅可以与s v m 方法相结合，还可以与一般类型的回归预测，时间序列分析法，灰色系统理论等方法相结合，不仅提高预测精度，同时避免对算法过犹不及的改进。 1 2 2 多维输入时间序列预测与粗糙集理论及神经网络的应用粗糙集理论是一种处理模糊和不确定知识的数学工具，由波兰科学家z 。 p a w l a k 于1 9 8 2 年首先提出，近年来在数据挖掘领域引起了广泛重视。粗糙集主要用于分类和特征描述。粗糙集方法利用等价关系将一组数据划分成几个等价类，利用等价类近似地描述某个集合的特征。在这里，一个类别对应于一个概念。知识由概念组成，如果某知识中含有不精确概念，则该知识不精确。粗糙集对不精 q 兰州大学2 0 1 0 届硕士学位论文确概念的描述方法是通过上近似( u p p e ra p p r o x i m a t i o n ) 和下近似( 1 0 w e r a p p r o x i m a t i o n ) 这两个精确概念来表示的。一个概念( 或集合) 的下近似指的肯定属于该概念的那些元素；一个概念( 或集合) 的上近似指的是可能属于该概念的那些元素。这些等价类可以来自于数据库中的属性，数据库中通常把行元素看成对象，列元素看成属性，属性又分为条件属性和特征属性。在条件属性和特征属性上分别定义等价类关系，并把数据集合按照等价关系划分为若干等价类。根据条件属性的等价类与特征属性上的等价类之间的近似关系，可以建立起确定性规则和满足某个可信度的不确定性规则。传统的不确定信息处理方法，如模糊集理论、证据理论和概率统计理论等因需要数据的附加信息或先验知识，在处理大数据量的数据库方面显得力不从心。作为一种软计算方法，r s t 与其他处理不确定和不精确性问题理论最明显的区别是它无需提供问题所需处理的数据集合之外的任何先验信息，如统计学中的概率分布、模糊集理论中的隶属度等，所以对问题的不确定性的描述或处理可以说是比较客观的。k d d 研究的实施对象多为关系数据库，关系表可被看作为r s t 中的决策表，这给r s 方法的应用带来极大的方便。从数据中发现异常，排除知识发现过程中的噪声干扰也是r s 方法的特长。粗糙集理论可用于如数据预处理、数据约简、规则生成、数据依赖关系的发现等。近年来，粗糙集理论在数据分析和数据挖掘的应用取得了很大的进展。胡莹坚( 2 0 0 7 ) 有效地利用粗糙集在处理不精确性和不确定性问题的优势，对数据样本进行属性约简，降低样本维数，获得最优约简后的决策规则，以此建立神经网络的输入神经元，减少了神经网络的时间代价和空间代价，同时在神经网络自动控制系统中采用粗糙集弱耦合方式，在模式识别和系统建模过程中都取得了较好的效果。何明与冯博琴等人嘲( 2 0 0 5 ) 通过对决策表和决策规则的不确定性的研 1 0 兰州大学2 0 1 0 届硕士学位论文究，在分析了由不分明关系划分的粒度引起的规则不确定性的基础上，建立基于信息熵和粗糙集表示的不确定性信息度量的方法，以最小确定性为阈值来控制规则集生成的数量。结果表明，用上述度量方法计算的最小确定性作为阈值是合理的，在保持较高的决策正确率的同时，有效地控制了规则集的生成，实现了控制算法获取的目标。邓九英与毛宗源等人嗍( 2 0 0 8 ) 考虑到粗糙集属性分区数的变化会影响属性重要性和属性对决策属性的支持度，在对知识表示系统的数据相关性进行分析的基础上，综合考虑系统的泛化能力，提出能生成确定性控制规则的决策模型，给出决策支持系统的判据与算法实现。于冰与阎保平1 ( 2 0 0 5 ) 通过在知识表达系统中引入决策属性支持度的概念和决策属性支持度定义条件属性对决策属性的相对重要性，描述由条件属性所提供的知识对整体决策的支持程度并求出相对核，同时将相对核加入进化算法的初始种群中以加快算法的收敛，实现了应用约简进化算法实现对评审系统冗余指标的约简的目标，建立了有效的决策支持系统。黄宋斌汹1 ( 2 0 0 4 ) 提出了改进的基于r o u g h 集理论的决策规则的最大覆盖算法，并构建了一个通用于基于粗糙集理论和数据仓库的决策支持系统模型，是从数据库中发现知识的有效探索并取得一定成果。粒子群优化算法( p a r t i c l es w a m po p t i m i z a t i o n ，p s o ) 算法是一种基于群智能的演化计算技术，它是由于受到人工生命研究结果的启发，由k e n e n d y 和 e b e r h a r t 于1 9 9 5 年首次提出是一种进化算法是一种较好的优化方法。与遗传算法相比，该算法具有收敛速度快，容易实现，而且又具有深刻智能背景的优点，它对优化目标函数的形式没有特殊要求，而且具有算法简单和全局寻优能力，已经在许多函数优化、模糊控制系统优化等应用领域中得到了广泛的研究和应用嘲蜘。崔长彩与李兵( 2 0 0 6 ) h q 论述了粒子群优化算法的基本原理、特点、实现步 1 1 兰州大学2 0 1 0 届硕士学位论文骤，并提出几种改进方向和改进技术，如基于p s o 惯性权重参数的改进技术、受遗传算法启发提出带交叉算子的基于遗传算法进化机理的改进技术等， e b e r h a r trc 与s h iy 伽( 2 0 0 4 ) 在总结回顾p s o 发展历程和己取得成果的基础上，指出了p s o 目前研究的主要问题和未来的研究方向：算法收敛性的分析、粒子群拓扑结构、参数选择与优化、与其他进化算法融合技术、应用领域的开拓等等。人工神经网络的理论研究是- f 新兴的边缘和交叉学科，一般定义为用大量神经元构成的非线性系统，在一定程度和层次上模仿了生物神经网络系统处理信息、存储及检索的功能，它的单元模型仿造大脑神经元的特点，包括接受信息刺激，传导信息，输出结果三部分，具有一定的学习、记忆和计算等智能处理的功能，给解决很多具有复杂的不确定性和时变性的实际问题提供了新思想和新方法。它的研究可追溯到4 0 年代信息科学的开创时期，在神经网络的发展初期研究的主流是仿生结构主义，用硬件来模拟人脑的结构和功能，由此经历了低潮期，受到现代计算机和人工智能快速发展的冲击，同时由于数学理论基础的局限性，不可避免的受到阻碍，但仍然取得了不少进展，例如b p 算法数学原理的建立等。而将神经网络的理论分析与动力系统稳定性分析相结合的h o p f i e l d 神经网络，引入计算能量函数的概念，掀起了神经网络研究的热潮。人工神经网络的学习功能，用大量样本对神经元网络进行训练，调整其连接权值和阈值，然后可以利用已确定的模型进行预测、模式识别、信号处理、专家系统、组合优化和自动控制等。神经网络能从数据样本中自动地学习以前的经验而无需繁复的查询和表述过程，擅长从输入输出数据中学习有用知识，并自动地逼近那些最佳刻划了样本数据规律的函数，它不需要精确的数学模型，容易实现并行计算，因此不论这些函数具有怎样的形式，且所考虑的系统表现的函数形式越复杂，神经网络这种特性的作用就越明显悯。人工神经网络方法的优点在于它能解决常规信息处理方法难以解决或者无 1 2 兰州大学2 0 1 0 届硕士学位论文法解决的问题，尤其对思维、联想以及推理和意识等方面的问题，采用数据驱动，黑箱建模，具有高度非线性，对大量非结构性、非精确性规律具有极强的自适应功能，它是一种变结构模型，具有信息记忆、自主学习、知识推理和优化计算等特点，具有高度的自适应性和自组织性，具有一定的容错能力，其自学习和自适应功能是常规算法和专家系统技术所不具备的，同时在一定程度上克服了由于随机性和非定量因素而难以用数学公式严密表达的困难，在世界范围内受到各国的重视。人工神经网络方法的缺点是网络的拓扑结构不易确定，训练时间长，同时要求有足够多的历史数据，训练效果受初始参数的影响较大，样本选择困难，算法复杂，容易陷入局部极小点，训练后的人工神经网络往往难以解释其训练结果。 1 9 8 5 年r u m e l h a r t 提出b p ( b a c kp r o p a g a t i o n ) 神经网络，它成功地解决了多层网络中隐含神经元连接权值的问题；1 9 8 9 年h e c h t - n i e l s e n 证明了任何在闭区间内的连续函数都可以用一个隐层的b p 网络来逼近，这进一步推动了b p 网络在各种领域的广泛应用。b p 网络通常由具有多个节点的输入层( i n p u t l a y e r ) 、隐含层( h i d d e nl a y e r ) 和多个或一个输出节点的输出层( o u t p u tl a y e r ) 组成。其学习过程分为信息的正向传播过程和误差的反向传播过程两个阶段。外部输入的信号经输入层、隐含层的神经元逐层处理，每一层的神经元状态只影响下一层的神经元的状态，向前传播到输出层，给出结果。如果在输出层得不到期望输出，即达不到事先设定的精度要求，则转入逆向传播过程，将实际值与网络输出之间的误差沿原连接通路返回，通过修改各层神经元的连接权重，减少误差，然后再转入正向传播过程，反复迭代，直到误差小于给定的值或者达到事先设定的迭代次数为止。。数据分组处理方法( g r o u p t e t h o do fd a t ah a n d li n g ，g m d h ) 是复杂系统数据建模的归纳法的实现，它的基本思想来自启发式自组织方法，它由乌克兰科学 1 3 兰州大学2 0 1 0 届硕士学位论文院院士九g i v a k h n e n k o 在1 9 6 7 年首先提出，在2 0 世纪7 0 和8 0 年代获得了极大的发展，经由了b a r r o n 提出的多项式网络训练算法( p o l y n o m i a ln e t w o r k t r a i n i n g ，p n e t t r ) 和e l d e r 提出的多项式网络合成算法( a l g o r i t h mf o r s y n t h e s i so fp o l y n o m i a ln e t w o r k s ，a s p n ) 两个阶段。它实现数据挖掘过程的自组织控制，是一个简单高效的推导最优模型的原始输入变量表达式的算法，并以客观的方式建立一个最优复杂度模型。g i d h 方法的基本思想是以生物有机体演化的方法构造数学模型，模型从数据中自动产生，以最优的传递函数形式，重复产生大量具有增长负责度的竞争模型，其中每一神经元都具有选择最优传递函数的功能，进行相应的模型确认并留下最好的选择，重复这样一个优势遗传，竞争生存和进化的过程，直至新产生的一代神经元都不

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（应用数学专业论文）数据预处理在预测模型中的应用.pdf

文档简介

温馨提示

最新文档

评论

（应用数学专业论文）数据预处理在预测模型中的应用.pdf

文档简介

温馨提示

最新文档

评论

相关文档