(应用数学专业论文)基于数据挖掘技术的短期风速预测.pdf_第1页
(应用数学专业论文)基于数据挖掘技术的短期风速预测.pdf_第2页
(应用数学专业论文)基于数据挖掘技术的短期风速预测.pdf_第3页
(应用数学专业论文)基于数据挖掘技术的短期风速预测.pdf_第4页
(应用数学专业论文)基于数据挖掘技术的短期风速预测.pdf_第5页
已阅读5页,还剩46页未读 继续免费阅读

(应用数学专业论文)基于数据挖掘技术的短期风速预测.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

论文题目:基于数据挖掘技术的短期风速预测 专 业:应用数学 硕 士 生:刘菊艳 (签名) 指导教师:刘叶玲 (签名) 摘 要 近年来,风力发电技术成为了一种极具利用潜能的可再生能源发电技术。本文结合 国内外的研究现状和风速的特性,分别运用时间序列分析法和支持向量回归机法,对某 风电场的短期风速预测进行研究分析,以期找到更精确的风速预测方法。 短期风速预测需要大量的历史数据作为研究样本, 异常点的存在会增大数据序列的 整体噪声,降低风速预测的精度。因此本文首先对异常点进行了查找和修正,以期保证 数据的合理性和有效性。然后结合典型相关分析法对各个变量进行分析,得到了与风速 相关性较大的几个变量,为更精确的风速预测做好前期准备。 在对原始数据进行了大量的统计分析及处理的基础上, 论文分别利用时间序列分析 和支持向量回归机对短期风速进行了预测。在运用时间序列分析对风速进行预测时,论 文首先对风速序列进行平稳化处理、模型识别及参数检验,然后建立了风速预测模型, 并据此进行短期风速预测。在运用支持向量回归机对风速进行预测时,论文利用 libsvm-2.88 软件分别建立了svr和svrv两个预测模型,并进行短期风速预测。 结果表明,svr模型的预测效果相对较好。 最后, 论文对基于时间序列分析和支持向量回归机这两种模型的风速预测进行了比 较分析,因为时间序列分析只考虑前期风速的历史数据进行预测,且模型比较简单,而 支持向量回归机在预测时除了前期风速,还选择了几个相关性较大的变量。所以,基于 支持向量回归机的预测方法得到了更好的预测结果。实验表明,运用支持向量回归机的 方法进行短期风速预测结果相对更合理,精度更高。 关 键 词:典型相关分析;时间序列分析;支持向量回归机;短期风速预测 研究类型:应用研究 subject : short-term wind speed forecasting based on data mining technology specialty : applied mathematics name : liu juyan (signature) instructor : liu yeling (signature) abstract in recent years, wind power technology becomes a potential renewable energy power generation technology. this paper reviews the present situation and characteristics of wind speed both at home and abroad. using time series analysis and support vector regression analyzes short-term wind speed forecasting of the wind farm to find a more accurate method . short-term wind speed forecasting requires a lot of historical data as a sample. the presence of singularities will increase the noise and reduce wind speed forecasting accuracy. so, firstly, this paper finds and fixes the singularity to ensure the rationality and validity of data. then through canonical correlation analysis, it analyzes various variables to get the variables which greater correlate with wind speed for more accurate forecasting of wind speed. basing on lots of statistical analysis and disposals with data, this paper forecasts short-term wind speed by the methods of time series analysis and support vector regression machine. when using time series analysis to forecast the wind speed, firstly, it makes the sequence steady, then, it identifies the model and verifies parameter. after that, it establishes a model to forecast the short-term wind speed. when using support vector regression machine to forecast the wind speed, this paper establishessvrandsvrvto forecast the wind speed by the software libsvm-2.88. it shows thatsvrhas a better result. at last, this paper compares and analyzes the forecasting result which bases on the method of time series analysis and support vector regression machine. because the former only considers the pre-historical data to forecast the wind speed and the model is simple, but the latter uses pre-historical and relevant variables to forecast wind speed. so the support vector regression machine gets the better results. key words: canonical correlation analysis time series analysis support vector regression machine(svr) short-term forecasting of wind speed thesis : applied research 1 绪论 1 1 绪论 1.1 课题的研究背景及意义 近年来,随着石油价格的持续上涨以及温室效应的出现,世界各国对新能源的研究 和开发关注度提高。风力发电技术已经成为一种极具利用潜能的可再生能源发电技术。 因为风力发电具有无污染、无噪音、投资周期短、不产生废弃物、占地少等优点,它已 成为可再生能源开发利用中技术最成熟、 最具规模开发和商业化发展前景的发电方式之 一,受到世界各国的青睐。风力资源是取之不尽、用之不竭的,如今风力发电技术已逐 步成熟,有着广阔的发展前景。 风电已成为世界上增长最快的可再生能源,据政府计划,到2020年我国风电的装机 容量将达到30gw。风电能占整个电网比例的大小取决于很多因素,其中一个最重要的 是风速的可预测性。如果对风电场风速或风力发电功率预测比较准确,则可以降低所需 的储备电能,增加电网的可靠性,有利于调整调度计划,从而有效减轻风电对整个电网 的不利影响,减少电力系统运行成本和旋转备用,提高风电穿透功率极限,并且有利于 在开放的电力市场环境下正确制定电能交换计划,具有很大的经济意义。这对于电网调 度和资源配置非常有必要。 国内外对于风力发电各种课题的研究也已经越来越深入,但其中关于风电场风速和 功率预测的研究还达不到令人满意的程度。当风电穿透功率超过一定值之后,会严重影 响电能质量和电力系统的运行。研究表明,风电机组的控制与风速密切相关。因而,风 速与风电功率预测一直是风电的研究热点和技术必需。德国、西班牙、美国等西方国家 对于风力发电各种课题的研究较多,国内主要集中在风力发电机组的变频控制、风电场 规划、对电力系统的影响等方面,而关于风电场风速预测的研究才刚刚起步,这主要是 因为风速受温度、气压等多种因素的影响,具有很强的随机性,要得到较精确的预测结 果难度很大。 一般情况下, 风电场风速预测可分为短期风速预测和中长期风速预测两种。 对于绝大多数仿真应用而言,我们不太关心大时间尺度上的风速变化,而重点关注小时 间尺度上的风速变化。本论文主要研究的就是短期风速的预测问题。 1.2 风速的研究现状与研究成果 作为一种可持续利用的清洁能源,风能具有广阔的开发前景。我国风能资源总储量 约为2.53亿kw,仅次于美国和俄罗斯,居世界第三位。风力发电在我国具有广阔的发 展前景,主要原因有两个:一是我国风力资源丰富,具有开发风电的巨大潜力;二是来 自国家政府部门的鼓励和优惠政策。我国风力发电事业虽然起步较晚(于上世纪80年代 西安科技大学硕士学位论文 2 初),但是在国家政策的强力支持下已有了长足的发展。 随着风力发电规模的不断扩大, 当风电场并网及并网后的稳定和安全问题逐渐成为 电力工作者急需解决的新课题的时候,风电场的风速预测就成了一个重要的手段。风速 预测不仅与预测方法有关,还与预测周期以及预测地点的风速特性有关。一般来说,预 测周期越短,预测误差就会越小;反之,预测误差就会越大。最简单的预测方法是持续 法,即把最近一点的风速或功率观测值作为下一点的预测值。其它预测方法有卡尔漫波 法(kalman filters)、 时间序列法(arma)、 人工神经网络法(ann)、 模糊逻辑法(fuzzylogic) 等。 描述风能特性的参数主要有风速、风向和风密度。我们主要关注风速的变化特性。 风因大气环流形成,风速是一个典型的随机变量。若不考虑风的方向性,风速是其空间 坐标位置和时间的函数,即( , , , )vf x y z t。我们将描述某一区域风速的空域、时域分布 变化特性的模型称为风场模型(wind field model)。严格说来,各空间位置上的风速 因风的随机性、风场地形等因素影响而各不相同,因此,要建立一个准确的风场模型几 乎是不可能的,需要进行一定的简化处理。 在时间维度上,风速的预测,可以分为中长期和短期预测。其中,中长期预测主要 是对风速的月分布或年分布有个概括的了解, 风速的变化范围大, 预测的精度要求不高, 目前的主要方法有: (1)灰色预测方法。将历史风速的月平均值或年平均值作为输入数据,利用灰色 模型建立预测模型,对未来的月平均值或年平均值有粗略的计算。 (2)神经元网络法。将历史风速的月平均值或年平均值数据,利用神经元网络模 型进行预测计算。 主要的预测方法是上述的两个, 同时还有线性回归预测等方法。 中长期的风速预测 对于实际的工程应用意义不大,只是作为风电场资源评估时计算的参考。 在做短期风速预测时,风速的短期变化随机性比中长期的更强,预测的难度更大。 在小时间尺度上观察,风速随时间的变化呈现出脉动变化的特点,即风速均值在一段时 间内基本不变, 风速在均值附近波动, 国内外学者据此提出了各种描述风频分布的方法, 如概率分布模型、瑞利分布模型、对数正态分布模型等。目前短期风速的预测方法主要 有以下几种: (1)持续预测法。这是用于此领域的最简单的方法,该方法认为风速预测值等于 最近几个风速历史值的滑动平均值。 通常只是简单地把最近一点的风速观测值作为下一 点的风速预测值。该模型的预测误差较大,且预测结果不稳定。 (2)卡尔曼滤波法。它把风速作为状态变量建立状态空间模型,用卡尔曼滤波算 法实现风速预测。这种算法在假定噪声的统计特性已知的情况下得出,事实上估计噪声 的统计特性是该方法应用的难点所在。 1 绪论 3 (3)随机时间序列法。随机时间序列法利用大量的历史数据来建模,经过模型识 别、参数估计、模型检验来确定一个能够描述所研究时间序列的数学模型,进而推导出 预测模型达到预报的目的。这方面的工作,box jenkins贡献最为突出。目前,该方法 只需知道风电场的单一风速时间序列即可建立模型预测,并且可以达到较好的预测效 果。该方法使用最多的是累积式自回归一滑动平均模型4。 (4)人工神经网络法。人工神经网络(ann)旨在模仿人脑结构及其功能,由大量 简单处理元件以某种拓扑结构大规模连接而成,是一门涉及生物、电子、计算机等多个 领域的科学。人工神经网络具有并行处理、分布式存储与容错性等特征,具有自学习、 自组织和自适应能力,可以实现联想记忆、非线性映射、分类与识别、优化计算、知识 处理等功能,对复杂问题的求解十分有效,可用于短期风速预测5。 (5)模糊逻辑法。应用模糊逻辑和预报人员的专业知识将数据和语言形成模糊规 则库,然后选用一个线性模型逼近非线性动态变化的风速。但是,单纯的模糊方法对于 风速预测,效果往往不佳,这主要是因为模糊预测学习能力较弱,模糊系统的辨识还未 形成完善的理论,在预测系统中选择模糊系统的结构尚需作进一步的研究。通常模糊预 测法要与其他方法配合使用,例如将模糊与遗传算法相结合进行短期风速预测6。 (6)空间相关性法。该方法需要考虑风电场以及与之相近几个地点的多组风速数 据,运用几个地点风速之间的空间相关性,进行风速预测。为了获得所需的几组风速数 据,需要在风电场周边地区设置几个远程测速站。风电场本地以及各个远程测速站测得 的实时风速数据经中心计算机处理,利用风电场与各个测速站处风速之间的空间相关 性,对风电场的风速进行预测。实际上,若能收集到风电场以及与之相近的几个地点的 多组风速数据,则可利用该方法进行风速预测。该方法对原始数据收集量很大,但由于 预测过程中考虑的因素增多,所以预测效果较好。目前,该方法的使用尚在完善中。 1.3 本文的主要工作 在综合参考和分析国内外对风电场风速数据处理和预测的研究现状及应用的基础 上,以我国某风电场为例,分别采用时间序列法和支持向量回归机,对风电场短期风速 预测方法进行研究,并对结果进行比较,具体的研究内容和工作安排如下: 第一章:绪论。阐述了论文的选题背景及意义,详细介绍了风电场风速的概念和特 点,总结了关于风速的研究现状和研究方法,提出将新的模式识别方法支持向量回 归机应用于风速预测,并简要给出论文的结构安排。 第二章:风速的特性分析及数据的预处理。论文根据选取的历史数据,首先运用多 元统计分析的方法并结合sas软件,对样本的奇异点和缺值点进行查找和替换,并对数 据做了归一化处理。然后结合典型相关分析法,对变量进行分析,找到对风速影响较大 的因素,为后面更精确的短期风速预测提供数据保证。 西安科技大学硕士学位论文 4 第三章:应用时间序列分析进行短期风速预测。首先简述了时间序列法的基本原理 和基本类型,再以某风电场的实际风速数据为例,利用第二章处理后的数据,建立了模 型,对短期风速进行预测。 第四章:应用支持向量回归机进行短期风速预测。本章分析了支持向量回归机的基 本原理,简单介绍了支持向量回归机的两个模型:svr模型以及svrv模型。结合 第二章对变量相关分析的结果,利用libsvm-2.88软件,不断调整参数的步长,进行智 能寻优,之后建立模型,进行短期风速预测。最后对基于时间序列分析和支持向量回归 机这两种模型的预测结果进行分析比较。 第五章:结论。通过时间序列分析和支持向量机所建立的两个预测模型,阐述了论 文研究所得出的一些主要结论,并针对本文在数据处理、模型构建、实例分析过程中存 在的一些问题,以及本文研究中尚未解决的问题进行归纳总结与展望。 2 风速的特性分析及数据的预处理 5 2 风速的特性分析及数据的预处理 2.1 风速特性的探索性分析 风速预测是根据一段时间内风速的历史资料,建立恰当的数学模型,对未来的风速 进行预测。因此,分析风速特性对掌握风速预测的本质,提高风速预测的精度有着重要 的意义。风速的变化一方面有其不确定性,如气候的变化、意外情况的发生等,这些会 造成对风速的随机性干扰。另一方面,在一定条件下,风速按一定趋势有规律地发展变 化。因此,在进行电力系统的短期风速预测时,本节需要针对风速变化的这些特点,结 合关于风速的部分文献,对风速的特性进行探索性分析。 2.1.1 风速的分布特性 风速分布一般均为正偏态分布,通常用于拟合风速分布的线型很多,而威布尔 (weibull)分布双参数曲线,被普遍认为适用于对风速做统计性描述。威布尔分布是一 种单峰的,两参数的分布函数簇,其概率密度函数可表达为 kk c x c x c k xp)(exp)()( 1 (2.1) 式中k和c为威布尔分布的两个参数,k为形状系数,取值范围为 1.82.3,一般取 2k;c为尺度系数,反映所描述地区的年平均风速8。人们根据风速概率分布,估计 出风电机组的年发电量,从而确定风电场建设项目的可行性。还可利用风速概率分布来 计算风电的可靠性等性能指标10。 2.1.2 风速的变化特性 风速具有以下变化特性8: (1)风速年变化。各月平均风速的空间分布与造成风速的天气气候背景和地形以 及海陆分布等有直接关系。在我国,各地风速年变化互有差异。 (2)风速日变化。风速日变化即风速在一日之内的变化,具体来说有以下几种类 型: 陆地上日变化。陆地上风速日变化是白天风速大,午后 14 时左右达到最大,晚 上风速最小,在黎明前 6 时左右风速最小。这是由于白天地面受热,特别是午后地面最 热,上下对流旺盛,高层风动量下传,使下层空气流动加速,而在午后加速最多,因此 风速最大;日落后地面迅速冷却,气层趋于稳定,风速逐渐减小,到日出前地面气温最 低,有时形成逆值,因此风速最小。 西安科技大学硕士学位论文 6 海上日变化。海上风速日变化与陆地相反,白天风速小,午后 14 时左右最小, 夜间风速大,清晨 6 时左右风速最大。这是由于海上夜间海温高于气温,大气层热稳定 度比白天大,正好与陆地相反。另外海上风速日变化的幅度较陆地小,这是因为海面上 水温和气温的日变化都比陆地小,陆地上白天对流强于海上夜间的缘故。 近海地区或海岛上风速日变化。这些地方风速的变化既受海面的影响又受陆地 的影响,所以风速日变化属于不太典型的那一类型。稍大的一些岛屿一般受陆地影响较 大,反之则受海面的影响较大。 风速随高度变化。风速的日变化还随着高度的增加而变化,同一地点不同高度 处风速日变化特点很不相同;同时,不同地点相同高度处风速日变化特点也很不相同。 2.1.3 风速预测的特点 风速预测按周期有短期、中期、长期之分,短期风速预测是指对未来 1h、未来 0.5h 甚至未来 10min 平均风速的预测。 中期和长期风速预测则指对更长周期的平均风速进行 预测。由于风速预测根据它们过去和现在的情况推测它们未来的数值,所以这项预测工 作所研究的对象并不是确定事件,这就使这项预测工作具有以下特点: (1)不准确性。风速未来的发展是不确定的,它要受到多种多样复杂因素的影响, 而且各种影响因素也是发展变化的。人们对于这些发展变化有些能够预先估计,有些却 很难事先预见到,加上一些临时情况发生变化的影响,因此就决定了预测结果的不准确 性或不完全准确性。 (2)条件性。各种风速预测都是在一定条件下作出的。对于条件而言,又可分为 必然条件和假设条件两种,如果风速员真正掌握了风速的本质规律,那么预测条件就是 必然条件,所作出的预测往往是比较可靠。而在很多情况下,由于风速未来发展的不肯 定性,所以就需要一些假设条件。当然,这些假设条件不能毫无根据的凭空假设,而应 根据研究分析,综合各种情况而得来。给预测结果加以一定的前提条件,更有利于用电 部门使用预测结果。 (3)时间性。各种风速预测都有一定的时间范围,因为风速预测属于科学预测的 范畴,因此,要求有比较确切的数量概念,往往需要确切地指明预测的时间。 (4)多方案性。由于预测的不准确性和条件性,所以有时要对风速在各种情况下 可能的发展状况进行预测,就会得到各种条件下不同的风速预测方案。风速预测要根据 实时数据对未来的风速进行的预测。随着时间的推移,风速特性逐渐发生变化,已建立 的模型可能会随着这样的变化而失效。所以,我们不仅应该根据不同特性的风速选择不 同的预测方法,还要对已建立的风速模型进行适当的调整,已确保在风速特性变化时能 做出准确的预测。 2 风速的特性分析及数据的预处理 7 2.2 数据挖掘理论 随着计算机科学技术的不断发展,大量的信息不断的冲击着人类,信息技术在人类 社会中起着越来越大的作用。由于信息量以指数的速度增长,人类面对这些信息束手无 策,缺乏有效的方法来处理这些信息,这就造成了大量的信息无法充分的应用于实际或 者是应用于实际的效率非常低。据估计,一个大型的企业的全部数据只有百分之七能得 到很好的应用。基于以上的原因,人们希望发现一种能使人类走出这种尴尬的境地的方 法,即摆脱“丰富的数据”而“贫乏的知识”的困境1。 目前全世界拥有大量的数据资源, 而人们也急需从这些信息中抽取出能应用于实际 的信息和模式用来提高效率。伴随着计算机硬件和软件的飞速发展,作为数据分析和决 策工具的数据挖掘技术也逐步的发展起来。 数据挖据技术可以从海量的数据中发现隐含 的模式和规律,并且将这些规律应用于各个领域,如商业、金融、医学、军事、通信等, 数据与信息知识之间的巨大差距迫切需要系统地开发数据挖掘工具,来帮助实现将“数 据坟墓”中的数据转化为知识财富1。 2.2.1 数据挖掘的定义 数据挖掘(data mining,简称 dm) ,简单地讲就是从大量数据中挖掘或抽取出知 识,数据挖掘概念的定义描述有若干版本,以下给出一个被普遍采用的定义描述:数据 挖掘,又称为数据库中知识发现(knowledge discovery from database 简称 kdd) ,它是 一个从大量数据中抽取挖掘出未知的、有价值的模式或规律等知识的复杂过程。广义观 点数据挖掘是从存放在数据库、 数据仓库中或其它信息库中的大量数据中挖掘有趣知识 的过程13。 整个知识挖掘过程是由若干挖掘步骤组成,而数据挖掘仅是其中的一个要步骤。整 个知识挖掘的主要步骤有13: (1)数据清洗(data clearing) 。其作用就是清除数据噪声和挖掘出明显无关的数据。 (2) 数据集成 (data integration) 。 其作用就是将来自多数据源中的关数据组合到一起。 (3)数据转换(data transformation) 。其作用就是将数据转换为易于数据挖掘的数 据存储形式。 (4)数据挖掘(data mining) 。它是知识挖掘的一个基本步骤,其作用是利用智能 方法挖掘数据模式或规律知识。 (5)模式评估(data evaluation) 。其作用就是根据一定评估标准从挖掘结果中筛选 出有意义的模式知识。 (6)知识表示(knowledge presentation) 。其作用就是利用可视化知识表达技术, 向用户展示所挖掘出的相关知识。 西安科技大学硕士学位论文 8 2.2.2 数据挖掘的分析方法 (1)粗糙集。一种描述不确定性和不完整性的数学工具,能运用不完全的数据挖 掘理论知识或不精确的结果处理不分明的现象或进行数据分类。 (2)模糊集。使用隶属度来描述差异的中间过渡,用精确的数学语言描述模糊性, 克服了传统的二值逻辑。 (3)关联规则。关联规则反映两个或多个变量的取值之间存在某种规律性,如果 它们之间有一定的关联关系,那么其中一个事物就能够通过其它事物预测到。 (4)聚类分析。聚类是对物理的或抽象的对象集合分组成为由类似的对象组成的 多个类的分析过程。聚类生成的组为簇。同一个簇内部对象之间具有较高的相似度,而 属于不同簇的对象间具有较高的相异度。 (5)人工神经网络。人工神经网络是指由简单计算单元组成的广泛并行互联的网 络,能够模拟生物神经系统的结构和功能。 (6)分类与预测。分类和预测可以用于提取描述重要数据类型或预测未来的数据 趋势。 (7)多媒体数据挖掘。多媒体数据挖掘就是通过综合分析多媒体数据的内容和语 义,如图形,公式,web 等。从大量多媒体数据中发现隐含的、有效的、有价值的、可 理解的模式,为用户提供问题求解层次上的决策支持能力13。 2.3 原始数据的预处理 短期风速建模需要大量的历史数据作为样本, 而历史数据大多是通过电量变送器或 电力远动调度系统采集得到,除了受测量设备本身或者数据传输中的种种原因影响外, 还有人为拉闸限电等因素的影响, 使历史数据中某一天的数据可能出现和包含有数据缺 失、非真实的数据和异常波动数据,通常称之为异常数据。 奇异点或者在数量级上与正常值相差很大,或者虽然在数量级上没有显著差别,但 是误差却越过了正常的范围。在历史气象数据中,由于各种原因可能会产生数据缺失等 异常现象。这些异常的存在都会使数据序列的整体噪声增大,降低了风速预测的精度, 增加了其不可预测性。因此必须进行数据预处理。 2.3.1 异常数据的查找和修正 本文选取的是我国某风电场的实测历史数据, 该数据为每 10 分钟采样一点, 取 300 组数据进行训练,进行 4 小时的风速预测。 因为风速的值应该为正值, 且不应该过大, 应小于 60m/s, 风向的值应该在 0 到 360 度之间7,所以本论文把不在此范围内的点或者很明显高于或低于临近点的点视为异常 2 风速的特性分析及数据的预处理 9 点并加以修正。首先利用 sas 软件画出风速的观察值。如图 2.1 所示。 图 2.1 风速的实际观察值 显然,第 200 个点是异常点,论文要对此点加以修正。一般对奇异点的识别与处理 有以下几种方法: (1)将前后两个时间的风速数据作为基准,设定待处理数据的最大变动范围,当 待处理数据超过这个范围就视为不良数据,采用平均值的方法平稳化,计算公式如下 如果 x(t)-x(t-1)( ) ( )(1)( ) t x tx tt 那么 ( )( )(1)/2x tx tx t (2.2) 其中,)(tx代表第t时刻的风速值,)(t、)(t为阈值。 (2)风速是有周期性的,所以可以考虑其 24 小时的小周期,即认为不同日期的同 一时刻的风速值具有相似性,同时刻的风速值应该维持在一定的范围内,对于超出范围 的不良数据修正如下 如果 ( )( )( )x tx tt 那么 西安科技大学硕士学位论文 10 ( )( )( )( ) ( ) ( )( )( )( ) x ttx tx t x t x ttx tx t (2.3) 其中,)(tx 为待处理数据最近几天t时刻的风速平均值,)(t为阈值。 (3)假定正常的序列值是平滑的,而异常点是突变的9。 如果 ttttt ksxxksx 1 那么 11 2 ttt xxx (2.4) 其中 t j jt x t x 1 1 , 2 2 2 ttt xxs, t j jt x t x 1 22 1 ,9,3k,通常取6k。 基于时间序列图的观察虽然比较直观,但不易于查找不明显的不良数据,所以论文 采用了文献9的数据处理方法,即第三种方法。数据的其它变量也采用了同样的方法对 异常点进行查找并修正。 在采集数据时,有时会由于机器故障,操作失误等原因,引起某些观测点上未能把 观测值记录下来的数据,即存在缺省值。序列中存在缺省值时,就破坏了系统运行的连 续性,违背了时间序列“顺序的重要性”原则。严格的说,不能依据一个“残缺”的序 列进行分析,即使强行分析,结果也可能是没有意义的,但又由于时间的不可逆性而无 法重新观测,因而就要根据其运行轨或变化趋势,运用一定的方法对缺省值进行估计。 可以运用 sas 软件,采用插值法得到相应的补足值。但论文选取的数据中没有缺省值。 2.3.2 数据的归一化处理 归一化就是要把需要处理的数据经过处理后(通过某种算法)限制在需要的一定范 围内。 归一化的主要优点就是避免一些数据的特征值范围过大而另一些数据的特征值范 围过小,数值较大的属性控制数值较小的属性。另外一个优点就是避免计算时的一些问 题,大的特征值可能会引起数值困难,归一化比较方便后面的数据处理。 归一化的方法主要有以下两种: (1)设 min x和 max x分别为训练样本集中某个变量的最小值和最大值, i x为实际的数 值, i x 为归一化后的数值,则 min maxmin i i xx x xx (2.5) 这种方法可使训练数据转换到0,1区间。 2 风速的特性分析及数据的预处理 11 (2)也可使用下列方法将训练数据转换到1,1区间 min maxmin 2 1 i i xx x xx (2.6) 以上两种方法分别把每个属性缩放到了-1,1和0, 1之间, 前一个范围比后一个好, 即对列向量进行归一化。论文运用了 libsvm-2.88 软件,对训练数据和预测数据进行了 归一化处理。 2.4 风速及相关变量的分析 到目前为止,许多文献已对风力发电中短时间内风速的预测问题做过研究,并已提 出了许多可行的算法。但由于影响风速的因素很多,还不能达到令人满意的预测效果。 为了进一步提高预测精度,有效地利用相关信息,论文运用典型相关分析法,对影响风 速的诸如温度、风向、湿度等因素进行相应分析,通过 sas 统计软件得到各因素与风速 之间的相关性,实现将多个指标划为少量指标的问题,降低维数,简化计算过程。 2.4.1 典型相关分析的原理 典型相关分析的基本思想是 1936 年由 hotelling 提出的,它所揭示的是两组随机变 量之间的关系。其具体做法是:在第一组变量中提出一个典型变量,在第二组变量中也 提出一个典型变量,并使这一对典型变量具有最大的相关性,然后又在每一组变量中分 别提出第二个典型变量,使得在与第一个典型变量不相关的典型变量中,这两个典型变 量之间的相关性最大。如此下去,直到两组变量间的相关性被提取完毕为止。 可见, 典型相关分析是把原来两组变量之间的相关转化为研究从各组中提出的少数 几个典型变量之间的典型相关,从而减少研究变量的个数。这种研究问题的统计方法就 是多元统计分析中的两组变量之间的典型相关分析。 论文利用典型相关分析研究风速及 各个变量之间的关系,并进一步探索分析各个变量与发电功率的关系。 (1)典型相关分析的步骤 具体来说典型相关分析是研究两组随机变量 21 ),( p xxxx 和 21 ),( p yyyy 之间的相关关系。一般情况下,用各组变量的线性组合作为综合指标。典型相关 分析的关键是选择合适的各组线性组合系数 21 ),( p aaaa 和 21 ),( q bbbb 西安科技大学硕士学位论文 12 来构造两个综合指标 1 122pp za xa xa xa x ybybybyb qq 2211 并计算这两个综合指标之间的相关系数,作为两组变量之间相关性的度量。称综合指标 z和为典型变量,它们之间的相关系数称为典型相关系数。在实际计算中,求解典型 变量和典型相关系数的问题,转化为求 yxyyxyxx m 11 和 xyxxyxyy n 11 的特征根和特征向量的问题,其中是原始变量的协差阵。 在典型相关分析中,首先要对每个原始变量进行标准化变换,以消去量纲的影响。 将两个随机向量x和y连接形成一个大随机向量 ),(yx,该大随机向量总体协差矩阵及 其样本估计量为 yyyx xyxx y x var (2.7) s nss ss n yyyx xyxx 1 1 1 1 (2.8) 其中 yx n i iixy n i iiyy n i iixx syyxxs yyyys xxxxs 1 1 1 )( )( )( (2.9) 矩阵m和n的样本估计分别为 yxyyxyxx ssssm 11 和 xyxxyxyy ssssn 11 第, 1第r对样本典型变量是 ),( ,),( )()()1()1( ybxaybxa rr 各对样本典型变量之间的相关系数 )( , ) 1 (r 是样本的第, 1第r个典型相关系数。 )()1( , r aa和 )()1( , r bb分别是 m和 n的非零特 2 风速的特性分析及数据的预处理 13 征根 22 1 r 对应的特征向量。根据样本数据进行典型相关分析时,通常要对典型 相关系数进行显著性检验,然后再进行相关分析。 (2)样本典型相关系数 在实际应用中,总体的协方差矩阵常常是未知的,类似于其他的统计分析方法,需 要从总体中抽出一个样本,根据样本对总体的协方差或相关系数矩阵进行估计,然后利 用估计得到的协方差或相关系数矩阵进行分析。由于估计中抽样误差的存在,所以估计 以后还需要进行有关的假设检验。 (3)典型相关系数的检验 典型相关分析是否恰当,应该取决于两组原变量之间是否相关,如果两组变量之间 毫无相关性而言,则不应该作典型相关分析。用样本来估计总体的典型相关系数是否有 误,需要进行检验。 整体检验 0: 10 r h即典型相关系数均为零;), 2 , 1(: 1 rih i 中至少 1 不为零。 检验的统计量 yyxx ss s 0 (2.10) 部分总体典型相关系数为零的检验 0: 10 r h; r ppph,: 321 至少有一个不为零。 若原假设 0 h被接受,则认为只有第一对典型变量是有用的;若原假设 0 h被拒绝, 则认为第二对典型变量也是有用的,并进一步检验假设: 0: 30 r h; r pph,: 31 至少有一个不为零。 如此进行下去,直至对某个k有 0: )1(0 mk h; mk pph,: )1(1 至少有一个不为零。 检验的统计量 )1 ( 1 2 1 r ki ik r 1 ln)3( 2 1 ( k qpknq (2.11) 近似服从自由度为)(kqkp的 2 分布。在给定的显著性水平下,如果 )( 22 kqkp, 则拒绝原假设, 认为至少第1k对典型变量之间的相关性显著。 2.4.2 基于典型相关法分析法的变量分析 在实际生活中,影响发电厂输出功率的因素来自很多方面,如温度,季节,海拔, 西安科技大学硕士学位论文 14 湿度,气温,高度等等,如何在众多的因素中选取最合理的因素作为变量来进行研究, 是我们面临的一个重要问题。变量个数太多,会增加问题的复杂性。因为风的密度主要 取决于风机所处的地理位置,气候变化也会产生一定影响,对于特定风机而言,风密度 可以直接取自测量数据,并可以忽略密度的变化。所以本文选取了风速、温度、风向、 气压等八个变量进行研究。 数据来源于某山上一个风电场的实测数据,还未经任何处理。基于论文数据的可靠 性以及规范性等问题,如果不做相应的处理,将得不到理想的结果。所以本文的首要工 作就是对原始数据进行处理。由于在实际测量中,结果受到了一定人为因素的干扰,原 始数据中存在一些虚假和不完全数据,本文首先对此进行了剔除。最后得到的有效数据 为 324 组。 其中,变量)7 , 2 , 1(ixi分别为风速、温度、风向、压强、温度等因素,变量 y为发电机功率, 论文利用 sas 软件对数据进行分析, 得到每个变量的均值和标准差如 表 2.1 所示。 表 2.1 变量的均值和标准差 变量 数值 1 x 2 x 3 x 4 x 5 x 6 x 7 x y 均值 8.3618 161.7752 27.5943 900.6134 11.3965 103.7114 104.8692 30593 标准差 3.1936 46.6501 4.1808 3.8235 2.2492 11.4902 11.5292 21244 从表 2.1 中可以看出所取数据组各个变量的均值,有利于判断各个变量中部分数据 的异常情况。之后,再运用 sas 软件得到典型相关系数等信息,如表 2.2 所示: 表 2.2 典型相关系数及其它信息 canonical correlation (典型相关系数) adjusted canonical correlation (校正值) approximate standard error(标准误差) squared canonical correlation(典型相关 系数的平方值) 0.957046 0.956294 0.004878 0.915936 表2.2得到典型相关系数为0.957046,显然,发电机功率y与各项因素之间有着极强 的相关性。若要研究发电机的发电功率,就可以参考这几个变量。下面,再对输出功率、 风速及各因子彼此之间的关系进行研究分析,见表2.3。 2 风速的特性分析及数据的预处理 15 表 2.3 风力输出功率与各项因子的相关系数矩阵 变量 变量 1 x 2 x 3 x 4 x 5 x 6 x 7 x y 1 x 1.0000 0.3317 -0.2313 -0.6013 0.2416 0.1366 0.1477 0.9449 2 x 0.3317 1.0000 0.2562 -0.6591 0.3334 -0.1162 -0.0787 0.3183 3 x -0.2313 0.2562 1.0000 -0.2377 0.0580 0.0379 0.0553 -0.1560 4 x -0.6013 -0.6591 -0.2377 1.0000 -0.5162 0.3000 0.2597 -0.5384 5 x 0.2416 0.3334 0.0580 -0.5162 1.0000 -0.3479 -0.3270 0.2255 6 x 0.1366 -0.1162 0.0379 0.3000 -0.3479 1.0000 0.9951 0.1719 7 x 0.1477 -0.0787 0.0553 0.2597 -0.3270 0.9951 1.0000 0.1780 y 0.9449 0.3183 -0.1560 -0.5384 0.2255 0.1719 0.1780 1.0000 由此看出,这几个变量之间也存在着不同的相关关系。其中,风速 1 x与电功率 1 y呈 较显著的正相关关系,相关系数为0.9449,一般情况下,当两个变量之间的相关系数大 于0.8时则可以认为它们具有较强的线性相关性, 从而进一步体现了当风速介于某个范围 之内时,风速与电功率存在着近似的线性关系。对于温度、风向、压强等因素,从试验 结果可以看出,它们都是与输出功率呈负相关的。其中,压强与风速和输出功率之间存 在着最为显著的负相关关系。同时,结果显示,这七个因素彼此之间也存在着一定的相 关性,风速 1 x和压强 4 x之间的负相关性尤为显著,为-0.6013,风速与温度的相关性为 0.3317,与湿度的相关系数为0.2416。论文把对风速有影响的几个因素从相关程度的方 面进行比较分析。如表2.4所示。 2.4 风速与其它几个变量的相关性 变量 变量 2 x 3 x 4 x 5 x 6 x 7 x 1 x 0.3317 -0.2313 -0.6013 0.2416 0.1366 0.1477 结果显示, 6 x、 7 x这两个变量与风速的相关性比较小。所以,在建立风速预测模 型时,如果为了减小模型的复杂度,可以去除这两个变量。下面再分析典型相关分析的 一般结果,如表2.5。 2.5 检验典型相关系数的检验 likelihood approximate ratio(似然比) f value (近似统计量) num df den df pr f 0.08406 451.40 7 290 0.0001 表2.5给出了典型相关分析的一般结果,检验假设 0: 120 h(即所有典型相关均 西安科技大学

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论