CN119397173A 基于时间序列相似性的数据清洗方法、装置、介质及设备 (国家电网有限公司华东分部)_第1页
CN119397173A 基于时间序列相似性的数据清洗方法、装置、介质及设备 (国家电网有限公司华东分部)_第2页
CN119397173A 基于时间序列相似性的数据清洗方法、装置、介质及设备 (国家电网有限公司华东分部)_第3页
CN119397173A 基于时间序列相似性的数据清洗方法、装置、介质及设备 (国家电网有限公司华东分部)_第4页
CN119397173A 基于时间序列相似性的数据清洗方法、装置、介质及设备 (国家电网有限公司华东分部)_第5页
已阅读5页,还剩34页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于时间序列相似性的数据清洗方法、装本公开提供了一种基于时间序列相似性的取待清洗的时间序列数据集和多条历史时序曲后利用欧氏距离算法对字符序列数据集和历史时序曲线对应的历史字符序列数据集进行相似线与待清洗的时间序列数据集中的待清洗时间述目标时序曲线对异常数据点对应的时间序列2获取待清洗的时间序列数据集和多条历史时序曲线,所述待利用欧氏距离算法对所述字符序列数据集和所述历史时序曲线对应的历史字符序列将所述目标时序曲线与所述待清洗的时间序列数据集中的待清洗时间序列数据进行获取待清洗的电力负荷统计数据集;所述电力负荷统计数据集包基于电力负荷统计数据集分别计算各预设变量与电力负荷之间的最大信息系数作为各预设变量与电力负荷之间的相关性,基于所述相关性确定所述预设变量中的目标变量,并获取所述目标变量对应的电力负荷时间序列数据集作为所述待清洗的时间根据数据规范化公式分别对所述待清洗时间序列数据进行规范化基于预设符号聚类标准对所述降维序列数据集进行符号聚类处理,得到所述3获取与每条历史时序曲线对应的历史序列数据集,并基于所述据集和所述历史时序曲线对应的历史字符序列数据集进行相似度度量,确定目标时序曲基于欧式距离计算公式分别确定所述字符序列数据集和各个所述历史字符序列数据基于所述字符序列数据集和各个所述历史字符序列数据集之间的相似度确定与所述根据预设曲线调整方法对所述多条相似时序曲线进行曲线q,p表示字符序列数据集q和历史字符序列数据集p之间的欧式值;q对所述目标时序曲线对应的固定时间段内的数据平均值进行计算,并根据所述判断数值确定异常数据判断规则,并分别判断所述待清洗的时k表示待清洗的时间序列数据集中第k个待清洗的时间序列数相应地,所述基于所述目标时序曲线对所述异常数据点对应的时间序列数据进行修4基于所述判断数值对所述待清洗的时间序列数据集中所述异常数据点所在位置的时离散化处理模块,用于获取待清洗的时间序列数据集和相似度度量模块,用于利用欧氏距离算法对所述字符序列数据修正模块,用于将所述目标时序曲线与所述待清洗的时间序列5[0006]利用欧氏距离算法对所述字符序列数据集和所述历史时序曲线对应的历史字符[0007]将所述目标时序曲线与所述待清洗的时间序列数据集中的待清洗时间序列数据[0010]基于电力负荷统计数据集分别计算各预设变量与电力负荷之间的最大信息系数6洗时间序列数据集中所有待清洗时间序列数据的[0023]基于欧式距离计算公式分别确定所述字符序列数据集和各个所述历史字符序列[0024]基于所述字符序列数据集和各个所述历史字符序列数据集之间的相似度确定与7[0036]判断所述待清洗的时间序列数据集中各待清洗的时间序[0038]基于所述判断数值对所述待清洗的时间序列数据集中所述异常数据点所在位置[0045]基于电力负荷统计数据集分别计算各预设变量与电力负荷之间的最大信息系数8洗时间序列数据集中所有待清洗时间序列数据的[0058]基于欧式距离计算公式分别确定所述字符序列数据集和各个所述历史字符序列[0059]基于所述字符序列数据集和各个所述历史字符序列数据集之间的相似度确定与9[0071]判断所述待清洗的时间序列数据集中各待清洗的时间序[0073]基于所述判断数值对所述待清洗的时间序列数据集中所述异常数据点所在位置曲线;最后将目标时序曲线与待清洗的时间序列数据集中的待清洗时间序列数据进行比异常数据的精准识别和缺失数据的合理填补,从而提高电力负荷数据清洗的准确率和效[0079]图1示出了本公开实施例所提供的一种基于时间序列相似性的数据清洗方法的流[0080]图2示出了本公开实施例所提供的基于时间序列相似性的数据清洗方法中,数据[0081]图3示出了本公开实施例所提供的一种基于时间序列相似性的数据清洗方法的示[0082]图4示出了本公开实施例所提供的一种基于时间序列相似性的数据清洗装置的结[0088]经研究发现,针对电力负荷数据的处理主要依赖于传统[0089]基于上述研究,本公开实施例中提供了一种基于时间序列相似性的数据清洗方欧氏距离算法对字符序列数据集和历史时序曲线对应的历史字符序列数据集进行相似度[0092]下面结合附图对本申请实施例所提供的基于时间序列相似性的数据清洗方法进[0095](1)获取待清洗的电力负荷统计数据集;所述电力负荷统计数据集包括与多个预[0096](2)基于电力负荷统计数据集分别计算各预设变量与电力负荷之间的最大信息系[0097]这里,本公开获取的电力负荷统计数据集是包含了96个由于MIC方法是根据数据本身的特征,通过影响因素(进行离散化处理,以实现数据降维。其中,符号聚类方法(SymbolicAggregateapproXimation,SAX)是一种结合了时间序列数据降维和聚类分析的思想用于时间序列数洗时间序列数据集中所有待清洗时间序列数据的来减少数据的维度,同时保留尽可能多的信息。这里,本公开使用分段聚合近似算法[0115](a)基于欧式距离计算公式分别确定所述字符序列数据集和各个所述历史字符序[0116](b)基于所述字符序列数据集和各个所述历史字符序列数据集之间的相似度确定[0117](c)根据预设曲线调整方法对所述多条相似时序曲线进行曲线加权处理,得到一式值之后,根据计算结果计算字符序列数据集和各个历史字符序列数据集之间的相似度,q,pq,p过对各相似度的数值进行排序,可以确定出与字符序列数据集对应的多条相似时序曲线j表示第j条相似时序曲线对应的历史字符序列数据集与字符序列数据集k表示第k条相似时序曲线对应的历史字符序列数据集与字符序列数据集的相序列数据集中异常数据点所在位置的时间序列数据进[0135]下面结合图3,对本公开实施例中的基于时间序列相似性的数据清洗方法的整体字符序列数据集;其次对符号序列数据集和多个历史字符序数据集分别进行相似度度量,[0138]参照图4所示,为本公开实施例提供的一种基于时间序列相似性的数据清洗装置[0140]相似度度量模块402,用于利用欧氏距离算法对所述字符序列数据集和所述历史[0141]数据修正模块403,用于将所述目标时序曲线与所述待清洗的时间序列数据集中[0144]基于电力负荷统计数据集分别计算各预设变量与电力负荷之间的最大信息系数洗时间序列数据集中所有待清洗时间序列数据的[0157]基于欧式距离计算公式分别确定所述字符序列数据集和各个所述历史字符序列[0158]基于所述字符序列数据集和各个所述历史字符序列数据集之间的相似度确定与[0170]判断所述待清洗的时间序列数据集中各待清洗的时间序[0172]基于所述判断数值对所述待清洗的时间序列数据集中所述异常数据点所在位置[0175]其中,存储器502可以是,但不限于,随机存取存储器(RandomAccRAM),只读存储器(ReadOnlyMemory,ROM),可编程只读存储器(ProgrammableRead-OnlyMemory,PROM),可擦除只读存储器(ErasableProgrammableRead-OnlyMemory,EPROM),电可擦除只读存储器(ElectricErasableProgrammableRead-OnlyMemory,通用处理器,包括中央处理器(CentralProcessingUnit,CPU)、网络处理器(Network成电路(ASIC,ApplicationSpecificIntegratedCircuit)、现FieldProgrammableGateArray)或者其他可编程逻辑器件、分立门或者晶体管逻辑器通用处理器可以是微处理器或者该处理器也可以是任何常规的[0179]本公开实施例

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论