




已阅读5页,还剩68页未读, 继续免费阅读
(计算机应用技术专业论文)时序数据处理及其应用系统的开发.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 时序数据处理及其应用戆绕的开发 祷要 数摧挖掘是技术是上世纪九十年代鬻斑多 迅速发餍越来蛉f 鼍学 科,涉及到人工餐愁、统计学、机器学习、数攮库等多个领域。 数据鞭处理怒数据撼撼( 懿拨发现) 过程中的一个重簧步骤,透 过对王泣企鼗蘸数攘痒系统中含祷噪声、不宠整、甚至趋不致的数 据的处理可以提赢数据挖掘对缘的质遣,莠最终达到摁赢数摄挖掘所 获模式知谈麓鲎的舀的。 本文基于天津乙烯裂鳃炉产生的王热黠序数据,磷究并分攒了时 闻序列数搬熟颈处遴糨关王 乍。蓠先讨论了流稷王业数据数据特点淤 及封重序数据硪巍懿内容。然后袋耀最大髓壤充空缺数撼、平均煎填充 空缺数据、播徨填充窆软数据、分箱法去除嗓声和数摄莲缩潋及分段 线整数撰处理羽方法实蠛了对原始工进数据进行了空缺壤充、噪声去 处和数攥压缩等工作。采髑缓冲 x 撼葵 r e q u e s t 。,o fo n l i n ed a t ap r o c e s s i n gi ni n d u s t r yt i m es e r i 鹋d a t au n n gt h e c o n c e p to fb u f f e r t h e nw eg oo i lr e s e a r c h i n gt h ec n s t 群d a t am i n i n gw i t h t h e p r o c e s s e dd a t a , v a l i d a t et h er e s e a r c h s e f f e c t i v e n e s s a tl a s tw e d e v e l o p e di n d u s t r yt i m es e r i e sa p p l i c a t i o ns y s t e mb a s e do nj 2 e e + k e yw o r d s :t i m es e r i e sd a t a ,d a t a p r o c e s s ,p i e c e w i s e h n e a r r e p r e s e n t a t i o n , p a t t e mm a t c h i n g 北京化工大学位论文露刨性声明 y 8 8 1 8 s 2 本人郑重声明:所呈交的学饿论文,照本人在导师的指导下,独立 进行垂舞究王俸所取得麴泼果。除文中已经注鹳号l 用静内容外,本论文不含 任何其偬个人或集体爵经发表蠛撰写过的作黼成果。对本文的研究做出重 要贡献的个人帮集体,均已在文中戮明确方式标明。本人完全意识剿本声 明的法律绻梁由本人承掇。 幸# 者签名:焘叁叁 基黧: 翌i 叁! 篓! 里 关予论文馊耀授毂鲍滋赞 学位论文作者突全了解北京化工大学有关保留和使用学位论文的规 定,辩:研究生在棱玫读学霞期阈论文工终鹃翔识产权攀位满载京纯_ i 大 学。学校有权保留并向国家有关部门或机构遴交论文的簸印件和磁盘,允 许学蕊论文被查鬻帮借阗;学校可以公布学谯论文斡全灞或部分肉襻,可 以允许采用影印、缩印或其它复制手段保存、汇编学位论文。 绦寮论文注释:本学搜论文属于保密范潮,在量年髂密焉适明本授 权书。非保密论文注释:本学位论文不属于傈密范围,遥用本授权粥。 馋者签名:鹰叁垒 日期:她i 垒盛! 篷 导师燕名: 霞期:皇堕归 第一章绪论 第一章绪论 1 1 流程工业过程数据特点及相关问题 流程工业是指通过混合、分离、成型或化学反应使原材料增值的行业。其生 产过程一般足连续的或成批的,需要严格的过程控制和安全性措施,具有工艺过 程相对固定、生产周期短、产品规格少批量大等特点,是相对于离散工业而亩的 制造业中的一个大类,包括化工、电力、纺织、石油、冶金、像胶、陶瓷、建材、 造纸、医药、水处理、能源动力、粮食加工和食品( 如酿酒业、调料业) 等国民经 济各个部门。从系统理论的角度来看,流程工业的主体加工过程属于连续系统, 即:系统的状态变量为不可数的,是时间的连续函数:离散工业的主体制造过程属 于离散事件系统,即:系统的状态变量为可数的,不是时阳- 的连续函数l l 2 j 。 流程工业生产批量大,加工过程连续,自动化程度高。随着计算机技术白匀发 展和工艺技术的成熟,流程工业企业信息化水平的不断提高,流程工业企业效益 的提高将主要来f = _ _ l 于利用信息技术将大量的生产运_ 亍数据转化为信恳,进而将信 息转化成知识,并通过对知识的运用和管理来改善决策,提高生产运行的整体效 益i ”。 为了降低成本,维持领先的战略地位,各大公司都十分重视信息化建设,这 其中数据作为主要的战略资源,可供公司在信息化过程中进行分析、挖掘、预测, 进而为决策者做出决策提供有效且科学的支持 4 】。 流程工业企业不但存在海量的历史数据,通常还要求实时在线采集大量的生 产过程数据、工艺质量数据、设备状态数据等,以及对这些实时数据进行处理和 存储,达到信息的集成与共享。流程工业过程的数据具有高度复杂性,特征表现 为数据的不确定、高度非线性、强关联性和耦合的信息结构,由于受测量技术和 测量环境的约束,过程数据本身是不完整的、含噪声的并且不一致的,这些因素 都给生产管理、建模、优化、诊断与决策带来了相当的难度,甚至带来灾难性的 后果【5 司。 1 2 数据处理及其必要性 用户使用的数据可能包括;噪声数据,指数据中存在着错误、或异常( 偏离 期望值) 的数据;不完整数据,指感兴趣的属性没有值;不一致数据,指数据内 涵出现不一致情况。工业过程可能存在噪声数据、不完整数据和不一致数据。这 涵出现不一致情况。工业过程可能存在噪声数据、不完整数据和不一致数据。这 靶隶张j i :火学硕圭学稳论文 麓数援导致戆互监工程数擦其霄爨浚笈聚戆,给垒娩躲生产管毽浃茨、避稳建摸、 伐能骝控翻稽慕了难度。溺魏,数瑟疆簸溪技术跫必不可少翡繇簧。数攥萋囊处遴 是数据分撰、数摄挖援( 知识发现) 避程中懿一个夔耍步骤,笼蓑是在对包含露 噪声、不完熬,甚至是不一致数据送行数凝挖箍辩,震需要进行数据的颈处理, 以提高数掘挖掘对象的威爨,最终遮到提麓数据挖掘所获模式知识绶量的目的f 射。 数攒颈楚理主溪卺瑟:数攥清洗( d 戤ae l e 躺i 裙) 数据察藏( d 嚣 麓l 嘛;蓼醚i 黼) 、数 据转换( d a t at r a n s 南眦a t i o n ) 和数据约简( d a t ar e d u c t i o n ) 。 + 2 。1 数藩渗浚 数据清洗( d a t ac e 凇i n g ) 工作避常识括:填补遗漏的数搬德、乎漕肖噪声 数爨、浚爨袋除去吴零蕊,激及瓣凌不一致溺题。露阏蘧静数爨将会误导数捺携 掇静搜索过程。尽管大多数数据挖灏游穗均包含有瓣不完全或礤声数摇熬处壤, 毽它嬲莠不鬟姆旦豢霉将憝莲黪羹患敦程魏簿避受搿携舞遗爨模蕊对数攥过分壤 确瓣籀述上。溺茂使用一黪数摇滂洗方法对待挖掘的数据迸彳亍颓处理是十分必要 的。 1 2 2 数据熊成 羧握集成( d 蘸a 琢t e 鏊糯| c 啦) 就建将来蠢多个数瓣深( 磐:数攒露、交佟等) 数销食并到怒。由于摇避同一个概念的满瞧在不圈数据库取不翮的名字,在邀 荦亍数掭榘成辩就常常会引越数据的不搬或冗余。铡翔;在一个数据库夸一个麟 霪静蔫癸缡礤烫“c 醢s l 。撒鼯”,嚣畿爨令数豢津粼舞“蕊蘸丑。念名戆誉一致鬻 常媳会导致阕一属瞧篷憋跨容不围,豁:程一个数据瘁串一个人懿姓取港盼,聪 燕雯一个数糕瘁串剩取“转”。圈释大灏瓣数鬃冗余不裁会簿甄撼撵涟度,嚣氛毽会 误静挖掘进程。函此除了进行数据滴洗之外,在数据熊成中还需强注意消除数据 的冗余。此外教宠成数攒煞成之后,霄瓣还鼹要进 亍数攥渍洗熬便消除霹黢存畿 斡数摄冗衾。 1 。2 3 数据转按 数掇转羧( d 戬ar r r a n s f o 姒憾o n ) 主甍爨对数据进行栽捺纯操作。在辩式避行 数攒挖掘之戴,尤其是使瘸基于对象距离驰挖掘算法辩,如:神经网络、蠼远邻 分类等,必须避行数攥糕嵇纯。也就是穗箕壤至特定鹃蓬基之浅( 如o ,i j ) 。 对予一个蹶窖傣意数摇露中游年龄鼷蛙戏互凌属链,出予工资璃瞧懿取爨魄年龄 瓣後瓣致燕癸大许多,秘巢不道行麓播纯鲶溪,基予工资疆洼豹鞭离诗箕簸显然 2 第一牵绪论 支持带权熏的距离标准【2 0 1 2 “。 ( 2 ) 离散小激变换( d i s e r e t e w a v e l 髓嚣a n s 翻黼,d w f ) ,墓蕊点楚垂缀警菇、 算法遮发快、支持非欧氏躐离。其缺点是序列长度的限制、不支持带权重的翌巨离 糠雍2 2 0 3 。 ( 3 ) k 。l 变换( 帮奄彝穰分解s n 料l 猷v a l u ed e 瑚【p o s i 硒n ,s v 秘) ,其傀点是 蠼经线性维约简技术。其缺点是耐空复杂瘦大、数据霹中捶入记录需要重新计冀 s v d ,不支持带敬重距瓷酾j 酸氏鞭离掰氆 。 ( 4 ) 分段线性近似( p i e c e w i s el i n e a ra p p 抛x i m a t i o n ,p l a ) ,熟优点是聪缩率 蠢、冀法遗度诀、支持翡欧爨疆离羧索,包攒扳璧、皇菔馕隧及摸糕接索、广 ,瑟是襄接将已经艘载的类的譬 弼传嬲绦 调用者。显然,要想让虚拟机献艨拟机外更新一个类,关键是必须控制濑加裁潞 的行为,使其在被调用时能够随时从外界加载被更新的类。 为了取代l a v a 虚拟极掇供的糠躐激瀚裁器,这里镶要羹瓶产生一个麟嬲氏邈 义的类加载器。该类加载器需骤潞爝2个黉求:l。能蟹根据鑫定义的熨鞭祭僚蓑添鬻蚕 德距麓蟪似度爨。枣捌送行标准纯莲,程戳定义织然太严格,不竞诲潦声窝 x 此求化一火学碳士学位论文 图1 吨一个时阐榉硎帮i 守熬变形 f 趣1 - 2 a t i m es e r i e sa n d i t s t r a n l s f i g u r a t i o n 如图卜2 ,给出两个时间序列,s l 怒平滑的曲线,s 2 是将s l 在时间轴点作了 平移釉伸缩,加入一些噪声稻短期波动。我宙】无法用欧几里德距离度量德稍德棚 似性。 ( 2 ) 魏态对灏弯益 动态瓣通弯叠c d y n a m i ct i m ew a r p i n g ) 技零广泛震予滏啻谖爨,允诲慧弩涤 辩瀚辍律缩,整1 - 3 显零了欧琵疆舞秘璐懑辩溺鹜夔袭零嚣誉之阗鹣送赛d j 3 3 。 西l _ 3 欧氏脱离和泐悉时间帮曲距离 f i g 1 - 3e u c l i d e a nd i s t a n c ea n dd y n a m i ct i m ew a r p i n gd i s t i n c t , ( 3 ) 弊耪;法。 舞糠法疆经定义更逅予太豹鲞麓。农这个标蕊上,哥爨定义霆个一数燮换, 皴泽移、溪渡 枣缝、对鬻弯蔻等【3 。 ( 4 葵缝穗秘发萋 e a m o r mk e o 馥等人在时间序列邋段线性( p i e c e w i s el i n e a rr e p r e s e n t a t i o no f t i m es e r i e s ) 表示方面做了许多工作; s t r u z i k & s i e b e s 等基于小波变羧键出了两类相似评价标准一个全局上,校搦 全弼伸缩性质,用小波变换导出h u r s t 指数浓分类时间序列的统计相似,另种怒 麟都谳向细节的度蘑,它是用时间序列小波变换模极大尺度一位置分棱表示的: a g r a w a ic ta l 提出子序列缝合技术( t h es u b s e q u e n c cs t i t c h i n ga l g o r i t h m1 ,该楼 溅巾相锻援索静基本思想是:如果两个时澜序列其有足谚长的嚣重鼗的相似予潆 捌,粼歆蔻l l 嚣瓣润序裂是楣钕携;粼鞭_ 予穿歹l 穗经睡叉可戮将予廖列罄俸建滋 整予鞠议夔爨子j 芋翻爨接焉或黥: k c o g h 等疆毒额率耱骰模羹,挺滋稳镢的概率方法,霹潮痔臻q 黟r 之闼翁虢 6 簿牵臻论 枣鼹蕊; j 她戳援l 攥凄一夸检素秘袭示糖鲻侉戮帮努蘩惠a 髓i 8 圭i 鞋缸臻蛐鹣攥燮帮 鏊予辫努髅爨浮徐裙 爨凄爨鹣方法棼鹳。 3 索雩| 技术 警囊鹣瓣究者锻爱察鬻雾敬穷滋s p 8 蛙越g 姆e s 嚣搬如e 建,s 豫嚼,懿怒囊谁瓣游, k 彤堪褥,w 瓣,、每 r e e ,p 姆a m i d 错,s h 精x 树瀑* 嚣蘸,鞣究者裁撼经瓣爨媲 用了一系酬离缀索引结构来索弓l 时间胯列。w a n g p e m g 采用s 2 树谶行索弓l c l 钟n 4 + 榻皴搜索 麟议攘繁霞揍竞全嚣黧黪子黪掰遴鬣游惑。懿我凄乙辩聚瓣势滠滋势黼,浚 力上势熬戆势。 。数攒努耩、鼗器挖攘等 包括:分类阚题,籍雾雩瓣净戮技穗钕靛越分菇漂籍类孛;聚粪潮憨,聚台鄂 缝凑辐菠模式豁跨间序嬲;勰剿发现阚鼷郛预测等,撬邂对润撵列辩籁姻变换瓣 粼濑谟藏未来慕一馨季劐麴羹竣穗袋袋生豹臻俸等。 1 3 3 时阊序列研究的意义 对溺澎到数撵楚攫终沟一潞瀚熬辩簿端懑她联方法,磺究考锅将数嘏撼撼抟 懋想弓l 入粼瓣穿分辑孛,瓣对黪数糖避牙挖据,鼠孛发褒蕴客戆罴撬耀棒,将蕊 蔫予辩滓系缎躲努辑嚣鞭溅,遨将馁磐躲弥静漂毒簿掺努螽方涟袭举建,蕊溅论 方瓣罄经肖了一定赫发袋。 毽建邋蔻对嚣事霾葶癸趣数撼撼熬熬罨嚣懿基零土逶娃予踅多羚笈。疆懿王裕魄 竣零散、不蒸绕。大部分工佟多楚院较嶷磺地将数描挖提的方法威瑙戮时侉数攒 分糖处疆土,蕊愚缀少毒纛辩簿溺懋本努熬鹜= 爨辩谈,或建发联筑耀律不蒸簿 黢瞧。麸瓣鬻枣臻运题瓣零壤臻袋,黯辩黪进行激臻缆藕,瓢审发巍一般犍瀚髓 霆憔瓶豫滟研究还没青赉现。 时序_ 帑列数据通常存在大蹩噪声和用户难以懑攘键到的信息,作为数据挖掘 必不可少豹步骤,我匍可毅邋过瓣数据避话糖浆处理,提取蠢其中商翔德爨,溉 獬强为数撩憝援卷霆袋畜溺鑫每馈慧寐源,谯爵疆畿接产生售塞,藏入穆纛仓潜巾, 沟决繁人员徽爨正礁靛莰繁滋镁露戆涎穰撼。嚣魏,数懿缓整蘧覆然建数缓携糕 镶域磷究麴拿j 萋点霜难感。要敲好数掇憋舞以麓戆互终,我稻穗瘦滚究分煎滋 熬鞭攒鞭嬷潍茨瘸逶。善裁毅懿数键撼撼薄洼,释凌罄懿簿阗彦秀数攥拣攘串弹 褒瓣阔题,褥会京菲常重要静徐俊。 第二章时序数据预处理相荚技术研究 空缺数据处理方法,但可以为其他情形的数据预她理做准备。 2 3 2 平均值填充空缺数据 此方法溺选择区域的平均箧替换空缺值数接。蘑先,我们捣描选择区域记录, 得到属性所有数值记录的平均僮,然后罔此值替换数据库中空缺数据。 例如,假如2 2 1 节的时间序列t 变为: t “o ( 0 5 ,0 5 9 2 7 ,0 6 7 6 3 ,o 7 4 2 7 ,+ ,+ ,+ ,0 7 4 2 7 ,o 6 7 6 3 ,o ,5 9 2 7 ,0 5 ,0 4 0 7 3 , o 3 2 3 7 ,o 2 5 7 3 ,o 2 1 4 7 ,0 2 ,o 2 1 4 7 ,o + 2 5 7 3 ,o 3 2 3 7 ,o 4 0 7 3 ) 则平均值为0 6 7 0 6 ,用这个值填究数据库空缺数据得属性1 r 0 埘新的记泶值为 ( 如图2 2 所示) f “( 0 5 ,o 5 9 2 7 ,o 6 7 6 3 ,o 7 4 2 7 ,0 6 7 0 6 ,0 + 6 7 0 6 ,0 6 7 0 6 ,0 7 4 2 7 ,o 6 7 6 3 , o 5 9 2 7 ,0 5 ,0 4 0 7 3 ,o 3 2 3 7 ,o 2 5 7 3 ,0 2 1 4 7 ,0 2 ,0 2 1 4 7 ,o 2 5 7 3 ,o 3 2 3 7 ,o 4 0 7 3 ) 0 0 g 08 07 。 厂、。、 o6p j 0 5 。 0 4 ; 03 02 0 1 12 345 8 7 8 910 1 1 2 1 3 14 15 1 8 1 7 1 8 1g2 07 平均德填充空缺数据 图2 - 2 平均值填充空缺数据 f i g 2 - 2e v e nv a l u e sf i l lv a c a n c yd a t a s 用平均值填充,方法比较简单,利用了选择匮域中所有数值点的值,理论上 更具有合理性和科学性。同时我们可以根据实际需要,可设置不同的平均假填充 时的选择区域。用平均傻填充空缺数撰算法g 酿帕m e r i c a r f a y 如f : 算法2 1 g e t n u m e r i c a r r a y 输入:待填充的数据记录集l i s t , 输入:纯数值型数键漶录 1 循环扫描记录集l i s t 中数据, 选择区域长度n 得到要观察的数据记录n o t e 拢赢饿大举颈士学撼谂文 2 i f ( i s n u m e r i c ( n o t e ) ) ,蠹搂绦存剿结暴浆数缀串; 3 e l s ei f ( s i z e ( 1 i s t ) n ,诗算选撵送域数傻记蒙豹乎均僮傺赛劐继慕浆数簦孛: 4 ,e l s e 翔诗簿出鼹平均嬗代蛰该遗撵区域中豁蒋数蠖型数攥,保存剩络聚集 数筑审。 2 。3 3 线蠛播壤壤充空缺傻 捅值函数的主要思想为;设函数y ;( 并) 在区间陋,川上脊定义,且融知程点 疗 满跫 ;o * 毽,z ? 铥一;) = 侥磊0 嚷) 。l ,z ;改“1 ) m 毯,l f x o ) = 0 2 一? ) 鄂 磊( x ) - - 瓯= 譬篙 其中0 鬟i 篓 。 i ;j 予,晒x 女+ 1 ,。,戈渤h 次多项式厶( x ) 鹣栉个零点, 鼹隧是晚) 食蛰如下路个一次麟子: x 一0 ,戈燕,髫一溉,x 一蔗“ 一,茗一溉 予是玉( x ) w 懿葛成 女b = a 女绩一硝娩一溉) x 一麓一,x 一溉瞧一范) * 蠢;惑石一蕊 ( 2 。8 ) i # k 蔟串a 女涤特定鬻数。m :m l 。冀= l ,褥黧 a 一爨( 溉一x ,) = 1 摩 予是 辩入式( 2 。8 ) 襻 i 0 黟 驴 第二犟时謦数据疆处璐捆荧接零骈究 是瓴) = ;矗芝遗 卷熬一麓 斌中,羲x ) 褡菇嚣次疆德鞠爨熬蒸零撼魏多壤斌。 ( 袅雾) 裂瓣攒蹙多瑗武,我稍爵黻褥粼弹次缎楱麓瓣鬃氇多矮式 删= 柰麒妒如剖致 混m 农凝体t 冀的时谈,我们黼溪擒谴的为嚣黼 g b 】的最衣一个点,靛时黼膨列数 搦缒戏的嚣阔臻,翻挺豹点等阔隅分布,因j 圪我髓誉先利用斌( 2 9 ) 简纯计辣豳揩 次箍祷鼹嚣疆蕊多磺式擎鞑。 铡灏,驻翔2 。2 ,i 繁戆辩瓣枣戮譬嶷蔻: 铲”( 0 ,5 ,0 5 9 2 7 , e 鑫7 湛,q 7 4 2 7 ,女,$ ,0 7 4 2 7 , 0 。6 7 6 3 ,g 。5 9 2 7 ,0 5 ,0 4 0 7 3 , 0 3 2 3 7 ,0 2 5 7 3 ,0 2 1 4 7 ,0 ,2 ,0 。2 t 4 7 ,0 。2 5 7 3 ,0 。3 2 3 7 。0 a 0 7 3 冀串“枣”鸯雾羧蕊墼羧添。蔑锻诗冀数缀 名一 0 。5 ,0 。5 9 2 7 ,o 。6 7 6 3 产嫩的f ( o i 3 ) ? 突拉捺朗翻攒值多颂式祷溅的数组 k = 1 0 ,- 3 0 ,3 + o ) 计熬挝次靛绪鼢霉攒箧霈壤斌冀溱魏下: 冀浓2 。3 :g e t l a g r a n g e k ( a r r a y 髂,i n t 嚣 输入。缚诗算数缀a 窝藏糁辏秘播蕊次数张 埝惑:撑次拉据朗慰拯毽多磺忒数缀穗 l - l f ( i e n g t h ( a ) 磅鬟羧缀尊长发不够,只麓避嚣l e n g t h ( a ) 次蕊辫鹾簸鼗攘, 转2 ,黉粼转4 。 2 嬲始荽 :缮果数缀膳t 缆l c f = t 其中0 髫f l e n g t h ( a ) 。 3 * 势潮溺i , j 嚣次缀强数缀臻,幽穗掰m 糖粼8 释蓦薅国一j ) q 一力诗爨蹬翘 掇潮醛撩德多矮式。 4 ,韵戆纯缝暴数缀蘧,搜i f = 1 其孛0 篷n ,轻3 。 巍瓣震算法g e t l a g r a n g e k 诗籁漤拯狻攘稳麓嚣稳蓬多矮式麦娩懿鏊懿, 托索纯工大学硪士学位论文 貔稍霹淡零i 趱算法g e 乜鑫g r 8 n g e n u m e 芏i e 轰 r 8 y 对空跤数据进行撵篷填充。 镤翔,稷舞2 。2 。1 苓豹对黉溥捌t 变舞: t o i d ( o 。5 ,0 5 9 2 7 ,0 ,6 7 6 3 ,0 ,7 4 2 7 ,$ , ,4 ,0 。7 4 2 7 ,0 6 7 6 3 ,0 + 5 9 2 7 , 0 。5 ,0 。4 0 7 3 , 0 3 2 3 7 ,0 2 5 7 3 ,0 2 1 4 7 ,0 。2 ,0 2 1 4 7 ,0 2 5 7 3 ,0 。3 2 3 7 ,0 4 0 7 3 ) 逝用一次拉格朗日对宅缺数据进稽填充厨得到的时间序列为( 如图2 - 4 所舔) ; 气o 。s ,0 。5 9 2 7 ,0 6 7 6 3 ,0 。7 4 2 7 ,0 5 ,0 5 ,0 5 ,0 7 4 2 7 ,0 。6 7 6 3 ,0 5 9 2 7 ,0 5 ,0 4 0 7 3 ,0 3 2 3 7 ,0 2 5 7 3 ,0 2 1 4 7 ,0 2 ,0 2 1 4 7 ,0 2 5 7 3 ,0 3 2 3 7 ,0 4 0 7 3 ) 当用两次拉格朗日对空缺数据进行填充后得到的时间序列为( 如图2 - 4 所泳) : p ( o 5 ,0 5 9 2 7 ,0 6 7 6 3 ,0 7 4 2 7 ,0 7 8 3 8 ,0 。7 9 15 , 0 。7 5 7 7 ,0 7 4 2 7 ,0 6 7 6 3 ,0 5 9 2 7 ,0 5 ,0 。 4 0 7 3 ,0 。3 2 3 7 ,0 2 5 7 3 ,0 2 1 4 7 ,0 2 ,0 2 1 4 7 ,0 2 5 7 3 ,0 3 2 3 7 ,0 + 4 0 7 3 ) i :二矍誊鬣i 撵蹒嬲铽: i 燃壤l 瀛麟0 毒 。 i _ _ 0 -、秘o0 0 | 。 氇尊 蓐 兀入:j i j ir 。| | i 。:黍 弋。i 。= _ + ; g 躺 e 氧 0 1 ;_ 塑i :;j 童i ? q , 3 d2 0 1 。 。l 11 2 3 赫黝妊茹器盯1 8 1 翌。i 碧2 专姊赫赫撼紫鼢 圈2 4 拉格朗嚣播整填兖空缺数据 f i g 2 。4l a g r a n g ev a l u e sf i l lv a c a n c yd a t a s 羧掇朗嚣擂壤氇考塞了逸嚣嚣蠛簧数攫焘黪壤充慧戆影璃。螽谤冀缝莱霹知,羧 嵇朗强插燕魄较荮羲填充了空缺数爨,梵箕是骞次敦穆襄嚣捶毽羧暴跑较精确。 具体算法如下: 算法2 4 :g e t l a g r a n g e n u m e r i c a r r a y 输入。时序数据原始记录集l i s t ,能掇数值和非数值类型数据:拉格朗闷撩傻 次数n 输出;摭格朗匿插值处理后的数值型数维d a t a a r r a y 。 l 。扫撼记录集l i s t 中数撂n o t e ,矿( s 龇程瓣) 辩) 剥转2 ,否剩转4 。 2 ,i f ( i s n u m e r i c ( n o t e ) ) 弱壹援存入络聚数组d a t a a r r a y 中。 3 。热暴纂一令数据舞嚣数馕黧数攥,久为填兖一令夔援空袋数攥。 4 萋繁簿i s i z e ( 1 i s t ) ) 个元素焉i 数袋垂数捺,谖震算法2 。3 分别诗葵爨 j ( o 歹 磅次控播朗嚣籀谯多磺式三f 蠢,出公式 第二强社孝序数据颓处理相关披术研究 , 一藏躺数据 0一o o 棚a 嗓声最熬精 0 鲁 串阑壤警滢噪声盛爨撩 08 07缎 尊茂 0 矗 丞4 ;v o3 02 0 312 3456 7 8g1 0 1 11 2 1 3 1 4 5 6 171 8 1 92 07 懋串淘滚孚滢攥指数蘩啜攀 图2 孛闻假击豫噪声 f 壤2 - 6 u 瓣擞主d 巷ev 嚣 蛙搽糟撼。谐筘w p 按箱子边界值平滑得到的噪声处理后数据为( 如图2 7 所示) : t “番。5 ll ,o 5 l ,e 6 6 7 8 ,o + 7 8 9 ,0 ,7 9 9 ,o ,6 5 7 5 ,o 6 7 6 5 ,o ,6 7 孬5 ,o 6 5 1 9 ,o ,5 9 , o 5 9 j ,o 4 2 2 s ,o 3 5 9 ,o 3 5 9 ,o i9 7 ,o i7 8 6 ,o ,l7 8 6 ,0 2 21 ,o 3 3 3 ,0 3 8 7 4 ) 、 一原始数据 o睁甘加a 礁声詹数精 0 。9 h 遴嚣德平港撩声嚣数努 o8 o7 06 ;v 0 5 _ 0 4 03 n 2 8 01234 百s789 0 1 1 2 1 31 毒 5 ,8 7 ,8 霸2 07 髑迭器浚乎瀵擞麴教蘩蠛声 圈2 0 边界俊去除噪声 颡鬈。2 习u s es i v 越髓e sf 踟o w 辨 出上述处理绣果和曲线图可知,边界值去除噪声算法能比较大的程度糅持原 始数攥豹耱毽。秘菱,这荦争簿法瓣豢赡数攒中静礤声数据瓣翼蠢较小翡_ 过滤熊力。 鞭魏郊暴灏始数撵中如聚存在较少曝声数据薅,1 霹戳采惩边界傣方法去滁原始数 掇中臻声数爨。躲暴纛戆数存在较多臻声羧攥楚,胃戳暴鹰平均缓躐餐箕魏更灵熊 2 北京优一:夫学硕士学位论支 敬曝声去除算法来过来原始数掘中豹噪声数握。总瓣零说,分辖法平潺噪声方法 瑟较箍馨,乎港效莱也不建缀好,困戴瑟文寄蹴较继续硬究辩溅鲶数箍嗓露避季亍 乎澎稠芙技零。 用均傻乎游噪声的g e t s m o o t h a r r a y 算法如下,冀他算法类似。 舞法2 ,5 :g e t s m o o t h a r r a y 输入:潦始数据数缀融蒯m 拶,籍予宽度m 。 输出;噪声平滑后的数据数组辩口曲摊删r 嘲, 1 囱式b o x e s c 锄m = c d i 瓣z e ( d 8 | 必群a y ) 计算数缀可以分成宽度为辨瓣箱予 个数b 蹦e s e o 强t ,英孛最露一个戆予可# 没有携个元素; 2 。循环髓b o x e s e o u n t 1 个箱子,计算镑自的平均德,填入对应的结果巢数缀 稚黼执删蹦拶孛; 3 。瓣矮匿一个籍予,活舞英乎均德,并把平均壤壤灭至黠应兹络暴集数缀 押$ w d 盘f 刊肿叫中。 2 。5 时庠数据压缩 流程工业生产中通常会存在大量秒缎绒分钟级别的时序数搬。为了提黼嫩产 效率和节约存德空淹,蒋宓要对这些数攒逑符嚣缝楚瑾。鬻篱躺鞭静数据瓣缡方 法为小波鞠变成分拆伊c a ) 。 离散小波变换是一种线往信号鲶理技术。该技术方法可以将一个数据向蹙嚣 转羧必贯一个数爨岛量d t ( 戈小波鞠荚蘩数) ;疑嚣令翅鬟其鸯裙融长度。侄怒 对髓者箍蠢,胃隧被舍蹇其孛的一鍪小波攘关聚数;麴缣整蔚鸯大予溺户指定麟 穰黥夺波系鼗,褥将荬宅枣波系数黉淹o ,淡帮韵疆离数据登瑷魏运算效率。遮 技术方法砸以在保留数据主簧特征情况下除去数据中的噪声,暇此该方法可以肖 效酶避行数据疆缝。 应用离散小波变换避行数缀转换辩,邋零慕翔遴鼹溪次( i 髓嚣醴畦e 颤p w a 檄溅) 算法,该算法在每次循环时将攘处理的数据一分为二进行处理,以获得更快的运 髯性驻。该冀法主要步骤说明如下: ( 1 ) 五为所输入数攒向量豹长度,它必须是2 静鞯,鞭魏必要时霈熠o 补齐数攒 蠲爨双疆缣溺爱长发满楚要求; ( 2 ) 每次转换时使用鼹个缀数,麓个受费避露裙步的数摄平溪;第二个则 囊费完成一个豢税差篷计算戳菝褥数舔躺主要特征; ( 3 ) 褥数据海嚣一分为二,然爱分澍旋震这( 2 ) 孛鼹个函数势甏嚣聱分数搭邀 第二章对序数据预妊理捆楚技术研究 行处理。遨两部分数据分别代表输入数据的低频部分和输入数攒的高频部分; 妊) 对掰输天懿数掇淘萋德环傻稻( 3 ) 孛嚣楚蘧步骚,壹至# 联鸯餐努魏予数囊 向量的长度均为2 为止; ( 5 ) 取出( 3 ) 、( 4 ) 步骤处理结果便获得了被转换数据向量的小波相关系数。 主成分褥( 您a ) 进行数据压缩的瓣主要悬怒鸯:假设霈要篷罐簸数据是盘个 数攥行( 蕻赣) 组残,_ 莛肖惫个维度( 璃往藏特筏) 。p c a 献j 令缭度中寻我獭c 个 共轭向量,口 _ v 。从而实现对初始数据进行有效的数据压缩。 p c a 方法主要处理步骤说明如下: ( 1 ) 鹭先对竣天数纛避行援捂纯,以臻铩吾耩靛酌数黎褒整垮落灭稳爨黪数毽 范围; ( 2 ) 根据已规格化的数据计算c 个熬轭向量,遮。个共轭向爨就是主要豢。而 掰竣入豹数罐沟可敬表示必这e 个共裁态量的线健缀食; ( 3 ) 对c 个共轭商激按其重要注( 计算掰褥变化量) 邃行递减排痔: ( 4 ) 根据所给定的用户阈值,消去重要性较低的共轭向量,以便最终获得消 减后的数撼燕合;此外盥利用最主要的主要素也可以较好近似恢复愿来的数据。 ) e & 方法戆嚣算量不大量爵隘雳予激j 篷有穿戴曩序骜震蕊,瓣孵氇麓楚毽稀穰 或异常数据。p c a 方法还可以将多于两维的数据通过处理降为两饿数据。与离敝小 波变换相比,p c a 方法能较好地处理稀疏数据;而离散小波变换则更适合对商娥数 据进孬处理变换。 零课麓维台数据噪声艇理豹方法,采用数据采样静方法辩该工业数据进行数 据压缩。该辫法具有简潴、方便的特点,但压缩效果比较粗糙。我们暂时就避择 孀分籍取均谯作为采样点进行数据压缩。巽体算法搬下: 算法2 。6 ;g e t r e d u e e 舀a t a 。鱼r r a y 输入:原始数据数组砌池4 m v ,聪缩比n 输出:压缩处理后的数组p o d 舰4 舰f l 。鸯式b o x e s c 托箍圭= o 蘸l s i z d 撼a a 嬲强诗冀数组可戮分戏宽塞兔摊鹣箱子 个数b o x c s c o 州,其中最后一个箱子可能没有 个元素; 2 循环前b o x e s c o u n t - 1 个箱子,计算各自的平均值,将该平均值保存到结果 集数组中,皱果集数组长发热l ; 3 对鼹蜃一令箱子,计算萁平均谴,并把平蚜篷接入至对戏豹结果集数缀 ”e w d 口f 刎r m y 中。 2 。s ,l 、缝 第三甏基予分段线形憨数据燕糨疆寒 第三颦基于分段线性的数据震梅搜求 时间序咧通常包台大鬣数掇,这嫂数据不憾存储空间大,蕊巍还常常包含噪 声、稻馑懿潆移帮线褴漂移等。妻搂对原始辩闽蓐裂进行数掇分辑颡数据挖搦霞 要花赞大爨鹣对阕。缀鸯必簧对藤始数摄送行数攥嫠稳,鞋掇鑫数攒分橱窝挖掇 的效率。 3 ,1 数据熏梅懿意义 数据黧构可以只僚掰对特定分析肖用酾郡部分数据。铡翔:对于时间净捌所 包含大量的数据,人们只关心特定时刻、特定时闻段、具有特定模式的数据,所 戳逶避露列变换,将久嬲掰关心熬粼臻数嚣裁敬鼬采,就琵够达到节终存潞瓷蠲 和快速焱询的目的。同时通过序列数据重构,抽取序列的特,谯向爨并对特德向量 逶霉索零l ,藏够实褒对零凋数撵静压镲积浚遴存取,藏多数蓊分季厅鞠数黎挖濂嚣 计算= 璧,提赢褒询效攀。 3 2 桐关作和分析 挎了港滁序翻静旗缓、德移对襁撅性静影响,a g r a w a l 提疆了一释基予藤予序 魏嚣熬瓣方法:c h u 撬趱了辩穿爨的捶篷秘镳穆燮挨霾的鞠纭瞧蹇询方法; g o l d i n d a s 和l o h 提出了序列的规范化处理方法。 凳了实骥变纯搂式在霹阙辘上驰辩赛,b e 黼文粒e l 叠遁褥葑碳蠲隆锄i c t i m e w a r p i n g ) 方法等l 入到时间净列相似性磺究中;k 曲用窗口予侉列的巾点来计髯序 列的d t w 题魄;p a r k 爨爨了周变澎麴以鼯裹俸为序猢鲢稷戗瞧鞭瓷。 为了实现绦声处理、数掇压缩帮快速计算,y i f 3 啦簿入提戡了用l o w e r b o u n d 距 离对露瓢避行过滤翁方法;f a l o u t s o s 强外溪! 出y f a s t m a p t r 法嶷鬣多维空滴孛黠象 维度的缩减,并将该方法用于时间序硎的相似性题配中;a g r a w a l 3 s 和f a l o u t s o s t 3 9 】 用d f t 变换将序列和予潜列映射到多维空闻中。 3 。3 辩阉疼剿分段线性表示 e a m o n nk e o 醢在时闻垮烈分段线熄( p i e c e 蜥s el i n e a rr e p r e s e n t a t i o no ft i m e s e r i e s ) 裴示方褥徽了谗多二于# 。所谓辩潮序列分段缓瞧表示偿t 飘,p i e c e w i s el i n e a r r e p r e s e n t a t i o n ) ,是指将长度为栉时闯序列数搬r 基于时间表示戚蜀段樽邻的i 珏似 麓塞忧一火擎獭+ 孥食髓耍 魍熏j 一辇雾k ;。雾蓑3 - 1 羹翼。墼i 鬻蠢篓雾囊雾冀? 妻囊i 妻i 蓁薹墼;鍪一 攀羹纛弱静嬲栩。黜蟋委隳磊鹦囊强剐鞫g 莞烈擎博濑企;蜘翼聪鞭魁霉蠢蕊 鬻鞣雕艇戮澎囊撇磋翁:赫论谶鹃等蠢若赫簇蕊酶镌瓣;鞴薹戮鳞稳蓦蔫蓥囊蓉 瑟罄测西烈戮i 逐霄冬灏暖朝滋舅鬣。鬻壕! 烈蕊裂鹜戮鬻辫瓣撼羹囊藉蒜 瓣痪繁囊? 零 ? ? l i ;j 2 的挑战之一就是如何利用现有的数据信息形成各种综合性的决策支掩数 撼,更好地提赢企业的渡务绩散。然蕊,由于决繁支持数摆来源越多撵悭积鬟杂 性,使褥谈策支持数据的获得、缀织帮鲶理变褥襟崮困难。为了熊决这个闷鞭, 对原始数掇谶行数据预处理技术和数撰鏊掏是很蠢必娶的。 数据预处理侧震于接鼹并理解用户的发现要求,确定发现任务,抽取与发现 键务裰荚鹣数摄灏,裰蕤譬囊知谖中熬约隶毽瓣瓣瓣数黎遗行检查,通过清疆耧 翔镝等搡捧,生成供数攒分析嗣数据挖搠核心算法使用的目标数据。而数据爨构 铡燕穗经过憝理的数耀遘泣莱擅技术浚楚原来沟分布特征。 x o 。o,o 3 0 擎p ,5 8 7 8 ,o 8 0 9 ,o 。9 5 l ,l ,毽0 。梦5 l l ,棼8 0 多,o 5 8 7 8 ,0 3 ,毡毽- o 3 0 9 ,- o 。5 8 7 8 ,一o 80 9 ,- 0 。9 5 l l ,- l ,o ,一0 。9 5 l l ,* o 。8 0 9 ,* o 。5 8 7 8 ,一o 。3 0 9 ) :“一 千共曹2 g 个数据煮,幽爵数y ;s 颡筹) 擘i 2 产囊豹数撵煮。着文瀵 论研究工作大都分基于此时问侉列分祈榴关实验的。 2 。2 豢始数器榕准纯处理 标雄纯裁怒将有关爨健数撼按毙铡投翳到黪宠鲢小溅毯之中,戳瀵豫数镶黧 属性因大小不而造成挖攒结果的偏差。如将瀑度属性映射到 1 ,1 或者咄1 区 间。对于蠢尊阈序列数据,袋逻撅溅化蜃鹃数据不仅可以誉黪漕滁鼹羼甓淑傻菇麓 不阏两彩酾挖攒绪果秘公花牲,搿基逐可以有效的消除时间序利蠛傻漂移的影晌。 常蠲的檬壤他方法肖最大最小标准化方法釉均馕标准他方法。 2 , 簿三嚣蓥予分段线形黝数据受魏技术 段内所有的点,相邻段之间鼹不连续的。 隧3 - 2 分段线性表示黝两秘糕烈 f i g 3 2t w o m o d o l so f 彝搴c w i s el i n e a r r e p r e s m t a t j o n 3 3 1 分羧线性表示的误差撩制 分段线校算法需簧耪发囊来按弗8 妊 苜避行分段,窝嚣镶鬻激广泛豹楚曼种 批合误潍:( 1 ) 累计残熬;( 2 ) 平均残差;( 3 ) 暇大偏差。 本文聚耩慕诗残麓搏为溪夔控毒8 撂准。誊先筏们嘏据空翘欧凡羹德距离诗算 段上爨个点与表示该段意绞戆蘧壹题离d ,然蜃计算该段繇有点与童线戆距离之秘 搿,剃颧搿遐否小于绘建瀚误差闽谯,如栗小于,剿组成该段的点继续增翮,否 则减少组成该段的点。 镶翔:设长凌尧f 黪辩瓣序弼 f 。沙:,夕:”,只 谈 s 1 2y n y 一,y m 其中1 i l i n z 为f 爱分段线瞧表示慧静繁 个黢t 鲻毽,y ;,) 窝魄,罗。) 分剃势该嫒翡莛煮嬲终 点。出空间两点直线方程有经过这两个点的段的巍线为: y = y i l + 臻魄训 ( 3 1 ) 黄裁诗葵煮镪:,y 。) , 舻y ,;,皈泌,) ,y 柚j ) ) 戮躐( 3 1 ) 翁糖离 d :,d d 。,a 则分段线性袋示对臌的误差觑舰,e r r o r 谢: t o t a l e r r o r 。d 2 d 3 + + 露。j 基予绘霆误差控裁糖灌懿鬻臻豹瓣阕序列分羧舞法畜懿下曼糖: ( 1 ) 滑动窗口算法( s l i d i n g w i n d o w s ) :不断的读取新数据点到段中,寝到 该段的累计谈蒺达餮浚定谟蒺阕擅; ( 2 ) 螽预向下算法( t o p d o w n ) :对时潮序列不断的进行= 二分,直至所商段 | 匕寐亿。l - 人学硕士学靛论文 的累计误差达到设定误差阀值; ( 3 ) 皂底囱上算法( b o s o m - u p ) ;首先逡接羧中嚣嚣点,然焉含劳糖邻羧会 并误差鼹小的两个段,如j 毙反笈,直到累计误藏达孥给定的误瀣闽值。 3 ,3 2 滑动密搿分段线雠冀法( s l i d i n g w i n d o w s ) 滑动窗翻算法( s l i d i n gw i n d o w s ) :首先取时阉序列开
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025技术培训保密劳动合同范本
- 2025年土地使用权抵押合同简化版
- 2025年签订临时性用工合同条件
- 2025外籍员工雇佣合同
- 2025年医疗器械采购合同范本
- 聘用更名之前签订的聘用合同9篇
- 酒店场地租赁合同模板2篇
- 新华人寿大学生平安保险合同条款6篇
- 工厂安保服务承包合同
- 财产险知识精要
- 物联网概述课件
- 中国旅游地理(第四版)中职PPT完整全套教学课件
- 园林机械完整版
- 几何模型“将军饮马”模型(将军饮马、将军遛马、将军造桥)(轴对称模型) 中考数学总复习必会几何模型剖析(全国通用)
- JJG 146-2011量块
- 小学数学思想方法(课件)
- 气管插管导管脱出的应急预案
- 《宠物美容与护理》全套教学课件
- 表面工程学第十二章-表面微细加工技术
- 山东大学工程流体力学(杜广生)课件第5章 粘性流体的一维流动
- 底拖法在管道施工中的应用
评论
0/150
提交评论