已阅读5页,还剩76页未读, 继续免费阅读
(电路与系统专业论文)基于无线通信的数据采集及故障诊断系统研究[电路与系统专业优秀论文].pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
浙江大学硕士学位论文 摘要 传统的基于有线网络的数据采集系统由于布线复杂、难以扩展等问题,无 法适应一些特定场合中的应用。本文基于有线网络的困境,结合现场数据采集 及监测系统的具体业务需求,设计并实现了基于z i g b e e 网络的环境数据采集系 统和基于g p r s 网络的远程数据采集传输系统。在采集现场由传感器组成 z i g b e e 网络,由服务器对传感器节点进行轮询采集并进行设备控制,有效解决 了现场难以布线的问题。由g p r s 网络实现远程数据采集,并设计多通道传输 算法,扩展网络带宽,优化大量采集数据的远程传输机制。 本文针对海量采集数据的管理,对数据库设计采用分表和分区等优化方式, 提高系统的存取效率。提出基于二级缓存的历史数据转移存储方案,减轻实时 系统的负担,有利于采集系统长期稳定运行。为有效解决采集系统设备故障问 题,提出了基于时间序列数据挖掘的故障诊断方法,使系统具备智能的故障诊 断能力,加强了系统健壮性。对系统主要模块的运行和测试结果表明,系统已 实现无线通信等各业务功能,并具备一定的故障诊断能力。 关键词:数据采集,z i g b e e ,g p r s ,数据挖掘,故障诊断 浙江大学硕士学位论文 a b s t r a c t d u et ot h ep r o b l e m sl i k ec o m p l e x i t yi nw i r i n ga n dd i f f i c u l t yi n e x t e n d i n g , t r a d i t i o n a ld a t aa c q u i s i t i o ns y s t e m sb a s e do nc a b l en e t w o r kw e r eu n a b l et oa d a p tt o a p p l i c a t i o n so fs p e c i f i co c c a s i o n s i nv i e wo ft h ep l i g h to fc a b l en e t w o r k s ,a l s o a c c o r d i n gt ot h es e r v i c er e q u i r e m e n t so ff i e l dd a t aa c q u i s i t i o na n dm o n i t o r i l l g s y s t e m s ,a l le n v i r o n m e n t a ld a t aa c q u i s i t i o ns y s t e mb a s e do nz i g b e en e t w o r ka n da r e m o t ed a t aa c q u i s i t i o na n dt r a n s m i s s i o ns y s t e mb a s e do ng p r sn e t w o r k sw e r e d e s i g n e da n di m p l e m e m e di n t h i sp a p e r b yb u i l d i n gu paz i g b e en e t w o r kw i t h s e n s o r s ,s e r v e rg o te n v i r o n m e n t a lp a r a m e t e ra n dd e v i c es t a t u sb yp o l l i n g w h i c h w e l ls o l v e dt h ep r o b l e mo fw i r i n g t h er e m o t ed a t aa c q u i s i t i o nw a sa c h i e v e db y g p r sn e t w o r k ,a n dt h ep a p e rp r o p o s e sam u l t i c h a n n e lt r a n s m i s s i o n a l g o r i t h m , w h i c hc a ne n l a r g et h eb a n d w i d t ha n do p t i m i z et h er e m o t et r a n s f e rm e c h a n i s mf o r m a s s i v ed a t a a i m i n ga tt h em a n a g e m e n to fm a s s i v ed a t a , p a r t i t i o nt a b l ea n ds u b t a b l e t e c h n o l o g yw a su s e dt oi m p r o v et h ee f f i c i e n c yo fs y s t e ma c c e s si n t h i sp a p e r a h i s t o r i c a ld a t as t o r a g es c h e m eb ys e c o n d - p h a s ec a c h ew a sp r o p o s e d ,w h i c hc a l l r e d u c et h eb u r d e no fr e a l t i m es y s t e ma n dh e i pt ol o n g - t e r mr u n n i n g t os o l v et h e i s s u e sa b o u te q u i p m e n tf a i l u r e ,af a u l td i a g n o s i sm e t h o db a s e do nt i m es e r i e sd a t a m i n i n gw a sp r o p o s e d ,w h i c hc a np r o v i d et h ea b i l i t yo fi n t e l l i g e n tf a u l td i a g n o s i sf o r s y s t e m ,t h e ne n h a n c et h er o b u s t n e s so fs y s t e m r n l et e s tr e s u l t ss h o wt h a tt h es y s t e m p e r f o r m sw e l lo nw i r e l e s sc o m m u n i c a t i o n ,i ta l s od e m o n s t r a t e sg o o da b i l i t yf o rf a u l t d i a g n o s i s k e y w o r d s :d a t aa c q u i s i t i o n ,z i g b e e ,g p r s ,d a t am i n i n g ,f a u l td i a g n o s i s 1 。i i i 。 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的 研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其 他人已经发表或撰写过的研究成果,也不包含为获得浙江大学或其他教育机构 的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均 已在论文中作了明确的说明并表示谢意。 学位论文作者签名: 乳讳 签字日期:2 。卜年。;月口7 日 学位论文版权使用授权书 本学位论文作者完全了解浙江大学有关保留、使用学位论文的规定, 有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和 借阅。本人授权浙江大学可以将学位论文的全部或部分内容编入有关数据库进 行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名:吾知讳 导师签名: 签字日期:2 0 f p 年d 弓月。c 7 日 辩醐杉川 月夕日 浙江大学硕士学位论文 致谢 很高兴在浙江大学度过了两年半的研究生生涯,在这里我遇到了很多的良 师益友,得到了他们无私的关心和帮助,在此我要向他们表示最诚挚的谢意。 首先,我要衷心感谢我的导师金心宇教授,在我的整个研究生阶段,从科 研到生活,他都给予我无微不至的关怀。他严谨的工作作风、渊博的专业知识、 敏锐的洞察力以及诲人不倦的育人态度,给我留下了深刻的印象。他在百忙之 中为我的毕业论文写作提供了很多帮助,多次讨论为我讲解,在此表示衷心的 感谢和敬意。此外,张昱老师在我的学习、科研和论文写作期间,也给予了很 多的指导和关怀,在此表示衷心的感谢。 同时,还要感谢蔡文郁博士、唐军博士,在我刚进入实验室时,他们作为 前辈为我指引了道路,为我进入实验室开始学习工作打下了良好的基础。 在此,还要感谢我的同学黄飞、朱畅、周春喜等,和他们在项目中合作十 分融洽,感谢他们给我带来的进步。还要感谢同在信电楼坚守的同学们,谢煜 峰、何群峰、朱丁丁等,我们在实验室共同进步,一起奋斗,从不缺少快乐的 氛围是如此令人难忘。另外,我们的师弟师妹们也为我们提供了很多的帮助, 要感谢他们,祝愿他们今后一切顺利。 最后,我还要特别感谢我的父母和家人,他们的教育和培养,让我在任何 困难下都能不会轻言放弃。 孙伟 2 0 1 0 年1 月于求是园 浙江大学硕士学位论文 1 1 课题背景 第1 章绪论 数据采集,顾名思义,表示数据的获取及其手段。数据采集技术是信息科 学的一个重要分支,它以传感器技术、信号测量与处理技术、微型计算机技术 为基础,是- f - j 综合的应用技术【l 】。目前数据采集技术已经广泛应用于环境监 测、工业控制、安防等领域中,它可以采集各类模拟或数字信息,包括基本的 温度、湿度、电压、电流,甚至多媒体的视频、语音等大容量数据,成为各个 应用领域中不可或缺的一门基础技术。 目前的采集系统大多采用有线连接,有线连接具有传输速度快,可靠性高、 运行稳定等特点,但是其布线复杂、扩展困难,使得应用环境十分受限,无法 满足越来越多的系统需求。而随着无线通信技术的飞速发展,其成本、可靠性、 传输速率都大幅提高,且无线技术种类丰富,可满足短距离和远距离等多种应 用。可以预见,无线通信在数据采集领域中必将扮演越来越重要的角色。 同时,数据采集作为一个手段,是一个应用系统的基础而不是最终的结果, 它在应用中也面临着许多的困难。在服务器端,随着数据采集量的不断增加, 需要对海量的数据进行保存和管理,并要根据需求提供数据分析等服务。如果 对数据的存储方式不佳,将导致数据检索与操作速度缓慢,历史数据占据大量 空间,运行成本或维护成本不断增大。因此设计合理有效的数据存储方式来应 对海量数据的侵袭将是未来数据采集系统的一大目标。 另外由于很多数据采集现场位于恶劣的环境或者封闭环境中,一般属于无 人值守状态,当设备出现故障时,往往无法及时发现,造成很多不必要的损失。 有时加入新的检测设备,用于对原有设备故障的检测,使成本大大提高。因此 如何利用系统已有的大量运行数据,通过智能的分析手段自动诊断出系统故障 点也成为一个需要解决的问题。 1 2 国内外研究现状 随着无线通信技术的快速发展,人们开始关注如何把无线技术应用到工业应 用和人们的生活中,因而涌现了很多采用无线通信技术的数据采集系统方案。其 浙江大学硕上学位论文 中面向短距离通信的主要无线标准有b l u e t o o t h ( i e e e 8 0 2 1 5 1 ) 、w i f i ( i e e e 8 0 2 11 ) 和z i g b e e ( i e e e 8 0 2 1 5 4 ) t 2 1 。蓝牙的有效范围大约在1 0 米左右,在增加发射功率 的情况下可以达到1 0 0 米左右,理想情况下可以达到1 m b s 的传输速率 3 1 。但是 蓝牙可容纳的节点数太少,无法组成一个较大的网络,所以用于数据采集时可覆 盖的范围有限。i e e e 8 0 2 1 1 是一种当今非常流行的短距离无线通信技术,主要 用于小范围的无线接入,是目前无线局域网的主要技术标准。其中i e e e 8 0 2 1 1 b 的传输速率可达l1 m b s ,适合构建高速无线局域网,但是功耗太高,且用于数 据采集时成本太高。相比而言,z i g b e e 技术具有近距离、低复杂度、低功耗、 低速率、低成本等优势。另外其协议易于组网,所以逐渐成为无线数据采集组网 的最佳选择。如被用作心电监护1 4 j 和环境监测应用f 5 】等,都取得了不错的效果。 伴随移动通信技术的不断发展和完善,g s m 、c d m a 、g p r s 等移动通信技 术逐渐被用于远程无线数据的采集。特别是g p r s 网络,其网络覆盖率高、成本 低廉,已经在实践中得到了一定的应用 6 1 ,目前也出现了将g p r s 用于多媒体信 息的传输【7 1 。但是g p r s 网络的带宽十分有限,且主要信道被用于下行,而工业 应用中以上行为主,所以实际可使用的上行带宽很小,一般不足2 0 k b p s ,无法 用于实时传输大量数据。另一方面,3 g 等技术目前尚未广泛使用,覆盖范围有 限,所以目前远程数据采集系统对于大量数据的传输依然存在较多困难。 早期对于数据采集系统中设备故障的诊断多是由工作人员到现场检查,用肉 眼观察故障区域,或者采用专门的仪器进行测量,进而得到故障的现象以及故障 发生的原因。这种方法基于过往形成的专家经验,对人员的要求较高且现场检修 的成本较高。后来出现了基于信号处理的故障诊断设备,利用对信号的观测和分 析进行故障诊断。这种方法对每种设备需要专门的检测设备,无法形成通用的诊 断系统,因而面对复杂多样的故障显得无能为力。随着数据挖掘技术的发展,将 数据挖掘用于智能化的故障诊断成为研究的热点佟l 。鉴于许多设备在运行过程中 其数据已经被采集到计算机上,且数据以时间为单位间隔采集得到,能够精确地 反映出数据的实时变化,所以如何使用这些数据来判断故障成为一个关键点。文 献 9 对数据挖掘在故障诊断中的应用做了有益的尝试,但是应用范围还比较局 限。目前在数据采集系统中实现故障诊断的应用还很少,有待于将数据挖掘理论 与工业应用进行更深入的结合。 一2 一 浙江大学硕:t 学位论文 1 3 课题研究意义 基于有线网络在数据采集领域中遇到的使用受限,布网困难等问题,本课 题提出了基于无线通信的数据采集方案,并对数据的采集和传输两方面分别提 出了无线替代方案,研制了使用z i g b e e 网络作为采集子网的环境温湿度监控系 统,以及基于g p r s 网络的远程数据采集系统。前者利用z i g b e e 组成传感器网 络,省去了工业总线布线的复杂步骤,并可覆盖多个区域,完成环境温湿度数 据的采集与控制。后者利用g p r s 网络实现远程数据传输,并提出使用多通道 g p r s 的方法有效扩展网路带宽,使数据传输能力大大提升,可用于大量数据 的采集和传输。 对于海量的采集数据,本课题提出了海量数据库的存储管理优化方法。通 过对数据库的优化设计,提高系统的实时运行性能。提出基于二级缓存的历史 数据转移存储方案,可定时转移历史数据,减轻实时系统的负担,使采集系统 能够实现长期稳定运行。同时本存储结构也有利于海量数据的统计分析等应用, 为数据挖掘提供快速检索和读取的能力。 另一方面,本课题针对数据采集系统设备故障的隐蔽性,提出了基于时间 序列数据挖掘的故障诊断方法。该方法可有效利用数据库中的海量数据,通过 对数据库中设备运行特性数据的分析,发现隐藏在数据中的设备运行规律,进 而在设备运行不正常时,可及时发现设备故障并进行报警。通过在数据采集系 统中引入故障诊断机制,可大大加强了系统运行的可靠性,帮助用户及时发现 故障点并进行清除,避免不必要的损失。基于数据分析的诊断方法安全可靠, 具有很强的扩展性,也省去了使用专用设备来进行故障检测的成本,目前已经 在实践应用中取得了一定的成果。 总的来说,通过本课题的研究,将无线通信在数据采集系统中的应用做了 有益的探索。同时课题对系统应用中的一些困难点进行了重点研究,分别提出 了有益的解决方案,可以为无线数据采集系统的广泛应用提供良好的借鉴。 1 4 本文的组织与结构 本课题研究了无线通信技术在数据采集系统中的应用,实现了基于z i g b e e 采集子网的环境温湿度监控系统以及基于g p r s 网络的远程数据采集系统。对 一3 一 浙江大学硕士学位论文 于系统设计中的一些关键问题进行了详细阐述,包括两种无线通信方法的协议 机制实现、海量数据库的管理优化以及基于数据挖掘的故障诊断算法的设计和 实现等。 本文的组织结构如下: 第二章简要介绍了无线通信的发展现状和各种主要的无线通信技术,介绍 了数据挖掘的原理以及数据挖掘在数据库上应用,对现有的基于时间序列的数 据挖掘方法进行了介绍。 第三章介绍了系统设计中关键问题的研究。介绍了利用多通道g p r s 扩展 信道带宽及优化传输q o s 性能的方法。提出大文件以及海量记录下的数据存储 管理方法,最后,提出了基于时间序列的数据挖掘算法,用于系统故障诊断。 第四章介绍了两个无线通信应用下系统各模块的设计、实现和测试结果。 包括基于z i g b e e 的环境监控系统各模块的设计与实现和g p r s 远程数据采集服 务器的实现。基于环境监控系统,介绍了数据库分区表和二级转移存储实现, 以及故障诊断模块的实现等。同时,本章对系统各个关键模块都进行了性能测 试。 第五章总结了本文所作的主要工作和取得的成果,分析了系统有待改进的 地方,最后对无线数据采集系统的研究和应用前景进行了展望。 一4 一 浙江大学硕士学位论文 第2 章无线通信与数据挖掘原理 2 1 无线通信技术 2 1 1 无线通信技术概述 自1 8 9 7 年马可尼( m a r c o n i ) 成功完成了在一个固定点与一艘拖船之间的无 线通信试验后,标志着通信技术的发展进入了无线领域的新阶段【l o l 。 无线通信是利用电磁波信号可以在自由空间中传播的特性进行信息交换的 一种通信方式。利用无线通信可以传送电报、电传真数据图像以及广播和电视节 目等通信业务。无线通信具有可移动性、共享性、广播性等优点,但同时无线信 道具有高干扰、强衰落、窄带宽的缺点,需要特殊的发送和接收技术。 无线通信的范围十分广泛,所以使用无线通信技术的系统也可以划分到各种 不同的分类。无线通信系统按技术体制来分可分为:数字无线通信系统、模拟无 线通信系统和数模兼容无线系统。按工作状态来分可分为:固定无线通信系统、 移动无线通信系统和可搬移无线通信系统。按在通信网中所处的地位来分可分 为:无线传输系统和无线接入系统。按照通信距离则又可以分成短距离无线通信 系统和远距离无线通信系统等。 随着无线技术与网络技术的发展以及第3 代移动通信网络技术在全球范围 内不断投入商用,人们开始意识到未来的无线网络不会是由某一种特别先进的无 线技术所组成的统一技术、统一管理的网络,而将是一个综合的一体化的解决方 案。不同的接入技术具有不同的覆盖范围,不同的适用区域,不同的技术特点, 不同的接入速率,可以提供很好的互补性。如3 g 、w l a n 和u w b 等技术之间 的互补,3 g 可解决广域无缝覆盖和强漫游的移动性需求,w l a n 可解决中距离 的较高速数据接入,而u w b 可实现近距离的超高速无线接入。 2 1 2 移动通信技术 移动通信是指利用无线信道进行移动体之间或移动体与固定体之间的相互 通信,通常移动通信是一个有线和无线相结合的通信系统,由于其“可移动性” 特点使人们随时随地的进行各种信息交互成为可能。 在各种无线移动通信系统中,为大家所熟知的有寻呼系统、无绳电话系统、 一,一 浙江大学硕士学位论文 移动卫星通信系统和蜂窝通信系统。而无线通信取得今天的重要位置,跟蜂窝通 信的产生和发展有着极其密切的关系。蜂窝移动通信系统在无线覆盖范围内,能 将用户用无线接入公用电话交换网。蜂窝移动通信系统能够在有限的频带内容纳 大量的用户,通话质量和有线网相当。当用户在运动时,它能将用户通话从一个 覆盖区切换到另一个覆盖区,用户也可以从一个蜂窝移动网漫游到另一个蜂窝移 动网,仍保持通信不中断【l l j 。 以a m p s 和t a c s 为代表的第一代蜂窝移动通信网是模拟系统,虽然取得 了很大成功,但是暴露了一些问题。例如,频谱利用率低、移动设备复杂、费用 较贵、业务种类受限、以及通话易被窃听等。而更关键的是其容量无法满足日益 增长的移动用户需要。 1 9 9 1 年第一个数字移动蜂窝移动通信系统,欧洲的g s m 网络正式投入运行, 标志着无线通信进入第二代移动通信的时代。它弥补了模拟通信技术的很多缺 陷,具有很多的优点。如频谱利用率高,进一步提高了系统容量;能提供多种业 务服务,包括传输用户数据和图像信息:提高了信号抗信道衰落的能力;能实现 更有效、灵活的网络管理与控制等。 从2 0 世纪末到2 1 世纪初,第三代移动通信系统( 3 g ) 的开发与推出,使 移动通信进入一个全新的发展阶段。国际电联正式将第三代移动通信系统命名为 i m t - 2 0 0 0 ,其原称为未来公用陆地移动通信系统,后改称为国际移动通信2 0 0 0 ( i m t 2 0 0 0 ) 。i m t - 2 0 0 0 移动通信系统的主要特性有:频谱利用率高,高速传输 支持多媒体业务,支持全球无缝漫游等。第三代移动通信系统的国际标准主要有: w c d m a 、t d s c d m a 、c d m a 2 0 0 0 。 进入2 1 世纪后,包括中国在内的世界各国在推动第三代移动通信产业化的 同时,已把研究重点转入新一代的宽带无线移动通信技术研究,一般被称为第四 代移动通信( 4 g ) ,国际电联( i t u ) 称之为后三代移动通信( b 3 g ) 。它将是第 三代移动通信和宽带无线接入共同走向未来的新一代宽带无线移动通信。 目前常用的移动通信技术标准如表2 1 所示。 表2 - 1 常见各种移动通信技术标准 一6 一 浙江大学硕士学位论文 2 1 3w l a n 宽带接入技术 无线局域网( w i r e l e s sl a n ,w e a n ) 是无线网络的一个重要组成部分。它是 一种灵活的网络数据传输系统,是一种从有线网络系统自然延伸出来的一种新技 术,使用无线射频( r f ) 技术,越空收发数据【1 2 】。 w l a n 技术的成长始于2 0 世纪8 0 年代初中期,它是由美国联邦通信委员 会( f c c ) 为i n d u s t r i a l ( 工业) 、s c i e n t i f i c ( 科研) 和m e d i c a l ( 医学) 即i s m 频 段的公共应用提供授权而产生的。这项政策使得各大公司和终端用户不需要获得 f c c 许可证,就可以应用无线产品,这大大促进了w l a n 技术的发展和运用。 对于w l a n 的标准,最有影响力的是i e e e 的8 0 2 1 1 标准,涉及物理层的 有4 个标准:8 0 2 1 1 、8 0 2 1 i b 、8 0 2 i l a 、8 0 2 1 l g 。根据不同的物理层标准,其 参数性能也有所不同,如表2 2 所示。 表2 - 28 0 2 1 1 标准系列性能参数 w l a n 具有传输速率高、无需布线、安装周期短、维护容易等特点,所以 其应用可分为两类【1 3 】: 1 ) 作为半移动网络应用,作为有线局域网的补充,与有线局域网共存,主 要应用在大型办公室,超级市场、会议室等环境。 2 ) 在布线较困难的室外环境下,无线局域网可以充分发挥其高速率、组网 灵活的特点。例如城市建筑群之间的通信;学校校园网络;野外勘测、 试验等流动网络;军事、公安流动网络等。 一7 一 浙江大学硕上学位论文 2 1 4z i g b e e 短距离无线通信 z i g b e e 是一种新兴的短距离、低功耗、低数据速率、低成本的无线网络技 术。它的基础是i e e e 8 0 2 1 5 4 协议,是i e e e 无线个人局域网工作组专门为短 距离通讯制定的标准【1 4 】。 z i g b e e 技术的主要特点包括【1 5 】: 1 ) 低功耗。在待机模式下,可以确保2 节五号电池使用6 个月到2 年。 2 ) 高可靠。采用了碰撞避免机制,同时为需要固定带宽的通信业务预留了 专用时隙。 3 ) 低成本。z i g b e e 模块成本低,大量布点比较经济。z i g b e e 协议免收专利 费。 4 ) 短时延。针对时延敏感的应用做了优化,通信时延和从休眠状态激活的 时延都非常短,一般在1 5 3 0m s 。 5 ) 网络容量大。z i g b e e 短地址长度为2 字节,所以网络可容纳6 5 0 0 0 个设 备。一个z i g b e e 路由节点可管理最多2 5 5 个设备。 6 ) 高保密性。采用6 4 位出厂编号,加密算法采用a e s 1 2 8 。 7 ) 优良的网络拓扑能力。具有无线网络自愈能力,支持多种网络结构,最 基本的有:星状连接、串状连接和网状连接。通过网络能够简单的覆盖广 阔范围。 一般采用z i g b e e 设计的数据采集点是固定的,由于不存在节点漫游,数据 路由复杂度大为降低。目前主要应用范围有: 1 ) 家庭和楼宇自动化:照明、空调、窗帘等家居设备的远程控制。 2 ) 工业领域:各种监控器、传感器的自动化控制。 3 ) 环境应用领域:监测环境参数,如空气污染、水污染等。 4 ) 其他应用领域:安防监控等。 2 2 数据挖掘技术 2 2 1 数据挖掘技术的兴起和发展 1 9 8 9 年8 月,在第十一届国际人工智能联合会议的专题讨论会上,数据库 中的知识发现( k n o w l e d g ed i s c o v e r yi nd a t a b a s e ,k d d ) 这个术语被首次提出。到 一8 一 浙江大学硕士学位论文 1 9 9 5 年,k d d 国际会议发展成为年会,并在加拿大召开了第一届k d d 国际学 术会议。同年,在美国计算机年会( a c m ) 上提出了数据挖掘( d m ,d a t am i n i n g ) 的概念,即通过从数据库中抽取隐含的、未知的、具有潜在使用价值信息的过程。 由于数据挖掘是k d d 过程中最为关键的步骤,在实际应用中对数据挖掘和k d d 这两个术语的应用往往不加区别。 从技术角度看,数据挖掘是从大量的、不完全的、有噪声的、模糊的、随 机的实际数据中,提取隐含在其中的、人们所不知道的、但又是潜在的有用的 信息和知识的过程。从商业角度看,数据挖掘是一种崭新的商业信息处理技术。 其主要特点是对商业中的大量业务数据进行抽取、转化、分析和模式化处理, 提取辅助商业决策的关键知识,即从一个数据库中自动发现相关商业模式【1 6 】。 近十几年来,随着计算机软硬件的飞速发展,人们产生和获取信息的能力 大幅提升,为我们带来了数量庞大的数据。“信息爆炸 带来了数据丰富,信息 贫乏的问题网。过去的依赖于人类经验和知识的数据分析方法已经不再适用。 人们迫切需要一些新的方法和工具,可以帮助他们从海量的数据中发现有用的 知识,并把这些知识应用到实际工作中去。因此数据挖掘越来越受到人们的重 视,一些技术已经应用于许多领域中,包括: 金融投资:银行信用卡的管理,存贷款趋势的预测,股市走势的预测等。 零售业和市场营销:对顾客购物篮的分析,商品销售的分析等。 卫生保健:利用已有的海量医疗信息,为病情诊断提供依据。 过程控制:对工艺过程的优化,设备故障的检测等。 科学分析:对海量实验数据分析,提取有用信息。 2 2 2 数据挖掘与数据库 可以说数据挖掘技术是伴随着数据库技术的发展而发展壮大的。h o n g j u n l u 1 8 1 在p a k d d 0 1 上提出了数据挖掘将会和数据库管理系统相结合的发展趋 势。j i a w e ih a n1 1 9 】则提出了数据挖掘和应用相结合,形成纵向的数据挖掘系统 会是数据挖掘的发展的方向。 从原理上说,数据挖掘可以应用到任何信息存储方式下的知识挖掘中,但 是具体的实施过程还是会因为源数据存储类型的不同而不同。近年来数据挖掘 所涉及的数据存储类型越来越丰富,以数据库为基础的存储方式,也随着数据 一9 一 浙江大学硕士学位论文 库技术的发展而变得种类繁多,包括事务型数据库、关系型数据库、数据仓库 以及面向新型应用的空间数据库、多媒体数据库等1 2 0 1 。 事务型数据库的数据挖掘:事务型的数据库是对事务型数据的收集。从该 类数据库中进行知识发现是数据挖掘中研究最早的。1 9 9 3 年,a g r a w a l 通过购 物篮分析作为商业应用背景,提出了数据挖掘在事务型数据库上的应用。被挖 掘的数据库是顾客放入购物篮的商品记录,而挖掘的目标则是通过发现顾客购 买商品之间的关联来指导商业决策。对于常见的事务型数据,都可以采用这种 方式存储和挖掘。 关系型数据库的数据挖掘:关系型数据库是由一系列数据表组成的。它具 有成熟的实体关系模型,成熟的数据库管理系统,还有成熟的s q l 语言,面 向关系型数据库的可视化工具也有很多。可解决如多维知识挖掘、多表挖掘、 多层知识挖掘、知识评价和约束数据挖掘等问题。传统的事物型数据库挖掘研 究的是单维数据,而关系数据库中,由于数据库中可以存储各种相关信息,提 供给人们获得多维知识的可能。另外关系型数据库的多表多层特性也比事务型 数据库更加复杂,可以挖掘的知识更多,挖掘的方法也更为复杂,传统的面向 事务型数据库的挖掘方法将很难适用。 数据仓库中的数据挖掘:数据仓库中的数据是按主题来组织的,存储的数 据可以从历史的观点提供信息。从多个数据源获取数据,并经过清洗和转换后 的数据仓库可是数据挖掘最理想的发现知识的环境。数据仓库模型具有多维数 据模型或多维数据立方体支撑,可以提供高效率的计算和快速存储。现有的数 据仓库辅助工具只能帮助完成数据分析,而无法发现蕴藏在数据内部的知识模 式,所以一般需要设计专门的应用来对数据仓库中的数据进行挖掘。总的来说, 对于数据仓库的数据挖掘将会是大型数据库应用中的一个发展趋势,但目前对 于小型应用来说则显得成本过高。 新型数据库中的数据挖掘:随着数据库技术的发展,一些新的数据库系统 诞生,用以满足新的应用需求。如空间数据库、工程数据库、事态数据库和多 媒体数据库等。这些新型的应用需要处理和分析空| 、日j 数据、事态数据、工程设 计数据和多媒体数据等,对于这些新型数据库的数据挖掘工作充满了挑战,需 要具备专业知识的人员相配合。 一10 浙江大学硕士学位论文 正是基于众多的数据库类型,在数据挖掘的实现过程中,首先需要对使用 的数据库进行评估,才能选择合适的技术进行实现。尤其可以利用已有的一些 应用案例为我们提供一定的参照。 2 2 3 基于时间序列的数据挖掘方法 在想要对一个项目进行数据挖掘的应用时,首先要清楚的了解你要解决的 问题类型和期待获得的收益类型,而后就是要选取一个合适的数据挖掘算法来 满足你的应用。这就需要对各种挖掘算法进行比较,然后才能选取最合适的挖 掘算法用于用户的系统【2 。由于在现实世界中,数据与时间的密切相关,所以 在数据挖掘领域内,对时间序列的关注越来越多,基于时间序列的数据挖掘在 数据挖掘中占有重要的地位。 按文献【2 2 】定义,时间序列就是一组统计数据,依其发生时间的先后顺序 排成的序列。自然界以及社会生活的各种事物都在运动、变化和发展着,将他 们按时间顺序记录下来,就可以得到各种各样的时问序列。对时间序列进行分 析研究,可以揭示事物运动、变化和发展的内在规律,对于人们正确认识事物 并由此做出科学的决策具有重要的现实意义。 近年来,时间序列的挖掘已经应用在宏观的经济预测、市场营销、客户流 量分析、太阳黑子数、月降水量、股票价格变动等众多领域中。而实际上,社 会、科学、经济、技术等领域中广泛存在着大量的时间序列数据有待进一步的 分析和处理,而这需要合理使用已有的对时间序列的挖掘方法,或者设计新的 挖掘方法以适应新的应用。目前对时间序列的挖掘应用主要集中在趋势分析、 相似性搜索、奇异检测、周期分析、序列模式发现、特征提取等几个方面。 采用自回归滑动平均模型( a r m a ) 进行趋势分析是最常用的方法【2 3 1 。早 在1 9 2 7 年,gu y u l e 就提出了a r 模型,此后a r 模型逐步发展为a r m a 模 型。a r m a 模型利用了系统对过去自身状态的汜忆以及各时刻进入噪声的记 忆,对于平稳时间序列的预测可以达到很高的精度。另外,在时间序列预测上 比较成功的还有神经网络方法【2 4 】,可以对某段历史数据进行训练,通过数学统 计模型来估计神经网络的各层权重参数初值,从而建立神经网络预测模型,用 于时间序列的预测。 在时间序列的奇异点检测方面,小波变换表现出了很好的实践效果,得到 一11 浙江大学硕士学位论文 了广泛的应用【2 5 1 。小波变换较好的解决了时间分辨率和频率分辨率的矛盾,继 承和发展了g a b o r 加窗傅里叶变换的局部化思想。小波变换的窗是可调的时频 窗,在高频时使用短窗口,在低频时使用长窗口。所以可以使用不同的尺度来 观察数据,以不同的分辨率来分析数据。小波变换和时变、非平稳时间序列的 特性一致,特别是小波变换在离散化后,能够构成规范化的正交系,使得小波 变换很适合用于对时间序列的分析。 时间序列的相似性判断是时间序列挖掘中的一个重要问题。其定义为: 设有两个时间序列x = x l , x 2 ,和y 可1 , y 2 ,帕,定义一个相似度量标准 s i m ( x ,给定阈值,如果s i m f x , d 输出:无 步骤: 一15 浙江大学硕上学位论文 1 ) 初始化,已知有通道序列c = n l 2 嘲和速率肛 v iv 2 州 1 1 ) 对任意基本时间b f b ,d ob j _ = s v , 1 2 ) 对任意预计完成时间如乃 i f 胁。t h e nt 。- - o e l s e t 亍p t7 v i 1 3 ) 对任意分片结果r i r ,d o 垆o 1 4 ) 定义文件基本分片数目h ,文件大小胙s i z e ( t ) i f ( m m o ds = 0 ) t h e nh = - 膦 e l s eh = - a 嬲+ 1 2 ) w h i l e ( 已分配基本分片数锄) i f ( 最后一个分片,且m m o ds 非0 ) 最后分片大小z = m m o ds f i n df f t ,满足任取哆乃有矿刀吩 - + z u d o 厂尸,f + z e l s e f i n d 乃满足任取务t ,有务+ 巧 - t i + b t 。 a or + s e n d w h i l e 预分配算法结束 3 ) 对任意通道i c ,且n 0 3 1 ) 增加i 到 3 2 ) 分配n 大小分片到通道n ,的传输队列 4 ) 当任意通道,完成分片传输, f i n d 愀c a n , ,满足s i z e ( q k ) d ,且任取吩,有s i z e ( q k ) = s i z e ( q j ) d o d i v r a n ( q , ) 对剩余分片进行再分片 3 2 3 多碎片合并传输算法 本系统采用类似于f t p 的控制连接和数据连接分离方式来传输数据。每个 文件的传输都需要一个数据连接的建立和关闭的过程,因而导致在传输批量小文 件时的性能非常低,大量时间消耗在频繁的客户机和服务器的交互过程中,传输 效率远不如传输大小相当的大文件时的效率。 一16 浙江大学硕上学位论文 在采集数据中,大部分的数据是数据量较小的实时参数数据,所以经常会发 生有大量小文件需要传输的情况,为了确保本系统传输批量小文件时传输性能, 本系统提出了一种多碎片合并传输的算法,将多个小文件共用一次连接过程,避 免了频繁连接和交互情况的发生。 算法思想:将每个小于碎片阀值的小文件的大小、文件名等信息各自封装在 一个文件信息数据结构里,将多个文件按照文件信息、文件数据的顺序合并为一 个大数据块,以大数据块为整体选择通道进行传输,合并结果如图3 2 。通道传 输时,在控制连接上指明为多碎片合并数据块,与服务器建立数据连接,将组合 后的大数据块发送到接收方。服务器端接收到数据后,数据连接退出,服务器根 据文件信息的内容对大数据块进行解包,得到多个小文件。 合并文件块 图3 - 2 多碎片合并方法 定义:参照多通道分片算法定义,并增加定义碎片阀值为e 算法实现: 算法:m e r g e _ t r a n ( s t ) 输入:小文件任务集s t = t it z 明,满足任意乃 e 输出:无 步骤: 1 ) w h i l e ( s r 非空) 1 1 ) 取出文件乃,并将其移出s t 1 2 ) 提取文件信息,将文件信息与文件数据加入合并块m e n d w h i l e 2 ) 选择通道,将合并块m ,加入该通道传输队列 3 1 通道丌始传输合并块任务, 3 1 ) 在控制连接上指明为合并块传输 3 2 ) 建立数据连接,传输合并块m 一17 一 圈圈 浙江大学硕士学位论文 3 3 ) 传输完成,关闭数据连接 3 4 ) 服务器解包获取任务集s t 多碎片合并传输算法中文件信息的数据传输量只是从控制连接转移到了数 据连接,不影响系统性能。算法虽然增加了组包和解包的过程,但是只需一次组 包解包,少量的处理量在强大的处理器性能下,其带来的延时相比网络交互过程 而言很小。算法通过减少多次连接交互过程,将时间都用在了数据传输上,能极 大的提升传输批量小文件时的传输效率。 3 2 4 优先级自适应传输算法 前面介绍了大数据和批量小数据的传输算法,而对于更一般的情况,即文件 大小介于大文件和小文件之间的数据文件,只需选用一个通道进行传输就可以满 足要求,此处提出一种最优通道传输算法。 最优通道传输算法:根据系统当前统计值可知各通道的当前传输速率和忙碌 状况等,也可知当前忙碌信道回到空闲所需的预计时间。根据速率计算每个通道 传输本文件所需时间,得到所有通道传输此文件后预计完成时刻,选出预计完成 时刻最早的通道即是最优通道。 算法实现:各变量定义沿用前面章节的定义 算法:o p t i m a l _ c h a n ( t m ) 输入:数据文件,满足e d ) 文件大于分片阀值 d o d i v - - t 气n ( 乃) 执行分片传输算法 e l s ei f ( s i z e ( 功 = e ) d o o p t i m a l _ c h a n ( t , ) 执行最优通道传输算法 e l s e 文件小于碎片阀值 将乃加入碎片集合t m ,s e tp r i o r i t y ( t m ) = p r i o r i t y ( t i ) w h i l e ( c t 非空) 取下一个文件乃,满足s i z e ( t s - ) e 一1 9 一 n一 髓 浙江大学硕士学位论文 i f ( ( p r i o r i t y ( t m ) 不等于p r i o r i t y ( t _ i 1 且s i z e ( t m ) 姐) 或( p r i o r i t y ( t m ) 等于p f i o r i t y ( t _ f ) l - - ts i z e ( t m ) d ) ) 将乃加入碎片集合t m , 并将其移出c t e l s e b r e a k ;跳出本循环 e n d w h i l e 清空碎片集合t m d o m e r g e _ t r a n ( t m ) 执行多碎片合并算法 e n d w h i l e 2 ) 各通道从传输队列中取出文件,按照各文件规定算法进行传输。 3 2 5 多通道断点续传算法 无线链路的状态受环境的影响很大,g p r s 网络优先级低于语音和短信业务, 在繁忙时段无法保证服务连续性。为此,本课题设计了基于多通道的断点续传算 法,以应付这类突发情况,可大幅提高系统的可靠性。 通道1 通道2 图3 - 4 多通道断点续传流程图 算法思想:断点续传的基本思路是基于日志的,即定时的记录当前的任务 传输状态,当传输失败之后,从日志记录的最近位置处尝试恢复,避免了整个 一2 0 浙江大学硕上学位论文 任务的重
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年三基三严医师定期考核之抗菌药物试题(妇产科)
- 2026年内科护理学模拟考试题(附答案)
- 2026年全国生态日知识竞赛考试题库(含答案)
- 内部控制信息系统建设方案设计
- 2026年吉林省磐石市高一历史下册期末考试模拟卷含完整答案【夺冠】
- MySQL数据库技术与项目应用教程(微课版)(AI助学)(第3版)-教案 项目1-5 搭建数据库运行环境 - -优化检索网上商城系统数据
- 2025年河南省巩义市高三历史上册期末考试检测卷含完整答案【必刷】
- 【同步课件】2022年鲁科版(2019)高中化学必修二 3.2.1 化石燃料(乙烯) 课件
- 2026八大局面试题目及答案
- 2026安乡县事业编面试题目及答案
- 广东广州2012-2024年中考满分作文130篇
- DGTJ08-2271-2018 工程物探技术标准
- 监狱安防报警管理制度
- 2024年中考科学易错点随身记(新统考)
- 2025年高考历史一轮复习“近代中国革命史”核心考点梳理
- 四川乐山市中区2025届高三下学期联合考试语文试题含解析
- 临床用血储备计划制度
- 2024年中国辅酶Q10胶囊行业投资分析、市场运行态势、未来前景预测报告
- 急救医疗管理系统(紫云)
- NB-T31111-2017风电机组高电压穿越测试规程
- 公园设施维修投标方案
评论
0/150
提交评论