rfid数据挖掘技术在环境污染事故监管中的应用_第1页
rfid数据挖掘技术在环境污染事故监管中的应用_第2页
rfid数据挖掘技术在环境污染事故监管中的应用_第3页
rfid数据挖掘技术在环境污染事故监管中的应用_第4页
rfid数据挖掘技术在环境污染事故监管中的应用_第5页
已阅读5页,还剩62页未读 继续免费阅读

rfid数据挖掘技术在环境污染事故监管中的应用.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

扬州大学 硕士学位论文 RFID数据挖掘技术及其在环境污染事故危险源监管中的应用研 究 姓名:谢芳 申请学位级别:硕士 专业:计算机技术 指导教师:胡孔法 20091001 摘要 无线射频识别( R a d i oF r e q u e n c yI d e n t i f i c a t i o n ,R F I D ) 技术是一种利用射频通 信实现的非接触性的自动识别技术,是利用射频电磁波在读写器和贴有标签的移 动物品之间传输数据,达到识别和跟踪物品等作用。R F I D 技术与互联网、通讯等 技术相结合,可实现全球范围内物品跟踪与信息共享。R F I D 是继P C 、互联网和 无线通信之后的第四次的信息技术革命,是2 l 世纪最有发展前途的信息技术之。 我们将通过本项目的研究,采用R F I D 技术、X M L 数据管理与组件技术等最 新技术,结合跨区域的危险物流转过程管理和环境污染事故危险源监管的实际需 求,研发基于R F I D 的环境污染事故危险源监管系统软件。通过基于R F I D 技术来 高效准确地记录和维护危险物的基本信息,准确地提供危险物安全实时数据和历 史数据,辅助管理者制订计划和决策。通过R F I D 中间件与现有环保信息系统进行 集成,对面向R F I D 的海量数据进行有效地分析与挖掘,来实现对危险物流转跟踪 管理以及重大环境污染事故危险源跨区域动态监管与决策分析。为环境污染事故 危险源的跟踪、监控、管理等提供技术支撑,为环境污染事故发生后的应急处理 提供技术保障。 关键词:无线射频识别,X M L 数据管理,R F I D 海量数据处理,频繁路径挖掘, 环境污染事故危险源监管系统 A b s t r a c t R F I D ( R a d i oF r e q u e n c yI d e n t i f i c a t i o n ,R F I D ) t e c h n o l o g yi sar a d i of r e q u e n c y c o m m u n i c a t i o nt oU S en o n c o n t a c ta u t o m a t i ci d e n t i f i c a t i o nt e c h n o l o g y I tc a ni d e n t i f y a n dt r a c ki t e m sb yu s i n gt h er a d i of r e q u e n c ye l e c t r o m a g n e t i cw a v e si nt h er e a d e ra n d t h et a g g e dd a t ab e t w e e nt h em o b i l ei t e m s R F I Dt e c h n o l o g yC a na c h i e v et h eg l o b a l i t e m st r a c k i n ga n di n f o r m a t i o ns h a r i n gc o m b i n e dw i mt h eI n t e r n e ta n dc o m m u n i c a t i o n s t e c h n o l o g y R F I Dt e c h n o l o g yi st h ef o u r t hr e v o l u t i o ni ni n f o r m a t i o nt e c h n o l o g ya f t e r t h es e c o n dP C ,t h eI n t e m e ta n dw i r e l e s sc o m m u n i c a t i o n s I ti So n eo ft h em o s t p r o m i s i n gi n f o r m a t i o nt e c h n o l o g i e si nt h e21s tc e n t u r y T h r o u g ht h ep r o j e c tw ew i l ls t u d yt h eu s eo fR F I Dt e c h n o l o g y ,X M Ld a t a m a n a g e m e n tt e c h n o l o g y 、) ,i t l lt h el a t e s tt e c h n o l o g yc o m p o n e n t s ,c o m b i n e dw i t ht h er i s k o fc r o s s - r e g i o n a lm a n a g e m e n ta n dl o g i s t i c s p r o c e s s t ot h er i s ko fe n v i r o n m e n t a l p o l l m i o na c c i d e n ts o u r c eo ft h ea c t u a ln e e d s o ft h em o n i t o r i n g W er e s e a r c ha n d d e v e l o pt h ea c c i d e n th a z a r d so fe n v i r o n m e n t a lp o l l m i o nm o n i t o r i n gs y s t e ms o f t w a r e b a s e do nR F I Dt e c h n o l o g y I tC a ne f f i c i e n t l ya n da c c u r a t e l yr e c o r da n dm a i n t a i nt h e b a s i ci n f o r m a t i o no nh a z a r d o u sm a t e r i a l sb a s e do nR F I Dt e c h n o l o g y I tc a l lp r o v i d e a c c u r a t ea n ds e c u r e ,r e a l - t i m ea n dh i s t o r i c a ld a t ao fh a z a r d o u sm a t e r i a l st o a s s i s t m a n a g e r sf o rf o r m u l a t ep l a n sa n dd e c i s i o n m a k i n g B ya d o p t i n go fR F I Dm i d d l e w a r e w i t ht h ee x i s t i n ge n v i r o n m e n t a li n f o r m a t i o ns y s t e m si n t e g r a t i o n ,w ec a ne f f e c t i v e l y a n a l y s ea n dm i n eo ft h eR F I Dm a s s i v ed a t a , a n da c h i e v et h er i s km a n a g e m e n ta n d l o g i s t i c s t ot r a c kt h er i s ko fm a j o re n v i r o n m e n t a l p o l l u t i o n a c c i d e n ts o u r c e c r o s s - r e g i o n a ld y n a m i ca n a l y s i so ft h er e g u l a t o r ya n dd e c i s i o n m a k i n g I tp r o v i d e st h e t e c h n i c a l s u p p o r tt ot r a c k , m o n i t o ra n dm a n a g et h er i s ko fe n v i r o n m e n t a lp o l l u t i o n a c c i d e n tS O u r C e ,a n dt od e a l 、i t ht h ee n v i r o n m e n t a l e m e r g e n c yr e s p o n s ea f t e rt h e a c c i d e n t K e y w o r d s :R a d i oF r e q u e n c yI d e n t i f i c a t i o n ,X M Ld a t am a n a g e m e n t ,R F I D m a s s i v ed a t ap r o c e s s i n g ,f r e q u e n c yp a t hm i n i n g ,a c c i d e n th a z a r d so fe n v i r o n m e n t a l p o l l u t i o nm o n i t o r i n gs y s t e m 谢芳:R F I D 数据挖掘技术及其在环境污染事故危险源监管中的应用研究6 3 扬州大学学位论文原创性声明和版权使用授权书 学位论文原创性声明 本人声明:所呈交的学位论文是在导师指导下独立进行研究工作所取得的研 究成果。除文中已经标明引用的内容外,本论文不包含其他个人或集体已经发表 的研究成果。对本文的研究做出贡献的个人和集体,均已在文中以明确方式标明。 本声明的法律结果由本人承担。 学位论文作者签名:粥 签字日期:劫叼年,2 月当日 学位论文版权使用授权书 本人完全了解学校有关保留、使用学位论文的规定,即:学校有权保留并向 国家有关部门或机构送交学位论文的复印件和电子文档,允许论文被查阅和借阅。 本人授权扬州大学可以将学位论文的全部或部分内容编入有关数据库进行检索, 可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。同时授权中国科学 技术信息研究所将本学位论文收录到 :中国学位论文全文数据库,并通过网络向 社会公众提供信息服务。 学位论文作者签名:导师签名: 签字日期:年月日签字日期:年月日 谢芳:R F I D 数据挖掘技术及其在环境污染事故危险源监管中的应用研究 l 1 1选题依据 第一章引言 我国在经济迅速发展的同时,环境问题也不断突出,污染事故出现的频次、 强度也有逐渐增加的趋势。而且随着人民生活水平的不断提高,环境质量状况已 经成为公众关注的焦点。突发环境污染事故往往在我们生产和生活中生产、运输、 使用危险物以及处置危险废物时,人为的疏忽或错误操作,造成泄漏,会引起环 境的污染,使人体健康受到危害。由于突发性环境污染事故发生的时间、地点、 环境具有很大的不确定性,发生突然、来势凶猛,在瞬时或短时间内大量的排出 污染物质,对环境造成严重污染和破坏,给国家和人民财产造成重大损失。由此 可见,建立统一高效的突发环境污染事故监管与应急处理系统迫在眉睫。作为环 境保护部派出的负责监督华东六省一市区域的环境污染与生态破坏案件、重、特 大突发环境事件应急响应与处理等督查工作的执法监督机构环境保护部华东 环境保护督查中心,为了实现在华东六省一市内对危险物生产、运输、存储等流 转过程跟踪管理以及环境污染事故危险源进行跨区域监管,提出建立统一高效的 环境污染事故危险源监管系统。 无线射频识别( R a d i oF r e q u e n c yI d e n t i f i c a t i o n ,R F I D ) 技术是一种利用射频通 信实现的非接触性的自动识别技术,是利用射频电磁波在读写器和贴有标签的移 动物品之间传输数据,达到识别和跟踪物品等作用。R F I D 技术与互联网、通讯等 技术相结合,可实现全球范围内物品跟踪与信息共享。R F I D 是继P C 、互联网和 无线通信之后的第四次的信息技术革命,是2 1 世纪最有发展前途的信息技术之一。 我们将通过本项目的研究,采用R F I D 技术、X M L 数据管理与组件技术等最新技 术,结合跨区域的危险物流转过程管理和环境污染事故危险源监管的实际需求, 研发出自主产权的R F I D 数据管理平台及其基于R F I D 技术的环境污染事故危险源 监管系统软件。通过基于R F I D 技术来高效准确地记录和维护危险物的基本信息, 2 扬州大学硕士学位论文 准确地提供危险物安全实时数据和历史数据,辅助管理者制订计划和决策。通过 R F I D 中间件与现有环保信息系统进行集成,对面向R F I D 的海量数据进行有效地 分析与挖掘,来实现对危险物流转跟踪管理以及重大环境污染事故危险源跨区域 动态监管与决策分析。为环境污染事故危险源的跟踪、监控、管理等提供技术支 撑,为环境污染事故发生后的应急处理提供技术保障。 我国环境污染危险物流转管理还处于起步阶段,为了保证危险物的安全生产 与运输,杜绝重大环境污染事故的发生,有必要建立跨区域的危险物流转管理与 环境污染事故危险源监管的现代物流管理系统。本项目主要通过基于R F I D 数据管 理关键技术和现代物流管理技术的研究,研发危险物流转管理与环境污染事故危 险源监管系统。开展本项目研究的意义如下: ( 1 ) 通过基于R F I D 技术的环境污染事故危险源监管系统的研发,以危险物 流转过程管理与跟踪、环境信息共享与监管等环境污染事故危险源管理与环境监 管应用领域,实现R F I D 现代物流管理系统的应用示范。为政府部门宏观管理和政 府决策提供准确、全面的信息,进一步提高政府环保部门的管理水平,促进重大 环境污染事故危险源及其环境污染事故隐患管理的信息化和科学化,提高我国环 境管理与监管的总体技术水平具有重要意义。 ( 2 ) 通过该系统软件为各级环境管理和环境监察机构提供了重大环境污染事 故危险源的数据采集和分析处理软件,实现对危险物生产运输、重大环境污染事 故危险源和事故隐患的动态跟踪、监控、管理和决策分析,并为快速、准确制定 环境污染事故应急处理方案提供科学依据。 ( 3 ) 通过本项目开发出的适合我国国情的R F I D 数据管理平台软件以及基于 R F I D 的环境污染事故危险源监管等现代物流管理系统软件,具有自主知识产权, 有广阔的应用前景、市场前景和产业化前景,对促进我省软件产业的发展也是十 分有意义的。 1 2 国内外研究现状 1 2 1 R F I D 技术 谢芳:R F I D 数据挖掘技术及其在环境污染事故危险源监管中的应用研究 3 今年8 月份省委省政府把物联网( 传感网) 列为全省重点培育和发展的六大 新兴产业之,积极研发物联网技术,是充分利用射频识另J J ( R F I D ) 、无线数据通 信等技术,通过红外感应器、射频识另U ( R F I D ) 装置、全球定位系统等信息传感设 备与互联网结合起来而形成的一个巨大网络,来实现物品的自动识别和信息的互 联与共享。“物联网“ 被称为继计算机、互联网之后,世界信息产业的第三次浪 潮。R F I D 技术是一种利用射频通信实现的非接触性的自动识别技术,是利用射频 电磁波在读写器和贴有标签的移动物品之间传输数据,达到识别和跟踪物品等作 用。R F I D 技术与互联网、通讯等技术相结合,可实现全球范围内物品跟踪与信息 共享。R F I D 是继P C 、互联网和无线通信之后的第四次的信息技术革命,是2 l 世 纪最有发展前途的信息技术之一【l 】。 R F I D 最早发明于1 9 4 8 年,并首先应用于第二次世界大战,通过安装在飞机 上的R F I D 标签和阅读器发送和接受无线射频信号,来分辨敌我双方飞机。到了 7 0 年代,美国政府通过L o sA l a m o s 科学实验室,将R F I D 技术转为民用,并应用 在物品跟踪管理上 2 1 。从9 0 年代开始,R F I D 正逐步应用在邮包跟踪、机场行李及 乘客跟踪、仓储管理、存货控制、健康护理、物流供应链管理等领域【3 d 。随着 R F I D 硬件技术的不断进步与完善,R F I D 设备的体积越来越小,成本也越来越低, 应用领域则更为广泛。R F I D 技术与互联网、通信等技术相结合,以产品电子编码 ( E l e c t r o n i cP r o d u c tC o d e ,E P C ) 和无线射频识别( I 江I D ) 为核心在互联网之上构 造“物联网”,可以在全球范围从根本上改变对物品生产、运输、仓储、销售等各环 节物品移动监控和动态管理【1 2 】。为了使R F I D 在全球进行推广应用,国际上已成立 了一个标准化组织E P Cg l o b a l f l 3 】,提出了基于R F I D 的应用体系架构,制定全球统 一标准来保证供应链各个环节信息的自动识别。各大软件厂商也在其产品中提供 了支持R F I D 的服务及解决方案,如S u nE P C 网络【1 4 1 、S A P 自动识别基础设施【1 5 】、 O r a c l e 传感服务器【1 6 】、I B MW e b s p h e r e 服务器【1 7 1 、S y b a s eR F I D 解决方案【1 羽、微软 的I 强I D 中间件【1 9 J 等。 近年来我国政府十分重视R F I D 技术开发应用,2 0 0 6 年9 月,科技部、信息 产业部等十五个部委发布了中国射频识别( R F I D ) 技术政策白皮书【2 0 1 。国内 4 扬州大学硕士学位论文 在R F I D 应用构架、公共服务体系、中间件、系统集成以及信息融合和测试工作等 方面均取得了初步成效。R F I D 技术在我国已经开始得到应用,在公共交通、高速 公路收费、城市暂住证等各类电子证照与重要商品防伪、动植物电子标志、食品 药品实时跟踪管理等领域均已先后启动了R F I D 应用试点项目。虽然R F I D 产业在 我国起步比较晚,但是经过几年的发展,目前我国已有标签读写设计与制造企业 数十家,系统集成与应用系统开发企业逾干家【2 1 1 。 在未来的几年中,R F I D 技术将继续保持高速发展的势头,R F I D 产品的种类 将越来越丰富,应用也将越来越广泛,R F I D 技术将广泛应用于现代物流管理等领 域1 2 2 , 2 3 1 。物品上所附贴的R F I D 标签中E P C 电子产品编码是全球唯一的,能够通 过部署在物流各个环节的R F I D 读写器读取物品上的电子产品编码,对这些信息进 行整理,可以得到物品从生产运输一销售等供应链各环节的移动路径信息。 然而,随着R F I D 在现代物流管理中应用,将产生大量物品的路径信息,由带R F I D 标签的物品组成的巨大网络所产生的海量数据将带来许多亟待解决的数据管理问 题和挑战 2 4 , 2 5 1 ,管理和分析R F I D 系统产生的这些海量数据就是研究和利用R F I D 技术所需首要解决的问题【2 6 , 2 7 1 。虽然学术界已普遍认识到R F I D 数据管理技术是实 现R F I D 应用并充分发掘其的价值的关键,但到目前为止,针对R F I D 数据管理技 术的研究在国际上还不是很多,很多问题还没有得到解决,尤其在R F I D 海量数据 分析与挖掘方面也刚刚开始 2 8 - 3 0 l ,还需要做大量的研究工作,这也制约R F I D 技术 应用推广的重要因素。 我们将结合环境监管的特殊应用领域和环境污染事故危险源跨区域监管的实 际需求,研发基于R F I D 技术的环境污染事故危险源监管系统软件,将基于R F I D 数据管理技术和现代物流管理技术应用到在危险物生产、存储、运输、回收等危 险物流转过程跟踪管理,来实现环境污染事故危险源跨区域监管与决策分析。 1 2 2 联机分析挖掘技术 信息技术迅猛发展,特别是网络技术的发展,为物流发展提供了强有力的支 撑。物流管理信息系统是企业信息系统的基础,是企业信息化的基础,利用信息 谢芳:R F I D 数据挖掘技术及其在环境污染事故危险源监管中的应用研究 5 技术对物流中的各种信息进行实时、集中、统一管理。其中数据仓库技术【3 1 , 3 2 , 3 3 1 是信息技术领域的一门新技术,其主要特点是面向主题性、集成性、时变性、非 易失性。采用数据仓库技术,可以充分利用企业内部的海量数据,从中挖掘出有 价值的规则和知识,使企业能够更好地认识到数据的价值,并且支持企业决策 3 4 , 3 5 , 3 6 ,将客观详实的数据经验和决策者自身的宝贵经验结合起来,提高企业的市 场竞争力。 物流企业为了降低物流成本,优化物流活动,必须依赖于决策的准确性,而 大量数据是实现决策分析的前提,特别是历史数据。决策的准确性依赖于数据仓 库中大量数据的分析整理【3 7 1 ,从中取得有规律性的结论。但是目前我国除了银行、 电信、保险等少数行业,其他行业的数据积累都不够充分。数据仓库是新技术、 新概念,国内数据仓库项目的典型范例还不多 3 s J 。因此,企业领导对数据仓库技 术的认可还有一段时间,数据仓库市场还要进一步培育。对物流管理来说,企业 在物流运输管理方面,已经开发的一些针对具体业务的小型数据库,如仓库管理 系统、汽车调度系统【3 们,物流管理信息系统 4 0 , 4 1 】等,在一定程度上提高了工作效 率,降低了成本。但是这些系统都是小型系统,而且局限于某一个具体的业务, 不能把所获得的单独的数据信息进行整体的分析、宏观的调控,以供决策者做出 正确的决策 4 2 , 4 3 1 。数据仓库技术的使用可以改变这样的现状。它通过对大量的历 史数据的抽取,净化、集成大量的随机查询,再利用联机分析处理( O L A P ) 【4 4 J 和数据挖掘技术【4 5 】发现数据间隐含的信息,从而辅助决策者进行决策。 联机数据挖掘在庞大的物流数据中所能发现如下的知识:广义型知识,即反 映同类事物共同性质的知识;特征型知识,即反映事物各方面的特征知识;差异 型知识,即反映不同事物之间属性差别的知识;关联型知识,即反映事物之间依 赖或关联的知识;预测型知识,即根据历史的和当前的数据推测未来数据;偏离 型知识,即揭示事物偏离常规的异常现象。在现代物流管理中常用到的数据挖掘 技术主要有序列模式发现技术、关联规则挖掘算法、决策树、分类、聚类等。数 据挖掘技术将为企业物流管理决策提供越来越强大的支持功能,尤其对“第三方 物涮4 6 J “ 。“第三方物流”是指物流服务的供给方和需求方以外的第三方去提供物 6 扬州大学硕士学位论文 流配送业务的运作方式,第三方式专业化的物流企业或者配送中心,通过提供一 套物流活动来服务于供应链。 关联规则挖掘【4 7 4 8 1 是现代物流管理【4 9 】中的一个关键的联机分析挖掘技术,用 于发现大量物流数据之间有趣的关联或相关联系,比如根据物流企业上季度的商 品销售情况或者运输工具的数量等等来找出关联规则,“下几个季度可能会有大 量的客户需要我们的物流服务,应该为此准备多少运输能力和仓储能力、分布地 点和数量等类似的问题。其中规则挖掘一种最有影响的算法是A p r i o r i t 5 0 】算法, 而后来发展的A p r i o r i 算法的变形,包括使用h a s h 表提高关联规则挖掘效率【5 l 】、选 样技术1 5 2 】等,更是进一步提供了效率。但A 研耐类的算法有两个较大的缺陷:一 是因候选集数目很大,处理候选集代价很高;二是重复扫描数据库。可以预见如 果数据量很大时,A p r i o r i 类似的算法将捉襟见肘。基于这样的情况,H a nJ 等人中 提出了不产生候选集F P g r o w t h 5 3 】算法。F P g r o w t h 算法大大节省了时间和空间, 对大规模数据采用分而治之的办法以避免数据规模巨大难以接受的情况,它主要 通过一种新式紧缩的数据结构F P - t r e e 来产生频繁集。通过合适的算法能够找出物 流数据中的关联网,进而生成具有可信度的规则。 序列模式挖掘是现代物流管理中的一个关键的联机分析挖掘技术,对物流管 理有着特别的意义。利用各种序列模式挖掘算法可以找到这些购买序列之间的关 系,提供决策者更有意义的数据。进一步地,考虑到供应链成员所关心的数据可 以是分层的,那么在最原始的数据库中对各层次概念进行提升研究则对高层的供 应链管理者更有意义。对于每层上数据挖掘要用到序列模式发现算法,关于序列 模式发现问题S r i k a n tR 和A g r a w a lR 对序列规定了时间限制、滑动时间窗口和用 户规定的分类,并在该文中总结了序列模式的定义,提出了一种基于A p r i o d 的改 进算法G S P ( g e n e r a l i z e ds e q u e n t i a lp a t t e r n s ) 算法f 州。以上这些都是基于A p r i o f i 的水平格式的序列模式挖掘或者与时间相关的频繁模式挖掘,后来Z a k iM I S S 等人 提出了一种基于垂直格式存储的序列模式挖掘方法S P A D E 算法,这个算法是由基 于垂直格式的频繁项挖掘演化而来。近几年H a nJ 和P e iJ 等人又提出了一种基于 投影的模式增长的算法F r e e s p a n 算法1 5 6 1 ,这个算法改进后为P r e f i x s p a n 算法f 钢, 谢芳:R F I D 数据挖掘技术及其在环境污染事故危险源监管中的应用研究 7 性能进一步提高。M a n n i l aH 等人提出了挖掘频繁序列片段【5 列的问题,以及 G a r o f a l a k i sMN | s 9 】等人在文中提到的基于规则表达式约束的序列模式挖掘等等。 还有后来关于序列模式挖掘研究的一些扩展,比如序列模式分布式挖掘、多维度 序列模式挖掘和近似序列模式挖掘等等。基于这些序列模式发现算法,采用多层 次序列模式挖掘技术来挖掘物流数据之间的关系,提供决策者有意义的数据。 但是随着无线射频识别( R F I D ) 在现代物流等领域的广泛应用,将产生巨大 的海量数据。用传统的数据仓库和数据挖掘技术,不能解决基于路径的海量数据 联机分析处理与挖掘。为此本文借鉴国内外在数据联机分析和数据挖掘处理方面 的已有成果,对基于R F I D 的现代物流管理系统海量和路径聚集数据的联机分析挖 掘技术进行研究,着重对基于R F I D 的现代物流数据仓库、基于层次编码的R F I D 数据压缩存储技术、现代物流的分布式序列模式挖掘、基于路径编码的频繁路径 挖掘等R F I D 物流数据仓库和数据联机分析挖掘技术进行了系统深入地研究。 1 3 本文主要研究内容 本文的主要研究内容包括: ( 1 ) R F I D 集成技术和应用体系结构研究 研究基于R F I D 公共服务平台技术的现代物流管理系统架构,通过R F I D 技术 对危险物流转跟踪信息以及现有环保信息系统等多源数据进行集成和整合,来跟 踪危险物生产、存储、运输、回收等整个流转过程,来确保危险物的安全生产和 运输。 ( 2 ) R F I D 海量频繁路径数据挖掘技术研究 对面向R F I D 海量数据的联机分析挖掘算法进行研究,主要是研究面向R F I D 海量数据的频繁封闭路径挖掘技术,研究面向R F I D 海量数据的多维频繁路径挖掘 技术,研究对高维、多层次下的多维路径挖掘技术。提出基于分布式处理环境下 的R F I D 海量数据的频繁路径挖掘算法,来解决在大规模海量数据上的数据挖掘效 率问题。 ( 3 ) 基于R F I D 的环境污染事故危险源监管系统软件研发 8 扬州大学硕士学位论文 研究基于R F I D 的现代物流管理技术和管理模式,研发出基于R F I D 的环境污 染事故危险源监管系统软件。并结合具体的危险物流转管理与重大环境污染事故 危险源监管案例进行应用示范,将基于R F I D 的物流管理技术应用到在危险物生 产、存储、运输、回收等危险物流转过程跟踪与监管,实现环境污染事故危险源 跨区域监管与决策分析。 1 4 论文的组织 论文的第一章首先分析了国内R F I D 技术和联机分析挖掘技术的研究现状以 及发展概况。 第二章简要地介绍基于无线射频识别技术( R F I D ) 的现代物流管理系统结构 及其基本组成结构,以及联机分析挖掘技术基本概念。 第三章对应用于物流和供应链管理的R F I D 技术所产生的海量路径数据集的 多维频繁路径挖掘技术进行了深入研究,提出了D i m - p a t h 与P a t h d i m 两种不同的 顺序处理非路径维数据和路径数据的高效的封闭多维频繁路径挖掘算法。 第四章对环境污染事故危险源监管系统进行分析与设计。 第五章结合环境污染事故危险源监管需求,实现了基于R F I D 的环境污染事故 危险源监管系统。 第六章总结论文,提出需要改进的进一步工作a 谢芳:R F I D 数据挖掘技术及其在环境污染事故危险源蜿符中的麻川研究 9 第二章基本概念 奉章将先简要地介绍基于无线射频识别技术( R F I D ) 的现代物流管理系统结 构及其基本组成结构,然后对联机分析处理( O L A P ) 和数据挖掘技术等基本概念 进行阐述。 2 1 无线射频识别( R F I D ) 技术 2 1 1 基于R F I D 的现代物流系统 R F I D 可以实现多日标、运动目标的非接触式自动识别,基于R F I D 的物联网 强调物质与信息的交互,将R F I D 技术应用于物流业的信息采集和物流跟踪,可以 极大地提高行业服务水平。具体表现在:是可以实现信息采集、信息处理的自 动化:二是实现商品实物运动等操作环节的自动化,如分拣、搬运、装卸、存储 等;三是实现管理和决策的自动化乃至智能化,如库存管理、自动生成订单、优 化配送线路等。将R F I D 技术应用于物流管理,我们需要将物流过程从一个大系统 的角度来看待,在更大范围内共享R F I D 信息,以最低的整体成本,达到最高的供 应链物流管理效率。一个基于R F I D 的简单现代物流系统应用事例如图2 - 1 所示。 , 剐:_ 幽J i :痢日 _ : 幽: 三剑 叫: 供应仓库运输 分销商 凹2 - I基于R F I D 的现代物流系统 1 0 扬州大学硕士学位论文 在供应仓库中,每个产品表面都贴上E P C 标签。被标注标签的物品在供应仓 库打包( 地点1 0 0 1 ) ,这里物品和集装箱的标签通过阅读器R e a d e r l 自动地被扫描 ( 这里我们假设所有标签为被动标签,是当前R F I D 应用中最便宜和最常见的) 。 然后,在仓库装货区,集装箱和卡车经另一阅读器R e a d e r 2 扫描。卡车出发,然后 通过预定路线到分销商商店( 地点1 0 0 2 ) 。在该分销商商店卸货区( 地点1 0 0 3 ) , 所有集装箱从卡车卸下,并解压。所有物品包括卡车,集装箱和物品经阅读器 R e a d e r 3 扫描,然后这些物品保存到店里。最终,当物品被购买后( 地点1 0 0 4 ) , 它们经阅读器R e a d e r 4 扫描。在整个过程中,阅读器自动产生读数信息,并且数据 也自动被采集。 R F I D 数据都是高度动态的,数据状态是变化的。但按照E P C 编码,物品都有 一个唯一的I D 号,丽且这些I D 都是静态和不变的。 2 1 2R F I D 数据 R F I D 应用产生的数据可以看作是格式为( E P C , l o c a t i o n ,t i m e ) 的元组集合, E P C 是由阅读器所读取的独一无二的电子产品编码,l o c a t i o n 是R F I D 阅读器读取 物品的位置,t i m e 是阅读发生的时间。元组通常是按照顺序 6 0 l 存储的。个E P C 可能在同一个地方被读取多次,每次读取是通过R F I D 阅读器在确定的时问间隔内 或在连续性基础上扫描标签产生的。一个原始R F I D 数据库的事例如表2 1 所示, 其中R F I D 记录的个数为3 0 0 。 表2 1 未清理的原始R F I D 记录 R a wR F I DR e c o r d s ( 1 ,F , t l X 2 ,F , t l X 3 ,F , t 1 ) ( 1 ,F , t 1 0 ) ( 2 ,F , t 1 0 X 3 ,F , t 1 0 ) ( 5 ,D 1 ,t 4 0 x 6 ,D 2 ,t 4 0 ) ( 9 ,W , t 4 0 X 10 ,w , t 4 0 ) ( 4 ,Sl ,t 5 0 ) ( 5 ,S1 ,t S 0 ) ( 7 ,S 2 ,t 5 5 ) ( 8 ,S 2 ,t 5 5 ) ( 9 ,S 2 ,t 6 0 X 1 0 ,S 2 ,t 6 0 ) 谢芳:R F I D 数据挖掘技术及其在环境污染事故危险源监管中的应用研究1 1 为了减少原始数据中的大量冗余,就要执行数据清理操作。数据清理以后的 输出是形如S t a y ( E P C , l o c a t i o n ,t i m ei n ,t i m eo u t ) 的元组集合,其中t i m ei n 表示 物品到达这个位置的时间,t i m eo u t 表示物品离开这个位置的时间。 S t a y 记录的数据清理过程就是,对原始数据按E P C 和t i m e 排序,再通过合并 相同位置性同物品的连续的记录来生成每个位置的t i m ei n 和t i m eo u t 。表2 2 给 出了表2 1 清理以后的R F I D 数据库。记录数已经从3 0 0 条减少到3 0 条。 表2 2 清理后的R F I D 数据库 E P C S t a y ( E P C ,l o c a t i o n ,t i m e _ i n ,t i m e _ o u t ) 1 ( 1 ,F , t l ,t 1 0 ) ( 1 ,D 1 ,t 2 0 ,t 3 0 ) ( 1 ,S 1 ,t 4 0 ,t 5 0 ) 2 ( 2 ,F , t l ,t 1 0 ) ( 2 ,D 1 ,t 2 0 ,t 3 0 ) ( 2 ,S 1 ,t 4 0 ,t 5 0 ) 3 ( 3 ,F , t l , t 1 0 ) ( 3 ,D 1 ,t 2 0 ,t 3 0 ) ( 3 ,S 1 ,t 4 0 ,t 5 0 ) 4 ( 4 ,F , t 1 0 ,t 2 0 ) ( 4 ,D I ,t 3 0 ,t 4 0 ) ( 4 ,S I , t S 0 ,t 6 0 ) 5 ( 5 ,F , t 1 0 ,t 2 0 ) ( 5 ,D 1 ,t 3 0 ,t 4 0 ) O ,S 1 ,t 5 0 ,t 6 0 ) 6 ( 6 ,F , t l ,t 2 0 x 6 ,D 2 ,t 3 0 ,t 4 0 ) ( 6 ,S 1 ,t 5 0 ,t 6 0 ) 7 ( 7 ,F , t l ,t 2 0 x 7 ,D 2 ,t 3 0 ,t 4 0 x 7 ,S 2 ,t 5 0 ,t 6 0 ) 8 ( 8 ,F , t l ,t 2 0 x 8 ,D 2 ,t 3 0 ,t 4 0 ) ( 8 ,S 2 ,t 5 0 ,t 6 0 ) 9 ( 9 ,F , t 1 0 ,t E O X 9 ,w , t 3 0 ,t 4 0 x 9 ,S 2 ,t S 0 ,t 6 0 ) 1 0 ( 1 0 ,F , t 1 0 ,t 2 0 X l O ,w , t 3 0 ,t 4 0 x l o ,S 2 ,t 5 0 ,t 6 0 ) 由于R F I D 数据具有与传统的数据库技术根本不同的特点,在R F I D 数据管理 系统构建时我们要充分考虑这些特点: 1 ) 简单数据:R F I D 应用中产生的数据可以看作是形如( E P C , l o c a t i o n ,t i m e ) 的R F I D 元组流【6 1 1 ,其中E P C 是物品的电子产品编码( E l e c t r o n i cP r o d u c tC o d e ) , 能够普遍地标识一个物品或物品集【6 2 】,L o c a t i o n 是R F I D 阅读器扫描物品发生的地 点,t i m e 是读取发生的时间。正如其表示的,R F I D 数据不能携带很多信息。为了 把原始数据转换成企业应用所能使用的数据,必须做几个层次的数据处理。 2 ) 海量数据:R F I D 的一个最大的问题就是处理海量数据。举例,沃尔玛每 1 2 扬州大学硕士学位论文 三天所产生的数据就与美国国会图书馆的数据一样多,沃尔玛产生的数据量不仅 对公司来说是个问题。即使是适度的R F I D 开发,每天都将会产生T B 级的数据, 因为每个物品都贴标签且会不停地发送E P C 、l o c a t i o n 和t i m e 数据。 3 ) 不准确性:制约着R F I D 技术广泛应用的一个主要因素是R F I D 阅读器产 生数据流的不准确性。在实际R F I D 开发中读取率的观测结果通常在7 0 到9 0 范围内【6 3 , 6 4 】。不幸的是,这种误差率使原始R F I D 数据对高层应用基本上无用。因 此,在给系统提供这些不可靠的数据之前,我们需要原始数据进行清理。 4 ) 空间的和时间的:R F I D 应用动态地观察贴标签物品位置和时间变化,数 据也携带状态改变信息。因此,在R F I D 数据管理中,给这些数据建模是必不可少 的,通过一种适合跟踪和监测物品的应用层交互式数据模型。考虑到不论R F I D 阅 读器还是标签都可以嵌入P D A 、手机和移动设备内,贴有标签的物品和阅读器随 着时间的不同可能都在不停的运动。 2 。2 数据挖掘技术 数据挖掘又称为数据库中的知识发现( K n o w l e d g eD i s c o v e r yi nD a t a b a s e ,简称 K D D ) ,它起源于8 0 年代初。机器学习和数据分析的理论及实践是数据挖掘研究 的基础,极大的商业应用前景又是数据挖掘研究工作的巨大推动力。传统的数据 库查询和统计只能提供人们想要的信息,而数据挖掘技术则可以发现没有意识到 的未知信息。数据挖掘就是对数据库中蕴涵的、未知的、非平凡的、有潜在应用 价值的模式或规则的提取。数据挖掘就是从大型数据库的数据中提取人们感兴趣 的知识。这些知识是隐含的、事先未知的潜在有用信息。因此,我们认为数据挖 掘必须包括三个因素: 1 ) 数据挖掘的本源:大量、完整的数据。 2 ) 数据挖掘的结果:知识、规则。 3 ) 结果的隐含性:因而需要一个挖掘过程。 2 2 1 数据挖掘基本概念 谢芳:R F I D 数据挖掘技术及其在环境污染事故危险源监管中的应用研究 1 3 数据挖掘基本概念主要有: 1 ) 模式( P a t t e r n ) :用高级语言表示的表达一定逻辑含义的信息,这里通常指 数据库中数据之间的逻辑关系。 2 ) 知识( D i s c o v e r e dk n o w l e d g e ) :满足用户兴趣度和置信度的模式。 3 ) 置信度( C o n f i d e n c e ) :知识在某一数据域上为真的量度。置信度涉及到许 多因素,如数据的完整性、样本数据的大小、领域知识的支持程度等。没有足够 的确定性,模式不能成为知识。 4 ) 兴趣度( I n t e r e s t i n g n e s s ) :在一定数据域上为真的知识被用户关注的程度。 5 ) 有效性( E f f e c t i v e n e s s ) :知识的发现过程必须能够有效地在计算机上实现。 数据挖掘具有以下主要特点: 1 ) 数据挖掘要处理大量的数据,它所处理的数据库的规模十分庞大,达到 G B 、T B ,甚至更大。 2 ) 由于用户不能形成精确的查询要求,因此要依靠数据挖掘技术为用户找寻 他可能感兴趣的东西。 3 ) 在商业投资等应用中,由于数据变化迅速,可能很快就会过时,因此,要 求数据挖掘能快速做出响应,提供决策支持信息。 4 ) 在数据挖掘中,规则的发现基于统计规律。因此,所发现的规则不必适用 于所有数据,而是当达到某一定“阀值”时,即认为具有此规则。由此,利用数据挖 掘技术可能会发现大量的规则。 5 ) 数据挖掘所发现的规则是动态的,它只反映了当前状态的数据集合具有的 规则,随着不断地向数据库或数据仓库中加入新数据,需要不断地更新规则。 2 2 2 数据挖掘技术的主要应用研究 1 ) 数据挖掘技术的商业应用价值 采用数据挖掘技术可以从大量的数据中发现对某种决策有价值的知识和规 则。这些规则隐含了数据库中一组对象之间的特定关系,这些关系可能会揭示一 些有用信息,从而为经营决策提供依据,提高市场竞争能力,产生巨大的经济效 1 4 扬州大学硕士学位论文 益。它在市场策略、决策支持、金融预测等方面都有广泛的应用。例如,在超级 市场的销售数据库中,普通的数据库操作只能查到购买面包和牛油的顾客人员, 通过报表统计工具可以发现它们的销售量与时间和地区的关系。但数据挖掘技术 还可以发现在购买面包的顾客中,大多数人还购买了牛油,因此如果把这两者摆 在同一个货架上,将会大大提高这两者的销售量。 2 ) 通过数据挖掘技术可以发现的知识形式 ( 1 ) 普化知识( S u m m a r i z a t i o n ) :普化知识描述数据集的普遍性规律或一般 性知识。它包括描述单个数据集特征的特征规则和区别不同数据集的差别规则。 ( 2 )关联规则( A s s o c i a t i o nr u l e ):关联规则形如 A 1 八A 2 八八A m _ B l 八B 2 八八B n ,其中,A i 和B i 是属性值的集合。关联规 则描述了数据库事务中数据对象之间的依赖关系。 ( 3 ) 分类规则( C l a s s i f i c a t i o n ) :分类知识是一个分类模型,它通过对测试数 据集( 已分类) 进行分析而得。分类模型用于对类似数据集的分类,分类规则刻 画了各类数据子集的特征。 ( 4 ) 聚类分析( C l u s t e r i

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论