浅议数据仓库技术对rfid数据的应用_第1页
浅议数据仓库技术对rfid数据的应用_第2页
浅议数据仓库技术对rfid数据的应用_第3页
浅议数据仓库技术对rfid数据的应用_第4页
浅议数据仓库技术对rfid数据的应用_第5页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

-精选财经经济类资料- -最新财经经济资料-感谢阅读- 1 浅议数据仓库技术对 RFID 数据的应 用 摘 要:对于 RFID 数据仓库有学 者提出了 Path Cube 模型和 Workflow Cube 模型来构建数据仓库。这两个模 型既减少了数据量,加快了在高层次上 数据处理的速度,同时又能将 RFID 数 据所包含的信息保存下来。文章对这两 种方法做了介绍,并指出 RFID 数据的 建仓技术将会得到进一步的发展。 中国论文网 /3/view-12877456.htm 关键词:RFID 数据;元数据; RFID 数据仓库 中图分类号:TP311.13 文献标 识码:A 文章编号: 1006- 8937(2012)11-0079-02 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 2 1 无线射频识别 RFID RFID 是 Radio Frequency Identification 的缩写,中文翻译为无线 射频识别。RFID 作为一种自动识别标 签,是通过射频信号来自动识别目标对 象从而获取相应的数据。RFID 标签有 很多种的识别方式,但最为常见的是存 储一个唯一的序列号来标识一个人或者 物品的信息。它是通过一个带有天线的 微芯片来传输信息,芯片借助天线将识 别信息传输给一个 RFID 阅读器。这种 技术让用户能通过一个 RFID 阅读器远 距离、非接触地读取数据,在这个过程 中阅读器和芯片之间不需要有机械或光 学的接触,并且这个过程不需要人工干 预,在任何环境当中均可自发完成。 RFID 会使得原来的供应链管理 系统变得更为智能,它改进了原始的二 维条形码,使得相应的货物跟踪和订单 管理的过程变得简易。近几年沃尔玛开 始在它们的供应链系统中使用这种技术, RFID 还被广泛应用于军事、邮政、航 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 3 空、医疗等领域。由 RFID 的广泛应用 而带来的新事物就是“ 物联网 ”,它意味 着人们能通过无线网络随时获取数以亿 计物品的位置及相关信息。 Jiawei Han(2006)认为在数据 仓库领域对 RFID 数据的研究主要分为 三个方向:第一个方向在于安全地收集 和管理 RFID 标签携带的信息;第二个 方向是清理 RFID 数据中的误差数据; 第三个方向是创建一个多维度的数据仓 库,以提供对大量 RFID 数据集的 OLAP 操作。这也是本文的讨论内容。 2 RFID 数据特性 RFID 数据完全不同于传统的关 联技术或者数据仓库技术中的数据,对 这些不同之处的研究正是对 RFID 数据 进行数据建仓工作的起点,RFID 数据 主要有如下一些特性: 数据简单:RFID 所产生的数据 可视为一个 RFID 元数据的流,元数据 的结构主要是 EPC、Location、Time,EPC 是 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 4 Electronic Product Code 的缩写,即电子 产品代码,它用来唯一识别一个物品。 Location 是 RFID 阅读器读取该物品时 的所在位置,time 就是读取时的时间。 这种数据格式并没有携带太复杂的信息, 简单易读。 数据海量:RFID 应用的重要挑 战就是由此产生的海量数据。 数据误差:RFID 数据的另一个 重要问题是 RFID 阅读器在产生数据流 时会有误差。在实际应用当中 RFID 阅 读率大概在 60%70% 之间。 允许冗余:RFID 阅读器每隔固 定一段时间就会产生一个 (EPC,location,time)格式的元数据, 当一个物体停留在相同的地点一段时间 就会有很多元数据产生,这就形成的数 据的冗余,我们同样需要对这些冗余进 行处理。 3 RFID 数据清理 数据清洗是在数据处理过程中最 常见的问题之一,比如在数据仓库当中 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 5 进行各种预定义的成熟操作当中都涉及 到这一过程。在 RFID 当中的数据主要 存在以下三种问题:缺失值,数据错误, 数据冗余。 3.1 缺失值和数据错误的处理 缺失值和数据错误这类问题在 RFID 应用当中非常常见,因为一些简 陋的无线阅读器在无线通信过程中会出 错。很多学者针对这类问题提出了若干 解决方案,Yijian Bai(2007)提出的有 效的 RFID 数据流过滤技术、 Shawn(2007)提出的 ESP(Extensible Sensor Stream Processing,在线清洗多 层框架系统) ,付菡提出的基于定长滑 动窗口的清洗技术等等。其中 ESP 作为 主要的数据流清洗方法分为五个阶段, 每个阶段都对应一个不同数据处理的逻 辑过程。ESP 系统针对数据的时间粒度 和空间粒度,通过说明性的查询语言来 解决用户定义的功能,并通过实验证明 ESP 也适合于 RFID 数据流。 针对 RFID 数据流固有的不可靠 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 6 性,以及定长滑动窗口的窗口大小不容 易确定,Shawn 还提出了一种自适应的 改变滑动窗口大小的 RFID 数据清洗方 法SMURF。 3.2 数据冗余 数据冗余的问题在 RFID 应用当 中也非常严重。数据的冗余主要有两个 层面:在阅读层面的冗余以及数据层面 的冗余。 阅读层面的冗余:这种冗余是 指一个 RFID 标签在同一个地点被不同 的 RFID 阅读器重复读取。解决这种问 题的一个办法是,当一个 RFID 阅读器 打开时其它有交叉部分的阅读器暂时关 闭;其次,每个 RFID 阅读器计算出它 所覆盖的 RFID 标签的数目,然后将这 个数据向它所覆盖的每个 RFID 标签中 书写。如果一个阅读器一个标签都没有 锁定,则这个阅读器为多余的。 但是这个算法当中有一个假定, 就是每个阅读器会在同一位置持续很长 时间,然而在实际中很多阅读器是随时 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 7 移动的。 数据层面的冗余:Han JW 提 出了一种简化 RFID 数据源的方式。每 一个阅读器产生 RFID 元数据 (EPC,location,time) ,当一个物品停留 在一个地方一段时间后会持续产生这样 的元数据,解决方法将元数据处理成 (EPC,location,time_in,time_out)这样 的数据格式。在多数时候许多物品都是 一起移动的,比如一整集装箱的洗发水 从工厂出来后,在各物流中心中转,直 至被摆放到货架上。因此,我们用 (EPC list,location,time_in,time_out)格 式来进行储存有助于减少冗余。 4 RFID 数据仓库的构建 因为 RFID 数据的诸多特性, RFID 数据仓库的建立也不同于传统的 数据仓库。假设我们已经将数据进行了 清洗,得到了以 (EPC,location,time_in,time_out)格式 的数据。传统的数据处理技术也许能够 找出在指定地点,指定时间的相应信息, -精选财经经济类资料- -最新财经经济资料-感谢阅读- 8 但是对这些数据之间的联系则缺少相应 的研究方法,比如如何寻找某些类别的 商品从 A 地到 B 地的相关信息方面, 并没有很好的处理技术。为了满足用户 对信息的需求,并结合 RFID 数据本身 的特点,Hector Gonzalez,Xiaolei Li(2006)提出了构建 RFID 数据仓库 并进行数据处理的一些相关技术。建立 RFID 数据仓库,Han 等提出了两类模 型:一类是 Path Cube,另外一类是 Workflow Cube。 4.1 Path Cube 模型 Path cube 压缩并整合了一些物 体移动的过程中的地点时间等信息,它 是在物体的维度上建立起来的。这种 cube 能够有效率的处理一些 OLAP 的请 求。在建立这种 RFID 的数据仓库时使 用清洗过的数据按照 RFID-Cuboid 的形 式组合数据。RFID-Cuboid 包含三种类 型的表:信息表(Information Table) , 保存每个 RFID 标签的物体信息;停留 表(Stay Table) ,存储在同一个地点停 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 9 留的物体信息;地图表(Map Table) , 存储多个相互关联的停留记录的路径信 息。 信息表(Information Table):该 表存储的是例如物品名称,制造商,物 品价格,物品类别等和物品所经过路径 无关的信息。这类信息的每个维度有一 个相互关联的概念层次。在这张表里, 所有传统的 OLAP 操作都可以进行使用, 和一般常见的数据仓库类似。 停留表(Stay Table):在 RFID 数据处理时有一个常见场景就是大批量 物品一起移动的。根据上文数据清理部 分所述,每个记录可以调整为这样的形 式,gids 是一个标记,它指向更低级的 gids,最后一个层次的 gids 指向一组 RFID 标签的 EPC。time_in 是物品进入 一个地点的时间,time_out 是物品离开 一个地点的时间。如果物品还没有离开, 这个值为空(NULL ) 。m1,mk 是物 品停留在此地测量的一些记录,例如物 品的数目,在此地平均的时间,最大的 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 10 时间等量等等。 地图表(Map Table):该表是 RFID 数据当中特有的一张表,它不同 于传统意义上数据仓库中的表。这张表 中的数据使得处理有联系的、同一条路 径上的信息变得容易。在每个阶段使用 这张表可以压缩数据、减少数据量,同 时让信息的查询过程变得更有效。 Hector 指出通过使用 Path cube 形式的表之后,数据仓库所占空间大大 降低,同时 I/O 处理的速度有效降低, 这使得处理 RFID 数据变得更为容易。 4.2 Workflow Cube 模型 Workflow cube 是一个 data cube 的模型,在这个模型在多维的抽象层次 上涵盖了物体的移动流中的信息。它主 要从两个角度来观察这些数据,一个是 从物品的角度,另一个是从路径的角度。 所谓物品的角度就是物品可以有 多个抽象层次,物品可以是单个物品层 次,也可以是一个小类或者一个大类。 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 11 如鞋类包括运动鞋、皮鞋等,运动鞋下 面又有品牌分类。所谓路径的角度就是 物品存储可以有多个抽象层次,作为一 个卖场不需要关心运来的货物经过了哪 些中转站,而作为中转站也不需要关心 货物进入卖场后会放在哪个货架上。 Workflow cube 使用流向图计算 每个工作流的概率,流向图就是一个树 形结构图,树的每个节点是一个地点, 树的连线表示物品在两个地点间的移动。 Path Cube 和 Workflow Cube 与 传统的 data cube 有很多共同之处,如每 个维度都有一个概念层次,因此它们都 可以用星形模式来模拟。Path Cube 的 不同之处就在于

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论