虚拟资产用户操作数据流立方体存储结构建设_第1页
虚拟资产用户操作数据流立方体存储结构建设_第2页
虚拟资产用户操作数据流立方体存储结构建设_第3页
虚拟资产用户操作数据流立方体存储结构建设_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、虚拟资产用户操作数据流立方体存储结构建设1 引言随着我国互联网的飞速发展,据中国互联网信息中心(CNNIC)最新发布的调查报告显示,我国网络购物用户年增长达到6.0个百分点。电子商务已经成为一种重要的市场行为和生活方式,人类社会活动正在从传统的物理空间延伸到数字空间。目前,针对虚拟资产的犯罪和破坏活动日益猖獗,虚拟资产的保护和管理对维护社会安定具有重要意义。我们结合虚拟资产用户操作数据流的特点,在数据流处理技术基础上构建流立方体,介绍其模型和聚集方法,为下一步的审计和追溯提供数据模型支持。数据流是实时、连续、有序的数据项序列(顺序由到达时间隐含地表示或显式地由时间戳指定),具有几个方面的特点:

2、(1)流中的数据元素实时到达;(2)系统无法控制新到达的数据元素的顺序;(3)数据流的潜在大小是无限的,系统的存储能力相对数据流的大小是有限的;(4)数据流模型中查询是相对不变的,而数据是时刻变化的;(5)数据流的扫描处理是一遍的,但是处理过的数据元素可能需要再次被访问。流数据方其实是多维数据表。由于存储空间和计算能力的限制,一般采用单遍扫描的处理算法对数据流进行多维、多层次聚集,构建虚拟的数据立方体。这种聚集结果也是分析人员最感兴趣的内容。2 相关研究近几年随着数据仓库和OLAP技术的发展,数据仓库和数据立方体已经成功应用在了许多领域,数据立方体成为了数据仓库系统中的关键部分。数据仓库和OL

3、AP技术是基于静态数据提供快速的在线数据分析,静态数据以关系或多维数组的形式进行存储。数据流上的数据立方体和传统数据仓库上的数据立方体的最主要区别是数据立方体的更新模式不同:数据流上的数据立方体更新必须是即时的,这样才能满足数据流实时查询最新数据的要求。数据立方体的计算时间和数据的维数成指数关系,数据流快速变化意味着数据立方体的更新将非常频繁,需要消耗大量的计算资源。最近出现了很多以数据流为信息承载模式的应用系统,这些系统都主要用于具有连续性、顺序性、实时性和海量性等特点的数据流处理。目前较为著名的项目主要有加州大学伯克利分校的TelegraphCQ、AT&T实验室的Gigacope、

4、布朗大学和麻省理工大学合作的Aurora项目以及Wisconsin大学的NiagaraCQ等。3 主要工作3.1 问题描述虚拟资产保全系统的数据来源于各个虚拟资产平台,通过对数据格式进行规范后再进行保存。大部分虚拟资产数据是用户操作日志,日志里包括用户每次登录后所访问的页面、点击以及购买的商品等数据。其格式如表1所示。操作日志数据可以划分多个维度,如用户账号(BuyerID)、用户登录的IP、登录时间、退出时间和操作时长等。各个维度自身又可以被抽象为不同粒度的概念层次,由此得到该维度的层次树。如图1所示,展示了虚拟资产操作日志数据IP维的层次树。定义1 追溯维度是虚拟资产审计追溯所检测到的用户

5、数据流中的相关维度。定义2 追溯视角是在一组追溯维度中分别选定某抽象层的对象所组成的流筛选条件。海量虚拟资产数据管理模块进行审计追溯时通常是根据所关注的问题在几个追溯维度上各选择一个抽象层次进行组合成为筛选条件,即选定追溯视角作为限制条件,满足条件的操作记录作为追溯结果。例如,某一安全管理员需要追踪某个三星级用户user1在时间段上的活动记录,则其选取的追溯视角为用户维的三星级用户层和时间维的小时层。基于追溯视角选定的子数据流,虚拟资产数据管理系统可以根据具体审计追溯过程所定义的需求对该子数据流进行深层分析挖掘。例如,对于某个时间段内虚拟资产用户动态进行挖掘,可能的追溯内容包括:(1)某个用户

6、在T时间段内登录的IP分布;(2)某个用户在某个IP上的活动时间段;(3)BuyerID =aaa,IP=,time=,基于该追溯视角下,查看aaa用户的活动记录等。在后面的实验中,我们将对(2)、(3)类型的追溯内容作为测试对象。3.2 流数据的预处理数据立方体有效计算的一般优化技术有四种。(1)排序、散列和分组。应当对维属性使用排序、散列和分组操作,以便对相关元组重新定序和聚类。在立方体计算中,对共享一组相同维值的元组进行聚集,有利于聚集的计算。(2)同时聚集和缓存中间结果。在立方体计算中,从先前计算的较低聚集而不是从基本事实表计算较高层聚集是有效的。(3)当存在多个子女方

7、体时,由最小的子女聚集。当存在多个子女方体时,由先前计算的最小子女方体计算父母方体通常更有效。(4)可以使用先验剪枝方法有效地计算冰山立方体。根据统计,我们可以知道用户、IP和时间在维度层次上存在的关系:IP BuyerID Time。因此我们把虚拟资产用户操作数据流依次按照IP、BuyerID和LoginDT进行分组得到数据流Group_DS。虚拟资产用户操作数据包括用户ID、登录IP、登录时间、操作类型(浏览商品、加入购物车、结算、货运方式、提交订单、付款方式、查看订单、付款)、退出时间、执行时长。这些数据可以分为属性数据和操作序列数据两部分。在数据流立方体构建前,我们首先要对用户操作数据

8、进行预处理,划分成用户属性集和操作序列集。属性集包括用户ID、登录IP、登录时间、退出时间、执行时长;操作序列集包括用户ID、浏览商品、加入购物车、结算、提交订单、货运方式、查看订单、付款方式、付款。处理步骤如下:输入:Group_DS。输出:属性集list1、操作序列集list2。1) load(Group_DS)/加载数据流。2) for(i=0;i0和各个维度的层次集合H=H1,H2,…,Hn | n0,(Hi(0定义4 一个立方体单元是一个二元组(A,M),其中A是在每一个维度Zi上具体抽象层次的集合,A=Hj1 1,Hj2 2,…,Hjn n其中Hji i

9、可以用*来表示最高抽象层次,表示立方体单元在该维度上不取维度值。M是对A进行聚集操作后得到的结果。设T、U、I分别表示时间、用户和IP地址三个不同属性,T2、U2、I2是比T1、U1、I1在其相应属性上更高的抽象层,一个三维虚拟资产数据立方体格如图2所示。虚拟资产用户操作数据流可以划分为多个如图2所示的日志维度,每个维度自身又可再细分为多个不同的抽象层次,从不同维度、层次上对流立方体进行查询分析,可以得到不同粒度级的数据信息。构建立方体可以用SQL查询说明,如下面的例子所示。Compute cube eid_iceberg asSelect BuyerID,LoginDT,ip,add(*)F

10、rom eidInfoCube by BuyerID,LoginDT,ipCompute cube语句说明立方体eid_iceberg的预计算,使用维BuyerID、LoginDT、ip和聚集度量add(*),其中add()函数是对操作序列进行串联。在构建虚拟资产数据流立方体时,我们可以采用多维聚集算法(MultiWay),MultiWay计算从基本方体开始,逐步向上到更泛化的祖先方体。MultiWay算法的伪代码表示如下:输入:list1,list2;迭代的起始维Z1;全程量:维度层次H,分流维度Z;输出:用于追溯的流立方体SCZ。(1)for(d=dim;d|Z|;d+) /划分每个维;(

11、2) C=cardinality; /d维的基数;(3) Partition(input,d,c,dataCount) /对维d创建数据的C个分区;(4) K=0;(5) for(i=0;i(6) C=dataCount;(7) MultiWay(input,d+1); /在下一个维上聚集;(8) K+=c;(9) endfor;(10)outputRec.dim=all;(12)endfor。经过上面算法构建的立方体是全立方体,它存储着当前时间段内所有用户的操作记录。由于运算和存储的限制,我们可以根据实际条件选择时间窗口的大小和构建策略。4 实验及分析为了验证此模型的性能,我们使用实际数据进

12、行了实验。实验环境为AMD Athlon 64 PC 3600+(2.09GHz)、2GB内存、Window XP。实验所用用户行为数据源于开源电子商务交易平台ECMALL,数据集包含7000条用户操作数据。我们分别基于MySQL数据库和流立方体对某一个用户的行为进行追踪。其测试结果如图3所示,可以看出构建流立方体可以有效地提高虚拟资产数据追溯性能。5 结束语本文根据虚拟资产用户操作日志数据流的特点,先对操作日志流数据进行分组和分割预处理,在此基础上应用多路聚集算法MultiWay,构建用户操作日志数据流立方体。这个算法采用多路聚集策略,能提高聚集速度。实验证明本文的构建方法能提高审计追溯效率

13、。由于流立方体的存储空间限制,审计追踪侧重于可疑操作,因此下一步工作重点是研究如何缩小存储体积和提高追踪精确度。另外,虚拟资产保全系统是为管理者提供异常预警功能,如何快速审计追踪是我们研究的重点。参考文献【1】 中国互联网络信息中心。第33次中国互联网络发展状况统计报告.http//hlwfzyj/hlwxzhg/hlwtjbg/201401/P020140116395418429515.pdf,2014-01.【2】 Avnur R, Hellerstein J.Eddies: Continuously adaptive query processing. I

14、n: Chen W,Naughton JF,Bernstein PA, eds. Proc. of the 2000 ACM SIGMOD Int,1 Conf on Management of Data. Dallas: ACM Press, 2000.261272.【3】 Hellerstein J, Franklin M, Chandrasekaran S, Deshpande A, Hildrum K, Madden S, Raman V, Shah MA. Adaptive query processing: Technology in evolution. IEEE Data En

15、gineering Bulletin, 2000,23(2):718.【4】 C.D. Cranor, Y.Gao, T.Johnson, V. Shkapenyuk, O. Spatscheck, Gigascope: high performance network monitoring with an SQL interface, In: ACM SIGMOD-SIGACT-SIGART symposium on Principles of database systems(PODS). Madison, Wisconsin, 2002:623.【5】 C.D.Cranor, T. Jo

16、hnson, O.Spatscheck, V. Shkapenyuk, Gigascope: A Stream Database for Network Applications, In: ACM SIGMOD international conference on Management of data. California, USA, 2003:647-651.【6】 T. Johnson, S. Muthukrishnan, V. Shkapenyuk, O. Spatscheck, A Heartbeat Mechanism and Its Application in Gigasco

17、pe, In: International Conference on Very Large Data Bases(VLDB). Trondheim, Norway, 2005:1079-1088.【7】 Carney D, Cetinternel U, Cherniack M, Convey C, Lee S, Seidman G, Stonebraker M, Tatbul N, Zdonik S. Monitoring streamsA new class of DBMS applications. Technical Report, CS-02-01, Providence: Department of Computer Science, Brown University,2002. J. Chen, D.J.DeWitt, F. Tian, and Y. Wang. NiagraCQ: A scalable continuo

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论