



下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、基于序变换的时间序列快速匹配搜索方法 时间序列作为一种数据形式广泛存在于各种商业、医学、工程、自然科学和社会科学等数据库中。时间序列的搜索是整个时间序列数据挖掘的基础,是数据挖掘的一个重要研究方向。该领域的基础性工作最早是由Agrawal等在1993年提出的。该问题可描述为给定某个的时间序列,要求从一个大型时间序列数据库中找出与之最相似的序列。近年来时间序列的相似性搜索问题正得到越来越多的重视,出现了许多面向相似性搜索的时间序列近似表示方法,如Agrawai采用的离散傅立叶变换DFTI,chan等人提出的基于小波变换的方法l2,Last等人提出的关
2、键特征(如斜率和信噪比)法,Korn等人31提出的奇异值分解法svD,xeogh等人l4先后提出的分段累积近似法以A、分段线性表示PLR和适应性分段常数近似法APcA15,Pemg等人提出的界标模型l6等,这些表示方法各有所长,针对了不同的应用背景,但仍有许多问题有待进一步的研究。例如:相似性度量进一步认识问题,降低对偏移、噪声的敏感性问题,算法的效率问题,用户与系统的交互性问题等。时间序列的相似性搜索可分为整体匹配和子序列匹配2种。本文针对子序列匹配问题提出的基于序变换的相似匹配搜索方法,以时间序列特征点的序模式对相似性进行描述,并在此基础上以分段趋势相似进行相似度量,从而实现相似性匹配搜索
3、的准确性和高效性。1墓于序棋式的时间序列相似匹妞1.1序棋式与序变换序模式是对时间序列中距离均匀分布的时间序列值排序关系的描述l7。对于时间序列x(O,阶次d任N,且延时:任N,则在t时刻获得的唯一的排序为“)三(。,。,。,一。,几/r00三可其中,r0,r,rd满足:(l)x,+r0:x,*。:xr十。_.:x,+。r;.(2)如果x,+。_l:二x,+。:,取介,rl。对于式(l)中的排序,当l=l,2,d时,其对应的序模式尸的第l个元素表示如下:i,=i(叮)=#rr。0,l,l一l,可(r)<可(l)(2)其中,二ru(r)表示数值;对应的序值;运算符“#”表示取集合中满足不等
4、式约束条件的元素:的个数。如图l所示,参数设置为r=1,d=4,r=3,得出x(r+3r)<x(t+r)<x(t+4r)<x(t+2:)<x(r+or),因此有23424、o“(,4·2,0,0气j厂res月、.、一一一rJ汀心二(3,1,4,2,0)对应的序模式p可通过如下分析求得:对于l=l,二认0)对应位置为4,而心(l)对应的位置为1,二、(0)=4>矿试1)=l不满足(2)中的条件,有il二O;对于1=2,有心(0)二4>心(2)=3,心(l)习<心(2)=3,。l,一个元素满足条件,因此,几=卜·依次类推,可得出对于犷J
5、,其序模式为在实际的序模式计算中,通常采用由式(l)和式(2)导出的式(4)进行计算:i,=i(可)=#rr。0,l,l一l,xt+,:之xl+rr(4)序变换是在序模式定义的基础上,将给定的时间序列变换为处于【0,(d+l)!一l区间的符号序列。序模式11,12,i3与nd之间形成的双射关系,即0,1!x0,1,2!xx0,1,d取值空间的元素排列与集合0,l,(d+l)!一玛中的整数一一对应,且该对应关系可通过式(5)描述171:_、若.(d十l)!nJ(I)=么王,二:,二二百气l+五)!对于前面的例子中序模式p=O,1,0,2,按照式(5)可得n试P)=22。同时,通过分析可知当整个序
6、列为升序时,勺(P)达到最大值(d+l)!一l;当整个序列为降序时,彻(P)达到最小值0。时间序列伸缩和平移序模式不变,序变换值不变,这一点可从图1中观察到。序模式和序变换的这种平移和伸缩不变性,以及序变换值与序模式的一一对应的特点,不仅为时间序列相似性提供了更加符合人类思维和视觉特点的描述方法,还为序模式的快速索引提供了一个有效途径。1.2相似性度t序模式能够比较全面地描述原有序列中的信息,克服以点距离为基础的时间序列误匹配以及物理概念不明确等缺陷。显然,若直接采用序模式对原始时间序列进行描述,不但会引入繁重的计算量,而且对相似性匹配搜索没有实际意义。因此,本文采用时间序列分段线性表示,先将
7、时间序列数据基于时间表示成多段相邻的直线,这样不但可以获得时间序列分段拐点作为特征点,而且实现了对原始时间序列的压缩、降噪和趋势特征的提取。子序列相似性度量,通过子序列的序模式分类和趋势分布距离匹配2个步骤实现。(1)子序列的序模式分类对数据库中的时间序列进行分段,线性表示获得特征点序列,根据需要设定特征点子序列的长度,并对各个子序列按照式(4)进行序变换,从而可以实现对特征点子序列的划分,将具有相同序变换数值的子序列归为同一类。(2)趋势分布距离设2个序列51和又对应的分段数为n,其对应各分段线段的斜率序列分别为k.:,k:2,k13,k,1和IkZ:,走22,无23,棍小定义2个序列的趋势
8、分布距离为按照式(6)和式(7)的距离定义,当51或S:序列在水平方向进行缩放时,二者间的趋势分布距离不受影响。趋势分布距离是对2个序列内部相对趋势(或称趋势分布关系)相似性的度量,这就保证了趋势分布距离匹配的合理性。通过对上述2点分析可知,如果某特征点子序列P与待查询特征点序列Q属于同一个序模式类,则二者趋势分布距离愈短,相似匹配程度愈高。1.3算法雄程基于序模式的时间序列相似匹配搜索,包括2大部分:(l)索引生成StePI初始化,设定分段线性化的规则与相关参数,以及子序列的长度与匹配精度;StePZ分段线性化,对原始时间序列分段线性化获得特征点序列;SteP3基于滑动窗的特征子序列序模式提
9、取及序变换;steP4建立索引,根据序变换值建立索引。(2)匹配搜索StePS对待匹配子序列进行特征点提取、序模式计算及序变换;SteP6根据变换的结果进行相似性搜索,得到同一序模式分类的匹配子序列;SteP7在同一序模式分类内部,根据需要按照趋势分布距离进行二次匹配(或用户直接浏览选取)。2关健技术间扭研究2.1签于柑动官和进推算法的序棋式提取算扶对于时间序列S,取滑动窗口的长度为d+l,设相邻2个滑动窗口获得的时间子序列为S(t)和S(t+T),它们对应的序模式分别为P(O和P(t+r),如下所示:S(t)=xt,xl+:,xt,Zr,xt,3r,xl+J卜r,x,rls(l+:)=xt+
10、r,xlZr,xtl十,xl十4:,一xl十r,xtf,P(t)=毛(t),12(t),屯(I),几(t)1P(t+T)=!凡(t+r),12(t+r),毛(t+r),几(t+r)1根据式(4),对于序模式p(r)和p(r+r),有i。(,)=#r0r<n,x,、。,x,+,:ri。(,+:)=#rlr<n+l,x,+r:x,+。:+:由此,对于2三n三d,有in(,)=#r0r<n,xr+rrxt+。:=#!r!lr<n,xt+rrxt+。r+#rr=0,xt+rrxt+。r=i卜1(t+T)+e。i。_、(t+r)+l,凡+r:凡+。r+rin_1(t+了),els
11、eD止“:,“2,=i客会一瓮K。=艺k。.,m=l,2根据上述推导,可得出下面的基于滑动窗和递推算法的序模式提取算法。对于T=tl,几,勺,肠,佃,初始化窗口长度队J+l,窗口序列几二t,rn,r,+2,t,+3,rn科,+dl。按照定义直接计算T.对应时间序列的序模式P(T.)二li,i:131;iu。基于滑动窗和递推算法的序模式提取算法的伪代码如下:Forn二2:l:(length(T)一W+l)Fori二n+l:I:n+d一lIfrn_一三t:e、一=l:else:e._一二0;EndEndFork二1:l:d一IIk=Ik+一Ck+I;Elld按照定义直接计算id;074072叮06
12、8P(T。)=【i:i:131;id;End例如:d二4,Tx二0.66,0.55,0.69,0刀6,0.93的序模式为(0204,几二0.55,0.69,0.06,0.93,098)时,根据上面的算法:cZ,e3,c4二l,0,l,则72的序模式为(2一l),(0一0),(4一l),i4,由定义直接计算份=4,因此,几的序模式为1034。2.2序椒式灵饭度生成特征点子序列的序模式的过程中,可以根据需要设定序模式生成过程的灵敏度,以降低错误舍弃(falsedismissal)的出现概率。灵敏度的设置通过设定一个正数实现,在序模式生成过程中,同一子序列中的任意2点瓜十。:和xt+br,如果lx,
13、+。T一,+brl夕,则认为x,+。r和xt+b:是相等的,即对小于的变化不敏感。2.3索引建立长度为d的序模式,依照序变换值分为(d+l)!类,即序模式与序变换值一一对应。因此,可以以序变换值作为索引,并通过二分法实现快速查询。3实脸结果与分析实验在基于Pentium4主频ZGHz计算机上进行,编程环境为Matlab6.IO11通推葬抉的实脸实验目的是侧试序模式计算的滑动窗递推算法与按照定义直接计算算法的效率。采用侧试序列的长度为104点,子序列的长度变化范围为5,25,步长为l。实验比较见图2。于0.6,但它们显著区别于待查询子序列,其潜在原因是第4个关键点的序模式显著不同于对应待查询子序
14、列的序模式。因此,这些子序列不能计入相似查询的结果。由此可见,序模式对相似性的描述更符合人们的思维和观察模式,而符号映射法对子序列的划分则过于粗糙,不仅产生了较大的无用候选集合,还难以构建有效的距离度量与之匹配。总:子序乒临1拟合脚曰1冈尸扁霖么16犯100招50么洲)2阅26从220no0乃8厄子序列53乃拟合线口声今副油Z一沪.,.“.洲砂r、丫以左仁二子序尹侣月拟合娜巴洲尸呢牙住54少汤ojZ一L吕173公幻.2650062阵簇二_u凭降U5410-二甲34.阁·呷见.001匆到刀2阅拟3匆一子序尹卜6L=期时3叭1刃100150么刀2引)引刀二二尸侧J.0I8t016。竹吩卜
15、195D喇)月科】oo奋502仪】子序尹临吕.口鹭牡之洲/尹L声加7【卜刃一5豁054r。耐咧麒社。一一子序列5777”··一一/油油一J凑漏时5!77750】001父图3么刃2知州刃刃1田150创刀2知基于序模式的查询结果示例叨训词耐。0661峨直搜计算递推算法0.68_二瑞爵溉了.二拟台砚L诸L二21了U州-.·,··二奋护今,砚.巴丁二-·-一:-众叱0.54卜,、,_二子序列SIV一气生才_拟合徽卜1.沙z。吕IJ曰!.口,!引】口刃】夕】2002503叹协50100150到1】塑2州一子序列53之理盆架书.卜二峭.闷卜-.一
16、月卜.月卜一二叼心哟心卜.一月卜.卜.一叫,闷卜.。与一言一命一朽州瓦戈枪站一北岌不一成子序列长度圈2借动,班推葬袂与定义宜挤计葬算按的实脸比狡由图2可知递推算法对子序列长度的变化不敏感,算法时间保持在0.55左右;而直接计算算法时间与子序列长度呈线性关系,随着子序列长度的增大,递推算法的优势愈加显著。由此可见,上述序模式的递推计算完全能够满足在线匹配搜索的需要。3.2相似匹砚搜索实脸本实验目的是测试相似匹配搜索质量和速度。测试数据通过Wiener过程产生,模拟现实世界中的股票市场价格波动等随机现象。测试数据长度为105个点,并进行规一化处理。线性分段阅值参数。0.02,获得的关健点个数为19
17、27个。设里灵敏度参数。二O。如图3所示,Sl为216点的待查询子序列,其分段拟合后得到趋势线段Ll,序模式为1么2,4,5,序变换值为689。得到的匹配序列为多个不同长度的子序列,其中,趋势分布距离小于0.6的子序列为7个,长度从173到334不等。因为这里序模式长度为5,其序变换值的区间为10,720;查询时间只须从上述区间查询变换值689对应的子序列即可。将时间序列数据和索引加载在内存后,整个序模式匹配搜索算法的时间约为70ms。如果采用符号映射法(将趋势的升降用O和l表示),上述待查询子序列sl对应的趋势符号表示为1110曰】,将产生无用候选子序列76个,其中典型的子序列如图4所示。虽然子序列Ll,LZ,L3和L4与待查询子序列的趋势分布距离小蒸筹憋江丫匆1001犯
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 经济学与行为科学的结合试题及答案
- 预防商铺火灾应急预案模板(3篇)
- 工地火灾应急救援预案(3篇)
- 高考作文呈现心灵风景试题及答案
- 工地火灾消防应急预案(3篇)
- 诊所火灾事故应急预案(3篇)
- 2025年计算机二级VB考试重点突破试题及答案
- 如何评估外部环境对战略的影响试题及答案
- 2025年计算机考试全面准备试题及答案
- 法学概论常见误区解析试题及答案
- 国有融资担保公司笔试真题解析
- 24秋国家开放大学《社会教育及管理》形考任务1-3参考答案
- 2024年江西省高考化学试卷(真题+答案)
- 大美劳动智慧树知到期末考试答案章节答案2024年江西财经大学
- 建筑史智慧树知到期末考试答案2024年
- AS1657-1992---固定平台、走道、楼梯与梯子的设计、施工与安装
- 地形图的识别及应用与涉密地图的保密管理(课堂PPT)
- 机电传动控制期末考试试卷试题及答案
- 电大汉语言文学专业本科社会实践调查报告
- 高级英语第一册Unit2Hiroshima课后练习答案
- 地下停车场交安设施施工方案_车库交通安全设施施工方案_标志_标线_交通设施00000
评论
0/150
提交评论