序列模式挖掘及时间序列相似性搜索研究的综述报告_第1页
序列模式挖掘及时间序列相似性搜索研究的综述报告_第2页
序列模式挖掘及时间序列相似性搜索研究的综述报告_第3页
全文预览已结束

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

序列模式挖掘及时间序列相似性搜索研究的综述报告序列模式挖掘及时间序列相似性搜索研究的综述报告序列数据是指由项集组成的序列,例如,购物篮中商品的序列和医学记录中症状的序列等。序列数据存在很多应用场景,其中一些应用场景需要挖掘这些数据中的子序列模式和搜索相似序列。序列模式挖掘是指在序列数据集合中自动挖掘出频繁出现的子序列,可以帮助我们发现潜在的行为规律。时间序列相似性搜索是指找到与一个查询时间序列相似的序列,这有助于识别异常和预测未来事件。本文将就序列模式挖掘及时间序列相似性搜索的研究现状做一个综述。一、序列模式挖掘序列模式挖掘是指在一组序列数据集中,自动挖掘出频繁出现的子序列(也称为序列模式)。该任务的目的是在序列数据中发现重要的子序列,即我们称之为序列模式(或模式序列)。在序列模式之上的一系列任务中,序列模式挖掘是一项非常重要的任务之一,可应用于各种领域,包括无线通信,智能交通,生物医学应用等。目前,序列模式挖掘算法可以被分为两类:基于搜索的方法和基于预处理的方法。基于搜索的方法通过枚举序列数据中的所有可能的序列模式,寻找与最小支持度相等的频繁序列。Apriori算法是一种基于搜索的算法,常用于关联规则挖掘中。而在序列模式挖掘领域,Apriori算法的搜索空间非常大,因此效率不高。基于预处理的方法通过一些预处理技术和统计模型来减少搜索空间。一种基于预处理的技术是将序列变换成另一个空间,如MotifSpace,然后在该空间中寻找重复的模式。MotifSpace算法将序列映射到一个由CP(成对距离)或DTW(动态时间规整)距离计算的n维空间中,然后使用基于密度的算法寻找重复的模式。此外,还有基于序列分段的技术,例如SAX(符号化的近似)和PiecewiseLinearApproximation(PLA)等。在使用序列模式挖掘技术时,我们一般还会关注如何评估序列模式挖掘算法的性能,常用的评价指标包括准确度、召回率、F1分数和处理时间等。二、时间序列相似性搜索时间序列相似性搜索是指给定一个查询时间序列(querytimeseries),在数据集中寻找与该序列距离最近的当前时间序列。时间序列相似性搜索广泛应用于许多领域,如模式识别,数据挖掘等。如对于声音和图像处理中的模式识别,我们可以从库中的图像或声音中找到与查询图像或声音最相似的样本。基于距离度量的时间序列相似性搜索算法存在许多种,包括欧几里得距离、曼哈顿距离、DTW距离和基于编辑距离的距离等。相似性搜索的方法可以被分为两类:基于索引的方法和基于过滤的方法。基于索引的方法中,hierarchicalclustering(分层聚类)或k-d树等方法被用来构建时间序列数据集上的索引结构,从而提高相似性搜索的效率。这些方法存在一些限制,如在构建更高层次的索引结构时,数据量需要变小。MotifIndex算法和STAR算法是基于索引的时间序列相似性搜索算法的例子。基于过滤的方法中,会通过一些启发式方法来减少相似序列的数量,从而提高相似序列搜索的效率。这些方法包括经典的开窗方法和一些基于相似性上界的方法,例如PAA(PiecewiseAggregateApproximation)和SAX(SymbolicAggregateApproximation)等。针对时间序列数据,除了相似性搜索外,还有很多应用,例如时间序列分析和建模、异常检测、时间序列预测等。在进行时间序列建模之前,我们往往需要使用时间序列相似性搜索来寻找与我们待建模的序列最相似的序列,从而实现更好的预测效果。三、总结序列模式挖掘及时间序列相似性搜索都是数据挖掘领域中的重要应用。在序列模式挖掘算法中,基于预处理的方法相对于基于搜索的方法效果更好;而在时间序列相似性搜索算法中,基于索引的方法和基于过滤的方法可以被分别应用于数据规模不同的场景。不过,应该注意到序列数据分析对数据的质量和相关特征的理解非常重要,否则将对算法性能造成较大影响。参考文献:1.D.Lin,J.Keogh,andS.Lonardi.2003.“ASymbolicRepresentationofTimeSeries,withImplicationsforStreamingAlgorithms.”InProceedingsofthe8thACMSIGMODWorkshoponResearchIssuesinDataMiningandKnowledgeDiscovery,2–11.2.E.Keogh,S.Chu,D.Hart,andM.Pazzani.2001.“AnOnlineAlgorithmforSegmentingTimeSeries.”InProceedingsofthe8thInternationalConferenceonKnowledgeDiscoveryandDataMining,289–294.3.S.D.Bay,M.M.Malik,andR.J.Mooney.2003.“EfficientlyMiningtheGrammarofProteinSequences.”JournalofComputationalBiology,vol.10,no.3–4,313–325.4.X.Li,H.Yang,andY.Lu.2016.“SearchableEncryptionforSimilaritySearchonTimeSeriesData.”InProceedingsoftheJointEuropeanConferenceonMachineLearningandKnowledgeDiscoveryinDatabases,809–824.5.B.Cui,T.Wu,A.Kejariwal,andD.Klabjan.2016.“StreamMotifDiscoveryUsingTimeSeriesSegmentatio

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论