版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据恢复的相关技术的研究现状综述目录TOC\o"1-3"\h\u1904数据恢复的相关技术的研究现状综述 1175861.1数据恢复的关键技术 1283331.2数据恢复的相关应用 2313991.3矩阵填充技术的研究现状 3274971.4张量填充技术的研究现状 51.1数据恢复的关键技术5g时代,对海量数据分析和挖掘的需求越来越大。物联网无线传感器设备受限于硬件性能,不同地域网络覆盖差异大,信号不稳定,数据丢包现象屡见不鲜,且多数设备缺少人机交互界面,一旦出现设备离线,消息丢失,往往会给用户造成不可估量的损失。由于各种原因(如采样成本或设备故障),有时人们只能对部分数据进行采样,而其他信息则丢失或空缺。确保提供物联网服务的连续性和可用性并避免任何潜在的操作故障和中断是如今无线传感器领域一个非常重要的挑战。当收集到的数据不完整时,数据的后续使用就不能达到预期的效果,因此需要数据恢复技术。有三种流行的方法可以从一部分已知数据中恢复完整的数据:压缩采样技术、矩阵填充技术和张量填充技术[5]。压缩采样是一种准确重建稀疏采样子集的技术,允许数据的采样方式远低于香农-奈奎斯特采样定理标准,用随机采样获取信号的离散样本,然后通过非线性重建算法完美重建信号。其基本思想是:只要信号是可压缩的或在某个变换域是稀疏的,那么就可以用一个与变换基不相关的观测矩阵将变换所得高维信号投影到一个低维空间上,然后通过求解一个最优化问题就可以从这些少量的投影(或称测量值)中以高概率重构出原信号。然而,压缩感应主要用于处理向量数据,这限制了它的应用范围。紧接着压缩感知,矩阵填充出现了。对比基于向量的恢复方法,作为矩阵可以捕获更多的信息,基于矩阵的方法可以得到更精确地恢复性能。矩阵填充为在各种相关的应用中充分利用低秩性带来了新的机遇。目前,主流的矩阵填充算法主要包括四种类型:小规模矩阵完形算法、核参数化算法、格拉斯曼算法、最小化算法、格拉斯曼尼流形最小化算法和其他新算法[2]。不足的样本数会使重建算法的计算时间过长,恢复的数据不准确,甚至算法不能收敛[1,8]。此外,尽管在数据缺失比例较低时,矩阵完成呈现出良好的性能,但当缺失率较高时,性能将受到较大影响。因此,在低采样率下准确的数据恢复一直是很多研究的主题。当人们需要处理规模更大、维度更高、结构更复杂的数据而矩阵不能捕捉到数据的所有特征时,张量模型是一个更好的选择。张量是一种类似于矢量但比矢量应用范围更广的数据结构,并可用于广泛的应用,如图像、监视和蜂群智能,在降低成本的同时提高效果。在传统的数据分析方法中,数据通常被表示为向量形式,然而,这种处理方式会破坏数据的时空结构,导致维度灾难和小样本情况[12]。而张量表示则可以在一定程度上避免这些缺点。张量作为向量和矩阵的高阶扩展,而向量和矩阵可以分别被看作是一阶和二阶张量。由于张量元素的数量随着维数的增加而呈指数级增长,计算和存储需求迅速增加,这成为实际应用张量分解的一个主要挑战。因此,设计高效准确的数据张量恢复算法以减少计算开销和加快张量完成过程是至关重要的。张量完成过程。1.2数据恢复的相关应用压缩感知方法被应用到了多跳网络和无线传感器网络中具有稀疏性或可压缩性网络数据的重构上面。压缩感知采样的普遍性和分散式编码的特征有可能使其成为一种新的网络数据分析范例.更重要的是,借助伪随机宽带调制器,低通滤波器和采样器,压缩感知方法可以以较低采样率实现对模拟信号到离散信号的直接采集。[17]矩阵填充在协同过滤、系统识别、信号处理、机器学习、计算机视觉、数据挖掘和模式识别、在线推荐系统等很多实际问题中都有非常重要的应用。在图像处理分析方面,压缩感知方法也被广泛应用.此外,矩阵填充还被广泛引入到计算机视觉、机器学习和图像处理[13]。张量填充目前用在很多的网络工程任务中,例如容量规划,负载平衡,路径建立,网络供应,异常检测和故障恢复等,逐渐成为研究和应用的热点。因张量模型所具备的多维特性、多模式相关性和低秩特性高度吻合了交通流数据特征,因此多位学者在交通领域中引入张量理论与模型,研究内容包含交通流数据处理与修复、交通数据融合、短时交通流预测、交通事故探测、实时交通预警等多个方面。HadiFnaee.T与JoaoGama构建了张量模型下的OD矩阵,结合Tucker分解提出了一种创新的交通事故探测算法,并在模拟环境和实际环境下进行了实验验证;柯文前等人基于交通流网络的时空特征,从张量分解的视角出发,对交通网络时空特性进行了解析、提取与挖掘,从局部至整体提取出不同的交通流时变规律;谭华春等人创新性地将张量理论运用至交通领域,进行了交通数据处理与修复、短时交通流预测与多元数据融合等多方面应用研究,并在此基础上提出了多种新型张量分解算法与张量填充算法。1.3矩阵填充技术的研究现状矩阵填充的主要工作是研究如何从矩阵中的已知数据去恢复其未知数据的过程,即在仅仅采集到未知矩阵小部分数据下恢复数据的问题。在没有任何限制条件的情况下,矩阵填充问题的解是无穷多的,是不可解的,但在实际问题中,很多时候实际需要处理的数据矩阵都属于低秩矩阵或者近似低秩矩阵,已有研究者证明了未知矩阵的低秩性是问题存在唯一解的前提。矩阵填充问题主要集中在恢复矩阵所需条件以及矩阵填充算法两方面,其中设计出精确的低秩矩阵的重构算法受到极大的关注,并已经有了大量的研究成果。目前主流的矩阵填充算法主要包括小规模矩阵填充算法、核范数最小化求解类算法、格拉斯曼流形最小化求解类算法、其它新型算法四类[1]。小规模矩阵填充算法代表算法有内点法[2]、投影次梯度法[3]和低秩参数化法[4]。核范数最小化求解类的代表算法有奇异值阈值算法、近似值的奇异值不动点连续法等。格拉斯曼流形最小化求解类算法代表的有OptSpace算法[5]、SET算法[6]等。其他新型算法类中包括低秩矩阵拟合算法、截断式核范数类算法[7]等。这些算法使用观察到的数据作为训练数据来获得所需的参数,有助于更好的捕捉矩阵数据的全局特征,恢复丢失的数据。由于本文实验的需要,这里重点介绍OptSpace算法和SVT算法。OptSpace算法是一个从随机采样中恢复低秩矩阵的高效算法,主要使用了谱方法,它是在格拉斯曼流形上进行目标函数优化。该算法对观测矩阵进行修剪,能够显著地提高数据恢复性能。在清理残差时运用格拉斯曼流形中的梯度下降法最小化目标函数。OptSpace算法的目标函数为矩阵填充的误差,即在低秩性的约束下,使得填充得到的矩阵的元素值尽可能接近真实值。Cai等人在[??]中指出核范数最小化方法受到最低秩矩阵条件约束,存在恢复结果不理想的情况。受线性化Bregman迭代方法在压缩感知领域中用于求解L1范数极小化问题的启发,Cai等人提出了一种简单的适用于较大规模的矩阵填充方法:奇异值阈值(SingularValueThresholding)算法。SVT算法是最早的一种解决矩阵填充问题的典型的Lagrange乘子算法,该算法使用软阈值算子简化对迭代矩阵进行的SVD分解,且迭代步骤较简洁,对于高维低秩矩阵的恢复非常有效。近年来矩阵填充理论取得了较大发展。Candés等人[8]证明了在采样数目充分的条件下,规模为且秩为r的低秩矩阵可以通过求解一个简单的凸优化问题恢复。并且证明了采样率需要满足的条件是。这里C是一个常数,。因此证明了精确恢复矩阵的数据所需的采样数目下限不仅与矩阵秩r有关,还与矩阵的尺寸有关。如果采样数目不充分,将使得重建算法需要长时间的计算,恢复数据不准确,甚至算法不收敛。此外,尽管数据缺失的比例较低时,矩阵填充呈现良好的性能,但当缺失率高时,性能将会受到较大影响。因此在采样率低的条件下精确恢复数据成为很多学者研究的课题。数据之间的关联性是不同数据之间的关系,数据之间的关系对了解整个系统的运行有着最直接的影响,数据之间的正确关系的梳理是系统有效运行,产生价值的基石。因为数据内部的相关特性导致数据具有稀疏性,稀疏性使得通过采集部分推断其余部分成为一种可行性方式。QuL[9]等人提出概率主成分分析方法解决数据丢失问题对流量分析的影响,并证明了相似性是影响数据恢复性能的一个因素。王乐乐等人[10]基于大量空气质量监测数据的分析,揭露了空气质量监测数据潜在的时间稳定性,空间相关性等特性,同时证明了矩阵重构降低了矩阵恢复所需的采样数目下限,进而可以获得更好的恢复性能。并且充分利用空气质量监测数据的潜在结构,提出了矩阵重排原则,基于该原则提出了基于矩阵重排的矩阵填充算法来精确恢复不完整的矩阵。对于矩阵填充来说低秩性是数据能精确恢复的一个必要条件,而且矩阵的秩直接反映了对已知数据数量的要求。但是,除了低秩性,实际应用中产生的数据往往还隐含着很多其他相关性例如,以气象数据为例,根据经验我们很容易能得出结论:气象数据在不同地区、不同季节有着明显的规律性,因此气象数据应该隐含着位置相关性、周期性等等相关特性。因为数据内部的相关特性会导致数据具有稀疏性,这是影响数据恢复性能的一个重要因素。因此,如果能尽量充分地利用数据内部隐含的相关性,那么算法的性能有望得到很大提升。然而,现有的矩阵填充算法往往忽视了这些相关性,在数据缺失率很高的情况下,矩阵填充算法的性能大打折扣。如何在数据缺失率很高的情况下充分利用数据内部隐含的相似性对缺失数据进行填充是目前的一大挑战,如果能够解决这一问题,那么数据恢复的性能将得到极大提高。同时,由于只使用很少一部分数据就能精确地恢复全部数据,可以减少采样过程中的能量损耗以及传输成本,使采样间隔更长或者对设备的要求降低,这对于气象数据监控、群智感知、网络监控等等领域都有着重大意义。1.4张量填充技术的研究现状张量填充是一个可以从有限的测量来恢复低秩张量的理论,已经应用于推荐系统[15],多分类学习[16],图像压缩[17],数据挖掘[18]等领域。张量填充可以从有限的测量来恢复低秩张量,基于张量的缺失数据恢复方法可以充分利用数据的多重相关特性,克服基于矩阵方法的不足,对于多维数据已经被证明是一个很好的分析手段。因为数据内部的相关特性导致了数据的稀疏性,稀疏性使得从收集的张量完成关键依赖于张量分解,它有两种主要形式:CANDECOMP/PARAFAC(CP)分解[19]与Tucker分解[20]。CP分解是扩展矩阵分解到多维数据最成功的,如REF_Ref97038706\h图2,CP分解将一个高维的张量分解成多个向量外积的和,通过这样的分解,可以降低参数的维度。然而,CP方法仍有不足。至今没有直接的算法来计算给定张量的秩,这被证明是一个NP难问题。对于实际问题,事先确定一个张量的CP秩或者最低的CP秩近似常常计算复杂度非常高。图SEQ图\*ARABIC2三维张量CP分解示意图Tucker分解可以看作是矩阵奇异值分解与主成分分析的高维范化,如REF_Ref97038757\h图3所示,主要思路是将张量分解为一个核张量与每一维度上对应矩阵的乘积。然而,不同于矩阵PCA中最佳降维可以通过截断的SVD获得,Tucker分解的降维没有多线性的求解方法。此外,由于张量元素随着维度的数目增加而指数级增长,计算与存储需求急速增加,这成为实际中应用张量分解的主要挑战。因此,设计有效的精确的数据张量恢复算法用以减少计算开销并加速张量填充进程至关重要。图SEQ图\*ARABIC3三维张量Tucker分解示意图基于这两种分解方法,PrateekJain等人给出了基于CP分解的张量完成方案[18],JiLiu等人给出了基于Tucker分解的张量完成方案[19],这些方案已经被应用到许多领域,如推荐系统和计算机视觉。AcarE等人开发了一种名为CP-WOPT的算法,该算法使用一阶优化方法来解决加权最小二乘问题[?]
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 生物打印技术在神经干细胞移植中的应用
- 生物化学虚拟实验与交叉学科融合
- 生物制品稳定性试验强制降解试验设计
- 生物制剂联合免疫抑制剂治疗的MDT协同方案
- 生物制剂失应答的炎症性肠病免疫调节治疗
- 生物3D打印:器官移植长期功能维持方案设计
- 数据面试题及业务理解能力含答案
- 图书出版采购编辑面试题及答案
- 深度解析(2026)《GBT 19396-2025铽镝铁磁致伸缩材料》
- 瓣周漏介入治疗中的患者心理干预策略
- 同型半胱氨酸的检测及临床应用
- 【MOOC答案】《电子线路设计、测试与实验(二)》(华中科技大学)章节作业慕课答案
- 2025年高考数学立体几何检测卷(立体几何中的三角函数应用)
- 2025年综合类-卫生系统招聘考试-护士招聘考试历年真题摘选带答案(5卷100题)
- 驻外销售人员管理办法
- 医疗反歧视培训
- GB/T 45701-2025校园配餐服务企业管理指南
- 2025-2030中国高效节能电机行业竞争力优势与发展行情监测研究报告
- 健身房合伙协议书
- 美甲师聘用合同协议
- 《储能电站技术监督导则》2580
评论
0/150
提交评论