多媒体取证.pdf

上传人：扣*** IP属地：宁夏上传时间：2019-12-19 格式：PDF 页数：19 大小：15.21MB 积分：9.6 举报 版权申诉

已阅读5页，还剩14页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

评述中国科学院学部科学与技术前沿论坛信号与信息处理专刊引用格式:杨锐,骆伟祺,黄继武.多媒体取证.中国科学:信息科学, 2013, 43: 16541672, doi: 10.1360/n112013-00059 中国科学: 信息科学2013年第43卷第12期: 16541672 多媒体取证杨锐x,骆伟祺y,黄继武x x 中山大学信息科学与技术学院, 广州 510006 y 中山大学软件学院, 广州 510006 * 通信作者. e-mail: isshjw 收稿日期: 20130528; 接受日期: 20131014 国家科技支撑计划 (批准号: 2012bak16b06) 和国家自然科学基金 (批准号: 61202497, 61272191, 61003243, u1135001) 资助项目摘要多媒体取证是信息安全领域的重要研究内容之一,主要应用于司法取证、刑侦取证,是电子证据鉴别等领域中的关键技术之一.目前篡改媒体内容大量涌现,严重危及个人隐私与社会稳定,多媒体取证已成为一项迫切需求的技术.本文概要介绍了多媒体取证技术的特点和原理,并且从媒体源辨识、内容篡改检测、处理历史分析、反取证四方面阐述多媒体取证的发展现状和趋势,分析了各种取证技术所面临的难点,最后展现了未来技术发展的若干问题与可能趋势. 关键词多媒体取证篡改检测图像篡改图像取证音频取证电子证据 1引言在信息时代,随着各种数字媒体记录设备(如录音笔、数码相机、数码摄像机、智能手机等)的普及与迅速发展,信息的记录和存储形式已不再单单依赖文本,数字媒体信息如音频、图像和视频,已经逐渐成为主流的信息载体.以此同时,随着功能强大易操作的媒体编辑工具,和信息分享功能的社交网络等新技术的快速发展,许多涉及到媒体数据的来源、完整性、真伪性等安全问题变得日益严重.经过加工/编辑/篡改的不良媒体信息通过社交网络的加速传播对社会安全产生严重影响,不仅会扰乱人们的日常生活,而且会严重威胁社会的和谐稳定发展.例如, 2010年7月好莱坞影星mel gibson的前女友利用电话录音控告mel gibson对其实施家庭暴力,后来经过音频取证专家鉴定,所提供的电话录音存在篡改 1), 如图1(a)所示. 2011年5月在本拉登被射杀后,巴基斯坦电视台播出了一张本拉登尸体的面部图像,随后被全世界各大媒体广泛转发,最后被证实是合成图像 2). 2011 年6月中国四川官员曾因发“悬浮视察”的虚假照片(如图1(b)所示)而公开向民众道歉 3). 被各大网络广为传播的 “广州ufo”视频也最终被证实系伪造而成 4). 其实,这些例子只是数字媒体篡改的冰山一角,我们可以在现实中找出更多的例子 5). 如今, “眼见为实”、“有图有真相”的观点受到了严重的冲击. 1) 2) http:/www.guardian.co.uk/world/2011/may/02/osama-bin-laden-photo-fake 3) 4) 121943074.htm 5) 中国科学: 信息科学第 43 卷第 12 期图 1(网络版彩图) 典型的恶意篡改媒体内容事件 figure 1(color online) events of multimedia content forgery. (a) the audio recording of mel gibson case; (b) the forged picture of huili 图 2(网络版彩图) 利用 photoshop 的图章工具快捷地伪造出 “真实” 图像 figure 2(color online) creating a perfect image with the clone tool of photoshop. (a) original image; (b) result image 在功能强大易操作的媒体编辑工具(如photoshop, cooledit等)普及之前,进行多媒体篡改伪造只有专业人士才能进行,因此虚假媒体内容只会出现在极少数领域.如今这些编辑工具使得普通用户都能够成为造假高手.即使没有图像处理背景知识的普通用户,也能够利用photoshop, gimp等图像编辑软件,在较短时间内伪造出一幅视觉上无“痕迹”的图像.如图2所示,利用photoshop的图章工具,我们很容易将图2(a)内容篡改成图2(b)内容.同样,普通用户使用cooledit, goldwave, audicity等音频编辑软件就可以对录音进行任意篡改合成.对视频进行内容删除或添加也可以通过 adobe premiere等视频编辑软件快速实现.这种篡改媒体信息也将给司法取证、刑侦取证带来困难, 严重危及个人隐私保护和社会稳定,可见多媒体内容取证技术己成为一个迫切需要解决的问题. 基于数字水印和数字签名的方法可以归结为主动取证技术.这些技术需要在媒体数据产生同时或分发之前,人为地进行一些预处理操作,如嵌入数字水印、生成hash值等.然而,在大多数实际取证应用场合中,这些人为辅助的边信息往往是不可恢复或者根本不存在的.此时,主动取证技术将变得无能为力.我们需要采取另一种新的取证模式:被动取证(passive multimedia forensics)1,2.被动取证 (或称盲取证)主要原理是:数字媒体由于受到记录设备内部的软件(如去噪、增强、压缩处理等),硬件(如录音设备固有噪声、数码相机/录像机传感器特性、cfa结构等)以及自然场景(如自然语音的频谱特性、相邻图像像素/图像帧间的强相关性等)的影响,那些原始的没有经过任何后处理的媒体数据往往会带有某些固有的统计规律.这种规律会因媒体来源的不同而存在差异,或因某些篡改操作后 1655 杨锐等: 多媒体取证发生改变.因此,它可以作为媒体数据一种天然的“水印”信息,用以识别媒体数据的来源、检测篡改等取证工作.本文所阐述的多媒体取证专指多媒体被动取证,主动取证技术不在本文讨论范围内.从模式识别的角度上看,多媒体取证其实是一个模式分类或聚类的问题.其一般的研究策略是:根据实际的取证问题,综合利用多媒体信号处理、计算机视觉、成像设备软硬件结构等方面的知识,提取出给定媒体的某种固有统计特征,最后利用模式识别方法对所得到的特征进行分析判别.其中,媒体数据“固有统计特征的提取与分析”是媒体取证研究的关键所在.由于多媒体取证技术不需要辅助边信息,其适合于对未知来源的媒体进行真实性检测,如网络环境中照片/视频真实性区分,电子商务中的身份认证和资格认证,以及法律取证中图像/视频证据可靠性的鉴定等应用,具有重要的应用前景.多媒体取证技术能为公检法等国家机构的执法监督提供强有力的技术支撑,对于确保公共信任秩序、打击经济刑事犯罪、维护司法公正等都具有十分重要的社会和政治意义. 多媒体取证的研究迄今已有10多年的历史.虽然在某些特定的取证情况下,已出现了一些有效的取证分析技术.但是,多媒体取证研究总体上仍处于起步发展阶段,离实际的应用仍有较大的距离, 许多方法与理论体系还有待完善.并且,随着各种高级篡改技术及反取证技术(anti-forensics)的出现, 更多更具挑战性取证问题将会出现在我们的面前.由于多媒体取证有着较强的实际应用背景,取证分析的研究已经引起了国内外众多著名学者的高度关注,国际上一些重要的学术会议/期刊都纷纷设立了相应的分会或专刊对其作深入的研究.这在很大程度上推动了多媒体取证分析的迅速发展,多媒体取证已经成为了信息安全领域一个重要的研究热点. 从目前发表的相关论文看,大部分的媒体取证工作围绕媒体源辨识、内容篡改检测、处理历史分析、反取证展开.因此,我们将从上述四方面对现有取证的研究内容、检测原理及存在的挑战性问题作一个综述分析,并列出一些多媒体取证技术的具体应用.本文结构如下:第2节我们将介绍媒体源辨识的研究现状并分析其面临的难点;媒体内容篡改检测的相关技术和待解决的问题将在第3节进行阐述;对于媒体内容处理历史分析的现状分析以及相应难点将在第4节展开;第5节我们将围绕反取证与取证之间的对抗进行阐述,指出取证技术需要解决的问题;第6节我们将对多媒体取证技术实际场合中应用进行说明;最后在第7节我们将对多媒体取证进行总结并指出未来可能的研究方向. 2媒体源辨识媒体源识别主要研究内容是:判断待测媒体属于哪类或者是否来自特定的设备.其中设备包括成像设备和录音设备,具体为照相机、摄像机、扫描仪、手机和录音笔等.媒体源设备辨识的主要依据是:同一设备所获取的所有媒体数据均带有该设备的内在特征,这些特征只与该设备独有的硬件元器件有关,与多媒体数据所表达的内容无关.根据媒体生成设备的区别,本节将从以下三方面介绍媒体源辨识:成像设备辨识、录音设备辨识和cg (computer graphics)图像辨识.最后指出媒体源辨识面临的难点和未来可能研究的方向. 2.1成像设备辨识目前主流的成像设备包括数码相机、扫描仪、摄像机.因此成像设备辨识的研究工作也主要围绕这三类设备展开.由于扫描仪、摄像机所采用的方法均借鉴于相机的辨识,故下面我们只介绍相机识别的相关工作. 不同类型的数码相机通常使用不同的镜头和成像传感器,并且采用不同的数字信号后处理运算, 1656 中国科学: 信息科学第 43 卷第 12 期图 3(网络版彩图) 数码相机成像过程, 修改自文献 2 figure 3 (color online) the generation of an image inside digital camera, modifi ed from 2 包括去马赛克、伽马矫正、色彩矫正、白平衡、压缩等.一个典型数码相机成像过程如图3所示.因此即使拍摄同一对象,不同相机所生成的数码照片不仅在风格上有所不同,在像素值上也存在细微差异. 通过数字信号处理技术提取这些差异特征并进一步分析,可实现成像设备辨识.针对数码相机的识别主要有两大类:相机个体识别和相机模型(camera model)识别. 由于能获取数字图像的相机各式各样,相机个体识别主要研究的是:给定一幅数字图像,判别该图像出自于哪个具体相机.该工作在法庭取证、图像篡改检测等都有着重要的实际意义.其主要判别依据是:数码相机成像的硬件设备(主要是传感器),由于其制作工艺、自身材质等的差异,会使得输出图像带有相对固有的“指纹”信息.目前,相关的研究报告也比较多,典型的工作包括:基于成像设备坏点 (defective fi xels)技术 3, 以及基于相机内部传感器模式噪声(pattern noise)技术 47. 非均匀模式噪声是由于相机的半导体晶片的非均匀性而产生,很难消除.同时该噪声与拍摄内容无关,并且在相机的寿命周期内都比较稳定,因此该模式噪声非常适合作为相机的固有“指纹” .通过计算待测图像中提取的模式噪声与已知相机的模式噪声的相关性,判定该图像是否来源于某一相机.最早的模式噪声提取技术由fridrich等人 4 提出,将多幅来源于同一相机的图像减去相应低通滤波图像得到差值图像,再将若干幅差值图像求平均所得到的图像被认为模式噪声图像.利用非均匀模式噪声进行相机识别的具体过程如图4所示.该方法提取的模式噪声容易被其它噪声干扰,例如背景噪声、压缩噪声等.在文献5中,作者在差值图像的基础上,根据统计信号检测理论,利用最大似然估计的方法提取出更为精确的模式噪声.相似的方法可以用于检测扫描仪 8、打印机9 等的源辨识.目前利用非均匀模式噪声进行相机识别的技术已比较成熟,在国外某些具体案例中已经采用该技术进行图像证据的鉴别.然而,随着反取证技术的发展,相机识别技术又将面临新的挑战. 与相机个体识别取证问题不同,相机模型识别主要研究的是:给定一幅数字图像,鉴别拍摄该图像属于哪种型号的相机,而非相机个体本身.其主要判别依据是:单传感器数码相机内部的cfa (color fi lter array)结构以及相应的颜色插值算法差异,使得输出图像其相邻像素间会产生某种线性关系.不同厂家或者不同型号的相机往往使用不同的颜色插值算法,因此根据图像估算出其中的差值算法就能够识别出该图像的来源相机类型.所使用的典型的检测方法主要包括:基于检测单传感器颜色插值 (demosaicking)特征的方法 10,11. 该检测思想最早由farid等人 10 提出,根据插值点的像素值是由 1657 杨锐等: 多媒体取证图 4(网络版彩图) 利用非均匀模式噪声进行相机识别的示意图, 修改自文献 2 figure 4 (color online) camera identifi cation using photo response non-uniformity pattern, modifi ed from 2 邻域像素的值加权求和而来,利用em (expectation-maximization)算法估计加权系数,并计算出当前像素与邻域像素相似性概率分布图,然后借助支持向量机对相机模型分类.目前小规模相机型号的识别率已经非常高,即能够准确从上十种相机中识别出生成图像的相机.然而相机型号成百上千,相机模型识别还需研究如何进行大规模相机型号的识别问题. 2.2录音设备辨识目前进行日常声音采集的设备主要有麦克风、录音笔和手机.这些设备的录音核心部件都是振膜和阻抗转换电路,但具体不同设备由于体积、工艺等原因,这些核心部件存在巨大差异.这些差异导致即使不同设备同时在同一环境中录音,所采集到的音频信号在样本值上也存在一定差异.与相机识别类似,这些与录音设备相关的信号可认为设备的固有“指纹”. dittmann等人 12 最早提出麦克风识别的思想,由于录音时同时采集了录音设备和环境的背景噪声,利用提取背景噪声的统计特性,借助机器学习的方法对录音地点和麦克风进行分类,实现根据录音判定录音的地点和麦克风,从而检验给定录音的录制设备来源.文献13提取出音频文件中的静音部分并将其作为背景噪声,对其进行傅里叶变换,将频带的能量分布作为特征识别出录音所来源的麦克风.文献14借鉴相机识别中利用频域高阶统计量分类的思想,对不同麦克风采集的音频提取频域的高阶统计量,利用机器学习方法识别出录音的来源.由于不同的麦克风具有不同的频率响应函数,文献15利用高斯混合模型从录音中提取麦克风的频率响应函数,从而识别出录音所来源的麦克风或者手机.目前录音设备辨识仍处于起步阶段,识别率不高(普遍低于90%),识别设备数目较少(少于10). 2.3cg图像辨识随机计算机图形的发展,如今利用计算机生成的图形(cg)可以越来越逼近真实场景拍摄得到的图像,从而达到以假乱真的效果.如图5所示,该图像是利用cg技术生成的人物头像,单纯以肉眼已经很难分辨是否真实人物照片.识别cg和自然图像是媒体取证中另一个研究热点.其主要判别依据是: cg是计算机利用曲线或曲面数学方程得到,而自然图像则是通过光学成像和相机内部一系列的软件处理操作得到.两者的产生机理有本质的差异,从而导致它们在图像纹理特征、噪声等统计上的 1658 中国科学: 信息科学第 43 卷第 12 期图 5(网络版彩图)cg 图像 figure 5(color online) examples of computer graphics 差异.典型的算法包括:基于检测图形纹理边缘sharp structure特性及相机图像gamma矫正效应方法 16; 基于检测相机内部特有的cfa插值处理和是否存在色差效应方法 17; 通过考察两类图像(形) 噪声统计特性 18,19; 以及基于分形维特征方法 20 等.在文献16中作者通过分析自然图像和cg图像生成过程的差异,提出一个基于几何学的图像描述方案,利用局部纹理统计量等192维特征对cg 和自然图像分类.由于自然图像与cg图像在小波分解的统计模型上有差异,文献17利用小波系数的线性预测和预测误差提取216维的特征,再借助支持向量机区分自然图像与cg图像. 2.4源辨识面临的难点尽管针对媒体源辨识已经有不少突破性的研究工作,但是媒体源辨识距离多数实际应用还有一段距离,依然面临着若干挑战性问题.在成像设备辨识中,目前的算法都要求较大尺寸和较高压缩因子的图像.对于成像设备辨识比较迫切的问题就是:如何提高在图像块比较小、图像压缩率比较低等情况下的检测效率与检测精度.由于目前的模式噪声提取算法在一定程度上受图像内容影响,基于模式噪声的源辨识需要考虑以下问题:如何根据图像纹理内容的信息,自适应地提高噪声模板的精度,以提高小样本图像的检测效率.另外由于当前模式噪声匹配算法效率比较低,我们还需要研究如何快速有效地寻找噪声模板的同步信息.因为利用模式噪声进行源辨识的研究已经开展了6年多,已经出现针对性反取证操作,所有下一步还需研究如何抵抗反取证的攻击等. 目前cg图像辨识的算法只能检测仿真度不是非常高的cg图像,急迫需要解决的问题包括:如何检测高仿真的cg,如何识别cg经相机翻拍后的图像等.同时cg图像辨识还存在对抗的问题,若在cg中加入成像特征,目前的辨识算法将会失效. 3媒体内容篡改检测媒体内容篡改检测的主要研究内容为:判断待测媒体的内容是否包含篡改,并且进一步指出篡改的位置.针对不同媒体,具体篡改类型有所差异.对于图像,常见的篡改包括:局部复制(copy-move)、拼接(splicing)、内容消除(seam carving)和伸缩(zoom)等.对于音频,常见的篡改有:拼接(splicing)、裁剪(cropping)、局部复制(copy-move)、变声(voice conversion)等.对于视频,常见的篡改包括:删除(deletion)、插入(insertion)、物体消除(video inpainting)和局部复制(copy-move)等.由于媒体内容具有众多类型的统计特性,被篡改部分的内容与无篡改部分即使在人感知层面上无法区分,也会在 1659 杨锐等: 多媒体取证某种统计特性上有显著区别,因此媒体的内容篡改总是能在一定条件下被检测.下面我们将根据检测方法的不同,分为三部分介绍媒体内容篡改检测:无后处理的篡改检测、基于计算机视觉和物理方法的检测以及基于压缩痕迹的检测,并指出当前各类算法的不足和改进方向. 3.1无后处理的篡改检测无后处理的篡改指的是:针对媒体进行局部复制、拼接、裁剪等篡改操作,但没有进行后处理操作以掩盖篡改痕迹.这类篡改由于没有后处理刻意消除篡改痕迹,因此往往在媒体的合成边界附近存在过渡不协调.检测定位该类篡改,就变成了在媒体的某一特定特征空间下检测信号的“跳变” . 局部复制是媒体篡改的简单并且常用的手法,在图像、视频、音频篡改中都有出现.局部复制的检测思想是:在媒体内不同位置上若检测出高度匹配的图像块/音频段,则认为该媒体包含局部复制. 这类算法的原理比较简单,关键是如何提高块的搜索效率以及抵抗由加性噪声和有损压缩而引起的像素值/样本值的轻微变化.文献2124针对最为常见的局部复制篡改提出搜索图像中有无完全相同的区域,其中文献21是通过比较离散余弦变换块的系数,文献22是通过比较图像块的主元分量, 而文献23则利用颜色直方图的特征进行图像块的匹配.由于局部复制过程中,图像块可能会经过旋转缩放操作,文献24提出了基于fourier-mellin变换的特征进行图像块匹配的方法. 图像拼接是合成图像的一个最基本方法,目前大部分图像篡改实例都是利用了该方法得到.图像拼接的主要检测依据是:来自不同源或场景下的两个图像块,其本身具有的统计特征(如色彩、纹理、光强等)是存在差异的,当两者拼接合成在同一图像时,就会使得合成图像统计特征产生不一致,尤其体现在篡改块的边缘位置上.因此,对图像拼接的检测尤为重要.典型的算法包括:通过检测由于图像拼接块边缘而引起的“跳变”、色调不一致等特性 2529; 以及基于人视觉注意力特性(visual saliency) 的检测方法 30 等.音频拼接同样会在拼接处出现过渡不协调,尽管这种不协调微弱到人耳无法感知. 文献31通过多次差分提出出音频的高频信号,利用模板信号与该高频信号的相关性,检测并定位音频的拼接.这类检测算法在无后处理情况下,已经达到较高检测率.然而在针对性后处理操作消除拼接痕迹后,这类算法通常失效. 3.2基于计算机视觉和物理方法的检测数字媒体,尤其是图像与视频媒体的获取过程是一个3d到2d的空间投影过程,因而数字媒体中的画面结构是满足投影几何约束的.同时,数字媒体反映的是真实场景中的客观视觉信息,现实环境的物理规则也将记录反映在媒体中.图像视频内容篡改往往都是通过对图像内对象进行添加、消除、修改操作,一般是将一幅/帧图像中的对象或背景与另一幅/帧图像的背景或对象重新组合形成伪造图像,或是删除图像中的某一对象或背景来隐藏重要的目标.这些操作通常会破坏自然图像的光照一致性,而篡改操作很难把光照效果和定向的光源相匹配,如图6所示.因此通过对媒体内容的物理规则以及投影几何规则的验证,可以作为媒体取证的依据之一.基于计算机视觉和物理检测方法的关键是建立物理对象、光线和相机之间的光照模型.文献32最早提出利用光源方向不一致性检测图像篡改,通过建立单光源的二维光照模型,提取出图像内物体表面的光源方向.文献33提出基于单映投影矩阵约束的多视角图像伪造区域检测和提取算法.文献34通过投影几何约束判定图像内文字是否被篡改.文献35,36则采用传统的投影几何约束,对图像内部的圆形、直线、矩形等结构物体进行分析,以此作为图像目标真实性的依据.此外在场景物理规则中,环境光线信息(如光照角度、太阳高度信息、经纬度信息、阴影一致性等)通常被用来作为判断依据 37,38. 对于视频媒体,物体的运动轨 1660 中国科学: 信息科学第 43 卷第 12 期图 6(网络版彩图) 利用区域光源方向的不一致性检测图像篡改, 修改自文献 39 figure 6 (color online) image forgery detection using inconsistent of light direction, modifi ed from 39 迹和帧间轨迹也常作为内容鉴定的依据 39. 对于音频取证,由于录音时除了语音信号还同时采集了电网频率(electrical network frequency)信号,因此利用录音中所提取电网频率与电厂发电公司的数据比较,即可知道录音的真实录制时间并且录音是否被篡改 40,41. 另外文献42通过提取录音里面的回声信号,分析回声信号的一致性判断录音是否曾被篡改.这类算法具有较强的物理意义支撑,但是均涉及到从强信号中提取弱信号的问题,检测准确率非常依赖于所提取弱信号的准确性. 3.3基于压缩痕迹的检测数字媒体的存储格式本身具有一定的格式属性,由于数字伪造时常会混合多种媒体源,这将改变目标媒体的文件格式压缩比率(如jpeg压缩、h.264压缩、mp3压缩).因此,对目标文件进行格式属性分析也可用来检测媒体是否被篡改.例如:文献43提出基于jpeg格式分析的被动取证方法. 基于此,文献4447分别采用不同的方式去测量jpeg文件格式的压缩比率,根据比率的一致性来判断图像是否被篡改.文献48提出根据压缩损失噪声来判断图像原始性的方法.文献49则是通过 jpeg文件头的信息来判断图像的原始性. 目前视频的篡改检测工作,也有多项经典算法是基于视频的压缩痕迹.由于mpeg视频i帧、p 帧、b帧的编码方式不一样,当视频发生篡改可能引起部分帧丢失,使得重新保存时某些帧的编码方式发生变化,因此文献50通过计算mpeg视频帧的运动误差,分析是否存在周期性噪声检测篡改. 文献51针对消除隔行扫描的视频,由于视频消除隔行扫描是一种周期性的插值模式,通过em算法来检测插值的周期性.当周期性遭到破坏时,可认为视频遭到篡改. 利用压缩痕迹除了能够检测媒体是否被篡改外,甚至还能够进一步定位篡改.由于音频的压缩是分帧进行的,而篡改后音频在篡改点起的分帧结构将会发生变化,从而提取出音频的分帧结构就可以定位音频的篡改.文献52首次提出该思想,通过频谱系数的量化特征检测音频的分帧结构,识别出每帧音频的帧偏移,再通过帧偏移的跳变定位音频篡改,图7展示了一个具体检测音频裁剪的例子. 1661 杨锐等: 多媒体取证图 7(网络版彩图) 利用 mp3 的帧偏移定位音频篡改, 修改自文献 52 figure 7 (color online) exposing mp3 audio forgery with frame off sets, modifi ed from 52.(a) original waveform; (b) doctored waveform; (c) detection result of original audio; (d) detection result of doctored audio 3.4篡改检测面临的难点目前拼接检测方法不允许作任何的后处理存在(即简单拼接),因此我们还需研究如何提高现有方法鲁棒性,如抗jpeg压缩、模糊等处理.针对一些特定场景下的图像拼接篡改,我们可以考虑结合图像内容“中高层视觉”信息进行拼接检测.基于光学模型的检测算法很多程度上依赖于光源提取,而光源提取容易环境因素影响.另外光学模型的建立需要更加逼近真实场景.而基于压缩痕迹的检测方法往往在媒体经过转换编码后就会失效,如何能够在检测转换编码格式的媒体篡改依然是一大难题.若媒体篡改后经过高压缩率的重压缩,这种情况下就很难利用压缩痕迹定位篡改. 4媒体内容处理历史分析媒体内容处理历史分析的主要研究内容是:判断待测媒体的原始性,检测该媒体是否被后处理操作加工处理.常见的后处理操作包括:滤波 (fi ltering)、重采样(resampling)、压缩(compression)、增强(enhancement)、几何变换等.由于多媒体作为证据时,要求必须鉴别其原始性,因此分析媒体内容的处理历史是媒体取证过程中必不可少的.同时,伪造者对媒体进行篡改后,通常也会对篡改后媒体进行后处理以掩盖可视/可辨听的痕迹,因此分析媒体内容处理历史可以辅助检测媒体内容篡改. 4.1压缩历史分析由于日常采集的照片、录音、视频等多媒体内容通常以压缩格式形式保存,因此对多媒体内容的伪造篡改往往也发生在压缩格式的媒体上.分析媒体的压缩历史成为检测内容篡改的重要辅助手段. 1662 中国科学: 信息科学第 43 卷第 12 期图 8利用 dct 量化误差检测 jpeg 重压缩, 修改自文献 48 figure 8 detection of double jpeg compression with quantization errors, modifi ed from 48.(a) jpeg lena; (b) distribution of dct coeffi cients at (1,1) before quantization; (c) distribution of dct coeffi cients at (1,1) after quanti- zation; (d) distribution of dct coeffi cients at (1,1) before de-quantization 由于音频或视频的压缩历史分析方法与图像的类似,下面我们只对图像压缩历史分析进行展开阐述. 数字图像往往是以压缩格式(主要是jpeg)存储,因而对图像篡改的一般过程是:首先将图像进行解压,然后对解压后图像进行各种篡改操作,最后还需要对篡改后图像进行重压缩处理.所以重压缩是图像篡改的一个必要步骤.根据jpeg图像块在重压缩时,其88分块位置是否一致,可将重压缩检测分为以下两部分. a)分块位置一致的重压缩检测.当前后两次压缩对应量化系数不成比例时,典型的算法主要是: 基于考察图像dct频率系数的统计规律方法 48,5355; 当两次压缩因子一致时,典型的算法有基于 jpeg重压缩误差变化的方法 45. 此类算法的主要检测依据是:图像频率域系数重量化效应.当量化因子不成比例时,对应量化后系数的直方图会呈现周期性高峰/低谷的规律;而当量化因子成比例时, 图像重量化误差会随着压缩的次数增加而减小,如图8所示. b) “移位重压缩”检测.文献56提出了jpeg图像合成过程中出现的“移位重压缩”模型,并分别提出了基于空域 56 和基于频率域 57 的检测方法.文献47,58对上述算法进行改进,并应用至图像篡改检测.此类算法的主要检测依据是: jpeg图像是基于分块压缩的思想,图像被规则地划分为88,如果图像被移位重压缩后,这些规则分块的信息就会被破坏. 1663 杨锐等: 多媒体取证压缩历史分析除了识别出媒体是否曾被压缩、是否被重压缩外,还包括源编码器(source coder) 识别.有损的数字图像压缩编码方式有许多,如基于dct变换的jpeg压缩、基于小波变换的 jpeg2000、以及各种各样的矢量量化(vector quantization)方法等.图像源编码器识别主要研究: 给定的一个bmp图像(无任何之前压缩的信息),我们想判别该图像是否经过了某种压缩处理,进入分析其压缩的参数是什么,如压缩量化表、小波基、小波分解层数等.这对于图像的源分析,篡改定位等都是关键的第一步.此外,这也为某些图像增强操作提供了依据.目前,相关的工作主要有文献 5962.其主要判别依据是:源编码器在其压缩过程中会产生信息量丢失(有损压缩),其信息丢失的频谱位置及丢失的程度会因编码器的不同而存在差异. 4.2信号处理历史分析由于媒体篡改后处理有多种不同方式,因此针对不同信号处理方式出现了很多检测算法.下面以图像为例子展开阐述.目前已有中值滤波 63、锐化64、对比度增强65, gamma 矫正 66、旋转67、重采样 68 等常见后处理的检测算法.这类检测算法的主要依据是:各种后处理操作会引入一些新的有别于原始图像统计特征的痕迹,这种“痕迹”往往依赖于具体的后处理操作. 与传统的非数字取证方法类似,该技术主要通过直接或间接地对数字媒体,尤其是音/像素、音/像素块、特征描述符、时域/频域空间等媒体内容,进行基于信号处理手段的分析取证,来判定媒体的可靠度.例如:文献69,70以sift特征为基础,配合不同的匹配与判别标准,测量图像中是否存在重复区域(cloning)篡改.文献71通过快速傅里叶变换的对数极坐标特征分析像素块是否存在旋转和尺度变换,以此来进行数字图像的取证.文献72依据图像旋转角度分析,分析图像真实性.文献73 中,作者测量图像中物体边缘附近的像素模糊程度,以此来判定图像中物体的真实性.这类媒体取证方法具有速度快,精度高等特点,但由于其通常针对媒体的元素或信号时域频域特征进行分析,因此该类技术主要面向复制、重采样处理、简单拼接处理等篡改方式. 4.3处理历史分析面临的难点尽管媒体内容处理历史分析已经取得不少的研究成果,但是目前算法若想应用的实际环境中,仍然存在不少挑战性问题有待解决.对于图像的压缩历史分析,难点在于如何提高小样本jpeg图像块重压缩检测效率;如何检测不同图像源编码的交互重压缩操作.同时如何提高现有方法的鲁棒性,如 jpeg图像块经过模糊和旋转后进行“移位重压缩”等.在信号处理历史分析的研究工作中,难点在于如何根据具体的后处理操作,提高现有检测算法检测精度、效率及鲁棒性等. 5反取证与取证之间的对抗多媒体取证的基本依据在于:媒体的生成过程或者处理过程会留下特殊的痕迹,而媒体取证技术通过识别媒体是否存在相应痕迹判定其原始性和真伪.尽管多媒体取证技术能够识别出标准的媒体内容处理操作,但是已有研究工作表明:如果篡改者利用反取证技术对媒体进行处理后,已有的大量取证技术都将失效.反取证指的是:针对某种/类取证分析算法,提出相应的后处理操作,消除或改变篡改操作所留下的痕迹,使之检测性能大大降低或失效.通过研究反取证技术,研究者可以找出已有取证技术的不足,并且进一步明确基于该取证技术的取证结果的可信度,以便完善改进取证技术.由于 1664 中国科学: 信息科学第 43 卷第 12 期取证技术往往针对某一类痕迹进行检测,因此伪造者只要在篡改伪造完成后,进行针对性的操作处理, 就能有效消除篡改的痕迹,从而达到反取证的目的. 5.1反取证技术目前已报道的反取证相关工作较少,且主要是针对图像/视频压缩格式特征的反取证工作,而针对音频的反取证工作尚未有相关报道.在文献74中,反取证技术成功消除图像伸缩和旋转所留下痕迹, 使得检测图像伸缩和旋转的取证方法失效.文献75提出了一种改变图像上的非均匀模式噪声的方法,使得基于非均匀模式噪声的相机识别技术失效.在文献76中,提出了一系列针对图像压缩痕迹的反取证方法,主要对dct系数进行后处理使得其统计分布与自然图像的一致,从而能够欺骗利用图像压缩痕迹不一致的取证方法.文献77通过调整图像对比度增强后的直方图,从而去除对比度增强所留下痕迹.在视频删帧/插帧后,文献78通过对不同类型帧进行运动误差补偿,消除视频篡改后留下的周期性痕迹.这些反取证技术通常只关注检测算法所利用的痕迹,只对该类痕迹进行干扰,而忽略媒体经过后处理会改变其他统计特性. 5.2检测反取证如同对媒体的编辑操作会留下痕迹一样,反取证操作也可能对媒体内容产生一些新的痕迹.如果这些新痕迹可以被识别,那么我们就能研究出检测该类痕迹的取证技术.这样即使媒体篡改后经过反取证操作消除篡改痕迹,我们依然能够检测媒体内容的原始性和真实性.目前针对反取证所产生痕迹的取证方法非常少.针对非均匀模式噪声(prnu)反取证操作,文献79提出一种三角测试的方法计算模式噪声的相关性,从而能够识别出反取证操作.虽然针对图像压缩的反取证操作能够消除dct系数上压缩的痕迹,但是该操作会引起图像的感知质量下降,因此文献80提出一种可感知损失的度量方式检测图像是否曾被反取证操作处理.针对文献76里面提出的抖动dct系数消除压缩痕迹的反取证技术,文献81指出抖动操作会破坏88图像块间的统计特征相关性,并进一步提出利用dct 系数转移概率矩阵检测该类抖动操作. 5.3面临的难点当取证技术能够检测出某类反取证操作时, “聪明”的伪造者将会调整他们的反取证操作,使得反取证所留下的痕迹最小化以至无法被检测.这样就形成了取证者和伪造者之间的博弈竞赛.伪造者的反取证操作不需要完全消除篡改所留下的痕迹,只需要针对取证技术的检测阈值,产生适当强度的操作就能欺骗现有取证技术,同时也能保证针对反取证的检测失效.取证者必须改进原有的检测篡改痕迹的方法,同时进一步开发相应的检测反取证操作的技术.从目前的研究现状看,取证分析技术远远落后于篡改手段,大部分的检测算法还有待进一步改进.因此,对于那些检测性能较差且条件约束较多的取证分析方法,我们应着力提高它们的检测效率、精度及鲁棒性;而对于小部分检测性能相对较好的取证方法,如jpeg图像压缩历史估计、图像拷贝复制检测、基于模式噪声的相机个体识别、基于cfa插值的相机模型识别等,我们应从反取证的角度进行研究,提出一些后处理使得现有方法失效或性能降低,从而促进新的取证方法出现,使之逐步放宽取证条件的约束,达到实际应用的要求. 1665 杨锐等: 多媒体取证 6多媒体取证的应用对于多媒体取证技术的需求主要来自司法取证和刑侦取证,因为目前的声像资料证据越来越多是以电子化形式存在,司法和刑侦过程中必须鉴定声像资料的原始性和真实性才能确定是否采用.当然, 多媒体取证中的内容处理历史分析技术可以应用到非证据类媒体上,这样就能够检测出网络上图像、音乐、视频的处理历史,从而知道同一内容的各个版本之间的质量优劣.下面我们将从司法取证、刑侦取证和多媒体内容质量分析三方面阐述多媒体取证技术的应用,并展示一些真实案例. 6.1司法取证随着数码产品和智能手机的大量普及,日常生活的众多方面以照片、录音、视频等形式记录保存下来.这类媒体内容随时可能成为解决某个纠纷的关键性证据.在诉讼过程中,人民法院依据职权,或者应当事人及其他诉讼参与人的申请,需要指派或者委托具有专门知识人对各种资料证据进行检验、鉴别和评定的活动.司法部在2010年4月7日发布的声像资料鉴定通用规范 6)中要求对声像资料证据进行以下鉴定:录像资料真实性(完整性)鉴定,图像资料真实性(完整性)鉴定,录音资料真实性 (完整性)鉴定,声像器材的鉴定,语音同一性鉴定.这些鉴定工作正是多媒体取证的具体研究内容.多媒体取证技术的最主要应用场景也将是为各类司法部门鉴定声像资料的原始性和真实性.然而,因为目前的鉴别技术主要针对老式的声像资料(磁带或录像带等模拟形式),传统的声像取证方法和工具在数字化媒体上还不适用.此外,目前的鉴定工作主要依靠鉴定专家反复辨听观察声像资料,多媒体取证技术将降低分析过程的人力成本,减少鉴别的主观性,并且提高取证结果的可靠性. 6.2刑侦取证在刑事侦查过程中,警察往往需要利用照片、录音、监控视频等进行嫌疑人的锁定、追踪和监控, 同时所收集的很多犯罪证据也是数字化的多媒体形式.这些收集到的多媒体内容是否可信将影响到刑侦过程的决策.下面两个真实案例是从警察技术杂志 82 中摘录得到的. 真实案件1:某行贿案件当事人在行贿时用自己的iphone手机对行贿过程进行了录音,在案件侦破过程中为求立功表现向司法机关检举了受贿人,并交待了其用手机对行贿过程进行录音的情况. 真实案件2: 2011年11月贵州市小河区张某伪证案中,张某口供与证人提供录音资料内容不符, 办案单位送检录音资料要求鉴定录音是否经过篡改. 在案件1中所提出的取证要求是:提取手机录音文件并确定其时间等相关属性信息,以作为呈堂证据.而案件2中则要求检验录音资料是否经过编辑处理,标注出修改位置.这些都需要通过多媒体取证技术分析媒体并给出明确答案的. 6.3多媒体内容质量分析网络上内容相似、质量参差不齐音乐视频的大量存在,而主流的搜索引擎只是对搜索结果进行简单罗列,没有提供对结果的有意义的排序或筛选,这给用户的搜索带来很大的困惑和不便.网络音乐视频提供商也因为存储同一内容的不同质量版本的媒体,引起其服务器所需存储空间爆炸性增长.因此业界对于快捷高效的多媒体内容质量分析技术需求相当迫切.我们对大量的网络音视频分析发现,内容相同但质量不同的音乐视频,往往都是来自最初的同一个高质量的源版本,或者经过翻录翻拍,或 6)声像资料鉴定通用规范, 1666 中国科学: 信息科学第 43 卷第 12 期者经过重压缩,或者经过转换编码,经过这些处理加工生成后再重新发布.因此利用多媒体内容处理历史分析技术,将能够识别出网络音乐视频经过哪种加工处理、真实的压缩码率、原始的编码格式等. 这样我们就能基于媒体处理历史客观地评价多媒体内容质量,这有别于传统的多媒体内容质量客观评价方法,并且具有计算复杂度小运算快捷的优点. 7结语和展望目前多媒体取证技术在若干问题上已经取得突破,例如针对常见多媒体处理操作的检测,多媒体重压缩的检测,以及初级的多媒体内容篡改的检测等.然而目前大多数算法的研究尚处于起步阶段, 与数字声像资料鉴定的实际需求相比,其可靠性分析、篡改区域定位、鉴定精度等方面都有待进一步的深入研究.当前多媒体取证技术主要面临的问题与挑战包括: 1)大量新型多媒体编辑方式的出现.多媒体取证技术作为一种检测技术,必然导致其滞后于篡改技术.目前大多数取证技术仅能针对一些已知的多媒体篡改方式进行检测与防护.然而随着数字多媒体编辑软件的发展,数字多媒体的编辑方式也越来越多,篡改伪造质量也越来越高,各种多媒体编辑的后期处理技术不断地向现有的取证技术发出挑战.已有的取证技术已经不能满足当今的取证需求,如何应对新型多媒体编辑技术,提出高效的新型取证技术和解决方案是多媒体取证的关键问题之一. 2)多媒体复合编辑方式的出现.现有的多媒体取证研究为了便于对篡改伪造操作建模,往往对实际中篡改伪造过程进行了一定程度的假设和简化,从而使得取证算法仅对某一类篡改伪造操作进行检测取证.然而实际的篡改伪造操作往往较为复杂,通常是多种不同操作的组合,单一的取证算法无法检测这种复合的多媒体编辑操作.因此,如何对同类型篡改操作进行分类建模,如何准确鉴别不同类型的多媒体操作,如何还原完整的多媒体操作历史,都将是多媒体取证研究中不可规避的重要问题. 3)反取证技术的发展和普及.目前若某项取证技术在取证领域获得认同后,通常很快就会出现相应的反取证技术.反取证技术大幅度增加了多媒体取证的难度,降低取证结果的可靠性.现有的反取证技术也逐渐实现工具化,反取证不再是专业人士的独门活,普通用户也逐渐知道篡改后还必须使用反取证工具,从而使得多媒体篡改水平整体快速上升.因此,如何增强现有取证技术的鲁棒性,如何增加反取证技术的实现难度,将成为多媒体取证研究需迫切考虑的问题. 4)多媒体取证技术评价标准的缺乏.作为一项比较前沿的新兴技术,多媒体取证技术已受到国内外各大研究机构高校的重视.但由于该技术涉及面广、研究历史短等特点,大多数科研成果都是各自为政,且均处于理论研究阶段.整个技术领域缺乏一个公平的面向实际应用的测试数据库和测试评价指标.因此构建一个包含多种常见编辑方式的多媒体取证数据库就成为一个迫切的需求.同时,提供一个基于完备性、准确性、可用性等多个指标的多媒体取证技术性能评测标准也是当前所需的. 针对多媒体取证技术面临的问题与挑战,我们需要更深入系统地研究多媒体取证技术的理论、模型和方法.同时进一步研究和开发具有广泛应用前景的多媒体取证算法,为多媒体取证的应用提供高效的解决方案.因此,多媒体取证未来可能的研究方向包括: 1)从多媒体取证的现实需求出发,研究分析多媒体内容篡改/伪造的特性,探索高效的检测理论和方法,并进一步开发取证工具.探索适用于多媒体内容取证的新约束和新特征,有效融合各种约束和特征的新理论和新算法.对伪造多媒体和真实多媒体分别进行建模,寻找出具有区分度的统计特性. 深入研究基于信号处理操作和多媒体内容操作的取证技术,设计可靠的取证方案来鉴别多媒体数据的原始性. 1667 杨锐等: 多

人人文库> 全部分类> 应用文书 > 事务文书

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

多媒体取证.pdf

文档简介

温馨提示

最新文档

评论

多媒体取证.pdf

文档简介

温馨提示

最新文档

评论

相关文档