数字音视频处理课件第7章数字图像视频处理技术

上传人：h*** IP属地：山东上传时间：2025-05-15 格式：PPTX 页数：189 大小：5.94MB 积分：15 举报 版权申诉

已阅读5页，还剩184页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

第7章

数字图像/视频处理技术7.1图像的低层视觉处理7.2图像的中层视觉处理7.3视频处理中的关键技术研究7.4本章小结

7.1图像的低层视觉处理

7.1.1概述图像的低层视觉处理主要是指通过各种滤波器来实现图像增强。图像滤波即在尽量保留图像细节特征的条件下对目标图像的噪声进行抑制，是图像预处理中不可缺少的操作，其处理效果的好坏将直接影响到后续图像处理和分析的有效性和可靠性。

图像增强方法按作用域可分为空域法和频域法两类。空域法直接对图像中像素灰度值进行操作。常用的空域法包括图像的灰度变换、直方图修正、空域平滑、锐化处理和彩色增强等，本节重点介绍空域滤波增强。频域法是在图像的变换域中，对图像的变换值进行操作，然后经逆变换获得所需的增强结果。常用的方法包括低通滤波、高通滤波以及同态滤波等。

7.1.2空域滤波增强

空域滤波是在图像空间中借助模板进行邻域操作完成的，根据其特点一般可分为线性和非线性两类。线性系统的转移函数和脉冲函数或点扩散函数构成傅里叶变换对，所以线性滤波器的设计常常基于对傅里叶变换的分析。非线性空间滤波器则一般直接对邻域进行操作。另外，各种空域滤波器根据功能又主要分成平滑的和锐化的。平滑可用低通滤波实现。

平滑的目的又可分为两类：一类是模糊，目的是在提取较大的目标前去除太小的细节或将目标内的小间断连接起来；另一类是消除噪声。锐化可用高通滤波实现。锐化的目的是为了增强被模糊的细节。空间滤波器的工作原理可借助频域进行分析。它们的基本特点是让图像在傅里叶空间某个范围内的分量受到抑制而让其他分量不受影响，从而改变输出图像的频率分布，以达到增强的目的。

图像增强中用到的空间滤波器主要有两类。一类是平滑(低通)滤波器，它能减弱或消除傅里叶空间的高频分量，但不影响低频分量。因为高频分量对应图像中的区域边缘等灰度值变化较大较快的部分，滤波器将这些分量滤去可使图像平滑。另一类是锐化(高通)滤波器，它能减弱或消除傅里叶空间的低频分量，但不影响高频分量。

1.平滑滤波器

1)邻域平均法

邻域平均法是经典的线性滤波器方法。我们知道，图像中的大部分噪声是随机噪声，其对某一像素点的影响可以看成是孤立的。因此，噪声点与该像素点的邻近各点相比，其灰度值有显著的不同(突跳变大或变小)。基于这一事实，可以采用邻域平均的方法来判定图像中每一像素点是否有噪声，并用适当的方法来减弱或消除该噪声。

图7-1像素点(m，n)和其邻域的坐标示意图

邻域平均能很大程度上削弱噪声，但同时会引起失真，具体表现为图像中目标物的边缘或细节变模糊。图像邻域平均示例如图7-2所示。图7-2图像邻域平均示例

2)中值滤波法

中值滤波法是经典的非线性滤波方法。我们知道，低通滤波器在消除噪声的同时会使图像中的一些细节变模糊。在含噪图像中，噪声往往以孤立点的形式出现，尤其是干扰脉冲和椒盐噪声。这些噪声所占的像素很少，而图像则是由像素数目较多、面积较大的块组成的。如果既要消除噪声又要保持图像的细节，可以使用中值滤波器。由于它在实际运算中并不需要图像的统计特性，因此比较方便。在一定的条件下，中值滤波法可以克服线性滤波器所带来的图像细节模糊问题，而且对滤除脉冲干扰及图像扫描噪声最为有效。但是对一些细节多的图像，特别是点、线、尖顶细节多的图像不宜采用中值滤波的方法。

中值滤波法的原理是：对一个窗口(记为W)内的所有像素灰度值进行排序，取排序结果的中间值作为W中心点处像素的灰度值。用公式表示为

通常W内像素个数选为奇数，以保证有一个中间值。而若W内像素数选为偶数，则取中间两个值的平均值作为中值。

中值滤波的作用是：抑制干扰脉冲和点噪声，并且能较好地保持图像边缘。

中值滤波的依据是：噪声以孤立点的形式出现，这些点对应的像素数很少，而图像则由像素数目较多、面积较大的块构成。

中值滤波的关键是：选择合适的窗口形状和大小，因为不同形状和大小的滤波窗会带来不同的滤波结果。一般要根据噪声和图像中目标物细节的情况来选择。常用的中值滤波窗口有线状、十字形、X状、方形、菱形和圆形等。对于有缓慢变化的较长轮廓线物体的图像，采用方形或圆形窗口为宜，对于包括尖顶角物体的图像，适宜用十字形窗口。使用二维中值滤波最值得注意的是保持图像中有效的细线状物体。

中值滤波法与平均滤波法的对比：已知原始图像块(包含点噪声)为f(m，n)，加权平均法用模板

处理，结构为g1(m，n)；中值滤波法用模板

处理，结构为g2(m，n)；用矩阵可分别表示为

图7-3给出了图像平均滤波和中值滤波的对比结果。从图中可以看出，加权平均法在滤掉点噪声的同时，使目标物的边缘变模糊；中值滤波法在滤掉点噪声的同时，保留了目标物的边缘。

图7-3图像平均滤波和中值滤波的对比

相对于平均滤波，中值滤波对于椒盐噪声及干扰脉冲有很好的滤除作用，同时还能保持目标物的边缘，但这要在合适的应用场合和合适的滤波窗口形状和大小的情况下，因为滤波的目的是既要滤除噪声和干扰，又要保持图像中目标物的细节。因此，在使用中值滤波时，要注意以下事项：①

中值滤波适合滤除椒盐噪声和干扰脉冲，尤其适合目标物形状是块状时的图像滤波；②

具有丰富尖角几何结构的图像，一般采用十字形滤波窗，且窗口大小最好不要超过图像中最小目标物的尺寸，否则会丢失目标物的细小几何特征；③

需要保持细线状及尖顶角目标物细节时，最好不要采用中值滤波。

2.锐化滤波器

图像在形成和传输过程中，如果成像系统聚焦不好或信道的带宽过窄，会使图像目标物轮廓变模糊，细节不清晰。同时，图像平滑后也会变模糊，究其原因，主要是对图像进行了平均或积分运算。对此，可采用相反的运算(如微分运算)来增强图像，使图像变得更清晰。图像锐化处理要求输入的图像有较高的信噪比，否则经过锐化后信噪比更低，因为锐化将使噪声受到比信号还强的增强。一般是先去除或减轻干扰噪声后，才能进行锐化处理。

微分作为数学中求变化率的一种方法，可用来求解图像中目标物轮廓和细节(统称为边缘)等突变部分的变化。对于数字信号，微分通常用差分来表示。常用的一阶和二阶微分的差分表示为

在图像锐化增强中，我们希望找到一种各向同性的边缘检测算子，使不同走向的边缘都能达到增强的效果。这个算子就是拉普拉斯算子，该算子及其对f(x，y)的作用可表示为

则数字图像的锐化公式为

用差分表示为

则图像的拉普拉斯锐化表示为

式中，α

为锐化强度系数(一般取为正整数)，α

越大，锐化的程度就越强。图像在不同α

取值下的锐化结果对比如图7-4所示。

图7-4图像在不同α取值下的锐化结果对比

将式(7-9)写成模板形式，则有

当α取1和2时，就有

图7-4中的(b)和(c)就相当于W2

和W3

对图7-4(a)锐化的结果。同理，我们可以根据实际需要，设计出其他具有不同特性的锐化模板，如

式中，W1、W2

和W3

为拉普拉斯锐化模板，也称为4邻锐化模板；W4、W5

和W6

为8邻锐化模板，也称为8邻拉普拉斯锐化模板，它们既能像8邻模板一样对水平和垂直方向边缘有锐化增强作用，也对边角方向的边缘有增强作用；W7-

和W8

与其他模板不同的是，W7-在对水平和垂直方向边缘增强的同时，在对角方向还有平滑作用，W8在对对角方向边缘增强的同时，在水平和垂直方向还有平滑作用，即W7-

和W8

在锐化的同时还有抑制噪声的作用。

图7-5图像、边缘和锐化结果的关系(α=2)

7.1.3频域增强

1.低通滤波

信息(包括信号和噪声)在空域和频域存在对应关系，即随空间位置突变的信息在频域表现为高频，而缓变的信息在频域表现为低频。具体到图像中，边缘和噪声对应频域的高频区域，背景及信号缓变部分则对应频域的低频区域。因此，我们可以利用频域的低通滤波法来达到滤除(高频)噪声的目的，这就是图像的频域平滑法，一般称为频域低通滤波法。

由于图像中的边缘反映在频域上也是高频，因此，在低通滤波的同时，也会损失边缘信息，使图像变模糊。

设F(u，v)和G(u，v)分别由含噪图像f(m，n)和滤波结果图像g(m，n)的频域表示，H(u，v)为低通滤波器。图7-6给出了采用离散傅里叶变换(FFT)的频域低通滤波法的处理过程。当然这里的变换方法不仅仅局限于离散傅里叶变换。

图7-6频域低通滤波法的处理过程

由图7-6可知，对含噪图像f(m，n)进行傅里叶变换，得到F(u，v)，即

设计给定低通滤波器

H(u，v)，则由卷积定理得

经过傅里叶逆变换(IFFT)得到滤波结果图像g(m，n)，即

一个理想低通滤波器的传递函数定义为

式中，D0

为理想低通滤波器的截止频率；D(u，v)为从频域平面原点到点(u，v)的距离，即

理想低通滤波器的特征曲线如图7-7所示。其滤波特征为：以D0为半径的圆内的所有频率分量无失真地通过，而圆外的所有频率分量完全被抑制。事实上，这种理想低通滤波器是无法用硬件实现的，因为实际的器件无法实现从1到0的突变。同时，既然是理想的矩形特性，那么其反变换的特性必然会产生无限的振铃现象。截止频率半径越小，这种现象就越严重。当然，其滤波效果也就越差。这是理想低通滤波器不可克服的缺点。不同截止频率的理想低通滤波结果的比较如图7-8所示，其中，图7-8(b)和图7-8(c)中有明显的振铃现象出现，而且图像变模糊了。

图7-7-理想低通滤波特性曲线

图7-8不同截止频率的理想低通滤波结果的比较

2.高通滤波

图像的边缘反映在频域的高频部分，通过频域上高通滤波器可以得到图像边缘的信息，再对图像进行锐化，其结果相当于对高频(边缘)分量的提升，可称为频域高通滤波法。

设F(u，v)和ΔF(u，v)分别表示原图像f(m，m)和高通滤波结果Δf(m，n)的频域，H(u，v)为高通滤波器，g(m，n)为锐化结果。图7-9给出了频域高通滤波法的处理过程。与低通滤波器相似，几种常用的高通滤波器的特性曲线如图7-10所示。高通滤波所得到的并不是锐化图像，而是原图像的高频图像，即图像的边缘，我们需要按如图7-9所示的方法将该高频图像附加到原图像中去，才能够得到期望的锐化图像。

图7-9频域高通滤波法的处理过程

图7-10高通滤波器的特性曲线

与低通滤波器的性能相类似，由于理想高通滤波器是突变的，因此由它得到的高频图像中存在有较强的振铃现象。不同截止频率的理想高通滤波结果的比较如图7-11所示。在图7-11(b)和(c)中可以看到明显的振铃现象，即使在截止频率较大的图7-11(d)中也存在轻微的振铃现象。

图7-11不同截止频率的理想高通滤波结果的比较

3.同态滤波

从图像的形成和其光特性方面考虑，一幅图像是由光源的照度分量(也称为照度场)i(m，n)和目标场的反射分量r(m，n)组成的，即

图7-12图像同态滤波的处理过程

图7-13同态滤波器的特性曲线

图7-14图像经同态滤波后增晰的示例

7.2图像的中层视觉处理

7.2.1概述图像的低层视觉处理主要是对图像进行加工和处理，得到满足人的视觉和心理需要的改进形式。中层视觉处理则是对图像中目标物(或称为景物)进行分析和理解，主要包括：①

把图像分割成目标物和背景区域两部分；②

提取正确代表不同目标物特点的特征参数，并进行描述；③

对图像中目标物进行识别和分类。

在对图像的研究和应用中，人们往往仅对各幅图像中的某些部分感兴趣。这些部分常称为目标或前景(其他部分称为背景)，它们一般对应图像中特定的、具有独特性质的区域。为了辨识和分析目标，需要将这些有关区域分离提取出来，在此基础上才有可能对目标进一步利用，如进行特征提取和测量。图像分割就是指把图像分成各具特性的区域并提取出感兴趣目标区域的技术和过程。这里的特性可以是灰度、颜色和纹理等，目标可以对应单个区域，也可以对应多个区域。

图像分割是由图像处理到图像分析的关键步骤，也是一种基本的计算机视觉技术。这是因为图像的分割、目标的分离、特征的提取和参数的测量可将原始图像转化为更抽象、更紧凑的形式，使更高层的分析和理解成为可能。图像分割多年来一直得到人们的高度重视。

7.2.2图像分割的定义和依据

1.图像分割的定义

令集合R

代表整个图像区域，对R

的分割可看成将R

分成N个满足以下五个条件的非空子集(子区域)R1，R2，…，Rn。

2.图像分割方法分类

利用不同区域的交界(边缘)处像素灰度值的不连续(突变)性，先找到区域交界处的点、线(边缘线)，边缘线围成的区域就是分割的子区；也可以利用同一区域内像素一般具有灰度相似性的特点，据此找到灰度值相似的区域；区域的外轮廓就是对象的边缘。所以，无论是利用像素灰度取值的突变性还是连续性，都可以达到图像分割的目的。

据此，可将图像分割的方法分为两种：一种是利用区域间灰度的突变性，确定区域的边界或边缘的位置，称为边缘检测法；另一种是利用区域内灰度的相似性，将图像像素点分成若干相似的区域，称为区域生成法。这两种方法互为对偶，相辅相成。前者相当于用边缘点定义线(边缘线)，而后者可由两个面的交界形成一条曲线(边缘线)。图像分割的两种方法示例如图7-15所示。

图7-15图像分割的两种方法示例

7.2.3边缘点检测

边缘定义为图像局部特性的不连续性，具体到灰度图像中就是图像差别较大的两个区域的交界线。边缘作为图像的最基本特征广泛存在于目标物与背景之间、目标物与目标物之间，在图像处理中有着重要的作用和广泛的应用。

1.边缘点检测的基本原理

边缘点检测就是要确定图像中有无边缘点，还要进一步确定其位置。在具体实施时，可分为两步：首先对图像中每一个像素施以检测算子，然后根据确定的准则对检测算子的输出进行判定，确定该像素点是否为边缘点。具体检测算子和判定准则取决于实际应用环境及被检测的边缘类型。

在一幅图像中，边缘有方向和幅度两个特性。一般沿着边缘走向的灰度值缓变或不变，而垂直于边缘走向的灰度则突变。这种变化形式的不同就形成了不同类型的边缘。几种类型边缘的截面图如图7-16所示。

图7-16几种类型边缘的截面图

图7-17给出了阶跃式边缘与其一阶、二阶导数的关系示意图。图7-17-阶跃式边缘与其一阶、二阶导数关系的示意图

2.边缘点检测常用算子

1)正交梯度算子法

在图像处理中，一阶导数是通过梯度来实现的，因此，利用一阶导数检测边缘点的方法就称为梯度算子法。

在求解梯度时，既可以利用两个垂直方向的一阶导数，也可以利用不同方向的一阶导数集。前者可称为正交梯度，由此生成的边缘点检测模板称为正交模板；后者称为方向梯度，用它在检测边缘点的同时，还可以确定其方向，由此生成的边缘点检测模板称为方向匹配模板。

(1)正交梯度法。

在数字图像处理中，常用差分来近似导数。连续函数f(x，y)的梯度在x

和y方向的分量就对应于数字图像f(m，n)的水平和垂直方向的差分。水平和垂直方向的梯度可定义为

对应水平及垂直方向的梯度模板可表示为

利用模板对图像进行处理相当于模板与图像的卷积，因此，水平和垂直方向梯度为

式中，*为卷积运算符号。梯度幅度为

在实际应用中，根据不同图像需要来选用上述三种梯度幅度公式，所得结果称为梯度图像。

为检测边缘点，可选取适当的阈值T，对梯度图像进行二值化，即

这样就形成了一幅边缘二值化图像，其中为1的像素点就是阶跃状边缘点。据此可得到利用正交梯度法检测边缘点的过程如图7-18所示。

图7-18利用正交梯度法检测边缘点的过程

图7-19给出了一个通过正交梯度法对一副图像边缘点进行检测的示例。图7-19利用正交梯度法检测边缘点的示例

(2)Roberts梯度算子法。

事实上，任意一对相互垂直方向上的差分都可用来估计梯度。Roberts梯度就是采用对角方向相邻两像素之差，故也称为四点差分点。其水平和垂直方向梯度定义为

对应的水平和垂直方向的模板为

根据式(7-32)就可以计算Roberts梯度。

(3)平滑梯度算子法。

梯度算子类边缘检测方法的效果类似于高通滤波，有增强高频分量、抑制低频分量的作用。这类算子对噪声比较敏感，它们会把噪声当作边缘点而检测出来，这就给后续的边缘特征提取和边缘线追踪带来很大的困难。为此，在对实际含噪声图像进行边缘点检测时，人们希望检测算法同时具有噪声抑制作用。

①Prewitt梯度算子法。Prewitt算子是一阶微分算子的边缘检测，利用像素点上下、左右邻点的灰度差，在边缘处达到极值检测边缘，去掉部分伪边缘，对噪声具有平滑作用。其噪声抑制是在图像空间利用两个方向模板与图像进行领域卷积来完成的，这两个方向模板一个检测水平边缘，一个检测垂直边缘。

水平和垂直梯度模板分别为

有了检测模板，就可以利用式(7-32)求得水平和垂直方向的梯度，再通过梯度合成和边缘点判定，就可得到平均差分法的检测结果。按照同样的原理，可以进一步扩大窗口，则抑制噪声会更明显，但同时也会损失一些边缘信息。

②Sobel算子法。将Prewitt算子中的平均差分改为加权平均差分，即对当前行或列对应值加权后，再进行平均差分，就形成Sobel差分，也称为加权平均差分。其水平和垂直梯度模板分别为

图7-20几种梯度算子检测边缘点的示例

2)二阶导数算子法

写成检测模板为

该模板也称为4邻域Laplacian检测模板，同理也可给出8邻域检测模板为

(2)LoG算子法。在实际应用中，由于噪声的影响，对噪声敏感的边缘点检测算法(如Laplacian算子法)可能会把噪声当成边缘点检测出来，而真正的边缘点会被噪声淹没而未检测出。为此，马尔(Marr)和希尔德雷斯(Hildreth)提出了高斯

拉普拉斯(LaplacianofaGaussian，LoG)边缘检测算子，简称LoG算子法。该方法是先采用高斯算子对原图像进行平滑，然后再施加Laplacian算子，这就克服了Laplacian算子对噪声敏感的缺点，减少了噪声的影响。

图7-21H(x，y)的截面图

图7-22Laplacian算子和LoG算子边缘点检测结果对比

7.2.4边缘线跟踪

7.2.3节之所以称为边缘点检测，是因为无论是通过梯度算子、方向梯度算子、线检测模板还是二阶导数算子，检测结果都是满足算子条件的离散点，包括真正的边缘点，也有噪声点和其他干扰点。因为噪声、干扰及成像时不均匀光照的影响，所以很少能真正得到一组完整描述一条边缘线的边缘点集，检测到的边缘点可能是不同的边缘线上的像素点，也可能是噪声点或干扰点，同时在边缘点组成边缘线时还会发现中间断裂或间断的现象。

本节介绍的边缘线跟踪就是要把检测到的边缘点连接成边缘线，因为边缘线是描述目标物特性的最基本特征，也是基于边缘检测的图像分割中分割区域的边界最佳表示方式。边缘线跟踪也称为边缘连接或边界检测。

以下介绍几种常用的方法。

1.局部边缘连接法

将边缘点连成边缘线的最简单的方法是依据预先确定的准则，把相似的边缘点连成线。该方法以局部梯度算子处理后的梯度图像作为输入，连接过程分为以下两步。

(1)选择可能位于边缘线上的边缘点。在边缘点(m，n)的一个小邻域(如3×3、4×4或5×5)内，若其中梯度值超过某一预定阈值，则具有最大梯度值的点被称为候选边缘点。对每一个候选点，利用方向梯度或模板匹配的方法确定其边缘方向。

(2)对相邻的候选边缘点，根据事先确定的相似准则判定是否连接。如果相邻的小邻域内的两个候选点的梯度和方向差值都在某阈值之内，则这两点被认为属于同一边缘线，可以连接起来。相似准则定义为

式中，G1(m，n)和G2(i，j)分别为边缘点(m，n)和(i，j)的梯度模值；ϕ1(m，n)和ϕ2(i，j)分别为两边缘点的方向(角度)值。

2.光栅扫描跟踪法

光栅扫描跟踪法是一种按照电视光栅行的扫描顺序，对遇到的像素进行阈值判定而实现的边缘跟踪方法，也称为顺序扫描跟踪法。下面结合一个实例来介绍这种方法。

图7-23为光栅扫描跟踪法的示例。图7-23(a)为一幅含有三条曲线的模糊图像，其各条曲线与水平方向夹角近似于90度，现在要检测出这些曲线。

图7-23光栅扫描跟踪法的示例

光栅扫描跟踪法的实施步骤如下：

(1)先设立两种门限：检测门限d和跟踪门限t，且d>t。在本例中，d=7，t=4。

(2)将每一行中像素灰度值大于检测门限的点记为1，作为下一步的跟踪起点，这就是检测准则。本例检测结果如图7-23(b)所示。

(3)对第m

行上被记为1的点(m，n)，就在下一行的(m+1，n-1)、(m+1，n)和(m+1，n+1)点上进行跟踪判决，只要这些点的灰度值达到跟踪门限t，这些也被记为1，这就是跟踪准则。本例中的跟踪结果如图7-23(d)所示。

3.Hough变换法

一般地，边缘线的检测要经过两个过程。首先进行边缘点的检测，再将边缘点连接成边缘线。由于噪声、干扰及成像时不均匀光照的影响，通过边缘点检测很少能真正得到一组完整描述一条边缘线的点迹，那么通过局部边缘连接也就很难得到准确的边缘线。而Hough变换能根据待检测曲线对应像素间的整体关系，检测出已知形状的曲线并用参数方程描述出来。其主要优点是可以抗噪声、干扰点及断点的影响。因此，Hough变换是将边缘点连成边缘线的全局最优方法。

1)Hough变换的基本原理

已知图像中检测出的n

个边缘点，希望找到位于同一条直线上的点组成的子集。一种可行的方法是根据数学上两点成一线的原理，对这n

个点组成的直线(最多有n(n-1)/2条)中的每一条求其共线点(位于该直线上的点)个数，则共线点最多的那条直线就是要找的直线。这种方法原理上看似简单，但要完成最多n(n-1)/2条线段的判定，运算量较大，在实际应用中很难得到满足。对此，Hough巧妙利用坐标变换使图像变换到另一坐标系后在其特定位置上出现峰值，则曲线(包括直线)检测就变成了寻找峰值位置的问题，这样就能大大减少运算量。

现在观察以x

和y

为坐标的图像空间(如图7-24(a)所示)和以ρ和θ为坐标的参数空间(如图7-24(b)所示)，得到以下的对应关系：

(1)图像空间中的一条直线，在参数空间映射为一个点(ρ，θ)(分别如图7-24(a)和图7-24(b)所示)。

(2)图像空间的一个点映射为参数空间的一条正弦曲线(分别如图7-24(c)和图7-24(d)所示)。

(3)图像空间的一条直线上的多个共线点映射为参数空间相交于一点的多条正弦曲线(分别如图7-24(e)和图7-24(f)所示)。

这种图像空间上的点和参数空间上的线之间的映射关系就称为Hough变换。据此，要检测图像空间共线点最多的直线，就变成了参数空间相交于一点正弦曲线最多的这个峰值点。这就是Hough变换检测直线的原理。

图7-24Hough变换的基本原理示意图

Hough变换不仅可以检测直线，也可以检测圆、椭圆和抛物线等形状的曲线，其示例如图7-25所示。

图7-25Hough变换检测示例

2)广义Hough变换

Hough变换除了能检测可以用解析形式表示的曲线及形状(有规曲线)外，也可以推广到任意形状的检测，一般称为广义Hough变换，如图7-26所示。这里以给定形状、大小及方向而位置未知，且形状不能用解析式表示的目标物检测为例，来说明广义Hough变换的检测过程。

图7-26广义Hough变换

图7-26所示的任意形状目标物内任意确定一点(xc，yc)作为参考点，并通过它向边界上的点(x，y)作直线，连线的长度为r，连线与x

轴夹角为α，r

和α都是ϕ

的函数。ϕ是边界点(x，y)的梯度方向，即边界点(x，y)的切线与x轴的夹角。这时，可通过下式计算参考点位置(xc，yc)，即

7.2.5门限化分割

根据图像分割的定义，同一个分割区的图像灰度值具有相似(相近)性，不同的分割区具有较大差别。尤其图像中的目标物与背景、不同目标物之间的灰度值具有明显的差别，其灰度直方图呈双峰或多峰形状，如图7-27所示，此时可通过取门限的方法将图像分割成不同的目标物和背景区域。灰度门限法主要分为单阈值分割和多阈值分割。

图7-27-具有双峰和多峰的灰度直方图

1.单阈值分割

当图像的灰度直方图呈双峰形状时，如图7-27(a)所示，可通过取单阈值，将图像分割成目标物和背景两类，即

式中，T为灰度门限，一般取直方图双峰间波谷的灰度值，此时就将图像分成了标记为“1”的区域和标记为“0”的另一区域。至于哪个区域是目标物，哪个区域是背景，要看目标物和背景灰度取值的相对大小。这种方法也称为门限化二值分割。图7-28所示的是单阈值分割的示例。

图7-28单阈值分割的示例

2.多阈值分割

当图像的灰度直方图呈多峰形状时，如图7-27(b)所示，可通过取多个阈值的方法，将图像分割成不同目标物和背景区域，即

式中，T0，T1，…，Tk

为一系列门限值；k

为分割后各区域的标记，k=1，2，…，M。这样就将图像分割成了M+1个区域。图7-29所示的是多阈值分割的示例。

图7-29多阈值分割的示例

门限化分割方法具有简单、高效的特点，但是其局限性也大：对目标和背景灰度级有明显差别的图像分割效果较好；但对于目标物和背景灰度一致性或均匀性较差(如目标的部分区域与背景灰度相近或者低于背景灰度)的图像分割效果不好。

7.2.6区域分割法

区域分割法就是利用同一区域内灰度值的相似性，将相似的区域合并，把不相似区域分开，最终形成不同的分割区域。常用的区域分割方法有区域生长法、分裂合并法及空间聚类法等。

1.区域生长法

区域生长是把图像分割成特征相似的若干小区域，比较相邻小区域的特征，若相似则合并为同一区域，如此进行直到不能再合并为止，最后生成特征不同的各区域。这种分割方法也称为区域扩张法。

根据所用邻域方式和相似性准则的不同，区域生长法可以分为简单生长法(像素+像素)、质心生长法(区域+像素)和混合生长法(区域+区域)。分述如下：

(1)简单生长法。按事先确定的相似性准则，生长点(种子点为第一个生长点)接收(合并)其邻域(如4邻域)的像素点，该区域开始生长。接收后的像素点称为生长点，其值取种子点的值。重复该过程，直到不能再生长为止，到此该区域生成。简单生长法的相似性准则为

(2)质心生长法。修改简单生长法的相似性准则，即相似性准则变为

(3)混合生长法。混合生长法是按相似性准则进行相邻区域的合并，其相似性准则是相邻两区域的灰度均值相近，即

图7-30给出了一个区域生长法分割图像的示例。图7-30(a)为原图像块，其中标定的两个种子点(灰度低值区的灰度1和灰度高值区的灰度6)用阴影标出。图7-30(b)和图7-30(c)分别为当门限T1=T2=3时简单生长法和质心生长法的分割结果，图像块被分成两个区域。虽然两种方法的分割结果恰巧相同，但生长过程中所用相似性准则是不同的。在简单生长法中，是用生长点与其邻域点直接比较，质心生长法则是用生长区域内所有生长点的均值与其邻域点比较。

图7-30区域生长法分割图像的示例

2.分裂合并法

当事先完全不了解区域形状和区域数目时，可采用分裂合并法。这种方法首先将图像分解成互不重叠的区域，再按相似准则进行合并。若用R表示图像，则利用四叉树分裂合并法实现图像分割的步骤如下：

(1)给定一相似准则P，如果对图像中的任一区域Ri，有P(Ri)=false，即不满足相似性准则，则把Ri区域等分为四个子区，即Ri1、Ri2、Ri3和Ri4。

(2)对相邻的区域Ri和Rj，若P(Ri∪Rj)=true，则合并这两个区域。

(3)直到合并和分割都无法再进行时，分割结束。

图7-31利用四叉树分裂合并法进行二值图像分割的示例

7.3视频处理中的关键技术研究

7.3.1概述视频是用来记录信息的重要载体，由于它同时可以包含图像、声音和字幕信息，因此被人们广泛使用。随着数字技术日新月异的发展，数字视频的数量飞速增长。一方面，包括数字摄像机在内的一些数字视频获取设备已经有了很广泛的应用；另一方面，原来的使用胶片记录的模拟视频也有着转化为数字视频的需要，以便于更好地进行处理和保存。这就对数字视频的处理和管理技术提出了很大的挑战。

视频的数据从结构上自顶向下可分为视频序列、场景、镜头和帧。帧是视频数据的最小单元，是一幅静止的画面。镜头是视频数据的基本单位，它是由一个摄像机连续拍摄得到的时间上连续的若干帧图像组成的。视频组成的层次结构越高，其中所含的内容信息也越丰富，也就意味着处理的难度越高。

7.3.2镜头边界检测

镜头是视频流在编辑制作及检索中的基本结构单元，因此镜头的自动分割是视频结构化的基础，也是视频分析和检索过程中的首要任务。镜头分割的效果将直接影响到更高一级的视频结构化以及后续的浏览和检索。

镜头边界检测是视频摘要提取系统的一个重要组成部分，镜头边界检测的准确率直接关系到视频摘要提取系统后续的关键帧提取的效果。镜头的边界类型可以被分为三类：突变类型、淡入淡出类型和溶解类型，分别如图7-32、图7-33和图7-34所示。

图7-32突变类型的镜头

图7-33淡入淡出类型的镜头

图7-34溶解类型的镜头

1.像素域中的镜头边界检测方法

像素域中的镜头边界检测方法主要是利用空时域中的颜色、纹理和形状等特征来进行的，常见的方法有以下几种。

1)像素差异法

2)统计量法

3)直方图法

4)块匹配法

5)边界变化率法

6)距离差异法

7)聚类算法

以上七种方法为像素域中镜头边界检测的常用方法，表7-1列出了这七种方法的综合比较。

2.压缩域中的镜头边界检测方法

1)离散余弦变换(DiscreteCosineTransform，DCT)系数法

2)小波变换法

小波变换法是在子带域上对镜头边界进行检测的一种检测方法，其基本思想是将图像进行小波分解后，分别对它的低频部分和高频部分进行分析和处理。

3)空时分析法

空时分析法利用图像在空间上的特点以及其在时间上与前后帧图像间的相关性来检测渐变过渡。

4)矢量量化法

根据编译码理论，最好的接收形式是矢量而不是标量。因此，矢量量化的技术无论是在传输中还是在检索中都非常重要。根据这一特点，很多学者将矢量量化的方法应用到视频渐变检测中，其基本思想是构造相似性函数，通过帧间相似性来检测镜头的变化。

5)运动矢量法

在渐变检测中，运动分析是一个非常重要的检测手段，它对于描述视频的内容具有非常重要的作用，许多专家、学者在这方面做了很多的研究工作。

表7-2列出了上述五种压缩域中渐变镜头检测方法的综合比较。总体来看，该类算法检测精度不太高，但是速度却是相当快的。

7.3.3视频关键帧提取

关键帧也称为代表帧，它是用来描述一个镜头的关键图像帧，反映了一个镜头的主要内容。把它作为视频流的索引，比用原始的视频数据更有效，同时关键帧也为检索和浏览视频提供了一个组织框架。

1.非压缩域关键帧提取算法

1)基于镜头边界法

基于镜头边界法是指由切分得到的镜头中的第一幅图像和最后一幅图像作为镜头关键帧。这种方法的原理和思想是：在一组镜头中，相邻图像帧之间的特征变化很少，整个镜头中图像帧的特征变化也不大，因此选择镜头的第一帧和最后一帧可以将镜头的内容全部表达出来。

2)基于平均值法

基于平均值法包括帧平均法和直方图平均法，这两种方法是关键帧提取的经典方法。帧平均法是指从镜头中取所有帧在某个位置上像素值的平均值，然后将镜头中该点位置的像素值最接近平均值的帧作为关键帧；直方图平均法则是将镜头中所有帧的统计直方图取平均值，然后选择与该平均直方图最接近的帧作为关键帧。平均值法的优点是计算比较简单；缺点是从一个镜头中选取一个关键帧，无法准确描述有多个物体运动的镜头。

3)基于内容的自适应提取算法

基于内容的自适应提取算法的基础是基于内容的，因此必须分析视频图像的局部特征变化。该算法在理论上首先假设用连续关键帧之间特征点的变化来代表连续单元之间的特征变化。在此基础上，该算法的具体操作步骤如下：

(1)设视频镜头S

的总帧数为n，预计提取的关键帧数为n'=n×6%，将其划分为长度均为L

的小单元，使得相邻两单元中的第一帧和最后一帧相同。

(2)定义差异度量Change=Dc(Ri，Ri+1，Ri

表示第i帧的颜色直方图)，此处

用来计算相邻两帧的颜色直方图的帧间方差值。在每个单元内计算第一帧和最后一帧的差异。

(3)选择率值r，0<r<1，将分组根据单元内的变化分为两类，第一类为变化小的，长度为k×r，称为小类，k

为一个常数。剩下的则为变化较大的，长度为k×(1-r)，称为大类。

(4)将大类中的元素对应的单元所包含的帧全部作为当前的关键帧，将小类对应单元中所包含的帧只保留首、末两帧添加到当前关键帧，删除k×r×(L-2)的冗余帧。

(5)假设当前取得的关键帧数为n'，如果n'≤n，则停止。如果n'≥n，将当前关键帧按序重组。重复进行上述操作，直到满足条件为止。

通过研究发现，基于内容的自适应提取算法的主要思想是将单元内特征变化小的逐渐缩小聚合，这样经过几次重复，剩下的将是单元内特征变化大的，而其中这些帧就可以用来表达视频内容的变化，每次缩小聚合的执行都会有冗余的帧从小单元中删除，不论期望数有多少，算法最终都将收敛。

4)基于运动分析法

在视频拍摄过程中，摄像机运动是产生图像变化的重要因素，这也可以作为提取关键帧的一个依据。这种方法将摄像机造成的图像变化分成两类：一类是由相机焦距变化而引起的；另一类是由相机角度变化而引起的。对于第一类，选择首、末两帧作为关键帧。对于第二类，如果当前帧与前一帧重叠小于30%，则选当前帧为关键帧。

5)基于聚类的关键帧提取算法

聚类分析的方法在语音识别、人工智能和模式识别等领域都有十分广泛的应用。聚类分析是给定大量的样本，在不知道样本的分类，甚至连样本分成几类也不知道的情况下，希望用某种方法将观测进行合理的分类，使同一类的观测比较接近，不同类的观测相差较多。它是无监督学习算法的一种。聚类分析依赖于对观测间的接近程度或相似程度的理解，定义不同的距离量度和相似性量度就可以产生不同的聚类结果。将它用于提取视频关键帧也是现在的主流技术。

基于聚类的关键帧提取算法大致描述如下：

(1)假设某个镜头Si

包含n

个图像帧，可以表示为Si={Fi1，…，Fin}，其中，Fi1为首帧，Fin为尾帧。设定相邻两帧之间的相似度度量。相似度度量可以采用任何有用的视觉或语义特征，也可以是各种特征的组合。在此我们以颜色直方图为例，并预定义一个阈值s控制聚类的密度。

(2)计算当前帧Fii与现有某个聚类质心间的距离。如果当前位于首帧，将第一帧作为第一个聚类与其后的图像帧相比较。

(3)如果该值大于s，则该帧与该聚类之间的距离太大，不能加入。如果Fii与所有现存类质心的距离都小于s，则以Fii为质心形成一个新的聚类。否则，将该帧加入与之相似度最大的聚类中，使该帧与这个聚类的质心之间的距离最小，并调整该聚类的质心为

式中，centrod、centrod'和Fn

分别是聚类群原有的质心、更新后的质心和聚类群的总帧数。

(4)在整个镜头聚类完成后，就可以选择关键帧，从每个聚类中抽取距离质心最近的帧作为这个聚类的代表帧，所有聚类的代表帧就构成了镜头Si

的关键帧。镜头Si

形成了

个聚类，那么就可以提取N

个关键帧。算法的优劣主要由阈值s控制，s越大，形成的聚类越多，镜头划分越细，选择的关键帧越多；反之，s越小，形成的聚类个数越少，镜头划分越粗。

6)基于图论分析法

基于图论分析法是关键帧提取算法在理论上的最新进展之一。该方法将视频看成高维特征空间上的点。这样，提取关键帧就等价于在这些点中选取一个子集，这个子集中的点的特点是：

一是能在指定特征距离内覆盖其他点；

二是反映了镜头内容上的显著变化。

2.压缩域视频关键帧提取算法

1)I帧等价算法

上节讨论的方法都是针对非压缩域的视频流，直接分析镜头内的帧，但目前网络上的很多视频都是以MPEG等压缩形式存取的。

2)比较宏块互异数算法

根据MPEG数据流编码的特性，还有一些专门的提取关键帧方法。其中比较典型的方法是比较宏块互异数算法。

3.关键帧提取结果示例

有三类镜头是视频中最常见的，第一类是摄像机缩放镜头，第二类是具有丰富运动特性的镜头，第三类是摄像机平移镜头。下面分别给出这三类具有代表性的镜头的关键帧提取结果示例。

1)摄像机缩放镜头的关键帧提取

图7-35显示了一个含有186帧的摄像机缩放镜头以30帧为抽样间隔的抽样帧。图7-36显示了从这段视频中抽取出的关键帧。可以看到，抽取的关键帧很好地表示了整个缩放镜头的内容。图7-35摄像机缩放镜头的抽样帧图7-36摄像机缩放镜头的关键帧

2)具有丰富运动特性的镜头的关键帧提取

具有丰富运动特性的镜头在视频中较为常见。图7-37是从包含了395帧的丰富运动场景镜头中的50帧为采样间隔的抽样帧。图7-38则给出了从这段视频中抽取出的关键帧。图7-37-

图7-38丰富运动特性的镜头的关键帧

3)摄像机平移镜头的关键帧提取

对于摄像机平移镜头，实验中选取了一段含有263帧的足球比赛视频。图7-39为这段视频的每隔50帧的抽样帧。图7-40给出了我们在这段视频中抽取出的关键帧。图7-40摄像机平移镜头的关键帧

4)基于多模式的新闻视频中主持人帧检测和提取

对于已得到的候选主持人关键帧和我们提取到的主持人模板进行模板匹配的过程，实质上是一个类似图像检索的过程。所不同的是，候选主持人帧中找到的并不一定是与模板完全匹配的镜头帧，而是相似的主持人帧。该检测方法的具体步骤如下：

步骤1：从音频检测中找到音乐向语音过渡的静音帧(即新闻的开始部分)，如果其长度大于某一阈值，则将其后面的视频帧作为主持人帧；

步骤2：提取出主持人帧模板；

步骤3：提取镜头的第一帧作为关键帧，进行模板匹配，从而减少了运算复杂度以及阈值选择带来的误差；

步骤4：用检测到的主持人帧对新闻视频进行粗分类。

图7-41(a)为主持人镜头模板帧，图7-41(b)为提取出的主持人关键帧。图7-41基于多模式的新闻视频中主持人帧检测和提取

7.3.4视频目标检测

1.基于视频的目标检测方法

目标是指一个待探测、定位、识别和确认的物体。目标检测分为纯检测和辨别检测，前者是指从局部均匀的背景中检测出一个物体，后者是指识别出某些外形或形状，以便从背景的杂乱物体中区分出来。如何从图像中检测出目标是计算机视觉的基础问题之一，目标的检测可以在静态图像中进行，也可以在视频序列中进行。对于静态图像中目标的检测，可以采用基于图像分割技术的方法。

它利用目标图像的灰度、纹理等特征将目标和背

景分开，再利用先验知识将两者进行分离。同时也可以采用基于模板匹配的方法，这种方法根据已有的模板在场景中匹配寻找最相似的目标。静态图像中的目标检测在本章中不再介绍，在这里我们主要介绍视频序列中的目标检测方法。常见的基于视频的运动目标检测方法主要有以下几种。

1)背景相减法

背景相减法是利用当前帧图像与背景帧图像对应的灰度值相减，在环境亮度变化不大的情况下，认为像素灰度差值很小时，物体是静止的；当像素灰度值变化很大时，认为该区域是由运动物体引起的。背景相减法的关键技术在于对图像背景进行建模，然后将当前帧与背景帧对应灰度值进行比较，获得运动变化区域。背景相减法的算法简单，但其对光照、运动目标阴影的变化比较敏感，并且当摄像机运动时该算法需要不断更新背景模型，检测效果较差。

2)邻帧差分法

邻帧差分法是将相邻帧对应的像素点灰度值相减，在环境变化不大的情况下，可以认为灰度变化大的区域是由物体运动引起的，利用这些标志像素的区域即可确定目标在图像中的大小和位置。该算法的优点是对于像素灰度变化明显的点容易检测且利于实时实现，缺点首先是对于像素变化较小的点难以准确检测，如纹理单一的目标往往出现空洞现象，还需要利用相关算法进行填充，其次对光照变化、背景变化和噪声干扰无能为力。因此该算法只适合背景单一或背景不变、环境干扰较小场合的目标检测。

邻帧差分法有三种形式：正差分、负差分和全差分。图7-42(a)和7-42(b)是视频序列中连续两帧，图7-42(c)和图7-42(d)分别为正差分和负差分检测结果，与图7-42(e)所示的全差分检测结果相比较，全差分效果最好。图7-42邻帧差分法

3)光流法

光流法是利用运动目标随时间变化的光流特性，计算位移向量光流场来初始化基于轮廓的跟踪算法，从而提取出运动目标。与邻帧差分法和背景相减法不同的是，光流法可以用于摄像机静止和摄像机运动两种状态下的运动目标检测，但该算法比较复杂，不利于硬件实现。

2.视频序列中字幕检测

为了更好地理解各种字幕检测与提取算法的思想，有必要对字幕的特点进行说明。视频字幕可以分为两类：一类是标注字幕，这种字幕是通过后期制作合成到视频流中去的，包含了对当前视频流内容的语义描述；另一类是场景字幕，这类字幕是录制中环境和物体本身所携带的文字，如路牌上的路名、服装上的文字和产品上的商标等。

与光学字符识别(OpticalCharacterRecognition，OCR)相比，视频字幕的提取面临如下几个问题：

①

视频图像的复杂背景使字幕提取和分割极其困难；

②

为避免遮挡图像的主体部分，许多视频字符的尺寸都相当小且分辨率低；

③

数字视频采用有损压缩方式的格式存储，再次降低了其分辨率。

另外，视频字幕一般有几个特点：

①

字幕的尺寸限定在一定的范围之内；

②

采用通用且规范的粗笔画字体，如黑体和宋体等；

③

字幕按照水平方向排列形式聚集在一起；

④

采用边影，边影是字幕前景或衬底颜色的补色。

利用这些特性，可以降低字幕的提取难度，并使提取出的字幕具有更高的准确性。

近年来出现了许多字幕检测提取方法，它们大致可分为三类：连通分量法、纹理分类法和边缘检测法。

(1)连通分量法。连通分量法是假设字幕被表示为统一的颜色，经过颜色量化后，提取出符合某种大小、形状和空间限制条件的单色连通分量作为字符。这种方法在背景杂乱的情况下有效性较低。

(2)纹理分类法。纹理分类法是将字幕区作为一类特殊的纹理来处理，通过多路处理和计算空间变化来提取纹理特征或者利用神经网络检测字幕区。总体上讲，在处理复杂背景时，纹理分类法比连通分量法更有效。然而，当背景具有与字幕区相似的纹理结构时，纹理分类法将变得更困难。此外，对大量的视频数据，由于计算复杂性，许多纹理分类方法不适用。

下面给出一个视频序列字幕检测示例。

在检测出了相应的字幕帧后，进行字幕定位，主要是字幕行的检测和字幕列的检测，分别如图7-43和图7-44所示。然后进行字幕提取，主要是进行字幕增强和切分字幕，分别如图7-45和图7-46所示。

图7-43字幕行的检测

图7-44字幕列的检测

图7-45字幕增强

图7-46切分字幕

3.视频序列中人脸检测

传统的人脸检测的基本思想是用知识或统计的方法对人脸进行建模，比较所有可能的待检测区域与人脸模型的匹配度，从而得到可能存在人脸的区域。其方法大致可分为基于统计和基于知识两类。前者将人脸图像视为一个高维向量，从而将人脸检测问题转化为高维空间中分布信号的检测问题；而后者则利用人的知识建立若干规则，从而将人脸检测问题转化为假设/验证问题。

1)基于统计的人脸检测方法

(1)示例学习

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

数字音视频处理课件第7章数字图像视频处理技术

文档简介

温馨提示

最新文档

评论

数字音视频处理 课件 第7章 数字图像视频处理技术

文档简介

温馨提示

最新文档

评论

相关文档

数字音视频处理课件第7章数字图像视频处理技术