版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第2讲:数字图像及视频技术数字媒体技术概论第2章:数字图像及视频技术1数字图像基础知识2数字图像处理的关键技术3数字视频基础知识4数字视频关键技术5图像及视频技术的应用一、图像和数字图像的定义§2.1数字图像基础知识图像就是所有具有视觉效果的画面。图像的存在形式:纸介质、底片或照片、电视屏幕、投影仪、计算机屏幕等。1.图像一、图像和数字图像的定义数字图像,又称数码图像或数位图像,它是二维图像用有限数字、数值像素的表示。数字图像由数组或矩阵表示,其光照位置和强度都是离散的。将(模拟)图像数字化后可以得到数字图像,它以像素为基本元素并且可以用数字计算机或数字电路存储和处理。2.数字图像模拟图像数字化过程如果(数字)图像是黑白图像(也称为灰度图像)那么图像的通道数为1。黑白图像中的每个像素可以由0(黑色)到255(白色)之间的单个数字表示。2.数字图像一、图像和数字图像的定义黑白图像文件片段如果(数字)图像是彩色图像那么图像的通道数为3。彩色图像中的每个像素由三个数字分别表示三个颜色通道:红色、绿色和蓝色,也就是三原色的构成。各通道的颜色深浅(函数的幅值)也用0(浅)到255(深)之间的数字表示。2.数字图像一、图像和数字图像的定义彩色图像文件片段
3.图像和数字图像之间的关系一、图像和数字图像的定义分辨率为M×N的二维数字图像的像素矩阵数字图像由有限数量的元素组成,每个元素都有一个特定的位置和数值,这些元素被称为像素。像素是广泛用于表示数字图像元素的术语。在计算机内通常用二维数组来表示数字图像的矩阵。3.图像和数字图像之间的关系一、图像和数字图像的定义原图像采样得到具体像素的示意图二、数字图像的历史历史上第一张数字相片诞生于1957年。罗素·基尔施(RussellKirsch)就用数码扫描的方法,将他儿子的胶片照扫描成图中这张正方形的数字相片历史上第一张数字图像二、数字图像的历史20世纪60年代到70年代,数字成像技术了避免胶卷相机的操作缺点,被用于相关的科学和军事任务。随着数字成像技术在随后的几十年中变得越来越便捷,它取代了旧的成像方法。20世纪60年代初,位于加利福尼亚州埃尔塞贡多的自动化工业公司的弗雷德里克·G·威特和詹姆斯·F·麦克纳尔蒂(美国无线电工程师)共同发明了世界上第一台实时生成数字图像的设备。这种设备生成的图像是荧光透视数字射线照片,在荧光镜的荧光屏上检测到方波信号以创建数字图像。二、数字图像的历史随着20世纪60年代金属氧化物半导体(MetalOxideSemiconductor,MOS)集成电路和70年代初微处理器的引入,以及相关计算机内存存储、显示技术和数据压缩算法的进步,数字图像技术得到了快速发展。微处理器技术的进步推动了用于图像捕获设备的电荷耦合器件(ChargeCoupledDevice,CCD)的发展,并在20世纪末逐渐取代了摄影和摄像中模拟胶片和磁带的使用。随着计算机计算能力的提高,计算机生成的数字图像可以达到接近真实照片的精细程度。三、数字图像的获取手机已经逐步取代了数码相机成为了人们日常获取数码图像的主要方式。通过手机中内置的相机和数码相机拍摄得到的是联合图像组(JointPictureGroup,JPG)这种通用照片格式,以这种格式存储的数码照片可以在电脑和智能手机的图片浏览器中正常显示。短短十几年时间,从11万像素到1亿像素,手机获取数字图像的成像质量越来越好,甚至今后有可能完全取代传统数码相机。1.手机和数码相机智能手机拍摄的数字图像三、数字图像的获取通过手机和电脑系统中自带的截图功能,可以方便及时地将当前屏幕上的内容保存成JPG格式的数字图像。2.电子设备屏幕截图微软的PowerPoint可以将PPT格式的文件导出成JPEG、PNG、GIF、JPG等不同格式的数字图像。AdobeAcrobat可以将PDF格式的文件导出成JPEG、TIFF、PNG等不同格式的数字图像。PhotoShop的PSD格式的文件也可以方便地导出成不同格式的数字图像。3.软件中导出数字图像三、数字图像的获取使用Windows系统自带的画图软件,既可以自己绘制图像然后保存成数字图像格式,也可以在文件栏选择来自扫描仪,直接得到位图(Bitmap,BMP)格式的图片。4.绘图软件创建数字图像第2章:数字图像及视频技术1数字图像基础知识2数字图像处理的关键技术3数字视频基础知识4数字视频关键技术5图像及视频技术的应用一、图像增强§2.2数字图像处理的关键技术增强图像中的有用信息,目的是改善图像的视觉效果。针对给定图像的应用场合,有目的地强调图像的整体或局部特性,将原来不清晰的图像变得清晰或强调某些人们通常感兴趣的特征,扩大图像中不同物体特征之间的差别,抑制通常不感兴趣的特征,使图像质量得到改善、丰富信息量,加强图像判读和识别效果,满足某些特殊分析的需要。图像增强是一个失真的过程。一、图像增强图像反转主要思路是将产生的负片用作投影片。转换方程:1.图像反转一、图像增强处理后的图像的动态范围远远超过显示设备的显示能力时,只有图像最亮的部分在显示屏上可见,需要对图像进行动态范围压缩。转换方程:c:度量常数;r:当前像素的灰度;s:转换后该像素的灰度。2.动态范围压缩将图像的[0,255]压缩到[0,150],动态范围压缩效果对比一、图像增强
3.对比度拉伸图像对比度拉伸二、图像去噪量化噪声乘性噪声加性噪声按噪声组成来分图像噪声是指存在于图像数据中不必要的或多余的干扰信息。噪声的存在严重影响了遥感图像的质量,因此在图像增强处理和分类处理之前,必须予以纠正。二、图像去噪
1.加性噪声此类噪声与图像信号有关,含噪声的图像可表示为:飞点扫描器在扫描图像时的噪声、电视图像中的相关噪声、胶片中的颗粒噪声均属于此类噪声。2.乘性噪声此类噪声与输入图像信号无关。由于在量化过程存在量化误差,这种误差反应到接收端就产生了量化噪声。3.量化噪声二、图像去噪按照噪声密度分布来分:这类噪声服从高斯分布,即某个强度的噪声点个数最多,离这个强度越远噪声点个数越少,且这个规律服从高斯分布。高斯噪声是一种加性噪声,即噪声直接加到原图像上,因此可以用线性滤波器滤除。1.高斯噪声这类噪声是指功率谱密度(信号功率在频域的分布状况)在整个频域内是常数的噪声。所有频率具有相同能量密度的随机噪声称为白噪声。2.均匀噪声二、图像去噪这类噪声类似把椒盐撒在图像上,因此得名。它是一种在图像上出现很多白点或黑点的噪声,如电视里的雪花噪声等。椒盐噪声可以认为是一种逻辑噪声,用线性滤波器滤除的结果不好,一般采用中值滤波器滤波可以得到较好的结果。胡椒噪声是指随机用0,-1替换像素,属于低灰度噪声。盐噪声是指随机用1替换像素,属于高灰度噪声。椒盐噪声是两种噪声同时出现,从而呈现出黑白杂点。3.椒盐噪声(脉冲噪声)二、图像去噪概率密度函数服从泊松分布的噪声。4.泊松噪声概率密度函数服从瑞利分布的噪声。5.瑞利噪声概率密度函数服从指数分布的噪声。6.指数噪声概率密度函数服从伽马曲线分布的噪声。7.伽马噪声图像增加了各种类噪声后的效果二、图像去噪减少数字图像中噪声的过程称为图像去噪。现实中的数字图像在数字化和传输过程中常受到成像设备与外部环境噪声干扰等影响,称为含噪图像或噪声图像。图像去噪主要有均值滤波、方框滤波、中值滤波等方法。二、图像去噪
1.均值滤波二、图像去噪与均值滤波不同,方框滤波可自由选择采用计算邻域像素值还是其均值作为滤波结果。2.方框滤波中值滤波法是一种非线性平滑技术,其原理与均值滤波基本相同,只是将每像素的灰度值设置为该像素某邻域窗口内的所有像素灰度值的中值。由于中值滤波需要对像素值进行排序,因此其需要的运算量较大。在处理过程中噪声成分很难被选上,可以有效地去除噪声。3.中值滤波二、图像去噪双边滤波在去噪处理时不仅考虑距离信息,还要考虑色彩信息,故其能够有效保护图像的边缘信息。4.双边滤波用特定的卷积核实现卷积操作。5.二维卷积维纳滤波是一种基于最小均方误差准则、对平稳过程的最优估计器。这种滤波器的输出与期望输出之间的均方误差为最小,是一个最佳滤波系统,可用于提取被平稳噪声所污染的信号。6.维纳滤波二、图像去噪高斯滤波是一种线性平滑滤波,适用于消除高斯噪声,广泛应用于图像处理的减噪过程。通俗的讲,高斯滤波就是对整幅图像进行加权平均的过程,每像素的值都由其本身和邻域内的其他像素值经过加权平均后得到。高斯滤波的具体操作:用一个模板扫描图像中的每像素,用模板确定的邻域内像素的加权平均灰度值去替代模板中心像素的值。7.高斯滤波二、图像去噪一维高斯分布公式:二维高斯分布公式:7.高斯滤波一维高斯分布图像高斯滤波器的三维透视图二、图像去噪傅里叶滤波采用的主要技术是快速傅里叶变换(FastFourierTransform,FFT),它通过对图片信号在频域里进行滤波,从而达到去噪效果。8.傅里叶滤波部分滤波去噪方法的效果图三、空间域上图像的几何变换
1.平移变换像素平移的示意图三、空间域上图像的几何变换
1.平移变换三、空间域上图像的几何变换由上述叙述可知,只需构造平移变换矩阵,然后将这个矩阵作用于(矩阵左乘)原图像的每像素,即可实现图像平移的效果。1.平移变换图像先向右平移100像素,再向下平移100像素的效果三、空间域上图像的几何变换
2.旋转变换三、空间域上图像的几何变换以图像中心为旋转中心,逆时针旋转30°后的效果:三、空间域上图像的几何变换
3.缩放变换三、空间域上图像的几何变换
3.缩放变换三、空间域上图像的几何变换将512×512大小的图像缩小成190×400大小的图像效果:四、频率域上图像的变换傅里叶变换是一种线性积分变换,用于信号在时域和频域之间的变换。其基本思想首先由法国学者约瑟夫·傅里叶系统地提出。傅里叶变换将信号分成不同的频率成分,被称为数学棱镜。对应到数字图像中,高频信号往往是图像中的边缘信号和噪声信号,而低频信号包含图像轮廓及背景等信号。1.傅里叶变换傅里叶变换作用类似于数学棱镜四、频率域上图像的变换数字图像进行傅里叶变换后得到的频谱图傅里叶变换的数学公式:1.傅里叶变换四、频率域上图像的变换离散余弦转换(DiscreteCosineTransformation,DCT)是与傅里叶变换相关的一种变换,它类似于离散傅里叶变换,但是只使用实数。离散余弦变换相当于一个长度大概是它两倍的离散傅里叶变换,是对一个实偶函数进行的(因为一个实偶函数的傅里叶变换仍然是一个实偶函数),在有些变形里面需要将输入或者输出的位置移动半个单位。离散余弦变换经常被信号处理和图像处理使用,用于对信号和图像(包括静止图像和运动图像)进行有损数据压缩。离散余弦变换具有很强的“能量集中”特性。2.离散余弦变换四、频率域上图像的变换离散余弦变换的公式如下:2.离散余弦变换数字图像离散余弦变换的效果第2章:数字图像及视频技术1数字图像基础知识2数字图像处理的关键技术3数字视频基础知识4数字视频关键技术5图像及视频技术的应用一、视频的定义§2.3数字视频基础知识根据维基百科:视频是一种电子媒体,是用于记录、复制、播放、广播和显示运动的视觉媒体。视频最初是为机械电视系统开发的,很快被阴极射线管(CathodeRayTube,CRT)系统取代,后来又被几种类型的平板显示器所取代。视频存在模拟和数字变体,并且可以在各种媒体上进行传输,包括无线电广播、磁带、光盘、计算机文件和网络流媒体。二、视频的历史视频技术最初是为机械电视系统开发的,最初只是一种现场技术。查尔斯·金斯堡(CharlesGinsburg)领导着Ampex研究团队,开发了第一台实用的磁带录像机(VideotapeRecorder,VTR)。11951年,第一台VTR通过将摄像机的电信号写入磁性录像带来捕获电视摄像机的实时图像。1971年,索尼开始在消费市场上销售盒式磁带录像机(VideoCassetteRecorder,VCR)唱盘和磁带。1.模拟视频阶段二、视频的历史DCT编码使实用的数字视频成为可能,这是20世纪70年代初开发的有损压缩过程。在20世纪80年代后期,DCT编码被应用于运动补偿的DCT视频压缩。H.261是第一个实用的数字技术视频编码标准。在1997年数字化视频光盘(DigitalVideoDisk,DVD)发明以及2006年蓝光光盘发明之后,录像带和记录设备的销量直线下降。随着计算机技术的进步,进一步降低了视频制作成本,使节目制作人和广播公司可以转向无磁带制作。数字广播的出现以及随后的数字电视过渡正在将模拟视频降级为世界上大多数地区的传统技术。2.数字视频阶段三、视频流的特征每单位时间视频的静态图片数被称为帧速率。范围从旧的机械相机的每秒6或8帧到新的专业相机的每秒120或更多帧。电影胶片以每秒24帧的较慢帧速率拍摄,这使将电影动态影像转换为视频的过程稍微复杂化了。实现运动图像的舒适视错觉的最小帧速率约为16帧/秒;要达成最基本的视觉暂留效果大约需要10帧/秒的速度。1.帧速率三、视频流的特征隔行扫描是为了减少早期机械和CRT视频显示器中的闪烁而又不增加每秒完整帧数的一种方法。与逐行扫描相比,隔行扫描保留了细节,同时需要较低的带宽。在隔行扫描视频中,每个完整帧的水平扫描线被视为连续编号,并捕获为两个场:由奇数行组成的奇数场(上场)和由偶数行组成的偶数场(下场)。NTSC、PAL和SECAM都是隔行扫描格式。当在逐行扫描设备上显示本机隔行扫描信号时,总空间分辨率会因简单的行加倍而降低。去隔行扫描过程可以优化来自DVD或卫星源的隔行扫描视频信号在逐行扫描设备上的显示,但是去隔行扫描不能产生与真正的逐行扫描源素材相当的视频质量。2.隔行扫描与逐行扫描三、视频流的特征长宽比在图像中也称图像的纵横比,是其宽度除以它的高度所得的比例,通常用两个数字表示,中间用冒号分隔,如16:9。对于x:y的宽高比,图像的宽度为x个单位,高度为y个单位。广泛使用的宽高比包括:电影摄影中的1.85:1和2.39:1,电视中的4:3和16:9,以及静态照相机摄影中的3:2。长宽比描述了视频屏幕和视频像素的宽度和高度之间的比例关系。传统电视屏幕的宽高比为4:3,或约为1.33:1。高清晰度电视使用的宽高比为16:9,即大约1.78:1。完整的35毫米带有声带的胶卷镜框的纵横比(也称为学院比例)为1.375:13.长宽比三、视频流的特征4:3标准历史最久的比例,它在电视机发明之初就已经存在,现今仍在使用,并且用于许多电脑显示器上。16:9标准高清晰度电视的国际标准,用于澳洲、日本、加拿大和美国,还有欧洲的卫星电视和一些非高清的扩展清晰度电视(ExtendedDefinitionTelevision,EDTV)。宽屏DVD将16:9的画面压缩为4:3用作资料存储,并依照电视的处理能力作出应变。如果电视支持宽屏,那么将影像还原就可以播放,如果不支持,就由DVD播放器将画面剪裁再送至电视上。3.长宽比三、视频流的特征14:9标准该标准最早源自英国,曾在英国、爱尔兰、法国、俄罗斯等国家使用,作为当地模拟电视的传输格式,目前大多已被淘汰。3.长宽比以对角线表示的五种标准比例16:9、16:10、3:2、4:3、5:4三、视频流的特征颜色模型通常指某个三维颜色空间中的一个可见光子集,它包含某个色彩域的所有色彩。常见的颜色模型主要有下面几种表示形式:典型的颜色亮度信息YIQ模式被用于NTSC电视;亮度色度参量YUV模式被用于PAL电视;YDbDr色彩空间被用于SECAM电视;YCbCr色彩空间被用于数字视频。4.颜色模型和深度三、视频流的特征色调饱和度亮度(HueIntensitySaturation,HIS)是从人的视觉系统出发的一种色彩模型红绿蓝(RedGreenBlue,RGB)被用于彩色阴极射线管等彩色光栅图形显示设备中,青色、洋红、黄色、黑色(CyanMagentaYellowBlack,CMYK)作为印刷色彩模型被应用于印刷工业。像素可以代表不同颜色的数量取决于每像素的位数表示的颜色深度。减少数字视频中所需数据量的常用方法是通过色度二次采样(例如4:4:4、4:2:2等)。4.颜色模型和深度三、视频流的特征视频质量是量化一段视频通过视频传输或处理系统时画面质量变化(通常是下降)程度的方法。视频质量可以用诸如正式度量来测量峰值信噪比(PeakSignaltoNoiseRatio,PSNR)或者针对主观视频质量采用专家观察评估。峰值信噪比是一个工程术语,表示信号的最大可能功率与影响其表示保真度的破坏噪声功率之间的比率。由于许多信号具有非常宽的动态范围,因此PSNR使用分贝作为单位,通常用对数量进行表示。PSNR也常用于量化有损压缩图像和视频的重建质量。5.视频质量三、视频流的特征在多种用于压缩视频流的方法中,最有效的方法是使用图片组(GroupofPicture,GOP)减少空间和时间冗余。广义上讲,通过记录单个帧之间的差异来减少空间冗余,此任务称为帧内压缩,与图像压缩密切相关。同样可以通过记录帧之间的差异来减少时间冗余,此任务称为帧间压缩,包括运动补偿和其他技术。最常见的现代压缩标准是MPEG-2(用于DVD,蓝光和卫星电视)和MPEG-4(用于移动电话和互联网)。6.数字视频压缩方法三、视频流的特征显示三维(3Dimensional,3D)电影和其他应用程序的立体视频的方法:两个通道:通过使用两个视频投影仪上彼此偏轴成90度的偏光滤镜,可以同时查看两个频道。戴上带有匹配偏振滤光镜的眼镜可以分别看到这些偏振的通道。浮雕3D:其中一个通道覆盖有两个颜色编码的图层,这种左和右分层技术有时用于DVD上3D电影的网络广播或最近的立体浮雕。交替遮挡:使用与视频同步的LCD快门眼镜交替为每个眼睛的左眼和右眼帧提供一个通道,以交替遮挡每只眼睛的图像,使得适当的眼睛可以看到正确的帧。7.立体视频四、视觉暂留物体在快速运动时,当人眼所看到的影像消失后,人眼仍能继续保留其影像0.1-0.4秒左右的图像,这种现象被称为视觉暂留现象。视觉暂留现象是光对视网膜所产生的视觉在光停止作用后仍保留一段时间的现象,其具体应用主要有电影的拍摄和放映。视觉暂留是动画、电影等视觉媒体形成和传播的依据。视觉暂留现象很早就被中国人运用,走马灯便是历史记载中最早的视觉暂留运用。春节期间的走马灯五、主要的视频编码标准国际标准化组织(InternationalStandardizationOrganization,ISO)国际电工技术委员会(InternationalElectrotechnicalCommission,IEC)与ITU是制定视频编码标准的两大组织,他们制定的视频编码标准主要有MPEG系列和H.26X系列。此外,中国自主知识产权的数字音视频编解码技术标准(AudioVideoStandard,AVS)也已经得到了广泛的应用。五、主要的视频编码标准标准制定的机构与发布日期标准编号标题典型应用MPEG-1ISO/IEC(1992.11)ISO/IEC11172用于数据速率高达大约1.5Mbps的数字存储媒体的活动图像和伴音编码数字视频存储、VCDMPEG-2ISO/IEC(1994.11)ISO/IEC13818活动图像和伴音信息的通用编码数字电视、DVDMPEG-4ISO/IEC(1999.5)ISO/IEC14496-2视音频对象编码因特网、流媒体H.264/AVCITU-T/ISO(2003.3)ISO/IEC14496-10MPEG-4的第10部分或者先进的视频编码数字电视、IPTV、可视电话、网络视频点播、数字视频存储HEVC/H.265ITU-T(2013)ISO/IEC高效视频编码支持4K和全高清DVSMPTE(1999.7)SMPTE314M基于DV的25Mb/s、50Mb/s视频压缩格式录像机AVS国家标准化管理委员会(2006.2)GB/T20090.2-2006先进音视频编码第2部分:视频数字电视、IPTV、可视电话、网络视频点播数字视频存储国际上主要的视频编码标准:五、主要的视频编码标准MPEG系列由ISO下属的运动图像专家组开发。MPEG视频编码包括MPEG-1(VCD)、MPEG-2(DVD)、MPEG-4、MPEG-4AVC;音频编码主要包括MPEGAudioLayer1/2、MPEGAudioLayer3(MP3)、MPEG-2AAC、MPEG-4AAC等。H.26X系列由国际电信联盟ITU主导,侧重网络传输。ITU-T的视频标准包括H.261、H.263、H.264,主要应用于实时视频通信领域,如视频会议,而MPEG系列主要应用于视频存储、广播电视、互联网或无线网络的流媒体等。五、主要的视频编码标准DV的英文全称是DigitalVideo,由索尼、松下、JVC等多家厂商联合提出的一种家用数字视频格式。数码摄像机主要就是使用这种格式记录视频数据的,这种视频格式的文件扩展名一般是.avi,所以习惯地叫它为DV-AVI格式。AVS音视频编码是由中国主导制订的新一代编码标准,视频压缩效率比MPEG-2增加了一倍以上,能够使用更小的带宽传输同样的内容。AVS已经成为国际上三大视频编码标准之一,它已经在国家广播电视总局正式全面推广,并在广电行业中普及。第2章:数字图像及视频技术1数字图像基础知识2数字图像处理的关键技术3数字视频基础知识4数字视频关键技术5图像及视频技术的应用一、运动特征提取§2.4数字视频关键技术要分析视频的运动特征,首先要提取视频序列中的运动矢量。运动矢量是对物体或摄像机在3维场景中的运动所造成的在2维图像平面上投影变化的一种估计,运动矢量估计在计算机视觉和视频压缩中有着重要的作用。一、运动特征提取从视频序列计算运动矢量的方法中,基于块匹配的相关性技术是最直观且被广泛应用的方法。在块匹配技术中,可以通过在一定大小的窗口中搜索出唯一匹配的灰度块来得到图像序列的运动矢量。块匹配算法的最大不足是计算的复杂性。目前,已经提出了许多方法来提高块匹配算法的性能,如窗口亚采样法、快速搜索算法、查找表法等。块匹配算法计算出的运动矢量一、运动特征提取在80年代早期建立的光流分析法,也是运动估计的重要方法。目前,光流场计算技术的研究大致有以下几个方向:研究解决光流场计算不适定问题的方法;研究光流场计算基本公式的不连续性;研究直线和曲线的光流场计算技术;研究由光流场重建物体三维运动和结构。根据运动矢量场,可以进一步提取更高层次的运动特征,例如建立全局运动模型对摄像机运动进行估计、运动对象分割并对物体运动模型进行估计等。二、视频修复利用AI视频转换技术,可以将老旧低清视频画质修复与重生,使得视觉感知清晰度得到提升,从而提升视频画质质量。人工智能修复的100年前北京街景影像片段的截图这段影像由加拿大摄影师拍摄而成,而给它重新上色修复的是中国一位年轻的独立游戏开发者大谷。原本色彩单调、轮廓模糊的人影,变得面目清晰、动作流畅,再加上后期逼真的音效,生动再现了当时的历史风貌。二、视频修复新中国成立70周年时,《开国大典》等经过AI和人工修复的献礼片惊艳了公众,许多观众看后热泪盈眶。通过人工智能深度学习的方式,老片中常见的噪点、色偏、模糊、抖动、划痕等“小伤小痛”得以被批量化修复。但是,一些老片画面由于损失严重或存在大片污渍,人工智能无法通过时间、空间信息“脑补”,在这种情况下,必须依靠有经验的修复专家来完成。修复版《开国大典》可见,有些场景中,人工智能实际上不能完全代替手工劳动,人机共同协作才能产生最好的结果。三、视频检索在传统的数据库系统中,信息的检索一般以数值和字符型为主,而在多媒体数据库中集成图像、视频、音频等非格式化信息。每一种媒体数据都有一些难以用字符和数字符号描述的内容线索,如图像中某一对象的形状颜色和纹理、视频中的运动、声音的音调等。当用户要利用这些线索对数据进行检索时,首先要将其人工转化为文本或关键词形式,这种转换带有一定的主观性,且极其费时,因而仅基于关键词的检索已不能满足用户的检索要求。数据库及其他信息系统不仅要能对图像、视频和声音等媒体进行存储以及基于关键字的检索,而且要对多媒体数据内容进行自动语义分析、表达和检索。三、视频检索视频检索就是要从海量的视频数据中找到所需的视频片段。根据提交视频内容的不同,视频检索一般分为镜头检索和片段检索。目前,视频检索的多数研究还集中在镜头检索上。而片段检索方面的研究则刚刚开始。片段检索分为以下两种类型:精确检索和相似性检索。一个完整的视频检索系统的关键技术主要有:关键帧提取、图像特征提取、图像特征的相似性度量、查询方式以及视频片段匹配等方法。视频检索是一门交叉学科,以图像处理、模式识别、计算机视觉、图像理解等领域的知识为基础,从认知科学、人工智能、数据库管理系统及人机交互、信息检索等领域,引入媒体数据表示和数据模型,从而设计出可靠、有效的检索算法,系统结构以及友好的人机界面。三、视频检索国内外已研发出了多个基于内容的视频检索系统,主要有以下几种:由IBMAlmaden研究中心开发的,是“基于内容”检索系统的典型代表。此系统主要利用颜色、纹理、形状、摄像机和对象运动等描述视频内容,并以此实现其检索。QBIC提供了对静止图像及视频信息基于内容的检索手段,允许用户使用例子图像、构建草图、以及颜色和纹理模式、镜头和目标运动等信息对大型图像和视频数据库进行查询。在视频数据分析方面包括了镜头检测、运动估计、层描述、代表帧生成等多种视频处理手段。1.图像内容查询系统(QueryByImageContent,QBIC)三、视频检索美国哥伦比亚大学电子工程系与电信研究中心图像和高级电视实验室共同研究的、一种在互联网上使用的“基于内容”的检索系统。实现了互联网上的“基于内容”的图像/视频检索系统,提供了一套供人们在网页上搜索和检索图像及视频的工具。2.VisualSeek系统由美国哥伦比亚大学研究开发的一套全自动的基于内容的视频查询系统。它扩充了传统关键字和主题导航的查询方法,允许用户使用视觉特征和时空关系来检索视频。3.VideoQ清华大学开发的视频节目管理系统(TsinghuaVideoFindIt,TVFI)可提供视频数据入库、基于内容的浏览、检索等功能;提供多种数据访问模式,包括基于关键字查询、示例查询、按视频结构浏览及按用户自定义类别进行浏览等。4.视频节目管理系统三、视频检索基于内容的视频分析和检索研究的目的:通过对视频内容进行计算机处理、分析和理解,建立结构和索引,以实现方便有效的视频信息获取。基于内容的视频检索包括很多技术,如:视频结构的分析(镜头检测技术)、视频数据的自动索引和视频聚类等。目前在基于内容的视频检索技术的研究方面,除了识别和描述图像的颜色、纹理、形状和空间关系外,其他主要集中在视频镜头分割、特征的提取和描述、关键帧提取和结构分析等方面。基于内容的视频检索的系统框图第2章:数字图像及视频技术1数字图像基础知识2数字图像处理的关键技术3数字视频基础知识4数字视频关键技术5图像及视频技术的应用一、OCR文字识别§2.5图像及数字视频技术的应用光学字符识别(OpticalCharacterRecognition,OCR)是指对文本资料的图像文件进行分析识别处理,获取文字及版面信息的过程。OCR的概念是在1929年由德国科学家Tausheck最先提出来的,并申请了专利。我国研究汉字识别的起步比较晚,20世纪70年代末才开始OCR的研究工作。90年代以后,随着平台式扫描仪的广泛应用,以及我国信息自动化和办公自动化的普及,大大推动了OCR技术的进一步发展,使OCR的识别正确率、识别速度满足了广大用户的要求。处理过程主要包括五个步骤:输入、前期处理、中期处理、后期处理、输出。其中,前期处理包括:二值化、图像降噪、倾斜矫正;中期处理包括:版面分析、字符切割、字符识别、版面还原。一、OCR文字识别§2.5图像及数字视频技术的应用OCR的处理过程输入:输入数字图像,对于不同的图像格式,有着不同的存储格式、不同的压缩方式。二值化:为了让计算机更快更好地进行OCR相关计算,我们需要先对彩色图进行处理,使图片只剩下前景信息与背景信息。图像降噪:根据噪点的特征进行去噪的过程称为降噪。倾斜矫正:拍出来的图片会不可避免的产生倾斜,这就需要使用图像处理软件对其进行校正。版面分析:将不同字符之间分割开。字符识别:早期以模板匹配为主,后期以特征提取为主。版面还原:识别后的文字不变地输出到Word文档、PDF文档。后期处理:根据特定的语言上下文的关系,对识别结果进行校正。输出:将识别出的字符以某一格式的文本输出。二、多媒体通信§2.5图像及数字视频技术的应用多媒体通信技术是多媒体技术与通信技术的有机结合,突破了计算机、通信、电视、等传统产业间相对独立发展的界限,是计算机、通信和电视领域的一次革命。多媒体通信技术在计算机的控制下,对多媒体信息进行采集、处理、表示、存储和传输。多媒体通信系统的出现大大缩短了计算机、通信和电视之间的距离,将计算机的交互性、通信的分布性和电视的真实性完美地结合在一起,向人们提供全新的信息服务。三、视频检索视频通话分为通过互联网协议(InternetProtocol,IP)线路和通过普通电话线路两种方式。视频通话通常指基于互联网和移动互联网端,通过手机之间实时传送人的语音和图像的一种通信方式。日常中常用的视频通话软件有苹果公司的FaceTime和带有视频通话功能的微信。1.视频通话在全球新型冠状病毒大流行大背景下,居家上课、远程教学成为了一股新的潮流。新冠肺炎疫情期间,远程教学、在线教育等需求量激增,并推动在线教育行业爆发式增长。截至2020年12月,我国在线教育用户规模达2.43亿,占网民整体的34.6%。2.远程教学多媒体通信主要应用场景如下:三、视频检索此前的一场远程手术让凌至培名声大噪:2019年3月16日,凌至培主导完成了世界首例5G远程手术,在三亚对北京的患者进行“脑起搏器”植入。2019年6月27日,北京积水潭医院院长田伟顺利完成了全球首例骨科手术机器人多中心远程手术。远程医疗的发展,拉近了病人与医生之间的距离,使医生在无需患者亲临的情况下,对患者的病情作出及时的诊断,节省了患者的就诊时间。3.远程医疗三、遥感图像遥感与现场观测不同,是在不与物体发生实际接触的情况下获取关于物体或现象的信息。遥感应用于许多领域,包括地理学、土地测量和大多数地球科学学科;它还有军事、情报、商业、经济、规划和人道主义等应用。“遥感”
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年金融从业者金融市场分析计算题库
- 2026年高级会计师职业技能鉴定模拟题
- 防触电培训课件
- 2025年艺术表演团体演出管理手册
- 2026年建筑知识题库智能建筑中电子凭证的应用技术
- 消防安全知识培训课件文库
- 金职院妇婴护理教学大纲
- 2025年航空安全管理与服务流程手册
- 2026年编程语言与数据结构进阶题库
- 2026年互联网科技公司面试编程基础题库
- 重难点练02 古诗文对比阅读(新题型新考法)-2024年中考语文专练(上海专用)(解析版)
- 门岗应急预案管理办法
- 幼儿阶段口才能力培养课程设计
- 职高一年级《数学》(基础模块)上册试题题库
- JG/T 367-2012建筑工程用切(扩)底机械锚栓及后切(扩)底钻头
- 国家职业标准 6-11-01-03 化工总控工S (2025年版)
- 公共安全视频监控建设联网应用(雪亮工程)运维服务方案纯方案
- 定额〔2025〕2号文-关于发布2020版电网技术改造及检修工程概预算定额2024年下半年价格
- 安全生产标准化与安全文化建设的关系
- DB31-T 1502-2024 工贸行业有限空间作业安全管理规范
- 2022版义务教育(物理)课程标准(附课标解读)
评论
0/150
提交评论