多媒体搜索引擎_第1页
多媒体搜索引擎_第2页
多媒体搜索引擎_第3页
多媒体搜索引擎_第4页
多媒体搜索引擎_第5页
已阅读5页,还剩25页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、多媒体搜索引擎多媒体文档及其内容理解(4)2022年2月12日Multimedia Search Engine2压缩基于频域变换的图像编码把图像变换到频率域在频率域中,对低频信号采取较小量化步长量化,对高频信号采取较大量化步长量化大量高频信号变成“0”用熵编码输出量化系数由于有大量的“0”,数据得到压缩熵编码源图像正向变换量化压缩图像2022年2月12日Multimedia Search Engine3压缩基于频域变换的图像编码基于DCT的图像压缩(JPEG)DCT变换:一类正交变换l正交变换特性l可逆熵保持(信息不丢失)l去相关变换系数线性无关(设计目的)l能量集中:大部分能量集中到少数变换

2、系数熵编码源图像正向变换量化压缩图像2022年2月12日Multimedia Search Engine4压缩基于DCT的图像压缩DCT的基函数生成每个变换系数所用的各点权重l不同的系数与不同的空域频率共振l第一个系数:DCl整个块的平均值熵编码源图像正向变换量化压缩图像2022年2月12日Multimedia Search Engine5压缩基于DCT的图像压缩变换前像素值熵编码源图像正向变换量化压缩图像52 55 61 66 70 61 64 7363 59 66 90 109 85 69 7262 59 68 113 144 104 66 7363 58 71 122 154 106 7

3、0 6967 61 68 104 126 88 68 7079 65 60 70 77 68 58 7585 71 64 59 55 61 65 8387 79 69 68 65 76 78 942022年2月12日Multimedia Search Engine6压缩基于DCT的图像压缩变换后系数熵编码源图像正向变换量化压缩图像.sg/cs5248/l01/DCTdemo.html-415 -29 -62 25 55 -20 -1 3 7 -21 -62 9 11 -7 -6 6 -46 8 77 -25 -30 10 7 -5 -50 13 35 -15 -9

4、 6 0 3 11 -8 -13 -2 -1 1 -4 1 -10 1 3 -3 -1 0 2 -1 -4 -1 2 -1 2 -3 1 -2 -1 -1 -1 -2 -1 -1 0 -12022年2月12日Multimedia Search Engine7压缩基于DCT的图像压缩量化对DCT变换后的系数进行量化l系数除以量化步长再取整l不可逆信息丢失l依据心理视觉特性量化l丢失难以看见的信息l保留容易看见的信息l如果量化台阶小于人眼在该频率的灵敏度,则量化噪声无法被看见熵编码源图像正向变换量化压缩图像-415/16 = -26-26*16 = -4162022年2月12日Multimedia

5、 Search Engine8压缩基于DCT的图像压缩量化JPEG建议的亮度分量量化值9910310011298959272101120121103877864499211310481645535247710310968563722186280875129221714566957402416131455605826191412126151402416101116熵编码源图像正向变换量化压缩图像2022年2月12日Multimedia Search Engine9压缩基于DCT的图像压缩量化后的系数熵编码源图像正向变换量化压缩图像-26 -3 -6 2 2 0 0 0 1 -2 -4 0 0 0

6、 0 0 -3 1 5 -1 -1 0 0 0 -4 1 2 -1 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 2022年2月12日Multimedia Search Engine10压缩基于DCT的图像压缩Zig-zag:把0系数尽量归并到一起游程编码0系数-26 (DC) (0, -3) (0, 1) (0, -3) EOB熵编码源图像正向变换量化压缩图像-26 -3 -6 2 2 0 0 0 1 -2 -4 0 0 0 0 0 -3 1 5 -1 -1 0 0 0 -4 1 2 -1 0

7、0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 EOB2022年2月12日Multimedia Search Engine11压缩基于DCT的图像压缩DC系数先做预测编码,再做熵编码l用前一块的DC系数预测本块的DC系数AC系数游程编码后二元组直接用于熵编码熵编码源图像正向变换量化压缩图像2022年2月12日Multimedia Search Engine12压缩基于DCT的图像压缩使用的技术颜色空间:通常用YUVl颜色分量亚采样:通常用4:2:0l即使不用亚采样,YUV空间也比RGB空间容易压缩l使用

8、高级压缩技术,颜色分量亚采样用处不大频域变换:DCT基于心理视觉的量化系数设置预测编码(DC系数)Zig-zag和游程编码(AC系数)熵编码(霍夫曼或算术编码)2022年2月12日Multimedia Search Engine13压缩基于DCT的图像压缩优点实现较简单对自然图像压缩率不错缺点块效应l由于每8x8块独立处理,块的边界上很容易出现前后块差异较大的情况l人眼对边缘敏感不能实现无损压缩2022年2月12日Multimedia Search Engine14压缩基于小波变换的图像压缩(JPEG2000)小波变换(wavelet transformation)用一对滤波器对图像进行滤波,

9、把图像分解成不同的频带l滤波器对:低通滤波器+高通滤波器2022年2月12日Multimedia Search Engine15压缩基于小波变换的图像压缩(JPEG2000)小波变换(wavelet transformation)2022年2月12日Multimedia Search Engine16压缩基于小波变换的图像压缩(JPEG2000)二者均在约43:1的压缩率时JPEGJPEGJPEG2000JPEG20002022年2月12日Multimedia Search Engine17压缩基于小波变换的图像压缩(JPEG2000)优点无块效应l整个图像统一处理,不存在块边界可实现无损压缩

10、同等质量下压缩率高缺点运算复杂l计算量大,存储开销大2022年2月12日Multimedia Search Engine18压缩视频的压缩视频:连续的多个图像用JPEG编码每帧Motion JPEGl压缩率低视频的特点:相邻帧之间的差异很小预测编码:用前面的帧预测后面的帧l用后面的帧预测前面的帧?2022年2月12日Multimedia Search Engine19压缩视频的压缩I帧(Intra Frame)不进行帧间预测,只使用DCT变换进行编码lJPEGP帧(Predictive Frame)用前面的帧预测l直接用对应像素预测?I P P P P2022年2月12日Multimedia

11、Search Engine20压缩视频的压缩是否可以用后续帧来预测?顺序编码:后续帧不可能先被处理,所以解码器不可能事先获得后续帧不可以不能顺序编码帧重排序2022年2月12日Multimedia Search Engine21压缩视频的压缩帧重排序把用于反向预测的帧提前编码和传输B帧(Bi-directional Frame)1 2 3 4 5 6 71 4 2 3 7 5 6?XXMPEG演示2022年2月12日Multimedia Search Engine22压缩视频压缩标准H.261仅I/P帧,面向500-1000kbps的视频传输MPEG-1/H.262I/P/B帧,VHS质量,1

12、.5Mbps左右H.263I/P/B帧,更小的运动补偿单位,100kbps视频MPEG-2, MPEG-4, 较高和高质量视频,DVD/HDTV2022年2月12日Multimedia Search Engine23压缩总结数据可以被压缩的原因数据的真实信息量小于数据的总量l我们只需要真实的信息数据包含人无法感知的信息l我们只需要可感知的信息文档语义仅可能来自真实的、可感知的信息l压缩原理与多媒体文档内容理解技术密切相关数据压缩的基本原理根据已经处理的数据尽可能准确地预测后续数据2022年2月12日Multimedia Search Engine24多媒体文档的语义多媒体文档包含丰富的语义“百

13、闻不如一见”要检索多媒体文档,必须提取这些语义如何提取2022年2月12日Multimedia Search Engine25多媒体文档的语义可对应于文字的语义话音ASR(Automatic Speech Recognition)字符图像OCR(Optical Character Recognition)物体、类别等2022年2月12日Multimedia Search Engine26多媒体文档的语义无法或难以对应于文字的语义2022年2月12日Multimedia Search Engine27多媒体文档的语义语义的表示可对应于文字的语义用文字表示l如何提取?无法或难以对应于文字的语义如何表示?如何运算?如何检索?2022年2月12日Multimedia Search Engine28多媒体文档的语义面临的问题多媒体数据的原始信息像素矩阵/音频数组需要的信息便于计算和检索的信息文字信息两种信息差异巨大无法一步跨越底层数据高层语义语义鸿沟2022年2月12日Multimedia Search Engine29多媒体文档的语义面临的问题多媒体数据的原始信息像素矩阵/音频数组需要的信息便于计算和检索的信息文字信

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论