多媒体技术课程整理

上传人：5*** IP属地：湖北上传时间：2022-03-03 格式：DOCX 页数：9 大小：78.97KB 积分：30 举报 版权申诉

已阅读5页，还剩4页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、第一章多媒体导论1.1什么是多媒体概念：多媒体技术是由使用多模态技术（包括文本、图像、图形、动画、视频和音频等，以及交互活动）的应用程序构成的。1.3.25HTTP：超文本传输协议（HyperText Transfer Protoco），一种”无状态”的请求/响应协议。HTML：超文本标记语言（HyperText Markup Language），用来在World Wide Web上发布超媒体信息的语言XML：可扩展标记语言（Extensible Markup Languag），定义文档中的标记（结构）以及他们之间的关系。SMIL：同步多媒体集成语言（Synchronized Multi

2、media Intergration Language）SMIL的基本目标和主要功能：支持对不同多媒体元素的调度和同步，并定义这些元素和用户之间的交互。第二章多媒体编著和工具2.1 sprite animation分镜（精灵）动画假设我们已经创造了一个动画图，那么可以很容易地得到一位（黑-白）的掩模M，并得到分镜S; 现在我们可以将这个分镜覆盖在彩色的背景B上：先将B和M作“与”运算，然后将得到的结果和S作“或”运算，将这些简单的操作组合以一定的速率执行，就可以生成一个简单的二维动画。 Video transition视频切换常用的切换类型包括：剪切、擦拭、融化、淡入（出）剪切，顾名思

3、义，是在两个连续的视频帧之间执行对图像内容的剧烈变化。这是最为简单也最为常用的切换方式。擦拭是用另一段视频中的内容来代替可视区域的像素。如果两个视频的边界在屏幕中缓慢移动，那么第二段视频将逐渐替代第一段视频。方式有从左到右，从上到下、钟表式等等。融化的方式用两段视频的混合来代替原图中的像素，以实现两段视频之间的渐变。融化分为交叉融化和抖动融化两类。在第一类（交叉融化）中，像素点是渐变的，它可以被定义为：D=(1-(t)·A +(t)·BA和B是表示视频A和B的三元颜色向量。(t)是颜色切换的函数，通常它和时间t具有线性关系：(t) =kt，ktmax1 第二类（抖动融

4、化）则完全不同，根据(t)，视频A中的像素点将突然被视频B所取代，这种变化是非连续的。变化的像素点的位置可以是随机的，也可以遵循一定的模式。很明显，淡入淡出是第一类融化方式（视频A或B为黑色（或白色）的特例，而擦拭是第二类融化方式（采用某种几何模式来改变像素的特例）。2.3 VRML什么是VRML，全称，干什么的Virtual Reality Modeling Language，虚拟现实建模语言VRML是用来在Web环境中创建3D环境的工具，目标是将有色彩的对象置于3D环境中。第三章图形和图像的数据表现3.1.1 二值图像图形的每个像素作为一个位存储（0或者是1），是1位单色图像。3.1

5、.2 8位灰度图像图像的每个像素有一个在0255之间的灰度值。每个像素由一个字节表示，政府图像可以看作由像素值组成的二维数组，即位图（bitmap）。3.1.4 24位彩色图像在一个24字节的彩色图像中，每个像素用三个字节表示，通常表示为RGB。伪彩色：使用了查找表概念来存储颜色信息，基本上，图像存储的不是颜色而仅仅是字节的组合，每个字节是指向一个表的索引。该表表项具有三字节值，指明了带有查找表索引的像素的颜色。颜色查找表通常被称为调色板（palette）。3.2.3 PNG 基本技术特点（针对GIF）最多可支持48位的色彩信息。文件可能还包含用于正确显示彩色图像的伽马校正信息以及用于透

6、明控制的阿尔法通道信息。与GIF基于宽展行的渐进显示不同，PNG的显示在7通道上对图像的每个8X8块一次同时在二维空间显示一些像素。3.2.7 PS和PDF 了解，是干什么的 PostScript，用于排版的重要语言，PS文件是用ASCII保存的，本身没有提供压缩。Portable Document Format，便携式文档格式中包含了LZW压缩。第四章图像和视频中的颜色4.1.6 伽马校正干什么的图像文件中的RGB数值被转换回模拟信号并驱动阴极射线管（CRT）中的电子枪。电子的发射与驱动电压成正比，并且我们希望CRT系统产生的光线与电压线性相关。但是CRT产生的光线实际上与典电压的指数大

7、致呈正比，这个指数称为“gamma”（伽马），符号为。如果文件在红色通道的值是R ，则屏幕发射的光线与 R 成正比。通常是对需“伽马校正”的信号在发射前将其指数变为1/，这样，我们就有：RR= R (R) R 因此可以获得“线性信号”。4.1.12 XYZ RGB Lab 为什么提出这些颜色模型XYZ:为了产生与设备无关的颜色,通过与设备相关的颜色值RGB来指定(x,y)色度值来协商解决L*a*b(CIELAB):要看出明亮光线中的变化,它们之间的变化必须比在昏暗光线中得到同样效果的变化大许多.4.2 两大类颜色模型增色模型:当两条光线照射到一个目标上时,他们的颜色会加起来. 红色光源+绿色

8、光源=黄色光减色模型:对于沉积到纸上的墨水,会从纸的白色光源减去反色,反射出剩下的光. 黄墨水从白色光源中减去蓝色,反射出红+绿,最终看起来是黄色4.3.24 了解Y=0.299·R+0.587·G+ 0.114·B(下面的公式我觉得都不用背，了解即可)YUV：YUV编码用于PAL模拟视频中，U=B-Y ; V=R-Y YIQ：(实际上是YIQ)用于NTSC彩色电子广播中，灰度像素产生（I,Q）色度信号YCbCr：分量数字视频的国际标准Rec.601使用的颜色空间，用于JPEG图像压缩和MPEG视频压缩，与YUV变换紧密相关。Cb=(B-Y)/1.772)+0.5

9、 Cr=(R-Y)/1.402)+0.5第五章视频中的基本概念5.1 模拟视频概念参数、计算视频信号可以分成三类：分量视频（Component Video）、复合视频（Composite Video）和S-Video。分量视频：高端视频系统（例如视频工作室）分别使用三路视频信号来表示红、绿、蓝三种图像平面，这类视频称为分量视频。一般来说，现代的数字视频都采用分量视频。复合视频：在复合视频中，颜色（色度）信号和强度（亮度）信号混合成一个的载波。色度是由两种颜色分量（I和Q或U和V）构成的。复合视频用于彩色电视广播，兼容黑白电子广播。S-视频：作为折中方案，S-Video使用两条电线，一条用

10、于亮度信号，一条用于混合的色度信号。这样，颜色信息与关键的灰度信息之间的色度亮度干扰会少一些。模拟信号f(t)对时变的图像进行采样，渐进扫描按照时间间隔逐行进行跟踪完整的图像，计算机显示器的时间间隔一般为1/72秒；在电视、显示器或多媒体标准中，采用隔行扫描，先扫描奇数行，然后扫描偶数行，产生“奇数域”和“偶数域”，组成一帧图像。由于隔行扫描的作用，奇数行和偶数行交替显示。一般情况下我们感觉不到这种交替过程，除非在屏幕上有快速动作发生时，可能产生模糊的图像（此处可能考判断）。5.3 数字视频优势视频的数字显示技术的优点有很多，它允许·在内存或者数字设备上存储视频以便于进一步的处理（

11、去噪、剪切和粘贴等操作）以及集成到各种各样的多媒体应用程序中。·直接访问，这样使得非线性视频编辑更加简单。·重复记录而不降低图像的质量·便于加密，对信道噪声的容忍度更高。5.3.1 色度的亚采样图形亚采样(Sub-Sampling)的依据是什么？它是根据人的视觉系统所具有的两条特性：一是人眼对色度信号的敏感程度比对亮度信号的敏感程度底，利用这个特色可以把图像中表达颜色的信号去掉一些而使人察觉不出；二是人眼对图像细节的分辨能力有一定限度，利用这个特性可以把图像中的高频信号去掉一些。5.3.3 HDTV技术参数高清标准高清电视（HDTV）不是增加每个单元区域的清

12、晰度，而是增加可视域，特别是宽度。HDTV的另一个特点是它朝着渐进扫描（非隔行扫描）的方向发展。原因是隔行扫描会给运动物体引入锯齿边，给水平边带来摇摆。第六章数字音频基础6.1.3 奈奎斯特理论如果使用了足够的正弦函数，我们可以把信号分解成一系列正弦函数的和如果采样频率和语音的真实频率一致，我们会检测到一个错误的信号，它仅仅是一个常数，频率为0。如果使用语音频率的1.5倍频率采样，我们会得到一个频率为真实频率一半的假频。基于以上原因，为了得到正确的采样，我们需要使用的采样频率至少是信号中最高频率的两倍，这就是奈奎斯特采样率。更一般地，对于一个限带信号（band-limited signal，

13、即信号的频率分量的下界为f1，上界为f2），那么采样频率至少是2（f2-f1）。习惯上人们把奈奎斯特采样频率的一半称作奈奎斯特频率。6.1.4 SNR/PSNR/SQNR/PSQNR概念信噪比（Signal-to-Noise Ratio，SNR）正确信号的能量和噪声能量的比，是信号质量的衡量标准之一。SNR=10 log10(V²信号/ V²噪声)=20 1og10(V信号/ V噪声)SQNR 信号量化噪声比量化噪声(或量化误差)是指某个采样时间点的模拟值和最近的量化值之间的差。6.2 MIDI 数据的基本特点、和波形的区别、公式Musical Instrument Di

14、gital Interface，乐器数字化接口MIDI是一种脚本语言，它对代表某种声音产品的“事件”编码。举个例子：一个MIDI事件可能会包含一个音符的音调、延时、音量等数据。MIDI文件可以存储波形数据。6.3 什么是PCM/DPCM/ADPCMPCM：脉冲编码调制 Pulse Code ModulationDPCM：差分脉冲编码调制Differential Pulse Code ModulationDPCM是量化的预测编码，是一种有损编码ADPCM：自适应差分脉冲编码调制Adaptive Differential Pulse Code Modulation第七章无损压缩算法（必考）7.3

15、游长编码7.4 变长编码7.4.1香农-凡诺算法7.4.2 霍夫曼编码7.5 LZW7.6 算术编码7.7 无损图像压缩第八章有损压缩算法8.1当图形的直方图相对平坦时，对图像数据采用无损压缩技术（如霍夫曼编码、算术编码和LZW），其压缩率很低；而在多媒体应用中的图像压缩技术需要较高的压缩率，因而通常采用有损压缩方法。在有损压缩中，被压缩的图像和原图像一般不完全相同，而是得到一个感觉上与原图像接近的近似结果。8.2失真量度是一个说明在某种失真标准下一个近似值与原值的接近程度的数学量如果关心的是像素的平均差异，常常采用均方差（Mean Square Error，MSE）如果关心的是相对于信

16、号的误差大小，则可以采用信噪比（SNR）量度另一个常用的失真量度是峰值信噪比（Reak-Signal-to-Noise Ratio，PSNR）它测量的是相对于信号峰值的误差大小。8.3比率失真理论有损压缩中永恒的问题就是比率和失真之间的权衡。比率就是重现原信号所需的平均位数8.4对于任何有损方法，量化都是其核心8.5 变换编码 DCT 作用变换编码：从信息理论的基本原理可知，矢量编码比标量编码效率更高。为了实现这个目的，我们需要将源输入中的连续样本块聚合成矢量。离散余弦变换（DCT）是一种广泛应用的变换编码方法。它能够以数据无关的方式解除输入信号之间的相关性。 JPEG2000 采用的是离

17、散小波变换(DWT)、EZW替代了JPEG 中采用的离散余弦变换DCT第九章图像压缩标准9.1 JPEG标准是由联合图像专家组Joint Photographic Experts Group开发的一种图像压缩标准JPEG是有损的图像压缩方法。在JPEG中，DCT变换的编码效率基于下述3个特性特性1 在图像区域内，有用的图像内容变化相对缓慢，也就是说，在一个小区域内亮度值的变换不会太频繁。空间频率表示在一个图像块内像素值的变化次数。DCT把对图像内容的变化度量和每一个块的余弦波周期数对应起来，形式化地表明了这一变化。特性2 心理学实验表明，在空间域内，人类对高频分量损失的感知能力远远低于对低频

18、分量损失的感知能力。特性3 人类对灰度（黑和白）的视觉敏感度（区分相近空间线的准确度）要远远高于对彩色的敏感度。JPEG编码包括以下一些主要步骤：·把RGB转换为YIQ或YUV，并且二次采样·对图像块进行DCT变换·进行量化·进行Z编序和游长编码·进行熵编码9.2 JPEG2000标准了解、技术特点 JPEG2000能处理256路的信息，而现行的JPEG标准只能处理3路颜色信息。卫星图像就能提供上述含有巨大数据量的信息。 JPEG适用于各种应用，这种方法应用前景广泛，而且可以远程浏览压缩过的图像。 JPEG 2000标准有两种编码模式：基于D

19、CT和基于小波变换。前者为了向后兼容现行的JPEG，后者实现新的功能和改进性能。9.3 JPEG-LS标准了解JPEG-LS与JPEG2000相比，主要优点是采用的算法复杂度低。JPEG-JS是ISO对医学图像建立更好标准的努力结果。JPEG-LS实际上是现有的ISO/ITU关于对连续色调的图像进行无损或“准无损”压缩的标准。第十章基本视频压缩技术10.1 视频压缩简介解决视频压缩的一个简单的方法就是基于前面的帧的预测编码。举个例子，假设我们构造一个预测器，预测器的预测结果和前一帧相同。压缩不是对图像本身进行相减，而是按照时间顺序进行相减，并将残差进行编码。10.2 基于运动补偿的视频压缩

20、前面讨论过的图像压缩技术采用了空间冗余。图像内容在整个图边上变化比较缓慢这个现象使得空间维度上高频分量的大量压缩成为可能。由于视频的帧率通常比较高（大于15帧每秒），并且摄像头的参数变化较慢，所以连续帧的图像内容是很相似的，除非有移动较快的物体。换句话说，视频在时间维度上存在冗余。由于帧间图像的主要差别是由摄像头或者物体的运动造成的，所以可以通过在这些帧里探测相应像素或区域的移动并测量它们的差值来“补偿”这些运动生成器。采用该方法的视频压缩算法成为运动补偿（MC）的压缩算法。这些算法的三个主要步骤是：1）运动估计2）基于运动补偿的预测3）预测误差的生成-差值10.3 搜索运动向量顺序

21、搜索2D对数搜索分层搜索10.4 I帧、P帧预测编码I帧被视为独立的图像。基本上，在每个I帧内应用和JPEG相似的变换编码和方法，因此被称为“intra”；P帧不是独立的。它们采用的是前向预测的编码方法，在该方法中当前宏块是通过先前的I帧或者P帧中相似的宏块预测出来的，并对宏块的差进行编码，因此，P帧的编码中包含时间冗余消除，而I帧的编码只能对空间冗余进行消除。第十一章 MPEG11.1 MPEG是什么：运动图像专家组，主要负责为数字音频和视频的传输制定标准。上一章讨论过，H.261中的基于运动补偿的视频编码工作原理如下：在运动估算中，会为目标P帧的每个宏块分配一个从以前已编码的I帧或P帧的宏

22、块中选出的与它最匹配的宏块，这称为预测（prediction）。当前宏块与匹配的宏块之间的差称为预测误差（prediction error）（预测是从前面的帧得来的，是前向预测，由于在实际场景中会产生不可预测的移动和遮挡，所以目标宏块与先前帧的宏块之间或许不能达到最佳匹配。但是它从下一帧可以很容易地获得匹配。）MPEG引入了第三类帧（B帧）以及相应的双向运动补偿。下图描述了基于运动补偿的B帧编码原理。除了前向预测，还用到了后向预测，也就是此时用来进行匹配的宏块是从视频序列中未来的I帧或P帧中获得的。这样，B帧的每一个宏块指定两个运动向量。一个由前向预测得来，一个由后向预测得来。（如果两方向匹

23、配都成功，两个运动方向都会被发送，在与目标宏块进行比较产生预测误差之前，将与两个相应的匹配宏块取平均）第十二章 MPEG-4、MPEG-7及更高版本MPEG-4、MPEG-7及更高版本干什么用的MPEG-1和MPEG-2使用了基于帧的编码技术，其中每个矩形视频帧作为一个压缩单元，这种压缩技术主要关注高压缩率和令人满意的图像质量。MPEG-4是一个更新的标准，除了压缩外，该标准还关注用户交互，这就是大量的用户能够通过新的基础设施（如因特网、WWW以及移动/无线网络）创建和交流它们的多媒体演示和应用。MPEG-4与之前版本的不同之处在于它采用了一种新的基于对象编码的方式，此时媒体称为MPEG-4的

24、编码实体（媒体对象，也称为音频和视频对象，可以是自然的，也可以是合成的，可以是由摄像机采集的，也可以是由计算机程序生成的）MPEG-4为音频和视频压缩提供了高级编码模块和算法工具箱。MPEG-4与MPEG-7的一个相同之处在于它们都关注的是视听对象。MPEG-7的一个主要目标是满足像数字图书馆这类应用中对于基于视听内容的检索（或视听对象检索）的需要。然而，对于信息检索没有做限制，它可以应用于任何多媒体应用，包括多媒体数据的产生和使用。MPEG-7的范畴就是对用于描述的描述子、描述模式和描述定义语言进行标准化。层次：VOP.MPEG-4的视觉位流的层次结构与MPEG-1和MPEG-2的层次结构有

25、很大的不同，它是面向视频对象的。下图给出了MPEG-4视觉位流中一个场景的层次结构描述的5个层次。通常，每一个视频对象序列（Video-object Sequence，VS）都拥有一个或多个视频对象（Video Object，VO），每一个VO都拥有一个或多个视频对象层（Video Object Layer，VOL）。按照语法，5个层次在位流中都有唯一的开始码，以便能够随机访问。1. 视频对象序列VS传送完整的MPEG-4视觉场景，可以包含2D或3D的自然对象或合成对象。2. 视频对象VO是场景中的一个特殊对象，它可以拥有任意的（非矩形）形状，与场景中的一个对象或背景相对应。3. 视频对象层

26、VOL提供了一种便捷的方式支持（多层的）可扩展的编码。一个VO在可扩展编码下可以拥有多重VOL，在非扩展编码下拥有一个VOL。作为一个特例，MPEG-4也支持一种特殊的VOL，它的头部较短，这能使位流与H.263基本系统兼容。4. 视频对象平面组GOV将视频对象平面分组，是一个可选的层。5. 视频对象平面一个VOP是一个VO在特定时刻的快照，反映了该时刻VO的形状、纹理和运动参数。一般来说，一个VOP是一个任意形状的图像。当把整个矩形的视频帧当做一个VOP的时候，MPEG-4视频编码中会出现一种退化的情形。在这种情况下，他等同于MPEG-1和MPEG-2。MPEG-4允许重叠的VOP，也就是说

27、，在一个场景中一个VOP可以部分覆盖另一个VOP。视频对象序列（VS）视频对象（VO）视频对象层（VOL）视频对象平面组（GOV）视频对象平面（VOP）MPEG-4可视位流中场景的面向视频对象的分层描述。特点、基本概念MPEG-1和MPEG-2不支持VOP的概念，因此它们的编码方式称为基于帧的。因为每一帧都被分为许多宏块，利用这些宏块进行基于运动补偿的编码，所以这种方法也称为基于块的编码。MPEG-1和MPEG-2视觉编码只关心压缩率，并不考虑视觉对象的存在。因此，生成的运动向量可能与对象的运动不一致，所以不利于基于对象的视频分析和索引。 MPEG-4中基于对象的编码方式除了改进压缩之外，还可以解决上述问题。每个VOP可以拥有任意的形状，并且在理想情况下可以获取一个唯一的与对象

人人文库> 全部分类> 教育资料 > 备课教案

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

多媒体技术课程整理

文档简介

温馨提示

最新文档

评论

多媒体技术课程整理

文档简介

温馨提示

最新文档

评论

相关文档