多媒体技术教程V4-ch2_第1页
多媒体技术教程V4-ch2_第2页
多媒体技术教程V4-ch2_第3页
多媒体技术教程V4-ch2_第4页
多媒体技术教程V4-ch2_第5页
已阅读5页,还剩93页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、普通高等教育“十一五”国家级规划教材多媒体技术教程人民邮电出版社国防科学技术大学版权所有第二章 媒体及媒体技术普通高等教育“十一五”国家级规划教材多媒体技术教程人民邮电出版社国防科学技术大学版权所有2.1 媒体的种类和特点普通高等教育“十一五”国家级规划教材多媒体技术教程2.1.1 2.1.1 常见的媒体元素常见的媒体元素文本 文本是计算机文字处理程序的基础 文本数据可以在文本编辑软件里制作 文本文件分类 非格式化文本 格式化文本文件文件 带有各种文本排版信息等格式信息的文本文件 段落格式、字体格式、文章的编号、分栏、边框 文字的变化:格式(sty1e)、字的定位(align)、字体(font

2、)、字的大小(size) 普通高等教育“十一五”国家级规划教材多媒体技术教程2.1.1 2.1.1 常见的媒体元素常见的媒体元素图形 图形的概念 一般指用计算机绘制的画面,如直线、圆、圆弧、矩形、任意曲线和图表等。图形的格式是一组描述点、线、面等几何图形的大小、形状及其位置、维数的指令集合,在图形文件中只记录生成图的算法和图上的某些特征点,也称矢量图。 line(x1,y1,x2,y2,color) circle(x,y,r,color) 普通高等教育“十一五”国家级规划教材多媒体技术教程2.1.1 2.1.1 常见的媒体元素常见的媒体元素图形 图形的特征 图形是对图象进行抽象的结果(人工或自

3、动); 图形的矢量化使得有可能对图中的各个部分分别进行控制(放大、缩小、旋转、变形、扭曲、移位等) 图形的产生需要计算时间普通高等教育“十一五”国家级规划教材多媒体技术教程2.1.1 2.1.1 常见的媒体元素常见的媒体元素图像 图像的概念 图像是指由输入设备捕捉的实际场景画面,或以数字化形式存储的任意画面。 静止的图像是一个矩阵,由一些排成行列的点组成,这些点称之为像素点(pixel),这种图像称为位图(bitmap)。 普通高等教育“十一五”国家级规划教材多媒体技术教程2.1.1 2.1.1 常见的媒体元素常见的媒体元素图像 图像的主要技术参数 分辨率 屏幕分辨率计算机显示器屏幕显示图像的

4、最大显示区 图像分辨率 数字化图像的大小 像素分辨率像素的宽高比,一般为1 1 普通高等教育“十一五”国家级规划教材多媒体技术教程2.1.1 2.1.1 常见的媒体元素常见的媒体元素图像 图像的主要技术参数 图像灰度 每个图像的最大颜色数 2位:黑白2色; 4位:16色; 8位:256色; 24位:真彩色 图像文件大小 (高宽灰度位数)/8 字节 普通高等教育“十一五”国家级规划教材多媒体技术教程2.1.1 2.1.1 常见的媒体元素常见的媒体元素图像 图形与图象的关系 图形是矢量概念,图元;图象是位图概念,象素; 图形显示图元顺序;图象显示象素顺序; 图形变换无失真;图象变换有失真; 图形以

5、图元为单位修改属性、编辑;图象只能对象素或图块处理; 图形是对图象的抽象,但在屏幕上两者无异普通高等教育“十一五”国家级规划教材多媒体技术教程2.1.1 2.1.1 常见的媒体元素常见的媒体元素视频 视频的概念 视频源于电视技术,它由连续的画面组成。这些画面以一定的速率连续地投射在屏幕上,使观察者具有图像连续运动的感觉。普通高等教育“十一五”国家级规划教材多媒体技术教程2.1.1 2.1.1 常见的媒体元素常见的媒体元素视频 视频的制式 PAL制(625/50) 每秒25帧,水平扫描线为625条,水平分辨率240400个像素,隔行扫描 。62年诞生于德国,应用于中国、新加坡、欧洲地区等(Pal

6、-B、D、G、H、I、N、NC)。 NTSC制(525/60) 每秒30帧,水平扫描线为525条,水平分辨率240400个像素,隔行扫描 。53年诞生于美国,应用于美国、日本、台湾等(NTSC-M、NC、Japan等)。普通高等教育“十一五”国家级规划教材多媒体技术教程2.1.1 2.1.1 常见的媒体元素常见的媒体元素视频 视频的制式 SECAM制(625/50) 每秒25帧,水平扫描线为525条、水平分辨率625。由法国人提出,应用于俄罗斯、法国、非洲地区等。 视频的数字化 指在一段时间内以一定的速度对视频信号进行捕获并加以采样后形成数字化数据的处理过程。普通高等教育“十一五”国家级规划教

7、材多媒体技术教程2.1.1 2.1.1 常见的媒体元素常见的媒体元素视频 视频的技术参数 颜色空间 R、G、B(红、绿、蓝) Y、U、V(为亮度,U、V为色差) H、S、I(色调、饱和度、强度) 可以通过坐标变换而相互转换 帧速 每秒钟显示的帧数目, 计量单位为帧率(fps) 视频根据制式的不同: 30帧/秒(NTSC)、25帧/秒(PAL) 普通高等教育“十一五”国家级规划教材多媒体技术教程2.1.1 2.1.1 常见的媒体元素常见的媒体元素视频 视频的技术参数 数据量 帧速每幅图像的数据量(不计压缩 ) 图像质量 与数据源质量有关( :表示“好于”) RGB视频YUV视频Y/C视频(S视频

8、)复合视频 与视频数据压缩的倍数有关注1:UV两个色差信号可合成为一个色度信号C,进而形成Y/C记录方式,这种方式得到的视频称为S视频。注2:把亮度Y与色度C进一步混合在一起,便形成复合视频。普通高等教育“十一五”国家级规划教材多媒体技术教程2.1.1 2.1.1 常见的媒体元素常见的媒体元素动画 动画的概念 运动的图画,实质是一幅幅静态图像的连续播放。动画的连续播放既指时间上的连续,也指图像内容上的连续,即播放的相邻两幅图像之间内容相差不大 。 计算机设计动画方法 造型动画 帧动画 普通高等教育“十一五”国家级规划教材多媒体技术教程2.1.1 2.1.1 常见的媒体元素常见的媒体元素动画 帧

9、动画 普通高等教育“十一五”国家级规划教材多媒体技术教程2.1.1 2.1.1 常见的媒体元素常见的媒体元素动画 帧动画 普通高等教育“十一五”国家级规划教材多媒体技术教程2.1.1 2.1.1 常见的媒体元素常见的媒体元素音频 分类 波形声音 包含了所有的声音形式,它可以把任何声音都进行采样量化,并恰当地恢复出来。 普通高等教育“十一五”国家级规划教材多媒体技术教程2.1.1 2.1.1 常见的媒体元素常见的媒体元素音频 分类 语音 人的说话声虽是一种特殊的媒体,但也是一种波形,所以和波形声音的文件格式相同。 音乐符号化了的声音,乐谱可转变为符号媒体形式。普通高等教育“十一五”国家级规划教材

10、多媒体技术教程2.1.1 2.1.1 常见的媒体元素常见的媒体元素音频 数字声音波形质量的主要技术参数 采样频率 等于波形被等分的份数,份数越多,质量越好 11.025KHZ、 22.05KHZ、44.1KHZ 采样精度 每次采样信息量 8位、16位 通道数 声音产生的波形数 单声道、立体声道、5.1声道数据量计算:(采样频率采样精度通道数 时间 )/8 字节普通高等教育“十一五”国家级规划教材多媒体技术教程2.1.2 2.1.2 媒体的种类媒体的种类 视觉视视 觉觉(静止)(静止)图像图像图形图形文字文字符号符号语言文字语言文字抽象化抽象化抽象化抽象化 (动态)(动态)图像图像图形图形动态影

11、像视频动态影像视频真实感三维动画真实感三维动画二维动画二维动画三维动画三维动画其它表示为视觉的媒体其它表示为视觉的媒体普通高等教育“十一五”国家级规划教材多媒体技术教程2.1.2 2.1.2 媒体与多媒体媒体与多媒体听觉触觉其他感觉抽象化抽象化听觉听觉声音声音声响(自然界)声响(自然界)语音(人类语言)语音(人类语言)音乐音乐其它(嗅觉、味觉等)其它(嗅觉、味觉等)触觉触觉振动振动运动运动传感传感/发生器发生器普通高等教育“十一五”国家级规划教材多媒体技术教程2.1.3 2.1.3 媒体的性质和特点媒体的性质和特点 各种媒体具有不同特点和性质 媒体是有格式的 不同媒体表达信息的特点和程度各不相

12、同 媒体之间可以相互转换 媒体之间的关系也具有丰富的信息 媒体具有空间性质 表现空间 媒体按相互的空间关系进行组织 视觉空间、听觉空间和触觉空间这3者既相互独立又需要相互结合 普通高等教育“十一五”国家级规划教材多媒体技术教程2.1.3 2.1.3 媒体的性质和特点媒体的性质和特点 媒体的时间性质 表现需要时间 媒体在时间坐标轴上的相互关系 媒体的语义 媒体的语义是有层次的 抽象的程度不同,语义的重点也就不同 媒体结合的影响 媒体结合是多层次的 媒体结合有利于信息接受和理解隐喻 交互的概念模型,也称心智模型 普通高等教育“十一五”国家级规划教材多媒体技术教程人民邮电出版社国防科学技术大学版权所

13、有2.2 听觉媒体技术 普通高等教育“十一五”国家级规划教材多媒体技术教程2.2.1 2.2.1 声音心理学声音心理学 1.声音的量纲声音的量纲 声音的振动是一种正弦波,声音的变化必须声音的振动是一种正弦波,声音的变化必须确定三件事:频率(变化的速度)、幅度(产生确定三件事:频率(变化的速度)、幅度(产生的压力)、相位(何时开始)。的压力)、相位(何时开始)。 另外一方面,人们可以感觉到声音的强弱,另外一方面,人们可以感觉到声音的强弱,可以感觉到歌唱家音调的高低。可以感觉到歌唱家音调的高低。 因此,声音的量纲分为声音的物理量纲和心因此,声音的量纲分为声音的物理量纲和心理量纲。理量纲。普通高等教

14、育“十一五”国家级规划教材多媒体技术教程2.2.1 2.2.1 声音心理学声音心理学 物理量纲可以用精确的值来描述,但物理量纲可以用精确的值来描述,但对某一具体声音得来的心理印象却不容易对某一具体声音得来的心理印象却不容易说明白,因为心理印象要由被测者的经验说明白,因为心理印象要由被测者的经验而定。而定。 声音的心理属性和物理属性不可等同,声音的心理属性和物理属性不可等同,首先,这些关系不是线性的;其次这些关首先,这些关系不是线性的;其次这些关系不是孤立的;第三这些关系不是不变的。系不是孤立的;第三这些关系不是不变的。普通高等教育“十一五”国家级规划教材多媒体技术教程2.2.1 2.2.1 声

15、音心理学声音心理学 两者之间确有关系:例如声音的响度两者之间确有关系:例如声音的响度取决于强度和频率两个因素,如果频率不取决于强度和频率两个因素,如果频率不变,强声显得比弱声要响些。但如果强度变,强声显得比弱声要响些。但如果强度不变,过高频率的声音和过低频率的声音不变,过高频率的声音和过低频率的声音似乎比中频的声音听起来都要弱一些。由似乎比中频的声音听起来都要弱一些。由此可见,响度依赖于频率,原因是人耳能此可见,响度依赖于频率,原因是人耳能反应的频率范围是有上限和下限的。反应的频率范围是有上限和下限的。 2.2.1 2.2.1 声音的量纲声音的量纲 心理变量心理变量首要的物理变量首要的物理变量

16、次要的物理变量次要的物理变量响度响度声强声强声波频率声波频率音调音调声波频率声波频率声强声强音色音色声波复合声波复合音量音量频率和强度频率和强度密度密度频率和强度频率和强度谐和(流畅或粗糙)谐和(流畅或粗糙)谐波结构谐波结构音乐技巧音乐技巧噪声噪声强度强度频率组合,各种时频率组合,各种时间参量间参量骚扰声骚扰声强度强度频率组合,无意义频率组合,无意义普通高等教育“十一五”国家级规划教材多媒体技术教程2.2.1 2.2.1 声音心理学声音心理学 2.听觉特性听觉特性等响曲线等响曲线 由于响度与频率和强度有关,所以在不同频由于响度与频率和强度有关,所以在不同频率上的强度是不同的。先设一个音为标准音

17、,给率上的强度是不同的。先设一个音为标准音,给予固定的频率、强度和持续时间,例如予固定的频率、强度和持续时间,例如1000Hz、40分贝、持续分贝、持续0.5秒;再给一个音也持续秒;再给一个音也持续0.5秒,但秒,但频率不同,通过调整使其响度听起来一样,得到频率不同,通过调整使其响度听起来一样,得到的这样一组曲线称之为等响曲线。等响曲线描述的这样一组曲线称之为等响曲线。等响曲线描述的是响度与频率和强度的关系。从声音心理学考的是响度与频率和强度的关系。从声音心理学考虑,对同一响度的声音在频率上和强度上可以有虑,对同一响度的声音在频率上和强度上可以有很大的差别,这对声音表现有重要意义。很大的差别,

18、这对声音表现有重要意义。 普通高等教育“十一五”国家级规划教材多媒体技术教程2.2.1 2.2.1 声音心理学声音心理学掩蔽(掩蔽(masking) 声音的响度不仅取决于自身的强度和频率,声音的响度不仅取决于自身的强度和频率,而且也依赖于同时出现的其它声音。各种声音可而且也依赖于同时出现的其它声音。各种声音可以互相掩蔽,也就是说一种声音的出现可能使得以互相掩蔽,也就是说一种声音的出现可能使得另一种声音难于听清。由于声音的掩蔽效果,可另一种声音难于听清。由于声音的掩蔽效果,可以欺骗人的听觉。例如,本来是多种频率的声音以欺骗人的听觉。例如,本来是多种频率的声音的复合,但听众以为是另一种声音。所以,

19、声音的复合,但听众以为是另一种声音。所以,声音的掩蔽特性常常用于声音的压缩。的掩蔽特性常常用于声音的压缩。普通高等教育“十一五”国家级规划教材多媒体技术教程2.2.1 2.2.1 声音心理学声音心理学临界频带临界频带 在频率的某一临界区里,各种声音是相互在频率的某一临界区里,各种声音是相互作用的,合成声音的响度由这些频率共同决定。作用的,合成声音的响度由这些频率共同决定。如果超出临界区,声音的响度不再相互作用,如果超出临界区,声音的响度不再相互作用,声音的响度随频率的改变而改变。这个临界区声音的响度随频率的改变而改变。这个临界区就是临界频带,其宽度视其中心频率而定。对就是临界频带,其宽度视其中

20、心频率而定。对于临界频带的确定,使得对声音响度的处理能于临界频带的确定,使得对声音响度的处理能够有的放矢。够有的放矢。普通高等教育“十一五”国家级规划教材多媒体技术教程2.2.1 2.2.1 声音心理学声音心理学相位相位 从声音的波形来看,声音的起点和方向也从声音的波形来看,声音的起点和方向也要反映声音的特性,这就是声音的相位。当两要反映声音的特性,这就是声音的相位。当两个声音相同相位完全相反时,它们将相互抵消;个声音相同相位完全相反时,它们将相互抵消;当两个声音相同而且相位也相同时,声音就会当两个声音相同而且相位也相同时,声音就会得到加强。得到加强。 相位的确定对于多声道声音系统的设计非相位

21、的确定对于多声道声音系统的设计非常重要,其可以应用在回声的消除、会议系统常重要,其可以应用在回声的消除、会议系统的声音设计上。的声音设计上。 普通高等教育“十一五”国家级规划教材多媒体技术教程2.2.1 2.2.1 声音心理学声音心理学自然声音的时变现象自然声音的时变现象 声音的音调分成三个区域:起始区、稳定状声音的音调分成三个区域:起始区、稳定状态区、延迟区。态区、延迟区。 研究表明,音调的频谱分量随时间改变。在研究表明,音调的频谱分量随时间改变。在稳定状态区,频谱保持固定。在起始区,振幅频稳定状态区,频谱保持固定。在起始区,振幅频谱随时间变化。因此自然声音的起始部分是非常谱随时间变化。因此

22、自然声音的起始部分是非常难识别的。例如刚听了一小节音调后要识别乐器,难识别的。例如刚听了一小节音调后要识别乐器,专家也会觉得较难。时变现象用于数字系统中,专家也会觉得较难。时变现象用于数字系统中,说明声音中的某些错误是不太容易发现的,但如说明声音中的某些错误是不太容易发现的,但如果出现停顿就很容易引起人的注意。果出现停顿就很容易引起人的注意。 普通高等教育“十一五”国家级规划教材多媒体技术教程2.2.1 2.2.1 声音心理学声音心理学听觉空间听觉空间 人耳可听到来自各个方向的声音,并用不同人耳可听到来自各个方向的声音,并用不同的因素来判定声源的位置。声源的位置不论对于的因素来判定声源的位置。

23、声源的位置不论对于增进人们的感受还是增进对声音的理解,都是非增进人们的感受还是增进对声音的理解,都是非常重要的。通过声音的精确再现,就可以构造出常重要的。通过声音的精确再现,就可以构造出听觉空间。听觉空间。 方位的线索是各种声音到达两耳的精确时间方位的线索是各种声音到达两耳的精确时间和强度。和强度。普通高等教育“十一五”国家级规划教材多媒体技术教程2.2.1 2.2.1 声音心理学声音心理学听觉的频谱特性听觉的频谱特性 声音是时间函数,通过傅里叶变换可做出其频声音是时间函数,通过傅里叶变换可做出其频谱图。人耳对频谱成分的波峰和波谷是非常敏感谱图。人耳对频谱成分的波峰和波谷是非常敏感的。在语言中

24、,元音很少有频谱变速变化的区域。的。在语言中,元音很少有频谱变速变化的区域。基频改变,人耳是很敏感的。例如:快进的录像,基频改变,人耳是很敏感的。例如:快进的录像,音调会发生变化。音调会发生变化。 音色非常复杂,目前尚在研究中。音色的处音色非常复杂,目前尚在研究中。音色的处理将使我们能识别音源,音色也代表和声音有关理将使我们能识别音源,音色也代表和声音有关的主观质量。的主观质量。 普通高等教育“十一五”国家级规划教材多媒体技术教程2.2.1 2.2.1 声音心理学声音心理学声音的心理模拟声音的心理模拟 通过人工真实的方法,可以对视觉空间的景物通过人工真实的方法,可以对视觉空间的景物进行再造或虚

25、构,同样也可以对听觉空间的声音进行再造或虚构,同样也可以对听觉空间的声音进 行 心 理 的 模 拟 , 这 就 是 所 谓 的 可 听 化进 行 心 理 的 模 拟 , 这 就 是 所 谓 的 可 听 化(audiolization)。)。用声音可以表达出一些声音的用声音可以表达出一些声音的效果。效果。 普通高等教育“十一五”国家级规划教材多媒体技术教程2.2.2 2.2.2 音频的数字化和符号化音频的数字化和符号化 从人与计算机交互的角度看,音频信号的处理包从人与计算机交互的角度看,音频信号的处理包括下述括下述3点:点:v人与计算机通信,也就是计算机接收音频信号。包人与计算机通信,也就是计算

26、机接收音频信号。包括音频获取、语音的识别和理解。括音频获取、语音的识别和理解。v计算机与人通信,也就是计算机输出音频。包括音计算机与人通信,也就是计算机输出音频。包括音乐合成、语音合成、声音的定位以及音频视频的同乐合成、语音合成、声音的定位以及音频视频的同步。步。v人人-计算机计算机-人通信。人通过网络与异地的人进行语人通信。人通过网络与异地的人进行语音通信,相关的音频处理有语音采集、音频的编码音通信,相关的音频处理有语音采集、音频的编码和解码、音频的存储、音频的传输、基于内容的检和解码、音频的存储、音频的传输、基于内容的检索等。索等。普通高等教育“十一五”国家级规划教材多媒体技术教程2.2.

27、2 2.2.2 音频的数字化和符号化音频的数字化和符号化 1音频的数字化与再现音频的数字化与再现 在计算机中,所有的信息都以数字来表示。在计算机中,所有的信息都以数字来表示。声音信号也是由一系列的数字来表示的,称为数声音信号也是由一系列的数字来表示的,称为数字音频。数字音频的特点就是保真度好,动态范字音频。数字音频的特点就是保真度好,动态范围大。围大。 数字声音是一个数据序列。它是由外界声音数字声音是一个数据序列。它是由外界声音经过采样、量化和编码后得到的。经过采样、量化和编码后得到的。 普通高等教育“十一五”国家级规划教材多媒体技术教程2.2.2 2.2.2 音频的数字化和符号化音频的数字化

28、和符号化 对声音进行采样用奈奎斯特采样定理来决定对声音进行采样用奈奎斯特采样定理来决定采样的频率。根据该定理,只要采样频率高于信采样的频率。根据该定理,只要采样频率高于信号中最高频率的两倍,就可以从采样中完全恢复号中最高频率的两倍,就可以从采样中完全恢复原始信号的波形。因为人耳所能听到的频率范围原始信号的波形。因为人耳所能听到的频率范围为为20Hz到到20KHz,所以实际的采样过程中,为了所以实际的采样过程中,为了达到好的效果,就采用达到好的效果,就采用44.1KHz作为高质量声音作为高质量声音的采样频率。如果达不到这么高的频率,声音恢的采样频率。如果达不到这么高的频率,声音恢复的效果就会差一

29、些,例如电话声音的质量等。复的效果就会差一些,例如电话声音的质量等。一般来说,声音恢复和采样频率、信道带宽都有一般来说,声音恢复和采样频率、信道带宽都有关。关。 声音的采样以及量化图声音的采样以及量化图2.2.2 2.2.2 音频的数字化和符号化音频的数字化和符号化普通高等教育“十一五”国家级规划教材多媒体技术教程2.2.2 2.2.2 音频的数字化和符号化音频的数字化和符号化 与数字音频相关的重要特性:与数字音频相关的重要特性:采样频率采样频率 采样频率与声音的质量关系最为紧密。采样采样频率与声音的质量关系最为紧密。采样频率越高,声音质量越接近原始声音,所需的存频率越高,声音质量越接近原始声

30、音,所需的存储量便越多。标准的采样频率有三个:储量便越多。标准的采样频率有三个:44.1KHz,22.05kHz,和和11.025kHz。采样位数采样位数 存放一个采样点所需的比特数。一般的采样存放一个采样点所需的比特数。一般的采样位数为位数为8位或位或16位,即把声音采集为位,即把声音采集为256等份或等份或65536等分。等分。普通高等教育“十一五”国家级规划教材多媒体技术教程2.2.2 2.2.2 音频的数字化和符号化音频的数字化和符号化声道数声道数 有单声道、双声道和多声道。如多种语言音有单声道、双声道和多声道。如多种语言音频混存时,需要多声道频混存时,需要多声道数据量数据量 (采样频

31、率每点采样位数声道数采样频率每点采样位数声道数)数据量数据量 8(字节字节/秒秒)普通高等教育“十一五”国家级规划教材多媒体技术教程2.2.2 2.2.2 音频的数字化和符号化音频的数字化和符号化 2声音的符号化声音的符号化 波形声音可以把音乐、语音都进行数据化并波形声音可以把音乐、语音都进行数据化并且表示出来,但是并没有把它看成音乐和语音。且表示出来,但是并没有把它看成音乐和语音。 对于声音的符号化(也可以称为抽象化)表对于声音的符号化(也可以称为抽象化)表示包括两种类型:一种是音乐,一种是语音。示包括两种类型:一种是音乐,一种是语音。普通高等教育“十一五”国家级规划教材多媒体技术教程2.2

32、.2 2.2.2 音频的数字化和符号化音频的数字化和符号化(1)音乐的符号化)音乐的符号化MIDI MIDI(Music Instrument Digital Interface)是指乐器数是指乐器数字接口的国际标准。字接口的国际标准。 MIDI消息,是指乐谱的数字描述。消息,是指乐谱的数字描述。 任何电子乐器,只要有处理任何电子乐器,只要有处理MIDI消息的微处理器和合消息的微处理器和合适的硬件接口,就构成了一个适的硬件接口,就构成了一个MIDI设备。当一组设备。当一组MIDI消息通过音乐合成芯片处理时,合成器能解释这些符号消息通过音乐合成芯片处理时,合成器能解释这些符号并且产生音乐。并且产

33、生音乐。 MIDI的关键是作为媒体能够记录这些音乐的符号,相的关键是作为媒体能够记录这些音乐的符号,相应的设备能够产生和解释这些符号。它给出了一种得到应的设备能够产生和解释这些符号。它给出了一种得到音乐声音的方法。音乐声音的方法。普通高等教育“十一五”国家级规划教材多媒体技术教程2.2.2 2.2.2 音频的数字化和符号化音频的数字化和符号化 MIDI的特点:的特点:v与波形声音相比,与波形声音相比,MIDI不是声音数据而是指令,所以数据不是声音数据而是指令,所以数据量要少得多。量要少得多。30分钟的音乐,分钟的音乐, 用用MIDI文件记录只需文件记录只需200KB,用用16位位CD品质的未压

34、缩品质的未压缩WAV文件记录需文件记录需317MBv MIDI可以与其他波形声音配合使用,形成伴乐的效果。可以与其他波形声音配合使用,形成伴乐的效果。而两个波形声音一般是不能同时使用的而两个波形声音一般是不能同时使用的v对对MIDI的编辑也很灵活,用户可以自由地改变音调、音色的编辑也很灵活,用户可以自由地改变音调、音色等属性,直到自己想要的效果等属性,直到自己想要的效果v MIDI在音质上还不能与真正的乐器完全相似。无法模拟在音质上还不能与真正的乐器完全相似。无法模拟自然界中其它非乐曲类声音自然界中其它非乐曲类声音普通高等教育“十一五”国家级规划教材多媒体技术教程2.2.2 2.2.2 音频的

35、数字化和符号化音频的数字化和符号化(2)语音的符号化)语音的符号化 语音与文字是对应的。波形声音可以记录表示语音与文字是对应的。波形声音可以记录表示语音,它是不是语音取决于听者对声音的理解。语音,它是不是语音取决于听者对声音的理解。对语音的符号化实际上就是对语音的识别,将语对语音的符号化实际上就是对语音的识别,将语音转变为字符,反之也可以将文字合成语音。音转变为字符,反之也可以将文字合成语音。 语音指构成人类语音信号的各种声音。在采语音指构成人类语音信号的各种声音。在采集和存储上可以与波形声音一样,但由于语音是集和存储上可以与波形声音一样,但由于语音是由一连串的音素组成。由一连串的音素组成。“

36、一句话一句话”中包含许多音中包含许多音节以及上下文过渡过程的连接体等特殊的信息,节以及上下文过渡过程的连接体等特殊的信息,并且语音本身与语言有关,所以要把它作为一个并且语音本身与语言有关,所以要把它作为一个独立的媒体来看待。独立的媒体来看待。普通高等教育“十一五”国家级规划教材多媒体技术教程2.2.3 2.2.3 音频媒体的三维化处理音频媒体的三维化处理 1三维虚拟声空间三维虚拟声空间 所谓三维虚拟声空间(所谓三维虚拟声空间(Three Dimensional Virtual Acoustic,3DVA),),是指用一定的声音是指用一定的声音设备人为地产生出来的具有空间位置信息的声音设备人为地

37、产生出来的具有空间位置信息的声音空间。空间。 三维听觉的使用明显地依赖于用户对听觉空间三维听觉的使用明显地依赖于用户对听觉空间中各种信息源的定位能力。一般说来,三维虚拟中各种信息源的定位能力。一般说来,三维虚拟声空间要达到以下的一些目标:声空间要达到以下的一些目标: 在可听的范围内重现频率分辨度和动态范围;在可听的范围内重现频率分辨度和动态范围; 在三维空间中精确地呈现声音的位置信息;在三维空间中精确地呈现声音的位置信息; 能表达多个静止和移动的声源;能表达多个静止和移动的声源; 能和头部的动作具有一定的关联;能和头部的动作具有一定的关联; 能够支持一定程度的交互。能够支持一定程度的交互。普通

38、高等教育“十一五”国家级规划教材多媒体技术教程2.2.3 2.2.3 音频媒体的三维化处理音频媒体的三维化处理 23DVA的基本理论的基本理论 人类感知声源位置的最基本的理论是双工理论人类感知声源位置的最基本的理论是双工理论,该理该理论基于两种因素:两耳间声音的到达时间差论基于两种因素:两耳间声音的到达时间差ITD(Interaural Time Differences)和两耳间声音的强度差和两耳间声音的强度差IID(Interaural Intensity Differences)。 时间差是由于距离的原因造成的,当声音从正面传来时,时间差是由于距离的原因造成的,当声音从正面传来时,距离相等

39、,所以没有时间差;但若偏右距离相等,所以没有时间差;但若偏右3o,则到达右耳的时则到达右耳的时间就要比左耳约早间就要比左耳约早30ms,而正是这而正是这30ms,使得我们辨别出使得我们辨别出了声源的位置。了声源的位置。 强度差是由于信号衰减造成的,信号的衰减是因为距离强度差是由于信号衰减造成的,信号的衰减是因为距离产生的,在很多情况下是因为人的头部遮挡,使声音衰减,产生的,在很多情况下是因为人的头部遮挡,使声音衰减,产生了强度的差别,使得靠近声源一侧的耳朵听到的声音产生了强度的差别,使得靠近声源一侧的耳朵听到的声音强度要大于另一耳。强度要大于另一耳。普通高等教育“十一五”国家级规划教材多媒体技

40、术教程2.2.3 2.2.3 音频媒体的三维化处理音频媒体的三维化处理 3DVA理论较形象地说明:人耳对声音定位的特性,通理论较形象地说明:人耳对声音定位的特性,通过大脑的综合作用后,对有差别的声音信号进行了相对于过大脑的综合作用后,对有差别的声音信号进行了相对于空间位置的定位。空间位置的定位。 人耳对声源方位的判定起决定作用的是耳廓。当声波从人耳对声源方位的判定起决定作用的是耳廓。当声波从声源传到听者的耳部时,声波会在耳廓发生不断的反射和声源传到听者的耳部时,声波会在耳廓发生不断的反射和折射,然后由内耳道传到耳鼓,使人产生音感。这种反射、折射,然后由内耳道传到耳鼓,使人产生音感。这种反射、折

41、射是依赖于频率的,通过不同频率的变化,使得人耳能折射是依赖于频率的,通过不同频率的变化,使得人耳能够辨别声源的方位。另外,当声音从声源传到人的内耳并够辨别声源的方位。另外,当声音从声源传到人的内耳并形成听觉时,声音信号已经携带了两个很重要的信息,从形成听觉时,声音信号已经携带了两个很重要的信息,从而形成了空间真实感和环境真实感。声源的本身信号特征、而形成了空间真实感和环境真实感。声源的本身信号特征、声源的空间三维位置、声源所处的环境这三个因素描述了声源的空间三维位置、声源所处的环境这三个因素描述了声源的全部信息。声源的全部信息。 普通高等教育“十一五”国家级规划教材多媒体技术教程2.2.3 2

42、.2.3 音频媒体的三维化处理音频媒体的三维化处理 3HRTF方法方法 实现空间真实感的关键是建立起耳廓模型,这实现空间真实感的关键是建立起耳廓模型,这种方法被称为种方法被称为“双耳相关函数法双耳相关函数法”,也即,也即HRTF(Head-Related Transfer Function,与头部有关的与头部有关的转移函数)。转移函数)。 从理论上利用从理论上利用HRTF产生真实空间声音的算法产生真实空间声音的算法如下图所示。如下图所示。 2.2.3 2.2.3 音频媒体的三维化处理音频媒体的三维化处理 场景模型(几何、属性、声源、声宿) 声 学 模 拟 脉 冲 响 应 曲 线 卷 积 运 算

43、 双 耳 脉 冲 响 应 卷 积 运 算 真 实 感 空 间 声 HRTF 双耳相关函数 无 回 响 声 音 输 出 普通高等教育“十一五”国家级规划教材多媒体技术教程人民邮电出版社国防科学技术大学版权所有2.3 视觉媒体技术 普通高等教育“十一五”国家级规划教材多媒体技术教程2.3.1 2.3.1 视觉心理学视觉心理学 1视觉的心理特征视觉的心理特征 视觉是人类最重要的感知能力,通过视觉可视觉是人类最重要的感知能力,通过视觉可以感知到外部世界的形状、大小、色彩、明暗、以感知到外部世界的形状、大小、色彩、明暗、机理和运动等多方面的信息。机理和运动等多方面的信息。 同声音心理学相似,与视觉相对应

44、的光学物同声音心理学相似,与视觉相对应的光学物理性质和心理知觉也是截然不同的。虽然光的物理性质和心理知觉也是截然不同的。虽然光的物理特性与心理知觉有关,但它们的关系并不是线理特性与心理知觉有关,但它们的关系并不是线性的。对光的色调和亮度的感觉不仅和它的频率性的。对光的色调和亮度的感觉不仅和它的频率和强度有关,而且还和它出现的背景有关,和同和强度有关,而且还和它出现的背景有关,和同时出现的周围光有关。时出现的周围光有关。2.3.1 视觉心理学视觉心理变量视觉心理变量主要的物理变量主要的物理变量亮度亮度光强光强色调(彩色)色调(彩色)波长波长浓度(彩色的浓度)浓度(彩色的浓度)光谱成分光谱成分对比

45、对比光强、波长、周围光光强、波长、周围光普通高等教育“十一五”国家级规划教材多媒体技术教程2.3.1 2.3.1 视觉心理学视觉心理学 2. 视觉特性视觉特性 亮度亮度 亮度是人眼对光强度的感受。亮度是人眼对光强度的感受。 一个物体的亮度不仅跟目标的物理强度有关,一个物体的亮度不仅跟目标的物理强度有关,而且与周围的背景有关。假定整个照明增大了,目而且与周围的背景有关。假定整个照明增大了,目标和环境的光强就按照比例增大了,两者之间的物标和环境的光强就按照比例增大了,两者之间的物理对比就维持不变。但当照明增强时,目标的亮度理对比就维持不变。但当照明增强时,目标的亮度可能会亮一些,也可能保持不变,甚

46、至看起来亮度可能会亮一些,也可能保持不变,甚至看起来亮度减少一些。这些都取决于中心和周围之间的相对强减少一些。这些都取决于中心和周围之间的相对强度,也就是对比度。度,也就是对比度。 对图像的处理最重要的是亮度的差别。对图像的处理最重要的是亮度的差别。普通高等教育“十一五”国家级规划教材多媒体技术教程2.3.1 2.3.1 视觉心理学视觉心理学 与声音相似,视觉上也有等亮曲线,反映了视与声音相似,视觉上也有等亮曲线,反映了视觉在亮度上与波长的关系。在同一亮度感觉下,不觉在亮度上与波长的关系。在同一亮度感觉下,不同波长的光具有不同的光强。同波长的光具有不同的光强。 视觉也有掩蔽现象,在很亮的高光周

47、围时难以视觉也有掩蔽现象,在很亮的高光周围时难以看清的,道理和声音是类似的看清的,道理和声音是类似的。普通高等教育“十一五”国家级规划教材多媒体技术教程2.3.1 2.3.1 视觉心理学视觉心理学视觉的时间特性视觉的时间特性 建立视觉图像需要时间,而一旦建立起来之后,建立视觉图像需要时间,而一旦建立起来之后,即使把图像对象拿走,这种反应也要维持一段时间。即使把图像对象拿走,这种反应也要维持一段时间。这是因为把光转变为神经电需要时间。正因为视网这是因为把光转变为神经电需要时间。正因为视网膜图像时逐渐消退的,所以视觉暂留可以存在十分膜图像时逐渐消退的,所以视觉暂留可以存在十分之几秒。之几秒。普通高

48、等教育“十一五”国家级规划教材多媒体技术教程2.3.1 2.3.1 视觉心理学视觉心理学彩色彩色 表示颜色需要考虑三种心理属性:色调、亮度表示颜色需要考虑三种心理属性:色调、亮度和饱和度。色调就是通常意义下的彩色,它随波长和饱和度。色调就是通常意义下的彩色,它随波长的变化而变化,反映颜色的基本特性。亮度是光作的变化而变化,反映颜色的基本特性。亮度是光作用于人眼所引起的明亮程度的感觉,与光强有关。用于人眼所引起的明亮程度的感觉,与光强有关。饱和度是代表为了产生所感知到的彩色在白光中必饱和度是代表为了产生所感知到的彩色在白光中必须混入的纯单色光的相对数量,或者说是颜色的深须混入的纯单色光的相对数量

49、,或者说是颜色的深浅程度。对同一色调的彩色光,饱和度越深颜色越浅程度。对同一色调的彩色光,饱和度越深颜色越鲜艳。色调和饱和度统称为色度。鲜艳。色调和饱和度统称为色度。 普通高等教育“十一五”国家级规划教材多媒体技术教程2.3.1 2.3.1 视觉心理学视觉心理学 颜色是由三种原色光混合而成的。可见光的波颜色是由三种原色光混合而成的。可见光的波长从长从380纳米到纳米到780纳米。不同波长呈现出不同颜色,纳米。不同波长呈现出不同颜色,可见光波长从长到短依次为红橙黄绿青蓝紫。可见光波长从长到短依次为红橙黄绿青蓝紫。 只有单一波长成分的光称为单色光,含有两种只有单一波长成分的光称为单色光,含有两种以

50、上波长成分的光称为复合光,所有可见光按照一以上波长成分的光称为复合光,所有可见光按照一定比例混合就是白色光。定比例混合就是白色光。 在辐射功率相同的条件下,不同波长的光不仅在辐射功率相同的条件下,不同波长的光不仅给人不同的颜色感觉,而且也给人不同的亮度感觉。给人不同的颜色感觉,而且也给人不同的亮度感觉。人眼一般感到红光最暗,蓝光次之,而黄绿光最亮。人眼一般感到红光最暗,蓝光次之,而黄绿光最亮。研究表明,人眼对亮度信息敏感,而对颜色的敏感研究表明,人眼对亮度信息敏感,而对颜色的敏感程度相对较弱。程度相对较弱。普通高等教育“十一五”国家级规划教材多媒体技术教程2.3.1 2.3.1 视觉心理学视觉

51、心理学 在白色背景下,一般使用红黄蓝作为原色来在白色背景下,一般使用红黄蓝作为原色来混合其它颜色,这就是减基色合成彩色系统。混合其它颜色,这就是减基色合成彩色系统。 在黑色背景下,一般使用红绿蓝作为基色来在黑色背景下,一般使用红绿蓝作为基色来混合其它颜色,这就是加基色合成彩色系统。混合其它颜色,这就是加基色合成彩色系统。 一般绘画时采用前者,电视中采用后者。一般绘画时采用前者,电视中采用后者。普通高等教育“十一五”国家级规划教材多媒体技术教程2.3.1 2.3.1 视觉心理学视觉心理学注视点和视野范围注视点和视野范围 人在观察视觉类媒体时,注视点喜欢集中在什人在观察视觉类媒体时,注视点喜欢集中

52、在什么地方?研究表明,视觉注视点主要集中在图像中么地方?研究表明,视觉注视点主要集中在图像中黑白交界的部分,尤其是拐角处。如果是闭合图形,黑白交界的部分,尤其是拐角处。如果是闭合图形,注视点往往向内侧移动。注视点容易集中在时隐时注视点往往向内侧移动。注视点容易集中在时隐时现运动变化的部分或者图像中特别不规则的地方。现运动变化的部分或者图像中特别不规则的地方。 人眼的视野开阔,左右视角约为人眼的视野开阔,左右视角约为180度,上下度,上下约为约为60度。但视力好的部位仅限于度。但视力好的部位仅限于2到到3度,用于观度,用于观察视觉媒体的细节。而在周边,则主要识别特征。察视觉媒体的细节。而在周边,

53、则主要识别特征。但是需要注意,只有大的视野才有可能制造出临场但是需要注意,只有大的视野才有可能制造出临场感。感。普通高等教育“十一五”国家级规划教材多媒体技术教程2.3.2 2.3.2 模拟视频原理模拟视频原理光栅扫描原理光栅扫描原理 视频摄像机将图像转换为电信号,电信号是一视频摄像机将图像转换为电信号,电信号是一维的,但图像是二维的,将二维图像转成为一维电维的,但图像是二维的,将二维图像转成为一维电信号是由光栅扫描的方法实现的。快速的扫描线从信号是由光栅扫描的方法实现的。快速的扫描线从顶部开始,一行一行地向下扫描,直至显示器的最顶部开始,一行一行地向下扫描,直至显示器的最底部,然后再返回顶部

54、的起点,重新开始扫描。这底部,然后再返回顶部的起点,重新开始扫描。这个过程产生的一个有序的图像信号集合,就组成了个过程产生的一个有序的图像信号集合,就组成了电视显示中的一幅图像,在此称为帧。连续不断的电视显示中的一幅图像,在此称为帧。连续不断的图像序列就形成了动态视频图像。图像序列就形成了动态视频图像。 普通高等教育“十一五”国家级规划教材多媒体技术教程2.3.2 2.3.2 模拟视频原理模拟视频原理 分辨率表现的是电视系统中重现场景细分辨率表现的是电视系统中重现场景细节的能力。水平扫描线所能分辨出的点数称节的能力。水平扫描线所能分辨出的点数称为水平分辨率。一般来说,点数越小,线越为水平分辨率

55、。一般来说,点数越小,线越细,分辨率就越高。一个系统的水平分辨率细,分辨率就越高。一个系统的水平分辨率为为400线,指在对应于图像高度的水平距离线,指在对应于图像高度的水平距离内能交替显示内能交替显示200条白线和条白线和200条黑线。相应条黑线。相应地,一帧中垂直扫描的行数称为垂直分辨率。地,一帧中垂直扫描的行数称为垂直分辨率。垂直分辨率和每帧中的扫描线有关,扫描线垂直分辨率和每帧中的扫描线有关,扫描线越多,分辨率就越高。广播电视系统垂直的越多,分辨率就越高。广播电视系统垂直的行数一般是行数一般是525线(北美和日本)和线(北美和日本)和625线线(欧洲和中国)。(欧洲和中国)。普通高等教育

56、“十一五”国家级规划教材多媒体技术教程2.3.2 2.3.2 模拟视频原理模拟视频原理 每一秒钟所扫描的帧数称为帧频,一般为每一秒钟所扫描的帧数称为帧频,一般为25帧(帧(PAL)或者或者30帧(帧(NTSC)。)。由于是隔行扫描,由于是隔行扫描,所以垂直频率分别是每秒所以垂直频率分别是每秒50帧和帧和60帧。因此,人眼帧。因此,人眼就不容易看到闪烁。就不容易看到闪烁。 宽高比是扫描的一个重要的参数。扫描行的长宽高比是扫描的一个重要的参数。扫描行的长度与在图像垂直方向上的所有扫描行所跨过的距离度与在图像垂直方向上的所有扫描行所跨过的距离之比,就成为宽高比。目前电视中的宽高比为之比,就成为宽高比

57、。目前电视中的宽高比为4:3,新型电视的宽高比为新型电视的宽高比为16:9,有些电影系统的宽高,有些电影系统的宽高比为比为2:1 。普通高等教育“十一五”国家级规划教材多媒体技术教程2.3.2 2.3.2 模拟视频原理模拟视频原理彩色视频彩色视频 加基系统是彩色视频系统的基础。彩色电视加基系统是彩色视频系统的基础。彩色电视采用红绿蓝(采用红绿蓝(RGB)作为三基色进行配色,产生作为三基色进行配色,产生出出R、G、B三个输出信号,三个输出信号,RGB信号可以分别传信号可以分别传输,但是要配上相应的同步信号。在输,但是要配上相应的同步信号。在RGB系统中系统中需要三根视频电缆互连,但是三个信号在同

58、步关系需要三根视频电缆互连,但是三个信号在同步关系方面相当复杂,所以大部分彩色电视不处理方面相当复杂,所以大部分彩色电视不处理RGB,而是将而是将RGB信号组合起来在一条电缆中传输,这信号组合起来在一条电缆中传输,这就是复合信号。就是复合信号。普通高等教育“十一五”国家级规划教材多媒体技术教程2.3.2 2.3.2 模拟视频原理模拟视频原理 现有的几种不同的复合信号有现有的几种不同的复合信号有NTSC、PAL和和SECAM。根据亮度根据亮度/色度原理,任何彩色信号都可色度原理,任何彩色信号都可以分为亮度和色度。色度只要使用色差就可以表示以分为亮度和色度。色度只要使用色差就可以表示颜色信号,而不

59、必使用颜色信号,而不必使用RGB三个完整的信号。将三个完整的信号。将亮度和色度交错排列分别放到电缆上,就组成了复亮度和色度交错排列分别放到电缆上,就组成了复合信号。合信号。 电视系统的三种制式采用的信号形式也不完全电视系统的三种制式采用的信号形式也不完全一样。一样。NTSC的亮度信号称为的亮度信号称为Y,色度信号为色度信号为I和和Q,即即YIQ方式。方式。PAL制式和制式和SECAM制式的亮度和色制式的亮度和色度与之相对应为度与之相对应为YUV,它们的差别在于编码方式它们的差别在于编码方式的不同。的不同。YUV、YIQ可以与可以与RGB互换。互换。RGB、YUV和和YIQ等都被称为彩色空间。等

60、都被称为彩色空间。普通高等教育“十一五”国家级规划教材多媒体技术教程2.3.2 2.3.2 模拟视频原理模拟视频原理视频设备视频设备 按照用途不同,视频设备可以分为广播、专业按照用途不同,视频设备可以分为广播、专业和消费三个级别。广播级一般是大型的电视台和网和消费三个级别。广播级一般是大型的电视台和网络站使用,它的性能最好,用于大系统应用,价格络站使用,它的性能最好,用于大系统应用,价格昂贵;专业级一般用于教育界和工业界的小广播站,昂贵;专业级一般用于教育界和工业界的小广播站,有较好的性能。而消费级是家用设备,一般操作简有较好的性能。而消费级是家用设备,一般操作简单、性能可靠,一般价格是第一位

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论