多媒体技术教程_第1页
多媒体技术教程_第2页
多媒体技术教程_第3页
多媒体技术教程_第4页
多媒体技术教程_第5页
已阅读5页,还剩93页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、多媒体技术教程第1页,共98页,2022年,5月20日,23点6分,星期二2.1 媒体的种类和特点第2页,共98页,2022年,5月20日,23点6分,星期二2.1.1 常见的媒体元素文本文本是计算机文字处理程序的基础文本数据可以在文本编辑软件里制作文本文件分类非格式化文本 格式化文本文件文件带有各种文本排版信息等格式信息的文本文件 段落格式、字体格式、文章的编号、分栏、边框 文字的变化:格式(sty1e)、字的定位(align)、字体(font)、字的大小(size) 第3页,共98页,2022年,5月20日,23点6分,星期二2.1.1 常见的媒体元素图形 图形的概念 一般指用计算机绘制的

2、画面,如直线、圆、圆弧、矩形、任意曲线和图表等。图形的格式是一组描述点、线、面等几何图形的大小、形状及其位置、维数的指令集合,在图形文件中只记录生成图的算法和图上的某些特征点,也称矢量图。line(x1,y1,x2,y2,color) circle(x,y,r,color) 第4页,共98页,2022年,5月20日,23点6分,星期二2.1.1 常见的媒体元素图形 图形的特征图形是对图象进行抽象的结果(人工或自动);图形的矢量化使得有可能对图中的各个部分分别进行控制(放大、缩小、旋转、变形、扭曲、移位等)图形的产生需要计算时间第5页,共98页,2022年,5月20日,23点6分,星期二2.1.

3、1 常见的媒体元素图像 图像的概念图像是指由输入设备捕捉的实际场景画面,或以数字化形式存储的任意画面。静止的图像是一个矩阵,由一些排成行列的点组成,这些点称之为像素点(pixel),这种图像称为位图(bitmap)。 第6页,共98页,2022年,5月20日,23点6分,星期二2.1.1 常见的媒体元素图像 图像的主要技术参数分辨率屏幕分辨率计算机显示器屏幕显示图像的最大显示区 图像分辨率 数字化图像的大小 像素分辨率像素的宽高比,一般为11 第7页,共98页,2022年,5月20日,23点6分,星期二2.1.1 常见的媒体元素图像 图像的主要技术参数图像灰度每个图像的最大颜色数 2位:黑白2

4、色;4位:16色;8位:256色;24位:真彩色图像文件大小(高宽灰度位数)/8 字节 第8页,共98页,2022年,5月20日,23点6分,星期二2.1.1 常见的媒体元素图像图形与图象的关系图形是矢量概念,图元;图象是位图概念,象素;图形显示图元顺序;图象显示象素顺序;图形变换无失真;图象变换有失真;图形以图元为单位修改属性、编辑;图象只能对象素或图块处理;图形是对图象的抽象,但在屏幕上两者无异第9页,共98页,2022年,5月20日,23点6分,星期二2.1.1 常见的媒体元素视频 视频的概念 视频源于电视技术,它由连续的画面组成。这些画面以一定的速率连续地投射在屏幕上,使观察者具有图像

5、连续运动的感觉。第10页,共98页,2022年,5月20日,23点6分,星期二2.1.1 常见的媒体元素视频 视频的制式PAL制(625/50) 每秒25帧,水平扫描线为625条,水平分辨率240400个像素,隔行扫描 。62年诞生于德国,应用于中国、新加坡、欧洲地区等(Pal-B、D、G、H、I、N、NC)。NTSC制(525/60) 每秒30帧,水平扫描线为525条,水平分辨率240400个像素,隔行扫描 。53年诞生于美国,应用于美国、日本、台湾等(NTSC-M、NC、Japan等)。第11页,共98页,2022年,5月20日,23点6分,星期二2.1.1 常见的媒体元素视频 视频的制式

6、SECAM制(625/50) 每秒25帧,水平扫描线为525条、水平分辨率625。由法国人提出,应用于俄罗斯、法国、非洲地区等。视频的数字化 指在一段时间内以一定的速度对视频信号进行捕获并加以采样后形成数字化数据的处理过程。第12页,共98页,2022年,5月20日,23点6分,星期二2.1.1 常见的媒体元素视频 视频的技术参数颜色空间R、G、B(红、绿、蓝) Y、U、V(为亮度,U、V为色差) H、S、I(色调、饱和度、强度)可以通过坐标变换而相互转换帧速 每秒钟显示的帧数目, 计量单位为帧率(fps)视频根据制式的不同: 30帧/秒(NTSC)、25帧/秒(PAL) 第13页,共98页,

7、2022年,5月20日,23点6分,星期二2.1.1 常见的媒体元素视频 视频的技术参数数据量 帧速每幅图像的数据量(不计压缩 )图像质量 与数据源质量有关( :表示“好于”) RGB视频YUV视频Y/C视频(S视频)复合视频与视频数据压缩的倍数有关注1:UV两个色差信号可合成为一个色度信号C,进而形成Y/C记录方式,这种方式得到的视频称为S视频。注2:把亮度Y与色度C进一步混合在一起,便形成复合视频。第14页,共98页,2022年,5月20日,23点6分,星期二2.1.1 常见的媒体元素动画动画的概念 运动的图画,实质是一幅幅静态图像的连续播放。动画的连续播放既指时间上的连续,也指图像内容上

8、的连续,即播放的相邻两幅图像之间内容相差不大 。计算机设计动画方法 造型动画 帧动画 第15页,共98页,2022年,5月20日,23点6分,星期二2.1.1 常见的媒体元素动画帧动画 第16页,共98页,2022年,5月20日,23点6分,星期二2.1.1 常见的媒体元素动画帧动画 第17页,共98页,2022年,5月20日,23点6分,星期二2.1.1 常见的媒体元素音频 分类波形声音包含了所有的声音形式,它可以把任何声音都进行采样量化,并恰当地恢复出来。 第18页,共98页,2022年,5月20日,23点6分,星期二2.1.1 常见的媒体元素音频 分类语音人的说话声虽是一种特殊的媒体,但

9、也是一种波形,所以和波形声音的文件格式相同。音乐符号化了的声音,乐谱可转变为符号媒体形式。第19页,共98页,2022年,5月20日,23点6分,星期二2.1.1 常见的媒体元素音频数字声音波形质量的主要技术参数采样频率等于波形被等分的份数,份数越多,质量越好11.025KHZ、 22.05KHZ、44.1KHZ采样精度每次采样信息量 8位、16位通道数声音产生的波形数单声道、立体声道、5.1声道数据量计算:(采样频率采样精度通道数 时间 )/8 字节第20页,共98页,2022年,5月20日,23点6分,星期二2.1.2 媒体的种类 视觉视 觉(静止)图像图形文字符号语言文字抽象化抽象化 (

10、动态)图像图形动态影像视频真实感三维动画二维动画三维动画其它表示为视觉的媒体第21页,共98页,2022年,5月20日,23点6分,星期二2.1.2 媒体与多媒体听觉触觉其他感觉抽象化听觉声音声响(自然界)语音(人类语言)音乐其它(嗅觉、味觉等)触觉振动运动传感/发生器第22页,共98页,2022年,5月20日,23点6分,星期二2.1.3 媒体的性质和特点 各种媒体具有不同特点和性质 媒体是有格式的 不同媒体表达信息的特点和程度各不相同 媒体之间可以相互转换 媒体之间的关系也具有丰富的信息 媒体具有空间性质 表现空间 媒体按相互的空间关系进行组织视觉空间、听觉空间和触觉空间这3者既相互独立又

11、需要相互结合 第23页,共98页,2022年,5月20日,23点6分,星期二2.1.3 媒体的性质和特点 媒体的时间性质 表现需要时间媒体在时间坐标轴上的相互关系 媒体的语义 媒体的语义是有层次的抽象的程度不同,语义的重点也就不同 媒体结合的影响 媒体结合是多层次的 媒体结合有利于信息接受和理解隐喻 交互的概念模型,也称心智模型 第24页,共98页,2022年,5月20日,23点6分,星期二2.2 听觉媒体技术 第25页,共98页,2022年,5月20日,23点6分,星期二2.2.1 声音心理学 1.声音的量纲 声音的振动是一种正弦波,声音的变化必须确定三件事:频率(变化的速度)、幅度(产生的

12、压力)、相位(何时开始)。 另外一方面,人们可以感觉到声音的强弱,可以感觉到歌唱家音调的高低。 因此,声音的量纲分为声音的物理量纲和心理量纲。第26页,共98页,2022年,5月20日,23点6分,星期二2.2.1 声音心理学 物理量纲可以用精确的值来描述,但对某一具体声音得来的心理印象却不容易说明白,因为心理印象要由被测者的经验而定。 声音的心理属性和物理属性不可等同,首先,这些关系不是线性的;其次这些关系不是孤立的;第三这些关系不是不变的。第27页,共98页,2022年,5月20日,23点6分,星期二2.2.1 声音心理学 两者之间确有关系:例如声音的响度取决于强度和频率两个因素,如果频率

13、不变,强声显得比弱声要响些。但如果强度不变,过高频率的声音和过低频率的声音似乎比中频的声音听起来都要弱一些。由此可见,响度依赖于频率,原因是人耳能反应的频率范围是有上限和下限的。 第28页,共98页,2022年,5月20日,23点6分,星期二2.2.1 声音的量纲 心理变量首要的物理变量次要的物理变量响度声强声波频率音调声波频率声强音色声波复合音量频率和强度密度频率和强度谐和(流畅或粗糙)谐波结构音乐技巧噪声强度频率组合,各种时间参量骚扰声强度频率组合,无意义第29页,共98页,2022年,5月20日,23点6分,星期二2.2.1 声音心理学 2.听觉特性等响曲线 由于响度与频率和强度有关,所

14、以在不同频率上的强度是不同的。先设一个音为标准音,给予固定的频率、强度和持续时间,例如1000Hz、40分贝、持续0.5秒;再给一个音也持续0.5秒,但频率不同,通过调整使其响度听起来一样,得到的这样一组曲线称之为等响曲线。等响曲线描述的是响度与频率和强度的关系。从声音心理学考虑,对同一响度的声音在频率上和强度上可以有很大的差别,这对声音表现有重要意义。 第30页,共98页,2022年,5月20日,23点6分,星期二2.2.1 声音心理学掩蔽(masking) 声音的响度不仅取决于自身的强度和频率,而且也依赖于同时出现的其它声音。各种声音可以互相掩蔽,也就是说一种声音的出现可能使得另一种声音难

15、于听清。由于声音的掩蔽效果,可以欺骗人的听觉。例如,本来是多种频率的声音的复合,但听众以为是另一种声音。所以,声音的掩蔽特性常常用于声音的压缩。第31页,共98页,2022年,5月20日,23点6分,星期二2.2.1 声音心理学临界频带 在频率的某一临界区里,各种声音是相互作用的,合成声音的响度由这些频率共同决定。如果超出临界区,声音的响度不再相互作用,声音的响度随频率的改变而改变。这个临界区就是临界频带,其宽度视其中心频率而定。对于临界频带的确定,使得对声音响度的处理能够有的放矢。第32页,共98页,2022年,5月20日,23点6分,星期二2.2.1 声音心理学相位 从声音的波形来看,声音

16、的起点和方向也要反映声音的特性,这就是声音的相位。当两个声音相同相位完全相反时,它们将相互抵消;当两个声音相同而且相位也相同时,声音就会得到加强。 相位的确定对于多声道声音系统的设计非常重要,其可以应用在回声的消除、会议系统的声音设计上。 第33页,共98页,2022年,5月20日,23点6分,星期二2.2.1 声音心理学自然声音的时变现象 声音的音调分成三个区域:起始区、稳定状态区、延迟区。 研究表明,音调的频谱分量随时间改变。在稳定状态区,频谱保持固定。在起始区,振幅频谱随时间变化。因此自然声音的起始部分是非常难识别的。例如刚听了一小节音调后要识别乐器,专家也会觉得较难。时变现象用于数字系

17、统中,说明声音中的某些错误是不太容易发现的,但如果出现停顿就很容易引起人的注意。 第34页,共98页,2022年,5月20日,23点6分,星期二2.2.1 声音心理学听觉空间 人耳可听到来自各个方向的声音,并用不同的因素来判定声源的位置。声源的位置不论对于增进人们的感受还是增进对声音的理解,都是非常重要的。通过声音的精确再现,就可以构造出听觉空间。 方位的线索是各种声音到达两耳的精确时间和强度。第35页,共98页,2022年,5月20日,23点6分,星期二2.2.1 声音心理学听觉的频谱特性 声音是时间函数,通过傅里叶变换可做出其频谱图。人耳对频谱成分的波峰和波谷是非常敏感的。在语言中,元音很

18、少有频谱变速变化的区域。基频改变,人耳是很敏感的。例如:快进的录像,音调会发生变化。 音色非常复杂,目前尚在研究中。音色的处理将使我们能识别音源,音色也代表和声音有关的主观质量。 第36页,共98页,2022年,5月20日,23点6分,星期二2.2.1 声音心理学声音的心理模拟 通过人工真实的方法,可以对视觉空间的景物进行再造或虚构,同样也可以对听觉空间的声音进行心理的模拟,这就是所谓的可听化(audiolization)。用声音可以表达出一些声音的效果。 第37页,共98页,2022年,5月20日,23点6分,星期二2.2.2 音频的数字化和符号化 从人与计算机交互的角度看,音频信号的处理包

19、括下述3点:人与计算机通信,也就是计算机接收音频信号。包括音频获取、语音的识别和理解。计算机与人通信,也就是计算机输出音频。包括音乐合成、语音合成、声音的定位以及音频视频的同步。人-计算机-人通信。人通过网络与异地的人进行语音通信,相关的音频处理有语音采集、音频的编码和解码、音频的存储、音频的传输、基于内容的检索等。第38页,共98页,2022年,5月20日,23点6分,星期二2.2.2 音频的数字化和符号化 1音频的数字化与再现 在计算机中,所有的信息都以数字来表示。声音信号也是由一系列的数字来表示的,称为数字音频。数字音频的特点就是保真度好,动态范围大。 数字声音是一个数据序列。它是由外界

20、声音经过采样、量化和编码后得到的。 第39页,共98页,2022年,5月20日,23点6分,星期二2.2.2 音频的数字化和符号化 对声音进行采样用奈奎斯特采样定理来决定采样的频率。根据该定理,只要采样频率高于信号中最高频率的两倍,就可以从采样中完全恢复原始信号的波形。因为人耳所能听到的频率范围为20Hz到20KHz,所以实际的采样过程中,为了达到好的效果,就采用44.1KHz作为高质量声音的采样频率。如果达不到这么高的频率,声音恢复的效果就会差一些,例如电话声音的质量等。一般来说,声音恢复和采样频率、信道带宽都有关。第40页,共98页,2022年,5月20日,23点6分,星期二 声音的采样以

21、及量化图2.2.2 音频的数字化和符号化第41页,共98页,2022年,5月20日,23点6分,星期二2.2.2 音频的数字化和符号化 与数字音频相关的重要特性:采样频率 采样频率与声音的质量关系最为紧密。采样频率越高,声音质量越接近原始声音,所需的存储量便越多。标准的采样频率有三个:44.1KHz,22.05kHz,和11.025kHz。采样位数 存放一个采样点所需的比特数。一般的采样位数为8位或16位,即把声音采集为256等份或65536等分。第42页,共98页,2022年,5月20日,23点6分,星期二2.2.2 音频的数字化和符号化声道数 有单声道、双声道和多声道。如多种语言音频混存时

22、,需要多声道数据量 (采样频率每点采样位数声道数)数据量 8(字节/秒)第43页,共98页,2022年,5月20日,23点6分,星期二2.2.2 音频的数字化和符号化 2声音的符号化 波形声音可以把音乐、语音都进行数据化并且表示出来,但是并没有把它看成音乐和语音。 对于声音的符号化(也可以称为抽象化)表示包括两种类型:一种是音乐,一种是语音。第44页,共98页,2022年,5月20日,23点6分,星期二2.2.2 音频的数字化和符号化(1)音乐的符号化MIDI MIDI(Music Instrument Digital Interface)是指乐器数字接口的国际标准。 MIDI消息,是指乐谱的

23、数字描述。 任何电子乐器,只要有处理MIDI消息的微处理器和合适的硬件接口,就构成了一个MIDI设备。当一组MIDI消息通过音乐合成芯片处理时,合成器能解释这些符号并且产生音乐。 MIDI的关键是作为媒体能够记录这些音乐的符号,相应的设备能够产生和解释这些符号。它给出了一种得到音乐声音的方法。第45页,共98页,2022年,5月20日,23点6分,星期二2.2.2 音频的数字化和符号化 MIDI的特点:与波形声音相比,MIDI不是声音数据而是指令,所以数据量要少得多。30分钟的音乐, 用MIDI文件记录只需200KB,用16位CD品质的未压缩WAV文件记录需317MB MIDI可以与其他波形声

24、音配合使用,形成伴乐的效果。而两个波形声音一般是不能同时使用的对MIDI的编辑也很灵活,用户可以自由地改变音调、音色等属性,直到自己想要的效果 MIDI在音质上还不能与真正的乐器完全相似。无法模拟自然界中其它非乐曲类声音第46页,共98页,2022年,5月20日,23点6分,星期二2.2.2 音频的数字化和符号化(2)语音的符号化 语音与文字是对应的。波形声音可以记录表示语音,它是不是语音取决于听者对声音的理解。对语音的符号化实际上就是对语音的识别,将语音转变为字符,反之也可以将文字合成语音。 语音指构成人类语音信号的各种声音。在采集和存储上可以与波形声音一样,但由于语音是由一连串的音素组成。

25、“一句话”中包含许多音节以及上下文过渡过程的连接体等特殊的信息,并且语音本身与语言有关,所以要把它作为一个独立的媒体来看待。第47页,共98页,2022年,5月20日,23点6分,星期二2.2.3 音频媒体的三维化处理 1三维虚拟声空间 所谓三维虚拟声空间(Three Dimensional Virtual Acoustic,3DVA),是指用一定的声音设备人为地产生出来的具有空间位置信息的声音空间。 三维听觉的使用明显地依赖于用户对听觉空间中各种信息源的定位能力。一般说来,三维虚拟声空间要达到以下的一些目标: 在可听的范围内重现频率分辨度和动态范围; 在三维空间中精确地呈现声音的位置信息;

26、能表达多个静止和移动的声源; 能和头部的动作具有一定的关联; 能够支持一定程度的交互。第48页,共98页,2022年,5月20日,23点6分,星期二2.2.3 音频媒体的三维化处理 23DVA的基本理论 人类感知声源位置的最基本的理论是双工理论,该理论基于两种因素:两耳间声音的到达时间差ITD(Interaural Time Differences)和两耳间声音的强度差IID(Interaural Intensity Differences)。 时间差是由于距离的原因造成的,当声音从正面传来时,距离相等,所以没有时间差;但若偏右3o,则到达右耳的时间就要比左耳约早30ms,而正是这30ms,使

27、得我们辨别出了声源的位置。 强度差是由于信号衰减造成的,信号的衰减是因为距离产生的,在很多情况下是因为人的头部遮挡,使声音衰减,产生了强度的差别,使得靠近声源一侧的耳朵听到的声音强度要大于另一耳。第49页,共98页,2022年,5月20日,23点6分,星期二2.2.3 音频媒体的三维化处理 3DVA理论较形象地说明:人耳对声音定位的特性,通过大脑的综合作用后,对有差别的声音信号进行了相对于空间位置的定位。 人耳对声源方位的判定起决定作用的是耳廓。当声波从声源传到听者的耳部时,声波会在耳廓发生不断的反射和折射,然后由内耳道传到耳鼓,使人产生音感。这种反射、折射是依赖于频率的,通过不同频率的变化,

28、使得人耳能够辨别声源的方位。另外,当声音从声源传到人的内耳并形成听觉时,声音信号已经携带了两个很重要的信息,从而形成了空间真实感和环境真实感。声源的本身信号特征、声源的空间三维位置、声源所处的环境这三个因素描述了声源的全部信息。 第50页,共98页,2022年,5月20日,23点6分,星期二2.2.3 音频媒体的三维化处理 3HRTF方法 实现空间真实感的关键是建立起耳廓模型,这种方法被称为“双耳相关函数法”,也即HRTF(Head-Related Transfer Function,与头部有关的转移函数)。 从理论上利用HRTF产生真实空间声音的算法如下图所示。 第51页,共98页,2022

29、年,5月20日,23点6分,星期二2.2.3 音频媒体的三维化处理 第52页,共98页,2022年,5月20日,23点6分,星期二2.3 视觉媒体技术 第53页,共98页,2022年,5月20日,23点6分,星期二2.3.1 视觉心理学 1视觉的心理特征 视觉是人类最重要的感知能力,通过视觉可以感知到外部世界的形状、大小、色彩、明暗、机理和运动等多方面的信息。 同声音心理学相似,与视觉相对应的光学物理性质和心理知觉也是截然不同的。虽然光的物理特性与心理知觉有关,但它们的关系并不是线性的。对光的色调和亮度的感觉不仅和它的频率和强度有关,而且还和它出现的背景有关,和同时出现的周围光有关。第54页,

30、共98页,2022年,5月20日,23点6分,星期二2.3.1 视觉心理学视觉心理变量主要的物理变量亮度光强色调(彩色)波长浓度(彩色的浓度)光谱成分对比光强、波长、周围光第55页,共98页,2022年,5月20日,23点6分,星期二2.3.1 视觉心理学 2. 视觉特性 亮度 亮度是人眼对光强度的感受。 一个物体的亮度不仅跟目标的物理强度有关,而且与周围的背景有关。假定整个照明增大了,目标和环境的光强就按照比例增大了,两者之间的物理对比就维持不变。但当照明增强时,目标的亮度可能会亮一些,也可能保持不变,甚至看起来亮度减少一些。这些都取决于中心和周围之间的相对强度,也就是对比度。 对图像的处理

31、最重要的是亮度的差别。第56页,共98页,2022年,5月20日,23点6分,星期二2.3.1 视觉心理学 与声音相似,视觉上也有等亮曲线,反映了视觉在亮度上与波长的关系。在同一亮度感觉下,不同波长的光具有不同的光强。 视觉也有掩蔽现象,在很亮的高光周围时难以看清的,道理和声音是类似的。第57页,共98页,2022年,5月20日,23点6分,星期二2.3.1 视觉心理学视觉的时间特性 建立视觉图像需要时间,而一旦建立起来之后,即使把图像对象拿走,这种反应也要维持一段时间。这是因为把光转变为神经电需要时间。正因为视网膜图像时逐渐消退的,所以视觉暂留可以存在十分之几秒。第58页,共98页,2022

32、年,5月20日,23点6分,星期二2.3.1 视觉心理学彩色 表示颜色需要考虑三种心理属性:色调、亮度和饱和度。色调就是通常意义下的彩色,它随波长的变化而变化,反映颜色的基本特性。亮度是光作用于人眼所引起的明亮程度的感觉,与光强有关。饱和度是代表为了产生所感知到的彩色在白光中必须混入的纯单色光的相对数量,或者说是颜色的深浅程度。对同一色调的彩色光,饱和度越深颜色越鲜艳。色调和饱和度统称为色度。 第59页,共98页,2022年,5月20日,23点6分,星期二2.3.1 视觉心理学 颜色是由三种原色光混合而成的。可见光的波长从380纳米到780纳米。不同波长呈现出不同颜色,可见光波长从长到短依次为

33、红橙黄绿青蓝紫。 只有单一波长成分的光称为单色光,含有两种以上波长成分的光称为复合光,所有可见光按照一定比例混合就是白色光。 在辐射功率相同的条件下,不同波长的光不仅给人不同的颜色感觉,而且也给人不同的亮度感觉。人眼一般感到红光最暗,蓝光次之,而黄绿光最亮。研究表明,人眼对亮度信息敏感,而对颜色的敏感程度相对较弱。第60页,共98页,2022年,5月20日,23点6分,星期二2.3.1 视觉心理学 在白色背景下,一般使用红黄蓝作为原色来混合其它颜色,这就是减基色合成彩色系统。 在黑色背景下,一般使用红绿蓝作为基色来混合其它颜色,这就是加基色合成彩色系统。 一般绘画时采用前者,电视中采用后者。第

34、61页,共98页,2022年,5月20日,23点6分,星期二2.3.1 视觉心理学注视点和视野范围 人在观察视觉类媒体时,注视点喜欢集中在什么地方?研究表明,视觉注视点主要集中在图像中黑白交界的部分,尤其是拐角处。如果是闭合图形,注视点往往向内侧移动。注视点容易集中在时隐时现运动变化的部分或者图像中特别不规则的地方。 人眼的视野开阔,左右视角约为180度,上下约为60度。但视力好的部位仅限于2到3度,用于观察视觉媒体的细节。而在周边,则主要识别特征。但是需要注意,只有大的视野才有可能制造出临场感。第62页,共98页,2022年,5月20日,23点6分,星期二2.3.2 模拟视频原理光栅扫描原理

35、 视频摄像机将图像转换为电信号,电信号是一维的,但图像是二维的,将二维图像转成为一维电信号是由光栅扫描的方法实现的。快速的扫描线从顶部开始,一行一行地向下扫描,直至显示器的最底部,然后再返回顶部的起点,重新开始扫描。这个过程产生的一个有序的图像信号集合,就组成了电视显示中的一幅图像,在此称为帧。连续不断的图像序列就形成了动态视频图像。 第63页,共98页,2022年,5月20日,23点6分,星期二2.3.2 模拟视频原理 分辨率表现的是电视系统中重现场景细节的能力。水平扫描线所能分辨出的点数称为水平分辨率。一般来说,点数越小,线越细,分辨率就越高。一个系统的水平分辨率为400线,指在对应于图像

36、高度的水平距离内能交替显示200条白线和200条黑线。相应地,一帧中垂直扫描的行数称为垂直分辨率。垂直分辨率和每帧中的扫描线有关,扫描线越多,分辨率就越高。广播电视系统垂直的行数一般是525线(北美和日本)和625线(欧洲和中国)。第64页,共98页,2022年,5月20日,23点6分,星期二2.3.2 模拟视频原理 每一秒钟所扫描的帧数称为帧频,一般为25帧(PAL)或者30帧(NTSC)。由于是隔行扫描,所以垂直频率分别是每秒50帧和60帧。因此,人眼就不容易看到闪烁。 宽高比是扫描的一个重要的参数。扫描行的长度与在图像垂直方向上的所有扫描行所跨过的距离之比,就成为宽高比。目前电视中的宽高

37、比为4:3,新型电视的宽高比为16:9,有些电影系统的宽高比为2:1 。第65页,共98页,2022年,5月20日,23点6分,星期二2.3.2 模拟视频原理彩色视频 加基系统是彩色视频系统的基础。彩色电视采用红绿蓝(RGB)作为三基色进行配色,产生出R、G、B三个输出信号,RGB信号可以分别传输,但是要配上相应的同步信号。在RGB系统中需要三根视频电缆互连,但是三个信号在同步关系方面相当复杂,所以大部分彩色电视不处理RGB,而是将RGB信号组合起来在一条电缆中传输,这就是复合信号。第66页,共98页,2022年,5月20日,23点6分,星期二2.3.2 模拟视频原理 现有的几种不同的复合信号

38、有NTSC、PAL和SECAM。根据亮度/色度原理,任何彩色信号都可以分为亮度和色度。色度只要使用色差就可以表示颜色信号,而不必使用RGB三个完整的信号。将亮度和色度交错排列分别放到电缆上,就组成了复合信号。 电视系统的三种制式采用的信号形式也不完全一样。NTSC的亮度信号称为Y,色度信号为I和Q,即YIQ方式。PAL制式和SECAM制式的亮度和色度与之相对应为YUV,它们的差别在于编码方式的不同。YUV、YIQ可以与RGB互换。RGB、YUV和YIQ等都被称为彩色空间。第67页,共98页,2022年,5月20日,23点6分,星期二2.3.2 模拟视频原理视频设备 按照用途不同,视频设备可以分

39、为广播、专业和消费三个级别。广播级一般是大型的电视台和网络站使用,它的性能最好,用于大系统应用,价格昂贵;专业级一般用于教育界和工业界的小广播站,有较好的性能。而消费级是家用设备,一般操作简单、性能可靠,一般价格是第一位的。 具体的视频设备有如彩色摄影机、视频记录设备和视频监视设备。 第68页,共98页,2022年,5月20日,23点6分,星期二2.3.3 视觉媒体数字化 1位图图像与数字视频 对计算机来说,无论是文字或图形,还是图像或视频,在计算机上进行处理首先要数字化。与音频信号相似,对所要处理的一幅画面,通过对每一个象素进行采样,并且按照颜色或者灰度进行量化,就可以得到图像的数字化结果。

40、数字化的结果放在显示缓存区中,与显示器上的点一一对应,这就是位图图像。对视频按照时间进行数字化所得到的图像序列,就构成了数字视频序列。它同样与频率和量化的比特数有关。频率必须足够高,以跟上模拟信号流;量化的比特数越多,量化的值就越多,所能表示的颜色或灰度级数就越多。第69页,共98页,2022年,5月20日,23点6分,星期二2.3.3 视觉媒体数字化 在一幅图像的X轴上是一行的点数,在Y轴上是行数。X、Y的交叉点就是一个象素,每一个象素可以有若干比特来表示。按照标准间隔在时间轴上采样的图像组组成视频序列。所以可以说,图像是离散的视频,而视频是连续的图像。当进行再现时,被表示称数字形式的数据按

41、格式和时间送上显示器,就又恢复了原先的形态。其它的视觉媒体如文字、图形等,在显示原理上都是以此为基础的,它们都是通过预先的编码表示出显示的形式,在再现时,在显示器上画出所要的图形或者文字。第70页,共98页,2022年,5月20日,23点6分,星期二2.3.3 视频媒体数字化第71页,共98页,2022年,5月20日,23点6分,星期二2.3.3 视频媒体数字化文件格式说 明GIFGraphics Interchange Format的缩写,是由Compu-Serve公司于1987年为制定彩色图像传输协议而开发的一种图像文件格式TIFFTag Image File Format缩写,是由Ala

42、us和Microsoft公司为扫描仪和桌上出版系统研发的一种图像文件格式,它的文件格式全部基于标志域TGATarge Image Format的缩写,是Truevision公司为Targe和Vista图像获取板设计的软件TIPS所使用的文件格式BMP(Bitmap)是一种与设备无关的图像文件格式,是Windows软件推荐使用的一种格式PCX是由Zsoft公司研制开发的,一般与PC-Paint Brush图像软件一起使用MPG根据国际标准MPEG编码的一种动态图像文件格式AVSIntel和IBM公司共同研制的DVI系统的一种动态图像文件格式,AVS文件只能在DVI系统硬件下才能够读写AVIInt

43、el和IBM公司共同研制的DVI系统的一种动态图像文件格式第72页,共98页,2022年,5月20日,23点6分,星期二2.3.3 视觉媒体数字化 2图形 图形(Graphics):一种抽象化的图像,是对图像依据某个标准进行分析而产生的结果。它不直接描述数据的每一点,而是描述产生这些点的过程及方法。因此被称之为矢量图形,一般直接称为图形。第73页,共98页,2022年,5月20日,23点6分,星期二2.3.3 视觉媒体数字化 矢量图形是以一组指令的形式存在的,这些指令描述一幅图中所包含的直线、圆、弧线、矩形的大小和形状,也可以用更为复杂的形式表示图像中曲面、光照、材质等效果。在计算机上显示一幅

44、图像时,首先要解释这些指令,然后将它们转变成屏幕上显示的形状和颜色。 图形的矢量化使得有可能对图中的各个部分分别进行控制。计算机可以对其中任何对象分别进行任意的变换:放大、缩小、旋转、变形、扭曲、移位、叠加等,并仍保持图形特性。图形变换的灵活性,使其在处理上获得了更大的自由度。 第74页,共98页,2022年,5月20日,23点6分,星期二2.3.3 视觉媒体数字化 3符号与文字 符号媒体:是某种抽象的结果。各种描述量、语言、数据、标识符、数值、字符等都是符号媒体。 由于符号具有明显的结构性,大脑可以识别这种结构,进而可识别出由这一组符号所代表的信息。这种结构可以组成文本,即字符串;也可以组成

45、数据组,如数据库中的一个元组,均可表达特定的信息 。第75页,共98页,2022年,5月20日,23点6分,星期二2.3.3 视觉媒体数字化 符号媒体特点:符号媒体要知识的辅助才能使用,知识的辅助随着层次的升高而不断增强作用 “I CAN SPEAK ENGLISH” 如学英文时,开始只认识字母; 学过英文单词后,认识到一个个单词; 学习文法后,发现是一个句子符号媒体表达精度高符号媒体存储量小第76页,共98页,2022年,5月20日,23点6分,星期二2.3.3 视觉媒体数字化 文本媒体是用得最多的符号媒体形式。主要特点如下:文本是流结构形式:由具有上下文关系的字符串组成,它与字符的结构样式

46、有关,与形式无关对文本的控制不影响媒体信息本来的表达文本显示的改变只是属性的改变,并不影响文本本身的含义对文本的处理应遵从文本内部的结构,如断词,接尾,分段,章节安排第77页,共98页,2022年,5月20日,23点6分,星期二2.3.4 视觉媒体的三维立体显示 1立体显示原理 三维显示实际上具有两个含义,一个是指物体的三维图像在平面上的显示,特别是三维图形的显示,这是图形学的重点。另一个含义是指所显示的图像确确实实是立体的,是“浮”在空间中的,和我们所看的立体电影一样。这是我们讨论的重点。 视差(parallax)是投影到人眼视网膜上图像上两点间的水平距离,正是这个距离产生了视觉上的立体感。

47、注视远处的物体时的视差与注视近处物体时的视差是不同的,因此所谓的立体感正是这个不同距离作用的结果。 第78页,共98页,2022年,5月20日,23点6分,星期二2.3.4 视觉媒体的三维立体显示 2视差 决定立体视觉的是视差。视差的种类大致分为四种:零视差、正视差、负视差和发散视差。它们产生的立体感觉是不同的。零视差:当显示的左右眼图像之间没有缝隙时,视差为零,就称为零视差。 正视差:一旦计算机显示的立体图像对的视差大于0,我们就可以看到深度。正视差差值大于0且小于等于人眼之间的距离。 负视差:当两眼的目光交叉时,就会产生负视差。这时,所观察的对象将会浮现在两眼与显示器之间的空间中。 发散视

48、差 :视差的值比两眼之间的距离还要大。 第79页,共98页,2022年,5月20日,23点6分,星期二2.3.4 视觉媒体的三维立体显示 视差第80页,共98页,2022年,5月20日,23点6分,星期二2.3.4 视觉媒体的三维立体显示 3立体图像的产生(1)旋转法 一个很简单的方法是将一幅图像进行旋转以制造出视差效果。旋转的顺序是: 将整个图像从左至右旋转4,以产生左眼图像 将整个图像从右至左旋转4,以产生右眼图像 执行透视投影 显示图像 使用旋转的方法产生出的立体图像对一些人来说并不适合,会引起不舒适感,显示立体图像时一般不采用这种方法。 第81页,共98页,2022年,5月20日,23

49、点6分,星期二2.3.4 视觉媒体的三维立体显示 (2)投影变换法 投影变换法是模仿人眼观察物体时产生的视差,通过运算后投影到显示器上。在这种方法中,场景中的物体对象在建模之后,通过投影变换生成线框图,然后对该物体进行成像处理,生成左右眼的图像。 标准的投影变换基于单视点的投影。在坐标系中,以视点为投影中心,将三维物体的点投影于显示器的投影平面上,便在该平面上产生三维物体的像。把投影中心的单点变换为双点,很容易构造出双眼的投影视图出来。 第82页,共98页,2022年,5月20日,23点6分,星期二2.3.4 视觉媒体的三维立体显示 4立体图像的显示 立体图像的显示方法有两种。一种方法是让一只

50、眼睛看一个显示器,每个显示器只显示对应眼睛的图像,这样头脑中就产生了立体图像。这种方法的实现是把显示器缩小,放入到头盔中,这就是所谓的头盔显示器。另一种方法是在显示器上快速地显示两眼不同的图像,而观察者带上立体眼镜进行观察。由于眼镜中的液晶片与显示的图像同步地进行开关切换,使得在每一时刻只有一只眼睛能够看到对应的图像,只要速度足够快,由眼睛的暂留现象和大脑的作用,感觉到的就是立体的图像。 第83页,共98页,2022年,5月20日,23点6分,星期二2.4 触觉媒体技术 第84页,共98页,2022年,5月20日,23点6分,星期二2.4.1 触觉媒体概述 皮肤可以感觉环境的温度、湿度,也可感

51、觉压力,身体可以感觉振动、运动、旋转等,这些都是触觉在起作用,都可以作为传递信息的媒体。事实上,触觉媒体就是环境媒体,它描述了该环境中的一切特征和参数。第85页,共98页,2022年,5月20日,23点6分,星期二2.4.1 触觉媒体概述 人体在信息交流过程中起的作用最大的是人的头部、手部和整体躯干。与外界环境的触觉交互主要包括位置跟踪、力量反馈等方面。 对手部信息的处理包括手部的位置、手指的动作类型、手部的感觉、手部的力量反馈等。这些都要有特殊的设备和技术完成系统对手部信息的数字化和跟踪,并将它们与系统的控制和应用结合起来。这些设备和技术包括数据手套、压力传感手套、手部位置超声波跟踪器、力量

52、反馈接口等。对躯干的位置跟踪和反馈与手部和头部很类似,但它要反映人体的体势语言和外界对人体的力量反馈,如振动、倾覆、旋转等。这些设备包括数据服装、三维数据座舱、模拟器等。 第86页,共98页,2022年,5月20日,23点6分,星期二2.4.2 简单指点设备与技术 1指点的任务指点的任务包括: 选择 定位 定向 路径 数量 操作第87页,共98页,2022年,5月20日,23点6分,星期二2.4.2 简单指点设备与技术 2指点设备 指点设备分成直接指点设备和间接指点设备两类。前者直接使用特殊的指点设备或用手指点屏幕,后者则通过指点设备的间接动作对屏幕上的对象进行指点。 直接指点设备包括:光笔、触摸屏及输入笔等。 间接指点设备包括:鼠标、跟踪球、控制杆和图形板。这些设备不接触显示屏幕,所以使用时不会遮挡视线,也不易疲劳。 第88页,共98页,2022年,5月20日,23点6分,星期二2.4.2 简单指点设备与技术 这些指点设备的输入都是在显示平面上的二维坐标空间中进行的,包括坐标改变的速度。除非经过特殊的变换,很难把它们向三维空间转换。现在又出现了一些新型的指点设备,例如脚用鼠标器、视线跟踪器、凝视检测控制器等。 第89页,共98页,2022年,5月20日,23点6

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论