媒体及媒体技术.ppt_第1页
媒体及媒体技术.ppt_第2页
媒体及媒体技术.ppt_第3页
媒体及媒体技术.ppt_第4页
媒体及媒体技术.ppt_第5页
已阅读5页,还剩68页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第2章媒体及媒体技术,2.1媒体的种类和特点2.2听觉媒体技术2.3视觉媒体技术2.4触觉媒体技术,2.1媒体的种类和特点,2.1.1常见的媒体元素,文本文本是计算机文字处理程序的基础ASCII中文图形一般指用计算机绘制的画面。也称矢量图。line(x1,y1,x2,y2,color)circle(x,y,r,color),2.1.1常见的媒体元素,图像图像是指由输入设备捕捉的实际场景画面,或以数字化形式存储的任意画面。静止的图像是一个矩阵,由一些排成行列的点组成,这些点称之为像素点(pixel),这种图像称为位图(bitmap)。视频视频源于电视技术,它由连续的画面组成。这些画面以一定的速率连续地投射在屏幕上,使观察者具有图像连续运动的感觉,2.1.1常见的媒体元素,音频波形声音包含了所有的声音形式,它可以把任何声音都进行采样量化。语音人的说话声虽是一种特殊的媒体,但也是一种波形。音乐符号化了的声音,乐谱可转变为符号媒体形式。动画运动的图画,实质是一幅幅静态图像的连续播放。动画的连续播放既指时间上的连续,也指图像内容上的连续,即播放的相邻两幅图像之间内容相差不大。,2.1.2媒体的种类,视觉,2.1.2媒体的种类,听觉触觉其他感觉,其它(嗅觉、味觉等),2.1.3媒体的性质和特点,各种媒体具有不同特点和性质媒体是有格式的不同媒体表达信息的特点和程度各不相同媒体之间可以相互转换媒体之间的关系也具有丰富的信息媒体具有空间性质表现空间媒体按相互的空间关系进行组织视觉空间、听觉空间和触觉空间这3者既相互独立又需要相互结合,2.1.3媒体的性质和特点,媒体的时间性质表现需要时间媒体在时间坐标轴上的相互关系媒体的语义媒体的语义是有层次的抽象的程度不同,语义的重点也就不同媒体结合的影响媒体结合是多层次的媒体结合有利于信息接受和理解隐喻交互的概念模型,也称心智模型,由不同的媒体传递的信息的理解程度由不同的媒体传递的信息的记忆驻留效果,2.1.3媒体的性质和特点,多媒体数据的特点数据量大640 x480 x256的照片占0.3MB102476824位的图片占2.3MB数据类型繁多(黑白、彩色等)数据类型之间的差别大多媒体数据的输入、输出复杂:多通道异步输入法:在通道、时间不同的情况下输入各种媒体数据并存储,最后按合成效果在不同的设备上表现出来。是目前绝大多数系统采用的方法。多通道同步输入法(正在研究之中的方法),2.1.3媒体的性质和特点,多通道异步输入输出,2.1.3媒体的性质和特点,多通道同步输入输出,2.2听觉媒体技术,2.2.1声音心理学,声音的量纲声音的振动是一种正弦波,声音的变化必须确定三件事:频率(变化的速度)、幅度(产生的压力)、相位(何时开始)。复杂的波形:傅立叶变换-SIN波声音的强度:分贝声音分贝数=20LOG(I/I0)I0为0.000283达因/CM2(1000Hz能听到的最弱音)强度差:一万亿倍,2.2.1声音心理学,140痛阈。130120大型喷气式飞机附近。110打雷。100交响乐高潮片断。90繁华街道的交通噪音。80响亮的音乐声,一般交通噪音及交响乐片断。,70一米处正常谈话声。60典型的办公室50普通住宅40图书馆及交响乐低潮片断3020安静的语音室及1.5米处小声谈话声。10消声室0听阈,2.2.1声音心理学,声音的量纲分为声音的物理量纲和心理量纲。物理量纲可以用精确的值来描述,但对某一具体声音得来的心理印象却不容易说明白,因为心理印象要由被测者的经验而定。声音的心理属性和物理属性不可等同首先,这些关系不是线性的;其次这些关系不是孤立的;第三这些关系不是不变的。,2.2.1声音心理学,声音的三要素:音调、音强、音色音调:与声音的频率有关,频率快则声音高,频率慢则声音低。人的听觉范围:20Hz20KHz音强(响度):取决于声音的幅度,即振幅的大小与强弱。音色:是由混入基音的泛音所决定的。每个基音都有固有的频率和不同音强的泛音,从而使每个声音具有特殊的音色效果。,2.2.1声音心理学,2.2.1声音心理学,听觉特性等响曲线掩蔽(masking)临界频带相位自然声音的时变现象听觉空间听觉的频谱特性声音的心理模拟,2.2.1声音心理学,等响曲线由于响度与频率和强度相关,所以不同频率上的强度是不一样的。等响线描述了响度与频率和强度的关系。从图中可以看出,从心理学角度出发,对同一响度的声音在频率和强度上可以有很大的差别。,等响曲线图,2.2.1声音心理学,掩蔽(masking)声音的响度不仅取决于自身的强度与频率,而且也依同时出现的其他声音而定。各种声音可以相互掩蔽,一种声音的出现肯能使得另一种声音难于听清。,2.2.1声音心理学,纯音对纯音的掩蔽效果说明:A、B为掩蔽音。横坐标为各种频率的被掩蔽音,纵坐标为掩蔽阈限(采自Fletcher,1953),2.2.1声音心理学,上页图是佛莱奇尔(Fletcher,1953)的一个实验结果,从图上可以看到以下几种情况:(1)掩蔽音强度提高,掩蔽效果随之增加,当400赫兹的掩蔽音是40分贝时,800赫兹的纯音要达到23分贝时才能听到;当该掩蔽音提高到80分贝时,800赫兹的纯音须增加到60分贝才能听到,而且掩蔽音愈强,它的影响范围也愈大。例如20分贝的400赫兹,掩蔽音只影响到200800赫兹的频率范围,而80100分贝的400赫兹掩蔽音可影响到4000赫兹以上的频率范围。(2)掩蔽音对于频率相近声音的影响最大。例如3500赫兹掩蔽音对于30004000赫兹纯音的影响明显大于3000赫兹以下纯音的影响。(3)低频对高频的掩蔽效果大于高频对低频的掩蔽。例如400赫兹掩蔽音对高频音的影响范围和效果相当大,而3500赫兹掩蔽音对低频音的影响范围和效果就相当小。所以在生产劳动与无线电通讯中,应当着重考虑排除低频音的干扰作用。,掩蔽对声音的影响,2.2.1声音心理学,临界频带在频率的某一临界区里,各种声音是相互作用的,合成声音的响度由这些频率共同决定。如果超出临界区,声音的响度不再相互作用,声音的响度随频率的改变而改变。这个临界区就是临界频带,其宽度视其中心频率而定。对于临界频带的确定,使得对声音响度的处理能够有的放矢。,2.2.1声音心理学,相位从声音的波形来看,声音的起点和方向也要反映声音的特性,这就是声音的相位。当两个声音相同相位完全相反时,它们将相互抵消;当两个声音相同而且相位也相同时,声音就会得到加强。相位的确定对于多声道声音系统的设计非常重要,其可以应用在回声的消除、会议系统的声音设计上。,2.2.1声音心理学,自然声音的时变现象声音的音调分成三个区域:起始区、稳定状态区、延迟区。研究表明,音调的频谱分量随时间改变。在稳定状态区,频谱保持固定。在起始区,振幅频谱随时间变化。因此自然声音的起始部分是非常难识别的。例如刚听了一小节音调后要识别乐器,专家也会觉得较难。时变现象用于数字系统中,说明声音中的某些错误是不太容易发现的,但如果出现停顿就很容易引起人的注意。,2.2.1声音心理学,听觉空间人耳可听到来自各个方向的声音,并用不同的因素来判定声源的位置。声源的位置不论对于增进人们的感受还是增进对声音的理解,都是非常重要的。通过声音的精确再现,就可以构造出听觉空间。方位的线索是各种声音到达两耳的精确时间和强度。,2.2.1声音心理学,听觉的频谱特性声音是时间函数,通过傅里叶变换可做出其频谱图。人耳对频谱成分的波峰和波谷是非常敏感的。在语言中,元音很少有频谱变速变化的区域。基频改变,人耳是很敏感的。例如:快进的录像,音调会发生变化。音色非常复杂,目前尚在研究中。音色的处理将使我们能识别音源,音色也代表和声音有关的主观质量。,2.2.1声音心理学,声音的心理模拟通过人工真实的方法,可以对视觉空间的景物进行再造或虚构,同样也可以对听觉空间的声音进行心理的模拟,这就是所谓的可听化(audiolization)。用声音可以表达出一些声音的效果。,2.2.2音频的数字化和符号化,音频的数字化与再现声音信号也是由一系列的数字来表示的,称为数字音频。数字音频的特点就是保真度好,动态范围大。数字声音是一个数据序列。它是由外界声音经过采样、量化和编码后得到的。对声音进行采样用奈奎斯特采样定理来决定采样的频率。人耳所能听到的频率范围为20Hz到20KHz实际的采样过程中,为了达到好的效果,就采用44.1KHz作为高质量声音的采样频率声音恢复和采样频率、信道带宽都有关,声音的采样以及量化图,2.2.2音频的数字化和符号化,与数字音频相关的重要特性:采样频率采样频率越高,声音质量越接近原始声音,所需的存储量便越多。标准的采样频率有三个:44.1KHz,22.05kHz,和11.025kHz。采样位数存放一个采样点所需的比特数。一般的采样位数为8位或16位,即把声音采集为256等份或65536等分。声道数有单声道、双声道和多声道。数据量(采样频率每点采样位数声道数)/8(字节/秒),2.2.2音频的数字化和符号化,声音的符号化波形声音可以把音乐、语音都进行数据化并且表示出来,但是并没有把它看成音乐和语音。对于声音的符号化(也可以称为抽象化)表示包括两种类型:一种是音乐,一种是语音。,2.2.2音频的数字化和符号化,音乐的符号化MIDIMIDI不是声音数据而是指令,所以数据量要少得多。300MB(半小时无压缩CD声音)-200KBMIDI可以与其他波形声音配合使用,形成伴乐的效果。对MIDI的编辑也很灵活,用户可以自由地改变音调、音色等属性,直到自己想要的效果MIDI在音质上还不能与真正的乐器完全相似。无法模拟自然界中其它非乐曲类声音,2.2.2音频的数字化和符号化,语音的符号化对语音的符号化实际上就是对语音的识别,将语音转变为字符,反之也可以将文字合成语音。语音与具体的语言有关语音:构成人类语言信号的各种声音,是由一连串的音素组成。是当前研究的热点之一一句话:许多音节及其相互间的过度过程特点:成年人基频:60-400Hz,音调周期10ms(男)、6ms(女)汉语:一字一音节(独立的发音单位),在汉语普通话中这些字都是由23声母+34韵母+五种音调组合成,有1200多种不同的发音。,2.2.3音频媒体的三维化处理,三维虚拟声空间(ThreeDimensionalVirtualAcoustic,3DVA)指用一定的声音设备人为地产生出来的具有空间位置信息的声音空间。三维听觉的使用明显地依赖于用户对听觉空间中各种信息源的定位能力。一般说来,三维虚拟声空间要达到以下的一些目标:在可听的范围内重现频率分辨度和动态范围;在三维空间中精确地呈现声音的位置信息;能表达多个静止和移动的声源;能和头部的动作具有一定的关联;能够支持一定程度的交互。,2.2.3音频媒体的三维化处理,3DVA的基本理论人类感知声源位置的最基本的理论是双工理论,该理论基于两种因素:两耳间声音的到达时间差ITD(InterauralTimeDifferences)两耳间声音的强度差IID(InterauralIntensityDifferences)。,2.2.3音频媒体的三维化处理,IID和ITD的示意,2.2.3音频媒体的三维化处理,HRTF方法实现空间真实感的关键是建立起耳廓模型,这种方法被称为“双耳相关函数法”,也即HRTF(Head-RelatedTransferFunction,与头部有关的转移函数)。,2.3视觉媒体技术,2.3.1视觉心理学,视觉的心理特征通过视觉可以感知到外部世界的形状、大小、色彩、明暗、机理和运动等多方面的信息。与视觉相对应的光学物理性质和心理知觉也是截然不同的。,2.3.1视觉心理学,视觉特性亮度亮度是人眼对光强度的感受。目标的亮度和周围的背景有关,对比度视觉上也有等亮曲线,反映了视觉在亮度上与波长的关系。在同一亮度感觉下,不同波长的光具有不同的光强。视觉也有掩蔽现象,在很亮的高光周围时难以看清的视觉的时间特性建立视觉图像需要时间把光转变为神经电的过程需要时间,彩色三种心理属性:色调、亮度和饱和度色调就是通常意义下的彩色,它随波长的变化而变化,反映颜色的基本特性。饱和度是代表为了产生所感知到的彩色在白光中必须混入的纯单色光的相对数量,或者说是颜色的深浅程度。对同一色调的彩色光,饱和度越深颜色越鲜艳。亮度是光作用于人眼所引起的明亮程度的感觉,与光强有关。色调和饱和度统称为色度。人眼一般感到红光最暗,蓝光次之,而黄绿光最亮。研究表明,人眼对亮度信息敏感,而对颜色的敏感程度相对较弱。注视点和视野范围视觉注视点主要集中在图像中黑白交界的部分,尤其是拐角处。左右视角约为180度,上下约为60度。,2.3.2模拟视频原理,电视的三大制式:NTSC(NationalTelevisionSystemCommittee(525/60):1953,美国PAL(PhaseAlternationLine)(625/50):1962,西德SECAM(625/50):法国光栅扫描原理视频摄像机将图像转换为电信号,电信号是一维的,但图像是二维的,将二维图像转成为一维电信号是由光栅扫描的方法实现的。快速的扫描线从顶部开始,一行一行地向下扫描,直至显示器的最底部,然后再返回顶部的起点,重新开始扫描。这个过程产生的一个有序的图像信号集合,就组成了电视显示中的一幅图像,在此称为帧。连续不断的图像序列就形成了动态视频图像。,2.3.2模拟视频原理,光栅扫描原理帧频:每一秒钟所扫描的帧数称为帧频一般为25帧(PAL)或者30帧(NTSC)。由于是隔行扫描,所以垂直频率分别是每秒50帧和60帧。因此,人眼就不容易看到闪烁。水平分辨率:水平扫描线所能分辨出的点数称为水平分辨率。垂直分辨率:一帧中垂直扫描的行数称为垂直分辨率。垂直分辨率和每帧中的扫描线有关,扫描线越多,分辨率就越高。525线(北美和日本)和625线(欧洲和中国)宽高比:扫描行的长度与在图像垂直方向上的所有扫描行所跨过的距离之比,就成为宽高比。4:3;16:9,2.3.2模拟视频原理,彩色视频RGB:彩色电视采用红绿蓝(RGB)作为三基色进行配色,产生出R、G、B三个输出信号,RGB信号可以分别传输,但是要配上相应的同步信号。复合信号:在RGB系统中需要三根视频电缆互连,但是三个信号在同步关系方面相当复杂,所以大部分彩色电视不处理RGB,而是将RGB信号组合起来在一条电缆中传输,这就是复合信号。YUV,YIQ几个重要技术参数帧速:16帧/秒数据量:压缩前后数据量都很大,可通过降低帧速或减小画面尺寸(1/4或1/16屏)来减少数据量。图像质量:与压缩有关,数据量与质量相矛盾,2.3.3视觉媒体数字化,位图图像与数字视频对所要处理的一幅画面,通过对每一个象素进行采样,并且按照颜色或者灰度进行量化,就可以得到图像的数字化结果。数字化的结果放在显示缓存区中,与显示器上的点一一对应,这就是位图图像。图(picture):通过摄影或描绘得到外在景物的相似物。像(image):直接或间接(如拍照)人或物的视觉印象图像:凡是能为人类视觉系统所感知的信息形式或人们心目中的有形想象。位图图像(bitmap):在空间和亮度上已经离散化了的图像。对视频按照时间进行数字化所得到的图像序列,就构成了数字视频序列。,2.3.3视觉媒体数字化,几个重要的技术参数分辨率:屏幕分辨率、图像分辨率、像素分辨率图像颜色数:真彩色概念、图象与象素深度?调色板位图图像的数据量:设图像的垂直方向分辨率为h像素,水平方向分辨率为w像素,颜色深度为c位,则该图像所需数据空间大小B为:B=(h*w*c)/8(字节),2.3.3视觉媒体数字化,象素深度是指存储每个象素所用的位数,它也是用来度量图象的分辨率。象素深度决定彩色图象的每个象素可能有的颜色数,或确定灰度图象的每个象素可能有的灰度级数。例如,一幅彩色图象的每个象素用R、G、B三个分量表示,若每个分量用8位,那末一个象素共用24位表示,就说象素的深度为24,每个象素可以是224=16777216种颜色中的一种。在这个意义上,往往把象素深度说成是图象深度。表示一个象素的位数越多,它能表达的颜色数目就越多,而它的深度就越深。在用二进制数表示彩色图象的象素时,除R、G、B分量用固定位数表示外,往往还增加1位或几位作为属性(Attribute)位。例如,RGB555表示一个象素时,用2个字节共16位表示,其中R、G、B各占5位,剩下一位作为属性位。在这种情况下,象素深度为16位,而图象深度为15位。,2.3.3视觉媒体数字化,真彩色是指在组成一幅彩色图象的每个象素值中,有R、G、B三个基色分量,每个基色分量直接决定显示设备的基色强度,这样产生的彩色称为真彩色。例如用RGB555表示的彩色图象,R、G、B各用5位,用R、G、B分量大小的值直接确定三个基色的强度,这样得到的彩色是真实的原图彩色。伪彩色是指每个象素的颜色不是由每个基色分量的数值直接决定,而是把象素值当作彩色查找表CLUT(colorlook-uptable)的表项入口地址,去查找一个显示图象时使用的R、G、B强度值,用查找出的R、G、B强度值产生的彩色称为伪彩色。直接色是指每个象素值分成R、G、B分量,每个分量作为单独的索引值对它做变换,也就是通过相应的彩色变换表找出基色强度,用变换后得到的R、G、B强度值产生的彩色称为直接色。,2.3.3视觉媒体数字化,图像的采集、存储与输出采集:扫描仪、摄象机等存储:包括说明部分和数据两部分说明部分:图像格式,深度、高度、宽度、调色板、压缩方法。数据部分:描述每一个像素颜色的数据。文件格式:tiff,bmp、dib、tif、JPG输出:显示器、打印机、录像带图像的处理:原始采样图像要经过处理才能使用。图像数据的压缩:在存储和传输前进行,要考虑算法、实时性-硬件完成图像的优化:图像增强、噪声过滤、畸变校正、亮度调整、色度调整等图像的编辑:裁剪、旋转、缩放、综合叠加等图像格式转化:,2.3.3视觉媒体数字化,图形一种抽象化的图像,是对图像依据某个标准进行分析而产生的结果。它不直接描述数据的每一点,而是描述产生这些点的过程及方法。图形以一组指令的形式存在。指令可描述:线、圆、弧、矩形的大小和形状及曲面、光照、材质等。图形的显示过程:解释指令,以显示中的计算时间换存储空间,2.3.3视觉媒体数字化,图形的特性图形是对图像抽像的结果:可由人工(数字化仪)或计算机来做:图像分析:计算机自动将图像转化为图形的过程提取对象:单线条、轮廓、图元,字符、颜色块等成功的例子:OCR、电路图、工程图自然图像的分析与理解工作正在研究中可对图中的各个部分进行控制:对图形可以进行任意的变换:放大、缩小、变形、扭曲、移位叠加等;不破坏图形特性。图形的产生需要计算时间,2.3.3视觉媒体数字化,图元:组成图形的基本单位,是图形中具有一定意义的较为独立的信息单位。如:一条曲线、一个矩形、一个圆、一个填充的封闭区域、一个地图符号或电路符号、一个字符串等。图元在数据结构中将明确指出其类型,处理参数及方法:circle,x,y,r;Rect,x1,y1,x2,y2;Line,x1,y1,x2,y2图元还要包括:线型、颜色、层次等图段:有一定联系的图元组成的集合,以便于编辑或处理图形的输入/输出与存储输入:数字化仪、鼠标,扫描仪输出:绘图机(矢量方式),打印机(点阵方式)、显示器芯片:专用图形处理器件:加快显示计算速度图形的存储格式:DXF,SLDPIF,DRW,DWG,2.3.3视觉媒体数字化,图形与图像的关系:两个不同的概念图形(矢量、图元-指令、抽象),图像(位图、像素、具体)显示过程:图形按图元顺序,图像按安排的象素顺序作变化时:图形不失真,图像有失真图形能以图元为单位单独进行属性修改、编辑图形是图像的抽象图形与图象各有优势、用途不同,2.3.3视觉媒体数字化,图像与视频的数字化,2.3.3视觉媒体数字化,动态图像特点具有时间连续性:适合于表达“过程”,易于交代事件的“始末”,具有更加丰富的信息内容,具有更强、更生动、更自然的表现力。数据量大帧之间有很强的相关性对实时性要求高,必须在规定的时间内完成更换画面的播放过程,要求计算机运算速度、显示速度和数据读取速度要高。,2.3.3视觉媒体数字化,动画(Animation):运动的图画,可分为:造型动画(cast-basedanimation):对每一活动的各对象分别进行设计,赋予每一个对象一些特征(形状、大小、颜色),然后用这些对象组成完整的画面。帧动画(frameanimation):由一幅幅连续的画面组成的图像或图形序列。二维动画:可实时计算三维动画:一般可分为计算与播放两部分。,2.3.3视觉媒体数字化,符号与文字符号媒体:是某种抽象的结果。各种描述量、语言、数据、标识符、数值、字符等都是符号媒体。符号都是某种抽象的结果;量的值用1、2.等数值符号表示,逻辑值的真、假、大于、小于等可以用专门的符号来表示。在符号中结构起到关键的作用:结构可以组成文本,即字符串;也可组成数据组,如数据库中一个元组。我喜欢多媒体计算机,2.3.3视觉媒体数字化,符号媒体特点:符号媒体要知识的辅助才能使用,知识的辅助随着层次的升高而不断增强作用“ICANSPEAKENGLISH”

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论