《IP网络多媒体通信技术及应用》课件第4章_第1页
《IP网络多媒体通信技术及应用》课件第4章_第2页
《IP网络多媒体通信技术及应用》课件第4章_第3页
《IP网络多媒体通信技术及应用》课件第4章_第4页
《IP网络多媒体通信技术及应用》课件第4章_第5页
已阅读5页,还剩287页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第4章多媒体信息处理技术及标准

4.1多媒体信息4.2语音压缩及编码技术4.3视频压缩及编码技术

4.1多媒体信息

4.1.1信息与媒体

1.信息的概念

英文信息(Information)一词的含义是情报、资料、消息、报导、知识等。长期以来人们就把信息看做是消息的同义语,简单地把信息定义为能够带来新内容、新知识的消息。目前关于信息大致的说法有:

(1)信息是用语言、文字、数字、符号、图像、声音、情景、表情、状态等方式传递的内容。

(2)1948年,信息论的奠基人之一香农(Shanon,美国数学家)第一个以信息公式的方式定义“信息是熵的减少”,这里用到的“熵”是不确定性的度量。香农的信息定义实际上是说,信息是“用来消除不确定性的东西”。

(3)控制论的奠基人维纳(Wiener)在1948年指出:“信息就是信息,不是物质,也不是能量”,专门指出了信息是区别于物质与能量的第三类资源。

(4)根据信息与通信的关系,信息可分为技术信息(物质属性的反映,例如事物运动的状态与方式等)、语义信息(人们适应外部世界,并同外部进行内容交换的标记,例如各种知识与技能等)和价值信息(具有价值性、有效性、经济性及其他特性的知识)。

信息的定义很多,但信息关心的是内容。从此观点出发,信息是通过交流得到的关于特定事物的知识。信息的获得是通过人类感知系统的活动来完成的,其中视觉是感知信息(主要对文字、图画和视频图像)的重要途径,视觉所感知到的信息约占人类从外部世界获取信息总量的80%;听觉是感知信息(主要对声音)的次要途径,其所感知到的信息约占人类从外部世界获取信息总量的10%;另外,嗅觉、味觉和触觉所感知到的信息共约占10%。

2.媒体的概念

媒体(Media)是信息表示、传输、存储的形式载体。常见的表示媒体有文字、图画、语言、音乐、动画和视频图像等;传输媒体有电话线、同轴电缆、光纤、电磁波、宇宙射线、空气等;存储媒体有碑石、石窟、纸张、磁带、磁盘、光盘、半导体存储器等。

3.信息与媒体的关系

信息与媒体是内容与形式的关系,二者有着紧密的联系。自然界的声音、图像以及经过人脑加工处理后形成的语言文字等构成了多媒体信息。也就是说,多媒体信息包含了信息和信息的表示形式。而一般意义上的媒体则指信息传输、存储的形式载体。4.1.2文字与数据

文字(Text)是最基本的多媒体信息,也称为字元。文字的有序排列和组合形成字(Word)和数据(Data)。文字用二进制编码表示,不同的二进制编码代表不同的文字。

西文文字采用ASCII码表示。ASCII码是美国信息交换标准代码(AmericanStandardCodeforInformationInterchange)的简称,由美国国会图书馆交换代码(LibraryofCongress,LC)发展而来,其后演变成ISO646国际标准。依ASCII和ISO646的规定,ASCII码包括大小写英文字母、标点符号和阿拉伯数字。ASCII码是信息交换的基础,故称为网络的奠基标准,至今仍被广泛应用。

ASCII码简单,字母、数学符号、控制字符共128个,采用7位二进制编码方式表示。ASCII码的缺点是明显的,它无法满足世界多种民族语言文字的交换要求。

汉字数目较多,常用的汉字就有3000多个,因此汉字编码必须采用多于7位的二进制编码方案。例如二级汉字编码,国家标准GB2312-80规定,采用2×7个二进制位表示一个汉字,共可表示6763个汉字和850个符号。为容纳世界上多种语言的字元和符号,ISO-WG2工作组制定了UCS(ISO/IEC-10646)标准。该标准规定采用16位(双8位)编码,具有65563个编码空间,可以容纳汉字、日文、韩文、希腊文、阿拉伯文、希伯莱文、中欧文字、德语、俄语等。同时为了配合8、16、32和64位运算处理器,该标准规定字元码长度为定长的4个8位元(Octet)。

另一种由美国Xerox、JoeBecker等公司提出的Unicode标准,将字元编码的基本单位由7或8个位元直接扩充为16个位元。这一结构后被ISO-WG2工作组采纳,同时将Unicode标准融入ISO/IEC-10646标准。4.1.3声音与MIDI

音频信息有两类:获取的声音和合成的声音。

1.声音

声音也称声波或音频。声音的属性包括响度、音调和音色。响度指声音的大小,通常用声压级(SPL)或听力级(HL)表示;音调指声音的高低,对应声音的频率;音色指声音的谐波特性。

音频(Audio)是指人耳可闻的声音信息,频率一般在20Hz~20kHz范围内。语音(Voice)是指人们正常讲话时发出的声音,频率范围为100Hz~7kHz。语音可以看做是音频的一段,具有较窄的频率范围。正确理解二者的区别,对于多媒体系统的硬件及软件设计具有重要的意义。对应于不同的系统应用,音频的含义是不一样的。电话系统语音的频率范围为200Hz~3.4kHz,调幅广播的音频频率范围为50Hz~7kHz,调频广播的音频频率范围为20Hz~15kHz,高保真立体调频广播的音频频率范围为20Hz~20kHz。

多媒体音频信号一般指经过采样(Sampling)和量化后的数字化声音。采样有时也称取样。采样的目的是去掉模拟音频信号的时间相关性。常用的采样频率有8kHz(主要用于语音通信系统)、11.025kHz、22.05kHz、44.1kHz(主要用于CD级音质的编码系统)。量化是指把不同的采样值(某一时刻音频信号的幅度)用不同的二进制码表示。二进制码位数越多,分辨率就越高。国际标准的语音编码采用8位(8bit,即256个等级)量化。

音频文件的大小可按下列公式计算:

其中:S表示文件的大小,以字节B(Byte)为单位;T为采样时间,以s为单位;D为采样频率,以kHz为单位;N为声道数目,单声道(Mono)取值为1,立体声(Stereo)取值为2;R为二进制量化等级,通常为8或16bit。对于8kHz采样、8bit量化的电话系统,10s的语音文件大小为80kB;对于44.1kHz采样、8bit量化的立体声系统,10s的音频文件大小为441kB。可见,通过采样直接获取的音频文件需要很大的存储空间。为了对音频文件进行处理,必须解决音频信号的数据压缩问题。

2.常见音频文件格式

1)Wave文件(后缀为.wav)

Wave格式是Microsoft公司开发的一种声音文件格式,它符合RIFF(ResourceInterchangeFileFormat)文件规范,用于保存Windows平台的音频信息资源,被Windows平台及其应用程序所广泛支持。Wave格式支持MSADPCM、CCITTALaw、CCITTμLaw和其它压缩算法,支持多种音频位数、采样频率和声道,是PC机上最为流行的声音文件格式,但其文件尺寸较大,多用于存储简短的声音片断。

2)AIFF文件(后缀为.aif/.aiff)

AIFF是音频交换文件格式(AudioInterchangeFileFormat)的英文缩写,是苹果计算机公司开发的一种声音文件格式,被Macintosh平台及其应用程序所支持。NetscapeNavigator浏览器中的LiveAudio也支持AIFF格式,SGI及其它专业音频软件包也同样支持这种格式。AIFF支持ACE-2、ACE-8、MAC-3和MAC-6压缩,支持16位44.1kHz立体声。

3)Audio文件(后缀为.au)

Audio文件是SunMicrosystems公司推出的一种经过压缩的数字声音格式,是Internet中常用的声音文件格式。NetscapeNavigator浏览器中的LiveAudio也支持Audio格式的声音文件。

4)Sound文件(后缀为.snd)

Sound文件是NeXTComputer公司推出的数字声音文件格式,支持压缩。

5)Voice文件(后缀为.voc)

Voice文件是CreativeLabs开发的声音文件格式,多用于保存CreativeSoundBlaster系列声卡所采集的声音数据,被Windows平台和DOS平台所支持,支持CCITTALaw和CCITTμLaw等压缩算法。

6)MPEG音频文件(后缀为.mp1/.mp2/.mp3)

MPEG是运动图像专家组(MovingPictureExpertsGroup)的英文缩写,代表MPEG运动图像压缩标准。这里的音频文件格式指的是MPEG标准中的音频部分,即MPEG音频层(MPEGAudioLayer)。MPEG音频文件的压缩是一种有损压缩,根据压缩质量和编码复杂程度的不同可分为三层(MPEGAudioLayer1/2/3),分别对应MP1、MP2和MP3这三种声音文件。MPEG音频编码具有很高的压缩率。MP1和MP2的压缩率分别为4∶1和6∶1~8∶1,而MP3的压缩率则高达10∶1~12∶1。也就是说,一分钟CD音质的音乐,未经压缩需要10MB存储空间,而经过MP3压缩编码后只需1MB左右,同时其音质基本保持不失真,因此,MP3文件格式目前使用的最多。

7)RealAudio文件(后缀为.ra/.rm/.ram)

RealAudio文件是RealNetworks公司开发的一种新型流式音频(StreamingAudio)文件格式,它包含在RealNetworks公司所制定的音频、视频压缩规范RealMedia中,主要用于在低速率的广域网上实时传输音频信息。采用这种文件格式,网络连接速率不同,客户端所获得的声音质量也不尽相同:对于14.4kb/s的网络连接,可获得调幅质量的音质;对于28.8kb/s的连接,可以达到广播级的声音质量;如果拥有ISDN或更快的线路连接,则可获得CD音质的声音。

3.合成声音

1)MIDI(乐器数字接口)

合成音乐与MIDI(MusicalInstrumentDigitalInterface)紧密相关,已形成标准;合成语言目前处在研究阶段,还未形成实用化标准。

MIDI是20世纪80年代初提出的数字音乐/电子合成乐器的统一国际标准。它定义了计算机音乐程序、合成器及其它电子设备交换音乐信号的方式,还规定了不同厂家的电子乐器与计算机连接的电缆和硬件及设备间数据传输的协议,可用于为不同乐器创建数字声音,可以模拟大提琴、小提琴、钢琴等常见乐器的声音。

2)MIDI文件(后缀为.mid/.rmi)

MIDI并不是数字化的声音,MIDI信息实际上是一段音乐的数字形式描述。在MIDI文件中,只包含产生某种声音的指令,这些指令包括使用什么MIDI设备的音色、声音的强弱、声音持续的时间等,计算机将这些指令发送给声卡,声卡按照指令将声音合成出来。MIDI声音在重放时可以有不同的效果,这取决于音乐合成器的质量。相对于保存真实采样数据的声音文件,MIDI文件显得更加紧凑,其文件尺寸通常比声音文件小得多。

3)模块文件(后缀为.mod/.s3m/.xm/.mtm/.far/.kar/.it)

模块(Module)格式是一种已经存在了很长时间的声音记录方式,它同时具有MIDI与数字音频的共同特性。模块文件中既包括如何演奏乐器的指令,又保存了数字声音信号的采样数据,因此,其声音回放质量对音频硬件的依赖性较小,也就是说,在不同的机器上可以获得基本相似的声音回放质量。模块文件根据不同的编码方法有MOD、S3M、XM、MTM、FAR、KAR、IT等多种不同格式。

4.获取声音与MIDI的比较

获取声音是声音的实际表示,包含了声音的瞬时特性,与设备无关,每次播放时具有较好的一致性;其缺点是文件数据量大,需要较大的存储空间。

MIDI文件与设备有关,与获取声音相比,其优点为:

(1)文件紧凑,所占空间小,其文件大小与回放质量完全无关。通常情况下,MIDI文件比CD质量级的获取声音文件小200到1000倍。

(2)在某些情况下,如果所用的MIDI声源较好,MIDI有可能发出比获取声音更好的质量。

(3)在不需要改变音调或降低音质的情况下,可以改变MIDI文件的长度(通过改变其速度)。

(4)MIDI数据是完全可编辑的,我们可以用多种方法来处理它的每一个细节。

MIDI文件的缺点是:

(1)因MIDI文件并不是声音,故仅当MIDI回放设备与产生时所指定的设备相同时,回放的结果才是精确的。

(2)MIDI目前还不能很容易地用来回放语音对话。在视频会议系统中,音频一般为获取的声音,且以语音对话为主,较少使用MIDI。4.1.4图像与图形

图像(Image)是可视的多媒体信息。在使用图像这一概念时,一般指静态图像(StillImage)。根据图像产生和表示的方式不同,图像可分为位图(Bitmap)和矢量画(Vector-drawn)。位图和矢量画是计算机图像显示的主要方式。单独使用图像这一概念时,我们更多侧重于计算机图像的含义。另一个容易混淆的概念是图形(Graphics)。图形是指用计算机绘图工具绘制的图画(Picture)。构成图形的要素包括刻画形状的点、线、面、体等几何要素以及反映物体表面属性或材质的灰度颜色等非几何要素。图形一般按各个成分的参数形式存储,可以对各个成分进行移动、缩放、旋转和扭曲等变换,可以在绘图仪上将各个成分输出。对人眼而言,图形和图像没有区别。图形方式是计算机显示的另一种主要方式,在制作Web页面时使用较多。典型的图形标准有:

CGM——计算机图形元语言;

STEP——工程图纸在计算机中的描述;

SPDL——标准页面描述语言标准。

1.位图

位图用于表示逼真照片或要求精细的图像。位图由点(Dot)组成,点是位图图像的最小元素,通常也称为像素(Pixel)。每个像素可以具有不同的颜色和亮度。

一幅图像由若干个像素组成,其位图文件存放着与该幅图像每一个像素相对应的数字矩阵。矩阵中的每一个元素就是像素值,它反映所对应的像素的某些特征(颜色编码或灰度级),该矩阵就称为该幅图像的“位图”。简单理解位图即像素信息矩阵。单色位图用一维矩阵表示,只有两种颜色(黑和白),更多的颜色则要用较大的“深度”(彩色),即多位编码表示,称之为颜色深度,常用的有4位、8位、16位、24位颜色。以24位位图为例,每个像素可以有1600多万种颜色。

位图产生的方法有:

(1)用画图程序获取。

(2)用屏幕抓图程序获取。

(3)用扫描仪、数码相机或通过数字化视频处理设备获取。

2.位图处理和位图文件的格式

如上所述,位图适合于表现含有大量细节(如明暗变化、复杂场景和多种颜色等)的画面,并可直接、快速地在屏幕上显示出来。位图占用的存储空间较大,一般需要进行数据压缩。位图图形的一个不利条件是它们在缩放时清晰度降低并且出现锯齿,如图4-1所示;而矢量图在缩放时清晰度不降低,如图4-2所示。图4-1位图放大时会导致锯齿图4-2矢量图放大时没有锯齿处理位图时,输出图像的质量决定于处理过程开始时设置的分辨率的高低。分辨率是一个笼统的术语,它指一个图像文件中包含的细节和信息的大小,以及输入、输出或显示设备能够产生的细节程度。操作位图时,分辨率既会影响最后输出的质量,也会影响文件的大小。处理位图需要三思而后行,因为给图像选择的分辨率通常在整个过程中都伴随着文件。无论是在一个300dpi的打印机上还是在一个2570dpi的照排设备上印刷位图文件,文件总是以创建图像时所设的分辨率大小印刷的,除非打印机的分辨率低于图像的分辨率。如果希望最终输出看起来和屏幕上显示的一样,那么在开始工作前,就需要了解图像的分辨率和不同设备分辨率之间的关系。为了便于位图的存储和交流,产生了种类繁多的文件格式,常见的有BMP(后缀为.bmp/.rle)、GIF(后缀为.gif)、PCX(后缀为.pcx)和TIFF(后缀为.tif)等。

(1)BMP是由微软及IBM公司联合开发Windows平台上最常用的图像文件格式,RLE格式文件可以压缩的形式存盘。

(2)GIF格式主要用于在不同平台上进行图像交换,文件最大为64MB,颜色数最多256色,压缩率为2∶1,多用于网页显示及制作。

(3)PCX将以压缩编码的形式存储图像文件。

(4)TIFF文件格式广泛用于高质量的图像文件处理中。TIFF格式文件有压缩和非压缩两大类,这种格式文件是许多图像应用软件所支持的主要文件格式之一。

(5)JPEG是由JointPohotgraphicExpertsGroup(联合图像专家组)提出的一个标准,主要用于静止图像的压缩,其最大优点是以极小的失真进行高压缩比压缩,失真度一般都低于10%,但不能进行较大的放大操作。

(6)TGA格式大量用于电视广播。

(7)PCD是由柯达相片公司开发的光盘相片格式,文件较大,保存图像较为逼真。

(8)PSD为AdobePhotoshop图像格式,这种格式仅在Photoshop中出现,为Photoshop所特有,能存储所有Photoshop文件信息(如通道、图层、路径等)和各种色彩模式。它以压缩文件形式存储,以节约磁盘空间,是一种不失真压缩。在Photoshop处理图像时可尽量采用这种存盘格式。

(9)PCT/PCI格式,此格式大量用于苹果系统的图像应用中,对于有大量相同色彩的文件能进行有效的压缩。

(10)PXR格式主要用于3D动画,只支持灰度图像及RGB模式。

(11)EPS格式常用于绘图和排版软件中。

(12)RAW格式比较原始,它将所有像素以依次记录的方式存盘,不对图像压缩,占用较大的磁盘空间。

(13)SCT格式可以记录图像间的连续层次,主要用于印刷系统。处理位图的软件非常多,主要的软件工具有:

(1)Adobe公司的Photoshop,它是专门的位图和矢量图处理工具,历史悠久,技术成熟,功能强大,是制作专业图片的较好选择。

(2)Ulead公司的photoImpact。

(3)Macromedia公司的Fireworks,主要用于网页制作。

(4)Painshop。

(5)ACDSee。

3.矢量图

矢量图像,也称为面向对象的图像或绘图图像,在数学上定义为一系列由线连接的点。矢量文件中的图形元素称为对象。每个对象都是一个自成一体的实体,它具有颜色、形状、轮廓、大小和屏幕位置等属性。既然每个对象都是一个自成一体的实体,就可以在维持它原有清晰度和弯曲度的同时,多次移动和改变它的属性,而不会影响图例中的其它对象。这些特征使基于矢量的程序特别适用于图例和三维建模,因为它们通常要求能创建和操作单个对象。基于矢量的绘图同分辨率无关。这意味着矢量图可以按最高分辨率显示到输出设备上。矢量图用一组指令或参数来描述其中的各个成分,易于对各个成分进行移动、缩放、旋转和扭曲等变换。矢量图适合于描述由多种比较规则的图形元素构成的图形,但输出图像画面时将转换成位图形式。

矢量图形文件格式有IGS、DXF、WMF等。

(1)DXF是由AutoDesk公司开发的,作为AutoCAD中的ASCII绘图交换文件,现为许多计算机辅助设计软件应用。

(2)IGS/IGES/作为CAD图形的一个广泛标准,也多用于三维及二维动画设计软件中。

4.位图与矢量图的转换

就简单几何图形而言,采用矢量图方式具有较小的数据量;对于复杂的图像,用位图方式可以比用矢量图对象作图得到更快的屏幕刷新速度。

大多数绘图程序都提供几种文件格式来保存图像。矢量图构成的画图可以保存为位图格式文件。位图变换成矢量图对象则相对困难一些,然而也有许多程序可以计算位图图像的边界或彩色块的形状,然后得出用来描述该图像的多边形对象,这种处理过程叫做“自动跟踪”。在一些位图和矢量图的创作系统中就集成了这种功能。

5.计算机监视器

监视器是图像的输出显示设备,了解监视器的工作原理和主要特点有助于加深对图像属性的理解。这里只作简单的叙述。

依据色度学原理和彩色电视原理,我们可知自然界的彩色大部分是复合色,其所包含的颜色的种类很多。人眼对彩色的分辨能力是有限的。监视器采用有限的三种基色(红、绿、蓝)光来重现自然界的彩色,这种重现是有限的,但同时也基本满足人的要求,我们称之为RGB彩色模型。对于图像处理软件,为了适应显示、印刷、打印等不同输出的需要,一般有多种色彩模式。例如,Photoshop图像处理软件中就有位图、灰度、双色调、索引、RGB、Lab、CMYK、多通道等8种色彩模式,它们之间具有某些特定的联系,当输出一个印刷文件或需要对一个图像进行特殊处理时,还需要从一个模式转换到另一个模式。计算机监示器总是使用RGB模型显示颜色,这意味着在非RGB颜色模式(如CMYK)下工作时,Photoshop会临时将数据转换成RGB数据再在屏幕上显示。监示器最主要的属性有颜色、分辨率和刷新频率,通过调整显示适配器设置可以对这些属性进行调整。

颜色代表监示器像素点红色、绿色、蓝色的总量,一般用二进制位数表示,如8位、16位、24位。8位可以表示256种颜色(红、绿、蓝分别用3位、2位、3位表示),这对表示彩色图像来说一般足够了;16位可以表示32768种颜色(红、绿、蓝分别用5位表示),具有较好的彩色质量;24位可以表示16777216种颜色,一般称为真彩色。颜色设置要等于或大于欲显示的图像颜色种类。监示器的分辨率包括屏幕分辨率和像素分辨率。屏幕分辨率指屏幕水平方向可显示的点数和垂直方向的扫描线数。我们所说的VGA、SVGA、XGA、SXGA显示标准所对应的分辨率即指屏幕分辨率。像素分辨率指屏幕上红、绿、蓝三色荧光粉的点数,所以也称为物理分辨率。欲显示的图像分辨率小于或等于屏幕分辨率时,才可能完整地显示。

监示器刷新频率指每秒钟显示图像的幅数。刷新频率越高,屏幕上显示的图像越稳定,但同时会占用更多的显存空间。4.1.5动画

动画(Animation)是一系列内容相似但又有区别的图像,按照一定的速度播放,依靠人的“视觉暂留”现象,使人产生一种物体在连续运动的感觉的技术。

动画由关键帧(Keyframe)和插入帧(Tweening)构成。关键帧一般由动画设计师设计,要能体现动作过程的主要特点;插入帧一般由计算机根据一定的算法自动产生。

动画播放速度与图像帧的数量有关。图像帧数较少时,播放速度可以快一些;图像帧数较多时,播放速度相应要慢一些。合适的播放速度才能体现出较好的动画效果。幻灯片可以认为是效果很差的动画,而电影则是最好的动画。4.1.6视频

1.视频图像及产生

视频图像是自然界景物通过人类的视觉在人脑中形成的主观映像,人眼所感觉的图像是时间和空间的函数。人的大脑具有对历史图像回放的特性,这种特性建立在对现实世界的感知和存储记忆的基础之上。然而,人的记忆是有限的,不可能记得很多,也不可能记得太久。从空间上讲,人不可能看到离自身很远的宏观世界,也不可能看到极其微小的微观世界。摄取客观世界的图像,并通过一定的存储、记录和传输,再由一定的显示设备重现所记录的光像,这种技术我们称之为电视。它包括图像的摄取(光电转换)、传输(记录发送)和显示(电光转换)这三个过程。

2.光的基本特性与人的视觉特性

视频图像是可见的光像,所以研究视频图像时必须了解一下光的特性。

光是一种电磁波,有红外光、可见光、紫外线等,如图4-3所示。可见光为电磁波中很窄的一部分,波长从780~380nm依次为红、橙、黄、绿、青、蓝、紫。具有单一波长的光称为单色光。复合光包含多种波长的单色光成分,给人以复合色的感觉。太阳光便是一种给人以白色感觉的复合光。光源包括自然光源(日光、月光和星光等)和人工光源(各种照明灯及发光器件)。色源包括反射光引起的色源(不发光体的彩色)和发光体本身的色源。色彩与照明密切相关。白光是视频技术中使用的主要光源,为了对具有不同光谱特性的白光进行比较和色度计算,经常使用色温这个概念。当绝对黑体在某一特定温度下,其辐射光谱与某一光源的光谱具有相同的特性时,则绝对黑体的这一温度就定义为该光源的色温;具有近似特性时,则称为相关色温。绝对黑体(也称全辐射体)是指既不反射也不透射而完全吸收入射辐射的物体。色温的单位是开氏度(K)。色温不等于发光体的温度。例如,钨丝灯在2800K时发出的光,色温为2854K。图4-3电磁波谱图

视频技术中常用的标准白光光源有A光源(相关色温为2854K)、B光源(相关色温为4800K)、C光源(相关色温为6770K)、D65光源(相关色温为6500K)和E光源(相关色温为5500K)。NTSC制式采用C光源,我国PAL制式采用D65光源,E光源为假想等量白光。目前电视演播室和视频会议室多采用新式卤素钨灯,色温为3200K,而显像管的色温多为9300K。色温高的白光给人以偏蓝的感觉,色温低的白光给人以偏红的感觉。视频图像是人的主观感觉,视频系统应当精确地模拟人的视觉特性。人眼对不同波长光的敏感程度不同,对波长为555nm(黄绿光)最为敏感,其视敏度定义为Km=K(555)。其它任意光的视敏度与它的比值称为相对视敏函数V(λ)。

人眼视网膜上具有杆状和锥状两种光敏细胞。明视觉过程主要由锥状细胞完成,它既产生明暗感觉,又产生彩色感觉。在光线很暗时,只有杆状细胞起作用,不能分辨颜色。为明确表示某一彩色光,必须采用三个基本参量:亮度(也称明度)、色调和饱和度。这三个量在视觉中组成一个统一的总效果,并严格描述了彩色光。亮度是光作用于人眼时所引起的明亮程度的感觉,色调反映了颜色的类别,饱和度指彩色光所呈现彩色的深浅程度。色调和饱和度合称色度。人的视觉范围(人眼所能感觉到的亮度范围)是有限的,并与平均照度有关,人眼的对比度一般为1000∶1。人的亮度感觉与景物的亮度的对数呈线性关系(韦勃-费赫涅尔定律),同时还与周围环境的亮度有关,即与景物的对比度有关。人眼的分辨力是有限的,并且和照明强度及景物的相对对比度有关。人眼对彩色细节的分辨力很差,对色调的分辨力也很差。当饱和度减少时,色调分辨力将下降;当亮度太大或太小时,色调分辨力也会下降。人眼对不同颜色的饱和度分辨力不完全一样,在黄色区,只能分辨出4级饱和度;而在红色和蓝色区,可以分辨25个等级的饱和度。

3.三基色原理

根据人眼彩色视觉的特性,彩色重现过程并不需要恢复原景物辐射光的光谱成分,更重要的是应获得与原景物相同的彩色感觉。不同波长的单色光会引起不同的彩色感觉,但相同的彩色感觉却可以来源于不同的光谱成分的组合,比例决定色度感觉,亮度之和决定亮度感觉,这便是三基色原理的基础。所谓基色,就是相互独立的颜色,也就是说,其中任一基色都不能由其它两色混合产生,这样就能配出较多的彩色,这就是三基色原理的主要内容。彩色电视采用相加混色法。将三种基色光按一定顺序轮流投射到同一表面上,轮换速度足够快,利用人的视觉惰性产生混色的方法称为时间混色法,它是顺序制彩色电视的基础,例如DLP投影显示器即采用这种混色方法。将三种基色光分别投射到同一表面上临近的三个点上,只要这些点相距足够近,利用人眼分辨率有限的特点,就能产生三种基色相混合的彩色感觉,这称为空间混色法,它是同时制彩色电视的基础。利用两只眼睛同时观看两种不同颜色的同一景像,也可以获得混色效果,这称为生理混色法。常用的三基色计色方法有RGB制、XYZ制(CIE制)、UCS制和ULCS制。XYZ计色制应用最广,XYZ制色域图比RGB制色域图更容易理解。CIE是国际照明委员会的简称。

彩色CRT显像是利用空间混色法来重现彩色的。它以红、绿、蓝三种荧光粉作为显像三基色,而不能直接采用CIE规定的标准光谱三基色[R]、[G]、[B]。显像基色选用要在重现色域和重现彩色亮度之间折中考虑。不同制式的彩色电视所选取的显像三基色并不相同,所用标准白光和色度坐标也不相同。PAL制显像三基色构成的重现色域与NTSC制的重现色域大面积重合,PAL制的重现色域略小一些,但PAL制所选三基色荧光粉效率高,所配出的彩色比较鲜艳。需要注意的是,电视系统中定义的饱和度和色度学中的饱和度不同。色度学中定义自然界中100%饱和度的色光为单波长光,它位于CIE色度图的谱色轨迹上。但在电视系统中,在重现三基色所组成的三角形的三边上,各点所代表的彩色被称为100%饱和度的彩色,白光坐标点所代表的饱和度为零,三角形内其它各点彩色的饱和度都是相对于三边上的饱和度而言的。在电视及视频会议系统中,彩色饱和度均指后者。NTSC制的亮度方程(由显像三基色配出的任意彩色光的光通量)为

Y=0.299Re+0.587Ge+0.114Be

对于PAL制,理论亮度方程为

Y=0.222Re+0.707Ge+0.071Be

但是,由于NTSC制彩色电视系统的采用比PAL制早十几年,所以PAL制并未采用上述理论亮度方程,而沿用了NTSC制的亮度方程。其结果是,NTSC制的亮度虽然存在误差,但在主要特性上仍能满足视觉对亮度的要求。视频图像的最终显示是由RGB三基色信号完成的,而在传输和处理过程中多采用色差和亮度信号。三基色信号既含有亮度信号又含有色度信号,其幅度决定了亮度(亮度方程),相对比例决定了色度(彩色变换系数)。因此,亮度信号和色差信号均可由三基色信号导出:

Y=0.299R+0.587G+0.114B

R-Y=0.701R-0.587G-0.114B

B-Y=-0.299R-0.587G+0.886B

G-Y=-0.299R+0.413G-0.114B

当彩色摄像机的光谱响应曲线(分色曲线)与显像三基色分布色系数曲线(混色曲线)相匹配时,就可实现彩色图像的正确重现。当摄像和显像制式不同时,应采用校色矩阵电路进行处理。摄像机光电转换特性的非线性会引起图像的灰度畸变(γ畸变),为消除这种畸变,在传输通道中必须设置γ校正电路。理论上,系统总的传输特性经校正后应为一直线,但实验证明,当系统总的γs=1.28时效果最好。因此,在近代彩色显像管的γ约为2.8,摄像管的γ约为1的情况下,通道的γ应等于0.45。在图像处理时,应根据不同的输出设备,选择不同的γ校正系数。模拟γ校正电路通常由具有非线性特性的二极管构成。4.图像的基本特征参数表4-1视频图像的基本参数表中所列的参数大多数意义明确,比较好理解,在此只介绍容易产生歧义的几个参数。

1)清晰度

(1)系统清晰度。清晰度是主观感觉到的图像细节呈现的清晰程度,与系统传送图像细节的能力有关,通常称为系统的分解力。

垂直分解力(M)指沿垂直方向区分黑白相间条纹的数目。其表达式为

M=K1(1-β)Z

其中:K1<1;β为逆程宽度;Z为扫描行数;(1-β)Z为有效行数。水平分解力(N)指沿水平方向区分黑白相间条纹的数目,其表达式为

N=KK1(1-β)Z

其中:K为幅型比。

水平分解力大于垂直分解力。视频传输通道的通频带应适应这一水平分解力的要求。水平分解力与垂直分解力二者相当时图像质量最佳。通常我们所说的电视清晰度都是指垂直清晰度。

(2)显示器分辨率。显示器分辨率通常用荧光粉的点距(DotPitch)或节距表示。点距是显示器上两个相邻发光点中心到中心之间的水平距离。点距越小,代表屏幕上可以容纳更多构成影像的点,也代表着清晰度越高。显示器分辨率是图像显示系统清晰度的物理上限,故又称物理清晰度或基本分辨率(也叫固有分辨率)。

(3)图像信号清晰度。对于模拟视频图像信号,采用电视线的概念来描述其清晰度。对于数字视频图像信号,图像信号清晰度采用与计算机监视器中相同的描述方法(像素)来表示。图像信号清晰度又称原始分辨率。常用的数字视频图像的基本参量见表4-2。

(4)视频带宽与图像信号清晰度的关系。图像信号清晰度与视频信号带宽有关。视频带宽越高,代表画面的品质越好,也代表解像度越高。在PAL或NTSC制式状态下,通常1MHz视频频宽可以换算为大约80线水平解像度。彩色电视测试图卡包含5组清晰度测试用黑白条纹信号,如表4-3所示。表4-3清晰度测试用黑白条纹

(5)支持显示分辨率。支持显示分辨率指通过视频处理电路采取重新计算或抽行方式,将高于基本分辨率格式的图像降频显示到屏幕上。如屏幕基本分辨率为1024×768,通过图形处理电路,可支持分辨率为1600×1200的图像显示。但是,实际清晰度只有1024×768,和真正的1600×1200基本分辨率显示屏画质是有差距的。

2)对比度

对比度反映图像的亮度层次。亮度层次也称黑白层次、图像亮度梯度级数或灰度等级。图像一般由许多亮度不同的像素组成,如果从图像中最亮部分到最暗部分之间能分辨的亮度层次越多,则图像越清晰和逼真。

图像对比度定义为最大亮度与最小亮度的比值,即实际上在提出图像对比度要求时,应考虑到人眼黑白分辨率有限的特点,过高的对比度要求有时并不能产生希望的效果。人眼所能分辨的亮度层次与图像对比度的对数成正比,并受图像最大对比度的限制,也受观看环境亮度的影响。当系统非线性系数大于1时,图像对比度随亮度的增加而增大;当系统非线性系数小于1时,图像对比度随亮度的增加反而减小。人眼可分辨的亮度层次级数表达式为:

其中:ξ为费赫涅尔系数,又称人眼的对比度灵敏度阈值(最小可区分亮度梯度与平均亮度的比值),一般取值为0.005~0.02。

3)几个常用的光学量

有几个光学量,它们与图像亮度密切相关,故在此略作叙述。

(1)光通量(Φ)。

定义:光通量是光源在单位时间内发出的经过人眼视觉加权后的光能量。

单位:流明(lm),光瓦(W),1光瓦=680流明。

表达式:

(2)发光强度(L)。

定义:点光源在单位立体角内辐射的光通量。

单位:坎德拉(cd)。

表达式:

(3)亮度(B)。

定义:发光面在某一给定方向上的发光强度与该发光面的面积在此方向上的投影之比。

单位:尼特(nt),英尺朗伯(ft.lm),英尺烛光(ft.cd),熙提(stilb),亚熙提。

(4)照度(I)。定义:单位面积上接受的光通量。单位:勒克司(lux)。表达式:

5.标准彩条信号

标准彩条信号是一种测试信号,在会议电视系统中可用来对视频编解码器、传输系统和显示输出设备特性进行测试和调整。标准彩条信号可由彩条信号发生器产生,也可由嵌入式CPU运行相应的应用程序产生。

标准彩条信号为8条等宽的竖条,颜色自左至右依次为白、黄、青、绿、品、红、蓝、黑。白条对应的电平定为1.0,黑条对应的电平定为0,构成彩条的三基色信号电平非1即0,此时称为100%饱和度、100%幅度彩条信号。常用的标准彩条信号有100-0-100-0彩条、100-0-75-0彩条、100-0-100-25彩条。我国采用100-0-75-0彩条,也称EBU(欧洲广播联盟)彩条。第一位和第二位数字表示组成无色条所对应的R、G、B的最大值和最小值;第三位和第四位数字表示组成有色条所对应的R、G、B的最大值和最小值。4数码命名的彩条中,各信号均指经γ校正后的信号。

标准彩条信号数据和信号波形可参见相应的标准。

6.模拟广播电视视频三大标准

现有的彩色电视标准称为兼容制标准,即兼容黑白制电视标准。根据对彩色信号处理方式的不同,模拟广播电视主要有NTSC、PAL和SECAM三大标准。不同标准制式的模拟广播电视信号之间的模拟转换几乎是不可能的。

彩色电视信号为了能与黑白电视兼容,总是把R、G、B三基色信号组合为亮度信号Y和两个色差信号C1和C2。色差是指基色信号中的R、G、B三个分量信号与亮度信号Y之差,色差C1和C2的含义与具体的应用有关。兼容制的特点是亮度信号和色差信号同频带传输,同时色度信号的带宽相对较窄。为了减少亮色信号间的干扰,色度信号一般采用平衡调幅,并精确选择彩色副载波频率,实现亮度信号和色度信号的频谱交错。在PAL彩色电视制式中,C1、C2分别表示U、V两个色差信号,故PAL制又称YUV系统。U、V分别表示经过幅度压缩的蓝色差(B-Y)和红色差(R-Y)信号(压缩的目的是将亮色复合信号电平的最大摆动范围限制在-0.33和+1.33之间,从而避免视频信号对图像载波调幅时引起严重的过调制):

U=0.493(B-Y)

V=0.877(R-Y)

YUV与RGB彩色空间的变换关系为

在NTSC彩色电视制式中,C1、C2分别表示Q、I(压缩色差)两个色差信号,故NTSC制又称YQI系统。Q、I分别表示经过频域带宽压缩的U、V信号。压缩的目的是为了适应NTSC制4.2MHz视频带宽的要求,减少串色。人眼不敏感的Q信号带宽为0.5MHz,人眼敏感的I信号带宽为1.5MHz。

Q、I正交轴与U、V正交轴有33°的夹角,两坐标系间存在下式关系:或

YQI与RGB彩色空间的变换关系为

1)NTSC制

NTSC制是由美国国家电视系统委员会(NationalTelevisionSystemsCommittee)在1953年制定的一种兼容制彩色电视标准,是最早采用的彩色电视制式,应用的国家有美国、日本及英联邦国家。为了减少色度副载波对黑白图像的干扰,NTSC制采用了平衡调幅和频谱交错原理,故又称为正交平衡调幅制。

NTSC制采用隔行扫描方式,即一帧视频图像由奇、偶两场构成,可以有效克服屏幕闪烁。一帧视频由525行水平扫描线构成,以每秒30帧的速率传送,采用YIQ彩色空间。在三种兼容制彩色电视标准中,NTSC制的接收和处理最简单,色度信号每行以同一方式传送,因而不存在对图像质量有损害的行顺序效应(PAL、SECAM制都有行顺序效应);亮度信号与色度信号以最大间距错开,兼容性好,亮色串扰较小。其缺点是色度信号的幅度失真会影响重现彩色的饱和度,特别是当整个传输系统中存在非线性特性时,系统对色度副载波的增益将与所叠加的亮度信号的电平有关(称为微分增益DG);色度信号的相位失真对重现彩色的色调有明显的影响,即存在相位敏感性,特别是当整个传输系统中存在非线性特性时,色度信号产生的相移与所叠加的亮度信号的电平有关(称为微分相位DP)。

NTSC制视频的主要技术参数:

扫描方式:525行/帧(262.5行/场,奇、偶两场);

消隐行数:40行/帧(20行/场,奇、偶两场);

有效行数:485行/帧;

帧速率:30帧/秒(或29.97帧/秒);

彩色副载波频率:3.579545MHz;

视频带宽:4.2MHz;

行频:15734Hz;

行周期:63.5μs;行消隐期:(10.9±0.2)μs;

行同步脉冲宽度:4.7μs;

场频:60Hz;

场周期:16.67ms;

场消隐期:20H+10.9μs(H为1个行周期时间);

场同步脉冲宽度:2.5H;

同步信号极性:负极性。

2)PAL制

PAL制是德国1962年制定的一种兼容制彩色电视制式。中国和大部分西欧国家使用这种制式。

PAL(PhaseAlternateLine)是“相位逐行交换”的意思,故PAL制又称逐行倒相正交平衡调制。彩色信号在发送端逐行改变相序(一行为NTSC行,下一行则为PAL行或倒相行),在接收端采用副载波延迟线或其它平均法,同时利用人的视觉惰性的辅助平均作用补偿小幅度串色所引起的彩色偏差,这样就可以减少传输误差带来的影响。为了减少亮色串扰,PAL制副载波采用1/4行频偏置,同时附加25Hz半场频偏置。根据接收时解调方式的不同,PAL制又细分为PALD、PALA、PALN、PALS等。

PAL制的特点是:对相位误差不敏感,重现彩色受传输误差影响小;对传输通道频率特性缺陷具有抗御能力;微分相位影响较小;多径接收的影响小;亮色信号频谱交错,相互干扰小,可以采用延时线或数字梳状滤波器分离;微分增益与NTSC制相当;易出现行顺序效应(行蠕动、爬行或百叶窗效应);处理技术和设备复杂。

PAL制视频的主要技术参数:

扫描方式:625行/帧(312.5行/场,奇、偶两场);

消隐行数:50行/帧(25行/场,奇、偶两场);

有效行数:575行/帧;

帧速率:25帧/秒;

彩色副载波频率:4.433618MHz;

视频带宽:6MHz;

行频:15625Hz;

行周期:64μs;行消隐期:(12.0±0.3)μs;

行同步脉冲宽度:(4.7±0.2)μs;

场频:50Hz;

场周期:20ms;

场消隐期:25H±12μs;

场同步脉冲宽度:2.5H;

同步信号极性:负极性。

3)SECAM制式

SECAM(SéquentialCouleuràMèmoire)是法国1966制定的兼容制彩色电视制式,为法国、俄罗斯、蒙古等少数国家所使用。SECAM与PAL制同属于525行/50场的系统。

与PAL制采用频分方式处理色度信号的两个分量方式不同,SECAM制采用时分原则来避免串色及由其造成的彩色失真,两个色差信号在传送行使用一次,在未被传送行,将存储在延时线中的信号再利用一次,亮度信号仍每行传送,从而重现R、G、B三色信号,因此SECAM制是一种顺序-同时制。

SECAM制的特点是:受传输失真的影响小,大面积彩色部分几乎不受DP、DG影响;接收机可以不设色调与饱和度调整旋钮;存在行顺序效应;复杂性居于NTSC与PAL之间。

兼容制彩色电视三大制式的选用,一定程度上受到二战后冷战思维的影响,其应用国家或地区的广泛程度并不能完全反映其技术的优缺点。三大制式的存在显然不利于人类的信息交流,好在目前大规模集成电路得到应用,全制式彩色解调技术已在接收机上普遍采用,同时数字视频处理技术的应用也为视频信息的交流建立了一个统一的平台。

7.数字电视及标准

数字电视(DigitalTelevision)有时也称为数码电视。狭义的数字电视泛指把模拟电视信号转换成数字信号,或采用数字摄像机直接获得数字视频信号,并以数字形式进行处理、传输、存储或显示。广义的数字电视泛指同电视广播有关的全部数字技术,除了狭义的内容外,还包括各种数字控制、监测及附加信息的数字形式传输。

数字电视具有数字信号系统的特点,如信噪比高、受传输系统影响小、信道适应性好、便于多工传输、便于存储、设备可靠、维护简单等特点。数字电视系统由编码器、传输信道和解码器组成,对应于我们常说的摄、录、编、播系统。针对编解码形式不同,形成了许多数字电视制式。

高清晰度电视(HighDefinitionTelevision,HDTV)是数字电视的一种主要形式,目的是采用数字技术,以解决画面清晰度、色彩还原度、声音保真度为主要目标。HDTV的低端标准一般兼容现有的模拟电视制式,属于过渡性标准,主要有IDTV(ImprovedDefinitionTV)和EDTV(ExtendedDefinitionTV)。HDTV的高端标准基本上不再考虑与现有模拟电视制式的兼容问题。目前世界上主要有三种HDTV系统。一是日本在1984年提出的MUSE制HDTV系统,该系统属数字模拟混合制,采用MPEG-2数字压缩技术和模拟传送方式;二是欧洲电信协会公布的DVB-S/C/T标准,主要有北欧的HD-DIVINE系统和德国的HDTV-T系统;三是美国联邦通信委员会(FCC)于1996年12月公布的DTV标准,这是世界上第一个全数字HDTV标准。另一种新型的多媒体广播业务ISDB(综合业务数字广播)技术,系统地综合了各项数字内容,每一项内容可以包括从LDTV到HDTV的多节目视频、多节目音频、图形、文本等。ISDB几乎包揽了目前世界上的电视、电信等不同业务,其传输系统涵盖各种业务不同的需求,比目前的DVB、HDTV和其它通信服务技术用途更广泛。另一种新型的多媒体广播业务ISDB(综合业务数字广播)技术,系统地综合了各项数字内容,每一项内容可以包括从LDTV到HDTV的多节目视频、多节目音频、图形、文本等。ISDB几乎包揽了目前世界上的电视、电信等不同业务,其传输系统涵盖各种业务不同的需求,比目前的DVB、HDTV和其它通信服务技术用途更广泛。

1995年,由原广电部、电子部等部委负责成立了我国第一个HDTV协调小组。1998年HDTV实验试播成功,并且中央电视台于1999年10月1日采用数字电视地面广播方式,对国庆节阅兵式进行了试播,并计划于2005年开始数字电视地面广播。我国目前对于HDTV标准的研究主要集中在HDTV地面广播标准上,参与研究的高校主要有清华大学与上海交通大学。

我国目前关于HDTV的规范主要有:高端彩电(EDTV)基本规范,见表4-4;中国高端(HD兼容显示)数字彩电(HDTV-READY或称HDTV显示器)标准,见表4-5;中国高清晰度数字彩电(IntegratedHDTV)标准,见表4-6。

表4-4高端彩电(EDTV)基本规范表4-5中国高端数字彩电(HDTV-READY)标准

表4-6中国高清晰度数字彩电

8.计算机数字视频和视频卡

计算机数字视频就是在计算机平台上对视频进行数字处理。为了在计算机屏幕上显示模拟视频,必须先把模拟视频变为数字信号,这一工作一般由插在计算机上的视频数字化覆盖卡(也称视频捕捉卡、视频采样卡或视频卡)来接收模拟视频信号,并进行采样和量化,然后可以和图像、图形、动画及文字等多媒体信息一起显示。视频卡选用时应考虑的问题:

(1)视频采样分辨率的大小。

(2)视频采样速率及实时性要求。

(3)特殊的处理功能,如冻结、淡入淡出、旋转、镜像、透明、缩放等。

(4)音频输入的处理功能及质量。

(5)显存的大小与存储帧的数量。

(6)音视频输出功能。

(7)CATV接收功能。

(8)数字视频接口等。

9.计算机视频和电视视频的区别

(1)扫描方式与扫描线数不同。电视视频采用隔行扫描方式,对于每一种电视制式,其扫描线数都是固定的525行或625行,场频与行频也是固定的。计算机视频采用逐行扫描方式,扫描线数、行频与帧频根据显示适配器的设置而变化。例如在SVGA方式下几乎全屏的图像,在XGA方式显示为一个小的窗口,而在VGA方式下只能部分显示。

(2)过扫描问题。在电视广播中,电视台播送的画面总是比标准电视屏面所能容纳的画面略大,因此电视观众看到的图像“边界”总是受到电视的物理帧大小的限制。这种现象一般称为“过扫描”(Overscan)。相比之下,计算机监视器上显示的图像较屏幕稍小,这样当数字化的视频图像显示在计算机监视器上时,在图像周围就会有一个边框。而当计算机监视器屏幕上的图像变换成电视视频时,该图像的外边界就会超出电视屏幕。

(3)视频的颜色。在电视和计算机之间,颜色的再现和显示是不同的。计算机监视器使用的是RGB组合视频,其颜色比电视屏幕上所能看到的那些颜色更精确。当一个计算机的屏幕图像变换成视频时,显示出来的颜色就有差异。在电视中,使用有限颜色的调色板以及有限制的亮度电平和黑色电平。在计算机上产生的某些颜色,在RGB监视器上显示得很好,但在电视上就可能是不正确的。

(4)隔行扫描的影响。在RGB监视器中,扫描线为一个像素厚度的逐行扫描线,这在监视器上看起来没有问题,但在电视上就会出现闪烁。为了避免闪烁,应确保扫描线的宽度大于两个像素的厚度,这也可通过图像编辑器中的去闪烁滤波器来解决。

10.视频测量及视频图像质量评价

视频信号是一种电信号,具有客观性;视频图像是人的主观感觉,具有主观性。对视频的评价可从电信号测量和主观评价两方面着手进行。

视频测量的目的就是通过各种装置对视频处理设备和传输通道的工作状态进行监视,并对其光学、电气指标以及模拟、数字处理变换特性进行测量,通过各种参数来反映视频系统信息处理及传输的质量。视频测量通常对视频通道进行。所有对信号的处理过程在测量时均视为视频通道。通道的测试项目包括反射损耗、插入损耗、杂波(信噪比)、非线性失真(亮度信号非线性幅度失真、色度信号对亮度信号的互调失真、色度信号微分增益、色度信号微分相位、色度信号非线性幅度失真、同步信号非线性失真等)、线性失真、压缩损失等。测量可在频域和时域进行。

视频测量一般采用监视矢量示波器和专用的视频特性参数测试仪(系统测试平台)来完成。视频图像的质量最终由观看者评价,包含着十分复杂的主观因素。主观评价一般采用统计学的方法进行。

我国电视图像质量评价标准一般采用5分制的主观评价与统计分析方法,即请大量不同观众对多种图像评分,再用统计方法作出总的评价。

图像质量评分为:5分——很好;4分——好;3分——可以;2分——差;1分——不能用。图像受损五级评分标准为:5级——察觉不到;4级——刚可察觉;3级——察觉,但不讨厌;2级——肯定讨厌;1级——不能用。对评分结果进行统计计算的方法有多种。一种常用的方法是:先求第i级(i=1~5)评分次数ni对评分总次数N所占的相对评分率Pi,然后计算平均评价Q,即图像质量的主观评价与图像各种失真的客观测量数据紧密相关,各种失真的测量参数可以反映图像质量的好坏。我国规定,国家质量等级P与五项主要失真的换算关系为P=1.982+0.535×10-1x1-0.254×10-4x2-0.600×10-2x3-0.346×10-2x4-0.326×10-1x5

式中:x1为统一加权随机信杂比(分贝);x2为亮-色延时差(毫微秒);x3为微分增益(百分数);x4为微分相位(度);x5为亮-色增益差(百分数)。 4.2语音压缩及编码技术

4.2.1语音压缩技术

1.波形编码

波形编码就是根据语音信号波形导出相应的数字编码形式,它会尽可能构造出包括背景噪声在内的模拟波形,输出信号的波形和相位跟踪输入信号。波形编码的语音信息是波形,编码率在9.6~64kb/s之间,属中频带编码,重构的声音质量较高。波形编码易受量化噪声的影响。

G.711规范采用8kHz抽样、8bit量化的PCM编码方式,比特率为64kb/s。为了降低语音波形编码速率,目前主要采用差分脉冲编码(DPCM)、自适应量化与自适应线性预测编码(ADPCM)及子带编码(SBC),语音比特率可降低到32kb/s或16kb/s,再低就十分困难了。

1)非均匀量化压扩法

在PCM编码中,语音信号的最大幅度影响着量化信噪比。在编码位数一定的条件下,语音信号的幅度越小,量化信噪比也就越差。因此,为了达到信噪比和信号幅度无关的目的,那就要采用非均匀量化的方法,压扩法就是其中之一。在这种方法中,我们根据语音样值非均匀分布的特点,设法让量化阶距随着概率密度的减小而增大,或者说对大信号用大量化阶距,对小信号用小量化阶距,从而使量化信噪比不随信号幅度而变。量化前用对数函数进行幅度压缩,解码后再用指数函数进行幅度扩张,其效果是量化器的信噪比对信号幅度不敏感。

在压扩法编码中,又分为A律和μ律两种压缩方法。其中μ律是美国、日本、加拿大等国采用的一种压缩律,A律主要是中国和欧洲使用的一种压缩律。

2)差分脉码调制(DPCM)

统计表明,相邻语音样值之间存在着很大的相关性,即从一个样值到另一个相邻的样值,信号的变化一般都不大。因此,我们可以不用传输信号样值本身,而只传输相邻信号之间的差值。由于这类差值取值为0或取值很小的概率很大,因而我们可用较少的码位来对差值进行编码,从而达到数据压缩的目的。在解码部分,在所恢复的前一样值的基础上加上当前的差值信号就可以恢复出当前的样值,这就是差分脉码调制。如果在DPCM的基础上再采取自适应措施,就形成了ADPCM的方法(AdaptiveDPCM),即自适应差分脉码调制,还可进一步压缩数据率。ADPCM的主要改进在于它的量化器和预测器都是以自适应的方式工作的,量化器和预测器能根据输入信号的统计特性自适应地处于最佳或接近最佳的工作状态。

3)子带编码

在子带编码(Sub-BandCoding,SBC)中,首先采用一组带通滤波器,将输入信号的频谱分成若干个频带,每个频带就是一个子带。为了降低比特率,对每个较窄的子带分配给一个自适应编码器分别进行编码,最后将各个子带编码器编好的码流复接起来送到对端。在接收端,再将它们分接、解码,并组合起来恢复出原始的输入信号。由于量化噪声在全部话音频带上不具有相同的可检测性,因此通过控制话音信号频带范围中的量化噪声失真,可以大大改善编码信号的质量。子带编码充分利用了这一性质,首先,它把量化噪声限制在各个子带中,从而阻止了一个子带的量化噪声引入到整个频带。其次,它在每个子带中可以使用独立的量化阶距,使低信号能量的子带使用较小的量化阶距,所产生的量化噪声相应地也较小;对于具有较高能量的子带,可以使用较大的量化阶距,从而使量化噪声的频谱与信号的短时频谱相匹配,这样就避免能量较小的频带内的输入信号被其它频段的量化噪声所遮盖。最后,根据感性判断来分配各个子带中的比特数,使得在必须精确保持音调和元音音带的共振峰结构的较低子带中,每个样值用较多的比特数来编码,而且语音中出现磨擦音和类似磨擦音的较高子带中,每个样值用较少的比特数来编码。这样,在相同的码率下,子带编码能获得明显优于全频带编码的信号质量,或者说在相同信号质量的情况下,子带编码可以用明显低于全频带编码的比特率来传输。例如,16kb/s的子带编码器其编码质量接近于32kb/s的自适应差分脉码调制的水平。

2.参数编码

参数编码又称声码器(Vocoder),它根据声音的形成原理模型来提取一组参数,将这组参数送到接收端,用来导出语音,产生模拟声音。再生的声音的波形并非原始波形。

人的话音包含浊音和清音音素。浊音形成音调,称之为基音。基音幅频特性在某些频率点呈现共振峰特点,可以用来识别音素,一个音素持续时间较短,频谱包络反映了话音的短时相关性。基音频谱的精细结构具有周期性,周期对应基音频率,频率变化慢,反映语音的长时间相关性。频谱能量主要集中在4kHz以内。清音频谱特性和浊音完全不同,无峰值特点和周期性,类似白噪声。图4-4参数编码数字语音模型声源包括激励信号和增益,浊音的激励源为一串周期性的脉冲,清音的激励源为噪声信号,增益表示信号的强弱,开关表示清音与浊音的判别,声源决定了语音信号频谱的精细结构,即语音的长时相关性。声道由滤波器组成,滤波器用来模拟说话人的声道输出(参见WEST96),决定了语音信号频谱的包络特性,即反映了语音的短时相关性。

根据模型,语音编码需要4类参数:滤波器系数(定义声道共振特性)、增益系数、开关参数和脉冲周期值。参数编码根据结构不同可分为5类:通道声码器、共振峰声码器、同态声码器、线性预测编码(LPC)声码器和余弦声码器。前两种声码器语音质量不够好,在IP电话系统中使用很少,目前主要使用的是LPC声码器。

LPC声码器和ADPCM类似,采用线性预测来模拟声道特性,通过对时域抽样信号的相关计算得到预测系数,再将预测系数转换成表征各个级联滤波器的反射系数,利用线性代数方法求解N维线性联立方程,求得N个预测系数,从而由时域信号数据获得声道的频域估计参数,参数按帧进行自适应调整。编码比特率取决于预测器的阶数N和每个参数的量化精度。20世纪80年代末,人们又对LPC声码器作了大量的改进,提出混合激励、规则激励等LPC声码器算法。参数编码以语音信号生成的数字模型为基础,以各种声码器为代表,根据输入语音信号分析出模型参数(主要是指表征声门振动的激励参数和表征声道特性的声道参数),然后在解码端根据这些模型参数来恢复语音。

参数编码器基于分析合成模型,可以用相当少的参数表示语音信号,这些参数通常每隔20~40ms就会从语音信号中提取并量化,不但可以利用样值间的相关性,还可以充分利用帧与帧之间的信息冗余,有效地降低编码比特率。参数编码器的编码率为0.8~4.8kb/s,主要用于在窄带信道上提供低速率语音通信和一些对延时要求较宽

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论