第2章-音频信息的获取和处理

上传人：1*** IP属地：四川上传时间：2023-02-28 格式：PPT 页数：78 大小：1.35MB 积分：30 举报 版权申诉

已阅读5页，还剩73页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

2.1声音与听觉（1）声音：通过空气传播的一种连续的波，又称声波。由空气振动引起耳膜的振动，由人耳所感知。声音的度量：频率与幅度（声波压力的大小）频率用音高表示，幅度用声强表示与看得见的水波类似2.1声音与听觉（2）声音被分为无规则的噪音和有规则的音频信号；有规则音频信号是一种连续变更、周期性的模拟信号，可用一条连续的曲线来表示，称为声波。声音分类语音：人的说话声虽是一种特殊的媒体，但也是一种波形，所以和波形声音的文件格式相同。音乐：规范的符号化了的声音，乐谱可转变为符号媒体形式。音效：指人类熟悉的其他声音，如动物发声、机器产生的声音、自然界的风雨雷电等。2.1声音与听觉（3）带宽与听觉

音频是指人类听觉所感知范围内的频率，也称声频。次声波(subsonic)：频率低于20Hz的信号。超声波(ultrasonic)：频率高于20KHz的信号。音频(Audio):频率范围是20Hz～20KHz的声音信号。是人耳能听到的声音信号，次声波和超声波之间的音。音频为可听声波，即属于多媒体音频信息范畴。2.1声音与听觉（4）1020502003.4k7k15k20kCD-DAFM广播AM广播电话f(Hz)频带2.1声音与听觉（5）模拟声音信号：可分解成一系列正弦波的线性叠加。最低频的音波称为基音，频率为基频其余的为泛音（或称谐音），频率是基频的整数倍声音三要素：音高、音色、音强音调：由基频确定，基频取对数后与人的音调感觉成线形关系，基频的频率高则音调高，频率低则音调低。音调高时声音尖锐，俗称高音；音调低时声音沉闷，俗称低音。音色：与波形相关，取决于声波的频谱，即由混入基音中的泛音确定，一个声波上的谐波越丰富，音色越好。音强：即声音的洪亮程度，与声音信号的幅度成正比。用声音信号的幅度取对数后再乘20所得值来描述声强，以分贝（dB）为单位，此时称为音量，振幅高时音强强，振幅低时音强弱。2.1声音与听觉（6）听觉特性1、等响曲线

响度与频率和强度有关，同一响度的声音可以在频率上和强度上有很大的差别。先设一个音为标准音，赐予固定的频率、强度和持续时间，例如1000Hz、40分贝、持续0.5秒；再给一个音也持续0.5秒，但频率不同，通过调整使其响度听起来一样，得到的这样一组曲线称之为等响曲线。意义：多媒体系统的声音再现频率强度2.1声音与听觉（7）2、掩蔽声音的响度同时也受到其他同时出现的声音的影响，各种声音可能相互掩蔽。如：开会场景。各种声音可以相互掩蔽，也就是说一种声音的出现可能使得另一种声音难于听清。例如，原来是多种频率的声音的复合，但听众以为是另一种声音。声音的掩蔽效果可以欺瞒人的听觉，可用于声音的压缩。2.1声音与听觉（8）3、相位声音的加强与抵消（同相和反相）

从声音的波形来看，声音的起点和方向也要反映声音的特性，这就是声音的相位。

当两个声音相同相位完全相反时，它们将相互抵消；当两个声音相同而且相位也相同时，声音就会得到加强。

声音的波形相位对于多声道系统的设计特别重要，应用于回声的消退、会议系统的声音设计等。2.1声音与听觉（9）声音的心理模拟

通过人工真实的方法，可以对视觉空间的景物进行再造或虚构，同样也可以对听觉空间的声音进行心理的模拟，这就是所谓的可听化（audiolization）。用声音可以表达出一些声音的效果。2.1声音与听觉（10）2.2声音信号数字化（1）1.从模拟信号到数字信号模拟信号：在时间与幅度上都连续，记为x(t).离散信号：按确定的时间间隔T采样，得到的x(nT).T为抽样周期，1/T抽样频率此过程成为声音信号的采样数字信号：把抽样序列x(nT)量化成一个有限个幅度的集合X(nT)，此过程为模拟信号的量化过程。将量化后的离散信号的进行二进制编码，即以二进制编码来表示离散值的幅度，这种二进制编码信号叫做数字信号，2.2声音信号数字化（2）图模拟信号、离散信号及数字信号1、用连续变更的曲线表示模拟信号；2、用圆点表示以相等时间间隔取值而得到的离散信号；3、纵坐标上标的是幅度的二进制编码值。2.2声音信号数字化（3）2.2声音信号数字化（4）2.声音数字化：Sampling,Quantization,Coding采样频率与量化精度2.2声音信号数字化（5）数字声音波形质量的主要技术参数采样频率等于波形被等分的份数，份数越多，质量越好11.025KHZ、22.05KHZ、44.1KHZ采样精度每次采样信息量8位、16位声道数声音产生的波形数，如多种语言音频混存时，须要多声道单声道、立体声道、5.1声道数据量计算：(采样频率×采样精度×通道数×时间)/8字节2.2声音信号数字化（6）3.采样频率奈奎斯特理论(Nyquist)定理（1928年提出原理，仙侬形成定理并应用，1933年卡切尼科夫用公式表述）：采样频率≥2f这里f为被采样信号的最高频率。依据该定理，只要采样频率高于信号中最高频率的两倍，就可以从采样中完全复原原始信号的波形。因为人耳所能听到的频率范围为20Hz到20KHz，所以实际的采样过程中，为了达到好的效果，就接受44.1KHz作为高质量声音的采样频率。假如达不到这么高的频率，声音复原的效果就会差一些，例如电话声音的质量等。一般来说，声音复原和采样频率、信道带宽都有关。2.2声音信号数字化（7）采样频率与声音的质量关系最为紧密。采样频率越高，声音质量越接近原始声音，所需的存储量便越多。标准的采样频率有三个：44.1KHz，22.05kHz，和11.025kHz。2.2声音信号数字化（8）4.量化精度存放一个采样点所需的比特数。一般的采样位数为8位或16位，即把声音采集为256等份或65536等分。量化：取样值（-∞,+∞）→有限个数（量化值近似）若量化值有J个，若用二进制表示，须要R=log(J)位量化误差：用有限的离散值表示无限多的连续值，必定存在误差.该误差又称为量化噪声（与一般的噪声不同）。2.2声音信号数字化（9）采样精度可用信噪比表示:R为编码位数2.2声音信号数字化（10）5.音频数据率未经压缩的数字音频数据率（bit/s）＝采样频率（Hz）×量化位数（bit）×声道数音频数据量（Byte）＝数据率（bit/s）×持续时间（s）/82.2声音信号数字化（11）例：采样率11.025KHz、量化位8位、单声道，采集1分则：音频数据率＝11.025（KHz）×8(bit)

＝88.2(Kbit/s)音频数据量＝11.025（KHz）×8(bit)×60（s）/8

＝0.66(MByte)2.2声音信号数字化（12）6.声道数声道数指的是一次同时产生的声波组数。（1）单声道缺乏位置感（2）立体声声音在录制过程中被安排到两个独立的声道，但所占空间比单声道多一倍。这种技术在音乐欣赏中尤为有用照旧是很多产品遵循的技术标准2.2声音信号数字化（13）（3）四声道环绕规定了4个发音点：前左、前右，后左、后右，同时建议增加一个低音音箱，以加强对低频信号的回放处理（4.1声道音箱系统广泛流行的缘由)。2.2声音信号数字化（14）（4）5.1声道运用于各类传统影院和家庭影院中，一些知名的声音录制压缩格式，都以5.1声音系统为技术蓝本的。增加了“.1”声道，一个中置单元,负责传送低于80Hz的声音信号。接受左(L)、中(C)、右(R)、左后(LS)、右后(RS)五个方向输出声音，使人产生犹如身临音乐厅的感觉。五个声道相互独立，中心声道大部份时间负责重放人物对白的部份；前置左/右声道则用来弥补在屏幕中心以外或不能从屏幕看到的动作及其它声音；后置环绕音效则是负责外围及整个背景音乐，让人感觉置身于整个场景的正中心，万马奔腾的震撼、喷射机从头顶咆哮而过的效果，就是拜它所赐；而马达达声、轰炸机的声音或是大鼓等震人心弦的重低音，则是由重低音喇叭一手包办2.2声音信号数字化（15）7.音频信号的获得和处理从人与计算机交互的角度看，音频信号的处理包括下述3点：人与计算机通信，也就是计算机接收音频信号。包括音频获得、语音的识别和理解。计算机与人通信，也就是计算机输出音频。包括音乐合成、语音合成、声音的定位以及音频视频的同步。人-计算机-人通信。人通过网络与异地的人进行语音通信，相关的音频处理有语音采集、音频的编码和解码、音频的存储、音频的传输、基于内容的检索等。2.2声音信号数字化（16）音频信号的获得图音频信号获得框图压缩2.2声音信号数字化（17）音频信号的处理不管多媒体信息是音频信号还是视频信号，其数据量都是特别巨大的。假如像上图的那样，经A/D转换的数字化音频信号干脆进入计算机进行存储(记录)或进行传送，是不行取的。应当先对音频信号进行压缩，然后进行存储和传输。数据压缩可以由专用芯片来完成也可以由软件来实现。音频信号的回放经压缩的音频信号以确定的格式记录在有关的媒体上，例如，磁带、磁盘及光盘等，或者以确定的格式传送到接收端。在音频信号接收端或由媒体回放音频信号时，首先由专用的硬件或软件对压缩数据进行解压缩，复原音频数字信号，然后，经由下图所示的电路框图对音频信号进行放音。2.2声音信号数字化（18）图音频信号的回放框图解压缩2.3声音质量的度量（1）1.声音信号的带宽:复合信号的频率范围称为频带宽度。2.客观质量度量

SNR=有用信号的平均功率/噪声的平均功率3.主观质量度量:人的感觉MOS:meanopinionscore.在语音评价过程中，主观的质量评价比较客观的质量评价更为恰当。2.3声音质量的度量（2）2.3声音质量的度量（3）通常把声音的质量分为5个等级，由低到高分别是：电话、调幅广播（AM）、调频广播(FM)、光盘(CD)、数字录音带(digitalaudiotape,DAT),它们运用的采样频率、样本精度、通道数和数据率如下表：2.4声音信号的编码（4）依据编码器的实现机理，分成三大类波形编码参数编码混合编码语音编码分类2.4声音信号的编码（5）波形编码（或非参数编码）——语音编码系统早期用的是波形编码方法。目的：力图使重建的语音波形保持原语音信号的波形形态。这种编码器是把语音信号当成一般的波形信号来处理，而并未考虑语音信号的冗佘度。特点：优点是具有较强的适应实力，有较好的合成语音质量，然而编码速率高（64Kbit／s），编码效率极低。脉冲编码调制（PCM）、自适应增量调制（ADM）、自适应差分编码（ADPCM）、自适应编码（APC）等都是属于波形编码（非参数编码）。参数编码提取语音的一些特征信息进行编码，在收端利用这些特征参数合成语音。20世纪30年头末脉冲编码调制（PCM，PulseCodeModulation）原理和声码器（Vocoder）概念被提出后，语音数字编码便始终沿着这两个方向发展。 2.4声音信号的编码（6）2.4声音信号的编码（7）声码器又称参数编码（或模型编码），它主要是对提取的语音信号特征参数进行编码。目的主要是使重建的语音信号具有尽可能高的可懂度，而不是要求重建波形保持原语音波形的形态。因此，可能出现的状况是即使重建语音的可懂度高，但其时域波形与原语音的时域波形有较大的差别。优点是可达到极低的编码速率而语音照旧可懂，编码速率可达到8Kbit／s、4．8Kbit／s甚至更低。缺点是重建语音自然度低，韵律感差，合成语音质量差。声码器的典型代表是通道声码器、共峰声码器及线性预料声码器等。

20世纪80年头至今，不仅声码器和波形编码器得到了很大发展，并且还有一种全新的革命性编码方法被普遍推广，这类编码器叫混合编码器。这种编码器在传送器中对给定编码结构的全部可能性进行综合，找出输人语音的最好编码形式，并从这些可能性中发觉输入语音的最优主观匹配，然后用数码表示这种主观匹配并发送到接收器。利用线性预料、VQ、A－B－S、感觉加权、后滤波等技术得到的多脉冲激励线性预料（MPELP，MultiPulseEnspiritLinePrognosticate），规则脉冲激励线性预料（RPELP，RulePulseEnspiritLinePrognosticate），码本激励线性预料（CELP，CodeEnspiritLinePrognosticate）编码速率达到8～16Kbit／s甚至更底，其话音质量高、编码速率低，但算法困难。2.4声音信号的编码（8）2.5电子乐器数字接口MIDI（1）声音的符号化

波形声音可以把音乐、语音都进行数据化并且表示出来，但是并没有把它看成音乐和语音。对于声音的符号化（也可以称为抽象化）表示包括两种类型：一种是音乐，一种是语音。2.5电子乐器数字接口MIDI（2）1）音乐的符号化－MIDIMIDI(MusicInstrumentDigitalInterface)是指乐器数字接口的国际标准。MIDI的关键是作为媒体能够记录这些音乐的符号，相应的设备能够产生和说明这些符号。它给出了一种得到音乐声音的方法。 MIDI规定了数字乐器接口的国际标准，它定义了不同厂家的乐器连接到计算机的电缆和硬件的规范，它定义了从一个设备向另一个设备传送数据的通信接口。任何电子乐器，只要有处理MIDI消息的微处理器和合适的硬件接口，就构成了一个MIDI设备。当一组MIDI消息通过音乐合成芯片处理时，合成器能说明这些符号并且产生音乐。

2.5电子乐器数字接口MIDI（3）MIDI术语MIDI消息：指乐谱的数字描述，事实上是一段对音乐的符号描述。MIDI设备：任何电子乐器，只要有处理MIDI消息的微处理器和合适的硬件接口，就构成了一个MIDI设备。当一组MIDI消息通过音乐合成芯片处理时，合成器能说明这些符号并且产生音乐。复音：是指一个合成器每次可支持的最多音符个数。音色：音色就是音质，指与某特定的乐器相关联的特有的声音。2.5电子乐器数字接口MIDI（4）MIDI文件：记录MIDI信息的标准文件格式。MIDI文件中包含音符、定时和多达16个通道的乐器定义。文件中含有每个音符的信息，包括键、通道号、持续时间、音量和力度等。

MIDI文件中包含了一连串的MIDI信息，MIDI信息由若干个字节组成。下表为MIDI信息标准。2.5电子乐器数字接口MIDI（5）通常第一个字节为状态字节，其高位为1，数据字节高位为0。例如信息：

9nkkvv，9表示音乐起始，n表示通道号（0～15），kk表示键编号（0～127），vv表示速度（0～127）。2.5电子乐器数字接口MIDI（6）MIDI的通道概念单个物理MIDI通道分为16个逻辑通道，每个逻辑通道可指定一种乐器。MIDI键盘可设置在这16个通道中的任何一个，MIDI合成器可以被设置在指定的通道上接受。通道的编码为0～15，0通道为基本通道。

2.5电子乐器数字接口MIDI（7）MIDI的物理接口标准

各个MIDI设备通过专用的串行电缆(MIDI线)连接，并以31.25kbps（每字节10位）的速度传送着数字音乐信息。ThruOutInMPC的声卡上包含一个内部合成器和标准的三类MIDI接口：从MIDI设备接收信息的MIDI输入，向MIDI设备发送信息的MIDI输出，从MIDI设备输入并转到其他MIDI设备的MIDIthru。2.5电子乐器数字接口MIDI（8）2.5电子乐器数字接口MIDI（9）最常用的MIDI设备连接方法，是用一根MIDI电缆将演奏限制器的MIDIOUT端口与计算机(内有音序器)的MIDIIN端口相连接，同时用另一根MIDI电缆将计算机的MIDIOUT端口与音源MIDIIN端口相连接，这样由演奏限制器发出的演奏信息便可被计算机接收和存储，经过处理后送到音源去演奏。MIDI声音与波形数字音频的比较文件内容不同：弹奏指令－－声音波形本身存储容量不同：半小时16位立体声音，MIDI数据为200KB，无压缩的波形音频为300MB，相差1500倍之多。可处理声音不同：波形音频可处理各类声音，包括语音、自然声音、音乐等，而MIDI只适合于电子合成乐可编辑性不同：在音序器的帮助下，可敏捷编辑MIDI，自由变更音调、音色等，而波形较困难。运用方式不同：MIDI可用于长时间的音乐、伴乐、背景音效等。波形音频常用于语音表现，文语转换等（TTS）。2.5电子乐器数字接口MIDI（10）MIDI音乐合成

运用电子元器件（计算机）生成音乐的技术称为电子音乐合成。MIDI文件音序器合成器扬声器2.5电子乐器数字接口MIDI（11）2.5电子乐器数字接口MIDI（12）MIDI文件：记录存储MIDI信息的标准文件格式 MIDI信息：一段音乐的描述，乐谱的数字描述，弹奏指令（音符的信息包括按键、通道号、持续时间、音量和力度等）音序器（Sequencer）:用于记录、编辑、播放MIDI文件，输入并输出MIDI信息，分为软件音序器与硬件音序器。合成器：接收数字音频，生成模拟信号波形 FM调频合成波表合成（WaveTable）音乐合成器有很多不同的类型和芯片集。2.5电子乐器数字接口MIDI（13）MIDI的特点：与波形声音相比，MIDI不是声音数据而是指令，所以数据量要少得多。30分钟的音乐，用MIDI文件记录只需200KB，用16位CD品质的未压缩WAV文件记录需317MBMIDI可以与其他波形声音协作运用，形成伴乐的效果。而两个波形声音一般是不能同时运用的对MIDI的编辑也很敏捷，用户可以自由地变更音调、音色等属性，直到自己想要的效果MIDI在音质上还不能与真正的乐器完全相像。无法模拟自然界中其它非乐曲类声音2.5电子乐器数字接口MIDI（14）2）语音的符号化语音与文字是对应的。波形声音可以记录表示语音，它是不是语音取决于听者对声音的理解。对语音的符号化事实上就是对语音的识别，将语音转变为字符，反之也可以将文字合成语音。语音指构成人类语音信号的各种声音。在采集和存储上可以与波形声音一样，但由于语音是由一连串的音素组成。“一句话”中包含很多音节以及上下文过渡过程的连接体等特殊的信息，并且语音本身与语言有关，所以要把它作为一个独立的媒体来看待。2.6音频媒体的三维化处理（1）1．三维虚拟声空间虚拟听觉空间就是在虚拟环境中加入与视觉并行的三维虚拟声音，使收听者在模拟环境中收听到的声信号靠近在真实环境声场中收听到的声信号。三维虚拟声空间（ThreeDimensionalVirtualAcoustic，3DVA），是指用确定的声音设备人为地产生出来的具有空间位的、声音空间。

2.6音频媒体的三维化处理（2）三维听觉的运用明显地依靠于用户对听觉空间中各种信息源的定位实力。一般说来，三维虚拟声空间要达到以下的一些目标：在可听的范围内重现频率辨别度和动态范围；在三维空间中精确地呈现声音的位置信息；能表达多个静止和移动的声源；能和头部的动作具有确定的关联；能够支持确定程度的交互。2.6音频媒体的三维化处理（3）2．3DVA的基本理论人类感知声源位置的最基本的理论是双工理论，该理论基于两种因素：两耳间声音的到达时间差ITD（InterauralTimeDifferences）两耳间声音的强度差IID（InterauralIntensityDifferences）时间差是由于距离的缘由造成的，当声音从正面传来时，距离相等，所以没有时间差；但若偏右3o，则到达右耳的时间就要比左耳约早30ms，而正是这30ms，使我们辨别出了声源的位置。强度差是由于信号衰减造成的，信号的衰减是因为距离产生的，在很多状况下是因为人的头部遮挡，使声音衰减，产生了强度的差别，使靠近声源一侧的耳朵听到的声音强度要大于另一耳。双工理论(DuplexTheory)

-人类感知声源位置的最基本的理论两耳间的时间差(ITD,InterauralTimeDifferences)：ITD＝（3*头部的半径*100/声音速度）*

Sin(方位角)f<=4kHzITD＝（2*头部的半径*100/声音速度）*

Sin(方位角)f>4kHz

方位角是人头部相对声源的角度。

Example:方位角45°，高频，头部半径9cm，声音速度343m/s。则：

ITD＝0.037107s＝（模拟）把给右耳送声音之后隔37.1ms再给左耳送声音。ITD2.6音频媒体的三维化处理（4）双工理论两耳间的强度差(InterauralIntensityDifferences)IID＝1.0＋(f/1000)0.8*Sin(方位角)其中f是频率。志向条件：无反射、无折射、单频率实际状况：困难、双工理论无法区分前后、垂直平面ITD信号的衰减造成3DVA理论较形象地说明：人耳对声音定位的特性，通过大脑的综合作用后，对有差别的声音信号进行了相对于空间位置的定位。2.6音频媒体的三维化处理（5）3.HRTF（Head-RelatedTransferFunction）方法生理学与心理学的探讨表明：人耳对声源方位的判定起确定作用的是耳廓声音信号的两个重要信息：空间真实感与环境真实感美国NASAAmes探讨中心音响试验室：在人的头部和耳廓的作用下，声波的时域与频域，对两耳都不同实现空间真实感的关键是：建立耳廓模型，“双耳相关函数法”，利用HRTF算法来实现三维虚拟声音HRTF：与头部有关的转移函数。HRTF是一种声音定位的处理技术，由于声音会从耳廓、或肩膀反射到人耳内部，所以其算法与处理的原理特别困难。2.6音频媒体的三维化处理（6）HRTF是从测量声音强度起先的，它测量了在特别精确的角度下声音频率对声音强度变更的影响。当声音频率变更时，在听者的耳中的微型麦克风拾取了原始声音的变更信息，在一个频率范围内的全部变更就被称为“转移函数”测量一个位置的频率变更，以及多个位置的转移函数作为合成声激励的滤波器的基础把单音变成虚拟声2.6音频媒体的三维化处理（7）因此，在利用HRTF进行虚拟声音的产生时，不同的算法其效果差异很大，而且，随着具体听者的不同，其效果也会有所不同。因此，有的标准如A3D3.0支持个人化的HRTF设置（即依据自己头部的形态来下载HRTF设置库），从而达到最好效果的虚拟声音空间。左图是F.Wightman和D.Kistler通过试验测量所得到的HRTF（幅度部分）的例子。在高频（f>5KHz)的状况，曲线的峰和谷是由耳壳散射所引起的。值得留意的是，对不同的倾听者，曲线的高频部分相差较大，峰谷的位置互不相同。这是因为人的耳壳形态的差别所致。图试验测量所得的三个不同倾听者的HRTF曲线2.6音频媒体的三维化处理（8）从理论上利用HRTF产生真实空间声音的算法如左图所示。

2.6音频媒体的三维化处理（9）目前有不少声音芯片设计厂商和相关领域的探讨部门参与这种算法的开发和设计工作。虽然原理大同小异，但由于在分析和探讨过程中的手段稍有不同，所以各类HRTF算法之间也会有或多或少的性能差异。如：DirectSound3D：源自于MicrosoftDirectX的老牌音频API。A3D：Aureal公司联合了NASA、Matsushita、Disney等厂商经过多年开发的一项专利技术，3D定位技术。A3DSurround和A3DInteractive、声波追踪技术。EAX：环境音效扩展，EnvironmentalAudioExtensions，EAX是由创新和微软联合供应，作为DirectSound3D扩展的一套开放性的API。Sensaura：CRL开发的HRTF算法，支持包括A3D1.0和EAX、DS3D在内的大部分主流3D音频API。并且此技术已经广泛运用于ESS、YAMAHA和CMI的声卡芯片上，从而成为了影响比较大的一种技术，从实际试听效果来看也的确不错。Q3D，是由加拿大QsoundLabs所推出的3D定位算法相关参考文献《头相关传输函数与虚拟听觉》谢菠荪著国防工业出版社

2.6音频媒体的三维化处理（10）4、应用——虚拟杜比环绕声原理虚拟环绕声的英文是VirtualSurround，也有叫SimulatedSurround，人们把这种技术称为非标准环绕声技术。非标准环绕声系统是在双声道立体声的基础上，不增加声道和音箱，把声场信号通过电路处理后播出，使倾听者感到声音来自多个方位，产生仿真的立体声场。

实现虚拟杜比环绕声的关键是声音的虚拟化处理，依据了人的生理声学和心理声学原理特地处理环绕声道，制造出环绕声源来自听众后方或侧面的幻象感觉。应用了人耳听音原理的几种效应。2.6音频媒体的三维化处理（11）双耳效应:英国物理学家瑞利于1896年通过试验发觉人的两只耳朵对同一声源的直达声具有时间差（0.44-0.5微秒）、声强差及相位差，而人耳的听觉灵敏度可依据这些微小的差别精确推断声音的方向、确定声源的位置，但只能局限于确定前方水平方向的声源，不能解决三维空音声源的定位。耳廓效应:人的耳廓对声波的反射以及对空间声源的定向有重要的定向作用。借此效应，可判定声源的三维位置。人耳的频率滤波效应:人耳的声音定位机制与声音频率有关，对20-200赫的低音靠相位差定位，对300-4000赫的中音靠声强差定位，对高音则靠时间差定位。据此原理可分析出重放声音中的语言、乐音的差别，经不同的处理而增加环绕感。头部相关传输函数:人的听觉系统对不同方位的声音产生不同的频谱，而这一频谱特性可由头部相关传输函数HRTF（HeadRelatedTransferFunction）来描述。

2.6音频媒体的三维化处理（12）综上所述，人耳的空间定位包括水平、垂直及前后三个方向。水平定位主要靠双耳，垂直定位主要靠耳壳，而前后定位及对环绕声场的感受靠HRTF函数。虚拟杜比环绕声依据这些效应，人为制造与实际声源在人耳处一样的声波状态，使人脑在相应空间方位上产生对应的声像。

2.6音频媒体的三维化处理（13）世界首位虚拟主持人Ananova综合应用——虚拟主持人 ananova是英国新闻机构联合社下属的高科技公司（PA）在硅谷的支持下，经过9个月的探讨制作完成的。1999年4月19日，ananova(安娜诺娃)在自己的网站上起先了第一次新闻播音。她依托成熟的三维游戏技术和即时同步语音处理技术在全球网民中引起了轰动，其所在网站竟然为之拥堵。电脑用户除了可以听到她的新闻播音外，还可以定制新闻。甚至可以和她闲聊。她会告知你为什么她的头发是这个颜色，她是怎么来的，她宠爱什么，胆怯什么~~~://ananova2.6音频媒体的三维化处理（14）我国电视虚拟主持人的起步还是很早的。 2001年12月吉林电视台《世界视窗》节目主持人“TVNO.1”就粉墨登场了。同时它还号称是“世界首位电视虚拟主持人”。 2001年，又有江苏电视台“QQ小姐”、中心电视台“伊妹儿”和天津电视台“言东方”等虚拟主持人相继亮相。2.6音频媒体的三维化处理（15）比尔-邓言东方中国首位虚拟主持人北京迪生计算机图形图像有限公司以及发行商七网络亚洲公司

2.6音频媒体的三维化处理CCTV首位虚拟主持人---小龙2004年11月20日，央视6套正式推出了主持《光影周刊》的三维虚拟人物——小龙。结合了配音、场景剪辑、声画合一和各种效果绝技流程，并接受了先进的真人动作捕获技术打造出的“小龙”可谓是我国电视虚拟主持人史上划时代的一笔。他突破了此前几位虚拟主持人的技术瓶颈，比如发型、衣着变更所须要的浩大数据支持等。此外，他还能够真正站起来、走起来、动起来，初步具备了一位节目主持人的雏形，而不只是单调呆板的新闻播报员。三维技术、语音合成技术、动作传感技术等数字技术的发展为电视虚拟主持人的产生和发展供应了技术推动力。2.6音频媒体的三维化处理（16）虚拟主持人的设计与实现虚拟主持人的设计与实现包括：形象设计和节目制作两个基本流程虚拟主持人的形象设计一个虚拟主持人首先必需有一个好的形象这个形象必需适合所面对的观众和用户。所以在进行虚拟主持人的形象设计之前．首先必需定位观众和用户．然后再赐予虚拟主持人以真人的基本品质．如身高、年龄特性、喜好等等。比如51GO的老牌虚拟主持人“GoGirl“为了迎合中国当时占网民总数80％的男性人群设计师把她设计成青春形象的美丽女孩而且赐予她李汶激情现代的特性和赵薇的活泼和俏皮．同时赐予她苗条的身材和爱泡咖啡店的特色．并给她起了个中外名字”够女孩儿”和“GoGirI。完成形象定位之后．就可以通过下面几个步骤来设计虚拟主持人模型。2.6音频媒体的三维化处理（17）(1)虚拟主持人形体建模

人人文库> 全部分类> 应用文书 > 办公表格

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

第2章-音频信息的获取和处理

文档简介

温馨提示

最新文档

评论

第2章-音频信息的获取和处理

文档简介

温馨提示

最新文档

评论

相关文档