多媒体应用技术(第2版)全套课件_第1页
多媒体应用技术(第2版)全套课件_第2页
多媒体应用技术(第2版)全套课件_第3页
多媒体应用技术(第2版)全套课件_第4页
多媒体应用技术(第2版)全套课件_第5页
已阅读5页,还剩747页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

季怡多媒体技术应用多媒体技术应用国家级“十一五”规划教材国家级“十一五”规划教材第0章课程简介.ppt第0章课程简介-公选.ppt第0章实验.ppt第1章多媒体技术概述.ppt第2章数字音频处理.ppt第3章视觉信息处理.ppt第4章多媒体数据压缩与编码技术.ppt第5章多媒体数据处理的技术标准.ppt第6章多媒体系统结构.ppt第7章超文本与超媒体技术.ppt第8章多媒体数据库.ppt第9章虚拟现实技术.ppt第10章流媒体技术.ppt第11章多媒体信息安全.ppt课程总学时:

51学时理论学习(34学时)+实验(17学时)课程实施

教材

多媒体技术应用人民邮电出版社(第二版)近期的发展和趋势(随时补充)SIGCOMMACMMultimediaICMECVPRINFOCOM课程内容第1章多媒体技术概述第2章数字音频处理第3章视觉信息处理第4章多媒体数据压缩与编码技术第5章多媒体数据处理的技术标准第6章多媒体系统结构第7章超文本与超媒体技术第8章多媒体数据库技术第9章虚拟现实技术第10章流媒体技术第11章多媒体信息安全技术第12章Java多媒体程序设计考核形式考试——70%实验——20%平时

——10%季怡jiyi@多媒体技术应用多媒体技术应用国家级“十一五”规划教材国家级“十一五”规划教材课程总学时:

36学时理论学习+演示实验课程实施

教材

多媒体技术应用人民邮电出版社(第二版)近期的发展和趋势(随时补充)SIGCOMMACMMultimediaICMECVPRINFOCOM课程内容第1章多媒体技术概述第2章数字音频处理第3章视觉信息处理第4章多媒体数据压缩与编码技术第5章多媒体数据处理的技术标准第6章多媒体系统结构第7章超文本与超媒体技术第8章多媒体数据库技术第9章虚拟现实技术第10章流媒体技术第11章多媒体信息安全技术第12章Java多媒体程序设计考核形式考试(开卷)

——

80%平时

(问答等)——

20%季怡jiyi@多媒体技术应用多媒体技术应用国家级“十一五”规划教材国家级“十一五”规划教材总目实验1:声音信号的获取与处理:Audition实验2:图象处理软件:Photoshop实验3:二维动画制作:GIFAnimator实验4:视频信号的采集与处理:Premiere实验5:三维动画制作:3DStudioMAX实验6:多媒体著作工具:Authorware实验7:用Flash制作贺卡1.声音信号的获取与处理所需软件录音机Audition实验目的制作一段带背景音乐的解说词1.声音信号的获取与处理录制解说词包含自己的姓名,学号处理背景音乐加入回声设置淡入,淡出混音加入解说词平衡前景和背景声音2:图象处理软件:Photoshop所需软件AdobePhotoshop实验目的制作地图和实景相结合的展示实验要求地图(世界地图,某国或者某地)用喷枪工具制作成立体山脉效果多个当地著名的景观或者特产图片使用套索工具截取使用艺术字处理自己的姓名,学号以上使用多图层合成在一个PSD文件中并存储3.二维动画制作:GIFAnimator所需软件UleadGIFAnimator实验目的绘制简单的二维动画实验要求建立主题投篮?射门?扔香蕉?打酱油?绘制帧有细微差别的连续帧(》5)添加入GIFAnimator调整速度等参数加入文字效果4.视频信号的采集与处理:所需软件AdobePremiere实验目的编辑视频,制作简单的效果实验要求选取素材,自选或拍摄2-3段短视频引入素材,Timeline使用滤镜过渡效果:关门叠加操作,加入半透明和画中画效果加入字幕,输出完成编辑制作6.Flash制作所需软件Flash实验目的制作交互式生日贺卡实验要求加入文本,祝贺词建立导向层,使文本按轨迹运动加入音乐层加入图形按钮,交互式动作控制音乐开启?展示祝福?打开礼物?输出完成编辑制作7.Authorware制作所需软件AdobeAuthorware实验目的流程与交互响应实验要求建立基本流程开始-密码检测-欢迎画面-主内容介绍交互响应输入文字响应热区响应等等多媒体技术应用国家级“十一五”规划教材国家级“十一五”规划教材第1章多媒体技术概述本章重点:多媒体技术的概念及其特点多媒体技术的应用领域多媒体研究的主要内容与涉及的核心技术

本章概要:1.1多媒体技术的相关概念1.2多媒体技术的发展1.3多媒体技术的应用领域1.4多媒体研究的主要内容与核心技术1.5本章小结1.1多媒体技术的相关概念1.1.1媒体1.1.2多媒体1.1.3多媒体技术的基本特征1.1多媒体技术的相关概念任何系统理论的产生,都是为了满足人们的需求或需要。计算机科学技术与其所属的各个分支学科也是如此。人们利用计算机进行了各种各样的探索和尝试,逐渐发展起来图形处理技术、动画技术、视频捕捉技术与编辑回放技术、虚拟现实技术等。

伴随着这些技术不断进步,诞生了计算机科学技术的一个非常具有活力的分支——多媒体技术。

1.1.1媒体“媒体”即媒介、媒质,它是信息的载体,是一种传播和表达信息的方法和手段。国际电信联盟根据信息被人们感觉、表示以及实现存储或进行传输的载体不同,将媒体分为了如下六个大类:1.1.1媒体1.感知媒体(PerceptionMedium)

指人们的感觉器官(眼、耳、鼻等)所能感觉到的信息的自然种类。如人类的各种语言、音乐,自然界的各种声音、图形、图像,计算机系统内的数据、文本等均可属于感知媒体。1.1.1媒体2.表达媒体(RepresentationMedium)为了加工、处理和传输感知媒体而通过人工研究、构造出来的媒体,主要用以定义信息的特性。表达媒体以语音编码、图像编码和文本编码等形式来描述。1.1.1媒体3.呈现媒体(PresentationMedium)指感知媒体与电信号间相互转换用的那类媒体,即呈现信息或获取信息的物理设备。呈现媒体有显示器、扬声器、打印机等输出类以及键盘、鼠标器、扫描器、话筒和摄像机等输入类设备。1.1.1媒体4.存储媒体(StorageMedium)

指存储表达媒体数据(感知媒体数字化后的代码)的物理设备,如光盘、磁盘、磁带等。5.传输媒体(TransmissionMedium)

指媒体传输用的一类物理载体,如同轴电缆、光缆、双绞线、无线电链路等。6.交换媒体(ExchangeMedium)

指在系统之间交换数据的方法,它们可以是存储媒体、传输媒体或者两者的结合使用。1.1.1媒体这些不同层次的“媒体”为多媒体技术的诞生和发展提供了基本的空间和舞台。在以上六种媒体中,感觉媒体是在多媒体应用中呈现给用户的媒体元素,它主要包括:文本、图形、图像、视频、音频、动画等。1.1.1媒体1.文本(Text):包含字母、数字、字、词语等基本元素。2.图形(Graph):是多媒体中的静态可视元素之一,一般是以采用算法语言或某些应用软件生成的矢量图(VectorDrawing)的形式来表达的。3.图像(Image):也是多媒体的一种静态可视元素,其基本形式为位图(Bitmap)。1.1.1媒体4.视频(Video):多媒体技术中的一类重要媒体,属于动态可视元素。图像与视频是两个既有联系又有区别的概念。5.音频(Audio):是指大约在15Hz~20kHz频率范围的连续变化的波形。6.动画(Animation):是采用计算机动画软件创作并生成的一系列可供实时演播的连续画面,属于一种动态可视媒体元素。

1.1.2多媒体在绝大多数场合,多媒体是指多媒体技术,即指能够同时获取、处理、编辑、存储和回放两种或者两种以上不同类型信息媒体的技术。这些信息媒体包括文字、声音、图形、图像、动画、视频等,它一般不是指多种媒体本身,而主要是指处理和应用的一整套技术手段。1.1.2多媒体从技术角度来说:多媒体是计算机综合处理文本、图形、图像、音频、视频等多种媒体信息,使之建立逻辑连接,集成为一个系统并具有交互性和实时性的崭新技术。它是一种综合性电子信息技术,已渗透到相关领域的方方面面,给人们的工作、生活和娱乐带来了深刻的变革。

1.1.3多媒体技术的基本特征1.多样性2.集成性3.交互性4.实时性5.非线性总之,多媒体有许多特点,但其最显著的特点是具有媒体的多样性、集成性和交互性。1.2多媒体技术的发展多媒体技术的发展是社会需求和社会不断推动以及计算机技术不断成熟和扩展的结果。在多媒体的整个发展进程中,有几个具有代表性的阶段:1984年,美国Apple(苹果)公司开创了用计算机进行图像处理的先河,在世界上首次使用Bitmap(位图)概念对图像进行描述,从而实现了对图像进行简单的处理、存储和传送等。

1.2多媒体技术的发展1985年,美国Commodore公司将世界上首台多媒体计算机系统展现在世人面前,该计算机系统被命名为Amiga。并在随后的Comdex‘89展示会上,展示了该公司研制的多媒体计算机系统Amiga的完整系列产品。1986年3月,荷兰PHILIPS(飞利浦)公司和日本SONY(索尼)公司共同制定了CD-I(CompactDiscInteractive)交互式激光光盘系统标准,使多媒体信息的存储规范化和标准化。

1.2多媒体技术的发展1987年3月,RCA公司制定了DVI(DigitalVideoInteractive)技术标准,该技术标准在交互式视频技术方面进行了规范化和标准化,使计算机能够利用激光光盘以DVI标准存储静止图像和活动图像,并能存储声音等多种信息模式。1990年11月,美国Microsoft(微软)公司和包括荷兰PHILIPS(飞利浦)公司在内的一些计算机技术公司成立“多媒体个人计算机市场协会(MultimediaPCMarketingCouncil)”。

1.2多媒体技术的发展1991年,多媒体个人计算机市场协会提出MPC1标准。1993年5月,多媒体个人计算机市场协会公布了MPC2标准。1995年6月,多媒体个人计算机工作组公布了MPC3标准。目前,多媒体技术的发展趋势是逐渐把计算机技术、通信技术和大众传播技术融合在一起,建立更广泛意义上的多媒体平台,实现更深层次的技术支持和应用。索尼SonyPlayStation系列任天堂NintendoWii,Switch等微软Xbox,Xbox360(Kinect)系列1.2多媒体技术的发展虚拟现实(VirtualReality)HTC的VivePreOculus的Rift三星的GearVR索尼的PlayStationVR1.2多媒体技术的发展增强显示(AR)微软HoloLensDLP,数字光处理,光投影MagicLeap光纤扫描技术,通过光纤向视网膜直接投射整个数字光场在真实世界中叠加3D虚拟图像1.2多媒体技术的发展1.2多媒体技术的发展从多媒体应用方面看,有以下几个发展趋势:从单个PC用户环境转向多用户环境和个性化用户环境;从集中式、局部环境转向分布式、远程环境;从专用平台和系统有关的解决方案转向开放性、可移植的解决方案;多媒体通信从单向通信转向双向通信;从被动的、简单的交互方式转向主动的高级的交互方式;从改造原有的应用转向建立新的应用。1.3多媒体技术的应用领域1.3.1娱乐1.3.2教育与培训1.3.3电子出版物1.3.4咨询、信息服务与广告1.3.5工业控制与科学研究1.3.6医疗影像与远程诊断1.3.7多媒体办公系统1.3.8通信系统中的应用1.4多媒体研究的主要内容与核心技术要把一台普通的计算机变成具有多媒体计算功能的计算机,要解决多种媒体的数字化、压缩、通信传输、存储、同步回放等一系列的关键技术问题。综合起来讲,多媒体技术的核心问题是:多媒体信号数字化与计算机获取技术;多媒体数据压缩编码和解码技术;多媒体数据的实时处理和特技效果技术;多媒体数据的输出与回放技术。1.4多媒体研究的主要内容与核心技术如何高效地解决如上问题,是多媒体相关研究领域的核心问题。多媒体技术的研究涉及到:媒体数字化技术、数据压缩编解码技术多媒体存储技术、硬件平台、软件平台多媒体数据库、超文本和超媒体、虚拟现实人机接口、多媒体通信技术以及分布式多媒体等众多领域。1.4多媒体研究的主要内容与核心技术1.多媒体数据压缩编解码技术在多媒体计算机系统中要表示、传输和处理大量的声音、图像甚至影像视频信息,其数据量之大是非常惊人的,加之信息品种多、实时性要求高,给数据的存储和传输以及加工处理均带来了巨大的压力。因此,在采用新技术增加CPU处理速度、存储容量和提高通信带宽的同时,还须研究高效的数据压缩编解码技术,加入使用GPU快速处理。多媒体数据压缩编码和解码技术

过去计算机企图综合处理声、文、图,但是不可以,原因在于:文件量过大以一幅彩色静态图像(RGB)为例:BGR设分辨率为512

512每一种颜色用8bit表示即R用8bit256级别表示

G用8bit256级别表示

B用8bit256级别表示则一幅彩色静态图像的数据量为

512

51238bitPAL是通用于中国大陆与西欧大部分国家(除去法国)的彩色电视信号格式,以交错方式扫描,每秒钟出25幀画面,每幀画面含625条水平扫描线,50Hz。NTSC制式,美国、日本等国采用,每秒钟出30幀画面,每幀画面含525条水平扫描线,60Hz。

SECAM——通用于法国,中东,和多数东欧国家,25幀/秒,625线/幀,50Hz.PAL,SECAM制式25帧/秒NTSC制式30帧/秒以PAL制25帧/秒为例,视频每秒钟的数据量512

5123825=180Mbps

陆地卫星(Landsat—3)的例子,其水平、垂直分辩率分别为2340和3240,四波段采样精度7位,它的一幅图像的数据量为2340×3240×7×4=212Mbit,按每天30幅计每天数据为212×30=6.36Gbit,每年的数据量高达2300Gbit。单纯扩大存储容量,增加通信干线的传输率是不现实的,数据压缩是行之有效的方法。

现在1080p高清电视

的标准MPEG-2的固定传输率为17Mbps

通过MPEG-2可以把这个视频流传输到计算机并存储。如何压缩数据?

帧内压缩帧间压缩帧内压缩图——Bitmap——存储器——颜色相同的块——帧内压缩帧间压缩不变化部分:只传送一次变化部分:传送一个运动矢量1.4多媒体研究的主要内容与核心技术2.多媒体数据存储技术随着多媒体与计算机技术的发展,多媒体数据量越来越大,对存储设备的要求越来越高。因此,高效快速的存储设备是多媒体技术得以应用的基本部件之一。1.4多媒体研究的主要内容与核心技术3.多媒体数据库技术多媒体数据库是一个由若干多媒体对象所构成的集合,这些数据对象按一定的方式被组织在一起,可为其他的应用所共享。多媒体数据库管理系统负责完成对多媒体数据库的各种操作和管理功能,包括对数据库的定义、操纵和控制等这样一些传统数据库功能。此外,还必须解决海量数据的存储、信息提取等一些新的问题。1.4多媒体研究的主要内容与核心技术4.超文本和超媒体技术超文本和超媒体技术是一种模拟人脑的联想记忆方式,把一些信息块按照需要,用一定的逻辑顺序链接成非线性的、网状结构的信息管理技术。超文本技术以节点作为基本单位,这种节点要比字符高出一个层次。由链把节点链接成网状结构,即非线性文本结构。这种已组织成网的信息网络即是超文本。1.4多媒体研究的主要内容与核心技术5.智能多媒体技术智能多媒体是一种更加拟人化的高级智能计算技术。多媒体技术的进一步发展迫切需要引入人工智能,要利用多媒体技术解决计算机视觉和听觉方面的问题,必须引入知识,这必然要引入人工智能的概念、方法和技术。

1.4多媒体研究的主要内容与核心技术6.多媒体信息检索技术多媒体信息检索是根据用户的要求,对图形、图像、文本、声音、动画和视频等多媒体信息进行检索,以得到用户所需的信息。多媒体信息检索系统有着广阔的应用前景,将广泛地应用于电子会议、远程教学、远程医疗、电子图书馆、艺术收藏和博物馆管理、地理信息系统、遥感和地球资源管理、计算机支持协同工作等领域。

1.4多媒体研究的主要内容与核心技术7.虚拟现实技术(VR)虚拟现实技术,也称“虚拟环境”或“临境”技术,就是采用计算机多媒体技术生成一个逼真的、具有临场感觉的环境,是一种全新的人机交互系统。它可广泛地应用于模拟训练、科学可视化、军事演习、航天仿真、娱乐、设计与规划、教育与培训、商业等领域,是目前和今后若干年中十分活跃的技术。1.4多媒体研究的主要内容与核心技术8.人机交互技术(HCI)人和计算机之间的交互是目前研究最多的问题之一。计算机能处理和表现越来越多的信息,因此人和计算机之间的交互便显得日益重要。人与计算机之间的信息交流有四种不同的形式,即人-人(通过计算机)、人-机、机-人和机-机。1.4多媒体研究的主要内容与核心技术9.多媒体网络与通信技术传统的电信业务如电话、传真等通信方式已不能适应社会的需要,迫切要求通信与多媒体技术相结合,为人们提供更加高效和快捷的沟通途径,如提供多媒体电子邮件、视频会议、远程交互式教学系统、视频点播等新型的服务。1.4多媒体研究的主要内容与核心技术10.分布式多媒体技术分布式多媒体技术是多媒体技术、网络通信技术、分布式处理技术、人机交互技术、人工智能技术和社会学等多种技术的集成。1.5本章小结以往的信息技术基本上是以单媒体的方式进行的,如音乐、广播、电视等,这种方式难以满足人们对信息交流和处理的要求。多媒体方式则能和人们自然交流及处理信息。多媒体技术并非简单地将几个单媒体技术加在一起,而是多种技术的有机集成而形成的一个新的多媒体系统。多媒体技术已成为人们关注的热点之一,多媒体技术将引起信息社会一场划时代的大变革。

第2章数字音频处理

本章重点:模拟音频与数字音频的概念数字音频的获取音频信号压缩编码音乐合成和语音识别

第2章数字音频处理2.1概述2.2数字音频的获取2.3音频信号压缩编码2.4音乐合成和MIDI2.5语音识别2.6实例VC++播放声音的实现2.7本章小结2.1概述声音是携带信息的重要媒体。研究表明,人类从外部世界获取的信息中,10%是通过听觉获得的,因此声音是多媒体技术研究中的一个重要内容。2.1概述声音是由物体振动产生的,这种振动引起周围空气压强的振荡,从而使耳朵产生听觉的印象。幅值t一个周期-+空气压强图2.1空气压强振荡的波形示意图02.1概述声音的种类繁多,人的语音是最重要的声音。此外,还有动物、乐器等发出的声音,风声、雨声、雷声等自然声音,以及机器合成产生的声音等。

人耳能识别的声音频率范围大约在20~20kHz,通常称为音频(audio)信号。

频率

次声0—20Hz

人耳能听见的声音20Hz—20kHz

超声20kHz—1GHz

特超声1GHz—10THz2.1概述音频信号所携带的信息大体上可分为语音、音乐和音效三类。语音,指具有语言内涵和人类约定俗成的特殊媒体。音乐,指规范的符号化了的声音。音效,指人类熟悉的其他声音。在多媒体系统中,处理的信号主要是音频信号。

2.1概述

声音包含三个要素:音调、音强和音色。基频与音调:一个声源每秒钟可产生成百上千个波,通常把每秒钟波峰所产生的数目称之为信号的频率,单位用赫兹(Hz)或千赫兹(kHz)表示。人对声音频率的感觉表现为音调的高低,在音乐中称为音高。音调正是由频率ω所决定的。

2.1概述

音乐中音阶的划分是在频率的对数坐标(20×log)上取等分而得的。如表所示,20×log261=48.3,20×log293=49.3等。音阶CDEFGAB简谱符号1234567频率(HZ)261293330349392440494频率(对数)48.349.350.350.851.852.853.82.1概述谐波与音色:n×ωo称为基波ωo的n次谐波分量,也称为泛音。音色是由混入基音的泛音所决定的

。幅度与音强:信号的幅度是从信号的基线到当前波峰的距离。幅度决定了信号音量的强弱程度。幅度越大,声音越强。一般用动态范围定义相对强度:

动态范围=20×log(信号的最大强度/信号的最小强度)(dB)

2.1概述音宽与频带:频带宽度,也称为带宽,它是描述组成复合信号的频率范围。通常用频带宽度、动态范围、信噪比等指标衡量音频信号的质量。音频信号的频带越宽,所包含的音频信号分量越丰富,音质越好。动态范围越大,信号强度的相对变化范围越大,音响效果越好。

2.1概述

声音的质量可以通过信噪比来度量。信噪比(SNR,SignaltoNoiseRatio)是有用信号与噪声之比的简称,定义为:

信噪比越大,声音质量越好。2.2数字音频的获取2.2.1采样2.2.2量化2.2.3数字音频的技术指标2.2.4数字音频的文件格式2.2.1采样图2.5模拟信号的采样

所谓采样就是在某些特定的时刻对模拟信号进行取值,如上图所示。采样的过程是每隔一个时间间隔在模拟声音的波形上取一个幅值,把时间上的连续信号变成时间上的离散信号。2.2.1采样

采样时间间隔称为采样周期t,其倒数为采样频率fs=1/t。一般来讲,采样频率越高,则在单位时间内计算机得到的声音样本数据就越多,对声音波形的表示也越精确,声音失真越小,但用于存储音频的数据量越大。

采样定理(奈奎斯特定理)

设连续信号x(t)的频谱为x(f),

以采样间隔T采样得到离散信号x(nT),若满足:T≤──(fc是信号的高端截止频率)

则可以由离散信号x(nT)完全确定连续信号x(t)。12fc

更通俗地讲:只有采样频率高于声音信号最高频率的两倍时,才能把数字信号表示的声音还原为原来的声音。奈奎斯特采样定理用公式表示为:,其中,为声音信号的最高频率。举例:(1)在数字电话系统中,由于电话语音的最高信号频率约为3.4KHz,为将人的声音变为数字信号,电话语音采样频率不低于6.8kHz,通常选为8kHz。(2)要想获得CD音质的效果,则要保证采样频率为44.1kHz,也就是能够捕获频率高达22050Hz的信号。说明:因为人耳能够听见的最高声音频率为20kHz,为了避免高于20kHz的高频信号干扰采样,在进行采样之前,需要对输入的声音信号进行滤波。考虑到滤波器在20kHz处大约有10%的衰减,因此再将其提高10%成为22kHz。这个值再乘以2就得到44kHz的采样频率。但是,为了能够与电视信号同步,PAL电视的扫描为50Hz,NTSC电视的场扫描为60Hz,所以取50和60的整数倍,选用了44100Hz作为激光唱盘声音的采样标准。2.2.2量化

每个采样值在幅度上进行离散化处理的过程称为量化。量化可分为均匀量化和非均匀量化。均匀量化是把将采样后的信号按整个声波的幅度等间隔分成有限个区段,把落入某个区段内的样值归为一类,并赋于相同的量化值。以8bit或16bit的方式来划分纵轴为例,其纵轴将会被划分为28个和216个量化等级,用以记录其幅度大小。数字音频的获取2.2.2量化

非均匀量化是根据信号的不同区间来确定量化间隔。对于信号值小的区间,其量化间隔也小;反之,量化间隔就大。

量化会引入失真,并且量化失真是一种不可逆失真,这就是通常所说的量化噪声。非均匀量化的实现方法通常是将抽样值x通过一个变换后,再对y进行均匀量化,这个变换通常叫做压扩。分为μ律(μ-Law)压扩算法和Α律(A-Law)压扩算法。μ律压扩按下面的式子确定量化输入和输出的关系:x为输入信号幅度,规格化成-1≤x≤1;sgn(x)为x的极性;μ为确定压扩量的参数,它反映最大量化间隔和最小量化间隔之比,取100≤μ≤500。μ越大,压扩越厉害。具体计算时,用μ=255,把对数曲线变成8条折线以简化计算过程。

A律压扩很明显,小信号时为线性特性,大信号时近似为对数特性。这种压扩特性常把压缩、量化和编码合为一体。A律可用13段折线逼近(相当于A=87.6),便于用数字电路实现。北美和日本等地区的采用μ率压扩,我国和欧洲各国均采用Α率压扩。3.声音硬件

采样量化时:模拟到数字的转换器(A/D转换器) 如:话筒(A)->声卡上ADC->数字音频(D)

数字音频回放时:

数字到模拟的转换器(D/A转换器) 如:数字音频(D)->声卡上DAC->扬声器(A)2.2.3数字音频的技术指标1.采样频率(常用频率:8KHz,11.025KHz,22.05KHz,44.1KHz等)2.

量化位数(常用:8位,12位,16位)3.通道(声道)个数(Mono–

单声道,Stereo–

双声道,

四声道环绕–4.1声道,DolbyAC-3音效–5.1声道)

数字音频数据量计算

数据传输率是计算机处理时基本参数。未经压缩的数字音频数据传输率可按下式计算:数据传输率=采样频率×量化位数×声道数

数字音频数据量计算CD音质(20Hz--20KHz):

44.1KHz采样,16位量化,双声道

数据量为44100*16*2=1.411Mb/s(2)AMRadio音质(50Hz--7KHz):

16KHz采样,14位量化

数据量为16000*14=224Kb/s(3)Telephone音质(300Hz--3400Hz):

8KHz采样,8位量化

数据量为8000*8=64Kb/s举例例:假定语音信号的带宽是50Hz—10kHz,而音乐信号的是15Hz—20kHz。采用奈奎斯特频率,并用12bit表示语音信号样值,用16bit表示音乐信号样值,计算这两种信号数字化以后的比特率以及存储一段10分钟的立体声音乐所需要的存储器容量。解:语音信号:取样频率=2×10kHz=20kHz;比特率=20k×12=240kbit/s

音乐信号:取样频率=2×20kHz=40kHz;比特率=40k×l6kbit/s×2=1280kbit/s(立体声)

所需存储空间=1280k×600/8=96MBCD播放器和CD—ROM中使用的光盘是存储立体声音乐和大多数多媒体信息的数字存储体。与之相关的标准称为CD—数字音频(CD—DA)标准。音乐的音频带宽是15Hz~20kHz,因此,最小采样频率为40kHz。实际采样率定义为:44.1kHz传送比特率:CD质量的音频传送比特率计算例2.5假定使用CD—DA标准,求(1)存储60分钟多媒体节目的光盘存储容量;(2)当传输信道的比特率分别为64kbits/s和1.5Mbit/s时,传输30秒多媒体节目的时间。2.2.4数字音频的文件格式

可以将数字音频文件格式分为三类:非压缩格式:WAV,AIFF,AU和PCM;无损压缩格式:FLAC,APE(Monkey'sAudio),WV(WavPack,TTA,ATRAC(AdvancedLossless),m4a(ALAC),MPEG-4SLS,MPEG-4ALS,MPEG-4DST,WindowsMediaAudioLossless(无损WMA),和SHN(Shorten).有损压缩格式:Opus,MP3,Vorbis,Musepack,AAC,ATRAC和WindowsMediaAudioLossy(有损WMA).WAV是MicrosoftWindows提供的音频格式。这个格式是目前通用音频格式,它通常用来保存一些没有压缩的音频。目前所有的音频播放软件和编辑软件都支持这一格式。可用软件:SoundForge,Audition,WaveLab等。WAV文件由三部分组成:文件头(标明是WAV文件、文件结构和数据的总字节数)、数字化参数(如采样频率、声道数、编码算法等),实际波形数据。一般来说,声音质量与其WAV格式的文件大小成正比。WAV文件格式简介WAVE(WaveformAudioFileFormat)文件是多媒体中使用的声音文件格式之一,它以RIFF格式为基础,每个WAVE文件的头四个字节为“RIFF”。WAVE文件的扩展名为“.WAV”。WAVE文件格式WAVE文件格式Format块Sound数据块RIFFWAVEChunkWAVE文件由文件头和数据两部分组成。最小的WAVE文件结构

__________________________|RIFFWAVEChunk||groupID='RIFF'||riffType='WAVE‘||__________________|||FormatChunk||||ckID='fmt'||||__________________|||__________________|||SoundDataChunk||||ckID='data‘||||__________________|||_________________________|RIFFWAVE块头

块标志‘RIFF’块大小(32-bits)Wave类型标志‘WAVE’TheFormat(fmt)Chunk格式块(fmt)是WAVE文件必选项,描述波形文件的基本参数,如采样率、位分辨率以及通道数等。#defineFormatID'fmt'/*chunkIDforFormatChunk.*/typedefstruct{IDchunkID;longchunkSize;shortwFormatTag;/*currentlyPCM*/unsignedshortwChannels;/*numofchannels*/unsignedlongdwSamplesPerSec;/*samplerateinHz*/unsignedlongdwAvgBytesPerSec;/*xxxBytes/s*/unsignedshortwBlockAlign;/*1/2/4-->8/16mono/stereo*/unsignedshortwBitsPerSample;/*bitsinasample*//*根据wFormatTag不同,可以有附加字段.*/}FormatChunk;DataChunk数据块包含实际的波形数据:#defineDataID'data‘/*chunkIDfordataChunk*/typedefstruct{IDchunkID;longchunkSize;unsignedcharwaveformData[];}DataChunk;

OffsetDescription-------------------------------------------------------OffsetContents-------------------------------------------------------0x00chunkid'RIFF‘0x04chunksize(32-bits)0x08wavechunkid'WAVE‘0x0C

formatchunkid'fmt'0x10

formatchunksize(32-bits)0x14formattag(currentlyPCM)0x16numberofchannels1=mono,2=stereo0x18samplerateinHz0x1Caveragebytespersecond------------------------------------------------------------------------------------------------------OffsetContents-------------------------------------------------------

0x20numberofbytespersample 1= 8-bitmono 2= 8-bitstereoor 16-bitmono 4=16-bitstereo0x22numberofbitsinasample

0x24

datachunkid'data'

0x28

lengthofdatachunk(32-bits)0x2CSampledata……-----------------------------------------------2.2.4数字音频的文件格式MP3文件格式简介

MP3是第一个实用的有损音频压缩编码技术。在MP3出现之前,一般的音频编码即使以有损方式进行压缩,能达到4:1的压缩比例已经非常不错了。但是,MP3可以实现12:1的压缩比例。衡量MP3文件的压缩比例通常使用比特率来表示。通常比特率越高,压缩文件就越大,但音乐中获得保留的成分就越多,音质就越好。

2.2.4数字音频的文件格式MIDI文件格式简介

MIDI最初应用在电子乐器上用来记录乐手的弹奏,以便以后重播。随着在电脑里面引入了支持MIDI合成的声音卡之后,MIDI才正式地成为了一种音频格式。MIDI的内容除了乐谱之外还记录了每个音符的弹奏方法。2.2.4数字音频的文件格式普通的MIDI文件许多播放器都支持,但要达到好的效果就必须安装软波表,比如WinGroove、RolandVirtualSoundCanvas和YAMAHAS-YXGPlayer。如果要对MIDI文件进行编辑,可以使用的比较出名的软件是AnvilStudio和Sonar。另外还有一些曲谱软件,比如Sibelius。2.3音频信号压缩编码2.3.1概述2.3.2编码方法2.3.3音频数据的标准2.3.1音频编码基础为什么要进行语音编码?为什么能进行语音编码?为什么要进行语音编码?随着对音质要求的增加,信号频率范围逐渐增加,要求描述信号的数据量也就随之增加,从而带来处理这些数据的时间和传输、存储这些数据的容量增加,因此多媒体音频压缩技术是多媒体技术实用化的关键之一。语音信号中存在多种冗余度:

时域信息的冗余度

(1)幅度的非均匀分布

(2)样本间的相关

(3)周期之间的相关

(4)基音之间的相关

(5)静止系数

(6)长时自相关函数‘1’‘2’例:语音的时域信息的冗余度基音周期(音调周期)一个单音‘1’(1)非均匀的长时功率谱密度

(2)语音特有的短时功率谱密度人的听觉感知机理

(1)人的听觉具有掩蔽效应

(2)人耳对不同频段的声音的敏感程度不同

(3)人耳对语音信号的相位变化不敏感2.频域信息的冗余度在给定的编码速率下获得尽可能好的高质量语音。

1.主观评价

(1)可懂度评价

(2)音质评价:平均意见得分、判断满意度测量

2.客观评价语音编码系统性能评价2.3.1概述根据解压后数据是否有失真可以将音频压缩分为无损压缩(无失真压缩)和有损压缩(有失真压缩)。无损压缩的压缩效率低,但是可以无失真地重现原始数据。有损压缩的压缩效率较高,但有数据丢失。2.3.1概述

音频信息编码技术主要可分为三类。波形编码:这种方法主要基于语音波形预测,它力图使重建的语音波形保持原有的波形状态。常用的波形编码技术有增量调制(DM)、自适应差分脉冲编码调制(ADPCM)、子带编码(SBC)和矢量量化编码(VQ)等等。

2.3.1概述

波形编码的特点是在高码率的条件下获得高质量的音频信号,适用于高保真度语音和音乐信号的压缩技术。它的优点是编码方法简单、易于实现、适应能力强、语音质量好等,缺点是压缩比相对来说较低,需要较高的编码速率。2.3.1概述参数编码:参数编码的方法是将音频信号以某种模型表示,再抽出合适的模型参数和参考激励信号进行编码;声音重放时,再根据这些参数重建即可。显然参数编码压缩比很高,但计算量大。它主要用于在窄带信道上提供4.8kb/s以下的低速语音通信和一些对延时要求较宽的应用场合(如卫星通信等)。最常用的参数编码法为线性预测(LPC)编码。

2.3.1概述混合编码:这种方法克服了原有波形编码与参数编码的弱点,并且结合了波形编码的高质量和参数编码的低数据率。混合编码是指同时使用两种或两种以上的编码方法进行编码。由于每种编码方法都有自己的优势和不足,若是用两种或两种以上的编码方法进行编码,可以优势互补,克服各自的不足,从而达到高效数据压缩的目的。2.3.2编码方法

常用的音频编码压缩算法有以下几种。增量调制

增量调制(DM)是一种比较简单的波形编码方法。在编码端,由前一个输入信号的编码值经解码器解码可得到下一个信号的预测值。输入的模拟音频信号与预测值在比较器上相减,从而得到差值。差值的极性可以是正也可以是负。若为正,则编码输出为1;若为负,则编码输出为0。这样,在增量调制的输出端可以得到一串1位编码的DM码。

2.3.2编码方法译码器比较器极性判别信道调制器输入信号脉冲发生器-+增量调制的系统结构图问题1:斜率过载

当语音信号大幅度发生变化时,阶梯波形的上升或下降有可能跟不上信号的变化,因而产生滞后,这种失真称为“过载失真”。在斜率过载期间的码字将是一连串的0或者一连串的1。

当话音信号不发生变化或者变化很缓慢时,预测误差信号将等于零或具有很小的绝对值,在这种情况下,编码为0和1交替出现的序列。这样,在解码器中所得到的是等幅脉冲序列,这样形成的噪声称为散粒噪声。问题2:散粒噪声

1111111000011000100100U(模拟输入)输出码图2.8增量调制编码过程示意图

为了减少散粒噪声,希望使输出编码1位所表示的量化阶距小一些。但是,减少量化阶距会使在固定采样速度下产生更严重的斜率过载。为了解决这些矛盾,促使人们研究出了自适应增量调制(ADM)方法。分析2.3.2编码方法自适应增量调制(ADM)

在ADM中,常用的规则有两种:一种是控制可变因子M,使量化阶距在一定范围内变化。对于每一个新的采样,其量化阶距为其前面数值的M倍。而M的值则由输入信号的变化率来决定。如果出现连续相同的编码,则说明有发生过载的危险,这时就要加大M。当0、1信号交替出现时,说明信号变化很慢,会产生散粒噪声,这时就要减少M值。2.3.2编码方法其典型的规则为:

另一类使用较多的自适应增量调制称为可变斜率增量调制。其工作原理如下:如果调制器连续输出三个相同的码,则量化阶距加上一个大的增量,也就是说,三个连续相同的码表示有过载发生。反之,则量化阶距增加一个小的增量。

2.3.2编码方法

可变斜率增量的自适应规则为:

式中,可在0~1之间取值。可以看到,的大小可以通过调节增量调制来适应输入信号变化所需时间的长短。P和Q为增量,而且P要大于等于Q。2.3.2编码方法脉冲编码调制PCM

PCM编码是对连续语音信号进行空间采样、幅度量化及用适当码字将其编码的总称。PCM是一种最通用的无损压缩编码,其特点是保真度高,解码速度快,但编码后的数据量大。CD-DA就是采用的这种编码方式。PCM方法可以按量化方式的不同,分为均匀量化PCM、非均匀量化PCM和自适应量化PCM等几种。

2.3.2编码方法差分脉冲编码调制DPCM

差分脉冲编码调制的中心思想是对信号的差值而不是对信号本身进行编码。这个差值是指信号值与预测值的差值。预测值可以由过去的采样值进行预测,其计算公式如下所示:2.3.2编码方法

式中为预测系数。因此,利用若干个前面的采样值可以预测当前值。当前值与预测值的差为:

差分脉冲编码调制就是将上述每个样点的差值量化编码,而后用于存储或传递。2.3.2编码方法自适应差分脉冲编码调制ADPCM

将自适应量化器和自适应预测器结合在一起用于DPCM之中,从而实现了自适应差分脉冲编码。ADPCM是一种有损压缩编码,记录的量化值不是每个采样点的幅值,而是该点的幅值与前一个采样点幅值之差。2.3.2编码方法其简化框图如下图所示:图2.10ADPCM框图预测PCM样本++PCM样本+差分量化器ADPC“差值”量化阶调整逆量化器预测器-ADPC“差值”2.3.2编码方法子带编码首先用一组带通滤波器,将输入的音频信号分成若干个连续的频段,并将这些频段称为子带。然后,再分别对这些子带中的音频分量进行采样和编码。最后,再将各子带的编码信号组织到一起进行存储或送到信道上传送。在信道的接收端得到各子带编码的混合信号,将各子带的编码取出来,对它们分别进行解码,产生各子带的音频分量,再将各子带的音频分量组合在一起,恢复原始的音频信号。

2.3.2编码方法

子带编码的原理框如下图:

2.3.2编码方法变换域编码

在子带编码中,划分子带的方法是通过带通滤波器来完成的。另一种方法是通过变换域编码方法,将输入信号直接转换到频域,然后在频域划分各频段,根据不同的频段能量大小分配码字然后编码,接收端解码后再用相应的反变换转换成时域信号。2.3.3音频数据的标准

从数据通信的角度,音频编码标准主要有三种:在电话传输系统中应用的电话质量的音频压缩编码技术标准,如PCM(ITUG.711)等。在窄带综合服务数据网传送中应用的调幅广播质量的音频压缩编码技术标准,如G.722等。在电视传输系统、视频点播系统中应用的音频编码标准,如MPEG音频标准等。

2.3.3音频数据的标准电话质量的音频压缩编码技术标准(1)G.711G.711标准是1972年CCITT(现称为ITU-T)制定的PCM语音标准,采样频率为8kHz,每个样本值用8位二进制编码,因此输出的数据率64kb/s。采用非线性量化μ律或A律,将样本精度为13位的PCM按A律压扩编码,14位的PCM按μ律压扩编码转换为8位编码,其质量相当于12bit线性量化的音质。2.3.3音频数据的标准(2)G.721

G.721标准是1984年ITU-T制定的,主要目的是用于64kbit/s的A律和μ律PCM与32kbit/s的ADPCM之间的转换。它基于ADPCM技术,采样频率为8kHz,每个样本与预测值的差值用4位编码,其编码速率为32kbit/s。对中等电话质量要求的信号能进行高效编码,可在调幅广播和交互式激光唱盘音频信号压缩中应用。

2.3.3音频数据的标准(3)G.728属参数编码分析音频波形并提取其中的听觉特征。将这些特征量化,并传送出去。在接收端用这些特征值和声音合成器再生出声音,其质量可以接近原始信号。用这种方法再生的声音使人感到是合成的,不过可以获得很高的压缩比。G.728标准是一个追求低比特率的标准,其速率为16kbit/s,其质量与32kbit/s的G.721标准基本相当。它使用了LD-CELP(低延时码本激励线性预测)算法。G.729(Jan,2017)G.729是这一系列目前的最新标准,因为其低码率特性,通常用于VoIP(voiceoverInternetProtocol),大致有6.4k,8k,11.8k三种码率适应不同的网速。它主要采用了激励线性预测code-excitedlinearpredictionspeechcoding(CS-ACELP)算法,较为鲁棒。2.3.3音频数据的标准调幅广播质量的音频压缩编码技术标准:调幅广播质量音频信号的频率在50Hz~7kHz范围。CCITT在1988年制定了G.722标准。G.722标准是采用16kHz采样,14bit量化,信号数据速率为224kbit/s,采用子带编码方法,将输入音频信号经滤波器分成高子带和低子带两个部分,分别进行ADPCM编码,再混合形成输出码流,224kbit/s可以被压缩成64kbit/s,最后进行数据插入(最高插入速率达16kbit/s)。2.3.3音频数据的标准

高保真度立体声音频压缩编码技术标准:

高保真立体声音频信号频率范围是50Hz~20kHz,采用44.1kHz采样频率,16bit量化进行数字化转换,其数据速率每声道705kbit/s。ISO/IEC标准组织:MPEG-1、MPEG-2,MPEG-4、MPEG-7和MPEG-21等2.4音乐合成和MIDI2.4.1概述2.4.2计算机上合成音乐的产生过程2.4.3MIDI音乐合成器

2.4.1概述数字音频实际上是一种数字式录音/重放的过程,它需要很大的数据量。法1:录音/重放 最简单的语音生成/输出方法是用适当的速度播放预先录制好的语音。法2:文-语转换基于语音合成技术的文字-语音转换音乐合成在多媒体系统中,除了用数字音频的方式之外,还可以用采样合成的方式产生音乐。音乐合成的方式是根据一定的协议标准,采用音乐符号记录方法来记录和解释乐谱,并合成相应的音乐信号,这也就是MIDI(MusicalInstrumentDigitalInterface)方式。2.4.1概述

MIDI是乐器数字接口的缩写,泛指数字音乐的国际标准,它是音乐与计算机结合的产物。MIDI不是把音乐的波形进行数字化采样和编码,而是将数字式电子乐器弹奏过程记录下来,如按了哪一个键、力度多大、时间多长等。当需要播放这首乐曲时,根据记录的乐谱指令,通过音乐合成器生成音乐声波,经放大后由扬声器播出。2.4.1概述

音乐合成器生成音乐采用MIDI文件存储。MIDI文件是用来记录音乐的一种文件格式,文件后缀是“.mid”或者“.midi”。这种文件格式非常特殊,其中记录的不是音频数据,而是演奏音乐的指令,不同的指令与不同的乐器对应,就像乐队演奏交响曲一样,每一种乐器发出不同的声音,合在一起组成了听众听到的音乐。2.4.1概述

一个MIDI文件包括一个头块和若干个轨迹块。每个轨迹块中可以包含若干个指令,每个指令的基本格式是一样的,在基本格式的基础上各个指令有所差别,指令可以用来记录一个声音、一个系统命令等内容。2.4.2计算机上合成音乐的产生过程MIDI音乐的产生过程如图:图2.12MIDI音乐的产生过程示意图MIDI指令MIDI乐器MIDI接口合成器扬声器音序器MIDI文件音频卡PC机2.4音乐合成和MIDI

把MIDI指令送到合成器,由合成器产生相应的声音。MIDI标准提供了16个通道。按照所用通道数的不同,合成器又可分成基本型和扩展型两种,如下表所示。合成器类型旋律乐器通道打击乐器通道基本合成器13~1516扩展合成器1~9102.4音乐合成和MIDI

MIDI合成的产生方式有两种:FM合成和波形表合成。FM是使高频振荡波的频率按调制信号规律变化的一种调制方式。FM频率调制合成是通过硬件产生正弦信号,再经处理合成音乐。合成的方式是将波形组合在一起。

2.4音乐合成和MIDI

目前较高级的音频卡一般都采用波形表合成方式。波形表的原理是在ROM中已存储各种实际乐器的声音采样,当需要合成某种乐器的声音时,调用相应的实际声音采样合成该乐器的乐音。显然,ROM存储器的容量越大,合成的效果越好,但价格也越贵。2.5语音识别2.5.1文本-语音TTS技术2.5.2语音识别系统实例—深度学习2.5.1文本-语音TTS技术TTS的基本概念文语转换(Text-to-Speech)是将文本形式的信息转换成自然语音的一种技术,其最终目标是力图使计算机能够以清晰自然的声音,以各种各样的语言,甚至以各种各样的情绪来朗读任意的文本。也就是说,要使计算机具有像人一样、甚至比人更强的说话能力。因而它是一个十分复杂的问题,涉及到语言学、韵律学、语音学、自然语言处理、信号处理、人工智能等诸多的学科。2.5.1文本-语音TTS技术TTS分为综合的和连贯的两种类型。综合的语音就是通过分析单词,由计算机确认单词的发音,然后这些音素就被输入到一个复杂的模仿人声音并发声的算法,这样就可以读文本了。通过这种方式,TTS就能读出任何单词,甚至自造的词,但是它发出的声音不带任何感情,带有明显的机器语音味道。2.5.1文本-语音TTS技术

连贯语音系统分析文本从预先备好的文库里抽出单词和词组的录音。数字化录音是连贯的,因为声音是事先录制的语音,听起来很舒服。遗憾的是,如果文本包含没有录的词和短语,TTS就读不出来了。连贯TTS可以被看成是一种声音压缩形式,因为单词和常用的短语只能录一次。连贯TTS会节省开发时间并减少错误,使软件增加相应的功能。2.5.1文本-语音TTS技术TTS系统的主要指标:

自然度(naturalness)自然度是衡量一个TTS系统好坏的最重要的指标。其描述了理解内容之外的信息,如整体容易程度,流畅度,全局的风格一致性,地域或者语言层面的微妙差异等。

可理解性(intelligibility)。可理解性指合成语音的清晰度,即听者对于原信息的提取和理解程度。2.5.1文本-语音TTS技术典型的TTS系统(如百度的DeepVoice)包含5个模块:

字母到音素(grapheme-to-phoneme)的转换模型; 定位音素边界的分割模型; 音素时长预测模型; 基础频率预测模型; 音频合成模型。智能计算机界面包括两个相对独立的部分:“倾听”部分,即语音识别;“诉说”部分,即文语转换。随着这两方面技术的不断发展,将会从根本上改善人-机接口,从而使计算机以崭新的面貌进入人类生活,发挥出更大的作用。End-to-EndProsodyTransferintonation(声调),stress(重音),andrhythm(节奏)TowardsEnd-to-EndProsodyTransferforExpressiveSpeechSynthesiswithTacotron(2018,GoogleBrain)StyleTokensGlobalStyleTokens(GSTs):latent"factors"ofspeechStyleTokens:UnsupervisedStyleModeling,ControlandTransferinEnd-to-EndSpeechSynthesis(2018,GoogleBrain)2.5.2语音识别系统实例-深度学习

语音识别是把输入的语音信号经过数字信号处理后得到一组特征参数,然后将这组特征参数与预存的模板进行比较,从而确定说话者所说内容的一门新的声音识别技术。2.5.2语音识别系统实例-IBMViaVoice

语音识别系统可根据不同的分类方式及依据,分为以下三类:根据对说话人说话方式的要求,可以分为孤立字(词)语音识别系统,连接字语音识别系统以及连续语音识别系统。根据对说话人的依赖程度可以分为特定人和非特定人语音识别系统。2.5.2语音识别系统实例-IBMViaVoice根据词汇量大小,可以分为小词汇量、中等词汇量、大词汇量以及无限词汇量语音识别系统。语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。此外,还涉及到语音识别单元的选取。2.5.2语音识别系统实例语音识别已经存在数十年了,但是直到2016年后才有成熟和易用的产品,比如亚马逊公司的Alexa,微软开发的Cortana和苹果公司的Siri等语音助理产品,原因是深度学习的发展让语音识别足够准确,能够让语音识别在普适环境中得到使用。科大讯飞2.5.2语音识别系统实例在将音频进行传统的采样量化进行数字化后,作为音频数据的预处理,这里以20毫秒时间段将取得的幅值数据进行分组,每组含有320个样本(16000Hz)。使用傅里叶变换来分离各个频带,然后通过将每个频带(从低到高,50Hz为一个频带)中的能量相加,为该音频片段创建了一个特征图(图2.14)。将所有音频片特征图拼起来,就得到了图2.15的人类语音的完整频谱图,神经网络可以更加容易地从频谱图重找到规律。比如低音部分能量较高就可能反应了这是来自一男性讲者的声音。在循环神经网络中预测音频切片完成从音频片段到词语的转录Translatotron直接语音翻译系统2.6实例VC++播放声音的实现

实现音频分析的基础是对音频文件的解析。尽管音频文件的存储格式很多,但基本原理是一致的,因此,本节以wav文件为例,介绍VC++环境中如何实现声音文件的播放。在VC++中可以根据不同的应用要求,用不同的方法实现声音的播放。第一种方法可以直接调用声音播放函数。第二种方法可以把声音作为资源加入可执行文件中。第三种方法是对声音播放的高级处理,这种方法在播放之前可以对声音数据进行处理。2.6实例VC++播放声音的实现直接调用声音播放函数如果只需要简单的播放声音文件,在VC++中的多媒体动态链接库中提供了一组与音频设备有关的函数。利用这些函数可以方便地播放声音。最简单的播放声音方法就是直接调用VC++中提供的声音播放函数:

BOOLsndPlaySound(LPCSTRlpszSound,UINTfuSound)

2.6实例VC++播放声音的实现

或BOOLPlaySound(LPCSTRlpszSound,HMODULEhmod,DWORDfuSound)

其中参数lpszSound是需要播放声音的.WAV文件的路径和文件名,hmod在这里为NULL,fuSound是播放声音的标志。例如播放C:\sound\music.wav可以用:

sndPlaySound(“c:\\sound\\music.wav”,SND_ASYNC)或PlaySound("c:\\sound\\music.wav",NULL,SND_ASYNC|SND_NODEFAULT);如果没有找到music.wav文件,第一种格式将播放系统默认的声音,第二种格式不会播放系统默认的声音。2.6实例VC++播放声音的实现

第二种播放方法是把资源读入内存后作为内存数据播放。具体步骤如下:

(1)获得包含资源的模块句柄:

HMODULEhmod=AfxGetResourceHandle();

(2)检索资源块信息:

HRSRChSndResource=FindResource(hmod,MAKEINTRESOURCE(IDR_WAVE1),_T("WAVE"));

(3)装载资源数据并加锁:

HGLOBALhGlobalMem=LoadResource(hmod,hSndResource);LPCTSTRlpMemSound=(LPCSTR)LockResource(hGlobalMem);2.6实例VC

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论