




已阅读5页,还剩47页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
多媒体技术基础及应用自学指导书李知菲 2005年4月20日于浙江师范大学课程简介多媒体计算机技术及其应用是当今计算机产业发展的新领域。本课程从设计、开发和应用的角度综合讲述了多媒体计算机的基本原理和关键技术。主要内容有:多媒体计算机定义、分类、现状及发展趋势;视频和音频信号的获取、处理及输出;多媒体数据压缩编码的基本算法及现行的编码国际标准;多媒体计算机硬件及软件系统结构;同时还讲述了计算机产业的发展方向,将通讯和多媒体技术作到CPU芯片的实例;最后介绍了三个多媒体应用领域及其核心技术:多媒体数据库及基于内容检索技术、多媒体创作工具及同步技术、多媒体通讯和分布式多媒体系统。它包括:视频会议、多媒体交互式电视技术及计算机支持的协同工作(CSCW)系统。自学目标本课程可作为计算机专业学员的必修课程及其它相关专业学员的选修课程早期的计算机只能处理数字与文字,现在多媒体计算机能够综合处理声、文、图及视频信息,并具有集成性和交互性,因此,它促进了通讯、娱乐和计算机的融合,从而形成新一代的产品,为人类的生活和工作提供全新的信息服务,它是计算机产业重要的发展趋势。通过本课件的学习,使同学了解多媒体计算机发展趋势,掌握多媒体计算机的基础理论知识、熟悉多媒体计算机的应用领域,从而使同学能够设计开发多媒体计算机硬件和软件系统以及多媒体的应用系统。学员自学要求:(学员需要具备的相关知识)为了学好本课程,希望学员先修:(1)数字逻辑电路;(2)操作系统;(3)计算机原理;如果有可能可以辅修:(1)数字信号处理;(2)数字图象处理;(3)数字音频信号处理;(4)模式识别及(5)计算机视觉等课程的相关章节。 本课程要求:(教师对学员自学本课程的要求)学好基础理论知识,提高同学分析问题和解决问题的能力。具体要求是:1了解多媒体计算机的关键技术、现状及发展趋势,2掌握多媒体计算机的基础理论知识:a)视频音频信息的获取、实时处理和输出;b) 多媒体数据压缩编码的原理及现行编码的国际标准;c) 多媒体计算机硬件和软件系统结构.3熟悉多媒体计算机的应用技术:a) 多媒体数据库及基于内容检索;b)多媒体著作工具及同步技术;c) 多媒体通讯及分布式多媒体系统,4通过实验,如设计并编程实现一个多媒体网站或者制作一个电子像册,提高同学的动手能力。自学重点难点多媒体计算机技术基础及应用课程共八章分三大部分:第一部分概述,共一章重要的知识点是:多媒体计算机的定义、分类、关键技术及主要应用领域;第二部分多媒体计算机的基础理论知识,共四章重要的知识点是:数字式视频和音频信息的获取、处理和输出;多媒体数据压缩编码原理及多媒体计算机硬件和软件系统结构。第三部分多媒体计算机应用技术,共三章重要的知识点是掌握三个多媒体应用领域及其核心技术。每章的要点如下:第一章 多媒体计算机技术概述1.多媒体计算机的定义、分类以及多媒体计算机和普通计算机有什么不同,多媒体计算机要解决的关键技术。2.多媒体技术促进了通信、娱乐和计算机的融合。特别是多媒体技术是解决高清晰度电视切实可行的方案,用多媒体技术可制作 VCD、DVD及影视音响卡拉OK机以及个人信息通信中心。3.多媒体计算机技术的应用和发展:多媒体数据库、多媒体通信和多媒体创作工具,以及多媒体计算机的发展趋势。第二章 视频信息获取、处理和显示技术1.数字视频信号的获取与处理的基本概念,数字视频的采样、量化的基本原理;彩色空间的表示及转换和彩色全电视信号的组成。2.视频卡的工作原理、彩色全电视信号的数字锁相和解码器的工作原理,以及视频卡的安装、使用和视频处理软件的使用。3.静态图像和动态图像的文件格式及转换。第三章 音频信息处理1.数字化音频的获取与处理基本概念,模拟音频与数字音频的区别。数字音频采样和量化的基本原理,以及数字音频的文件格式和音频信号的特点。2.音频卡的工作原理,以及音频卡的功能和分类和音频卡的安装使用。 3.音频编码的原理和标准以及编码解码的基本方法。4.音乐合成和MIDI的接口规范,以及MIDI在多媒体技术中的应用,语音识别和合成原理及其分类。第四章 多媒体数据压缩技术1. 多媒体数据压缩编码的重要性和分类。2. 常用压缩编码算法的基本原理及实现技术,预测编码、变换编码(K-L变换、DCT变换)、统计编码(Huffman编码、算术编码)。3. 静态图像压缩编码的国际标准JPEG的原理及实现技术,以及动态图像压缩编码国际标准MPEG的基本原理。第五章 多媒体计算机硬件和软件系统结构1.多媒体计算机MPC的技术标准、MPC的升级方法及MPC的功能和应用领域。 2.了解具有代表性的多媒体计算机系统结构(硬件、软件),如Philips/Sony公司研制的CD-I光盘交互式多媒体计算机系统和Intel/IBM公司研制的DVI数字视频交互式多媒体计算机系统成功和失败的经验教训,理想系统怎样设计实现。 3.将多媒体功能集成到CPU芯片中,一类是以多媒体和通信功能为主,融合CPU芯片原有的计算机功能;另一类是以通用CPU计算机功能为主,融合多媒体和通信功能。 4.把多媒体和通信功能集成到CPU芯片中的设计原则:在设计时采用国际标准;多媒体和通信功能的单独解决变为集中解决;体系结构的设计和算法相结合等。第六章 多媒体数据库与基于内容检索1.媒体数据库的组成、存储和管理。2.多媒体数据库基于内容检索系统的体系结构和关键技术,基于内容检索系统的设计原理和实现技术。第七章 多媒体著作工具与同步方法1.多媒体著作工具的综述,Authorware的功能和使用2.基于事件驱动的多媒体著作工具-Ark 的设计思想3. 多媒体数据的同步方法第八章 多媒体通信和分布式多媒体系统1.视频会议系统的结构原理和标准2.交互式电视技术的结构原理及其关键部件:机顶盒和视频服务器的结构和设计3.计算机支持的协同工作(CSCW)系统的结构及TH-DMCW的设计和实现第一章多媒体计算机技术概述课前思考近年来,多媒体这一术语在计算机领域频繁出现,很多计算机厂商都说自己的产品具有多媒体技术。 何谓多媒体呢?多媒体译自英文的multimedia,multimedia是20世纪80年代初产生的一个英文名词。1976年首次用到Multiple Media一词,其中Multiple的意思是明确的,是多的意思,Media是Medium的复数形式。媒体(Medium)在计算机领域中有两种含义,一是指用以存储信息的实体,如磁带、磁盘、光盘和半导体存储器;一是指信息的载体,如数字、文字、声音、图形和图像。多媒体技术中的媒体是指后者。到了80年代就把这两个词复合成multi-media,用得多了之后就写成multimedia。与multimedia对应的一词是monomedia,其中mono是单一的意思。课前思考1.1节(多媒体计算机的定义、分类及其发展趋势)什么是多媒体计算机技术呢?多媒体与目前的电视有何异同?多媒体计算机是如何分类的?普通计算机和多媒体计算机有区别吗?要把普通计算机变成多媒体计算机要解决的关键技术有哪些呢?带着这些问题,我们来学习本章的1.1节。课前思考1.2节(多媒体技术促进了通信、娱乐和计算机的融合)为什么说多媒体技术促进了通信、娱乐和计算机的融合呢?通过学习本节的多媒体技术是解决高清晰度电视切实可行的方案,用多媒体技术制作VCD、DVD、影视音响卡拉OK机以及个人信息通信中心等内容,就可以找到问题的答案。课前思考1.3节(多媒体计算机技术的发展和应用)通过学习本节的内容,我们可以看到多媒体计算机技术的应用和发展情况,并对多媒体数据库、多媒体通信和多媒体创作工具以及多媒体计算机的发展趋势有进一步的了解。多媒体数据库要解决的关键技术问题是什么?多媒体数据库基于内容的检索的设计与实现?多媒体通信系统的分类?多媒体通信的关键技术是什么?视频会议系统的分类?视频会议系统要解决的问题?多媒体创作工具的用途和分类?多媒体计算机的发展趋势?带着以上的问题,我们去学习1.3节。自学目标 通过本章的学习,使同学对多媒体计算机的基本概念、发展现状和发展趋势有一定的了解和掌握。本章有三个层次的要求:掌握 多媒体计算机的定义、分类;理解 什么是多媒体计算机的关键技术、多媒体技术和计算机的融合解决了哪些实际问题;了解 多媒体计算机发展史上卓有成效的公司和系统、多媒体计算机的应用、发展现状和进一步的发展趋势。自学指南 本章是多媒体计算机技术基础及应用课程的概述部分,重点介绍多媒体计算机的基本概念、发展现状和发展趋势。在多媒体计算机的基本概念部分,将介绍多媒体计算机的定义、分类和关键技术;在多媒体计算机的发展现状中,将介绍多媒体计算机的应用以及历史上卓有成效的公司和系统;在最后一节中将介绍多媒体计算机的发展趋势。1.1节(多媒体计算机的定义、分类及其发展趋势)自学指南多媒体计算机的定义、分类和关键技术是本章(也是本节)的重点内容。理解和掌握了多媒体计算机的定义,就可以看到普通计算机和多媒体计算机的区别,就可以理解把普通计算机变成多媒体计算机要解决的关键技术。 通过学习光盘上的课程,可以深入理解把普通计算机变成多媒体计算机要解决的各种关键技术的具体含义。从开发和生产厂商以及应用的角度出发多,多媒体计算机可以分成两大类。理解了多媒体计算机的分类后,有助于学习1.2和1.3节内容的学习。本节的其他内容,如1.1.1利用多媒体是计算机技术发展的必然趋势和1.1.3在多媒体计算机发展史上卓有成效的公司和系统的内容,以看书自学为主。具体可以参考由高等教育出版社出版钟玉琢等编写的多媒体技术机技术基础及应用一书上相应章节的内容。1.2节(多媒体技术促进了通信、娱乐和计算机的融合)自学指南从多媒体计算机的分类看家电制造厂商研制的电视计算机,灵巧(智能)电视-Smart TV。通过本节内容的学习,可以了解到家电制造厂商在多媒体领域都做了什么研制工作,如解决常规电视数字化及高清晰度电视、制作V-CD及影视音响卡拉OK机和个人信息通信中心等。家电制造厂商研制的多媒体,促进了通信、娱乐和计算机的融合。本节内容以看书自学为主。具体可以参考高等教育出版社出版的由钟玉琢等编写的多媒体技术机技术基础及应用一书上相应章节的内容。 1.3节(多媒体计算机技术的发展和应用)自学指南 从多媒体计算机的分类看计算机制造厂商研制的计算机电视,发展方向是TV-Killer。计算机制造厂商研制多媒体计算机,可以作为可视电话、视频会议系统终端、卡拉OK机、电视机、录像机、VCD机等。通过本节内容的学习,可以了解到计算机制造厂商在多媒体领域都做了什么研制工作。从多媒体数据库、多媒体通信和多媒体创作工具及其应用等内容中可以看到多媒体计算机的发展现状。通过光盘课程的学习,可以使学生对多媒体数据库要解决的关键技术、多媒体数据库基于内容检索、多媒体通信的分类、多媒体通信的关键技术、视频会议系统的分类、多媒体创作工具的用途和分类等问题有一个概括的了解,为继续学习后续章节的内容打下一个良好基础。 本节还介绍了多媒体计算机进一步的发展趋势。学习光盘课程的同时,也可以参考由高等教育出版社出版钟玉琢等编写的多媒体技术机技术基础及应用一书上相应章节的内容。自学难重点 本章的重点是:多媒体计算机的定义多媒体计算机的分类多媒体计算机的关键技术本章的难点是:多媒体计算机的关键技术掌握了多媒体计算机的定义,不仅可以理解电视与多媒体的异同,而且还可以进一步理解普通计算机和多媒体计算机的区别,也就能进一步掌握把普通计算机变成多媒体计算机要解决的关键技术。掌握了多媒体计算机的分类,有助于学习1.2和1.3节的内容。本章小结作为多媒体计算机技术基础及应用课程的概述,本章对多媒体计算机的基本概念、定义、分类、多媒体计算机要解决的关键技术以及多媒体技术的发展现状和多媒体计算机的发展趋势等均作了详细的讨论。多媒体计算机技术是综合处理声、文、图、音频、视频等信息。多媒体计算机具有信息载体的多样性、集成性和交互性。多媒体技术促进了通信、娱乐和计算机的融合,为解决电视数字化和高清晰度电视提供了切实可行的方案。应用多媒体计算机技术可制作V-CD、DVD、影视音响设备以及制作个人信息通信中心。多媒体技术的发展促进了多媒体数据库、多媒体通信、多媒体创作工具的发展及应用。多媒体计算机将朝着高分辨率、提高显示质量、高速化、简单化、智能化的方向发展。课后习题1、多媒体计算机的定义是什么?2、多媒体计算机从开发、生产厂商及应用的角度可分哪两大类?3、要把一台普通计算机变成多媒体计算机需要解决哪些关键技术?第二章视频信息获取、处理和显示技术课前思考人类感知客观世界有70%的信息是由视觉获取。多媒体计算机能够处理声、文、图和视频,从而改变了使用计算机的方式,为计算机进入人类生活和生产的各个领域打开了大门,它为计算机产业开辟了非常广阔的市场。这一章要考虑的问题是: 计算机如何将视频信号获取到计算机中? 计算机如何实时处理视频信号? 计算机如何显示视频信号以及图像文件格式的转换技术?希望同学能够带着上述问题,学习这一章。课前思考2.1节(图像的彩色空间表示及其转换)我们要把视频信息送到计算机中,首先要搞清楚什么是视频信号?视频信号用得最多的地方是电视广播,彩色全电视信号是视频信号的代表,所以这一章一定要学会什么是彩色全电视信号?要掌握彩色全电视视频,还要搞清楚:什么是黑白全电视信号?彩色空间的表示方法及其转换?要较好的掌握上述问题,最好找些有关电视机 摄像机原理的书,阅读相关的章节。课前思考2.2节(视频信号获取技术)我们已经知道黑白全电视信号及彩色全电视信号,下面要解决的问题是,我们设计一个什么样的视频信号获取器,才能把黑白或彩色全电视信号中的图像信号数字化后,送到计算机的存贮器中?关于视频信号获取器的工作原理,设计和实现技术参考书和文献资料比较少,清华大学计算机系,曾经安排了两届本科的毕业设计,完成了上述任务。如果有可能可以参考王建庆和扬西东两同学本科的毕业论文。他们的论文详细地阐述了视频信号获取器的工作原理、设计和实现,以及视频信号获取器的诊断和驱动软件。课前思考2.3节(视频信号实时处理)本节的内容主要有以下三个方面: 首先要了解什么是视频信号实时处理?要了解实时的含义是什么? 其次要了解多媒体计算机中视频信号实时处理的应用? 最后要掌握多媒体计算机中用什么方法解决视频信号实时处理问题?为了更深入学习和掌握上述问题,同学可以阅读有关数字图像处理,DSP(Digital Signal Processor)等参考书中的有关章节。 课前思考2.4节(视频信号显示技术及图像文件格式转换)这一节不是本章的重点,要求同学能够了解显示技术及图像文件格式转换。 关于显示技术,如CGA EGA VGA卡的相关内容应该在计算机原理课中学习,掌握显卡的工作原理和设计实现技术,因此在多媒体计算机技术课程中就不作为重点要求,如果同学感到这个问题掌握的不够深入,请阅读微机原理参考书中的有关章节。 关于图像文件格式的转换问题,图像文件格式大部分是公司标准,因为涉及公司利益问题,论述图像文件格式的文献资料比较少,但是最近出了几本图像文件格式及其转换的参考书,同学可以阅读参考。 自学目标 掌握什么是黑白全电视信号及彩色全电视信号; 掌握黑白和彩色全电视信号获取器的工作原理及其设计和实现技术; 掌握视频信号实时处理技术及其实现方案; 熟悉视频信号彩色空间表示及其转换; 了解视频信号显示输出技术; 了解图像文件格式及其转换。自学指南如何获取视频信息,实时处理视频信息以及显示输出视频信息是多媒体计算机关键技术之一,它也是本章讲述的重点内容。为了学好上述内容,还希望同学能够掌握什么是黑白全电视信号?彩色空间表示及彩色空间转换以及什么是彩色全电视信号?这些是基础知识。2.1节(图像的彩色空间表示及其转换)1、首先学习掌握颜色中计算机和电视中的表示方法:R、G、B和Y、U、V或YIQ (RGB=红绿蓝;Y亮度,UV或IQ是色差信号);2、其次掌握它们之间的转换,如R:G:BY:U:V或Y:I:Q的转换公式;3、还有一个书上没有,需要补充,希望同学掌握的问题是:什么是黑白全电视信号?什么是彩色全电视信号?这个问题是视频信号获取器设计实现的基础。4、还有许多彩色空间的其它表示方法:如H(Hue色调)S(Saturation饱和度)I(Intensity强度),CIEXYZ,CIELAB等彩色空间表示法,希望同学能够一般了解一下就可。2.2节(视频信息获取技术)为了深入学习视频信号获取器的工作原理和设计实现技术,首先要掌握黑白全电视信号视频获取器的工作原理及设计和实现技术;其次要掌握数字式锁相及数字式解码的工作原理;最后要掌握彩色全电视信号视频获取器的工作原理及实现技术;同时也要熟悉视频信号获取器诊断和驱动软件的设计和实现. 2.3节(视频信息的实时处理)首先要搞清视频信息实时处理的概念,电视扫描光栅一行时间为64s,正程为52.2s,逆程为11.8s,如果一行的分辨率为512个象素的话,实时处理一个象素的时间近似为0.1s;如果一行的分辨率为256个象素时,实时处理一个象素的时间近似为0.2s。如果要对一个象素作卷积,最小的卷积核是33,如果一行的分辨率512个象素,这时要在0.1s时间内作9个乘法和9个加法运算,这是普通计算机无法完成的,所以要找出能够完成视频信号实时处理的方法,这一节主要讲述:采用查找表LUT(Look Up Table)的方法;采用DSP(Digital Signal Processor)方法;采用流水线结构的图像处理机的方法。通过这节的学习,希望同学能够掌握视频信息实时处理。明白为什么需要对视频信息进行实时处理,实时处理通常采用哪些方法以及上述方法是如何实现视频信息的实时处理的。2.4节(视频信息显示技术及图像文件格式转换)视频显示技术采用的原理与CGA、EGA、VGA及XGA卡一样,它们应该在计算机原理中学过,这里就不作重点,如果关于显示技术还不十分清楚,请参考计算机原理和微机原理有关章节。关于图像文件格式转换,也不作为多媒体计算机课程的重点,但是有时会用到,如制作电子出版物、课件及多媒体应用系统时会遇到图像文件格式转换的问题,一方面可以选用多媒体著作工具中图像文件格式转换控件,一方面可以找些图像文件格式的书参考解决。 上述两个问题,希望同学能够一般了解就行。自学难重点本章的重点是: 什么是黑白全电视信号? 什么是彩色全电视信号? 彩色空间表示及其转换; 黑白视频信号获取器的工作原理和实现技术; 数字式锁相和数字式解码技术; 彩色视频信号获取器的工作原理和实现技术; 视频信号的实时处理方法。 本章的难点: 彩色视频信号获取器的设计和实现; 视频信号实时处理的方法及其实现。本章小结本章详细阐述了视频信号的获取,实时处理以及显示输出技术,它是多媒体计算机关键技术之一。1、为了使同学能够深入掌握上述关键技术,我们首先给同学讲述了一些基础知识:什么是黑白电视信号;颜色的基本概念;彩色空间的表示方法;彩色空间的转换公式;彩色全电视信号。2、 在此基础上我们进一步给同学讲述,把视频信息获取到计算机中的方法和实现技术:黑白视频信号获取器的工作原理和实现;数字式锁相和数字式解码;彩色视频信号获取器的设计和实现以及视频信号获取器的诊断和驱动软件。3 、同时还讲述了视频信息实时处理问题:视频信号实时处理的基本概念;采用查找表LUT(Look Up Table)的视频信号实时处理的方法;基于DSP(Digital Signal Processor)的视频信号快速处理器,以及流水线结构的图像处理机。4 、最后给同学介绍了视频信号显示输出问题:显示技术的基本概念;视频显示技术的原理与实现;图像文件格式及其转换。课后习题1、什么是黑白全电视信号?2、什么是彩色全电视信号?3、为什么选用YUV彩色空间?它与RGB彩色空间的关系如何?第三章音频信息处理课前思考多媒体技术的特点是交互式地综合处理声文图信息。在多媒体系统中,语音和音乐是不可少的。没有音频的视频是不可接受的。音频和视频同步,使视频图像更具真实性。娓娓动听的音乐和解说,使静态图像变得更加丰富多彩。可视电话、电视会议中的声音更为重要。传统计算机与人交互是通过键盘和显示器,人们通过键盘或鼠标输入,通过视觉接收信息。然而听觉也是一个重要的信息通道。声音是人们最熟悉最习惯的传递信息方式。为计算机增加音频通道,使人机交互像人与人交流那样自然友好,这是人类的美好愿望。从第一台计算机诞生以来,专家们就为之付出了巨大的努力。设计师为计算机安上了嘴巴(扬声器),让计算机奏乐、讲话;还为计算机装上了耳朵(麦克风),让计算机听懂、理解人的讲话。网络专家还期望分布在不同地点的计算机成为顺风耳,实现音频实时传播。人们期望以最自然的方式与计算机交互,要求计算机不仅能处理文字、数字,还应能处理声音和图像。本章共分九个小节,第一节 综述了多媒体中音频信号处理应用和处理技术;第二节和第三节分别介绍了音频编码算法和部分音频编码的国际标准,这是本章的重点;第四节介绍了计算机话语输出的研究;第五节扼要介绍了音乐合成MIDI技术;第六节介绍了立体声模拟的一些基础知识;第七节介绍了音频基于内容检索的初步研究成果;第八节简单介绍了语音识别的研究现状;第九节列举了音频卡的现状和发展。 课前思考3.1节(多媒体中音频信息)这一节是概述课,综述了多媒体中音频信号处理应用和处理技术,如:多媒体中音频处理技术的应用领域?什么是模拟音频和数字音频?它们的特点是什么?什么是音频信息的数字化?什么是采样和量化?量化的过程?常用的音频采样频率有哪些?音频信号处理的特点? 带着这些问题,学习本章的3.1节。课前思考3.2节(音频的编码基础)音频编码的目的在于压缩数据。在多媒体音频数据的存储和传输中,数据压缩是必须的。通常数据压缩造成音频质量的下降、计算量的增加。因此,人们在实施数据压缩时,要在音频质量、数据量和计算复杂度等三方面进行综合考虑。 为了实现音频数据压缩,多方面的专家致力于算法的研究,众多的企业致力于芯片和产品的研制,国际标准化组织也先后推出一系列建议。高质量高效率的音频压缩技术广泛地用于多媒体应用、音像制品、数字广播、数字电视等领域。音频编码的分类?数据的压缩必然引起音频质量的降低,那么如何评价编/解码器的优劣呢?音频有几种基本的编码算法?什么是人耳的掩蔽效应?通过学习本节就可以找到答案。课前思考3.3节(音频编码标准)当前编码技术发展的一个重要方向就是综合现有的编码技术,制定全球的统一标准,使信息管理系统具有普遍的互操作性并确保了未来的兼容性。国际上,对语音信号压缩编码的审议在CCITT下设的第十五研究组进行,相应的建议为G系列,多由ITU发表。 国际电报电话咨询委员会(CCITT)和国际标准化组织(ISO)先后提出一系列有关音频编码的建议。带着下面的问题学习本节:音频编码有哪些国际标准?其中典型算法的基本原理是什么?课前思考3.4节(计算机言语输出)从科学研究到日常生活,计算机已渗透到了人类生活的方方面面。在现代社会中,人们愈来愈借助计算机来完成各项事务。在这种形势下,如何让计算机能够智能化地与人通讯,使人机交互更加自然方便成为了现代计算机科学的一个重要研究课题。而自然语言,这一人类生活中使用最广泛的通信方式,自然成为了人机交互方式的理想选择。计算机言语输出所要研究和解决的问题,就是如何利用计算机输出流利的自然语言,使计算机具备说话的能力。 计算机言语输出是一门跨学科的前沿技术它涉及到下列相互独立的各个领域:自然语言理解、语言学、语音学、信号处理、心理学、声学等。它将言语理解与语音生成技术结合在一起,使计算机具备说话的能力。到目前为止,人们向计算机输入信息的主要途径是通过键盘和鼠标,而计算机反馈信息的输出方式是。这种单调的信息输出方式,特别是在的情况下。长时间地注视显示屏容易使人们产生疲劳感,并且将会降低人们获取信息和理解信息的能力。这种枯燥单一的交互方式影响了计算机的应用。另一方面,在现代社会中,信息传输在人们的各项事务中起着十分重要的作用。随着多媒体技术和网络技术的发展,在许多应用中都有大量语音信号需要传送。目前语音信号的传送方式主要是将语音进行编码后传输。这样,要传输的数据量十分庞大,造成了很大的传输负担。计算机言语输出有着广阔的应用前景,实现计算机言语输出可以为这两大问题提供良好的解决方案:1)当屏幕显示有大量信息输出,长时间地注视显示屏容易使人们产生疲劳感,并且将会降低人们获取信息和理解信息的能力;2)随着多媒体技术和网络技术的发展,在许多应用中都有大量语音信号需要传送。目前语音信号的传送方式主要是将语音进行编码后传输。这样,要传输的数据量十分庞大,造成了很大的传输负担。3)它还可应用于残疾人帮助,电话信息查询,文本校对,火车站、飞机场的航班信息报告等领域。实现计算机语音输出有哪两种方法?计算机话语输出按其实现的功能来分,可以分为哪三个档次?语音合成的方法是什么?构建语音基元数据库重点要考虑两个问题是什么?最好上述问题,学习这节内容。课前思考3.5节(音乐合成和MIDI)随着计算机的诞生,就实现了计算机奏乐,不过那仅仅是一个个单音,听起来单调。如何让计算机输出优美的音乐呢?最简单的方法是采取录音/重放方式。音乐的频带宽,需要提高其采样率和量化位数,因而数据率急剧增大。如用44.1K频率抽样,16位表示某立体声音乐,那么每秒钟的数据为176.4K字节。由此可见,若以此种方式存储音乐,即使计算机数据传输率允许,也只能存很短时间的乐曲。 是否可以采取合成方式产生音乐呢?答案是肯定的,电子乐器的蓬勃发展也已经证实。自1976年应用调频(FM)音乐合成技术以来,其乐音已经很逼真。1984年又开发出另一种更真实的音乐合成技术波形表(Wavetable)全成。目前这两种音乐合成技术都应用于多媒体计算机的音频卡中。带着下面的问题学习本节:一个乐音必备的三要素是什么?乐音和噪音的主要区别是什么?什么是调频音乐合成?什么是波表合成?什么是MIDI?什么情况下使用MIDI?课前思考3.6节(真实感声音的模拟) 在多媒体或虚拟现实系统中增加声音是非常必要的,然而,要使多媒体和虚拟现实系统中的声音具有真实世界的声音特性,却不是件容易的事。那时,声音不仅以响度表明她的存在,而且还以它的方向感信息显示出空间特性。我们称这种声音为三维真实感声音。近年来,用计算机来生成真实感声音已引起广泛的关注。研究者首先从声音的本质入手,继而研究人对不同声音的感知特性。从这些原本属于物理声学和心理声学的研究结果中找到了影响人类对三维真实感声音感知的重要因素。这里介绍了两种用于产生三维真实感声音的方法。三维真实感声音的研究还处于起步阶段,它与三维真实感图形的研究相比还显得很不成熟。 课前思考3.7节(基于音频内容的检索技术)随着计算机和多媒体技术的迅速发展,在一个系统中集成多种媒体信息已不在话下,而检索日益庞大的多媒体数据却不那么简单。要想按内容检索,则更为困难。对音频来说,通常是把它作为一种不透明的数据集合来处理,仅涉及到它的文件名、文件格式和采样率。用户只能检索、浏览和读取相关的文本描述。若想了解音频对象的内幕则是不可能的。而多媒体数据库含有几千个音频数据是常有的事,那么要在这样的库内检索一个特定的声音或为声音分类都会令人胆怯。本节将介绍音频分析、检索和分类技术,还将介绍将声音转化为感知参数以及音频检索的应用。读者如果有兴趣,可参考Multimedia ACM会议论文集,全国多媒体技术学术会议论文集(1992-2001)或其他有关的文献资料。课前思考3.8节(语音识别)口语是最自然最有效的交际方式,让说话替代键盘输入汉字是计算机使用者的愿望。这个愿望正在变成现实。其技术基础是语音识别和理解。语音识别是将人发出的声音、字或短语转换成文字、符号,或给出响应,如执行控制、做出回答。语音识别的研究已有几十年的历史。据预测,带有语音功能的计算机将很快成为大众化产品,语音识别将可能取代键盘和鼠标成为计算机的主要输入手段,使用户界面产生一次飞跃,所以语音识别所具有的商业前景是不可估量的。带着下面的问题学习本节:什么是语音识别?语音识别系统的分类?语音识别研究的难点是什么?课前思考3.9节(音频卡工作原理及应用开发)早期的PC机声音输出是由微机内的计时器和机内场声器实现的。由于它编程不便、声音单调,已较少采用。近些年PC游戏兴起、多媒体技术发展,目前绝大多数的声音输出场由PC机的音频卡来实现。市场上音频卡的型号繁多,其基本原理都是一样的。MPC3 对音频卡的要求是目前对音频卡的标准要求,但这还远远没有达到音频卡发展的目标,音频卡在近期的发展将主要集中在进一步改善声音质量、统一音频卡标准、简化安装方法、三维环绕立体声、全双工声音处理、与通信技术的结合以及单一芯片等方面。 音频卡的功能?音频卡的工作原理?音频卡的发展和改进?带着上面的问题学习本节的内容。自学目标多媒体技术的特点是交互式地综合处理声文图信息。在多媒体系统中,语音和音乐是不可少的。没有音频的视频是不可接受的。通过第三章音频信息处理的学习,要求同学熟悉多媒体系统中对音频信息处理的一些内容,具体的自学目标是:熟悉多媒体中音频信号处理应用和处理技术;熟悉音频编码算法和部分音频编码的国际标准;了解计算机话语输出的研究;了解音乐合成MIDI;了解立体声模拟的一些基础知识;了解音频基于内容检索的初步研究成果;了解语音识别的研究现状;熟悉音频卡的现状和发展。自学指南 3.1节(多媒体中音频信息)自学指南这一节是概述课,综述讲述了多媒体中音频信号处理应用和处理技术。这些问题没有难度,看一下教科书即可。建议多找些综述文章,如会议论文集中的特邀报告、计算机世界技术专刊的综述文章,这样有利于同学们深入了解,多媒体中音频信号处理应用和处理技术。3.2节(音频的编码基础)自学指南从信息保持的角度讲,只有当信源本身具有冗余度,才能对其进行压缩。根据统计分析结果,语音信号存在着多种冗余度,其最主要部分可以分别从时域和频域来考虑。另外由于语音主要是给人听的,所以考虑了人的听觉机理,也能对语音信号实行压缩。希望同学熟悉音频编码的分类,了解如何评价编/解码器的优劣,进一步掌握音频的几种基本编码算法。3.3节(音频编码标准)自学指南通过这节学习,希望同学能够了解和熟悉国际电报电话咨询委员会(CCITT)和国际标准化组织(ISO)先后提出一系列有关音频编码的建议,如:G.711标准;G.721标准C.722标准;G.723标准;G.728标准;G.729标准; 等音频编码标准,重点熟悉其典型算法的基本原理。3.4节(计算机言语输出)自学指南在现实生活中,信息的表达是通过图像与声音结合的方式进行的。因而,通过计算机言语输出,使得计算机具有对信息进行讲解的能力,从而提供声文并茂的信息表示方式,可以极大地改善人机交互枯燥乏味的状况,为计算机的普遍应用创造条件。而在信息传送领域,由于计算机言语输出的实现,从文字到语音,甚至从概念到语音的转换为语音信号的传送提供了十分优越的解决方式。一段长为3K到4K字节的语音信号可以用一到两个字节的ASCII码来代替,这种大幅度的数据量压缩给信号传输网络带来的好处是显而易见的。通过这节的学习,希望同学了解实现计算机语音输出有哪两种方法,计算机话语输出按其实现的功能来分,可以分为哪三个档次?要深入了解请参考有关的学术会议论文集。 3.5节(音乐合成和MIDI)自学指南自1976年应用调频(FM)音乐合成技术以来,其乐音已经很逼真。1984年又开发出另一种更真实的音乐合成技术波形表(Wavetable)合成。目前这两种音乐合成技术都应用于多媒体计算机的音频卡中。通过这节的学习,希望同学了解一个乐音必备的三要素,乐音和噪音的主要区别,调频音乐合成和波表合成以及MID和什么情况下使用MIDI等方面的内容。3.6节(真实感声音的模拟)自学指南本节介绍了两种用于产生三维真实感声音的方法,同学可以看教材学习。要深入了解请参考有关的学术会议论文集或查找相关的资料。 三维真实感声音的研究还处于起步阶段,它与三维真实感图形的研究相比还显得很不成熟。3.7节(基于音频内容的检索技术)自学指南基于内容的检索技术是多媒体计算机领域一个热点课题,通过这节的学习,希望同学了解音频分析、检索和分类技术,如何将声音转化为感知参数以及音频检索的应用。读者如果有兴趣,可参考Multimedia ACM会议论文集,全国多媒体技术学术会议论文集(1992-2001)或其他有关的文献资料。也可以阅读清华大学同学的毕业设计论文。3.8节(语音识别)自学指南随着计算机科学技术的发展,人们已经不能满足于仅仅通过键盘和显示器同计算机交换信息,而是迫切需要一种更加自然的、更加能为多数人所接受的方式与计算机沟通,让计算机能听懂人们说的话,或是用语音来控制各种自动化系统。使用人类自己交换信息的最直接最方便的形式-语言,来与计算机通信,一直是人类的梦想,从而也就诞生了一门新的学科-计算机语音学(computer phonetics)。人们对于计算机语音学的研究主要包括以下几个方面:语音编码(speech coding)、语音合成(speech synthesis)、语音识别(speech recognition)、语种识别(language identification)、说话人识别(speaker recognition)或说话人确认(speaker verification)等。语音识别的目标长久以来一直是人们的美好梦想,让计算机听懂人说话是发展人机语音通信和新一代智能计算机的主要组成部分。尤其是在当今的信息时代,随着计算机处理和存储能力的不断增强,如何把大量信息输入计算机成为日益突出的问题,而语音识别就提供了一种最自然、最方便的方法。随着计算机的普及,越来越多的人在使用计算机,如何给不熟悉计算机的人提供一个友好的人机交互手段,也逐渐引起人们的重视,而语音识别技术就是其中最自然的一种交流手段。所以,随着计算机技术与应用的发展,语音识别也引起了越来越多的人关注。通过这节的学习,希望同学了解语音识别的发展、分类、研究的难点和应用。3.9节(音频卡工作原理及应用开发)自学指南第一块音频卡是在1987年由Adlib公司设计制造,当时主要用于电子游戏,作为一种技术标准,几乎被所有电子游戏软件采用。随后,新加坡Creative公司推出了音频卡系列产品,广泛地被世界各地微机产品选用,并逐渐形成这一领域新的标准。音频卡的出现,不仅为电脑进入家庭创造了条件,而且也有力地推动了多媒体计算机技术的发展。通过这节的学习,希望同学熟悉音频卡的功能、分类、工作原理以及音频卡的发展和改进?要深入了解请参考相关的资料。自学难重点本章是多媒体计算机的又一个关键技术。本章的重点是:(1) 多媒体中音频信号处理应用和处理技术; (2) 音频的几种基本编码算法;(3) 模拟音频和数字音频以及它们的特点;(4) 声音数字化的两个步骤;(5) 采样和量化;(6) 音频编码的目和分类(7) 音频卡的现状和发展(8) 音频信号处理的特点是什么(9) 音乐合成和MIDI本章的难点是:(1) 计算机话语输出的研究;(2) 音频波形编码的三种基本的编码算法(3) 波形编码的基本思想(4) 参数编码的基本思想(5) 混合编码的基本思想(6) 音频基于内容检索的初步研究成果;(7) 语音识别的研究现状。(8) 评价编/解码器的优劣(9) 部分音频编码的国际标准。本章的重点希望同学能够熟悉,本章的难点希望同学能了解。本章小结本章主要讲述了九个问题:1、多媒体中音频信息音频处理技术的应用领域:随着多媒体信息处理技术的发展和计算机数据处理能力的增强,音频处理技术倍受重视,并得到了广泛的应用。如:视频图像的配音、配乐;静态图像的解说、背景音乐;可视电话、电视会议中的话音;游戏中的音响效果;虚拟现实中的声音模拟;用声音控制Web,电子读物的有声输出。除了上述众所熟知的音频技术应用外,还可以应用的领域有:Internet 电话 (IP phone);声音欺骗系统;现代芝麻开门系统;用光盘听书;Internet上的实时音频等数字音频:计算机内的音频必须是数字形式的,因此必须把模拟音频信号转换成用有限个数字表示的离散序列,即实现音频数字化。在这一处理技术中,涉及到音频的采样、量化和编码。时间上的离散叫采样,幅度上的离散称为量化。音频信号处理的特点如下:(1)音频信号是时间依赖的连续媒体。因此音频处理的时序性要求很高。如果在时间上有25ms 的延迟,人就会感到断续。(2)由于人接收声音有两个通道(左耳、右耳),因此为使计算机模拟自然声音,也应有两个声道,即理想的合成声音应是立体声。(3)由于语音信号不仅仅是声音的载体,同时还携带了情感的意向,故对语音信号的处理,不仅是信号处理问题,还要抽取语意等其它信息。因此可能会涉及到语言学、社会学、声学等。 2、音频的编码基础音频编码的目的在于压缩数据。在多媒体音频数据的存储和传输中,数据压缩是必须的。通常数据压缩造成音频质量的下降、计算量的增加。因此,人们在实施数据压缩时,要在音频质量、数据量、计算复杂度三方面进行综合考虑。从信息保持的角度讲,只有当信源本身有冗余时,才能对其进行压缩。音频编码的分类:(1)基于音频数据的统计特性进行编码,其典型技术是波形编码。波形编码的基本思想是,不利用生成语音信号的任何知识而是产生一种重构信号,它的波形与原始话音波形尽可能地一致。一般来说,这种编码方法的复杂程度比较低,数据率在16Kb/s以上,质量相当高。低于这个数据率时,音质急剧下降。(2)基于音频的声学参数,进行参数编码,可进一步降低数据率。参数编码的基本思想是从话音波形信号中提取生成话音的参数,使用这些参数通过话音生成模型重构出话音。在话音生成模型中,声道被等效成一个随时间变化的滤波器,它由白噪声-无声话音段激励,或者由脉冲串-有声话音激励。因此需要传送给解码器的信息就是滤波器的规格、发声或不发声的标志和有声话音的音节周期,并且每隔10-20ms更新一次。混合编码的基本思想是希望填补波形编码和参数编码之间的隔阂。波形编码虽然可以提供高话音的质量,但在数据率低于16Kb/s的情况下,在技术上还没有解决音质的问题;而参数编码的数据率虽然可以降到2.4Kb/s甚至更低,但它的音质根本不可能与自然话音相提并论。为了得到音质高而数据率又低的编码器,就出现了混合编码的方法。这种方法希望寻找一种激励信号,使用这种激励信号产生的波形尽可能接近于原始话音的波形。波形编码和参数编码是依据波形本身的相关性和模拟人的发音器官的特性进行编码的方法,(3)基于人的听觉特性进行编码。当处理10Hz-20000 Hz范围的声音时,数据压缩主要依据是人耳的听觉特性,使用心理学模型(psycho acoustic model)来达到压缩声音数据的目的。心理学模型中一个基本的概念就是听觉系统中存在一个听觉阈值电平,低于这个电平的声音信号就听不到,因此就可以把这部分信号去掉。听觉阈值的大小随声音频率的改变而改变,每个人的听觉阈值也不相同。大多数人的听觉系统对2KHz-5KHz之间的声音最敏感。一个人是否听到声音取决于声音的频率,以及声音的幅度是否高于这种频率下的听觉阈值。心理声学模型中另一个概念是听觉掩饰特性,即听觉阈值电平是自适应的,也就是听觉阈值电平会随听到的不同频率的声音而发生变化。例如,同时有两种频率的声音存在,它们的强度不同,分贝低的声音就听不到。比如在一个安静的房间可以听到我们普通的谈话声音,但在播放音乐的环境下同样的普通谈话就听不清楚了。所以,声音压缩算法可以确立这种感知加权特性的模型来消除更多的冗余数据。几种基本的编码算法:脉冲编码调制(Pulse Code Modulation,简称PCM)脉冲编码调制(Pulse Code Modulation,简称PCM),它是概念上最简单、理论上最完善的编码系统;是最早研制
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- DB3415-T 92-2024 知识产权质押融资工作指南
- 数理金融笔试题目及答案
- 植物保护考试试题及答案
- 北京事业编笔试题及答案
- 2025年人卫版的三基护理题库及答案
- 广西建筑c证考试真题及答案
- 广东消防考试题库及答案
- 2025年CPA考试 会计科目专项训练:全真试题汇编与解题技巧
- 精密铸件与锻造技术企业制定与实施新质生产力项目商业计划书
- 有机农业金融服务创新创业项目商业计划书
- 《抗生素的临床应用》课件
- 微生物检验技能-细菌的生化试验
- 导数的应用-函数的零点问题(5题型分类)-2025年高考数学一轮复习(解析版)
- 2025年1月上海市春季高考模拟英语试卷(含答案解析)
- 中国慢性阻塞性肺疾病基层诊疗指南(2024年)解读
- 第十中学八年级上学期语文10月月考试卷(含答案)
- 2024年代还款三方协议书模板范本
- 外研版(2024)七年级上册 Unit 2 More than fun练习(含答案)
- 江苏省南京市联合体2024-2025学年八年级上学期期中考试语文试题含答案
- 有限责任干股持有者分红权利具体合同版
- 1.1+生命之歌高中音乐粤教花城版(2019)必修音乐鉴赏音乐鉴赏
评论
0/150
提交评论