




已阅读5页,还剩31页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
(考试的重点内容全部加亮表示,此外就是一些分析解决问题的主观题)多媒体技术讲义第一章 多媒体技术概述在信息社会,人们迫切希望计算机能以人类习惯的方式提供信息服务,因而多媒体技术应运而生。它的出现,使得原本“面无表情”、“死气沉沉”的计算机有了一副“生动活泼”的面孔。用户不仅可以通过文字信息,还可以通过直接看到的影像和听到的声音,来了解感兴趣的对象,并可以参与或改变信息的演示。多媒体是全面的综合性的信息资源,事实上人们很难为多媒体绘出一个非常精确的定义。或许,这正是多媒体有一种无限想像的创作空间,它结合了文字、资料、图形、影像、动画、视讯、声音、特殊效果,再经由电脑表现出来,它能用来达成信息传播中的任何媒体资源。11什么是媒体?媒体一词本身来自于拉丁文“medius”一字,为中介、中间的意思。因此可以说人与人之间所赖以沟通及交流观念、思想或意见的中介物便可称之为媒体。它是承载信息的载体,也是信息表示和传输的载体,分媒介和媒质。媒质是传递信息的载体,如数字、文字、声音、图形和图像等;媒介是存储信息的实体,如磁盘、光盘、磁带、半导体存储器等。国际电信联盟ITU曾对媒体做如下分类。(1)感觉媒体(Perception medium) 指能直接作用于人们的感觉器官,而能使人产生直接感觉的媒体。如语音、音乐、各种图像、动画、文本等。现在人们热衷于研究的如:视觉类:位图图像图形符号视频动画听觉类:波形声音语音音乐触觉类:指点位置跟踪力反馈与运动反馈(2)表示媒体(Representation medium) 是为了传送感觉媒体而人为研究出来的媒体。借助于此种媒体,便能更有效的存储或传送感觉媒体。如语言编码、电报码等。(3)显示媒体(Presentation medium)用于通信中使电信号和感觉媒体之间产生转换用的媒体。如输入、输出设施,键盘鼠标器、显示器、打印机等。(4)传输媒体(Transmission Medium)用于传输某些媒体的载体,如电话线、电缆光纤等。(5)存储媒体(Storage medium)用于存放表示媒体的媒体,以便计算机随时处理、加工和调用信息编码。如纸张、磁带、磁盘、光盘等。下图表示了这5种媒体间的关联。101100101表 示传 输存 储显 示感 知加工、处理在多媒体技术中,我们所说的媒体一般的是指感觉媒体。12什么是多媒体多媒体技术?“多媒体”一词译自英文“Multimedia”,即“Multiple”和”Media”的合成。关于多媒体的定义解释很多,但有三句话是最出名的:指融合2种以上媒体,使多种信息建立逻辑连接,集成为一个系统并具有交互性。一般人们都会强调以下几点。 多媒体是信息交流和传播的媒体 人机交互媒体 以数字信号而不是模拟信号传播的 传播信息的媒体种类很多多媒体技术是一门综合的高新技术,它是微电子技术、计算机技术、通信技术等相关学科综合发展的产物。从应用角度来看,人们对多媒体的认识一是来自电视,一是来自计算机,但是现代计算机中的多媒体技术与传统的电视媒体是不同的。传统媒体技术多媒体技术被动式信息播放系统交互式模拟信号流顺序播放结构数字码流随机播放记录拷贝的再现可仿真制作和创意从开发和生产厂商以及应用的角度出发可以分成两大类:电视计算机( Teleputer )和计算机电视( Compuvision)13什么是多媒体系统?多媒体系统指的是由多媒体终端设备、网络设备、服务系统、多媒体软件及相关媒体数据组成的有机整体。它具有以下几个特点:(1)集成性:媒体信息的集成,媒体设备的集成 在同一个多媒体应用系统中的多个独立的媒体必须能够密切配合,同步运作,来达到统一的展示效果,这就是集成化。集成化一定要注意:第一,必须是在计算机控制下的集成化;第二,必须是具有可编程性的。只有在计算机控制下,才能保证集成中同步的精确性。可编程性保证了集成灵活性和可拓展性。(2)实时性:对连续媒体的处理是实时的(3)交互性:低级交互、中级交互、高级交互多媒体系统的可交互性是其区别传统媒体系统(如电视和广播等)的最重要的特性。可交互性分为3个层次: a)低级交互多媒体检索系统这样的通过交互方式来查询数据库中已经有的数据称为低级交互。比如各类具有交互功能的网页、以及各个职能部门的多媒体业务查询系统等。 b)中级交互具有中级交互性的系统能让用户通过改变数据本身而使整个系统的展示内容甚至内容的表现形式发生改变,比如股票交易模拟系统、计算机辅助设计与仿真系统等。 c)高级交互高级交互的系统主要是虚拟现实系统,通过虚拟现实技术,让使用者完全感觉处于一个虚幻的世界中,但他的任何操作都会改变实际现实世界中的一些事物。比如通过虚拟现实技术指挥机器人水下作业的系统。多媒体发展的过程就是一个集成性和交互性共同发展的过程,随着2者的发展程度不同,出现了各种各样的媒体事物。14多媒体技术的发展多媒体技术的发展史就是一个计算机的发展史。计算机技术努力的目标就在于把现实时间的一切反映到计算机中去。最初就是数字。计算机发展的初期,用数值承载信息;纸带机和卡片机是主要的输入输出设备;这一时代是使用机器语言的时代,计算机应用只能限于极少数计算机专业人员。然后就是文字。50年代到70年代,用文字作为信息的载体,输入输出设备主要是打字机、键盘和显示终端。计算机的应用扩大到具有一般文化程度的科技人员。然后声音、图形、图象、视频慢慢进入计算机。80年代开始,人们致力于研究将声音、图形和图象作为新的信息媒体输入输出计算机。80年代到90年代,是多媒体技术最迅猛发展的时期,想想10几年前的计算机屏幕,在对比现在的计算机各种仿真技术,真是不可思议。在多媒体短暂的历史中,出现了一些卓有成效的公司和它们首创出的一些系统,可以做为多媒体发展里程碑似的标志: Apple公司的Macintosh图形界面(GUI)1984年Apple公司的Macintosh个人计算机,首先引进了“位映射”的图形机理,用户接口开始使用Mouse驱动的窗口技术和图符。如今的计算机屏幕上熟悉的图标和点击启动程序,完全都来自于Apple的巧思妙想。 Commodore公司的Amiga系统1985年Commodore公司首先推出世界上第一台多媒体计算机Amiga系统。Amiga采用Motorola 68000微处理器做为CPU,并配置了自发研制的图形处理芯片、音响处理芯片和视频处理芯片。做为先驱者,虽然没有市场化,Amiga系统仍然享有盛誉。 Philips/Sony公司的CD-I系统Philips/Sony公司于1986年4月公布了基本的CD-I系统,同时还公布了CD-ROM的文件格式,这就是以后的ISO标准。该系统把高质量的声音、文字、计算机程序、图形、动画以及静止图象等都以数字的形式存放在容量为650MB的5英寸只读光盘上。它的成就并不在于CD-I系统,而在于它对以后存储媒体的标准发展的重要影响。 Intel和IBM公司的DVI系统这个技术很早开始开发,最后几手倒卖到了Intel公司手里,为了发展成可普及的商品,Intel公司与IBM联手开发这款多媒体系统,事实表明他们成功了,DVI系统获得了91年的计算机多媒体产品大奖,并且它的硬件架构和软件系统AVSS都成了以后多媒体计算机的参考标准。自20世纪90年代以来,多媒体技术逐渐成熟,多媒体技术以研究开发为重心转移到以应用为重心。于是各种标准相继诞生,在标准化阶段,研究部门和开发部门首先各自提出自己的方案,然后经分析、测试、比较、综合、总结得出最优、最便于应用推广的标准,指导多媒体产品的研制。 多媒体个人计算机标准 MPC1.0MPC3.0 数据存储标准 CD-ROM DVD 图像/视频压缩传输编码标准 JPEG MPEG H.26X 音频压缩传输标准 ITU标准化方案G721 722 728多媒体的发展过程也是各种传统媒体出现、结合以及交互影响整合的过程,在这个过程中,所有的一切都数字化了。15与多媒体相关的技术与多媒体相关的技术也就是我们这门课程要讨论的问题及内容。多媒体的涵盖面很广,分支也很多,下面只是一种分类方法,不代表标准。(1)多媒体数据解压缩技术大家知道多媒体数据的容量是相当惊人的,选用合适的数据压缩技术,有可能将字符数据量压缩到原来的1/2左右,语音数据量压缩到原来的1/2-1/10,图像数据量压缩到原来的1/2-1/60。本课程将介绍几种主要的数字图象编码标准和数字音频视频编码标准。(2)多媒体输入与输出技术 媒体变换技术 是指改变媒体的表现形式。如当前广泛使用的视频卡音频卡(声卡)都属媒体变换设备。 媒体识别技术 是对信息进行一对一的映像过程。例如,语音识别技术和触摸屏技术等。 媒体理解技术 是对信息进行更进一步的分析处理和理解信息内容。如自然语言理解、图像理解、模式识别等技术。 媒体综合技术 是把低维信息表示映像成高维的模式空间的过程。如语音合成器就可以把语音的内部表示综合为声音输出。(3)多媒体软件技术 多媒体操作系统多媒体操作系统是多媒体软件的核心。它负责多媒体环境下多任务的调度、保证音频、视频同步控制以及信息处理的实时性,提供多媒体信息的各种基本操作和管理;具有对设备的相对独立性与可扩展性。 Windows、OS/2 和Macintosh 操作系统都提供了对多媒体的支持 多媒体素材采集与制作技术素材的采集与制作主要包括采集并编辑多种媒体数据。如声音信号的录制编辑和播放;图像扫描及预处理;全动态视频采集及剪辑;动画建模渲染;音/视频信号的混合和同步等。 多媒体编辑与创作工具多媒体编辑创作软件又称多媒体创作工具,是多媒体专业人员在多媒体操作系统之上开发的,供特定应用领域的专业人员组织编排多媒体数据,并把它们连接成完整的多媒体应用系统的工具。 高档的创作工具用于影视系统的动画制作及特技效果,中档的用于培训、教育和娱乐节目制作,低档的用于商业简介、家庭学习材料的编辑。 多媒体数据库技术多媒体信息是结构型的,致使传统的关系数据库已不适用于多媒体的信息管理,需要从下面四个方面研究数据库 多媒体数据模型 媒体数据压缩和解压缩的模式 多媒体数据管理及存取方法 用户界面 多媒体应用开发技术多媒体应用的开发会使一些采用不同问题解决方法的人集中到一起,包括计算机开发人员、音乐创作人员,图像艺术家等,他们的工作方法以及思考问题的方法都将是完全不同的。对于项目管理者来说,研究和推出一个多媒体应用开发方法学将是极为重要的。(4)多媒体设备技术 随着多媒体的数字化,与多媒体相关的输出输出以及处理设备与芯片快速增长。新式的数字设备不断出现,带来了新的交互技术和新的感觉体验。不仅计算机中的I/O系统处理媒体的能力日益加强。很多家用电子设备和便携设备上也实现了多媒体操作。(5)多媒体通信技术多媒体通信技术包含语音压缩、图像压缩、多媒体的混合传输技术和分布式多媒体技术。宽带综合业务数字网(B-ISDN)是解决多媒体数据的传输问题的一个比较完整的方法,它所基于的ATM(异步传送模式)是近年来在研究和开发上的一个重要成果。(6)网络多媒体技术 在网络日益发达的今天,网络传输的已经不再仅仅是文字信息,丰富的媒体元素在HTML、XHTML标准的定义下实现了网络上的传播。流媒体传输协议使得音视频信息畅通无阻,WEB3D技术实现了网上的虚拟3D环境,FLASH成为了事实上的网络2D图形动画标准。但是,基于网络的多媒体技术还在无限发展中,没有一个一统天下的技术已包揽全部。(7)虚拟现实技术利用计算机技术生成的一个逼真的视觉、听觉触觉及嗅觉等的感觉世界,用户可以用人的自然技能对这个生成的虚拟实体进行交互考察。 VR(Virtual Reality)综合了计算机图形技术、计算机仿真技术、传感器技术、显示技术等多种科学技术,在多维信息空间上创建一个虚拟信息环境。 16多媒体技术的应用目前,多媒体技术已在商业、教育培训、视频服务、通讯领域等方面得到了充分应用。(1)教育培训领域多媒体技术使教材不仅有文字、静态图像,还具有动态图像和语音等。使教育的表现形式多样化,可以进行交互式远程教学。 利用多媒体计算机的文本、图形、视频、音频和其交互式的特点,可以编制出计算机辅助教学 CAI( Computer Assisted Instruction )软件(2)通讯领域多媒体技术在通信方面的应用主要有: 可视电话 视频会议 信息点播(Information Demand) 计算机协同工作 CSCW(Computer Supported Cooperative Work)(3)商业娱乐领域 电影 游戏 多媒体指示牌 MIS 互动咨询 智能家电 商业展示 电子出版多媒体的未来 高分辨化 提高显示质量; 高速度化 缩短处理时间; 简单化 便于操作; 高维化 三维、四维或更高维; 智能化 提高信息识别能力; 标准化 便于信息交换和资源共享。小结:只有键盘输入而没有“视觉”、“听觉”的计算机,是不完整的计算机。多媒体技术的出现本身带有浓厚的边缘交叉性,它把较成熟的图像、声音、视频处理技术集成,建立密切的逻辑关系,使它们由单一分离变成相辅相成,更加完善地展现其媒体。所以,它是计算机技术史上的一大飞跃。 这一章重点为媒体与多媒体技术的基本概念,媒体的分类,多媒体技术的三大特点,多媒体技术的相关技术也就是相应的研究内容。第二章 媒体与媒体技术21媒体的特点 媒体的表达特点每种媒体都有擅长的表达方式,比如文本比较注重于细节的描写与刻画,那么它很适合用来表现一些抽象的事物;图形图象和动画具有直观的效果,所见即所得,因此是令人兴奋的容易理解的表达法;而声音常用来做为背景的烘托方式,视频信号可以将现实的场景如实的再现出来;那在不同的媒体系统中,应根据需求应用不同的媒体。 媒体的表示特点表示空间是能正确描述媒体的环境范围。比如5.1声道就是环绕立体声声音的表示空间。 表示值确定不同媒体的信息表示。表示值有完备的和不完备的区分。文字是不完备的,因为需要大家约定后,才会知道文字的具体含义。而另一些媒体的表示值无须约定就可以被理解,比如气味等。 媒体的时间性质离散媒体是与时间无关或与时间有关但无周期性变化的媒体。如文字、图形。连续媒体是与时间有关的并且周期性变化的媒体,比如视频、声音。 信息理解的特点根据调查人们对媒体的理解和记忆程度是很不相同的,人们对看到的东西和听到的声音有很强的获取意识,但是对触觉、气味等的感觉就低很多。但是当几种媒体混合在一起传达的时候,人们所接受到的信息并不是简单的2种信息的叠加,而是具有相乘效应。例如人们在听完一些信息2小时后只记得70%,72小时后只记得10%了;如果是视觉信息2个小时后可以记到75%,而72小时后也只有20%;但是如果2者结合起来,遗忘率要大大下降,2小时后可记得85%,而72小时后仍可记得65%信息。 媒体间的转换各种媒体间是可以通过某种方式互相转换的,详见下表:22 声音/音频声音是多媒体信息的一个重要组成部分,也是表达思想和情感的一种必不可少的媒体。无论其应用目的是什么,声音的合理使用可以使多媒体应用系统变得更加丰富多彩。语言、音乐和各种自然声是以声波为载体传递信息的基本形式 。几千年来,人类只能凭耳朵来辨别声音的高低、强弱,而不能把声音记录和储存起来。直到19世纪爱迪生发明了留声机,人们才能用机械的方法把各种声音记录在唱片上。可是声音、机械振动不容易传递,也不容易放大,机械方法很不方便。随着电学、电子学的发展,人们开始利用把声的振动转换成电信号的原理,将模拟信号直接记录下来。例如磁带录音和密纹唱片是记录储存这种模拟声音信号的载体,而能够播放和(或)记录这些软件的信号处理设备,诸如电唱机、磁带录音机等,则称为模拟音响设备。 随着计算机技术的发展,特别是海量存储设备和大容量内存在计算机上的实现,对音频媒体进行数字化处理便成为可能。数字化处理的核心是对音频信息的采样,通过对采集到的样本进行加工,生成各种效果。数字音频(Audio)可分为波形声音、语音和MIDI音乐。波形声音实际上已经包含了所有的声音形式,它可以将任何声音都进行采样量化,相应的文件格式是WAV 文件或VOC文件。语音也是一种波形,所以和波形声音的文件格式相同。音乐是符号化了的声音,乐谱可转变为符号媒体形式。对应的文件格式是MID 或CMF 文件。(1)声音的基本概念声音是由空气中分子的振动而产生的。自然界的声音是一个随时间而变化的连续信号,可近似地看成是一种周期性的函数。通常用模拟的连续波形描述声波的形状,单一频率的声波可用一条正弦波表示。 基线是测量模拟信号的基准点。声波的振幅表示声音信号的强弱程度。声波的频率反映出声音的音调,声音细尖表示频率高,声音粗低表示频率低。振幅和频率不变的声音信号,称为单音。单音一般只能由专用电子设备产生。在日常生活中,我们听到的自然界的声音一般都属于复音,其声音信号由不同的振幅与频率合成而得到。复音中的最低频率称为复音的基频(基音),是决定声调的基本要素,它通常是个常数。复音中还存在一些其它频率,是复音中的次要成分,通常称为谐音。基频和谐音合成复音,决定了特定的声音音质和音色。振幅周期基线 振幅每个声音都有振幅,用来表示声音听起来的大小程度的。声音的振幅用来衡量气压波在其初始位置或静止位置上的偏移大小。声音的强度用分贝(dB)表示,分贝的幅度就是音量。 频率决定音调的高低。声音的频率是周期数的倒数。它表示每秒钟的周期数,其单位是赫兹(Hz)或每秒周期数(cps)。 泛音决定音的色彩。频率小于20 Hz的信号称为亚音(Subsonic),频率范围为20Hz20kHz的信号称为音频(Audio),频率高于20kHz的信号称为超音频(Ultrasonic)。只有在20Hz20kHz内的音频才能被人的耳朵所接受。人们在日常说话时的语音信号频率范围在300Hz3000Hz之间 声波是随时间而连续变化的物理量,通过能量转换装置,可用随声波变化而改变的电压或电流信号来模拟。以模拟电压的幅度来表示声音的强弱。为使计算机能处理音频,必须对声音信号模数转换,要经过采样、量化和编码三个步骤 。 采样将在时间轴上连续的声音波形进行时间轴上的离散化,具体做法是每隔一个时间t,采集一个波形数据,连续波形进行采样的频率叫做采样率(时间t的倒数)。 量化用多少二进位来表示声音波形的高度,bit数越多 声音质量越好。这实际上是在振幅轴上的离散化。 编码将采样后量化好的数据按照一定的数据格式编排(含数据的压缩)存放到计算机中。Nyquist采样定律:采样率至少应该是最大频率响应的两倍,才能保证采样后的数字化是没有损失的。对模拟音频信号进行采样量化编码后,得到数字音频。数字音频的质量取决于采样频率、量化位数和声道数三个因素。 采样频率是指一秒钟时间内采样的次数。在计算机多媒体音频处理中,采样频率通常采用三种:11.025KHz(语音效果)、22.05KHz(音乐效果)、44.1KHz(高保真效果)。常见的CD唱盘的采样频率即为44.1KHz。 量化位数也称“量化精度”,是描述每个采样点样值的二进制位数。例如,8位量化位数表示每个采样值可以用28即256个不同的量化值之一来表示,而16位量化位数表示每个采样值可以用216即65536个不同的量化值之一来表示。常用的量化位数为8位、12位、16位。 声音通道的个数称为声道数,是指一次采样所记录产生的声音波形个数。记录声音时,如果每次生成一个声波数据,称为单声道;每次生成两个声波数据,称为双声道(立体声)。以字节为单位,模拟波形声音被数字化后音频文件的存储量(假定未经压缩)为:存储量=采样频率量化位数/8声道数时间数据率=采样频率量化位数/8 例如:数字激光唱盘(CD-DA)的标准采样频率为44.1 kHz,量化位数为16 位,立体声。一分钟 CD-DA 音乐所需的存储量为4410016821=176400(字节)语音效果音乐效果高保真效果采样频率kHz11.02522.0544.1量化精度bit81616数据率kb/s88.2352.8705.6字节率kB/s11.02544.188.2多媒体所涉及到的音频处理技术: 音频采集(关键是拾音技术的提高)。 语音编码/解码(既要好的压缩又有好的质量的编/解码方案)。 文-语转换(文字转为语音的技术) 音乐合成(高质量的MIDI合成音乐) 语音识别与理解(识别语音中的语言成分和理解这些自然语言)。 音频数据传输、音频视频同步、音频效果与编辑(2)MIDI音乐MIDI是乐器数字化接口的缩写,中文可以用“迷笛”表示。它是由世界上主要电子乐器制造厂商建立起来的一个通信标准,以规定计算机音乐程序、电子合成器和其他电子设备之间交换信息与控制信号的方法。MIDI本身并不是多媒体技术发展的产物,它是独立发展的,而与多媒体结合后则日趋完善。MIDI不是把音乐的波形进行数字化采样和编码,而是将数字式电子乐器的弹奏过程记录下来,如按了哪一个键、力度多大、时间多长等等。当需要播放这首乐曲时,根据记录的乐谱指令,通过音乐合成器生成音乐声波,经放大后由扬声器播出。 MIDI基本概念通道:16个通道,每个通道访问一个独立的逻辑合成器。合成器是用来产生并修改正弦波形并叠加,然后通过声音产生器和扬声器发出特定的声音。泛音的合成决定声音音质。MIDI文件:存放MIDI信息的标准文件格式。由控制数据和乐谱信息数据构成。MIDI电子乐器:能产生特定声音的合成器。其数据传送符合MIDI通信约定。复音:指合成器同时演奏若干音符时发出的声音。它着重于同时演奏的音符数。多音色:指同时演奏几种不同乐器时发出的声音。它着重于同时演奏的乐器数。 MIDI设备MIDI设备就是处理MIDI信息所需的硬件设备,其基本组成包括:MIDI端口、MIDI键盘、音序器、合成器。一台MIDI设备可以有一至三个MIDI端口,分别称为MIDI In、MIDI Out、MIDI Thru。它们的作用是:MIDI In:接收来自其它MIDI设备的MIDI信息。MIDI Out:发送本设备生成的MIDI信息到其它设备。MIDI Thru:将从MIDI In端口传来的信息转发到相连的另一台MIDI设备上。MIDI键盘是用于MIDI乐曲演奏的,MIDI键盘本身并不发出声音,当作曲人员触动键盘上的按键时,就发出按键信息,所产生的仅仅是MIDI音乐消息,从而由音序器录制生成MIDI文件。音序器用于记录、编辑、播放MIDI的声音文件,音序器有以硬件形式提供的,目前大多为软件音序器。音序器可捕捉MIDI消息,将其存入MIDI文件,MIDI文件扩展名为 .MID。音序器还可编辑MIDI文件。合成器解释MIDI文件中的指令符号,生成所需要的声音波形,经放大后由扬声器输出,声音的效果比较丰富。MIDI合成方式主要有调频合成(FM)和波形表合成(Wave Table)两种方式。调频合成方式,其原理是根据傅立叶级数而来。波形表合成的原理是已存储着各种实际乐器的声音采样,合成时以查表方式调用这些样本将其还原回放。 MIDI消息通道声音消息在设备间传送实际的表演数据,描述键盘动作、控制器动作和控制盘改变。它们描述音乐的音调、音量、音色、时长和其他的声音质量。 MIDI消息=状态字节+数据字节。(3)语音技术语音也是一种波形,所以和波形声音的文件格式相同。语音信号在一定的时间间隔内显示出几乎是周期性行为 ;频谱显示最大值特点,是由于声道共振产生的,叫共振峰。 语音合成使用计算机,我们能够合成语音,尽管合成的语音听起来不是那么自然,但是还是能够容易听懂的。发音器官参数语音合成:对人的发音方法进行直接的模拟,它定义了唇开口度、舌高度、舌位置、声带张力等参数,由此估计声道截面积函数,进而计算声波。 声道模型参数语音合成:基于声道截面积函数或声道谐振特性合成语音,如共振峰合成器,LPC合成器。 波形编辑语音合成:基于波形语言数据库,将多个语言片段通过某种算法连接起来,形成语言。 语音分析声音指纹(WHO):根据语音识别说话的人。语音识别与理解(WHAT):识别和理解语音所表达的内容。说话的心理分析(HOW):分析说话人的心理状况(测慌仪器)。 语音传输传输信号格式编码直接将音频捕捉的信号编码传输出去 传输源码(频道声音合成机)在参数化的语音输出系统中传输参数,可以明显减少数据量。 识别-传输-合成方法用纯识别/合成方法来降低传输率。语音分析(识别)紧跟在语音传输系统的发送方之后,语音合成(产生)跟随在接收方。(4)音频信号的应用a) IP电话通过Internet打电话的形式有四种:计算机到计算机、计算机到电 话、电话到计算机、电话到电话。b) 声音欺骗系统声音分析技术和语音合成技术的合作产品,用于军事上截获敌方无线电信号,改变其话务员的原声把信号重新传送出去。c) “芝麻开门”系统声音、图象和动作的综合认知系统,负责重要部门的安全门控制。d) Internet上的实时音频广播 Web上的优秀音频技术依赖于缓冲、编码/解码和音频流技术。(5)常见的音频文件格式 WAV该格式记录了声音的波形,它不对数据进行压缩,所以文件很大,但只要“拾音”设备足够好,制作的声音质量可以达到专业级水平。 MOD该格式存放乐谱和乐器使用的各种音色样本,所以该文件不大,但声音回放效果很好,对回放设备要求比较低,而且音色种类可以用无止境。 MP3采用MPEG Audio 的Layer-3压缩方案,压缩比达到1412:1,用一张MP3CD可以容纳10张唱片的歌曲。是目前网上常用的音乐格式。 RA格式这是RealNetwork公司的RealAudio格式,它的压缩比很大非常适合在网上实时播放,是现在网络实时播放的主要格式之一 CDA 就是激光唱片的格式,记录的是波形流,纯正、HIFI。采样位数多为16位,现在一经常看到20位、24位、36位采样录音CDA。缺点是无法编辑和文件长度太大。 MIDI 作为音乐工业的数据通信标准,MID是一种专业性的语言,他的科学性、兼容性、复杂程度等各方面都是最高的。回访效果也是最好的。WMA(udio) 是微软开发中的WMT 4.0(Windows Media Technology)的一个组件。在WMT 4.0中包括有“著作权管理”功能,保护作者的著作权。在压缩技术方面WMAudio着眼于使用28.8kbps的MODEM达到FM水准的音质,下载速度比MP3快两倍左右,而存贮空间只有一半。无论从技术性能还是压缩率上,WMA都比MP3好。从HIFI的角度,声音质量由高到低顺序:原声乐器演奏MIDICD唱片MOD所谓声卡上的MIDICMFMP3、MP4和RA要看节目源是MIDI,CD还是MOD23图形/图像(1)色彩空间表示及其转换在多媒体计算机中,常常涉及到几种不同的色彩空间表示颜色。如计算机显示时采用RGB彩色空间;彩色印刷时采用CMYK彩色空间;彩色全电视信号数字化时采用YUV彩色空间;为了便于色彩处理和识别,视觉系统又经常采用HSI彩色空间。A 色彩的基本概念亮度作用于人眼所引起的明亮程度的感觉。它与被观察物体的发光或反射光强度有关。同一色调如加上不同比例的黑或白色混合后亮度也会发生变化。色调人眼看多种波长的光时所产生的彩色的感觉。它反应了颜色的种类,是决定颜色的基本特性。表示颜色的种类,如红、黄、蓝等。色彩取决于光的波长,是决定颜色的基本特征。饱和度是表示颜色的纯净程度,即色彩含有某中单色光的纯净程度。它是按单色光中混入其它色的比例来表示的。它和色调一起统称色度。三基色原理自然界常见的各种颜色的光大都可以由红(R)、绿(G)、蓝(B)三种颜色的光按不同的比例相配而成;同样,绝大多数颜色的光也可以分解成红、绿、蓝三种颜色,这就是色度学中最基本的三基色原理。如果两种有色光相叠加得到白色的光,那称这两种有色光互为补色光,这两种颜色互为补色。因为红光+绿光+蓝光为白光,而: 绿光+蓝光=青色光,所以青色光+红光=白光,因此,青色与红色互为补色。 红光+蓝光=品色光,所以品色光+绿光=白光,因此,品色与绿色互为补色。 红光+绿光=黄色光,所以黄色光+蓝光=白光,因此,黄色与蓝色互为补色。B 色彩空间的表示 RGB 彩色空间又称加色法系统。计算机彩色监视器采用这种彩色空间,其颜色F = rR+gG+bB,R、G、B是该颜色中红、绿、蓝三色光所占的比例。 CMYK彩色空间是彩色印刷和彩色打印行业所用的,其中三基色是发光三基色(红、绿、蓝)的补色(青、品、黄)。所谓四色打印和四色印刷是在三基色基础上在加上常用的黑色(CMYK),这是因为青、品、黄三中颜色的颜料不可能做到那么纯净,所以,他们混合出来的黑色会有些偏色,另外,黑色也是用多最多的油墨颜色。 YUV彩色空间是PAL制式电视机使用的彩色空间 ,YIQ彩色空间是NTSC制式电视机使用的色彩空间 。Y是亮度信号, 其它是色度信号,人眼对亮度敏感,没有必要保留色度分量的细节变化。 HSI彩色空间直接符合色彩基本属性的彩色空间。H是色调,S是饱和度,I是亮度。HSI彩色空间能够减少彩色图像处理的复杂性,而且更接近人对色彩的认识和解释。C 色彩空间的转换下面给出从RGB空间到YUV与YIQ空间的转换公式。(2)图像的表示图像(Image)是指由输入设备捕捉的实际场景画面,或以数字化形式存储的任意画面。静止的图像是一个矩阵,阵列中的各项数字用来描述构成图像的各个点(称为像素点 pixel )的强度与颜色等信息。这种图像也称为位图( bit-mapped picture )。图像分辨率:数字化图像的大小,即该图像的水平与垂直方向的像素个数。像素分辨率:像素的宽和高之比一般为1:1。图像深度:也称图像灰度、颜色深度,表示数字位图图像中每个像素上用于表示颜色的二进制数字位数。显示深度:表示显示器上每个点用于显示颜色的 2 进制数字位数。若显示器的显示深度小于数字图像的深度,就会使数字图像颜色的显示失真。 颜色深度颜色总数图像名称12单色图像416索引16 色图像8256索引256 色图像1665536HIColor 图像2416672216True Color 图像真彩色:图像颜色与显示设备的颜色一致,即组成一幅彩色图像的每个像素值的RGB分量直接决定显示设备的基色强度伪彩色:把像素值当成调色板或彩色查找表的入口地址,去查找一个显示图像时使用的R/G/B值。如果颜色不存在,则找一个最接近的来替代。直接色:R/G/B分量作为单独索引值进行变换,用变换后得到的强度值产生的彩色。图像采样的点被称为像素。像素值称为灰度或色彩数。每个像素的灰度值或色彩值用一个整数来表示,它由连续映像中该点周围的很小区域的平均值来表示。像素值以二进制来表示,当二进制位数位K的时候,该像素的色彩数会读级位2K。由于图象以像素点为单位,所以图象能非常精确地表达出颜色的细微变化,适合表现自然景色。用字节表示图像文件大小时,一幅未经压缩的数字图像的数据量大小计算如下:图像数字节据量大小 = 像素总数图像深度8例如:一幅 640480 的 256 色图像为64048088 = 307200。(3)图象相关技术及研究- 36 -图像压缩编码图像的增强图像的恢复图像的重建 图像识别技术图像传输技术(4)图形的表示图形(Graphic)一般指用计算机绘制的画面,由一些图元组成。图元是最简单的图形,如下图中的矩形、圆、直线、曲线等,他们都由数学公式来表示,所存储的也是数学公式中的参数值。图形的格式是一组描述点、线、面等几何图形的大小、形状及其位置、维数的指令集合。在图形文件中只记录生成图的算法和图上的某些特征点,因此也称矢量图。图元是最简单的图形,如矩形、圆、直线、曲线等,他们都由数学公式来表示,所存储的也是数学公式中的参数值。如直线可以是一个两个端点的坐标,圆是圆心和半径等。另外,可以附加一些如颜色,填充形式等参数。我们也可以用多个图形组成一个带有一定含义的组合图元。如数据结构中的树等。图形能更精确地表达尺寸信息。(5)三维图形的表示方法 线框图 空间点之间的连接,二义性 曲面造型 代数曲面、参数曲面(NUBUS曲面、Bezier曲面) 实体造型 边界表示法(B-rep)、构造几何实体(CSG)、八叉树 复杂实体造型 三角(四角)面片拟合(6)真实感图形的生成光线跟踪算法 辐射度算法光子映射算法 阴影算法 贴图与纹理(73)图形相关技术及研究图形的表示图形的标准化图形的建模图形变换图形裁剪图形渲染(8)常用图形图像文件格式 BMP Windows中最常用的图象格式,有压缩和非压缩两种,存储文件的容量较大,可表现单色到24位的色彩, 分辨率从480*320到1024*768。 DXF AutoCAD中的图形文件,以ASCII方式存储图形,表现图形的尺寸大小方面非常准确。 WMF 微软Windows图元文件,文件短小,图案造型化。 GIF 各种平台的各种图形处理软件上均可以使用的经过压缩的图形格式。存储的色彩数最高只能达到256种。由于其一种标准具有一定的动画效果和短小,所以 多用在Web上。 JPG 通过一种有损压缩方案获得的高压缩率的图像文件,色彩最高可以达到24位其“有损性”一般不易被人察觉,广泛应用于Web中。 TIF 文件体积庞大,但存储的信息量也是巨大,细微层次的信息较多,支持的颜色数最高可以达到16M,广泛应用在轻印刷行业中。 EPS 用PostScript语言描述的ASCII图形文件,最高能表达32位图像。标准的EPS有图形格式和图像格式两种。Photoshop只支持图像格式的EPS。 PSD Photoshop中的标准文件格式,专门为Photoshop而优化。 CRD CorelDraw的文件格式。另外,CDX是所有CorelDraw是所有CorelDraw应用程序均能使用的图形(图像)文件。 IFF用于大型超级处理平台。该格式还原色彩、纹理等非常逼真,但占用的资源很大。 PCDPhoto CD格式,由KODAK公司开发,其他软件只能读取。24 视频/动画(1)视频技术视频是由一幅幅单独的画面序列(帧frame)组成 ,这些画面以一定的速率(fps)连续地投射在屏幕上,使观察者具有图像连续运动的感觉。视频的技术参数有:帧速数据量 图像质量A 视频信号的可视表示纵横比是视频宽与高的比例关系,如下图,传统视频都采用宽比高为4:3的比例,如我们常用的600480、800600、1024768等屏幕分辨率。观察距离和图像的关系是,距离越近,细节越明显。 运动的连续性视觉暂留现象的运用,当人们在看某个影象的时候,影象突然消失,在人的视觉中还会有短暂的停留,这就是视觉暂留现象,要充分利用这个现象来产生动感效果就必须保证1)单帧图象复制的速度足够快。2)图象的切换速度足够快。一般要求Flash动画能达到12帧/秒,普通动画是15帧/秒,而视频是25帧/秒或30帧/秒。帧是指连续视频中单一的一幅画面。闪烁现象与解决措施:光栅显示器的扫描过程为图所示。实线为正向扫描,从左上角开始,电子束轰击荧光粉发光,每行扫描完,关闭电子束进行水平反扫,回到左边后,在正向扫描下一行,一直扫描到屏幕的底部的右下角,然后关闭电子束进行垂直回扫,回到左上角。由于荧光粉在电子束轰击后只能保持短时间的发光,所以这种扫描一定要不停地反复进行。而且,如果周期太长的话,会引起屏幕闪烁现象(荧光粉变暗后再突然受轰击而变亮产生闪烁)。为保证不闪烁,至少保证扫描频率为50次/秒,计算机显示器一般最好85Hz次/秒。B传统电视技术 NTSC(全国电视系统委员会制式):基于调幅技术,30帧/秒,525线,美国、日本使用 PAL(逐行倒相制式): 基于调幅技术, 25帧/秒,625线,中国、西欧使用 SECAM(顺序与存储彩色电视系统): 基于调频技术,25帧/秒,625线,法国、东欧使用C模拟视频信号类型 高频或射频信号 为了能够在空中传播电视信号,必须把视频全电视信号调制成高频或射频(RFRadio Frequency)信号,每个信号占用一个频道,这样才能在空中同时传播多路电视节目而不会导致混乱。 复合视频信号 定义为包括亮度和色度的单路模拟信号,也即从全电视信号中分离出伴音后的视频信号,由于复合视频的亮度和色度是间插在一起的,在信号重放时很难恢复完全一致的色彩。这种信号一般可通过电缆输入或输出到家用录像机上,其信号带宽较窄,一般只有240线左右的水平分解率。 分量视频信号 为保证视频信号质量,近距离时可用分量视频信号传输, 分量信号是指每个基色分量( R,G,B 或 Y,U,V )作为独立的电视信号传输。计算机输出的VGA视频信号,即为分量形式的视频信号。 SVideo信号 SVideo 是一种两分量的视频信号,它把亮度和色度信号分成两路独立的模拟信号。这种信号亮度和色度分开传输,可以减少其互相干扰,水平分解率可达420线。与复合视频信号相比,SVideo可以更好地重现色彩。D视频的计算机表示电视图像的数字化通常有两种:(1)先从复合彩色电视图像中分离出彩色分量,如:YCbCr、YUV、YIQ、RGB,然后用三个A-D转换器分别对之进行数字化。(2)用一个高速A-D转换器对彩色信号进行数字化,然后在数字域中进行分离,获得分量数据。采样频率:CCIR(国际无线电咨询委员会)为各种制式规定了共同的采样频率。如: PAL的f=625*25*N=13.5(MHz) N=864(每一扫描行的采样数目)推荐使用4:2:2的采样格式,即Y使用13.5采样频率,Cr、 Cb采用6.75采样频率。有效显示分辨率:对所有的制式,每一行有效样本数都为720公用分辨率格式CIF、QCIF、SQCIF:为了同时满足625行和525行的电视图像,规定了公用的分辨率格式。比如CIF为亮度信号288行/帧,360(352)像素/行;色度信号为144行/帧,180 (176)像素/行。设YIQ彩色空间中各分量的带宽分别为44.2MHz、 1.5MHz 、0.5MHz ,信号为16位表示。计算出数字视频的数据量为: (4.2+1.5+0.5) (MHz)28(bit)=99.2 Mbit / sE高清晰度电视 分辨率 纵横像素数是传统的2倍。 纵横比 W/H=16/9=1.777 观看距离 比传统距离近才能看到细节 采用国际标准的压缩编码算法MPEG-II 采用打包数据结构,图像和声音分成不同分量,数据包的大小随意,传输次序随机。 采用双层传输技术,保证HDTV的可靠性和抗干扰性。将信息分开,重要数据在最高优先级载波上传输。 (2)计算机动画动漫从概念上泛指漫画与动画,被称为音乐、美术、舞蹈等八大艺术之外的“第九艺术”。动画是指通过播放一系列画面,给视觉造成动态变化的图画,能够展现事物的发展过程和动态。现代动画技术由于计算机的加工包括 了各种非实物拍摄的屏幕作品。A动画的分类 传统动画与计算机动画手绘动画:原画创作中间画制作誊清描线着色模型动画:制作模型运动拍摄计算机动画:用计算辅助代替传统的制作工艺,广义,狭义 平面动画与三维动画 动画电视、幻灯片动画 全动画与半动画分类的方法很多,在此不累述。B二维动画技术 传统二维动画的计算机加工鼠标代替画笔、分层代表胶片 帧动画电影放映的模仿,动画是一帧帧的静态画面的组合。关键帧技术。 块动画(BitBlt)采用掩码技术,屏幕掩码和屏幕像素做与操作,然后再与动画图片像素异或。C三维动画技术 刚体动画移动、旋转、缩放(关键帧技术、样条驱动等)变形动画通过物体节点序列的变换矩阵实现。 角色动画主要指人体动画,也包括模拟人化的动、植物以及卡通角色。 粒子系统数据库放大功能,擅长制作光怪陆离的光影、烟雾、火雨以及泡沫、溅水等动画。 镜头动画通过对摄影机的 推、拉、摇、移使镜头画面改变,从而产生动画效果。D 运动控制方法 运动学方法:传统的技术,通过几何变化(旋转、缩放位移、切变)描述物体的运动 动力学方法:根据物理
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 暖气并联施工方案(3篇)
- 防诈骗红色活动策划方案(3篇)
- cad大样施工方案(3篇)
- 文职厨师考试题库及答案
- 北京市昌平区2024-2025学年八年级下学期期末考试语文题目及答案
- 安徽省六安市裕安区2022-2023学年高三下学期高考第一模拟考试(一模)物理考试题目及答案
- 阅读滋润我成长作文800字8篇
- 冬天小学生作文范文11篇
- 给蒙古小朋友的一封信900字14篇
- 项目管理 课件 第十三章-项目融资管理T
- 2025年新《公司法》知识竞赛题库(含答案)
- 颜料企业数字化转型与智慧升级战略研究报告
- 电厂消防培训
- 农产品加工可行性报告
- 教研组长和备课组长培训
- 基于谷歌云视觉自动图像标注技术的多模态语料库开发与分析
- 煤矿项目部管理制度
- GB/T 45089-20240~3岁婴幼儿居家照护服务规范
- 一年级得稳稳地走-一年级家长会【课件】
- 园林技术-大学专业介绍
- 学校食堂员工安全培训
评论
0/150
提交评论