




已阅读5页,还剩77页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第一章 多媒体计算机技术概述1-1 媒体(Medium)在计算机领域中有两种含义(P1)(1)用以存储信息的实体,如磁带、磁盘、光盘和半导体存储器; (2)信息的载体,如数字、文字、声音、图形和图像。 多媒体技术中的媒体是指后者。 1-2 多媒体计算机技术定义(P1)计算机综合处理多种媒体信息(文本、图形、图象、音频和视频),使多种信息建立逻辑连接,集成为一个系统并具有交互性。简单地说:(1)计算机综合处理声、文、图信息;(2)具有集成性和交互性。1-3 多媒体计算机的主要特征(P2)多媒体计算机具有信息载体多样性集成性和交互性。1-4 多媒体计算机的分类(P2)从开发和生产厂商以及应用的角度出发可以分成两大类:电视计算机(Teleputer)和计算机电视(Compuvision)。(1)电视计算机(Teleputer):家电制造厂商研制的电视计算机,是把CPU放到家电中,通过编程控制管理电视机、音响,有人称它为“灵巧”电视Smart TV;(2)计算机电视(Compuvision):计算机制造厂商研制的计算机电视,采用微处理器(8086、68)作为CPU,其它设备还有VGA卡、CD-ROM、音响设备以及扩展的多窗口系统,有说它的发展方向是TVKiller。1-5 多媒体计算机的关键技术(P2)要把一台普通的计算机变成多媒体计算机要解决的关键技术是:(1)视频音频信号获取技术;(2)多媒体数据压缩编码和解码技术;(3)视频音频数据的实时处理技术;(4)视频音频数据的输出技术。1-6 促进多种媒体计算机发展的技术(P2)(1)超大规模集成电路的密度增加了;(2)超大规模集成电路的速度增加了;(3)CD-ROM可作为低成本、大容量PC机的只读存储器(可更换的5英寸盘片,每片容量为650MB,以及DVD(单面4.7GB);(4)双通道视频随机存储器VRAM(Video Random Access Memory) 、动态随机存储器DRAM(Dynamic Random Access Memory)的引进;(5)网络技术的广泛使用。1-7 多媒体创作工具的分类(P13)(1)基于时间的创作工具;(2)基于图符(Icon)或流线(Line)创作工具;(3)基于卡片(Card)和页面(Page)的创作工具;(4)以传统程序语言为基础的创作工具。1-8 多媒体计算机的发展趋势(P14)(1)进一步完善计算机支持的协同工作环境CSCW;(2)智能多媒体技术;(3)把多媒体信息实时处理和压缩编码算法作集成到CPU芯片中。第二章 音频信息的获取与处理2-1 数字音频、数字音频的特点(P17)在计算机内,所有的信息均以数字表示。各种命令是不同的数字,各种幅度的物理量也是不同的数字。音频信号也用一系列数字表示,称之为数字音频。数字音频的特点是保真度好,动态范围大。2-2数字音频的采样和量化(P18)1数字音频的采样:模拟声音在时间上是连续的,而数字音频是一个数字序列,在时间上只能是断续的。因此当把模拟声音变成数字声音时,需要每隔一个时间间隔在模拟声音波形上取一个幅度值,称之为采样,采样的时间间隔称为采样周期。2数字音频的量化:在数字音频技术中,把采样得到的表示声音强弱的模拟电压用数字表示。模拟电压的幅值仍然是连续的,而用数字表示音频幅度时,只能把无穷多个电压幅度用有限个数字表示,即把某一幅度范围内的电压用一个数字表示,这称之为量化。2-3 常用的音频采样率(P18)8kHz、11.025kHz、22.05kHz、16kHz、37.8kHz、44.1kHz、48kHz。2-4 数字音频的文件格式(P21).WAV Microsoft公司的波形音频文件格式。.MID MIDI文件格式。.VOC Creative公司的波形音频文件格式。.SND NeXT计算机的波形音频文件格式。.AIF Apple计算机的波形音频文件格式。.RMI Microsoft公司的MIDI文件格式。它可以包括图片、标记和文本。2-5 WAV文件储存容量计算(P19)WAV文件的字节数/每秒=采样频率(Hz)?/FONT量化位数(位) ?/FONT声道数/8 2-6 MIDI文件的特点(P20)由于MIDI文件记录的是一系列的计算指令而不是数据化后的波形数据,因此占用的存储空间比WAV文件要小很多。所以预装MIDI文件比装入WAV文件要容易很多。这为设计多媒体应用系统和指何时播放音乐带来很大的灵活性。但是MIDI文件的录制比较复杂,这要学习一些使用MIDI创作并改编作品的专业知识,并且还必须有专门工具,如键盘合成器等。2-7 音频信号处理的特点(P20-21)(1) 音频信号是时间依赖的连续媒体。(2) 理想的合成声音应是立体声。(3) 对语音信号的处理,要抽取语意等其它信息,如可能会涉及到语言学、社会学、声学等。2-8 音频卡的主要功能(P21)音频的录制与播放、编辑与合成、MIDI接口、文语转换、CD-ROM接口及游戏接口等。2-9 音频卡的分类(P23)音频卡的分类主要根据数据采样量化的位数来分,通常分为8位、16位和32位等几类。位数越高,量化精度越高,音质就越好。2-10 音频卡的工作原理(P24-25)(1)声音的合成与处理:这部分是音频卡的核心,一般由数字声音处理器、FM音乐合成器及MIDI控制器组成。它的主要任务是完成声波信号的 模/数、数/模转换,利用调频技术控制声音的音调、音色、和幅度。(2)混合信号处理器及功率放大器:内置数字/模拟混音器,混音器的声源可以是MIDI信号、CD音频、线输入、话筒和PC的扬声器等,可以选择输入一个声源或将几个不同的声源进行混合录音。(3)计算机总线接口和控制器:总线接口和控制器是由数据总线双向驱动器、总线接口控制逻辑、总线中断逻辑及DMA(直接存储器存取)控制逻辑组成。2-11 音频卡硬件的安装步骤(P26)(1)将电脑电源关闭,拔下供电电源和所有外接线插头;(2)打开机箱外壳,选择一个空闲的16位扩展槽并将声卡插入扩展槽,声卡一般应尽可能远离显示卡,以防两者互相干扰;(3)连接来自CD-ROM驱动器的音频线及声卡的输入/输出线和游戏棒等;(4)如果需要,将CD-ROM驱动器的接口电缆插在卡上相应的接口上,并将CD-ROM的音频输出线接到声卡的针形输入线上;(5)连接诸如麦克风、外部音源和游戏棒等其它设备;(6)盖上机箱外壳,并将电源插头插回,待全部调试通过后再将固定螺丝拧紧。2-12对语音信号实行压缩的可能性(P28)从信息保持的角度讲,只有当信源本身具有冗余度,才能对其进行压缩。根据统计分析结果,语音信号存在着多种冗余度,其最主要部分可以分别从时域和频域来考虑。另外由于语音主要是给人听的,所以考虑了人的听觉机理,也能对语音信号实行压缩。2-13.数据压缩技术的三个重要指标(1)压缩前后所需的信息存储量之比要大;(2)实现压缩的算法要简单,压缩、解压缩速度快,尽可能地做到实时压缩和解压缩;(3)恢复效果要好,要尽可能的完全恢复原始数据。2-14.实施音频数据压缩时要考虑的因素(P30)音频质量、数据量和计算复杂度。2-15 音频编码的分类(P30)(1)基于音频数据的统计特性进行编码,其典型技术是波形编码。(2)基于音频的声学参数,进行参数编码,可进一步降低数据率。其目标是使重建音频保持原音频的特性。(3)基于人的听觉特性进行编码:从人的听觉系统出发,利用掩蔽效应,设计心理声学模型,从而实现更高效率的数字音频的压缩。其中以MPEG标准中的高频编码和Doldy AC-3最有影响。2-16 音频编码算法和标准(P31-36)(1)G.711 、G.721 、G.722 、G.728(2)MPEG中的音频编码(3)AC-3编码和解码2-17 AC-3编码和解码(P36-39)2-18 乐音的三要素(P40)一个乐音,包括必备的三要素:音高、音色和响度。若把一个乐音放在运动的旋律中,它还应具备时值持续时间。这些要素的理想配合是产生优美动听的旋律的必要条件。2-19 MIDI规范(P42)MIDI(Musical Instrument Digital Interface)是乐器数字接口的缩写,泛指数字音乐的国际标准。MIDI标准规定了不同厂家的电子乐器与计算机连接的电缆和硬件。它还指定从一个装置传送数据到另一个装置的通信协议。任何电子乐器,只要有处理MIDI信息的处理器和适当的硬件接口都能变成MIDI装置。MIDI间靠这个接口传递消息而进行彼此通信。2-20 在下列情况下采用MIDI谱曲比使用波形音频更好(P44)(1)需要播放长时间高质量的音乐。比如想在硬盘上存储的音乐大于一分钟,而硬盘又没有足够的存储空间;(2)需要以音乐作背景音响效果,同时从CD-ROM中装载其它数据,如图象、文字的显示;(3)需要以音乐作背景音响效果,同时播放波形音频或实现文-语转换,以实现音乐和语音同时输出。第三章 视频信号的获取与处理3-1 数字图像(P59)多媒体计算机处理图像和视频,首先必须把连续的图像函数f (x,y) 进行空间和幅值的离散化处理,空间连续坐标(x,y)的离散化,叫做采样;f(x,y)颜色的离散化,称之为量化。两种离散化结合在一起,叫做数字化,离散化的结果称为数字图像。3-2 用YUV和YIQ的好处(P61)(1) 亮度信号Y解决了彩色电视机与黑白电视的兼容问题。(2) 大量实验表明,人眼对色差信号不敏感,而对亮度信号特别敏感。用亮度信号Y传送细节,用色差信号UV进行大面积涂色。3-3 选YIQ好处(P63)大量实验统计,人眼对红黄之间的颜色变化最敏感,而分辨蓝和紫之间颜色变化最不敏感。所以把相角为123的橙色及其相反相角的303的青色定义为I轴,它表示人眼最敏感的色轴。与I正交的色度信号轴,通过33 0213线,叫Q轴,它表示人眼最不敏感的色轴。在传送分辨率弱的Q信号是,可用较窄的频带,而传送分辨率较强的I信号是,可用较宽的频带。3-4 黑白全电视信号(P64)摄象机把图象信号转变成的最后输出信号就是全电视信号。全电视信号主要由三个部分组成:图象信号(视频信号)、复合消隐信号、复合同步信号。3-5 彩色全电视信号(P65-66)彩色全电视信号主要由:亮度信号、色度信号、复合同步信号、复合消隐信号组成。3-6 获取图形、静态图象和动态视频的方法(P67)多媒体计算机最常用的图象有三种:图形、静态图象和动态视频(也称视频),获得这三种图象可用下述方法:(1)计算机产生彩色图形、静态图象和动态图象;(2)用彩色扫描仪,扫描输入彩色图形和静态图象;(3)用视频信号数字化仪,将彩色全电视信号数子化后,输入到多媒体计算机中,可获得静态和动态图象。3-7 视频卡的类型(1)视频转换卡(Video Conversion Card)(2)视频捕捉卡(Video Capture Card)(3)视窗动态视频卡(Video Overlay Card)(4)动态视频捕捉/播放卡(Motion Video Capture/Playback Card)(5)视频压缩卡(JPEG/MPEG Compression Card)(6)模拟视频叠加卡(7)数字视频叠加卡(Video Overlay Card)(8)视频输出图形卡(9)视频输入、输出卡(10)MPEG影音解压卡3-8 视频采集卡的工作原理(P71-77)视频信号源(摄象机、录象机或激光视盘)的信号首先经过A/D变换,送到多制式数字解码器进行解码得到Y、U、V数据,然后由视频窗口控制器对其进行裁剪,改变比例后存入帧存储器。帧存储器的内容在窗口控制器的控制下,与VGA同步信号或视频编码器的同步信号同步,再送到D/A变换器模拟彩色空间变换矩阵,同时送到数字式视频编辑器进行视频编码,最后输出到VGA监视器及电视机或录象机。(1)A/D变换和数字解码(2) 窗口控制器(3)帧存储器系统(4)数模转换和矩阵变换(5)视频信号和VGA信号的叠加(6)数字式多制式视频信号编码部分3-9 视频采集卡的硬件安装(P81-82)3-10 静态图像文件格式(P85)当前比较流行的图像格式:GIF、TIFF、TGA、BMP、PCX、JPG及MMP。3-11 动态图像压缩编码文件格式(P85)动态图像的文件格式目前在多媒体计算机中常用的有:MPG、AVS及AVI、等。3-12 MPEG数据流结构的六个层次(P92)(1)序列层(Sequence layer)(2)图像组层(Group of Picture)(3)图像层(Picture)(4)片层(Slice)(5)宏块层(Macro block)(6)块层(Block layer)3-13 数字视频图象数据量的计算(不压缩)帧率: PAL制(25帧/秒); NTSC制(30帧/秒)第四章 多媒体数据压缩编码技术4-1 信息量与数据量的关系I=D-DuI:信息量D:数据量Du:冗余量4-2 图象数据压缩研究的起点(P99)图象数据压缩技术就是研究如何利用图象数据的冗余性来减少图象数据量的方法。因此,进行图象数据压缩研究的起点是研究图象数据的冗余性。4-3 多媒体数据压缩方法根据不同的依据可产生不同的分类(P100)(1)根据质量有无损失可分为有损失编码和无损失编码。(2)按照其作用域在空间域或频率域上分为:空间方法、变换方法和混合方法。(3)根据是否自适应分为自适应性编码和非适应性编码。4-4 依据压缩算法分类:(1)脉冲编码调制(2)预测编码(3)变换编码(4)统计编码(5)混合编码4-5 变换编码的主要思想(P101)变换编码的主要思想是利用图像块像素值之间的相关性,把图像变换到一组新的基上,使得能量集中到少数几个变换系数上,通过存储这些系数而达到压缩的目的。在变换编码中,由于对整幅图像进行变换的计算量太大,所以一般把原始图像分成许多个矩形区域子图像独立进行变换。4-6 统计编码(P101)最常用的统计编码是Huffman编码。它对于出现频率大的符号用较少的位数来表示,而对出现频率较小的符号用较多的位数来表示。其编码效率主要取决于需编码的符号出现的概率分布,越集中则压缩比越高。4-7 量化器的设计要求(P103)通常设计量化器有下述两种情况:(1)给定量化分层级数,满足量化误差最小。(2)限定量化误差,确定分层级数,满足以尽量小的平均比特数,表示量化输出。4-8 信息、信息量、信息熵(P106)(1)信息:信息是用不确定性的量度定义的。一个消息的可能性愈小,其信息愈多;而消息的可能性愈大,则其信息愈少。(2)信息量:所谓信息量是指从N个相等可能事件中选出一个事件所需要的信息度量或含量,也就是在辩识N个事件中特定的一个事件的过程中所需要提问“是或否”的最少次数。(3)熵:如果将信源所有可能事件的信息量进行平均,就得到了信息熵(entropy)。熵就是平均信息量。4-9 最佳编码定理(P108)在变字长码中,对于出现概率大的信息符号编以短字长的码,对于出现概率小的信息符号编以长字长的码,如果码字长度严格按照符号概率的大小的相反顺序排列,则平均码字长度一定小于按任何其它符号顺序排列方式得到的码字长度。4-10 Huffman 编码的步骤(P108)(1)概率统计,得到n个不同概率的信息符号;(2)将n个信源信息符号的n个概率,按概率大小排序;(3)将n个概率中,最后两个小概率相加,这时概率个数减为n-1个;(4)将n-1个概率,按大小重新排序;(5)重复(3),将新排序后的最后两个小概率相加,相加和与其余概率再排序;(6)如此反复重复n-2次,得到只剩两个概率序列;(7)以二进制码元(0,1)赋值,构成哈夫曼码字,编码结束。4-11 预测编码概念(P114)预测编码是根据某一模型利用以往的样本值对于新样本进行预测,然后将样本的实际值与预测值相减得到一个误差值,对这一误差值进行编码。4-12 帧间预测编码(P119)帧间预测编码技术的对象是序列图象。随着大规模集成电路技术的发展,已有可能把几帧的图象存起来作实时处理,利用帧间的时间相关性进一步消除图象信号的冗余度,提高压缩比。帧间编码的技术基础是预测技术。4-13 JPEG标准(P135)JPEG算法被确定为JPEG国际标准,它是国际上彩色、灰度、静止图像的第一个国际标准。JPEG标准是一个适合范围广泛的通用标准。它不仅适于静图像的压缩,电视图像序列的帧内图像的压缩编码也常采用JPEG压缩标准。JPEG的目的是为了给出一个适用于连续色调图象的压缩算法。4-14 JPEG算法具有四种操作方式(P135)(1)顺序编码;(2)累进编码;(3)无失真编码;(4)分层编码。4-15 JPEG的编解码过程(P135-138)(1)离散余弦变换(DCT);(2)量化;(3)DC系数的编码和AC系数的行程编码;(4)熵编码。4-16 MPEG标准包括四个部分MPEG系统、MPEG视频、MPEG音频、MPEG测试(检测)4-17 MPEG将图像分成三种类型(P152)图像(Intra Picture 帧内图)、P图像(Predicted Picture预测图)、B图像(Bidirectional Picture双向预测图)。4-18 MPEG视频压缩技术(P152)MPEG视频压缩技术是针对运动图象的数据压缩技术。为了提高压缩比,帧内图象数据压缩和帧间图象数据压缩技术必须同时使用。第五章 多媒体计算机硬件及软件系统结构5-1 MPC平台标准与开发者、销售商和用户的关系(P174)(1)对计算机应用开发者来说,MPC是开发先进的多媒体应用系统的标准;(2)对用户来说,MPC是建立能支持多媒体应用的PC机系统或者已有的PC机系统升级为多媒体PC机系统的指南;(3)对销售商来说,MPC是一个组织的标志,这个组织的宗旨是尽可能使PC机的用户拥有多媒体功能。5-2 MPC兼容性的两个关键问题(P174)(1)如何能使应用软件和工具软件在各种操作系统和硬件支撑平台上操作运行;(2)数据交换兼容性问题。5-3 MPC升级办法(P179)(1)自己购置组成MPC的硬件和必要的软件,自己安装调试;(2)请专业公司和专业人员协助升级;(3)购置多媒体升级套件。5-4 MPC的功能(P181)(1)对音频信号的处理能力(2)图形功能(3)图像处理功能(4)视频处理功能5-5 II型DVI系统Action Media 750 II系统结构的主要组成部分(P186-193)(1)视频子系统(2)彩色键连子系统(3)音频子系统(4)DVI总线(5)获取子系统(6)CD-ROM子系统(7)主机接口5-6 集成设计原则(P211-213)集成的含义是指:在原有计算机体系结构结构中,如何增加下述新的功能,其设计原则是:(1)采用国际标准的设计原则(2)多媒体和通信功能的单独解决变成集中解决(3)体系结构设计和算法相结合(4)把多媒体和通信技术作到CPU芯片中5-7 MMX技术能够加速的最根本原因(P241)采用SIMD结构正好能够在一条指令中并行执行多数据流相同的操作,这就是MMX技术能够加速的最根本原因。5-8 Intel MMX的核心技术(P241-245)(1)增加了新的数据类型;(2)扩充了饱和型运算方式;(3)扩充了57条新指令;(4)与IA结构的全兼容性。5-9 MMX开发工具和编程技巧(P248)建议采用下述工具和方法:(1)采用在高级语言中嵌入MMX指令的方法。(2)采用Intel公司提供的MMX标准函数库。(3)采用数据流描述方法。第六章 超文本和超媒体6-1 超文本的特点:(P255)(1)多种媒体信息(2)网络结构形式(3)交互特性6-2 超文本的三个要素(P255) 节点、链和网络。6-3 超文本系统的特性(P256)(1)多媒体化:节点可含有文本、图形、图象、动画、声音和视频等;(2)网络结构:使信息的表达方式接近现实世界,按人们的思维习惯方式组织信息;(3)交互性:多媒体化和网络结构反映了信息的静态结构特征,而交互性是浏览超文本时,最为重要的动态特征。6-4 超文本与超媒体系统的三层理论模型(P259)(1)数据库层(2)超文本抽象机层(3)用户接口层6-5 节点(P261)超文本是由节点和链构成的信息网络。节点是表达信息的单位,是围绕一个特殊主题组织起来和数据集合。节点的内容可是文本、图形、图像、动画、音频、视频等,也可以是一般计算机程序。6-6 链的结构(P262)链的一般结构可分为三个部分:链源、链宿及链的属性。链源:一个链的起始端称为链源。链源是导致节点信息迁移的原因,可以是热字、热区、图元、媒体对象或节点等。链宿:链宿是链的目的所在。一般超文本链的链宿都是节点。链的属性:链的属性决定链的类型,它是链的主要特性。6-7 超文本系统与操作工具(P264-265)(1)编辑器;(2)编译器;(3)阅读器;(4)导航工具6-8 超文本与超媒体发展的前景(P267)(1)由超文本向超媒体发展(2)由超媒体向智能超媒体发展(3)由超媒体向协作超媒体发展第七章 多媒体计算机的应用技术7-1.多媒体电子出版物的优点(P269)(1)存储容量大,一张光盘可以存储几百本长篇小说;(2)媒体种类多,可以集成文本、图形、图像、动画、视频和音频等多媒体信息;(3)运输与携带方便,检索迅速:可长期保存,不会出现纸面出版物那样变色、发霉、虫蛀和粉化等现象;(4)及时传播,经由计算机网络可立即发行到国内外各地;(5)价格低廉,单位成本是普通图书的几分之一,甚至几百分之一。7-2 视频会议系统的分类(P280)根据通信节点的数量,视频会议系统可分为:(1)点对点视频会议系统;(2)多点视频会议系统。7-3 视频会议系统的组成(P281)视频会议系统主要由视频会议终端、多点控制器、信道(网络)及控制管理软件组成。7-4 视频会议系统终端的主要功能(P281)视频会议系统终端的主要功能是:完成视频信号的采集、编辑处理及显示输出、音频信号的采集、编辑处理及输出、视频音频数字信号的压缩编码和解码,最后将符合国际标准的压缩码流经线路接口送到信道,或从信道上将标准压缩码流经线路接口送到终端中。此外,终端还要形成通信的各种控制信息:同步控制和指示信号、远端摄像机的控制协议、定义帧结构、呼叫规程及多个终端的呼叫规程、加密标准、传送密钥及密钥的管理标准等。7-5 多点控制单元(MCU)的主要功能(P281)多点控制单元(multipoint control unit,简称MCU)是视频会议系统的关键设备,它的主要功能是对视频、语音及数据信号进行切换。例如它会把传送到MCU某会场发言者的图象信号切换到所有会场。对于语音信号,若同时有几个发言,可以对它们进行混合处理,选出最高的音频信号,切换到其他会场。7-6 MCU的主要组成部分(P281)MCU的主要组成部分是:网络接口单元、呼叫控制单元、多路复用和解复用单元、音频处理器、视频处理器、数据处理器、控制处理器、密钥处理分发器几呼叫控制处理器。7-7 满足视频会议系统需求的核心问题视频会议系统的服务质量(quality of service,简称QOS)是满足视频会议系统需求的核心问题。(教材P282)7-8 视频会议系统的服务质量(QOS)管理(P303)所谓QOS管理,是指计算机和网络系统采用一定的方法,满足用户应用的服务请求,并保证QOS的过程。在这一过程中计算机和网络系统的资源将用户应用的服务请求映射成一些预先定义的QOS参数,进而与系统和网络的资源对应起来,通过资源的分配和调度,满足用户的应用需求,这一过程叫QOS协商。QOS协商有时可能不成功,原因是系统和网络无法完全满足带宽、延迟和正确率的要求,这时通常又要进行QOS的重协商,以确定是否允许降低QOS。7-9 多媒体数据的存储问题(P315-316)(1)巨大的数据量;(2)存储技术;(3)多媒体对象存储;(4)多媒体文档检索。7-10 目前多媒体数据的管理中可供数据存储的方法(P319)(1)对现有关系数据库管理系统(RDBMS)进行扩展,用二进制对象的方式支持各种多媒体对象。(2)把关系数据库中基本二进制对象扩展为继承和类的概念。支持这些特性的数据库管理系统提供对象程序设计前端扩展或C+支持。(3)将数据库和应用程序转换为面向对象的数据库,并使用C+或SQL这样的面向对象的语言进行开发。7-11 多媒体数据库体系结构(P322-323)(1)组合型多媒体数据库结构;(2)集中型多媒体数据库结构;(3)客户/服务器型多媒体数据库结构;(4)多媒体数据层次结构。7-12 基于内容检索的特点(P324-325)(1)从媒体内容中提取信息线索。基于内容的检索突破了传统的基于关键词检索的局限,直接对图像、视频、音频进行分析,抽取特征,使得检索更加接近媒体对象。(2)提取特征的方法多种多样。以图像的特征提取为例,可以提取形状特征、颜色特征、纹理特征、轮廓特征等。(3)人机交互进行。一般来讲,人对于特征比较敏感,能迅速分辨出目标的轮廓、音乐的旋律等,但对于大量的对象,一方面难以记住这些特征,另一方面人工从大量数据中查找目标效率非常低,而这正是计算机的长处,因此,使用基于内容检索的系统时,人与计算机相互分工配合进行检索。(4)基于内容的检索是一种近似匹配。在检索过程中,采用逐步求精的办法,每一层的中间结果是一个集合,不断减小集合的范围,直到定位到目标。这一点与数据库检索的精确匹配算法有明显不同。7-13 基于内容检索需要解决的关键技术(P327)(1)多媒体特征提取和匹配;(2)相似检索技术。计算题实例 例145分钟双声道、16位采样位数、44.1KHz采样频率声音的不压缩的数据量? 解:根据公式: 代入相应的数据,得:例245分钟PAL制352288分辨率24位真彩色数字视频的不压缩的数据量是多少? 解:根据公式: 帧率: PAL制(25帧/秒); NTSC制(30帧/秒) 得: 例3已知信源符号及其概率如下,试求其Huffman编码及平均码长。 解: (1)Huffman编码 (2)平均码长 多媒体技术基础期末复习要点浙江广播电视大学计算机科学与技术系(2002年12月)多媒体技术基础各章主要内容第一章 多媒体技术概论1多媒体、多媒体技术、多媒体系统2促进多媒体技术发展的关键技术3多媒体技术的特性4多媒体系统的分类、组成第二章 多媒体信息的表示1多媒体数据的特点2音频的定义以及分类,声音的三要素3数字音频的含义,音频信号的数字化处理过程4音频文件大小的计算、常见的声音文件格式5MIDI的含义、MIDI与数字化声音的比较6位图图像、矢量图形的概念;矢量图与位图比较7监视器分辨率的分类,计算机中常用的颜色模型8常见图像文件的格式9造型动画和帧动画10超文本与超媒体的概念,超文本的主要成分,超文本系统的三层模型第三章 多媒体信息的压缩 1数据压缩技术的三个重要指标、有损压缩、无损压缩的概念2Huffman编码、算术编码、预测编码、变换编码、模型编码的原理3常用音频信号编码方法的原理4音频信号压缩编码标准,影响音频信号质量的因素5视频信号压缩编码的标准(JPEG、MPEG)6RGB三基色信号转换YUV信号的换算、广播视频标准(NTSC、PAL、SECAM)第四章 多媒体制作1多媒体应用系统开发步骤2数字音频的录制步骤、产生失真的原因及解决方法3使用Adobe Premiere制作数字图像的方法、使用3D Studio制作动画的方法第五章 多媒体开发环境和工具 1多媒体创作系统概念、功能及组成2多媒体开发工具的类型、特征、功能3多媒体开发的基本软件的主要特点4Authorware多媒体制作软件的使用第六章 多媒体应用系统开发1多媒体应用系统的特点2多媒体应用系统开发的各阶段及主要内容第七章 多媒体卡1音频卡的主要功能、工作原理、安装过程2视频采集的概念3数字视频较模拟视频的优点4视频卡的安装5MPEG解霸卡的主要特点、系统要求及安装过程第八章 光盘与光驱1CD-ROM的特点、支持标准2光驱的控制接口分类及数据传输速率的含义3光驱的分类、硬件安装与软件安装4CD-ROM盘片的制作过程第九章 常用多媒体设备1常用多媒体设备的分类2触摸屏的工作原理、分类、安装和设置3红外触摸屏的特点和工作原理4扫描仪的工作原理,其各项性能指标的含义5红外传输技术的特点6实现语音输入的软硬件条件7数码相机的工作原理、特点8条形码的工作原理,常用的条码识读设备第十章 多媒体应用1多媒体教学软件的基本要求、教学设计2多媒体视频会议系统的类型、基本功能、主要技术特点3多媒体电子出版物的优点4多媒体对数据库设计的影响,多媒体数据库系统的基本功能 5多媒体数据库管理系统的体系结构,以及各层的含义6多媒体数据库中查询处理的难点和多媒体数据库用户接口设计中的重点第一章 多媒体技术概论1-1.多媒体的概念(P1)文本、声音、图形、图像和动画等是信息的载体,其中两种或多于两种的组合构成了多媒体。1-2.多媒体计算机技术(P1-2)多媒体计算机技术,就是指运用计算机综合处理多媒体信息(文本、声音、图形、图像等)的技术,包括将多种信息建立逻辑连接,进而集成一个具有交互性的系统等等。1-3.多媒体系统(P2)多媒体系统是指利用计算机技术和数字通迅网技术来处理和控制多媒体信息的系统。1-4.促进多媒体技术的关键技术(P2)(1)CD-ROM解决了多媒体信息的存储问题;(2)高速计算机网络可以传送多媒体信息;(3)高速位处理技术、专用集成电路技术和亚微米集成电路技术的发展,为多媒体技术提供了高速处理的硬件环境;(4)多媒体压缩技术、人机交互技术和分布式处理技术的出现促进了多媒体系统的产生与发展。1-5.多媒体技术的特性(P2)(1)集成性;(2)实时性;(3)交互性;(4)高质量。1-6.多媒体系统的分类(P5-6)1.基于功能分类:(1)开发系统;(2)演示系统;(3)培训系统;(4)家庭系统。2.基于应用分类:(1)多媒体信息咨询系统;(2)多媒体管理系统;(3)多媒体辅助教育系统;(4)多媒体通信系统;(5)多媒体娱乐系统。1-7.多媒体系统的组成(P6-7)(1)计算机硬件;(2)多媒体计算机所配置的硬件;(3)多媒体I/0控制及接口;(4)多媒体的核心系统;(5)多媒体创作系统;(6)多媒体应用系统。第二章 多媒体信息的表示2-1.多媒体数据的特点(P13)(1)数据量巨大;(2)数据类型多;(3)数据类型间区别大;(4)多媒体数据的输入和输出复杂。2-2.音频的定义(P16)音频(Audio)指的是大约在20Hz20kHz频率范围的声音。2-3.音频的分类(P16)音频主要分为波形声音、语音和音乐。2-4.声音的三要素(P17)声音具有音调、音强、音色三要素。 2-5.声音是连续型时基媒体(P17) 声音数据具有很强的前后相关性,数据量大、实时性强,又由于声音是连续的,所以通常把其称之为连续型时基媒体类型。2-6.数字音频、数字音频的特点、音频数字化要考虑的问题(P17)数字音频是指音频信号用一系列的数字表示,其特点是保真度好,动态范围大。在计算机内的音频必须是数字形式的,因此必须把模拟音频信号转换成有限个数字表示的离散序列,即实现音频数字化。在这一列处理技术中,要考虑采样、量化和编码的问题。2-7.音频信号转换成计算机中表示的过程(P17)(1)选择采样频率,进行采样;(2)选择分辨率,进行量化;(3)形成声音文件。2-8.采样频率、声音回放的质量及声音文件存储容量的关系(P17-18) 根据采样定理,采样的频率至少高于信号最高频率的2倍。采样的频率越高,声音回放出来的质量也越高,但是要求的存储容量也越大。 2-9.音频数字化常用的采样频率(P18) 44.1 kHz;22.05 kHz; 11.025 kHz。 2-10.分辨率(量化位数)(P18-19) 分辨率是指把采样所得的值(通常为反映某一瞬间声波幅度的电压值)数字化,即用二进制来表示。 2-11.决定数字录音文件大小的公式为:(P19) S=RD(r/8)1 式中: S 表示文件大小,单位为字节; R 表示采样速率,单位为Hz; D 表示录音的时间,单位为s; r 表示分辨率,单位为二进制位(bit),如8位、16位等; 式中的数字1表示对应的单声道。公式中的/8是把二进制位换算成以字节作为单位。 文件的字节数/每秒=采样频率(Hz)采样位数(位)声道数/82-12.存储声音信息的常用文件格式(P20) 在多媒体技术中,存储声音信息的常用文件格式主要有:WAV、VOC、MIDI、AIF、SND和RMI文件等。 2-13.波形声音质量与数据量的关系声卡对声音的处理质量可以用三个基本参数来衡量:采样频率、采样位数和声道数。(1)采样频率是指单位时间内的采样次数。采样频率越大,采样点之间的间隔就越小,数字化后得到的声音就越逼真,但相应的数据量就越大。声卡一般提供11.025kHz、22.05kHz和44.1kHz三种不同的采样频率。(2)采样位数是记录每次采样值数值大小的位数。采样位数通常有8bits或16bits两种,采样位数越大,所能记录声音的变化幅度就越细腻,相应的数据量就越大。(3)采用的声道数是指处理的声音是单声道还是立体声。单声道在声音处理过程中只有单数据流,而立体声则需要左、右声道的两个数据流。立体声的效果好,但相应的数据量要比单声道的数据量加倍。2-14.MIDI的含义(P21-22) MIDI是乐器数字接口(Musical Instrument Digital Interface)的英文缩写,是数字音乐的国际标准。MIDI规定了各种电子乐器和计算机之间连接的电缆和硬件接口标准及设备间数据传输的规程。 2-15.MIDI文件(P22-23) 记录MIDI信息的标准格式文件称MIDI文件。 2-16.MIDI 数据的优点和缺点(P23-24) MIDI 数据优点 (1)文件紧凑,所占空间小,MIDI文件的大小与回放质量完全无关。 (2)在某些情况下,如果所用的MIDI声源较好,MIDI有可能发出比数字化声音质量更好的声音。 (3)在不需要改变音调或降低音质的情况下,可以通过改变其速度来改变MIDI文件的长度。MIDI数据是完全可编辑的,我们可以用多种方法来处理它的每个细节,而在处理数字化声音时,这些方法却完全用不上。 (4)为了创建数字化声音所要求的准备与编程工作,不需要掌握许多音乐理论知识,而MIDI则要求比较多。 (5)在应用软件和系统支持方面数字化声音都有更多的选择,不管对Macintosh还是Windows平台均如此。 MIDI数据缺点 (1)因MIDI数据并不是声音,仅当MIDI回放设备与产生时所指定设备相同时,回放的结果才是精确的。 (2)MIDI不易用来回放语言对话。 2-17.数字化声音和MIDI之间的选择 (P24)选择MIDI (1)由于没有足够的RAM、硬盘空间或CPU处理能力; (2)具有高质量的声源; (3)对回放的硬件有完全的控制; (4)没有语言对话的需要。 选择数字化声音 (1)对回放硬件没有完全的控制; (2)有足够的计算机资源处理数字文件; (3)有语言对话的需要。 2-18.位图图像(P24) 位图图像(Bit-Map Image)是指在空间和亮度上已经离散化的图像。通常把一幅位图图像考虑为一个矩阵,矩阵中的一个元素(像素)对应图像的一个点,相应的值表示该点的灰度或颜色等级。位图图像适用于逼真照片或要求精细细节的图像。2-19.位图的产生方法(P25) (1)用画图程序获得; (2)用荧光屏抓取程序从荧光屏上直接抓取; (3)用扫描仪或数字化的视频图像抓取设备从照片、艺术作品或电视图像抓取; (4)购买现成的图像库。 2-20.矢量图形(P26) 矢量图形(Vector-Based Image)是用一个指令集合来描述的。这些指令用来描述图中线条的形状、位置、颜色等各种属性和参数。2-21.矢量图与位图的比较(P27) (1)对于简单图像,矢量图比位图占用的存储空间小。 (2)对于复杂的图像,用位图比用矢量图画对象速度快。 2-22.监视器的分辨率(P28) (1)屏幕分辨率; (2)图像分辨率; (3)像素分辨率。 2-23.计算机中常用的颜色模型(P28) 计算机中常的颜色模型:红绿蓝(RGB)、灰度/饱和度/亮度(HSB、HSL)、CMYK、CIE等。 2-24.Windows中最常用的图象文件格式(P29) DIB、BMP、PCX 、TIFF、JPG。 2-25.视觉暂留(教材P31) 所谓视觉暂留,就是在观察过物体之后,物体的映像将在人眼的视网膜上保留一短暂的时间。 2-26.帧动画和造型动画(P31) 用计算机实现的动画有两种,一种为帧动画,另一种为造型动画。 (1)帧动画是由一幅幅连续的画面组成的画像或图形序列,这是产生各种动画的基本方法。 (2)造型动画是对每一个活动的对象分别进行设计,并构造每一对象的特征,然后用这些对象组成完整的画面。这些对象在设计要求下实时转换,最后形成连续的动画过程。2-27.动画与视频的区别动画和视频信息是连续渐变的静态图像或图形序列,沿时间轴顺次更换显示,从而构成运动视觉的媒体。 (1)当序列中每帧图像是由人工或计算机产生的图像时,我们常称为动画;(2)当序列中每帧图像是通过实时摄取自然景象或活动对象时,我们常称为影像视频,或简称为视频。2-28.超文本的定义(P33) 超文本定义为由信息结点和表示信息结点间相关性的链构成的一个具有一定逻辑结构和语义的网络。 2-29.超文本的主要成分超文本的主要成分是:结点和链2-30.超媒体(P34) 超媒体=多媒体+超文本。2-31.结点的定义(P34) 结点是超文本表达信息的一个基本单位,其大小可变,结点的内容可以是文本、图形、图像、音频和视频等,也可以是一段程序。 2-32.链的定义(P35) 链是组成超文本的基本单位,形式上是从一个结点指向另一个结点的指针,表示不同结点存在的信息的联系。 2-33.超文本体系结构的三层模型理论(P36-37) (1)用户接口层; (2)超文本抽象机层; (3)数据库层。 第三章 多媒体信息的压缩 3-1.实现数据压缩的途径(P40) 在多媒题信息中包含大量冗余的信息,把这些冗余的信息去掉,就实现了压缩。 3-2.电视图像中含有的冗余信息(P40) (1)在每一帧画面内的相邻像素之间相关性很大,有很大的信息冗余量,这叫做空域相关。(2)在电视图像相邻帧之间存在很大的信息冗余量,这叫做时域相关。(3)在多媒体应用中,信息的主要接收者是人,而人的视觉有视觉掩盖效应。 3-3.数据压缩技术的三个重要指标(P41) (1)压缩前后所需的信息存储量之比要大; (2)实现压缩的算法要简单,压缩、解压缩速度快,尽可能地做到实时压缩和解压缩; (3)恢复效果要好,要尽可能的完全恢复原始数据。 3-4.有损压缩法、无损压缩法(P41) 目前常用的压缩编码方法分为两类:(1)冗余压缩法,也称为无损压缩法或熵编码;冗余压缩是可逆的。(2)熵压缩法,也称有损压缩法。有损压缩法压缩了熵,会减少信息量。熵定义为平均信息量,损失的信息是不会再恢复的。因此这种压缩法是不可逆转的。3-5.变长编码(P41) 变长编码使用长度可变的代码对以不同频率出现的样本进行编码,它主要用于消除代码冗余。 3-6.Huffman 编码(P41) Huffman编码体现了统计编码的思想:对于出现频率大的符号用较少的位数来表示,而对于出现频率小的符号用较多的位数来表示。其编码效率主要取决于需编码的符号出现的概率分布,越集中则压缩比越高。Huffman 编码过程如下: (1)将信源符号按概率递减顺序排序; (2)把两个最小的概率加起来,作为新符号的概率; (3)重复(1)和(2),直到概率和达到1为止; (4)在每次合并符号时,将被合并的符号赋予1和0或赋予0和1; (5)寻找从每一信源符号到概率为1的路径,记录下路径上的1和0; (6)对每一符号写出从码树的根到终结点1、0序列。 3-7.算术编码(P42) 算术编码是一种统计编码,每个符号对应0到1上的一段子区间,区间长度为该符号出现的概率。该方法将被编码的符号串(数值串)表示成实
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 薯类批发商市场供需分析考核试卷
- 贸易代理国际市场进入与扩张策略考核试卷
- 集成服务在智能电网分布式能源管理的实现考核试卷
- 拍卖行拍卖业务智能化发展路径考核试卷
- 热扎带刚车间设计
- 麻醉科无痛技术临床应用与发展
- 寓言故事汇报展示
- 服装设计产品开发全流程
- Siphonaxanthin-生命科学试剂-MCE
- Anticonvulsant-agent-10-生命科学试剂-MCE
- 非遗文化掐丝珐琅景泰蓝
- 电动葫芦考试题及答案
- 2025广东省劳动合同样本
- 2025餐饮兼职合同样本
- 农资安全宣传课件
- 绿色营销试题及答案详解
- 2025年三级电子商务师(网商)理论考试题库(浓缩500题)
- 2025年下半年浙江省杭州建德市部分事业单位招聘(134人)易考易错模拟试题(共500题)试卷后附参考答案
- 2026年上海中考英语一轮复习:考纲词汇一词多义词清单
- 译文文学性再现与译者主体性发挥的对比研究
- 炎症性肠病营养治疗专家共识(第三版)解读课件
评论
0/150
提交评论