《多媒体技术第二讲》ppt课件

上传人：顺*** IP属地：广东上传时间：2021-12-16 格式：PPT 页数：31 大小：497.50KB 积分：20 举报 版权申诉

已阅读5页，还剩26页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、第二讲第二讲多媒体处置实际及共性技术根底多媒体处置实际及共性技术根底信号的数字化实际主要媒体方式引见信号的线性变换技术信号的统计编码技术多媒体系统特点Why Digital?Universal storage, transmission format CD, internetPrecision (Range of values, number of bits, floating point)Lossless transmission/storageBUT:sampling rate distorts informationsize requirements may be large

2、 compared to analogDigitization Process Sampling from an analog signal Sampling Errors relate to signal frequencies Quantization ErrorsSampling: Nyquist sampling theorem目的目的用最少的时间离散信号样本来准确表示用最少的时间离散信号样本来准确表示原来的延续信号。原来的延续信号。Nyquist采样规范采样规范采样频率至少为延续信号带采样频率至少为延续信号带宽的两倍。宽的两倍。假设采样频率小于这个规范，就会产生假设采样频率小于这

3、个规范，就会产生“混叠混叠景象，即采样后离散信号不能重构原延续信号。景象，即采样后离散信号不能重构原延续信号。2/or 2TTffssNyquist System:Quantization: Linear and Non-linearLinear quantization: 均匀量化均匀量化Non-linear quantization: 非均匀量化非均匀量化(大信号采大信号采用大间隔用大间隔, 小信号用小间隔小信号用小间隔) 举例：图象非均匀量化Types of multimedia dataTextGraphicsPicture/imageAudioSpeechVideoGenerated

4、 mediaText ASCII, Unicode Formatted Text, Rich Text Document Formats: Structured: Tex, HTML Page Descriptions: Postscript, PDFGraphics Objects circles, splines, rectangles, lines Editable resize, reshape, move, colorize Synthetic Images (Pictures) Fixed digitized representation bitmap, colors per pi

5、xel Editable in limited ways retouch, cut and paste, remap colors, filter Photoshop tools no model of the thing Captured not just from real life, clip art, screen dumpAudio Sounds hear 15 Hz to 20 kHz Speech is 50 Hz to 10 kHz Speech Recognition It is hard to wreck a nice beach Ice cream I scream Sy

6、nthesis Speech Music MIDI for 127 instruments, 47 percussion sounds Notes, timingSpeech Recognition Issues Continuous vs Discrete Vocabulary Size Channel (Microphone) Environment (Location of mike and Speaker) Speaker Dependent/Speaker Independent Context (Language Model) Interactivity (Dialog Model

7、)Acoustic ModelingDescribes the sounds thatmake up speechLexiconDescribes which sequences of speechsounds make upvalid wordsLanguage ModelDescribes the likelihoodof various sequences ofwords being spokenSpeech RecognitionSpeech Recognition Knowledge SourcesSpeech VariationsStyle Variationscareful, c

8、lear, articulated, formal, casualspontaneous, normal, read,dictated, intimateVoice Qualitybreathy, creaky,whispery, tense,lax, modalContextsport, professional,interview, free conversation,man-machine dialogueSpeaking Ratenormal, slow, fast,very fastStress in noise, with increased vocaleffort (Lombar

9、d reflex),emotional factors (e.g. angry),under cognitive loadVideo Frames comprise the video Frame rate = delay between successive frames minimal change between frames Sequencing creates the illusion of movement 16 fps is “smooth Standards: 29.97 is NTSC, 25 is PAL, 60 is HDTV Interlacing Display sc

10、an rate is different monitor refresh rate 60 - 70 Hz (= 1/s)Orthogonal Transforms 从实际上讲正交变换本身不能对信号产生从实际上讲正交变换本身不能对信号产生任何影响任何影响,但正交变换改动了信号的表现域或表但正交变换改动了信号的表现域或表现方式现方式,为某些信号处置和分析如紧缩提供了另为某些信号处置和分析如紧缩提供了另一种能够更方便的手段一种能够更方便的手段.1010210102/ )(2exp),(1),( / )(2exp),(1),( )(2exp),(),( )(2exp),(),( NiNkNmNnNnk

11、mijkiFNnmfNnkmijnmfNkiFdudvvyuxjvuFyxfdxdyvyuxjyxfvuFDiscrete Fourier Transform (DFT). 1, , 2/1, 2/1 ),( 0, 0)1,1(0, 0)1,(0, 0),1(0, 0),(),( : .,; , 4, DCT., ),( )(2sin)(2cos)(2exp )(2sin)(2cos)(2exp :TransformFourier NNkjkikifkikifkikifkikifkikifkifNNNNyxfvyuxjvyuxvyuxjvyuxjvyuxvyuxjss这个虚拟点的对称是对偶对称

12、扩展称为奇对称素如果折叠时重叠一个像称为偶对称块个形成对折将其沿水平和垂直边界的二维图象对于可导出则变换域中只有余弦项对称于原点如果图象中在Discrete Cosine Transform (DCT) 1010101010111/ )2/1(cos/ )2/1(cos),(2),(/ )2/1(cos/ )2/1(cos),(2),( ),( /)2/1()2/1(2exp),(1),(:),(),(FT2/)2/1()2/1(2exp),(21),(:NuNvNiNkssNiNNksssNNiNNkssNkvNjuvuFNkifNkvNjukifNvuFkifNkviujkifNvuFvu

13、FvuFNkviujkifNvuF是实对称函数由于因此具有共轭对称性由于偶对称余弦变换)()(),( )()(),( )()(),( )()(),( WTldimensiona-Two )()(2)2,21)( 0)( )()( )()(),)( 321,2/2/1yxyxyxyxyxyxyxyxdxxxfkfWdttabtatdtttfbafWkjjjjababWavelet Transform (WT)Coding从信息论角度看从信息论角度看: 描画信源的数据由有效信息和描画信源的数据由有效信息和冗余量两部分组成冗余量两部分组成,去除冗余量可以节省存储去除冗余量可以节省存储和传输中的开销和

14、传输中的开销,同时又不损失信源的有效信同时又不损失信源的有效信息量息量.从生理角度看从生理角度看: 一定限制的失真是允许的一定限制的失真是允许的,如人眼如人眼对图象灰度分辨率的局限性对图象灰度分辨率的局限性,监视器显示分辨监视器显示分辨率的限制率的限制,因此可以对图象信源做一定的甚至因此可以对图象信源做一定的甚至很大程度的紧缩很大程度的紧缩.编码紧缩的分类编码紧缩的分类: 1) 冗余度紧缩冗余度紧缩: 基于统计模型基于统计模型,减少或完全去减少或完全去除数据流中的冗余除数据流中的冗余,同时坚持信息不变同时坚持信息不变. (Statistical Coding). 2) 熵熵(entropy)紧

15、缩紧缩: 以牺牲部分信息量为代以牺牲部分信息量为代价而换取缩短平均码长的方法价而换取缩短平均码长的方法,即有损紧缩即有损紧缩.Statistical Coding统计编码是根据信源的概率分布特性统计编码是根据信源的概率分布特性,分配可变分配可变长码字长码字(其具有独一可译性其具有独一可译性),降低平均码字长度降低平均码字长度.Shannon CodingHuffman CodingArithmetic CodingShannon Coding Log2(1/pi) 表示包含在表示包含在 si 中的信息量中的信息量,即编码即编码所需的位数所需的位数,假设信息出现的概率不同假设信息出现的概率不同,

16、那么用非一致位表示那么用非一致位表示不同的信不同的信息比用同一位表示更有效率息比用同一位表示更有效率.Shannon and Fano 提出由上到下的编码方法提出由上到下的编码方法:图象灰度级图象灰度级 xi 按概率递减排序按概率递减排序.将将 xi 分成分成2组组,每组的概率和相等或类似每组的概率和相等或类似,对第一对第一组分配代码组分配代码“0,对第二组分配对第二组分配“1.执行步骤执行步骤2后后,假设每组还是由假设每组还是由2个或个或2个以上灰度个以上灰度级组成级组成,就反复上述步骤就反复上述步骤,知道每组只需一个知道每组只需一个灰度级灰度级.iiippsH)/1 (log)(2Huff

17、man Coding与与Shannon Coding相反相反,它是一种从下到上的它是一种从下到上的编码方法编码方法:将灰度等级按概率从大到小排序将灰度等级按概率从大到小排序.取两个最小概率相加之和取代这两个概率取两个最小概率相加之和取代这两个概率,然后然后一切概率构成一个新的概率集合一切概率构成一个新的概率集合(新概率集合新概率集合的元素个数比执行前少的元素个数比执行前少1个个),新概率元素在集新概率元素在集合中还是遵照由大到小规那么确定本人所处合中还是遵照由大到小规那么确定本人所处的位置的位置.被相加的被相加的2个最小概率所对应的灰度级成为个最小概率所对应的灰度级成为Huffman树的一个叶

18、节点树的一个叶节点,这这2个节点构造一个节点构造一个父节点个父节点.反复反复2,3步骤直到只需步骤直到只需2个概率为止个概率为止,这时这时Huffman树到达了根节点树到达了根节点.设一切节点的左后代为设一切节点的左后代为“0,右后代为右后代为“1,那那么从根开场经各中间节点到叶节点的途径代么从根开场经各中间节点到叶节点的途径代码就是叶节点的码就是叶节点的Huffman码码. Huffman coding的效率优于其它统计编码,是一种最正确变长码. 当数据成分复杂时,码表生成困难,编码速度较慢. (排序复杂) Huffman码无错误维护功能. (error propagation) Huffm

19、an和Shannon都自含同步码,无需添加标志符号.Arithmetic Coding 经过把信息转换为经过把信息转换为0,1实数实现编码实数实现编码,知参知参数包括每个符号的概率和它的编码间隔数包括每个符号的概率和它的编码间隔. ; ; ; ; ; where:)0 . 1 , 7 . 0)7 . 0 , 5 . 0)5 . 0 , 1 . 0) 1 . 0 , 0 . 0: 0,1) ,3 . 0 , 2 . 0 , 4 . 0 , 1 . 0 , 为当前子区间长度当前符号的区间右端当前符号的区间左端为前子区间的起始位置为新子区间的结束位置为新子区间的起始位置关系式为方便讨论再给出一组内的赋值范围设定为数区间那么各符号在半封闭实它们的概率分别为令信源符号为LCCFNNLCFNLCFNdcbadcbaflagrflaglareasareaeareasflagrareasareaeflaglareasareas. ., 514402. 0 ,5143876. 05146. 0006. 07 . 0

人人文库> 全部分类> 应用文书 > 工作计划

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

《多媒体技术第二讲》ppt课件

文档简介

温馨提示

最新文档

评论

《多媒体技术第二讲》ppt课件

文档简介

温馨提示

最新文档

评论

相关文档