




已阅读5页,还剩58页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
,数字媒体处理技术,课程定位,2019/11/5,提纲,1.1 数字媒体的基本概念 1.2 数字媒体处理关键技术 1.3 数字媒体标准简介 1.4 数字媒体技术的应用,4,1.1 数字媒体的基本概念,计算机的社会角色 计算 信息交流 智能服务,信息交流(人类发展和人的成长/计算机发展) 情感语言文字bits (简单化、精确化) 情感语言文字bits (自然化、可觉化) 文字信息为主的信息交流时代,计算机数字技术,什么是多媒体,“多媒体”一词源自“Multimedia”,Multi (Latin multus) many; much; multiple 多重、复合,Medium (Latin medius) a substance regarded as the means of transmission of a force or effect; a channel or system of communication, information, or entertainment (Merriam-Webster Dictionary ) medium的复数形式media 介质、媒介和媒体,多媒体的特性,多媒体强调的是使用多种媒体、综合表达信息内容并进行交互式处理的技术。 从本质上来说,具有三种最重要的特性: 媒体的多样性,其中至少有一种连续媒体; 媒体的集成性(综合性),多种不同媒体综合地表现某个内容,取得更好的效果; 处理的交互性,使人们获取和使用信息的过程中具有细粒度的控制和操纵能力。,计算机与媒体,表示,存储,展现,采集,感觉,感觉,表示,传输,Output Device,Input Device,CPU,什么是多媒体:分类,最常见的分类方法是基于感觉 文本 图像 音频(语音) 视频 基于描述空间中时间维分类 时间独立(离散) 文本、图形 时间依赖(连续) 音频、视频、语音、动画 基于描述空间中空间维分类 1D媒体 单声道语音、音乐 2D媒体 双声道音乐、图像、二维图形 3D及多维媒体 三维图形 , 全景图像 , 空间立体声音乐,媒体分类标准,存储 (Storage),展现 (Presentation),表示(Representation),感觉 (Perception),信息交换 (Information Exchange),传输(Transmission),什么是数字媒体,多媒体 Multimedia: 文本、图形、图像、视频和音频的组合形式,使其内容更丰富,更便于交流。 数字媒体 Digital Media: 以数字化的形式存储、处理和传播信息的媒体,以网络为主要传播载体,并具有多样性、互动性、集成性等特点。,什么是数字媒体:A Big Picture,多媒体,数字媒体系统,网络,分布式数字媒体系统,数字媒体技术的研究内容,核心关键技术 数字媒体信息处理技术:视音频编码压缩、图像/视频内容分析、语音识别等; 数字媒体传输技术:网络流媒体、P2P、无线多媒体传输等; 数字媒体内容管理技术:数字媒体数据库、基于内容的检索、数字版权管理、数字信息保护、数字媒体集成分发等。 关联支持: 数字媒体信息获取与输出技术:图像/视频采集技术与设备、三维显示技术与设备等; 数字媒体存储技术:海量分布存储等。 扩展应用: 图形与动画技术:图形输入、图形建模、图形处理与输出、复杂物体造型、表演动画等; 虚拟现实技术:动态虚拟环境建模、实时三维图形生成、立体显示与传感器等。,什么是数字媒体,数字媒体 信息的表现形式是多种多样的,能够用计算机记录和传播的信息媒体,无论是已经应用还是将要应用的,其共同的一个重要特点就是信息的最小单元是比特“0”或“1”。 数字信息的最小单元就是比特,通过比特可以表述各种媒体信息。,比特是信息的最小单元,比特没有颜色、尺寸和重量,它只是一种存在的状态:开或关、真或假、高或低、黑或白,总之简记为0或1。 比特易于复制,而且复制的质量不会随复制数量的增加而下降。 比特可以以极快的速度传播,而且在传播时不受时空的限制。 比特可以用来表现文字、图像、动画、影视、语音及音乐等信息,多媒体与数字媒体,多媒体是混合的比特 多媒体(multimedia):文本数据、声音、图像、动画等的混合。 多媒体技术:能对多种载体(媒介)上的信息和多种存储体(媒质)上的信息用计算机进行采集、存储、编辑、显示、传播等综合处理的技术 多媒体信息:通过多媒体传播的信息。 多媒体系统:能够产生、存储、传播多媒体信息的系统。,数字媒体技术的发展,数字媒体计算机演变的关键技术,1970-an,1980,1990,Future,8位处理器,CD-ROM, LAN, WAN, 16位处理器 桌面PC,32位处理器,WWW,数字视音频,图形操作系统,计算、通信、内容、消费电子融合(4C),BROADBAND/Wired and Wireless Entertainment, E-Business, Services,MEDIA Pre-Recorded Content Personal Media,Conditional Access/Cable, Satellite, Broadcast, Wireless Services,Entertainment,Any Content+, Any Place, Any Device, Any Time,+ As Authorized,MOBILE MULTIMEDIA Entertainment, Personal Pictures and Video, Services,18,1.2 数字媒体处理关键技术,媒体数字化,为什么要数字化? 数字化过程 媒体数字化关键技术 采样(Sampling) 压缩(Compression) 编码(Coding),为什么要数字化?,模拟的问题:模拟失真,依赖载体 数字化的好处: 通用的存储和传输格式,数字化后处理更方便 适用于光盘存储和远距离传输 准确可靠,没有累计失真,可以无损传输和存储 数字化的问题 采样率失真,信息丢失 与模拟相比,需要很大的空间,例如35mm照片需要420万像素,高清视频码率大于 1Gbps 需要压缩 数字悬崖:马赛克、画面暂停丢失,数字化过程,三步骤 采样(Sampling) 量化(Quantizing) 压缩(Compression)与编码(Coding),Step 1: 采样与失真,通过某种频率的采样脉冲将模拟信息的值取出,变连续的模拟信息为离散信号。 采样定理:采样频率原始信号频率的2倍时, 采样信号才可以保真地恢复为原始信号。,Step 2:量化与失真,将采样样本的幅度按照量化级别决定其取值的过程。目的是将采样样本的幅度值离散化。 量化之前需要规定量化级,比如8级,16级,256级等。 量化是一个对一的映射。,例如:画图软件的颜色级别,为什么感知很重要?,失真评价的基础 http:/www.libertarian.on.ca/images/Florida%20Recount.jpg,Step 3:编码与压缩,编码 用相应位数的二进制代码表示量化后的采样样本的量级。 如果有N个量化级为,那么对应的二进制位数就为log2N。当N16,二进制需要4位。 经过编码之后,每个样本都表示为相应的二进制代码。 脉冲编码调制(PCM,Pulse Code Modulation),完成模拟信号的数字化,为什么需要数据压缩?,压缩编码的理论基本原理 从信息论的角度来看,压缩就是去掉信息中的冗余,即保留不确定的信息,去除确定的信息(可推知的),也就是用一种更接近信息本质的描述来代替原有冗余的描述。 信息冗余的例子 你的朋友,Helen,将于明天晚上6点零5分在上海的虹桥机场接你。 (23*2+10=56个半角字符) 你的朋友将于明天晚上 6点零5分在虹桥机场接你。 (20*2+3=43个半角字符) Helen将于明晚6点在虹桥接你。 (10*2+7=27个半角字符) 结论:只要接收端不会产生误解,就可以减少承载信息的数据量。,多媒体领域中的冗余分类,统计冗余 空间冗余规则物体的物理相关性 时间冗余视频与动画画面间以及音频帧间的相关性 信息熵冗余 编码冗余数据与携带的信息 结构冗余 纹理冗余规则纹理、相互重叠的结构表面 视/听觉冗余 视觉、听觉敏感度和非线性感觉 知识冗余 凭借经验识别,数据压缩,数据压缩可分成两种类型 无损压缩 有损压缩 无损压缩 指使用压缩后的数据进行重构(或者叫做还原,解压缩),重构后的数据与原来的数据完全相同 用于要求重构的信号与原始信号完全一致的场合。一个很常见的例子是磁盘文件的压缩。 有损压缩 指使用压缩后的数据进行重构,重构后的数据与原来的数据有所不同,但不影响人对原始资料表达的信息造成误解。 适用于重构信号不一定非要和原始信号完全相同的场合。,压缩策略,无损压缩(Lossless Compression) 哈夫曼编码(Huffman Coding) 自适应哈夫曼编码 Lempel-Ziv-Welch (LZW) 用于GIF JPEG-LS 有损压缩(Lossy Compression) JPEG H.261, MPEG-1, MPEG-2 无损+有损(Lossless and Lossy Together) JPEG 2000,数据压缩的性能指标,衡量压缩算法的三个主要性能指标 (1)压缩比; (2)压缩质量(失真); (3)压缩与解压缩的速度。 不能兼得时要综合考虑 压缩质量评价 主观评价 :平均意见得分(MOS)、五分制(优良中差劣) 客观评价:均方误差、加权均方误差、信噪比、峰值信噪比(图像)、分段信噪比(音频)、似然比、谱失真测度,编码方式举例:哈夫曼编码(Huffman Coding),Huffman编码属于信息熵编码的方法之一,是根据信源符号出现概率的分布特性而进行的压缩编码。 也称为最佳编码,平均码长最短。 编码过程: 1. 初始化:将信源符号按频率递减顺序排列,输入L; 2. 重复如下操作直至L中只有1个结点: (a)从L中取得两个具有最低频率的结点,为它们创建一个父结点; (b)将它们的频率和赋给父结点,并将其插入L; (c) 将树的左右孩子赋符号“0”和“1”,并从L中删除。,哈夫曼编码(Huffman Coding)示例,输入: “ALOHA HAWAII” 频率: 4A, 2H, 2I, 1L, 1O, 1 space, 1W 96 bits (8 bits * 12 characters) to 32 bits:,A=0, I=100, H=101, L=1100, space=1101, etc. 例子:Java applet example at http:/www.cs.sfu.ca/CC/365/li/squeeze/index.html,33,1.3 数字媒体标准简介,为什么需要媒体标准?,数字媒体标准是相关技术与产业之基础! 技术基础:采用不同标准的数字媒体,其压缩、编码、传输、内容分析与检索等技术有所不同 产业基础:五环相扣技术、专利、标准、产业、应用 例子:全球电视竞争的转折点在MPEG-2 (1996),数字媒体领域的主要技术标准,JPEG MPEG系列: MPEG-2/4/7/21 H.26x系列:H.261/3/4 AVS,JPEG,JPEG JPEG (Joint Photographic Experts Group)标准(ISO 10918)是ISO和ITU联合提出的通用静态图像压缩国际标准。 JPEG的重要特性 设定压缩参数 在解码速度和图像 质量间均衡 无损压缩,JPEG 2000压缩标准,JPEG 2000(ISO 15444)是JPEG的更新换代标准,针对Internet应用和无线通信等领域。 关键技术:以离散小波变换DWT为主的多解析压缩方式 核心算法:EBCOT 高压缩比:比JPEG压缩性能提高30% JPEG与JPEG 2000的性能比较,MPEG系列标准,MPEG系列标准由国际标准化组织和国际电工委员会第一联合技术组( ISO/ IEC JTC1) 制定的。 MPEG视频标准 MPEG-1:数字电视标准,1992年正式发布。 MPEG-2:数字电视标准,1994年成为国际标准草案。 MPEG-3:已于1992年7月合并到高清晰度电视(High-Definition TV,HDTV)工作组。 MPEG-4:多媒体应用标准(1999年发布)。 MPEG-7:多媒体内容描述接口标准(2001年发布)。 MPEG-21:有关多媒体框架的标准(正在研究)。 MPEG-A:多媒体应用格式标准(正在研究)。,MPEG-1,MPEG-1标准编号ISO/IEC11172,标准名称为“用于码率约为1.5Mbps时用于数字存储媒体的动像及伴音的编码”。 MPEG-1的基本目标 在音像质量上,达到VHS/VCD的放像质量 在存储上,可存储在光盘、数字录音带、硬盘等 在传输码流上,为1-1.5Mbps,以1.2Mbps为宜 在网络方面,应适应LAN、ISDN等多种网络 满足对称和不对称应用 MPEG-1的基本内容 几种伴音压缩数据和图像数据的复用; 图像的压缩; 伴音的压缩。 MPEG-1的特点 使用MPEG-1的压缩算法, 可将一部120分钟长的电影压缩到1.2GB左右。因此, 它被广泛地应用于VCD制作。,MPEG-2,MPEG-2是MPEG-1 的扩展。标准编号ISO/IEC 13818,标准名称为“运动图像及其伴音信息的通用编码”。主要内容为: 码率为4-9Mbps,最大15Mbps; 涵盖MPEG-1全部内容; 规定数字存储媒体命令和控制扩展协议,用于管理数据流(DSM-CC); 先进的声音编码方案; 规定系统解码器实时接口扩展标准,用来适应网络传输; DSM-CC一致性扩展测试; 先进声音编码标准修正。 MPEG-2的特点 利用网络提供的3100Mbps的数据传输率,支持具有更高分辨率图象的压缩和更高的图象质量; 可支持交迭图象序列(每帧图像由两个场组成),支持可伸缩性编码,多种运动估计方式,提供一个较广的范围改变压缩比; 可以适应不同画面质量、存储容量和带宽的要求,为此定义了不同的功能档次(profile,框架),每个档次又分为不同的等级(level)。 和MPEG-1主要区别 隔行扫描制式;DCT变换可在帧内,也可在场内。用户可自行选择,亦可自适应选择。,MPEG-4,MPEG-4标准编号ISO/IEC14496, 标准名称为“甚低速率视听编码” 1998年11月公布第一版,1999年12月公布了第二版,共分为6个部分。 目标是低速率下(64kbps)的视频、音频编码, 更加注重多媒体系统的交互性和灵活性。 引入了视听对象(Audio-Visual Objects,AVO) AVO可以是孤立的人,也可是这个人的语音或一段背景音乐等。 AVO具有高效编码、高效存储、高效传播以及可互操作的特性。 MPEG-4对AVO的操作主要有:采用AVO来表示听觉、视觉或者视听组合内容;生成复合的AVO;对AVO的数据灵活地多路合成与同步;对AVO进行交互操作等。 MPEG-4的特点 与MPEG-1和2相比,MPEG-4更适于交互视听服务以及远程监控。 设计目标使它具有更广的适应性和可扩展性。 MPEG-4能以很低的速率基本实现DVD的质量;由于属于一种高比率有损压缩算法,其图像质量始终无法和DVD的MPEG-2相比。,举例:MPEG-4视听场景的说明,由4个复合媒体对象(人,背景,家具,音视演示)组成。 系统定义了一个场景坐标系, 然后可以指定组成该场景的媒体对象在该坐标系中的位置,并可设定用户观察该场景时所在的坐标位置,这些位置信息都会包含在场景的描述中。,MPEG-7,MPEG-7是一种用于信息检索的内容表示的标准。标准编号ISO/IEC 15938 MPEG-7将建立各种类型多媒体信息的标准的描述方法。这种描述与内容关联在一起,支持对用户感兴趣的材料的快速、高效的检索。 MPEG-7 的目标是: 规定 a standard set of descriptors 用来描述各种类型的多媒体信息, 对描述符及其相互关系的预定义结构(称为Description Schemes)以及用户定义自己的结构的方法进行标准化, 制定一种用于定义新的description schemes的标准化的语言 DDL (Description Definition Language), 把描述 (a set of instantiated Description Schemes) 与内容关联在一起,以便用户快速有效地检索感兴趣的材料, 把描述进行编码表示,以便有效地进行存储和快速访问。,44,MPEG-7 Description,MPEG音频标准,MPEG音频压缩的主要依据是人耳 朵的听觉特性,利用了“心理声学 模型(psychoacoustic model)” 。 心理声学模型的一个基本概念: 听觉阈值。低于听觉阈值的声音 信号听不到,因此就可以把这部 分信号去掉。 心理声学模型的另一个概念:听 觉蔽特性。听觉阈值会随听到 的不同频率的声音而发生变化。,MPEG音频标准 MPEG-1 Layer 1:子带无损压缩 + 可选的简单掩蔽模型。 MPEG-1 Layer 2:更高级的掩蔽模型。 MPEG-1 Layer 3 (即MP3):增加了对低比特率的处理。 MPEG-2 AAC (即MP4):压缩比更大(15:1-20:1),增加了对立体声的完美再现、比特流效果音扫描、多媒体控制、降噪等特性。,H.26X系列标准,H. 26X 系列标准由国际电联(ITU-T)制定的。 H. 26X 系列标准 H.261:针对在窄带ISDN 上实现速率P 64 kbps 的双向声像业务,其中P = 130 。 H.263:针对低比特率视频应用 H.264:ITU-T和ISO/ IEC 的MPEG 共同成立的联合视频小组JVT 提出,目的是为视频编码应用提供下一代的解决方案。,H.261,H. 261是ITU - T 于19841989 年制定的视频编码标准。 针对可视电话和视频会议等业务。 目的:在窄带ISDN 上实现速率P 64 kbps 的双向声像业务,其中P = 130 。 只支持两种图像格式:CIF(352 288 像素) 和QCIF(176 144 像素) 。 技术特征 帧包括I帧( Intra-frames )和P帧( Inter-frames ); 16 16 微块的运动补偿、8 8 DCT、标量量化、Z - Z 扫描、游程编码和变长编码的编码结构。 H. 261 是视频编码的一个里程碑,对后续标准有较大的影响。 现有的一系列视频编码标准的编码方法都是基于H. 261 中的混合编码方法和编码结构。 H. 261的特点 优点:低复杂度 缺点:低压缩比性能、缺乏灵活性,47,H.263,H. 263 标准是ITU - T 于1996年制定的视频编码标准。 针对低比特率(低于64Kb/s)视频应用; 目标:在许多方面上通过视频编码算法和处理性能的提高,从而比H. 261 较大地提高编码性能。 H. 263 支持图像的格式有: SubQCIF (128 96 像素) 、QCIF、CIF、4CIF(704 576 像素) 和16CIF(1408 1152 像素) 。 技术特征 使用了半像素运动矢量和重新设计的可变长编码(VLC) 表; 更多的帧大小和可选的编码模式; 运动向量预测。 H. 263+: H. 263的修改版本 修改量化模式; 运动向量范围:取决于帧尺寸; 修改半像素插值算法 更多的输入视频格式等。,48,H.263,H.263+,H.263+,H.264,H. 264 标准是ITU-T和ISO/ IEC 的MPEG 共同成立的联合视频小组JVT于2003年公布的视频编码标准。 目标:为视频编码应用提供下一代的解决方案,提供显著增强的编码效率,,同时减少H. 263 中一些混乱的可选模式。 标准内容分三个档次: 基本档次-实现版本的基本功能; 核心档次-用于HDTV、DVD; 扩展档次-用于IPTV。 技术特征 4 4 块的整数变换 多参考帧预测 多模式高精度帧间预测 多种帧内预测模式 统一的熵编码等。 H. 264 的特点 有点:更高的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025医疗器械采购协议合同
- 2025合法的医疗器械代理合同模板
- 学生安全家校协作指南
- 2025年河北省盐山县孟店中学初中学业水平模拟测试数学试卷
- 肿瘤靶向治疗
- 专家钓鱼岛与南海问题成中美关系紧张主要根源
- 【Meltwater融文】2025年社交媒体管理的AI革命中国品牌出海新策略345mb
- 湖南省三新协作体G10H11联盟大联考2024-2025学年高二下学期4月期中生物试题 含解析
- 浙江省衢州市五校联盟2024-2025学年高二下学期期中联考试题 生物含答案
- 高中语文教学设计(表格)
- DB41-T 2437-2023 养老机构院内感染预防与控制规范
- (PQCDSM)生产现场改善与安全生产管理
- 中外货物买卖合同FOB条款
- 广东深圳光明新区渣土受纳场12·20-特别重大滑坡事故调查报告
- 2022年05月四川省度绵阳市公开遴选公务员考试参考题库答案详解
- T-ZAQ 10116-2023 新时代基层理论宣讲0576 工作法操作规范
- (完整word版)新《中华颂》朗诵稿
- 香云纱的材料与工艺
- 带电工作绝缘手套CE认证EN 60903
- 硫磺安全技术说明书MSDS
- 我和植物共成长向日葵种植日记课件
评论
0/150
提交评论