《多媒体技术概述》PPT课件.ppt_第1页
《多媒体技术概述》PPT课件.ppt_第2页
《多媒体技术概述》PPT课件.ppt_第3页
《多媒体技术概述》PPT课件.ppt_第4页
《多媒体技术概述》PPT课件.ppt_第5页
已阅读5页,还剩71页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

范铁生岳承君王军王丹华编著电子工业出版社,高等院校计算机规划教材,多媒体技术基础与应用,学习要点,掌握多媒体对于人类的必要性理解多媒体概念与MPC标准掌握多媒体的主要技术了解多媒体的发展趋势,第1章多媒体技术概述,1.1多媒体技术的概念1.1.1人类感觉的机器化1.1.2媒体1.1.3多媒体与多媒体技术概述1.2多媒体计算机与MPC标准1.2.1MPC标准1.2.2主要的多媒体技术1.3多媒体技术的发展1.3.1三网融合1.3.2无处不在的多媒体技术1.3.3多媒体技术的发展趋势,1.1多媒体技术的概念,技术的发展,历来都是“以人为本”的,或者说都是为人类服务的,目的都是为了拓展人类的自然力,古今中外,概莫例外。特别是近20年来多媒体技术的迅速发展,尤其验证了这一点。本课程试图通过人类的视听觉等特性作为切入点,探讨我们是如何用计算机技术来满足人们日益增长的对客观世界深入感知的信息化要求,以弥补人类的视听觉本身的局限性。这如同在古代人们希冀用“千里眼”来拓展视野,用“顺风耳”来超越听阈一样,在当今不得不数字化生存的信息社会,不但要“知其然”,而且知多媒体技术之“所以然”。,纵观人类发展史,每一次文明的进步都是人类不断地利用自然和改进人类能力的成功。因为人类自身的自然能力是十分有限的,而人类的各种愿望却是无穷的。人是具有社会性的万物精灵,自古就会及其智慧地利用各种媒体形式来拓展人的感知能力完成相互之间的信息传递。如:人们常用来形容战乱的“烽火狼烟”,就是在春秋战国时期边塞出现战事时,士兵为了及时的传递敌人来犯的信息,在烽火台上点燃“燃料”,白天点燃时的烟火很大,可以看的很远,晚上,火光熊熊,更十分醒目,这样,一个烽火台接着一个烽火台的点下去,就如同用今天的无线电。用此类的替换物转化方法(诸如地下工作者在其住处的窗口放花盆表示是否安全、抗日战争时期根据地的“消息树”是否放倒等)来传递敌人来犯的消息要比“马拉松”的方法传递消息即快速的多也经济的多。,1.1.1人类感觉的机器化,这是因为人眼的视力范围有限,人眼要能够看清楚物体,要求物体发出或反射的光要达到一个最低的限度才能使人眼能够感受得到。比如,晚上我们能够看见距离地球38万千米的月亮,甚至远达亿万光年的星星。但肉眼的分辨能力是有限的,而且差异非常大。据测试,视力正常的人,其分辨率约为1/2000至1/5000。具体地说,你站在北京天安门广场上,距离国旗400米外,如果能看见直径20厘米的旗杆顶部,那你的眼睛的分辨率为1/2000。这样,当你乘坐飞机,在10000米的高空俯瞰地面时,就能清晰地看见宽度5米以上的铁路、公路以及长城。,显然,航天员在人造飞船上用肉眼能否看到长城是不难得到答案的。人眼的视力范围另一个限制,就是视野。所谓:“欲穷千里目,更上一层楼”说的就是这个道理。在冷兵器近距离格斗的古代战争中,战役规模没有超过20万人的,就是由于当时的战役指挥者(即以骑马或战车上指挥为例)排兵布阵时的视力范围所限。,于是对于人类的视觉系统机器化尝试,首先在1608年秋天,荷兰人利比斯赫制造出了后来被称为荷兰式望远镜,就是把一个凸透镜和一个凹透镜装在一个筒的两端,眼睛看的一端装凹透镜,初步实现了超视距愿望。12月,他又做出了双筒望远镜。1608年末,伽利略伽利雷首次见到了这种望远镜的复制品,他立刻意识到,一部更好的望远镜将会使天文学家梦想成真,并加以改进。1611年德国天文学家约翰内斯开普勒出版了天文光学,阐述了望远镜原理,他还把伽里略望远镜的凹透目镜改成凸透目镜,这种望远镜被称为开普勒望远镜。荷兰科学家汉斯利珀希,他们用两片透镜制作了简易的显微镜,1673年荷兰人列文虎克(AntonivanLeeuwenhoek)用自己制造的显微镜观察到了被他称为“小动物”的微生物世界。使人类的视觉延展得以物化。,对于人类的听觉系统,同样存在着局限性。如果听觉系统能足够的敏感,人类将可以听到空气中任何分子撞击耳膜的声音,但遗憾的是,人耳的敏感性远不及此。实验表明,一般人耳能听到的声音的频率范围是20Hz到20000Hz。对于20Hz以下的次声波和20000Hz以上的超声波,人耳都是“听力障碍者”,都远逊于动物界,如狗和蝙蝠。因此,16世纪以来先后发明的钢琴、提琴等现代乐器使人们无法发出的声音得以物化。因为人类的耳朵被誉为自然界里最精密的“机械”,其内被称为蛋白质纤维的蛋白质结构轻薄如细丝,其分辨力要比视觉远为精细。各种大自然无法产生的“丝竹之声”,人们就可不断用各类乐器来机器化实现“以饱耳福”。,第一次工业革命,第一次工业革命的影响涉及人类社会生活的各个方面,使人类社会发生了巨大的变革,对推动人类的现代化进程起到了不可替代的作用,把人类推向了崭新的蒸汽机时代。例如,受瓦特的壶中沸水蒸汽冲动壶盖现象的启发,有人发明“水开报讯器”的灵感也为火车和轮船的汽笛能远距离传送声音信号提供了可能。从此,人类从繁重的体力劳动中被解放了出来,人类的自然力得到了拓展,第一次工业革命使人的体力得到了初步机械化。,第二次工业革命,1876年3月10日,美国人贝尔和华生分别在两个房间里联合试验他们的电话机时,华生第一次听到了贝尔发送的一句完整的话:“华生,请到这儿来,我需要你!”这是有史以来用电话传送的第一句完整的话,实现了人类对“顺风耳”的梦想。1877年12月,托马斯阿尔瓦爱迪生公开表演了会说话的机器留声机,外界舆论马上把他誉为科学界之拿破仑波拿巴,成为19世纪最引人振奋的三大发明之一(另一个是1879年爱迪生发明的电灯照亮了世界),即将开幕的1878年巴黎世界博览会立即把他的留声机和贝尔的电话同时作为时新展品展出,首先实现了记录和传递声音的机器化。以电气时代为标志的第二次工业革命,不但主要使人的能力得到了机器化的同时也为计算机为标志的第三次科技革命的产生奠定了深厚的基础。,第三次工业革命,始于20世纪40年代的第三次工业革命是人类科技领域里的又一次重大飞跃,产生了无数的新理论新技术。诸如喷气式飞机的出现实现了人们像鸟一样去遨游蓝天;电影和电视的先后发明为人们留住逝去的历史成为了可能;计算机的理论和技术的飞速发展更是让人们始料未及。这次科技革命不仅极大地推动了人类社会经济、政治、文化领域的变革,而且也深刻地影响了人类的生活方式和思维方式,使人类的社会生活和人的现代化向更高境界发展。人类开始寻求从更加广阔的空间和领域,以更加便捷友好的方式来拓展自己的自然力,开始了第三次工业革命实现人类的脑力机器化的进程,如人工智能等技术就是将人脑不擅长的海量计算与推理等工作由计算机去实现。,人类感觉的机械化,让计算机并不仅仅限于“电脑”的功能,而且要比人看的更生动,听的更辽阔,说的更丰富的“电眼”、“电耳”和“电嘴”等正在逐步实现。人类感觉的机械化之所以姗姗来迟,不仅在于信息化进程是其必要的基础条件,而且还在于人类对自身感觉能力认识还需要不断深入。因为多媒体技术归根结底是为人服务的,因此,首先应了解人的感知能力到底有什么局限性,这样才能用机械化的感觉来拓展人类的感知能力。,1.1.2媒体,(1)媒体(medium)是信息表示和传输的载体。来自拉丁文medius中间、中介的意思。即人与人所赖以沟通及交流的中介物。CCITT(ITU)分类为:感觉媒体、表示媒体、表现媒体、存储媒体、传输媒体。(2)多媒体是除了文字媒体以外,还包括能数字化的图形、图象、声音等各种其它媒体形式的相互结合(目前,除视听觉、触觉(冷热)外还无法实现嗅觉(香臭)、味觉(苦甜)的数字化)。(3)多媒体技术是计算机技术与通讯技术与电视技术的相互结合。(不是组合,否则就不是新技术了,电影、模拟电视也是音像文字同步,但转瞬即逝且被动接收)计算机技术主要是其交互性通讯技术主要是其实时性电视技术主要是其集成性,各类文字和符号,文字和符号,多媒体,多媒体,多媒体,1.1.4多媒体技术所涉及的对象,如何从事多媒体教学,通过计算而描述的矢量图形,文字,图形,矢量图形对象,用像素点描述的自然影像,文字,图形,图像,位图图像对象,单画面矢量动画和多画面帧动画,文字,图形,图像,动画,多画面帧动画,单画面矢量动画,FRAME01FRAME02FRAME03FRAME04FRAME05FRAME06FRAME07,动画对象,音频数字信号、压缩音频信号,文字,图形,图像,动画,音频,midi音频wav音频mp3压缩音频,音频对象,视频数字信号AVI、压缩视频信号MPG,文字,图形,图像,动画,音频,视频,音频+视频AudioVedioInformation,视频对象,END,感觉媒体(perceptionmedium):能直接作用于人的感官,使人直接产生感觉的一类媒体。感觉媒体包括人类的各种语言、音乐,以及自然界的各种声音、图形、静止和运动的图像等,如左表所示。,表示媒体(representationmedium):为了加工、处理和传输感觉媒体而人为地研究、构造出的一种媒体。其目的是将感觉媒体从一个地方向另一个地方传输,以便加工和处理。表示媒体有各种编码方式,如语音编码、文本编码、静止图像编码和运动图像编码等。根据属性的不同,表示媒体还可进行如下分类:按照时间属性划分,可以分为离散媒体和连续媒体。离散媒体是指不随时间变化而变化的媒体,如图形、静态图像、文本等。连续媒体则是指随时间变化而变化的媒体,如声音、视频、动画等。按照空间属性划分,可以分为一维媒体、二维媒体和三维媒体。如单声道的音乐信号被称为一维媒体。二维媒体则指立体声、文本、图形等。三维图形和视频则被称为三维媒体。按照生成属性划分,可以分为自然媒体和合成媒体。自然媒体是指采用数字化方法从自然界获取的媒体,如图像、视频等。合成媒体则是指通过计算机创建的媒体,如合成语音、图形、动画等。,显示媒体(presentationmedium):指感觉媒体与用于通信的电信号之间转换的一类媒体,它包括输入显示媒体(如键盘、摄像机、话筒等)和输出显示媒体(如显示器、喇叭和打印机等)。存储媒体(storagemedium):用来存放的媒体,以方便计算机处理和调用,主要指与计算机相关的外部存储设备,包括早期的磁带,磁盘到现在的光盘、U盘等。传输媒体(transmissionmedium):用来将媒体从一个地方传输到另一个地方的物理载体。传输媒体是通信的信息载体,如双绞线、同轴电缆、光纤等有线信道和无线信道等。,感觉媒体,各种媒体之间的关系如图1.1所示。,图1.1各种媒体之间的关系,媒体食物(价值)链,自然媒体与合成媒体的区别,自然媒体合成媒体来源获取创建表示方法取样表示符号表示表现能力真实感强真实感有限可编辑性有限全部存储数据量很大数据量很小检索困难容易传输要求高要求低展现处理容易处理复杂,多媒体的特征,多媒体从本质上来说具有4个最重要的特征。多维化集成性交互性实时性,多维化,多维化是指媒体的多样化。多维化有两种含义一是指信息媒体的多维化,二是指处理多媒体信息并不是简单的获取和重现,而是经过一系列的加工变换,使之形成新的或不同媒体形式。第一种含义包括一维的文字和声音、二维图像和图形、三维的视频或立体电影/电视等形式的多维化。第二种含义在多媒体软件中最常见的情况就是,将输入的音频或视频分成多轨处理,以分辨出音频中的风声、雨声、语音及其回响等的强弱或视频的前景、“运动物体”(如人物、车辆、字幕等)和背景。多媒体信息多维化不仅指输入,还包括输出。但输入和输出并不一定是相同的,对应用而言,前者称为获取,后者称为表现。如果两者完全相同,只能称为记录和重放。如果对其进行变换、加工,亦即所谓的创作,则可以大大丰富信息的表现力,增强其效果。这些创作也是人们更好地组织信息和表现信息,使更多用户更准确地接收信息的必要手段。,集成性,集成性不仅指多媒体设备集成,也包括多媒体信息集成或表现集成。多媒体的集成性应该说是在系统级上的一次飞跃。早期的各项技术都可以单一使用和应用,但很难有大的作为,因为它们(如声音、图像和交互式技术等)是单一的、零散的。但当它们在多媒体旗帜下集合时,一方面意味着技术已经发展到相当成熟的程度,另一方面也意味着独立的发展已经不能满足应用的需要。信息空间的不完整(例如,仅有静态图像而无动态视频,仅有声音而无图形等),限制了信息空间的信息组织,也限制了信息的有效使用。同样,信息交互手段的单一性也制约了其进一步的应用,而数字电视技术主要体现的是其集成性。因此,当多媒体将它们协调地集成起来之后,“1+12”的系统效应就十分明显了。,交互性,交互性是人们获取和使信息变被动为主动的最为重要的特征。多媒体信息空间中的交互性向用户提供了更加有效的控制和使用信息的手段,同时也为应用开辟了更广阔的领域,互联网正在逐渐占领传统媒体主要领域的重要原因就在与此。交互可以增加人们对信息的注意和理解,延长保留的时间,满足人们的“联想”感知需求。在单一的文本空间中,这种交互的效果和作用很差,人们只能“使用”信息,而很难做到控制和干预信息的处理。当交互引入时,活动本身作为一种媒体介入了信息转变为知识的过程,人们借助于活动计算机技术中的交互性,便可获得更多信息。,实时性,实时性又称为动态性,是指多媒体技术中涉及的一些媒体,如音频和视频信息都具有很强的时间特性,会随着时间的变化而变化。特别是,当今社会的快速发展使人们要求实时感知,手机的不断更新换代,微博(MicroBlog)的流行,大屏幕电视画面的目不暇接,这些都是因为人们感知特性的本质要求实时性使然。实时性正是多媒体所具有的最大吸引力的地方之一,如果没有了实时性,恐怕也不会有多媒体繁荣的今天。在对这些信息处理时,我们需要充分利用通讯技术的实时性。,1.2多媒体计算机与MPC标准,多媒体技术属于计算机技术,因为其主要是由多媒体计算机作为核心。多媒体技术的形成及多媒体计算机产生于20世纪80年代。1984年,Apple公司在苹果机Macintosh(也称为Mac)上引入了“位图”(Bitmap)的概念来进行图形处理,并使用窗口(Window)和图标(Icon)作为用户界面,这标志着多媒体及多媒体技术的产生。在这个基础上进一步发展,增加了语音压缩和真彩色图形系统等,使苹果机成为当时最好的多媒体计算机,如Macromedia公司著名的多媒体创作系统Director最早的版本(1985年时称为VideoWorks)只支持苹果机。MPC标准规定多媒体计算机包括5个基本的部件:个人计算机(PC)、只读光盘驱动器(CD-ROM)、声卡、Windows和一组音箱或耳机,并对CPU、存储器容量和屏幕显示功能等有最低的规格标准(见表1.2)。,1990年制定了MPC联盟制定了第二代多媒体计算机标准1993年5月,MPC联盟又制定了第二代多媒体计算机标准MPC-2,提高了基本部件的性能指标。MPC第三代的标准是1995年6月制定的。1996年以后又推出了MPC-4标准并且在1998年制定了MPC-5标准。MPC-4和MPC-5在普通微机的基础上增加了以下4类设备:声像输入设备如普通光驱、刻录光驱、音效卡、麦克风、扫描仪、录音机、摄像机等。声像输出设备如刻录光驱、音效卡、录音机、录像机、打印机等。功能卡如电视卡、视频采集卡、视频输出卡、网卡、VCD压缩卡等。软件支持音频信息、视频信息和通信信息以及实时、多任务处理软件。,多媒体技术的发展历史,1984年Apple公司在苹果机Macintosh(也称为Mac)上引入了位图(Bitmap)概念进行图形处理,并使用了窗口(Windows)和图标(Icon)作为用户界面,标志了多媒体及多媒体技术的产生和应用。1986年,Philips公司和Sony公司联合推出了交互式紧凑光盘系统CD-I(CompactDiscInteractive),能够将声音、文字、图形图像等多媒体信息数字化并存储到光盘片上1987年,RCA公司推出了交互式数字视频系统DVI(DigitalVideoInteractive),以计算机为基础,使用标准光盘来存储、检索多媒体数据;,1989年IBM公司推出AVC系统(AudioVisualConnection),提供了多媒体编辑功能;1990年Philips等十多家厂商成立了多媒体市场协会,并制定了MPC(多媒体计算机)的市场标准MPC11993年5月MPC联盟又制定了第二代多媒体计算机标准MPC2,主要是提高了基本部件的性能指标1995年6月制定了MPC第三代的标准。增加了全屏幕、全动态(30帧/秒)视频及增强版CD音质的视频和音频硬件标准,返回,1.2.2主要的多媒体技术,1多媒体芯片技术多媒体计算机的出现是以处理器(开始主要以CPU)芯片的能力为前提的。因为海量的多媒体信息,即使有数据压缩和解压缩技术的支撑仍属软件技术,处理速度仍然是个瓶颈。1965年时还是美国仙童半导体公司的电子工程师后来成为英特尔(Intel)创始人之一戈登摩尔(GordonMoore)提出了著名的“摩尔第一定律”。其内容为:集成电路上可容纳的晶体管数目,约每隔18个月便会增加一倍,性能也将提升一倍,当价格不变时;或者说,每一美元所能买到的计算机性能,将每隔18个月翻两倍以上(“摩尔第二定律”可表述为由于成本的增加使其为一条指数曲线)。当然不管这一定律中的“每隔18个月”后来被其本人修改为“每隔2年”(1997年9月修改)与否,都揭示了数据处理速度能力的提升惊人。而“摩尔第一定律”真正被世人确认是在20年之后。只有当1985年CPU80386S(见表1.2,其中S表示系列,如SL,SX,SXL等)问世后才使得多媒体的处理速度这个瓶颈得以打破。也就是在MPC-1标准建立这年,计算机开始能处理彩色图像并能动画般显示在显示器上,声卡的随后出现使得音频处理也得到了真正实现。,1989年80486和1993年Pentium即俗称为586(Pentium在希腊文是五的意思,中文音译为奔腾,因Intel出于数字的586无法作为专利保护对象而开始改用字符)为代表的新处理器分别促使在2年之后的MPC-2和MPC-3标准确立,使得视频处理成为可能。按照摩尔第一定律,芯片技术的飞速发展,使得多媒体技术不再仅依赖CPU。可以独立承担数据处理任务的各种声卡、显卡、GPU(GraphicProcessingUnit,图形处理器)、视频卡纷纷出现。到目前为止,大多数多媒体处理功能已经由卡变成了各种多媒体芯片,不但功能更强而且集成度更高。当然,很多人在讨论随着光刻的极限到来,摩尔第一定律早晚会有失效的一天。但是,2005年Intel已经在实验室里实现了硅光电子的10Gbps的传输速率,而且它也具备了直接植入到芯片设计中的可行性。所以光子计算机(又称量子计算机)的即将问世将会对多媒体技术的发展起到革命性的作用。同样,生物计算机(用脱氧核糖核甘酸即DNA重组技术来组装这些生物分子实现计算功能)的进展可能会是新一代计算机技术的另一抹晨曦。因此说,多媒体芯片技术是多媒体技术发展的前提。,2数据压缩和解压缩技术数据压缩技术是多媒体技术发展的关键所在。许多多媒体类型的数据文件是非常庞大的。例如,l0秒钟的声音片段要占用1720KB的磁盘空间,而一段l分钟的音乐电视图像则要消耗超过400MB的磁盘空间。如此之大的数据量不仅超出了当前计算机的存储能力,更是当前通讯信道的传输速率所无法接受的。因此,为了使这些数据能够在多媒体计算机中进行存储、处理和传输,必须进行数据压缩。数据是信息的载体,它是用来记录和传送信息的。真正有用的不是数据本身,而是数据所携带的信息。信息量等于数据量加数据冗余量。如何压缩图像和语音数据中的冗余量,这是多媒体数据压缩技术的主要任务。对于不同种类的数据冗余,有不同的具有针对性的数据压缩算法。因此,首先必须搞清楚多媒体数据中数据冗余的类型,从而采取相应的数据压缩技术与方法,从而达到最好的效果。,数据压缩及编码技术,多媒体系统要求具有综合处理声、图、文的能力,面临的主要问题是巨大的数据量,尤其是对动态图形和视频图像多媒体信源引起了“数据爆炸”如果不进行数据压缩传输和存储都难以实用化,1分钟数字音频信号需要的存储空间,分钟数字视频信号需要的存储空间,1,时间域压缩迅速传输媒体信源频率域压缩并行开通更多业务空间域压缩降低存储费用能量域压缩降低发射功率,数据压缩的好处,压缩有无损压缩和有损压缩之分。无损压缩是指压缩后的数据经解压还原后得到的数据与原始数据相同,不存在任何误差,但压缩率不高。常用的无损压缩方法有香农-费诺、哈夫曼、行程、LZW和算术编码等。有损压缩是指压缩后的数据经解压缩还原后,得到的数据与原数据之间存在一定的差异。由于允许存在一定的误差,因而这类技术往往可以获得较大的压缩比。压缩和解压缩是一对作用互逆的运算过程。数据压缩技术的研究已进行了50年,只有当多媒体计算机出现以后,才真正“焕发了青春”,得到飞速的发展。到目前为止,在多媒体图像信息处理中,已产生了JPEG、DICOM、CCSDS、H.26X和MPEG等针对不同用途的各种各样的压缩和解压缩系列标准,并产生了许多专为实现这些算法而设计的大规模集成电路和软件。,3大容量存储技术由于多媒体信息量剧增,即使有数据压缩技术,也需要海量的存储空间。于是开始将小型机的存储技术如SCSI技术、RAID技术等应用到多媒体信息存储中。大容量硬盘存储器发展,可以从计算机的第二定律(Kryder定律)确定。著名的硬盘厂商希捷公司的CTO马克克莱德指出,硬盘信息密度每过10.5年才会增加千分之一。那也就相当于存储密度每过13个月增加一倍。的确,现在GB(230字节)甚至TB(240字节)磁盘已经成为主流容量、U盘等内存技术外存化的快速发展也验证了这一点。但是由于硬盘存储器的存储介质是不可交换的大容量光盘(CD)、VCD光盘和DVD光盘也都是光学存储媒体。DVD盘片的尺寸与CD盘片相同,但其存储容量比现在的CD盘片大得多,最高可达17GB。光学存储技术是通过光学的方法读出(有时也包括写入)数据,由于它使用的光源基本上是激光,所以又称为激光存储技术,这些都提供了大容量存储的可能。,存储区域网(SAN)指的是通过一个单独的网络(通常是高速光纤网络)把存储设备和挂在TCP/IP局域网上的服务器群相连。当有海量数据的存取需求时,数据可以通过存储区域网在相关服务器和后台存储设备之间高速传输。NAS(NetworkAttachedStorage,网络附加存储)是一种将分布、独立的数据整合为大型、集中化管理的数据中心,以便于对不同主机和应用服务器进行访问的技术。NAS不同于SAN的主要区别在于它不是局域网存储技术。它是一种特殊的、能完成单一或一组指定功能的基于网络的存储设备,它通过自带的网络接口把存储设备直接连入到网络中,实现海量数据的网络共享,把应用程序服务器从繁重的I/0负载中解脱出来,它是新兴的面向网络存储模式的标志性设备。将主要系统软件等均存放在服务器端运行的云计算,只在需要时传回结果本身其实就是一种广义的NAS。所以可以这样说,大容量存储技术是多媒体技术产生的必要条件。,4多媒体网络技术多媒体网络技术是多媒体技术产生的充分条件。要充分发挥多媒体技术对多媒体信息的处理能力,必须与网络技术结合。多媒体信息要占用很大的存储空间,即使将数据压缩,对单个用户来说,要获得丰富的多媒体信息仍然有困难。特别是在某些特殊情况下,要求许多人共同对多媒体数据进行操作时,如远程教学、电视会议、远程医疗会诊等,不借助网络根本无法实施,因为计算机将会成为整个网络的外设。计算机网络的最终结果会成为网络计算机。网络的发展基本符合计算机的第三定律(吉尔德定律:主干网的带宽每6个月增长一倍,每比特传输价格朝着免费的方向下跃,费用的走势呈现出“渐进曲线”的规律,价格点无限接近于零。其增长速度是摩尔第一定律预测的CPU增长速度的3倍。他认为正如20世纪70年代昂贵的晶体管,在现如今变得如此便宜一样,主干网如今还是稀缺资源的网络带宽,有朝一日会变得足够充裕,那时上网的代价也会大幅下降。随着带宽的增加,将会有更多的设备以有线或无线的方式上网,这些设备本身并没有什么智能,但大量这样的“傻瓜”设备通过网络连接在一起时,其威力将会变得很大,就像利用便宜的晶体管可以制造出价格昂贵的高档电脑一样。,5超文本和超媒体链接技术计算机的第四定律(麦特卡尔夫定律):网络的价值同网络用户数量的平方成正比。也就是说,N个联结创造出N*N的效益,即互联网以平方级数增长。所以互联网增长率比电视快四倍,比收音机快12倍。上网的人数越多,产生的效益越多。按照摩尔定律和吉尔德定律,未来的计算机成本将会持续回落,而网络将呈指数级发展;随着网络用户数量迅速膨胀到数以亿计,网络的价值越发不可估量,这又与麦特卡尔夫定律不谋而合。多媒体技术和超媒体(Hypermedia)是密不可分的。超文本(Hypertext)是超媒体概念的前身。超文本是一种新颖的文本信息管理技术,是一种典型的数据库技术。它以结点(Node)为单位组织信息,在结点与结点之间通过表示它们之间关系的链(Link)加以连接,构成表达特定内容的信息网络。这种表达信息方式不仅是文字,还包括图像和声音等形式,称为超媒体系统。,超媒体技术可以十分高效地组织和管理具有逻辑联系的大容量多媒体信息。例如,MCAI(多媒体计算机辅助教学的缩写)课件、百科全书和参考类CD-ROM光盘的信息都是使用超媒体技术来组织的。另外,超媒体也是Internet上十分流行的信息检索技术。与普通超媒体有所不同的是,在这里,对于各个网络结点的链接,不但可以是指向同一场所的另一篇文本、声音、图形或图像,而且还可以是指向网络上不同站点的资源,这种链接又称为超链接(Hyperlink)。由此可见,超文本和超媒体链接技术是多媒体技术产生的动力。,6音频技术音频技术是多媒体技术的重要内容。音频技术主要包括4个方面:音频处理、音频合成、音频识别及音频检索。音频技术首先将连续的、模拟的音频信号,等价地转换成离散的数字音频信号,再根据人耳的听觉特性,去除或减少人耳不敏感的部分,增加或加强人耳敏感的部分,进行感知编码等,以便进一步处理。音频信息的处理主要集中在音频信息压缩上,例如,目前最新的音频压缩算法可将声音压缩至原大小的1/12以下。音频合成是指将普通文本合成语音播放,而音频识别则是音频合成的逆过程,即将语音转换成文字文本。音频的识别长久以来一直是人们的美好梦想,让计算机听懂人说话是发展人机语音通信和新一代智能计算机的主要目标。随着计算机的普及、越来越多的人在使用计算机,如何给不熟悉计算机的人提供一个友好的人机交互手段,使人们摆脱日益“奔腾”的处理器速度与古老手动的键盘输入方式的这种“牛拉火车”的约束,一直是人们感兴趣的问题,而音频识别技术就是其中最便捷的一种交流手段。,按推算到2020年每73天人类所拥有的知识和信息就要翻一番。如此之多的信息用组合爆炸来形容可以毫不夸张地说是恰如其分。由此产生的音频:无论是电视、电台新闻节目、还是电话交谈量,以及浩如烟海的歌曲,乐曲等随着电视、手机、MP3、iPad等设备的普及,同样是数量惊人。而音频检索可对网络上(特别是互联网)的海量多媒体数据进行方便快捷的信息检索的技术。如同常用百度、搜狗等搜索引擎对文本数据进行检索,以便快速了解相关的文本信息一样,对于音频数据人们希望也能如此。所以对音频信息检索,根据检索对象和检索方法的不同,国内外的研究主要可分为语音检索、音乐检索和音频例子检索几个方向。主要研究如何利用音频信息的幅度、频谱等物理特性,响度、音高、音色等听觉特性和音频类别、语义等特性来实现基于内容的音频信息检索。当然,某些特定领域的音频技术,如声纹鉴定、音频数字水印、声纳导航、声波武器等具体应用技术更是不胜枚举。可以毋庸置疑地说,音频技术正在众多领域里不断结出无数的丰硕果实。,7视频技术视频技术是多媒体技术的核心。人们一谈到多媒体,首先想到的就是绚丽的色彩、动态的画面不断地呈现在眼前,因为多媒体信息中量最大最主要的就是视频信息。特别是近年来中国互联网视频发展迅速,目前每天视频收看次数在一亿次以上。随着Web2.0和网络新媒体的快速发展,用户以视频分享方式在互联网上大量出现,这些内容数量巨大。因此要求视频技术也就具有着丰富的内容与之相适应。概括地说,视频技术包括四个方面:视频处理、视频压缩、立体视频和视频检索。视频处理也包含视频获取,须将模拟视频信号经AD(模数)转换和彩色空间变换,转换成多媒体计算机可以显示和处理的数字信号,再根据人眼的视觉特性,去除或减少人眼不敏感的部分,增加或加强人眼敏感的部分,进行视频压缩。视频压缩技术是将数字化的视频信号通过编码,转换成压缩信号,从而可以在现有的各种信道传播,在目前的各类介质中存储。,视频压缩技术主要包括有:国际电信联盟(ITU)从视频通信网角度制定的H.26X系列标准(H.261、H.263、H.264,如监控、视频会议等);国际标准组织(ISO)从视频应用角度制定的MPEG系列标准(MPEG1、MPEG2、MPEG4、MPEG7、MPEG21,如广播电视、电影、非线性编辑系统等);以及互联网工程任务组(IETF)从互联网通信协议角度制定的IP系列标准(IPV6、移动IP/MIP、初始会话协议/SIP)等。因为现有的IP网络不提供服务质量(QoS)支持,为了进行视频流的传输,需要采用与网络一致的传输技术,例如许多视频传输中都采用了所谓对TCP友好的传输协议,避免造成网络性能的下降;对视频采用抗误码编码,有效抵御丢包引起的降质;采用分级编码,特别是嵌入式编码,使信源码率可以根据网络条件进行精确调整,得到最佳的传输质量。IETF提出的实时传输协议(RTP)、资源预留协议(RSVP)等保证在IP网络上传送实时视频流等技术,这些都是视频技术的一部分。,立体视频技术包括立体、多视点以及全二维的视频编码和视差估计、信息隐藏和错误隐藏等方面。其中视差估计(又分单眼视差和双眼视差)是去除立体视频数据空间冗余的有效方法,能够有效地对立体视频数据进行编码压缩,是立体视频处理中的关键技术之一。特别是针对裸眼的立体视频技术可以用视差照明式、光栅式、全息式等不同的实现技术。视频立体化,视频平面化,视频高清化是视频技术的三大主要发展趋势。立体视频在未来具有极其广泛的应用,不仅在三维电视、地理信息系统方面,而且在虚拟现实、远程再现、仿真应用等方面都具有重要的意义。基于内容视频检索技术是不再将视频作为像素点的集合,而是将其整合为若干对象的集合再处理。比如一帧风景画面,就可以用河边有棵树,树的远处有座山,山上有白云这样的对象关系加以描述,尽量符合与人友好的检索需要。视频检索涉及镜头聚类、场景转换、运动特征提取、视频摘要、语义提取等多种技术的综合运用。视频检索使多媒体信息检索系统、多媒体数据库、可视信息系统、多媒体信息自动获取和索引系统等应用逐渐变为现实。,1.3多媒体技术的发展,1.3.1三网融合所谓“三网融合”,就是指电信网、广播电视网和计算机通信网这三种网络的互相渗透、互相兼容、并逐步整合成为统一的信息通信网络。“三网融合”是为了实现网络资源的共享,避免低水平的重复建设,形成适应性广、容易维护、费用低廉的高速宽带的多媒体基础平台。“三网融合”是一种广义的、社会化的说法,在现阶段,它并不意味着电信网、广播电视网和计算机通信网这三大网络的物理合一,而主要是指高层业务应用的融合。其表现为技术上趋向一致,应用层上可以实现互联互通,形成无缝覆盖,业务层上互相渗透和交叉,网络层上趋向使用统一的IP协议,在经营上互相竞争、互相合作,朝着向人类提供多样化、多媒体化、个性化服务的同一目标逐渐交汇在一起,在行业管制和政策方面也逐渐趋向统一。三大网络通过技术改造,能够提供包括语音、数据、图像等综合的多媒体通信业务。这就是所谓的“三网融合”。,“三网融合”,在概念上从不同角度和层次上分析,可以涉及到技术融合、业务融合、行业融合、终端融合及网络融合。目前更主要的是网络层次上互相使用统一的通信协议。光纤网络就是新一代电信网的基础,即所谓的“三网融合”的结合点。数字技术的迅速发展和全面采用,使电话、数据和图像信号都可以通过统一的编码进行传输和交换,所有业务在网络中都将成为统一的“0”或“1”的比特流;光纤通信技术的发展,为综合传送各种业务信息提供了必要的带宽和传输质量,成为三网业务的理想平台;软件技术的发展使得三大网络及其终端得以通过软件变更,最终支持各种用户所需的特性、功能和业务;最重要的是统一的TCP/IP协议的普遍采用,将使得各种以IP为基础的业务能在不同的网络上实现互通。人类首次具有统一的被三大网络都能接受的通信协议,从技术上为三网融合奠定了最坚实的基础。,2.“三网融合”的发展前景目前,中国的移动车载电视、网络电视、NGB(NextGenerationBroadcasting,下一代广播电视网)可均经过网络,通往特定内容库,进行多种双向互动,包括收看电视频道,点播影视剧目,玩游戏,点唱KTV,甚至在线支付等。长期看,有线运营商和电信运营商的网络条件和运营能力接近,关键在于谁能提供更具有吸引力的内容节目或服务应用。2009年美国最大有线运营商COMCAST收购美国最大广播电视网络公司NBC(内容提供商)就是一个佐证。2010年1月13日,国务院召开常务会议,专门就三网融合方案进行研究,并确定了10城市先行试点。三网融合具有重要的战略意义。它不仅是将现有网络资源有效整合、互联互通,而且会形成新的服务和运营机制,并有利于信息产业结构的优化,以及政策法规的相应变革。融合以后,不仅信息传播、内容和通信服务的方式会发生很大变化,企业应用、个人信息消费的具体形态也将会有质的变化。,3.“三网融合”的优势、信息服务将由单一业务转向文字、话音、数据、图像、视频等多媒体综合业务。如快速投递的电报功能已被手机取代;主要以投递信件为主所发行的邮票正逐渐成为历史;淘宝网等网上购物已成为流行方式。、有利于极大地减少基础建设投入,并简化网络管理,降低维护成本。、将使网络从各自独立的专业网络向综合性网络转变,网络性能得以提升,资源利用水平进一步提高。、三网融合是业务的整合,它不仅继承了原有的话音、数据和视频业务,而且通过网络的整合,衍生出了更加丰富的增值业务类型,如图文电视、VOIP(VoiceoverInternetProtocol是一种以IP电话为主,并推出相应的增值业务的技术)、视频邮件和网络游戏等,极大地拓展了业务提供的范围。、三网融合打破了电信运营商和广电运营商在视频传输领域长期的恶性竞争状态,各大运营商将在一口锅里抢饭吃,看电视、上网、打电话资费可能打包下调。,三网融合应用广泛,遍及智能交通、环境保护、政府工作、公共安全、平安家居、智能消防、工业监测、老人护理、个人健康等多个领域。以后的手机可以看电视、上网,电视可以打电话、上网,电脑也可以打电话、看电视。三者之间相互交叉,形成你中有我、我中有你的格局。通过三网融合最终将实现三机一体(即手机、电视机、计算机合为一体)的前景。可以形象地描述在三网融合的背景下用户的消费生活:未来,我们可以用电视遥控器打电话,在手机上看电视剧,随需选择网络和终端,只要拉一条线、接入一张网,甚至可能完全通过无线接入的方式就能实现通信、电视、上网等各种应用需求了。而对于物流行业来说,以后客户发货可以随时随地用手机迅速查到合适的物流公司,并立即下单,物流公司可以通过手机视频看到客户的货的大致情况,并立即决定派什么样的车去提货,发完货以后,客户也能随时自主追踪货物状态,直到货物安全到达最终用户手里。随着三网融合时代的到来,可能催生出更多的新行业。,1.3.2无处不在的多媒体技术,短短的几年内,多媒体技术不仅使计算机产业获得了日新月异的迅猛发展,而且也改变了人们传统的学习、思维、工作和生活方式。1999年,IBM提出普适计算(又叫普及计算或普存计算)的概念。所谓普适计算(PervasiveComputing/UbiquitousComputing)指的是,无所不在的、随时随地可以进行计算的一种方式;无论何时何地,只要需要,就可以通过某种设备访问到所需的信息。多媒体技术是普适计算的具体应用,因为人们需要随时随地地获取不同的信息,以满足其不同方面的各种多媒体需要。,1音频视频流点播媒体流点播是一种典型的客户-服务器多媒体技术,需要很大的带宽。由于多媒体技术的发展,出现了RM、WMV、MPEG-4、MPEG-7等技术,使视频音频点播得以在宽带网上实现。目前互联网上的视频流媒体主要有视频分享、在线视频点播和P2P流媒体3种方式。视频点播让用户可以根据自己的需要来点播节目,该技术也可应用于电子购物、交互式电子游戏、交互式CAI等。2电子出版物电子报纸和电子书可以通过网络直接阅读,经济环保。美国百年历史的纽约时报停止纸介质报纸印刷,改为电子版,美国近百年的时代周刊发行Ipad版都是最好的说明。压缩只读光盘(CD-ROM)和数字多功能光盘(DigitalVersatileDisc简称DVD)可广泛用于游戏、教育、资料存储等方面,是一种优良的信息源,也是目前最重要的电子出版物。一张CD光盘的容最大约为650MB,而容量最小的DVD-R亦达4.7GB,可存储大量数据,价钱也比较便宜,完全可以大量进入家庭。现在许多书籍、期刊、手册等都已发行CD-ROM或DVD版本。,3医疗卫生现在的医疗卫生体系随着计算机技术的介入越来越健全,越来越先进,远程医疗会诊、医疗在线及多媒体医疗保健信息系统走进了人们的生活。远程医疗系统就是在医生和病人之间建立连接,实现可交互式的互动,使身处异地的病人与医生之间进行“面对面”的远程会诊以及病情和技术的交流,效率高,节省时间和金钱,无疑是解决大医院人满为患现状的一副良药。4游戏与娱乐游戏与娱乐产品的一个很重要的市场。经验证明,凡是能进入家庭的产品都有非常巨大的市场。数据表明,日本的游戏与娱乐产业有数百亿美元的市场,可以与汽车业相媲美。多媒体技术如三维动画、立体电影、虚拟现实等技术的引入,必将使之更为丰富多彩。与信息高速公路的连接,使电子游戏与娱乐的内容更加丰富。,5计算机视频会议计算机视频会议可能会成为未来商务界乃至其他业务联络的标准手段。它使用户能得到一种“面对面”开会的感觉,与会者可以从屏幕上看到其他参加者,可以互相交谈,可以看到其他人提供的文件,可以在荧光屏开设的“白板”上写写画画等。显然,它比传统的电话会议优越得多。在技术上,它主要涉及信息的压缩、还原和通信线路的频宽及通信协议等问题。6多媒体展示和信息查询系统展示或演示系统与CAI有类似之处,但与产品展示不同。此类系统的例子包括科学博物馆、宇航博物馆、自然博物馆等设置的信息系统,这些系统要向观众介绍各种知识,如上海世博会上富有动感的清明上河图重现了1000年前开封(当时称汴梁)的繁华等,过去一般只能用文字和图表来展示,现在则可把图形、图像、动画、音频、视频等结合进去,使观众有身临其境的感觉,生动有趣。,7.MIS与OA对管理信息系统(MIS)和办公自动化系统(OA)来说,多媒体是一种使之档次提升的技术,它能处理、存储多媒体信息,同时使人机接口大为改善。过去许多MIS或OA之所以不成功,常常是因为人机接口不佳,用户使用起来感到太麻烦,现在有图、文、声并茂的人机接口,使用起来就容易多了。显然,若把它与计算机会议系统结合起来,系统的水平将上升到一个新高度。8传媒、广告商品经济对广告的需求越来越大,高质量的多媒体三维动画广告在电视上已越来越多,互联网更能使之达到如虎添翼的作用。现在,虽然三维动画广告片价格很高,1秒钟往往就要数千元的费用,但用户仍觉得“物有所值”。做得好,效益就高,但难度也大,特别是对创意要求很高。,9教学管理系统随着计算机及多媒体技术的发展,多媒体教学管理系统逐渐走入校园成为时尚和科技的标志。现在的多媒体教学管理系统主要包括信息发布平台、多媒体教学系统、多媒体考试系统、多媒体交流系统、信息管理系统。它的操作直观方便,功能强大,尤其是便于教师和学生的双向互动,是改善教育环境、提高教育的硬件设施和教育质量、进行现代化、远程化教学管理的先进设施。10卫星信息技术利用广播卫星使得多媒体应用系统在系统设计、数字闭环控制、智能识别、跟踪及快速动态捕获等方面得到快速的大量应用,人们再也不受时间和空间的限制。同样可以通过广播卫星网络接收数以百计的卫星直播节目,进行双向通话交流,如现有的32个省级卫视台,若以每省5个频道计算就可看到160个频道,若再考虑全国至少有265个市级台则会有更多的频道,更重要的是还可以直接接入众多的网络电视台信号。,1.3.3多媒体技术的发展趋势,计算机中信息的表达最初只能用二进制的0和1来表示,它的目的纯粹是为了计算。但在应用过程中,这种0和1的形式使用起来非常不方便,后来便产生了ASCII码这一类的字符代码。将字符处理过程引入到计算机中,不仅方便了用户,而且也使计算机不再局限于计算的范围,进入了事务处理的领域。所以,现在称作“计算机”有些名不符实,因为现在其主要是做大量的数据处理,而不再是计算,故可称其为“处理机”更为准确。中文标准代码的出现和使用很大程度上取决于计算机图形技术和软件技术的发展,使之能够以一种图形的方式来表达信息。随后,计算机开始能够处理图形、图像、声音,直至后来能够处理影像等视频信息。这个过程就是计算机多媒体化的过程。与此同时,在大众传播及娱乐界,从印刷技术开始了电子化取得了巨大成功,逐步发展到了广播、电影、电视(有线电视)等快速数字化的过程,先后影响到推出了CD-I和HDTV等大众化多媒体技术。HDTV显示约为1000线,今后会出现UDTV,显示大于1000线。在未来的超高分辨率示中,平面显示和全息显示将起重要作用。,(1)智能化,多媒体技术中最主要的处理对象就是数字音频和数字图像,这里的数字图像包括了静态图像和动态图像(视频、动画)。对数字音频的研究,主要涉及的是压缩编码和语音识别,而对数字图像的研究包括了压缩编码、图像分析识别和图像理解。目前相关的研究已经取得了很大的进展,尤其是基于内容的信息检索,例如压缩编码,由于一些新的技术的采用使得在编码效率得到较大提高的基础上,仍然能够保持较好的声音或图像质量。然而其他的一些技术距离真正的应用还需要作更多的工作,例如,语音识别技术,图像理解技术等。语音识别技术的研究始于20世纪50年代,虽然目前已经得到了长足的发展,但也仅仅是能够将语音转换为文字,而语音识别技术的发展目标应该是人与机器的自由“对话”,这就需要实现计算机对自然语言的理解。无论是自然语言的理解还是图像理解,都将涉及“智能化”,而智能化的目标就是实现人与计算机的自然交互。,智能化的人机交互存在的问题在什么地方呢?人类一般都是用概念来表达意志,但是计算机存储的都是低层的数据,因此很难把这些概念表述出来。这样就提出来一个如何智能化处理的问题。比如,我们要检索一个人物的图片,计算机怎么知道你是要检索什么人物

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论