多媒体通信技术-第五章_第1页
多媒体通信技术-第五章_第2页
多媒体通信技术-第五章_第3页
多媒体通信技术-第五章_第4页
多媒体通信技术-第五章_第5页
已阅读5页,还剩157页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第五章多媒体通信系统中的关键技术5.1

多媒体信息输入输出及存储技术视频信息输入输出技术计算机智能处理数字图像信息,而现有的视频源都还只是模拟图像信息,因此需要先将模拟图像信号转换成数字图像信号。在进行过相关处理后,在显示时需要将数字图像信号转换成模拟图像信号。需要视频转换卡来完成相应功能。视频采集卡

视频采集卡的作用:是将模拟摄像机、录像机、LD视盘机、电视机输出的视频信号等输出的视频数据或者视频音频的混合数据输入电脑,并转换成电脑可辨别的数字数据,存储在电脑中,成为可编辑处理的视频数据文件。原理上,视频采集就是将视频源的模拟信息通过处理转变成数字信息,并将数字信

息存储在电脑硬盘上的过程,这种模拟数字转换是通过视频采集卡上的采集芯片进行的。通常在采集过程中,还对数字信息进行一定形式的实时压缩处理,较高档的采集卡依靠特殊的处理芯片进行硬件实时数据压缩处理;而那些没实时硬件压缩功能的卡,也可通过电脑上的CPU进行被称为软件压缩的处理。按照其用途可分为广播级视频采集卡、专业级视频采集卡、民用级视频采集卡,它们档次的高低主要是采集图像的质量不同。常用视频卡(1)视频接收卡视频接收卡也称为电视接收卡,其主要功能是:接受电视台发送的电视信号;将模拟电视信号数字化后叠加显示在VGA中并完成最终显示。视频接收卡功能(2)视频转换/捕获卡视频转换卡完成计算机视频信号和电视视频信号间的转换。一般分为两类:一类完成由计算机VGA信号到各种标准制式电视信号的转换,称为PC-TV卡;另一类将标准制式电视信号转换为计算机VGA信号,称为TV-VGA卡。视频转换卡的主要功能是实时或非实时的捕获静态或短时间的动态视频。(3)MPEG卡

MPEG卡是指硬件压缩MPEG1、MPEG2的板卡。需要MPEG卡的原因:1、老电脑加速。早期的电脑,速度慢,压缩MPEG极慢,无法投入商业制作。2、模拟采集。MPEG卡本身通常都有模拟采集视频的功能。所以,对于模拟视频的采集,当然不能用1394,所以需要增加相应的输入端口,MPEG卡有这个功能,且很便宜。

3、实时压缩。现在的很多CPU,虽然能用软件压缩MPEG,但未必能实时压缩,尤其是实时压缩MPEG2,现在流行的大多数CPU都不行。所以,MPEG卡又在这里是有用的。

4、高品质压缩。软件压缩的品质还可以,但达不到出版级的质量。出版级的压缩,还是要用专业的“MPEG卡”来压缩。这种卡一般要几万块钱,比一台配置高好的电脑都贵。但压出来的质量是软件压缩不能比的。

摄像头摄像头分为数字摄像头和模拟摄像头两大类。数字摄像头,是用于直接和计算机连接使用的数字摄像头;模拟摄像头,要配合视频捕捉卡一起使用并加以压缩后,将视频采集设备产生的模拟视频信号转换成数字信号才可以到计算机上运用。按感光器件类别来分,现在市场上摄像头使用的大多为CCD和CMOS两种,其中CCD(ChargeCoupledDevice,电荷耦合器件)是应用在摄像、图像扫描方面的高端技术组件,CMOS则大多应用在一些低端视频产品中。

像素是摄像头最重要的参数,体现了摄像头的基本性能。像素是指感光元件上的光敏单元的数量,光敏单元越多,摄像头捕捉到的图像分辨率也就越高,画面当然也就越越清晰。可以利用摄像头的最大分辨率来计算摄像头的像素值,例如一款摄像头的最大分辨率为640×480,那么像素就是640×480=307200,即30万像素。

真实像素和插值像素之间的区别:插值像素是指摄像头的像素原本没有那么高,但是经过软件插值处理后,获得的较的高像素值。摄像头的视频捕获速度捕获速度也称为帧率,一般指摄像头采用最大分辨率时的流畅度。通常摄像头帧率在20帧/秒,高档数字摄像头能达到30帧/秒,帧率太低会产生跳动现象。

市场上常见的摄像头多媒体投影仪

1.阴极射线管CRTCRT是CathodeRayTube的缩写,该技术是出现最早,应用最广泛的一种投影成像技术,它做为一种最成熟的投影技术,具有显示色彩丰富,色彩还原性好,分辨率高,几何失真调节能力强,可以长时间连续工作的特点。

2.液晶显示LCDLCD是LiquidCrystalDisplay的缩写,又称为液晶显示,是一种液晶显示投影技术。该技术利用了液晶分子的光电效应,运用电场作用让液晶分子的排列发生变化,从而导致液晶的光学特性发生改变(主要是透光率和反射率这两种变化),最后产生出不同灰度层次及多达1670百万种色彩的图像。

3.数字光路处理器DLPDLP是DigitalLightProcessing的缩写,又称为数字光路处理器,该技术的最大特点就是数字优势,可以大大提高图像的灰度等级,使图像噪声消失并稳定画面质量,在图像定位上也比以往精确了许多。该种技术还具有反射优势,采用反射式的DMD数字微镜器件之后,成像器件的总光效率得到了很大提高,对比度、亮度、均匀性都非常出色。

4.反射式液晶LCOSLCOS是LiquidCrystalonsilicon的缩写,又称为反射式液晶。理论上,反射式液晶投影技术可以实现更高的亮度和分辨率,并且在成本上会有明显降低。但目前为止,LCOS技术还处于发展之中,相应的产品也还未能形成市场规模。

投影仪的几个重要的技术参数:

1.分辨率:投影仪的分辨率分为物理分辨率和压缩分辨率,决定图像清晰程度的是物理分辨率,决定投影机的适用范围的是压缩分辨率。目前市场上应用最多的为SVGA(分辨率800×600)和XGA(1024×768)。

2.亮度:是指投影仪的光输出,以光通量(光源在单位时间内向周围空间辐射出的使人眼产生感觉的能量)来表示,单位用ANSI流明来表示。

3.灯泡寿命:也是重要指标之一。按照一般使用频率足够正常使用3年以上。灯泡种类有:金属卤素灯,UHE灯泡,UHP高能灯。

4.颜色:是指投影仪投射图像所能表现的颜色数量。24位真彩色。

5.均匀度:均匀度是与亮度相关的概念。投出画面的中间亮度与周围亮度的比值。一般将中间定义为100%。

6.对比度:对比度指的是投影仪投射图像中黑与白的比值,也就是从黑到白的渐变层次。

7.画面尺寸:画面尺寸是指投出的画面对角线的尺寸。

8.吊顶功能:为了使用方便,不少用户会将投影仪安装在天花板上。

9.背投功能:也有不少用户会将投影仪安装在背透幕的后面进行投影。

10.水平扫描频率:水平扫描频率又叫行频。投影仪的水平扫描频率都有一个范围。

11.垂直扫描频率:垂直扫描频率又叫帧频或显示图像的刷新率。

音频信息的输入输出技术音频信息的输入输出主要是由音频卡来完成的,音频卡也叫声卡,是安装在计算机内部,可以使计算机发出各种声音的硬件板卡。声卡是组成计算机的重要部件,也是计算机进行所有与声音相关处理的硬件设备。

在人类发明声卡之前,PC只能发出一种声音——嘟嘟声。虽然计算机能改变这种声音的出现频率和持续时间,但不能更改音量大小和创建其他的声音,主要用作信号或警告。后来,开发人员利用不同音高和长度的嘟嘟声,为最早的PC游戏制作音乐。然而,这种音乐很不真实。20世纪80年代,制造商引入了专门用来控制声音的附加卡。现在,带有声卡的计算机能发出三维音频、DVD环绕声等,还能捕获和记录外部声源的声音。

声卡的基本工作原理麦克风和喇叭所用的是模拟信号,而电脑处理的都是数字信号,声卡的作用就是实现两者的转换。从结构上分,声卡可分为模数转换电路和数模转换电路两部分,模数转换电路负责将麦克风等声音输入设备采到的模拟声音信号转换为电脑处理的数字信号;而数模转换电路负责将电脑使用的数字声音信号转换为喇叭等设备使用的模拟信号。

声卡系统结构图声卡的核心器件是数字音频处理芯片和音乐合成器。音频卡的主要功能(1)录制和播放声音(2)对声音文件进行编辑和合成(3)对数字声音文件进行压缩和解压缩,节省磁盘空间(4)MIDI音乐录制和合成(5)文语转换和语音识别语音识别技术和语音合成技术语音识别技术语音识别技术就是让机器通过识别和理解过程,把语音信号转变为相应的文本或命令的技术。语音识别是一门交叉学科,涉及计算机、通信、语音语言学、数理统计、信号处理、神经生理学、和人工智能等学科。语音识别按任务的不同可以分为四个方面⑴说话人识别⑵关键词检出⑶语言辨识⑷连续语音识别语音识别技术的困难:

⑴语音信号具有时变性;⑵目前没有模型能完全描述发音模型;

⑶方言或口音会降低语音识别率、背景噪音、口语等问题。语音识别原理框图一个完整的语音识别系统可大致分为四部分:(1)语音信号的预处理(2)语音特征提取(3)声学模型与模式匹配(识别算法)(4)语言模型与语言处理语音识别系统的分类:(1)按发音方式分(2)按词汇量大小分(3)按说话人分(4)按识别方法分语音识别系统的分类语音识别的应用未来10年内,语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。

--语音打字机

--数据库检索

--特定的环境所需的语音命令语音合成技术

语音合成就是让计算机象人那样讲话。语音合成的研究目标是:可懂清晰自然具有表现力研究意义(1)语音合成技术可以大大改善人机交互环境(2)将“能看到”和“看不到”的信息变成“可听”的信息(3)将“非即时获得的信息”变成“即时可听”的信息语音输出的实现方法录音/重放若采用录音/重放的方法,首先要把模拟语音信号转换成数字序列,编码后,暂存于存储设备中(录音),需要时,再经解码,重建声音信号(重放)。录音/重放可获得高音质声音,并能保留特定人的音色。但所需的存储容量随发音时间线性增长。语音合成(“文—语转换,TTS”)

文一语转换(TTS)是基于声音合成技术的一种声音产生技术,它能把计算机内的文本转换成连续自然的语声流。若采用这种方法输出语音,应预先建立语音参数数据库、发音规则库等。需要输出语音时,系统按需求先合成语音单元,再按语音学规则或语言学规则,连接成自然的语流。语音合成的三个层次:Intention-To-SpeechConcept-To-SpeechText-To-Speech按照人类语言功能的不同层次,语音合成也可分为三个层次,即:1、从文字到语音的合成(Text-to-Speech);

2、从概念到语音的合成(Concept-to-Speech);

3、从意向到语音的合成(Intention-to-Speech)。

这三个层次反映了人类大脑中形成说话内容的不同过程,涉及人类大脑的高级神经活动。不难想像,即使是按规则排列的文字到语音合成(文语合成)也已经是相当困难的任务。为了合成出高质量的语言,除了依赖于各种规则,包括语义学规则、词汇规则、语音学规则外,还必须对文字的内容有很好月的理解,这将涉及自然语言理解问题。从这一点讲,文语转换系统实际上也可看作是一个人工智能系统。

语音合成系统的组成-TTS文本分析:首先根据发音字典,将输入的文字串分解为带有属性标记的词及其读音符号。韵律生成:根据语义规则和语音规则,为每个词、每个音节确定重音等级和语句结构及语调、以及各种停顿等。语音生成:文字串就变换为代码串,规则合成系统就可以据此合成抑扬顿挫和不同语气的语句。以文字串为输入的规则合成系统,其输入的文字串是通常的文本字串。查找拼写错误,并将文本中出现的一些不规范或无法发音的字符过滤掉。分析文本中词或短语的边界,标注词性、确定文字的读音,同时分析文本中出现的数字、姓氏、特殊字符、专有词语以及各种多音字的读音方式。分析文本中每个句子的语法结构和语义结构,确定语义中心,句子的重音模式,语调,从而为韵律处理提供必要信息。对音系层的韵律事件预测:声调、语调、轻重、节律等对声学层的韵律参数预测语音合成系统的流程-TTS其他输入输出技术扫描仪扫描仪是多媒体应用系统中一个主要的输入设备,主要用于扫描文字、表格和图形图像。扫描仪的技术原理主要是把把图形图像、文字信息转成数字信息并转化成二进制形式存储于计算机中。根据扫描仪获取图像彩色信息能力,分为彩色扫描仪和黑白扫描仪。扫描仪的工作原理扫描仪内部基本组成部件是光源、光学透镜、感光元件,模拟/数字转换器。扫描图像时一次扫描一行,光线从物体上反射回来,通过透镜射进到感光元件。感光元件将光线转换成模拟电压信号,并且标出每个象素的灰度级,再由模拟/数字转换器将模拟电压信号转换为数字信号,每种颜色使用8、10或12位来表示。扫描仪的分类(1)按扫描版面大小可分为A3和A4幅面扫描仪;(2)按扫描速度可分为高速、中速和低速;(3)从扫描仪的历史上来说,扫描仪可以分为:手持式扫描仪、馈纸式扫描仪、平板式扫描仪、大幅面扫描仪、底片扫描仪、笔式扫描仪、条码扫描仪、实物扫描仪和3D扫描仪。

手持式扫描仪:这种扫描仪诞生于1987年,是当年使用比较广泛的扫描仪品种,必须由用户手动控制。价格低廉,方便携带,但扫描精度不高,幅面不大。如图:加拿大Planon公司DocuPen700手持扫描仪。馈纸式扫描仪:又称为小滚筒式扫描仪。工作时镜头固定,通过移动要扫描的物体来扫描。馈纸式扫描仪诞生于20世纪90年代初,近一两年中又出现了一些新型产品,这类产品体积很小,并采用内置电池供电。如图:清华紫光F18A馈纸式扫描仪。滚筒式扫描仪:滚筒式扫描仪主要的特点就是幅面大,尤其适合工程图纸输入领域。它通过旋转滚筒的进纸方式来工作,主要应用于专业领域。使用的感光器件为光电倍增管。如图:一款A4幅面滚筒式扫描仪fi-5110EOX2平板式扫描仪:又称为台式扫描仪,如下图所示这种扫描仪诞生于1984年,是目前市场上的主流产品。其特点是如复印机一样放在桌上使用。

大幅面扫描仪:一般指扫描幅面为A0幅面以上的扫描仪,适用于地图、建筑机械CAD、线条图和工程图纸等各类技术图纸的扫描。光学分辨率一般为200dpi或400dpi。如图:一款清华紫光大幅面扫描仪。

底片扫描仪:又称胶片扫描仪。其扫描胶片效果是平板扫描仪不能比拟的,主要任务就是用来扫描正片、负片和透明片,扫描幅面从135底片到4×6英寸甚至更大,光学分辨率最低也在1000dpi以上,一般可以达到2700dpi的水平。如图:BenQ底片扫描仪。

条码扫描仪:又称为条码阅读器,主要用于条码的扫描识别,不能用来扫描文字和图像。主要应用在大型超市、图书管等部门。如图7-11和7-12所示。

Symbol-LS1902条码扫描仪邦尼AS-2090条码扫描仪实物扫描仪:平板扫描仪也具有扫描实物的能力。结构原理类似数码相机,不过是固定结构。分辨率远高于市场上常见的数码相机。

3D扫描仪:生成的文件是能够精确描述物体三维结构的一系列坐标数据,输入3DMAX中即可完整地还原出物体的3D模型。由于只记录物体的外形,因此无彩色和黑白之分。笔式扫描仪:主要用于文字识别,又称为扫描笔。

扫描仪的主要技术参数:1.分辨率:也叫扫描精度。它主要是表示扫描仪对图像细节表现的能力,常用dpi来表示,即每英寸长度上扫描图像所含有像素点的个数。2.灰度级:它是表示灰度图像的亮度层次范围的指标,反映了扫描时由暗到亮层次范围的多少,具体地说就是扫描仪从纯黑到纯白之间平滑过渡的能力。3.色彩位数:色彩位数是扫描仪对采样来的每一个像素点提供的不同通道的数字化位数的叠加值,能够反映出扫描图像的色彩逼真度,色彩位数越多,图像表达越真实。4.扫描速度:即扫描一定的图像所需要的时间。每分钟100页,60-100页,20-60页。5.扫描幅面:即扫描对象的最大尺寸,A4、A3。触摸屏

触摸屏原理触摸屏系统一般包括两个部分:传感器和触摸屏控制器。基本原理是用手指或其它物体触摸安装在显示器前端的触摸屏时,所触摸的位置以坐标形式由触摸屏控制器检测,并通过接口(如RS-232串行口)送到CPU。从而确定输入的信息。触摸屏根据探测原理和方式来分类,可分为4大类:电阻式、红外线式、电容感应式和表面声波式。1.电阻压力触摸屏:电阻压力触摸屏的屏幕表面有两层导电层,中间用隔离点隔开,原理是当手指触摸屏幕时,两层导电层在触摸点位置就有了接触,电阻发生变化,在X和Y两个方向上产生信号,然后送触摸屏控制器。

2.红外感应触摸屏:红外触摸屏是利用X、Y方向上密布的红外线矩阵来检测并定位用户的触摸。红外触摸屏在显示器的前面安装一个电路板外框,电路板在屏幕四边排布红外发射管和红外接收管,一一对应形成横竖交叉的红外线矩阵。用户在触摸屏幕时,手指就会挡住经过该位置的横竖两条红外线,因而可以判断出触摸点在屏幕的位置。

3.表面声波触摸屏:利用声波发射及接收原理,在屏幕上有X、Y轴向发射器及接收器,它们实现电信号与声波之间的转换,当人体触摸屏幕的时候,通过该点的声波信号被阻挡,其波形形成一个衰减,控制器通过分析接收到的衰减信号而确认被触摸的位置。4.电容感应触摸屏:是利用人体的电流感应进行工作的。

触摸屏基本技术特性主要包括下面四个方面:(1)连接接口;串行口RS-232或接口卡,模拟鼠标驱动程序。(2)检测与定位;反应速度,可靠性,稳定性和寿命。(3)透明性能;透明度,色彩失真度,反光性和清晰度。(4)绝对坐标系统。漂移多媒体存储技术多媒体存储技术主要是指光盘存储技术。

单机多媒体存储的最初形式就是人们非常熟悉的VCD。采用MPEG-1压缩技术,可以将74分钟视频音频信息同时压缩记录在轨道上。视频质量比家用录像带略高,音质与CD唱盘相当。

DVD标准于1995年出台,专门用来存放以MPEG-2方式压缩的视频和音频信息。画质和音质均优于VCD且兼容VCD。随着多媒体数据内容的不断增加,以单一盘片的形式存储数据远不能满足用户的需求,于是出现了光盘库、冗余磁盘阵列和多媒体数据库的存储方式。光盘库根据统计资料显示,在所有需要的数据中,超过30天存储的数据其使用率不到5%,有近80%的硬盘数据是不经常被使用的,不不经常使用的数据占据了大量的磁盘空间。但这些数据又非常重要,不可以丢失。

CD-ROM光盘库(CD-ROMJukebox)是一种带有自动换盘机构(机械手)的光盘网络共享设备。光盘库一般配置有1~12台CD-ROM驱动器,可容纳100~600片CD-ROM光盘。用户访问光盘库时,自动换盘机构首先将CD-ROM驱动器中光盘取出并放置到盘架上的指定位置,然后再从盘架中取出所需的CD-ROM光盘并送入CD-ROM驱动器中。由于自动换盘机构的换盘时间通常在秒量级,因此光盘库的访问速度较低。DVD光盘库的主要特点如下:(1)高容量,每张DVD盘片容量达到5.2GB,总容量达到TGB;(2)检索速度快,换盘时间在秒级,支持跨盘存取;(3)高可靠性,光盘的寿命为100年;(4)与各系统无缝连接,可应用于WindowsNT,NetWare,Unix,IBM等系统;(5)安装简便,易于管理。光盘库应用将DVD光盘库作为在线存储设备直接进行存储,用户的角度看光盘库就是一个容量巨大的磁盘;将光盘库看作是数据归档的存储设备,将不经常使用而又占用大量存储空间的数据存储在光盘库中。存储区域网络(SAN)SAN的概念是在1988年提出的。通过单独的高速光纤网络将存储设备和局域网上的服务器群连接起来,数据的存取通过存储区域网在服务器和海量存储设备间进行高速传输。SAN是一种可满足海量数据存储、大量的I/O吞吐量和高端应用需求的网络式存储技术。应用计算机通过标准的网络连接到SAN的存储设备上。

SAN是一种可以使服务器与大型存储设备(磁盘阵列或磁带库)之间进行任意连接通信的存储网络系统。SAN中的各种设备是分散在网络中的。存储区域网络(SAN)由四部分组成盆终端用户、服务器群、存储系统和光纤通道。存储区域附络(SAN)的特点:(1)实现大容量存储设备的共享和高速的数据传输。(2)连接方便和远距离传输。(3)实现主机与存储设备的分离。(4)提高数据的可靠性和安全性。多媒体数据库多媒体数据库系统因其媒体数据的不同而与传统数据库系统有所不同。多媒体数据库是由若干个多媒体对像所构成的集合,这些多媒体数据对像是按某种特定的方式组织起来并为其他的具体应用共享。多媒体数据库与文本数据库的比较1、MDB不能像文本数据那样分解为单纯的要素。2、MDB中包含有多种不同的多媒体,对其操作也具有多样性。3、MDB数值的取值范围和定义域的多样性。4、MDB中由于各种多媒体的特点,性质和形态有很大差异,在存储和应用时需高水平的数据交换。5、MDB所处理的数据及其集合相互间不是孤立的。而是具有很强的相关性。6、MDB具有很强的时空特性。MDB的用户1、数据库的建库者2、数据的使用者3、数据的加工者4、数据库的管理者MDB的使用目的1、建库者:建立数据库,既向数据库登陆各种媒体数据,更新有关的媒体数据。2、使用者:从数据库中获取信息,将它用于工作、学习、娱乐。通常使用检索的方式。3、加工者:通过对数据库中的有关信息的加工制造信息。4、管理者:主要对数据进行维护,对数据和数据库的使用进行管理。多媒体数据库多媒体信息数据的传者数据的使用者数据的加工者数据的管理者登录更新检索检索登录更新数据整理MDB的建库技术1、声音数据库

A、声音的编码B、声音的压缩

C、语音的识别D、声音合成2、静止图象数据库

A、静止图象数据的获得

B、静止图象数据的存储

C、输出;提供给用户使用

D、计算机;图象数据的各种处理系统是以计算机或计算机系统为中心3、视频数据库

A、视频数据的获取B、压缩技术5.2

超媒体技术随着多媒体技术的发展,超文本和超媒体技术以其能为人们提供简单、直观、快捷、灵活的数据表示、组织和管理手段而展现出美好的前景。它所提供的思想方法可建立各种媒体信息之间的网状链接结构,与传统的线性文本结构有着很大的不同,符合人们的“联想”式思维习惯。超文本技术超文本是一种新型的信息管理技术,它以结点为单位组织信息,在结点与结点之间通过表示它们之间关系的链加以连接,构成表达特定内容的信息网络。超文本组织信息的方式与人类的联想记忆方式有相似之处,从而可以更有效地表达和处理信息。在多媒体计算机系统中,超文本的概念可用下图来说明。①…在这里使用超文本,插入一个超媒体。②超文本:由①超文本链接至这里③超媒体:由①超媒体链接至这里…超链接…④超链接:由③链接至这里

超文本中带有链接关系的文本通常用下划线或不同的颜色来表示,文本①中“超文本”与②中的“超文本”建立有链接关系,①中的“超媒体”与③中的“超媒体”建立有链接关系,③中的“超链接”与④中的“超链接”建立有链接关系……,这种形式的文件就称为超文本文件,这种文件链接关系称为超链接(hyperlink)也称为热链接(hotlink)或称为超文本连接。超文本的体系结构模型

超文本系统的结构可以用一个三层次模型来描述,如图,它可以划分为数据库层、超文本抽象机层和用户接口层。超文本的体系结构模型数据库层

超文本实质上是一种链式的数据库存取方法,比普通的数据库管理系统更简单。数据库层处于超文本模型的最底层,使用传统数据库的思想和方法,用于处理信息的存储问题,例如,存储分配管理、缓冲区调度和存取控制等。另外,还考虑到信息的安全性、版本维护和访问响应速度等问题。它的基本功能是对节点和链等基本信息进行存储、管

理和访向,并保证这些操作对于高层的超文本抽象机来说是透明的,即无论高层访问的信息存储在何处,数据库层都能保证正确存取。超文本抽象机层超文本抽象机层介于数据库层与用户接口层中间,这一层决定了超文本中节点和链的基本特点。它标识每个节点,记录了节点之间链的关系,保存链的类型,链源、链宿等信息,并保存节点和链的结构信息。控制数据库层按指定的结构存储、访向数据。超文本抽象机层也决定了超文本系统之间交换信息的能力,在不同的超文本系统之间相互传送或接收信息,必须进行信息转换格式的工作,而超文本抽象机层是实现超文本输入输出格式标准化转换的最佳层次。一般来说,该层越相近的超文本系统之间,在信息交换时,信息损失越小,反之信息损失就大。用户接口层用户接口层处在超文本模型的最高层,它是超文本系统与人的人机交互界面。用户接口层决定了信息的表现方式、交互操作方式,导航浏览方式以及用户对信息的访问权限等。在大多数超文本系统中,信息的显示以窗口的方式操作,每个窗口对应相应的节点,并可同时打开一定数量的窗口。交互式操作以鼠标、图符、菜单等图形化界面为主。导航采用图示引导方式,它的作用是帮助用户在复杂的超文本网络中定位,并引导用户迅速找到感兴趣的内容或者快速返回到出发点。超媒体的组成超文本与多媒体的融合产生了超媒体,超媒体的原文Hypermedia就是超文本Hyper-text和多媒体Multimedia结合词。简单地讲,允许超文本的信息结点存储多媒体信息,并使用与超文本类似的机制进行组织和管理,就构成了超媒体。但在实际中,管理和组织多媒体信息比单纯的文本信息复杂,所以要将超文本的知识表示方法与多媒体对文本、图形、图像、音频、视频、动画等信息的存储和处理技术相结合。超媒体系统内部的组成

节点、链和网络是超媒体的基本构成要素。

1.节点节点是表达信息的基本单位。如果每个节点只表示文本信息,则是原始意义下的超文本。

2.链超文本中使用链将结点连接起来,以表示被连接的各结点之间的关系。一般来说,节点间有索引链和结构链两种连接方法。

节点有许多种,一般有:媒体节点动作与操作节点组织节点推理型节点

链链(Link)是节点间的信息联系,它以某种形式将一个节点与其他节点连接起来。链是有向的,一般结构可分为三个部分:链源、链宿及链的属性。链源是导致浏览过程中节点迁移的原因,可以是热标、媒体对象或节点等;链宿是链的目的所在,可以是节点,也可以是其他任何媒体内容。链的属性决定了链的类型。(1)基本结构链:基本结构链是构成超媒体的主要链形式,它具有固定明确的特点,必须在建立一个超媒体文献时,事先由作者指明,是一种实链。基本结构链又包括基本链、交叉索引链和节点内住释链。基本链

交叉索引链

节点内注释链(2)组织链和推理链:组织链用于节点的组织;推理链则在链的迁移过程中通过推理来决定目标。

索引链

执行链(3)自动链接链和类型链自动链接链允许系统自动将当前节点与相似主题或满足某些条件的所有其他节点链接在一起。类型链指的是用户可以对存在于两个节点间的关系进行定义。热标

热标(hot-spot)是确定信息关联的链源,由它引起向相关内容的转移。根据媒体种类的不同,热标的形式一般有以下几种:(1)热字(Hot-Word):热字是文本中被指定具有特殊含义或需进一步解释的字、词或词组。对热字处理的关键是热字的识别和按要求进行转移。(2)热区(Hot-Area):热区是在所显示的图像或类似于图像的显示区上指明的一个敏感区域,作为触发转移的源点。(3)热元(Hot-Element):在图形媒体中,图元是其最基本的单位,例如,一个图、一条线、一个中文字等。为了使这些相对独立的图形单位能够作为信息转移的链源,就引入了热元的概念。这种方式非常适合于在不影响图形本身的移位、放大或缩小等变换的同时,又可以由该图元引发相应的进一步关联信息的表现。(4)热点(Hot-Point):热点也是一种热标的概念,主要用于动态视频、声音等时基类媒体在时间轴上的触发转移。(5)热属性(Hot-Attribution):这是把关系数据库中的属性作为热源泉使用。宏节点

宏节点是指链接在一起的节点群,是超媒体网络的一个有某种共同特征的子集。当超媒体信息网络十分巨大时,或者该信息网络分散在各个物理地点上时,仅通过一个层次的超媒体信息网络管理会很复杂,因此分层是简化网络拓扑结构最有效的方法。3.网络超文本由节点和链构成网络是一个有向图,这种有向图与人工智能中的语义网有类似之处。语义网是一种知识表示法,也是一种有向图。节点和链构成网络具有如下特性功能:①超文本的数据库是由声、文、图各类节点组成的网络。②屏幕中的窗口和数据库中的节点是一一对应的,即一个窗口只显示一个节点,每一个节点都有名字或标题显示在窗口中,屏幕上只能包含有限个同时打开的窗口。③支持标准窗口的操作,窗口能被重定位、调整大小,关闭或缩小成一个图符。④窗口中可含有许多链标示符,它们表示链接到数据库中其它节点的链,常包含一个文域,指明被链接节点的内容。⑤作者可以很容易地创建节点和链接新的节点的链。⑥用户对数据库进行浏览和查询。超媒体系统特征一般认为一个超媒体系统应具备以下几个特征:(1)节点多媒体化。有提供文本、图形、图像和声音等各种媒体的能力,并能用多窗口的形式加以表现。(2)具有网状的复杂信息链接结构。用户可以用不同的方法查询使用各个节点的内容。(3)具有良好的导航工具和浏览能力。可以指引用户在信息网络中漫游,具有防止迷路的手段,使用户可以通过定位图确定自己的位置。(4)具有窗口化的管理功能。包括修改、增加、删除节点和链的能力,对节点的内容有良好的编辑功能。(5)可通过网络共享数据库,并可以多用户使用库内信息。(6)具有交互式的操作和程序员接口。超媒体的应用1.多媒体信息管理2.个人学习与教育应用3.辅助工作4.商业展示和指南5.娱乐和休闲超媒体系统结构

超媒体系统是指能创作和使用超媒体应用的系统。一个超媒体系统由著作子系统、浏览子系统和支持子系统组成。超文本著作子系统

著作子系统向构建超文本内容的用户提供生成超文本的工具,包括编辑器、超文本语言分析器、媒体编辑工具等。负责完成多媒体的数据准备,多媒体时空关系的描述,建立超文本信息节点并构造链接。支持对已有系统的增、删、改等操作。对超文本链接关系的处理能力是著作子系统区别于一般多媒体著作创作工具的特色。超文本浏览子系统

浏览子系统向访问超文本内容的用户提供使用超文本的手段,一般包括浏览器和其他的工具。浏览器是一种导航工具,一方面使用户在超文本网络中迅速定位、查询和收集有关的数据,另一方面,它要防止读者在复杂的超文本网络中迷失航向。超文本导航工具导航图查询系统线索遍历书签

超文本支持子系统

支持子系统是超文本系统的核心。最重要的工作是建立和维护各种服务。支持著作子系统和浏览子系统完成对超文本的各种成分如节点、链、热标等的管理和维护,协助应用收集所需的信息组成超文本,并在下层基础设施的支持下完成各种媒体的数据管理、输入/输出、网络通信和媒体表现等任务,为上层提供一个完善的平台。

分布式超媒体WWWWWW(WorldWideWeb)即万维网,可以简写成Web或3W,在1990年建立,是为了CERN的工作人员与其他研究机构更好的交流高能量物理研究的最新成果。随后,WWW成为互联网上最佳的信息检索体系,它采用客户/服务体系结构,支持通过Internet进行访问的分布式超文本。WWW的客户端软件称为Web浏览器。

Web超文本系统可分为三层:表现层、超文本抽象基层、超文本信息库层。表现层是用户接口层。超文本抽象基层完成节点和链的存储。超文本信息库层完成数据的存储和共享以及对网络的访问。5.3

多媒体同步的基本概念多媒体同步概述多媒体系统中集成了具有各种不同时态特性的媒体,这些媒体有依赖于时间的媒体(例如视频、音频、动画等)和独立于时间的媒体(例如文本、静止图像、表格等)。多媒体同步就是保持和维护各个媒体对象之间和各个媒体对象内部存在的时态关系,维持各种媒体序列以实现某种特定的表现任务。

多媒体同步可以从多媒体同步规范和多媒体同步控制两个层次来讨论。多媒体同步规范描述媒体对象之间和各个媒体对象内部存在的时态关系,确定多媒体的时态说明,是多媒体系统的重要组成部分。多媒体同步规范通常包括:媒体对象内的同步、媒体对象之间的同步以及业务品质描述。多媒体同步控制机制是开发各种同步控制策略以及同步控制协议,解决由于网络延迟、抖动、进程调度等各种不确定因素带来的负面影响,实现多媒体同步规范描述的多媒体时态说明。多媒体同步的类型

多媒体的同步类型分为上层同步、中层同步和底层同步。上层同步也称为表现级同步或交互同步、应用层同步,即用户级同步。在这一级,用户可以对各个媒体进行编排,由此决定何种媒体何时以何种时空关系表现出来。这一类同步是从用户应用的角度出发而进行的同步,重点在于表现与交互。这要求同步过程既能体现用户的交互性,又要容易被用户理解和使用。上层同步的同步机制是由多媒体信息中的脚本信息提供的。在实际的多媒体应用中,它是一种事件驱动同步,发生在系统中某一节点需要起始动作的情况下。此动作的发生即同步点。同样,对于多媒体表现,各媒体以何种时间关系和空间关系公屏幕上呈现给用户,可以用类似电影剧本的“脚本”方

式来组织。这便是多媒体表现的脚本模型。脚本,就是把用户对多媒体表现形式(结合其交互参与行动)的意图与构思,最终像电影剧本一样,“一场一场”地表示出来。场次的控制加入了用户的交互件。中层同步是信息合成同步,即不同媒体类型的数据之间的合成,所以,合成同步又称为“媒体之间的同步”。这层同步涉及到不同类型的媒体数据,侧重于它们在合成表现时的时间关系的描述。例如:在可视电话中,音频和视频必须始终同步地表现在接收端上,以确保口形与声音的同步。媒体之间的同步,除了数据的开始点和结束点必须保证以外,从开始点到结束点的整个过程中均要求保持同步。底层同步即系统同步,也称为媒体内部同步。该层同步是要完成合成同步所描述的各媒体对象内数据流间的时序关系,要根据具体多媒体系统性能参数来进行。

在单机多媒体情况下,同步技术要考虑计算机的读盘时间、图像的显示速度和处理速度;这和磁盘的存取速度、视频适配器和中央处理器的处理能力有关。在网络传输的情况下,要考虑网络的延迟、无法预料的网络阻塞等因素。这些因素可能影响媒体内部的同步,造成单一连续媒体在传输和播放时的稳定性较差,也可能影响媒体间的同步,造成各个媒体间的配合出现障碍。为解决这些问题,引出了同步协议的设计和各种相应的同步技术。影响媒体同步的因素

从媒体关系的角度出发,媒体对象的同步包括两个方面:媒体内同步和媒体间同步。媒体内同步主要是维持一个媒体流内部各信息单元的连续性;媒体间同步主要是维持多个相关媒体流中媒体单元间的时间关系。媒体同步关系主要受以下因素的影响:(1)媒体间延时偏移(2)延时抖动(3)时钟漂移(4)网络条件变化多媒体数据多媒体数据的分类媒体数据指的是文本、图形、图像、动画、语音和视频图像对应的数据,而多媒体数据是由这些相互关联的数据构成的一个复合信息实体。多媒体数据的形成过程就是在多媒体计算机的控制下多种媒体数据的合成过程。这些媒体数据,有些是实时的有些是非实时的。其中,有着严格时间关系的音频视频和动画等类型的数据称为实时媒体数据或连续媒体数据。其他类型的数据称为非实时媒体数据或静态媒体数据。一般说到多媒体数据时至少要包含一种实时媒体数据和一种非实时媒体数据。连续媒体数据可以看作是由逻辑数据单元(LogicDataUnit,LDU)构成的时间序列,或称为流。LDU的划分(即包含的内容)可以由具体的应用、编码方式、数据的存储方式和传输方式等因素决定。

例如,对于符合H.261标准的视频码流,一个LDU可以是一个宏块、一个宏块组、一帧图像或几帧图像构成的一个场景,如图所示。H.261码流中LDU的划分

连续媒体数据的各个LDU之间存在着固定的时间关系。

例如,以一帧图像为一个LDU,对25帧/s的帧率来说,则相继的LDU之间的时间间隔为40ms。

这种时间关系是在数据获取时确定的,而且要在存储、处理、传输和播放的整个过程中保持不变,一旦这种时间关系发生变化,就会损伤媒体显示的质量,比如会产生图像的停顿、跳动或声音的间断。静态媒体数据内部则不存在这种时间关系。连续媒体LDU之间的相对时间关系多媒体数据约束关系

在多媒体数据中,各种媒体数据对象之间并不是相互独立的,它们之间存在着许多种相互制约的同步关系。反之,如果媒体对象之间毫无联系,则这些媒体所构成的集合不能称为多媒体对象。多媒体数据的约束关系有三种:基于内容的约束关系、空域约束关系和时域约束关系。基于内容的约束关系基于内容的约束关系是指在用不同的媒体对象代表同一内容的不同表现形式之间所具有的约束关系。内容关系定义了媒体对象之间的依赖关系,如对于同样的数据进行分析,可以以不同的形式表现出来,如报表、柱状图和饼状图等,即同样的数据以不同的方式表达。

为了支持这种约束关系,多媒体系统要解决的问题是怎样保证在多媒体数据的更新过程中,维持不同媒体对象所含信息的一致性,即在数据更新后,保证代表不同表现形式的各媒体对象都与更新后的数据对应。解决这一问题的一种方法是:定义原始数据和不同类型媒体之间的转换原则,并由系统而不是由用户来完成对多媒体文档内容的调整。空域约束关系空域约束关系也称为布局关系,用来定义多媒体数据显示过程中某个时刻,不同媒体对象在输出设备(如显示器等)上的空间位置关系。空域约束关系是排版系统、电子出版著作系统首先要解决的问题。例如在桌面出版系统中,空域关系通常表达为布局框架。布局框架生成后,就可往该框架中填入相应的内容。时域约束关系时域约束关系是多媒体数据对象的时域特征,反映媒体对象在时间上的相互依赖关系,主要表现在两个方面:媒体内同步。连续媒体对象的各个LDU之间的相对时间关系。媒体间同步。各个媒体对象之间(包括连续媒体之间以及连续媒体和非连续媒体之间)的相对时间关系。

媒体内同步即流内同步,是要维持单个媒体数据流内各个信息单元的连续性,表现为媒体流的连续性,以满足人们对媒体感知上的要求。媒体流内部同步的复杂性不仅和单个媒体的种类有关,而且也和分布式系统所提供的服务质量QoS有关;同时也和源端和目的端的操作系统的实时性有关。

媒体间同步即流间同步,主要是保证不同媒体数据流间的时间关系,如音频和视频流之间的时态关系,音频和文本之间时态关系等,表现为各个媒体数据流中在同步点上的同时播放。媒体流之间的复杂性和需要同步的媒体流的数量有关。媒体数据对象之间的时域约束关系按照时间来区分又可以进一步分成实时(Live)同步和综合(Synthetic)同步。实时同步是指媒体数据信息在获取的过程中建立的时间同步关系。综合同步是指在分别获得不同的媒体数据信息之后,再对这些媒体数据人为地指定某种同步关系。综合同步关系可以事先定义也可以在多媒体系统的运行过程中进行定义。在这三种约束关系中,时域约束关系最为重要。当多媒体数据在表现时的时域特征遭到破坏时,用户就可能遗漏或误解多媒体数据所要表达的信息内容。由此可知,时域特征是多媒体数据语义的一个十分重要的组成部分,时域特征遭到破坏也就是多媒体数据语义的完整性受到破坏。多媒体数据的构成

其主体部分是不同媒体的数据,这些数据包含了所要表达的信息内容,称为成分数据。此外,从上一小节的分析可以看出,多媒体数据的约束关系(同步关系)也是构成多媒体数据的不可缺少的部分,这些约束关系称为同步规范。

在存储和传输成分数据时,必须同时存储和传输他们之间的同步关系。在对成分数据作处理时,必须维持它们之间的同步关系。当只考虑时域约束关系时,时域同步规范由同步描述数据和同步容限两部分组成。同步描述数据表示媒体内部和媒体之间的时间约束关系,同步容限则表示这些约束关系所允许的偏差范围。多媒体数据时域特征表示时域场景及时域定义方案

多媒体数据时域特征的表示过程中所要完成的具体任务,是对多媒体数据进行抽象、描述和给出必要的同步容限。时域特征表示过程抽象的过程是忽略多媒体数据中与时域特征不相干的细节,将多媒体数据概括为一个时域场景的过程。一个时域场景是由若干时域事件构成,其中的每一个时域事件都是与多媒体数据在时域中发生的某个具体动作相对应的。时域事件的发生可以是在某个时刻瞬间完成的,也可以是持续一段时间完成。如果一个时域事件在时域场景中的时间位置是完全确定的,该事件就称为确定性事件,否则就称为非确定性事件。由确定性时域事件构成的时域场景为确定性时域场景,包含有非确定性时域事件的时域场景为非确定性时域场景。时域参考框架

时域参考框架由多媒体场景、时域定义方案和同步机制三个部分构成。它是研究多媒体同步问题的一个很好的基础。时域参考框架多媒体场景是对多媒体数据在时间特征和空间特征抽象的结果,反映了多媒体数据在相关方面所具备的语义。时域场景是多媒体场景的一个重要组成部分,是参考框架中时域定义方案要处理的对象。描述时域特性的时间模型在将一个多媒体数据对象进行抽象并转变为一个时域场景后,需要利用某种时间模型对此时域场景加以描述。时间模型是对数据进行抽象描述的数据模型,由若干基本部件和部件的使用规则组成。它是在计算机系统内为时域场景进行建模的依据。采用的时间模型不同,得到的同步描述数据也就不会完全相同。建模的结果再通过某种形式化语言转化为形式化描述,这种形式化描述数据就是同步描述数据。时间模型及其相应的形式化语言合称为时域定义方案。除了同步描述数据外,还需要考虑同步机制提出必要的服务质量要求,这种要求是用户和同步机制之间在应当以何种准确程度来维持时域特征方面所达成的一种质量约定。这种约定就是前面所说的同步容限。最后,描述数据和同步容限相结合就构成了在计算机内部对多媒体数据时域特征表示。

时间模型的构成一个时间模型由基本时间单位、关联信息和时间表示技术三个部分组成。基本时间单位可以分为时刻和间隔两种类型,可以用时刻来表示时域事件,也可以用间隔来表示时域事件。关联信息反映了时域事件的组织方式,可以分为定量关联信息和定性关联信息两类。在定量关联信息的时间模型中,认为时域场景中的各个时域事件是相互独立的,可以单独地描述每一个时域事件在时域场景中的位置,从而间接地反映各个事件间的关系。在定性关联信息的时间模型中,认为时域场景中的各个时域事件是彼此关联的,因此在关联信息中所包含的是对时域事件约束关系的描述。有些时间模型的定性关联信息中包含了对事件之间时域关系的描述,主要分为两个时刻之间的基本时域关系和两个间隔的时域关系。

两个时刻之间的基本时域关系包括:之前(before)、之后(after)和同时(at-the-same-time),如图所示。对于确定性时域场景,任意两个时刻之间只有一种基本时域关系。两个时刻之间的基本时域关系

两个间隔之间的基本时域关系总共有13种,其中6种关系可由其它关系的逆来表示,还有一种是等价的(equals和其逆),因此只需要研究其中的7种时域关系,即before、meets、overlaps、during-1、starts、finishes-1和equals。

两个间隔之间的基本时域关系时间模型的分类根据基本时间单位、关联信息和时间表示技术这三个构成成分的具体内容,可以将时间模型分为五类,即定量定期型、定性定期型、定性时刻型、定性间隔型和定量间隔型。定量定期型时间模型的基本时间单位是时刻,其关联信息为定量关联信息,时间表示技术为定期方式。定性定期型时间模型的基本时间单位是时刻,关联信息是表示次序的定性关联信息,时间表示技术为伪定期方式。定性时刻型时间模型的基本时间单位是时刻,其关联信息是时刻间时域关系的定性关联信息,个别情况下也可以包含定量关联信息,其时间表示技术为约束传播方式。定性间隔型时间模型的基本时间单位为间隔,其关联信息是间隔时域关系的定性关联信息,时间表示技术为约束传播方式,有时也可以包含定量关联信息。定量间隔型时间模型的基本时间单位是时间间隔,关联信息是定量信息(时间间隔的宽度)和定性信息(间隔排序信息)。同步容限

在实际工作中,多媒体系统总存在着一些影响准确恢复时域场景的因素,导致在恢复后的时域场景中时域事件间的相对位置发生变化,称这种变化称为事件间偏差。属于同一媒体对象的时域事件之间的偏差称为对象内偏差,不同媒体对象的时域事件之间的偏差为对象间偏差。偏差的存在必然会造成多媒体同步质量的降低,偏差的大小对同步质量的影响也有所不同。事件间的偏差

同步容限是用户与同步机制之间就偏差的许可范围所达成的协议,包含了用户对偏差许可范围的定义,同步机制则需依据同步容限,保证在恢复后的时域场景中,事件间的偏差在其许可范围之内。流内同步与流间同步是同步机制所要完成的两个主要任务,前者旨在实现对连续媒体对象内部偏差的控制,后者以对连续媒体对象间偏差的控制为目的。由于很难找到定义偏差许可范围

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论