版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
多媒体新技术展望第一页,共四十四页,2022年,8月28日基于分形的压缩算法
什么是分形分形(Fractal)一词,来自拉丁文Fractus,是曼德勃罗创造出来的,原意具有不规则、支离破碎等意义,分形几何学是一门以非规则几何形态为研究对象的几何学。第二页,共四十四页,2022年,8月28日分形几何与传统几何相比有什么特点从整体上看,分形几何图形是处处不规则的。例如,海岸线和山川形状,从远距离观察,其形状是极不规则的。在不同尺度上,图形的规则性又是相同的。上述的海岸线和山川形状,从近距离观察,其局部形状又和整体形状相似,他们从整体到局部,都是自相似的。第三页,共四十四页,2022年,8月28日分形压缩的基本原理是利用分形几何中的自相似性原理来进行图像压缩。所谓自相似性就是指无论几何尺度如何变化,景物的任何一小部分的形状都与较大部分的形状极其相似。分形编码利用“自相似性”不是邻近样本的相关性而是大范围的相似性,即图像块的相似性。对相似性的描述是通过仿射变换来确定的,而编码的对象就是仿射变换的系数。由于仿射变换的系数的数据量小于图像块的数据量,因此可以实现压缩的目的。第四页,共四十四页,2022年,8月28日《微软电子百科全书》就是完全分形编码方法把大量多媒体数据压缩到600MB以内的。在海湾战争中,美军使用了分形技术,用于军事地图的缩放、攻击目标的匹配追踪等。第五页,共四十四页,2022年,8月28日分形图像压缩的一般过程源图像割成适当的块对每一块,基于拼贴定 理求其IFS码解码图各块对随机迭代定理重构各块第六页,共四十四页,2022年,8月28日第七页,共四十四页,2022年,8月28日小波变换在图像压缩中的应用小波(wavelet)是定义在有限间隔且平均值为0的函数。第八页,共四十四页,2022年,8月28日小波分析是把一个信号分解成由原始小波经过移位和缩放后的一些列小波,因此小波是小波变换的基础函数,即小波可用作表示一些函数的基函数。小波变换的基本思想是用一组小波或基函数表示一个函数或信号,例如图像信号。哈尔(Hear)小波基函数为例基本哈尔小波函数(Hearwaveletfunction)定义如下第九页,共四十四页,2022年,8月28日1,当0≤x<1/2Ψ(x)=-1,当1/2≤x<10,其他设有一幅分辨率只有4个像素的一维图像,对应像素值为:[9735]。用哈尔小波变换的过程是计算相邻像素对的平均值(averaging,亦可称之为近似值approximation),得到一幅分辨率为原图像1/2的新图像:[84]。这时图像信息已部分丢失。第十页,共四十四页,2022年,8月28日为了能从2个像素组成的图像重构出4个像素的原图像,必须把每个像素对的第一个像素值减这个像素的平均值作为图像的细节系数(detailcoefficient)保存。因此,原图像可用下面的两个平均值和两个细节系数表示:[841-1]。可以把第一步变换得到的图像进一步变换,原图像两级变换的过程如下表所示:第十一页,共四十四页,2022年,8月28日分辨率平均值细节系数4[9735]2[84][1-1]1[6][2]哈尔变换过程事实上是用求均值和差值的方法对函数或图像进行分解,对于f(x)=[9735],我们可作最多2层的分解。第十二页,共四十四页,2022年,8月28日对于2维图像,同样可以用依次对行列进行小波变换得到2维图像的分解。这时经过一次小波变换得到是2维图像的近似值(CA)以及水平(CH)、垂直(CV)和对角(CD)细节分量值。显然,从2维图像的CA、CH、CV和CD值可以重构出原来的2维图像。第十三页,共四十四页,2022年,8月28日由于小波及小波包技术可以将信号或图像分层次按小波基展开,所以可以根据图像信号的性质及事先给定的图像处理要求确定到底要展开到哪一级为止,从而不仅能有效地控制计算量,满足实时处理的需要,而且可以方便地实现渐进传输编码(即采取逐步浮现的方式传送多媒体图像)。利用小波变换具有放大、缩小和平移的数学显微镜的功能,可以方便地产生各种分辨率的图像,从而适应于不同分辨率的图像I/O设备和不同传输速率的通信系统。第十四页,共四十四页,2022年,8月28日利用小波变换能够比较精确地进行图像拼接,因此对较大的图像可以进行分块处理,然后再进行拼接。第十五页,共四十四页,2022年,8月28日小波变换-JPEG2000第十六页,共四十四页,2022年,8月28日MPEG-211999年,MPEG组织在墨尔本会议上提出了MPEG-21的概念。MPEG-21的最终目标是协调不同层次间的多媒体技术标准,建立一个交互式的多媒体框架,此框架能够支持各种不同的应用领域,允许不同用户使用和传递不同类型的数据,并且实现对知识产权的管理和数字媒体内容的保护。第十七页,共四十四页,2022年,8月28日MPEG-21中的几个基本概念用户(User):用户是一个广义的概念,可以是世界各地的个人、消费者、团体、组织、公司、政府以及其他标准化组织和主体。从技术上讲,MPEG-21认为内容的提供者和消费者同样都是MPEG-21的用户。用户可以各种方式“使用”内容,包括对内容进行发布、传递和消费等。第十八页,共四十四页,2022年,8月28日使用(Use):MPEG-21提供了一个多媒体框架供一个用户与另一用户进行以数字信息为目标相互作用。这里所指的相互作用即为对内容的“使用”,它包括内容创建、提供、存档、定级、增强、递送、聚集、传输、发表、零售、消费、提交、管制等。数字项(DigitalItem):MPEG-21的数字项是一个结构化的数字对象,是按标准进行表达、标记并带有描述性的数据。数字项是数字资源及其相关内容(包括图像、图形、动画、数据文件、音频、视频等)的集合。它是MPEG-21框架中传送和交易的最基本单元,是用户关联的目的。第十九页,共四十四页,2022年,8月28日MPEG-21多媒体框架MPEG标准第二十页,共四十四页,2022年,8月28日MPEG-21多媒体框架是一个结构化的框架,从结构上可分成以下要素数字项声明(Digital
Item
Declaration
):即一种对数字项进行声明的统一和灵活的提取和可互方案。内容展现手法(Content
Representation
):它是不同媒体的数据展现方式,如音频、视频的播放。数字项的标记和描述:这是对不同自然属性、类型和粒度的数字项进行统一标记和描述的结构。第二十一页,共四十四页,2022年,8月28日内容的管理和使用:它是为以下过程提供接口和协议,经内容传输和消费价值练创建、制作、存储和使用的内容。知识产权的管理和保护:可通过大范围的网络和设备对这些权利、兴趣和认定事项提供可靠的管理和保护,同时在某种程度上获得、编辑、发布相关的政策、法规、准则。终端和网络(Terminals
and
Networks
):
MPEG-21通过屏蔽网络和终端的安装、管理和实现问题,使用户能够透明地进行操作和发布高级多媒体内容。事件报告(Event
Reporting
):
它能使用户精确理解框架中所有可报告事件的接口和计量。事件报告将为用户提供特定交互的执行方法,同样允许大量超范围的处理,允许其他框架和模型与MPEG-21实现互操作。第二十二页,共四十四页,2022年,8月28日MPEG-21中用户交互作用时的“关键问题”(1)关于网络网络部分的问题有:a.网络传送:包括传送带宽和速度、网络的一致性和可靠性、数据流控制、延迟、差错率、存取时间、移动性、性能价格比以及连通性等问题。b.服务和设备的易用性:涉及到智能化、综合连接、设备兼容、鲁棒性、不同平台之间的互操作性、国际间兼容性、设备设计上对民族文化的冲击以及设备之间的分布式智能化等问题。第二十三页,共四十四页,2022年,8月28日c.物理媒体格式的互操作性:包括与内容无关的格式、后向兼容格式、媒体的寿命、不同平台的标准存储媒质以及媒质间的内容传输等。d.多平台的解码和绘制:在不同类型或不同参数的平台(设备)上回放并保证一定质量的内容,另外还包括保证不同编解码模式对用户的透明性等问题。第二十四页,共四十四页,2022年,8月28日(2)关于内容和质量内容和质量方面又包括:a.服务质量和灵活性:包括可靠性、质量检测、用户感知的质量、信息集成、评价、易用性、对用户需求的动态响应、点播、有效平滑的绘制、可预测性和连续性,以及服务的可接入性等问题。
b.内容表示的质量:包括权限和完整性、保真性和用户感知质量(智能质量)检测、价格的一致性、真实性、持续性和时效性等问题。
第二十五页,共四十四页,2022年,8月28日c.内容艺术性方面的质量:涉及品牌、来源、丰富性、评论、一致性等问题。d.内容的过滤、定位、检索和存储:包括一致的内容标记、描述和查询的反应时间、在内容选择上的个性化服务、搜索的完整性、有效性、可信性、内容真实性的认证、等级与分类、更新,以及对内容的组织管理等方面问题。第二十六页,共四十四页,2022年,8月28日(3)关于消费者消费者方面的问题包括:
a.付费/订购:包括免费服务、以收听广告或给出个人数据的免费服务、收费的奖赏模型、租借、分类付费、奖赏的复制件、点播、每项服务的签署、简单明了的收费模型、支付的验证等等。
b.消费者信息发布:包括内容的保护和管理、自创内容的可存取性、版权购买等。
c.消费者使用权限:包括对内容的拥有、使用、复制、编辑等权限的管理等。第二十七页,共四十四页,2022年,8月28日MPEG-21和电子商务之间可以看成是基础与应用的关系,电子商务是MPEG-21的巨大应用领域。第二十八页,共四十四页,2022年,8月28日光学字符识别OCR(OpticalCharacterRecognition)是指电子设备(例如扫描仪或阅读器)检查纸上打印的字符,通过检测按、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。与传统的手工录入方式相比,OCR技术大大提高人们资料储存、检索、加工的效率。目前,在文通信息厂商的推动下,该技术已经广泛应用在金融、保险、报业、税务、工商等行业。第二十九页,共四十四页,2022年,8月28日OCR识别系统的工作流程影像输入:欲经OCR处理的档案必须透过光学仪器,如影像扫描仪、传真机或任何设想器材,将影像转入计算机。影像前处理:影像前处理是OCR系统中,须解决问题最多的一个模块。包含了影像正规化、去除噪声、影像矫正等的影像处理,及图文分析、文字行与字分离的文件前处理。第三十页,共四十四页,2022年,8月28日第三十一页,共四十四页,2022年,8月28日文字特征抽取:单以识别率而言,特征抽取可说是OCR的核心。特征简单的区分可分为两类:一为统计的特征,如文字区域内的黑/白点数比,当文字区分成好几个区域时,这一个个区域黑/白点数比之联合,就成了空间的一个数值向量,在比对时,基本的数学理论就足以应付了。而另一类特征为结构的特征,如文字影像细线化后,取得字的笔划端点、交叉点之数量及位置,或以笔划段为特征,配合特殊的比对方法,进行比对,市面上的线上手写输入软件的识别方法多以此种结构的方法为主。第三十二页,共四十四页,2022年,8月28日对比数据库:当输入文字运算完特征后,不管是用统计或结构的特征,都须有一比对数据库或特征数据库来进行比对,数据库的内容应包含所有欲识别的字集文字,根据与输入文字一样的特征抽取方法所得的特征群组。对比识别:根据不同的特征特性,选用不同的数字距离函数,利用各种特征比对方法的相异互补性,识别出结果。第三十三页,共四十四页,2022年,8月28日字词后处理:由于OCR的识别率并无法达到百分之百,或想加强比对的正确性及信心值,一些除错或甚至帮忙更正的功能,也成为OCR系统中必要的一个模块。字词后处理就是一例,利用比对后的识别文字与其可能的相似候选字群中,根据前后的识别文字找出最合乎逻辑的词,做更正的功能。第三十四页,共四十四页,2022年,8月28日人工校正:OCR最后的关卡,在此之前,使用者可能只是拿支鼠标,跟着软件设计的节奏操作或仅是观看,而在此有可能须特别花使用者的精神及时间,去更正甚至找寻可能是OCR出错的地方。结果输出:输出需要的档案格式。第三十五页,共四十四页,2022年,8月28日汉字OCR的基本方法像素统计法:采用统计黑白像素几何分布特征方法识别。结构分析法:提取字体比划结构作为特征进行汉字识别。智能识别法:模拟人脑的智能识别机理。第三十六页,共四十四页,2022年,8月28日语音识别语音识别是将人发出的声音、字或短语转换成文字、符号,或给出响应,如执行控制,做出答案。语音识别系统的分类可按识别的词汇量多少,语音识别系统可分为小、中、大词汇量三种能识别词汇小于100的,称为小词表语音识别。大于100的称为中间词表语音识别大于1000的称为大词表语音识别第三十七页,共四十四页,2022年,8月28日对说话人的声文进行识别称之为说话人识别。这是研究如何根据语音来识别说话人的身份、确定说话人的姓名。第三十八页,共四十四页,2022年,8月28日按照语音的输入方式,语音识别的研究集中于对孤立词、连接词和连接语音的识别。词表中的每个条目,无论是单音节还是短语,发音时都是以条目为单位的,条目间有明显的停顿,而条目内的音节要求连续,这就是孤立词语音识别,如识别0~9十个数字、人民、地名、控制。命令、英语单词、汉字音节或短语。对连呼词表中的几个条目,识别时进行切分,最后给出连呼词的识别结果,这种识别需要用到词与词之间的联接信息,所以称为连接词识别。如连呼数字串的识别。第三十九页,共四十四页,2022年,8月28日自然语言的特点是使用连续自然的语音。语音识别的目标是让计算机能够理解自然语言,这是语音识别中最困难的课题,如听写机、翻译机。智能计算机中人机语音对话都需要连续语音识别。第四十页,共四十四页,2022年,8月28日按发音人可分为特定人、限定人和非特定人语音识别三种对于特定人进行语音识别的系统,使用前需由特定人对系统进行训练。具体
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 心脏手术后多器官功能障碍综合征的护理要点
- 伤寒的护理前沿技术
- 黑磷基钠离子电池负极材料的制备及性能研究
- 几类阻尼振动系统周期解的存在性与多重性研究
- 直接还原钼精矿制备钼、碳化钼及硅化钼相关基础研究
- 轻罪治理背景下程序出罪机制研究
- 小学新版-牛津译林版Unit 5 Seasons教案
- 铂基多元纳米合金的可控制备、物性调控及场效应研究
- 互联网护理与医疗人才培养
- 2026年人体解剖生理学强化训练模考卷(考点提分)附答案详解
- 网络意识形态安全培训课件
- 行政人事部部门流程
- 国家安全生产十五五规划
- 热光伏转换材料创新研究
- 厂区防火用电安全培训课件
- 电解铝生产过程自动化控制方案
- 2025-2026学年人教版五年级语文上册期中考试卷(附答案)
- 客户指定物料管理办法
- CJ/T 119-2000反渗透水处量设备
- 口腔门诊放射管理制度
- DLT 5035-2016 发电厂供暖通风与空气调节设计规范
评论
0/150
提交评论