基于游程编码数据压缩算法设计与实现_第1页
基于游程编码数据压缩算法设计与实现_第2页
基于游程编码数据压缩算法设计与实现_第3页
基于游程编码数据压缩算法设计与实现_第4页
基于游程编码数据压缩算法设计与实现_第5页
已阅读5页,还剩76页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

绪论20本科毕业设计(论文)基于游程编码数据压缩算法的设计与实现2013年6月 本科毕业设计(论文)基于游程编码数据压缩算法的设计与实现 燕山大学毕业设计(论文)任务书学院:里仁学院系级教学单位:学号学生姓名专业班级题目题目名称基于游程编码数据压缩算法的设计与实现题目性质1.理工类:工程设计(√);工程技术实验研究型();理论研究型();计算机软件型();综合型()2.文管理类();3.外语类();4.艺术类()题目类型1.毕业设计(√)2.论文()题目来源科研课题()生产实际()自选题目(√)主要内容是基于游程编码数据压缩算法的设计与实现基本要求用c语言完成游程编码,完成哈夫曼编码;并画出流程图和结果图,得出相应结论。参考资料彭喜元,俞洋.基于变游程编码的测试数据压缩算法.电子学报.2007.8王增辉,雷加.一种变游程编码的测试数据压缩方法.理论与方法.2009.5商进,张礼勇.一种双游程编码的测试数据压缩方案.哈尔滨理工大学学报.2010.8周次第1~4周第5~8周第9~13周第14~15周第16~17周应完成的内容熟悉课题,查阅、搜集相关资料,并完成开题报告学习游程编码、哈夫曼编码方法,以及进一步学习c语言编码编写c语言程序实现对数据的游程压缩进一步完善程序,并开始撰写毕业论文总结毕设,完成论文,准备答辩指导教师:职称:教授2013年2月4日系级教学单位审批:年月日附录4燕山大学本科毕业设计(论文)外文翻译课题名称:基于游程编码数据压缩算法设计与实现年级专业:09通信工程学生姓名:李悦指导教师:许成谦完成日期:2013年3月20日译文:RLH:位图压缩技术基于游程长度和Huffman编码的原始研究文章关键词:位图索引位图压缩霍夫曼编码运行长度编码摘要在本文中,我们提出了一个应用在压缩位图索引技术数据仓库。这种技术被称为运行长霍夫曼(RLH),是基于运行长度编码和Huffman编码。此外,我们提出了一个变种的RLH叫RLH-N。RLH-N的N位字压缩位图被分成RLH。RLH和实施RLH-N和实验比较良好的字对齐混合(WAH)位图压缩技术,一直据报道,提供最短的查询执行时间。实验中讨论本文表明:(1),RLH压缩位图小于相应议员压缩的位图,而不管该索引的属性的基数,(2)RLH-N压缩位图是小于相应的华压缩位图一定范围内的基数,该索引的属性,(3)RLH和RLH-N-压缩位图,提供更短的查询响应时间比华压缩位图,对于某些索引属性的基数范围,以及(4)RLH-N确保更短的更新时间的压缩比RLH位图。1介绍数据仓库(DW)是一个庞大的数据库,集成来自多个存储系统的数据企业内的。通过这些数据的分析所谓的联机分析处理(OLAP)应用,系统蒸发散,基于复杂的查询。OLAP查询加盟多级表和过滤数据的事实表查询谓词的手段。通常情况下,分析数据存储在事实数据表中,通过国外的参考尺寸钥匙。其结果是,有许多事实记录具有相同值的给定的外键。位图索引[14,17]的基本数据之一衍生权证查询优化结构。基本上,在最简单的形式中,位图索引所谓的位图组成的,其中每一个是一个位向量(见第2部分)。每个位被映射到一个排在索引表。如果一个位的值等于1,则然后此位对应的行具有一定的索引属性值。查询谓词涉及的属性可以通过位图索引索引通过执行按位AND,OR,或不快速回答位图上的操作,这是一个很大的优势,位图索引。一个位图索引的大小在很大程度上依赖于的基数(域宽)索引属性,即,一个位图索引的大小增加时的基数索引的属性增加。因此,属性高基数(宽域)成为位图索引非常大。因此,他们无法适应主存储器和访问数据的效率与支持等指标恶化。1.1相关工作为了提高数据访问的效率支持位图索引定义属性高基数,以下两种方法在研究文献中已被提出,即:(1)扩展的基本的位图索引的结构(2)位图索引的压缩技术。在第一种方法中,两种主要的技术,一般所谓的分级,以及位切片,可以区分的。索引属性的值是被分割成范围。位图的构建代表一个给定的范围内的值,而不是一个独特的值。一个位图中的位表示的值是否一个给定的属性的一排是在一个特定的范围之内。这技术也可以应用于一个索引值时属性被分成套。在文献[12]中提出的技术可以被归类为分级更一般的形式。[12]套属性值代表一起在一个位图索引。这样的技术减少存储空间的高属性基数。选择的属性值表示的这种索引是基于查询模式频率上的分布,以及属性值。在[5]中,提出了另一种形式的分箱。这技术,称为属性映射,专注于管理箱分配到所有的索引属性的总数。一属性映射定义每个属性的属性,如使用该属性的查询的集合,分配值的属性或属性的编码值。的属性被表示为位向量。一个查询处理器需要扩展,以便使用属性映射。物业地图支持多属性查询,不平等查询或高选择性查询,它们更小于位图索引。第二种方法是基于所谓的位切片指数[4,17,37]。的有序列表,它被定义每一个索引值属性上的相同数量的n个比特来表示。作为一个因此,编码值表中的格式为n位图。该位图被称为位片。数据检索和计算重刑支持的位分片索引算术metic[20]或通过一个专用的检索功能[37]。另外,映射的数据结构所需的编码值映射到他们的真实值[37]。在第二种方法中,以提高工作效率位图索引的高基数上定义的属性,使用不同的位图的压缩技术。二在主无损耗的技术可以区分,即字节对齐的位图压缩锡永(BBC)[2]和字对齐混合(WAH)[26,33-35]。英国广播公司(BBC)和华是基于所谓的运行长度编码。基本上,在这种编码中,连续的向量。位相同的位值(无论是''0''或''1'')的一个实例的值(例如,''1''),表示为计数的值。BBC英国广播公司(BBC)和华的基本区别是位图划分成8位字,而华分位图到31位的话。更详细的描述华第2.2节中给出。英国广播公司(BBC)和华提供最好的压缩比位图描述行有序索引属性的值。否则,压缩比为恶化。对于密集均匀分布分布式数据位的值“1”是密集的,但他们分离与比特值“0”,因此,它可能是很难找到连续位向量的值''0''或''1''长度为n的有8位,为英国广播公司(BBC)和N个31位华。然而,另一种技术,称为近似编码(AE),用于压缩位图索引,提出了在[3]。AE提供近似查询结果。假命中保证不会发生,即,满足查询的所有行谓词纳入查询结果。此外,本误报(即准确性,行不满足有时包含在查询查询谓词结果集)的范围从90%到100%。AE是基于Bloom过滤器。在AE,设置位图被视为一个布尔值矩阵。的矩阵表示中以压缩格式所谓的近似位图(AB)。为了压缩的布尔矩阵,它的编码分为AB多个哈希函数,基于布鲁姆过滤器。对于每一个向量在矩阵位,散列字符串HS是作为一个行号的功能构造和矩阵中的列数。接下来,K独立的哈希功能应用了HS。所指出的位置哈希值被设置为''1''AB。在[11,18],重新排序的列或行讨论矩阵可以提高集群的相关细胞。这样技术也可以适用于位图索引被看作是矩阵。主要的想法是重新排列位图矩阵,以获得更好的聚类''0''和''1''细胞,然后压缩矩阵。由于采用了重新排序时,压缩比可以得到改善。不幸的是,在重组问题是NP-hard的[11]位图索引,实施了重大市售CIAL数据库管理系统中,可以是明确由用户定义的,例如,甲骨文,SybaseIQ中,模型204,可以隐式地由系统使用,例如,MSSQL服务器,IBMDB2。高级研究实现位图索引表示由FastBit[24,15,19]RIDBit[15]。FastBit实现基本的位图索引,分级,华位图压缩技术。在RIDBit,密集位图存储在B-树的叶子。位图替换的行ID,原本存储在B树叶子。稀疏将自动转换成位图行ID。另一个研究领域相关的位图索引COM的是文本PRESSION压缩和倒排文件压缩锡永在文本数据库。几个压缩技术压缩文本已经提出,例如,[1,8,6]他们要么是基于哈夫曼编码[10]或谢夫的Lempel编码[38]。几项技术也提出了用于压缩倒排文件,例如,[7,13,23,29,30,39]。在[13,39]的作者提出了一种倒排索引列表中出现的压缩技术项t为代表的数据文件中块差距(整数),而不是块编号。差距进一步由埃利亚斯编码克编码[7]。埃利亚斯克编码正整数x由一个一元部分和二进制的一部分。一元部分指定的比特数必须代表X,而二进制码X位。编码延伸埃利亚斯-克编码。在编码的x,一元部分被替换为克代码。寿等人[23]的报告性能测试的压缩唱倒名单(偏移,文件的不同元素号),不同的编码技术(埃利亚斯克和编码[7]以及哥伦布编码[9])。Vo和莫法特[29]提出了一种压缩技术,倒列表是基于一元编码[31]。它是用于压缩文件号码。[30]比较不同的方法来压缩整数,包括埃利亚斯克和编码,哥伦布编码,和可变字节整数编码。开发的压缩技术的倒立文件,压缩整数,可能代表增量(不同分配办法)之间的值的序列。在RLH和RLHN压榨技术,我们提出,距离位之间的值“1”对应这样的增量。然而,RLH和RLH-N编码这些三角洲哈夫曼编码,而不是通过克或编码。比较RLH,RLH-N,和华就CPU时间和I/O处理时间;这些字符ISTICS测定:(1)行无序,部分有序,并下令由一个索引值属性,(2)索引的属性不同的枢机主教伊蒂埃斯(多达20,000个不同的值),和(3)的数据集由100,000,000股行;相对于比较RLH-N和RLH效率压缩位图的修改。本文的结构如下。第2部分介绍了基本本文中使用的定义和概念。第3节提出RLH和RLH-N压缩技术。第4节讨论的实验结果RLH的,RLH-N和华的评价。最后,第5节总结,并得出结论的文件。1.2造纸重点,贡献和轮廓在本文中,我们提出了一个替代的位图压缩技术,提供精确的编码:(1)良好的查询响应时间和(2)的尺寸小压缩的位图。位图压缩技术我们开发被称为运行长度霍夫曼(RLH),的。同样,在英国广播公司(BBC)和华,建议技术基于游程长度编码。然而,它不同于英国广播公司(BBC)和华就以下。首先,RLH计数位的值之间的距离''1'',而不是相同的值的连续位的长度。该距离成为接下来编码的符号哈夫曼编码技术[10]。其次,RLH确实将位图转换为字提高了一个位图的压缩比。为了更好地支持位图更新中,我们提出的一个变种的RLH压缩的技术,称为RLH-N。RLH-N一个位图压缩被分成N比特的长度的话,则每个N位的字被压缩RLH。RLH和RLH-N压缩技术实施和华实验比较。作为一个参考我们选择华,因为压缩位图华提供更好的查询响应时间比位图压缩与BBC[26,32]。本文扩展了我们以前的工作[25]就到:RLH-N的压缩技术的发展接受字的长度等于256,512,1024,2048位;比较RLH,RLH-N,和华就CPU时间和I/O处理时间;这些字符ISTICS测定:(1)行无序,部分有序,并下令由一个索引值属性,(2)索引的属性不同的枢机主教伊蒂埃斯(多达20,000个不同的值),和(3)的数据集由100,000,000股行;相对于比较RLH-N和RLH效率压缩位图的修改。本文的结构如下。第2部分介绍了基本本文中使用的定义和概念。第3节提出RLH和RLH-N压缩技术。第4节讨论的实验结果RLH的,RLH-N和华的评价。最后,第5节总结,并得出结论的文件。2基本定义2.1位图索引位图索引是基于所谓的位图。一位图是一个位向量。从域的每一个值索引的属性相关已自己的位图。该每个位图中的位的数目的数目等于行存储了表T中。创建一个位图值v索引属性,A介绍了这些在T的行A值是v。在该位图中,位编号n设置为“1”,如果A的第n行的价值等于V。否则位设置为0。位图索引的概念说明一个例子。让我们考虑表的客户和创建位图索引其性别属性,如图所示。1。由于域索引的属性只包含两个不同的价值观,指数是由两个位图。例如,第一位图描述值'女'位设置为0,因为的属性性的第一行中的值是不是一个女性2.2华BBC压缩如前所述,华和BBC压缩SION技术都是基于运行长度编码。该运行长度编码的基本思想包括编码连续的比特具有相同的值的向量(无论是''0''或''1'')为:(1)中的所有位共同的价值矢量(即,无论是“0”由零组成的一个矢量或''1''的向量组成的)和(2)的长度矢量(即,具有相同值的位的数量)在编码之前,位图被分成词。接着,词语被分组为所谓的运行。运行组成的话,可以是填充或尾巴。填充代表一系列的比特组成的字相同的值。字表示序列的尾部两个“0”和“1”比特组成。填充被压缩因为他们同质化的内容,而尾巴没有。英国广播公司(BBC)和华之间的主要区别是:英国广播公司(BBC)划分成8位字位向量,而华将其划分为31位字。此外,英国广播公司(BBC)使用四个不同类型的运行时,根据填充的长度和结构的尾巴。议员只使用一个不同的运行。说明的WAH压缩的总体思路一个例子。为了简单起见,让我们假设使用一个32位的处理器。位图的COM-压制是由5456位组成的,如图中所示。2一[26]。华压缩的位图被执行三个下面的步骤。在第一步骤中,位图被分为若干组由31位组成的,如图中所示。2湾在该示例中176创建组。在第二步骤中,相邻的被合并成一个组含有相同位基,如图中所示。2。由于第1组是异类,即,它是由“0”和“1”的位,它是不被合并与一组。组2-175是同质(''0''位组成),他们合并成一个大基,中图表示。2c为2-175组。本组包括174了31位。最后一组176,类似于第1组,是异质的,它不能被与合并前组。作为结果合并组,三最终组被创建,如图中所示。2三。在第三步骤中,被编码的最后三个组如下所示(参见图2中的32-bit字D)。第一组代表在第一次运行的尾部。的最重要的位(最左边)有值“0”表示一个尾巴。31下一页位1组的原始位。第二组(A组2-175)表示第二次运行的填充。的最显着位(位置31)被设置为“1”表示填充。在位置2的位30设置为''0''表示所有位原组2-175值“0”,即填充用于压缩组的所有位具有价值''0''。该其余的30位被用于编码数字同质群体充满''0''在这个例子中,有174组。均质的数量组所表示的二进制值等于000000000000000000000010101110,存储上在其余30位。最后31位,记为176组,代表第二次运行的尾巴。的最在这组有显着位值“0”表示一个尾巴。其余31位是原组176位。2.3霍夫曼编码在霍夫曼编码[10],原始符号从压缩的文件被替换的位串。更多一个给定的符号经常出现在压缩文件用于表示符号的较短的比特串。编码后的符号和它们的相应的位串表示为所谓哈夫曼树。哈夫曼树用于压缩和解压。霍夫曼编码算法,用一个例子说明。3.RLH压缩RLH技术中提出的压缩位图本文是根据游程长度编码和Huffman编码。有两个特点RLH区别于其竞争对手(英国广播公司(BBC)和WAH)。首先,RLH计数的价值位之间的距离“1”,而比位向量的长度相同的值,这是类似于增量编码。其次,RLH不划分位图转换为字,即整个位图被压缩。两位值''1''之间的距离代表数位值“0”这两个位之间。为在RLH,例如,位载体000011110100编码以下的数字序列:400012。我们假设的开始和结束的位向量被解释为位值“1”这种假设没有任何影响的RLH压缩技术的概念。代码400012应解释如下。第一明确''1''中的编码比特矢量000011110100处于隐式地从“1”(位)的四个位置的距离开始的矢量在最左边的位置,第二个“1”是在距离为0位,距离最近的''1''的左侧;第三''1''是在距离为0的位,从最近的“1”到左边,等这样的解决方案可以保证,当密度减小,则位图使用的符号的数编码位图降低过。运行长度编码用距离将进一步被称为游程长度编码。修改后的运行长度编码所编码的位图接下来Huffman编码压缩。的输入值霍夫曼编码算法的频率所有所有编码位值“1”之间的距离位图。一个常见的哈夫曼树建频率,它是进一步用于编码的距离。哈夫曼树的大小影响的性能位图的压缩和解压。从每形成的实验事实证明,霍夫曼的大小树是小。例如,对于一个测试表,存储100,000,000行和索引的基数属性等于20000,哈夫曼树的范围的大小;从71到92KB的值的分布,这取决于索引的属性。出于这个原因,哈夫曼树很容易地存储在主存储器中,大大提高了位图的压缩与解压缩效率。解压缩位图的过程中,解压缩的位图的压缩RLH是一个标准,即,它使用霍夫曼树,这是保持在主存储器中。为了解压缩压缩的位图的位图,后续位读取的解压缩算法。是用该位哈夫曼树,其根叶中的导航。从一片树叶读出的符号(距离)取代了霍夫曼编码所代表的导航路径根叶。当整个位图被分解按下时,即,它是在序列的距离的一种形式位之间的值“1”,那么距离转换到原来的位串,结束减压的程序。RLH压缩解压缩位图需要更大的操作数比的情况下,华英国广播公司。尽管这样,它的表现是好的,因为霍夫曼树被存储在主存储器。更新位图RLH压缩并发比更新压缩的位图华和BBC。华,压缩位图可以是无需解压整个位图修改。在为了压缩的与RLH一个有修改位图为:(1)解压缩的整个位图,(2)修改位图,以及(3)再次压缩的位图。所有三个操作是必需的,因为更新位图的变化在修改后的运行长度的距离的频率编码。如果老哈夫曼树,然后可以得到位图压缩非最佳。ADDI-倚重,新的距离(不存在的一个老霍夫曼树)可能会出现的结果位图的更新。这些类型的问题的研究中已知的文学。它们部分地解决了通过动态霍夫曼算法[28]。不幸的是,这些算法计算太复杂,适用于衍生权证。RLH的压缩技术将是合适的索引结构的衍生权证加载之前被丢弃DW,从头开始重新构建的结尾数据加载过程。对于这样的衍生权证,上述限制的RLH压缩技术是减重要的。将创建位图索引和com每加载一个DW压后,从头开始。然而,为了支持修改RLH压缩位图索引中的应用衍生权证不从头开始重建索引和其他应用中,我们提出了修改RLH压缩技术,称为RLH-N。参考文献[1]LuZ,KimDY,PearlmanWA.WaveletcompressionofECGsignalsbythesetpartitioninginhierarchicaltreesalgorithm.IEEETransactionsonBiomedicalEngineering2000;47(7):849–56.[2]ChoiY,KrauseJ,SeoH,CapitanK,ChungK.TelemedicineintheUSA:standardizationthroughinformationmanagementandtechnicalapplications.IEEECommunicationsMagazine2006;44(4):41–8.[3]Gonc?alvesB,FilhoJGP,Andre鉶RV,GuizzardiG.ECGdataprovisioningfortelehomecaremonitoring.In:Proceedingsofthe2008ACMsymposiumonappliedcomputing.2008.p.1374–9.[4]PhysioBank–Physiologicsignalarchivesforbiomedicalresearch;/physiobank.[5]GoldbergerAL,AmaralLAN,GlassL,HausdorffJM,IvanovPC,MarkRG,etal.PhysioBank,PhysioToolkit,andPhysioNet:componentsofanewresearchresourceforcomplexphysiologicsignals.Circulation2000;101(23):215–20.[6]HuffmanDA.Amethodfortheconstructionofminimum-redundancycodes.ProceedingsoftheInstituteofRadioEngineers1952;40(9):1098–101.[7]ZivJ,LempelA.Auniversalalgorithmforsequentialdatacompression.IEEETransactionsonInformationTheory1977;23(3):337–43.[8]WelchTA.Atechniqueforhigh-performancedatacompression.Computer1984;17(6):8–19.[9]GolombSW.Run-lengthencoding.IEEETransactionsonInformationTheory1966;12(3):399–401.[10]SayoodK.Introductiontodatacompression.3rdEditionSanFrancisco:MorganKaufmann;2006.[11]JalaleddineSMS,HutchensCG,StrattanRD,CoberlyWA.ECGdatacompressiontechniques—aunifiedapproach.IEEETransactionsonBiomedicalEngineering1990;37(4):329–43.[12]CoxJR,NolleFM,FozzardHA,OliverGC.AZTEC,apreprocessingprogramforreal-timeECGrhythmanalysis.IEEETransactionsonBiomedicalEngineering1968;15(2):128–9.[13]AbensteinJP,TompkinsWJ.Anewdata-reductionalgorithmforreal-timeECGanalysis.IEEETransactionsonBiomedicalEngineering1982;29(1):43–8.[14]IshijimaM,ShinS-B,HostetterGH,SklanskyJ.Scan-alongpolygonalapproximationfordatacompressionofelectrocardiograms.IEEETransactionsonBiomedicalEngineering1983;30(11):723–9.[15]RajoubBA.AnefficientcodingalgorithmforthecompressionofECGsignalsusingthewavelettransform.IEEETransactionsonBiomedicalEngineering2002;49(4):355–62.[16]BenzidR,MarirF,BoughechalN-E.Electrocardiogramcompressionmethodbasedontheadaptivewaveletcoefficientsquantizationcombinedtoamodifiedtwo-roleencoder.IEEESignalProcessingLetters2007;14(6):373–6.[17]BilginA,MarcellinMW,AltbachMI.CompressionofelectrocardiogramsignalsusingJPEG2000.IEEETransactionsonConsumerElectronics2003;49(4):833–40.[18]ShapiroJM.Embeddedimagecodingusingzerotreesofwaveletcoefficients.IEEETransactionsonSignalProcessing1993;41(12):3445–62.[19]SkodrasA,ChristopoulosC,EbrahimiT.TheJPEG2000stillimagecompressionstandard.IEEESignalProcessingMagazine2001;18(5):36–58.[20]SalomonD.Datacompression–thecompletereference.4thEditionLondon:Springer;2007.[21]AlshamaliA,Al-FahoumAS.Commentson“anefficientcodingalgorithmforthecompressionofECGsignalsusingthewavelettransform”.IEEETransactionsonBiomedicalEngineering2003;50(8):1034–7.英文原文AnAdaptiveRunLengthEncodingmethodforthecompressionofElectrocardiogramsCristianoM.Agulhari∗,IvanilS.Bonatti,PedroL.D.PeresSchoolofElectricalandComputerEngineering,UniversityofCampinas–Unicamp,13083-852,Campinas,SP,BrazilabstractAcompressionmethod,basedonthechoiceofawaveletthatminimizesthedistortionofcompressionforeachelectrocardiogramconsidered,isproposedinthispaper.Thescalingfilterusedonthedeterminationofthewaveletfunctionisobtainedfromtheresolutionofanoptimizationproblem,whichisunconstrainedsincethescalingfilterisparametrizedinawaythattheconstraintsappliedtothescalingfilterareembeddedontheparameters.Thecoefficientsofprojectionofthesignaloverthewaveletsubspacesarecalculatedandonlythemostsignificantonesareretained,beingthesignificantcoefficientsdeterminedinordertosatisfyapre-specifieddistortionmeasure.ThebitmapthatinformsthepositionsoftheretainedcoefficientsisencodedalongwiththevaluesofthecoefficientsbyusinganimprovedversionoftheRunLengthEncodingtechnique.Experimentsthatcomparetheproposedapproachwithothertechniquesillustratetheefficiencyofthemethod.1.IntroductionMultichannelelectrocardiogram(ECG)signalsprovidethecardiologistswithessentialinformationstodiagnoseheartdiseasesinapatient.Theelectrocardiogramsareobtainedbyasetofelectrodesplacedoverthebodyofthepatient,beingthenumberandthepositionsofelectrodesdeterminedbythetypeofthemedicalexaminationperformedand,dependingonthedurationoftheexamination,alargevolumeofECGsignalsisobtained[1].TheHoltermonitoringsystem,forexample,consistsofobtainingcardiacsignalsover24h,usingfrom5to7electrodes.Consequently,thestorageofsuchsignalsisanimportantsubjectontheimplementationofelectrocardiogramacquisitionsystems.Anotherimportantissueforelectrocardiogramsystemsisthetransmissionoftheobtainedsignals,whichisbecomingmorecrucialwiththegrowingadvanceofthetelemedicine[2,3].Therefore,anefficientschemeofdatacompressionfortheECGsisakeycomponentbothforcommunicationsystemsandfordatastorage.Asamatteroffact,thereexistsnowadaysagreatavailabilityofphysiologicaldatabases,likethearchivesfromPhysioBank[4,5],andseveralECGcompressionmethodshavebeendeveloped.Thecompressionmethodscanbedividedintotwocategories:thelosslessandthelossymethods.Inthelosslesscompressionmethodstherecoveredsignalmustbeidenticaltotheoriginaloneandareusedtocompressdatawhosereliabilityisakeycomponent,forexampleinthecompressionoftextsandbinaryexecutablefiles.Losslessmethodscanalsobeusedalongwithlossymethodsinordertoimprovetheperformanceofthecompression.ThemostknownlosslessmethodsaretheHuffman[6],theLempel–Ziv–Welch(LZW)[7,8]andtheRunLengthEncoding(RLE)methods[9].TheHuffmanmethodconsistsofconstructingadictionarythatmatchestheoriginalsymbolstoasetofcodewords,inawaythatthelengthofeachcodewordisinverselyproportionaltothefrequencyofoccurrenceoftherespectivesymbolintheinputdata.Thecompressedfilecontainsboththedictionaryandthecodewordsthatreplacethesymbols.IntheLZWtechniquethedictionaryisconstructeddynamicallyastheinputdataisanalyzed,inawaythatthedictionarycanbefullyreconstructedbythedecoderwithoutstoringitinthecompressedfile.TheRLEtechniquedoesnotuseanydictionaryandconsistsofoutputtingthelengthsofthesequenceswithconsecutiverepetitionsofasymbolintheinput,beingmostlyusedtocompressbinarysequences.Thelossycompressionmethods,ontheotherhand,involvesomelossofinformationandthedatausuallyisnotrecoveredorreconstructedexactly[10].Inreturnforacceptingsuchdistortion,thecompressionratioobtainedistypicallymuchhigherthanthecompressionratioobtainedusinglosslesstechniques.Therefore,boththecompressionratioandthedistortionmeasurearetypicallyusedasmetricstoevaluatetheperformanceofthelossytechniques,beingthedistortionmeasureusedalsotocontrolthequalityoftherecoveredsignal.Examplesofsignalsthatcanbecompressedusinglossytechniquesareimages,speechandbiomedicalsignals.Lossycompressionschemesfallintooneoftwocategories:directandtransformschemes.Inthedirectschemesthesamplesofthesignalareprocessedandanalyzedinordertoeliminateredundanciesandcompressthesignal[11–14].Thetransformschemesconvertthesignaltoanotherrepresentationmoresuitabletodetectandremovetheredundancies.Amongthetransformschemes,thewavelettransformhasbeenextensivelyusedbecauseofitspropertiesofgoodlocationintimeandfrequencydomains,beingadoptedonseveralECGcompressionmethodswithgoodresults[1,11,15–17].Inref.[1],Luetal.presentedthemethodknownasSetPartitioninginHierarchicalTrees(SPIHT),whichisbasedontheEmbeddedZerotreeWavelet(EZW)coder,introducedbyShapiro[18].IntheEZW,thepositionsofthesignificantwaveletcoefficientsareencodedalongwiththevaluesofthecoefficients.Theencodingmethodtakesadvantageofthesubbanddecompositionpresentonthewavelettransformsandpossiblyrepresentsthepositionsofagreatnumberofinsignificantcoefficientsbyusingafewbits.TheSPIHTalgorithmisageneralizationoftheEZWalgorithm,whosemaindifferenceisthepartitioningofthecoefficientsinamannerthatinsignificantcoefficientstendtobekepttogetherinlargersubsets[10].AnotherimportantfeatureontheSPIHTtechniqueisthatthetransmissionorstorageoftheencodedstringofbitscanbeinterruptedatanymomentwithoutcompromisingthecompression.TheSPIHTmethodisconsideredastate-of-artmethod,beingusedinseveralworkstoimprovetheproposedapproachesandforcomparisonofperformanceswithothercompressiontechniques.Rajoub[15]proposedanelectrocardiogramcompressionmethodbasedonthewavelettransformthatpresentssatisfactoryresults.Inthemethod,thesignalisfirstpre-processedinordertoremovethemeanvalueandtoinsertzerosonthebordersofthesignal.Thewavelettransformisthenappliedonthesignalandthecoefficientswithabsolutevalueshigherthanathresholdareretained.Thethresholdvalueisobtainedfromtheanalysisoftheenergyofthewaveletcoefficients.Theretainedcoefficientsarethenquantizedandthepositionmap,whichisabitmapthatinformsthepositionsoftheretainedcoefficients,isencodedusingamodifiedversionoftheRLEmethod.Inref.[16],Benzidetal.presentedanECGcompressionmethod,alsobasedonthewavelettransform,whosemainfeatureisonthechoiceofthesignificantcoefficientsbyabisectionalgorithmandontheencodingofthepositionmap,whichisavariationoftheRLEmethodnamedTwo-RoleEncoder(TRE).TheTREencodingmethodconsistsofoutputtingabit1andthevalueofthecorrespondingcoefficientifthecoefficientissignificant,andoutputtingabit0andthelengthofthesequenceofinsignificantcoefficientsifthecurrentcoefficientisinsignificant.Themethodpresentedinref.[17]consistsoftheapplicationoftheJPEG2000encoder[19]tocompressanelectrocardiogram.SincetheJPEG2000isatechniqueusedtocompressimages,theECGmustfirstbeconvertedtoabidimensionalrepresentation.ThisisdonebydetectingthebeatpulsesoftheECG,normalizingthenumberofsamplesofthepulsesanddisposingthemintoamatrix.IntheJPEG2000technique,theimageispartitionedintorectangular,nonoverlappingregionscalledtiles,thatarecompressedindividually[20].Foreachtile,oneappliesthewavelettransform,quantizesandencodestheresultingcoefficientsinawaythatthegeneratedbitstreampresentssomeusefulpropertieslikepreciseratecontrolandprogressivequality.Inthecompressionmethodsbasedontransformsonlythecoefficientsthatcontainthegreaterpartoftheenergyofthesignalarestored.Therefore,abettercompressionisachievediftheentireenergyofthesignalcanbeconcentratedintoafewtransformcoefficients.Oneoftheadvantagesonusingthewavelettransformincompressionisthatitispossibletocalculateawaveletfunctionthatallowstheconcentrationoftheenergyonafewcoefficientsamongotherusefulfeatures.However,thecompressionmethodsanalyzeddonottakeadvantageofthischaracteristicanduseafixedwaveletfunctionforallthesignalsanalyzed.Thecompressionmethodproposedinthispaper,namedAdaptiveRunLengthEncoding(ARLE),isbasedonfindingthewaveletfunctionthatbettercompressthesignalthroughanoptimizationprocedure.Oneofthemaincontributionsofthepresentpaperistheformulationoftheoptimizationproblemwithnoconstraints,whichgreatlyfacilitatesthenon-convexsearchprocedure.Thedecompositioncoefficients,consideringtheobtainedwaveletfunction,arecalculatedandonlythemostsignificantonesareretained,quantizedandencoded.Otherimportantcontributionsofthepaperareontheadaptivequantizationprocedure,inwhichthecoefficientsofeachsubspacearequantizedusingadifferentnumberofbits,andontheencodingprocedure,basedontheRLEmethod.Thepaperisorganizedasfollows.AnoverviewoftheARLEmethodandthemetricsusedtoevaluatetheperformanceofthemethodsarepresentedinSection2.InSection3thetheoryandthemainpropertiesofwaveletsarebrieflydescribed.ThedetailsoftheARLEcompressionmethodaregiveninSection4.TheproposedmethodiscomparedtoothertechniquesthroughexperimentspresentedinSection5,andSection6concludesthepaper.2.OverviewandmetricsTheproposedECGcompressionmethodcanbebrieflydescribedbythefollowingsteps:•PreprocessingoftheECGinordertoattainaresultingsignalwithzeromean,sinceintheECGsignalstheimportantpartisnotthesignallevelbutthetimevariationoftheECGwaveform[21];•ChoiceofthewaveletfunctionthatresultsonthebestECGcompression.Thewaveletfunctionobtainedistheonethatminimizesthedistortionofthesignalrecoveredfromthecompression;•Selectionofthesignificantcoefficients,whicharethecoefficientswhoseabsolutevaluearegreaterthanathreshold.Thethresholdiscalculatedusingabisectionalgorithm;•Quantizationoftheretainedcoefficientsusingaspecificnumberofbitsforeachwaveletsubspaceconsidered;•Encodingofthepositionsoftheretainedcoefficients.Thepositionsarerepresentedbyabitmap,beingeachbitrelatedtoonecoefficient.Ifthecoefficientissignificantthenthebitissetto1,otherwiseitissetto0.ThepositionmapisencodedalongwiththequantizedcoefficientsusingamodifiedversionoftheRLE[9]technique.Twometricsareusedtoevaluatetheperformanceofthemethods:thecompressionratio(CR)andthepercentroot-mean-squaredistortion(PRD).Thecompressionratioisameasureofthecompressionachievedbythemethodandisgivenbybeingf[n]theoriginalsignal,ˆf[n]therecoveredsignal,ˉfthemeanvalueoff[n]andnthelengthofthesignal.ThePRDiswidelyusedduetosimplecalculationandgoodcharacterizationoftheresultantdistortion.Moreover,ifacompressiontechniquebasedonorthogonaltransformsisused,thePRDcanbecalculatedonlybyconsideringthetransformcoefficients.Consider,withoutlossof3.3.ChoiceofthewaveletTheobjectiveoftheparametrizationprocedureinthisworkistofacilitatethesearchforthewaveletfunctionthatminimizesthedistortionafterthecompressionthroughtheresolutionofanoptimizationproblem,whichisunconstrainedifthesearchisperformedontheparameters.Toobtainsuchwaveletfunction,thefollowingoptimizationproblemisproposedminPRD(),(31)beingPRD()thedistortionmeasuregivenbyEqs.(2)and(8).Theobjectivefunctionisnon-convexasshowninFig.1,whichpresentsthedistortionofanECGwhenconsideringwaveletfunctionswithlengthm=4(

=1parameter)andm=6(

=2parameters).Thesignalusedtogeneratethefigureistheelectrocardiogram115oftheMIT-BIHarrhythmiadatabaseavailableonPhysioBank[5],andthevaluesofdistortionwereobtainedbytheapplicationofthedecompositionprocedure,retentionofafixednumberofcoefficientsandreconstructionofthesignal.Theoptimizationproblemissolvedbythesequentialquadraticprogramming(SQP)algorithm,1implementedintheFMINCONfunctionoftheOptimizationToolboxofMatlab[29].Toevaluatetheobjectivefunction,thefollowingstepsareperformed:1.Chooseafixedretentionratio;2.ObtainthescalingandthewaveletfiltersrelatedtothecurrentvectorofparametersusingtheparametrizationshowninEq4.AdaptiveRunLengthEncodingThefirststepoftheARLEmethodistheremotionofthemeanvalueofthesignal,sincetheimportantpartonanECGisthevariationofthesignalandnottheDClevel[21].ThemeanvaluealsoaffectsthecalculationofthePRD,sinceitspresencereducestherealvalueofthedistortionandmaskstheactualperformanceofthemethod.Anotherconsequenceobservedwhenthemeanvalueiskeptistheincreasingofthevaluesofthecoefficientsofprojectiononthescalingsubspace,resultinginthepossibleretentionofacoefficientthatwouldbeconsiderednon-significantwithoutthemeanvalue,decreasingthereforethecompressionratio.Aftertheremotionofthemeanvalue,thewaveletfunctionmostsuitedforthecompressionoftheECGconsideredisobtainedbysolvingtheoptimizationproblemdescribedbyEq.(31).TheFMINCONfunction,implementedonMatlab[29],usedtosolvetheproblemstartsfromasolutioninformedbytheuser.Intheproposedimplementationfourdifferentsta

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论