




已阅读5页,还剩49页未读, 继续免费阅读
(计算机系统结构专业论文)基于g7231压缩编码算法的纸介质声音存储系统.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 在过去的几年中,随着语音编码压缩技术,二维条码技术和微电子技术的迅 速发展,开发具有实用性的纸介质语音存储系统成为可能,从而能够将传统的书 籍形式与电子有声读物结合起来,获得印刷在纸介质上的有声读物。 文章首先对二维条码技术作了阐述,在对已有的码图结构和编码规则进行分 析与研究的基础上,提出了针对本系统的应用所设计二维条码结构。这种二维条 码码字结构和编码规则具有信息存储量较大,算法识别速度快,并带有必要的校 验位信息以满足其基本需求的特点。 然后在阐述了各种语音压缩编码理论和算法以后,并重点介绍g 7 2 3 1 语音 压缩算法的原理与结构,并对其性能特点作了分析。这种算法能够在满足本系统 所要求的压缩比的限制条件的同时,获得最大可能的语音清晰度和自然度,适。白: 于本系统的应用。 另外对系统的硬件体系结构以及其中关键的技术作了详尽地阐述。 最后对对本课题所做的主要工作的作了概括和总结,同时提出了进一步的研 究方向。 关键词图形编码图像识别语音压缩语音编码g 7 2 3 1 算法 中图分类号t p 3 9 1 a b s t r a c t i nt h ep a s tf e w y e a r s ,a c c o m p a n yw i t ht h ed e v e l o p m e n to ft h et e c h n o l o g yo f2 d b a r c o d ea n dm i c r oe l e c t r i ca n dv o i c ec o d i n g ,i th a sb e e nc o m i n gt ob et r u t ht o d e v e l o pak i n do fs y s t e mt os t o r et h ev o i c eo nt h ep a p e r s u c ht e c h n o l o g yc o m b i n e s t h et r a d i t i o n a lb o o kt y p ea n dt h ee l e c t r i ca u d i ob o o ka n dp r o d u c eat o t a l l yn e wt y p eo f a u d i ob o o k t h ea r t i c l ed e s c r i b es o m et e c h n i q u e so f2 db a r c o d ea tf i r s t ,a n dt h e nd e p i c tt h e n e wc o d eu s e di nt h es y s t e md e v i s e do nt h eb a s i so ft h eo r i g i n a lb a r c o d es t r u c t u r ea n d c o d i n gr u l e s 1 1 1 ec o d eh a v em o r es t o r a g ec a p a b i l i t y , f a s t e rr e c o g n i z es p e e dc o m p a r e t ot h ep a s tc o d et y p e a f t e rt h ei n t r o d u c t i o no fs o m ek i n d sa l g o f i t h mo fv o i c ec o m p r e s sc o d e ,t h e a r t i c l ed e p i c tt h ek e y s t o n e :t h es t r u c t u r ea n dt h et h e o r yo ft h ea l g o r i t h mo fg 7 2 3 1 , a n da n a l y s i si t sp e r f o r m a n c e t h i sk i n do fa l g o r i t h ms u i tt h es y s t e mb e c a u s ei tc a l l d e c o d et h es o u n dw i t hc l e a rv o i c ew h i l eh a v eag r e a tc o m p r e s sc a p a b i l i t y a n dt h e nt h ea r t i c l ed e s c r i b e st h ea r c h i t e c t u r eo f t h eh a r d w a r eo f t h es y s t e m a tl a s t ,t h ea r t i c l es u m m a r i z e st h ew o r kt of u l f i l lt h es y s t e m ,a n dp u tf o r w a r d s o m ef u r t h e rr e s e a r c hf o c u s e s k e y w o r d : 2 db a r c o d e ,i m a g er e o r g a n i z a t i o n ,s p e e c hc o m p r e s s ,s p e e c hc o d i n g , g 7 2 3 1 第一章绪论 1 1 本文的背景和意义 在过去的几年中,随着语音编码压缩技术,二维条码技术和微电子技术的迅 速发展,开发具有实用性的纸介质语音存储系统成为可能,从而能够将传统的书 籍形式与电子有声读物结合起来,获得印刷在纸介质上的有声读物。 所谓有声读物是指“其中包含不低于5 1 的文字内容,复制和包装成盒式磁 带,高密度光盘式或者单纯数字文件等形式进行销售的任何录音产品”( 美国有 声读物协会对有声读物的定义) 。它兴起于2 0 世纪6 0 年代的美国,经过四十多 年的发展,美国已经形成了成熟的有声读物出版市场。有声读物成为其出版市场 的重要组成部分,据统计每年有声读物在美国有二十五亿美元的市场份额。近年 来我国很多出版社和企业也都介入有声读物市场,制作出版了大量有声读物产 品。有声读物作为一个新的出版形态,有着很大的市场拓展空间。有声读物可以 把文学作品、知识信息与表演艺术结合在一起,能产生传统书籍所达不到的效果。 例如,可以对语言进行全面描述和准确记录。 语言描述的基础性工作之一就是记音,传统的记音方式是利用音标,但是由 于语言强烈的地域性特征,不可避免地使语言学者在对非母语记音研究时遇到障 碍,从而影响其对该语言语音系统的评价的客观性。而利用有声读物就可以对语 音进行声文并茂的描述和记录。 但是,原有的有声读物的文字信息和语音信息是分离的,这并不符合人们的 阅读习惯。而利用纸介质存储语音,就可以将语音信息与文字信息存储在一起, 这样做有如下优点: 第一,更符合人们的阅读习惯。 其次,携带和使用更加方便,识别设备体积小,可以集成到手机或者p d a 等手持式设备上; 另外,消耗能源少,更为环保。 由此,在纸介质语音存储系统的基础上开发的有声读物具有较大的实用价值 和较为广阔的应用前景。 1 2 系统概述 基于g 7 2 3 1 压缩编码算法【1 1 的纸介质语音存储系统由以下几个子系统构 成:声音采集子系统,声音压缩编码子系统,码图的生成及打印子系统,图像采 集子系统,码图识别子系统,声音的解压缩子系统,声音输出子系统。如图所示: 存储在纸介顾 燎始声音p c m 声音信息 压缩声音信息 的语旨信息 原始声音p c m 声音信息 压缩语音信息 存储在纸介赝 的语音信息 图1 1 系统概图 下面对各个子系统进行详细地阐述。 声音采集子系统:声音采集子系统是将外界的原始声音信息录制采集,并以 一定的格式存储到计算机内,用来做进一步加工处理。本系统的声音采集子系统 运行在p c 机上,采用p c m ( 脉冲编码调制) 作为内部声音存储格式。 声音压缩编码子系统:本系统采用纸介质存储声音信息。如果将p c m 格式 的声音信息直接存储到纸介质上,那么在数页纸张上将仅能存储几毫秒的语音信 息,其低下的效率难以让使用者接受,也就无法形成一个实用的系统。因此,声 音压缩编码予系统将p c m 格式的声音信息转换成特定的格式,从而能够有效地 利用存储空间。此模块中采用g 7 2 3 1 语音压缩编码算法,能够在保持较好的语 音质量的前提下获得较高的压缩比,在一张a 4 纸张上可以存储存储较长时间的 语音信息。 码图的生成和打印子系统:码图的生成和打印子系统将压缩后的语音信息加 校验与掩膜后,以一定的编码规则构成二维码字,然后将其打印至纸张上,实现 纸介质语音信息存储。 图像采集子系统:图像采集子系统利用图像传感器所采集到的是以像素为单 位的灰度图像,然后将其传送给码图识别子系统。 码图识别子系统:码图识别子系统将以像素为单位的灰度图像作为子系统的 输入,先利用二维条码识别算法得到一个0 ,l 构成的矩阵,然后对其进行分析, 最终获得经过压缩的语音信息。 声音解码子系统:经过压缩的语音信息并不能直接输入到声音输出系统,需 要利用声音解码子系统将其解压缩后得到p c m 格式的声音信息,然后才能作为 声音输出系统的输入。 声音输出子系统:声音输出子系统将p c m 格式的声音还原为实际的物理声 音,最终完成声音的输出过程。 1 3 本文的结构 本文一共包含五章。 第一章为绪论,阐明了课题的来源和背景,并概括了本文的研究内容和组织 结构。 第二章对图形编码技术作了阐述,并且针对本系统的应用设计了一种新的图 形编码规则和符号结构。 第三章阐述了各种语音压缩编码理论和算法,重点介绍了本文选用的g 7 2 3 1 语音压缩算法,并针对实际应用对其进行优化和移植。 第四章阐述了系统的硬件体系结构以及其中关键的技术。 第五章是全文的总结。对本课题所做的主要工作的作了概括和总结,同时提 出了进一步的研究方向。 第二章图形编码的设计 本系统的声音存储介质为纸介质。在计算机内部,声音信息是以二:进制文件 的方式存储的,这就需要利用图形编码技术将二进制信息转换成一组按照一定编 码规则排列的点、空符号,以便将其印制或打印在纸介质上。下面简要地介绍图 形编码技术的历史和现状,并分析各种编码规则的特点和不足,然后在已有图形 编码规则的基础上,针对纸介质声音存储系统的需要,设计一种新的图形编码规 则。 2 1 图形编码技术概述 图形编码技术( 主要包括一维条码和二维条码以及三维条码) 是在图形识别 技术的基础上发展起来的一种信息存储和处理技术( 2 1 ,它使用一组规则排列的点 和空组成图形符号,存储信息以供机器识别和阅读。这些点和空可以有各种不同 的组合方法,构成不同的图形符号,即各种符号体系,也称为码制。图形编码技 术输入速度快,成本低,可靠性强,因而发展迅速,目前已得到广泛的应用,并 已形成国际标准。 2 1 1 一维条码 所谓一维条码,是由一组粗细不同、黑白( 或者彩色) 相间的条、空组成的 标记,即传统条码。一维条码的信息密度较低,信息容量较小。它通过识读设备 扫描以后得到的是一组与其条、空相对应的字符。由信息密度而言,一维条码在 其垂直方向上不携带信息,冗余很大。之所以其在垂直方向上提供冗余,一是可 以保证条码在受到局部损坏以后仍然能够供识读设备正确识读,二是可以使识读 设备较为容易地完成扫描。但是,如果使用的条码标识末被损坏或者损坏程度不 高,那么一维条码在其垂直方向上冗余而又不携带信息显然是一种浪费1 3 j 。 目前,应用较为广泛的一维条码有交叉二五码、c o d e 3 9 码、u p c 码、e a n 码、 1 2 8 码等等。 2 1 2 二维条码 为了提高条码可携带的信息密度,增加信息含量,方法很多,而一种简单可 4 行的方法就是继承一维条码的特点,同时充分利用维条码在垂直方向的冗余向 二维方向扩展,以达到信息扩容的目标。这就得到了二维条码。 所n - - 维条码,是用某种特定的几何图形按照一定规律在平面( 二维方向) 上分布的条( 或点) 、空相间的图形来记录数据符号信息。它具有条码技术的莛 性,每种码制有其特定的字符集;每个字符占有一定的宽度;具有一定的校验功 能【4 i 。与一维条码相比,二维条码的信息密度有很大程度的提高,例如,美国 s y m b o l 公司研制的p d f 4 1 7 码【5 j ,其信息密度是维条码c o d e 3 9 码的2 0 多倍。 另外,二维条码可以利用错误纠j f 码来支持错误纠正功能,从而保证了条码所包 含信息的准确性。这一点一维条码是无法做到的。这样,二维条码以其信息密度 大,安全性强的特点已成为大容量,高可靠信息实现存储、并自动识读的比较理 想的方法之一。 二维条码从大类上可以分为堆叠式二维条码和矩阵式二维条码两大类型【6 j 。 其中,堆叠式二维条码是由多行截短的一维条码堆叠而成,它在编码设计、校验 原理、识读方式等方面继承了一维条码的特点,识读设备和条码印制与一维条码 兼容。但是由于行数的增加,行的鉴别、译码算法不完全相同于一维条码。有代 表性的堆叠式二维条码如:c o d e 4 9 码,c o d e1 6 k 码,p d f 4 1 7 码等等。 矩阵式二维条码建立在计算机图像处理技术、组合编码原理等基础上,是以 矩阵的形式构成码字,通过相应的元素点在矩阵中出现与否判断是二进制的“1 ” 还是“0 ”,并由点阵的排列组合确定含义。具有代表性的矩阵式二维条码有 m a x i c o d e 码,c o d eo n e 码,a z t e c 码,d a t em a t r i x 码,q r 码等。 2 2 常用图形编码规则与码字结构 本小节主要介绍p d f 4 1 7 码和q r 码,其中p d f 4 1 7 码是具有代表性的堆叠 式二维条码,而q r 码则是有代表性的矩阵式的二维条码,通过分析这两种二维 条码,从中可以发现在设计一种新的码字结构的时候所需要注意的问题。 2 2 1p d f 4 1 7 二维条码 每个p d f 4 1 7 码字由空白区包围的一系列行组成,其行数为3 9 0 ,每行由 一个起始符,一个左行指示符,1 3 0 个数据字符,右行指示符和终止符组成。 p d f 4 1 7 每个数据字符包括4 个条和4 个空,每个条或者空由1 6 个模块组 成。一个数据符中,4 个条和空的总模块数为1 7 ,所以称为p d f 4 1 7 码。每个数 据符都以深色模块开始,以浅色模块结束。 p d f 4 1 7 码的符号集可以被分为三个相互独立的子集,即三个簇,每个簇均 以不同的条、空形式表示9 2 9 个符号字符值。三个簇的逻辑簇号为0 ,3 ,6 。 识读堆叠式二维条码的主要问题在于丢失了垂直同步信号,而行编码则解决 了这一问题。一个p d f 4 1 7 码字允许3 9 0 行,每行使用一簇符号字符表示数据, 每三行重复一次,即簇号= ( 行号) r o o d3 】3 ,如第七行符号的簇号为3 。行 指示符由行号( i ) ,符号行数( 3 到9 0 ) ,每行符号字符个数( 1 到3 0 ) 以及纠 错等级( 0 到8 ) 决定。 从对称方面考虑,p d f 4 1 7 码字的起始符和终止符是唯一的,起始符的调控 组合形式是8 l l l l l l 3 ,终止符的条空组合形式为7 1 1 3 1 1 1 2 1 。 空白区是指包围在符号四周的不印刷区域,位于起始符之前,终止符之后, 并与第一行以及最后一行相连。水平方向和垂直方向的最小空白区宽度应为2 个模块。 对于一行p d f 4 1 7 而言,符号宽度为9 0 5 8 3 ,即 左空白区( 2 ) + 起始符( 1 7 ) + 左行指示符( 1 7 ) + 数据字符( 1 + 1 7 ) + 右行指示符( 1 7 ) + 终止符( 1 8 ) + 右空白区( 2 ) = 9 0 左空白区( 2 ) + 起始符( 1 7 ) + 左行指示符( 1 7 ) + 数据字符( 3 2 * 1 7 ) + 右行指示符( 1 7 ) + 终止符( 1 8 ) + 右空白区( 2 ) = 5 8 3 从存储有效数据的区域来看,左空白区、起始符、终止符、右空白区是用于 标识条码区域和定位条码用的,不含有效数据。左彳亍指示符、数据字符区和右行 指示符则存储有效数据。尽管左右行指示符存储的是行信息,而不是真正的有效 用户数据,但是可以认为这只是p d f 4 1 7 编码规则规定这两个区域用来存储行信 息。从码字模式结构和图像识别的角度来看,这两个区域与数据字符区的模式结 构一样,都可以用来存储用户数据,并不是像起始符和终止符一样专门用于图像 模式特征识别。 2 2 2q r 二维条码 q r 码是一种矩阵式二维条码,其英语名称是q u i c kr e s p o n s ec o d e 。q r 码 码字一共有4 0 种规格,分别为版本l ,版本2 ,版本4 0 。版本1 的规格 为2 1 模块 2 1 模块,版本2 的规格为2 5 模块* 2 5 模块,以此类推,每个版本的 码字比前一个版本每边增加4 个模块,直到版本4 0 ,其规格为1 7 7 模块+ 1 7 7 模 块。【7 1 寻像图形包括3 个相同的位置探测图形,分别位于码字的左上角,右下角和 左下角。每个位置探测图形可以看作是由3 个重叠的同心的正方形组成,它们分 别为7 * 7 个深色模块,5 * 5 个浅色模块,和3 * 3 个深色模块。位置探测图形的模 块宽度比为l :1 :3 :1 :1 。码字中其他地方遇到类似图形的可能性极小,因此, 可以在视场中迅速地识别是否是q r 码码字。识别组成寻像图形的3 个位置探测 图形,可以明确地确定视场中码字的位置和方向。 在每个位置探测图形和编码区域之间有宽度为一个模块的分隔符,全部由浅 色模块组成。 水平和垂直定位图形分别为一个模块宽的一行和一列,由深色和浅色模块交 替组成,其开始和结尾都是深色模块。水平定位图形位于上部的两个位置探测图 形之间,码字的第6 行。垂直定位图形位于左侧的两个位置探测图形之间,码字 的第6 列。它们的作用是确定码字的密度和版本,提供决定模块坐标的基准位置 的必要信息。 每个校正图形可以看作3 个重叠的同心f 方形,由5 * 5 个深色模块,3 * 3 个 浅色模块,以及位于中心的1 个深色模块组成。校正图形的数量视码字的版本号 而定。版本1 没有校正图形。版本2 到版本6 有1 个校正图形。版本7 到版本 1 3 有6 个校正图形。版本1 4 到版本2 0 有1 3 个校正图形。版本2 1 到版本2 7 有 2 2 个校正图形。版本2 8 到版本3 4 有3 3 个校正图形。版本3 5 到版本4 0 有4 6 个校正图形。 编码区域包括表示数据码字、纠错码字、版本信息和格式信息的字符。 空白区域为环绕在码字四周的4 个模块宽的区域,其反射率应与浅色模块相 同。 2 3 新图形编码规则的设计 2 3 1 设计新图形编码规则所需考虑的问题 在新的图形编码设计过程中,需要综合分析实际应用的需求,以及各方面条 件的限制,例如图形编码印制设别、光学图像采集系统和识读解码设备的性能及 其成本,从而能够以较低的成本获得较高的系统性能,满足实际应用的需要。 8 1 一般来说,码字结构可以采用矩阵式结构( 例如q r 码) ,也可以采用堆叠 式结构( 例如p d f 4 1 7 码) 9 1 。如果采用矩阵式结构,那么码字基本模块的形状 将采用正方形:如果采用堆叠式结构,那么其基本模块的形状将采用长条形。 限制码字结构尺寸的因素主要是光学图像采集系统的感光阵列的规模,例如 如果感光阵列为6 4 0 * 4 8 0 像素,按照每个基本模块2 * 2 个像素,那么最多可拍摄 3 0 0 * 2 0 0 模块阵列的码字。 与码字结构尺寸和模块数量有关的因素,除了感光阵列的像素多少以外,还 与条码识别设备的处理机数据处理能力和存储容量有关。因此,在设计新的码字 的时候,必须充分考虑处理机的处理能力。 提高新的图形编码的性能的另一个关键问题在于设计合适的码字标识符以 及与码字标识符相对应的快速识别码字表示符的算法【l “。一个具备良好性能码 字标识符应该对应一个快速的识别算法,可以在最短的时间内找到这个标识符并 准确定位这个码字标识符的中心或者重要端点位置。所以,一般而言,码字标识 符应该具有明显的对称性。 码字标识符的所占用的图案面积大小直接决定了新码字的信息容量的大小。 减少码字标识符的面积可以直接增加码字的信息容量。码字标识符所占用的图案 面积大小的选择是与图像处理技术和计算机硬件技术的发展水平密切相关的,早 期的图形编码的码字标识符占用了很多图案面积,其目的就是为了方便识别和定 位。随着技术的发展,对码字标识符图案面积的要求已经大大降低,例如在每个 基本模块占用3 * 3 个像素的情况下,目前大部分图形编码识别设备都可以设别和 定位。由此,随着计算机处理速度和图像处理水平的提高,在设计码字标识符的 时候,完全可以考虑进一步加大图案的密度,减少码字标识符相对占用面积,以 提高图形编码的整体信息容量和识别效率。 把整个码字的纹理特征,网格特征作为标识符,可以大大提高抗干扰性,但 是所花的代价是运算量会增加很多。在处理器运算能力很强的情况下可以考虑这 种方案。 2 3 2 为本系统所设计的图形编码码图结构 针对本系统的应用需求和硬件条件的限制,设计图形编码码图结构如下图所 图2 1 码字结构 符号结构。每个符号结构由正方形模块组成的一个正方形阵列构成,它由编 码区域和功能图形组成。其中,码字之中用于符号定位和特征识别的特定图形称 为功能图形,包括寻像图形,分隔符等等。没有功能图形占用,用于对数据或纠 错码字进行编码的区域称为编码区域,包括数据区,校验区和附加信息等等。功 能图形不用于数据编码。符号四周为空白区。 符号规格。大小为3 3 * 3 3 模块,其中,寻像图形大小为5 * 5 模块。 数据表示法。深色模块表示二进制1 ,浅色模块表示二进制0 。 寻像图形。包括四个相同的位置探测图形,分别位于符号的左上角,右上角, 左下角和右下角,如图所示,每个位置探测图形可以看作是由3 个重叠的同心正 方形组成,它们分别是5 * 5 深色模块,3 * 3 浅色模块和1 1 个深色模块。如图所 示,位置探测图形的模块宽度比为l :l :1 :1 :1 。符号之中其它地方遇到类似 图形的可能性极小,因此可以在视场中迅速识别可能的码字符号。识别组成寻像 图形的四个位置探测图形,可以明确地规定视场种符号的位置。另外,寻像图形 还具有校正图形和定位图形的作用,可以确定矩阵符号的位置以及符号中模块的 坐标,在图像有一定程度的损坏的情况下,译码软件可以通过它同步图像模块的 坐标映像。 分隔符。在每个位置探测图形和编码区域之间有宽度为1 个模块的分隔符, 如图所示,它全部由浅色模块组成。 编码区域。编码区域包括数据信息区,校验信息区和附加信息区的符号字符。 其中,附加信息区由码字i d 号码和掩膜信息构成。 码字i d 号码。需要若干个码字组合在一起来存储语音信息,使用码字i d 号码来相互区分相邻的码字。i d 号码编号由0 至3 1 ,使用时循环往复。 掩膜信息。在编码区域用掩膜图形对位图进行异或( x o r ) 处理。其目的 是使符号中深色与浅色模块的比例均衡,并减少影响图像快速处理的图形出现。 所使用的掩膜图形的相关信息记录在附加信息区域内。 空白区。空白区为环绕在符号四周的4 个模块宽的区域,它的反射率应该和 浅色模块相同。 码字符号尺寸的确定。x 尺寸,也即是模块宽度,将根据应用要求、所采用 的扫描技术、以及符号生成技术来确定。y 尺寸,也即是模块的高度尺寸,必须 与模块宽度尺寸相等。 2 3 3 新图形编码的编码过程 图形编码过程,就是将码流信息按照一定的规则填充至码图的编码区域,从 而形成条码码字,以印制在纸质介质上。其步骤如下: 第一步,数据编码。将数据信息转换成为0 1 码流。 第二步,校验编码。按需要将码字序列分块,以便按块生成相应的校验码字, 并将其加入到相应的校验码字序列的后面。 第三步,在矩阵中布置模块。将寻像模块,分隔符,与码字模块一起放入矩 阵。即,在寻像图形,分隔符相应的位置,填入适当的深色或浅色的模块,然后 将位序列依次填入数据区;将校验码依次填入校验区。 第四步,掩膜。用8 种掩膜图形依次对符号的编码区域的位图进行掩膜处理, 评价之,选择最优的一种。 第五步,生成附加信息,最终构成符号。 码字在矩阵中布置:填入i d 号信息。数据信息区和校验信息均依次由左而 右,由上而下依次排列。 2 3 4 掩膜 为了码字的识别可靠性,最好均衡地安排深色与浅色模块,使符号中深色与 浅色模块的比例接近1 :1 ,从而能够尽可能避免位置探测图形的位图出现在符 1 0 号的其它区域,使得因相邻模块的排列而影响高效率译码的可能性降为最小。 为了满足上述条件,应按以下步骤进行掩膜操作。 首先,掩膜不用于功能图形; 其次,用多个矩阵图形连续地对已知的编码区域的模块图形( 附加信息区域 除外) 进行异或( x 0 r ) 操作; 然后,对每个结果图形不合要求的部分计分,以评估这些结果; 最后,选择得分最低的图形。 在依次用每一个掩膜图形进行掩膜操作之后,要对每一次如下情况的出现进 行罚点计分,以便对每一个结果进行评估,分数越高,其结果越不可用。在下表 中,在n i 到n 4 为不好的特征所发分数的权重( n l = 3 ,n 2 = 3 ,n 3 - - 4 0 ,n 4 = 4 0 ) ,i 为紧邻的颜色相同模块数大于5 的次数,k 为符号深色模块所占比率与5 0 的差 错值,步长为5 。虽然淹膜操作仅对编码区域进行,不包括格式信息,但是评 价是对整个符号进行的。最后选择掩膜结果中罚分最低的掩膜图形用于符号掩 膜,并将所使用的掩膜图形的编号记入附加信息区域。 特征评价条件分数 行列中相邻的模块的颜 模块数气5 + i ) n + i 色相同 颜色相同的模块组成的 块尺寸日l + n n 2 + ( m _ 1 ) + ( n - 1 ) 块 在行纵列中出珈 n 3 ) 小1 :】:l f 深浅深浅深) 图形 整个模块中深色模块的5 肚( 5 + k ) 至 n 4 * k 比率 5 0 a :( 5 + ( k + 1 ) m 表2 1 掩膜结果的记分 2 3 5 新图形编码的译码过程 从识读一个码字符号开始到输出数据字符的译码步骤是编码过程的逆过程, 其译码步骤如下: a ) 定位并获取符号图像。将深色和浅色模块识别为由“0 ”与1 组成的 阵列; b ) 识读附加信息。完成对附加信息模块的校验和纠错,识别掩膜图形参考; c ) 用掩膜图形( 掩膜图形参考已经从附加信息中得出) 对编码区域的位图 进行异或处理,消除掩膜; d ) 根据模块排列规则,识读符号字符,恢复信息的数据与校验码字; e ) 用校验码字检测错误,如果发现错误,则进行错误评价分数的计算( 之 所以要计算错误评价分数是因为在识别出单个码字中的信息以后,需要 将码字序列中i d 号码相同的码字的错误评价分数进行比较,然后选择 错误评价分数最少的i d 号码的码字,序列中其余码字丢弃) ; 0 恢复单个码字中的原始数据信息。 2 3 6 深浅模块识别参考算法 曲选择图像的反射率最大值和最小值的中值确定阀值,使用阀值将图像转 化为一系列深色与浅色像素; b 1 确定寻像图形,在码字中的寻像图形由位于符号的4 个角上的4 个相同 位置探测图形组成,每一个位置探测图形的模块由一个深色浅色深色一 浅色深色次序构成,各元素的相对宽度的比例是1 :1 :l :1 :1 ; 1 ) 当探测到预选区时,注意图像中一行像素与位_ 置探测图形的外边缘 相遇的第一点和最后一点a 和b 。对该图像中相邻像素重复探测, 直到在中心方块x 轴方向所有穿过位置探测的直线被全部识别; 2 ) 重复步骤1 ) ,在图像的y 轴方向,识别穿过位置探测图形中心方块 的所有像素行; 3 ) 确定探测图形中心,通过在x 轴方向穿过位置探测图形中心块的最 外层的像素线上a ,b 两点连线的中点连一直线,用同样的方法在 另一垂直方向上划一直线,两条直线的交线就是位置探测图形的中 心: 4 ) 重复步骤1 ) 到3 ) ,确定其它3 个位置探测图形的中心位置; c 1 确定: 1 ) 距离d ,是左上角位置探测图形中心与右上角位置探测图形中心之 间的距离; 2 ) 两个位置探测图形的宽度,w 谢和、 k ; d ) 计算符号的名义模块宽度尺寸x : x = d 2 8 1 ) 重新确定定位图形中,深色与浅色模块的中心点的水平平均间距x 。 用类似的方法,计算左边定位图形,深色与浅色模块的中一1 1 , 点的垂 直平均间距y : 2 2 ) 建立一个取样网格:穿过上部定位图形的水平线,以及与之平行以y 值为垂直间距的水平线,在水平参考线之上形成与之平行的水平线, 水平参考线下方与之平行的水平线的数量由符号版本决定。通过左 边定位图形的垂直线,以及与之平行的以x 值为水平间距的垂直线, 在垂直参考线左边形成与之平行的若干条垂直线。 e ) 对网格的每一交点上的图像取样,并根据阀值确定是深色块还是浅色块, 构造一个位图,用二进制的“1 ”表示深色的像素,用二进制的0 表 示浅色的像素。 d 结束。 2 4 本章小结 本章首先介绍了现有的各种主流图形编码规则,然后根据设计图形编码所需 遵循的准则,在借鉴已有的图形编码( 主要是二维条码) 的基础上,针对系统所 选用的硬件的性能限制和要求,设计了一种新的图形编码规则。这种图形编码除 了具有一般的二维条码的优点之外,还具有信息存储密度较大,算法识别速度快, 并带有必要的校验信息满足其基本需求的特点。 第三章语音压缩编码 在存储语音信息之前,首先需要将原始的语音信号转换成为特定的格式。这 就是语音压缩编码。本系统采用纸介质来存储语音信息,并利用手持式阅读装置 识别并恢复语音信息,这一特点就决定了所使用的语音压缩编码算法必须有着较 高的压缩比。否则在数页纸张上仅能存储几毫秒的语音信息的系统,其效率显然 无法让使用者人手,也就不能成为一个实用系统。 本章首先介绍了语音压缩编码技术的概况,包括其理论基础,发展概述,衡 量语音编码性能的主要因素以及几种具体的语音压缩编码算法,然后,特别介绍 了g 7 2 3 1 语音压缩编码算法。 3 1 语音压缩编码技术概述 3 1 1 语音压缩编码技术的理论基础 从理论上讲,之所以能够进行语音压缩编码是基于以下两个事实:1 其一,在语音信号之中存在着大量的冗余信息。这些冗余信息根据产生原因 的不同可以分为四种类型:f 1 ) 语音信号中相邻样本之间有着很强的关联度;( 2 ) 浊音语音段具有准周期性;( 3 ) 声道的形状随时间的变化缓慢;( 4 ) 传输码字的 概率分布是不均匀的,小信号的出现概率大,大信号的出现概率小。 语音信号之中相邻样本之间的关联度所产生的冗余可以通过合适的滤波方 法来消除。低比特率语音压缩编码所采用的综合模型是利用了浊音语音段具有准 周期性这一特性。利用冗余的第三种类型,可以将语音信号分成若干帧。而对于 如何充分利用传输码字的概率分布的不均匀性这一冗余特性的研究,则常胜了各 种不同的语音压缩编码技术。 其二,人耳的敏感特性。首先,人耳的敏感程度是有限的。大部分的语音频 率的范围从2 0 0 h z 到3 4 0 0 h z ,而人耳的频率辨析度大约仅为2 h z 左右。这样采 用量化方法就能够消除人耳无法区别的冗余信息。其次,人耳具有掩蔽特性。有 时,一段声音会被另一段声音所掩蔽。例如,一段较强的声音会掩盖住另一段较 弱的声音( 这称作强度掩蔽) 。另外,其他的原因也可以引起掩蔽现象,例如, 声音频率的高低,声音时间间隔的长短,声音的音调等等。再者,人耳对于较低 频率的声音比较高频率的声音更加敏感。一般而言,浊音音质( 元音共鸣的基础 频率) 和共振峰结构主要都位于声音的低频部分。( 参考文献:胡航编著, 1 4 语音信号处理,2 0 0 0 ,哈尔滨工业大学出版社) 。最后,人耳对语音信号的相位 信息并不敏感。 3 1 2 语音压缩编码技术的分类 语音压缩编码技术的主要目标是利用尽可能低的编码速率来获得尽可能好 的重构语音,这必然会增加算法的复杂度。f 】2 】根据语音编码技术的发展历程, 可以将其分为三大类:波形编码,参数编码( 声码器) 和混合编码。 3 1 2 1 波形编码 波形编码是将语音信号作为一般的信号波形来处理,尽量使得被重构以后的 信号波形f ( 以) 近似于原始信号波形s ( n ) 。重构错误e ( n ) 定义如下: p ( 弗) = s ( 辟) 一s ( 聍) , 波形编码的目标就是在给定编码速率限制条件下,使得重构错误e ( n ) 最小 化。因此,在波形编码中,信噪比是一个重要的性能衡量参数。 现有的波形编码方案有脉冲编码调制( p c m ) ,自适应差分调制( a d m ) ,自 适应差分脉冲编码调制( a d p c m ) ,自适应预测编码器( a d c ) ,自适应子带编码 器( a s b c ) ,自适应变化编码器( a t c ) 等等。 波形编码的特点是算法相对简单,适应能力强,语音质量好,抗噪抗误码能 力强,在编码速率1 6 k b i g s 至6 4 k b i v s 的范围内,均取得较好的编码效果。但是, 这种编码方法在编码速率低于1 6 k b w s 时,波形扭曲严熏,语音质量下降很快。 3 1 2 2 参数编码 与波形编码不同,参数编码基于语音综合模型,这种方法力图通过从信号中 抽取特征参数并对其进行编码来获得高质量的语音。一般而言,参数编码重构的 语音波形与原语音波形会有较大的差别,但是,重构的语音波形与原语音波形具 有相似的频谱图结构和基音周期。重构的声音的平均建议得分( m o s ) 能够达到 4 。 典型的参数编码包括通道声码器,共振峰声码器和目前仍被广泛应用的线性 预测编码( l p c ) 。参数编码的编码速率较波形编码为低,但是其综合语音不够清 晰和自然。 3 1 2 3 混合编码 自7 0 年代起,特别是8 0 年代以来,出现了若干种将波形编码和参数编码相 结合而得到的混合编码。在这些混合编码方法中,应用最成功和最普遍的多数基 于时域分析综合编码( a b s ) 模型。时域分析综合编码模型采用参数编码架构 ( l p c ) ,力图按照波形编码的标准获得晟优的激励。其中,多脉冲线性预测编码 ( m p e l p c ) ,规则脉冲线性预测编码( r p e l p c ) ,和码激励线性预测( c e l p ) 都 是这一类编码方法的代表。它们克服了原有的波形编码和参数编码的弱点,在 4 8 k b i t s 至1 6 k b i t s 的编码速率上都能得到高质量的综合语音。 3 1 3 衡量语音编码性能的主要因素 语音编码的性能可以通过以下几方面来进行衡量:语音质量,编码速率,算 法复杂度和时间延迟。在实际的编码算法中,通常综合考虑以上四个因素,即: 在给定的编码速率下,使得重构的语音质量尽可能好,同时减少时间延迟和算法 复杂度。下面,将对这四个主要因素进行详细的介绍。 3 1 3 1 语音质量 衡量语音质量的评价标准可以分为两大类:客观评价标准和主观评价标准。 大部分的客观评价标准都是基于信噪比( s n r ) 的概念。信噪比的定义如下: s n r :篓;趔, & 2 e e 2 ( 以) 】 上式中,出2 和搪2 分别表示信号和噪音的能量。 基于信噪比的衡量标准主要用来表明重构的声音与原始声音的接近程度。这 种方法的优点是参数易于计算,并且容易发现增益和时间延迟方面的变动。但是, 这种方法并不能完全反映人耳对于语音质量的感觉,也就是说,有可能具有很高 的信噪比的重构声音的语调和清晰度反而很差。尤其是在中低编码速率的情况下 更容易出现这种情况。 有鉴于此,还需要采用主观评价标准。 主观评价标准利用听众所给出的分数来衡量人耳对于语音的实际感受程度, 平均建议分数( m o s ) 是应用比较广泛的主观评价标准之一。平均建议分数通常 采用5 级质量标准,平均建议分数越高声音质量越好。具体如下表所示: 表3 1 语音质量评价 除了平均建议分数以外,也可以采用其它的语音质量主观评价标准。其中包 括判断韵字测试( d r t ,这种方法使用一组相互独立的单词来测试话音的清晰度 或者可懂度) ,判断满意度测试( d a m ,这种方法和平均建议分数类似,但是使 用的评分体系更加复杂) ,a b 测试( 将待评价算法与性能已知的算法相比较) 。 一般而言,主观评价标准叙述较为冗长,测试成本也较客观评价标准为高。 3 1 3 2 编码速率 这一参数反映了语音信号的压缩程度。它一般采用b i f f s 作为衡量单位。 3 1 3 3 算法复杂度 编码和解码的复杂程度同语音编码的话音质量密切相关。在相同的编码速率 时,复杂的算法会得到较好的话音质量,同样,对于同等的话音质量,复杂的算 法能够降低编码速率。另外,编码算法的复杂程度直接决定了整个硬软件系统实 现的复杂程度、体积、功耗和成本等各个方面。目前,大部分实时语音编码算法 都是采用普通的数字信号处理芯片来实现。算法越是复杂,所需要的数字信号处 理芯片的处理能力就越要强。而晟近几年提出的一些新算法,如m p - l p c ,c e l p 等算法复杂度都较高,这对数字信号处理芯片的处理能力以及所需存储容量都提 出了较高的要求。 3 1 3 4 时间延迟 增加算法复杂度可以提高语音编码质量,但同时也会带来较大的时间延迟。 一旦编解码时间延迟过长,就可能严重影响正常的通话。而且,如果信道中的回 声是来自阻抗不匹配,那么过长的时间延迟就有可能放大这种回声,从而降低语 音质量。m i 以上四个因素之间是紧密联系的,对于不同的应用所要求的重点各不相同。 例如,在本系统的应用之中,对于时间延迟因素的要求,相对而言就不是特别严 格。 3 2 语音压缩编码算法 3 2 1 语音综合模型 参数编码需要一个综合模型以用来进行语音分析和语音重构。下图给出了在 语音编码中所使用的语音综合模型,它由三部分组成:激励源,声道模型和发散 模型。 基音频聿 a u 声道参数 图3 1 语音综台模型 激励源可以分为浊音部分( v ) 和清音部分( u ) 。由u v 转换开关决定所生成 的语音是浊音还是清音。其中,激励源的浊音部分由周期信号生成,而清音部分 由白噪声( w h i t e n o i s e ) 生成。所谓白噪声是指在宽频带内幅度( 即声音的强度) 均为随机的一类噪声。 声门脉冲模型吲z ) 用来模拟声门气流,所产生的浊音激励频谱图与之类似。 参数a v 和a u 分别是浊音信号和清音信号的振幅( 1 l l j 能量或强度) 的系数。发散模 型r ( z ) 则是用来模拟唇部的闭合。声道一般则采用自回归模型( a r 模型) 描述, 即: 矿z 。j 弦1 ,口f 6 r ,“。2 1 其中,l 是滤波器的次数,一般其取值范围在8 至1 2 之间。 大部分低比特率语音压缩编码算法都是基于著名的l p c 模型,这种模型中 采用最小均方误差( m m s e ) 准则对自回归模型( a r 模型) 参数进行评价。下文 将介绍其中目前比较常见的几种典型算法。 3 2 2l p c 1 0 声码器 l p c 一1 0 声码器是美国国防部( d o d ) f s l 0 1 5 语音压缩标准所采用的1 0 阶线 性预测声码器。 1 卅下图是l p c 1 0 声码器的结构图。 周期性脉冲序列 d ! el u ,v 开关 随机数序列 j l 一 一音 图3 , 2l p c 1 0 卢码器 清音激励由随机数序列产生,浊音激励由周期等于基音周期的脉冲序列产 生。该声码器所需要的编码参数包括:声道滤波器系数,基音周期p ,清浊音信 息和信号能量。 l p c 1 0 的编码速率最低可至2 4 k b i t s ,但是其综合语音的自然度很差。这 是由于该声码器所采用的二元激励模型过于简单。实际的语音余量信号很难简单 的划分成清音或者浊音,通常是既有清音的特征又有浊音的特征,特别是在语音 的过渡带或者噪声较强的语音段更是如此。而且即使是浊音信号,完全由周期脉 冲激励也会产生峰音等合成感较重的语音。在这种情况下,用纯粹的二元激励来 代替余量信号,必然会使其综合语音自然度很低。 再者,l p c 1 0 声码器的鲁棒性也较差。在噪声的影响下,使用此算法不能 准确地提取基音周期和判断清浊音,当背景噪声较强的时候,系统的性能将会显 1 9 著恶化。l p c 1 0 声码器采用平均幅度差函数( a m d f , a v e r a g em a g n i t u d e d i f f e r e n c e ) 提取基音,它过于依赖所输入的语音数据,当有噪声存在或者平滑算 法不够好的时候,精度会大大降低。另外,由于二元模型不能准确地表示语音信 号,在清浊音判断上自然会有困难。若清音比实际情况偏多,实际上是引入了额 外的噪声,使得综合语音含糊不清,可懂度降低;但是,如果浊音偏多,则又会 影响语音的自然度。 3 2 3 混合激励线性预测编码( m e l p ) 所示 周 白 混合激励线性预测( m e l p , m i x e de x c i t a t i o nl i n e a rp r e d i c t i o n ) 的结构如下图 图3 3m e l p 混合激励线性预测编码的基本思想就是将周期性脉冲和自噪声调整混合以 后作为激励信号,用以克服简单的二元激励的不足。i l5 j 浊音的激励源是由经过 低通滤波的周期脉冲序列与经过高通滤波的白噪声加权求和而形成的,周期脉冲 与噪声的混合比例随着输入语音的浊化程度而改变。清音的激励源是白噪声加上 位置随机的一个正脉冲跟随一个负脉冲的脉冲对形成的爆破脉冲。对于爆破音, 脉冲对的变化幅度与语音的突变程度成比例增大。对于非爆破音,则脉冲对的变 化幅度则较小。此外,在浊音帧的基音相关程度不大,或者余量信号中有大的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 个人汽车购买合同范本
- 古建整体出售合同范本
- 工程厨柜采购合同范本
- 工程转让合同范本模板
- 土地征收赔偿合同范本
- 柜子保洁服务合同范本
- 旧厂改造工程合同范本
- 中介居间合同范本
- 出口商合同范本
- 合股汽车转让合同范本
- 2025年全国高考数学真题全国2卷
- T/CGAS 026.1-2023瓶装液化石油气管理规范第1部分:安全管理
- 数字经济下的反垄断策略-洞察阐释
- 《特应性皮炎Atopic Dermatitis》课件
- 自行缴纳社保协议书模板
- 2024年新冀教版七年级上册数学教学课件 1.1 正数和负数 第1课时
- 《橡胶的硫化工艺》课件
- 阿尔茨海默病药物治疗指南(2025)解读
- 《秋季腹泻》课件
- 湖南省房屋建筑和市政基础设施工程-“机器管招投标”模块化招标文件(施工)-(2025年第1版)
- 2025-2030中国近红外光谱分析仪行业市场发展趋势与前景展望战略研究报告
评论
0/150
提交评论