




已阅读5页,还剩53页未读, 继续免费阅读
(计算机系统结构专业论文)基于纸介质的语音存取系统的研究与设计.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于纸介质的语音存取系统的研究与设计 摘要 条形码技术是随通信技术,计算机技术的发展应运而生的自动识别技术的 种根据二进制编码规则对应形成的由对光反映率不同的灰、黑,白模块组成的图 形,经光电扫描识读器扫描,将采集的信息经处理器进行处理,从而达到自动识别 的目的。二维条形码的识别是当今主要的计算机自动识别技术热点之一。 借助了条形码技术尤其是二维条形码的概念,以及现阶段的微电子以及计算 机技术,我们设计出了一种在纸介质上保存语音信息,并可以通过手持设备将语 音还原出来的系统。该系统可以将原有的文本类型的书籍与现在的电子有声读物 进行完美的结合,产生出新型的纯纸质有声读物。 本文首先整体介绍了该系统的体系结构设计方案。然后对此系统地基础,条 形码系统,尤其是二维条形码系统进行了详细的介绍。接着对主要子系统如语音 匿缩子系统、图像采集及识别系统等等进行了详细的描述。 在语音压缩编码系统中,本文对比性介绍了一些语音压缩编码技术,尤其是 g 7 2 3 1 语音编码压缩技术。通过实验演示证明,g 7 2 3 1 语音编码系统初步符合 系统的需求,能够在保证高压缩比的情况下,清晰的还原出保存在纸介质上的语 音。同时,对于码字编码结构也作了一个简要的介绍。 在图像采集及识别系统部分,针对手持设备以及语音文件的特性,该系统需 要在一定时间内扫描完足够量的信息,并将其解码成原始语音文件加以播放,因 此码字快速识别就成了系统的首要目标。本文结合了具体试验的情况,提出了一 个新的识别算法,此算法彻底修改了原先的码字系统的定位、识别方式,大幅度 提高了识别的速度。试验结果表明,此算法能够满足系统识别的需求。 最后,本文详细介绍了一种新型的语音播放技术:p w m ,通过该技术可以 以较低的成本实现高质量的语音输出。 关键字:二维条形码,图像识别,语音压缩,p w m 中图分类号t p 3 9 1 复巨大学顶:i :论文 量主堑坌亟盟运童壹塑墨笙塑型! 壅皇堂盐 a b s t r a c t b a r c o d et e c h n o l o g yi sat e c h n o l o g yd e v e l o p e da c c o m p a n yw i t ht h ec o m m u n i c a t i o nt e c h n o l o g y a n dc o m p u t e rt e c h n o l o g y a c c o r d i n gt ot h ec o d i n gr u l e r so fb i n a r ys y s t e m ,t h eb a r c o d es y s t e m r e p l a c e st h es i g n a l1o r0b yt h eb l a c k g r a y , o rw h i t em o d u l e ,a n dc o m p o s i n gab l a c kw h i t ei m a g e t h r o u g ht h ep h o t o e l e c t r i cs c a nt o o l s ,t h es y s t e mc a r lc o l l e c t st h ei n f o r m a t i o nc o m p i l e di nt h e i m a g e a n dt h i sp r o c e s si s w h a tw ew a n t ,t h ea u t o - r e c o g n i t i o np r o c e s s a n d2 db a r c o d e r e c o g n i t i o ni saf o c u st e c h n o l o g yi nt h ef i e l do f c o m p u t e rr e c o g n i t i o nn o wat i m e b a s e do nt h ec o n c e p t so f b a r c o d et e c h n o l o g ye s p e c i a l l y2 db a r c o d es y s t e m ,a n dt h et e c h n o l o g yo f t h em i c r o - e l e c t r i ca n dc o m p u t e r , w ed e v i s e das y s t e mw h i c hc a ns t o r e st h ev o i c em e s s a g eo nt h e p a p e r , a n dp r o n o u n c e si tt h r o u g hah a n d s e td e v i c e u s i n gt h i st e c h n o l o g y , an e wk i n do fp a p e r a u d i ob o o kw i l lc o m eo u tw h i c hc o m b i n et h et r a d i t i o n a lp a p e rb o o ka n dt h en e we l e c t r i ca u d i o b o o k t h ea r t i c l ef i r s ti n t r o d u c e st h ew h o l ea r c h i t e c t u r eo ft h es y s t e m ,a n dt h e nd e p i c t ss o m eb a r c o d e s y s t e m ,e s p e c i a l l y2 db a r c o d es y s t e m t h ea r t i c l em a k ead e t a i l e dd e p i c t i o no nt h em a i n s u b s y s t e ms u c ha sv o i c ec o m p r e s ss u b s y s t e m ,c o d er e c o g n i z es u b s y s t e me r ei ns u c c e s s i o n i nt h ev o i c ec o m p r e s ss u b s y s t e m ,t h ea r t i c l ei n t r o d u c e ds o m ev o i c ec o m p r e s sc o d et e c h n o l o g y , e s p e c i a l l yg 7 2 3 1 t h ee x a m i n a t i o ns h o w e dt h a tt h i sc o d et e c h n o l o g yc a ng i v eu sc l e a rv o i c ew i t h h i g hq u a i l t y , w i t hah i g hc o m p r e s s i o nc a p a b i l i t y i nt h i ss e c t i o n ,w ep r e s e n tab r i e fi n t r o d u c t i o nt o t h ec o d ec o n s t r u c ta tt h es a m et i m e i nt h ec o d er e c o g n i t i o ns u b s y s t e m ,f a s tr e c o g n i z ea l g o r i t h mi st h ef o c u so ft h es e c t i o n ,o rt h i s a r t i c l e t h ea r t i c l es h o w st h i sa l g o r i t h mi nd e t a i l e dc o m b i n e dw i t hs o m ee x a m i n a t i o n t h e e x a m i n a t i o ns h o w e dt h a tt h ea l g o r i t h mc a ns a t i s f i e dt h er e q u i r e m e n to f t h es y s t e m a tl a s t ,t h ea r t i c l ei n t r o d u c e dan e wt y p es o u n dp l a yt e c h n o l o g y :p w m ,w h i c hc a ng i v eu sah i g h q u a l i t yv o i c eo u t p u tw i t has u r p r i s i n g l yl o wc o s t k e yw o r d :2 db a r c o d e ,i m a g er e c o g n i z e ,v o i c ec o m p r e s s i o n ,p w m 复旦大学硕士论文 3 基于纸介质的语裔存取系统的研究与设计 第一章绪论 随着我国加入w t o ,我国出版业面临着越来越严峻的挑战。首先,出版业面 临着新的竞争对手,一是国内社会资本的进入,二是跨国出版资本的抢滩。其次, 是传统出版物的替代产品的出现。对出版业形成替代威胁的主要是与高新技术、 信息技术相关形成的多介质、多媒体出版物和网络服务。如c d r o m 、e b o o k 等。为了应对这些情况,加强自身的竞争力,国内出版业界也加速了新产品的研 发工作,寻找传统出版与现代出版结合的最佳途径,提高出版业的科技含量。 借助了条形码技术尤其是二维条形码的概念,以及现阶段的微电子以及计 算机技术,我们设计出了一种在纸介质上保存语音信息,并可以通过手持设备将 语音还原出来的系统。该系统可以将原有的文本类型的书籍与现在的电子有声读 物进行完美的结合,产生出新型的纯纸质有声读物。 该课题的研究结果在纸介质上存取语音的成套实用应用系统,借助该系统 可以在纸张上印刷各种各样的有声读物,出版“会说话的图书和报刊。” 美国有声读物协会对有声读物的定义如下: “其中包含不低于5 1 的文字内容,复制和包装成盒式磁带、高密度光盘或 者单纯数字文件等形式进行销售的任何录音产品”。本课题中研制的语音存取系 统也符合该定义,与传统的有声读物相区别的是语音数字文件是以纸介质形式存 在的,也就是说,语音文件是被“印刷”在书本上的。从而,可以被方便的对其 进行排版,将其放在书本上的任何地方:如将每个单词的发声文件印刷于该单阋 下方等等。相对于传统的磁带,c d r o m 等等,该方式可以极大的提高文件的检 索效率,方便人们的工作学习活动。同时而该系统的读取工具相对于传统的语音 播放工具如磁带播放器,c d 播放器等,价格也极为低廉。与传统的有声读物相 比,该系统有着极大的优势。 同时,由于本系统的价格低廉,相对于传统的条形码本系统存储的数据量 较大( 在8 m m 宽,1 0 m m 长的纸片内可以存储4 0 k 以上的数据) ,并且具有更为 快捷的识别速度,因此经过二次开发后本系统可以应用以替换部分低成本射频识 别标记。( 相对于3 0 美分片到几美分片的射频识别标记价格,本系统的二维 识别标记仅需要印刷在纸面上,价格更为低廉。) 下面是该产品的一些具体得技术参数: 浚产品包括一套专用的语音编辑排版软件、一具图形条形码的阅读设备:扫读器、 一册条形码载声的有声图书。技术指标为: 复旦大学硕士论文 基于纸介质的语音存戢系统的研究与设计 ( 1 ) 图像使用传统的2 4 0 0 d p i 印刷精度的胶印数字印刷机印刷。8 秒长度的语音 信号可以记录在8 m m 宽,1 0 m m 长的二维图像条形码内,为二值化图像。可以采 用分辨率为3 5 2 x 2 8 8 的黑白c m o s 图像传感器获得并识别。 ( 2 ) 可以记录并还原3 0 0 8 k h z 的语音信息。该参数可以保证条形码记录的语音 有较高保真度,在语音频率范围内不失真。并能精确记录一定频率范围的音乐。 ( 3 ) 考虑到印刷在书本上的条形码在长期使用中可能遭受污损,要求条形码阅读 软件具有较强的纠错、容错及抗干扰能力。 ( 4 ) 考虑到“会说话的图书和报刊”的读者范围非常广泛,年龄层次从学龄前幼 j l n 视力有障碍的耄耋老人,要求对条形码的阅读具有较大的方向随意性,即只 要把条形码扫描遍历过一次,不管方向,不管次序,均能确保正常还原出精确语 音。 复旦大学碗士论文 摹于纸介质的语音存取系统的研究与设计 第二章系统的整体介绍 系统的逻辑结构图如下 首先,我们将课题大体分为两个大块:一块是语音输入,并在计算机上压缩 编码输出,最终将编码文件以固定格式打印在纸介质上。该部分是用通用软件例 如v i s u a lc + + 以及b o r l a n dc + + b u i l d e r 编写而成的。 而本课题另一个部分是读 取前一部分打印出来的图像,识别,转化为语音文件并最终播放出来。该部分是 采用嵌入式软硬件协同方式来实现的。 在第一块中,我们将其划分为语音压缩模块以及图形编码输出模块。这两个 模块都是使用通用软件来实现的。 在第二块中,我们将它划分为图像读取模块,图像识别模块,语音解码模块, 语音播放模块等四个模块。根据各个模块的特征,人工判定分别用软件实现或者 硬件实现。在本课题中,图像读取模块,语音播放模块明显都是硬件实现模块; 而图像识别以及语音解码实现逻辑都比较复杂,适合于软件实现,因此我们使用 嵌入式软件来实现这两个模块的功能。 系统的硬件结构图如下: 复且大学硕士论文 基于纸介质的语音存取系统的研究与设计 s i c 3 3 芯片 由于硬软件模块都是相互独立的,我们需要针对各个模块之阃的接口设计 它们的连接方式,这个部分本文会在各个章节中详细加以介绍。 2 1纸质介质语音存取分系统中各大子系统的介绍 在本课题中,我们将各自模块按照其功能组合成,从而得到了如下三个 子系统:语音压缩编码系统,图像采集及识别系统,语音输出及播放系统。 其中,语音压缩编码系统的目标就是将输入的语音文件编码压缩,最后将压 缩后的文件以固定的二维条形码格式打印出来。图像采集及识别系统的目标是读 入并识别纸介质上存储的压缩文件。而语音输出及播放系统则是将此压缩文件进 行解码,并最后播放出来。 2 2语音压缩编码系统 该部分的结构图如下: 复旦大学硕士论文 基于纸介质的语音存取系统的研究j 设计 该子系统的主要功能便是将语音文件保存于至纸介质,本系统中我们用图形 中像素点黑白颜色来分别表示计算机数据中的0 ,l ,从而理论上每个像素点都可 以表示一个b i t 的数据。 为了在纸介质上保存足够长的语音信息,我们必须经由两种途径:提高打印 分辨率以及提高语音文件的压缩率。 提高打印精度,在同样大小的纸张内我们可以打印更多的像素点,从而可以 保存更大的语音文件。 提高语音文件的压缩率,我们可以在相同得数据量下保存更长的语音信息。 而打印精度在现有的技术条件下,尤其是印刷机的技术条件限制,最高我们 只能采用2 4 0 0 d p i 的精度。( 也就是说每平方英寸内可以保存2 4 0 0 * 2 4 0 0 个像素 点。) 而语音文件的压缩,则可以通过采用高压缩率的编码系统来解决,目前我 们采用了i t u ( i m e m a t i o n a lt e l e c o m m u n i c a t i o n su n i o n ,国际电信同盟) 为制定的适 用于i p 电话语音编码:( 3 7 2 3 编码。 g 7 2 3 是双速率语音编码,它可以工作在5 3 k b p s 和6 3 k b p s 两个方式上,相 应分别采用代数码激励线性预测( a c e l p ) 和多脉冲最大似能量化( m p m l q ) 。目 前我们使用得是5 3 k b p s 的编码模式。 而在本系统中,我们借鉴了二维条形码的一些概念以及码字设计方式,针对 本系统语音文件的特征设计了特有的信息保存方式:如下图 复巨大学硕士论文 基于纸介质的语音存取系统的研究与设计 2 3 存储系统的一些细节问题。 该子系统的主要功能是读取并识别图像形式存储在纸介质的语音编码文件。 它包括了图像读取模块以及码字识别模块。具体的结构图如下: 具体流程如下:首先通过c m o s 光电传感器将条形码图通过光电转换变成 电子信息,然后通过h s d m a ( 高速d m a ) 技术,将c m o s 传输过来的数据接 入m c u 的c a c h e 以及系统内存中,接着对c m o s 拍的单帧图片进行实时数据处 理,提取出有效信息。 由于该部分系统需要实时处理大量数据,因此需要考虑到嵌入式系统的效率 i ;7 题。本课题针对特殊的图像编码格式以及从c m o s 得到图像的一些特征,对 识别软件作了一系列的优化工作。 同时由于该部分子系统与客观物理世界紧密相连( 读取的图像为打印印刷的 结果,读取的工具为不稳定性的手持式工具) ,因此要考虑到由于打印印刷质量, 复旦大学硕士论文 基于纸介质的语音存取系统的研究与设计 比如墨滴的大小,黑色豹浓度、墨滴在纸面扩散速度、纸张的光泽度、反光度、 以及c m o s 分辨率、扫描角度的偏差等各种情况,造成不同的图形扭曲情况。 下图为一些实际获得的图片效果。 如图 在第四章中我们将首先将介绍实验系统中的识别子系统的算法构造,然后进 一步的对于实际c m o s 扫描中遇到的一些问题进行详细地阐述。 2 4语音输出及播放系统 该部分包括了语音解码模块以及语音播放模块。流程图如下 复且大学硕士论文 1 0 某于纸介质的语音存取系统的研究与设计 在经过图像采集及识别系统后,存储于纸介质的语音编码文件已经被还原出 来,在此部分系统中,嵌入式软件的任务是将语音的7 2 3 编码文件解压缩为w a y 格式的语音,并通过嵌入式硬件系统将该语音播放出来。 而与传统的d a 转换硬件电路不一样,本课题中使用了p w m ( 脉宽调制) 的技术来实现语音的播放。与传统的d a 电路相比,该技术借用了系统中m c u 中的一些特性,在保证语音质量不下降的情况下,减少了传统电路中的电压随耦 器,以及低通滤波单元,从而具有极高的性价比。 复旦大学硕士论文 基于纸介质的语音存取系统的研究与设计 第三章:条形码系统的介绍 由于本课题中的语音压缩编码系统以及图像采集及识别系统均借鉴到了条 形码结构,因此,本文将对条形码系统进行一个详细地介绍。 条形码技术是以计算机技术、光电传感技术和通信技术为基础而发展起来的 一项自动识别技术。 1 。2 】此项技术的开发目标便是提高信息的输入速度以及输入 质量。它融编码,印刷,识别,数据采集和处理于一体,现在已经成为信息数据 自动输入、识别的重要方法和手段。 1 - 3 1 条形码是一种可印制的机器语言,它采 用二进制的概念,以“0 ”和“1 ”表示编码的特定组合单元,以规则排列的图形 符号来表示数据 4 l 。 条形码本身并不是一套系统,而是一种十分有效的识别工具;它能提供准确 及时的信息来支持成熟的管理系统,节省开始并改进业务操作。自出现以来,条 形码受到了各界人士的普遍关注,发展十分迅速。它已广泛应用于交通运输业、 商业贸易、生产制造业、医疗卫生、仓储业等领域1 4 “。 根据不同的编码规则,条形码的码制有6 0 多种,常见的有c o d e 3 9 码( 标准 3 9 码) 、c o d e b a r 码( 库德巴码) 、c o d e 2 5 码( 标准2 5 码) 、i t f 2 5 码( 交叉2 5 码) 、 m a t r i x 2 5 码( 矩阵2 5 码) 、u p c a 码、u p c e 码、e a n 1 3 码( e a n 1 3 国际商品 条形码) 、e a n 一8 码( e a n 8 国际商品条形码) 、中国邮政码( 矩阵2 5 码的一种变体) 、 c o d e b 码、m s i 码、c o d e1 1 码、c o d e 9 3 码、i s b n 码、i s s in 码、c o d e l 2 8 码 ( c o d e l 2 8 码,包括e a n l 2 8 码) ,c o d e 3 9 e m s ( e m s 专用的3 9 码) 等一维条形码和 q r 码( 快速响应矩阵码) 、p d f 4 1 7 码( 便携数据文件4 1 7 码) 、d a t am a t r i x 码、 m a x i c o d e 码、a z t e c c o d e 码、c o d eo n e 码等二维条形码。 目前使用频率最高的几种码制是:e a n 、u p c 、3 9 码和e a n l 2 8 码( 国内 称为c o d e l 2 8 码) 、其中u p c 条形码主要用于北美地区:e a n 条形码是一种 全数字的国通用符号体系,主要用于商品表示。在工业、药物和政府应用中最常 见的是3 9 码,作为一种字母与数字混合符号法,3 9 码除了数字之外,还能够支 持大写字母并有一些标点符号。它具有自我检验功能,能够提供不同长度和较高 的信息安全性,是一种字母与数字混合符号法。现在它已被包括汽车工业活动组 织( a i a g ) 、保健工业贸易通讯委员会( h m c c ) 和美国国防部( d o d ) 在内的一些工 业贸易组织和政府部门所采用。而它同时在一些工业应用中也得到了广阔的应用 如:追踪生产过程、仓库库存等等,甚至还包括了识别影印领土这样得特别应用。 与3 9 码相比,c o d e l 2 8 是一种更便捷的符号法,它能代表整个的a s c i i 字母系 列,提供一种特殊“双重密度”的全数字模式并有高信息安全性能。h i b c c 和 统一编码委员会( u c c ) 已接受一种特殊版本的1 2 8 码( u c c e a n ,1 2 8 ) 用来进行 复旦大学硕士论文 1 2 基于纸介质的语音存取系统的研究与设计 送货箱的标记。在a n s i 的送货箱标记标准中也承认u c c e a n 一1 2 8 码。在需要 将序号、批量号和其他有关信息输入到产品标签上的应用中使用u c c e a n 1 2 8 码的趋势有进一步的发展。 条形码给人们工作生活带来的巨大变化是有目共睹的。然而,由于受信息容 量的限制,一维条码的使用受到了较大的限制1 9 , 1 0 。大多时候一维条形码仅仅是 一种商品标识,它不含有对商品的任何描述,人们只有通过后台的数据库,提取 相应的信息才能明白商品标识的具体含义。在没有数据库或者联网不方便的地 方,这一商品标识变得毫无意义。此外,一维条形码无法表示汉字的图像信息, 在有些应用汉字和图像的场合,显得十分不便。同时,即使我们建立了数据库来 存储产品信息,而这些大量的信息需要一个很长的条形码标识。如应用储运单元 条形码,应用e a n u p c i 2 8 条形码,都需要占有很大的印刷面积,对印刷和包 装带来的困难就可想而知了。于是人们迫切能直接从条形码中获得大量信息,现 代高新技术的发展,迫切要求条形码在有限的几何空间内表示更多的信息,二维 条形码f 是为了解决中一一维条形码无法解决的问题而诞生的【2 。可用两种方法 来解决有限的集合空间内印刷大量的信息的问题:一是在一维条形码的基础上向 二维条形码方向发展,二是利用图像识别原理,采用新的几何图像和结构设计出 二维条形码码制。在许多种类的二维条形码中,常用的码制有:d a t am a t r i x ,m a x i c o d e ,q rc o d e ,v e r c o d e ,p d f 4 1 7 ,u l t r a c o d e ,c o d e4 9 c o d e1 6 k 等。近二十年来, 条形码技术在条形码得编码、条形码的印刷和译码器的研制方面均取得了巨大进 展。 在使用中,条形码符号由一个红外线或可见光源照射,深色的模块吸收光, 浅色或空的模块则将光反射回扫描器。扫描器将光的情况转换成电子脉冲,译码 器使用数学算法将电子脉冲转换成一种二进制码,然后将译码后的信息传送给 部手持式终端机、个人电脑、控制器或计算机主机。译码器可以内嵌到扫描器中 或外接。常见的扫描器使用可见光和红外线发光二级管( l e d ) ,氮氖激光或固态激 光二级管( 可见光和红外线) 等光源来识读条形码符号。一些扫描器要求接触符 号,另一些则可以从远至几英尺以外的距离来识读符号。扫描器有固定式和手持 式,大多数具有移动式或固定式光束来照射符号。二维c c d 识读器由二维c c d 管组成,能够如同照相一样一次扫描整个码。识读矩阵式符号要求使用二维c c d 识读器,它可以多方位地识读任何符号。 条形码是迄今为止最经济、实用的一种自动识别技术。相比于其他的识别技术, 条形码技术具有以下几个方面的优点: ( 1 ) 输入速度快:与键盘输入相比,条形码输入的速度是键盘输入的5 倍,并且能 实现“即时数据输入”。 复旦大学硕士论文 基于纸介质的语音存取系统的研究与设计 ( 2 ) 可靠性高;键盘输入数据出错率为三百分之- - n 用光学字符识别技术出错率 为万分之一,而采用条形码技术误码率低于百万分之一。 ( 3 ) 采集信息量大:利用传统的一维条形码一次可采集几十位字符的信息,二维条 形码更可以携带数千个字符的信息,并有一定的自动纠错能力。 ( 4 ) 灵活实用:条形码标识既可以作为一种识别手段单独使用,也可以和有关识别 设备组成一个系统实现自动化识别,还可以和其他控制设备联接起来实现自动化 管理。 ( 5 ) 经济性好:比起其它的自动识别技术,条形码印刷和识读设备的价格便宜。并 且,随着电子技术的发展,相关设备还在不断地降低价格。 另外,条形码标签易于制作,对设备和材料没有特殊要求,识别设备操作容 易,也不需要特殊培训。 条形码技术作为一种先进的信息采集和输入技术,己被广泛应用于物流信息 自动处理和工业自动化生产过程的诸多行业。如商品销售、仓储管理、图书信息 处理、邮政系统、客运服务等领域。随着技术的进一步发展,它的应用会越来越 广越来越多1 6 。8 ,例如本文提到的纸介质语音存取系统。 3 2 国际上的条形码技术研究状况 条形码技术主要研究的是如何将计算机所需的数据用一组条形码来表示,以 及如何将条形码标识的数据变成计算机可读的数据。因此,条形码技术的研究刑 象主要是包括编码规则( 标准) 、符号技术、译码技术及其设备、印刷技术和应 用系统设计技术五大部分,其中核心维条形码的编码与译码技术。 早在二十世纪四十年代,美国工程师就开始研究条形码技术。1 9 7 0 年美幽 超级市场a d h o c 委员会制定了通用商品代码_ iy p c ( u n i v e r s a lp r o d u c tc o d e ) 码,1 9 7 7 年欧共体开发了与u p c 相兼容的欧洲物品编码系统( e u r o p e a na r t i c l e n u m b e r i n gs y s t e m e a n 码) 。 二十世纪9 0 年代,西方国家纷纷研制二维条形码。目前应用面最广的二维 码p d f 4 1 7 ”l 由美国s y m b o l ( 讯宝) 公司研制。m a x ic o d e 1 4 1 是由美国伟林( w e l c h a l l y n ) 公司推出的,最多可容纳3 8 3 2 个数字或3 0 6 7 个字母字符或9 1 7 个字节 的数据。而另有一家美国公司研制的d a t am a t r i x l l s 码主要用于电子行业小零f 4 : 的标识,如i n t e l 的奔腾处理器的背面就印刷着这种码字。 q rc o d e 陌l 码是由日本d e n s o 公司于1 9 9 4 年9 月研制的一种矩阵二维条形 码符号,它出具有一维条形码以及其他二维条形码所具有的信息容量大,可靠性 高外,还具有可标识汉字及图像多种文字信息、保密防伪性强等优点1 2 】。相比 于其他的二维条形码例如p d f 4 1 7 等等,q r 码有着信息容量更大,适度速度更 快的优点。 复旦大学硕士论文 基于纸介质的语音存取系统的研究与设计 在条形码译码设备方面,前期的一维码阅读器全是光电扫描装置,因光电扫 描器成本不高而且自动识别率能满足基本的录入要求,所以在应用领域中处于垄 断地位。条形码扫描器与扩音器、方向盘、交通指挥灯、鼠标图形界面等一起 曾被专家评为二是世界最伟大的人机界面装置之一。美国s y m b o l ( 讯宝) 公司 提供的光电扫描器在一维条形码阅读器市场中占据领先地位,是全球第一供应 商。 在二维条形码译码设备方面,西方各大条形码服务公司局投入了较多的科研 力量开发二维条形码的阅读设备。现已面市的二维条形码的阅读设备依阅读原理 的不同可分为: 1 线性c c d 和线性图像式阅读器( l i n e a ri m a g e r ) 他们可阅读一维条形码 和线性堆叠式二维条形码( 如p d f 4 1 7 ) ,在阅读二维条形码时需要从条形码的垂 直方向扫过整个条形码,被称为”扫动式阅读”这类产品与其他二维阅读器比较, 价格便宜有较好的性价比。 2 带光栅的激光阅读器它可阅读一维条形码和线性堆叠式二维条形码阅 读二维条形码时将光线对准条形码,由光栅元件完成垂直扫描,不需要手动扫动。 3 图像式阅读器( i m a g er e a d e r ) 采用摄像方式将条形码图像摄取后进行分 析和解码,可阅读一维条形码和所有类型的二维条形码,本文设计的系统便是基 于此类识别工具。 复旦大学硕士论文 基于纸介质的语肯存取系统的研究与设计 第四章:语音压缩编码系统 根据前述的产品技术指标,8 秒长度的语音信号必须打印在8 m m 宽,l o m m 长的纸介质内,采用的图像分辨率为2 4 0 0 d p i ( d o tp e ri n c hs q u a r e ) 。很明显,如 果语音在纸介质上存储密度过小,则该系统使用价值会急剧降低。 4 1 语音压缩模块 我们要设计出可以满足该条件的纸介质存储系统,首先需要了解语音通常的 存储方式。我们知道现在语音主要有两种存储方式,即存储为模拟信号或者数字 信号。 传统模拟音频录制与播放原理非常简单,首先,声波通过麦克风,空气分子 的振动转变为电信号的波动。录音磁头的电磁铁根据通过电流的大小而产生大小 不同的磁场,磁场的变化情况会相应的记录在磁带上,这样便完成录音过程。播 放时,放音磁头读出印记在磁带上的磁场大小变化的情况( 即磁粉的排列位置) , 并转变为相应的电信号。之后这些波动的电信号( 模拟信号) 继续传送至放火器 和扬声器,电信号重新转变为语音( 即空气分子的振动) 。 而数字音频的录制过程相对而言就较为复杂。首先,需要把模拟音频转成数 字音频,即采样过程,其过程所用到的主要硬件设备便是模拟数字转换器 ( a n a l o gt od i g i t a lc o n v e r t e r ,即a d c ) 。采样的过程实际上是将通常的模拟音 频信号的电信号转换用二进制码0 和1 来表示的数字信号,这些0 和1 便构成了 数字音频文件。如下图,图中的正弦曲线代表原始音频曲线:填了颜色的方格代 表采样后得到的结果,二者越吻合说明采样结果越好。 复旦大学硕士论文 1 6 基于纸介质的语音存取系统的研究与设计 上图中的横坐标便是采样频率;纵坐标便是采样分辨率。图中的格子从左到 右,逐渐加密,先是加大横坐标的密度,然后加大纵坐标的密度。显然,当横坐 标的单位越小即两个采样时刻的间隔越小,则越有利于保持原始语音的真实情 况,换句话说,采样的频率越大则音质越有保证:同理,当纵坐标的单位越小则 越有利于音质的提高,即采样的位数越大越好。有一点请大家注意,8 位( 8 b i t ) 不是说把纵坐标分成8 份,而是分成2 n 8 = 2 5 6 份:同理1 6 位是把纵坐标分成 2 “1 6 = 6 5 5 3 6 份;而2 4 位则分成2 2 4 = 1 6 7 7 7 2 1 6 份。现在我们来进行一个计算, 看看一个数字音频文件的数据量到底有多大。假设我们是用4 4 1 k h z 、1 6 b i t 来进 行立体声( 即两个声道) 采样,即采样成标准的c d 音质( 也称作红皮书音频) 。 那么就是说,一秒钟内采样4 4 1 千次,每次的数据量是1 6 2 = 3 2 b i t ( 因为立体 声是两个声道) 。而大家知道,一个字节( b y t e ) 含有8 个位( b i t ) ,那么秒 钟内的数据量便是4 4 1 k 3 2 b i t ( 8 b i t b y t e ) = 1 7 6 4k b y t e 。由此可见,数字 音频文件的数据量是十分庞大的。 当然,达到同等语音质量,不同类型的语音采样频率是不一致的。根据 n y q u i s t ( 奈奎斯特) 定理,要想不产生低频失真,则采样频率至少得是录制的 最高频率的两倍,这个频率通常称作n y q u i s t 极限。 首先解释一下低频失真的定义。如下图所示: 复旦大学硕:l 论文 基十纸介质的语音存取系统的研究与设计 上图中,上半部分表示原始音频的波形;下半部分表示录制后的波形;黑色 的点表示采样点。大家可以发现,上下波形之所以不吻合,是因为采样点不够多, 或严谨一点说,是采样频率不够高。这种情况,我们称之为低频失真。 对于本系统而言,主要的纪录语音对象是人声情况。人说话的范围在3 0 0 一 3 4 0 0 h z ,因此对于人声8 k h z ,1 6 b i t 的采样分辨率已经足够,那么一秒钟内的数据 量便是8 k 1 6 b i t ( 8 b i t b y t e ) = 1 6 k b y t e 。 而根据上文对条形码系统地介绍,我们得知此时的数据量相对纸介质的存储 量仍然偏大。对于识读速度最快的q r 码来说,它每秒可识读3 0 个含有1 0 0 个 字符的q r 码符号,即每秒仅能识读4 k b y t e 左右,从而每秒的语音数据需要4 秒时间刁能解读出来。此时系统明显不具备实用性。 要解决这个问题,我们可以从两个方面着手:l ,选用高压缩率的算法对音 频文件进行压缩;2 ,针对语音编码特征,优化原先的条形码系统。 首先我们先对目前的通用的音频编码格式、协议进行一下回顾: 目前通用的音频格式有如下几种: 1 、0 w e ( w w ) : 由m i c r o s o f t 公司开发的一种w a v 语音文件格式,符合r i f f 文件规 范,支持m s a d p c m 、c c i p t a l a w 、c c i p t - l a w 和其他压缩算法,支持多种 音频位数,采样频率和声道,但其缺点是文件体积大。 2 、m p l m p 2 m p 3 : m p w g 代表的是m p e g 活动影音压缩标准,m p e g 音频文件指的是 复旦人学硕士论文 基于纸介质的语音存耿系统的研究与设计 m p e g 标准中的语音部分即m p e g 音频层。m p e g 文件根据压缩质量和编码复 杂程度的不同可分为三层。( m p e g a u d i o l a y e r l 2 3 分别与m p l 。m p 2 和 m p 3 这三种语音文件相对应) m p e g 音频编码具有很高的压缩率,m p l 和m p 2 的压缩率分别为4 :1 和 6 :1 8 :1 ,而m p 3 的压缩率则高达1 0 :1 1 2 :1 。也就是说一分钟c d 音质的 音乐未经压缩需要1 0 m b 存储空间,而经过m p 3 压缩编码后只有1 m b 左右,同 时其音质基本保持不失真。 m p 3 为降低语音失真采取了名为“感官编码技术”的编码算法:编码时先 对音频文件进行频谱分析,然后用过滤器滤掉噪音电平,接着通过量化的方式将 剩下的每一位打散排列,最后形成具有较高压缩比的m p 3 文件,并使压缩后的 文件在回放时能够达到比较接近原始音源的语音效果。虽然它是一种有损压缩, 但是它的最大优势是:以极小的语音失真换来了较高的压缩比。 3 、m p 4 : m p 4 采用的是美国电话电报公司所研发的,在不影响音乐的实际听感的前 提下,将压缩比成功的提高到1 5 :l ,最大可达到2 0 ;l 。同时m p 4 在加密和授 权方面也做了特别设计。 4 、v q f v q f 即t w l n v q 是有n t t 与y a m a h a 共同开发的一种音频压缩技术。 在不影响音质的前提下,v q f 的音频压缩率比标准的m p e g 音频压缩率高出近 倍,可以达到1 8 :l 左右,甚至更好。 5 、a i f a i f f : a i f f 是音频交换文件格式的英文缩写。是a p p l e 公司开发的一种音文件 格式,被m a c i n t o s h 平台及其应用程序所支持,n e t s c a p en a v i g a t o r 浏 览器重的l i v e a u d i o 也支持a i f f 格式,s g i 及其他专业音频软件包也同样支 持a i f f 格式。a i f f 支持a c e 2 、a c e 8 、m a c 3 和m a c 6 压缩。支持1 6 位4 4 1 k h z 立体声。 6 、a u : a u d i o 文件是s u n 微系统公司推出的一种经过压缩的数字语音格式。a u 文件原先是u n i x 操作系统下的数字语音文件。由于早期i n t e r n e t 上的w e b 服务器主要是基于u n i x 的,所以,a u 格式的文件在如今的i n t e r n e t 中也是 常用的语音文件格式,n e t s c a p en a v i g a t o r 浏览器中的l i v e a u d i o 也支 持a u d i o 格式的语音文件。 7 、v o c v o i c e 文件是新加坡著名的多媒体公司c r e a t i v el a b s 丌发的语音 复旦大学硕士论文 基于纸介质的语音存取系统的研究与设计 文件格式,多用于保存c r e a t i v es o u n db l a s t e r 系列声卡所采集的语音数 据,被w i n d o w s 平台和d o s 平台所支持,支持c c i t t al a w 和c c i t tul a w 等压缩算法。再d o s 程序和游戏中常会遇到这种文件,他是随声卡一起产生的 数字语音文件,他与w a v 文件的结构相似,可以通过一些工具软件方便的q :相 转换。 8 、r a r w r a m r e a l a u d i o 文件是r e a ln e t w o r k s 公司开发的一种新型音频流文件格 式,它包含在r e a l n e t w o r k 公司所定制的音频、视频压缩规范一r e a l m e d i a 中,主要用于再低速率的广域网上实时传输音频信息。网络连接速率不同,客,1 t 端所获得的语音质量也不尽相同:对于1 4 4 k b p s 的网络连接,可获得调幅( a m ) 质量的音质;对于2 8 8 k b p s 的连接,可以达到广播级的语音质量,如果使用1 s d n 或a d s l 等更快的线路连接,则可获得c d 音质的语音。 9 、i m a a d p c m ( a d p c m :a d a p t i v ed i f f e r e n t i a lp u l s ec o d em o d u l a t i o n ) 它是一种针对1 6 比特( 或者更高) 语音波形数据的一种有损压缩算法,它 将语音流中每次采样的1 6 比特( b i t ) 数据以4 比特存储,所以压缩比为:4 。而 压缩,解压缩算法非常的简单,所以是一种低空间消耗,高质量语音获得的好途 径。 a d p c m 主要是针对连续的波形数据的,保存的是波形的变化情况,以达到 描述整个波形的目的。 1 0 、g 7 2 9 、g 7 2 3 这两种编码都是国际电信联盟( i t u ) 制定的用于v o i p 的语音编码协议。 g 7 2 9 是8 k b p s 的语音编码协议,它采用共轭结构的算术码激励线性预测 ( c s a c e l p ) 。 ( 3 7 2 3 是双速率语音编码,它可以工作在5 3 k b p s 和6 3 k b p s 两个方式上,相 应分别采用代数码激励线性预测( a c e l p ) $ 1 多脉冲最大似能量化( m p m l q ) 。 在本系统中,我们最终选取了5 3 k b p s 的g 7 2 3 编码方式。即每秒钟的语音 信号可以被压缩为5 3 k b i t 。理论上此时纸介质上选用传统的q r 码纪录文件信息 已经可以可以达到这样的标准:每秒钟的语音信息可以存成6 个码字。并可以在 0 , 2 秒内可以被识别出来。 由于8 秒的语音信息存储在8 m m 宽,1 0 m m 长的二维图像条形码内,实验 结果表明手持设备移动 0 m m 最慢也不会超过1 秒钟,因此我们仍然需要提高码 字识别速度,从而需要重新对条形码的编码格式进行优化。 复旦大学硕士论文 基于纸介质的语音存舣系统的研究与设计 4 2 编码输出模块 由指标可知:在8 m m * 1 0 m m 的可以打印的像素点数d o t 如下: d o t = - 分辨率面积 = 2 4 0 0 i + 2 4 0 0 d p i + 8 m m + 1 0 m m ( 2 5 8 ( c m i n c h ) + 2 5 8 ( c m i n c h ) + 1 0 ( m m c m ) 4 1 0 ( m m c m ) ) = 6 9 2 2 6 6d o t 从而我们
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 《关心饮食安全:2 拒绝“问题食品”》教学设计-2024-2025学年四年级上册综合实践活动沪科黔科版
- 二年级下册心理健康教案-33《当别人欺负你时》 北师大版
- 《黄河颂》教学设计-2025-2026学年中职基础课-全一册-高教版(2023)-(音乐)-69
- Writing教学设计-2025-2026学年高中英语沪教版2020选择性必修第一册-沪教版2020
- 2025年中考数学试题分类汇编:统计(9大考点57题) (第1期)解析版
- 2025年饲养与饲料生产技能资格知识考试题与答案
- 2025年司法面试考试题解答及答案
- 2025年杭州市江干区实验小学五年级第四十二单元测试数学试卷
- 2025年全国焊工操作证理论考试题库(含答案)
- 2025年北京普通高中学业水平选择性考试化学试题【含答案】
- 北京市东城区2024-2025学年高一下学期期末生物试题
- DG-TJ08-2461-2024 旧住房更新改造查勘标准
- 电梯型式试验规则
- 福建省漳州市2024-2025学年七年级下学期期末生物试题(解析)
- 消化道早癌筛查健康宣教科普
- 事故隐患内部报告奖励制度培训
- 广西2025年初中学业水平考试英语真题(含答案及听力音频听力原文)
- 财务给研发培训课件
- 篮球教练培训课课件
- 危重症患者护理常规及工作流程
- 2025至2030中国汽车空调压缩机行业产业运行态势及投资规划深度研究报告
评论
0/150
提交评论