语音识别电风扇控制系统设计-毕业论文_第1页
语音识别电风扇控制系统设计-毕业论文_第2页
语音识别电风扇控制系统设计-毕业论文_第3页
语音识别电风扇控制系统设计-毕业论文_第4页
语音识别电风扇控制系统设计-毕业论文_第5页
已阅读5页,还剩51页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

桂林电子科技大学毕业设计(论文)报告用纸 摘 要本文论述了一个采用语音识别技术的电风扇控制系统,采用凌阳16位单片机微处理器作为整个系统的核心,且由语音输入输出电路以及电风扇驱动电路组成。本系统能识别特定人的语音命令自动完成对风扇启动、关闭以及档位切换的控制。在本语音识别控制系统中充分利用凌阳单片机内部的10位高精度AD资源采集特定人控制命令信号,同时也充分利用其内部10位高精度DA资源转换处理好的语音信号进行输出,这样不用外加AD、DA芯片,不仅节约了成本,而且也简化了整个系统的设计。在特定人发出语音命令后,单片机接收语音信号并与语音参考样本进行对比识别,其中识别对比采用的是DTW动态时间规整算法。识别成功后,单片机给相应I/O口发出电平驱动控制电风扇工作运转。设计中加入了液晶显示模块,让命令者能及时地知晓风扇的工作状态。针对目前语音识别系统普遍存在的缺陷:识别正确率低,本文所设计系统的亮点是在一定程度上提高语音识别的正确率,能较准确听从特定人命令完成对电风扇启动关闭以及档位切换的控制。本文所设计的系统还有一个特色是实用性很强,通过适当的硬件电路改造,该语音识别系统还可以应用于其他家用电器的控制中,且本系统相对于市场上其他语音识别产品,其设计成本较低。关键词:语音识别;SPCE061A;电风扇控制系统AbstractThis paper mainly discusses a control system of electric fan which depends on the speech recognition. This control system applies the Sunplus 16 SCM microprocessor as its operating core and is made up of voice input and output circuit, as well as electric fan drive circuit. The speech recognition control system fully utilizes the 10 high-precision AD resources in the Sunplus SCM SPCE061A to collect the certain control command signal. At the same time, the voice signal which disposed by 10 high-precision DA resources are fully applied to output data. In this way, it is no need to add the AD and DA chips, so that more costs can be reduced and design of system can be simplified. When the given person launches the voice command, SCM begins to receive the voice signal and conduct the comparison identification with voice samples. The comparison identification applies DTW dynamic time algorithm. After the identification finishing, SCM issues the electrical level to the corresponding I/O, in order to control the operation of electronic fan. In the design process, the LCD Module is used, which allows the commander know the working condition of electronic fan in time.In terms of the existing drawbacks of the current speech recognitionlow accuracy rate of identification, the polishing point of this paper is that the accuracy rate of speech recognition system will be improved and the commanders control of switches of “on” “off” and “change” for electronic fans. In addition, another feature of this paper falls on the high practical applicability. The speech recognition system can be applied to control other domestic appliances by appropriately transforming the hardware circuit. Whats more, comparing to other speech recognition products in the current market, this design processes a relatively low costs.Key words: speech recognition;SPCE061A; control system of electronic fan目 录1 绪论11.1 课题设计背景11.2 语音识别目前国内外发展现状11.2.1语音识别国外现状11.2.2语音识别国内现状21.3 语音识别技术的应用领域21.4 控制系统设计的主要任务32 语音识别的原理42.1 模型匹配方法42.1.1 DTW动态时间规整算法42.1.2HMM隐马尔可夫法算法52.1.3VQ矢量量化算法52.2 语音识别的分类62.2.1特定人语音识别62.2.2非特定人语音识别63 方案设计与确定73.1 主控制系统处理芯片的选择和论证73.1.1方案一:采用DSP芯片73.1.2方案二:采用凌阳单片机16位单片机SPCE061A73.1.3主控制处理芯片的确定73.2 系统驱动电路方案的论证和选择83.2.1方案一:运用三个继电器外加一些外围电路闭合断开。83.2.2方案二:运用光耦芯片来触发控制控制晶闸管的导通与截止。83.2.3系统驱动电路方案的确定83.3 总体方案设计93.3.1总体设计框图94 硬件电路设计104.1 主控制系统的设计104.1.1凌阳单片机SPCE061A最小系统设计104.1.2系统电源设计114.1.3音频输出电路设计114.1.4音频输入电路设计124.1.5显示电路设计124.1.6 I/O接口电路设计134.2 驱动电路的设计134.3 电风扇内部电路改造:155 软件设计155.1 音频的概述155.2 数字音频的采样和量化155.3 音频格式的介绍165.3.1声音文件的格式165.4 语音压缩编码基础175.5 本系统所用音频论述195.5.1本系统音频压缩算法的编码标准195.5.2压缩分类195.5.3 本系统的音频形式和压缩算法205.6 本系统的应用程序接口 API 的功能205.6.1概述205.7 自制本控制系统所用到的语音资源215.8 自制本控制系统所用到的语音资源总结225.9 程序设计235.9.1程序控制思路235.9.2程序流程图245.9.3程序中编写的重要文件255.9.4程序中编写的重要函数256 系统调试286.1 硬件调试286.1.1主控制模块的调试286.1.2驱动模块调试296.1.3电风扇电路改造检查306.1.4系统硬件电路连接316.2 软件调试317 结论32谢 辞33参考文献34附 录35 桂林电子科技大学毕业设计(论文)报告用纸 第 51 页 共 49 页1 绪论1.1 课题设计背景语言是人类特有的功能,是人们思维最重要的寄托体,是人类交流最主要的途径。语音是语言的声学表现,是人类交流信息最自然、最有效、最方便的手段。语言和语音与人类社会科学文化发展紧密相连。语音识别研究的根本目的是研究出一种具有听觉功能的机器,能直接接受人的口呼命令,理解人的意图并做出相应的反映。语音识别系统的研究涉及微机技术、人工智能、数字信号处理、模式识别、声学、语言学和认知科学等许多学科领域,是一个多学科综合性研究领域。1.2 语音识别目前国内外发展现状1.2.1语音识别国外现状语音识别的研究工作可以追溯到20世纪50年代AT&T贝尔实验室的Audry系统,它是第一个可以识别十个英文数字的语音识别系统。 但真正取得实质性进展,并将其作为一个重要的课题开展研究则是在60年代末70年代初。这首先是因为计算机技术的发展为语音识别的实现提供了硬件和软件的可能,更重要的是语音信号线性预测编码(LPC)技术和动态时间规整(DTW)技术的提出,有效的解决了语音信号的特征提取和不等长匹配问题。这一时期的语音识别主要基于模板匹配原理,研究的领域局限在特定人,小词汇表的孤立词识别,实现了基于线性预测倒谱和DTW技术的特定人孤立词语音识别系统;同时提出了矢量量化(VQ)和隐马尔可夫模型(HMM)理论。 随着应用领域的扩大,小词汇表、特定人、孤立词等这些对语音识别的约束条件需要放宽,与此同时也带来了许多新的问题:第一,词汇表的扩大使得模板的选取和建立发生困难;第二,连续语音中,各个音素、音节以及词之间没有明显的边界,各个发音单位存在受上下文强烈影响的协同发音(Co-articulation)现象;第三,非特定人识别时,不同的人说相同的话相应的声学特征有很大的差异,即使相同的人在不同的时间、生理、心理状态下,说同样内容的话也会有很大的差异;第四,识别的语音中有背景噪声或其他干扰。因此原有的模板匹配方法已不再适用。 实验室语音识别研究的巨大突破产生于20世纪80年代末:人们终于在实验室突破了大词汇量、连续语音和非特定人这三大障碍,第一次把这三个特性都集成在一个系统中,比较典型的是卡耐基梅隆大学的Sphinx系统,它是第一个高性能的非特定人、大词汇量连续语音识别系统。 这一时期,语音识别研究进一步走向深入,其显著特征是HMM模型和人工神经元网络(ANN)在语音识别中的成功应用。HMM模型的广泛应用应归功于AT&TBell实验室Rabiner等科学家的努力,他们把原本艰涩的HMM纯数学模型工程化,从而为更多研究者了解和认识,从而使统计方法成为了语音识别技术的主流。 统计方法将研究者的视线从微观转向宏观,不再刻意追求语音特征的细化,而是更多地从整体平均(统计)的角度来建立最佳的语音识别系统。在声学模型方面,以Markov链为基础的语音序列建模方法HMM(隐式Markov链)比较有效地解决了语音信号短时稳定、长时时变的特性,并且能根据一些基本建模单元构造成连续语音的句子模型,达到了比较高的建模精度和建模灵活性。在语言层面上,通过统计真实大规模语料的词之间同现概率即N元统计模型来区分识别带来的模糊音和同音词。另外,人工神经网络方法、基于文法规则的语言处理机制等也在语音识别中得到了应用。 1.2.2语音识别国内现状我国语音识别研究工作起步于五十年代,但近年来发展很快。研究水平也从实验室逐步走向实用。从1987年开始执行国家863计划后,国家863智能计算机专家组为语音识别技术研究专门立项,每两年滚动一次。我国语音识别技术的研究水平已经基本上与国外同步,在汉语语音识别技术上还有自己的特点与优势,并达到国际先进水平。中科院自动化所、声学所、清华大学、北京大学、哈尔滨工业大学、上海交通大学、中国科技大学、北京邮电大学、华中科技大学等科研机构都有实验室进行过语音识别方面的研究,其中具有代表性的研究单位为清华大学电子工程系与中科院自动化研究所模式识别国家重点实验室。 1.3 语音识别技术的应用领域语音识别技术发展到今天,特别是中小词汇量非特定人语音识别系统识别精度已经大于98%,对特定人语音识别系统的识别精度就更高。这些技术已经能够满足通常应用的要求。由于大规模集成电路技术的发展,这些复杂的语音识别系统也已经完全可以制成专用芯片,大量生产。在西方经济发达国家,大量的语音识别产品已经进入市场和服务领域。一些用户交机、电话机、手机已经包含了语音识别拨号功能,还有语音记事本、语音智能玩具等产品也包括语音识别与语音合成功能。人们可以通过电话网络用语音识别口语对话系统查询有关的机票、旅游、银行信息,并且取得很好的结果。调查统计表明多达85%以上的人对语音识别的信息查询服务系统的性能表示满意。 可以预测在近五到十年内,语音识别系统的应用将更加广泛。各种各样的语音识别系统产品将出现在市场上。人们也将调整自己的说话方式以适应各种各样的识别系统。在短期内还不可能造出具有和人相比拟的语音识别系统,要建成这样一个系统仍然是人类面临的一个大的挑战,我们只能一步步朝着改进语音识别系统的方向一步步地前进。至于什么时候可以建立一个像人一样完善的语音识别系统则是很难预测的。就像在60年代,谁又能预测今天超大规模集成电路技术会对我们的社会产生这么大的影响。语 音 识 别电话 拨号听 写 机查询 系统消费 电子残 疾 人用 品信息论声 学信号 处理语 音 学人工 智能模式 识别数理 统计实际应用学科基础 图1.1 语音识别技术的实际应用及学科基础1.4 控制系统设计的主要任务设计是根据毕业设计任务书要求,结合实际应用而考虑的。设计的风扇控制系统能根据特定人的语音命令信号,作出相应的语音回答并对电风扇进行开启和关闭以及三个档位切换几个任务。其中涉及到语音命令问答、风扇启动、档位切换几个任务,要求语音回答准确、控制动作准确,并且协调性要好。设计中要解决的问题有:(1) 主控制系统电路的设计;(2) 驱动电路的设计;(3) 显示的电路设计;(4) 语音识别算法的设计;(5) 电风扇的改造;(6) 语音资源的获取;设计出来的控制系统最主要是能达到智能化,能够命令者即特定人的语音命令,作出相应的回答并且能够根据命令对电风扇进行相应的控制并且在液晶显示上还能显示相应的风扇工作状态的信息。设计需完成以下总体图1.2的任务:软件整体框架设计查找资料确定方案电风扇内部电路的改造电气总体设计原理图制作PCB制作各个模块整合及调试弄清各芯片操作相关子程序编写程序整合总装整合,调试调试完成DCV关稳感器人可以成功完成务电气,软件图1.2 系统设计总框图2 语音识别的原理2.1 模型匹配方法语音识别系统一般均采用了模式匹配的原理。模板匹配的方法发展比较成熟,目前已达到了实用阶段。在模板匹配方法中,要经过四个步骤:特征提取、模板训练、模板分类、判决。常用的技术有三种:动态时间规整(DTW)、隐马尔可夫(HMM)理论、矢量量化(VQ)技术。 2.1.1 DTW动态时间规整算法 语音信号的端点检测是进行语音识别中的一个基本步骤,它是特征训练和识别的基础。所谓端点检测就是在语音信号中的各种段落(如音素、音节、词素)的始点和终点的位置,从语音信号中排除无声段。在早期,进行端点检测的主要依据是能量、振幅和过零率。但效果往往不明显。60年代日本学者Itakura提出了动态时间规整算法(DTW:DynamicTimeWarping)。算法的思想就是把未知量均匀的升长或缩短,直到与参考模式的长度一致。在这一过程中,未知单词的时间轴要不均匀地扭曲或弯折,以使其特征与模型特征对正。 2.1.2HMM隐马尔可夫法算法 隐马尔可夫法(HMM)是70年代引入语音识别理论的,它的出现使得自然语音识别系统取得了实质性的突破。HMM方法现已成为语音识别的主流技术,目前大多数大词汇量、连续语音的非特定人语音识别系统都是基于HMM模型的。HMM是对语音信号的时间序列结构建立统计模型,将之看作一个数学上的双重随机过程:一个是用具有有限状态数的Markov链来模拟语音信号统计特性变化的隐含的随机过程,另一个是与Markov链的每一个状态相关联的观测序列的随机过程。前者通过后者表现出来,但前者的具体参数是不可测的。人的言语过程实际上就是一个双重随机过程,语音信号本身是一个可观测的时变序列,是由大脑根据语法知识和言语需要(不可观测的状态)发出的音素的参数流。可见HMM合理地模仿了这一过程,很好地描述了语音信号的整体非平稳性和局部平稳性,是较为理想的一种语音模型。 2.1.3VQ矢量量化算法矢量量化(VectorQuantization)是一种重要的信号压缩方法。与HMM相比,矢量量化主要适用于小词汇量、孤立词的语音识别中。其过程是:将语音信号波形的k个样点的每一帧,或有k个参数的每一参数帧,构成k维空间中的一个矢量,然后对矢量进行量化。量化时,将k维无限空间划分为M个区域边界,然后将输入矢量与这些边界进行比较,并被量化为“距离”最小的区域边界的中心矢量值。矢量量化器的设计就是从大量信号样本中训练出好的码书,从实际效果出发寻找到好的失真测度定义公式,设计出最佳的矢量量化系统,用最少的搜索和计算失真的运算量,实现最大可能的平均信噪比。 核心思想可以这样理解:如果一个码书是为某一特定的信源而优化设计的,那么由这一信息源产生的信号与该码书的平均量化失真就应小于其他信息的信号与该码书的平均量化失真,也就是说编码器本身存在区分能力。 在实际的应用过程中,人们还研究了多种降低复杂度的方法,这些方法大致可以分为两类:无记忆的矢量量化和有记忆的矢量量化。无记忆的矢量量化包括树形搜索的矢量量化和多级矢量量化。在图2.1和2.2中可以看到语音识别一般分为两个步骤。第一步是识别系统的“学习”或者称为“训练”阶段。在这一阶段的任务是建立识别基本单元的声学模型以及进行文法分析的语言模型,即构建参考模式库。第二是“识别”或“测试”阶段。根据识别系统的类型选择能够满足要求的一种识别方法,采用语音分析方法分析出这种识别方法所需要的语音特征参数,按照一定的准则和测度与参考模式库中的模式进行比较,通过判断的得出结果。图2.1 语音训练部分图2.2 语音处理步骤2.2 语音识别的分类若依应用者的限制而言可语音识别可分为特定人语音与非特定人语音识别。 2.2.1特定人语音识别 使用特定人语音识别系统前,须将使用者的语音参考样本先存入当成比对的资料库,即特定人语音识别系统在使用前就必须先进行上图 2.1 的训练学习步骤。 2.2.2非特定人语音识别 使用本系统前根本不需要先学习,便可以直接使用。一套最佳的语音识别系统是不须经过学习便可以进行语音识别,但通常辩识率都比较低。 另外以说话方式的连续或非连续又可分为非连续语音识别和连续语音识别。对于非连续语音来说,识别所说的每一个字都必须分开辨认;而连续语音识一般可以自然流利的说话方式来进行人性化的语音识别,但由于关系到相连音发音的问题, 很难达到好的辨认效果。 3 方案设计与确定3.1 主控制系统处理芯片的选择和论证本设计首先考虑首先所选的处理芯片必须具备有语音信号处理的功能,根据市场上产品成熟度较高及应用方法较为方便,这里首先考虑两款能进行语音识别的芯片:3.1.1方案一:采用DSP芯片采用DSP芯片的优点:稳定性好,精度高 大规模集成性 可编程性 灵活性好 高速性能 可嵌入性 接口和集成方便、分时复用 保密性好DSP芯片的缺点:成本较高 高频时钟的高频干扰 功率消耗较大等3.1.2方案二:采用凌阳单片机16位单片机SPCE061A采用凌阳16位单片机SPCE061A优点:体积小、集成度高、可靠性好且易于扩展 具有较强的中断处理能力 高性能价格比 功能强、效率高的指令系统 低功耗、低电压 采用凌阳16位单片机SPCE061A缺点:存储空间较小 I/O口控制较为麻烦 抗干扰能较弱3.1.3主控制处理芯片的确定通过上面对比介绍了DSP芯片与凌阳16位单片机的优缺点,考虑到本次设计的要求所设计系统能进行语音识别并完成对风扇开、关,切换档位等进行控制,而本次设计的时间与经费均有限,最终决定采用凌阳16位单片机SPCE061A来完成本设计。其选择原因如下:(1)凌阳单片机SPCE061A具有强大语音处理功能,可实现语音识别。(2)凌阳单片机SPCE061A软件控制指令与常用的51单片机有许多相同之处,短期学习编写容易上手。(3)凌阳单片机SPCE061A价格相对低,性价比高。以上(2)和(3)点是选择凌阳单片机SPCE061A的主要原因。3.2 系统驱动电路方案的论证和选择3.2.1方案一:运用三个继电器外加一些外围电路闭合断开。该方案存在的缺点是:考虑到所控制的电风扇是交流的,若选用继电器,需加的外围电路相对复杂,且该方案的可靠性不高。若对一些阻容参数计算不准确,由于控制的对象电压为220V,很可能烧坏主控制芯片甚至光耦芯片。该方案还有一个缺点是所用的继电器体积较大不方便硬件电路的设计,且价格较高。3.2.2方案二:运用光耦芯片来触发控制控制晶闸管的导通与截止。该方案存在的缺点是:必须设计一个很可靠的晶闸管触发电路,才能得以保证晶闸管能得以按顺序导通并且在关断信号发出的时候晶闸管必须及时关断。3.2.3系统驱动电路方案的确定权衡了方案一、方案二的优缺点后,本设计决定采用方案二。具体采用原因如下:(1)运用光耦首先可以起到一个电气隔离的效果,即若在强电部分发生任何的故障对主控制电路威胁损坏程度不大。(2)晶闸管的体积较小便于硬件电路的设计,且晶闸管的耐压能力较强,控制简单,价格也较为低廉。DSP芯片继电器电风扇凌阳SPCE061A光耦与晶闸管电风扇图3.1 方案一与方案二的论证对比图(3)方案二整体的可靠性比方案一较高,可行性较高,安全性也较高。3.3 总体方案设计3.3.1总体设计框图本文论述语音识别电风扇控制系统设计是采用凌阳单片机SPCE061A微处理器做为整个系统的核心,充分利用其内部集成的用于语音录入的音频ADC和语音输出的双路音频DAC模块,不仅节约了成本,而且也简化了整个系统的设计。运用模型匹配的方法,将输入的语音信号与事先采集好的语音样本进行对比,从而达到语音识别的效果。通过对特定人语音命令的识别,单片机发出相应的电平信号促使光耦导通和关断从而控制晶闸管的导通和截止,既而达到对电风扇开启、关断和档位切换的控制。为了使设计更加完满,本设计在任务之外还多加了一个液晶显示,显示当前电风扇的工作状态。根据该设计要实现的基本功能,电路设计分为语音样本采集,语音信号处理,语音信号输出,I/O接口电路,驱动模块的控制,系统电源设计,液晶显示设计,电风扇内部电路改造七大部分。将这几大部分有机地结合起来,其总体框图如下:交流电源220V液晶显示系统电源DC5V和3.3V.一档驱动二档驱动三档驱动直流电源DC5VDC5VV开关稳压电源音频输出电路发出相应语音回答ADC凌阳16位单片机 SPCE061A DAC音频输入电路电风扇图3.2 系统总体框图4 硬件电路设计4.1 主控制系统的设计经查阅大量资料,权衡了本次设计的时间、经费及所能获得的设备资源,本设计的主控制系统决定采用凌阳16位单片机SPCE061A精简开发板,简称61板。根据本设计的任务,下面介绍一下所用到61板相关功能区的作用并给出相关原理图设计。4.1.1凌阳单片机SPCE061A最小系统设计在OSC32O、OSC32I端接上晶体振荡器及谐振电容,然后在VCOIN端接上相应的电阻和电容。而其他不用的引脚如VDD电源端和GND地端接上0.1uF去耦电容提高抗干扰能力。在61板上还加了外部复位电路 ,复位是对 61板内部的硬件初始化。61 板本身具有上电复位功能,即只要一通电就自动复位。另外,还具有外部复位电路,即在引脚 6 上外加一个低电平就可令其复位。如图 4.1中的 K1 按键。图4.1 SPCE061A最小系统4.1.2系统电源设计61 板的内核SPCE061A电压要求为3.3V, 而I/O端口的电压可以选择 3.3V 也可以选择 5V。所以,在板子上具有两种工作电压:5V和3.3V。对应的引脚中15、36和7 必须为3.3V, 对于I/O端口的电压51、52、75可以为 3.3V 也可以是 5V,这两种电平的选择通过跳线 J5 来选择。61 板的供电源系统采用用户多种选择方式: (1)5V供电 用户可以用3节电池来供电,5V直流电压直接通过SPY0029(相当于一般3.3V稳压器)稳压到3.3V,为整个61 板提供了5V和3.3V两种电平的电压。另外也可以直接外接 5V 的直流稳压源供电,5V 电压再通过SPY0029 稳压到3.3V。(2)3.3V供电 用户可以提供直流 3.3V 电压为实验板进行供电,此时整个板子只有3.3V电压,I/O端口电压此时只有一种选择。 需要注意的是由于 SPY0029A 最大输出电流为 50mA,所以如果需要外接一些组时要先考虑负载能力。图4.2 系统电源电路设计4.1.3音频输出电路设计SPCE061的DA转换通道的硬件实现大致有两类,一类是直接采用数模转换器(DAC)方式,另一类是直接采用脉宽调制( PWM) 驱动方式,SPCE061A 音频输出的结构就是由两个DAC通道或一个PWM驱动通道构成。两类实现方式实质都为数模转换,都是将数字信号转换成电流模拟信号输出。SPCE061A 的音频输出采用双通道数模转换DAC方式,即数字信号通过10位DAC转换成3 mA驱动的电流模拟信号输出。语音提示输出直接采用DAC通道,经信号放大后,由扬声器输出。J3 是语音输出接口,一个2pin的插针外接喇叭,由 DAC输出引脚 21或 22经音频集成功率放大器 LM386放大,然后输出。LM386是美国国家半导体公司生产的音频功率放大器,主要应用于低电压消费类产品。其特性:(1)静态功耗低,约为4mA,可用于电池供电。 (2)工作电压范围宽,4-12V or 5-18V。 (3)外围元件少。 (4)电压增益可调,20-200。 (5)低失真度。图4.3 音频输出电路设计4.1.4音频输入电路设计MIC选用驻极体话筒。驻极体话筒具有结构简单、重量轻、体积小、无方向性、频率响应宽、保真度好等优点,它的偏压由SPCE061A的VMIC管脚提供。在该电路设计需适当加入一些滤波电容,为了减少电源的干扰,需注意电源地与信号地的隔离。图4.4 音频输入电路设计4.1.5显示电路设计本设计使用的液晶模块是LCD1602,可以显示数字、字母、图形符号及少量自定义符号,控制简单,连接线简便。用液晶显示,可以达到很好的人机交互画面。液晶显示的是电风扇的工作状态,以及一句倡导语。LCD1602的优点就是价格相对低廉,体积较小,方便放置。图4.5 显示电路设计4.1.6 I/O接口电路设计61 板将SPCE061A的32 个I/O口全部引出:IOA0IOA15,IOB0IOB15,对应的 SPCE061A 引脚为:A 口,4148、53、5460;B 口,51、8176、6864。而且该I/O口是可编程的,即可以设置为输入或输出:设置为输入时,分为悬浮输入或非悬浮输入,非悬浮输入又可以设置为上拉输入或是下拉输入;在5V情况下,上拉电阻为150K,下拉电阻为110K;设置为输出时,可以选择同相输出或者反相输出。有了I/O接口电路,方便了与电风扇驱动电路的连接。图4.6 I/0接口电路设计4.2 驱动电路的设计本设计的驱动电路主要采用的是光耦控制晶闸管导通与截止从实现对风扇的控制。由于被控对象是交流电压220V供电所以在选择光耦时运用采用光耦合光线激活双边开关零电压隧道双向晶闸管MOC3041,而在晶闸管的选用上采用双向可控硅BTA16。MOC3041的主要参数为:断态重复峰值电压VDRM:400V 通态不重复浪涌电流ITSM:1A BTA16的主要参数为: 电流-IT(RMS): 16.0A 电压-VDRM: 600V 触发电流: IGT 18-25mA选定好光耦器件和晶闸管类型之后,则到了具体连接方法:在光耦输入端采用灌电流的方法,从+5V电源串联接上一个发光二极管作为该路导通、断开的指示灯,再串上350欧姆的限流电阻。在光耦的输出端串接到双向晶闸管的门极上,在此之外必须加上两个限流电阻,在本设计中因为所控制的电风扇是功率50W,额定电压为220V,运用电路理论知识计算得风扇运行时其有效电阻大约为1K欧左右,为了能在通电瞬间更好的保护好MOC3041,必须串联两个分压电阻,如图中的R21和R22。因为BTA16的触发电流最大为25mA左右,而被控对象电压为220V所以R21和R22的阻值经计算分别取355和330欧。考虑到电路中可能出现尖峰脉冲电压(浪涌),可能导致硅器件击穿或误导通。所以在晶闸管旁并联的RC支路(C起主要作用)来吸收了电压尖峰,平缓了尖波速率,防止上述情况发生。光耦输出端的所有电阻,考虑到所承受的有效电压较高,所以均采用功率为2W的电阻,而电容则采用耐压等级为630V的涤纶电容。具体驱动电路的设计原理图如下:图4.7 驱动电路设计4.3 电风扇内部电路改造:本设计所控制的电风扇为普通的家用台扇,其内部大体的原理图如下:电机定时器1档2档3档电容器热熔断器N调速开关器此处焊接白色线引出此处焊接灰色线引出此处焊接紫色线引出此处焊接黑色线引出L图4.8电风扇电路改造图根据该风扇的内部电路,对风扇改造过程中,在调速开关处分别在三个档位及总线处钻孔,然后串接上四个线引出,在串接处补焊上一些焊锡以固定接线处,这样风扇的改造基本完成。5 软件设计5.1 音频的概述 我们所说的音频是指频率在 20 Hz20 kHz 的声音信号,分为:波形声音、语音和音乐三种,其中波形声音就是自然界中所有的声音,是声音数字化的基础。语音也可以表示为波形声音,但波形声音表示不出语言、语音学的内涵。语音是对讲话声音的一次抽象。是语言的载体,是人类社会特有的一种信息系统,是社会交际工具的符号。音乐与语音相比更规范一些,是符号化了的声音。但音乐不能对所有的声音进行符号化。乐谱是符号化声音的符号组,表示比单个符号更复杂的声音信息内容。 5.2 数字音频的采样和量化 将模拟的(连续的)声音波形数字元化(离散化),以便利数字计算机进行处理的过程,主要包括采样和量化两个方面。 数字音频的质量取决于:采样频率和量化位数这两个重要参数。此外,声道的数目、相应的音频设备也是影响音频质量的原因。 5.3 音频格式的介绍音频文件通常分为两类:声音文件和 MIDI 文件 (1)声音文件:指的是通过声音录入设备录制的原始声音,直接记录了真实声音的二进制采样数据,通常文件较大; (2)MIDI 文件:它是一种音乐演奏指令序列,相当于乐谱,可以利用声音输出设备或与计算机相连的电子乐器进行演奏,由于不包含声音数据,其文件尺寸较小。 5.3.1声音文件的格式 WAVE 文件*.WAV WAVE 文件使用三个参数来表示声音 ,它们是:采样位数、采样频率和声道数。在计算机中采样位数一般有 8 位和 16 位两种,而采样频率一般有 11025Hz(11KHz),2050Hz(22KHz)、44100Hz(44KHz)三种。我们以单声道为例,则一般 WAVE 文件的比特率可达到 88K704Kbps。具体介绍如下: (1)WAVE 格式是 Microsoft 公司开发的一种声音文件格式, 它符合 RIFF (Resource Interchange File Format)文件规范;(2)用于保存 Windows 平台的音频信息资源,被 Windows 平台及其应用程序所广泛支持。 (3)WAVE 格式支持 MSADPCM、CCITT A Law、CCITT Law 和其它压缩算法支持多种音频位数、采样频率和声道,是 PC 机上最为流行的声音文件格式。(4)但其文件尺寸较大,多用于存储简短的声音片段。 AIFF 文件AIF/AIFF (1)AIFF 是音频交换文件格式(Audio Interchange File Format)的英文缩写,是苹果计算机公司开发的一种声音文件格式; (2)被 Macintosh 平台及其应用程序所支持,Netscape Navigator 浏览器中的LiveAudio 也支持 AIFF 格式,SGI 及其它专业音频软件包同样支持这种格式。(3)AIFF 支持 ACE2、ACE8、MAC3 和 MAC6 压缩,支持 16 位 44.1Kz 立体声。 Audio 文件*.Audio (1)Audio 文件是 Sun Microsystems 公司推出的一种经过压缩的数字声音格式,是Internet 中常用的声音文件格式; (2)Netscape Navigator 浏览器中的 LiveAudio 也支持 Audio 格式的声音文件。 MPEG 文件*.MP1/*.MP2/*.MP3(1)MPEG 是运动图像专家组(Moving Picture Experts Group)的英文缩写,代表MPEG 标准中的音频部分,即 MPEG 音频层(MPEG Audio Layer); (2)MPEG 音频文件的压缩是一种有损压缩,根据压缩质量和编码复杂程度的不同可分为三层(MPEG Audio Layer1/2/3),分别对应 MP1、MP2 和 MP3 这三种声音文件; (3)MPEG 音频编码具有很高的压缩率,MP1 和 MP2 的压缩率分别为 4:1 和 6:18:1,而 MP3 的压缩率则高达 10:112:1,也就是说一分钟 CD 音质的音乐,未经压缩需要 10MB 存储空间,而经过 MP3 压缩编码后只有 1MB 左右,同时其音质基本保持不失真,因此,目前使用最多的是 MP3 文件格式。 RealAudio 文件*.RA/*.RM/*.RAM (1)RealAudio 文件是 RealNerworks 公司开发的一种新型流式音频(Streaming Audio)文件格式; (2)它包含在 RealMedia 中,主要用于在低速的广域网上实时传输音频信息; (3)网络连接速率不同,客户端所获得的声音质量也不尽相同:对于 28.8Kbps 的连接,可以达到广播级的声音质量;如果拥有 ISDN 或更快的线路连接,则可获得 CD 音质的声音。MIDI 文件*.MID/*.RMI (1)MIDI 是乐器数字接口(Musical Instrument Digital Interface)的英文缩写,是数字音乐/电子合成乐器的统一国际标准; (2)它定义了计算机音乐程序、合成器及其它电子设备交换音乐信号的方式,还规定了不同厂家的电子乐器与计算机连接的电缆和硬件及设备间数据传输的协议,可用于为不同乐器创建数字声音,可以模拟大提琴、小提琴、钢琴等常见乐器; (3)在 MIDI 文件中,只包含产生某种声音的指令,这些指令包括使用什么 MIDI设备的音色、声音的强弱、声音持续多长时间等,计算机将这些指令发送给声卡,声卡按照指令将声音合成出来,MIDI 在重放时可以有不同的效果,这取决于音乐合成器的质量; (4)相对于保存真实采样资料的声音文件,MIDI 文件显得更加紧凑,其文件尺寸通常比声音文件小得多。 5.4 语音压缩编码基础 语音压缩编码中的数据量是指:数据量=(采样频率量化位数)/8(字节数) 声道数目。压缩编码的目的:通过对资料的压缩,达到高效率存储和转换资料的结果,即在保证一定声音质量的条件下,以最小的资料率来表达和传送声音信息。 压缩编码的必要性:实际应用中,未经压缩编码的音频资料量很大,进行传输或存储是不现实的。 所以要通过对信号趋势的预测和冗余信息处理,进行资料的压缩,这样就可以使我们用较少的资源建立更多的信息。 举个例子,没有压缩过的 CD 品质的资料,一分钟的内容需要 11MB 的内存容量来存储。如果将原始资料进行压缩处理,在确保声音品质不失真的前提下,将数据压缩一半,5.5MB 就可以完全还原效果。而在实际操作中,可以依需要来选择合适的算法。 常见的几种音频压缩编码: (1)波形编码:将时间域信号直接变换为数字代码,力图使重建语音波形保持原语音信号的波形形状。波形编码的基本原理是在时间轴上对模拟语音按一定的速率抽样,然后将幅度样本分层量化,并用代码表示。译码是其反过程,将收到的数字序列经过译码和滤波恢复成模拟信号。 如:脉冲编码调制(Pulse Code Modulation,PCM)、差分脉冲编码调制(DPCM)、增量调制(DM)以及它们的各种改进型,如自适应差分脉冲编码调制(ADPCM)、自适应增量调制(ADM)、自适应传输编码(Adaptive Transfer Coding,ATC)和子带编码(SBC)等都属于波形编码技术。 波形编码特点:高话音质量、高码率,适于高保真音乐及语音。(2)参数编码:参数编码又称为声源编码,是将信源信号在频率域或其它正交变换域提取特征参数,并将其变换成数字代码进行传输。译码为其反过程,将收到的数字序列经变换恢复特征参量,再根据特征参量重建语音信号。具体说,参数编码是通过对语音信号特征参数的提取和编码,力图使重建语音信号具有尽可能高的准确性,但重建信号的波形同原语音信号的波形可能会有相当大的差别。如:线性预测编码(LPC)及其它各种改进型都属于参数编码。该编码比特率可压缩到 2Kbit/s-4.8Kbit/s,甚至更低,但语音质量只能达到中等,特别是自然度较低。 参数编码特点:压缩比大,计算量大,音质不高,廉价! (3)混合编码:混合编码使用参数编码技术和波形编码技术,计算机的发展为语音编码技术的研究提供了强有力的工具,大规模、超大规模集成电路的出现,则为语音编码的实现提供了基础。80 年代以来,语音编码技术有了实质性的进展,产生了新一代的编码算法,这就是混合编码。它将波形编码和参数编码组合起来,克服了原有波形编码和参数编码的弱点,结合各自的长处,力图保持波形编码的高质量和参数编码的低速率。如: 多脉冲激励线性预测编码 (MPLPC) , 规划脉冲激励线性预测编码 (KPELPC) ,码本激励线性预测编码(CELP)等都是属于混合编码技术。其数据率和音质介于参数和波形编码之间。 总之,音频压缩技术之趋势有两个: 1)降低资料率,提高压缩比,用于廉价、低保真场合(如:电话)。 2)追求高保真度,复杂的压缩技术(如:CD)。语音合成、辨识技术的介绍:按照实现的功能来分,语音合成可分两个档次: (1) 有限词汇的计算机语音输出 (2) 基于语音合成技术的文字语音转换(TTS:Text-to-Speech)按照人类语言功能的不同层次,语音合成可分为三个层次: (1) 从文字到语音的合成(Text-to-Speech) (2) 从概念到语音的合成(Concept-to-Speech) (3) 从意向到语音的合成(Intention-to-Speech) 图5.1 从文本到语音转换过程示意5.5 本系统所用音频论述5.5.1本系统音频压缩算法的编码标准 表5.1是不同音频质量等级的编码技术标准(频响): 表5-1信号类型频率范围(Hz)采样率(kHz)量化精度(位)电话话音200340088宽带音频(AM质量)5070001616调频广播(FM质量)2015k37.816高质量音频(CD质量)2020k44.116本系统音频压缩算法处理的语音信号的范围是 200Hz3.4KHz 的电话话音。5.5.2压缩分类 压缩分无损压缩和有损压缩。 无损压缩一般指:磁盘文件,压缩比低:2:14:1。 而有损压缩则是指:音视频文件,压缩比可高达 100:1。 凌阳音频压缩算法根据不同的压缩比分为以下几种: SACM-A2000:压缩比为 8:,8:1.25,8:1.5 SACM-S480:压缩比为 80:3,80:4.5 SACM-S240:压缩比为 80:1.5 按音质排序:A2000S480S2405.5.3 本系统的音

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论