语音识别设计20263.doc_第1页
语音识别设计20263.doc_第2页
语音识别设计20263.doc_第3页
语音识别设计20263.doc_第4页
语音识别设计20263.doc_第5页
已阅读5页,还剩20页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

语音识别设计特定人语音识别设计的研究1摘要2Abstract.3目录 .4第一章 绪论.51.1语音识别技术的历史61.2 语音识别技术的现状.71.3语音识别技术的发展趋向8第二章 特定语音识别芯片介绍.92.1凌阳SPCE061A芯片102.2 RSC系列芯片.112.3芯片WS100系列12第三章 特定人语音识别产品开发133.1特定人语音识别技术的开发流程.143.2特定人语音识别技术中的难点.15第四章 结论及展望16参考文献.17致谢.18摘要摘 要: 回顾语音识别技术的发展历史,调查数家语音识别芯片的产品,了解语音识别的开发流程,并对语音识别技术面临的问题和发展前景进行了讨论。关键词: 语音识别;语音芯片;开发流程;技术难点; Abstract Abstract: Review the history of voice recognition technology, the investigation of several speech recognition chip products, to understand the development process for speech recognition, and voice recognition technology problems and development prospects were discussed.Key words: speech recognition; voice chip; development process; technical difficulties第一章 绪论 1.1语音识别技术的历史(1)国内研究历史我国语音识别研究工作起步于五十年代,但近年来发展很快。研究水平也从实验室逐步走向实用。从1987年开始执行国家863计划后,国家863智能计算机专家组为语音识别技术研究专门立项,每两年滚动一次。我国语音识别技术的研究水平已经基本上与国外同步,在汉语语音识别技术上还有自己的特点与优势,并达到国际先进水平。中科院自动化所、声学所、清华大学、北京大学、哈尔滨工业大学、上海交通大学、中国科技大学、北京邮电大学、华中科技大学等科研机构都有实验室进行过语音识别方面的研究,其中具有代表性的研究单位为清华大学电子工程系与中科院自动化研究所模式识别国家重点实验室。 清华大学电子工程系语音技术与专用芯片设计课题组,研发的非特定人汉语数码串连续语音识别系统的识别精度,达到94.8%(不定长数字串)和96.8%(定长数字串)。在有5%的拒识率情况下,系统识别率可以达到96.9%(不定长数字串)和98.7%(定长数字串),这是目前国际最好的识别结果之一,其性能已经接近实用水平。研发的5000词邮包校核非特定人连续语音识别系统的识别率达到98.73%,前三选识别率达99.96%;并且可以识别普通话与四川话两种语言,达到实用要求。 中科院自动化所及其所属模式科技(Pattek)公司2002年发布了他们共同推出的面向不同计算平台和应用的“天语”中文语音系列产品PattekASR,结束了中文语音识别产品自1998年以来一直由国外公司垄断的历史。(1)国外研究历史语音识别的研究工作可以追溯到20世纪50年代AT&T贝尔实验室的Audry系统,它是第一个可以识别十个英文数字的语音识别系统。 但真正取得实质性进展,并将其作为一个重要的课题开展研究则是在60年代末70年代初。这首先是因为计算机技术的发展为语音识别的实现提供了硬件和软件的可能,更重要的是语音信号线性预测编码(LPC)技术和动态时间规整(DTW)技术的提出,有效的解决了语音信号的特征提取和不等长匹配问题。这一时期的语音识别主要基于模板匹配原理,研究的领域局限在特定人,小词汇表的孤立词识别,实现了基于线性预测倒谱和DTW技术的特定人孤立词语音识别系统;同时提出了矢量量化(VQ)和隐马尔可夫模型(HMM)理论。 随着应用领域的扩大,小词汇表、特定人、孤立词等这些对语音识别的约束条件需要放宽,与此同时也带来了许多新的问题:第一,词汇表的扩大使得模板的选取和建立发生困难;第二,连续语音中,各个音素、音节以及词之间没有明显的边界,各个发音单位存在受上下文强烈影响的协同发音(Co-articulation)现象;第三,非特定人识别时,不同的人说相同的话相应的声学特征有很大的差异,即使相同的人在不同的时间、生理、心理状态下,说同样内容的话也会有很大的差异;第四,识别的语音中有背景噪声或其他干扰。因此原有的模板匹配方法已不再适用。 实验室语音识别研究的巨大突破产生于20世纪80年代末:人们终于在实验室突破了大词汇量、连续语音和非特定人这三大障碍,第一次把这三个特性都集成在一个系统中,比较典型的是卡耐基梅隆大学(CarnegieMellonUniversity)的Sphinx系统,它是第一个高性能的非特定人、大词汇量连续语音识别系统。 这一时期,语音识别研究进一步走向深入,其显著特征是HMM模型和人工神经元网络(ANN)在语音识别中的成功应用。HMM模型的广泛应用应归功于AT&TBell实验室Rabiner等科学家的努力,他们把原本艰涩的HMM纯数学模型工程化,从而为更多研究者了解和认识,从而使统计方法成为了语音识别技术的主流。 统计方法将研究者的视线从微观转向宏观,不再刻意追求语音特征的细化,而是更多地从整体平均(统计)的角度来建立最佳的语音识别系统。在声学模型方面,以Markov链为基础的语音序列建模方法HMM(隐式Markov链)比较有效地解决了语音信号短时稳定、长时时变的特性,并且能根据一些基本建模单元构造成连续语音的句子模型,达到了比较高的建模精度和建模灵活性。在语言层面上,通过统计真实大规模语料的词之间同现概率即N元统计模型来区分识别带来的模糊音和同音词。另外,人工神经网络方法、基于文法规则的语言处理机制等也在语音识别中得到了应用。 20世纪90年代前期,许多著名的大公司如IBM、苹果、ATT和NTT都对语音识别系统的实用化研究投以巨资。语音识别技术有一个很好的评估机制,那就是识别的准确率,而这项指标在20世纪90年代中后期实验室研究中得到了不断的提高。比较有代表性的系统有:IBM公司推出的ViaVoice和DragonSystem公司的NaturallySpeaking,Nuance公司的NuanceVoicePlatform语音平台,Microsoft的Whisper,Sun的VoiceTone等。 其中IBM公司于1997年开发出汉语ViaVoice语音识别系统,次年又开发出可以识别上海话、广东话和四川话等地方口音的语音识别系统ViaVoice98。它带有一个32,000词的基本词汇表,可以扩展到65,000词,还包括办公常用词条,具有“纠错机制”,其平均识别率可以达到95%。该系统对新闻语音识别具有较高的精度,是目前具有代表性的汉语连续语音识别系统。 1.2语音识别技术的现状在电话与通信系统中,智能语音接口正在把电话机从一个单纯的服务工具变成为一个服务的“提供者”和生活“伙伴”;使用电话与通信网络,人们可以通过语音命令方便地从远端的数据库系统中查询与提取有关的信息;随着计算机的小型化,键盘已经成为移动平台的一个很大障碍,想象一下如果手机仅仅只有一个手表那么大,再用键盘进行拨号操作已经是不可能的。语音识别正逐步成为信息技术中人机接口的关键技术,语音识别技术与语音合成技术结合使人们能够甩掉键盘,通过语音命令进行操作。语音技术的应用已经成为一个具有竞争性的新兴高技术产业。 语音识别技术发展到今天,特别是中小词汇量非特定人语音识别系统识别精度已经大于98%,对特定人语音识别系统的识别精度就更高。这些技术已经能够满足通常应用的要求。由于大规模集成电路技术的发展,这些复杂的语音识别系统也已经完全可以制成专用芯片,大量生产。在西方经济发达国家,大量的语音识别产品已经进入市场和服务领域。一些用户交机、电话机、手机已经包含了语音识别拨号功能,还有语音记事本、语音智能玩具等产品也包括语音识别与语音合成功能。人们可以通过电话网络用语音识别口语对话系统查询有关的机票、旅游、银行信息,并且取得很好的结果。调查统计表明多达85%以上的人对语音识别的信息查询服务系统的性能表示满意。 可以预测在近五到十年内,语音识别系统的应用将更加广泛。各种各样的语音识别系统产品将出现在市场上。人们也将调整自己的说话方式以适应各种各样的识别系统。在短期内还不可能造出具有和人相比拟的语音识别系统,要建成这样一个系统仍然是人类面临的一个大的挑战,我们只能一步步朝着改进语音识别系统的方向一步步地前进。第二章 特定语音识别芯片介绍 RSC-4x系列 RSC-4x是Sensory INC.第4代的语音识别产品,它具有所有RSC-300/364的所有特性之外,还增加了不少功能。RSC4x支持Sensory Speech 7技术,改进的算法使识别准确率得到提高。新增的T2SI技术使得制作SI模版节省了时间和资金投入。在语音合成算法上也作了改进,“SX”压缩技术使得语音的压缩率可以达到3K8K bps(bits-per-second),是原来的1/10-1/4,大大减少了存储空间,节约了成本。RSC-4x有三种型号,RSC-4000不含程序存储空间,RSC-4128 内部含128K程序存储空间,RSC-4256内部含256K程序存储空间,供用户灵活选用。 SC-4X系列是新一代嵌入式语音识别处理器集成电路,它具有集成度高、外围电路简单、功耗低、不怕掉电、使用方便等特点。一个完整的语音识别系统仅由RSC-4X系列芯片及少量外部元器件(扬声器、麦克风、音频输入/输出电路、存储器和电池或整流稳压电源)等组成。RSC-4X系列芯片适用美国SENSORY公司的7.0语音识别技术。SENSORY 7.0语音识别技术充分利用RSC-4X系列芯片新增的硬件电路,它包括一个带有双向直接存储器的向量处理器、16位A/D转换器、10位D/A转换器、主晶振锁相环、带自动增益控制的麦克风前置放大器、低电池干扰的PWM扬声器驱动电路、两个独立的计时器加单独的看门狗电路、4个比较器输入及24个I/O口。 RSC-4X系列芯片语音识别微处理器内嵌入一套先进精确的识别算术运算法,支持第七语音,能运用在复杂的神经网络技术中,增强了识别率的正确度,对于单独语音识别的SI识别率超过97%以上, 对于多路语音识别的SD识别率也超过99%以上。RSC-4X系列芯片可允许同时连续接收5个SI或者10个SD命令。RSC-4X系列芯片具有精确和高质量的语音识别能力,外部存储器总线为20位地址和8位数据线,无须通过ROM存放功能实现代码安全,语音识别速度加快,高抗噪性能及低电磁干扰设计,低数据率语音合成以及更多智能化控制特征。RSC系列:Sensory的RSC-4X和RSC-3X系列是一高度集成语音识别及语音合成处理器,针对的是消费类、手持类及车载类产品。该芯片拥有多种功能,包括非特定人(SI)/特定人(SD)的语音识别、语音确认、语音和音乐的合成、录音和回放。我们可以提供演示板、编译器和开发工具,同时提供给您全方位的技术支持。SC系列:SC-6XX系列是SENSORY公司推出的语音合成芯片。该系列IC内含一片16bit的处理器,可以进行高质量低数据率的语音压缩和MIDI音乐合成。无论您的产品是只说几个字还是要说上几分钟,该系列产品都可以满足您的要求,因为它可以提供从几秒到几小时的语音播放功能。SVC系列:SVC/SVC-64系列综合了新的基于文字的说话者确认技术和一个8bit的微型控制器,是特为消费类电子产品中的密码生统安全装置而设计的芯片。SVC/SVC-64单个芯片就具备了一个微型控制器的灵活性以及Sensory最新的VoiceLockTM技术。ASSPs:VoiceExtreme和VoiceDirect是用来更方便和快速的执行语音识别和语音合成的语音程序处理器。是低成本、简单易用的产品开发包。 Sensory是嵌入式语音技术领域世界级的领导者。它的语音技术包括:语音识别、说话者确认、语音及音乐合成和动画语音。Sensory的IC和嵌入式软件被广泛用于消费者电子产品包括电话、家居自动化、玩具、远程控制、汽车、安全装置、学习辅助工具以及其他需要语音输入和输出的产品。消费类电子行业的很多巨子如Hasbro,JVC,Kenwood,Mattel,Mitsubishi,Toshiba,Uniden,Sony等等都是Sensory的客户应用于消费类电子产品上的交互式语音集成芯片(RSC-100/164T,RSC-300/364,RSC4XX)是一种高性能、低成本的8位MCU,所有这类芯片内部集成有ADC、DAC、ROM(除了RSC-100/300)、RAM和麦克风的预放大电路,并拥有以下多种功能:与说话者无关/有关的语音识别、语音确认(PASSWORD)、语音和音乐合成,录音和回放、快速数字拨号(只有RSC-300/364)、持续监听。 产品线有两种通用目的的微处理器(RSC系列) 1. RSC-100/164T低成本的版本(只支持4.0版本技术) 2. RSC-300/364(支持最新版本的6.0版本技术),它有更快的响应时间、先进和附加的技术(包括数字拨号,固定单词触发,同时产生数字记录和识别模板) 3. RSC-164/364产品的特性 a) 有64k内置ROM的8位微处理器; b) 集成有A/D和D/A转换器; c) DAC或PWM(Pulse Width Modulation); d) 可实现DTMF 拨号; e) 音源的AGC功能; f) 16个通用I/O端口; g) 片上有输出放大器; h) 省电模式-最小的功耗(小于5UA)。 RSC-300/364产品特性 RSC-300/364是专门为消费类电子产品应用而设计的,拥有高度集成和高识别率的系统化芯片。RSC-300/364有额外的SDAM和硬件加速器去支持SENSORY的最新技术(5.0以上)。这种特别设计的8位微处理器在拥有灵活的编程时支持一系列语音技术:与说话者无关/有关的识别、语音和音乐的合成、语音确认、语音提示、持续监听、快速数字拨号、录音和回放。RSC-300/364允许在片上存储最多6个与说话者有关的短句。RSC-300与RSC-364的区别就是少一个64K的ROM,根据封装和版本的不同,RSC-300/364的价格在2.23.9美元之间。 RSC-4x产品特性 RSC-4x是Sensory INC.第4代的语音识别产品,它具有所有RSC-300/364的所有特性之外,还增加了不少功能。RSC4x支持Sensory Speech 7技术,改进的算法使识别准确率得到提高。新增的T2SI技术使得制作SI模版节省了时间和资金投入。在语音合成算法上也作了改进,“SX”压缩技术使得语音的压缩率可以达到3K8K bps(bits-per-second),是原来的1/10-1/4,大大减少了存储空间,节约了成本。RSC-4x有三种型号,RSC-4000不含程序存储空间,RSC-4128 内部含128K程序存储空间,RSC-4256内部含256K程序存储空间,供用户灵活选用。 VOICE DAILER特性(ASSP) VOICE DAILER364是为了增加语音拨号而设计的,它可应用在非手持的车载电话、手持电话、PDA、答录机和其它个人电子设备。使用者只需说出名字便可拨出相关的电话;VOICE DAILER-364芯片可管理一整套电话目录,包括名字、电话号码和语音识别模板。 SENSORY技术 与说话者有关的语音识别 (Speaker Dependent, SD) 在识别时,每个识别词语需要使用者训练两次来创建语音模板,一个模板需要占用128个字节的 存储量。由于练习的原因,一般把需识别的词汇量限制在60个以内,但超过100个也是完全可以的。通过正常设计, SENSORY的SD技术能达到99%的准确率。 与说话者无关的语音识别 (Speaker Independent, SI) 不需要训练 SI技术是为一种指定的语系而设计的(如英语、汉语、德语),它最多能识别14条命令(识别数量由ROM的容量决定)。通过正常设计,SENSORY的SI技术能达到97%的准确率 语音确认 (Speaker Verification, SV) 同SD技术有点相似,SV能辨别出现在的一句话与原来说的是否相同。使用者可以训练14级密码(密码级数越多越安全)来开启设备。误识率大概在16%。根据环境、使用者数量、要求的安全程度的不同可设定五级训练难度。 语音自适应技术 (Speaker Adaptive, SA) 对于单用户来说,SA通过一段时间对环境和说话者声音的适应,改进相关的语音模板,从而提高识别准确率。 持续监听 (Continuous Listening, CL) 持续监听技术不需按键便可对某个特别、非连续的命令(在这之前需要静音)产生响应, SENSORY提供SI和SD两种持续监听技术。 WORD SPOTTING 在一句话中响应某个指定词语。 WORD SPOTTING是持续监听的升级版本,它可以从正常的谈话中“捕捉”并响应某个关键词语,这种技术提供了更为自然、友好的人机界面。 快速数字拨号 (Fast Digit) 输入电话号码和数字串 快速数字拨号采用了优化的识别算法来实现快速数字串输入,这种技术对语音拨号应用是非常理想的,辟如用在手持通信设备、个人拨号器,手机、非手持设备。 录音和回放 (Record & Playback) 压缩的数字声音再现。 SENSORY的交互式语音处理器可以14Kbit/s的数据率来存储声音在外置的RAM上。它可用在答录机、变音器、手持录音设备上。根据回放的质量和数量要求,也可以改变片上的压缩率。录音过程中出现完全静音时,微处理器会自动去掉静音这一段来改善声音质量,节约存储空间。 语音合成 (Speech Synthesis) 创建一个自然的使用界面。 语音效果合成是通过在片上的微处理器读取ROM上的数据实现的。SENSORY合成技术使用了时域技术来压缩语音,使数据率在10kbit/s以下,另外使用了加强的ADPCM算法来回放声音。语音合成技术降低了对手工指令的依赖,使人机界面更为友好。 音乐合成 (Music Synthesis) SENSORY的音乐合成技术能产生四首模拟乐曲,用户也可用一种乐器的声音和音阶来自定义乐库。合成技术不同于数字录音,一首23分钟的歌曲只需5KB的片外存储容量,在电话机的应用中,这种功能还可以产生DTMF音,使RSC微处理器实现直接拨号功能。 产品控制 完全的系统芯片解决方法。 RSC语音处理器可单独工作或作为协处理器来实现语音功能,通常,它是一个复杂系统的核心:它可提供可变长度的指令,传输率达到4MIPS 、两个计时器、外部存储器接口、DAC和PWM输出,麦克风预放大器、16个I/O端口等。 SPCE061A芯片SPCE061A 是继nSP(Microcontroller and Signal Processor)系列产品SPCE500A等之后凌阳科技推出的又一款16位结构的微控制器。与SPCE500A不同的是,在存储器资源方面考虑到用户的较少资源的需求以及便于程序调试等功能,SPCE061A里只内嵌32K字的闪存(FLASH)。较高的处理速度使nSP能够非常容易地、快速地处理复杂的数字信号。因此,与SPCE500A相比,以nSP为核心的SPCE061A微控制器是适用于数字语音识别应用领域产品的一种经济的选择。开发方法SPCE061A的开发是通过在线调试器PROBE实现的。它既是一个编程器(即程序烧写器),又是一个实时在线调试器。用它可以替代在单片机应用项目的开发过程中常用的软件工具硬件在线实时仿真器和程序烧写器。它利用了SPCE061A片内置的在线仿真电路ICE(In- Circuit Emulator)接口和凌阳公司的在线串行编程技术。PROBE工作于凌阳IDE集成开发环境软件包下,其5芯的仿真头直接连接到目标电路板上SPCE061A相应管脚,直接在目标电路板上的CPU-SPCE061A调试、运行用户编制的程序。PROBE的另一头是标准25针打印机接口,直接连接到计算机打印口与上位机通讯,在计算机IDE集成开发环境软件包下,完成在线调试功能。 SPCE061A最小系统 在OSC0、OSC1端接上晶振及谐振电容,在锁相环压控振荡器的阻容输入VCP端接上相应的电容电阻后即可工作。其它不用的电源端和地端接上0.1µF的去藕电容提高抗干扰能力。性能 16位µnSP微处理器; 工作电压(CPU) VDD为2.43.6V (I/O) VDDH为2.45VCPU时钟:0.32MHz49.152MHz ; 内置2K字SRAM内置32K FLASH; 可编程音频处理; 晶体振荡器; 系统处于备用状态下(时钟处于停止状态),耗为2µA3.6V; 2个16位可编程定时器/计数器(可自动预置初始计数值); 2个10位DAC(数-模转换)输出通道; 32位通用可编程输入/输出端口; 14个中断源可来自定时器A / B,时基,2个外部时钟源唤醒; 具备触键唤醒的功能; 使用凌阳音频编码SACM_S240方式(2.4K位/秒),能容纳10秒的语音数据; 锁相环PLL振荡器提供系统时钟信号; 32768Hz实时时钟; 7通道10位电压模-数转换器(ADC)和单通道声音模-数转 换器;声音模-数转换器输入通道内置麦克风放大器和自动增益控制(A GC)功能; 具备串行设备接口; 具有低电压复位(LVR)功能和低电压监测(LVD)功能;内置在线仿真电路ICE(In- Circuit Emulator)接口;具有保密能力; 具有WatchDog功能。 WS100芯片16位MCU,高速处理语音信号,语音识别时没有一点延时感觉;芯片内潜入了公司开发的特定人语音识别引擎,对特定人可识别200条语音命令,识别率高达98%; 整套系统具有一定的抗噪性能,在有一些背景噪音的环境下,仍具有很高的识别率; 芯片在语音识别后,能够返回大量丰富的提示音,让您和芯片交流更亲切;丰富的外设(键盘操作、液晶显示、I/O口和串口输出),方便为您进行二次开发。 应用领域 高档智能玩具(比如能和儿童交流的语音娃娃、声控玩具汽车等)、汽车电子语音导航系统、家电语音智能控制(比如空调、冰箱、消毒柜、洗衣机、电灯等)、手机(比如语音拨号)、PDA等。芯片技术参数:WS-100是一个16 位结构的微控制器,在存储器资源方面考虑到用户的较少资源的需求以及便于程序调试等功能,WS-100 里只内嵌32K 字的闪存Flash ROM。较高的处理速度使其能够非常容易地、快速地处理复杂的数字信号,适用在数字语音识别应用领域。WS-300 2.6V3.6V 工作电压范围内的工作速度范围0.32MHz49.152MHz,较高的工作速度使其应用领域更加拓宽。2K 字SRAM 和32K 字闪存ROM 仅占一页存储空间,32 位可编程的多功能I/O 端口;两个16 位定时器/计数器;32768Hz 实时时钟;低电压复位/监测功能;8 通道10 位模-数转换输入功能并具有内置自动增益控制功能的麦克风输入方式;双通道10 位DAC 方式的音频输出功能。WS-100 是数字声音和语音识别产品的一种最经济的应用。性能 16 位微处理器; 工作电压:VDD 为2.63.6V(cpu), VDDH 为VDD5.5V(I/O); CPU 时钟:0.32MHz49.152MHz ; 内置2K 字SRAM; 内置32K 闪存ROM; 可编程音频处理,主要是特定人语音识别,识别率达到97%以上; 晶体振荡器; 系统处于备用状态下(时钟处于停止状态),耗电小于2A3.6V; 2 个16 位可编程定时器/计数器(可自动预置初始计数值); 2 个10 位DAC(数-模转换)输出通道; 32 位通用可编程输入/输出端口; 14 个中断源可来自定时器A / B,时基,2 个外部时钟源输入,键唤醒; 具备触键唤醒的功能; 使用多种音频压缩编码方式,压缩率高,保真度大 锁相环PLL 振荡器提供系统时钟信号; 32768Hz 实时时钟; 7 通道10 位电压模-数转换器(ADC)和单通道声音模-数转换器 声音模-数转换器输入通道内置麦克风放大器和自动增益控制(AGC)功能; 具备串行设备接口; 低电压复位(LVR)功能和低电压监测(LVD)功能第三章 特定人语音识别设计技术流程目前,常用的说话人识别方法。其系统构成如图语音输入 预处理特征提取参考模块库模块匹配判断逻辑识别结果输出语音录 入预处理:包括语音信号的采样、反混叠滤波、语音增强。特征提取:用以从语音信号波形中提取一组或几组能够描述语音信号特征的参数。 构建参考模块:词表中每个词对应一个参考模式,它由这个词重复发音多遍,再经特征提取和某种训练中得到。 模式匹配:按照一定的准则求取待测语音特征参数和语音信息与模式库中相应模板之间的失真测度,最匹配的就是识别结果。特定人语音识别的方法流程目前,常用的说话人识别方法有模板匹配法、统计建模法、联接主义法(即人工神经网络实现)。考虑到数据量、实时性以及识别率的问题,采用基于矢量量化和隐马尔可夫模型(HMM)相结合的方法。预处理是指对语音信号的特殊处理:预加重,分帧处理。预加重的目的是提升高频部分,使信号的频谱变得平坦,以便于进行频谱分析或声道参数分析。用具有 6dB/倍频程的提升高频特性的预加重数字滤波器实现。虽然语音信号是非平稳时变的,但是可以认为是局部短时平稳。故语音信号分析常分段或分帧来处理。语音特征矢量提取单元说话人识别系统设计中的根本问题是如何从语音信号中提取表征人的基本特征。即语音特征矢量的提取是整个说话人识别系统的基础,对说话人识别的错误拒绝率和错误接受率有着极其重要的影响。同语音识别不同,说话人识别利用的是语音信号中的说话人信息,而不考虑语音中的字词意思,它强调说话人的个性。因此,单一的语音特征矢量很难提高识别率。该系统在说话人的识别中采用倒谱系数加基因周期参数,而在对控制命令的语音识别中仅采用倒谱系数。其中,常用的倒谱系数有2 种,即LPC(线性预测系数)和倒谱参数(LPCC),一种是基于Mel刻度的MFLL(频率倒谱系数)参数(Mel频率谱系数)。 训练单元训练单元的功能是把事先收集到的语音利用一定的算法为每一个待识别的说话人训练出与之相匹配的参数。针对说话人识别在汽车应用中的不同的要求,训练单元也分为2部分:对说话人识别的训练和对待识别词的训练。 识别单元识别单元的功能是利用经训练已经获得的HMM模型参数 和测得的说话人的基音周期在一定的判决条件下辨认出待识别的说话人并估计出待识别的控制命令词串。针对HMM模型参数通常采用的判决条件是最大后验概率,用Viterbi算法实现。后处理单元充分利用每个说话人的声道参数和词条中各状态持续时间的概率分布来改进系统的识别率。 3.2特定人语音识别技术中的难点(1) 语音信号的多变性 语音信号是非平稳随机信号,不但不同发音者发音之间存在重大的差异,即使同一人同一语音的不同次发音,也存在很大差异。(2) 噪声影响 当实际环境中有噪声存在时,容易造成训练与测试环境不匹配导致语音识别系统性能急剧下降。 (3) 端点检测 统计表明语音识别系统一半以上的识别错误来自端点检测错误。在安静环境下有声段和无声段时能量存在很大差异,由此判断语音的起点。但是当噪声的能量和语音信号的能量接近时就可能造成端点检测的误差从而导致识别结果错误(4) 词与词的特征空间混叠 语音识别的常规方法是利用语音信号的短时周期特性将语音时域采样信号分为若干段,计算出每一段的特征矢量序列作为识别参数。但是很多不同的词语的矢量序列在特征空间中存在混叠现象,甚至有些不同词语的混叠程度会超过同一词语的不同次发音,从而降低识别率。 第四章 结论及展望随着社会的进步和科技的发展,人们对生活以及居住环境提出了更高的要求,智能家居逐渐成为中国家居消费市场的新潮流。目前,国内部分地区、特别是经济比较发达的地区,已经有很多社区实现了智能家居生活。智能家居的日渐兴起已经开始影响到人们生活的方方面面,改变了人们日常的生活习惯,提高了人们的生活质量,促使家庭实现了生活现代化,给人们的家居生活带来了全新的感受。 据调查,到2010年智能家居全球市场规模将达到5000亿美元以上,届时将有数亿个家庭使用数字化设备。中国每年在智能家居领域有超过700亿市场份额,并以20%的速度快速增长。而随着中国各地政府提出建设平安城市、上海世博会、广州亚运会、深圳大运会陆续举行,都将给智能家居行业带来巨大商机。当前,随着第三代移动通信技术(3rd-generation,3G)成熟和商业的广泛应用,智能家居借助这个平台也在寻求更快速的发展。目前移动运营商推出各种各样的3G产品运营模式,比如:家庭信息化、家庭智能、家庭安全等增值运营业务,必将为家电的智能化、网络化培育日趋完善的产业链。视频通话、家庭远程监控、手机网络控制,以及通过3G技术发展的各种智能家电的控制等等都得到了消费者的关注,依托3G技术的家庭智能化正在变成现实。第五章 参考文献1声控3C智能型电冰箱技术 - 电子发烧友网2. 将声控技术应用于电动窗帘 - 河南家具 - 中国家具网 3将声控技术应用于窗帘电机的技术浅析-声控,窗帘电机-智能家居行业-hc360慧聪网4语音识别技术的研究与发展 作者:王敏妲 5特定人语音识别技术研究-土豆网6排行榜 - 中国智能家居十大品牌排行榜 - 新榜网 致谢本课题是本人对于特定人语音识别技术的粗略了解。其中难免有所不足,望广大读者,批评指出。本人定当适当修改,谢谢!袁节膅薂羄肅蒃薁蚃芀荿薀螆肃芅蕿袈芈膁蚈羀肁蒀蚇蚀袄莆蚇螂肀莂蚆羅袂芈蚅蚄膈膄蚄螇羁蒂蚃衿膆莈蚂羁罿芄螁蚁膄膀螁螃羇葿螀袅膃蒅蝿肈羆莁螈螇芁芇莄袀肄膃莄羂艿蒂莃蚂肂莈蒂螄芈芄蒁袆肀膀蒀罿袃薈葿螈聿蒄葿袁羁莀蒈羃膇芆蒇蚃羀膂蒆螅膅蒁薅袇羈莇薄罿膄芃薃虿羆艿薃袁节膅薂羄肅蒃薁蚃芀荿薀螆肃芅蕿袈芈膁蚈羀肁蒀蚇蚀袄莆蚇螂肀莂蚆羅袂芈蚅蚄膈膄蚄螇羁蒂蚃衿膆莈蚂羁罿芄螁蚁膄膀螁螃羇葿螀袅膃蒅蝿肈羆莁螈螇芁芇莄袀肄膃莄羂艿蒂莃蚂肂莈蒂螄芈芄蒁袆肀膀蒀罿袃薈葿螈聿蒄葿袁羁莀蒈羃膇芆蒇蚃羀膂蒆螅膅蒁薅袇羈莇袄芈蒇袇螀芇蕿蚀聿芆艿蒃肅芅蒁螈羁芄薃薁袆芃芃螆螂芃莅蕿肁节蒈螅羇莁薀薈袃莀艿螃蝿荿莂薆膈莈薄袁肄莇蚆蚄羀莇莆袀袆羃蒈蚂螂羂薁袈肀肁芀蚁羆肁莃袆袂肀薅虿袈聿蚇蒂膇肈莇螇肃肇葿薀罿肆薂螆袅肅芁薈螁膅莃螄聿膄蒆薇羅膃蚈螂羁膂莈蚅袇膁蒀袀螃膀薂蚃肂腿节衿羈腿莄蚂袄芈蒇袇螀芇蕿蚀聿芆艿蒃肅芅蒁螈羁芄薃薁袆芃芃螆螂芃莅蕿肁节蒈螅羇莁薀薈袃莀艿螃蝿荿莂薆膈莈薄袁肄莇蚆蚄羀莇莆袀袆羃蒈蚂螂羂薁袈肀肁芀蚁羆肁莃袆袂肀薅虿袈聿蚇蒂膇肈莇螇肃肇葿薀罿肆薂螆袅肅芁薈螁膅莃螄聿膄蒆薇羅膃蚈螂羁膂莈蚅袇膁蒀袀螃膀薂蚃肂腿节衿羈腿莄蚂袄芈蒇袇螀芇蕿蚀聿芆艿蒃肅芅蒁螈羁芄薃薁袆芃芃螆螂芃莅蕿肁节蒈螅羇莁薀薈袃莀艿螃蝿荿莂薆膈莈薄袁肄莇蚆蚄羀莇莆袀袆羃蒈蚂螂羂薁袈肀肁芀蚁羆肁莃袆袂肀薅虿袈聿蚇蒂膇肈莇螇肃肇葿薀罿肆薂螆袅肅芁薈螁膅莃螄聿膄蒆薇羅膃蚈螂羁膂莈蚅袇膁蒀袀螃膀薂蚃肂腿节衿羈腿莄蚂袄芈蒇袇螀芇蕿蚀聿芆艿蒃肅芅蒁螈羁芄薃薁袆芃芃螆螂芃莅蕿肁节蒈螅羇莁薀薈袃莀艿螃蝿荿莂薆膈莈薄袁肄莇蚆蚄羀莇莆袀袆羃蒈蚂螂羂薁袈肀肁芀蚁羆肁莃袆袂肀薅虿袈聿蚇蒂膇肈莇螇肃肇葿薀罿肆薂螆袅肅芁薈螁膅莃螄聿膄蒆薇羅膃蚈螂羁膂莈蚅袇膁蒀袀螃膀薂蚃肂腿节衿羈腿莄蚂袄芈蒇袇螀芇蕿蚀聿芆艿蒃肅芅蒁螈羁芄薃薁袆芃芃螆螂芃莅蕿肁节蒈螅羇莁薀薈袃莀艿螃蝿荿莂薆膈莈薄袁肄莇蚆蚄羀莇莆袀袆羃蒈蚂螂羂薁袈肀肁芀蚁羆肁莃袆袂肀薅虿袈聿蚇蒂膇肈莇螇肃肇葿薀罿肆薂螆袅肅芁薈螁膅莃螄聿膄蒆薇羅膃蚈螂羁膂莈蚅袇膁蒀袀螃膀薂蚃肂腿节衿羈腿莄蚂袄芈蒇袇螀芇蕿蚀聿芆艿蒃肅芅蒁螈羁芄薃薁袆芃芃螆螂芃莅蕿肁节蒈螅羇莁薀薈袃莀艿螃蝿荿莂薆膈莈薄袁肄莇蚆蚄羀莇莆袀袆羃蒈蚂螂羂薁袈肀肁芀蚁羆肁莃袆袂肀薅虿袈聿蚇蒂膇肈莇螇肃肇葿薀罿肆薂螆袅肅芁薈螁膅莃螄聿膄蒆薇袁节膅薂羄肅蒃薁蚃芀荿薀螆肃芅蕿袈芈膁蚈羀肁蒀蚇蚀袄莆蚇螂肀莂蚆羅袂芈蚅蚄膈膄蚄螇羁蒂蚃衿膆莈蚂羁罿芄螁蚁膄膀螁螃羇葿螀袅膃蒅蝿肈羆莁螈螇芁芇莄袀肄膃莄羂艿蒂莃蚂肂莈蒂螄芈芄蒁袆肀膀蒀罿袃薈葿螈聿蒄葿袁羁莀蒈羃膇芆蒇蚃羀膂蒆螅膅蒁薅袇羈莇薄罿膄芃薃虿羆艿薃袁节膅薂羄肅蒃薁蚃芀荿薀螆肃芅蕿袈芈膁蚈羀肁

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论