【《某陪伴机器人的总体结构设计案例》2100字】_第1页
【《某陪伴机器人的总体结构设计案例》2100字】_第2页
【《某陪伴机器人的总体结构设计案例》2100字】_第3页
【《某陪伴机器人的总体结构设计案例》2100字】_第4页
【《某陪伴机器人的总体结构设计案例》2100字】_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

某陪伴机器人的总体结构设计案例1.1总体结构设计图2-1系统总体运行结构图树莓派嵌入式平台信息加密图2-1系统总体运行结构图树莓派嵌入式平台信息加密声色模仿云数据库传感避障电机控制语音识别1.2人机交互部分作为陪伴型机器人,人机交互部分尤为重要。人机交互部分主要以语音交互部分为核心,语音交互部分可分为语音采集、语音识别、声色模仿三个部分,下面将对这三个部分进行详细论述。1.1.1语音采集语音采集为语音交互部分的先导环节,采集到的声音质量对于后续的语音识别来说尤为重要。目前的语音采集设备主要有全向麦克风和单指向麦克风两种,为了保障足够的拾音效果和后续的语音识别率以及用户语音交互的体验感,此处所使用的采集设备为全向麦克风。全向麦克风的灵敏度高,拾音半径大,一米两米三米五米的都有,跟单向麦克风的十几公分相比,具有很大优势。当然这也导致了一个弊端,即容易将环境噪音拾取进来,音质上会受一定影响。但在对全向麦接收的信号进行降噪处理后依旧能够获得较好的音质。1.1.2语音识别所谓语音识别,就是将一段语音信号转换成相对应的文本信息,过程主要包含语音特征提取、声学模型以及编解码三大部分,此外为了更有效地提取特征往往还需要对所采集到的声音信号进行滤波、分帧等音频数据预处理工作,将需要图2-2语音识别过程语音输入语音特征提取图2-2语音识别过程语音输入语音特征提取声学模型编码与解码语音或文本输出语言模型图2-2中,语音特征提取工作将声音信号从时域转换到频域,为声学模型提供合适的特征向量;声学模型再根据声学特性计算每一个特征向量在声学特征上的得分;而语言模型则根据语言学相关的理论,计算该声音信号对应可能词组序列的概率;最后根据已有的字典,对词组序列进行解码,得到最后可能的文本或者语音表示输出。下面将分别介绍各个部分的工作原理:1)语音特征处理对于语音识别系统,语音特征这里指SignalAnalysis。对于麦克风采集到的信号,可用倒谱分析;对于ASR,常用的特征是FBANK、MFCCs以及PLP特征。处理的特征应该包括足够的信息以区分音素(好的时间分辨率10ms,好的频率分辨率20~40ms),独立于基频f0和其谐波,对不同的说话人要有鲁棒性,对噪声和通道失真要有鲁棒性,具有好的模型匹配特征(特征维度尽量低,对于GMM还要求特征之间独立,对于NN方法则无此要求)。对于ASR情况,采样率fs≤20KHz即有效语音频谱包含10kHz就足够了。为了识别率,通常有以下指标需要关注:采样率,截止频率在8kHz,这要求采样率fs≥16kHz,为了防止频谱混跌,通常采样率大于16kHz,经过重采样后到16kHz为了减小语音失真,通常处理过程不加AGC,如果服务端有抗噪训练也不加NS,如果不能处理噪声,NS也是需要的.避免语音被截幅,AOP要高,峰值电平在-20~10dBFS为宜频谱尽量平坦(±3dB,100−8000Hz)。其有两层意义,一是麦克风频谱要求尽量频谱,二是声音传播损耗需要预加重来增强。总谐波失真要小,小于1%(100Hz−8kHz)SNR要高,≥65dB为佳,以减小ADC器件本身带来的噪声。采样有效比特数,其影响的是信噪比,大于等于16bit即可语音传输到服务端,对识别率由好到差(网络带宽由大到小)是:FLAC/LINEAR16、AWR_WB,OGG_OPUS。2)声学模型声学模型使用GMM-HMM(混合高斯-隐马尔科夫模型,Gaussianmixturemodel-HMM),训练该模型的准则有早期的最大似然准则(MaximumLikelihood,ML),中期的序列判别训练法(SequenceHierarchicalModel),以及目前广泛使用的深度神经元网络(DeepNeuralNetwork,DNN)特征学习法。GMM模型用在说话人识别,语音特性降噪以及语音识别方面。3)语言模型通过对大量文本信息进行训练,得到单个字或者词之间相互关联的概率。如使用贝叶斯准则,其公式如下:P(S|audio)=P(audio|S)∗P(S)/4)解码就是通过声学模型,字典,语言模型对提取特征后的音频数据进行文字输出。1.1.3声色模仿图2-3声色模仿过程图激励系统声道系统图2-3声色模仿过程图激励系统声道系统辐射系统语音信号生物声音的产生主要就是靠的各种生物的发声器官,以人体作为示例,喉咙声带以及嘴巴都是发声的器官,如果继续往下看的话,其实还有管和支气管以及肺部组成继发声门系统。由此可以将根据发声器官的功能将整个过程划分为三个部分。如图2-3所示,第一部分为动力器官,即产生声门波的声门,也叫激励系统;第二部分负责调谐,是指从声门到嘴巴的整个呼吸通道,这一块被称为声道系统;第三部分就是辐射系统,将声音发送出去的部位,即嘴巴。图2-4源滤波器模型周期脉冲发生器声门波模型图2-4源滤波器模型周期脉冲发生器声门波模型激励系统声道模型辐射模型基音频率振幅A振幅A合成语音声道参数由图2-4可以看出来,可以获得激励主要是分成两个情况:第一个就可以发出浊音,具有明显的周期性特点的激励;第二种就是能够发出清音,具有非周期的随机性的特点的激励。我们一般都是根据需要得到清浊音来选择特定的激励类型,不同声音的需求对应着不同的类型。而且这个模型最主要的核心部分其实是声音滤波器,像别的不重要的部分,比如辐射系统都是通过利用数学上的一阶差分来模拟。1.3机器人运动部分为了让陪伴机器人能够更好地跟随在用户身边,本设计在机器人的结

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论