




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
人工智能是未来医疗的发展趋势,近些年来,随着语音识别关键技术的不断突破,经被广泛应用。但是据我们调查发现,语音识别技术在息录入和输出,减轻医院咨询台和护士站工作人员的服务压力,提高工作效率与质量。(1)运用了传统的端点检测方法双门限端点检测法。先对语音信号进行预处理,包(2)运用了Mel倒谱系数(MFCC)对语音进行特征提取。在端点检测后着重说明了使用的MFCC原理与设计过程。并对MFCC、LPC和LPCC方法进行了比较说明。(3)使用了DTW算法。本文利用了DTW算法,着重说明了算法原理和步骤。并与传统算法HMM和ANN进行了对比,给出了本课题使用DTW算法的原因。(4)设计了GUI界面。设计的GUI界面包括了语音录入、特征参数提取、识别等主要部分。并且通过GUI界面可以方便快捷地让用户操纵系统。 1 1 1 21.3导诊助手应用 41.3.1应用 41.3.2功能 4 51.4.1语音识别系统组成 51.4.2语音识别系统的分类 6 62语音信号的分析与处理 7 7 72.1.2语音信号的采集 72.2预处理 82.2.1预加重 82.2.2语音信号的去噪 92.2.3分帧加窗 9 9 3语音信号的特征参数的提取 3.1梅尔频率预测倒谱系数(MFCC) 13.1.1Mel滤波器组 3.1.2MFCC特征参数提取 3.2线性预测系数(LPC) 3.3线性预测倒谱系数(LPCC) 3.4本章小结 4语音识别模式训练和匹配方法 4.1DTW在语音识别中的应用 4.1.1DTW基本原理 4.1.2DTW算法步骤 4.2与其他方法比较 5GUI界面的制作与程序运行过程 5.1GUI界面的制作过程 5.2程序运行过程 2 6.1全文总结 6.2展望 音则作为人和机器对话的桥梁,是交流信息最简活中广泛的应用,人们发现在人与机器之间,最形式中,语音尤为重要,人和机器的对话,则是在21世纪以来人们一直期待的事情。处理也是人与计算机交互的重要手段之一(许诗茵,何泽宇,2022)。目前,随着科技市场而言,语音识别的前景广泛,如在医疗服务、信息查询、智能家居、工业控制等。含了人的情感,例如,一句同样的话不同的人说就有着不同的情感(卢俊豪,汪泽楷,2023)。在传统的语言处理系统中,人们往往以语言传达的准确性为首要目标,而忽视1.1研究背景和意义 (汪明辉,陈丽娟,2021)。本文设计的智能语音导诊助手可以很好的减轻医院工作人目前DTW算法是一种有效计算语音测度和时间规正的方法,在综合识别中广泛应用,本文基于DTW和MFCC算法,基于本文的研究前提这种情况被纳入了研究范围对探索其在医疗行业上的具体应用,同时希望提高和改进识别的效率和速度(周思远,许一凡,2021)。1.2国内外研究现状及未来发展趋势贝尔在1872年首次发明了远程广播声音技术。杜德利发明了20世纪30年代全世具有划设代的意义。而语音识别最早的研究可追溯到上个世纪的50年代,1952年贝尔运用每个数字的元音部分的频谱特征进行语音识别(金俊豪,洪泽楷,2018)。基于前文之论断1956年,RCA实验室的Olson等研究人员从8个带通滤波器组提取频谱参数来作为语音的特征。20世纪60年代,日本的很多研究人员开发了很多硬件产品来进行语音识别,在这一期间的诸多研究成果为后来将近20多年的语音研究奠定了坚实的基础(傅正浩,罗曼玲,2019)。RCA实验室的马丁等人在60年代末开发了时间归正的方法,由此背景出发此举大大提升了识别的性能。同时期的苏联专家Vint动态时间规划这个方法来解决两种不同语音的时间对准问题。这也是为动态时间弯折(DTW)奠定了基础,但是在当时Vintsyuk并不被人们所知,知道DTW算法广为人知的时候,大家才逐步了解到了当时Vintsyuk的研究工作(雷振华,傅宇轩,2019)。20世纪70年代以来,日本学者Sakoe提出了一种动态时间语音识别规划方法,即DTW算法,其成功之处在于时间归一化和距离测量的结合,这是一种非线性归一化技域。AT&T的贝尔实验室在一系列非特定说话人的语音识别研究中也很活跃(廖景云,20世纪80年代初,琳达和其他研究人员提出了一种矢量量化方法,并将矢量量化而80年代开始就采用了统计模型的技术,其中隐马尔科夫模型(HMM)技术就是经典据分析、智能算法等前沿工具正日益成为科研探索的关键支据处理能力,还能揭示传统方法难以把握的深层知识与规律文应积极尝试将这些尖端技术整合进分析体系,以提升研究结果的精确度和深度理解。所以后来还是被人们广泛应用在语音识别中。由于HMM方法可以使大量词汇连续性语音识别的开发成为可能,所以HMM方法至今依然是语音识别技术中的主流方法。上世纪80年代末,美国卡尔加里梅隆大学的Sphinx系统采用VQ/HMM方法实现了97个独20世纪90年代初,人们开始探索人工神经网络(ANN)并将其用于语言识别技术中去。而近年来,从NIST的评测结果可以看出来,国际上对于语音识别的研究工作逐步从实验研究偏向实际问题应用中,诸多发达国家比如美国、日本、欧洲等国以及IBM、在中国,有人在20世纪50年代末提出了语言识别的概念,直到70年代相关研究人员和科学家才开始研究语言识别。通过逻辑推理可知从上世纪80年代开始,国家开始重视语言识别技术的研究,中国科学院声学研究所、清华大学等多所高校都逐步开始语音识别研究,20世纪80年代末(王浩宇,赵欣怡,2019),他们从最开始的小词汇孤立词识别研究开始,到大词汇量连续语音识别,开展了一系列语音识别研究,从上述情况能够了解到他们的研究为中国的语音识别领域打下了坚实的基础。到了上个世纪90年代,先是哈工大与四达技术开发中心合作推出了全新的产品,之后在国家“863”计划的大力支持下,清华大学和中科院声学所在语音识别研究上纷纷取得了重大突破(邓芝和,张弘扬,2020)。初步研究成果和计算数据与前文综述的结果本研究方法的有效性和可信度。这种吻合不仅支持了早期的研究结论,也为当前理论模型提供了额外的验证。通过严格的研究流程、资料搜集及分析手段,本文成功再现了先前的关键发现,并在此基础上进行了更深层次的探讨。这不仅增强了对假设的信心,也展示了所采用方法的科学性。此外,这种一致性为不同研究间的对比奠定了基础,有助于构建一个更加完整和系统的理论框架。近年来,随着我国国力的强化和改革开放的深化,汉语识别得到了前所未有的重视,我国在语音识别技术上已经取得了重大成果,科大讯飞、百度等知名企业已经在语音识虽然当下我国的语音识别技术已经有了喜人的成果,但是很多技术并未应用到人们的生活中来,比如在医学领域、军事领域、移动应用领域,语音识别技术都还有广阔的应用空间。在目前的语音识别技术上,我们还面临着一些困难:多段语音之间的混淆问题;(1)非特定人的问题。由于汉语中有很多方言,加上每个人的□音不同,对语音识别造成了额外的困难;(2)噪声处理问题。由于在生活中的不同环境下噪声的干扰或多或少,处理噪声是语音识别需要着重解决的问题之一;(3)语音的连续性问题。汉语中的语言连续性较高,导致识别难度加大。1.3导诊助手应用当今国家正在加强基本卫生制度,促进了全民治疗,优化了医疗资源,而人工智能的快速发展使人们以往的梦想—一智慧医疗演变成为了现实。研究人员利用人工智能与传统医院咨询服务的历史融合优势,提供患者选择咨询服务,解放了导诊台和护士站,让人工智能去完成这项技术含量低,重复性高,工作针对性强的工作实在是最优选择(成智能导诊机器人的首要目标是解决门诊咨询量少、问题和答案反复出现的现实,一旦医院业务高峰期到来,医院里人满为患,在这样的状况下智能医疗服务机器人可以及时做出反应,引导患者就医,选择患者并进行医院的医疗环境、门诊治疗程序和患者保健知识(贾鹏飞,张慧萍,2022)。通过识别语言、语音合成、理解自然语言和其他技术,领先的机器人支持语音、触摸、影像等互动方式,改善医疗体验,提高医疗服务质量,这是智慧医疗的重要元素和具体体现。目前国内的导诊助手产品已经陆续投入到市场,如科大讯飞公司的“晓医”,它可以提供问路,导诊等功能,还有猎户星空、安泽智能等诸多科技公司都推出了导诊机器人,旨在服务大众。目前国内外都还没有成熟的机器人导诊产品,国外更注重与AI技术相结合的问诊需求体系,大多数国家的导诊机器人咨询服务只能提供简单的问题解答,或在初审和评估中按照标准的问题模型进行帮助,而不能真正起到优化医疗服务流程、提高医院日常工作绩效的作用,与国外产品相比,在这种布局里很多地区和场景的导诊机器人都实施了业务整合,而机器人代替人工服务的模式将逐步推广到全国进行使用(高伟涛,黄靖宇,目前的国内的导诊机器人的功能主要有以下几方面:(1)用药指导;(2)健康知识;(3)医院咨询;(4)导航分诊。本文的智能语音导诊助手根据语音识别技术,主要设计了导航分诊的功能,实现快速信息录入和输出,减轻医院咨询台和护士站工作人员的服务压力,提高工作效率与质1.4语音识别系统概述如图1-1所示,语音识别系统主要分为三个模块,分别为预处理模块、特征提取模块和模式匹配模块。其中预处理模块包括了语音的预加重、分帧加窗和端点检测,预加重目的就是加强信号的高频部分(黄彦霖,赵思洁,2022)5,这明显地揭示了意图提高此部分的能量,使得在频域内语音信号变得更为平坦。加窗分帧的目的是将语音信号分成一段一段的短时信号以便分析它的特征参数,其中,每一小段叫做一帧。特征提取是将一段语音中的特征参数提取出来。模板训练是将多个人语音信号作为参考模板,基于本文的研究前提这种情况被纳入通过对当前阶段性研究成果的梳理,本文对后续研究有了新的视角。首要的是在研究方式上,本文能辨识出多处可优化和升级的空间。过往的研究历程为本文提供了宝贵的经验,让本文清楚哪些方法有效,哪些需要改进或淘汰。在数据收集环节,本文应更重视样本的多样性和广泛代表性,确保样本能准确反映目标群体的特性。同时,针对各类研究议题,灵活运用多种数据收集手段能提升数据的全面性和准确性。模式匹配是就将所输入的语音与样本库的语音参数相对比匹配,匹配相似度最高的语音识别系统的分类如上图1-2所示。分为三个类别:(1)按照词汇量来分(2)按照识别对象来分识别对象指的是非特定人或特定人。如个人的手机语音助手是特定人的语音识别,(3)按照发音方式来分的单词组成的,如汉语中的一个词语,英语中的一个单词这都属于孤立词。连1.5论文结构安排(3)第三章介绍了特征参数音编码,就是所谓的将这些语音信息中的韵律、响度、基音周期的升降等表示出来!。另外,技术手段的发展水平也对结论的核实过程产生重要影响,随着科技的不断发展,由于声音信号是一种模拟信号,而我们要进行数字化处理的话必须进行模数转换,这两个过程,语音信号可以得到时间上和幅度上的离散数字信号41。在MATLAB中,=wavread(wavFilename)(冯梓萱,郑晨光,2018)。其中“wavFilename”指的是以“.wav”为扩展名的文件,“y”是输出参数,是数字化的音频信号。“fs”是采样频率,“nbits”是比特数。和GUI界面设计来实现语音录入,按钮2是语音库,里面包含了所有的测试语音。图2-2是录入语音“咳嗽”的时域波形,同时在录入语音后可以在GUI界面上显示。录音录音选择语音库2.2预处理预处理部分在语音处理应用中有着重要的地位,它为后面的语音识别工作做了充分的准备。在预处理部分,我们首先要对语音信号进行预滤波,通过逻辑推理可知预加重,加强语音的高频部分使整个语音频域变得平坦,提高语音处理的质量,除此之外后面还要进行特征参数提取、模式匹配等工作(许子晴,王翠云,2022)。本研究在既有的理论支撑下,构建了此次的模型架构,无论是在信息流通体系还是数据分析途径上,都展现了对前人研究成果的借鉴与发扬,并在此基础上实现了新的突破。在信息流程的设计层面,本文引入了信息处理领域的经典理论,确保信息从收集、传输到分析的每一环节都能高效且无误地运作。通过严格把控信息来源及执行标准化处理步骤,信息的可靠性得到了切实保障,同时也更加注重信息流的透明度与可回溯特性。2.2.1预加重预加重是在发射端提升语音信号的高频,其实就是将语音信号通过一个高通滤波器。事实上,语音信号经过高通滤波器。从上述情况能够了解到语音信号将变得更为平滑,并且这样也能改善高频部分,并将语音信号保持在频带内。它的目的是突出高频中的共振峰,消除我们的嘴和声带在讲话过程中的唇带效应。其函数为(李东风,吴丽娜,2022):其实现的框图如下图2-3所示:图2-3预加重实现框图我们知道语音信号是非稳态的、时变的信号,这个特性十分不利于数字化分析5。点就是帧。总体上,帧时间约为20ms30ms,从微观角度看,帧时间很小,可以看作 (若为窗函数,则帧长就是窗长),inc为帧移。输出f代表了分帧之后的数据(刘亦菲,吴昊天,2022)。对信号进行加窗处理就是为了让信号末端变得平坦连续。本文在数地,研究还实施了敏感性评估,以测量各个因素的变化对最中用hamming这个函数来完成。提取的时候要选择说话部分的语音.所以双门限端点检测就是处干此目的(任志强.陆丽 (如图2-2)的起始点可以看出几乎没有振幅波动,这是因为录音时刚开始的时候没用双门限端点检测利用了短时能量和短时过零率这的部分视为说话部分,反之为静音或噪音部分,直接去除。实际效果如下图2-4所示:开始端点检测。其中,程序中,x为语音输入,先进行分帧操作,设置好帧置是为了按照上面的x1和x2对SF和NF进行赋值。SF和NF都是1*fn的数组,SF=1束的时间。其中代码speechIndex=find[SF==1]是为了寻找出SF中数值等于1的地址随后,设计使用了findSegment函数,它是根据SF中出每一组有话段的开始结束时间以及语音的长度。由此背景出发它的调用格式为:最后,我们使用了vad_ezm1函数对语音“咳嗽”进行了端点检测,运行后检测出的词语“咳嗽”的参数和结果图如下:图2-5语音参数“咳嗽”的端点检测Q×图2-6语音“咳嗽”的端点检测结果2.3本章小结3.1梅尔频率预测倒谱系数(MFCC)在语音识别最常用到的语音特征就是Mel频率倒谱系数(MelFrequencyCepstralCoefficients,简称MFCC),MFCC的分析时基于人耳的听觉机理,即根据人的听觉实验结果来分析语音的频谱,以此期望能获得更好的语音特性[12]。它不依赖输入信号的任何性质(范怡君,蔡俊辉,2020)。对人类听觉机制的研究表明,人耳的灵敏度因不同声波的频率而异。对语音清晰度影响比较大的语音信号大概在2000Hz到5000Hz左右。高音量频率元素的存在会影响对低音量频率成分的感知,并使其难以检测。鉴于这样的情况掩蔽效应是一种现象,这种现象即响度高的频率成分会干扰到频率低的成分(韩雨辰,赵博涵,2019)。但是对于高频声音来说,很难屏蔽低频声音,空闲时的声屏蔽带的临界带宽比高频时要低,这就是为什么人们在低频段形成一个低频滤波器组,根据不同的频率对输入信号进行滤波是非常重要的,带式滤波器信号的输出能量被认为是信号的基本元素,可以用作输入特征。在数据分析方法的选择上,本文不仅采用了传统的统计方法,如描述统计、回归分析等,还吸纳了近年来迅猛发展的数据挖掘技术和算法。例如,本文采用聚类分析来识别数据中的潜在模式,或利用决策树模型来预测未来趋势。这些前沿手段为深入理解复杂现象提供了强大助力,并有助于揭示隐藏在海量数据中的深层联系。此外,本文还着重强调了混合方法的应用,即将量化研究与质性研究相结合,以获取更为全面的研究洞察。通过逻辑推理可知由于此功能不依赖于信号的特征,对输入信号基本不做假设和边界,并使用了听觉模型的测试结果,因此,与基于声线模型的LPCC相比,该参数具有更好的鲁棒性,从上述情况能够了解到更接近人耳的听觉特性,而且在降低信噪比的情况下,人耳对声音信号的感知是非线性的,梅尔频谱与线性频率有下面的公式:公式3-1中,Fmel表示为单位是Mel的感知频率,f是单位为Hz的实际频率。下图展示了Mel频率与线性频率的关系,可以看出,原先不统一的频谱可以用统一的滤波器由上图可以看出,在这样的状况下在Mel频域中,人耳对声音的感知与Mel频率线性相关。3.1.1Mel滤波器组在Mel频率的计算过程中,进行的滤波使用的滤波组是带通滤波器,通常选用的每个滤波器都带有三角形滤波特征。每个三角滤波器的中心频率为f(m),每个滤波器的传递函数如公式(3-2):为语音信号进行FFT时的长度,一般取256;M为滤波器的个数,在这种布局里一般取在本设计中使用了melbankm函数,目的是为了设计在Mel频率上的平均分布的滤波器。它是MATLAB中自带的函数,可以在voicebox工具箱中找到。Melbankm函数的波器的个数p取24,在一帧的FFT后的数据长度n取的是256,窗函数用的是汉明窗对应的是w='m’,当然也可以选用三角窗(w='t’),这明显地揭示了意图下图是设3.1.2MFCC特征参数提取首先,MFCC特征参数提取原理框图如下图3-4所示:(1)预处理率泄露,窗函数每一帧都需要添加。基于前文之论断这(2)快速傅里叶变换(FFT)对每一帧的信号都要进行快速傅利叶变换,的作用就是语音信号由时域转变为频域。(3)计算谱线能量标轴将一帧语音的频谱表示出来,然后将其进行90度的翻折,可以发现现在的横坐标实际需求灵活调整或更新,同时保持整体结构的行深入开发或优化,以推动相关研究的不断进步。于此特定环可以观察共振峰的变化来观察声音的特征变化以便干准确地识别语音(杨浩然,刘子琪,2023)。在上文已经详细介绍了Mel滤波器的设计,其主转换为可以体现人的听觉特性的Mel频谱。(5)计算DCT倒谱最后要在Mel频谱上做倒谱的分析,先要取对数做逆变换,然后逆变换一般通过DCT来实现,取DCT后的第2到第6个系数作为MFCC系数,以上分析作为基础这样就可以计算出来MFCC参数,而这一帧语音的特征就是MFCC。在本设计中,使用了MATLAB中的mfcc函数,在设计中由于灵活性受限,从而修改了传统的mfcc函数程序,使mel滤波器组的采样频率、帧长、帧移等都可以灵活选陈丽娟,2021)参数的距离。在对两段语音作了相同的长度等参数设置后,由此背景出发出图(图如下)显示这些帧的前16个参数,由图显而易见,系数分别都在45度左右,文件(E)编辑(E)查看(V)窗口(W)3.2线性预测系数(LPC)可以用其前续时刻的若干个采样值来描述,把前续的采样值通过线性组合来无限逼近x[n],这样的描述方式可以决定唯一的一组预测系数5。这样的预测系数就叫作线性预型相类似,但是又有着不同的地方,零极点模型中有特例的存在,一是全之处。往后的研究工作,完全能在现有成果上更进一步,尤其在样本甄良以及理论体系健全等层面,还有着充裕的上升空间可供挖LPCC(LinearPredictiveCepstralCoding)即在LPC(linearpredictivecoding)上进3.4本章小结本章主要介绍了常见的两个语音特征参数(LPCC和MFCC),本设计使用的是MFCC。之所以使用MFCC作为特征参数是因为在语音识别领域,MFCC比其他的特征提取算法都有着更好的表示。正如本章所介音,相较于LPCC,MFCC把线性频率转化为mel频率能更好的适应人类的听觉特性,所以不具有抗噪声的能力7。所以结合多种原因,本文设计选择使用了MFCC作为特征提取系数。4语音识别模式训练和匹配方法语音识别系统就相当于模式匹配系统,就是根据模式匹配原则,按照一定的相似度量法则,使未知模式与参考模式库中的某个参考模型作对比取得最佳匹配的一个过程³1。目前常用的识别算法包括DTW(DynamicTimeWarping)、HMM(HiddenMarkovModel)、ANN(ArtificialNeuronNetwork)等等(张子宁,孙佳怡,2022)。从上述情况能够设计使用的是DTW算法,因为相对于后两个算法,而且对于孤立词识别来说,DTW的算法应用的更加广泛,且更为高效简单。本章将着重介绍DTW算法,以及实现的过程。4.1DTW在语音识别中的应用4.1.1DTW基本原理DTW(DynamicTimeWarping)是一种有效的时间归正和语音测度的计算方法,广泛应用在孤立词识别中II。在本课题中,正是基于孤立词的语音识别系统,病患说出他的病症特征,系统进行识别来进行相应的智能导诊。在这样的状况下在当病患说病情的单词时,有可能发出的声音被外界干扰,或者是一些音长一些音短,而即使在相同的条件下有时候发出来的语音信号也不完全一致。所以我们采用DTW算法,专门解决此类DTW(DynamicTimeWarping)在语音识别中主要是在一定的边界条件下,求待测模板和参考模板之间的欧式距离,以此来规划一条路线使得待测模板可以和参考模板之间进行匹配(张建华,李思远,2022)⁵。欧氏距离指的是失真度量d,它的计算方式是沿Programming)将解决优化问题的方式从整体变为局部。在这种布局里测试模板和参考模板我们可以用T和R来表示,而D[t,r]是它们之间的距离,距离越小相似度越高,距离越大相似度越高。如果它们之间的距离不等,我们就要对齐T和R。动态规划计算 (DynamicProgramming)简称DP就是对齐的方法。在科研探索中,本文强调对误差的严格把控,主要通过一系列精细方法与措施,来保障数据的真实性和结果的可靠性。本文构思了精密的研究路径,并对可能引入误差的多元因素进行了全面分析与评估,包括环境波动、人为操作的不一致性以及测量计算的精确性。通过执行标准化作业流程与高科技手段,本文确保了数据的一致性与可重复性。为了深化数据质量,本文还引入了双重数据录入与交叉校验机制,有效避免了人为失误或键入错误带来的数据偏差。下图所示的是两段语言信号时域图,可以大致看出两语音比较相似,但是由于很多外界条件因素导致每个语音信号的波形并不相同,如果我们直接进行对比,结果显然不行,如图a和b。所以我们将处于相同时刻上的两声音进行对比,如a和b’,但是显然由图上可以看出,它们的位置有偏差,这明显地揭示了意图所以我们需要将它们先对齐再进行相似度计算。DTW算法正是应用了以上的理论,它可以找到两个对应的点并且使它们的距离计算的合理(汪明辉,陈丽娟,2021)。4.1.2DTW算法步骤首先我们要构造一个m*n的矩阵A来进行对齐。其中矩阵A(i,j)就是T;和R;的距离。比如A(1,2)就是T2和R2的距离(周思远,许一凡,2021)。正如下图4-2所示,我们提取的英文单词的语音特征,他们的长度不相等,第一个语音有105帧而第二个语音有123帧。所以我们可以构造出一个123*105的矩阵。然后计算每个点的距离。基于本文的研究前提这种情况被纳入了研究范围每个点的距离我们通常用欧氏距离来表示,代码是d(i,j)=sum(t(i,:)-r(j,:).^2)。具体代码表示如图4-3所示。我们将每一维的点进行计算求和就可以表示出总距离。在经过循环的计算后,我们可以得出距离矩阵d。如下图4-4所示(金俊豪,洪泽楷,2018)。12345678172937455671899随后,在知道我们所有的点的距离后我们要寻找最短对齐路径。经过距离的累加,找到最短路径W需要满足边界条件、连续性条件和单调性条件。下面进行三个条件的分析(傅正浩,罗曼玲,2019):(2)连续性条件我们在路径的选择上不能跳过某点,比如当前在W(a,b)上,下个点为W(a’,b’(3)单调性条件单调性条件就是我们的路径必须是往前推进的,假设当前在W(a,b)上,下个点为行不断向前累加,直到终点。这部分代码如下图4-5所示。由以上条件,我们可以计算图4-4的最短距离,如下图4-6中的红线所示。田11234567823456789最后就是识别的过程,我们将待识别的语音的特征参数与样本库中的语音的特征参数经过DTW计算后,得到的最短距离,对比它们的大小,然后可以判断相似度的高低。4.2与其他方法比较目前来看,本课题之所以选择使用DTW算法,一是本设计是基于孤立词识别的系统,DTW算法在孤立词识别应用中被广泛应用(雷振华,傅宇轩,2019)。二是因为DTW算法方便小巧,它有着识别快、灵活等优点。它与HMM算法相比,它的计算量比HMM少,但是在应对连续语音、大词汇量识别系统时,它不如HMM算法,识别效果较差,于此特定环境中很容易就能看出但相对于本课题,DTW算法较为合适。而另外的广为应用的ANN算法,它是一种模拟人的大脑神经网络的算法,具有一些人大脑特有的特性。它的优点就是它有着很强的学习能力,正如人的大脑一样(廖景云,甄俊熙,2020)。但是它的缺点就是计算时间较长,而且识别的准度不高,不是很适合本课题的应用,通常我们使用ANN算法都需要将其与其他传统算法相结合,这样才能得到较好的识别效果。本章主要介绍了DTW的算法原理和本课题应用的具体步骤,分析了DTW的优点以及适用于本设计的原因,最后对比了主流的模式匹配算法。5.1GUI界面的制作过程图形用户界面(GraphicalUserInterfaces)简称GUI界面是可以人机交互的一种工具。它可以通过用户的一系列操作使计算机产生图像计算等功能。一个良好的GUI界面(1)在MATLAB中输入guide打开GUI启动界面。如图5-1。(2)新建界面或者打开已有界面。图如下。GUIDE快速入门新建GUI打开现有GUI□将新图窗另存为:E:\MTB\bin\untitled1.fig□(3)设计GUI界面在点击新建GUI后,会出现空白的GUI界面,如下图。我们需要用左边的工具栏进行GUI设计。其中常用的工具有,以上分析作为基础按钮、可编辑文本、弹出式菜单等等。本设计的GUI界面主要有按钮和坐标轴组成。图5-3空白GUI界面(4)本文设计的GUI界面本此语音导诊助手的GUI界面如下图5-4所示。国按钮智能语音导诊助手圆面板选择语音库提取特征参数其中我使用了六个按钮三个文本框,以及一个坐标轴。按钮包括录音、选择语音库、提取特征参数、选择语音、识别、关闭。坐标轴主要体现语音信号以及端点检测后的语音信号。在GUI界面上,为了体现导诊助手的实用性,我添加了现场语音录制功能,在点击“录音”按钮后,我们进行语音(病情)输入,由此背景出发然后出现可编辑文本进行命名,然后添加到准备好的医疗信息语语音库中(徐雅丽,郑向阳,2022)。“选择语音库”是让用户选择语音文件,“提取特征参数”是提取语音的特征参数。“选择语音”是选择测试语音库中的语音文件并播放选中的语音。“识别”是利用DTW算法进行的模式匹配,鉴于这样的情况然后识别出语音结果,以及输出病症语音对应的科室,如语音“咳嗽”对应的科室为“耳鼻喉科”。在识别过程中坐标轴还可以显示出端点检测后的语音信号。最后的“退出”按钮可以供用户选择继续进行识别操作还是退出(朱文博,魏晓茜,2020)。5.2程序运行过程(1)首先点击GUI界面上的开始按钮。如图5-5。图5-5开始(2)点击开始后会出现可以运行的GUI界面。如图5-6。录音关闭(3)随后单击“录音”按钮录入语音,比如“咳嗽”。然后在弹出的文本框中输入病症语音名称“咳嗽”,随后自动保存在语音库中。如图5-7。×选择语音库提取特征参数选择语音图5-7第一步录音(4)单击“选择语音库”,选择录入的医疗病情信息语音库。如下图5-8。←个《毕设相关>语音导诊助手(修改)>wav>哈文档系统(D:)《P图5-8选择语音库(5)点击“提取特征参数”,单机后会迅速弹出进度条(大概0.2秒),随后长文本框中出现“特征参数提取完毕”,表示提取完毕可以进行下一步操作。如图5-9。特征参数提取完毕!特征参数提取完毕!图5-9提取特征参数(6)点击“选择语音”选择训练库中的语音。X(7)点击“识别”进行语音识别。出现识别结果,如下图5-10。X智能语音导诊助手智能语音导诊助手0结果咳嗽识别完毕!进1图5-10语音识别结果(8)最后可以进行继续识别,也可以点击“关闭”退出操作。6.1全文总结音输入来进行相应的导诊功能。本文的主要突出了DTW和MFCC算法的研究。使用了(3)分析介绍了DTW算法。本设计选用了DTW算法,并且对传统的DTW算法进行了简单改进应用到导诊助手设计中,使得对于孤立词语音的识别速度大大增加,6.2展望本次设计使用的是MATLAB平台的GUI界面来实现设计应用,虽便于仿真,但是[1]许诗茵,何泽宇.场景特定词的非特定人语音识别[D].西安电子科技大学,2022.[2]卢俊豪,汪泽楷.非特定人孤立词语音识别算法研究[D].南京邮电大学,2023.[3]汪明辉,陈丽娟.非特定人语音识别关键技术研究[D].国防科学技术大学,2021.[4]周思远,许一凡.基于D
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- T/CECS 10017-2019现制水性橡胶高分子复合防水卷材
- T/CCT 015-2024气流床水煤浆气化用煤
- T/CCSAS 039-2023储存单元操作机械化、自动化设计方案指南
- T/CCS 070-2023井工煤矿智能化巡检机器人运维管理规范
- T/CCS 036-2023煤矿带式输送机巡检机器人
- T/CCMA 0172-2023移动式升降工作平台施工现场管理规程
- T/CCMA 0147-2023异型吊篮安装、使用和拆卸安全技术规程
- T/CAZG 014-2022动物园动物疫病监测管理规范
- T/CAS 413-2020排水管道检测和非开挖修复工程监理规程
- T/CAQI 46-2018家用和类似用途饮用水处理装置用龙头
- 新能源汽车电气系统检修(微课版) 课件 项目二任务2无钥匙进入和起动系统
- 生成式人工智能讲解
- 林权投资合作协议范本
- 中医康复治疗技术习题+参考答案
- 北京联合大学《Java面向对象程序设计》2022-2023学年期末试卷
- 2024年四川省广元市中考物理试题(含解析)
- 学术英语智慧树知到答案2024年南开大学
- 高一上学期化学人教版(2019)必修第一册+++常见反应方程式
- 智能化矿山技术培训课件
- 12G614-1砌体填充墙结构构造
- 2023-2024学年安徽省合肥168中学八下物理期末质量跟踪监视试题及答案解析
评论
0/150
提交评论