付费下载
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于TinyML的声音识别检测技术概述目录TOC\o"1-3"\h\u5676基于TinyML的声音识别检测技术概述 13821.1TinyML概述 1247551.2机器学习概述 2166481.2.1神经网络模型 2168631.2.2卷积神经网络 3181191.3摔倒声音检测技术 469061.3.1技术框架 4189601.3.2时域与频域 5318501.3.3短时傅里叶变换(STFT)与梅尔语谱 5TinyML概述TinyML(微型机器学习)是在低功耗微控制器上,实现机器学习(如神经网络、支持向量机、决策树、随机森林等)的新型技术,其功耗低于1mW,可以实现在嵌入式设备上运行机器学习算法,在保持低功耗的前提下,还能在算法的性能上取得满意的结果,具有高能效、低功耗、系统可靠性和数据安全性等优势,同时相对于云端计算,具有低延迟的优点ADDINEN.CITE<EndNote><Cite><Author>Sanchez-Iborra</Author><Year>2020</Year><RecNum>2</RecNum><DisplayText><styleface="superscript">[11,12]</style></DisplayText><record><rec-number>2</rec-number><foreign-keys><keyapp="EN"db-id="zatzs25ahpev9redzw85pvsf9xzverevttsv"timestamp="1616493052">2</key></foreign-keys><ref-typename="JournalArticle">17</ref-type><contributors><authors><author>Sanchez-Iborra,Ramon</author><author>Skarmeta,AntonioF.</author></authors></contributors><titles><title>TinyML-EnabledFrugalSmartObjects:ChallengesandOpportunities</title><secondary-title>IEEECircuitsandSystemsMagazine</secondary-title></titles><periodical><full-title>IeeeCircuitsandSystemsMagazine</full-title></periodical><pages>4-18</pages><volume>20</volume><number>3</number><dates><year>2020</year><pub-dates><date>2020</date></pub-dates></dates><isbn>1531-636X</isbn><accession-num>WOS:000612852500001</accession-num><urls><related-urls><url><GotoISI>://WOS:000612852500001</url></related-urls></urls><electronic-resource-num>10.1109/mcas.2020.3005467</electronic-resource-num></record></Cite><Cite><Author>Situnayake著</Author><Year>2020</Year><RecNum>3</RecNum><record><rec-number>3</rec-number><foreign-keys><keyapp="EN"db-id="zatzs25ahpev9redzw85pvsf9xzverevttsv"timestamp="1616496210">3</key></foreign-keys><ref-typename="Book">6</ref-type><contributors><authors><author>PeteWarden,DanielSitunayake著</author></authors></contributors><titles><title>TinyML基于TensorFlowLite在Arduino和超低功耗微控制器上部署机器学习</title></titles><pages>416</pages><dates><year>2020</year></dates><publisher>北京:机械工业出版社</publisher><isbn>978-7-111-66422-2</isbn><urls></urls></record></Cite></EndNote>[11,12]。TinyML使用TensorFlowLite框架,TensorFlowLite是TensorFlow(开源的机器学习框架)的一个重要部分,是一个专门针对移动设备的轻量级机器学习框架,支持在设备端实现机器学习算法,拥有较低的延迟,并且二进制文件很小ADDINEN.CITE<EndNote><Cite><Author>李双峰</Author><Year>2020</Year><RecNum>4</RecNum><DisplayText><styleface="superscript">[13]</style></DisplayText><record><rec-number>4</rec-number><foreign-keys><keyapp="EN"db-id="zatzs25ahpev9redzw85pvsf9xzverevttsv"timestamp="1616496385">4</key></foreign-keys><ref-typename="JournalArticle">17</ref-type><contributors><authors><author>李双峰</author></authors></contributors><auth-address>GoogleTensorFlow团队;</auth-address><titles><title>TensorFlowLite:端侧机器学习框架</title><secondary-title>计算机研究与发展</secondary-title></titles><periodical><full-title>计算机研究与发展</full-title></periodical><pages>1839-1853</pages><volume>57</volume><number>09</number><keywords><keyword>机器学习</keyword><keyword>端侧机器学习</keyword><keyword>TensorFlow</keyword><keyword>TensorFlowLite</keyword><keyword>TFLite</keyword><keyword>移动</keyword><keyword>物联网</keyword></keywords><dates><year>2020</year></dates><isbn>1000-1239</isbn><call-num>11-1777/TP</call-num><urls></urls><remote-database-provider>Cnki</remote-database-provider></record></Cite></EndNote>[13]。TensorFlowLite具有缩短延迟、保护隐私、减少链接和降低功耗的特点ADDINEN.CITE<EndNote><Cite><RecNum>28</RecNum><DisplayText><styleface="superscript">[14]</style></DisplayText><record><rec-number>28</rec-number><foreign-keys><keyapp="EN"db-id="zatzs25ahpev9redzw85pvsf9xzverevttsv"timestamp="1620920240">28</key></foreign-keys><ref-typename="WebPage">12</ref-type><contributors></contributors><titles><title>TensorFLowLite:MLformobileandIoT</title></titles><dates></dates><publisher>TensorFlow</publisher><urls><related-urls><url>/lite</url></related-urls></urls><custom2>2021-05-13</custom2></record></Cite></EndNote>[14]。图2.1展示了一个基本的TinyML程序架构。图2.1基本的TinyML程序架构摔倒声音识别检测技术依赖机器学习算法,传统的机器学习涉及大量的浮点数计算,因此通常需要使用大量资源,甚至调用GPU资源。然而微型控制器因资源有限的原因,通常只有几百KB的RAM,几十兆Hz的时钟速度,无法支持传统的机器学习模型。而TinyML的出现使在微型控制器设备上使用机器学习模型进行摔倒检测成为可能。机器学习概述机器学习是指在不经过明确编程的情况下所运行的科学ADDINEN.CITE<EndNote><Cite><RecNum>29</RecNum><DisplayText><styleface="superscript">[15]</style></DisplayText><record><rec-number>29</rec-number><foreign-keys><keyapp="EN"db-id="zatzs25ahpev9redzw85pvsf9xzverevttsv"timestamp="1620975681">29</key></foreign-keys><ref-typename="WebPage">12</ref-type><contributors></contributors><titles><title>Machinelearning</title></titles><dates></dates><publisher>AndrewNg,Coursera</publisher><urls><related-urls><url>/learn/machine-learning</url></related-urls></urls><custom2>2021-05-14</custom2></record></Cite></EndNote>[15],近十年来,机器学习已经在广告、自然语言处理、自动驾驶等方面发挥了巨大的作用,如今我们的生活中到处都有机器学习的身影。根据机器学习的层次结构,机器学习的发展可以大致概括为两个阶段,分别是浅层学习和深度学习ADDINEN.CITE<EndNote><Cite><Author>余凯</Author><Year>2013</Year><RecNum>30</RecNum><DisplayText><styleface="superscript">[16]</style></DisplayText><record><rec-number>30</rec-number><foreign-keys><keyapp="EN"db-id="zatzs25ahpev9redzw85pvsf9xzverevttsv"timestamp="1620977732">30</key></foreign-keys><ref-typename="JournalArticle">17</ref-type><contributors><authors><author>余凯</author><author>贾磊</author><author>陈雨强</author><author>徐伟</author></authors></contributors><auth-address>百度;</auth-address><titles><title>深度学习的昨天、今天和明天</title><secondary-title>计算机研究与发展</secondary-title></titles><periodical><full-title>计算机研究与发展</full-title></periodical><pages>1799-1804</pages><volume>50</volume><number>09</number><keywords><keyword>机器学习</keyword><keyword>深度学习</keyword><keyword>语音识别</keyword><keyword>图像识别</keyword><keyword>自然语言处理</keyword><keyword>在线广告</keyword></keywords><dates><year>2013</year></dates><isbn>1000-1239</isbn><call-num>11-1777/TP</call-num><urls></urls><remote-database-provider>Cnki</remote-database-provider></record></Cite></EndNote>[16]。浅层学习的模型包括Boosting、支持向量机(SVM)、逻辑回归等,深度学习的模型包括深度神经网络(DNN)、循环神经网络(RNN)和卷积神经网络(CNN)等。神经网络模型神经网络从本质上来说就是一个非常复杂的数学函数,是模拟类神经网络工作原理进行演化和自我学习的一种数据工作方法。神经网络模型可以分为3层:分别为输入层、隐藏层和输出层,通常来说,输入层会被称为第0层,输出层是最后一层,除了第0层和最后一层之外其余都是隐藏层,每层之间的神经元采用全连接的方式。每一层的神经元个数从几十到上百个不等,根据不同的训练场景调整具体的神经元数量。图2.2展示了一个简单的神经网络模型,其中xi表示第i个输入向量,ail上标表示第l层,下标表示第i图2.2简单的神经网络模型神经网络前向传播算法的原理为:ail假设选择的激活函数为σz,第l−1层共有m个神经元,其中ail表示l层的第i个神经元的输出,wijl表示第l−1层的第j个神经元到第l层第i个神经元的权重(weight),b sigmoidz tanhz= ReLUz=max激活函数可以用在除了输入层以外的任意一层,sigmoid函数因为输出结果介于0和1之间,因此常用于二元分类的输出层,其输出结果可以理解为是概率,其他层大多数默认选择ReLU函数,图2.3展示了常见的三种激活函数的图像。图2.3常见的激活函数卷积神经网络卷积神经网络常用于处理图像的问题,因为图像包含的特征过于多,如一幅500×500像素的RGB图像包含750000个特征值,因此对于常规的全连接神经网络来说需要处理的参数太多,容易导致过拟合现象,而卷积神经网络可以有效地减少神经网络中参数的数量,以此来解决过拟合的发生。常见的卷积神经网络通常由卷积层和池化层相互交织而成,经过几次交织之后,最后通常会由几个全连接层来给出分类的结果,如果是多个分类结果,则最后还需要一个softmax层来获取各个类别的概率分布情况,图2.4展示了卷积神经网络的架构。图2.4卷积神经网络的架构通常会将一张图片的三维矩阵作为CNN的输入,其中矩阵的第一维和第二微信息表示的是图像的每个像素,矩阵的深度表示图像的色彩通道(channel),比如彩色图像由红绿蓝(RGB)三原色构成,因此深度为3;而黑白图像只需表示灰度值,因此深度为1.上一层神经网络中的一小块经过卷积核计算后生成卷积层输出中的一个节点,这个小块大小根据卷积核(或者叫过滤器)所确定,通常为3×3或5×5,输出的数值越大表明可能探测到了某些特定的特征。卷积层输出矩阵的深度由卷积核(过滤器)的个数决定,图2.5展示了卷积操作。图2.5卷积操作池化层并不会改变输入矩阵的深度,只会改变输入矩阵的大小,从而进一步缩小最后全连接层的参数,池化层本身并没有训练的参数。常见的池化层有两种:最大池化和平均池化,图2.6展示了常见的两种池化。图2.6池化操作摔倒声音检测技术技术框架摔倒声音检测技术利用卷积神经网络模型进行训练和判断,是一个二元分类问题,输出的结果只有摔倒或者没有摔倒两个分类。图2.7摔倒声音检测框架如图2.7所示,摔倒声音检测技术包含数据预处理,模型训练等几个部分。数据预处理包含音频数据重采样和编码来保证数据的一致性,特征提取来获取模型训练所需的音频特征。对于音频的特征提取常见的方法有:语谱图(spectrogram)、梅尔语谱(mel-spectrogram)和梅尔频率倒谱系数(MFCCs)等。时域与频域时域和频域是音频信号的两个基本属性,时域是描述信号振幅与时间的关系,而频域是描述信号振幅与频率的关系,图2.8展示了时域和频域之间的关系。时域图是音频在一段时间内音量的变化,其横轴是时间,纵轴是振幅。频谱图是音频在某一时刻各个频率的音量的高低,其横轴是频率,纵轴为振幅。图2.8时域和频域之间的关系ADDINEN.CITE<EndNote><Cite><Author>Tuomas
Virtanen</Author><RecNum>32</RecNum><DisplayText><styleface="superscript">[17]</style></DisplayText><record><rec-number>32</rec-number><foreign-keys><keyapp="EN"db-id="zatzs25ahpev9redzw85pvsf9xzverevttsv"timestamp="1621000764">32</key></foreign-keys><ref-typename="Book">6</ref-type><contributors><authors><author>Tuomas
Virtanen</author><author>MarkD.
Plumbley</author><author>Dan
Ellis</author></authors></contributors><titles><title>ComputationalAnalysisofSoundScenesandEvents</title></titles><pages>2018</pages><dates><pub-dates><date>2018-01-01</date></pub-dates></dates><publisher>Springer,Cham</publisher><isbn>9783319634500</isbn><urls></urls><remote-database-provider>Cnki</remote-database-provider></record></Cite></EndNote>[17]短时傅里叶变换(STFT)与梅尔语谱目前对于音频的训练,使用梅尔语谱作为音频特征是个十分常见的选择。要获取梅尔语谱首先需要对音频数据进行短时傅里叶变换(STFT),短时傅里叶变换具体过程为:(1)对音频进行分帧(2)将这一帧数据乘以Hann窗口进行过滤以减少窗口两端对采样的影响(3)对过滤后的数据进行快速傅里叶变换(FFT)(4)循环迭代前三步,每次迭代之间向前滑动一定的时间(5)生成语谱图(spectrogram)通常帧大小为20ms到40ms之间,滑动的尺寸为10ms到20ms之间。傅里叶变换会产生采样频率的二分之一个频率信息,如16000Hz的采样频率经过傅里叶变换后产生8000Hz的频率信息。人类通常对低频声音变化更为敏感,而对高频声音却很难感知其变化,比如人类很容易发现500Hz和1000Hz之间的区别,但是很难发
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年采油vr安全培训内容核心要点
- 2026年建筑安全隐患培训内容重点
- 2026年数字政府项目建设协议
- 2026年女工安全培训内容重点
- 阿坝藏族羌族自治州理县2025-2026学年第二学期五年级语文期中考试卷(部编版含答案)
- 红河哈尼族彝族自治州蒙自县2025-2026学年第二学期六年级语文第五单元测试卷部编版含答案
- 2026年知识体系军品试验安全培训内容
- 海北藏族自治州海晏县2025-2026学年第二学期五年级语文第六单元测试卷(部编版含答案)
- 2026年交通安全教育培训内容重点
- 石嘴山市大武口区2025-2026学年第二学期六年级语文第五单元测试卷部编版含答案
- 非遗泥塑传承与创新:传统色彩·现代技艺·实践探索【课件文档】
- 汽车行业无人配送专题报告:无人配送应用前景广阔国内迎来加速期-
- 城管队伍建设考核制度
- 卫生院中层干部任用制度
- 2026年高级经济师宏观经济学实务操作题集
- 前程无忧在线测试题库及答案行测
- HG-T 2521-2022 工业硅溶胶介绍
- 小学“英语单词达人”比赛活动方案
- 月施工现场安全检查记录表
- GA/T 1971-2021法医精神病学精神检查指南
- 《健康教育学》第五章-健康心理课件
评论
0/150
提交评论