版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
I基于科大讯飞云平台的语音识别技术研究1.1科大讯飞语音识包的功能研究科大讯飞云平台推出的在线语音识别sdk,为开发者提供了移动互联网智能交互平台,拥有各种专业全面的应用领域,不仅拥有能力增强型,还有各种一站式人机智能语音交互解决方案,提供了很好的免费开发平台。语音客户端sdk研发的目的就是为了让第三方能够快速应用科大讯飞的各种语音服务。如语音合成、语音听写、口语评测。(1)语音识别包语音识别包可以用于语音听写、离线语音听写、语音转写、实时语音转写、语音唤醒、离线命令词识别。语音听写可以把一段小于60秒的语音转换成对应的文字信息,并实时返回。语音转写可以把一段在5小时以内的语音转换成对应的文字信息,可以异步返回。实时语音听写可以将音频流数据实时转换成文字流数据结果。离线语音听写可以将一段小于20秒的语音转换成对应[[]科大讯飞科技有限公司.科大讯飞MSCAndroid版SDK的用户指南[DB/OL]./msc_android/index.html.][]科大讯飞科技有限公司.科大讯飞MSCAndroid版SDK的用户指南[DB/OL]./msc_android/index.html.(2)语音合成包语音合成可以用于在线语音合成、离线语音合成普通版和高品质版、音库订制、娱乐变声和有声阅读。在线语音合成是将文字信息转化为声音信息,即给应用配上“嘴巴”。离线语音合成普通版是让应用具备离线合成的能力,为开发者的应用配上“嘴巴”。离线语音合成高品质版是让离线语音合成的发音人音色、自然度表现更佳。音库订制是赋予产品声音形象,提供可订制的合成整套服务,为产品量身打造专属音库。娱乐变声是让音色精准迁移,大叔秒变“妙音娘子”,实现语音趣味变声。有声阅读适合有声书制作,它的优点是效率高、成本低、合成音效稳定。(3)语音分析包语音分析包括语音评测、性别年龄识别、声纹识别、歌曲识别。语音评测是让机器对中英文的发音水平进行评价。性别年龄识别是让机器对说话者音频数据判定发音人的性别及年龄范围。声纹识别是通过提取说话人声音特征和说话内容信息来核验说话人身份。歌曲识别是系统自动识别并检索出所哼唱的歌曲。1.2基于树莓派开发板实现语音识别系统的研究(1)树莓派开发板树莓派[[]芮敏华,陈潇.UbuntuLinux操作系统的维护技术研究[J].数码世界,2020(06):58.](Raspberry
Pi)是一款基于ARM[]芮敏华,陈潇.UbuntuLinux操作系统的维护技术研究[J].数码世界,2020(06):58.树莓派(Raspberry
Pi)是尺寸仅有信用卡大小的一个小型电脑,可以将树莓派连接电视、显示器、键盘鼠标等设备使用。树莓派能替代日常桌面计算机的多种用途,包括文字处理、电子表格、媒体中心甚至是游戏。并且树莓派还可以播放高至1080p的高清视频。图2-1.树莓派开发板搭载1.5GHz的64位四核处理器(BroadcomBCM2711,QuadcoreCortex-A72(ARMv8)64-bitSoC@1.5GHz);VideoCoreVIGPU,支持H.265(4Kp60decode),H.264(1080p60decode,1080p30encode),OpenGLES3.0graphics;1GB/2GB/4GBLPDDR4内存;全吞吐量千兆以太网(PCI-E通道);支持Bluetooth5.0,BLE;两个USB3.0和两个USB1.0接口;双microHDMI输出,支持4K分辨率;microSD存储系统增加了双倍数据速率支持;先前版本的microUSB供电接口在树莓派4B型中变更为USBType-C接口;驱动电流增加至3A。(2)树莓派安装测试本文开展基于云端的车载屏幕显示语音控制系统研究,将驾驶者的语音上传至云端软件平台,采用语音识别算法进行解码和识别后得到控制指令,基于控制指令对车载屏幕的显示内容进行切换和调节。云端需要用到科大讯飞的sdk语音识别包,在ubuntu系统里进行,所以需要在树莓派开发板上安装好ubuntu系统,安装ubuntu系统的步骤如下,第一步解压下载的系统镜像压缩文件,得到img镜像文件,之后将SD卡插入读卡器后,连上电脑,接着解压并运行Win32DiskImager工具,在软件中选择系统镜像的img文件,“Device”下选择SD卡的盘符,最后点击“Write”,然后就开始安装系统了,安装结束后会弹出完成对话框,说明安装就完成了,在安装时关闭防火墙一类的软件。在上面这些操作完成后先将安装好系统的SD卡插入树莓派开发板,再将usb接口的键盘和鼠标接上树莓派,接上HDMI线,接上电源线,并打开电源,接着启动树莓派,按照上面的步骤通电后显示器会有文字,显示用户和密码登陆界面,我们就可以设置密码和用户名,之后正确输入用户名和密码后,就会进入到桌面,说明树莓派已经正常启动了。键盘输入“sudoaptupdate”测试是否安装成功。如图2-2所示则表示安装成功。图2-1.测试ubuntu安装成功图接下来将在树莓派开发板上下载科大讯飞的语音识别SDK,通过运行科大讯飞的SDK,在ubuntu系统里,通过visualstudio进行程序编写,调用科大讯飞语音识别包,通过麦克风输入关键词,例如“速度”一词,通过麦克风捕捉说话的声音,然后通过在线语音识别获取语音中的字符。将获取的字符上传到科大讯飞的语义识别中,科大讯飞识别后将以文字的形式反馈回来并且进行语音播报,由于树莓派安装科大讯飞的SDK是收费项目,但是适用于电脑的科大讯飞语音识别SDK是免费使用的,所以接下来的运行我们就在电脑上进行了,在电脑上操作也是一样的,由于电脑的是windows系统,所以需要安装虚拟机,在虚拟机中装载Ubuntu,装载好后下载科大讯飞的语音识别SDK,在程序中加入我们设定的问题及答案,本次我们一共设计了三个相关的问题,一个是驾驶时的速度是多少,在开车的时候我们比较在意的一个问题,第二个是今天的天气怎么样,第三个问题是现在时间是多少。通过在程序中进行编写同时设定一个答案,当我们通过麦克风输入后就会在线进行一个语音识别,语音识别到我们的信息后,就会把我们想要的答案反馈回来并且进行语音播报。1.3基于科大讯飞云平台的语音识别研究及结构分析要使用科大讯飞的SDK首先就得在科大讯飞的开放平台注册科大讯飞账号,注册完成后在讯飞开放平台创建我们需要的应用,这样讯飞就根据应用类型给我们生成对应的SDK库,选择Linux系统,创建完成后,给应用添加相应的AI技能,而在本次毕业设计中我们要用到的是科大讯飞的语音识别功能,所以我们就下载语音识别的SDK。这一步完成后接下来我们就要在Ubuntu系统中运行科大讯飞的SDK。首先在下载好语音识别SDK后,我们需要来运行程序,看是否能够成功运行,按照有语音识别SDK使用文档运行,输入两条命令语句,一条是进入SDK内samples/iat_online_sample目录source64bit_make.sh,运行成功后进入sdkbin目录下运行./iat_online_sample即可看到运行结果,但是在运行之后我们出现了一个问题,就是找不到limbsc.so这个文件,通过查询资料后,我们将lib下的64位放到/usr/local/lib/,然后执行sudoldconfig,就可以正常运行了,结果如图3-1所示。图2-3.运行结果图在运行时,我们需要对程序进行修改,我们的课题是基于车载屏幕的,所以基于此,我们设置的对应的问题就是时间,天气,速度,对于这三个问题,我们设置了相应的答案,所以在我们运行后,语音识别完成就会的显示并播报我们的问题答案,比如我们询问现在室温多少,当麦克风录入我们的语音后,就会进行一个在线语音识别,识别后如果与我们设置的匹配,那么就会给出相应的答案,再屏幕上显示出来并且进行语音播报。要完成这一毕业设计,我们需要知道操作系统的安装,安装好操作系统,我们才能进行,通过查找资料,我们对操作系统的安装有了进一步的了解,对Ubuntu也有了更深的理解,通过以上操作最后我们是能够实现这一课题的研究的。本次毕业设计是以嵌入式系统控制平台作为总控制单元,控制麦克风接收用户的控制指令。在接收到语音控制指令后,嵌入式系统控制平台将语音发送到科大讯飞语音识别云平台进行语音识别。语音识别云平台通过特征提取、量化和识别后,返回识别得到的文字信息。嵌入式系统控制平台将文字信息与数据库中预先存放好的控制指令进行匹配。待匹配到控制指令后,嵌入式系统控制平台从相应的传感器读取显示信息,并在车载屏幕上显示。在屏幕显示的同时,语音播报器会播报显示的信息。对于我们设置的三个问题,我们运行程序后分别得到了相应的结果,语音识别得到的结果如下图所示。第一个本设计询问今天的天气怎么样?经过科大讯飞的在线语音识别进行了实时识别,语音识别完成后,识别到正确准确的信息后会与我们设定的答案进行匹配,之后会反馈给我们信息,我们设定的语音识别识别到天气后就会回答今天是晴天,所以当语音识别准确完成后就会反馈回来今天是晴天,并且进行语音播报。图2-4.询问天气语音识别图接下来我们测试了20组数据,看看识别效果如何,我们把这20次的识别结果进行了统计,这20次识别结果是我们在外接麦克风进行的,我们最终都能够准确的识别,发现对于天气怎么样都能够准确地识别,识别率是100%,识别时间是0.11s左右。识别速度较快。表2-1统计20次天气语音识别结果统计序号语音信息识别信息是否正确1天气天气是2天气天气是3天气天气是4天气天气是5天气天气是6天气天气是7天气天气是8天气天气是9天气天气是10天气天气是11天气天气是12天气天气是13天气天气是14天气天气是15天气天气是16天气天气是17天气天气是18天气天气是19天气天气是20天气天气是第二个本设计询问速度是多少?经过科大讯飞的在线语音识别进行了实时识别,语音识别完成后,识别到正确准确的信息后会与我们设定的答案进行匹配,之后会反馈给我们信息,我们设定的语音识别识别到速度后后就会回答速度是100km每小时,所以当语音识别准确完成后就会反馈回来速度是100km每小时,并且进行语音播报。图2-5.询问速度语音识别图接下来我们测试了20组数据,看看识别效果如何,我们把这20次的识别结果进行了统计,这20次识别结果是我们在外接麦克风进行的,我们最终都能够准确的识别,发现对于速度是多少都能够准确地识别,识别率是100%,识别时间是0.12s左右。识别速度较快。表2-2统计20次速度语音识别结果统计序号语音信息识别信息是否正确1速度速度是2速度速度是3速度速度是4速度速度是5速度速度是6速度速度是7速度速度是8速度速度是9速度速度是10速度速度是11速度速度是12速度速度是13速度速度是14速度速度是15速度速度是16速度速度是17速度速度是18速度速度是19速度速度是20速度速度是第三个我们询问的是现在是几点?经过科大讯飞的在线语音识别进行了实时识别,语音识别完成后,识别到时间后它会自动反馈回来当时的准确时间。以文字的形式反馈回来并进行语音播报现在是几点几分。图2-6.询问时间语音识别图接下来我们测试了20组数据,看看识别效果如何,我们把这20次的识别结果进行了统计,这20次识别结果是我们在外接麦克风进行的,我们最终都能够准确的识别,发现对于现在是几点都能够准确地识别,识别率是100%,识别时间是0.11s左右。识别速度较快。表2-3统计20次时间语音识别结果统计序号语音信息识别信息是否正确1时间时间是2时间时间是3时间时间是4时间时间是5时间时间是6时间时间是7时间时间是8时间时间是9时间时间是10时间时间是11时间时间是12时间时间是13时间时间是14时间时间是15时间时间是16时间时间是17时间时间是18时间时间是19时间时间是20时间时间是以上三组数据都是在连接麦克风后得到的语音识别结果,我们也进行了另一个实验,就是在不连接麦克风进行一个语音识别,识别结果如表所示。表2-4统计20次不连接麦克风对天气的识别序号语音信息是否正确识别1天气否2天气否3天气否4天气是5天气否6天气否7天气否8天气否9天气否10天气是11天气否12天气否13天气否14天气否15天气否17天气否18天气否19天气否20天气否表2-5统计20次不连接麦克风对时间的识别序号语音信息是否正确1速度否2速度否3速度否4速度是5速度否6速度是7速度否8速度否9速度否10速度否11速度否12速度否13速度否14速度否15速度否16速度否17速度否18速度否19速度否表2-6统计20次不连接麦克风对速度的识别序号语音信息是否正确1时间否2时
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 安全生产专项活动方案
- 供电公司反腐倡廉危险源点分析预控工作实施方案
- 2024届福建省宁德市第一中学高三第一次检测英语
- 上海市宝山区重点名校2026年普通高中毕业班综合测试(二)数学试题含解析
- 四川省绵阳市绵阳外国语校2026届初三下学期总复习质量调查(二)物理试题含解析
- 2026年浙江省台州玉环初三年级第二学期阶段测试英语试题含解析
- 甘肃省兰州市七里河区2025-2026学年初三下学期开学摸底(文理合卷)语文试题含解析
- 江西省赣州市南康区重点中学2025-2026学年全国初三模拟考三全国I卷英语试题含解析
- 陕西省西安市雁塔区电子科技中学2026届初三3月调研考试英语试题含解析
- 催产素点滴护理的持续改进
- GB/T 44233.2-2024蓄电池和蓄电池组安装的安全要求第2部分:固定型电池
- 地质钻探施工方案
- 2024年河北省中考数学试题(含答案解析)
- 急性皮肤衰竭与压力性损伤鉴别
- 化工生产开停车方案
- 学生食堂消防演练方案及流程
- Unit2Yummy!(课件)新概念英语青少版StarterA
- T-CSEM 0024-2024 智慧消防 火灾防控系统建设要求
- 《工业机器人技术基础》第3章 工业机器人运动学与动力学课件
- 沪教版初中英语语法大全
- 核电站概论课件
评论
0/150
提交评论