任务5.3 ASR标注数据可视化_第1页
任务5.3 ASR标注数据可视化_第2页
任务5.3 ASR标注数据可视化_第3页
任务5.3 ASR标注数据可视化_第4页
任务5.3 ASR标注数据可视化_第5页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

项目五《数据可视化服务》主讲教师:候佳丽Datavisualizationservice任务三:ASR标注数据的可视化CONTENTS目录任务需求01Taskrequirements可视化需求02VisualizationrequirementSASR标注数据可视化03ASRannotationdatavisualization任务需求在语音识别(ASR)、语音合成(TTS)、说话人识别等语音技术的研究与应用中,语音标注数据的可视化分析

是确保数据质量、优化模型性能的关键环节。其重要性主要体现在以下几个方面:1.提升数据质量,优化模型训练。2.理解语音特征,优化算法设计。3.支持语音技术的关键应用4.提高标注效率,降低人工成本5.支持学术研究与工业落地可视化需求在完成语音标注后

,研究员想了解标注数据的数据分布情况

,探索数据的基本信息:01判断语音振幅;02分析语音是低声、大声或者噪音;03通过语音基频分析语音数据属于男声、女声。可视化需求数据可视化的需求分析:01判断语音振幅;02分析语音是低声、大声或者噪音;03通过语音基频分析语音数据属于男声、女声。绘制振幅图绘制音强图绘制基频分析图在完成语音标注后,研究员想了解标注数据的数据分布情况,探索数据的基本信息:ASR标注数据的可视化在商汤教育平台下载ASR语音标注数据集ASR标注数据的可视化振动物体离开平衡位置的最大距离,叫做振动的“振幅”,振幅是用来表示振动强弱的物理量,振幅大,则振动强度大;振幅小,则振动强度小。步骤9:

打开“任务5-3:

ASR

标注数据的可视化”中的amplitude.ipynb

文件,运行程序。结果如下图所示:全部声音振幅声音片段振幅amplitudeampitudeASR标注数据的可视化在上节中我们已经介绍了音强的基本概念,也使用praat工具获取了音强数据。接下来我们使

用python

库来绘制音强的折线图,使用2组数据绘图。其中一组数据是正常声,另一组为白噪声。步骤9:

打开“任务5-3:

ASR

标注数据的可视化”中的intensity.ipynb文件,运行程序。

结果如下图所示:120正常声白噪音100802000.00.5

1.5

intensity

[dB]2.0

2.5time

[s]ASR标注数据的可视化音强为20-50分贝时属于安静,大声说话为60-70分贝,开始感到吵的声音为70分贝,开始破坏耳蜗细胞的声音为105分贝。从图中可以看出红色曲线的音高在80-90分贝之间,因此这

个音频让人感觉吵;绿色曲线的音高是20-80分贝之间,大多分布在50-70分贝之间,因此这

个音频是大声说话。120正常声白噪音100802000.00.5

1.5

ASR标注数据的可视化在上节中我们已经介绍了基频的基本概念,也使用Praat工具获取数据并绘制了基频图,接下来我们使用python库来绘制基频的折线图,使用2组数据绘图。步骤9:

打开“任务5-3:

ASR

标注数据的可视化”中的pitch.ipynb文件,运行程序。

结果如下图所示:ASR标注数据的可视化男声的平均基频为100~150Hz,

女声的平均基频为250~500Hz。因此可以判断红色的是

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论