人工智能导论 课件 第7章 计算机听觉基础_第1页
人工智能导论 课件 第7章 计算机听觉基础_第2页
人工智能导论 课件 第7章 计算机听觉基础_第3页
人工智能导论 课件 第7章 计算机听觉基础_第4页
人工智能导论 课件 第7章 计算机听觉基础_第5页
已阅读5页,还剩32页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1

教材:

胡玉荣,余云霞,董尚燕,李俊梅,

《人工智能导论》,清华大学出版社,2025.9人工智能导论第7章计算机听觉7.1计算机听觉概述7.2计算机听觉的主要研究内容7.3常用的计算机听觉工具7.4计算机听觉的应用实例—语音识别27.1计算机听觉概述7.1.1计算机听觉的定义7.1.2计算机听觉的应用领域37.1.1计算机听觉的定义47.1.2计算机听觉的应用领域5图7-1华为手机的语音助手7.1.2计算机听觉的应用领域6图7-2微信发送语音消息界面7.2计算机听觉的主要研究内容7.2.1音频信息处理7.2.2语音处理7.2.3声音识别77.2.1音频信息处理8图7-4某软件的音频增强功能界面图7-3音频信号模拟图7.2.1音频信息处理9图7-5GoldWave音频编辑软件的文件保存界面7.2.1音频信息处理10图7-6使用Python代码进行声音特征提取7.2.2语音处理11图7-7某手机地图导航界面7.2.2语音处理12图7-8科大讯飞“听见字幕”的升级产品7.2.3声音识别137.3常用的计算机听觉工具7.3.1音频处理工具7.3.2语音处理工具7.3.3声音识别工具147.3.1音频处理工具15图7-9使用Librosa库处理和显示音频数据7.3.1音频处理工具16图7-10音频控制面板7.3.1音频处理工具17图7-11Audacity音频编辑界面7.3.2语音处理工具18图7-12Librosa和TensorFlowAudioT生成的特征图7.3.2语音处理工具19图7-13使用Kaldi库进行语音识别处理的C#程序代码7.3.3声音识别工具20图7-14使用YAMNet模型进行声音分类的结果7.3.3声音识别工具21图7-15EdgeImpulse平台的用户界面7.4计算机听觉的应用实例—语音识别7.4.1语音识别概述7.4.2语音识别技术的发展7.4.3语音识别的实现流程7.4.4语音识别的代码示例227.4.1语音识别概述23图7-16人机交互的三个步骤7.4.2语音识别技术的发展24图7-16语音识别技术的发展阶段7.4.2语音识别技术的发展251.统计模型阶段(1993年-2009年)这一阶段主要使用隐马尔可夫模型(HiddenMarkovModel,简称HMM)和高斯混合模型(GaussianMixtureModel,简称GMM)进行语音识别,准确率较低,大约在30%左右。7.4.2语音识别技术的发展262.深度学习阶段(2010年—2015年)这一阶段引入了深度神经网络(DeepNeuralNetwork,简称DNN)、循环神经网络(RecurrentNeuralNetwork,简称RNN)和卷积神经网络(ConvolutionalNeuralNetwork,简称CNN),显著提高了识别准确率,达到30%以上。7.4.2语音识别技术的发展273.端到端革命阶段(2016年至今)这一阶段采用更复杂的网络结构如Transformer和Conformer,以及端到端系统,识别的准确率进一步提升至20%以上。其中,端到端模型(如Transformer)简化了传统流程。7.4.3语音识别的实现流程28要实现语音识别功能,大致可分为:语音输入-->编码-->解码-->文字输出等4个基本流程。图7-17语音识别技术的4个基本流程7.4.3语音识别的实现流程291.语音输入这是实现语音识别功能的第一步,是指把声音变成计算机能理解的数据。一般是采用麦克风这样的声音输入设备来录下声音,它会把声音变成一种电信号。然后,计算机用一个叫模数转换器的部件把这种电信号变成数字信号。经过这个过程,声音就变成计算机能理解的数据了。这个过程要保证声音的质量,计算机才能更准确地理解我们说的话。图7-17语音识别技术的4个基本流程7.4.3语音识别的实现流程302.编码编码就是将提取的声音特征转换成计算机能理解的二进制数据格式,就像把照片转换成计算机文件一样。其中,特征提取是从声音中找出重要的信息,比如音高和音量,这些特征信息将用于后续的分析和识别,这是编码前的重要步骤。两者相辅相成,先提取特征,再进行编码。图7-17语音识别技术的4个基本流程7.4.3语音识别的实现流程313.解码在对获取的声音特征完成编码后,计算机就结合声学模型和语言模型来理解编码,即理解声音。其中,声学模型分析声音的物理特性,比如音高和音长。而语言模型是理解这些声音代表的词汇和语法,分别表达什么含义。图7-17语音识别技术的4个基本流程7.4.3语音识别的实现流程324.文字输出计算机根据前面分析的结果,把理解的声音内容转换成相应的文字。图7-17语音识别技术的4个基本流程7.4.3语音识别的实现流程33图7-18语音识别的完整流程图7.4.4语音识别的代码示例34方案1:使用speech_recognition库(适合简单应用)方案2:使用Whisper模型(适合离线高精度识别)7.4.4语音识别的代码示例35方案1:使用speech_recognition库(适合简单应用)importspeech_recognitionassrrecognizer=sr.Recognizer()withsr.Microphone()assource:print("请开始说话...")recognizer.adjust_for_ambient_noise(source)audio=recognizer.listen(source,timeout=5)try:text=recognizer.recognize_google(audio,language="zh-CN")print("识别结果:",text)exceptsr.UnknownValueError:print("无法识别语音")exceptsr.RequestError:print("API请求失败")方案1基于speech_recognition库,提供轻量级语音识别方案。通过麦克风实时采集音频,调用Google云端API(需联网)进行识别,支持中文等多语言。优点是部署简单,适合快速验证和教学演示;缺点是依赖网络,识别精度受限于云端服务,且免费版有调用限制。适合开发原型或低并发场景。7.4.4语音识别的代码示例36方案2:使用Whisper模型(适合离线高精度识别)importwhispermodel=whisper.load_model("small")result=model.transcribe("audio.wav",language="zh")print("识别结果:",result["text"])importpyaudioimportwavep=pyaudio.PyAudio()stream=p.open(format=pyaudio.paInt16,channels=1,rate=16000,input=True,frames_per_buffer=1024)frames=[stream.read(1024)for_inrange(0,int(16000/1024*5))]stream.stop_stream()withwave.open("temp.wav","wb")aswf:wf.setnchannels(1)wf.setsampwidth(p.get_sample_size(pyaudio.paInt16))wf.setframerate(16000)wf.writeframes(b"".join(frames))result=model.transcribe("temp.wav")print("实时识别结果:",result["text"])

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论