人工智能通识课件第4章机器听世界

上传人：y*** IP属地：山东上传时间：2026-04-08 格式：PPTX 页数：23 大小：56.32MB 积分：20 举报 版权申诉

已阅读5页，还剩18页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

机器听世界素养目标技能目标知识目标能够利用语音识别技术完成文字的录入；能够结合语音识别和专业背景提出创新性应用思路了解语音识别的概念；熟悉语音识别的关键技术；熟悉语音识别的模型和主要流程。树立民族自豪感，坚持民族自信；培养学生对国产优秀AI模型和产品的关注热情。学习目标人类能轻松地从嘈杂环境中分辨出熟悉的声音，理解其中的意义，并作出回应。但对机器而言，让它们“听懂”并理解人类的语言，却是一项复杂而艰巨的任务——需要将连续的声波信号转化为数字形式，提取关键特征，再借助声学模型与语言模型一步步推理，才能让机器像人一样“听见”并理解我们所说的话。1.2.3.语音识别概述语音识别的主要模型语音识别的主要流程4.语音识别的应用场景目录01语音识别概述什么是语音识别语音识别是人工智能技术，将语音信号转换为文本或命令，核心是将语音中的词汇内容转换为计算机可读输入，如按键、二进制编码或字符序列。语音识别概念声音是空气密度的周期性变化形成的声波，基本要素包括幅度、频率和相位。人耳能感知的频率范围约为20Hz~20kHz。声音的物理基础语音由声带产生周期性信号，声道作为滤波器形成特定共振峰，最终由嘴唇或鼻腔辐射形成语音信号。语音产生机制02语音识别的主要的模型GMM-HMM模型是传统声学模型，GMM建模语音特征概率分布，HMM建模语音信号时间序列结构，能处理输入输出长度不等的问题。高斯混合模型-隐马尔可夫模型（GMM-HMM）声学模型DNN-HMM模型用DNN代替GMM，估计HMM的观测概率，对复杂语音特征的表达能力更强，但缺乏对长时间上下文关系的建模能力。深度神经网络-隐马尔可夫模型（DNN-HMM）声学模型N-Gram模型是基于统计的语言建模方法，通过统计N-Gram片段出现的频率估算概率，结构简单但难以建模长距离上下文依赖关系。语言模型是语音识别系统中的重要组成部分，其主要作用是对词序列的合理性进行建模，用以约束识别结果的语法和语义结构语言模型N-Gram

模型RNNLM模型利用循环神经网络对词与词之间的关系进行建模，能捕捉长距离上下文信息，缓解未登录词问题。

RNNLM模型

端到端模型避免了传统模型中子模块训练目标不一致导致的误差累积问题，能直接优化最终目标，如词错误率或字错误率。端到端模型将整个识别流程视为一个统一的建模问题，直接对概率P(W|X)进行建模，简化了建模过程，主要有基于CTC和基于注意力机制两类方法。端到端模型03语音识别的主要流程语音信号预处理预处理步骤包括预滤波、采样与模数转换、预加重、分帧与加窗、端点检测等，目的是将模拟语音信号转化为便于后续处理的数字信号。预处理的重要性预处理是语音识别系统的起点，能提升语音信号的分析可行性和准确性，决定最终识别性能的重要因素之一。特征提取MFCC特征提取过程包括语音分帧加窗、快速傅里叶变换、通过梅尔滤波器组、取对数、离散余弦变换等步骤。常见特征包括MFCC、Fbank、PLP、LPCC等，其中MFCC是最经典和主流的特征提取方法，模拟了人耳听觉感知机制数据准备模型初始化010302定义损失函数模型训练训练优化0504评估与调参构建大规模、带时间对齐的“语音+文本”训练语料库，包括多个说话人、多口音、多场景，以增强模型的鲁棒性。选择合适的模型结构（如DNN、LSTM、Transformer、CTC、RNN-T等），对模型参数进行初始化根据任务选择交叉熵损失（分类）、CTC损失（对齐无关）或Seq2Seq损失（编码解码结构）通过梯度下降（如SGD、Adam）等算法训练模型，进行参数的学习，同时采用正则化、学习率调度等技术防止过拟合。在验证集和测试集上评估识别效果（如字错误率、词错误率），并据此优化模型结构、训练策略或调整模型参数等。03.01.02.输入帧信号通过麦克风采集语音信号，形成一帧帧的音频数据特征提取对每一帧音频进行MFCC等声学特征提取声学模型处理使用GMM对特征与声学状态进行匹配；使用HMM描述语音的时间变化结构，将状态序列解码为音素语音解码05.04.词典映射音素序列通过发音词典映射为单词序列。词典定义了每个单词对应的音素组合语言模型判断将单词进一步组合成句子，评估词序列的语法合理性与语义连贯性，从而选出最可能的句子作为最终识别结果04语音识别的应用场景语音输入12语音输入使信息录入和沟通更加高效便捷，能识别多种语言和方言，自动纠错、断句和添加标点，提升输入质量和交流效率。语音输入与通讯语音搜索内容用户可通过自然语言发出语音指令完成搜索，提升搜索效率，降低操作门槛，适用于多种搜索场景。语音客服自助服务语音客服系统通过自动语音应答提供引导服务，实现基础业务的自动闭环处理，还能识别客户语音中的多维信息，提供个性化服务。实时通话转录在客户与人工客服的实时通话过程中，语音识别系统能够将通话内容即时转录为文字，为客服人员提供辅助，提升服务效率。0102每个人的生活习惯和需求都有所不同，语音输入技术能够根据用户的个性化需求，提供定制化的智能家居服务个性化的语音服务02智能语音助手不仅能够识别并执行用户的语音指令，还能够通过学习和分析用户的使用习惯，为用户提供更加智能化的服务。智能语音助手03语音输入技术在智能家居控制中的应用不仅限于简单的指令执行，更能够实现场景化的控制。场景化的语音控制01智能家居语音输入技术还能够实现智能家居设备与其他智能设备的联动。与其他智能设备的联动04车载系统驾驶者可通过语音指令控制车载系统，避免因操作设备而分心，提高驾驶安全性。安全驾驶的得力助手车载系统中的语音助手能处理复杂任务，如拨打电话、发送短信、查询天气等，还能根据驾驶者意图提供相应服务。多功能的语音助手12每个人的驾驶习惯和喜好都有所不同，车载系统也需要具备一定的个性化和适应性。通过语音输入技术，车载系统能够学习和适应驾驶者的使用习惯，并提供定制化和个性化的服务。个性化和适应性通过语音输入技术，驾驶者可以轻松地控制家中的智能家居设备，如打开家中的空调、照明设备等。这种联动不仅提高了生活的便利性，也使得驾驶者与家居环境的互动更加紧密。与其他智能设备的联动34实验案例：任务说明💡实验目标本次实验包含两个核心任务，旨在将

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

人工智能通识课件第4章机器听世界

文档简介

温馨提示

最新文档

评论

人工智能通识 课件 第4章 机器听世界

文档简介

温馨提示

最新文档

评论

相关文档

人工智能通识课件第4章机器听世界