《新一代信息技术与人工智能导论》课件第5章计算机听觉

上传人：h*** IP属地：山东上传时间：2026-06-28 格式：PPTX 页数：54 大小：10.61MB 积分：15 举报 版权申诉

已阅读5页，还剩49页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

第5章计算机听觉01认识计算机听觉03计算机听觉的相关任务02与声音有关的几个概念计算机听觉的挑战与未来方向目录contents0405计算机听觉采用的方法015.1认识计算机听觉计算机听觉是人工智能领域的重要分支，旨在使机器具备理解、分析和处理声音信号的能力。它模拟人类的听觉系统，让计算机能够“听懂”声音并理解其内涵，实现与人类的自然互动。通过先进的声音信号处理技术，计算机听觉系统不仅能够准确识别语音内容，还能辨别说话人身份、分析情绪状态，并理解复杂的环境声音场景，为智能交互系统赋予敏锐的听觉感知能力。

认识计算机听觉1

计算机听觉发展历程21950s-1970s:基础研究阶段贝尔实验室开发第一个语音识别系统"Audrey"，能识别0-9的数字。IBM推出"Shoebox"系统，可识别16个英文单词。1980s-1990s:统计模型兴起隐马尔可夫模型(HMM)成为主流，IBM推出首个大词汇量连续语音识别系统。MFCC特征提取方法被广泛采用。2000s-2010s:深度学习革命深度神经网络(DNN)在语音识别中超越传统方法。端到端模型简化处理流程，计算能力提升推动实时应用。2020s至今:多模态融合自监督学习减少对标注数据的依赖，多模态模型整合视觉与听觉信息，边缘计算推动嵌入式设备应用。案例一：讯飞输入法3讯飞输入法是科大讯飞推出的一款输入软件，集拼音、手写、拍照、ai助手等多种输入方式于一体，旨在提升输入速度。讯飞输入法率先推出方言语音输入支持四川话东北话等26种方言识别。支持英语、法语、德语等30种外语的语音输入，以及中文与外语的即时互译。讯飞输入法4实验1：下载-安装-演示普通话录入、方言录入英文录入随声译拍照输入文本内容，并进行简单排版025.2与声音有关的几个概念声音的物理概念5正弦波特性声音的基本波形，任何复杂声音都可看作多个正弦波的叠加。呈现周期性起伏，具有明确的峰值和谷值。振幅与响度振幅是波形在纵轴上的最大值，与声音响度直接相关。振幅越大，声音越响亮。周期与频率周期是波形重复一次所需时间，频率是每秒振动次数。两者互为倒数关系：T=1/f。傅里叶变换将复杂信号分解为简单正弦波的数学工具，揭示声音的频谱结构。正弦波的声音声音的叠加原理6多个声波叠加形成复杂波形⽰意图基本原理当多个声音同时存在时，它们的波形会相互叠加形成新的复合波形。这种叠加是线性的，即每个声音保持其原有特性。叠加原理：y(t)=y₁(t)+y₂(t)+...+yₙ(t)自然声音的构成大多数自然声音（如音乐、语音）都是多个简单正弦波叠加的结果：纯音单一频率的正弦波复合音多个频率的叠加音乐基频+泛音的复杂叠加语音多种频率的瞬时组合思考：自然声音（如音乐、语音）通常由多个频率成分叠加而成，形成复杂的波形。如何从复杂的叠加波形中提取出各个组成频率及其强度？傅里叶变换7傅里叶变换傅里叶变换提供了一种数学工具，可以将任何复杂信号分解为不同频率的正弦波组合，揭示声音的频谱结构。分解过程1.将复杂信号与不同频率的正弦波进行相关性计算2.计算每个频率成分的振幅和相位3.构建频谱图，显示各频率成分的能量分布声音经过傅里叶变换的过程应用价值帮助分析复杂声音中包含的所有频率成分，是声音特征提取的基础语音8一段语音的波形图语音定义人类信息交流的基本媒介复杂多层次的声波信号，融合声音与语言学特征语音的物理机制由声带振动产生，气流传播形成复杂频谱多频率正弦波叠加，振幅决定响度，频率决定音高个体差异导致独特频谱特征，实现声音个体识别语音情感表达通过音高、节奏、强度、音色等维度传达情绪不同情绪影响基频、语速、响度等声学特征促进人机交互与情感计算研究和谐的声音9和谐声音的本质和谐声音的频率成分是某个基频的整数倍，这种数学关系创造了悦耳自然的听感。当所有频率成分形成简单整数比时，声音呈现出和谐、稳定的特性。听觉体验人耳感知和谐声音为悦耳、舒适的音色，具有清晰可辨的音高。这种声音特性常见于弦乐、管乐等乐器发出的纯净音色。小提琴：和谐频谱，频率成分呈整数倍关系，音色纯净悦耳。非和谐声音10非和谐声音频率间无简单数学关系，产生冲突、刺耳的听觉感受。锣鼓：杂乱频谱，频率成分无规律分布，产生复杂不和谐音。声音的响度11定义人耳对声音强弱的主观感受，反映声音的“大小”或“强度”与声压级相关但不等同，受振幅、频率、持续时间和听觉适应影响听觉特性人耳对不同频率响应不均匀，约1kHz最敏感低频和高频声音即便声压相同，响度感受较弱加权声压级（如A计权）更贴近人耳感知响度影响因素振幅增大响度增强，声音更响亮持续时间长和频谱丰富也会增强响度感受振幅越大，声音越响声音的音调12音调的本质音调是人耳对声音高低的主观感知，主要针对和谐声音的基频。这是人类听觉系统对声音频率特性的心理响应，而非纯粹的物理量。钢琴琴键图：展示音高与基频关系基频与音调的区别基频是物理量，音调是心理声学感知。人耳对频率的非线性响应导致二者不完全一致。小幅基频变化可能不引起明显音调变化，反之亦然。在大多数音乐和生活场景中，差异较小且不易觉察。声音的音色13音色的本质音色是声音的独特"指纹"，使不同乐器或人声演奏相同音高时产生可区分的听觉特征。它由谐波结构、泛音分布及声音的时间演变特性共同决定。核心特性谐波结构：不同频率成分的振幅分布模式泛音分布：基频整数倍频率的能量分布特征动态变化：声音随时间演变的起音、衰减特性频谱包络：整体频率响应的形状特征噪声成分：非谐波元素对音色的影响不同乐器的独特频谱特征形成各自可识别的音色案例二：感受音调与音色14使用在线网站，感受乐器的音调以及不同乐器之间的音色。035.3计算机听觉的相关任务15计算机听觉的相关任务🗣语音处理任务语音识别：将语⾳转换为文本说话人识别：通过声纹识别身份语音情绪识别：分析语音中的情感语音合成：将⽂本转换为自然语⾳🌳非语音声音分析环境声音分类：识别各种环境声音声学事件检测：发现特殊声音事件音频场景理解：根据声音判断环境🎵音乐信息处理⾳乐分类与标签化：识别音乐风格节奏与旋律分析：识别节拍和音高音乐生成与编曲：机器自动创作音乐🔊声源处理与增强声源分离：从混合音频中提取目标声源音频增强：消除背景噪声提升音质声源定位：确定声音来源方向语音处理任务：语音识别16将人类语音信号自动转换为可编辑文本或指令的技术，使机器能够"听懂"并理解人类语言。技术核心✓Siri/Alexa等语音助手响应语音指令，执行任务查询、设备控制等功能✓✓✓应用场景手机语音输入短信/文档，提升输入效率，支持多语种实时转写会议录音自动生成文字纪要，支持发言人区分和关键信息提取为听障人士提供实时字幕，实现语音信息的可视化获取。Siri百度语音助手会议记录实时语音转文字语音识别的基本流程171语⾳帧切割将连续⾳频信号切分为10-30ms的短⽚段（"语⾳帧"），为后续特征提取提供基础处理单元。1秒⾳频被切割为30-100帧2声学特征提取hěnhǎo识别⾳素/⾳节，将语⾳帧转化为声学特征向量。例如"很好"被分解为"hěn"和"hǎo"的⾳素序列。声学模型3语⾔模型处理结合语法规则和语义逻辑进⾏上下⽂判断，排除歧义。例如"很好"vs"狠号"的语义合理性判断。语言处理模型语法语义上下⽂修正语音识别的基本流程18语音识别基本流程：1.音频分帧2.利用声学模型识别音素3.结合语言模型输出准确文字案例二：通义千问19通义千问20“通义实时记录”功能将实时捕捉会议中的语音，智能识别并转换为文本，同时生成导读内容，以便于后续查阅与整理。通义千问：脑图21实时记录工具还提供了“脑图”功能，该功能能够根据会议内容自动生成思维导图。语音处理任务：说话人识别技术（声纹识别）22技术分类1:1验证-确认"是否为某人"（如手机声纹解锁）1:N辨认-从多人中识别“是谁”（如会议发言人区分）技术核心提取声纹特征：频谱包络、基频轨迹等生物特征构建个性化声纹模型抗噪算法：在嘈杂环境中保持识别准确率✓银行电话客服：声纹快速验证用户身份✓✓✓应用场景家庭安防：智能门锁通过声纹识别主人公共安全：从嘈杂录音中定位嫌疑人声纹，辅助案件侦破和犯罪预防。诈骗预警：识别已知诈骗分子的声纹特征，实时预警潜在诈骗行为声纹密码银行声纹验证语音处理任务：语音情绪识别23关键特征参数技术应用📞客服质量评估：分析客服与客户对话中的情绪变化❤心理健康监测：抑郁症患者语音特征分析🎭影视行业：分析试镜演员台词中的情绪张力🤖⾃闭症儿童社交训练机器人的反馈系统基频：声音的基本频率，反映情绪强度语速：说话速度变化反映情绪状态能量：声音强度与情绪激动程度相关频谱特征：声音频率分布反映情绪类型语音情感分析语音处理任务：语音合成24语音合成技术演进早期：拼接式合成通过拼接预录制的语音片段生成语音，效果生硬机械，自然度低，难以处理连续语句。现代：端到端神经网络合成基于深度学习的WaveNet、Tacotron等模型，直接从文本生成语音波形，自然度接近真人，支持情感表达。典型应用场景导航系统：实时语音播报路线（"前方100米左转"），帮助驾驶员专注路况。内容消费：电子书有声化，支持边听边做其他事，提升内容可及性。智能交互：聊天机器人语音回复，提升交互亲切感和自然度。无障碍支持：为视障用户提供文本内容的语音转换，提升信息获取能力。技术突破：个性化语音定制语音导航系统25

案例三：生成专属导航语音系统生成专属导航语音的基本过程：（1）文本准备：准备导航语音的文本内容，包括路口提示、转向指示、目的地名称等。确保文本清晰、简洁，并包含所有必要的导航信息。（2）语音录制：请一位能够清晰、自然地朗读文本的人进行语音录制（例如自己录制一段自己的音频文件）。确保录制环境安静。（3）音频处理：对录制的语音进行处理，如去除噪音、调整音量、修剪静音部分等。确保最终的语音效果清晰、自然。（4）文本转语音：利用文本转语音或AI声音克隆技术，将导航语音的文本内容转换成语音。（5）导航语音制作：将录制好并处理过的语音与导航软件或应用程序进行整合。制作自己的专属导航26非语音声音分析：环境声音分类27环境声音识别技术对环境中的非语音声音进行分类识别，包括自然声音（雨声、鸟叫）和人工声音（汽车引擎、警报声），实现机器对环境的听觉感知。创新应用场景智能家居应急响应：识别烟雾报警声→自动启动应急模式（开灯、开窗、关闭燃气阀门）生态监测与保护：森林中识别电锯声→预警非法伐木活动，定位破坏位置移动辅助功能：智能手机识别钥匙掉落声→触发闪光提示，辅助用户智能家居非语音声音分析：婴儿哭声检测28🎤1🔍2📱3声音输入通过麦克风实时采集环境声音，转化为数字信号并进行预处理（噪声抑制、回声消除）声音检测提取MFCC等声学特征，利用深度学习模型分析并判断是否包含儿童哭声输出结果生成事件通知（手机推送、声光报警），并进行后处理（时间标注、错误纠正）音乐信息处理：音乐分类与标签化29推管版音乐推荐系统内容管理版权管理根据用户喜欢的"流行+欢快"标签推荐新歌，实现个性化音乐发现，提升用户体验。音乐库自动分类生成"工作学习"、"健身"等智能歌单，优化内容检索与组织效率。识别盗版音乐（对比音频特征指纹），保护原创音乐人权益，维护行业健康发展。个性化音乐推荐界面智能音乐库分类管理音频指纹版权识别技术音乐信息处理：节奏与旋律分析30节旋和节奏分析BPM（每分钟节拍数）检测节拍强度与模式识别节奏稳定性分析舞蹈软件应用根据音乐节奏自动生成舞蹈动作，实现音乐与舞蹈的精准同步。旋律分析音高序列提取音程关系分析调式与音阶识别钢琴教学应用实时比对弹奏旋律与标准乐谱，纠正错音，提升学习效率。和声分析和弦进行识别调性变化追踪和声张力分析DJ混音应用自动匹配两首歌曲的BPM与和声，实现无缝混音过渡。舞蹈编排软件-节奏同步功能钢琴教学-旋律纠错功能DJ混音软件-和声匹配功能音乐信息处理：音乐生成31🎹输⼊与设计1🤖模型处理与⽣成2🎧输出与优化3用户输入创作意图（文本描述、乐谱片段或音频示例），选择音乐风格和结构要求AI模型（RNN、Transformer等）分析输入，学习旋律、和弦与节奏关联，生成多轨音乐输出MIDI或音频文件，进行人工或自动优化（调整不和谐音符、添加音效）案例四：音乐生成32海绵音乐是由字节跳动推出的一款AI音乐创作平台，基于人工智能技术帮助用户快速创作个性化的音乐作品。特别适合对音乐创作感兴趣的用户，音乐爱好者、业余音乐制作人还是专业音乐人，通过海绵音乐轻松创作出符合个人情感和主题的音乐。产品特色功能一键生成音乐，只需输入一句话灵感或歌词，能快速生成相应的音乐作品。多样化音乐风格，R&B、国风、EMO等。智能匹配，AI技术能够智能匹配合适的音乐元素。实时预览与编辑，可以实时听取生成的音乐，并进行即时调整。个性化创作，根据个人喜好调整音乐风格、节奏等元素。使用AI工具生成音乐33声源分离与音频增强34声源分离音频增强从混合音频中分离目标声源（如从带背景音乐的录音中提取清晰人声），通过分析声音频谱特征实现精准分离消除背景噪声、混响或修复受损音频，提升声音信号的清晰度与质量，使语音更清晰可辨声源分离技术流程示意图声源分离流程35🔧1🧠2🔊3✨4预处理与特征提取去除杂音，将声音转换为频谱图，分析不同频率的能量分布模型学习与声源建模通过AI模型学习不同声音的特征，生成"声音地图"分离与信号重构根据声音地图提取目标声音，重新拼接成清晰录音后处理与优化美化声音（调整音量、去除残留杂音），确保听感自然045.4计算机听觉采用的方法计算机听觉采用的方法36基于物理和统计特征分析需手工设计特征（如MFCC）采用GMM、HMM等模型优势：计算资源需求低局限：准确率低📊传统信号处理方法深度学习方法🧠神经网络自动学习层次化特征支持端到端训练代表模型：CNN、LSTM、Transformer优势：泛化能力强局限：需大量训练数据接下来我们以语音识别为例，深入了解计算机听觉的传统方法和深度学习方法传统语音识别流程371.将连续声音波形转换为数字化信号2.应用预加重滤波器增强高频分量3.分帧处理（通常20-40ms/帧）1.短时傅里叶变换生成频谱图2.计算梅尔频率倒谱系数(MFCC)3.提取动态特征（一阶、二阶差分）1.高斯混合模型(GMM)识别音素2.隐马尔可夫模型(HMM)处理时序特性3.语言模型处理语法和语义123信号预处理特征提取模型处理传统语音识别声学模型38高斯混合模型（GMM）GMM假设特征向量服从多个高斯分布的组合，通过EM算法估计参数。适用于建模音频特征的统计分布，常用于说话人识别。隐马尔可夫模型（HMM）HMM建模时间序列的转移概率，结合GMM构成HMM-GMM框架。曾是语音识别的主流方法，需人工设计状态转移规则。负责帧级特征分类，HMM处理时序建模，共同实现从声学特征到音素的转换传统语音识别模型示意图（GMM-HMM）深度学习语音识别流程391.将音频信号转换为时频表示2.应用短时傅里叶变换(STFT)3.生成梅尔频谱图作为输入1.卷积神经网络(CNN)

2.循环神经网络(RNN)

3.Transformer1.联合优化声学模型和语言模型2.使用连接时序分类(CTC)损失3.注意力机制对齐音频与文本123频谱图生成深度特征学习端到端训练深度学习语音识别模型40深度学习语音识别模型示意图（DNN-HMM）卷积神经网络(CNN)将音频频谱图视为二维图像，使用卷积层提取局部特征。典型结构：输入层→卷积层→池化层→全连接层。适合环境声音分类等任务。循环神经网络(RNN)LSTM/GRU网络处理时序依赖关系，捕捉音频信号的长期上下文。输入序列为帧级特征向量，输出分类结果。适合连续语音识别。Transformer

基于自注意力机制，能够并行捕捉音频序列

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

《新一代信息技术与人工智能导论》课件第5章计算机听觉

文档简介

温馨提示

最新文档

评论

《新一代信息技术与人工智能导论》课件第5章 计算机听觉

文档简介

温馨提示

最新文档

评论

相关文档

《新一代信息技术与人工智能导论》课件第5章计算机听觉