人工智能通识教育课件模块3 人工智能关键技术

上传人：熊*** IP属地：浙江上传时间：2026-01-19 格式：PPTX 页数：37 大小：5.66MB 积分：9.6 举报 版权申诉

已阅读5页，还剩32页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

人工智能通识教育主编：吕争、冯金地、赵琨2025年1月目模块1初识人工智能模块3人工智能关键技术模块5人工智能应用(二)模块7人工智能与社会录模块2人工智能支撑运作平台模块4人工智能应用(一)模块6人工智能前沿模块3人工智能关键技术模块3结构：单元1自然语言处理技术单元2机器学习技术单元3深度学习技术单元4机器视觉与机器听觉单元5跨媒体分析与推理技术单元6虚拟现实与增强现实技术学习目标：√

了解人工智能的基本概念和发展历程。√理解人工智能的基本概念和原理。√

了解人工智能的关键技术。√培养具有人工智能思维解决实际问题的能力学

习

重

点

：√理解自然语言处理的含义及常见应用；√2.了解机器学习、深度学习之间的关系；√3.理解机器视觉与机器听觉的原理和应用场景；√

了解跨媒体(模态)技术应用；√5.了解虚拟现实技术与增强现实技术的区别及应用。模块3人工智能关键技术

模块3人工智能关键技术单元1自然语言处理技术3.1.1什么是自然语言处理NLP

基础技术NLP

核心技术

NLP+词汇表示和分析

机器翻译

文本生成

搜索引擎短语表示和分析

问答，聊天

知识库

智能客服句法语义表示和分析

信息检索

机器翻译

语音助手篇章表示和词汇分析

信息抽取

情感分析

商业智能用户画像大数据

云计算

机器学习深度学习

领域知识自然语言处理是将人类交流沟通所用的语言经过处理转化，成为机器所能理

解的机器语言，是一种研究语言能力的模型和算法框架，是语言学和计算机科

学的交叉学科。其研究可分为自然语言理解(让机器读懂我们日常的表达)和

自然语言生成(让机器生成我们所能懂的话)。02024Baidu

健用西度的必读!服驾协设1端助文心一言自然语言处理正在人们的日常生活中扮演着越来越重要的角色。机器翻译是指利用计算机将一种自然语言转换为另一种自然语言的过程，是

自然语言处理的一个分支。聊天机器人是一个用来模拟人类对话或聊天的程序

,它能够与人类进行对话和交流。聊天机器人利用自然语言处理技术来理解人

类的语言输入，并生成相应的回复。模块3人工智能关键技术单元1自然语言处理技术3.1.2自然语言处理的典型应用智

能

翻

译▼

我

的

文

件

▼

知

识

中

心自动检测

中

文

(

简

体)

.绝机翻译

·湖用领味

大模型翻译

·基础版添

加

术

语

智

能

增

强设

置请输入文本、网址、arXiv

链接或粘贴图片秒翻点

击

或

拖

拽

上

传tut

pngipg文档工具》

我是DeepSeek,

很高兴见到你!我可以帮你写代码、读文件、写作各种创意内容，请把你的任务交给我吧~给

DeepSeek

发送消息深度思考(R1)

联网搜索③格式说明单元1自然语言处理技术3.1.3自然语言处理的发展趋势自然语言处理(NLP)

技术的快速进步和应用扩展，预示着它在未

来将继续发挥重要作用。从更强大的预训练模型到普及的个性化应用

,NLP

正在成为推动智能化和自动化发展的关键技术之一。自然语言处

理的发展趋势有以下几个方面：1.更强大的预训练模型2.多模态学习3.实时和高效的NLP4.个人化和情境感知5.普及和民主化模块3人工智能关键技术单元2机器学习技术3.2.1监督学习的流程和框架监督学习的4个流程1.合适的模型2.提供训练数据3.训练出方法论

4.在新数据上使用方法论监督体现在这里监督并不是指人站在机器旁边看机器做的对不对，而是上面的流程：选

择一个适合目标任务的数学模型、先把一部分已知的“问题和答案”(训

练集)给机器去学习、机器总结出了自己的“方法论”、人类把“新的问

题”(测试集)给机器，让他去解答。模块3人工智能关键技术随着计算机技术的飞速发展，机器学习和人工智能领域取得了令人瞩目的

成就。其中，手写数字识别技术作为一种重要的人工智能技术，已经广泛应

用于图像处理、语音识别、自然语言处理等领域。而MNIST手写数字识别是

机器学习和深度学习领域中的一个经典问题，也是机器学习和人工智能领域

的入门级问题之一。单元2机器学习技术3.2.2监督学习的案例一模块3人工智能关键技术单元2机器学习技术3.2.3数据集与损失函数如何判断所学的目标函数好还是不好呢?要回答这个问题，我们首先需

要制定一个评价机制。简单来说，根据数据给出的xi,y;的组合，我们希

望所学的函数f尽可能满足f(x;)=y;,

或者至少f(x)≈y;。根据这一原则

,我们可以定义一个距离函数，用以表示f(X)和Y

的距离有多远。在机

器学习领域，这样的距离函数叫做损失函数

(loss

function)。模块3人工智能关键技术模块3人工智能关键技术单元2机器学习技术3.2.4无监督学习的主要任务无监督学习则不同。这里的数据没有预先标注，换句话说，机器不知

道哪些数据代表什么。它的任务是通过分析这些没有标签的数据，自己

去发现其中的模式、结构或关系。我们可以把无监督学习比作一个侦探的任务。想象你是一个侦探，被

放在一个陌生的城市，没有任何提示。你要通过观察这座城市的建筑、

街道、居民活动等，去自己发现这座城市的规则和结构。比如，你可能

会发现城市的不同区域有着不同风格的建筑，人们的衣着也有所不同，

或者某些特定区域在特定时间会变得特别繁忙。这些发现都是基于你自

己对环境的观察，而没有人告诉你哪里是商业区，哪里是住宅区。模块3人工智能关键技术单元3深度学习技术3.3.1深度学习的发展历程ARTIFICIALINTELLIGENCEMACHINELEARNINGDEEPLEARNING1970's

2010's深度学习是一种机器学习方法，它是机器学习领域中的一个重要分支，旨在让机

器能够像人一样思考和行动。深度学习的核心在于使用多层人工神经网络(由算法建

模而成，能够像人的大脑一样工作)来模拟人脑的学习过程，通过学习大量数据中的

内在规律和表示层次，从而实现对图像、语音、文本等复杂数据的处理和分析。深度学习使用多层人工神经网络，这是由

输入和输出之间节点的几个“隐藏层”组成的

网络。人工神经网络通过将非线性函数应用于

输入值的加权求和，以此转换输入数据。该转

换称为神经层，该函数则称为神经元。层的中间输出称为特征，会用作下一层的

输入。神经网络会通过重复转换来学习多层非

线性特征(比如边缘和形状),之后会在最后

一层汇总这些特征以生成(对更复杂物体的)

预

测

。3.3.2深度学习的工作原理Inputs

Threshold

BinaryOutput单元3深度学习技术模块3人工智能关键技术先进的深度学习神经网络可能有数百万乃至十亿以上的参数需要通过反向传播进行调整。此外，它

们需要大量的训练数据才能实现较高的准确度，这

意味着成千上万乃至数百万的输入样本必须同时进

行向前和向后传输。由于神经网络由大量相同的神

经元构建而成，因此本质上具有高度并行性。这种并行性自然而然地映射到了GPU

上，与只用CPU的训练相比，计算速度大大提升，使其成为训练大

型复杂神经网络系统的首选平台。推理运算的并行性质也使其十分宜于在GPU

上执行NVIDIAGeForceRTX

4090查找AD102修订A1NVIDIA☑UEFI4nm芯片大小晶体管数608

mm²Oct

12,202210764M95.02.18.00.C1技嘉设备ID10DE2684-145840BF176/512

总线接口

PClex DirectX支

纹理填充率6持4.0@×161.1?16384单元12(12_2)4462G像素秒1297.9G纹理秒GDDR6X(镁光)总线宽度384位24576MB显存带宽1008.4GB/s31.0.152647(NVIDIA52647)DCH/Win1064数字签名Oct25,2022WHQL显存频率显存频率超频超频2235MHz1313MHz2535MHz2235MHz1313MHz2535MHz已禁用

可调整大小BAR

已禁用☑openCL

☑CUDA☑直接计算☑DirectMLVulkan

☑光线追踪

☑Physx

☑openGL4.6TX4090模块3人工智能关键技术单元3深度学习技术3.3.3深度学习的关键—GPU脚TechPowerUpGPU-Z2.50.0名称GPU工艺发布日期BIOS版本子供应商光栅纹理着色器像素填充率显存类型显存大小驱动版本驱动日期GPU频率默认频率NVIDIA

SLI计算能力技术☑NVIDIAGeForceR高级验证显卡传感器三单元3深度学习技术3.3.4深度学习案例深度学习算法有许多不同的变体，比如以下几种：只将信息从一层向前馈送至下一层的人工神经网络称为前馈人工神经网络。多层

感知器是一种前馈ANN,由至少三层节点组成：输入层、隐藏层和输出层。

MLP

擅

长使用已标记的输入进行分类预测。它们是可应用于各种场景的灵活网络。卷积神经网络是识别物体的图像处理器。在某些情况下，

CNN

图像识别表现优于

人类，包括识别猫、血液中的癌症迹象以及MRI

扫描影像中的肿瘤。CNN

已成为当今自动驾驶汽车的点睛之笔。在医疗健康方面，它们可以加快医学成像发现疾病的

速度，并且更快速地挽救生命。时间递归神经网络是解析语言模式和序列数据的数学工具并为企业提供能够实现

听力和语音的自然语言处理的大脑。RNN应用程序不仅限于自然语言处理和语音识别。其还可用于语言翻译、股票预测和程序化交易。模块3人工智能关键技术计算机视觉是一个研究领域，旨

在助力计算机使用复杂算法(可以

是传统算法，也可以是基于深度学

习的算法等)来理解数字图像和视

频并提取有用的信息。作为人工智

能技术应用最广泛的领域，视觉智

能的核心是用“机器眼”来代替人

眼，过去的计算机视觉还主要停留

在图像信息表达和物体识别阶段，而现在进人人工智能阶更强调推理

、决策和应用。微小中等重要关键商用车远程通讯系统可穿戴设备ADAS自动售货机交互式白板监控摄像头机器人查询机视频监控服务器数字展示屏国防航空智能储物柜手机，平板及PC智能零售银行及ATM机增强现实数字电视玩具电子游戏虚拟现实家庭健康监测物流管理游戏控制器数字门铃病患监测工业手持设备及PC半导体设备智能镜子POS机解决方案移动POS机方案数字摄像头医疗影像视频监控DVR/NVR行业自动化辅助驾驶中央控制系统机器视觉自动化视频监控编码器/转码器数字信息亭交通网关自助结账单元4机器视觉与机器听觉3.4.1机器视觉模块3人工智能关键技术机器视觉是一种让计算机“看见

”并理解物体和环境的技术，其目

的是通过图像处理技术和模式识别

算法来模拟人类的视觉功能。通俗

地讲，机器视觉就像是计算机的“

眼睛”和“大脑”协同工作，以从

图像或视频中提取有用的信息，来

做出某种决定或操作。它的应用领

域非常广泛，包括工业自动化、智

能家居、机器人导航、医疗影像处

理

等

。模块3人工智能关键技术单元3深度学习技术3.4.2机器视觉的原理语言是人与人之间交流的工具，也是人与机器之问

交流的阻碍，人通过用外耳道收集外界的声波，将其

传到鼓膜，引起了鼓膜的震动，再由听小骨传到内耳

,刺激耳蜗内对声波敏感的听觉细胞，这些细胞就将

声音的信息通过听觉神经在传给大脑皮层的一定区域

,这样就产生了听觉，人能够听到声音了。那么能否让人工智能充当人与人之间的翻译，甚至让

人与机器流畅对话呢?答案是肯定的。语音识别，作

为人机交互的第一人口，已让这一梦想成为现实：可

以与人对话的智能音箱，听得懂指令的智能家居设备

,能懂多国语言的智能翻译，电话客服机器人..都已

走进了我们的生活。单元3深度学习技术3.4.3机器听觉天猫精灵，打开扫地机天猫精灵，打开台灯天猫精灵，空调调到23度天猫精灵，找队友!模块3人工智能关键技术智能语音识别主要应用于以下三个领域，

这也是语音识别商业化发展的主要方向。①语音输入系统将语音识别成文字，提升

用户的效率，如微信语音转换文字、讯飞输

入法等。②语音控制系统通过语音控制设备进行相

关操作，彻底解放双手，如智能音箱智能汽

车系统(见图3-22)等。③语音对话系统与语音输入系统和语音控

制系统相比，语音对话系统更为复杂代表着

语音识别的未来方向。单元3深度学习技术模块3人工智能关键技术3.4.4语音识别技术的应用与语音识别相比，声纹识别的最大

特点在于智能系统不仅会捕捉语音

内容，还会根据声波特点、说话人

的生理特征等参数，自动识别说话

人的身份。因为每个人发出的声纹

图谱会与其他人不同，声纹识别正

式通过比对说话人在相同音素上的

发声来判断是否为同一个人，从而

实现“闻声识人”的功能。模块3人工智能关键技术单元3深度学习技术3.4.5声纹识别模块3人工智能关键技术单元5跨媒体分析与推理技术3.5.1跨媒体分析与推理技术概述当前，以网络数据为代表的跨媒体数据呈现爆炸式增长的趋势，呈现

出了跨模态、跨数据源的复杂关联及动态演化特性，跨媒体分析与推理

技术针对多模态信息理解、交互、内容管理等需求，通过构建跨模态、

跨平台的语义贯通与统一表征机制，进一步实现分析和推理以及对复杂

认知目标的不断逼近，建立语义层级的逻辑推理机制，最终实现跨媒体

类人智能推理。跨媒体信息包含不同的模态

(Modality)信息

,如图像、视频、文本、语音等。多模态深度

学习

(Modality

Deep

Learning)

通过深度学习

实现对多个模态信息的统一表征、转换及深层

理解，是跨媒体分析推理任务涉及到的基础技

术。人工智能的目的是让机器实现类人智能，

因此让机器具有像人一样处理跨媒体信息的能

力，是人工智能领域中重要的发展方向之一。

其中，涉及到图像、视频和文本的图文理解任

务是跨媒体分析领域主要的研究方向，旨在用

文字辅助对视觉内容的理解，或以视觉内容刻

画文字所表达的语义。单元5跨媒体分析与推理技术3.5.2跨媒体分析推理技术研究框架视觉问答/多模

态关系推理

单轮交互图像描述/视频概述图-文归纳图文检索整体匹配视觉语言导航多轮交互视觉生成文-图演绎视觉定位/语义分割局部定位推理与决策理解与转换表征与关联模块3人工智能关键技术单元5跨媒体分析与推理技术3.5.3图文转换视频描述任务视觉内容提取

描述文本生成图文转换也可以称为图文映射，负责

将一个模态的信息转换至另一模态，常

见的应用包括图像视频概述(基于输入

图像或视频，输出描述该视觉内容的文

本)、文本生成图像(基于文本内容生

成对应语义的图像)等。固定长度视觉向量表征可变长度视觉向量表征固定序列生成单句1多句可变序列生成模块3人工智能关键技术(计算机视觉技术)(自然语言处理技术)人类在信息获取、环境感知、知识学习与

表达等方面都是采用多模态的输人、输出方式。例如，如果一个人要在一片草坪上找到

一朵盛开的花朵，既可以用眼睛看，也可以

用鼻子闻，还可以用手触摸。这种跨媒体(

多模态)的输人、输出方式也是人类智慧的

重要体现之一。多模态

AI则将视觉、语言、

听觉等多种信息进行融合，其优势在于它能

够超越单模态数据的限制，并提供对复杂情

况更全面的理解，为计算机提供更接近于人

类感知的场景。3.5.4应用举例当前视角全景图自然语言指令Turncompletelyarounduntilyoufaceanopen

doorwith

awindowto

the

left

and

patio

the

right

视觉编码器语言编码器注意力机制轨迹编码器

h-1h-1注意力机制奖励函数单元5跨媒体分析与推理技术h,h₃+1动作预测器轨迹评估器模块3人工智能关键技术图文匹配和检索是多模态分析的基本任务，目标是学习一种多模态的相似性

度量，对于给定的查询词，返回另一模态最相似的样本，该任务可分为全局匹

配与局部检索两大类。跨模态检索任务的难点主要有不同模态特征具有异构性

、底层内容和高层语义之间存在语义鸿沟、模态间信息不对齐等。单元5跨媒体分析与推理技术3.5.5跨模态检索输入搜索图像

候选区域候选框提取词嵌入表征查询向量模块3人工智能关键技术搜索结果特征匹配及排序视觉特征

提取文本特征提取区域视觉特征查询语言特征输入查询：黄色的猫模块3人工智能关键技术单元5跨媒体分析与推理技术3.5.6基于知识图谱的视觉问答系统内部推理视觉问答系统是让计算机根据视觉

信息回答用户所提出的问题，是跨

媒体内容服务的一种高级形式。不

同于现有的搜索引擎，问答系统返

回的不再是基于关键词匹配的相关

排序，而是精确的自然语言形式的

答案信息。问答生成Is

there

cat

dog

the

sofa?There

cat

the

sofa.指

导

补

全知

识

图

谱问

答

互

动单元5跨媒体分析与推理技术3.5.7挑战与展望1.主要挑战虽然跨媒体分析推理目前已经取得了一定的进展，但仍存在一定的局限性：模

型的处理准确率较低。虽然计算机视觉、自然语言处理和语音识别等领域的发展

促进了跨媒体分析任务准确率的不断提高，但距离实现高水平人工智能还有很大

差距。模型的推理能力较弱。现有模型实现了多模态信息在同一语义空间的映射

,但缺乏高层逻辑推理能力，无法实现对未知信息的预测。2.未来展望基于深度学习的跨媒体分析与推理技术虽然取得了一定的进展，但还未达到人

类的预期水平，在未来还可从以下几个方面对该任务进行深入探索：获取跨媒体

信息更全面的高维序列表征，对声音、文本、图像特征使用更合理的融合方式进

行表征。进行模型与技术的创新，重点提升文本信息的语义准确性和视觉一致性

,尤其是长视频中多事件的顺序、联系，以进行更详尽的表达。模块3人工智能关键技术单元6虚拟现实与增强现实技术3.6.1VR、AR

的定义虚拟现实

(virtual

reality,VR)

技术是一种利用计算机技术模拟生成三

维空间虚拟环境，并为用户提供多种逼真的感官体验(包括视觉、听觉、触觉等)的真实感模拟技术。虚拟现实技术作为仿真技术的一个重要分支

,综合了多种现代科学技术，包括计算机图形学、互联网技术、人机接口

技术、多媒体技术等。增强现实

(augmented

reality,AR)

技术是一种实时地计算摄像机的位

置及姿态并在摄像机捕捉到的真实场景的画面上叠加相应虚拟信息的技术。它将虚拟信息(包括计算机生成的图形、文字、声音、动画等)实时地

叠加到由相机捕捉到的现实画面之上，以达到对真实世界进行增强的目的O模块3人工智能关键技术模块3人工智能关键技术单元6虚拟现实与增强现实技术3.6.2VR与

的发展简史1.探索阶段(20

世纪30年代-60年代)2.萌芽阶段(20世纪70年代-80年代)3.发展阶段(20

世纪90

年代-21

世纪初)4.成熟阶段(21

世纪初至今)单元6虚拟现实与增强现实技术3.6.3VR和AR的研究现状虚拟现实技术仍然是目前的研究热点，国内外高校和

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

人工智能通识教育课件模块3 人工智能关键技术

文档简介

温馨提示

最新文档

评论

人工智能通识教育 课件 模块3 人工智能关键技术

文档简介

温馨提示

最新文档

评论

相关文档

人工智能通识教育课件模块3 人工智能关键技术