信息技术（WPS Office+人工智能）（第3版）课件第9章人工智能的关键技术

上传人：q*** IP属地：山东上传时间：2026-05-08 格式：PPTX 页数：93 大小：3.95MB 积分：15 举报 版权申诉

信息技术（WPS Office+人工智能）（第3版）课件第9章人工智能的关键技术_第2页

信息技术（WPS Office+人工智能）（第3版）课件第9章人工智能的关键技术_第3页

信息技术（WPS Office+人工智能）（第3版）课件第9章人工智能的关键技术_第4页

信息技术（WPS Office+人工智能）（第3版）课件第9章人工智能的关键技术_第5页

已阅读5页，还剩88页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

第9章

人工智能的关键技术信息技术9.1机器学习9.2深度学习9.3自然语言处理9.4计算机视觉与图像识别9.5智能机器人9.6生成式人工智能内容纲要1）掌握人工智能关键技术的概念与定义。2）熟悉机器学习、自然语言处理、计算机视觉、智能机器人的基本原理。3）了解大模型及生成式人工智能的工作机制。4）理解人工智能关键技术的简要工作流程。

学习目标机器学习（MachineLearning）‌是人工智能的核心分支，通过算法使计算机系统能够从数据中自动学习规律并改进性能，而无需显式编程。其核心特征包括：‌数据驱动‌：依赖大量数据构建数学模型，而非硬编码规则。‌‌‌自我优化‌：通过经验（训练数据）持续提升任务性能，如分类准确率或预测精度。‌‌‌泛化能力‌：学习到的模型可应用于新数据，解决类似问题。‌‌

9.1机器学习（1）监督学习通过利用已标记的有限训练数据集，采用特定的学习策略或方法建立模型，以实现对新数据及其标记的分类或映射。典型的监督学习算法包括回归和分类。监督学习要求训练样本的分类标签必须明确，标签精度越高，样本的代表性就越强，从而学习模型的准确度也会相应提高。监督学习在自然语言处理、信息检索、文本挖掘、手写体识别、垃圾邮件检测等领域得到了广泛应用。‌‌

任务9.1.1基于学习模式进行分类

9.1机器学习（2）无监督学习的目标在于利用有限的无标记数据，揭示其中隐含的数据结构或潜在规律。典型的无监督学习算法包括单类密度估计、单类数据降维和聚类等。无监督学习无需训练样本和人工标注数据，有助于压缩数据存储、减少计算量、提升算法速度，并能避免正负样本偏移引起的分类错误问题。无监督学习广泛应用于经济预测、异常监测、数据挖掘、图像处理以及模式识别等多个领域。‌‌任务9.1.1基于学习模式进行分类

9.1机器学习（3）强化学习机制使智能系统能够学会根据环境状态选择相应的行为，其核心目标是最大化强化信号函数值。由于外部环境提供的信息有限，强化学习系统必须依赖自身经历进行学习。其目标是构建从环境状态至行为的映射策略，使智能体选择能最大化环境奖赏的行为，进而优化外部环境对学习系统的评价。强化学习在机器人控制、无人驾驶、下棋、工业控制等领域已取得成功应用。‌‌任务9.1.1基于学习模式进行分类

9.1机器学习（1）传统机器学习基于观测（或训练）样本，致力于挖掘那些难以通过直接原理分析获得的潜在规律，从而实现对未来数据行为或趋势的精准预测。相关算法包括逻辑回归、隐马尔可夫模型、支持向量机、K-近邻算法、三层人工神经网络、贝叶斯方法以及决策树等。传统机器学习广泛应用于模式分类、回归分析、概率密度估计等领域。统计学是传统机器学习方法的重要理论基础之一，在自然语言处理、语音识别、图像识别、信息检索及生物信息等领域广泛应用。‌‌任务9.1.2基于学习方法进行分类

9.1机器学习（2）深度学习是一种构建深层结构模型的学习方法，典型的深度学习算法包括深度置信网络、卷积神经网络和循环神经网络等。深度学习的显著特点在于其放弃了对可解释性的追求，专注于提升学习的有效性。其中，卷积神经网络和循环神经网络是最为典型的两类模型。卷积神经网络常被应用于空间性分布数据；循环神经网络在神经网络中引入了记忆和反馈，常被应用于时间性分布数据。考虑到深度学习的重要性及其作为当今的热点之一，我们将在下节详细介绍深度学习技术。‌‌任务9.1.2基于学习方法进行分类

9.1机器学习（3）迁移学习是指在某些领域难以获取足够数据用于模型训练时，借助其他领域数据所获得的关系进行的学习。迁移学习能将已训练模型的参数应用于新模型，从而加速训练过程，减少数据量需求，并更有效地学习底层规律。迁移学习技术主要应用于变量有限的小规模场景，例如基于传感器网络的定位、文字分类和图像分类等。迁移学习有望在解决更具挑战性的问题中发挥重要作用，如视频分类、社交网络分析和逻辑推理等领域。‌‌任务9.1.2基于学习方法进行分类

9.1机器学习（4）主动学习通过算法筛选高价值未标记样本，经专家标注，用于训练模型，以提升模型精确度。主动学习具备选择性获取知识的能力，能够通过较少的训练样本构建出高性能的模型。常用的策略是基于不确定性准则和差异性准则来选取高效的样本。‌‌任务9.1.2基于学习方法进行分类

9.1机器学习（5）演化学习对优化问题的性质要求极低，仅需具备评估解的优劣能力即可，适用于解决复杂的优化问题，并且可直接应用于多目标优化。演化算法涵盖粒子群优化算法、多目标演化算法等多种类型。目前，针对演化学习的研究主要聚焦于演化数据聚类、对演化数据更高效的分类方法，以及开发自适应机制以评估演化机制的影响等方面。‌‌任务9.1.2基于学习方法进行分类

9.1机器学习深度学习起源于机器学习领域，其核心在于构建能够模拟人脑分析学习过程的神经网络，这些网络通过模仿人脑机制来解析各类数据，诸如图像、声音及文本信息。与机器学习方法相似，深度机器学习也分为监督学习和无监督学习两大类。例如，卷积神经网络（ConvolutionalNeuralNetworks,CNN）是一种基于深度监督学习的机器学习模型，而深度置信网（DeepBeliefNets,DBN）则属于无监督学习下的机器学习模型。在不同的学习框架下，所建立的学习模型差异显著。‌‌

9.2深度学习深度学习的概念最早在1989年引入机器学习，并在2000年后被引入人工神经网络。深度学习方法由多层组成，以学习多个抽象层次的数据特征，这一学习过程是非线性的。多层感知器，作为人工神经网络的一种简化形式，具备执行基本模式识别任务的能力，是深度学习架构中极具代表性的模型之一。深度学习通过整合低层特征，构建出更为抽象的高层表示属性类别或特征，从而揭示数据的分布式特征表示。‌‌任务9.2.1了解深度学习的基本概念

9.2深度学习卷积神经网络（CNN）和深度置信网（DBN）只是对人类大脑的一种粗略模仿，涵盖了三个仿生学模拟方向。‌‌（1）人脑神经网络中的单个神经元会动态且随机地与其他神经元建立联系。这种随机建立的神经元连接，可能是我们时而能回忆起某事、时而又会遗忘某事的原因。当然，在某个不经意的时刻，或许又会突然想起它。任务9.2.1了解深度学习的基本概念

9.2深度学习（2）人脑神经网络与计算机神经网络的主要区别在于，人脑能够处理通用性和跨领域的问题，而计算机神经网络则仅擅长解决特定领域的问题。因此，尽管AlphaGo在围棋领域独占鳌头，战胜了人类顶尖选手，但它却无法判断正在与它对弈的棋手是男是女。（3）尽管计算机神经网络在训练时需要大量的数据，例如在猫狗识别任务中，一个包含2000张图片的数据集就足以训练出有效的模型。然而，人类思维的抽象能力使得我们仅需几次观察就能识别出猫和狗。任务9.2.1了解深度学习的基本概念

9.2深度学习深度学习与浅层学习在学习目标、知识呈现方式、学习者的学习状态以及学习结果迁移等方面均存在显著差异。其特征主要体现在以下四个方面。（1）深度学习强调对知识学习的批判性理解。深度学习是一种基于理解的学习方式，着重于学习者批判性地吸收新知识和新思想。它要求学习者对任何学习材料保持批判或怀疑的态度，审视新知识并进行深入思考，再将其融入原有的认知结构中，并在不同观点之间构建多元连接。此外，深度学习还要求学习者在理解事物的基础上，善于质疑和辨析，通过质疑和辨析的过程，深化对深层知识和复杂概念的理解。‌‌任务9.2.2理解深度学习的基本特征

9.2深度学习（2）深度学习强调学习内容的有机整合。这种整合涵盖了内容本身的整合与学习过程的整合。内容整合的核心在于多种知识和信息间的相互贯通，这既包含多学科知识的交叉融合，也涵盖新旧知识的无缝衔接。深度学习倡导将新概念无缝融入已知概念和原理体系，在现有认知框架内构建新知，从而深化对新知识的领悟力、持久记忆及实际应用能力。学习过程的整合致力于培育促进内容整合的认知与元认知策略，并将这些策略稳固于长时记忆中。相比之下，浅层学习仅将知识视为孤立的、无关联的单元来接受和记忆，无法有效促进知识的理解和长期保持。‌‌任务9.2.2理解深度学习的基本特征

9.2深度学习（3）深度学习强调学习过程中的建构反思。建构反思根植于知识整合，通过新旧经验的交融互动，实现知识的同化与顺应，进而优化认知结构，并对建构成果进行细致的审视、深入分析及适时调整。这不仅要求学习者主动地对新知识进行理解和判断，运用已有的知识经验对新概念或问题进行分析、鉴别和评价，形成对知识的自我理解，构建新的知识序列，而且还需要不断对自我建构的结果进行审视和反思，吐故纳新，形成对学习的积极主动检查、评价、调控和改造。可以说，建构反思是深度学习与浅层学习的本质区别。‌‌任务9.2.2理解深度学习的基本特征

9.2深度学习（4）深度学习不仅强调学习的迁移应用，还特别注重提升问题解决能力。学习者需深刻把握学习情境，精准识别关键要素，在新情境中灵活运用所学原则与策略。若学习者无法将知识迁移至新情境以解决问题，则其学习将局限于模仿、记忆与表面理解，仍处于浅层学习阶段。深度学习的另一重要目标是创造性地解决现实问题。通常，现实问题并非那种通过套用规则和方法就能解决的简单问题，而是结构分散、规则复杂的疑难问题。解决这类问题，既需我们掌握深度学习原理及其应用场景，又需我们运用这些原理进行深入分析，创造性地提出解决方案。‌‌任务9.2.2理解深度学习的基本特征

9.2深度学习20世纪50年代，心理学家和生物学家共同发现，人脑是一个超大规模的神经网络。大脑皮质中蕴含着数十亿个神经元（神经细胞），并且这些神经元之间通过无数条“连接线”相互连接。研究表明，神经元的轴突末梢能传递电信号给其他神经元，而树突则负责接收来自众多其他神经元的信息。‌‌任务9.2.4了解深度学习中的常用网络

9.2深度学习人类大脑的神经网络结构不仅规模宏大，而且展现出极高的信息处理效率。其中神经元的连接并非杂乱无章，而是有序排列，确保了信息的快速传递和准确处理。如图所示，映射出人工神经网络的诞生，源于对大脑神经网络结构的深入研究与模拟。数量众多的神经元相互交织，形成了一个极其复杂而又高度有序的网络结构。‌‌任务9.2.4了解深度学习中的常用网络

9.2深度学习1.前馈神经网络前馈神经网络（FNN）是最基础的神经网络结构之一，信息在网络中单向流动，从输入层依次经过隐藏层最终到达输出层。它由多个层次构成，涵盖输入层、隐藏层及输出层。信息在前馈神经网络中自输入层起始，逐层递进，直至传递至输出层。各层的神经元仅与紧邻的前一层神经元相连，信号在神经网络中呈单向流动。‌‌任务9.2.4了解深度学习中的常用网络

9.2深度学习2.卷积神经网络卷积神经网络（CNN）是一种深度学习模型，专为处理具有网格结构的数据（如图像、音频）而设计。其核心在于特征提取和空间关系建模，借助局部连接和参数共享机制，实现了高效计算。CNN的设计灵感源自生物视觉系统，能自动学习输入数据的层次化特征，从低级边缘到高级语义对象。‌‌任务9.2.4了解深度学习中的常用网络

9.2深度学习（1）输入层：接收原始图像数据。

（2）卷积层：通过卷积操作提取图像特征。在输入图像上进行滑动操作，从而生成特征图。

（3）激活层：通常使用非线性激活函数,对卷积层的输出进行非线性变换,增加网络的表达能力。

（4）池化层：通过下采样技术减少特征图的尺寸，进而降低计算复杂度并有效防止模型过拟合。（5）全连接层：在卷积层和池化层之后，网络通常配备一个或多个全连接层，这些层负责将卷积层和池化层提取的特征转换为最终的输出。‌‌任务9.2.4了解深度学习中的常用网络

9.2深度学习卷积神经网络作为一种深度学习算法，尤其擅长处理图像数据。它通过卷积层对输入数据进行特征提取，利用池化层进行下采样以减少数据的维度，并通过全连接层进行分类或回归。卷积神经网络（CNN）的核心优势在于其能够自动学习和提取图像特征，这一能力在图像识别、分类以及物体检测等领域取得了显著成果。‌‌任务9.2.4了解深度学习中的常用网络

9.2深度学习例如，在医学图像识别中，CNN已被用于提高肺癌和乳腺癌的诊断准确率，而在安全领域，人脸识别技术的普及也得益于CNN的图像处理能力。3.循环神经网络循环神经网络（RNN）是一种具有短期记忆能力的特殊神经网络架构，其神经元不仅能接收其他神经元的信息，还能保留自身之前的状态。特别适用于处理和预测序列数据中的时间依赖性。与传统的前馈神经网络不同，循环神经网络利用循环连接保留历史信息，对序列数据的整体结构进行建模。‌‌任务9.2.4了解深度学习中的常用网络

9.2深度学习循环神经网络（RNN）通过其独特的自反馈机制，使得每个神经元能够将当前的输出反馈作为下一个时刻的输入，从而具备处理任意长度时序数据的能力。其中，“延迟器”负责记录神经元最近一次或数次的输出值，该值被普遍称作隐状态，随后与输入信号一同送入隐藏层进行进一步处理。引入“隐状态”后，循环神经网络的记忆能力显著提升，计算能力极为强大。‌‌任务9.2.4了解深度学习中的常用网络

9.2深度学习生成对抗网络模型由生成器和判别器两大核心构成，通过二者间的竞争机制形成学习框架。生成器负责创造新数据，判别器则负责鉴别数据的真伪。其训练过程是生成器和判别器不断博弈的过程，最终目标是使生成器能够模拟出判别器无法分辨的、与真实数据不同的数据。‌‌任务9.2.4了解深度学习中的常用网络

9.2深度学习4.生成对抗网络生成对抗网络（GAN）是一种基于无监督学习的机器学习模型，其核心思想是通过两个神经网络——生成器和判别器——之间的对抗性训练，生成器努力生成接近真实数据的假数据，而判别器则试图区分输入数据是真实的还是由生成器生成的。‌‌任务9.2.4了解深度学习中的常用网络

9.2深度学习自然语言处理（NLP）是人工智能领域中的一项重要技术，旨在使计算机能够理解、处理和生成人类自然语言。不妨将其拆分为“自然语言”和“处理”两个部分进行探讨。‌‌先来探讨“自然语言”。人类的多种智能与语言紧密相连，逻辑思维更是以语言为基石，人类的大部分知识也是借助语言文字得以记录和传承。与计算机语言不同，自然语言是人类在发展过程中形成的一种信息交流方式，涵盖口语和书面语，映射出人类的思维模式。任务9.3.1了解什么是自然语言处理

9.3自然语言处理再聚焦于“处理”。这里的“处理”特指利用计算机进行理解、转换、生成等一系列过程。自然语言处理，即利用计算机的强大计算能力，对人类自然语言的形态、发音、意义等多维度信息进行深度处理，涵盖了从字、词、句到篇章的各个层面，涉及输入、输出、识别、分析、理解及生成等多种操作，达成人机之间或机器间的自然语言顺畅交互。机器翻译技术，借助计算机技术，实现了从一种自然语言到另一种自然语言的转换过程。基于统计的机器翻译方法突破了传统基于规则和实例翻译的局限，显著提高了翻译性能。依托深度神经网络的机器翻译在日常口语等场景中的成功应用，已展现出其巨大潜力。随着自然语言处理技术的不断进步，特别是上下文语境表征和知识逻辑推理能力的提升，为机器翻译带来了新的突破，有望实现更准确和流畅的翻译。任务9.3.2了解机器翻译

9.3自然语言处理语义理解技术是指通过计算机技术对文本篇章进行深入解析，并准确回答与篇章相关问题的过程。随着MCTest数据集的发布，语义理解领域受到了广泛关注，并取得了显著进展，相关数据集及相应的神经网络模型层出不穷。语义理解技术在智能客服、产品自动问答等相关领域发挥重要作用，进一步提高了问答与对话系统的精度。语义理解技术将在智能客服、产品自动问答等应用场景中发挥关键作用，进一步提升问答与对话系统的准确性和效率。任务9.3.3了解语义理解

9.3自然语言处理问答系统主要分为开放领域的对话系统和特定领域的问答系统。其技术核心在于使计算机能够像人类一样，通过自然语言与人进行流畅交流。用户可以向问答系统提出自然语言形式的问题，系统则会提供相关性较高的答案作为回应。当前市面上众多问答系统应用产品主要集中在信息服务系统和智能手机助手等领域。任务9.3.4了解问答系统

9.3自然语言处理1.图像的概念图像作为视觉信息的承载者，其形式多样，包括照片、绘画、地图、卫星云图、医学影像及心电图等。关于图像的基本概念主要有3点。（1）分辨率图像是由大量像素点以网格形式排列组合而成的。分辨率是衡量这一像素网格密集程度的标准，通常以像素的行数与列数的乘积来具体表示。例如，1080P（1920像素×1080像素）和720P（1280像素×720像素）是两种常见的分辨率。一张1080P分辨率的图像由1920像素×1080像素组成，共计2073600像素。任务9.4.1了解图像和视觉的概念

9.4计算机视觉与图像识别（2）色彩每个像素点都对应一种颜色，这种颜色通常由红、绿、蓝三种基色的不同强度组合而成。通过精细调整红、绿、蓝三种基色的强度值，可以调配出数百万种缤纷多彩的颜色。例如，24位色彩深度意味着每种基色使用8位来表示，每种基色可以有2^8=256级强度，从而容纳2^24种色彩。24位色彩能够达到人眼分辨的极限，因此也被称为真彩色。任务9.4.1了解图像和视觉的概念

9.4计算机视觉与图像识别（3）帧数帧数指视频或动画中每秒能够显示的静止画面（帧）的数量，是衡量视频流畅度和性能的重要指标，单位为帧/秒（framespersecond，FPS）。对于人眼而言，一般25FPS及以上即可提供流畅的观看体验，但在一些高要求的场景中，如游戏或体育赛事，帧数可达到60FPS甚至120FPS。帧数与分辨率的组合常采用“XXPXX”的格式来标识，比如1080P60即代表分辨率为1080P、帧率为60FPS的视频。任务9.4.1了解图像和视觉的概念

9.4计算机视觉与图像识别2.计算机视觉概念计算机视觉技术利用摄像机和计算机系统，模拟人眼功能，实现对目标的识别、追踪、测量、分类及决策，同时进一步进行图像处理，确保计算机输出的信息既符合人眼观察习惯，也便于传输至检测仪器进行图像分析。例如，在自动驾驶汽车中，计算机视觉技术用于检测和分类物体、创建3D地图、进行运动估计等，从而实现车辆的自动驾驶和交通规划，提高驾驶安全性和效率。计算机视觉研究主要分为物体视觉与空间视觉两大范畴。物体视觉专注于对物体进行精细分类和鉴别，而空间视觉则侧重于确定物体的位置和形状，服务于“动作”。任务9.4.1了解图像和视觉的概念

9.4计算机视觉与图像识别计算机视觉通过模拟人类视觉系统，赋予计算机类似人类提取、处理、理解和分析图像及图像序列的能力。随着深度学习技术的飞速发展，尤其是在计算机视觉领域的应用，预处理、特征提取与算法处理的融合愈发紧密，形成了端到端的智能算法技术。根据所解决问题的类型，计算机视觉技术主要体现在计算成像学、图像理解、三维视觉、动态视觉和视频编解码五个方面。任务9.4.2认识计算机视觉的主要技术

9.4计算机视觉与图像识别1.计算成像学计算成像学是一门探究人眼结构、相机成像原理及其延伸应用的科学。在相机成像原理方面，计算成像学持续推动现有可见光相机的优化，使得现代相机更加轻便，能够适应多种场景。同时，计算成像学也促进了新型相机的研发，使相机突破可见光的限制。在相机应用科学领域，计算成像学能够提升相机性能，借助后续的算法处理技术，受限条件下拍摄的图像能够得到显著改善，如实现图像去噪、去模糊、增强暗光效果、去除雾霾等，同时还能拓展出全景图生成、软件虚化背景、超分辨率重建等新功能。任务9.4.2认识计算机视觉的主要技术

9.4计算机视觉与图像识别2.图像理解图像理解是一门通过计算机系统解释图像，实现类似人类视觉系统理解外部世界的科学。一般而言，图像理解依据理解信息的抽象层次，可分为三类：浅层理解，主要涉及图像边缘、特征点及纹理元素等；中层理解，则关注物体边界、区域划分及平面识别等；高层理解，则是根据需求提取高层语义信息，涵盖识别、检测、分割、姿态估计及图像文字说明等诸多方面。目前，高层图像理解算法已广泛应用于人工智能系统，如刷脸支付、智慧安防、图像搜索等领域。任务9.4.2认识计算机视觉的主要技术

9.4计算机视觉与图像识别3.三维视觉三维视觉是研究如何通过视觉手段获取三维信息（即三维重建）以及如何理解所获取三维信息的科学。根据重建信息来源的不同，三维重建可以分为单目图像重建、多目图像重建和深度图像重建等类型。三维信息理解则是指利用三维信息辅助图像理解，或直接对三维信息进行理解的过程。这一过程可细化为三个层次：浅层关注角点、边缘及法向量等基础特征；中层则涉及平面、立方体等几何结构的识别；高层则致力于物体检测、识别及分割等复杂任务的处理。任务9.4.2认识计算机视觉的主要技术

9.4计算机视觉与图像识别4.动态视觉动态视觉是指分析视频或图像序列，模拟人类处理时序图像的科学。通常，动态视觉问题可以定义为寻找图像元素（如像素、区域、物体）在时序上的对应关系，以及提取其语义信息的过程。动态视觉研究广泛应用于视频分析及人机交互等领域。任务9.4.2认识计算机视觉的主要技术

9.4计算机视觉与图像识别5.视频编解码视频编解码是指利用特定的压缩技术，对视频流进行压缩处理。在视频流传输过程中，至关重要的编解码标准包括国际电联（ITU-T）制定的H.261、H.263、H.264、H.265标准，以及ISO/IEC制定的M-JPEG和MPEG系列标准。视频压缩编码主要分为两大类：无损压缩和有损压缩。无损压缩意味着在数据重构过程中，重构后的数据与原始数据完全吻合，如磁盘文件的压缩处理即为一例。而有损压缩，即不可逆编码，意味着在数据压缩并重构后，重构数据与原始数据间会有些许出入，但这些出入并不妨碍人们理解原始资料所传达的信息，也不会导致误解。有损压缩广泛应用于视频会议、可视电话、视频广播及视频监控等多个领域。任务9.4.2认识计算机视觉的主要技术

9.4计算机视觉与图像识别图像识别技术是与计算机视觉紧密相关的一项技术，其核心目的是让计算机代替人类处理海量的物理信息。随着计算机技术的不断进步，人类对图像识别技术的理解也日益深入。图像识别的过程主要包括信息获取、预处理、特征抽取与选择、分类器设计以及分类决策等环节。下面简要分析图像识别技术的产生和发展，探讨其技术原理及模式识别过程，随后介绍基于神经网络的图像识别技术和非线性降维的图像识别技术。任务9.4.3认识图像识别技术

9.4计算机视觉与图像识别1.图像识别技术的发展图像识别作为人工智能的关键领域，其发展历经文字识别、数字图像处理与识别、至物体识别三阶段。如今，图像识别不再仅依赖人眼，而是借助计算机技术实现。尽管人类识别能力卓越，然面对社会需求的迅猛增长，人类识别力已渐显不足。通常，当一个领域存在固有技术无法解决的需求时，便会催生相应的新技术。图像识别技术的问世，旨在利用计算机替代人力处理海量物理信息，攻克人类难以识别或识别效率低下之难题。任务9.4.3认识图像识别技术

9.4计算机视觉与图像识别3.图像识别的过程（1）信息的获取是指通过传感器，将光或声音等信息转化为电信号。即获取研究对象的基本信息，并借助特定技术将其转化为机器可识别的形式。（2）预处理主要涉及图像处理中的去噪、平滑、变换等操作，以增强图像的重要特征。（3）特征抽取和选择是指在模式识别中，需要进行特征的抽取和选择。通过这些图像本身所具有的特征来识别。获取这些特征的过程就是特征抽取。（4）分类器设计是指通过训练得到一种识别规则，通过此规则可以实现特征分类，从而使图像识别技术达到高识别率。（5）分类决策是指在特征空间中对被识别对象进行分类，以便更准确地识别研究对象具体属于哪一类。任务9.4.3认识图像识别技术

9.4计算机视觉与图像识别4.图像识别技术的分析随着计算机技术飞速发展及科技不断进步，图像识别技术已广泛应用于诸多领域。2015年2月15日，新浪科技报道了一条新闻：“微软亚洲研究院的研究小组最近公布了一项关于图像识别的研究成果，在ImageNet基准测试中，他们的深度学习系统在图像识别任务上的错误率已经降至4.94%，首次超越了人类的识别能力，人类的错误率约为5.1%。”这则新闻表明，图像识别技术在识别能力上已呈现出超越人类的趋势，显示出其在未来研究中的巨大意义和潜力。任务9.4.3认识图像识别技术

9.4计算机视觉与图像识别常用的图像识别技术主要包括以下两种：（1）神经网络的图像识别技术神经网络图像识别技术作为一种新兴的图像识别手段，融合了神经网络算法，对传统图像识别方法进行了创新。这里的神经网络特指人工神经网络，即这种神经网络并非动物体内固有的真实神经网络，而是人类模仿动物神经网络结构人工构建的。其中，遗传算法与BP网络结合的神经网络图像识别模型尤为突出，被广泛应用于多个行业领域。任务9.4.3认识图像识别技术

9.4计算机视觉与图像识别（2）非线性降维的图像识别技术计算机的图像识别技术属于一种异常高维的识别技术。无论图像分辨率高低，其数据均呈现多维性，给计算机识别带来了巨大挑战。为了使计算机具备高效的识别能力，最直接且有效的方法就是进行降维处理。降维技术主要分为线性与非线性两类。线性降维如主成分分析、线性奇异值分解等，以其简洁易懂著称。非线性降维技术高效提取非线性特征，保持图像本征结构的同时降低维度，显著提升图像识别速度。任务9.4.3认识图像识别技术

9.4计算机视觉与图像识别智能机器人作为人工智能技术的重要组成部分，其研究和制造已成为当前人工智能领域的最前沿。智能机器人集感知、决策、执行于一体，其技术特点包括感知技术、计算智能技术和操作执行技术。在应用方面，智能机器人广泛应用于制造业、医疗卫生、家庭服务、智能物流、智能农业、智能教育等领域，如手术机器人、智能仓储机器人等。这些技术的发展和应用不仅标志着一个国家的高科技发展水平，而且在很大程度上推动了社会进步和发展。本文将详细介绍机器人的发展历程、智能机器人的定义及其未来发展趋势，以及智能机器人所依赖的关键技术。

9.5智能机器人1.早期探索阶段机器人的概念最早可追溯到古代，当时人们通过简单机械装置模仿人类或动物的某些动作，如古希腊的自动机、中国古代的指南车和木牛流马等。2.现代机器人的正式诞生20世纪中叶，随着电子技术、控制理论和计算机技术的发展，真正意义上的现代机器人开始出现。1961年，第一台工业机器人“尤尼梅特”。3.蓬勃发展阶段在工业领域，从简单的搬运、焊接机器人，逐步演进为多功能、高精度的协作机器人；而在服务、医疗、太空探索等其他领域，也涌现出各种类型的机器人，其应用场景日益丰富。任务9.5.1了解机器人的发展历程

9.5智能机器人1.智能机器人的概念智能机器人是具备感知、思考、决策和执行能力的机器人。它通过传感器感知周围环境信息，如视觉传感器识别物体形状和位置、听觉传感器接收声音信号、触觉传感器感知接触力等。利用先进的算法和人工智能技术，对感知信息进行深度分析处理，模拟人类思维方式做出决策，并通过执行机构精准完成移动、抓取、操作工具等动作。与传统机器人相比，智能机器人具有更强的适应性和自主性，能在复杂多变的环境中独立完成任务。任务9.5.2了解智能机器人

9.5智能机器人2.智能机器人的发展趋势（1）智能化程度不断提高未来的智能机器人将拥有更卓越的学习能力，不仅能基于海量数据进行深度学习，还能实现强化学习、迁移学习等多种学习方式，迅速适应新环境，高效完成新任务。其决策能力也将更加精准和智能，能在复杂情况下综合考虑多种因素做出最优决策。（2）人机协作更加紧密智能机器人将从单纯地替代人类劳动向与人类协同工作转变。在工业生产领域，人机协作机器人能与工人无缝配合，显著提升生产效率和质量；而在服务领域，机器人则能为人类提供贴心的个性化服务，如陪伴老人、辅助医疗护理等，实现人机之间的优势互补。任务9.5.2了解智能机器人

9.5智能机器人2.智能机器人的发展趋势（3）多功能集成化智能机器人将集成多种功能于一体，例如，兼具清洁、安保和环境监测功能的家用服务机器人；既能进行手术操作又能提供术后康复护理的医疗机器人等，以满足多样化的需求。（4）微型化和便携化为满足特定场景及个性化应用需求，智能机器人正逐步向微型化与便携化趋势迈进，诸如能够进入人体血管执行检测与治疗任务的纳米机器人，以及便于携带的小型教育陪伴机器人等实例层出不穷。任务9.5.2了解智能机器人

9.5智能机器人1.感知技术（1）视觉感知视觉感知技术基于摄像头等设备捕获图像信息，随后运用图像处理算法对图像内的物体实施精准识别、定位及细致分类。例如，采用卷积神经网络对大量图像数据进行学习，使机器人能够识别不同物体的形状、颜色和纹理等特征。在物流机器人中，视觉感知可用于识别货架上的货物，实现精准抓取和分拣；在家庭服务机器人中，则能识别房间内的家具和障碍物，辅助机器人进行自主导航和避障。任务9.5.3认识智能机器人关键技术

9.5智能机器人1.感知技术（2）听觉感知听觉感知技术则通过麦克风阵列捕捉声音信号，进而借助语音识别技术高效地将声音信息转化为文本内容。结合隐马尔可夫模型（HMM）和深度神经网络（DNN）的方法，可以有效提升语音识别的准确率。此外，借助声源定位技术，能够确定声音的来源方向。智能客服机器人凭借听觉感知接收语音咨询，实现语音交互；陪伴型机器人能识别主人呼唤并回应，增强人机互动乐趣。任务9.5.3认识智能机器人关键技术

9.5智能机器人1.感知技术（3）触觉感知触觉感知原理：在机器人的表面或操作部件上安装触觉传感器，如压力传感器、应变片传感器等，以感知与外界物体接触时的压力、摩擦力、振动等信息。这让机器人能感知物体的形状、硬度和粗糙度等。在工业装配机器人中，触觉感知能够帮助机器人精确控制力度，避免在装配过程中损坏零部件；而在医疗手术机器人中，触觉感知则能让医生通过机器人的触觉反馈，更精准地进行手术操作。任务9.5.3认识智能机器人关键技术

9.5智能机器人2.运动控制技术（1）关节运动控制关节运动控制原理：针对机器人的各个关节，采用电机（如伺服电机、步进电机）作为驱动装置。通过编码器实时反馈关节的位置和角度信息，利用PID控制算法等调节电机的输出，精确控制关节的运动轨迹和速度，实现机器人肢体的灵活运动。人形机器人通过关节运动控制模拟行走、抓取等动作；机械臂则实现高精度定位和操作，如焊接、喷漆等工业任务。任务9.5.3认识智能机器人关键技术

9.5智能机器人2.运动控制技术（2）导航与路径规划定位技术原理：借助全球定位系统（GPS）、激光雷达以及视觉SLAM（即同时定位与地图构建技术），机器人能够在环境中精确定位。路径规划算法：基于地图信息，采用A*算法、Dijkstra算法等，搜索从起始点到目标点的最优路径。在动态环境中，机器人会结合传感器实时监测的障碍物信息，采用如DWA（动态窗口法）等动态路径规划算法，灵活调整路径，确保安全、高效地到达目标。导航与路径规划的应用：物流仓储机器人依赖导航与路径规划技术，在仓库中自动穿梭，准确地将货物运输到指定地点。任务9.5.3认识智能机器人关键技术

9.5智能机器人3.智能决策与学习技术（1）决策技术决策技术原理：基于机器人感知到的环境信息，利用专家系统、模糊逻辑、贝叶斯网络等技术进行决策。专家系统将领域专家的知识和经验以规则的形式存储，当机器人获取到相关信息后，依据规则进行推理和决策。模糊逻辑则处理具有模糊性的信息，将模糊的输入转化为明确的决策输出。任务9.5.3认识智能机器人关键技术

9.5智能机器人3.智能决策与学习技术（2）机器学习半监督学习和弱监督学习等方法通过结合少量标记数据和大量未标记数据，能够提高模型在图像分类任务中的泛化能力和准确性。例如，利用未标注数据的分布信息，半监督学习可以提高分类准确率，并处理大量未标注数据。无监督学习：处理无标记数据，发现数据中的内在结构和模式。例如，聚类算法将相似的数据点划分到同一类别中。强化学习：机器人在环境中通过不断尝试不同动作，根据环境反馈的奖励信号来学习最优行为策略。例如，在迷宫环境中，机器人根据到达目标时获得的奖励来学习最快走出迷宫的路径。任务9.5.3认识智能机器人关键技术

9.5智能机器人4.人机交互技术（1）语音交互语音交互原理：除了语音识别技术将语音转换为文本外，还包括自然语言处理技术对文本进行理解和分析，以及语音合成技术将机器人的回复转换为语音输出。语义分析模块能精准捕捉用户话语意图，区分询问、指令与闲聊。例如，车载语音交互系统作为一种集成于汽车中的智能设备，通过语音识别技术使驾驶员和乘客能够以自然语言与车辆进行互动，不仅提升了驾驶体验，还极大地增强了行车安全性。随着人工智能技术的发展以及消费者对于智能化、便捷化生活方式追求的日益增长，车载语音交互系统已成为汽车行业不可或缺的一部分，并在全球范围内展现出强劲的增长势头。任务9.5.3认识智能机器人关键技术

9.5智能机器人4.人机交互技术（2）手势与表情交互手势与表情交互原理：通过视觉传感器捕捉用户的手势动作，如挥手、握拳、指方向等，并借助机器学习算法对这些手势进行精准分类和识别。在表情交互方面，系统通过分析面部特征点的细微变化，如眼睛和嘴巴的动作，来识别用户的情绪状态，如高兴、愤怒、悲伤等。智能会议机器人通过手势控制幻灯片；娱乐机器人则据表情互动，如用户高兴时播放欢快音乐，增强人机互动趣味与情感联系。

任务9.5.3认识智能机器人关键技术

9.5智能机器人生成式人工智能（ArtificialIntelligenceGeneratedContent，AIGC）是一种新兴的AI技术。它通过AI模型，依据预设的主题、关键词、格式和风格等条件，自动生成包括文本、图像、音频、视频在内的多种类型内容。随着自然语言生成技术和AI模型的持续进步，AIGC逐渐受到广泛关注。目前，该技术已能够自动生成图片、文字、音频、视频、3D模型及代码。AIGC技术在教育、科研、医疗、商业和娱乐等多个领域具有广泛应用前景，能够为用户提供高质量、高效率且高度个性化的内容服务。

9.6生成式人工智能大模型（LargeModels）是AIGC技术的核心基础。所谓大模型，通常指的是那些具备超大规模参数和复杂计算结构的机器学习模型。这些模型由深度神经网络构建，拥有数十亿乃至数千亿个参数，能够高效处理和分析海量数据，广泛应用于自然语言处理、计算机视觉、语音识别和推荐系统等复杂任务。AIGC技术展现了卓越的涌现能力、优异的泛化性能以及强大的多任务学习与迁移学习能力。例如，多任务学习通过同时训练多个相关任务，利用共享信息提升模型性能；迁移学习则通过将已有模型的知识迁移到新任务中，减少数据需求和训练时间。然而，这一切的实现离不开强大计算资源的支撑。

任务9.6.1认识生成式人工智能

9.6生成式人工智能通过大模型的强大学习能力和泛化能力，AIGC技术能够深度分析并理解大规模数据集，进而生成高质量的内容。AIGC技术还推动了大模型的发展与应用，为其开辟了更多的应用场景和实践机会。通常，AIGC具有如下特点：（1）高度自动化AIGC可以根据用户输入的关键词或要求自动生成内容，无需人工编辑，从而节省时间和成本，提高效率。（2）创意性强AIGC利用深度学习和强化学习等技术，不断学习和优化内容生成策略，以生成具有创意和个性化的内容，增强内容的吸引力，提升用户参与度和转化率。任务9.6.1认识生成式人工智能

9.6生成式人工智能（3）表现力强AIGC能够自动生成多种类型的内容，如文章、视频、图片、音乐、代码等，满足不同用户的需求，提供多样化的内容选择。同时，AIGC凭借自然语言处理和计算机视觉等先进技术，实现了与用户的无缝沟通，精准捕捉用户反馈，并依据用户的偏好和行为习惯灵活调整内容生成策略，从而强化了内容的吸引力和适应性，进一步提升了用户的满意度和忠诚度。（4）迭代优化AIGC通过运用机器学习和深度学习等前沿技术，不断迭代升级内容生成模型与算法，同时紧密结合用户反馈进行精细化调整，以确保内容生成的高品质与高效能，进而提升了系统的可靠性和稳定性。任务9.6.1认识生成式人工智能

9.6生成式人工智能（1）机器学习机器学习作为AIGC的核心技术之一，是一种通过数据训练模型来实现自主学习和智能决策的方法。在AIGC领域，机器学习技术被广泛应用于创建智能代理，例如游戏角色和机器人，使它们能依据游戏状态及用户指令自主做出决策并执行相应动作。机器学习的主要方法包括监督学习、无监督学习、半监督学习和强化学习。任务9.6.2了解支撑AIGC的关键技术

9.6生成式人工智能（2）计算机视觉计算机视觉也是AIGC不可或缺的核心技术之一，它赋予计算机理解和解析图像、视频等视觉信息的能力。在AIGC中，计算机视觉应用于游戏中的自适应图形、虚拟现实、增强现实等方面，以及对玩家行为进行跟踪和分析。计算机视觉的主要方法包括特征提取、图像分类、目标检测和语义分割。任务9.6.2了解支撑AIGC的关键技术

9.6生成式人工智能（3）自然语言处理自然语言处理是AIGC涉及的关键技术，它使计算机能够理解和生成自然语言。在AIGC中，自然语言处理应用于游戏中的对话系统、自动生成任务和剧情等，以及对玩家输入的语言进行分析和处理。自然语言处理的关键技术涵盖语音识别、文本分类、情感分析以及文本生成等多个方面。任务9.6.2了解支撑AIGC的关键技术

9.6生成式人工智能（4）优化算法优化算法是AIGC技术的重要组成部分，它使计算机能够自动优化策略和行动，从而提升游戏和计算系统的效率和性能。在AIGC中，优化算法旨在应对强化学习领域的探索与利用难题、高维状态空间挑战，并在数据分析和决策过程中实现优化与高效搜索。优化算法的主要方法包括遗传算法、粒子群算法、蚁群算法和模拟退火算法。9.6.2了解支撑AIGC的关键技术

9.6生成式人工智能近年来，生成式人工智能领域快速发展，众多先进的大模型工具层出不穷。在国外，OpenAI的GPT系列模型和DeepMind的GPT-Neo，已成为自然语言处理领域的代表性大模型。GPT系列模型以其卓越的自然语言生成和理解能力闻名。在国内，百度推出的ERNIE系列模型和文心大模型，以及阿里巴巴的通义千问，均属生成式人工智能领域的翘楚。任务9.6.3认识典型的大模型

9.6生成式人工智能2024年底，DeepSeek的横空出世给世界带来了强大的震撼。它以创新的优化算法，在大规模数据处理和复杂问题求解方面展现出了非凡的能力，在提升计算效率和准确性上取得了显著突破。例如，DeepSeek在学术研究中通过动态代码生成和智能调试功能，简化了代码处理的复杂性，并提升了研究效率；在数字政府建设中，优化了政务热线服务，提高了工单处理的效率和准确性；在企业方面实现了招聘效率的大幅提升，以及采购成本分析效率的显著增长。任务9.6.3认识典型的大模型

9.6生成式人工智能WPS灵犀是金山办公软件公司2025年2月推出的一款全面接入DeepSeekR1大模型的智能办公助手，其目标是通过集成前沿的AI技术，为用户打造前所未有的智能办公新体验。WPSAI不仅能够智能分析文档内容，自动调整格式和排版，提升文档的专业性和美观度，还能通过深度学习算法，理解用户的写作意图，提供精准的文本推荐和自动补全功能，大幅度提高了用户的写作效率。WPSAI在数据处理和分析方面表现出色，能够快速处理大规模数据，智能识别数据特征和规律。任务9.6.3认识典型的大模型

9.6生成式人工智能提示词是用户向生成式AI大模型输入的指令，用于引导大模型生成特定内容。提示词涵盖文本、图像、代码等多种形式，可简单至单词，也可复杂至详细描述。提示工程拓展了提示词的研究与应用，凸显了其在AIGC领域的重要地位。提示工程的核心目标是通过对提示词的精心设计，提升生成内容的质量，使其更贴近用户预期。任务9.6.4理解提示工程

9.6生成式人工智能1.提示词的基本概念当用户与AIGC大模型进行对话时，用户所提交的问题中包含一个专业名词——Prompt（提示词）。提示词是用户向大模型提供的初始输入或提示，旨在引导其生成特定的输出内容。例如，向大模型输入“北京一日游最佳去处？”这一问题时，该问题即为提示词。在生成回答的过程中，提示词扮演着类似大模型“导演”的角色，负责设计和优化用于指导大模型行动的语言提示。任务9.6.4理解提示工程

9.6生成式人工智能2.提示工程提示工程致力于优化输入提示词，精细调控大语言模型输出，以精准满足用户需求。随着对话系统、文本自动生成和智能问答等应用场景的广泛普及，这一过程的重要性日益凸显。作为大语言模型开发、训练及部署的核心环节之一，提示工程不仅涉及技术层面的微调，更是艺术与科学的巧妙融合。开发者需深谙模型机制，兼具创新思维，巧妙构造提示语，促使模型生成高质量、贴合情境的响应。任务9.6.4理解提示工程

9.6生成式人工智能3.提示工程要素（1）指令指令是用户与AI沟通的桥梁，用于指导AI执行任务或创作内容，如文章、图像等。明确指令对AI理解用户意图至关重要，它设定了目标，并明确了内容类型、生成主题、长度等参数。通过关键词，AI能更精准地捕捉用户需求，融入个性与创新。指令通常由关键词构成，直接关联生成内容。任务9.6.4理解提示工程

9.6生成式人工智能3.提示工程要素（2）上下文上下文是理解用户意图的关键，涵盖单词、短语、对话、场景、历史行为、偏好及环境等多层面信息。对话历史帮助AI理解话题与需求，环境上下文（位置、时间等）使内容更贴近用户情境，用户行为记录反映兴趣偏好，助力个性化推荐，用户设置的偏好则直接引导内容生成，确保满足期望。任务9.6.4理解提示工程

9.6生成式人工智能3.提示工程要素（3）示例通过展示实际案例或模型答案，为AI树立明确的输出标杆。这些示例可以是精选的数据样本，也可以是人工精心构造的模板，直观展示期望的输出风格与结构，引导AI生成符合预期的成果。任务9.6.4理解提示工程

9.6生成式人工智能3.提示工程要素（4）限制条件明确界定AI操作范围，包括输出格式要求、内容主题约束及篇幅限制等，这些规则如同精确框架，确保AI生成内容既符合用户需求，又满足特定场景标准。任务9.6.4理解提示工程

9.6生成式人工智能3.提示工程要素（5）目标清晰阐述AI应达成的终极目标或期望效果，无论是生成特定类型的回复、提供策略性建议，还是解决复杂问题，明确的目标导向都将激发AI的针对性创造力。尤为值得关注的是，在追求最佳提示词的过程中，用户需经历广泛的实验与尝试，巧妙组合多样化的指令与关键词。任务9.6.4理解提示工程

9.6生成式人工智能4.提示工程中的技巧在提示工程中，精妙技巧的应用极大

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

信息技术（WPS Office+人工智能）（第3版）课件第9章人工智能的关键技术

文档简介

温馨提示

最新文档

评论

信息技术（WPS Office+人工智能）（第3版）课件 第9章 人工智能的关键技术

文档简介

温馨提示

最新文档

评论

相关文档

信息技术（WPS Office+人工智能）（第3版）课件第9章人工智能的关键技术