《新一代信息技术与人工智能导论》课件第6-10章 计算机视觉-人工智能伦理与治理_第1页
《新一代信息技术与人工智能导论》课件第6-10章 计算机视觉-人工智能伦理与治理_第2页
《新一代信息技术与人工智能导论》课件第6-10章 计算机视觉-人工智能伦理与治理_第3页
《新一代信息技术与人工智能导论》课件第6-10章 计算机视觉-人工智能伦理与治理_第4页
《新一代信息技术与人工智能导论》课件第6-10章 计算机视觉-人工智能伦理与治理_第5页
已阅读5页,还剩196页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第6章

计算机视觉01计算机视觉概述02计算机视觉的基础任务03计算机视觉的挑战与未来方向目录contents016.1计算机视觉概述什么是计算机视觉Image.jpg,25*25,10kb英文小写字母“b”

在计算机视觉诞生之前,一张图片对于计算机而言只是一个文件,计算机并不知道图片里的内容到底是什么,只知道这张图片是什么尺寸,多少MB,什么格式的。计算机视觉让计算机拥有像人类一样感知视觉世界并从图像中了解场景和环境的能力。4图像的表示与存储

在计算机中,图像以数字形式表示和存储。最常见的图像表示方式是像素矩阵,即把图像分割成一个个小的单元,每个单元称为一个像素(Pixel)。像素是构成图像的最小单位,它记录了图像在该位置的颜色和亮度信息。对于灰度图像,每个像素用一个数值表示其亮度,数值范围通常在0~255之间。0表示黑色,255表示白色,中间值表示不同程度的灰色。例如,下图展示了一幅灰度图像的像素矩阵表示。5图像的表示与存储

彩色图像通常采用RGB(红、绿、蓝)色彩模型进行表示。每个像素由三个数值分别表示红色、绿色和蓝色通道的强度,每个通道的取值范围也是0-255。通过不同强度的红、绿、蓝组合,可以生成各种颜色。例如,RGB值为(255,0,0)表示纯红色,(0,255,0)表示纯绿色,(0,0,255)表示纯蓝色,(255,255,255)表示白色,(0,0,0)表示黑色。图6-2展示了一幅彩色图像及其RGB通道表示。6图像的表示与存储7存储格式压缩方式特点应用场景JPEG有损压缩文件小,图像质量有损失照片存储、网络图片PNG无损压缩支持透明通道,图像质量高图标、透明背景图像BMP无压缩图像质量最高,文件大图像编辑临时存储GIF无损压缩支持动画,颜色数有限简单图标、动画TIFF无损/有损压缩灵活,支持多种数据类型专业图像处理、印刷1959年,神经生理学家DavidHubel和TorstenWiesel通过对猫的视觉进行实验,极大地推进了对视觉感官处理的理解。20世纪70年代,DavidMarr教授融合心理学、神经生理学、数学等多门学科,提出了有别于前人的计算机视觉分析理论,出版著作《Vision》标志着计算机视觉成为了一门独立学科。计算机视觉发展历程81989年,YannLeCun将反向传播学习算法应用于卷积神经网络结构,发布了LeNet-5--这是第一个引入今天仍在CNN中使用的一些基本网络结构的现代神经网络。2012年,AlexKrizhevsky在ImageNet数据集上训练了卷积神经网络,其图像分类性能大大超过了以前的先进方法。这引起了人们对使用深度学习的神经网络的研究和兴趣。2015年,微软亚洲研究院的何凯明等人提出的ResNet(Resid-ualNetwork)通过引入残差块(residualblocks)解决了深度网络遇到梯度消失或爆炸问题。计算机视觉发展历程92019年,Transformer采用了一种叫做注意力机制的方法大大提升了深度网络性能。图中纸制品都是黑白印刷的,但咖啡杯是红色的,咖啡杯在这种视觉环境中是突出和显眼的,所以我们会把注意力放到咖啡上。Transformer的机制也是如此。2022年,OpenAI发布ChatGPT,这使得人工智能与大模型进入了大众的视野。ChatGPT是一个基于大规模预训练的对话生成模型,专门用于处理对话场景。ChatGPT对大模型的解释比大部分定义更为通俗易懂,也更体现出类似人类的归纳和思考能力,实现了智能的涌现,展现出类似人类的智能。计算机视觉发展历程10026.2计算机视觉的基础任务图像数据处理是计算机视觉的重要步骤,其旨在提高图像的质量并获取更多有用的信息。常见的图像数据处理技术包含图像的缩放和旋转、噪声的去除、灰度变化等。提高图像的清晰度和可识别性,为后续任务的特征提取和分类识别等任务提供更好的基础。12图像处理图像分类图像分类概述图像分类是计算机视觉领域重要的任务之一,其主要任务便是让计算机能够从给定的图像中识别出所属的类别,以替代人眼对图像的观察和判断。图像分类的应用包含人脸识别,车牌识别等。13图像分类人脸识别人脸识别通过对输入人脸的特征进行分析与对比,来确认输入人脸的身份,广泛用于身份验证、安全监控、访问控制等领域。人脸识别通常包含人脸检测(facedetection)、人脸预处理(facepreprocess),人脸表征(facerepresentation)与相似度计算(calculatesimilarity)等步骤。14图像分类车牌识别车牌识别是一种基于计算机视觉和图像处理技术的自动化系统,用于从车辆图像或视频中检测、提取并识别车牌号码。它是智能交通管理(如电子收费、违章监控)、停车场管理、安防监控等领域的核心技术之一。车牌识别通常包括车牌检测、字符分割、字符识别步骤。使用算法(如边缘检测、深度学习模型)从图像中定位车牌位置,区分车牌与其他物体(如车身、背景)。将检测到的车牌区域进一步分割为单个字符(数字、字母或地区符号),便于后续识别。通过光学字符识别(OCR)技术(如卷积神经网络CNN)识别分割后的字符,输出车牌号码。15目标检测目标检测概述目标检测(objectdetection)的任务是找到图像或视频中所有感兴趣的目标(物体),并确定他们的类别与位置信息。16目标检测目标检测经典方法两阶段(two-stage):首先由算法生成一系列作为样本的预选框,再通过卷积神经网络进行样本分类。常见的算法有Faster-rcnn,Mask-rcnn等系列。单阶段(one-stage):不需要产生候选框,直接将目标框定位的问题转化为回归(Regression)问题处理。常见的算法有YOLO、SSD系列。目标检测的应用包含人脸检测、行人检测、车辆检测、遥感检测等。17语义分割语义分割概述语义分割(semanticsegmentation)就是让计算机根据图像的内容进行分割,在原始的图像中逐像素的找到需要的目标。与目标检测任务相似的是,语义分割需要对整张图像的语义信息进行理解,判断某一区域是什么(人、树等),但语义分割的细粒度更高,它需要对整张图像逐个像素进行分类(这个像素点是人,树还是背景等)。18语义分割语义分割当前应用无人车驾驶:语义分割也是无人车驾驶的核心算法技术,车载摄像头,或者激光雷达探查到图像后输入到神经网络中,后台计算机可以自动将图像分割归类,以避让行人和车辆等障碍。医疗影像分析:随着人工智能的崛起,将神经网络与医疗诊断结合也成为研究热点,智能医疗研究逐渐成熟。在智能医疗领域,语义分割主要应用有肿瘤图像分割,龋齿诊断等。(下图为龋齿诊断)190201视频数据处理视频目标跟踪视频理解03人体行为识别20视频增强。用于改善视频的整体质量,如对比度增强、色彩校正等。视频数据处理21使用编码算法去除视频中的冗余信息,视频文件缩小。其中常见的压缩方法有H.264/AVC、H.265/HEVC、VP9、AV1视频压缩视频数据处理22H.264H.265视频数据处理不同压缩下的视频分块23单镜头下的单类别目标跟踪:在单个镜头下,对于同一种类别的多个目标进行连续跟踪,是跟踪任务的基础。左图就是对行人进行跟踪。视觉目标跟踪24除了日常跟踪任务,针对还有针对特定场景存在出现目标遮挡的问题,进行适配的行人的人脸跟踪。视觉目标跟踪25视觉目标跟踪多目标跟踪:对单镜头中多种不同类别的目标进行跟踪。如左图实现跟踪类别覆盖人、自行车、小轿车、卡车、公交、三轮车等不同目标。26复杂行为识别是指识别和理解包含多个步骤、相互关联的动作序列,以及需要推理和上下文理解的行为。简单来说,就是识别那些“不止一个动作,而是多个动作组合起来完成的任务”的行为。人体行为识别27识别为跳舞036.3计算机视觉的技术瓶颈与未来方向现有瓶颈29需要大量标注数据,数据获取以及人工标注成本高,特别是一些特殊领域。数据依赖01在已知数据集上训练好的算法在新的场景中表现能力差,无法有效的识别新场景中未见到过的目标,泛化能力差。泛化能力02高精度模型计算量大、复杂性高,无法满足场景实时性高要求。实时性差03未来趋势减少人工标注,利用无标签数据进行自我学习。自监督学习结合视觉与语言等多模态信息,拓展应用边界。多模态融合轻量化模型部署在边缘设备,提高实时性和数据安全性。边缘计算010203下节课再见!第7章

人工智能应用开发与实践01AI开发基本流程02无代码开发目录contents01AI开发基本流程人工智能开发的基本流程如图为人工智能开发的基本流程图,包括但不限于以下步骤:开发目标开发目标是明确系统或项目在实施过程中应实现的功能和性能需求,确保整个开发活动有清晰的方向和可衡量的成果。通过设定开发目标,可以合理规划资源、设计方案与测试流程,保障最终产品能够满足用户需求、解决实际问题,并具备良好的可用性与扩展性。需求分析在明确开发目标之后,需要对项目的需求进行全面的分析和梳理。这包括确定目标用户群体、分析应用场景、确定技术要求等。需求分析的结果将作为后续设计和开发工作的重要依据,确保开发出的系统能够满足用户的实际需求。数据获取公开数据集使用科研机构、企业和组织会发布在各种领域的公开数据集,这些数据集经过精心整理和标注,具有较高的质量和可用性。使用公开数据集可以节省数据收集的时间和成本,同时也便于与其他研究者进行比较和验证。网络爬虫若公开数据集无法满足项目需求,可以通过网络爬虫技术从互联网上获取数据。它可以根据预先设定的规则和策略,自动遍历网页,提取所需的信息。但需注意遵守相关法律法规,避免侵犯他人的隐私和权益。企业内部数据如果项目是与企业合作的,那么可以利用企业内部积累的大量数据。这些数据通常具有较高的真实性和针对性,能够更好地反映实际业务场景。数据预处理数据清洗数据清洗是去除数据中的噪声、重复值和异常值的过程。噪声数据可能是由于测量误差等原因导致的,会对模型的训练产生干扰。重复值可能会导致模型过拟合,降低模型的泛化能力。异常值则可能是由于特殊情况或错误导致的,需要根据具体情况进行处理,如删除异常值、替换异常值或进行修正。数据标注对于监督学习任务,需要对数据进行标注,即为数据样本添加相应的标签或注释。数据标注是模型学习的关键,只有标注准确的数据才能训练出高性能的模型。数据标注通常需要人工完成,也可以借助一些自动化工具和算法来提高标注效率。数据转换数据转换是将数据转换为统一的格式或范围,以便模型能够更好地处理和学习数据。常见的数据转换方法包括归一化、标准化等。归一化是将数据的取值范围映射到一个固定的区间,如[0,1];标准化则是将数据的均值调整为0,标准差调整为1,使得数据具有相同的分布和尺度。模型选择根据具体的任务类型选择合适的模型。例如,对于分类任务,可以选择逻辑回归、决策树、等模型;对于回归任务,可以选择线性回归、支持向量回归、等模型;对于聚类任务,可以选择K-Means、等模型。01任务类型考虑数据的规模、维度、分布等特点。若数据规模较小,可以选择简单的模型,如线性回归;若数据规模较大,可以选择深度学习模型,如卷积神经网络。如果数据的维度较高,可以选择具有降维能力的模型,如主成分分析(PCA)。02数据特点不同的模型具有不同的性能和复杂度。一些模型可能在训练数据上表现良好,但在测试数据上表现较差;而一些模型可能过于简单,无法捕捉数据中的复杂模式和规律。因此,需要在模型的性能和复杂度之间进行权衡,选择合适的模型。03模型性能及复杂度模型选择是人工智能应用开发中的一个关键环节,不同的任务需要选择不同类型的模型。常见的模型包括传统的机器学习模型(如线性回归、决策树、支持向量机等),以及深度学习模型(如卷积神经网络、循环神经网络等)。在选择模型时,需考虑以下因素:模型训练选择好模型后,需要利用预处理后的数据对模型进行训练。模型训练的过程就是通过调整模型的参数,使模型能够更好地拟合数据的过程。在训练过程中,需要使用优化算法来更新模型的参数,以最小化损失函数。常见的优化算法包括随机梯度下降(StochasticGradientDescent,SGD)、Adagrad、Adadelta、Adam等。同时,还需要设置合适的超参数,如学习率、批次大小、迭代次数等,这些超参数会影响模型的训练效果和性能。在训练过程中,需要不断地监控模型的训练进度和性能,根据实际情况调整超参数,以提高模型的性能。模型评估模型训练完成后,需要对模型的性能进行评估,以确定模型是否满足需求。模型评估是使用测试数据对训练好的模型进行评估的过程,通过评估指标来衡量模型的性能。常见的评估指标包括精确率(P)、召回率(R)、F1分数、均方误差(MSE)、平均绝对误差(MAE)等。不同的任务和模型适用不同的评估指标。任务类型评价指标分类任务精确率召回率F1分数回归任务均方误差平均绝对误差模型优化如果模型的性能未达到预期目标,需要对模型进行优化和改进。模型优化的方法有以下几种:根据数据量不足可能会导致模型过拟合或欠拟合,增加数据量可以提高模型的泛化能力。可以通过收集更多的数据、数据增强等方法来增加数据量。模型的结构对模型的性能有很大的影响。可以尝试调整模型的层数、神经元数量、卷积核大小等参数,以优化模型的结构。特征工程是选择和提取对模型有意义的特征的过程。可以尝试提取更多有代表性的特征,对特征进行变换和组合,以提高模型的性能。超参数对模型的性能也有很大的影响。可以使用网格搜索、随机搜索、贝叶斯优化等方法来寻找最优的超参数组合,以提高模型的性能。增加数据量优化超参数改进特征工程调整模型结构应用部署应用部署是将训练好的模型集成到实际应用系统中的过程。根据应用场景和需求,可以选择不同的部署方式,如云端服务、本地应用、嵌入式设备等。云端服务01云端服务是将模型部署在云端服务器上,用户通过网络访问云端的模型服务,这种方式具有灵活性高、可扩展性强的优点,适用于大规模的应用场景。本地应用02本地应用是将模型集成到本地软件或设备中,用户可以直接在本地使用模型提供的服务,这种方式具有安全性高、响应速度快的优点,适用于对数据安全和隐私要求较高的应用场景。嵌入式设备03嵌入式设备是将模型部署到物联网设备等硬件设备中,实现智能化的控制和决策,这种方式具有实时性强、功耗低的优点,适用于智能家居、智能交通等领域。应用维护模型部署后,需要对模型进行持续的维护和更新,以应对数据分布的变化和新需求的出现。随着时间的推移和数据的变化,模型的性能可能会逐渐下降,这是因为数据分布发生了变化,模型无法适应新的数据。因此,需要建立模型监控机制,定期进行模型重训练和优化迭代,确保其性能稳定性和业务适应性,及时发现和解决系统中出现的问题,确保系统的正常运行。02无代码开发无代码开发定义定义:无代码开发,简而言之,就是一种不需要写代码就能开发应用程序的方法。无代码开发优势降低技术门槛:对于没有编程经验的人也能创建自己的应用或模型,使得AI开发不再是技术人员的专属。提高开发效率:它通过图形化界面、拖拽式操作和预设功能。使得用户只需要选择、组合现有的模块,就可以实现自己想要的功能。无代码开发平台使用场景适合AI入门者、教育从业者及行业用户快速实践和验证项目,如图像分类、文本分析、语音识别等轻量级AI应用开发。平台特点1.零代码AI建模,图形化拖拽界面。2.全流程自动化支持(数据导入到部署)。3.智能推荐模型与自动调参。4.丰富的预训练模型与模板资源。5.支持多种数据类型(图像、文本、音频等)。6.提供云端算力与免费资源。7.活跃的学习社区与互动生态。百度AIStudio无代码开发平台使用场景适合企业开发者、科研人员构建复杂AI应用,如工业质检、医疗影像分析、大规模数据建模等需高性能计算的场景。平台特点1.全流程一站式开发体验。2.支持主流框架(TensorFlow、PyTorch等)与自定义算法。3.强大的异构计算与资源调度能力(GPU/NPU)。4.提供AutoML自动化训练与调优。5.内置数据标注与预处理工具。6.灵活部署(云、边、端)。7.健全的安全机制与高性价比。华为ModelArts

无代码开发平台使用场景适合自然资源、生态环境、智慧城市等领域从业者,如地物分类、库塘检测、大棚监测等遥感影像智能解译任务。平台特点1.零代码开发,全流程可视化操作。2.专注于遥感影像解译,内置150+预训练模型。3.高效的样本生产与管理工具。4.行业定制化(自然资源、农林、灾害监测等)。5.依托商汤云端算力支持。商汤SenseLayers

无代码平台开发实例以百度AIStudio为例,用户可以通过其图形化开发平台快速构建一个花卉识别应用。以下是具体的操作步骤:首先,注册并登录百度AIStudio账号,接下来,进入图形化开发平台,如图,在左侧列表选择PaddleX产线。百度AIStudio创作界面无代码平台开发实例

点击PaddleX产线后进入如图界面,点击右上角“创建产线”。模型产线创建界面无代码平台开发实例

在弹出的窗口中选择图像分类任务场景并为该产线取一个名字,然后点击“确认创建”。即可开始创建一个模型产线。创建模型产线无代码平台开发实例

创建模型产线后,进入产线流程,首先进行选择产线,以通用图像分类为例,可根据需要选择不同的产线。其中,也可以选择在线体验,直接在线体验分类模型的效果。选择产线无代码平台开发实例

确认后下一步进行数据准备阶段。需要选择模型与添加数据集。如图,平台提供了多种模型。一般情况,选择最新的模型,通常具有最好的性能。数据准备选择模型无代码平台开发实例选择数据集在添加数据集时有已校验与未校验数据集区别。已校验数据集指的是按照产线要求已对数据集进行了要求格式的标注与划分。点击已校验数据集,可以选择样例数据集(产线提供)与个人数据集(个人上传)。以通用图像分类-flowers示例数据集为例。选择后可得到数据分析与可视化结果。数据分析与可视化结果无代码平台开发实例

完成数据准备后,需要设置模型的训练参数。如图,训练参数包括模型训练轮次、批大小、类别数量、学习率等。每个参数下方都有具体的解释说明。如果想看更详细的参数说明可以点击“技术文档”查看。如需更多训练参数,可以点击下方“高级配置”设置更多参数。设置训练参数无代码平台开发实例完成设置后,选择硬件环境,并提交训练,启动模型训练任务。平台会自动调用预置的算法和计算资源,对数据进行学习和训练。首次训练时,百度平台会提供免费的算力资源,同时也可进行充值。提交并开始训练无代码平台开发实例

训练成功后,可以在产线详情看到模型产线的基础信息,训练参数、数据集等。在下方可以看到运行状态。运行成功无代码平台开发实例

训练完成后会生成一个结果文件,其中best_model是训练过程中性能最好的模型保存文件,epoch_20是训练到第20个epoch时保存的模型文件或检查点。用于中途恢复训练或评估特定epoch的性能。还包括其他log、train等文件可用于结果分析。运行结果文件无代码平台开发实例

点击右上角评估键,可以对训练过程中不同阶段保存的权重进行验证评估。模型评估无代码平台开发实例

此外,点击右上角部署项,可以对已经训练好的模型执行部署操作。对每项进行选择填写好,即可部署。产线部署下节课再见!第8章

大模型01大模型概述02核心技术原理03行业应用实践04本地部署指南目录contents01大模型概述大模型概念大模型是基于深度学习架构,通过海量数据训练、能处理多任务的基础模型,尤其在自然语言处理、计算机视觉等领域表现突出,参数量通常达百亿至万亿级。传统AI=偏科生(只会单项任务)大模型=全能学霸(同时精通语文、数学、艺术)大模型概念大模型通常指的是大规模的人工智能模型,是一种基于深度学习技术,具有海量参数、强大的学习能力和泛化能力,能够处理和生成多种类型数据的人工智能模型通常说的大模型的“大”的特点体现在:参数数量庞大、训练数据量大、计算资源需求高核心特征参数量大模型拥有极其庞大的参数量,通常在数百万到数千亿甚至万亿级别,随着参数量的增加,模型能够捕捉更多的特征和更复杂的模式,在处理复杂数据和学习高维度的关系时具有更高的表现力数据量大模型依赖于大规模的数据进行训练,通常需要在海量数据上进行学习,以捕捉复杂的模式和规律,展现出强大的推理和生成能力。训练数据的多样性使得大模型能够处理各种不同类型的数据,如文本、图像、音频等,并具备跨领域的应用能力。算力要求由于大模型的参数众多、计算复杂,其训练和运行需要大量的计算资源和内存空间,通常需要高性能的硬件支持,如图形处理器(GPU)、张量处理器(TPU),并且采用并行计算和分布式训练技术以提升效率。大模型能做什么技术发展里程碑此阶段出现统计语言模型和神经网络雏形,为大模型发展奠定基础。01萌芽期(1950-2005)Transformer架构诞生,GPT系列不断迭代,ChatGPT的出现引爆了大模型的应用。02突破期(2017-2022)大模型向视觉、语音、科学计算等领域延伸,进入多模态发展阶段。03多模态时代(2023至今)模型类型代表模型有GPT-4、文心一言,主要应用于文本生成、翻译等场景。大语言模型以DALL·E为代表,可用于图像生成。视觉大模型如Gemini,支持图文交互。多模态大模型像AlphaFold,可用于蛋白质预测。科学大模型大模型分类类型代表模型应用场景自然语言处理大模型GPT-4、文心一言文本生成、翻译、智能问答计算机视觉大模型DALL·E2、ViT图像生成、医学影像分析多模态大模型Gemini、VisualBERT视觉问答、跨模态交互科学计算大模型AlphaFold蛋白质结构预测、气候模拟02核心技术原理核心技术原理Transformer通过编码器和解码器,同时设置中间语义转换向量来实现从一种语言翻译成另一种语言。其实Transformer的应用非常广泛。我们目前的大模型,无论是GPT、文心大模型、通义大模型、DeepSeek等,都是基于Transformer来建立的。你可能好奇,Transformer是怎么做到的呢?核心技术原理讲讲生活中的习惯思维初次见面,先看外表。阅读文章,先看标题批改作业,先看格式共同点,通过后者快速推断前者,找出其中关系这就是注意力机制,就是关注我们容易关注的。什么是注意力机制核心技术原理

从数学的角度来描述注意力机制的话,可以理解为权重。就是把重要的内容设置的权重高,而不重要的内容设置的权重低。核心技术原理Ilikesports我喜欢运动ItwasonthemorningofFebruarytheninththatIarrivedinLondon.它在2月的早上第九我到达了伦敦短句翻译,还可以

长句翻译,就不理想。忽略了词和词之间的联系,没有采用注意力机制。

采用注意力机制以后,翻译:2月9日早晨我到达了伦敦核心技术原理研究明表,汉字序顺并不定一影阅响读比如当你完看这句话,才发现字全是乱的。来自科普中国的一段文字其实仅有注意力机制还不够,请阅读右边文字。这是因为在阅读时,我们并不是逐字阅读,而是会扫视“关键字”,然后大脑会凭借经验进行“脑补式”的理解。核心技术原理

有意思的是,人不仅在理解汉字时是这样,在理解其它语言和图片时也这样。而把这种现象应用到人工智能中,就是自注意力机制了。通俗的讲,Transformer的自注意力机制能够在句子中找到自己与各个词之间的关系,能快速找到要关注的重点。核心技术原理

除了自注意力机制外,还有多头注意力机制,顾名思义就是有多个自注意力机制通过加权计算,然后将加权计算结果综合起来,增加自注意力机制的效果。

如在一个句子中,一个注意力头关注上一个单词和下一个单词之间的关系,另一个注意力头则会关注主语和谓语的关系上。核心技术原理注意力机制自注意力机制多头注意力机制核心功能生活举例从外部信息中筛选出相关的部分。理解同一序列内元素之间的关系。并行多视角分析,综合更全面的信息。本质都是动态分配权重,让模型学会“该关注什么”。一个经常发言的同学引起你的注意,一个项目团队合作,不仅要关注自己,还要和其它同学协调

项目太大,分为多个团队,每个团队有自注意机制,多个团队就是多头自注意力机制核心技术原理

你可能会问,上面讲的和Transformer模型有关系吗?当然有呀,其实Transformer模型就是引入了多头注意力机制的编码器和解码器。2017年,谷歌发布的论文《AttentionisAllYouNeed》提出Transformer模型。从宏观来看,可以把Transformer模型看做一个有输入和输出的黑匣子。传统架构局限传统RNN/LSTM在长序列处理中存在明显短板:反向传播时因链式结构导致梯度指数级衰减,引发梯度消失问题,使模型难以捕捉长距离依赖关系。在处理大规模时序数据时,训练耗时可达数周甚至更久,严重制约了在长序列场景的应用拓展。Transformer诞生2017年,Vaswani等人在《AttentionisAllYouNeed》中提出Transformer架构。该架构以自注意力机制为核心,摒弃RNN/LSTM的循环结构,通过多头注意力机制捕捉全局依赖关系,同时利用位置编码保留序列时序信息。解决了梯度消失难题,更在机器翻译、语言模型等领域开创长序列处理新范式,为后续大模型发展奠定底层架构基础。核心技术原理核心技术原理拆开这个黑匣子,我们可以看到它是由编码组件、解码组件和它们之间的连接组成核心技术原理其中每一个编码器有前馈神经网络(有输入层、隐藏层和输出层的神经网络)和多头自注意力机制组成。自注意力机制通过计算前一个编码器的输入编码之间的相关性权重,来输出新的编码;然后前馈神经网络对每个新编码进行处理,然后将这些处理后的编码作为下一个编码器或解码器的输入。大模型的训练过程在预训练阶段,模型使用海量文本数据进行自监督学习,让模型学习到语言的通用模式和特征,为后续的微调打下基础。预训练阶段0102微调阶段微调阶段是在预训练的基础上,使用特定的指令数据集对模型进行进一步训练,使模型能够适应特定的任务和场景。奖励模型的训练方式,针对同一个问题,让监督微调学习模型给出多个答案。让现实中的人对这多个回答进行排序,这其中隐含了人类对模型效果的预期,依此形成新的标注数据集,然后进行训练奖励模型。训练奖励阶段03用强化学习算法通过奖励模型优化策略。强化阶段04大模型的训练过程03行业应用实践通用场景效能提升01在内容生成方面,大模型可自动撰写营销文案,效率相比传统方式提升300%,大大节省了时间和人力成本。02智能交互场景中,24小时客服机器人的应用使成本降低60%,同时能随时响应客户需求,提升服务质量。03教育辅助领域,大模型能生成个性化学习方案,满足不同学生的学习需求,提高学习效果。内容生成效率提升智能交互成本降低教育辅助个性化增强垂直领域创新案例在医疗领域,大模型用于医学影像分析,使诊断准确率提升至98%,有助于更精准地发现病情。医疗领域应用价值工业中,大模型对炭黑生产进行优化,使废料率从18%降至6%,提高了生产效率和资源利用率。工业领域应用价值农业方面,大模型实现遥感病虫害预警,可减少农药使用量40%,既保护环境又降低成本。农业领域应用价值010203科研突破图谱大模型在药物研发中发挥重要作用,可将分子性质预测加速10倍,推动新药研发进程。药物研发加速01在气候模拟方面,大模型能使极端天气预警提前7天,为防灾减灾提供更充足的时间。气候模拟预警提前0204本地部署指南部署价值分析安全维度评估01在安全维度,本地部署能确保医疗、金融等敏感数据不出本地,有效防止数据泄露风险,保障数据的安全性和隐私性。成本维度评估02从成本角度看,长期使用本地部署比云服务节省70%的费用,能显著降低企业的运营成本。响应维度评估03响应速度上,本地部署可将延迟降低至50ms以内,实现快速响应,提升用户体验。工具链对比vLLM评估Ollama评估0103vLLM在推理速度上进行了优化,适合生产环境,能满足大规模应用的高性能需求。Ollama支持100+开源模型,适用于快速验证新想法和模型,能帮助开发者快速测试不同模型的性能。02LMStudio具有可视化界面,对于非技术用户友好,方便他们进行模型的操作和管理,降低使用门槛。LMStudio评估本地部署流程硬件准备要求至少配备16GB显存的GPU和64GB内存,为模型运行提供充足的硬件资源。01硬件准备环境配置需安装CUDA12.2和Python3.10,确保软件环境与模型兼容。02环境配置03可从HuggingFace平台下载量化版模型,以减少模型的存储空间和计算资源需求。模型获取采用Prometheus+Grafana进行实时监控,及时发现和解决问题,保障系统的稳定运行。05监控优化使用FastAPI搭建推理接口,实现模型的对外服务,方便用户调用。04服务部署本地部署详细步骤1下载Ollama访问Ollama官网(/),点击“Download”下载,根据操作系统(Windows、macOS或Linux)下载自己操作系统对应的安装包本地部署详细步骤2下载DeepSeekR1Ollama已经在第一时间支持DeepSeekR1,模型下载地址是/library/deepseek-r1。只需要在cmd命令行窗口中执行如下命令就可以自动下载DeepSeekR1大模型:该命令会自动下载并加载模型,下载时间取决于网络速度和模型大小。请根据自己的显存选择对应的模型,建议选择参数较少、体积最小的1.5B版本。本地部署详细步骤3运行DeepSeek可以在cmd命令行窗口中执行如下命令启动DeepSeekR1大模型:显存优化策略根据模型大小和量化程度,分析不同部署方案所需的显存、内存等资源,为硬件选择提供依据。不同的量化参数会导致不同的显存占用和性能表现,如低精度量化显存占用少,但可能影响模型精度。量化技术通过减少模型参数的精度,降低显存需求,例如将32位浮点数转换为8位整数。量化技术原理不同部署方案对比资源需求分析量化技术原理不同部署方案对比故障排查手册整理大模型本地部署过程中常见的报错代码,如显存不足、依赖库版本不兼容等。常见报错代码整理针对不同的报错代码,提供相应的解决方案,如增加显存、更新依赖库等。解决方案汇总建立快速响应机制,确保在出现故障时能迅速定位问题并采取有效措施解决。快速响应机制技术演进预测0102根据技术曲线预测大模型未来的发展趋势,如性能提升、应用场景拓展等。基于对未来趋势的预测,为企业和开发者提供相应的应对策略建议,如提前布局新技术、加强人才培养等。未来发展趋势展望应对策略建议下节课再见!第9章

AIGC应用01生成式人工智能概念02生成式人工智能产业和应用03生成式人工智能核心技术04提示词工程的开发与优化目录contents05生成式人工智能案例设计06AIGC智能办公07AIGC赋能科研08智能体与数字人01生成式人工智能概念生成式AI的定义与特征生成式人工智能其本质是通过学习数据的内在规律,模拟人类创造力,自主生成文本、图像、音频、视频、代码等内容的技术体系。与传统的判别式人工智能(如图像分类、语音识别)不同,生成式AI并非仅对已有数据进行识别或预测,而是通过深度神经网络构建高维概率模型,从海量数据中提取特征,并基于此生成具有逻辑性、连贯性甚至创新性的新内容。01生成式AI的定义02其核心特征体现在:创造性输出多模态覆盖交互性与迭代优化数据驱动学习这些特征不仅彰显了生成式人工智能的独特优势,也预示了其在未来数字内容创作与交互领域的巨大潜力。核心特征核心特征详解生成式人工智能的创造性输出能力,是其区别于传统AI技术的关键标志。它不仅能够复现训练数据中的特征,更能通过深度学习和概率建模,生成训练数据中未明确存在的原创内容,如融合风格的图像或艺术文本。创造性输出生成式AI的交互性体现在用户可通过自然语言指令或细化参数动态控制输出,使AI逐步逼近用户需求。技术实现上,依赖于强化学习(RLHF)和微调算法,使模型理解模糊指令背后的真实意图。交互性与迭代优化生成式人工智能打破了传统内容创作的形式界限,支持文本、图像、音频、视频、代码等多种内容形式的自由生成与跨模态关联,确保内容语义一致性与协同表达。多模态覆盖国产大模型的生成能力体现在对语言统计规律的挖掘,如通义千问借万亿级中文语料实现此功能。技术实现上,依托注意力机制识别平仄等规则,数据质量影响输出,盘古更以多源异构数据实现跨领域迁移。数据驱动学习生成式AI的概念延伸狭义指AI生产内容,广义指具备生成能力的AI技术,涵盖多种内容形式。狭义与广义定义从内容生产模式视角,AIGC与PGC、UGC形成互补生态。PGC由专业力量产出,保证了内容的深度和专业性,但成本较高;UGC依赖普通用户创作,内容形式丰富多样,但质量难以统一;AIGC则借助人工智能系统,能够高效、批量地生成内容,输出较为标准,可满足规模化生产的需求。与PGC、UGC对比AIGC提升内容生产效率,降低门槛,推动内容创作民主化与规模化。内容生产生态010203AIGC与PGC、UGC的对比分析方式生产主体典型场景内容质量PGC专业机构/个人影视制作、学术出版高专业性、高成本UGC普通用户社交媒体、短视频平台多样性高、质量参差不齐AIGC人工智能系统广告素材生成、智能客服回复标准化输出、可规模化生产生成式人工智能和判别式人工智能将人工智能以用途为分类基准,分为:生成式人工智能和判别式人工智能(DiscriminativeAI,DAI)两大类。生成式人工智能以内容创造为核心,通过学习数据规律建模重组,突破既有框架生成文本、图像、音频等新内容,如AI绘画、文本生成、视频合成等,具创新性输出能力。

判别式人工智能聚焦分类与决策,通过特征提取建立输入与标签的映射,输出确定性判断或概率评估,如医学影像肿瘤分类、人脸识别、信贷风险预测等,核心是优化特定任务预测精度,能力受限于预设类别与规则。生成式AI的发展历程爆发阶段2020年至今,扩散模型、大语言模型突破,国产模型如文心一言、通义千问等快速落地。探索阶段20世纪90年代至21世纪初,概率统计模型(HMM、CRF)兴起,语音合成与文本生成技术逐步发展。萌芽阶段20世纪50年代至80年代,图灵测试提出,IBM701完成首次机器翻译,规则驱动生成技术初步探索。发展阶段2010年至2020年,GAN、Transformer架构提出,GPT系列模型推出,生成质量显著提升。02生成式人工智能产业和应用生成式AI的产业生态政策环境技术体系市场需求是推动AI大模型行业发展的持续动力,2025年中国AI大模型市场规模预计突破495亿元,生成式AI进入规模化应用阶段。市场规模AIGC产业生态的技术体系以四层架构为核心,芯片层、框架层、模型层、应用层构成完整生态,推动生成式AI技术迭代与产业落地。人工智能政策制定方向的变化直接反映了产业发展不同阶段,国内出台《生成式人工智能服务管理暂行办法》,国际如欧盟《人工智能法案》加强监管。生成式AI的应用场景内容创作与文娱应用于新闻撰写、广告文案、影视脚本生成,提升创作效率与多样性。教育与医疗个性化学习路径规划、智能辅导、医学影像分析、药物研发等场景广泛应用。金融与工业智能投顾、风险评估、工业设计辅助、设备故障预测等领域深度融合。政务与无障碍AI数字人提供政务服务,AI手语系统、图像描述技术助力无障碍沟通。内容创作与文娱内容创作:通过文本生成、图像合成、视频编辑等技术,实现新闻撰写、广告文案创作、影视脚本生成及多媒体内容自动化生产。例如,新华社推出的AI新闻主播,能够快速生成并播报新闻内容,提高新闻发布的时效性和准确性;在文学创作中协助作家快速生成故事框架、角色设定。文娱行业:生成式AI在文娱行业的应用主要体现在内容创作自动化、互动体验升级、个性化内容推荐及虚拟角色开发等方面。例如,字节跳动推出的AI视频生成工具“剪映AI”,能够通过自然语言指令自动生成短视频脚本、匹配画面素材并完成剪辑,大幅降低创作门槛。教育与医疗教育领域:在教育领域的应用主要体现在教学资源生成、个性化学习路径规划、智能辅导答疑、虚拟课堂互动等方面。例如,科大讯飞推出的AI学习机,能够根据学生的学习情况提供个性化的学习路径规划,智能推荐学习资源。医疗领域:生成式AI不仅能够提升医疗效率,还可以在诊断、健康教育、病人沟通和个性化治疗中发挥重要作用。例如,借助医学影像分析系统自动识别肿瘤边界,生成3D重建模型辅助手术规划;通过AI药物研发平台生成分子结构预测化合物活性,缩短新药研发周期。金融与工业金融领域:生成式AI在金融领域的应用包括风险评估、智能投顾、客户服务等。例如,蚂蚁金服推出的智能投顾服务,能够根据用户的投资偏好和风险承受能力,生成个性化理财方案,提升金融服务效率,降低运营成本。工业与制造业:生成式AI在工业与制造业中的应用主要集中在生产流程优化、工业设计辅助、设备故障预测等方面。例如,中化信息与百度合作探索人工智能在化工行业的应用,基于千帆AppBuilder打造“化小易”知识助手,能够基于自然语言提问,快速检索并回答分子特性、分子合成路线等专业知识,替代了传统的人工查询方式,极大提高了研发效率。政务与无障碍政务服务:生成式AI在工业与制造业中的应用主要集中在生产流程优化、工业设计辅助、设备故障预测等方面。例如,中化信息与百度合作探索人工智能在化工行业的应用,基于千帆AppBuilder打造“化小易”知识助手,能够基于自然语言提问,快速检索并回答分子特性、分子合成路线等专业知识,替代了传统的人工查询方式,极大提高了研发效率。无障碍沟通支持:生成式AI通过多模态转换技术,为听障与视障群体构建无障碍交互环境。例如,腾讯AI手语生成系统可将实时语音转化为高精度手语动画,支持新闻播报、在线课程等场景的实时翻译;微软SeeingAI通过图像描述生成技术,为视障用户提供环境感知服务,在用户拍摄照片后,AI生成自然语言描述,向视障者描述画面中的人类、文字和物体,并用声音提示引导用户与这些目标互动。03生成式人工智能核心技术主要模型架构变分自编码器(VAE)编码器压缩数据,解码器重构数据,通过重建损失与KL散度优化生成效果。扩散模型通过加噪与去噪过程生成数据,图像质量高,训练稳定但生成速度较慢。生成对抗网络(GAN)生成器与判别器对抗训练,生成逼真样本,适用于图像合成等任务。Transformer架构基于自注意力机制,高效处理长序列,广泛应用于文本与多模态生成。变分自编码器变分自编码器(VAE)是一种基于概率建模的生成式模型,包括编码器和解码器两个核心组件,主要应用于图像生成与修复、数据压缩与降维、半监督学习。

数据从左向右正向流动,原始输入数据通过编码器压缩为潜在特征,再由解码器重构数据;损失函数同时计算重建损失(衡量重构数据与原始数据的差异)和KL散度(约束潜在空间分布接近正态分布),二者共同指导模型优化。图中关键的反向传播优化弯曲箭头,体现了损失梯度通过解码器、编码器反向传递的过程,驱动模型调整参数以最小化总损失。整个流程循环迭代,既保证数据重建精度,又维持潜在空间规范性,是生成模型实现特征学习与数据重建的核心机制。生成对抗网络生成对抗网络(GAN)是一种基于对抗学习的深度生成模型。在GAN的整体框架中,用于训练的模型由两个神经网络组成:生成模型(Generator)和判别模型(Discriminator),主要应用于图像合成、数据增强。左侧的“随机噪声z”通过“生成模型G(z)”转化为合成数据(如假图片);右侧的“真实数据x”代表训练所用的真实样本(如真实图片)。生成数据和真实数据同时输入“判别模型D”进行对抗博弈:判别器像鉴伪专家,通过“真/伪?”输出判断数据来源;生成器则像造假者,不断改进以生成更逼真的数据欺骗判别器。两者的对抗训练形成动态平衡(类似“猫鼠游戏”),最终使生成数据达到以假乱真的效果。扩散模型扩散模型(DiffusionModels)是一种对样本逐步添加噪声再逐步去噪的生成模型,其训练过程包括:前向扩散过程、反向生成过程,主要应用于高逼真图像生成、视频生成、医学影像合成。从右至左的水平序列中,右侧清晰的原始人脸图像通过前向扩散过程(标注为向右箭头)逐步被添加高斯噪声,经历到等中间状态,最终退化为完全模糊的噪声图像;而左侧的反向生成过程(标注为向左箭头)则展示了模型通过迭代学习噪声分布规律,逐步从中剥离噪声,重建出原始图像的能力。整个过程揭示了扩散模型的核心思想:先通过系统化加噪破坏数据分布(前向扩散),再训练神经网络逆向恢复数据(反向生成),最终使模型掌握从随机噪声生成逼真图像的技术路径。Transformer架构Transformer模型是一种基于自注意力机制(Self-Attention)的模型架构,能够高效地处理长距离依赖关系。Transformer模型主要由输入部分、编码组件、解码组件以及输出部分组成,Transformer架构在自然语言处理领域和计算机视觉领域都发挥着重要作用。同时,Transformer架构在多模态生成任务中也展现出其潜力。Transformer架构的核心在于自注意力机制。在自注意力机制中,模型通过计算输入序列中各个元素之间的注意力权重,来决定每个元素在生成输出时对其他元素的关注程度。这种机制使得Transformer能够并行处理序列数据,大大提高了计算效率技术挑战0201算力与伦理问题模型训练与推理需大量算力;同时面临版权、隐私、算法偏见等伦理挑战。事实性校验与多模态对齐存在“幻觉”现象——即生成看似合理但实际错误的信息;需引入RAG等技术提升准确性,确保多模态内容语义一致。04提示词工程的开发与优化提示词工程定义输入设计通过词汇选择、句式构造和上下文整合,明确任务目标,如生成文本、分析数据或创作图像。01模型适配根据不同生成式AI模型的特点调整提示词设计,确保模型能准确理解用户意图。02迭代优化基于用户反馈和生成结果,持续改进提示词设计,以提升输出质量。03提示词工程的重要性010203提升模型输出质量通过明确指令和上下文设置,生成更加符合用户需求的内容。提升效率与降低成本扩展模型应用范围优化提示词能快速获得理想结果,避免反复调试模型参数或重新训练。通过调整和优化提示词,可以使模型在不同的领域和场景中发挥作用。提示词设计原则

01明确性与具体些提示词需清晰表达用户需求,避免模糊或歧义表述,通过限定条件缩小模型的理解范围。02可扩展性高频使用模型解决某类问题时,需要注意提示词设计的可扩展性,使其能适应新增需求或变化,无需完全重构。03伦理合规性根据用户使用需求,可在提示词中预设伦理边界,防范生成有害、偏见或违法内容。提示词设计原则

01明确性与具体性提示词需清晰表达用户需求,避免模糊或歧义表述,通过限定条件缩小模型的理解范围。范例:明确指令优化提示词。模糊提示:请推荐一些商业管理类的书籍。优化后:请推荐5本2021年至2025年间出版的商业管理类书籍,列出书名、作者、出版年、20字内书籍简介。提示词设计原则

02可扩展性高频使用模型解决某类问题时,需要注意提示词设计的可扩展性,使其能适应新增需求或变化,无需完全重构。范例:增加提示词的可扩展性。如果你是一名_____(角色),需要完成_______(任务),特别注意______(关键点),回答风格_____(要求)。如果回答风格为精简,则回答字数不超过200字;如果回答风格为正常,则字数不设限制。

提示词设计原则

03伦理合规性根据用户使用需求,可在提示词中预设伦理边界,防范生成有害、偏见或违法内容。前置约束方式直接添加声明,如“推荐符合可持续发展原则的方案”“拒绝回答涉及暴力、歧视或隐私的问题”“避免涉及种族、性别刻板印象”等,或者采用后置检验的方式,让模型在输出前进行伦理风险评估。

提示词工程的分类

提示词工程分类方式多种多样,若按照技术方法进行分类,可分为:基础提示、结构化提示、高级提示。基础提示指的是采用单轮指令,无复杂结构。主要代表为:零样本(Zero-shot)方式,直接进行提问;少样本(Few-shot)方式,给出示例引导。结构化提示是一种使用分隔符将输入内容分为不同部分,以清晰、有条理的方式指导AI模型理解并生成期望输出的提示方式。核心技术为思维链(Chain-of-Thought)、角色-任务-约束框架、多步骤推理模板等。高级提示主要指采用自洽性提示、动态生成提示、递归提示等方式,来高效引导AI模型生成高质量输出的提示设计方式。提示词设计方法

思维链(CoT)是一种改进的提示策略,用于提高模型在复杂推理任务中的性能,如算术推理、常识推理和符号推理。思维链方式按照角色设定、任务描述、输出要求、约束条件四层结构设计提示词提升模型理解能力。结构化提示词利用LLM自动生成与评估提示词,实现提示词的智能迭代优化。自动优化提示提示词设计原则

01结构化提示词按照角色设定、任务描述、输出要求、约束条件四层结构设计提示词。角色设定除设置专业身份外,还可对角色增设条件。任务描述则需对任务完成过程进行分解,可设置步骤化的指令便于模型理解。输出要求需明确格式规范、风格控制等。约束条件一般指法律、安全、文化等方面的设定,例如遵守隐私条款、符合安全标准。。提示词设计原则

02思维链方式其是在模型的提示中添加少量样例来引导模型在生成回答之前首先进行思维链推理。之后提出的zero-shotCoT则不需要在模型的提示中给出任何演示样例,使用者只需在原输入问题之后加上“让我们一步一步来解决问题”,模型即可自己生成思维链,引导模型推理出正确答案。提示词设计原则

03自动优化提示自动提示词工程(AutomaticPromptEngineering,APE)是指利用大型语言模型(LLM)自动生成和优化文本提示词Prompt的过程.下面介绍基础的APE设计思路,通常包括以下几个步骤:①生成候选提示词:利用LLM自身的能力,根据任务需求生成多个候选提示词。②评估候选提示词:在训练集上评估候选提示词的效果,选择得分最高的提示词。③优化提示词:在得分最高的提示词附近进行试探性搜索,生成语义相似的提示词,并再次评估,以寻找效果更好的提示词。这一过程可以迭代进行,直到提示词的效果无法再显著提升。05生成式人工智能案例设计文本生成案例案例背景:为开封清明上河园创作一篇兼具文化底蕴和实用性的旅游攻略,需涵盖景点介绍、一日游玩路线、周边美食等内容,要求语言生动、结构清晰,适合社交媒体传播。步骤:明确目标:用户需生成一篇旅游攻略,属于文本生成类任务。攻略要求包含景点介绍、一日游路线规划和周边美食介绍,字数500字左右。除此之外,根据攻略需具备实用性和文化底蕴,适合社交媒体传播的要求,可在提示词设计中增加相应要求,例如“在景点介绍中融入诗词典故”。选用模型:选用DeepSeek-R1,该模型的中长文本生成能力突出。设计提示词模型输出迭代优化图像生成案例案例背景:某小学要开展保护视力宣传教育专项活动,提升学生的爱眼护眼意识,有效预防近视。现要针对此活动,设计一款宣传海报。步骤:明确目标:该任务目标为设计一款宣传海报,属于图像生成任务。海报主题主要围绕小学生爱眼护眼进行设计,风格需要富有童趣且具有教育意义。选用模型:本案例选用百度文心大模型4.0Turbo。设计提示词模型输出迭代优化代码生成案例案例背景:现在想要通过Python语言编写一段代码快速生成100组数据,每组数据包含4个随机整数,这些数据需满足以下条件:①第一个随机数大于0,小于100;②第二个随机数大于5,小于31;③第三个随机数大于15,小于43;④第四个随机数大于0,小于29;⑤第一个随机数等于后三个随机数的和。步骤:明确目标:用户想要通过代码实现自动生成随机数,属于代码生成类任务。编程语言指定为Python语言。假设将其生成的四个随机数分别命名为:sum、a、b、c,对应的条件为:0<sum<100,5<a<31,15<b<43,0<c<29,且a+b+c=sum。为了方便用户使用,生成的数据可以存放在CSV文件中,每类随机数为一列。选用模型:本案例选用阿里云的通义千问。设计提示词模型输出迭代优化视频生成案例案例背景:假设你是一名短视频创作者,现在想要生成一个海浪拍打礁岩的视频,画面为俯拍镜头,比例16:9,要求呈现出来壮阔磅礴的气势。步骤:明确目标:本案例属于视频生成类任务,视频画面为海浪拍打礁岩,视角为俯拍,比例16:9,要求气势磅礴。选用模型:本案例选用可灵AI(KlingAI)作为视频生成模型。设计提示词模型输出迭代优化音频生成案例案例背景:假设要为上一小节生成的视频,增加一段配音,文字描述为“海浪从远处翻涌而来,拍打着礁石”,要求包含背景音乐。步骤:明确目标:本案例属于音频生成类任务,且已经明确音频内容。选用模型:本案例选用具有AI配音功能的腾讯智影作为生成模型。设计提示词模型输出迭代优化06AIGC智能办公应用价值效率提升与数据可视化工作效率提升。例如,自动化处理文档生成、数据整理、会议纪要等重复性任务,显著缩短工作时间。智能数据分析与可视化,智能洞察,辅助风险预判、资源优化等战略决策。多模态协作与创新驱动多模态协作。打通文本、图像、音视频等媒介的智能转换。创新驱动。生成创意提案、设计模板,激发组织创新活力。应用场景WPSAI实现合同、文案生成与排版优化,提升文档质量与制作效率。1.智能文档处理通过自然语言指令完成数据清洗、分析与图表生成,降低技术门槛。2.数据分析与可视化实现语音转写、纪要生成、任务分配,提升会议效率与执行力。4.智能会议与协作WPSAI可以实现文档的词句或者是段落的润色优化,提高文档的可读性。3.文字文档润色智能文档处理步骤:打开WPS中的PPT,点击“AI生成PPT”输入生成的PPT主题单击“开始生成”按钮挑选模版单击“创建幻灯片”按钮,即可创建成功PPT数据分析与可视化步骤:用WPS打开所需要处理的excel,按照图中所示的“1”“2”顺序进行单击操作使用AI帮助完成一些列复杂操作,例如,输入“帮我计算这些手机的总销量”输出结果文字文档润色步骤:打开需要处理的Word文档,选中需要修改的段落或句子,右击后在弹出的快捷菜单中选择“润色”→“快速润色”命令润色生成后,单击“替换”按钮输出结果智能会议与协作步骤:打开通义听悟官网:/,单击“上传音视频”按钮单击“上传本地音视频文件”按钮进行上传根据自己需要进行选择,然后单击“开始转写”按钮输出结果智能办公优势智能办公工具减少手动操作,显著缩短任务完成时间。跨团队信息共享更加便捷,协作透明度显著提高。提升效率增强协作智能办公工具覆盖文档处理、数据分析、会议协作等多种场景。适应多样化需求07AIGC赋能科研应用价值AIGC技术的引入为科研流程提供了创新解决方案。通过智能文献解析与多语言检索功能,快速定位关键研究成果;利用生成式模型辅助形成研究假设并优化实验方案;借助自动化代码生成与数据可视化工具,降低技术实现难度,使非计算机专业研究者也能高效完成复杂分析;同时构建跨学科知识图谱,促进不同领域研究者的深度协作。AIGC技术的应用显著提升了科研效率,促进了知识融合,推动科研模式向更高效、更智能的方向转型。应用场景010203文献综述与数据分析自动解析论文、生成可视化分析,提升研究效率与洞察力。实验设计与结果预测论文撰写与发表辅助生成学术内容、优化语言表达、匹配期刊格式,提升发表效率。模拟实验参数、预测结果,减少试错成本,加速科研进程。应用场景01文献综述与数据分析自动解析论文、生成可视化分析,提升研究效率与洞察力,例如,使用智谱清言AI阅读可自动解析文章内容并标注关键引用,助力研究者快速定位领域前沿。应用场景02实验设计与结果预测模拟实验参数、预测结果,减少试错成本,加速科研进程。典型案例:小米与国家级材料重点实验室合作,基于多元材料AI仿真系统研发出高强高韧免热处理环保压铸材料“泰坦合金”,成为国内首家拥有自研合金材料的汽车厂商。该系统深度融合材料专家知识与人工智能算法,构建了覆盖“成分-组织-性能”的多尺度关联模型。系统在超1000万种配方组合中高效筛选出最优解,最终锁定满足小米轻量化、环保需求的泰坦合金配方。该技术不仅应用于汽车零部件制造,还可拓展至手机、智能硬件等领域的材料创新。除此之外,中国钢研科技集团6个月内设计开发出世界上强度最高的高性能抗氢厚板材料;北京科学智能研究院引入AI分子表示学习模型,设计出不含贵重金属的新一代OLED发光材料。一批AI赋能的新材料标杆性成果正在不断涌现。应用场景03论文撰写与发表辅助生成学术内容、优化语言表达、匹配期刊格式,提升发表效率,例如,使用Kimi推荐论文发表的相关期刊。应用成效AIGC显著提升科研效率,文献综述时间缩短,实验试错次数减少。

效率提升01AIGC降低技术门槛,使非计算机专业研究者也能完成复杂数据分析。创新加速01AIGC降低技术门槛,使非计算机专业研究者也能完成复杂数据分析。门槛降低0108智能体与数字人智能体定义智能体(Agent):是指能够感知环境、自主决策并执行动作以实现特定目标的实体或系统。它可以是软件形式,如聊天机器人、虚拟助手等;也可以是硬件形式,如自动驾驶汽车、服务机器人等。智能体特征自主性:无需全程干预,独立运行自主性指智能体无需人类全程干预,能基于预设规则或学习算法独立运行,如扫地机器人自主规划清洁路径。适应性:优化行为适应环境适应性指智能体可通过算法优化行为,适应动态变化的环境,如智能客服系统通过历史对话数据改进应答策略。交互性:与人类/环境实时互动交互性指智能体能与人类或环境实时互动,如自动驾驶汽车通过视觉和雷达感知路况并控制转向和刹车。目标导向性:围绕预设目标行动目标导向性指智能体围绕预设目标驱动行动,而非仅被动响应指令,确保行动有明确目的。智能体与大模型的关系智能体作为“能自主行动的决策者”,将大模型的抽象能力转化为具体行动,实现任务执行。大模型与智能体深度融合,大模型提供智能基础,智能体通过场景数据反哺大模型优化,形成良性循环。智能体的创建以文心智能体平台为例,用户只需访问官网并单击“创建智能体”,即可通过上传头像、设置简介与开场白等步骤快速完成基础配置,进一步通过知识库上传与插件集成增强功能,最终发布至公众号或企业微信等平台,提供个性化客服、教育辅助工具等服务。数字人的定义数字人(DigitalHuman)是指通过计算机图形学、人工智能、动作捕捉、语音合成等技术创建的虚拟人物或数字化人类形象。其核心特征是具备拟人化的外观、行为及交互能力,能够模拟人类的外形、表情、语言、动作,甚至情感与思维模式,以在不同场景中实现与真实人类的互动。在实际应用中,数字人具有极高的灵活性和适应性,可化身为虚拟偶像、虚拟主播、虚拟客服等多样化角色,深度融入各类社会活动。数字人分类功能型:客服、导览员(侧重效率)功能型数字人如客服、导览员,侧重任务执行效率,提升服务质量和效率。IP型:虚拟偶像、品牌代言人(独立人设)IP型数字人如虚拟偶像、品牌代言人,具有独立人设和商业价值,提升品牌影响力。数字孪生人:基于真实人物数据复刻(如明星分身)数字孪生人基于真实人物数据复刻,如明星分身,用于娱乐、代言等场景。技术基础外形建模与渲染外形建模与渲染技术构建数字人视觉元素,实现动态光影与表情变化。动作与表情驱动动作与表情驱动技术记录真人行为数据,还原微表情,提升自然度。语音与语言交互语音与语言交互技术生成个性化音色,实现语义理解与智能对话。AI驱动AI驱动技术优化数字人行为逻辑,感知用户情绪,增强共情体验。数字人的制作数字人的应用场景已广泛渗透至客户服务、教育医疗、娱乐营销、政务咨询、文旅导览等多个领域,其核心价值在于通过高拟真交互与24小时在线能力实现降本增效,并拓展了虚拟试衣、数字分身、AI陪伴等创新体验。我们可以利用剪映+DeepSeek生成河南大学介绍员数字人。创建文本→生成口播文案→添加数字人→匹配文案→添加背景→导出智能体与数字人的区别形态与能力差异智能体侧重任务执行,数字人侧重拟真交互与情感表达。应用侧重智能体用于自动化处理,数字人用于形象化沟通与服务。下节课再见!第10章

人工智能伦理与治理01人工智能伦理的理论基础02人工智能伦理的典型挑战03伦理治理的应对策略04未来趋势:伦理与技术的共生发展目录contents01人工智能伦理的理论基础人工智能伦理的兴起科技背景下的AI伦理科技发展下,AI融入生活展现了巨大潜力,同时伦理问题突显,需重构适应性伦理框架。AI伦理的核心议题探讨AI设计、开发与应用中的道德法律问题,确保使用符合人类价值观,促进社会福祉。AI伦理的特点人工智能伦理具有动态性、跨域性和人本性。人工智能伦理的现实意义人工智能技术的飞速发展带来了诸多便利,但也同时带来了诸多伦理问题,如算法偏见、数据隐私与公共安全冲突等,凸显了构建新型伦理体系的紧迫性。智能客服覆盖超80%电商售后场景(阿里研究院);美团无人机配送效率提升150%;谷歌乳腺癌AI筛查准确率达94.5%。AI普及带来的便利某学院26件AI创作获奖作品因版权争议撤展;深圳无人机撞击事故引发责任归属辩论;广州L3自动驾驶事故中车企因传感器缺陷被判主责。AI普及带来问题自动驾驶事故的算法归责、医疗AI误诊的责任划分等案例,都凸显传统社会规范与技术现实的割裂。传统与现实的割裂02人工智能伦理的典型挑战算法偏见与歧视亚马逊AI招聘工具因训练数据偏差导致性别偏见,偏向男性求职者;美国COMPAS司法算法因算法设计缺陷,对少数族裔产生种族偏见,加剧社会不平等。01算法偏见的危害在于强化社会结构性歧视。它可能导致某些群体在就业、司法等领域受到不公平对待,进而引发社会矛盾。解决算法偏见问题刻不容缓,需从数据和算法设计入手。

02危害与紧迫性典型案例数据隐私与公共安全冲突公共安全与隐私权的博弈疫情防控下,健康码系统提升追踪效率,但会泄露敏感信息,隐私与公共安全博弈加剧。数据匿名化的局限数据匿名化难挡新型破解,公共安全与隐私权博弈持续存在。马赛克效应隐私危机"马赛克效应"下,多源数据交叉分析暴露个人隐私,传统保护方式失效。数据聚合的乘数效应与悖论数据聚合提升监管效能,却泄露企业隐私,数字化治理面临平衡安全与隐私难题。思考你是否遇到过大数据“杀熟”?你认为怎样做才可以尽可能地避免被“杀熟”?如果遇到了大数据“杀熟”,你会怎么处理?道德困境与伦理冲突自动驾驶的道德困境2025年懂车帝实测显示,部分车型在“消失的前车”场景中因算法过度追求通行效率,避让成功率不足14%;而保守策略车型反而降低事故率;医疗AI的伦理冲突IBMWatson肿瘤系统在日本应用中,因未能适配当地用药规范导致部分案例出现方案偏差,最终引发开发方与医疗机构的责任认定争议。伦理冲突的解决方向未来伦理框架需构建"技术-社会"双向反馈机制,使算法从静态规则执行者进化为能感知语境价值的伦理协作者。010203思考

在碰撞不可避免时,假设有一个小孩跑到了路上,汽车知道无法及时停下来以避免撞到他,那么唯一的选择是转去撞墙壁或其他车辆。1.如果两种方案各有汽车品牌实现,你会选哪种?2.如果发生了上述事故,责任方是谁?3.自动驾驶场景中,你认为哪些人员可能是责任方?AI造假与信息可信危机通过深度学习算法合成的虚假影像已突破人眼辨识极限,OpenAI检测工具在实验室中对DALL-E3生成内容识别率达98%;韩国深度伪造性犯罪案中,犯罪者利用深度伪造技术制作61名女性的淫秽影像(含未成年人),主犯获刑10年并禁止5年从业,揭示技术对社会伦理底线的冲击;深度伪造的威胁戛纳创意节曝光的巴西DM9公司使用AI伪造CNN报道、TED演讲及用户评价,骗取12项国际大奖,暴露学术与创意领域的认证危机;金融领域则出现阿联酋3500万美元深度伪造语音诈骗案,犯罪者克隆企业高管声音诱导银行转账,成为史上最大AI语音欺诈事件。生成式AI的滥用应对信息可信危机C2PA联盟推动的数字水印技术为AI生成内容添加防篡改元数据

,试图建立可追溯的认证体系

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论