人工智能通识教程课件第10讲第6章常用小模型【6.1-6.3】

上传人：y*** IP属地：山东上传时间：2026-01-11 格式：PPTX 页数：31 大小：2.27MB 积分：15 举报 版权申诉

已阅读5页，还剩26页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

第6章

常用小模型第10讲人工智能通识教程【教材第6章6.1-6.3节】人工智能通识教程

本章导读：小模型是相对大模型而言的，对应于嵌入式人工智能，或边缘智能。它面向工业智能化第一线，将与物联网、云计算等技术相融合，实现工业智能化、自动化，是减轻人类劳动的主力军。人工智能通识教程（1）了解小模型的定义与特点、发展历程、分类；（2）理解小模型与大模型的区别；（3）掌握小模型的构建方法；（4）了解模型压缩技术；（5）理解小模型的训练与部署；（6）了解面向小模型的芯片类型；（7）掌握小模型的应用场景。本章学习目标人工智能通识教程本章思维导图第4页共31页6.1小模型概述6.2小模型的架构6.3模型压缩技术6.4小模型训练与部署（第11讲）人工智能通识教程目录6.5面向小模型的芯片（第11讲）6.6小模型的应用（第11讲）人工智能通识教程6.1小模型概述当前大模型已进入规模化与多模态深度融合的新阶段。尤其是语言大模型，以GPT-4、Claude3、Llama3为代表，参数量普遍突破万亿级，支持长文本理解、逻辑推理与复杂代码生成，同时通过MoE（混合专家）架构提升推理效率。视频大模型快速崛起，如Sora、Pika等已能生成高保真、长时序动态视频，但训练算力需求极高，尚未完全开放应用。多模态大模型成为主流方向，GPT-4o、Gemini1.5Pro、Claude3.5Sonnet等模型深度融合文本、图像、音频、视频，支持跨模态实时交互与创作，参数规模迈向百万亿级。技术趋势上，模型逐步从“暴力堆参数”转向优化架构与数据质量，同时注重降低能耗、提升安全性与可解释性。挑战仍集中于算力成本、伦理风险与落地场景的精准适配。第6页共31页人工智能通识教程6.1.1小模型的定义与特点小模型通常被称为“smallmodels”或“tinymodels”。在人工智能领域，它们也常被称为“compactmodels”或“lightweightmodels”，特别是在指那些为移动设备或边缘计算环境设计的模型。小模型通常使用的神经网络架构包括浅层神经网络、轻量级卷积神经网络（如MobileNet）或小型循环神经网络（如LSTM或GRU）等。小模型可能只有几个层次和相对较少的参数，以保持模型的轻量级特性。小模型的定义并不是绝对的，它是一个相对的概念。随着技术的发展和应用场景的变化，小模型的标准和特点也会有所调整。在不同的领域和任务中，小模型的具体要求和实现方式也会有所不同1．小模型的定义第7页共31页人工智能通识教程（1）模型规模小，小模型的参数数量相对较少，模型文件的大小也较小，通常在几MB到几十MB之间。（2）计算负担轻，由于模型规模小，小模型在进行推理和训练时所需的计算资源也相对较少。（3）响应速度快，小模型的计算速度快，能够实现快速的推理和响应。（4）适应性强，小模型具有较好的适应性，可以在多种不同的硬件平台和操作系统上运行。从整体来说，当前主流小模型的核心技术思路与“大”模型一致，具体到各个小模型的模型设计、训练方法、数据工程领域，则衍生出不同的技术派别。2．小模型的特点第8页共31页人工智能通识教程6.1.2小模型发展历程1．萌芽阶段在人工智能发展的初期，大模型因其强大的处理能力和广泛的应用前景而备受瞩目。然而，大模型在训练成本、部署要求以及资源消耗方面的局限性。在此背景下，小模型的概念开始萌芽，并逐渐成为研究的热点。2．技术积累阶段大约从21世纪初开始，小模型的概念逐渐清晰。这一时期的技术积累为小模型的快速发展奠定了基础。深度学习等技术的进步，使得研究人员能够开发出更加高效、紧凑的模型结构，从而满足资源受限环境下的应用需求。3．快速发展阶段21世纪10年代左右，小模型迎来了快速发展阶段。这一时期，研究人员在轻量化模型设计、模型压缩方法等方面取得了显著进展。例如，网络剪枝、量化、知识蒸馏等技术被广泛应用于小模型的优化中，使得小模型在保持较高性能的同时，能够显著降低计算需求和资源消耗。第9页共31页人工智能通识教程4．初级应用阶段近年来，小模型开始在多个领域展现出巨大的应用潜力。在智能手机、可穿戴设备、智能家居等移动终端上，小模型能够实现快速响应和本地处理，减少对云端计算资源的依赖，降低延迟和能耗。此外，在医疗、金融、教育等高度信任的领域，小模型也因其高可解释性而备受青睐。5．未来展望随着技术的不断进步和市场的持续拓展，小模型有望在更多领域发挥重要作用。未来，小模型将更加注重逻辑学习和知识计算推理能力的提升，以满足高信息密度领域的应用需求。第10页共31页人工智能通识教程6.1.2小模型发展历程4．初级应用阶段第11页共31页人工智能通识教程6.1.3小模型分类传统机器学习模型：如线性回归、逻辑回归、决策树、支持向量机（SVM）等，这些模型结构简单，参数数量少，属于小模型的范畴。轻量级深度学习模型：包括经过优化和精简的深度学习架构，如MobileNet、ShuffleNet等轻量级CNN架构，以及小型的循环神经网络（RNN）变体等。简化版的Transformer模型：对标准的Transformer架构进行简化和压缩，减少层数、隐藏单元数量等，以降低模型规模和资源消耗。例如，一些小型的Transformer模型可用于自然语言处理中的文本分类、情感分析等任务。1．按模型架构第12页共31页人工智能通识教程移动设备与智能终端，在智能手机、平板计算机、智能手表等移动设备上运行的小模型，用于实现语音助手、图像识别、实时翻译等功能。物联网（IoT）设备，在各种物联网传感器、智能家电、工业设备等嵌入式系统中应用的小模型，用于数据监测、故障诊断、智能控制等。特定行业领域，针对医疗、金融、教育等特定行业的特定任务设计的小模型。在医疗领域，有用于医学影像分析、疾病预测的小模型；在金融领域，有用于风险评估、欺诈检测的小模型；在教育领域，有用于智能辅导、学习效果评估的小模型等。边缘计算环境，在边缘服务器或边缘节点上部署的小模型，用于处理靠近数据源的实时数据，减少数据传输到云端的延迟和带宽消耗。例如，在工业生产现场的边缘计算设备上运行的小模型，可以实时监测生产数据，及时发现异常情况并进行预警。2．按应用场景第13页共31页人工智能通识教程6.1.4小模型和大模型的区别1．模型规模和参数数量大模型通常具有庞大的模型规模和海量的参数数量，如GPT-3拥有1750亿个参数，BERT-base拥有1.1亿个参数等。而小模型的参数数量相对较少，通常在百万级别以下，模型规模也相对较小。2．计算资源需求小模型则对计算资源的需求相对较低，可以在普通的CPU或专用AI芯片上运行，适合部署在资源受限的设备上。3．训练数据量和训练难度小模型训练成本优势显著，数据需求少，聚焦特定领域小型数据集即可；算力要求低，普通工作站或云端轻量实例足以支撑，训练快则数小时、数天，能快速迭代优化，企业与研究者可低成本试错，加速技术创新落地。第14页共31页人工智能通识教程4．泛化能力于精度小模型针对特定任务精心优化，在细分领域精度出色，如工业产品表面缺陷检测小模型，经大量同类缺陷样本训练，对微小裂纹、划痕识别准确率超95%；但跨领域迁移时，因知识局限，泛化能力弱，像用于文本情感分析的小模型，难以直接用于图像分类，需重新适配训练，知识迁移难度大。5．性能和适用场景适用于需要深度学习和复杂计算的场景，如自然语言处理中的机器翻译、文本生成等任务。适合用于实时性要求高、计算资源有限的场景，如移动应用、物联网设备等。6．部署和应用灵活性小模型则具有更好的部署和应用灵活性，可以轻松地集成到各种设备和应用中，实现快速部署和广泛应用。第15页共31页人工智能通识教程第16页共31页人工智能通识教程6.1.5小模型与边缘计算的结合1．优势互补小模型具有轻量级、高效、低功耗的特点，能够适应边缘设备的资源限制，而边缘计算则提供了数据的本地处理能力和实时性支持。两者的结合，使得人工智能应用可以在边缘设备上快速、高效地运行，无须依赖于云端的计算资源，降低了对网络连接的依赖，提高了系统的可靠性和稳定性。2．应用场景拓展通过小模型与边缘计算的结合，人工智能技术可以应用于更多的场景，如智能家居、工业自动化、医疗健康、智能交通等。在智能家居中，小模型可以在边缘设备上实现语音识别、图像识别等功能，提供智能控制和个性化服务；在工业自动化中，小模型可以在边缘设备上进行实时数据分析和故障诊断，提高生产效率和产品质量；在医疗健康领域，小模型可以在可穿戴设备上实现健康监测和疾病预警，为用户提供及时的健康管理服务。第17页共31页人工智能通识教程3．数据隐私保护边缘计算将数据处理和分析任务放在本地设备上进行，减少了数据在云端的存储和传输，降低了数据泄露和隐私侵犯的风险。小模型在边缘设备上运行时，可以对敏感数据进行本地处理，保护用户的隐私安全。4．降低带宽消耗传统的云计算模式需要将大量的数据传输到云端进行处理，这不仅增加了网络带宽的消耗，还可能导致数据传输延迟。小模型与边缘计算的结合，使得数据可以在本地设备上进行实时处理，减少了数据传输量，降低了带宽消耗，提高了系统的响应速度。5．提高容错能力在边缘计算环境中，小模型可以在多个边缘设备上进行部署和运行，即使某个设备出现故障或网络连接中断，其他设备上的小模型仍然可以继续工作，保证了系统的连续性和稳定性。小模型与边缘计算的结合，为人工智能技术的发展和应用带来了新的机遇和挑战。它不仅能够提高人工智能应用的实时性和效率，还能够拓展人工智能的应用场景和领域，为实现更加智能、高效、安全的人工智能应用提供了有力支持。第18页共31页人工智能通识教程6.1.6小模型与端侧模型端侧模型也称为边缘模型或设备模型（edgemodel或on-devicemodel），主要是指面向嵌入式设备与资源受限终端的轻量化AI模型。其核心目标是通过本地化部署实现高效推理，兼顾性能与隐私保护。端侧模型通常基于小模型架构，但端侧模型更强调硬件适配性与场景化工程优化，需结合边缘计算、模型压缩、芯片架构等综合技术。第19页共31页人工智能通识教程端侧模型的主要优势体现在以下几个方面：（1）轻量化设计架构：端侧模型通常采用轻量级的神经网络架构，通常利用模型压缩、量化等技术手段，使端侧模型在不过多损失性能的前提下，大大减少模型的存储空间和计算量。（2）实时性与低延迟设计：端侧模型在架构设计上注重实时性和低延迟，以满足实时交互场景的需求。（3）离线高可用性：即使在没有网络连接的情况下，端侧模型仍然可以以本地模式正常工作，满足用户在各种场景下的需求。（4）隐私保护更强：数据无须上传至云端，减少了数据泄露的风险，更好地保护用户的隐私。（5）高效的推理性能：端侧模型的架构设计充分考虑了与端侧设备硬件的适配性。不同的端侧设备具有不同的芯片架构和计算能力，端侧模型需要针对这些硬件特性进行优化。（6）成本低：端侧模型的计算均在用户本地的设备上进行，无须使用手机等厂商的云推理服务，也就不涉及到付费，从而减少用户使用成本，也节约了大模型厂商的成本压力。第20页共31页人工智能通识教程6.2小模型的架构6.2.1主流小模型的架构演化基础架构：早期的小模型多是基于传统的神经网络架构，如循环神经网络（RNN）及其变体长短期记忆网络（LSTM）和门控循环单元（GRU），这些架构在处理序列数据时具有一定的优势，但存在训练困难、难以并行化等问题。Transformer架构的引入与优化：Transformer架构的出现，小模型也逐渐向其靠拢。例如，Llama1基于原始Transformer架构，引入了预归一化、RMSNorm、SwiGLU激活函数和旋转式位置编码等改进，提升了模型的训练稳定性和性能。1．从基础架构到优化改进第21页共31页人工智能通识教程单一功能的小模型：早期的小模型通常专注于某一特定功能，如文本分类、情感分析、机器翻译等，模型架构相对简单，主要通过调整网络层数、神经元数量等参数来优化性能。多功能融合的小模型：小模型开始向多功能融合方向发展。例如，微软的Phi系列模型，从最初的代码生成领域的Phi-1，到后续版本逐渐拓展到更广泛的通用智能领域，通过不断优化模型架构和训练方法，实现了多种功能的融合。2．从单一功能到多功能融合第22页共31页人工智能通识教程独立架构的小模型：早期的小模型多是独立运行，各自针对不同的任务进行训练和优化，模型之间没有太多的交互和协同。协同架构的小模型：如今，大模型与多个小模型的协同架构成为主流趋势。在这种架构中，大模型作为核心，负责处理通用任务，小模型则针对特定领域或任务进行优化，二者优势互补。3．从独立架构到协同架构静态架构的小模型：传统的模型架构在训练完成后通常是固定的，模型的参数和结构不再改变，对于新的数据和任务适应性较差。动态架构的小模型：现在的模型架构更加灵活和动态，能够根据不同的输入和任务需求进行自适应调整。4．从静态架构到动态架构第23页共31页人工智能通识教程6.2.2MobileNetMobileNet是谷歌公司自2017年推出轻量级神经网络架构。可以在移动终端实现众多的应用，包括目标检测、目标分类、人脸属性识别和人脸识别等。MobileNet采用了深度可分离卷积作为其核心构建块，这是一种高效的卷积操作。MobileNet采用了深度可分离卷积作为其核心构建块，深度卷积对每个输入通道分别进行卷积操作，而逐点卷积则用于混合不同通道的信息，MobileNetV3为例，Large版本有15个bottleneck层、一个标准卷积层和三个逐点卷积层；Small版本有12个bottleneck层、一个标准卷积层和两个逐点卷积层。第24页共31页人工智能通识教程6.2.3MobileBERTMobileBERT是轻量又高效的编码器架构。它是基于BERT模型，经过了优化，MobileBERT的目标是在移动设备上提供与BERT相似的NLP能力，而不会过度消耗设备资源。采用了倒瓶颈结构，输入首先通过一个较小的维度进行压缩，然后在中间层进行扩展，最后再压缩回较小的维度。这种设计可以在保持模型性能的同时，显著减少参数数量。此外，MobileBERT还引入了知识蒸馏技术，通过从一个大型的教师模型中学习知识，进一步优化模型性能，使其在较小的模型大小下也能达到较高的准确率。第25页共31页6.2.4babyllamaBabyLLamA由Meta公司开发，BabyLLamA是一种基于Transformer的轻量级解码器架构，旨在为这些任务提供高效、准确的解决方案。它基于LLaMA模型进行优化，使其能够在资源受限的设备上快速运行，同时保持较高的生成质量。BabyLLamA采用了倒瓶颈结构，通过在输入和输出之间进行维度压缩和扩展，有效减少了参数数量。此外，BabyLLamA还引入了一些创新的优化技术，如自适应计算和稀疏激活等，进一步提高了模型的效率。人工智能通识教程6.3模型压缩技术6.3.1模型量化模型量化是指将神经网络中的浮点运算转换为低比特定点计算的技术。例如，32位浮点数（FLOAT32）类型，通过模型量化，可以将模型权重转变为8位整数（INT8）类型。权重量化：权重量化是指将神经网络中的权重参数（模型的参数）从32位浮点数表示转换为更低位数的整数表示。例如，可以将权重从32位浮点数量化为8位整数。这种权重量化可以通过训练时的量化策略或者事后的离线量化方法来实现。激活量化：激活量化是指将神经网络的激活值（神经元输出）从32位浮点数表示转换为较低位数的整数表示。这种量化可以应用于推理阶段，减少了模型计算时的内存和计算开销。量化对模型性能和大小的影响主要体现在准确度和效率的权衡上。积极影响，减小模型大小、加速推理过程、降低计算和存储成本；消极影响，精度损失、硬件支持与优化问题、量化策略选择困难、量化模型的可解释性和验证难度增加、量化模型的迁移学习和微调受限。第26页共31页人工智能通识教程6.3.2模型剪枝模型剪枝（modelpruning）是指在神经网络中去除不重要的神经元或权重，以减少模型的复杂度和参数数量的过程。是一种特定的神经网络优化技术，它通过将模型中的一些权重设置为零或删除一些神经元、卷积核等结构单元来实现模型的压缩技术，减少深度学习模型中的参数数量。1．模型剪枝的原理第27页共3

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

人工智能通识教程课件第10讲第6章常用小模型【6.1-6.3】

文档简介

温馨提示

最新文档

评论

人工智能通识教程 课件 第10讲 第6章 常用小模型【6.1-6.3】

文档简介

温馨提示

最新文档

评论

相关文档

人工智能通识教程课件第10讲第6章常用小模型【6.1-6.3】