人工智能通识基础教程 课件 第四章 人工智能算法原理_第1页
人工智能通识基础教程 课件 第四章 人工智能算法原理_第2页
人工智能通识基础教程 课件 第四章 人工智能算法原理_第3页
人工智能通识基础教程 课件 第四章 人工智能算法原理_第4页
人工智能通识基础教程 课件 第四章 人工智能算法原理_第5页
已阅读5页,还剩49页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

机器学习与深度学习模块4计算机与人工智能基础B目录CONTENTS机器学习的概念与分类机器学习数据处理基础经典的机器学习算法深度学习理论与技术项目实战PARTONE机器学习的概念与分类1什么是机器学习核心定义机器学习是人工智能的一个分支,赋予计算机在无明确编程下从数据中学习的能力。核心是自动从数据中发现规律,并利用规律对未知数据进行预测。大数据

大价值智能数据分析AI时代机器学习2机器学习发展历程第一阶段:萌芽期1950s-1970s人工智能萌芽期,正式提出“机器学习”概念。此阶段以符号主义为主,侧重基于逻辑推理的简单任务。第二阶段:成长期1980s-1990s知识工程与统计学习兴起。专家系统广泛应用,决策树、支持向量机(SVM)等经典算法被提出并完善。第三阶段:爆发期2006年-至今深度学习时代。随着算力大幅提升和大数据涌现,深度神经网络取得突破性进展,AlphaGo、GPT等应用问世。核心驱动力:机器学习的每一次飞跃,都是算法创新、数据积累与计算能力提升三者共同作用的结果。3机器学习的范式监督学习范式流程监督学习核心定义从带有标签的训练数据中学习一个模型,用于对新的未知数据进行预测,建立输入到输出的映射关系。处理无标签数据,目标是挖掘数据内部的潜在结构与规律。无监督学习核心特征无监督学习与半监督学习的典型应用场景3机器学习的范式核心定义智能体通过与环境交互,根据环境反馈的奖励信号来学习最优行为策略,以最大化长期累积奖励。关键要素包含智能体(Agent)、环境(Environment)、状态(State)、动作(Action)以及奖励(Reward)机制。典型应用广泛应用于游戏AI(如AlphaGo)、机器人控制、自动驾驶决策以及个性化推荐系统等领域。强化学习交互循环与应用场景核心逻辑:感知状态→执行动作→获取反馈→优化策略强化学习3机器学习的范式学习范式划分方式按数据获取方式划分批量学习(离线):一次性输入全量数据;在线学习(增量):持续接收数据动态更新。按模型复杂度划分传统方法:浅层模型(如SVM)依赖人工特征;深度方法:深层网络自动提取高级特征。按任务目标类型划分分类(预测离散标签)、回归(预测连续数值)、生成(创造新数据样本)。4机器学习的关键术语数据集(Dataset)所有样本的集合,是进行机器学习训练的基础数据来源。样本(Sample/Instance)数据集中的每一个独立数据点,代表一个具体的观测对象。特征(Feature/Attribute)样本的某个具体属性或维度,用于描述样本的特征性质。属性空间(AttributeSpace)由所有特征张成的多维空间,也称为样本空间或输入空间。机器学习关键术语可视化4机器学习的关键术语标签(Label):样本的输出或目标值。分类(Classification):预测离散标签的任务。回归(Regression):预测连续值的任务。聚类(Clustering):将样本划分为不同组的任务。泛化能力(Generalization):模型对未知数据的预测能力。独立同分布假设(i.i.d.):假设训练与测试数据服从相同分布。机器学习关键术语可视化5全流程解析PARTTWO机器学习数据处理基础1数据预处理核心目标将原始数据转换为适合模型训练的形式,确保数据的完整性、一致性和规范性,提升数据质量。主要步骤数据清洗:处理缺失值、异常值与重复数据数据集成:合并多源数据,解决数据冲突数据变换:标准化、归一化、离散化处理数据归约:降低数据维度与规模,提升效率2特征工程缺失值处理策略删除法:直接删除包含缺失值的样本或特征,适用于缺失比例极低的场景。填充法:利用均值、中位数、众数填充,或通过模型预测值进行智能填补。异常值检测与处理检测方法:可视化箱线图、统计量Z-score、四分位数法(IQR)等。处理策略:确认异常原因后,选择删除、修正错误或进行分箱处理。缺失值处理流程与异常值检测方法核心原则:处理方式需结合业务场景,确保数据质量同时保留有效信息。2特征工程MinMax归一化核心逻辑:将数据线性缩放到[0,1]区间,保留原有分布形态。适用场景:数据分布范围已知、对输出范围有严格限制的场景。计算公式:X'=(X-Xmin)/(Xmax-Xmin)Z-score标准化核心逻辑:转换为均值为0,标准差为1的标准正态分布。适用场景:数据分布未知、存在异常值或需消除量纲影响时。计算公式:X'=(X-μ)/σ标准化与归一化2特征工程特征构建与转换特征构建(FeatureConstruction)通过组合现有特征生成新的、更具预测力的特征。例如:组合特征(如BMI指数)、多项式特征,以捕捉数据间的非线性关系。特征转换(FeatureTransformation)将原始特征转换为更适合模型的形式。常用方法包括:独热编码(处理类别特征)、标签编码、分桶(连续特征离散化)等。核心目标:提升数据质量,增强模型对数据规律的捕捉能力,从而提高预测准确性。2特征工程特征选择过滤法(Filter)依据特征统计特性(如方差、相关性)独立筛选,不依赖模型。计算量小,适合预处理阶段快速过滤无关特征。包裹法(Wrapper)将选择过程视为搜索问题,用指定模型的预测性能评估子集优劣。计算量大,但通常能获得更优的特征组合。嵌入法(Embedded)将特征选择融入模型训练过程。如Lasso回归的L1正则化、树模型的特征重要性评分,兼顾效率与性能。核心目标:从高维特征空间中剔除噪声与冗余,降低计算复杂度,提升模型泛化能力与可解释性。2特征工程评估目标与数据集划分核心评估目标估计模型的泛化能力,即模型在未见过的新数据上的预测准确性与稳定性。常用划分策略留出法(Hold-out)直接划分训练集与测试集,操作简单但结果随机性大。K折交叉验证(K-foldCV)均分数据集为K份,轮流训练与测试,结果更具可靠性。分层K折(StratifiedK-fold)保证每折中类别比例与原数据一致,适用于不平衡数据集。三种数据集划分方法的逻辑示意2特征工程分类指标(一)混淆矩阵核心要素(ConfusionMatrix)TP(真正例):预测为正且实际为正FP(假正例):预测为正但实际为负FN(假反例):预测为负但实际为正TN(真反例):预测为负且实际为负关键评估指标公式准确率(Accuracy):(TP+TN)/Total预测正确的样本占总样本的比例,反映整体准确性。精确率(Precision):TP/(TP+FP)预测为正的样本中实际为正的比例,关注预测质量。召回率(Recall):TP/(TP+FN)实际为正的样本中被预测为正的比例,关注识别能力。分类模型混淆矩阵与指标可视化示例2特征工程分类指标(二)F1-Score调和平均数综合评估精确率与召回率:2*(P*R)/(P+R)ROC曲线评估横轴假正例率(FPR),纵轴真正例率(TPR),反映阈值性能AUC曲线下面积取值0-1,数值越大代表模型区分正负样本的能力越强不平衡数据处理避免使用准确率,应重点关注F1-Score或AUC指标分类模型评估指标的可视化与公式表达2特征工程回归指标均方误差(MSE)预测值与真实值差值平方的均值,对异常值敏感。均方根误差(RMSE)MSE的平方根,与原始数据单位一致,数值更易解释,直观反映误差大小。平均绝对误差(MAE)预测值与真实值绝对差值的均值,对异常值不敏感,鲁棒性更强。决定系数(R²)衡量模型对数据的拟合优度,取值(-∞,1],越接近1表示模型解释能力越强。回归指标公式可视化对比核心应用场景:MSE/RMSE常用于需要惩罚大误差的场景;MAE适用于异常值较多的数据集;R²则是评估模型整体解释力的通用指标。2特征工程模型诊断工具学习曲线(LearningCurve)用途:绘制不同训练集大小下的误差曲线,诊断过拟合与欠拟合。●欠拟合:训练/验证误差均高,差距小(模型太简单)。●过拟合:训练误差低,验证误差高,差距大(模型太复杂)。验证曲线(ValidationCurve)用途:绘制不同超参数取值下的误差曲线。目标:辅助选择最优的超参数值,平衡偏差与方差。学习曲线与验证曲线诊断示意图PARTTHREE经典的机器学习算法机器学习的常见算法线性回归(LinearRegression)假设特征与目标值呈线性关系,通过最小化均方误差(MSE)学习参数,用于预测连续值。逻辑回归(LogisticRegression)二分类任务核心算法,利用Sigmoid函数将线性输出映射至[0,1]区间,输出结果代表概率。正则化(Regularization)-防止过拟合L1(Lasso):惩罚参数绝对值,产生稀疏解,适用于特征选择。L2(Ridge):惩罚参数平方和,使参数更小更平滑,提升稳定性。ElasticNet:结合L1与L2的混合正则化。线性回归与逻辑回归模型结构及正则化示意核心思想:通过线性组合拟合数据分布线性模型决策树树结构原理递归划分数据集构建树状结构,内部节点代表特征测试,叶节点代表类别或回归值。核心分裂准则信息增益(ID3/C4.5):最大化信息熵减少量。基尼指数(CART):最小化数据不纯度。剪枝防过拟合通过预剪枝(提前停止生长)或后剪枝(去掉弱分支)降低复杂度,提升泛化能力。集成学习进阶组合多棵树提升性能:随机森林(Bagging)、GBDT/XGBoost(Boosting)。决策树核心概念与衍生算法示意核心优势总结可解释性强:决策过程可视化,易于理解和解释。处理复杂数据:能处理非线性关系及多类别输出。无需预处理:对数据归一化、缺失值不敏感。机器学习的常见算法K近邻核心思想:懒惰学习“物以类聚,人以群分”。样本类别由其周围K个最近邻样本的多数投票决定。关键参数K值:过小易过拟合,过大易欠拟合。距离:常用欧氏距离、曼哈顿距离度量相似度。局限性计算量大(预测时遍历所有样本),受高维数据维度灾难影响,且对异常值敏感。K近邻算法原理示意(K值选择与距离度量)KNN特点:简单直观,无需训练,但计算开销大,适合样本量较小的场景。机器学习的常见算法支持向量机核心思想:最大间隔超平面寻找最优超平面,使不同类别样本位于两侧,并最大化样本到超平面的几何间隔。核技巧:高维空间映射通过核函数将低维不可分数据映射至高维,使其线性可分。常用线性、多项式及高斯核(RBF)。软间隔:容错与泛化允许少量样本越界,引入惩罚参数C平衡间隔大小与分类错误,提升模型鲁棒性。支持向量机核心原理示意(最大间隔、核技巧、软间隔)SVM:小样本、高维度场景的优选算法机器学习的常见算法贝叶斯模型▍贝叶斯定理核心P(A|B)=P(B|A)·P(A)/P(B)即:后验概率=似然度×先验概率/证据。它描述了在给定观测数据后,对先验知识的更新。▍朴素贝叶斯模型基于“特征条件独立”的强假设,极大简化了联合概率的计算复杂度,是高效的生成式分类器。▍常见模型变体高斯朴素贝叶斯:假设特征服从正态分布,适用于连续数据。多项式朴素贝叶斯:常用于文本分类,假设特征服从多项式分布。伯努利朴素贝叶斯:适用于二值(0/1)特征的场景。应用场景:文本分类(垃圾邮件检测)、情感分析、推荐系统及医疗诊断等领域。机器学习的常见算法聚类分析核心目标将相似的样本归为一类(簇),使得簇内样本相似度高,簇间样本相似度低。常见算法解析K-Means算法基于距离的划分式聚类,需预先指定簇的数量K,简单高效。层次聚类构建聚类树(谱系图),无需预设K,可得到不同粒度的聚类结果。DBSCAN算法基于密度的聚类,能发现任意形状的簇,并有效识别出数据中的异常值。不同聚类算法的可视化效果对比无监督学习特性:聚类是典型的无监督学习任务,不需要标签数据。算法通过数据本身的特征分布,自动发现潜在的分组结构,广泛应用于客户分群、图像分割等领域。机器学习的常见算法降维技术核心目标在尽可能保留数据原有信息的前提下,将高维数据映射到低维空间,以减少计算量、消除噪声、便于可视化。主成分分析(PCA)最常用的线性降维方法,通过寻找数据中方差最大的方向(主成分)来构建新的特征空间,实现去冗余。奇异值分解(SVD)一种矩阵分解技术,与PCA密切相关,通过将矩阵分解为U、Σ、V^T,可高效用于数据压缩和特征提取。降维技术(PCA与SVD)原理与效果示意机器学习的常见算法强化学习核心要素模型通过智能体(Agent)与环境(Environment)交互,感知状态(State),执行动作(Action)并获取奖励(Reward)以优化策略。主流算法分类基于值函数:Q-Learning,SARSA,DQN(DeepQ-Network)基于策略梯度:REINFORCE,Actor-Critic框架实际应用挑战平衡探索未知与利用已知的“探索-利用困境”;处理奖励信号稀疏问题;应对高维状态空间的维度灾难。强化学习智能体交互与算法体系示意图核心目标:设计奖励函数,让智能体在交互中学会最大化累积奖励,从而自主进化策略。机器学习的常见算法课程思政全面、辩证地看问题(对应唯物辩证法)全面、辩证地看问题技术体现:没有一个模型是在所有指标上都最优的“完美模型”。精度与召回率的权衡偏差与方差的权衡思政映射:这深刻体现了唯物辩证法中的“对立统一规律”。它告诉我们,看待问题要避免片面化和极端化,要认识到事物内部存在的矛盾双方,并寻求在特定条件下的动态平衡。在工作中,要学会统筹兼顾,综合考虑多方利益和因素,做出最合理的决策。PARTFOUR深度学习理论与技术神经网络基础神经元结构(NeuronStructure)模拟生物神经元,由输入、权重、求和单元和激活函数组成。公式:y=f(Σ(wᵢ*xᵢ)+b),其中f为激活函数。激活函数(ActivationFunctions)引入非线性,使网络能拟合复杂函数。Sigmoid/Tanh:输出映射至有限区间,但易饱和导致梯度消失。ReLU:计算简单,缓解梯度消失,目前最常用。ELU:在ReLU基础上改进,增加负值区间利于学习。人工神经元模型与常见激活函数曲线对比核心要点:激活函数是非线性的关键,ReLU因其计算高效和缓解梯度消失的特性,成为现代深度学习网络的首选。深度学习理论与技术反向传播与优化前向传播(ForwardPropagation)数据从输入层经隐藏层流向输出层,逐层计算激活值,最终生成预测结果。反向传播(Backpropagation)计算预测误差,利用链式法则从输出层向输入层反向推导,计算各参数的梯度,指导权重更新。核心优化器(Optimizers)SGD:基础随机梯度下降,计算单样本梯度更新。Momentum:引入动量惯性,加速收敛并减少震荡。Adam:结合动量与自适应学习率,目前主流高效方案。反向传播流程与优化器参数更新机制对比关键结论反向传播是训练的核心驱动力,而优化器则决定了收敛的速度与质量。Adam优化器因其鲁棒性,成为大多数场景的首选。深度学习理论与技术多层感知机核心结构由输入层、一个或多个隐藏层和输出层组成的神经网络,层与层之间通常采用全连接方式。万能逼近定理一个包含足够多隐藏层神经元的多层感知机,能够以任意精度逼近任何连续函数。主要局限性难以高效处理高维数据(如图像),参数数量易随维度增加而爆炸,容易导致过拟合。多层感知机(MLP)网络结构示意图深度学习理论与技术卷积神经网络核心层结构卷积层:通过卷积核提取局部特征,具有平移不变性。池化层:降维,减少参数数量,增强鲁棒性。全连接层:将提取的特征映射到最终输出。经典架构演进LeNet:最早CNN,用于手写数字识别。AlexNet:2012年ImageNet冠军,开启新时代。VGG:更小卷积核,更深网络结构。ResNet:残差连接解决梯度消失问题。卷积神经网络结构与经典架构示意图深度学习理论与技术循环神经网络序列建模(SequenceModeling)通过循环连接结构处理序列数据(如文本、时间序列),能够有效捕捉上下文信息,实现信息在时间步间的传递。梯度消失与爆炸问题在处理长序列时,梯度在反向传播过程中容易出现指数级衰减或增长,导致模型难以学习长期依赖关系。门控机制优化(LSTM&GRU)LSTM:引入输入门、遗忘门和输出门控制信息流,有效缓解梯度消失。GRU:简化版门控机制,使用更新门和重置门,结构更轻量,训练效率更高。循环神经网络结构与门控机制原理示意深度学习理论与技术Transformer架构(一)自注意力机制(Self-Attention)核心定义:模型关注输入序列不同位置信息,计算位置间相关性。Q,K,V变换:输入经线性变换生成查询、键、值向量。计算流程:Q与K相似度得权重→Softmax归一化→加权求和V。并行计算优势突破RNN串行计算瓶颈,可同时处理序列中所有位置信息,显著提升模型训练效率。Transformer自注意力机制与并行计算流程示意深度学习理论与技术Transformer架构(二)多头注意力(Multi-HeadAttention)使用多个独立的注意力头,捕捉不同类型的依赖关系,丰富特征表示,提升模型的表达能力。位置编码(PositionalEncoding)解决自注意力机制缺乏位置信息的问题,通过将序列的位置信息注入到输入向量中,保留时序特征。编码器-解码器结构编码器:负责处理输入序列,提取特征表示。解码器:负责生成输出序列,关注编码器输出和已生成词。Transformer架构核心组件示意图核心思想:通过多头注意力机制并行计算序列依赖,结合位置编码保留时序信息,实现高效的序列建模。深度学习理论与技术Transformer变体与应用BERT(语言理解)基于Transformer编码器的预训练模型,在自然语言理解(NLU)任务上取得突破性进展。GPT(语言生成)基于Transformer解码器的预训练模型,擅长自然语言生成(NLG),具备强大的续写与创作能力。VisionTransformer(ViT)打破架构限制,将Transformer直接应用于计算机视觉,通过图像块序列处理实现高精度识别。多模态与大语言模型(LLM)融合文本、图像等多模态信息,千亿级参数量模型展现出强大的通用人工智能(AGI)潜力。深度学习理论与技术正则化与泛化策略L1/L2正则化在损失函数中加入参数惩罚项,限制权重大小,防止模型过于复杂。Dropout随机失活训练时随机丢弃部分神经元,降低节点间的依赖,增强模型鲁棒性。早停(EarlyStopping)监控验证集性能,当不再提升时停止训练,避免过拟合。数据增强(DataAugmentation)通过旋转、裁剪等随机变换扩充数据集,提升模型泛化能力。批量归一化(BatchNormalization)对每层输入进行归一化,加速收敛,解决内部协变量偏移问题。深度学习中常用的正则化与泛化策略流程示意核心目标:通过上述策略,平衡模型的拟合能力与泛化能力,使模型在未见数据上表现更优。深度学习理论与技术迁移学习核心思想:举一反三利用源任务(大数据)学到的知识,辅助目标任务(小数据)的学习,解决数据稀缺问题。两大核心策略特征提取:冻结预训练模型权重,仅训练新任务的分类器。微调(Fine-tuning):在预训练模型基础上,用目标数据继续训练,调整部分或全部参数。扩展应用场景广泛应用于领域自适应(DomainAdaptation)与多任务学习(Multi-taskLearning)。迁移学习策略与扩展应用流程对比深度学习理论与技术PARTFIVE项目实战项目实战分类问题:以SVM为例数据集本代码实例所用数据集均为sklearn提供的鸢尾花卉数据集(irisflowerdataset),该数据集包含Iris花的三个品种(Irissetosa,Irisvirginica,Irisversicolor),每个品种50个样本,每个样本包含4个特征属性(sepallength(cm),sepalwidth(cm),petallength(cm),petalwidth(cm))。分类问题:以SVM为例SKLearn实现1.#

导入模块

2.import

numpy

as

np

3.import

matplotlib.pyplot

as

plt

4.from

matplotlib.colors

import

ListedColormap

5.from

sklearn

import

svm,

datasets

6.from

sklearn.preprocessing

import

StandardScaler

导入相关模块导入鸢尾花数据7.#

鸢尾花数据

8.iris

=

datasets.load_iris()

9.x

=

iris.data

10.y

=

iris.target

11.X

=

x[y<2,:2]

#

为便于绘图仅选择2个特征

12.y

=

y[y<2]

#

为提供线性可分数据集,只选取了前两类鸢尾花数据集

项目实战分类问题:以SVM为例SKLearn实现13.#

数据预处理:

数据归一化

14.scaler

=

StandardScaler()

15.scaler.fit(X)

16.X

=

scaler.transform(X)

数据预处理:选择归一化对数据进行无量纲化处理17.#引入模型

线性SVM:

18.model

=

svm.SVC(C=1e9,

kernel='linear')

19.#

模型训练

20.model.fit(X,

y)

模型引入及训练项目实战分类问题:以SVM为例绘制分类区域的网格21.#

测试样本(绘制分类区域):

以样本的特征向量生成多维的网格采样点矩阵

22.axis=[-5,5,-5,5]

23.xlist1

=

np.linspace(axis[0],axis[1],int((axis[1]-axis[0])*100))

24.xlist2

=

np.linspace(axis[2],axis[3],int((axis[3]-axis[2])*100))

25.XGrid1,

XGrid2

=

np.meshgrid(xlist1,

xlist2)

26.w

=

model.coef_[0]

27.b

=

ercept_[0]

28.plot_x

=

np.linspace(axis[0],axis[1],200)

29.up_y

=

-w[0]/w[1]*plot_x

-

b/w[1]

+

1/w[1]

30.down_y

=

-w[0]/w[1]*plot_x

-

b/w[1]

-

1/w[1]

31.up_index

=

(up_y>=axis[2])

&

(up_y<=axis[3])

32.down_index

=

(down_y>=axis[2])

&

(down_y<=axis[3])

计算正例分类线、负例分类线项目实战分类问题:以SVM为例33.#

预测并绘制结果

34.Z

=

model.predict(np.vstack([XGrid1.ravel(),

XGrid2.ravel()]).T)

35.Z

=

Z.reshape(XGrid1.shape)

36.#

设置标题、横坐标、纵坐标

37.plt.figure('SVM

Linear',

facecolor='lightgray')

38.plt.title('SVM

Linear',

fontsize=14)

39.plt.xlabel('x',

fontsize=12)

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论