版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第3章
机器学习《人工智能通识》信息技术教研室2025年8月主要内容3.1机器学习的概念3.2
机器学习与人工智能等概念的区别3.3
机器学习的起源和发展现状3.4机器学习的分类3.5机器学习的目标3.6机器学习的典型应用领域3.7机器学习常见算法原理3.8典型机器学习实验案例:海水质量SVM分类013.1机器学习的概念3.1机器学习的概念0201对机器学习的本质特征进行说明。机器学习和人类学习的区别体现:学习方式、学习速度和规模、知识表示和泛化能力、学习的自主性和目的性不同。03
什么是机器学习机器学习的常见术语了解机器学习是如何开发的,你也可以照着开发自己的机器学习程序。04机器学习的开发流程能够帮助你更高效地在机器学习的世界里遨游。01
什么是机器学习机器:计算机,现在是电子计算机,以后还可能是量子计算机、光计算机或神经计算机等。学习:机器学习中所说的“学习”,指的是从数据中学得模型的过程,这个过程通过执行某个学习算法来完成。机器学习:从数据集中学习得到知识和规律(学习模型),然后用于实际的推断和决策。就像人类通过经验学习新技能一样,机器学习使计算机系统能够通过数据和算法“学习”新任务,比如识别图片中的猫或预测股票价格。机器学习是一门交叉学科,融合了数学、统计学、计算机科学、心理学和神经科学等学科知识。02机器学习和人类学习的区别学习方式不同:机器学习主要基于算法和数学模型、通过大量的数据来进行学习;人类学习的学习方式更为多样化,依赖于大脑的复杂认知过程。学习速度和规模不同:机器学习在处理大规模数据时具有速度优势,能够学习的数据规模巨大;人类学习的学习速度相对较慢,能学习的知识规模有限。知识表示和泛化能力不同:机器学习的知识表示是通过模型的参数和结构来体现的,泛化能力取决于模型的设计和训练数据;人类学习的知识表示在大脑中以复杂的神经活动和认知结构来体现,人类具有很强的泛化能力和迁移学习能力。学习的自主性和目的性不同:机器学习的自主性是由程序和算法控制的,机器学习的目的通常是由人类定义的;人类学习具有高度的自主性,人类学习的目的丰富多样。03机器学习的常见术语数据集(DataSet):用于训练、验证和测试机器学习模型,类型可以是表格数据、图像、文本、音频等。样本(Sample)/实例(Instance):数据集的基本单位,是一条单独的数据记录。特征(Feature):特征是样本的一个属性或变量,用于描述样本的某个方面。标签(Label):在监督学习中,标签是与样本的输入特征相对应的输出结果,是模型学习的目标。标签可以是离散的(用于分类任务),也可以是连续(用于回归任务)。训练集(TrainingSet):训练集是数据集的一部分,用于训练机器学习模型。验证集(ValidationSet):验证集用于评估训练模型的性能,以调整模型的超参数。测试集(TestSet):测试集用于在模型训练完成后,对模型的最终性能进行评估。03机器学习的常见术语模型(Model):是一种数学结构或算法,用于从数据中学习模式和规律,并根据学习到的内容进行预测或分类。模型由参数和超参数组成,参数是在训练过程中学习得到的,超参数是在训练之前需要手动设置的。超参数(Hyperparameter):超参数是在模型训练之前需要人工设定的参数,它决定了模型的结构、复杂度和学习过程。学习率(LearningRate):在模型训练过程中,学习率是一个用于控制参数更新步长的超参数。它决定了每次迭代中模型参数朝着损失函数梯度下降方向更新的幅度。损失函数(LossFunction)/目标函数(ObjectiveFunction):损失函数/目标函数用于衡量模型预测结果与真实标签之间的差异程度。模型训练的目标是最小化损失函数的值。03机器学习的常见术语梯度下降(GradientDescent):是一种优化算法,用于在模型训练过程中通过计算损失函数的梯度来更新模型的参数,使得损失函数的值逐渐减小。梯度的方向表示损失函数增长最快的方向,因此沿着梯度的反方向更新参数可以使损失函数下降。过拟合(Overfitting):是指模型在训练数据上表现很好,但在新数据(测试数据)上表现不佳。这是因为模型过度学习了训练数据中的噪声和细节,没能很好捕捉到数据的一般规律。欠拟合(Underfitting):与过拟合相反,欠拟合是指模型没有很好地学习到训练数据中的模式和规律,在训练数据和测试数据上的表现都不好。这通常是因为模型过于简单,无法拟合数据的复杂性。泛化能力(GeneralizationAbility):是指模型对新的、未见过的数据进行正确预测的能力。一个具有良好泛化能力的模型能够在不同的数据集和场景中都能稳定地发挥作用。03机器学习的常见术语分类(Classification):目标是将输入样本划分到预定义的类别标签中。分类任务可以是二分类(只有两个类别)或多分类(有多个类别)。回归(Regression):主要用于预测一个连续的数值型输出。模型试图找到输入特征与连续输出变量之间的关系,从而对新的输入数据预测出相应的数值。聚类(Clustering):是一种无监督学习任务,目的是将数据集中的样本划分成不同的组(簇),使得同一簇内的样本具有较高的相似性,而不同簇之间的样本具有较低的相似性。降维(DimensionalityReduction):是指通过一定的数学变换将高维数据转换为低维数据,同时尽量保留数据中的重要信息。降维可减少数据存储和计算成本,去除数据冗余信息。预测(Prediction):是指机器学习模型根据输入的特征数据,利用学习到的模式和规律,对未知的标签(在监督学习中)或数据结构(在无监督学习中)进行估计或推断的过程。04机器学习的开发流程(七步)问题定义与场景解析:明确业务目标和确定问题类型,搞清楚需要做什么。数据收集:确定数据源和收集数据,为机器学习找到合适的原始数据。数据预处理:关键在于数据清洗和数据标准化/归一化,以便将收集的数据预处理为可以直接使用的规范化的标准数据。特征工程:核心在于特征提取和特征选择,以便从数据中提取有用的特征、选择最重要的特征进行训练。模型训练:重点在于算法选择和参数调优,实现最优的目标。模型评估:选择评估指标和评估模型性能,更好地评价机器学习所学到模型的好坏。模型部署与应用:部署模型、监控与优化迭代更新。问题定义——数据收集——据预处理——特征工程——模型训练——模型评估——模型部署应用023.2机器学习与人工智能等概念的区别3.2机器学习与人工智能等概念的区别0201机器学习是人工智能的核心子集。人工智能为机器学习提供更广阔的应用场景和目标导向。机器学习与数据挖掘的关系机器学习是数据挖掘的重要工具。数据挖掘为机器学习提供数据和应用场景。03
机器学习与人工智能的关系机器学习与深度学习的关系深度学习是机器学习的一个核心分支。深度学习的兴起极大地推动了机器学习的发展。033.3机器学习的起源和发展现状3.3机器学习的起源和发展现状0201介绍机器学习发展的经历的主要六个阶段。机器学习的主要学派主要介绍:符号主义、连接主义、进化主义、贝叶斯和行为主义这五大学派。
机器学习的起源与发展阶段01
机器学习的起源与发展阶段观点1(更宽广的视角出发):机器学习起源于17
世纪,已经存在了好几个世纪。理由:认为17
世纪贝叶斯、拉普拉斯关于最小二乘法的推导和马尔可夫链,这些构成了机器学习广泛使用的工具和基础。观点2(相对合理的视角):机器学习起源于上世纪五十年代中叶,至今存在了近七十年。理由:虽然当时这些技术并未冠以机器学习之名,但至今仍是机器学习的理论基石)。本书将基于第二种观点来介绍机器学习所经历的主要发展阶段。机器学习的起源主要有两种观点:01
机器学习的起源与发展阶段诞生与初步发展阶段(20世纪50年代中叶-60年代中叶):本阶段的主要贡献奠定了机器学习的理论基础。最初的设想:1950年,艾伦・图灵提议建立一个学习机器。模拟人脑神经网络进行学习的早期尝试:1957年,罗森布拉特提出了感知器模型符号主义学习阶段(20世纪60年代中叶-70年代中叶):本阶段的主要贡献是引入知识表示。本阶段有明显的局限性:无法学到更加深入的知识。复兴与发展阶段(20世纪70年代中叶-80年代中叶):本阶段的主要贡献是拓展了学习策略,也拓展了应用领域。机器学习的发展,主要经历了如下六个阶段:01
机器学习的起源与发展阶段成为独立学科阶段(20世纪80年代中叶-90年代中叶):本阶段的主要贡献是形成了学科体系,机器学习综合应用了心理学、生物学、神经生理学、数学、自动化和计算机科学,已成为新的学科。统计学习阶段(20世纪90年代中期-21世纪初):本阶段的主要贡献是统计学习兴起。同期,以神经网络代表的连接主义学习研究则陷入了低谷。原因:连接主义学习产生的是“黑箱”模型,其学习过程涉及大量参数,而参数的设置缺乏理论指导,主要靠人工“调参”。。深度学习崛起阶段(21世纪初至今):本阶段的主要贡献是掀起了深度学习的热潮(连接主义又卷土重来)。深度学习显著降低了机器学习应用者的门槛,广泛拓展了机器学习的应用领域,如计算机视觉、自然语言处理、语音识别等领域。02机器学习的主要学派人工智能学派:其划分更侧重研究范式和哲学思想的对立,属于上层建筑,其不仅涵盖机器学习学派,同时包含非机器学习的研究路径(如纯逻辑推理的专家系统);机器学习学派:更聚焦于算法的学习机制和数学原理,是人工智能学派在技术层面的细化和在“数据驱动学习”领域的技术落地,是连接主义、行为主义等人工智能学派的核心实现方式。下面从核心思想、代表人物、主要算法、应用领域和局限性方面,介绍机器学习的五大学派:符号主义、连接主义、进化主义、贝叶斯和行为主义学派。机器学习的主要学派和人工智能的主要学派的区别(两者并不完全一样):02机器学习的主要学派:五大学派介绍符号主义学派:
核心思想:强调利用符号进行逻辑推理和表达知识;
代表人物:赫伯特・西蒙、艾伦・纽厄尔、约翰・麦卡锡、马文・李・闵斯基等。
主要算法:归纳逻辑编程等逆向推理方法;
典型应用:知识图谱、专家系统(医疗、金融风控)等;
局限性:依赖人工定义规则,难以处理海量数据和不确定性问题。
连接主义学派:
核心思想:认为智能是通过大量简单神经元之间的连接和相互作用产生的(模拟大脑)。
代表人物:扬・勒坤、杰弗里・辛顿、约书亚・本吉奥、大卫・鲁梅尔哈特等。
主要算法:反向传播算法、深度学习模型等。
应用领域:图像识别、语音识别、自然语言处理。
局限性:需大量标注数据,模型可解释性差(“黑箱”问题)。02机器学习的主要学派:五大学派介绍进化主义学派:
核心思想:受遗传学和进化生物学启发,通过模拟生物进化过程来进行学习和优化,利用选择、交叉和变异等遗传操作,在计算机上模拟生物进化过程,以寻找问题的最优解;
代表人物:约翰・霍兰德、肯尼斯・德、大卫・戈德伯格等。
主要算法:遗传算法、进化策略、粒子群优化、遗传编程等;
典型应用:机器人控制、优化问题求解等领域;
局限性:计算耗时较长,参数设置对结果影响大。02机器学习的主要学派:五大学派介绍贝叶斯学派:
核心思想:以统计学为基础,认为学习是一种概率推理的过程,利用贝叶斯定理,通过更新先验概率分布来进行学习和推断;
代表人物:托马斯・贝叶斯、朱迪亚・珀尔等。
主要算法:朴素贝叶斯分类器、贝叶斯网络、马尔可夫链蒙特卡洛等;
典型应用:医疗和自然语言处理等领域;
局限性:先验分布选择影响结果,高维数据计算复杂度高。
行为主义学派:
核心思想:通过“刺激-反应”机制与环境交互学习,强调从试错中优化行为策略,智能源于适应性行为而非内在表征。
代表人物:马文・明斯基、理查德・萨顿。。
主要算法:强化学习(RL)算法、PID自适应控制算法等。
应用领域:机器人、游戏、自动驾驶等领域。
局限性:依赖环境反馈,学习效率低,复杂场景中易陷入局部最优。043.4机器学习的分类3.4机器学习的分类0201按学习方法分类03
按学习能力分类按推理方式分类04按综合属性分类05其他分类方法01
按学习能力分类监督学习(SupervisedLearning):是指模型通过带有标记(label)的训练数据来学习输入和输出之间的映射关系。无监督学习(UnsupervisedLearning):是指模型的训练数据没有预先给定的标记,模型需要自己发现数据中的结构和规律。半监督学习(Semi-supervisedLearning):半监督学习结合了监督学习和无监督学习的特点,通常其训练数据少部分有标记、大部分没有标记。强化学习(ReinforcementLearning):用于描述和解决智能体在环境中采取一系列行动,根据环境反馈的奖励信号来学习最优的行为策略,以达成回报最大化或实现特定目标的问题。其中的奖励信号用于评估智能体的行为是好是坏。按学习能力分类,机器学习可分为监督学习、无监督学习、半监督学习和强化学习。02按学习方法分类基于实例的学习(Instance-basedLearning):
含义:是指通过存储训练数据中的实例,并根据新实例与存储实例的相似性来进行预测。
常用算法:k-近邻算法、局部加权回归等。
基于模型的学习(Model-basedLearning):
含义:是指先构建一个数据的模型,然后使用这个模型进行预测。模型可以是概率模型(如贝叶斯模型)、线性模型(如线性回归模型)或非线性模型(如神经网络模型)等。
常用算法:线性回归、逻辑回归、决策树、神经网络等(许多监督学习算法都可以看作是基于模型的学习)。按学习方法分类,机器学习可分为基于实例的学习和基于模型的学习。03按推理方式分类演绎学习(DeductiveLearning):是指从一般性的原理或规则出发,推导出具体情况下的结论。这是一种自上而下的推理方式,前提是已知的规则和原理。
例子:在基于规则的专家系统中,如果已知“所有哺乳动物都有肺”(一般性规则),并且知道“猫是哺乳动物”,就可以演绎出“猫有肺”的结论。归纳学习(InductiveLearning):是指从具体的实例或观察中总结出一般性的规律和规则。这是一种自下而上的推理方式,通过观察大量的个别情况来归纳出普遍适用的结论。
例子:观察多个不同的动物都有毛发,并且这些动物都是哺乳动物,从而归纳出“有毛发的动物是哺乳动物”(这是一个简单示例,实际归纳可能更复杂且可能存在错误)。按推理方式分类,机器学习可分为演绎学习和归纳学习。04按综合属性分类传统机器学习(TraditionalMachineLearning):通常基于手工特征工程和经典机器学习算法。首先需要人工提取和选择数据特征,然后将这些特征输入到算法中进行学习。
例子:在文本分类任务中,人工提取词频、文档长度等特征,然后将这些特征输入到决策树或支持向量机等算法中进行分类。深度学习(DeepLearning):深度学习是一种特殊的机器学习方法,通过构建具有多个层次的神经网络来自动学习数据的特征表示。深度学习通常不需要太多的手工特征工程,网络能够自动从数据中提取有价值的特征。
。
例子:在图像识别中,卷积神经网络(CNN)可以直接处理图像像素数据,通过多个卷积层和池化层自动提取图像的特征,如边缘、纹理、形状等,最后进行分类。按综合属性分类,机器学习可以分为传统机器学习和深度学习。05其他分类方法按应用领域分类:机器学习可细分为自然语言处理(NaturalLanguageProcessing)、计算机视觉(ComputerVision)、数据分析与挖掘(DataAnalysisandMining)等。
例子:谷歌翻译、人脸识别系统、电商平台商品推荐等。按数据类型分类:机器学习可细分为结构化数据学习(StructuredDataLearning)和非结构化数据学习(UnstructuredDataLearning)。
例子:用线性回归分析销售数据表格、使用循环神经网络处理文本序列,使用卷积神经网络处理图像和音频。还可以按应用领域、数据类型对机器学习进行分类。053.5机器学习的目标3.5机器学习的目标:解决如下常见类型任务01
分类任务02
回归任务03
聚类任务04
降维任务05
生成任务06
排序任务07
异常检测任务01
分类任务典型案例1:垃圾邮件检测。垃圾邮件检测将电子邮件分为“垃圾邮件”和“非垃圾邮件”两类。模型会根据邮件的内容特征,如邮件中的词汇、发件人地址、邮件格式等,来判断邮件是否为垃圾邮件。典型案例2:图像分类。在识别手写数字的任务中,将输入的手写数字图像(0-9)分类到对应的数字类别中。模型通过学习数字图像的各种特征,如笔画形状、线条粗细等,来做出分类判断。分类(Classification)任务是机器学习最常见的任务之一,目的是将输入数据划分到预定义的类别标签中,也就是:给定一个输入样本,模型需要判断它属于哪一个类别。用来解决分类任务的常用机器学习算法包括:逻辑回归、决策树、支持向量机、朴素贝叶斯、神经网络(如多层感知机、卷积神经网络用于图像分类等)。02回归任务典型案例1:房价预测。房屋价格是一个连续的数值,模型通过学习已有的房屋数据来建立特征(如面积、房龄、房间数量、周边配套设施等)与价格之间的关系。根据一个具体房屋的具体特征,便能预测房屋的价格。典型案例2:股票价格预测。利用历史股票数据,包括开盘价、收盘价、成交量、公司财务数据等因素,预测未来股票价格的走势,也就是预测未来时刻的股价。这是一个具有挑战性的回归任务,因为股票价格受到众多复杂因素的影响。回归(Regression)任务主要用于预测一个连续的数值型输出。也就是:模型通过学习已有数据尝试找到输入与连续输出变量之间的关系,便能对新的输入数据预测出相应的输出数值。用来解决回归任务的常用机器学习算法包括:
线性回归、多项式回归、岭回归、支持向量回归、神经网络(如多层感知机用于回归)等。03聚类任务典型案例1:客户细分。在市场营销中,根据客户的购买行为、消费金额、消费频率、年龄、地域等多种因素,将客户划分为不同的群体。例如,可以将高消费频繁购买的年轻客户划分为一个群体,将低消费偶尔购买的老年客户划分为另一个群体,以便企业针对不同群体制定个性化的营销策略。典型案例2:基因聚类。在生物信息学中,对基因表达数据进行聚类,将表达模式相似的基因聚为一类,有助于研究基因的功能和相互关系。聚类(Clustering)是一种无监督学习任务(没有预先定义的类别标签),其目的是将数据集中的样本划分成不同的组(簇),使得同一簇内的样本具有较高的相似性,而不同簇之间的样本具有较低的相似性。用来解决聚类任务的常用机器学习算法包括:
K-均值聚类、层次聚类、
基于密度的聚类(如DBSCAN)等。04降维任务典型案例1:图像数据降维处理。在图像数据处理中,一张彩色图像可能包含大量像素点,每个像素点有RGB三个通道,维度很高。利用主成分分析(PCA)可以将这些高维数据投影到低维空间,同时保留图像的主要特征,如物体的轮廓、颜色分布等。这样可以在后续的任务(如图像分类)中减少计算量,并且能够防止过拟合。典型案例2:高维文本数据进行降维处理。在处理高维的文本数据时,t-分布随机邻域嵌入(t-SNE)可以将文本数据从高维空间映射到低维空间(通常是二维或三维),使得相似的文本在低维空间中距离更近,便于可视化文本之间的关系,如在文本主题分析中观察不同主题之间的距离和分布。降维(DimensionalityReduction)任务旨在减少数据维度,同时尽可能保留数据重要信息。高维数据可能包含大量冗余信息,增加了数据处理的复杂性、计算成本和存储需求。通过降维,可以简化数据结构,提高数据处理效率,并有助于可视化数据。用来解决降维任务的常用机器学习算法包括:主成分分析(PCA)、线性判别分析(LDA)、t-分布随机邻域嵌入(t-SNE)、局部线性嵌入(LLE)等。05生成任务典型案例1:文本生成。很多神经网络,例如循环神经网络(RNN)及其变体(如LSTM、GRU)可以用于生成文本,如自动生成新闻报道、诗歌、故事等。模型通过学习文本的语法、词汇、语义等知识,按照一定的概率分布生成新的文本序列。典型案例2:图像生成。利用生成对抗网络(GAN)可以生成逼真的图像,如生成不存在的人脸图像、风景图像等。GAN由生成器和判别器组成,生成器尝试生成尽可能逼真的图像来欺骗判别器,判别器则努力区分生成的图像和真实图像,通过这种对抗训练,生成器能够生成高质量的图像。生成(Generation)任务主要是生成与训练数据具有相似分布的数据。模型通过学习训练数据的分布规律,生成新的数据样本,这些样本可以是图像、文本、音频等各种类型的数据。用来解决生成任务的常用机器学习算法包括:
生成对抗网络(GAN)、变分自编码器(VAE)、循环神经网络(RNN)及其变体等。06排序任务典型案例1:搜索引擎排序。在搜索引擎中,根据网页与用户搜索关键词的相关性、网页的质量、权威性等因素,对搜索结果进行排序。将最符合用户需求的网页排在搜索结果的前面,以提高用户找到有用信息的效率。典型案例2:推荐系统排序。在电商推荐系统中,根据用户的历史购买行为、浏览记录、商品评价等因素,对推荐的商品进行排序。将用户最可能感兴趣的商品排在前面,增加用户购买商品的可能性。排序(Ranking)任务是根据特定的标准对一组对象进行排序。通常用于信息检索、推荐系统等领域,目的是将最相关的对象排在前面,以提供更好的用户体验。用来解决排序任务的常用机器学习算法包括:
基于内容的排序、协同过滤排序、排序学习算法(如LambdaMART)等。063.6机器学习的典型应用领域3.6机器学习的典型应用领域01
计算机视觉02
自然语言处理03
金融04
医疗05
推荐系统06
交通07
工业制造图像识别、目标检测和图像分割等。机器翻译、情感分析、问答系统和文本生成等。风险评估、金融欺诈检测、投资预测和资产定价等。疾病诊断、药物研发、医疗影像分析等。交通流量预测、路径规划和导航、智能交通管理等。交通流量预测、路径规划和导航、智能交通管理等。电商推荐、内容推荐、社交推荐等。073.7机器学习常见算法原理3.7机器学习常见算法原理0201主要介绍:线性回归、逻辑回归、决策树、随机森林、支持向量机和人工神经网络。常见的无监督学习算法原理主要介绍:K-均值聚类、层次聚类和主成分分析。03
常见的监督学习算法原理常见的强化学习算法原理主要介绍:Q-学习和深度Q-网络。01
常见的监督学习算法原理线性回归(LinearRegression)原理:假设输入特征和输出变量之间存在线性关系,通过最小二乘法来拟合一条直线(在多元线性回归中是一个超平面),使得预测值与真实值之间的误差平方和最小。
例子:在预测房价时,假设房价与房屋面积、房龄等因素呈线性关系。通过训练数据来确定线性关系中权重和偏置等参数的值,从而对新的房屋数据进行房价预测。逻辑回归(LogisticRegression)原理:逻辑回归本质上是为二分类问题设计的概率模型,其原理是:将线性回归的结果通过一个Sigmoid函数进行转换,得到一个介于0和1之间的概率值,表示样本属于某一类别的概率。
例子:在判断一封邮件是否为垃圾邮件时,通过邮件的特征(如发件人、关键词等)计算出一个概率,大于0.5则判定为垃圾邮件,小于0.5则判定为非垃圾邮件。01
常见的监督学习算法原理决策树(DecisionTree)原理:通过利用节点分裂准则(如信息增益、基尼指数等)和剪枝策略,对数据集的特征进行逐步划分,构建一个用于分类或回归预测的树状结构的模型。每个内部节点表示一个特征的测试,每个分支代表测试的结果,每个叶子节点代表一个类别(在分类树中)或一个数值(在回归树中)。
例子:在预测客户是否会购买某产品时,可能先根据客户的年龄进行划分,如果年龄大于某个值,则再根据收入进行划分,以此类推,最终得到购买或不购买的结论。随机森林(RandomForest)原理:随机森林是一种集成学习算法,由多个决策树组成。其原理是:通过对训练数据集进行有放回的抽样(Bagging)来构建多个决策树,然后综合这些决策树的预测结果进行最终决策(如分类任务中通过投票,回归任务中通过平均)。这样可以降低模型的方差,提高模型的泛化能力和稳定性。01
常见的监督学习算法原理支持向量机(SupportVectorMachine,SVM)原理:支持向量机是一种针对二分类任务设计的广义线性分类器,SVM的目标是找到一个超平面,将不同类别的数据点尽可能地分开,并且使两类数据点到超平面的最小距离(间隔)最大。对于线性不可分的数据,可以通过核函数将数据映射到高维空间,使其在高维空间中线性可分。
例子:在手写数字识别中,将手写数字的图像数据通过核函数映射到高维空间,然后找到一个超平面来区分不同的数字。人工神经网络(ArtificialNeuralNetwork)原理:基于模仿生物神经系统的结构和信息处理机制,其由大量的神经元(节点)相互连接而成,包括输入层、隐藏层(可以有多个)和输出层。每个神经元接收来自其他神经元的输入,经过加权求和和激活函数处理后,输出给下一层神经元。通过反向传播算法来调整神经元之间的连接权重,以最小化预测误差。
例子:在图像识别中,卷积神经网络(CNN)通过卷积层提取图像的局部特征,经过池化层降低数据维度,最后通过全连接层进行分类。
02常见的无监督学习算法原理K-均值聚类(K-meansClustering)原理:通过最小化数据点与聚类中心距离平方和,将数据集划分为K个簇。首先随机初始化K(K为用户指定参数)个聚类中心,然后将每个数据点分配到距离其最近的聚类中心所属的簇中,接着更新聚类中心为每个簇中数据点的均值。重复此过程,直到聚类中心不再发生明显变化。
例子:在客户细分中,根据客户的消费行为(如消费金额、消费频率等)将客户划分为不同的群体,以便企业进行针对性的营销。层次聚类(HierarchicalClustering)原理:通过递归合并或分裂数据点,构建树状结构的聚类结果,主要有两种方式:凝聚式(从每个数据点作为一个单独的簇开始,逐步合并相似的簇)和分裂式(从所有数据点在一个簇开始,逐步分裂成
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年春高一生物学浙科版(2019)第2周周末小测卷
- 医院医保工作协调沟通制度
- 公关服务公司科研档案管理制度
- 工业软件公司知识产权分析管理制度
- 2026电子书面试题及答案
- 公路工程识图与制图 课件 1隧道概述
- 跨国公司营销秘密武器
- 2026中国与全球食物政策报告-构建韧性农食系统
- 生育登记办理服务规范手册
- 公共事业管理档案资料管理工作手册(标准版)
- 期末综合模拟卷(试卷)2025-2026学年五年级数学下册人教版(含答案)
- 2026年湖北省科技信息专业技术职务水平能力测试仿真试题及答案
- 广东省深圳市南山区南二外2026年初三二模数学试卷附答案
- 湖北省武汉市2026届高三年级五月供题地理+答案
- 2026天津交通数字科技有限公司社会招聘18人笔试历年参考题库附带答案详解
- 2026年广东省汕头市龙湖区中考一模考试地理试题(含答案)
- 抗凝剂皮下注射技术临床实践指南
- 施工工地围蔽施工方案(3篇)
- 2026年南开大学项目管理概论习题题库试题参考答案详解
- 隧道二衬安全培训
- 产品设计制图与图纸标准化手册
评论
0/150
提交评论