机器学习方法及应用(第二版)课件全套 袁景凌 第1-10章 机器学习概述-其他机器学习范式_第1页
机器学习方法及应用(第二版)课件全套 袁景凌 第1-10章 机器学习概述-其他机器学习范式_第2页
机器学习方法及应用(第二版)课件全套 袁景凌 第1-10章 机器学习概述-其他机器学习范式_第3页
机器学习方法及应用(第二版)课件全套 袁景凌 第1-10章 机器学习概述-其他机器学习范式_第4页
机器学习方法及应用(第二版)课件全套 袁景凌 第1-10章 机器学习概述-其他机器学习范式_第5页
已阅读5页,还剩358页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第1章机器学习概述I

n

t

r

o

d

u

c

t

i

o

n t

o M

a

c

h

i

n

eL

e

a

r

n

i

n

g01

概念与发展史定义机器学习正是这样一门学科,它致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。[T.Mitchell,Book

97][周志华.机器学习.

2016]Definition:AcomputerprogramissaidtolearnfromexperienceEwithrespecttosomeclassoftasksTandperformancemeasureP,ifitsperformanceattasksinT,asmeasuredbyP,improveswithexperience

E.[T.Mitchell,Book

97]定义:假设用

P

来评估计算机程序在某任务类

T

上的性能,若一个程序通过利用经验E 在

T

中任务上获得了性能改善,则我们就说关于T

P

该程序对

E

进行了学习。[T.Mitchell,Book

97]01

概念与发展史具体学习问题围棋学习问题•

任务T:下围棋•

性能标准P:比赛中击败对手的百分比•

训练经验E:和自己进行对弈手写识别学习问题•

任务T:识别和分类图像中的手写文字•

性能标准P:分类的正确率•

训练经验E:已知分类的手写文字数据库自动驾驶学习问题•

任务T:通过(视觉)传感器在四车道高速公路上驾驶•

性能标准P:平均无差错行驶里程(差错由人类的监督裁定)•

训练经验E:人类驾驶时录制的一系列图像和驾驶指令01

概念与发展史发展简史02

基本要素模型机器学习首先要考虑的问题是学习什么样的模型。在监督学习过程中,模型就是所要学习的条件概率分布或决策函数。

模型的假设空间(hypothesis

space)包含所有可能的条件概率分布或决策函数。

例如,假设决策函数是输入变量的线性函数,那么模型的假设空间就是所有这些线性函数构成的函数集合。假设空间中的模型一般有无穷多个,而我们需要观测模型

f

在数据集

D

上的特性,从中选择一个理想的假设(hypothesis)

:

f

∗∈

F

。02

基本要素学习策略有了模型的假设空间,机器学习接着需要考虑的是按照什么样的准则学习或选择最优的模型。机器学习的目标在于从假设空间中选取最优模型

f

∗。首先,引入损失函数(loss

function)与风险函数(risk

function)的概念。

损失函数用于度量模型一次预测的好坏。

风险函数用于度量平均意义下模型预测的好坏。机器学习首先要考虑的问题是学习什么样的模型。监督学习问题是在假设空间F

中选取模型

f

作为决策函数。

对于给定的输入

x,

f

(x)给出相应的输出。

这个输出的预测值

f

(x)与真实值

y

可能一致,也可能不一致。用一个损失函数或代价函数(cost

function)来度量预测错误的程度。

损失函数是

f(x)和

y

的非负实值函数,

记作

l(y,

f(x))。02

基本要素损失函数02

基本要素风险函数损失函数还有很多种。

通常损失函数值越小,

模型就越好。

由于模型的输入、输出(x,

y)是随机变量,遵循联合分布

p(x,

y),所以损失函数的期望是:这是理论上模型

f(x)关于联合分布

p(x,

y)的平均意义下的损失,称为风险函数(risk

function)或期望损失(expected

loss),

或期望风险。02

基本要素优化算法算法是指学习模型的具体计算方法。机器学习基于训练数据集,根据学习策略,从假设空间中选择最优模型,最后需要考虑用什么样的计算方法求解最优模型。

这时,机器学习问题归结为最优化问题,机器学习的算法成为求解最优化问题的算法。如果最优化问题有显式的解析解,这个最优化问题就比较简单。

但通常解析解不存在,这就需要用数值计算的方法求解。

如何保证找到全局最优解,并使求解的过程非常高效,就成为一个重要问题。

机器学习可以利用已有的最优化算法,有时也需要开发独自的最优化算法。除一些针对特定模型的解析法外,机器学习中常见的优化算法包括梯度下降法(gradientdescent

method)(及相关衍生算法,如随机梯度下降法、小批量梯度下降法等)、反向传播算法、动态规划算法、启发式搜索法(如遗传算法等)、极大似然法、信息增益法、时序差分法、马尔科夫链蒙特卡罗法、交替迭代法(如

EM

算法等),等等。02

基本要素优化算法算法是指学习模型的具体计算方法。02

基本要素评价指标为了衡量一个机器学习模型的好坏, 需要给定一个测试集, 用模型对测试集中的每一个样本进行预测,

并根据预测结果计算评价分数。对于分类问题,

常见的评价标准有准确率、精确率、召回率和综合性指标(如

F

度量)等。02

基本要素评价指标02

基本要素评价指标03

分类机器学习可划分为:机械学习示教学习类比学习归纳学习(从样例中学习)著名的《人工智能手册》

(第二卷)[CohenandFeigenbaum,

1983]03

分类监督学习(supervisedlearning)分类(Classification)身高1.65m,体重100kg的男人肥胖吗?根据肿瘤的体积、患者的年龄来判断良性或恶性?回归(Regression、Prediction)如何预测上海浦东的房价?未来的股票市场走向?分类回归03

分类无监督学习(unsupervised

learning)聚类(Clustering)如何将教室里的学生按爱好、身高划分为5类?降维(

Dimensionality

Reduction

)如何将将原高维空间中的数据点映射到低维度的空间中?聚类降维03

分类强化学习(Reinforcement

Learning)强化学习用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题

。03

分类04

基本结构机器学习系统是指运用机器学习技术的计算系统。

这种系统能够自动地学习和改进,以执行特定任务而无须进行明确的重新编程。

机器学习系统通常包括输入数据的处理、模型的训练和预测及输出结果的解释等环节。

它们可用于各种应用,如图像识别、语音识别、推荐系统等。下面从几个不同角度分析机器学习系统的基本结构,以加深对“机器学习”内涵和外延的理解。04

基本结构从驱动因素角度分析04

基本结构从特征学习角度分析04

基本结构从编程范式角度分析05

典型应用图片分类05

典型应用文本分析05

典型应用语言翻译05

典型应用智能对弈05

典型应用多模态对话系统06

系统安全机器学习技术已在自动驾驶、军工装备、智慧金融、智能医疗等重点领域深入应用。

机器学习系统的安全性问题频发,对社会稳定、国防安全,甚至是国际政治都可能产生极大的影响。2019

12

月,美国加利福尼亚州一辆车在自动驾驶过程中闯红灯发生碰撞事故,造成两名乘客当场死亡。

2020年

4

月,日本东京一辆车在开启自动驾驶辅助系统

Autopilot

模式后撞上路旁的行人,导致一名男性当场死亡。

由于自动驾驶、智慧金融、智能医疗等场景对人工智能的安全、可靠、可控有极高的要求,频发的安全事件引发了人们对人工智能安全的担忧。06

系统安全人工智能安全问题,特别是机器学习系统安全问题,已经成为制约人工智能快速发展和深度应用的重要因素。

因此国内外提出发展和安全并重、加强监管和测评的核心思想,规范和保障人工智能的安全发展。

要想利用好机器学习技术,就要全面清晰地了解机器学习系统安全性的内涵和基本属性,以及安全性问题带来的风险与挑战。人工智能安全风险是指安全威胁利用人工智能资产的脆弱性,引发人工智能安全事件或对相关方造成影响的可能性。

人工智能安全在国际标准中有两层含义:一个对应“safety”,强调功能安全,指免于不能容忍的安全风险,如受控设备和控制系统相关的整体安全;另一个对应“security”,强调信息安全,指除了信息的保密性、完整性和可用性外,也强调其他属性,如真实性、可问责性、不可否认性和可靠性等感谢聆听

!第2章决策

树Decision Tree01

概述决策树模型呈树形结构,在分类问题中,表示基于特征对实例进行分类的过程。1966年Hunt提出了第一个决策树算法CLS,后来针对如何选择合适的特征来构造决策树构造这一问题,出现了一系列决策树算法,如Hunt于1966年提出的ID3算法和1993年提出的C4.5算法,以及Breiman在1984年提出的CART算法。决策树学习的关键在于如何选择最优划分属性。一般而言,随着划分过程不断进行,决策树的分支结点所包含的样本尽可能属于同一类别,即结点的“纯度”越来越高。经典的属性划分方法有信息增益、增益率、基尼指数三种,分别对应ID3算法、C4.5算法和CART算法。单棵决策树容易过拟合,随机森林由多颗决策树模型集成而成,通过平均或投票等方式组合多个决策树的结果,从而获得比单棵决策树更好的学习效果,有效缓解了过拟合。02

决策树的组成及分类决策树的组成根结点内部结点叶子结点分支活动范围?飞行方式?主要任务?空中旋翼飞行人员/物资运输运输直升机……….……….……….02

决策树的组成及分类决策树的分类单变量树多变量树03

决策树CLS算法CLS算法可递归地描述为03

决策树CLS算法实例03

决策树CLS算法实例Fly=(No.ofWings=2)∧(BrokenWings=0)∧(Status=alive)

∧(Area/Weight≥2.5)04

决策树ID3算法基本的决策树学习算法样本集合D在什么时候最“纯”?Ent(D)的值越小

D

的纯度越高。04

决策树ID3算法信息熵信息熵是度量样本集合“纯度”最常用的一种指标。假定当前样本集合

D

中第

k

类样本所占的比例为

pk

,则D

的信息熵定义为熵的最大值和最小值?04

决策树ID3算法ID3算法信息增益(information

gain)信息增益直接以信息熵为基础,计算当前划分对信息熵所造成的变化。信息增益越大,则意味着信息熵下降越快,分支的样本集合纯度越高。第

v

个分支的权重,样本越多越重要划分前的信息熵划分后的信息熵04

决策树ID3算法ID3算法①计算根节点的信息熵②计算经属性A划分后的信息增益③属性选择:信息增益最大的属性作为扩展属性05

决策树C4.5算法和CART算法属性

A的可能取值数目越,则

IV(A)

的值通常就越大。C4.5算法信息增益率(gain

ratio)信息增益:对可取值数目较多的属性有所偏好有明显弱点,例如:考虑将“编号”作为一个属性为减少信息增益的偏好可能带来的不好影响,可以使用“信息增益率”来选择最优的划分特征增益率:05

决策树C4.5算法和CART算法在候选属性集合中,选取使划分后基尼指数最小的属性。CART算法基尼指数(Gini

index)数据集

D

的纯度可用基尼值来度量反映了从

D

中随机抽取两个样例,其类别标记不一致的概率。Gini(D)越小,纯度越高。属性A的基尼指数06

随机森林基本概念20世纪初,美国学者Breiman正式提出了随机森林算法,其本质是通过组合多棵决策树构建的强学习器。随机森林是利用了组合思想的算法,采取组合许多分类器且在不明显扩增运算量的方法增大预测的精度,即通过组合多个弱分类器,最终结果通过投票或取均值,使得整体模型的结果具有较高的精确度和泛化性能。其可以取得不错成绩,主要归功于“随机”和“森林”,一个使它具有抗过拟合能力,一个使它更加精准。06

随机森林随机森林算法步骤:①

随机选择样本②

随机选择特征③

构建决策树④

随机森林投票分类06

随机森林优点随机森林需调节的参数少,一般只需两个参数。随机森林拥有较好的分类预测准确率,

而且可以防止过拟合现象的发生。随机森林可以利用其袋外数据。当利用bootstrap生成新的训练样本数据时,对每一棵决策树,原始训练样本数据集

中几乎有37%的数据不出现在该树的训练数据中,这些数据被称作袋外估计样本。袋外估计样本可用于估算随机森林的泛化误差,也能用于任一特征的重要性的计算。07

案例分析基于西瓜数据集2.0生成决策树ID3算法07

案例分析基于西瓜数据集2.0生成决策树ID3算法07

案例分析基于西瓜数据集2.0生成决策树C4.5算法CART算法07

案例分析坦尼克号乘客生存情况预测选择Kaggle数据挖掘竞赛案例——泰坦尼克号乘客生存情况预测。通过搭建决策树和随机森林模型,预测哪些乘客在泰坦尼克号沉船事故中幸存了下来。整个流程包括:①数据预处理;②模型定义;③模型训练和预测评估。07

案例分析坦尼克号乘客生存情况预测构建3个模型:决策树ID3、决策树CART和随机森林模型。经训练后,决策树ID3、决策树CART和随机森林这三个模型的预测准确率分别为80.89%,82.58%和88.20%,不难返现,随机森林的预测效果最优。07

案例分析随机森林在遥感图像分类中的应用实验采用的数据是福建省云霄县漳江口国家红树林保护区域的30米TM多波段遥感图像。图像共分为7个地物类别,分别为红树林、农田、植被、水体、城镇、滩涂和裸地,用C1~C7记号来对应表示,C0表示未分类。2006年

9月云霄县

TM

图像

RGB(5,4,3)07

案例分析随机森林在遥感图像分类中的应用选取每地物类的50个样本(共50×7个样本)作为的训练样本,各个组合分类器的大小都设定为1,000棵决策树。下图给出了不同算法的结果图对比。(a)

CART决策树(b)

随机森林(c)改进的森林(d)

压缩优化的模型(e)不同地物的颜色方图算法在遥感图像分类结果的混淆矩阵对较感谢聆听

!第3章多层感知器Multilayer Perceptron01

概述感知器是神经网络起源的算法。学习感知器的构造也就是学习通向神经网络和深度学习的一种重要思想。神经网络的发展史萌芽期(始于20世纪40年代)1943年,心理学家麦克洛奇和数学家皮兹首次提出了一个神经网络模型—M-

P模型,该模型给出了人工神经元的数学模型;1949年,

心理学家赫布提出了改变神经元连接强度的Hebb学习规则。01

概述感知器是神经网络起源的算法。学习感知器的构造也就是学习通向神经网络和深度学习的一种重要思想。神经网络的发展史第一次高潮:1958年~1969年1958年,

神经学家罗森布拉特提出了感知器模型;1959年,

威德罗等人提出了自适应线性元件网络,通过训练可用于抵消通信中的回波和噪声;1960年,

他提出了基于最小方差算法的神经元学习规则。01

概述感知器是神经网络起源的算法。学习感知器的构造也就是学习通向神经网络和深度学习的一种重要思想。神经网络的发展史冰河期:1969年~1983年1969年,

明斯基等人对感知器功能得出悲观结论。基本感知机无法处理简单的异或问题计算机没有足够的计算能力1974

年,韦伯斯发明反向传播(BP)算法,

但当时未受到重视。01

概述感知器是神经网络起源的算法。学习感知器的构造也就是学习通向神经网络和深度学习的一种重要思想。神经网络的发展史第二次高潮:1985年~1995年1985年,

辛顿等人提出了一种随机神经网络模型—玻尔兹曼机;随后,鲁梅尔哈特等人提出了反向传播BP算法;1989年,

杨立昆等人将BP算法引入卷积神经网络,在手写体数字识别上取得了成功。01

概述感知器是神经网络起源的算法。学习感知器的构造也就是学习通向神经网络和深度学习的一种重要思想。神经网络的发展史沉寂期:1995年~2006年在20世纪90年代中期,统计学习理论和以支持向量机为代表的机器学习模型开始兴起;相比之下,神经网络的理论基础不清晰、优化困难、可解释性差等缺点凸显,神经网络的研究又一次陷入低潮。01

概述感知器是神经网络起源的算法。学习感知器的构造也就是学习通向神经网络和深度学习的一种重要思想。神经网络的发展史第三次高潮:2006年~今2006年,

辛顿等人发现多层前馈神经网络;2010年前后,

随着计算能力的迅猛提升和大数据的涌现,“深度学习”

迅速崛起。在ImageNet的若干竞赛上以大优势夺冠,

此外,

谷歌、百度等公司纷纷投入巨资进行研发。02

神经元模型人工神经元(Artificial

Neuron),简称神经元(Neuron),是构成神经网络的基本单元,其主要是模拟生物神经元的结构和特性,接受一组输入信号并产出输出。生物神经元神经元组成:细胞体,树突,轴突,轴突末梢。神经元之间通过轴突两两相连,信息的传递发生在突触。轴突记录了神经元间联系的强弱。只有达到一定的兴奋程度,神经元才向外界传输信息。02

神经元模型从生物学结构到数学模型02

神经元模型激活函数阶跃函数Sigmoid函数Tanh函数02

神经元模型激活函数ReLU函数Leaky-ReLU函数03

感知器及其学习规则由美国学者Frank

Roseblatt在1957年提出。感知器的网络结构:感知器是一种简单的线性分类器,

可以用于二分类任务;由两层神经元组成。03

感知器及其学习规则感知器参数学习算法03

感知器及其学习规则感知器参数学习的更新过程03

感知器及其学习规则感知器的学习能力感知机只有输出层神经元进行激活函数处理,即只拥有一层功能神经元,其学习能力非常有限!04

多层感知器要解决非线性可分问题,需考虑使用多层功能神经元。两层感知器04

多层感知器要解决非线性可分问题,需考虑使用多层功能神经元。多层前馈神经网络05

反向传播算法BP算法基本思想以误差为主导的反向传播算法。其本质是通过前向传递输入信号直至输出产生误差,再将误差信息反向传播去更新网络权重矩阵.①前向传播:输入信息由输入层传至隐层,最终在输出层输出。②反向传播(BP):修改各层神经元的权值,使误差信号最小。05

反向传播算法…

11b112b11N1b11w1,111 xN

,Nwx1x23xx

xNf

11u11h1f

12u12h1f

1N1u1N1h1……First

Layerh1

f

1

W

1

x

b1

①正向传播Input

Layer05

反向传播算法…

11b112b1111Nb1,1w111 xN

,Nwx1x23xxNx

12b21N

211b2f

11u11h1f

12u12h1f

1N1u1N1h11,1w22 1 b22N

,Nw……

12b31N

3b311b3f

21u21h2f

22u22h2f

2N

2u2N

2h21,1w3N

3

,N

2w3……f

31u31h3f

32u32h3f

3N

3u3N

3h3……1yˆ2yˆyNyˆh1

f

1

W

1

x

b1

h2

f2

W2h1

b2

h3

f3

W3h2

b3

①正向传播Input

LayerFirst

LayerSecond

LayerThird

LayerOutput

Layer05

反向传播算法…

11b112b1111Nb1,1w111 xN

,Nwx1x23xxNx

12b21N

211b2f

11u11h1f

12u12h1f

1N1u1N1h11,1w22 1 b22N

,Nw……

12b31N

3b311b3f

21u21h2f

22u22h2f

2N

2u2N

2h21,1w3N

3

,N

2w3……f

31u31h3f

32u32h3f

3N

3u3N

3h3……1yˆ2yˆyNyˆh1

f1

W

1 h2

f2

W2h1

b2

h3

f3

W3h2

b3

①正向传播Input

LayerFirst

LayerSecond

LayerThird

LayerOutput

Layeryˆ=h3=f3

W3f2

W2f1

W1x

b1

b2

b3

复合函数

y=f[g(x)],例如y=sin(3x+1)05

反向传播算法1x…

1

1b112b1111Nb1,1w111 xN

,Nwx23xxNx

12b21N

2b21

1b2f

11u11h1f

12u12h1f

1N1u1N1h11,1w2N

2,N1w2……

12b31N

3b31

1b3f

21u21h2f

22u22h2f

2N

2u2N

2h21,1w3N

3

,N

2w3……f

31u31h3f

32u32h3f

3N

3u3N

3h3……1yˆ2yˆyNyˆInput

LayerFirst

LayerSecond

LayerThird

LayerOutput

LayerJLoss

Functionyˆy损失函数②反向传播05

反向传播算法…

11b112b1111Nb1,1w111 xN

,Nwx1x23xxNx

12b21N

2b211b2f

11u11h1f

12u12h1f

1N1u1N1h11,1w2N

2,N1w2……

12b31N

3b311b3f

21u21h2f

22u22h2f

2N

2u2N

2h21,1w3N

3

,N

2w3……3

f1u31h3u32 f

3

2h33fN

3u3N

3h3……1yˆ2yˆyNyˆInput

LayerFirst

LayerSecond

LayerThird

LayerOutput

LayerJLoss

Functionyˆy梯度/误差②反向传播05

反向传播算法…

11b112b1111Nb1,1w111 xN

,Nwx1x23xxNx

12b21N

2b211b2f

11u11h1f

12u12h1f

1N1u1N1h11,1w2N

2,N1w2……

12b31N

3b311b3f

21u21h2f

22u22h2f

2N

2u2N

2h21,1w3N

3

,N

2w3……3

f1u31h3f

32u32h33fN

3u3N

3h3……1yˆ2yˆyNyˆ②反向传播Input

LayerFirst

LayerSecond

LayerThird

LayerOutput

LayerJLoss

Functionyˆy梯度/误差05

反向传播算法…

11b112b1111Nb1,1w111 xN

,Nwx1x23xxNx

12b21N

2b211b2f

11u11h1f

12u12h1f

1N1u1N1h11,1w2N

2,N1w2……

12b31N

3b311b3f

21u21h2f

22u22h2f

2N

2u2N

2h21,1w3N

3

,N

2w3……3

f1u31h3f

32u32h33fN

3u3N

3h3……1yˆ2yˆyNyˆ②反向传播Input

LayerFirst

LayerSecond

LayerThird

LayerOutput

LayerJLoss

Functionyˆy梯度/误差05

反向传播算法…

11b112b1111Nb1,1w111 xN

,Nwx1x23xxNx

12b21N

2b211b2f

11u11h1f

12u12h1f

1N1u1N1h11,1w2N

2,N1w2……

12b31N

3b311b3f

21u21h2f

22u22h2f

2N

2u2N

2h21,1w3N

3

,N

2w3……3

f1u31h3u32 f

3

2h33fN

3u3N

3h3……1yˆ2yˆyNyˆ②反向传播Input

LayerFirst

LayerSecond

LayerThird

LayerOutput

LayerJLoss

Functionyˆy梯度/误差05

反向传播算法②反向传播…

11b112b1111Nb1,1w111 xN

,Nwx1x23xxNx

12b21N

2b211b2f

11u11h1f

12u12h1f

1N1u1N1h11,1w2N

2,N1w2……

12b31N

3b311b3f

21u21h2f

22u22h2f

2N

2u2N

2h21,1w3N

3

,N

2w3……3

f1u31h3u32 f

3

2h33fN

3u3N

3h3……1yˆ2yˆyNyˆInput

LayerFirst

LayerSecond

LayerThird

LayerOutput

LayerJLoss

Functionyˆy梯度/误差05

反向传播算法:损失函数/目标函数参数调整:06

案例分析基于BP网络拟合曲线使用S形非线性函数的反向传播学习方法获得对如下函数的拟合:06

案例分析基于BP网络拟合曲线06

案例分析基于BP网络拟合曲线06

案例分析基于BP网络实现MNIST手写数字分类MNIST数据库是一个经典的手写数字数据库(包含0~9十个数字),包含60,000张训练图像和10,000张测试图像,通常用于训练各种图像处理系统。所有的手写数字图片的分辨率为28*28,以二进制格式存储,MNIST数据集官方地址为:/exdb/mnist。06

案例分析基于BP网络实现MNIST手写数字分类感谢聆听

!第4章维度约

简D

i

m

e

n

s

i

o

n

a

l

i

t

y Re

d

u

c

t

i

o

n00

目录维度约简概述主成分分析独立成分分析局部线性嵌入线性判别分析距离度量学习应用01

维度约简概述定义维数灾难(curse

of

dimensionality)是用来描述当(数学)空间维度增加时,分析和组织高维空间,因体积指数增加而遇到各种问题场景。降维是将训练数据从高维空间转换到低维空间,该过程与信息论中有损压缩概念密切相关,但需明白,不存在完全无损的降维。降维动机:原始空间中的样本具有极大的信息冗余样本的高维数引起分类器设计的“维数灾难”数据可视化、特征提取、分类与聚类等任务需求02

主成分分析目标正交属性空间中的样本点,如何使用一个超平面对所有样本进行恰当的表达?最大可分性:样本点在这个超平面上的投影能尽可能分开。02

主成分分析最大可分性样本点𝑥𝑖在新空间中超平面的投影是𝑊𝑇𝑥𝑖,若所有样本点的投影能尽可能分开,则应该使得投影后样本点的方差最大化。σ𝑊 𝑥𝑖 𝑖 𝑖𝑇 𝑇𝑥 𝑊投影后样本点的方差为于是有max

tr(W

T

XX

TW

)Ws.t,WTW

I等价于min

tr(W

T

XX

TW

)Ws.t,WTW

I02

主成分分析求解max

tr(W

T

XX

TW

)Ws.t,WTW

I使用拉格朗日乘子法可得𝑋𝑋𝑇𝑊

=

𝜆𝑊。只需对协方差矩阵𝑋𝑋𝑇进行特征值分解,并将求得的特征值排序:𝜆1

𝜆2

≥.

.

.

𝜆𝑑

,再取前𝑑’个特征值对应的特征向量构成𝑊

=

(𝑤1,

𝑤2,

.

.

.

,

𝑤𝑑’),即PCA的解。02

主成分分析算法流程03

独立成分分析定义独立成分分析(ICA)是一个线性变换。

这个变换把数据或信号分离成统计独立的非高斯的信号源的线性组合。ICA

又称盲源分离。它假设观察到的随机信号

x

服从模型

x

=

As,其中s

为未知源信号,其分量相互独立,A为一未知混合矩阵。ICA

的目的是通过且仅通过观察

x

来估计混合矩阵

A

及源信号

s。03

独立成分分析实例分析假设有两个数据源(𝑠1𝑡,

𝑠2𝑡)产生声音,上标

t表示随着时间的推移会不断有数据点出现,并且有两个耳机听声音,产生输入数据(𝑥1𝑡,

𝑥2𝑡)。

被听到的来自数据源的声音表示如式

𝑥1

=𝑎𝑠1+𝑏𝑠2,𝑥2=𝑐𝑠1+

𝑑𝑠2。可写成矩阵形式,如

x

=

As,A

称为混合矩阵。只需要计算

𝑠

=

𝐴−1𝑥。解出的𝐴−1的估计值记为

W。

它是一个方阵,因为耳机数与数据源个数相同。独立分量

𝑠1

(横轴)和

𝑠2

(纵轴)的联合分布,二者均呈均匀分布观测到的混合变量𝑥1(横轴)和𝑥2(纵轴)的联合分布03

独立成分分析混合数据和数据源的三个特征混合数据不是独立的,即使他们的数据源独立,如果找到了一些相互独立的因素,那么它们可能是数据源。混合数据应该是符合正态分布的,即使数据源不服从正态分布,如果找到了一些因素不服从正态分布,那么它们可能是数据源。混合数据将比数据源更复杂。04

局部线性嵌入定义局部线性嵌入(Locally

Linear

Embedding,LLE)是一种在降维时关注保持样本局部线性特征的非线性方法。与PCA、LDA(关注样本方差的线性投影)不同,LLE从局部线性拟合发现全局非线性结构。特点:显式利用“局部线性”的假设保持局部邻域几何结构—重构权重权重对样本集的几何变换具有不变性04

局部线性嵌入算法思想保持局部邻域内样本之间的线性性质x

w

x

w x

w

xi ij j ik

k

il l04

局部线性嵌入数学过程选择邻域大小,为每个样本构造近邻集合Q。为每个样本计算基于Q的线性重构系数。进行矩阵化令𝐶𝑗𝑘

=

(𝑥𝑖

−𝑥𝑗)𝑇(𝑥𝑖

−𝑥𝑘),𝑤𝑖𝑗会有闭式解:04

局部线性嵌入数学过程最小化损失函数J(Y):LLE

希望这些权重系数对应的线性关系在降维后的低维一样得到保持。假假设

n

维样本集{𝑥1,

𝑥2,

,

𝑥𝑚}

在低维的d维度对应投影为{𝑦1,

𝑦2,

,

𝑦𝑚},则希望保持线性关系,也就是希望对应的均方差损失函数最小。求低维坐标令𝐽(𝑌)=

𝑡𝑟(𝑌𝑀𝑌𝑇)𝑌𝑌𝑇=

𝐼可通过特征值分解求解,M

最小的

d′个特征值对应的特征向量组成的矩阵即为𝑌𝑇。04

局部线性嵌入算法流程优点:可学习任意维的局部线性的低维流形归结为稀疏矩阵特征值计算,计算复杂度相对较小缺点:所学习的流形只能是不闭合的要求样本在流形上是稠密采样的对样本中的噪声和邻域参数比较敏感05

线性判别分析定义线性判别分析(Linear

Discriminant

Analysis,LDA)是一个以监督学习为目标的降维方法。(PCA是不考虑样本类别输出的无监督降维技术)LDA的思想可概括为“投影后类内方差最小,类间方差最大”。要将数据在低维度上进行投影,投影后希望每一种类别数据的投影点尽可能的接近,而不同类别的数据的类别中心之间的距离尽可能的大。05

线性判别分析监督降维技术将样例投影到一条直线,视为一种监督降维技术。05

线性判别分析实现原理计算整个数据集的中心(不同类中心𝜇1,

𝜇2,

,

𝜇𝑛)以及每个类的协方差。如图所示,计算得出两个类别中心𝜇1,

𝜇2以及整个数据集的中心𝜇,以及每个类的协方差σj(𝑥𝑗−𝜇)(𝑥𝑗−

𝜇)𝑇。05

线性判别分析实现原理找数据集分布(数据之间伸展的程度),也就是求数据集的组内分布与组间分布。组内分布矩阵:协方差矩阵可以表示为数据集的分布,也就是数据之间的延展程度。使用协方差矩阵乘以每个类别的概率,把所有类别的值都加起来,即可得到一个计算数据集组内分布的方法:组间分布矩阵:为了数据分开,还需要类与类之间的距离尽可能大。即组间分布,它很容易计算,仅看均值间的差:05

线性判别分析实现原理计算一个合适映射的方法(找到使得𝑆𝐵/𝑆𝑊尽可能大的降维方式)。𝑇将w 𝑥

替代𝑗 𝑗𝑥

,可得𝑇𝑏𝒘𝑆

𝒘𝒘𝑇𝑆𝑤𝒘𝑇LDA目标:最大化𝒘

𝑆𝑏𝒘𝒘𝑇𝑆𝑤𝒘𝑤 𝑏计算𝑆−1𝑆

的最大的𝑑个特征值及对应的特征向量构成投影矩阵,使用投影矩阵乘以数据集,即得到降维后的数据集。05

线性判别分析算法流程05

线性判别分析优缺点LDA的中心思想是最大化类间间隔和最小化类内距离。LDA算法既可以用来降维,又可以用来分类,但主要还是用于降维。优点:在降维过程中可使用类别的先验知识(PCA不能)在样本分类信息依赖均值而不是方差的时候,比PCA之类的算法较优缺点:不适合对非高斯分布样本进行降维,PCA也有这个问题在样本分类信息依赖方差而不是均值的时候,降维效果不好存在过拟合问题06

距离度量学习定义距离度量学习(DML)是机器学习中的一个研究方向,主要用来学习距离,或进行维数约简。实际上,维数约简的主要目的是期望找到一个合适的低维空间。

每个空间对应着在样本属性上定义的一个距离度量。

寻找合适的空间就是在寻找一个合适的距离度量。06

距离度量学习以马氏距离度量为例如果对任意一个向量𝑥

𝑅𝑑,一个对称矩阵𝑀

𝑅𝑑×𝑑被称为正定半定义矩阵,其被表示为𝑀

≥0。它满足如下条件:𝑥𝑇𝑀𝑥≥

00若d

N,M

𝑆𝑑(R)+,与矩阵

M

相关的马氏距离度量是映射𝑑𝑀:𝑅𝑑

×

𝑅𝑑

𝑅,满足如下条件:马氏距离度量具有许多优势:马氏距离度量中两个实例之间距离的最小化可以写为一个凸优化问题,很容易就能识别出全局最优点。在许多机器学习任务中,使用合适的马氏距离度量通常会带来更好的性能。06

距离度量学习1以马氏距离度量为例矩阵

M

的特征值分解是将

M

分解为三个矩阵的乘积

M

= UΛ𝑈𝑇

,其中

U

是包含

M的所有特征向量的矩阵,L

是包含M

在其对角线上的所有特征值的对角矩阵。设

L =

UΛ2和M

=

𝐿𝐿𝑇

,马氏距离度量可以被视为变换空间中的欧几里得距离度量。07

应用评价排序现实生活中人们经常要对事物进行评价和排序,但事物本身往往是由多元数据构成,且数据之间具有某些内在的联系。使用PCA进行数据处理,可以去除数据之间的相关性,又减少了工作量。李宏明使用一种基于PCA的教学质量评价方法消除了16个教学质量评价指标之间的相关性并简化为5个主成分,然后对这5个主成分的载荷进行分析,进而评价课堂教学质量。07

应用特征提取维度约简在特征提取方面应用广泛。如PCA和LDA等均能提取事物的主要特征元素,同时达到了降维的目的,简化了模型的复杂度。李建林等人提出的一种基于多重组合特征提取算法(PCA-CFEA)的文本分类方法。Shieh

M

Y

,

HsiehC

M等人提出的一种基于LDA混合模型的新的人脸识别方法,都取得了很好的效果。07

应用模式识别PCA

LDA

也经常用于模式识别领域,是模式识别的经典算法。

因为解决高维数据问题是模式识别很重要的部分,在这里可用

PCA

LDA

降维。以人脸识别为例,数据源是多幅不同的人脸图像,可使用

PCA或

LDA

方法提取出人脸的内部结构特征,即所谓“模式”。

当有新的图像需要识别,只需要在主成分空间对该图像进行分析,就可得到新图像与原人脸图像集的相似度差异,从而实现人脸识别。有学者提出了一种基于

PCA、LDA

SVM

算法融合的人脸识别方法。07

应用图像处理由于图像是多维数据,因此降维算法在图像边缘检测、图像融合、图像分类、图像压缩等领域有着非常广泛的应用。以图像压缩为例,假设有20幅图像,使用PCA方法处理该图像集,将得到20个特征向量,提取其中15个主成分(下图k代表保留主成分数量)。使用这15个特征向量进行图像复原变换,就得到一个只有15维的数据。感谢聆听

!第5章支持向量机S

u

p

p

o

r

t Ve

c

t

o

r M

a

c

h

i

n

e01

概述在样本空间中寻找一个超平面,

将不同类别的样本分开0哪一个更好呢?分割原则:间隔最大化!01

概述支持向量机的三种类型线性可分支持向量机硬间隔最大化(hard

margin)硬间隔支持向量机线性支持向量机软间隔最大化(sof

t

margin

)软间隔支持向量机非线性支持向量机核函数(kernel

function)02

线性可分支持向量机与硬间隔基本概念任意超平面可以用线性方程来描述:𝒘𝑇𝒙

+𝑏

=

0𝑛

维空间中,𝒙

到超平面(

𝒘𝑇,𝑏)的距离02

线性可分支持向量机与硬间隔基本概念支持向量:距离超平面最近的几个训练样本点间隔:两个异类支持向量到超平面的距离之和间隔0支持向量

间隔最大02

线性可分支持向量机与硬间隔基本思想寻找参数和 , 使得间隔最大带有约束条件的优化问题拉格朗日乘子法02

线性可分支持向量机与硬间隔对偶问题拉格朗日乘子法

第一步:引入拉格朗日乘子得到拉格朗日函数

第二步:令对 和 的偏导为零可得

第三步:回代可得2mmTi

1i

1

y

b

yx

i

1

m1

wTw

wi

i i i

i i

2ii

1m

1

wT

w

02

线性可分支持向量机与硬间隔对偶问题拉格朗日乘子法最终模型:KKT

条件:必有或重要性质支持向量机解的稀疏性:

训练完成后,

大部分的训练样本都不需保留,

最终模型仅与支持向量有关.02

线性可分支持向量机与硬间隔训练样本是完全线性可分间隔最大化:线性可分支持向量机03

线性支持向量机与软间隔训练样本近似线性可分(不完全),不存在一个超平面将样本完全分开。0□

软间隔最大化:引入软间隔,允许一些样本不满足约束不满足约束的样本03

线性支持向量机与软间隔允许某些样本不满足约束条件松弛变量注:每一个样本都对应一个松弛变量

i,用以表征该样本不满足约束

yi

f

xi

1的程度。03

线性支持向量机与软间隔优化目标软间隔支持向量机04

非线性支持向量机与核函数线性不可分若不存在一个能正确划分两类样本的超平面,怎么办?将样本从原始空间映射到一个更高维的特征空间,

使得样本在这个特征空间内线性可分。核函数方法04

非线性支持向量机与核函数核函数方法使用核函数从原始空间映射到一个高维特征空间,使样本在高维特征空间内线性可分。04

非线性支持向量机与核函数核函数方法常见的核函数04

非线性支持向量机与核函数核支持向量机设样本

x

映射后的向量为,在特征空间中划分超平面所对应的模型可表示为:05

案例分析基于SVM解决异或问题解:定义核函数目标函数05

案例分析基于SVM解决异或问题解:得最优权向量05

案例分析基于SVM解决异或问题解:最优超平面为05

案例分析基于SVM解决异或问题解:05

案例分析基于SVM实现新闻主题分类05

案例分析基于SVM实现新闻主题分类05

案例分析基于SVM的城市快速路交通拥堵识别方法05

案例分析基于SVM的城市快速路交通拥堵识别方法感谢聆听

!第6章无监督学习Unsupervised Learning00

目录1.无监督学习概述2.聚类3.

关联分析4.应用01

无监督学习概述定义无监督学习是机器学习的一个重要分支。它的核心特点是训练数据没有人工标注的标签,系统需要直接从原始数据中学习内在的规律、结构或模式。其目标是发现数据中隐藏的结构。这不仅仅是把数据分组,还包括简化数据、找出关键特征等。01

无监督学习概述任务无监督学习主要围绕以下几大任务展开:聚类:如K-means算法、DBSCAN

算法、EM

算法等,其目标是将数据集中的样本划分为若干个互不相交的子集(称为“簇”),使得同一簇内的样本彼此相似,不同簇的样本差异较大。降维:如主成分分析(PCA)等,其目标是减少数据的特征数量,同时尽可能保留重要信息,常用于数据可视化和预处理。关联分析:如

Apriori

算法,其目标是从数据中发现变量之间的有趣关系,例如“购买尿布的顾客也会购买啤酒”。异常检测:识别与大多数数据显著不同的异常点或离群点。02

聚类定义聚类(cluster)又称为点群分析,是一种典型的无监督学习。

聚类的目标是在一个对象(模式、数据点)的集合中发现其自然分组。聚类似乎是人类的本能,人眼观测二维或三维数据的聚类结构是非常容易的。比较常用的定义是:聚类是把一个数据对象的集合划分成簇(子集),使簇内对象彼此相似、簇间对象不相似的过程。

这个定义是非形式化的。对于计算机而言,聚类可定义为:给定

n个对象的某种表示,根据某种相似度度量,发现

K

个簇,使得簇内对象的相似度高,簇间对象的相似度低。02

聚类分类聚类算法种类繁多,具体的算法选取取决于数据类型、聚类的应用和目的。常用的聚类算法大致可分成如下几类:基于划分基于密度基于模型基于层次基于网络按照某种目标将数据集划分成若干个组,划分的结果是使目标函数值最大化只要在临近区域的密度(对象或数据点的数目)超过某个阈值,就把它加到与之相近的聚类中为每个聚类假定了一个模型,寻找数据对给定模型的最佳拟合对给定数据对象集合进行层次的分解,形成一棵以簇为结点的树先将对象空间划分为有限个单元以构成网格结构,然后利用网格结构完成聚类K-means

算法、K-medoids算法、CLARANS

算法等DBSCAN

算法、OPTICS

算法、DENCLUE算法等EM算法、COBWEB

算法等BIRCH

算法、CURE

算法、ROCK

算法、Chameleon

算法等STING

算法、WaveCluster

算法等02

聚类K-means算法-定义K-means

算法常用的准则函数是平方误差函数,采用欧式距离度量相似性,使用平方误差和(sum

of

squared

errors,SSE)作为度量聚类质量的目标函数。给定一个包含n个数据对象的数据集

D

=

{𝑥1

,

𝑥2

,

,

𝑥𝑛,},定义经由

K-means

算法进行聚类分析后产生的类别集合为

C

=

{𝐶1

,

𝐶2

,…,𝐶𝑘}。

算法目标函数SSE的形式化定义如式K-means

算法的目标是找到能最小化

SSE

的聚类结果。这个最优化问题是一个NP

难题,难以找到一个多项式算法对其进行求解。因此,借由一些启发式的算法将这个问题转化,通过不断迭代更新簇的构成和簇的质心来进行最优化的求解。02

聚类K-means算法-算法流程02

聚类。K-means算法-工作过程图(a)表示初始数据集,假设

k

=

2。图(b)中,随机选择了两个

k

类所对应的簇质心,即图中的黑色质心和蓝色质心分别求样本中所有点到这两个质心的距离,并标记每个样本的类别为和该样本距离最小的质心的类别,如图(c)所示。经过计算样本和黑色质心和蓝色质心的距离,得到所有样本点的第一轮迭代后的类别。

此时对当前标记为黑色和蓝色的点分别求其新的质心,如图(d)所示。

新的黑色质心和蓝色质心的位置已经发生了变动。图(e)和图(f)重复了图(c)和图(d)所示过程,将所有点的类别标记为距离最近的质心的类别并求新的质心。02

聚类K-means算法-手肘法在使用

K-means

算法时,必须事先给定要生成簇的数目k。k值的选取常参考SSE的手肘法。SSE

k

的关系图是一个手肘的形状,而这个肘部对应的

k

值就是数据的真实聚类数。初始化的聚类质心距离要尽可能地远。

首先随机选择一个点作为第一个初始类簇质心,然后选择距离该点最远的那个点作为第二个初始类簇质心,再选择距离前两个点的距离最远的点作为第三个初始类簇的质心,依此类推,直至选出

k

个初始类簇质心。02

聚类K-means算法-总结当结果簇是密集的,而簇之间的区别明显时,它的效果较好。对于处理大数据集,该算法是相对可伸缩的和高效的,因为它的算法复杂度是O(nkt),其中

n是数据个数,k

是簇的个数,t

是迭代的次数,通常,k≪n且

t≪n。算法通常终止于局部最优解。只有当簇均值有定义的情况下才能使用,这可能不适用于某些应用,如涉及有分类属性的数据。必须事先给定要生成的簇的数目

k。对噪声和孤立点数据敏感,少量的该类数据能够对平均值产生极大的影响。不适合发现非凸形状的簇,或者大小差别很大的簇。02

聚类DBSCAN算法-定义DBSCAN(density

basedspatial

clustering

of

application

with

noise,具有噪声的基于密度的空间聚类应用)对于簇中的任意一个点,它周围局部点密度必须超过某阈值。簇中的点在空间上是相互关联的。给定数据集

D

={𝑥1

,

𝑥2

,

,

𝑥𝑛},距离半径ε,点数阈值

MinPts(其中,ε

和MinPts为用户指定参数),有如下定义:02

聚类DBSCAN算法-定义DBSCAN

将“簇”定义为:由密度可达关系导出的最大密度相连样本集合。

形式化地

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论