机器学习原理及应用习题答案

上传人：灯*** IP属地：河北上传时间：2024-01-21 格式：PDF 页数：14 大小：2.65MB 积分：12 举报 版权申诉

已阅读5页，还剩9页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

第一章的题目

填空题

1、常见的机器学习算法有、、（随意列举三

个）

答：逻辑回归、最大熠模型、k-近邻模型、决策树、朴素贝叶斯分类器、支持向

量机、高斯混合模型、隐马尔可夫模型、降维、聚类、深度学习

2、sklearn.model_selection中的train_test_split函数的常见用法为

,,,=train_test_split（data,target）（填写测•试集和训I练集

名称，配套填写，例如x_train,x_test）

答：x_trainx_testy_trainy_test

3、根据机器学习模型是否可用于生成新数据，可以将机器学习模型分为

和O

答：生成模型判别模型

4、训练一个机器学习模型往往需要对大量的参数进行反复调试或者搜索，这一

过程称为o其中在训练之前调整设置的参数，称为。

答：调参超参数

5、根据样本集合中是否包含标签以及半包含标签的多少，可以将机器学习分为

、和。

答：监督学习半监督学习无监督学习

判断题

1、根据模型预测输出的连续性，可以将机器学习算法适配的问题划分为分类问

题和线性问题。（F）（回归问题）

2、决策树属于典型的生成模型。（F）（判别模型）

3、降维、聚类是无监督学习算法（T）

4、当我们说模型训练结果过拟合的时候，意思是模型的泛化能力很强（F）（很

差）

5、训练误差和泛化误差之间的差异越小，说明模型的泛化性能越好。（T）

选择题

1、以下属于典型的生成模型的是（D）

A、逻辑回归B、支持向量机C、k-近邻算法D、朴素贝叶斯分类器

2、以下属于解决模型欠拟合的方法的是（C）

A、增加训练数据量B、对模型进行裁剪C、增加训练过程的迭代次数D、

正则化

3、构建一个完整的机器学习算法需要三个方面的要素，分别是数据、模型、（A）。

A、性能度量准则B、评估C、验证D、训练和验证

4、以下属于典型的判别模型的是（B）

A、高斯混合模型B、逻辑回归C、隐马尔可夫模型D、生成对抗网络

5、train_test_split函数的test_size参数规定了测试集占完整数据集的比例，默认

取（B）

A、0.5B、0.25C、0.2D、0.75

第二章

一、填空题

1.线性回归的目标是求解3和b,使得f（x）与y尽可能接近。求解线性回归模型的基本方法是

最小二乘法。

2.优化目标是让整个样本集合上的预测值与真实值之间的欧氏距离之和最小。

3.多元线性回归问题中：＜0=（XTX）-1XTX当XTX可逆时,线性回归模型存在唯一解。

4.PR曲线以精确率为纵坐标，以召回率为横坐标。

5.在ROC曲线与AUC曲线中，对于某个二分类分类器来说，输出结果标签（0还是1）往往取

决于置信度以及预定的置信度阈值。

二、判断题

1.逻辑回归是一种广义线性回归，通过回归对数几率的方式将线性回归应用于分类任务。

（✓）

2.信息论中.燃可以度量随机变量的不确定性。现实世界中.不加约束的事物都会朝着“端增”

的方向发展，也就是向不确定性增加的方向发展。（V）

3.机器学习中描述一个概率分布时，在满足所有约束条件的情况下，嫌最小的模型是最好的。

（“）（端最大的模型是最好的）

4.准确率可以判断总的正确率，在样本不平衡的情况下,也能作为很好的指标来衡量结果。

（X）（虽然准确率可以判断总的正确率,但是在样本不平衡的情况下，并不能作为很好的指标

来衡量结果。)

5.当TPR=FPR为一条斜对角线时，表示预测为正样本的结果一-半是对的，一半是错的，为

随机分类器的预测效果。(V)

三、简答题

1.简述按卡姆剃刀原则在线性回归模型简化过程中的应用

答：奥卡姆剃刀原则指出，当模型存在多个解时，选择最简单的那个。因此可以在原始线性

回归模型的基础上增加正则化项目以降低模型的复杂度，使得模型变得简单。

2.请简述最大端模型的思路

答:从样本集合使用特征函数f(x,y)抽取特征，然后希望特征函数f(x,y)关于经验联合分布p(x,y)

的期望，等于特征函数f(x,y)关于模型p(y\x)和经验边缘分布p(x)的期望。从样本集合使用特

征函数f(x,y)抽取特征，然后希望特征函数f(x,y)关于经验联合分布p(x,y)的期望，等于特征

函数f(x,y)关于模型p(y\x)和经验边缘分布p(x)的期望。

3.请简述准确率、精确率和召回率的定义

答：准确率是最为常见的指标，即预测正确的结果占总样本的百分比

精确率又叫查准率，精确率表示在所有被预测为正的样本中实际为正的概率

召回率又叫查全率，召回率表示在实际为正的样本中被预测为正样本的概率

4.请解释混淆矩阵包含的四部分信息：真阴率、假阳率、假阴率、真阳率的概念

答：(1)真阴率(TrueNegative,TN)表明实际是负样本预测成负样本的样本数。

⑵假阳率(FalsePositive,FP)表明实际是负样本预测成正样本的样本数。

⑶假阴率(FalseNegative,FN)表明实际是正样本预测成负样本的样本数。

⑷真阳率(TruePositive,TP)表明实际是正样本预测成正样本的样本数。

5.请说明一般情况下PR曲线中置信度阈值、召回率和精确率的变化关系

答：不同的置信度阈值对应着不同的精确率和召回率。一般来说，置信度阈值较低时，大量

样本被预测为正例，所以召回率较高，而精确率较低;置信度阈值较高时,大量样本被预测为负

例，所以召回率较低，而精确率较高。

第二早

一、填空题

1.算法的时间复杂度是计算到训练集中所有样本距离的时间加上排序的时间。

2.对k-近邻算法的研究包含三个方面：k值的选取、距离的度量和如何快速地进行k个近邻

的检索。

3.K值很大时，可以通过交叉验证，在验证集上多次尝试不同的K值来挑选最佳K值

4.对于连续变量，一般使用欧氏距离直接进行距离度量。

5.当训练集合的规模很大时，如何快速找到样本x的k个近邻成为计算机实现近年算法的关

键。

二、判断题

1.投票法的准则是少数服从多数（“）

2.对于离散变量,可以直接使用欧氏距离进行度量。（”）（对于离散变量，可以先将离散变量

连续化，然后再使用欧氏距离进行度量。）

3.最近邻算法中，样本工的预测结果只由训练集中与其距离最近的那个样本决定。（“）

4.对于一般的离散变量同样可以采用类似词嵌人的方法进行距离度量。（,）

5.词嵌入是自然语言处理领域常用的一种对单词进行编码的方式。（“）

三、简答题

1.请简述k-近邻算法的思想

答：给定一个训练样本集合D以及一个需要进行预测的样本X：对于分类问题，k-近邻算法从

所有训练样本集合中找到与x最近的k个样本，然后通过投票法选择这k个样本中出现次数

最多的类别作为x的预测结果;对于回归问题,k近邻算法同样找到与x最近的k个样本，然后

对这k个样本的标签求平均值，得到x的预测结果。

2.请简述投票法的特点.

答：K值的选取使用的是投票法，投票法的准则是少数服从多数，所以当k值很小时，得到

的结果就容易产生偏差。如果k值选取较大，则可能会将大量其他类别的样本包含进来，极

端情况下，将整个训练集的所有样本都包含进来，这样同样可能会造成预测错误。

3.投票法中K值很大时会怎么样，怎样获得最佳K值？

答：如果k值选取较大，则可能会将大量其他类别的样本包含进来.极端情况下，将整个训

练集的所有样本都包含进来，这样同样可能会造成预测错误。一般情况下，可通过交叉验证、

在验证集上多次尝试不同的k值来挑选最佳的k值。

4.请简述kd树在快速检索中的应用

答：kd树是-种典型的存储k维空间数据的数据结构（此处的k指x的维度大小，与k近邻算

法中的k没有任何关系）。建立好kd树后，给定新样本后就可以在树上进行检索，这样就能

够大大降低检索k个近邻的时间，特别是当训练集的样本数远大于样本的维度时。

5.快速检索的一个朴素的思想是：

⑴计算样本工与训练集中所有样本的距离。

（2）将这些点依据距离从小到大进行排序选择前k个。

第四章

一、填空题

1.决策树是一种常用的机器学习算法，既可用于分类,也可用于回归。

2.决策树拥有很强的数据议合能力，往往会产生过接食现象，因此需要对决策树进行剪枝。

3.信息增益是最早用于决策树模型的特征选择指标,也是ID3算法的核心。

4.信息增益比定义为信息增益与数据集在属性Ai上的分布的牖之比

5.使用预剪枝的策略容易造成决策树的欠抵食二

二、判断题

1.如果对决策树进行剪枝可以减小决策树的复杂度，提高决策树的专一性能力。（*）（提高

泛化能力）

2.经验损失可以使用每个子树上的样本分布的端之和来描述（*）（用叶节点的熠之和描述）

3.结构损失可以用叶节点的个数来描述。（V）

4.决策树本身是一种贪心的策略，不一定能够得到全局的最优解。（V）

5.由于train_test_split函数在划分数据集时存在一定的随机性，所以重复运行上述代码可

能会得到不同的准确率。（V）

三、简答题

1.决策树的思想是什么？

答：决策树的思想非常简单:给定个样本集合，其中每个样本由若干属性表示，决策网通过

贪心的策略不断挑选最优的属性。对于离散属性以不同的属性值作为节点:对于连性，以属

性值的特定分割点作为节点。将每个样本划分到不同的子树.再在各棵子树上业递归对子树

上的样本进行划分，直到满足一定的终止条件为止。

2.一般情况下，非叶节点会包含五个数据，分别是什么？

答：每个非叶节点包含五个数据，分别是:决策条件、燧、样本数、每个类别中样本的个数、

类别名称。

3.请简述预剪枝过程的思路。

答：对决策树进行预剪枝时一般通过验证集进行辅助。每次选择信息增益最大的属性进行划

分时，应首先在验证集上对模型进行测试。如果划分之后能够提高验证集的准确率，则进行

划分;否则，将当前节点作为叶节点,并以当前节点包含的样本中出现次数最多的样本作为当

前节点的预测值。

4.后剪枝过程中的代价函数是什么？

答：代价函数定义为经验损失和结构损失两个部分:经验损失是对模型性能的度量，结构损失

是对模型复杂度的度量。

5.什么时候停止剪枝？

答：显然,剪枝后叶节点的数目M会减少，决策树的复杂度会降低。而决策树的经验误差则

可能会提高，此时决策树的结构损失占主导地位。代价函数的值首先会降低，到达某一个平

衡点后，代价函数越过这个点，模型的经验风险会占据主导地位，代价函数的值会升高,此时停

止剪枝。

第五章

一、填空题

1.朴素贝叶斯分类器是一种有监督的统计学过滤器,在垃圾邮件过滤、信息检索等领域十分

常用。

2.极大似然估计的思想是：找到这样一个参数p,它使所有随机变量的联合概率最大。

3.极大似然估计通过求解参数。使得九（E户2，../；。）最大,这是一种很朴素的思想。

4.朴素贝叶斯分类器假设样本特征之间相互独立。

5.当样本集合不够大时，可能无法覆盖特征的所有可能取值，为了避免这样的问题，实际

应用中常采用平滑处理。

二、判断题

1.朴素贝叶斯思想的本质是极大似然估计。（，）

2.用极大似然法估计值时，概率分布模型只能是连续的。（*）（也可以是离散的）

3.已知整体的概率分布模型/（x；e）,但是模型的参数。未知时，可以用极大似然估计来估

计e的值。s

4.在运用极大似然法求解概率时，令似然函数对参数。的导数为0,可以得到。的最

优解。（“）

5.概率论贝叶斯公式描述中，P（匕）称为先验概率，P（X|X）称为后验概率。（V）

三、简答题

1.在概率论中，贝叶斯公式可描述成什么？

答：

在概率论中，贝叶斯公式的描述如下

p（x,y,）p（y,）p（x|y,）

（

p（匕Ix）=p（xL------------------5

，P（Yj）P（X|Yy）

其中匕，丫2,…,YK为一个完备事件组,P（Y,）称为先验概率，P（EIX）称为后验概率。

2.典型的平滑处理是拉普拉斯平滑，公式是什么？

答:

刈+1

m+K

Si{]；=x，，力=3+1

|Y—c*)%-N.+A；

其中,A,表示X’的所有可能取值的个数。

3.假设在一次随机实验中，我们独立同分布地抽到了m个样本组成的样本集合，用联合概

率分布怎么表示当前样本出现的可能性。

答：=f(xl,x2,...xm-,0)=Y[f(xi,O)

i=\

4.用拉格朗日乘子法求解P(y=q)?

答:

I使用拉格朗日乘子法求解。首先构造拉格朗日乘数为

Lag(O)=ZNJn久+入(X%—1)(5-21)

*■1

令拉格朗日函数对内的偏导为0,有

="+4=0=>Nt=-处(5-22)

于是

叁N*=一入⑤％)=-入(5-23)

k=\*-i

解得

)的极大似然估计求解过

这样便得到了P(Y=C/的极大似然估计。对P(X'=工Y=Q

5.简述极大似然估计的思想?

答：找到这样一个参数P，它使所有随机变量的联合概率最大。

第八早

一、填空题

1.典型的支持向量机是一种二分类算法,其基本思想是：对于空间中的样本点集合，可用一

个超平面将样本点分成两部分，一部分属于正类，一部分属于负类。

2.在保证超平面能够正确将样本进行分类的同时,使得距离超平面最近的点到超平面的距离

尽可能的大。

3.在感知机模型中，优化的目标是：在满足模型能够正确分类的约束条件下,使得样本集合

的所有点到分割超平面的距离最小，这样的超平面可能存在无数个。

4.线性可分支持向量机假设样本空间中的样本能够通过一个超平面分隔开来，但有的情况下,

即使样本集合线性可分，线性可分支持向量机给出的％和d之间的距离可能非常小。这种

情况一般意味着模型的泛化能力降低，也就是产生了过拟合。

「］_fx,x>0

5.对于变量x,合页损失函数的定义为—l0,x«0。

二、判断题

1.支持向量机的优化目标就是找到一个超平面，使得空间中距离超平面最近的点到超平面的

集合间隔尽可能大，这些点称为支持向量。（V）

2.纠错输出码是一种常用的技术，分为编码和解码两个阶段。（“）

3.多分类学习的基本思路是“拆解法”，最经典的拆分策略有三种：一对一（OvO）,多对一

（MvO）,多对多（MvM）o（M）（一对多（OvM））

4.支持向量机与感知机模型很大的一个区别是，由于优化目标的不同，造成的解的个数不

同。（✓）

5.能够在特征空间使得样本线性可分的核函数有无数个，具体的哪个核函数对哪个样本最

好需要根据世纪情况选择。（“）

三、简答题

1.常用的核函数有哪些？

答：（1）线性核函数，即支持向量机中的形式；

（2）多项式核函数；

（3）高斯核函数，又被称为径向基（RBF）函数。

2.简述拆分策略中一对多的含义。

答：一对多是将每一个类别分别作为正例，其他剩余的类别作为反例来训练K个分类器。

3.简述纠错输出码中的编码过程。

答：编码阶段，对K个类别进行M次划分，每次将一部分划为正类，一部分划为反类。

4.线性可分支持向量机的目标是什么？

答：通过求解①和b找到一个超平面①x+人=0。

5.什么情况下需要使用线性支持向量机来求解？

答：生产环境中，我们获取到的数据往往存在噪声（正类中混入少量的负类样本，负类中混

入少量的正类样本），从而使得数据变得线性不可分。在这种情况下，需要用到该向量机来

进行求解。

第七章

简答题：

1、偏差的概念与方差的表达式。

偏差：偏差bias（x）为期望值与真实值y之间的平方差

方差:2

var(x)=Ed[(f0(x)-ED[fD(x)])]

2,简述Bagging以及随机森林的原理思路

Bagging的思路是从原始的样本集合采样，得到若干个大小相同的样本集合，然后在每个样

本集合上分别训练一个模型，最后用投票法进行预测

随机森林：在Bagging采样得到的样本集合的基础上，随机从中挑选出K个属性再组成新的

数据集，之后再训练决策树，最后训练T棵树进行集成

3、简述Boosting的原理思路，它与AdaBoost的关系

Boosting集成的思路：首先再样本上训练一个简单的弱学习器，这样的模型往往是欠拟合的。

后面每次依据前一个弱学习器，对样本集合中的样本权重或者概率分布做新的调整，着重考

虑被弱学习器错误分类的样本，然后在调整好的样本集合上训练一个新的弱分类器。不断重

复这一过程，直到满足一定的终止条件为止。然后将学习到的各个弱分类器按照性能的高低

赋予不同的权重集成起来得到最终的模型。

AdaBoost是Boosting算法中的代表。

4、列举典型的提升树算法

残差提升树、GBDT、XGBOOST

5、简述stacking的思想

Stacking的思想是：用不同的子模型对输入提取不同的特征，然后拼接成一个特征向量，得

到原始样本在特征空间的表示，然后在特征空间再训练一个学习器进行预测

填空题：

1、典型的集成学习的框架包括三种，分别是：Bagging、Boosting、Stacking

2、方差越小，说明不同的采样分布D下，模型的泛化能力大致相当,侧面反映了模型没有

发生过拟合;偏差越小，说明模型对样本的预测越迤，模型的拟合性越好。

3、AdaBoost在数据挖掘、模式识别等领域有着广泛的运用。

4、基模型为决策树的Boosting算法称为提升树。

5、XGBoost通过正则化项来抑制模型的复杂度,以缓解过拟合。

判断题：

1、低方差的优化结果比高方差的优化结果更集中

2、模型的方差和偏差之和越大，模型性能的误差越小，泛化能力越强(X)

3、随机森林有易于实现，易于并行等优点(J)

4、提升树有着可解释性强、伸缩不变性(无须对特征进行归一化)、对异常样本不敏感等优

点，被认为是最好的机器算法之一(J)

5、在数理统计中，所谓残差r是指样本(x,y)模型f(x)预测值与样本真实值y之差(义)

第八章

简答题：

1、EM算法是什么？主要用于什么？请列举经典EM算法。

EM算法是一种迭代优化算法。主要用于含有隐变量模型的参数估计。含有隐变量的模

型往往用于对不完全数据进行建模。EM算法是一种参数估计的思想，典型的EM算法

有高斯混合模型、隐马尔可夫模型和K-均值聚类等。

2、隐马尔可夫模型在实际应用中对应着哪三个基本问题？

(1)计算观测序列的输出概率。

(2)估计隐马尔可夫模型的参数

(3)隐变量序列预测。

3、证明Jensen不等式

设X是一个随机变量,f是作用于随机变量卜上的下凸函数，则有E[f(x)传阳x]),式为Jensen

不等式，在f(x)为常数时取等号。设f(x)是一个二维空间中的下凸函数,E冈是xl和X2之

间的任意一点，即E[r]=pxl+(l-p)x2,p£[0,1],容易看出Jensen不等式成立。

4、简述aknb,xl的含义

状态需要首先从初始概率分布n中采样得到，同时保证生成正确的观测值xl

5、简述马尔可夫模型假设

在给定当前状态的条件下，下一个时刻的状态与之前的所有状态条件独立，即

P(yt+i|yt)=P(yt+i|yt,yri,.,y。

填空题：

1、在含有隐变量的模型中，给定观测数据X,设其对应的隐变量为Z,称(x,z)为完全数据

3、隐马尔可夫模型是经典的序列建模算法,在语音识别、词性标注、机器翻译等领域有着

广泛的应用。

4、隐马尔可夫模型的参数就是带有隐变量的极大似然估计问题。

5、可以用Baum-Welch算法解出隐马尔可夫模型中的所有参数。

判断题：

1、含有隐变量的模型往往用于对不完全数据进行建模(J)

2、朴素计算方法当中存在大量的冗余计算，因此可以使用动态规划来进行优化(J)

3、如果高斯混合模型的各个子模型均值之间距离更小，方差更大,则聚类准确率会更高(X)

4、隐马尔可夫模式是经典的序列模型算法(V)

5、隐变量序列预测就是给定隐马尔可夫模型的参数即观测序列，求观测序列最有可能对应

的状态序列(V)

第九章

简答题

1、列举常用的降维方法。

主成分分析、奇异值分解、线性判别分析、T6NE等

2、降维的目的是什么？

降维的目的就是降低数据的维度从而方便后续对数据的储存、可视化、建模等操作

3、矩阵的F-范数的定义

定义矩阵Amxn的F-范数为矩阵中所有元素的平方和的再开方

4、主成分分析的目的是什么？

主成分分析希望能够通过旋转坐标系将数据在新的坐标系下表示，如果新的坐标系下某些轴

包含的信息太少则可以将其省略，从而达到降维的目的。

5、奇异值分解的定义

奇异值分解指对于任意一个矩阵Amxn，我们都可以将其分解为三个矩阵乘积的形式。

填空题：

1、列举常用的降维方法有主成分分析、奇异值分解、线性判别分析、T-SNE等

2、奇异值分解被广泛应用于数据降维、数据压缩等

3、主成分分析的过程当中用到了总体的协方差矩阵2,生产实际中需要我们根据样本集合

对总体的方差进行估计。

4、奇异值分解是一种机器学习中的常用算法,被广泛应用于数据降维、数据压

缩等。

5、降维对数据的处理主要包含特征筛选和特征提取。特征筛选是指过滤掉数据

中无用或冗余的特征，例如相对于年龄，出生年月就是冗余特征。

判断题：

1、降维的目的就是降低数据的维度从而方便后续对数据的储存、可视化、建模等操作。（J）

2、特征提取是指对现有特征进行重新组合产生新的特征，例如相对于年龄，出生

年月就是冗余特征。（x）

3、对于n维特征变量中的每个子变量,主成分分析使用样本集合中对应子变量上

取值的方差来表示该特征的重要程度。方差越大，特征的重要程度越高;方差越小,

特征的重要程度越低。（J）

4、奇异值分解指对于任意一个矩阵Amxn，我们都可以将其分解为4个矩阵乘积的形式。（X）

5、奇异值分解是一种机器学习中的常用算法，被广泛应用于数据降维、数据压

缩等。（V）

一、判断题

1、使用马氏距离作为度量时，两个样本之间的距离越小，相似度越小;距离

越大,相似度越大。（X）

2、聚类的目的是对样本集合进行自动分类，以发掘数据中隐藏的信息、结构,

从而发现可能的商业价值。N）

3、层次聚类只能自底向上进行。（X）

4、层次聚类是一种按不同的尺度逐层进行聚类的一种聚类方法，聚类后的模

型呈树状.结构,每个样本处上于树中叶子节点的部分,非叶子节点表示不同

尺度下的类别。（＜）

5、K-Means算法是典型的EM算法，通过不断迭代更新每个类别的中心，直

到每个类别的中心不再改变或者满足指定的条件为止。（＜）

二、填空题

1、聚类过程中需要计算样本之间的相似程度,即样本之间距离的度量。常

用的距离度量方式有：闵可夫斯基距离、余弦相似度、马氏距离、汉明距离等。

2、闵可夫斯基距离将样本看作高维空间中的点来进行距离的度量。

3、汉明距离规定样本各分量的取值只能为。或者L通过比较两个样本的每

个特征分量是否相同来进行距离度量。

4、聚类的宗旨是:类内距离最小化,类间距离最大化。同一个类别中的样本

应该尽可能靠拢，不同类别的样本应该尽可能分离，以避免误分类的发生。

5、K-Means聚类又称K-均值聚类。对于给定的欧式空间中的样本集

合,kMeans聚类将样本集合划分为不同的子集，每个样本只属于其中的一个子

集。

三、简答题

1、简述聚类的目的，宗旨。

答：聚类的目的是对样本集合进行自动分类，以发掘数据中隐藏的信息、结

构，从而发现可能的商业价值。聚类时，相似的样本被划分到相同的类别，不同

的样本被划分到不同的类别。聚类的宗旨是:类内距离最小化，类间距离最大化。

同一个类别中的样本应该尽可能靠拢，不同类别的样本应该尽可能分离，以避免

误分类的发生。

2、描述聚类的任务。

答：聚类任务的形式化描述为:给定样本集合D={xl,x2..,xm}，通过聚

类算法将样本划分到不同的类别，使得特征相似的样本被划分到同一个簇,不相

似的样本划分到不同的簇,最终形成k个簇C={Cl,C2,..,Ck}o聚类分为硬聚类

和软聚类。对于硬聚类，聚类之后形成的簇互不相交，即对任意的两个簇Ci和

Cj,有CinCj=O.对于软聚类，同一个样本可能同时属于多个类别。

3、层次聚类可自底向上进行也可自顶向下进行，过程是什么。

答：在自顶向下进行时，首先将所有的样本都划分到同一个类别作为树的根

节点，然后再依据一定的距离度量方式将根节点划分成两棵子树，在子树上递归

进行划分直到子树中只剩一个样本为止，此时的子树为叶节点。在自底向上进行

时，首先将每一个样本都划分到一个单独的类，然后依据一定的距离度量方式每

次将距离最近的两个类别进行合并，直到所有的样本都合并为一个类别为止。

4、什么是层次聚类？

答：层次聚类是一种按不同的尺度逐层进行聚类的一种聚类方法,聚类后的

模型呈树状.结构,每个样本处上于树中叶子节点的部分,非叶子节点表示不同尺

度下的类别。特别地，树的根节点表示将所有的样本都划分到同一个类别。

5、简单介绍K-Means聚类。

答、K-Means聚类又称K-均值聚类。对于给定的欧式空间中的样本集

合,K-Means聚类将样本集合划分为不同的子集，每个样本只属于其中的一个子

集。K-Means算法是典型的EM算法，通过不断迭代更新每个类别的中心，直到

每个类别的中心不再改变或者满足指定的条件为止。

K-Means聚类需要指定聚类的类别数目K。首先，任意初始化K个不同的点

人人文库> 全部分类> 教育资料 > 辅导培训

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

机器学习原理及应用习题答案

文档简介

温馨提示

最新文档

评论

机器学习原理及应用习题答案

文档简介

温馨提示

最新文档

评论

相关文档