版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
机器学习算法与实践第9章聚类分析ClusteringAnalysis聚类基础与距离度量K-Means算法层次聚类密度聚类核心概念无监督学习算法数量4种经典聚类方法距离度量4种常用距离公式应用场景4+个领域应用案例聚类分析无监督学习的核心技术之一,通过数据间的相似性将样本划分为若干互不重叠的群体核心概念相似性度量簇内相似簇间差异19.1聚类基础与距离度量聚类目标、欧氏距离、曼哈顿距离、余弦相似度、马氏距离29.2基于划分的聚类方法—K-Means算法目标函数、迭代优化、初始中心选择、收敛性分析39.3层次聚类自底向上聚合、距离更新策略、树状图可视化49.4密度聚类DBSCAN算法59.5概率聚类高斯混合模型69.6聚类分析在材料深度学习中的应用QM9数据集、预处理、聚类方法对比、材料科学洞察本章概览9.1聚类基础与距离度量ClusteringFundamentals聚类分析是无监督学习的核心技术聚类目标将相似样本划分为若干簇,实现簇内相似度高、簇间差异低距离度量量化样本间相似性的关键工具,影响聚类准确性应用场景客户分群、图像分割、异常检测、生物信息学常用距离度量欧氏距离Euclidean曼哈顿距离Manhattan余弦相似度Cosine马氏距离Mahalanobis核心要点不同距离度量适用于不同数据类型距离度量决定聚类方法对特征的敏感性标准化预处理是保证聚类效果的关键聚类核心目标将数据划分为K个簇,实现:同簇内相似度高不同簇间相似度低簇划分约束条件•覆盖性•互斥性•完备性应用场景客户分群电商平台通过用户行为数据聚类,实现精准营销与个性化推荐图像分割将图像像素聚类成区域,辅助目标检测与识别异常检测网络安全、金融风控中识别与主流模式显著不同的样本生物信息学基因表达数据聚类,发现潜在疾病亚型或功能相似基因群9.1.1聚类目标与应用场景
样本集合
簇划分
簇中心定义符号说明第k个簇中心簇内均值|Ck|簇内样本数求和符号所有样本簇内相似度距离越短越好簇间差异性距离越长越好距离度量关键工具9.1.2数学符号与术语定义
定义计算两个样本在空间中的直线距离
几何意义2D空间勾股定理3D空间立方体对角线性质对数值量级敏感大数值特征主导距离计算需归一化处理Z-score或Min-Max标准化不适用尺度差异大的特征各维度量纲不一致时效果差易受维度灾难影响高维空间中距离趋于均化9.1.3欧氏距离
定义又称为城市街区距离,计算沿各维度的绝对距离之和
几何意义在城市网格中,只能沿街道移动,不能斜穿建筑物性质对离群值不敏感鲁棒性强,不受异常值影响适用于高维稀疏数据如文本特征的词频矩阵整数型数据友好可直接用于分类特征编码计算效率高无平方根运算,速度快曼哈顿距离
余弦相似度衡量两个向量方向的相似性,忽略模长余弦距离余弦距离=1-余弦相似度性质与量值无关仅关注向量方向,忽略长度适用于文本数据词向量、文档相似度分析用户偏好匹配推荐系统中的兴趣向量比较取值范围[-1,1]1表示完全相似,-1表示完全相反余弦相似度
定义考虑特征间协方差结构的加权欧氏距离S协方差矩阵S⁻¹逆矩阵核心优势自动矫正维度尺度和相关性问题性质自动矫正尺度不同维度量纲差异处理相关性特征间存在共线性时优于欧氏距离计算成本高需估算协方差矩阵,样本量充足适用场景样本量充足,考虑特征相关性的数据马氏距离
9.2基于划分的聚类方法—K-Means算法Partitioning-basedClusteringMethod核心目标最小化所有样本到其所属簇中心的欧氏距离平方和
实现簇内样本相似度最大、距离最小
符号定义xᵢ第i个样本μₖ第k个簇中心Cₖ第k个簇K簇的数量目标函数
双重求和外层:K个簇内层:簇内样本距离平方欧氏距离的平方值最小化J优化目标降低簇内误差核心思想先求样本到簇中心的距离平方,再求和所有簇的样本距离平方和9.2.1目标函数与推导过程
算法流程1初始化
2分配步骤(Assignment)将每个样本分配到距离最近的簇中心所在的簇中3更新步骤(Update)重新计算每个簇的中心点(簇内所有样本的均值)4重复迭代重复步骤2-3,直到目标函数收敛或达到最大迭代次数核心特点单调递减每次迭代目标函数不增反降保证收敛算法最终会收敛到局部最优解快速收敛通常在较少迭代次数内收敛局部最优依赖初始值选择9.2.2迭代优化步骤分配规则对于每个样本xi,将其分配到距离最近的簇中心μk所属的簇Ck
核心思想
最小化每个样本到其所属簇中心的欧氏距离平方详细说明1距离计算计算样本xi到每个簇中心μ1,μ2,…,μK的距离2寻找最小值找出距离最小的簇中心μk
3样本分配将样本xi分配到该簇Ck
示例若d(xi,μ2)是所有距离中的最小值,则xi∈C2
分配步骤详解
更新规则重新计算每个簇的中心点,即簇内所有样本的均值
符号说明μk第k个簇中心|Ck|簇内样本数x∈Ck簇内所有样本∑求和符号核心特点均值计算簇中心是簇内样本的算术平均值单调递减每次更新后目标函数不增反降迭代更新在分配步骤后立即更新所有簇中心收敛保证重复分配-更新直至收敛更新步骤详解
初始化方法1随机初始化从数据集中随机选择K个样本作为初始簇中心2K-Means++初始化通过概率分布选择初始簇中心,增加簇中心间的距离优势K-Means++初始化能够提高聚类效果,减少局部最优的影响概率分布公式其中D(xj)=mink‖xj−μk‖表示样本到最近簇中心的距离1随机选择第一个簇中心2计算每个样本到最近簇中心的距离3根据概率分布选择下一个簇中心4重复直到选出K个簇中心9.2.3初始簇中心选择目标函数单调性在每次迭代中,分配步骤和更新步骤都会使目标函数J减小或保持不变
关键结论每次迭代后目标函数单调递减目标函数有下界(非负值)算法必然收敛局部最优性K-Means算法最终会收敛到某个局部最小值
收敛速度通常在较少迭代次数内收敛收敛速度取决于初始值和数据分布实践建议使用K-Means++初始化提高收敛质量多次运行选择最优结果结合肘部法则选择合适的K值9.2.4算法的收敛性分析
实现步骤关键参数说明n_clusters簇的数量K,需提前指定init='k-means++'K-Means++初始化,提高收敛质量n_init=10随机初始化次数,选择最优结果评估指标
轮廓系数:衡量聚类质量的[-1,1]指标,越接近1越好K-Means示例代码#导入库from
sklearn.cluster
import
KMeansfrom
sklearn.preprocessing
import
StandardScalerfrom
sklearn.metrics
import
silhouette_scoreimport
numpy
as
np#1.加载数据X=load_your_data()#2.数据标准化scaler=StandardScaler()X_scaled=scaler.fit_transform(X)#3.K-Means++初始化kmeans=KMeans(n_clusters=3,
init='k-means++',
n_init=10,
random_state=42)#4.训练模型kmeans.fit(X_scaled)#5.获取聚类标签labels=kmeans.labels_#6.计算轮廓系数silhouette=silhouette_score(X_scaled,labels)真实标签分布K-Means聚类结果K-Means结果可视化图9.1用K-Means算法基于花瓣长度和宽度对鸢尾花数据集进行聚类的结果9.3层次聚类HierarchicalClustering自底向上自顶向下树状图凝聚嵌套聚类核心思想从每个样本作为单独簇开始,逐步合并最相似的簇,直到所有样本被合并为一个簇不需要预先指定簇的数量生成树状图,展示层次关系适用于探索数据结构算法步骤1初始化将每个样本视为单独的簇,初始状态有N个簇(N为样本总数)2计算簇间距离
3合并最近簇
4重复合并重复步骤2-3,直到所有样本被合并为一个簇或达到指定的簇数量9.3.1自底向上层次聚类(AGNES)距离更新核心概念合并两个簇后,需要重新计算新簇与其他簇之间的距离四种策略单链接(SingleLinkage)全链接(CompleteLinkage)平均链接(AverageLinkage)Ward方法(Ward'sMethod)单链接使用两个簇中最近的两个样本之间的距离全链接使用两个簇中最远的两个样本之间的距离平均链接使用两个簇中所有样本对之间的平均距离Ward方法最小化合并后簇内平方误差和的增量
不同策略会产生不同的聚类结果,选择策略需根据数据特点和业务需求9.3.2距离更新策略
定义使用两个簇中最近的两个样本之间的距离作为簇间距离距离公式关键特点链接倾向倾向于产生长链状的簇结构簇形特征适合发现细长条状或非线性簇计算效率计算复杂度相对较低敏感性对噪声点和离群值较为敏感单链接(SingleLinkage)
定义使用两个簇中最远的两个样本之间的距离作为簇间距离距离公式关键特点紧凑簇倾向倾向于产生紧凑、球形的簇结构簇形特征适合发现直径较小的紧密簇鲁棒性对噪声点和离群值较为不敏感链式效应避免单链接的链式效应问题全链接(CompleteLinkage)
定义使用两个簇中所有样本对之间的平均距离作为簇间距离距离公式关键特点平衡策略介于单链接和全链接之间的折中方案簇形特征适用于中等规模、形状较规则的簇综合考虑考虑簇内所有样本对的距离信息链式平衡避免单链接的链式效应和全链接的过紧凑平均链接(AverageLinkage)
定义基于簇内平方误差最小化的层次聚类合并策略核心思想在每一步合并过程中,使合并后簇内平方误差和(SSE)的增加量最小
优先合并距离接近、结构相似的簇Ward距离公式簇内SSE定义最小化方差增量保证每次合并增加的总方差最小紧凑簇倾向倾向于产生紧凑、球形的簇Ward方法(Ward'sMethod)
树状图(Dendrogram)层次聚类结果通过树形结构直观展示样本之间的层次关系
结构说明横轴:表示样本或簇纵轴:表示簇间距离分支:表示合并操作绘制步骤1构建树状图从叶子节点开始,每次合并两个簇后添加分支2截断树状图根据簇数量或距离阈值水平截断3解释结果分析样本的层次关系和聚类结构关键优势无需预先指定簇数量,直观展示样本间的层次关系9.3.3树状图可视化实现代码关键参数说明linkage(X,method,metric)计算层次聚类链接矩阵method参数距离更新策略:'single','complete','average','ward'metric参数距离度量:'euclidean','manhattan','cosine'dendrogram(Z)绘制树状图可视化结果返回值Z链接矩阵,每行表示一次合并操作(2簇索引、距离、新簇大小)层次聚类示例与代码#导入库from
scipy.cluster.hierarchy
import
linkage,dendrogram,fclusterimport
matplotlib.pyplot
as
pltimport
numpy
as
np#准备数据X=np.array([[1,2],[1,4],[1,0],
[4,2],[4,4],[4,0]])#计算层次聚类Z=linkage(X,method='ward',metric='euclidean')#绘制树状图plt.figure(figsize=(10,5))dendrogram(Z)plt.title('层次聚类树状图')plt.xlabel('样本索引')plt.ylabel('距离')plt.show()数据点6个二维数据点:A(1,2)B(1,4)C(1,0)D(4,2)E(4,4)F(4,0)树状图解读
A、B、C
被合并为一个簇(左侧)
D、E、F
被合并为一个簇(右侧)两个簇之间的距离较大
树状图层次聚类可视化示例图9.2树状图结构示例9.4密度聚类算法Density-BasedClusteringAlgorithmsDBSCAN基于密度的带噪声空间聚类应用核心思想通过样本分布密度识别簇优势发现任意形状簇,识别噪声点ε邻域核心点密度相连核心思想通过样本的分布密度来识别簇簇由高密度区域组成低密度区域被视为噪声关键优势能够自动发现簇的数量对噪声点具有较强鲁棒性可以识别任意形状的簇核心概念密度样本点的密度通过其邻域内的样本数量来衡量核心点邻域内样本数量超过阈值的点边界点邻域内样本数量不足,但位于核心点邻域内的点噪声点既不是核心点,也不是边界点的点(离群点)9.4.1DBSCAN的核心思想关键参数ε邻域半径指定邻域的大小,一个点的ε邻域是其周围距离不超过ε的点的集合MinPts最小邻域点数指定判断高密度所需的最小点数阈值ε邻域定义对于数据集D中的任意一点p,其ε邻域记作:样本空间数据集D包含所有样本点距离度量dist(p,q)表示两点间距离9.4.2邻域密度定义
三类点判定核心点(CorePoint)点的ε邻域中点的数量不低于阈值边界点(BorderPoint)
本身不是核心点,但属于某个核心点的ε邻域噪声点(NoisePoint)既不是核心点,也不属于任何核心点的邻域密度关系直接密度可达
密度可达存在一条核心点链,使q从p密度可达密度相连存在核心点o,使p和q都密度可达于o9.4.3核心点/边界点/噪声点判定
直接密度可达点0直接密度可达边界点1单向关系:核心点→边界点密度可达点0→点8→点2形成链式连接核心点链:单向传递密度相连边界点1和3通过核心点0相连对称关系:间接连接DBSCAN核心概念示意图图9.3DBSCAN核心概念示意(ε=1.5,MinPts=4)1选定样本点选定一个未访问的样本点p2核心点扩展如果p是核心点,则扩展形成新簇3跳过处理如果p是边界点或噪声点,则跳过核心扩展机制递归搜索从核心点p出发,递归搜索其ε邻域内所有点密度可达扩展将密度可达的所有点归入当前簇包含边界点同时包含核心点的边界点重复迭代重复步骤1-2,直到所有样本均被访问9.4.4DBSCAN聚类形成流程数据集特征合成数据集make_moons生成带噪声半月形300个样本算法优势识别任意形状的簇对噪声点具有强鲁棒性无需预先指定簇数量参数设置ε=1.5,MinPts=4聚类结果可视化DBSCAN示例与可视化图9.4DBSCAN聚类结果示例9.5概率聚类模型ProbabilisticClusteringModels高斯混合模型EM算法参数估计模型定义在现实数据中,单一高斯分布往往无法充分描述复杂分布(多峰分布)。高斯混合模型通过多个高斯分布的线性组合,能够灵活捕捉数据的异构性。1假设观测数据由K个高斯分布生成2每个高斯成分对应一个潜在的聚类簇3数据点通过概率选择生成过程
核心优势:能够处理重叠簇和复杂的数据分布结构概率密度函数
参数说明πₖ混合系数先验概率,Σπₖ=1μₖ均值向量中心位置参数Σₖ协方差矩阵形状和方向参数K成分个数预先设定的簇数9.5.1高斯混合模型(GMM)
1选择成分以概率πₖ选择第k个高斯成分混合系数决定选择概率2采样生成从分布N(x|μₖ,Σₖ)采样生成数据点x
高斯分布决定样本特征
生成概率公式数据点x的生成过程:先以概率πₖ选择第k个高斯成分,再从N(x|μₖ,Σₖ)采样生成xπₖ选择成分k生成x概率选择生成成分高斯采样生成数据独立重复生成集合高斯混合模型·数据生成过程模型参数集GMM的参数集包含:πₖ混合系数(先验概率)控制各成分权重μₖ均值向量确定各成分中心Σₖ协方差矩阵决定各成分形状
联合概率密度函数
关键特性乘积形式:遍历所有成分的联合概率指示变量:控制成分的激活状态完整数据:观测数据+隐变量
9.5.2EM算法推导
边缘似然函数观测数据的边缘似然是对所有隐变量求和的结果从联合概率分布中边缘化隐变量,得到观测数据的概率分布
可见的样本特征
未观测的聚类标签边缘化操作求和消去隐变量边缘似然函数公式
公式解析求和符号:遍历所有K个高斯成分混合系数πₖ:第k个成分的权重高斯分布:给定参数下的条件概率
核心思想:通过边缘化隐变量,将观测数据的概率表达为各高斯成分的加权平均EM算法·边缘似然函数
对数似然函数
公式组成部分外层求和:遍历所有N个样本点对数运算:ln函数转化内层求和:遍历所有K个高斯成分混合高斯:各成分概率密度优化难点1
对数内部求和项导致直接优化困难2对参数θ求导产生复杂耦合项3
非凸优化问题,难以全局求解EM算法解决方案引入隐变量z_ik交替优化隐变量和模型参数绕过求和项的耦合困难实现局部最大化目标EM算法·对数似然函数
直接最大化的困难对数内部求和项ln(Σ...)形式难以直接求导优化复杂耦合项对θ求导后产生难以处理的耦合非凸优化问题存在多个局部最优解EM算法解决方案
1E步:隐变量后验估计
2M步:参数最大化
3交替迭代E步和M步交替执行直至收敛EM算法优化难点隐变量后验估计计算每个数据点对簇的隶属度(责任值)
给定的样本点
上一迭代的参数估计
第i个点属于第k个簇的概率隐变量后验分布公式物理意义反映数据点在给定当前参数下属于第k个簇的概率该步骤本质是"软分配",不同于K-Means的硬分配允许数据点以概率形式归属于多个簇能够更好处理重叠簇的情况EM算法·E步
E步:责任值计算
隐变量后验分布,反映数据点对簇的隶属度
物理意义
计算基础
软分配vs硬分配EM算法·软分配数据点以概率形式归属于多个簇每个点对每个簇都有隶属度适用于重叠簇的情况K-Means·硬分配每个点严格属于一个簇隶属度为0或1难以处理边界模糊的区域EM算法·E步责任值计算完全数据对数似然函数lnp(D,Z|θ)双重求和遍历N个样本和K个簇
控制成分的激活可分离项
Q函数定义
期望计算对隐变量z在给定观测数据D和当前参数θ^(t)下的后验分布求期望
Q函数包含所有参数且可分离优化EM算法·Q函数的构造
说明
梯度计算与求解梯度公式求解过程
令梯度等于零求解极值点
加权平均
公式解析分子部分
责任值加权后的数据点总和分母部分
所有数据点对第k个簇的隶属度之和物理意义第k个簇的均值是该簇的加权质心权重越大,数据点对均值的影响越显著EM算法·M步-均值求解过程
公式组成
Mahalanobis距离:二次型项
矩阵微分规则关键微分公式行列式微分:迹微分:
求解策略
利用矩阵微分规则进行化简
加权协方差
公式解析分子部分
责任值加权的散度矩阵总和分母部分
归一化因子,与均值更新公式相同物理意义第k个簇的协方差矩阵反映了该簇数据的离散程度
EM算法·M步-协方差矩阵求解过程
约束条件
优化方法使用拉格朗日乘数法构造拉格朗日函数L
拉格朗日函数构造拉格朗日函数
L其中λ为拉格朗日乘数求导过程
利用约束条件:λ=N
归一化的责任值反映第k个成分的相对重要性公式解析分子部分
所有数据点对第k个簇的隶属度之和分母部分N:总样本数用于归一化,确保混合系数和为1物理意义第k个成分在混合模型中的权重占比权重越大,该成分对整体分布贡献越大EM算法·M步-混合系数求解过程
初始化策略
随机选择K个中心类似K-Means初始化方法
均匀分布初始化
初始化方法
初始化策略建议多次随机初始化,选择对数似然最高的结果结合K-Means初始化均值以提高稳定性协方差矩阵对角化避免奇异矩阵9.5.3参数估计过程·初始化
EM算法迭代步骤E步:隐变量后验估计
责任值(隶属度)M步:参数最大化
利用责任值更新所有参数交替迭代E步和M步交替执行直至满足终止条件终止条件对数似然变化阈值连续两次迭代的对数似然值变化极小最大迭代次数达到预设的最大迭代次数避免无限循环,确保算法终止收敛判断参数变化稳定或对数似然不再显著增加表明已达到局部最优解参数估计过程·迭代优化
输出参数模型参数集合
第k个高斯成分的中心位置
第k个成分的权重占比
第k个成分的形状方向聚类标签分配硬分配策略将软聚类结果转换为硬标签聚类决策规则选择最大责任值对应的簇标签每个数据点被分配到最可能的簇保留概率信息用于不确定性分析参数估计过程·输出结果
收敛特性单调性每次迭代保证对数似然值不下降证明需利用Jensen不等式局部最优收敛依赖于初始值可能陷入局部最优而非全局最优收敛行为•早期迭代快速上升•后期逐渐平缓•最终趋于稳定优化策略确保最优收敛的方法通过策略选择,提高获得较好解的概率多次随机初始化从不同起点运行EM算法多次选择最佳结果选择对数似然最高的参数估计结合K-Means初始化用K-Means初始化均值以提高稳定性参数估计过程·收敛性分析聚类方法在材料科学中的核心价值无监督学习的核心工具在无标签数据中自动识别潜在结构、分布模式和相似性快速筛选高性能材料从海量材料库中识别关键特征和潜在候选材料构建特征空间理解材料特性背后的分布规律和内在结构辅助模型设计为深度学习模型提供预处理框架和特征选择策略应用价值新材料发现加速材料筛选流程,从试错式转向预测驱动性能预测与优化建立性能-结构关系,指导材料设计结构分类与理解揭示材料化学本质和物理性质关联技术路径为从传统试错式研发向预测驱动型设计提供可操作的技术路径9.6聚类分析在材料深度学习中的应用数据读取QM9数据集约13.4万个稳定小有机分子19种量子化学性质特征数量原始数据:数百个量子化学属性选择策略:聚焦5个核心特征特征选择偶极矩(μ)分子极性指标,单位:Debye极化率(α)电子云变形能力,单位:a.u.HOMO/LUMO能隙电子性质关键参数,单位:eV9.6.1数据集处理·读取数据与特征选择importpandasaspddf=pd.read_csv('qm9.csv')
features=['mu',#偶极矩
'alpha',#极化率
'homo',#HOMO能量'lumo',#LUMO能量
'gap'
#HOMO-LUMOgap
]X_raw=df[features].values
标准化的重要性消除量纲差异不同特征具有不同单位和量纲统一到相同尺度数值范围平衡避免大数值特征主导模型确保公平对待每个特征提升算法效率加速梯度下降收敛速度避免数值计算问题Z-score标准化标准化公式X_scaled=(X-μ)/σμ:特征的均值(mean)σ:特征的标准差(standarddeviation)结果:均值为0,方差为1适用于PCA降维、距离度量等后续处理数据集处理·数据标准化fromsklearn.preprocessingimportStandardScalerscaler=StandardScaler()X_scaled=scaler.fit_transform(X_raw)
降维目标特征压缩从5维降至2-3维降低计算复杂度信息保留保留大部分数据变异最小化信息损失可视化支持为2D/3D可视化提供数据便于数据结构分析PCA实现解释方差比2维PCA:~71%方差3维PCA:~86%方差fit_transform:拟合并转换数据输出:X_pca2.shape=(N,2)适用:K-Means、DBSCAN等聚类算法降维后的数据可用于聚类分析和可视化展示数据集处理·PCA降维fromsklearn.decompositionimportPCA#2维降维
pca2=PCA(n_components=2)X_pca2=pca2.fit_transform(X_scaled)#3维降维
pca3=PCA(n_components=3)X_pca3=pca3.fit_transform(X_scaled)
加载预处理数据标准化数据加载X_scaled.npy包含13.4万个样本PCA降维结果加载X_pca2/3.npy用于可视化分析性能优化随机抽取1000个样本加快聚类计算速度数据加载代码seed=42:确保结果可重复replace=False:无重复抽样输出:X_sample.shape=(1000,5)数据准备完成,可用于后续聚类分析9.6.2聚类分析示例·数据加载importnumpyasnp#加载预处理数据
X_scaled=np.load("data/X_scaled.npy")X_pca2=np.load("data/X_pca2.npy")#随机抽样
sample_size=1000np.random.seed(42)sample_indices=np.random.choice(len(X_scaled),sample_size,replace=False)X_sample=X_scaled[sample_indices]X_pca2_sample=X_pca2[sample_indices]
算法特点硬聚类算法每个样本严格属于一个簇明确划分数据边界球形簇假设基于欧氏距离适用于凸形数据分布轮廓系数评估遍历K=2到7寻找最优K值选择轮廓系数最大的KK-Means实现init='k-means++':优化初始中心选择n_init=5:多次运行取最佳结果random_state=42:确保结果可重复输出:labels数组,聚类标签实验结果最佳K值:2轮廓系数:0.291聚类分析示例·K-Means聚类fromsklearn.clusterimportKMeans#确定最佳K值
k_range=range(2,8)forkink_range:kmeans=KMeans(n_clusters=k,init='k-means++’,n_init=5,random_state=42)labels=kmeans.fit_predict(X_sample)
层次聚类特点树状结构构建层次聚类树揭示数据层次关系Ward方法最小化簇内方差欧氏距离度量截断阈值在距离阈值25处截断获得固定数量簇层次聚类实现method='ward':Ward链接方法t=25:距离阈值参数输出:hc_labels数组实验结果簇数量:4平均簇大小:250个分子聚类分析示例·层次聚类fromscipy.cluster.hierarchyimportlinkage,fcluster#构建层次聚类树
Z=linkage(X_sample,
method='ward’,
metric='euclidean’)#在阈值处截断
hc_labels=fcluster(Z,
t=25,
criterion='distance')
DBSCAN特点基于密度发现任意形状的簇适应复杂几何结构噪声识别自动标记离群点标签为-1参数调整eps:邻域半径min_samples:最少点数DBSCAN实现eps=0.3:邻域半径阈值min_samples=5:核心点最少邻居数输出:dbscan_labels数组实验结果发现簇数量:10噪声点:930个(93.0%)聚类分析示例·密度聚类(DBSCAN)fromsklearn.clusterimportDBSCAN#初始化DBSCAN
dbscan=DBSCAN(eps=0.3,
min_samples=5,
metric='euclidean’)#执行聚类
dbscan_labels=dbscan.fit_predict(X_sample)
GMM特点软聚类数据点以概率形式归属于各簇处理重叠簇能力强概率生成模型由多个高斯分布混合生成提供概率解释BIC模型选择遍历n_components寻找最优值平衡拟合度与复杂度GMM实现covariance_type='full':完整协方差矩阵predict_proba:返回概率矩阵输出:gmm_probs,各簇概率实验结果最佳成分数:4对数似然值:0.16平均最大后验概率:0.833聚类分析示例·高斯混合模型(GMM)fromsklearn.mixtureimportGaussianMixture#初始化GMM
gmm=GaussianMixture(
n_components=n,
covariance_type='full’,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 《初中数学八年级上册第5单元复习课|体系梳理 + 综合训练教案》
- 2026年辽宁省辽阳市单招职业倾向性考试题库及参考答案详解1套
- 海淀区中关村街道招聘社区网格员真题附答案详解
- 《青岛版小学数学六年级下册百分数二原文精讲|重难点逐句 - 逐题拆解教学案》
- 二年级体育下册 2.42快乐学长绳(二)教学设计(图片版)
- 2025-2026学年中国筷大班教案
- 西乌珠穆沁旗巴拉嘎尔高勒镇招聘社区网格员真题附答案详解
- 雁山区柘木镇招聘社区网格员考试试题附答案详解
- 汉源县河南乡招聘社区网格员真题附答案详解
- 滴道区东兴街道招聘社区网格员考试试题附答案详解
- 工程钢筋工管理制度
- 第11课 依法从事民事活动
- 防化兵基础知识
- (下)开关电源42项测试之-白盒测试类常规测试类
- 酒店住宿服务合同三篇
- ERP知识手册可编辑范本
- IEC 62368-1标准解读-中文
- 绿色废弃资源分类回收
- DBJ04∕T 253-2021 建筑工程施工安全管理标准
- 新生儿肺炎诊疗及护理考核试题
- MOOC 互联网创新创业中知识产权素养培养-福州大学 中国大学慕课答案
评论
0/150
提交评论