分类算法与聚类算法原理及应用_第1页
分类算法与聚类算法原理及应用_第2页
分类算法与聚类算法原理及应用_第3页
分类算法与聚类算法原理及应用_第4页
分类算法与聚类算法原理及应用_第5页
已阅读5页,还剩27页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2026/06/16分类算法与聚类算法原理及应用汇报人:机器学习研究组目录分类算法:监督学习的核心范式聚类算法:无监督学习的探索之道典型应用场景与案例解析算法选型与实战指南01020304分类算法:监督学习的核心范式01分类算法的核心定义分类算法核心定义分类算法是监督学习的典型代表,其核心目标是通过学习带标签训练数据中的特征规律,构建从输入特征到离散类别的映射模型。模型通过"参考答案"学习分类规则,最终建立特征空间到类别集合的映射关系f:X→Y核心特征监督学习属性依赖人工标注的带标签训练数据,模型通过"参考答案"学习分类规则预测导向目标是预测新数据的类别标签,输出确定性的分类结果映射函数构建学习特征空间到类别集合的映射关系f:X→Y典型任务类型二分类仅两个类别(如垃圾邮件识别、疾病诊断)多分类三个及以上类别(如手写数字识别0-9)多标签分类一个样本可属于多个类别(如文章标签"科技+AI")主流分类算法全景算法类型核心原理适用场景关键优势逻辑回归线性模型+Sigmoid函数转换概率二分类、线性可分数据计算高效、可解释性强决策树递归划分特征空间形成树状结构多分类、需要可解释性直观易懂、可视化强随机森林集成多个决策树降低过拟合复杂分类、高维特征鲁棒性强、精度高支持向量机寻找最大间隔超平面高维稀疏数据、文本分类泛化能力强、核技巧灵活K近邻基于距离度量的懒惰学习小规模数据、模式识别无需训练、简单直观朴素贝叶斯基于贝叶斯定理的概率分类文本分类、垃圾邮件识别计算快速、适合高维稀疏数据逻辑回归:线性分类的基准模型核心工作流程关键优势实战技巧线性得分计算z=w·x+b(w为权重,x为特征,b为偏置)概率转换通过Sigmoid函数将z压缩到[0,1]区间,得到属于正类的概率分类判断若概率≥阈值(默认0.5),预测为正类;否则为负类计算效率高适合大规模数据可解释性强权重直接反映特征重要性二分类基准适合二分类场景,是分类任务的基准模型特征缩放必须进行标准化,消除量纲影响阈值调整对不平衡数据可调整分类阈值,提高少数类召回率决策树:直观的规则学习特征选择基于信息增益、信息增益率或基尼指数选择最优划分特征树生长递归地对每个节点进行划分,直到满足停止条件剪枝优化通过预剪枝或后剪枝防止过拟合,提升泛化能力天然可解释性决策过程可视化,规则透明易懂混合数据兼容无需特征缩放,能处理混合类型数据自动特征选择能自动识别关键特征,筛选重要变量医疗诊断根据症状特征判断疾病类型,辅助医生快速决策信贷审批基于收入、负债等特征评估违约风险,自动化审批流程客户流失预测识别高风险流失客户群体,提前制定挽留策略随机森林:集成学习的力量Bagging策略通过自助采样构建多棵决策树,每棵树使用不同的训练子集特征随机性每个节点分裂时随机选择部分特征,增强多样性集成预测分类任务采用投票法,回归任务采用平均法对噪声数据鲁棒泛化能力强能处理高维特征无需特征选择可评估特征重要性辅助特征工程信贷风控预测客户违约风险,AUC可达0.87以上医疗诊断肝病患病预测,准确率可达90%电商用户分类基于购买行为划分用户群体支持向量机:最大间隔分类器核心原理常用核函数应用场景最大间隔原则寻找使两类样本间隔最大的超平面,提升泛化能力支持向量距离超平面最近的样本点,决定分类边界核技巧通过核函数将数据映射到高维空间,处理非线性可分问题线性核适用于线性可分数据,计算快速多项式核适用于非线性边界,可调节多项式次数RBF核适用于复杂非线性问题,最常用的核函数文本分类高维稀疏文本特征分类图像识别手写数字识别、物体分类生物信息学蛋白质分类、基因表达分析分类模型评估指标体系准确率预测正确的样本数/总样本数,适用于类别均衡场景精确率预测为正类的样本中实际为正类的比例,适用于"误判成本高"场景召回率实际为正类的样本中被正确预测的比例,适用于"漏判成本高"场景F1分数精确率与召回率的调和平均,平衡两者需求ROC曲线以假正例率为横轴、真正例率为纵轴的曲线AUC值ROC曲线下的面积(0-1),值越大模型区分能力越强混淆矩阵直观展示真阳性/假阳性/真阴性/假阴性的数量分布疾病诊断场景优先召回率,避免漏诊垃圾邮件识别优先精确率,避免误判正常邮件平衡场景使用F1分数或AUC值聚类算法:无监督学习的探索之道02聚类算法的核心定义聚类算法通过计算数据点之间的相似度或距离,将相似的数据点聚集为簇,无需预先标注数据无监督学习属性不需要带标签的训练数据,完全依赖数据本身的特征探索导向目标是发现数据中的内在结构或自然分组,而非预测类别相似性驱动通过距离度量(如欧氏距离、余弦相似度)量化样本相似性簇内紧凑同一簇内的数据点相似度高簇间分离不同簇之间的数据点相似度低数据驱动聚类结果完全由数据分布决定,无预设类别语义客户细分根据购买行为划分用户群体异常检测识别离群点或异常行为图像分割将图像像素按颜色或纹理聚类主流聚类算法全景算法类型核心思想代表算法典型特点划分聚类预先指定簇数K,通过迭代优化划分数据K-Means、K-Medoids速度快,适合球形分布数据层次聚类构建树状层次结构展示聚类过程AGNES、BIRCH无需预设簇数,可视化直观密度聚类基于样本分布密度识别簇DBSCAN、OPTICS可识别任意形状簇,抗噪性强模型聚类基于概率分布建模高斯混合模型可估计样本属于各簇的概率网格聚类基于空间网格划分STING、CLIQUE处理大规模数据效率高K-Means:最经典的划分聚类初始化随机选择K个样本作为初始簇中心分配样本计算每个样本到K个中心的距离,分配到距离最近的簇更新中心重新计算每个簇的所有样本的均值,作为新的簇中心迭代收敛重复分配与更新步骤,直到簇中心不再变化或达到最大迭代次数K值选择需预先指定簇数量可通过肘部法则或轮廓系数确定最优K距离度量常用欧氏距离,适用于数值型特征优势原理简单计算高效适合大规模数据局限需预设K值对初始中心敏感仅适用于球形簇对异常值敏感K-Means优化技巧随机选择第一个质心K-Means++初始化第一步,随机确定首个聚类中心距离加权选质心计算样本到已选质心的最短距离,距离越大被选概率越高迭代至K个质心重复选取直到选满K个,让初始质心尽可能分散核心优势大幅提升聚类稳定性和效果最优K值选择方法肘部法则绘制"K值-SSE"曲线,SSE随K增大逐渐下降,当下降速率骤减时的K即为最优值轮廓系数范围[-1,1],越接近1表示簇内越紧密、簇间越分离,取最大值对应的K归一化/标准化消除量纲差异,避免特征尺度影响距离计算异常值处理删除或修正极端值,减少对簇中心的干扰降维对高维数据使用PCA降维,减少"维度灾难"影响DBSCAN:密度驱动的聚类核心点如果一个点周围有至少MinPts个点,则它是核心点边界点不是核心点,但位于核心点的邻域内噪声点既不是核心点也不是边界点,被视为异常值Eps(邻域半径)定义邻域的距离阈值MinPts(最小邻域点数)核心点所需的最小邻域样本数核心优势无需预设簇数,自动发现簇的数量能识别任意形状的簇,不受球形限制自动识别噪声点,抗噪性强应用场景地理位置数据分析:识别城市区域、商圈分布异常检测:信用卡欺诈检测、传感器异常识别图像处理:图像分割、目标检测层次聚类:树状结构的聚类凝聚型(自底向上)每个点初始为一簇,逐步合并最相似的簇,直到达到指定簇数分裂型(自顶向下)从单一簇开始,递归分裂为更小的子簇核心特点无需预设簇数,可通过树状图直观选择结果可解释性强,可视化效果好计算复杂度高(O(n³)),适合中小规模数据集工业优化算法BIRCH算法通过CF树实现层次聚类的增量计算,处理超大规模数据Chameleon算法动态建模簇间相似度,适应复杂形状生物物种分类构建物种进化树文档主题组织层次化主题聚类社交网络分析社区发现与层次划分聚类结果评估方法轮廓系数范围[-1,1],越接近1表示聚类效果越好簇内距离簇内样本到簇中心的平均距离,越小越好簇间距离不同簇中心之间的距离,越大越好Calinski-Harabasz指数簇间离散度与簇内离散度的比值,越大越好外部评估指标调整兰德指数(ARI)归一化互信息(NMI)需真实标签·有监督验证衡量聚类结果与真实标签的一致性衡量聚类结果与真实标签的互信息定量指标参考定量指标仅作参考,需结合业务场景判断可视化分析通过降维可视化检查聚类效果业务验证聚类结果是否符合业务逻辑和领域知识典型应用场景与案例解析03分类算法应用:肝病诊断样本规模583条患病416例未患病167例数据特征生理指标:年龄、性别医疗检测指标:总胆红素、直接胆红素、碱性磷酸酶、谷丙转氨酶等样本规模:583条数据,其中患肝病416例,未患病167例模型对比01逻辑回归适用于线性可分场景,计算效率高02决策树直观展示诊断规则,可解释性强03随机森林集成多棵决策树,准确率最高04AdaBoost通过迭代提升弱分类器性能结果分析随机森林模型表现最优准确率达90%以上关键特征识别谷丙转氨酶、碱性磷酸酶、总胆红素对诊断影响最大系统落地应用模型嵌入医院PACS系统,实时辅助诊断分类算法应用:电商用户行为分类特征基础基于用户购买频率、客单价、品类偏好等特征预测类别高频高价值用户、潜力用户、低频低价值用户特征工程购买频率、客单价、偏好品类占比、用户活跃度数据清洗处理缺失值、异常值特征编码One-Hot编码处理品类特征,标准化数值型特征模型训练对比逻辑回归与随机森林划分80%训练集、20%测试集使用交叉验证调整超参数结果优化随机森林AUC达0.87,优于逻辑回归增加"品类多样性"特征后,准确率提升至0.92应用于用户分层营销,高频高价值用户获专属折扣0.870.92+5.7%初始AUC优化提升最终准确率提升幅度分类算法应用:信贷风控15%违约识别准确率提升↑15%30%信贷审批效率提升↑30%20%坏账率降低↓20%输入特征收入、负债、信用分、还款历史等输出结果违约/不违约的二分类预测随机森林集成多个决策树,降低过拟合风险支持向量机处理高维特征,泛化能力强逻辑回归可解释性强,便于风控规则制定自动识别高风险客户,降低坏账率提供特征重要性分析,辅助风控策略优化实时预测,支持快速信贷决策聚类算法应用:电商用户分群聚类结果数据特征用户年龄年收入购买频率客单价复购率K-Means流程1确定K值:肘部法则确定最优K=32数据标准化:消除量纲差异3迭代聚类:分配样本、更新簇中心群体1:年轻低收入群体年龄较小、收入较低群体2:中年高收入群体年龄中等、收入较高群体3:年长低收入群体年龄较大、收入较低营销策略年轻群体性价比商品、优惠券中年群体高端商品、会员服务年长群体实用商品、健康产品K=3肘部法则确定最优聚类数SSE下降拐点验证应用价值通过聚类算法实现精准用户分群,支撑差异化营销策略制定,显著提升营销投放ROI与转化效率精准营销千人千面ROI提升降本增效聚类算法应用:社交网络用户兴趣聚类聚类算法MiniBatchKMeans最优聚类数K=5PCA降维保留95%方差点击率提升25%科技爱好者AI区块链•关注前沿技术话题•主动搜索专业资讯•点击率提升25%生活记录者美食旅行•发布生活方式内容•高频分享图文动态•注重内容视觉呈现职场人士行业动态求职•讨论职业发展话题•群体粘性最高•适合专属活动运营娱乐追随者影视明星•热衷娱乐话题讨论•活跃于热点事件•互动频次高泛用户群体兴趣分散低频•兴趣标签分布广泛•互动行为较低•需差异化运营策略聚类算法应用:图像压缩RGB三维空间聚类示意K=4颜色中心K=8颜色中心核心原理图像每个像素点是一个3维向量[R,G,B]给定聚类数K,用K个不同颜色表示原图像每个像素点用K个颜色中的一个表示实施步骤1将图像像素点作为数据样本2使用K-Means聚类,将相似颜色的像素归为一簇3用簇中心颜色替换簇内所有像素的颜色压缩效果10:1压缩比可达1MB→KB存储空间可控视觉质量损失应用场景图像存储优化网页图片加速加载图像分割与目标识别聚类算法应用:异常检测Eps邻域半径MinPts最小邻域点数噪声点自动识别异常信用卡欺诈检测识别异常交易行为网络入侵检测识别异常网络流量设备故障预测识别异常传感器数据无需预先定义异常模式无需预先定义异常模式能发现未知类型的异常自动适应数据分布变化1设置参数→2形成簇→3标记异常算法选型与实战指南04分类与聚类的本质区别分类监督学习·依赖标签数据学习类型监督学习依赖带标签训练数据目标学习映射模型预测新数据类别数据要求大量带标签样本依赖人工标注结果形式确定类别标签输出预设类别评估方式准确率、精确率、召回率、F1分数聚类无监督学习·无需预先标注学习类型无监督学习无需预先标注数据目标发现数据内在结构自动划分相似样本簇数据要求仅需原始数据通过特征相似性完成分组结果形式探索性分组结果无预设类别语义评估方式轮廓系数、簇内距离等内部指标VS分类算法选型指南线性可分数据优先选择逻辑回归、线性SVM非线性可分数据选择决策树、随机森林、核SVM高维稀疏数据选择朴素贝叶斯、线性SVM小规模数据选择KNN、决策树需要可解释性选择决策树、逻辑回归追求高精度选择随机森林、梯度提升树实时预测需求选择逻辑回归、线性SVM处理缺失值选择决策树、随机森林二分类逻辑回归、SVM、决策树多分类

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论