版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
监督学习分类实战-图像分类决策树算法应用CONTENTSOrderNow01任务描述02知识储备03任务实施04任务评价/01任务描述任务描述任务:K近邻(KNN)算法实现应用决策树算法对图像分类任务进行建模,通过预处理图像数据、提取特征、构建决策树模型、进行模型训练和评估,最终实现对图像的有效分类。/02知识储备决策树定义决策树是一种常用的机器学习算法,主要用于分类和回归任务。它通过一系列的决策规则来预测目标变量的值。决策树组成部分根节点:决策树的起始节点,代表整个数据集。内部节点:表示一个特征或属性的测试,用于分割数据。叶节点:表示一个决策结果,对于分类任务,叶节点是类别标签;对于回归任务,叶节点是数值预测。边/分支:连接节点的线,表示从父节点到子节点的决策路径。每条边对应一个条件或规则,表示在父节点的测试条件下,数据流向子节点的规则。决策树构建方法特征选择在每一步划分时,选择一个最佳特征作为决策依据,进行数据划分。这个特征应该能够最大程度上提高数据的区分度。01节点分裂根据选择的特征,利用不同的分裂准则将当前节点的数据集划分成若干子集。02递归分裂对每个子集递归执行特征选择与节点分裂操作,直到满足停止条件。03树剪枝为了避免决策树过拟合,需要对生成的决策树进行简化,去除多余的分支节点。04信息增益熵熵是衡量数据集不纯度的一个指标。在分类问题中,一个数据集的熵越高,说明其类别分布越不均匀,即不确定性越大;01条件熵条件熵是在给定某个特征A的条件下,数据集D的熵。它衡量了在知道特征A的取值后,数据集D的不确定性减少了多少。02信息增益信息增益是衡量一个特征对分类任务贡献大小的一个指标。它等于数据集D的熵减去在给定特征A的条件下的条件熵。03基尼系数基尼值基尼值直接反映了从数据集中随机抽取两个样本,属于不同类别的概率。基尼值越小,说明数据集越纯;基尼值越大,说明数据集越不纯。条件基尼值条件基尼值是在给定某个特征A的条件下,数据集D的基尼值。它衡量了在知道特征A的取值后,数据集D的不纯度减少了多少。基尼增益基尼增益是衡量一个特征对分类任务贡献大小的另一个指标。它等于数据集D的基尼值减去在给定特征A的条件下的条件基尼值。/03任务实施数据预处理1.importnumpyasnp2.importmatplotlib.pyplotasplt3.fromsklearn.datasetsimportfetch_openml4.fromsklearn.model_selectionimporttrain_test_split5.fromsklearn.treeimportDecisionTreeClassifier6.fromsklearn.metricsimportaccuracy_score,classification_report,confusion_matrix1.mnist=fetch_openml(‘mnist_784’,version=1,data_home=‘./data’,local_cache=True)2.X,y=mnist["data"],mnist["target"].astype(int)导入库加载MNIST数据集1.X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.3,random_state=42,stratify=y)划分数据集构建决策树模型clf=DecisionTreeClassifier(random_state=42)初始化决策树分类器clf.fit(X_train,y_train)训练模型y_pred=clf.predict(X_test)在测试集上进行预测模型评估1.accuracy=accuracy_score(y_test,y_pred)2.print(f"Accuracy:{accuracy:.4f}")3.print("ClassificationReport:")4.print(classification_report(y_test,y_pred))5.conf_matrix=confusion_matrix(y_test,y_pred)6.print("ConfusionMatrix:")7.print(conf_matrix)初始化决策树分类器模型评估1.defplot_digit(data):2.fig,axes=plt.subplots(1,10,figsize=(10,1),3.subplot_kw={'xticks':[],yticks':[]},4.gridspec_kw=dict(hspace=0.1,wspace=0.1))5.fori,axinenumerate(axes):6.ax.imshow(data.iloc[i].values.reshape(28,28),cmap=plt.cm.binary,interpolation='nearest')7.ax.text(0.05,0.05,str(int(y_pred[i])),8.transform=ax.transAxes,color='green')9.returnfig,axes10.#选择前10个测试样本进行可视化11.fig,axes=plot_digit(X_test[:10])12.plt.show()可视化结果/04任务评价任
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 手工艺品市场分析与总结
- 2026 学龄前自闭症想象力技能拓展课件
- 客房服务员工作总结范文
- 客服的个人工作总结12篇
- 委托经营合同合集15篇
- 2026年饮用水企业灌装操作培训计划
- 2025年英语四级《阅读》真题及答案解析
- 商场火灾隐患整改通知单
- 岗位责任制与安全生产责任制总版
- 裂缝堵漏施工工艺流程
- 《绿色尾矿充填固化剂》
- 2024年北京三帆中学数学八年级下册期末联考试题含解析
- 09J202-1 坡屋面建筑构造(一)-2
- 第7课-共同家园心相连
- 市政工程培训课件
- 墓碑上的100个药方
- SWITCH塞尔达传说旷野之息-1.6金手指127项修改使用说明教程
- (完整版)高中有机化学方程式汇总
- 线性代数知识点复习资料总结
- 支气管动脉造影及栓塞术患者的护理
- 社会热点问题讨论
评论
0/150
提交评论