版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
《数据挖掘原理、算法与应用(Python语言描述)》课程教学大纲课程编号:学分:4学分学时:64课时(其中:讲授课时40上机课时24)先修课程:计算机基础、Python语言、数据结构适用专业:大数据相关专业一、课程的性质与目标本课程是面向数据挖掘初学者设立的一门课程,以通俗易懂的语言、丰富实用的案例,详细讲解数据挖掘技术。通过学习本课程,学生将会获得使用Python进行数据挖掘的能力。二、课程设计思路和教学要求课程设计理念:本课程对数据挖掘原理进行了深入讲解,通过学习本课程,学生能够掌握相关的原理,通过每章的案例教学,可以有效地将学生学过的内容与实践相结合,培养分析问题和解决问题的能力。课程设计思路:本课程根据知识的难易程度,采用先易后难的方式安排章节顺序。在知识讲解时,从基本语法、注意事项、案例演示等多个角度进行详细讲解,以环环相扣的方式阐述每个名词概念的作用以及相互之间的联系,帮助学生提高对数据挖掘的整体认识,最后通过动手实践对所学知识进行练习,巩固所学内容。操作系统:Windows/Linux开发工具:Python、JupyterNotebook、JuplyterLab等三、课程的主要内容及基本要求第1章概述学习单元概述课时3课时学习目标掌握数据挖掘的定义。了解数据挖掘的目标。了解数据挖掘的相关概念。了解数据挖掘的基本流程。了解常用的数据挖掘工具。掌握常用数据集的获取方法。学习内容知识点掌握程度重点难点数据挖掘的定义了解数据挖掘的目标掌握√数据挖掘的应用了解数据挖掘的算法了解数据挖掘的相关概念掌握数据挖掘的流程掌握√数据挖掘的常用工具了解常用数据集的来源了解第2章Python环境搭建学习单元Python环境搭建课时4课时学习目标掌握Python的下载与安装方法。掌握pip管理Python包的方法。掌握JupyterNotebook的安装与配置。掌握JupyterLab的安装与配置。了解Anaconda的安装与使用。了解JupyterHub的安装与配置。学习内容知识点掌握程度重点难点Pyhton下载安装掌握Python第三方包的管理掌握JupyterNotebook的安装掌握√JupyterNotebook的配置掌握√JupyterNotebook的使用掌握√JupyterLab的安装掌握√JupyterLab的配置掌握√JupyterLab的使用掌握√JuoyterHub的安装与配置了解Anaconda的安装了解Anaconda的配置了解第3章数据预处理学习单元数据预处理课时6课时学习目标掌握数据缺失值的处理方法。掌握数据标准化的方法。掌握特征编码的方法。掌握离群值的检测与处理方法。学习内容知识点掌握程度重点难点缺失值处理-填补法熟悉缺失值处理-删除法熟悉数据标准化-Z-score掌握√数据标准化-min-maxe熟悉数据标准化-考虑离群值熟悉数据标准化-实现熟悉特征编码-map掌握√√特征编码-标签掌握√√特征编码-独热掌握√√特征编码-哑元掌握√√离散化掌握√√3σ法掌握√箱线图掌握基于近邻判断离群值掌握聚类法掌握基于模型检测掌握离群值处理掌握√案例:加拿大轻型汽车二氧化碳排放量数据集预处理掌握第4章数据集划分与交叉验证学习单元数据集划分与交叉验证课时4课时学习目标熟练掌握数据集的常用划分方法train_test_split。掌握K折交叉划分以及应用方法。掌握分层K折交叉划分以及应用方法。了解乱序K次划分方法。了解留一法、留P法以及自助法。掌握交叉验证评分方法。学习内容知识点掌握程度重点难点数据集划分目的熟悉train_test_split方法掌握√K折交叉划分法掌握√分层K折交叉划分法掌握乱序K次划分了解留一法了解留P法了解自助法了解交叉验证评分掌握√案例:房价数据集划分掌握√第5章回归学习单元回归课时6课时学习目标掌握常用的线性回归算法以及Python的实现方法。掌握常用的非线性回归算法以及Python的实现。掌握回归模型的评价方法决定系数。了解回归模型的其他评价方法。学习内容知识点掌握程度重点难点回归分析掌握线性回归掌握√√非线性回归掌握√√回归模型评价掌握√决定系数掌握√均方误差掌握√平均绝对误差掌握√其他评价方法掌握案例:Boston房价预测掌握√√第6章分类学习单元分类课时6课时学习目标掌握常用的分类算法以及Python实现。掌握分类模型常用的评价指标以及Python实现。理解PR曲线的意义,掌握PR曲线的画法。理解ROC曲线的意义,掌握ROC曲线的画法。学习内容知识点掌握程度重点难点分类算法掌握逻辑回归掌握√√K近邻掌握√√决策树掌握√√朴素贝叶斯掌握√√支持向量机掌握√√分类模型评价熟悉√常用评价指标掌握√PR曲线掌握√ROC曲线掌握√案例:汽车满意度预测掌握√√第7章集成学习学习单元集成学习课时6课时学习目标理解装袋法的基本思想。掌握随机森林的算法以及Python的实现。理解提升法的基本思想。掌握梯度提升树算法以及应用。掌握极致梯度提升算法以及应用。掌握堆叠法以及应用。掌握投票法以及应用。学习内容知识点掌握程度重点难点装袋法了解装袋法用于分类掌握√装袋法用于回归问题掌握随机森林掌握√提升法掌握√√自适应提升分类掌握√梯度提升树掌握√极致梯度提升掌握堆叠法掌握投票法掌握案例:随机森林实现鸢尾花分类掌握√第8章参数调优学习单元参数调优课时4课时学习目标了解人工循环搜索超参数的方法。掌握超参数网格搜索方法以及Python实现。掌握超参数随机搜索方法以及Python实现。掌握超参数贝叶斯搜索方法以及Python实现。学习内容知识点掌握程度重点难点人工循环搜索了解网格搜索掌握√随机搜索掌握√贝叶斯搜索掌握√案例:汽车满意度预测掌握√第9章降维学习单元降维课时3课时学习目标掌握主成分降维方法以及Python的实现。了解其他矩阵分解降维方法。了解线性判别法降维与分类。掌握基于流形学习的降维方法。学习内容知识点掌握程度重点难点矩阵分解降维了解主成分分析掌握√核PCA掌握非负矩阵分解熟悉因子分析熟悉√独立主成分分析熟悉√判别分析法掌握线性判别分析了解二次判别分析了解基于流形学习的数据降维方法了解局部线性嵌入了解多维尺度变换了解t分布随机邻域嵌入了解案例:Fashion-MNIST数据降维可视化掌握√√第10章特征选择与特征联合学习单元特征选择与特征联合课时3课时学习目标掌握常用的过滤法特征选择方法。掌握常用的装袋法特征选择方法。掌握常用的嵌入法特征选择方法。了解特征联合的方法。了解多项式特征。学习内容知识点掌握程度重点难点特征选择熟悉过滤法掌握装袋法熟悉嵌入法熟悉案例:对中学教育学生成绩数据集进行特征选择熟悉多项式特征熟悉案例:对makecircles同心圆数据集使用多项式特征掌握特征联合掌握案例:对Boston房价预测实现特征联合掌握第11章流水线学习单元流水线课时3课时学习目标了解流水线的结构。了解构建预处理流水线的方法。了解构建带学习器的流水线构建方法。了解网格搜索流水线中模型参数的方法。了解网格搜索选择流水线中模型的方法。了解构建复杂流水线的方法学习内容知识点掌握程度重点难点流水线结构熟悉预处理流水线熟悉带学习器的流水线掌握√网格搜索流水线中模型的参数掌握√采用网格搜索选择流水线中的模型熟悉复杂的流水线熟悉案例:乳腺肿瘤数据集的分类模型选择掌握√第12章聚类学习单元聚类课时6课时学习目标掌握样本距离的常用计算方法。掌握K均值聚类方法。掌握层次聚类方法。了解其他聚类方法。掌握聚类模型的评价方法。学习内容知识点掌握程度重点难点欧氏距离掌握曼哈顿距离掌握切比雪夫距离掌握√闵可夫斯基距离掌握√余弦相似性掌握√相关距离掌握√杰卡德距离掌握√汉明距离掌握√K均值聚类掌握√√层次聚类熟悉带噪声的基于密度的聚类方法掌握√均值漂移聚类掌握√√谱聚类掌握√轮廓系数掌握√兰德指数掌握√案例:汽车车型聚类掌握√√第13章关联规则学习单元关联规则课时3课时学习目标熟悉关联规则的基本概念。掌握关联规则的评价方法。掌握关联规则算法Apriori。掌握关联规则算法FPGrowth。学习内容知识点掌握程度重点难点项与项集掌握事务掌握√频繁项集掌握√关联规则掌握√支持度掌握√置信度掌握√强关联规则与弱关联规则掌握√杠杆率掌握√√确信度熟悉提升度掌握√Apriori算法掌握√FPGrowth算法掌握案例Apriori:超市购物篮分析掌握案例FP-Growth:超市购物篮分析掌握第14章PageRank算法学习单元PageRank算法课时3课时学习目标理解PageRank算法。掌握PR值的计算方法。掌握PageRank的应用方法学习内容知识点掌握程度重点难点PageRank算法简介掌握PageRank值的计算掌握案列分析1:机场排名掌握案例分析2:邮件人物关系掌握第15章人工神经网络简介学习单元人工神经网络简介课时3课时学习目标了解神经网络的发展历史。了解感知机。了解常用的人工神经网络结构。了解常用的激活函数。了解常用的损失函数。了解神经网络模型的构建方法。了解神经网络模型在回归与分类中的应用。学习内容知识点掌握程度重点难点单层感知机了解多层感知机了解全连接前馈神经网络了解卷积神经网络了解循环神经网络了解其他神经网络了解Sigmoid函数了解Tanh函数了解ReLU函数了解Leaky-ReLU函数了解ELU函数了解Maxout函数了解Softmax函数了解均方误差了解平均绝对误差了解二元交叉熵了解多分类交叉熵了解稀疏多分类交叉熵了解构建神经网络模型了解编译神经网络模型了解训练神经网络模型了解评价模型了解用模型预测了解案例:回归-保险费用预测了解√√四、课时分配章目讲授上机合计第1章概述213第2章Python环境搭建224第3章数据预处理426第4章数据集划分与交叉验证224第5章回归426第6章分类426第7章集成学习426第8章参数调优224第9章降维213第10章特征选择与特征联合213第11章流水线213第12章聚类426第13章关联规则223第14章PageRank213第15章人工神经网络简介213合计402464五、考核模式与成绩评定办法本课程为考试课程,期末考试采用百分制的闭卷考试模式,考核学生对理论以及相关算法的掌握。学生的考试成绩由平时成绩(40%)和期末考试(60%)组成,其中,课堂表现(10%)、作业(15%)、上机成绩(15%)。六、选用教材和主要参考书《数据挖掘
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 婚庆活动策划与现场执行管理手册
- 呼叫中心专员工作效率提升技巧
- 投资分析与投资决策技巧
- 县法院案件审理特色分析
- 教育行业背景下的心理学与教育心理学的面试技巧
- 浙江国企招聘2025绍兴市城发阿波罗科技有限公司项目制产业人员第三批招聘2人(二)笔试历年参考题库附带答案详解
- 2025贵州黔东南州锦屏县拟聘用到县属国有企业工作笔试历年参考题库附带答案详解
- 2025福建省鹭松水务有限公司招聘2人笔试历年参考题库附带答案详解
- 2025湖南振湘实业发展集团有限公司招聘高管人员笔试历年参考题库附带答案详解
- 2025浙江宁波市奉化区经开控股有限公司招聘工作人员及笔试历年参考题库附带答案详解
- GB/T 7901-2018黑胡椒
- 工程竣工验收告知单
- 项目合作协议-非框架协议版
- 橡胶的加工工艺课件
- DCC网销能力提升培训
- 神经病理性疼痛诊疗专家共识解读
- 广告制作常用材料专题培训课件
- 《我是运动小健将》课件
- 170位真实有效投资人邮箱
- 家禽屠宰建设项目可行性研究报告
- 上交所董秘考试题库及答案【全部】
评论
0/150
提交评论