教学大纲_数据挖掘(高妮20160722)_第1页
教学大纲_数据挖掘(高妮20160722)_第2页
教学大纲_数据挖掘(高妮20160722)_第3页
教学大纲_数据挖掘(高妮20160722)_第4页
教学大纲_数据挖掘(高妮20160722)_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、课程代码:0500301数据挖掘教学大纲Data Mining执 笔 人: 高 妮 审 核 人: 批 准 人: 数据挖掘教学大纲基本概况课程中文名称数据挖掘课程英文名称Data Mining课程类别专业选修课适用专业计算机科学与技术、网络工程、软件工程专业先修课程离散数学、数据结构、概率论和数据库系统等并修课程计算机专业课程总学时36总学分2使用教材徐华.数据挖掘:方法与应用. 北京:清华大学出版社, 2015.参考书目25部1 (美)Jiawei Han、Micheline Kamber 著,范明等译. 数据挖掘:概念与技术(第三版). 北京:机械工业出版社, 2012.2 赵卫东.商务智能

2、(第二版).北京:清华大学出版社, 2016.3 (美)陈封能,斯坦巴赫,库玛尔,范明译. 数据挖掘导论(完整版). 北京:人民邮电出版社, 2011.4 (美) Robert I. Kabacoff著,高涛等译. R语言实战. 北京:人民邮电出版社, 2013.5 孔志周、肖百龙. 数据挖掘实验. 北京:中国统计出版社, 2011.其它可利用的网络资源无课程概述(课程的意义,教学目标,内容简介等)1. 课程意义:数据挖掘:方法与应用是软件工程专业教学计划中一门专业选修课,是一门汇集统计学、机器学习、数据库、人工智能等学科内容的新兴的交叉性学科,是在信息技术领域迅速兴起的计算机技术。在很多重要

3、的应用领域,数据挖掘都发挥着积极的作用。因此这门课程是软件工程相关专业的重要课程之一。本课程深入探讨数据挖掘原理,把信息科学、计算科学和统计学对数据挖掘的贡献融合在一起,培养软件工程专业高年级本科学生具备初步的科研能力和创造能力。2. 教学目标: 了解:数据挖掘领域发展趋势和主要应用,数据挖掘技术最新进展和前沿成果,数据挖掘的OLAP技术,复杂数据类型的数据挖掘技术等。掌握:数据预处理方法,包括数据清理、数据规约和数据变化等,数据仓库的概念和构建方法,多维数据模型,数据立方体技术等。重点掌握:知识发现与数据挖掘的基本概念和基本理论,挖掘大型数据库的关联规则方法,贝叶斯分类技术,神经网络分类技术

4、、K均值聚类方法、层次聚类方法等。3. 课程内容:教学时数及分配:本课程在第七学期开设,教学周为十八周,总学时为36学时。其中理论教学18学时,实践操作18学时。数据挖掘:方法与应用的课堂讲授主要本课程以数据预处理、数据仓库设计、数据挖掘为主线,主要介绍数据挖掘的基本概念、原理、方法和技术,具体包括:数据预处理基本方法,数据仓库设计方法,多维数据模型表示方法,关联规则挖掘方法,数据分类方法,数据聚类方法等内容。通过课程的学习,使学生了解数据挖掘技术最新进展和前沿成果,激发学生兴趣;掌握数据预处理方法,包括数据清理、数据规约和数据变化等,数据仓库的概念和构建方法,多维数据模型,数据立方体技术等知

5、识;熟练掌握数据挖掘的基本概念和基本理论,挖掘大型数据库的关联规则方法,贝叶斯分类技术,神经网络分类技术、K均值聚类方法等内容,并基于数据挖掘软件介绍一定的实际操作。学时分配学 时 分 配 表章次章 名学时备注第一章绪论2(教学)第二章数据预处理3(教学)第三章数据仓库3(教学)第四章相关性与关联规则3(教学)+4(实验一、二)第五章分类和预测4(教学)+8(实验三、四、五、六)第六章聚类分析3(教学)+ 6(实验七、八、九)总学时合计36理论教学内容与要求第一章 绪论教学目的 使学生对数据挖掘有一个初步、总体的认识。重点难点 本章节的重点是数据挖掘的定义,难点是它的基本步骤、主要技术和应用价

6、值,如何激发学生对数据挖掘应用的领域及成功案例的兴趣。教学时数 2(教学)教学内容 应用背景、数据挖掘定义、主要技术、主要研究内容、面临的主要问题等。第1节 应用背景1 商业上的驱动2 科学研究上的驱动3 数据挖掘伴随着数据库技术而出现第2节 什么是数据挖掘1 基本描述2 关于知识发现第3节 数据挖掘的主要技术第4节 数据挖掘的主要研究内容第5节 数据挖掘面临的主要问题第6节 数据挖掘相关的资料第7节 本书的总体章节安排练习题1 数据仓库与数据库有何不同?它们有哪些相似之处?2 与挖掘少量数据相比,挖掘海量数据的主要挑战是什么?第二章 数据预处理教学目的 使学生掌握数据的清理、集成和变换等预处

7、理的基本方法。重点难点 本章节重点是数据的基本处理方法,难点是处理方法的应用。确保学生对处理方法的理论尚能掌握,进一步增加实际应用方面的操作。教学时数 3(教学)教学内容 数据预处理的基本概念、数据的描述、数据清洗、数据集成和转换和数据归约和变换等。第1节 前言第2节 数据预处理的基本概念1 数据的基本概念2 为什么要进行数据预处理3 数据预处理的任务第3节 数据的描述1 描述数据的中心趋势2 描述数据的分散程度3 描述数据的其他方式第4节 数据清洗1 数据缺失的处理2 数据清洗第5节 数据集成和转换1 数据集成2 数据冗余性3 数据转换第6节 数据归约和变换1 数据归约2 数据离散化3 概念

8、层次生成练习题1 数据质量可以从多方面评估,包括准确性、完整性和一致性问题。对于以上每个问题,讨论数据质量的评估如何依赖于数据的应用目的,给出例子。2讨论数据集成需要考虑的问题。第三章 数据仓库教学目的 使学生掌握数据仓库的定义、多维数据模型和OLAP技术。重点难点 本章节的重点是数据仓库的定义,难点是数据仓库的存储结构模式,概念分层的理解,以及数据仓库的设计,要确保学生能较好地掌握,还需课后多查看一些相关的资料。教学时数 3(教学)教学内容 数据库基本概念、数据仓库的定义、多维数据模型、数据仓库结构和功能、OLAP技术、数据仓库应用等。第1节 前言第2节 数据库基本概念回顾1 数据库简介2

9、表、记录和域3 数据库管理系统第3节 数据仓库简介1 数据仓库特点2 数据仓库概念3 数据仓库作用4 数据仓库与DBMS对比5 分离数据仓库的原因第4节 多维数据模型1 数据立方体2 概念模型3 概念分层4 典型OLAP操作第5节 数据仓库结构1 数据仓库设计2 多层体系结构第6节 数据仓库的功能1 数据立方体的有效计算2 索引OLAP数据3 OLAP查询的有效处理第7节从 数据仓库到数据挖掘1 数据仓库应用2 从OLAP到练习题1 简略比较一下概念:(1)数据清理、数据变换、刷新。(2)发现驱动的立方体、多特征立方体、虚拟立方体。2 列举三种流程的数据仓库建模模式。第四章 相关性与关联规则教

10、学目的 了解需求管理的模型和流程;掌握需求获取、确认和控制的基本方法,理解变更控制的重要性。重点难点 本章节重点是关联规则的挖掘,难点是Apriori算法的应用。教学时数 3(教学)+4(实验一、二)教学内容 基本概念、频繁项集挖掘方法、多种关联规则挖掘、从关联分析到相关分析、基于约束的频繁模式挖掘等。第1节 基本概念1 潜在的应用2 购物篮问题3 频繁模式分析、闭项集和关联规则第2节 频繁项集挖掘方法1 Apriori算法2 由频繁项集产生关联规则3 提高Apriori的效率第3节 多种关联规则挖掘1 挖掘多层关联规则2 挖掘多维关联规则3 挖掘量化关联规则第4节 从关联分析到相关分析1 相

11、关分析2 强规则不一定是有价值的3 挖掘高度关联的模式第5节 基于约束的频繁模式挖掘1 关联规则的元规则制导挖掘2 基于约束的模式生成: 模式空间剪枝和数据空间剪枝练习题1简述关联规则挖掘步骤。2简述Apriori算法基本思想。 第五章 分类和预测教学目的 使学生了解并掌握决策树、贝叶斯分类、神经网络、支持向量机等分类和预测算法。重点难点 本章节重点是分类和预测方法的概念,难点是几种主要的分类算法的应用和实现。教学时数 4(教学)+8(实验三、四、五、六)教学内容 分类和预测的基本概念、评价,决策树分类、朴素贝叶斯分类、神经网络、支持向量机、分类准确率等。第1节 前言第2节 基本概念1 什么是

12、分类2 什么是预测第3节 关于分类和预测的问题1 准备分类和预测的数据2 评价分类和预测方法第4节 决策树分类1 决策树归纳2 属性选择度量3 提取分类规则4 基本决策树归纳的增强5 在大数据集中的分类第5节 贝叶斯分类1 贝叶斯定理2 朴素贝叶斯分类3 贝叶斯信念网络4 贝叶斯网络学习第6节 神经网络1 神经网络简介2 多层神经网络3 神经网络训练4 后向传播5 网络剪枝和规则抽取第7节 支持向量机1 数据线性可分的情况2 数据线性不可分的情况3 支持向量机和神经网络的对比第8节 关联分类1 为什么有效2 常见关联分类算法第9节 分类准确率1 估计错误率2 装袋和提升练习题1简述决策树分类的

13、主要步骤。2为什么朴素贝叶斯分类称为“朴素”的?简述朴素贝叶斯分类的主要思想。第六章 聚类分析教学目的 使学生了解并掌握聚类分析的主要算法。重点难点 本章节重点是聚类分析的概念,难点是几种主要的聚类分析算法的应用和实现。教学时数 3(教学)+6(实验七、八、九)教学内容 聚类分析的定义和数据类型,流聚类方法分类与相似性质量,基于分割、层次、密度、网络和模型的聚类等。第1节 聚类分析的定义和数据类型1 聚类的定义2 聚类分析和主要应用3 聚类分析方法的性能指标4 聚类分析使用的数据类型第2节 流聚类方法分类与相似性质量1 聚类分析方法分类2 连续变量的距离与相似性度量3 二元变量与标称变量的相似

14、性度量4 序数和比例标度变量的相似性度量5 混合类型变量的相似性度量第3节基于分割的聚类第4节基于层次的聚类第5节基于密度的聚类第6节基于网格的聚类第7节基于模型的聚类第8节离群点检测 练习题1简略介绍如下聚类方法:基于分割的方法、层基于次的方法、基于密度的方法。 实验教学内容与要求实验一:安装R和操作实验目的 了解R软件的安装流程,利用R中的基本数学函数处理一些简单数据,通过对基本数学函数的操作了解R语言的基本操作过程,从而对R语言形成初步的认识。实验要求 掌握利用R语言实现数据读取功能的程序编写;按照既定格式书写实验报告。实验时数 2实验内容 安装R软件、熟悉菜单,并安装程序包、调用程序包

15、、查看程序包的帮助。实现读取Excel数据并另存为.txt文件的功能。实验二:关联规则挖掘(Apriori算法)实验目的 了解关联规则、频繁项集、闭项集和关联规则等概念。实验要求 掌握关联规则算法的基本思想,熟悉Apriori算法的应用;按照既定格式书写实验报告。实验时数 2实验内容 使用R语言程序实现Apriori算法,挖掘关联知识。实验三:决策树分类(C4.5算法或ID3算法)实验目的 了解决策树归纳、属性选择度量、提取分类规则等概念。实验要求 掌握决策树分类算法的基本思想,熟悉C4.5算法或ID3算法的应用;按照既定格式书写实验报告。实验时数 2实验内容 使用R语言程序实现C4.5或ID

16、3算法。实验四:贝叶斯分类 (NB算法)实验目的 了解贝叶斯定理、朴素贝叶斯分类、贝叶斯信念网络等概念。实验要求 掌握朴素贝叶斯分类算法的基本思想,熟悉NB算法的应用。实验时数 2实验内容 使用R语言程序实现NB算法。实验五:神经网络分类(BP算法)实验目的 了解神经网络、多层神经网络、后向传播、网络剪枝等概念。实验要求 掌握神经网络分类算法的基本原理,熟悉BP算法的应用;按照既定格式书写实验报告。实验时数 2实验内容 使用R语言程序实现BP算法。实验六:支持向量机分类(SVM算法)实验目的 了解数据线性可分、数据线性不可分的概念,能区别支持向量机和神经网络分类的差异性。实验要求 掌握支持向量

17、机分类算法的基本原理,熟悉SVM算法的应用;按照既定格式书写实验报告。实验时数 2实验内容 使用R语言程序实现SVM算法。实验七:基于分割的聚类(K-means算法)实验目的 了解距离、相似度等概念。实验要求 掌握基于分割的聚类算法的基本原理,熟悉K-means算法的应用;按照既定格式书写实验报告。实验时数 2实验内容 使用R语言程序实现K-means算法。实验八:基于层次的聚类(AGNES算法)实验目的 了解凝聚的层次聚类方法、分裂的层次聚类方法、树状图、连接度量等概念。实验要求 掌握基于层次的聚类算法的基本原理,熟悉AGNES算法的应用;按照既定格式书写实验报告。实验时数 2实验内容 使用R语言程序实现AGNES算法。实验九:基于密度的聚类(DBSCAN算法)实验目的 了解邻域密度、核心对象、离群点、密度可达和密度相连等概念。实验要求 掌握基于密度的聚类算法的基本原理,熟悉DBSCAN算法的应用;按照既定格式书写实验报

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论