数据挖掘教学大纲.doc_第1页
数据挖掘教学大纲.doc_第2页
数据挖掘教学大纲.doc_第3页
数据挖掘教学大纲.doc_第4页
数据挖掘教学大纲.doc_第5页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

课程编号:6001420363数据挖掘课 程 教 学 大 纲吉 林 财 经 大 学二五 年 八 月数据挖掘课程教学大纲一、课程基本信息1课程编号:60014203632英文名称:Data Mining3课程模块:专业限选课4课程学时:总计 36 学时,其中,实验(践) 8 学时5学 分:26先(预)修课程:概率与统计,数据库原理7适用专业:计算机科学与技术、电子商务、信息管理与信息系统8修订时间:2015.8二、课程简介数据挖掘是管理科学与信息工程学院开设的一门重要的专业限选课程。本课程主要讲授数据挖掘的基本概念,原理、方法和技术,具体包括:数据的预处理、分类预测、关联挖掘、聚类分析等内容。通过学习,使学生理解数据挖掘的基本流程,掌握数据挖掘的基本理论和技术,熟悉数据挖掘成果的表达;掌握数据挖掘的基本方法,能熟练地应用数据挖掘技术对现实数据进行有效的分析,能够结合Clementine软件从大量统计数据中获取有价值的信息。三、课程教学目标数据挖掘是高级数据处理和分析技术。通过本课程学习,使学生了解数据挖掘这种现代数据分析和知识挖掘方法的思想与技术,了解数据挖掘的基本理论,掌握重要的数据挖掘方法,掌握如何利用Clementine实现数据分析和挖掘,并使学生具有进一步学习的基础与能力。四、教学内容与要求第一章 数据挖掘和Clementine使用概述【教学目的与要求】本章作为绪论,其目的是让学生对数据挖掘技术有一个总体的认识。因此,主要内容是对数据挖掘技术的概念、产生背景、发展趋势以及应用等进行提炼和概括,并熟悉clementine软件的使用环境。要求学生掌握以下内容: 数据挖掘的发展 数据挖掘基本知识 数据挖掘功能 数据挖掘应用 数据挖掘的热点问题 熟悉Clementine软件 【教学重点】1、数据挖掘概念2、数据挖掘分类【教学难点】1、Clementine操作基础【教学内容】 1.1数据挖掘的产生背景1、数据挖掘产生的背景2、数据挖掘的发展3、数据挖掘概述1.2什么是数据挖掘1、数据挖掘概念2、数据挖掘分类3、数据挖掘体系结构1.3 Clementine软件概述1、Clementine的配置2、Clementine操作基础第二章 Clementine数据管理【教学目的与要求】本章中的数据管理主要是指数据挖掘中的数据预处理部分。对数据进行预处理,不但可以节约大量的空间和时间而且得到的挖掘结果能更好地起到决策和预测作用。 数据预处理一般包括:数据清理,数据集成,数据变换,数据归约等方法。要求学生掌握本章讲授的所有数据管理技术。【教学重点】1、数据源节点(Sources) 2、记录选项节点(Record Ops)3、字段选项节点(Field Ops) 【教学难点】【教学内容】2.1数据源节点(Sources)1、从开放数据库中导入数据2、从文本文件中读取数据3、导入Excel格式的数据4、用户手动创建数据2.2记录选项节点(Record Ops)1、选择节点(Select)2、对数据的抽样(Sample)3、修正数据集中的不均匀性(Balance)4、统计汇总(Aggregate)5、对节点数据的排序6、区分节点来清除重复记录2.3字段选项节点(Field Ops)1、变量说明2、变量值的重新计算3、变量类别值的调整4、生成新变量5、变量值的离散化处理6、生成样本集分割变量第三章 Clementine数据的基本描述分析【教学目的与要求】基本描述分析是数据分析的基础,通常对数值型变量进行描述分析,涉及数据的集中趋势和离散程度。描述集中趋势的描述性统计量一般有均值、中位数和众数;描述离散程度的描述性统计量一般有方差、标准差和极差。 要求学生掌握Clementine数据的基本分析方法。【教学重点】1、数据质量探索2、数据基本描述分析【教学难点】1、两分类变量相关性的研究【教学内容】 3.1数据质量探索1、数据的基本描述与质量探索2、离群点和极端值的修正3、缺失值的替补4、数据质量管理的其他功能3.2数据基本描述分析1、计算基本描述统计量2、绘制散点图3.3两分类变量相关性的研究1、两分类变量相关性的图形分析2、两分类变量相关性的数值分析3.4两总体的均值比较3.5变量重要性分析第四章 关联规则挖掘【教学目的与要求】关联规则是形如XY的蕴涵式,其中, X和Y分别称为关联规则的先导(antecedent或left-hand-side, LHS)和后继(consequent或right-hand-side, RHS) 。其中,关联规则XY,存在支持度和信任度。本章对关联规则挖掘中的概念、方法、算法进行全面的分析和讲解。由于关联规则挖掘是数据挖掘技术中研究最早、成果最多、相对比较成熟的分支,因此本章重点在于一些经典理论和算法、热点问题的介绍。要求学生掌握以下内容: 关联规则相关概念 Apriori算法 在Clementine中应用Apriori算法 【教学重点】1、关联规则相关概念2、Apriori算法【教学难点】1、序列模式挖掘【教学内容】 4.1关联规则概述1、基本概念2、关联规则表示3、关联规则挖掘算法简介4.2 Apriori算法1、Apriori算法生成频繁项集的过程2、Apriori算法从频繁项集产生关联规则4.3 在Clementine中应用Apriori算法4.4 序列模式挖掘1、序列与序列模式2、AprioriAll算法3、在Clementine中应用序列模式挖掘第五章 分类与预测【教学目的与要求】。分类是指把数据样本映射到一个事先定义的类中的学习过程,即给定一组输入的属性向量及其对应的类,用基于归纳的学习算法得出分类。预测可以涉及数据值预测和类标记预测,但预测通常指值预测。两者的区别是,分类是用来预测数据对象的类标记,而预测则是估计某些空缺或未知值。分类与预测在数据挖掘中是一项非常重要的方面,本章对分类与预测的基本概念与步骤、经典的方法以及有关的问题进行了阐述。要求学生掌握如下内容:分类和预测数据分析形式 ID3算法 C4.5算法 logistic回归分析【教学重点】1、决策树概述2、ID3算法3、C4.5算法【教学难点】1、logistic回归分析【教学内容】 5.1分类与决策树概述1、分类和预测数据分析形式介绍2、决策树概述5.2 ID3、C4.5与C5.0算法及应用1、信息熵计算2、决策树归纳策略3、ID3算法及缺点4、C4.5算法5、C5.0算法及优点6、在Clementine中应用C5.05.3 二项logistic回归分析5.4 二项logistic回归分析应用第六章 聚类分析【教学目的与要求】聚类是将数据分类到不同的类或者簇的过程,所以同一个簇中的对象有很大的相似性,而不同簇间的对象有很大的相异性。聚类分析是一种探索性的分析,在分类的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。聚类能够作为一个独立的工具获得数据的分布状况,观察每一簇数据的特征,集中对特定的聚簇集合作进一步地分析。聚类分析还可以作为其他算法(如分类和定性归纳算法)的预处理步骤。聚类是数据挖掘技术中一个重要组成部分,内容很多,因此要求学生掌握聚类分析原理、基本方法和主要算法。 【教学重点】1、聚类分析原理2、主要聚类方法分类【教学难点】1、K-means算法2、两步聚类算法【教学内容】 6.1聚类分析的一般问题1、聚类分析介绍2、聚类分析应用领域3、聚类分析原理4、主要聚类方法分类6.2 Clementine的k-means聚类及应用1、K-means算法2、K-means算法的优缺点3、在Clementine中应用K-Means 6.3 Clementine的两步聚类及应用1、两步聚类算法2、Clementine的两步聚类应用五、实践环节实验1:一个完整的数据挖掘过程【实验目的】1、理解数据挖掘过程2、熟练掌握Record选项卡中各功能节点的使用3、熟练掌握Field选项卡中各功能节点的使用【实验内容】本实验数据源是 “drug.txt”,以往有大批患有同种疾病的不同病人,在服用了五种药物中的一种之后都取得了同样的治疗效果。这里的数据是随机挑选的部分病人服用药物前的基本临床检查数据,包括血压(BP,分为高血压High、正常Normal、低血压Low)、胆固醇(Cholesterol,分为正常Normal和高胆固醇High)、唾液中钠元素(Na)和钾元素(K)含量,以及病人年龄(Age)、性别(Sex,包括男M和女F)等。通过数据分析发现以往处方适用的规律,给出不同临床特征病人更适合服用那种药物的建议,为未来医生填写处方提供参考。实验2:在Spss-Clementine中进行关联规则挖掘【实验目的】1、理解关联规则挖掘原理2、掌握Apriori节点和GRI节点使用3、用 Spss-Clementine 软件实现基本的关联分析【实验内容】结合老师所提供数据,做如下实验:1、分析哪些商品会和啤酒一起购买2、分析不同性别、年龄以及家庭主妇们有怎样的消费偏好3、探寻不同购买物品之间的联系,为货架的摆放提供依据。4、探寻购买不同商品(以酒和饮料为例)的顾客的特征,确定促销信息发放的对象。实验3:使用Binary Classifier节点比较不同模型的优劣【实验目的】1、理解分类挖掘原理2、掌握“二元分类器”节点的使用【实验内容】本次实验将使用系统自带pm_customer_train1.sav 数据作为数据源。从数据上看,在过去的活动中最多的记录数都是在Premium account campaign下。Campaign值为整数定义类型节点(例如:2=Premium account)。数据中也包含了“响应”(对建议的接受与否)的值域:(0 = no, and 1 = yes),它将是数据挖掘的目标、预测的对象。基于顾客的属性,例如收入、年龄、每个月的交易次数等,用这些信息构建或者训练一个模型来预测“响应”率。希望预测数据中的response,看看预测结果与实际结果匹配的程度。实验4:在Clementine中使用K-means进行聚类分析【实验目的】 1、理解聚类分析挖掘原理2、掌握K-means节点使用【实验内容】1、本次实验将使用系统自带DEMO文件夹中的snapshottrainN.db 数据作为数据源。通过使用K-means建立模型,主要是根据收集的个人的一系列属性把人群进行聚类分析,并分为k(这里取5)类的过程。2、现有数据drink.sav,收集了16种饮料的热量(calorie)、咖啡因(caffeine)、钠(sodium)及价格(price)四个变量的值。现在希望利用这四个变量对这16种饮料进行聚类。3、分析经济发展水平。这里,以我国31个省市自治区2008年各地区经济发展的数据K-Means.sav为例(在“数据与案例”文件夹中),讨论K-Means的具体操作。 变量从x1到x11依次表示:人口数及分性别人口数,反映各地的人口水平;出生预期寿命和每万人平均病床数,反映各地区人民健康水平;大专以上文化程度人口比例反映各地区的教育水平;人均GDP、第三产业增加值占GDP比例、人均道路面积、省会城市空气质量达到并好于二级的天数以及人均环境污染治理投资额,反映各地区的经济发展和社会环境水平等。 分析目标:根据所给变量,研究我国31个省市自治区的综合发展水平,分析那些省市自治区处在相同的发展结构水平上。六、教学方法与手段本课程采用案例教学法。教师通过讲解带有一定应用背景的实例,提升学生学习的兴趣,并使学生通过课堂学习了解理论知识,并能带着问题去查阅相关资料,提升学生的自学能力。作业题均为一些实际问题,要求学生能利用数据挖掘基本原理和方法,结合Clementine软件完成一定量的数据分析。七、各教学环节学时分配序号教学章理论讲授学时实验(践)学时讨论、测验等学时1第1章 数据挖掘和Clementine使用概述22第2章 Clementine数据管理43第3章 Clementine数据的基本分析424第4 章 关联规则挖掘625第5章

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论