




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第1章 认识数据挖掘,数据挖掘定义 机器学习 数据查询 专家系统 数据挖掘过程/作用/技术/应用 Weka数据挖掘软件,本章目标,掌握数据挖掘的定义 了解机器学习中的基本方法 概念学习 归纳学习 有指导的学习 无指导的聚类 了解与数据挖掘有关的数据查询、专家系统 了解数据挖掘的过程、作用、技术、应用 掌握Weka数据挖掘软件的使用方法,2020年7月6日星期一,第2页,共65页,1.1 数据挖掘定义,数据挖掘(Data Mining),技术角度 利用一种或多种计算机学习技术,从数据中自动分析并提取信息的处理过程。 目的是寻找和发现数据中潜在的有价值的信息、知识、规律、联系和模式。 数据挖掘与计
2、算机科学有关,一般使用机器学习、统计学、联机分析处理、专家系统和模式识别等多种方法来实现。 学科角度 数据挖掘是一门交叉学科,涉及数据库技术、人工智能技术、统计学、可视化技术、并行计算等多种技术。,2020年7月6日星期一,第4页,共65页,商业角度 商业智能信息处理技术; 围绕商业目标开展的,对大量商业数据进行抽取、转换、分析和处理,从中提取辅助商业决策的关键性数据,揭示隐藏的、未知的或验证已知的规律性,是一种深层次的商业数据分析方法。,2020年7月6日星期一,第5页,共65页,数据挖掘(Data Mining),1.2 机器学习,1.2.1 概念学习,通过对大量实例进行训练,从中发现经验
3、化规律的过程。 机器学习结果的通常表现形式为概念。 机器最擅长的是学习概念。 概念(Concept) 具有某些共同特征的对象、符号或事件的集合。 概念可以从三个不同的角度来看待,2020年7月6日星期一,第7页,共65页,1.2.1 概念学习,1、传统角度(Classical View) 所有概念都有明确的定义。 2、概率角度(Probabilistic View) 对个别样本实例进行概括性描述,概括性说明构成了概率角度中的概念。 3、样本角度(Exemplar View) 样本角度中的概念是将某个概念中的典型实例组成一个集合,使用该集合来描述概念定义。,2020年7月6日星期一,第8页,共6
4、5页,1.2.2 归纳学习(Induction-Based Learning),基于归纳的学习 机器学习方式 人类学习最重要方式之一 人类通过对事物的特定实例的观察,对所掌握的已有经验材料研究。 归纳学习 从归纳中获取和探索新知识,并以概念的形式表现出来的学习。,2020年7月6日星期一,第9页,共65页,1.2.3 有指导的学习(Supervised Learning),定义 通过对大量已知分类或输出结果值的实例进行训练,调整分类模型的结构,达到建立能够准确分类或预测未知模型的目的。这种基于归纳的概念学习过程被称为有指导(监督)的学习。 数据实例(Instance) 用于有指导学习的样本数据
5、 训练实例(Training Instance) 用于训练的实例 检验实例(Test Instance) 分类模型建立完成后,经过检验实例进行检验,判断模型是否能够很好地应用在未知实例的分类或预测中。,2020年7月6日星期一,第10页,共65页,【例1.1】,给定如表1.1所示的数据集T,使用有指导的学习方法建立分类模型,对未知类别的实例进行分类。,表1.1 感冒诊断假想数据集,2020年7月6日星期一,第12页,共65页,表1.1 感冒诊断假想数据集,决策树(Decision Tree),倒立树,非叶子节点表示在一个属性上的分类检查,叶子节点表示决策判断的结果,该结果选择了正确分类较多实例
6、的分类。 决策树有很多算法(第2章),2020年7月6日星期一,第13页,共65页,图1.1 感冒类型诊断C4.5决策树,分类未知实例,分类模型建立和检验完成后,就可以实际投入使用,即用该模型对未知分类的实例进行分类。,2020年7月6日星期一,第14页,共65页,表1.2 未知分类的数据实例,产生式规则,决策树一般都可以被翻译为一个产生式规则集合。 产生式规则的格式为: IF 前提条件 THEN 结论 图1.1翻译为4条产生式规则 (1)IF Sore-throat = No THEN Cold-type = Viral (2)IF Sore-throat = Yes & Cooling-e
7、ffect = Good THEN Cold-type = Viral (3)IF Sore-throat = Yes & Cooling-effect = Not good THEN Cold-type = Bacterial (4)IF Sore-throat = Yes & Cooling-effect = Unknown THEN Cold-type = Bacterial,2020年7月6日星期一,第15页,共65页,1.2.4 无指导的聚类(Unsupervised Clustering),无指导(监督)聚类 一种无指导(无教师)的学习; 在学习训练之前,无预先定义好分类的实例,数
8、据实例按照某种相似性度量方法,计算实例之间的相似程度,将最为相似的实例聚类在一个组簇(Cluster)中,再解释和理解每个簇的含义,从中发现聚类的意义。,2020年7月6日星期一,第16页,共65页,【例1.2】,给定如表1.1所示的数据集T,使用无指导聚类方法,对所有实例进行分类,解释每个簇的含义。,挖掘准备,删除Cold-type(感冒类型)属性 选择算法 无指导聚类有很多种算法, K-means(K-均值)算法、凝聚聚类方法、概念分层Cobweb算法、EM算法等。 K-means算法是一种最为常用和易用的算法。 指定初始簇 K-means(K-均值)算法在聚类前指定一个初始的簇的个数,本
9、例指定为2。,2020年7月6日星期一,第18页,共65页,聚类结果,聚类为两个簇,每个簇有5个实例,分别为 Cluster0 = 1,3,4,8,9 Cluster1 = 2,5,6,7,10 每个簇的概念结构可以表示为一个产生式规则 (1)IF Increased-lym = Yes & Cooling-effect =Good THEN Cluster = 0 (rule accuracy = 4/4 = 100%,rule coverage = 4/5 = 80%) (2)IF Sore-throat = Yes & Cooling-effect = Not good THEN Clu
10、ster = 1 (rule accuracy = 4/4 = 100%,rule coverage = 4/5 = 80%),2020年7月6日星期一,第19页,共65页,1.3 数据查询,数据查询(Data Query),通过数据查询语言在数据中找出所需要的数据或信息。 什么时候使用数据挖掘,什么时候使用数据查询呢? 获取浅知识或多维知识(Multidimensional Knowledge) 获取数据中潜在的、隐藏的信息或知识隐含知识(Hidden Knowledge),2020年7月6日星期一,第21页,共65页,1.4 专家系统,专家系统(Expert System),一种具有“智能
11、”的计算机软件系统。 能够模拟某个领域的人类专家的决策过程,解决那些需要人类专家处理的复杂问题。 一般包含以规则形式表示的领域专家的知识和经验,系统就是利用这些知识和方法进行推理和判断,从而解决该领域中实际问题。 专家(Expert) 有能力解决领域中复杂问题的人通常被称为该领域中的专家(Expert),2020年7月6日星期一,第23页,共65页,专家系统方法 与 数据挖掘方法,2020年7月6日星期一,第24页,共65页,图1.2专家系统方法vs 数据挖掘方法,1.5 数据挖掘的过程,KDD过程,数据挖掘是KDD过程中的一个阶段(第3章) 一次数据挖掘实验分为4个步骤 (1)准备数据,包括
12、准备训练数据和检验数据 (2)选择一种数据挖掘技术或算法,将数据提交给数据挖掘软件 (3)解释和评估结果 (4)模型应用,2020年7月6日星期一,第26页,共65页,图1.3 数据挖掘实验过程示意图,1.5.1 准备数据,是整个数据挖掘过程中较为重要和费时费力的阶段。 在明确数据挖掘目标后,可以通过从传统数据库、数据仓库和平面文件三种途径收集和抽取数据。 1、传统数据库 操作型数据库(Operational Database),它是面向日常事务处理的数据库,通常结构为关系模型。数据库中包含若干个规范化了的二维关系表。 2、数据仓库 数据仓库(Data Warehouse)是面向决策支持而不是
13、日常事务处理而设计的。 3、平面文件 一些数据量较小的数据集可以存储在如Excel电子表格、.csv、.arff等平面文件中。,2020年7月6日星期一,第27页,共65页,1.5.2 挖掘数据,选择一种数据挖掘技术或算法,将数据提交给数据挖掘工具,应用该算法建立模型。 选择数据挖掘技术或算法需要考虑 (1)判断学习是有指导的还是无指导的。 (2)数据集中的哪些实例和属性提交给数据挖掘工具;哪些数据实例作为训练数据;哪些数据实例作为检验数据。 (3)如何设置数据挖掘算法的参数。,2020年7月6日星期一,第28页,共65页,1.5.3 解释和评估结果,对数据挖掘的输出进行检查,评估其是否达到挖
14、掘目标,确定所发现的信息或知识是有价值的。 数据挖掘的评估工具有多种(第5章) 如果结果不理想,可以(1)(2)进行重复实验,直到得到满意结果为止。 (1)使用或选择新的数据实例或属性 (2)选择新的数据挖掘算法或参数 一个数据挖掘过程是个迭代的过程。,2020年7月6日星期一,第29页,共65页,1.5.4 模型应用,数据挖掘的终极目标。 可以应用分类模型解决如例1.1中的疾病诊断问题; 可以应用聚类模型解决对顾客的分类,找出不同类中顾客的行为特征,从而为诸如促销活动等提供决策支持; 可以通过应用关联分析模型,找出顾客购买的商品之间的关联关系,对于货架摆放、商品促销等提供决策支持。,2020
15、年7月6日星期一,第30页,共65页,1.6 数据挖掘的作用,数据挖掘的作用,两大类 建立有指导的学习模型和无指导聚类模型。 因变量(Dependent Variables) 有指导的学习模型中的输出属性的值依赖于输入属性的取值,所以输出属性又被称为因变量 自变量(Independent Variables) 相对的,输入属性被称为自变量,2020年7月6日星期一,第32页,共65页,数据挖掘的作用,2020年7月6日星期一,第33页,共65页,图1.4数据挖掘的作用,1.7 数据挖掘技术,数据挖掘技术(Data Mining Technique),对一组数据应用一种数据挖掘方法。 一般由一个
16、数据挖掘算法和一个相关的知识结构,如树结构或规则来定义的。,2020年7月6日星期一,第35页,共65页,1.7.1 神经网络(Neural Network),一种具有统计特性的数学模型。 创建思想源于人类神经网络的结构、功能和运行过程。 试图模拟人脑功能来完成学习。 已经成功地应用于多个领域的问题中,是非常流行的数据挖掘技术。 可以建立有指导学习模型和无指导聚类模型。 输入属性必须是数值的,输出属性可以是数值的也可以是分类的。,2020年7月6日星期一,第36页,共65页,前馈(Feed-Forward)神经网,常用的有指导的学习模型。 全连接 每一层的每个节点都与其下一层的所有节点相连接,
17、而同层节点之间不相连。 每个网络连接上都具有权重值,如w1j、w2j、w3j。,2020年7月6日星期一,第37页,共65页,图1.5 三层全连接前馈神经网,建立神经网络模型的两个阶段,第一个阶段学习训练阶段 将每个实例的输入属性值提交给输入层节点。神经网络使用输入值和网络连接权重值来计算每个实例的输出。将每个实例的输出和希望的网络输出进行比较,希望值和计算输出值之间的误差通过修改连接权值传回网络。当达到一定的迭代次数后或当网络收敛到一个预定的最低错误率时,训练终止。 第二个阶段检验阶段 固定网络权重,将模型用于计算新实例的输出值。,2020年7月6日星期一,第38页,共65页,1.7.2 回
18、归分析(Regression Analysis),一种统计分析方法。 可以用来确定两个或两个以上变量之间的定量的依赖关系,并建立一个数学方程作为数学模型,来概化一组数值数据,进而进行数值数据的估值和预测。 应用非常广泛。,2020年7月6日星期一,第39页,共65页,办公楼数据集,2020年7月6日星期一,第40页,共65页,表1.3 办公楼数据集,回归模型,2020年7月6日星期一,第41页,共65页,y = 27.642500 + 12 529.773 + 2553.212234.2425 + 52 317.83 = 158 257.56,使用回归方程预估办公楼的价值。 设有一座未知价值的
19、办公楼,面积为 2500、3个办公室、2 个入口,已使用 25 年,则其估计价值计算所得,为158 257.56。,1.7.3 关联分析,一种关联规则(Association Rule)挖掘技术,用于发现数据中属性之间的有价值的联系。 关联规则可以有多个输出属性,一个规则的输出属性可以在另一规则中作为输入属性。 关联分析用来发现潜在的令人感兴趣的商品购买组合,是购物篮分析的常用技术。 关联分析有多种算法,其中最著名的为Agrawal等人于1993年提出的Apriori关联分析算法。 Apriori算法不支持数值型数据,在使用该算法之前,需要进行必要的数据变换。,2020年7月6日星期一,第42
20、页,共65页,【例1.3】,应用Apriori算法,对表1.1中的数据集进行关联分析,找出感冒症状之间的关联关系。,关联规则,生成三条关联规则 (1)IF Leukocytosis = Yes THEN Fever = Yes (rule accuracy = 5/5 = 100%,rule coverage = 5/8 = 62.5%) (2)IF Increased-lym = No THEN Sore-throat=Yes (rule accuracy = 4/4 = 100%,rule coverage = 4/7 = 57.1%) (3) IF Cooling-effect = Go
21、od THEN Fever = Yes (rule accuracy = 4/4 = 100%,rule coverage = 4/8 = 50%),2020年7月6日星期一,第44页,共65页,1.7.4 聚类技术,基于划分的聚类方法(K-means算法) 基于分层的聚类方法 基于模型的聚类方法 。,2020年7月6日星期一,第45页,共65页,1.8 数据挖掘的应用,1.8.1应用领域,2020年7月6日星期一,第47页,共65页,图1.6 网站公布的2012年数据挖掘的应用领域,1.8.2 成功案例,除了最著名的沃尔玛的尿布和啤酒之外,还有 (1)Empire Blue Cross公司利
22、用DWT,甄别出虚假开立医疗凭据的医生,节省滥赔支出。 (2)金融犯罪强制网络AI系统(FAIS)使用DWT ,识别大型现金交易中可能存在的洗钱行为。 (3)加拿大西门菲沙大学(Simon Fraser)的KDD研究组根据其拥有的十几年的客户数据,进行数据挖掘分析,提出了新的电话收费和管理办法,制定出公司和客户都受益的优惠政策。 (4)美国梅隆(Mellon)银行使用Intelligent Agent数据挖掘工具提高销售和定价金融产品的准确率。 (5)美国西部通信(US West Communications)根据家庭大小、家庭成员平均年龄和所在地特征,使用数据挖掘和数据仓库来确定客户的倾向和
23、需要,从而帮助签约新客户和增加与新客户的交易额。 (6)使用贝叶斯分类数据挖掘技术,萨莎(Sacha)等人成功地通过心肌SPECT图像对心肌灌注进行分类,诊断患者是否患有冠心病。 (7)20世纪Fox公司利用数据挖掘技术分析票房收入来确定在各个市场环境中更容易被接受的演员和故事情节。 (8)科学界普遍认为存在两种射线爆。慕克吉(Mukherjee)等人使用统计聚类分析法发现了第三类射线爆。 (9)NBA球队使用IBM公司开发的数据挖掘应用软件Advanced Scout系统来优化他们的战术组合。 (10)全球十大视频网站之一Netflix公司应用大数据的挖掘技术,成功营销热播剧纸牌屋。,202
24、0年7月6日星期一,第48页,共65页,1.9 Weka数据挖掘软件,1.9.1 Weka简介,Weka(Waikato Environment for Knowledge Analysis,怀卡托智能分析环境) 诞生于 University of Waikato(新西兰怀卡托大学)。 基于Java 的免费开源软件。 集成了有关数据挖掘的机器学习算法和统计技术,具有数据预处理、分类、聚类、关联分析、属性选择和交互式可视化等功能。 操作简单、易学易用,作为入门软件完成简单挖掘工作。 若未安装 JRE,需下载包含 JRE 的 Weka 版本(Weka 3.6.10),2020年7月6日星期一,第5
25、0页,共65页,1. Weka的特点,Weka软件特点,(1)跨平台; (2)支持结构化文本文件、数据挖掘格式文件和数据库接口; (3)可处理连续型数值数据和离散型(字符型和日期型)数据; (4)具有缺失数据处理、噪声处理、标准化、数据离散化、属性构造、转换变量、拆分数据、数据平滑等数据预处理功能; (5)具有分类、聚类、关联和可视化等数据挖掘功能; (6)提供算法组合、用户自定义算法嵌入、算法参数设置功能; (7)能够生成基本报告、测试报告、输出格式,实现模型解释、模型比较、数据评分功能; (8)具有数据、挖掘过程及挖掘结果可视化功能。,2020年7月6日星期一,第52页,共65页,2. Weka的文件格式,ARFF文件,Weka默认使用ARFF(Attribute-Relation File Format)。 一种ASCII文本文件格式,由两部分组成 第一部分为头信息(Head Information),包括对关系的声明和对属性的声明; 第二部分为数据信息(Data Information),即数据集中的数据实例(Instance)。,2020年7月6日星期一,第54页,共65页,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 郑州房屋预售管理办法
- 西安药品发放管理办法
- 工商注册验资管理办法
- 如何提高公厕管理办法
- 肯德基美术课件
- 培训师精彩课件
- 儿科护理技能培训课件
- 分班重点数学试卷
- 高邮汪曾祺学校数学试卷
- 赣职22年数学试卷
- 二年级数学无纸化监测试题
- 台区线损综合分析台区线损分类及计算方法
- 全同态加密算法概述
- 【酒店管理系统的设计与开发(论文)】
- 电流、电压指针仪表校验报告
- 六年级下册英语素材-Unit-6-General-revision-3-知识点-人教精通版
- 2023年云南玉溪市直事业单位选调45人笔试备考试题及答案解析
- BS2000标准操作规程
- 中等职业学校英语课程标准(2020年版)(word精排版)
- 毛绒玩具验货报告 格式
- 小学学校教务处年终工作总结以及计划PPT模板下载
评论
0/150
提交评论