版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第1章了解数据挖掘,数据挖掘定义机器学习数据查询专家系统数据挖掘过程/功能/技术/应用Weka数据挖掘软件,2020年7月4日星期六,第2页,共66页,本章旨在掌握数据挖掘的定义,了解机器学习的基本方法,概念学习,归纳学习,引导学习,无监督聚类,了解与数据挖掘相关的数据查询,专家系统,了解数据挖掘的过程,功能,技术和应用,1.1数据挖掘定义,2020年7月4日星期六,第4页,共66页,数据目的是发现和发现数据中潜在的有价值的信息、知识、规则、联系和模式。数据挖掘与计算机科学相关,通常通过机器学习、统计学、在线分析处理、专家系统和模式识别来实现。从学科角度来看,数据挖掘是一门跨学科的学科,涉及数
2、据库技术、人工智能技术、统计学、可视化技术、并行计算等技术。2020年7月4日星期六,第5页,共66页,从商业角度看商业智能信息处理技术;它以业务目标为中心,是一种深层次的业务数据分析方法,用于提取、转换、分析和处理大量业务数据,提取关键数据以辅助业务决策,并揭示隐藏的、未知的或已验证的已知规律性。数据挖掘),1.2机器学习,2020年7月4日,星期六,第7页,第66页,1.2.1概念学习,通过训练大量的例子,发现经验法则的过程。机器学习结果的常见表达是概念。机器最擅长学习概念。具有某些共同特征的对象、符号或事件的集合。概念可以从三个不同的角度来看:星期六,2020年7月4日,第8页,共66页
3、,1.2.1概念学习,1。经典观点,所有的概念都有明确的定义。2.概率视图给出了单个样本示例的一般描述,该一般描述构成了概率视图中的概念。3.样本视图样本视图中的概念是在一个概念中形成一组典型示例,并使用这组示例来描述概念定义。星期六,2020年7月4日,第9页,共66页,1.2.2基于归纳的学习,是人类学习的最重要的方式之一,是人类通过观察事物的具体例子来研究他们已经掌握的现有经验材料。归纳学习从归纳中获得和探索新知识,并以概念的形式表达出来。星期六,2020年7月4日,第10页,共66页,1.2.3 SupervisedLearning,定义为通过训练大量已知分类或输出结果的例子,可以调整
4、分类模型的结构,从而达到建立一个能够准确分类或预测的未知模型的目的。这种基于归纳的概念学习过程称为监督学习。数据实例用于引导学习的样本数据,训练实例用于训练,测试实例用于测试在建立分类模型后,模型是否能很好地应用于未知实例的分类或预测。示例1.1给定表1.1中所示的数据集t,通过使用引导学习方法对未知类别的情况进行分类来建立分类模型。星期六,2020年7月4日,第12页,共66页,表1.1“感冒诊断的假设数据集”,星期六,2020年7月4日,第13页,共66页,决策树,倒排树,非叶节点表示对一个属性的分类检查,叶节点表示选择正确分类的决策判断的结果,决策树中有许多算法(第2章),图1.1 C4
5、.5用于感冒类型诊断的决策树,星期六,2020年7月4日,共14页,共66页,分类未知经过分类模型的建立和检验,它可以投入实际使用,也就是说,它可以用来对未知的分类案例进行分类。表1.2未知分类的数据示例,2020年7月4日星期六,第15页,共66页,生产规则和决策树通常可以转换为生产规则集。生产规则的格式是:如果先决条件那么结论图1.1翻译成四个生产规则(1)如果喉咙痛=非编码类型=病毒(2)如果喉咙痛=是冷却效果=好的冷却类型=病毒(3)如果喉咙痛=是冷却效果=不好的冷却类型=细菌(4)如果分类抛出=是冷却效果=未知编码类型=细菌,星期六,2020年7月4日,第16页,共66页,1.2.4
6、无监督分类根据一定的相似性度量方法,数据实例计算实例之间的相似性,对聚类中最相似的实例进行聚类,解释和理解每个聚类的含义,并找出聚类的含义。例1.2,给定表1.1中所示的数据集t,所有的例子通过无监督聚类方法分类,并且解释每个聚类的含义。星期六,2020年7月4日,第18页,共66页,挖掘准备,删除冷型属性选择算法有许多无监督聚类算法,如K-means算法,内聚聚类法,概念层次蛛网算法,EM算法等。K-means算法是最常见和最容易使用的算法。K-means(K- means)算法在聚类之前指定初始聚类数,在本例中指定为2。星期六,2020年7月4日,第19页,共66页,聚类结果,聚类是两个聚
7、类,每个聚类有五个实例,即聚类0=1,3,4,8,9聚类1=2,5,6,7,10每个聚类的概念结构可以表示为生产规则(1)如果增加-lym=是冷却-效果=goodthencluster=0(规则精度=4/4=100%, 规则覆盖率=4/5=80%) (2)如果排序抛出=是冷却效果=不好则集群=1(规则准确度=4/4=100%,规则覆盖率=4/5=80%),1.3数据查询,2020年7月4日星期六何时使用数据挖掘以及何时使用数据查询? 获取肤浅知识或多维知识获取潜在和隐藏信息或数据中的隐藏知识,1.4专家系统,2020年7月4日,星期六,第23页,共66页,专家系统,一种具有“智能”的计算机软件
8、系统。它可以模拟人类专家在某一领域的决策过程,解决需要人类专家处理的复杂问题。一般来说,它包含领域专家以规则形式表达的知识和经验,系统使用这些知识和方法进行推理和判断,从而解决该领域的实际问题。有能力解决该领域复杂问题的人通常被称为该领域的专家。2020年7月4日星期六,第24页,共66页,专家系统方法和数据挖掘方法,图1.2专家系统方法和数据挖掘方法,1.5数据挖掘过程,2020年7月4日星期六,第26页,共66页。数据挖掘是KDD过程的一个阶段(第三章)。数据挖掘实验分为四个步骤:(1)准备数据,包括准备训练数据和检查数据;(2)选择数据挖掘技术或算法,并将数据提交给数据挖掘软件;(3)解
9、释和评估结果;(4)应用该模型,图1.3数据挖掘实验流程示意图,2020年7月4日星期六,第27号数据挖掘目标明确后,可以从传统数据库、数据仓库和平面文件中收集和提取数据。1.传统的数据库操作数据库是用于日常事务处理的数据库,通常具有关系模型结构。数据库包含几个标准化的二维关系表。2.数据仓库数据仓库是为决策支持而不是日常事务处理而设计的。3.平面文件某些数据量小的数据集可以存储在平面文件中,如Excel电子表格。csv。arff等。2020年7月4日星期六,第28页,共66页,1.5.2挖掘数据,选择数据挖掘技术或算法,将数据提交给数据挖掘工具,并应用该算法构建模型。在选择数据挖掘技术或算法
10、时,我们应该考虑(1)学习是否有针对性。(2)将数据集中的哪些实例和属性提交给数据挖掘工具;哪些数据示例被用作训练数据;哪些数据示例被用作测试数据。(3)如何设置数据挖掘算法的参数。2020年7月4日星期六,第29页,共66页,1.5.3解释和评估结果,检查数据挖掘的输出,评估其是否达到挖掘目标,并确定发现的信息或知识是有价值的。数据挖掘有许多评估工具(第5章)。如果结果不令人满意,你可以重复实验(1)和(2),直到你得到满意的结果。(1)使用或选择新的数据实例或属性(2)选择新的数据挖掘算法或参数。数据挖掘过程是一个迭代过程。2020年7月4日星期六,第30页,共66页,1.5.4模型应用程
11、序,数据挖掘的最终目标。分类模型可用于解决如示例1.1中的疾病诊断问题。聚类模型可以用来对顾客进行分类,找出不同类别顾客的行为特征,从而为促销活动提供决策支持;通过应用相关分析模型,可以找出顾客购买的商品之间的相关性,为货架摆放和商品促销提供决策支持。1.6数据挖掘的作用,2020年7月4日,星期六,第32页,共66页,数据挖掘的作用,建立监督学习模型和非监督聚类模型。在依赖变量指导的学习模型中,输出属性值依赖于输入属性值,因此输出属性也称为独立变量,而输入属性称为独立变量。2020年7月4日星期六,第33页,共66页,数据挖掘的作用,图1.4,数据挖掘的作用,1.7数据挖掘技术,2020年7
12、月4日星期六,第35页,共66页,数据挖掘技术,它将数据挖掘方法应用于一组数据。它通常由数据挖掘算法和相关的知识结构来定义,例如树结构或规则。2020年7月4日星期六,第36页,共66页,1.7.1神经网络,一种具有统计特征的数学模型。创造的思想来源于人类神经网络的结构、功能和运行过程。试着模拟人脑的功能来完成学习。它已经成功应用于许多领域,是一种非常流行的数据挖掘技术。可以建立引导学习模型和无监督聚类模型。输入属性必须是数字,输出属性可以是数字或分类。2020年7月4日星期六,第37页,共66页,前馈神经网络,一种常用的引导学习模型。每层中的所有节点都连接到下一层中的所有节点,但同一层中的节
13、点不连接。每个网络连接都有一个权重值,如w1j、w2j和w3j。图1.5三层全连通前馈神经网络,2020年7月4日星期六,第38页,共66页,有两个建立神经网络模型的阶段。第一阶段是学习和训练阶段,其中每个实例的输入属性值被提交给输入层节点。神经网络使用输入值和网络连接权重值来计算每个实例的输出。将每个实例的输出与所需的网络输出进行比较,通过修改连接权重,将所需值和计算的输出值之间的误差传输回网络。在达到一定的迭代次数之后,或者当网络收敛到预定的最小错误率时,训练终止。在第二阶段,网络的权重是固定的,模型用于计算新实例的输出值。2020年7月4日星期六,第39页,共66页,1.7.2回归分析,
14、一种统计分析方法。它可以用来确定两个或多个变量之间的定量相关性,并建立数学方程作为数学模型来概括一组数值数据,然后对数值数据进行评估和预测。它被广泛使用。2020年7月4日星期六,第40页,共66页,办公楼数据集,表1.3办公楼数据集,2020年7月4日星期六,第41页,共66页,回归模型,y=27.642500 12529 . 773 . 4729399795有一栋面积为2,500、3间办公室和2个入口的价值未知的办公楼,已使用25年,其估计价值为1581.7.3关联分析是一种关联规则挖掘技术,用于发现数据中属性之间有价值的联系。关联规则可以有多个输出属性,一个规则的输出属性可以用作另一个规则的输入属性。关联分析是购物篮分析的常用技术,用于发现潜在的有趣商品购买组合。关联分析的算法很多,其中最著名的是阿格拉瓦尔等人在1993年提出的Apriori关联分析算法。Apriori算法不支持数值数据。在使用该算法之前,需要进行必要的数据转换。例1.3,用Apriori算法分析表1.1中数据集之间的相关性,找出感冒症状之间的相关性。2020年7月4日,星期六,第44页,共66页,关联规则,生成三个关联规则:(1)如果白
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年机械员考试题库(附答案)综合题
- 2026年8月基孔肯雅热诊疗培训测试题(含答案)
- 2026年河北省武安市高三生物上册期末考试模拟考试卷(综合题)附答案
- 2026年基孔肯雅热培训考试试题(附答案)
- 2026年贵州省清镇市高三生物上册期末考试模拟测试卷及完整答案【易错题】
- 2026年金融学专升本试题(含答案)
- 2026年检验科第一季度生物安全考核试题(含答案)
- 2026年湖南省武冈市高二生物下册期末考试考试卷含答案(A卷)
- 2026年浙江省义乌市高二生物下册期末考试模拟卷带答案(综合题)
- 2026年云南省开远市高二生物下册期末考试考试卷含完整答案【网校专用】
- 2026年《长征》试题及答案
- 情绪传播机制-洞察与解读
- 2026广东佛山市顺德区村(社区)大学生CEO选聘100人备考题库及1套参考答案详解
- 2026广东佛山市顺德区村(社区)大学生CEO选聘100人备考题库完整答案详解
- 2026年普通高等学校招生全国统一考试(北京高考卷)数学试卷
- 2026年河口区卫生类事业单位公开招聘工作人员(24人)笔试参考题库及答案详解
- 2026年福建厦漳泉城际铁路有限责任公司社会招聘34人笔试备考题库及答案详解
- 北师大版三年级下册数学总复习《数与代数》教学课件(新教材)
- 山东省烟台市2025-2026学年高一下学期期中学业水平诊断物理试卷(含答案)
- 铸造车间安全生产守则培训课件
- 专题05 语言表达与应用(仿写、续写、补写句子)(期末真题汇编)七年级语文下学期新教材统编版(原卷版)
评论
0/150
提交评论