



免费预览已结束,剩余1页可下载查看
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1.当前数据挖掘研究的主要方向n 数据挖掘研究的发展方向n 新的应用领域 新的工作形式 新的数据类型 数据挖掘的进一步深入2.数据挖掘的技术定义定义:数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的,人们事先不知道的、但又是潜在有用的信息和知识的过程. 3.为什么要 挖掘 数据? 商业观点n 大量的数据被收集,贮入仓库n 计算机已经变的越来越便宜,功能越来越强大n 企业竞争压力大 为什么 挖掘数据? 科学的观点n 数据的收集和存储正以高速进行 传统的技术方法对原始数据已不可实行4.知识发现过程、数据准备n 、数据挖掘阶段n 、结果解释和评价5.数据挖掘的地位n KDD(knowledge discovery in data)是一种知识发现的一连串程序,数据挖掘只是KDD的一个重要程序.n 数据挖掘的质量取决于两方面的影响:一、所采用的数据挖掘技术的有效性; 二、用于挖掘的数据的质量数量(数据量的大小)6、.数据挖掘的对象关系数据库数据仓库事务数据库高级数据库系统7、数据仓储应该具有这些数据:整合性数据(integrated data)、详细和汇总性的数据(detailed and summarized data)、历史数据、解释数据的数据。从数据仓储挖掘出对决策有用的信息与知识,是建立数据仓储与使用Data Mining的最大目的8、Data Mining常能挖掘出超越归纳范围的关系,但OLAP仅能利用人工查询及可视化的报表来确认某些关系,.主要差异在于Data Mining用在产生假设,OLAP则用于查证假设9、数据挖掘主要有两大类主要任务:分类预测型任务和描述型任务10、数据挖掘的任务分类 预测性的 聚类 描述性的 关联规则发现 描述性的序列模式发现描述性的 预测回归 预测性的异常发现 预测型的11、聚类方法主要包括划分聚类、层次聚类、基于密度的聚类和kohonen聚类等;进行划分聚类,一般用距离来度量对象之间的相似性,典型的是欧氏距离;距离越大,则相似性越小,反之亦然;12、.序列模式发现目的:找出规则来预测在不同时间点上很强的序列依赖性.异常检测n 从正常的行为中检测有意义的异常n 应用: 信用卡欺诈检测 网络侵扰检测数据挖掘采用了分类和归纳这些典型的统计方法,它仍然有自己显著的特点:一、模型的复杂性 二、问题大型性. 三、变量的离散性13.统计学是一门收集、组织数据并从这些数据集中得出结论的科学算术平均数.集中趋势的测度值之一 最常用的测度值 .一组数据的均衡点所在.易受极端值的影响 用于数值型数据表示一组已按升序排列的容量 为n的数据集,那么中位数可以表示如下:14、中位数1. 集中趋势的测度值之一2. 排序后处于中间位置上的值 不受极端值的影响n 主要用于定序数据,也可用数值型数据n 各变量值与中位数的离差绝对值之和最小15、定义:众数是指社会现象总体中最普遍出现的标志值。n 出现次数最多的标志值就是众数16、定序数据是表示有相对重要性的类别的数值数据,可用于给强度、重要性分等级.例如,用1-5表示用户对某产品的质量评价,分别表示很差、较差、中等、较好、很好. 贝叶斯定理提供了一种由概率 、和 来计算后验概率的方法,其基本关系是:v 聚类:是一个数据集 将数据集划分为若干组(class)或类(cluster)的过程,并使得同一个组内的数据对象具有较高的相似度; 而不同组中的数据对象是不相似的。v 聚类分析 将一组(set)物理的或抽象的对象,根据它们之间的相似程度,分为若干组(group);v 聚类是一种无监督的分类方法:不能事先定义类v 典型的应用 作为一个调度的工具获得数据分布 作为其他算法的一个组成部分样本数据与小类、小类与小类之间的度量1 、最短距离法T为一给定的阈值,如果对任意的 ,有 ( 为 的距离),则称G为一个类。v 两个类之间的距离是从两个类中抽取的每对样本(一个取自第一个类,另一个取自第二个类)的距离中的最小值。最长距离法: 两个类之间的距离是从两个类中抽取的每对样本(一个取自第一个类,另一个取自第二个类)的距离中的最大值什么是好的聚类方法?v 一个好的聚类方法可以产生高质量的聚类: 类的内部具有较高的相似度 类间具有较低的相似度v 聚类结果的质量依赖于相似度评价方法以及它们的应用;v 聚类结果的质量也取决于它发现隐藏模式的能力。.K-均值聚类v K-均值聚类方法是最简单、最常用的使用使用准则的方法。v K-均值聚类是属于划分方法中的基于质心技术的一种方法。划分的思路是以k为参数,把n个对象分为k 个类,以使类内具有较高的相似度,而类间的相似度较低。相似度的计算根据一个类中对象的平均值(被看作类的重心)来进行。v K-均值聚类的处理流程如下。首先,随机选择k个对象,每个对象都初始地代表一个类的平均值或中心。对剩余的对象,根据其与各自类中心的距离,将它赋给最近的类。然后重新计算每个类的平均值。这个过程不断重复,直到准则函数收敛。v 注意:类均值的初始值是任意分配的,可以随机分配也可以直接使用前K个成员的属性值。K-均值法要求定义的类均值存在,并且要以期望的类的数目k作为输入。 要求用户必须事先给出k(要生成的类的数目)可以算是该方法的一个缺点。而且,它对于“噪声”和孤立点数据是敏感的,少量的该类数据能够对平均值产生极大的影响。增量聚类v 1、对样本排序后,把第一个数据项分配到第一个类里。v 2、考虑下一个数据项,把它分配到目前某个类中或一个新类中。给分配是基于一些准则的,例如新数据项到目前类的重心的距离。在这种情况下,每次添加一个新数据项到一个目前的类中时,需要重新计算重心的值。v 3、重复步骤2,直到所有的数据样本都被聚类完毕。v 缺点:依赖数据项的顺序 。增量聚类对样本的顺序非常敏感。对于不同的顺序,该方法会生成完全不同的类。定义 给定一个数据库D=t1,t2,tn,其中ti=,数据库模式包含下列属性A1,A2,,An。同时给定类别集合C=C1,Cm。对于数据库D,决策树或者分类树是指具有下列性质的树:1、每个内部结点都被标记一个属性Ai。2、每个弧都被标记一个谓词,这个谓词可应用于相应父结点的属性。3、每个叶结点都被标记一个类Cj。n 利用决策树求解分类问题包括两个步骤:n 1、决策树归纳,利用训练数据构建一棵决策 树。n 2、对每个元组tiD,应用决策树确定元组的类别。Gain(S, A)是指已知属性A的值后导致熵的减少。Gain(S, A)越大,说明选择测试属性A对分类提供的信息越多。通过分裂,我们希望得到尽可能纯的节点,这相当于降低了系统的熵。 决策树的特点是非常直观,易于理解,符合人们的决策思维。此外,决策树也很容易转化为规则的形式1、你被搁浅在一个荒岛上,岛上到处都长满了蘑菇,但是找不到其他食物。有些蘑菇已被确定是有毒的,而其他无毒(通过先前同班的试验和错误而确定)。你是唯一留在荒岛上的人。你有如下数据:实例厚实否有味否有斑点否光滑否有毒否A0000 0B0010 0C1101 0D1001 1E0110 1F0011 1G0001 1H1100 1U1111 ?V0101 ?W1100 ?n 你知道蘑菇AH是否有毒,但不知道UW是否有毒。对于前两个问题,只考虑AH。1)“有毒否”的熵是多少?2)你应当选择哪个属性作为决策树根节点?3)使用ID3算法构造一棵决策树,并预测案例U、V和W2、假定你是学院篮球队队长,根据下表给出记录,设计一种赢得下场比赛的策略。地点时间Sachin首发Girish进攻Girish防御对手中锋 结果学院7pm
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 设立海外公司管理制度
- 设计开发变更管理制度
- 设计项目分级管理制度
- 诊所医保制度管理制度
- 诊疗科目各项管理制度
- 试验检测业务管理制度
- 财务销售流程管理制度
- 财政财务票据管理制度
- 货物搬运现场管理制度
- 货车安全生产管理制度
- 湖北黄冈历年中考作文题(2002-2023)
- GB/T 10810.1-2025眼镜镜片第1部分:单焦和多焦
- 2024年烟台市烟台山医院招聘考试真题
- 酒店前台培训内容
- 国开本科《人文英语3》期末机考总题库及答案
- 2025年包养合同模板
- 《SPE固相萃取技术》课件
- 高中数学复习 导数压轴大题归类 (原卷版)
- 环境友好型飞机内饰-深度研究
- 《crrt低血压的处理》课件
- 马诗听评课记录范文
评论
0/150
提交评论