基础学习大数据挖掘知识点_第1页
基础学习大数据挖掘知识点_第2页
基础学习大数据挖掘知识点_第3页
基础学习大数据挖掘知识点_第4页
基础学习大数据挖掘知识点_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、2018 年零基础学习大数据挖掘知识点整理1. 数据、信息和知识是广义数据表现的不同形式。2. 主要知识模式类型有:广义知识,关联知识,类知识,预测型知识,特异型知识挖掘研究的主要流派有: Web 结构挖掘、 Web 使用挖掘、 Web 内容挖掘.数据挖掘4. 一般地说, KDD 是一个多步骤的处理过程,一般分为问题定义、数据抽取、数据预处理、 以及模式评估等基本阶段。5. 数据库中的知识发现处理过程模型有:阶梯处理过程模型,螺旋处理过程模型,以用户为中心的处理结构模型,联机 KDD模型,支持多数据源多知识模式的KDD处理模型6. 粗略地说,知识发现软件或工具的发展经历了独立的知识发现软件、横

2、向的知识发现工具集和纵向 的知识发现解决方案三个主要阶段,其中后面两种反映了目前知识发现软件的两个主要发展方向。7. 决策树分类模型的建立通常分为两个步骤:决策树生成,决策树修剪。8. 从使用的主要技术上看,可以把分类方法归结为四种类型:a)基于距离的分类方法b)决策树分类方法c)贝叶斯分类方法d)规则归纳方法9. 关联规则挖掘问题可以划分成两个子问题:a)发现频繁项目集:通过用户给定 Minsupport,寻找所有频繁项目集或者最大频繁项目集。b)生成关联规则:通过用户给定 Minconfidence,在频繁项目集中,寻找关联规则。10. 数据挖掘是相关学科充分发展的基础上被提出和发展的,主

3、要的相关技术:数据库等信息技术的发展统计学深入应用人工智能技术的研究和应用11. 衡量关联规则挖掘结果的有效性,应该从多种综合角度来考虑:a 准确性:挖掘出的规则必须反映数据的实际情况。b 实用性:挖掘出的规则必须是简洁可用的。c 新颖性:挖掘出的关联规则可以为用户提供新的有价值信息。12. 约束的常见类型有:单调性约束 ;反单调性约束 ;可转变的约束 ;简洁性约束 .13. 根据规则中涉及到的层次,多层次关联规则可以分为: 同层关联规则:如果一个关联规则对应的项目是同一个粒度层次,那么它是同层关联规则。 层间关联规则:如果在不同的粒度层次上考虑问题,那么可能得到的是层间关联规14. 按照聚类

4、分析算法的主要思路,聚类方法可以被归纳为如下几种。 划分法:基于一定标准构建数据的划分。属于该类的聚类方法有: k-means、k-modes、k-prototypes、k-medoids、PAM、CLARA CLARANS等。 层次法:对给定数据对象集合进行层次的分解。密度法:基于数据对象的相连密度评价。网格法:将数据空间划分成为有限个单元(Cell)的网格结构,基于网格结构进行聚类。模型法:给每一个簇假定一个模型,然后去寻找能够很好的满足这个模型的数据集。15. 类间距离的度量主要有: 最短距离法:定义两个类中最靠近的两个元素间的距离为类间距离。最长距离法:定义两个类中最远的两个元素间的距

5、离为类间距离。 中心法:定义两类的两个中心间的距离为类间距离。 类平均法:它计算两个类中任意两个元素间的距离,并且综合他们为类间距离: 离差平方和。16. 层次聚类方法具体可分为: 凝聚的层次聚类:一种自底向上的策略,首先将每个对象作为一个簇,然后合并这些原子簇为越来越 大的簇,直到某个终结条件被满足。分裂的层次聚类:采用自顶向下的策略,它首先将所有对象置于一个簇中,然后逐渐细分为越来越小的簇,直到达到了某个终结条件。层次凝聚的代表是 AGNES算法。层次分裂的代表是 DIANA算法。17. 文本挖掘仃D)的方式和目标是多种多样的,基本层次有:关键词检索:最简单的方式,它和传统的搜索技术类似。

6、 挖掘项目关联:聚焦在页面的信息 (包括关键词 )之间的关联信息挖掘上。 信息分类和聚类:利用数据挖掘的分类和聚类技术实现页面的分类,将页面在一个更到层次上进行抽 象和整理。自然语言处理:揭示自然语言处理技术中的语义,实现Web 内容的更精确处理。18. 在 web 访问挖掘中常用的技术:路径分析路径分析最常用的应用是用于判定在一个 Web 站点中最频繁访问的路径, 这样的知识对于一个电子商务网站或者信息安全评估是非常重要的。关联规则发现使用关联规则发现方法可以从 Web 访问事务集中,找到一般性的关联知识。序列模式发现些项跟随另一个项 ”这样的内部事务在时间戳有序的事务集中,序列模式的发现就

7、是指找到那些如 模式。分类发现分类规则可以给出识别一个特殊群体的公共属性的描述。这种描述可以用于分类新的项。聚类可以从 WebUsage 数据中聚集出具有相似特性的那些客户。在Web 事务日志中,聚类顾客信息或数据项,就能够便于开发和执行未来的市场战略。19. 根据功能和侧重点不同,数据挖掘语言可以分为三种类型:数据挖掘查询语言:希望以一种像 SQL这样的数据库查询语言完成数据挖掘的任务。数据挖掘建模语言:对数据挖掘模型进行描述和定义的语言,设计一种标准的数据挖掘建模语言,使 得数据挖掘系统在模型定义和描述方面有标准可以遵循。通用数据挖掘语言:通用数据挖掘语言合并了上述两种语言的特点,既具有定

8、义模型的功能,又能作 为查询语言与数据挖掘系统通信,进行交互式挖掘。通用数据挖掘语言标准化是目前解决数据挖掘行业出 现问题的颇具吸引力的研究方向。20. 规则归纳有四种策略:减法、加法,先加后减、先减后加策略。减法策略:以具体例子为出发点,对例子进行推广或泛化,推广即减除条件(属性值 )或减除合取项 (为了方便,我们不考虑增加析取项的推广 ),使推广后的例子或规则不覆盖任何反例。加法策略: 起始假设规则的条件部分为空 (永真规则 ),如果该规则覆盖了反例, 则不停地向规则增加条 件或合取项,直到该规则不再覆盖反例。先加后减策略: 由于属性间存在相关性, 因此可能某个条件的加入会导致前面加入的条

9、件没什么作用, 因此需要减除前面的条件。先减后加策略:道理同先加后减,也是为了处理属性间的相关性。21. 数据挖掘定义有广义和狭义之分。从广义的观点, 数据挖掘是从大型数据集 (可能是不完全的、 有噪声的、不确定性的、各种存储形式的 ) 中,挖掘隐含在其中的、人们事先不知道的、对决策有用的知识的过程。从这种狭义的观点上,我们可以定义数据挖掘是从特定形式的数据集中提炼知识的过程。挖掘的含义:针对包括 Web 页面内容、页面之间的结构、用户访问信息、电子商务信息等在内的各种 Web 数据,应用数据挖掘方法以帮助人们从因特网中提取知识,为访问者、站点经营者以及包括电子商务 在内的基于因特网的商务活动

10、提供决策支持。近邻分类算法(KNearestNeighbors,简称KNN)的定义:通过计算每个训练数据到待分类元组的距离,取和待分类元组距离最近的 K个训练数据,K个数据中哪个类别的训练数据占多数,则待分类元组就属于哪 个类别。算法的性能分析:主要优点:是解决聚类问题的一种经典算法,简单、快速。对处理大数据集,该算法是相对可伸缩和高效率的。当结果簇是密集的,它的效果较好。主要缺点在簇的平均值被定义的情况下才能使用,可能不适用于某些应用。必须事先给出k(要生成的簇的数目),而且对初值敏感,对于不同的初始值,可能会导致不同结果。不适合于发现非凸面形状的簇或者大小差别很大的簇。而且,它对于“躁声

11、”和孤立点数据是敏感的。算法的性能分析:ID3 算法的假设空间包含所有的决策树, 它是关于现有属性的有限离散值函数的一个完整空间。 所以 ID3 算法避免了搜索不完整假设空间的一个主要风险:假设空间可能不包含目标函数。ID3 算法在搜索的每一步都使用当前的所有训练样例, 大大降低了对个别训练样例错误的敏感性。 因此, 通过修改终止准则,可以容易地扩展到处理含有噪声的训练数据。ID3算法在搜索过程中不进行回溯。所以,它易受无回溯的爬山搜索中的常见风险影响:收敛到局部最优而不是全局最优。算法有两个致命的性能瓶颈 :a多次扫描事务数据库,需要很大的I/O负载29.简述知识发现项目的过程化管理I-MI

12、N 过程模型对每次k循环,侯选集Ck中的每个元素都必须通过扫描数据库一次来验证其是否加入Lk。假如有一个频繁大项目集包含 10 个项的话,那么就至少需要扫描事务数据库 10 遍。b.可能产生庞大的侯选集由Lk-1产生k-侯选集Ck是指数增长的,例如104个1-频繁项目集就有可能产生接近 107个元素的2- 侯选集。如此大的侯选集对时间和主存空间都是一种挑战。a 基于数据分割的方法:基本原理是 “在一个划分中的支持度小于最小支持度的 k-项集不可能是全局频繁的”。27. 改善 Apriori 算法适应性和效率的主要的改进方法有:a基于数据分割(Partition)的方法:基本原理是 在一个划分中

13、的支持度小于最小支持度的k-项集不可能是全局频繁的 ”。b基于散列的方法:基本原理是在一个hash桶内支持度小于最小支持度的k-项集不可能是全局频繁的”。c基于采样的方法:基本原理是通过采样技术,评估被采样的子集中,并依次来估计k-项集的全局频度”。d其他:如,动态删除没有用的事务:不包含任何Lk的事务对未来的扫描结果不会产生影响,因而可以删除 ”。28. 面向Web的数据挖掘比面向数据库和数据仓库的数据挖掘要复杂得多:a 异构数据源环境: Web 网站上的信息是异构 :每个站点的信息和组织都不一样 ;存在大量的无结构的文 本信息、复杂的多媒体信息 ;站点使用和安全性、私密性要求各异等等。b

14、数据的是复杂性:有些是无结构的(如 Web 页),通常都是用长的句子或短语来表达文档类信息;有些可能是半结构的(如Email,HTML页)。当然有些具有很好的结构(如电子表格)。揭开这些复合对象蕴涵的一 般性描述特征成为数据挖掘的不可推卸的责任。c 动态变化的应用环境:Web 的信息是频繁变化的,像新闻、股票等信息是实时更新的。这种高变化也体现在页面的动态链接和随机存取上。Web 上的用户是难以预测的。Web 上的数据环境是高噪音的MIN过程模型把KDD过程分成IM1、IM2、IM6等步骤处理,在每个步骤里,集中讨论几个问题, 并按一定的质量标准来控制项目的实施。IM1任务与目的:它是 KDD

15、项目的计划阶段,确定企业的挖掘目标,选择知识发现模式,编译知识发 现模式得到的元数据 ;其目的是将企业的挖掘目标嵌入到对应的知识模式中。IM2任务与目的:它是 KDD的预处理阶段,可以用 IM2a、IM2b、IM2c等分别对应于数据清洗、数据 选择和数据转换等阶段。其目的是生成高质量的目标数据。IM3任务与目的:它是 KDD的挖掘准备阶段,数据挖掘工程师进行挖掘实验,反复测试和验证模型的 有效性。其目的是通过实验和训练得到浓缩知识 (KnowledgeConcentrate) ,为最终用户提供可使用的模型。IM4任务与目的:它是 KDD的数据挖掘阶段,用户通过指定数据挖掘算法得到对应的知识。I

16、M5任务与目的:它是 KDD的知识表示阶段,按指定要求形成规格化的知识。IM6任务与目的:它是 KDD的知识解释与使用阶段,其目的是根据用户要求直观地输出知识或集成到 企业的知识库中。30. 改善 Apriori 算法适应性和效率的主要的改进方法有:a基于数据分割(Partition)的方法:基本原理是 在一个划分中的支持度小于最小支持度的k-项集不可能是全局频繁的 ”。b基于散列(Hash)的方法:基本原理是 在一个hash桶内支持度小于最小支持度的k-项集不可能是全局频繁的 ”。c基于采样(Sampling)的方法:基本原理是 通过采样技术,评估被采样的子集中,并依次来估计k-项集的全局频

17、度 ”。d其他:如,动态删除没有用的事务:不包含任何Lk的事务对未来的扫描结果不会产生影响,因而可以删除 ”。31. 数据分类的两个步骤是什么 ?a 建立一个模型,描述预定的数据类集或概念集数据元组也称作样本、实例或对象。为建立模型而被分析的数据元组形成训练数据集训练数据集中的单个元组称作训练样本,由于提供了每个训练样本的类标号,因此也称作有指导的学 习。通过分析训练数据集来构造分类模型,可用分类规则、决策树或数学公式等形式提供。 b 使用模型进行分类首先评估模型 (分类法 )的预测准确率。 如果认为模型的准确率可以接受,就可以用它对类标号未知的数据元组或对象进行分类。 访问信息挖掘的特点:W

18、eb 访问数据容量大、分布广、内涵丰富和形态多样 一个中等大小的网站每天可以记载几兆的用户访问信息。 广泛分布于世界各处。访问信息形态多样。访问信息具有丰富的内涵。Web 访问数据包含决策可用的信息 每个用户的访问特点可以被用来识别该用户和网站访问的特性。 同一类用户的访问,代表同一类用户的个性。一段时期的访问数据代表了群体用户的行为和群体用户的共性。Web 访问信息数据是网站的设计者和访问者进行沟通的桥梁。Web 访问信息数据是开展数据挖掘研究的良好的对象。Web 访问信息挖掘对象的特点访问事务的元素是 Web 页面,事务元素之间存在着丰富的结构信息。 访问事务的元素代表的是每个访问者的顺序关系,事务元素之间存在着

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论