免费预览已结束,剩余13页可下载查看
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据挖掘老师范围最简知识点第一章数据仓库:是一个 面向主题的, 集成的, 时变的, 非易失的 的数据集合数据挖掘:就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。 数据挖掘分析方法:分类、估值、预言、相关性分组或关联规则、聚集、描述和可视化 数据挖掘的过程:第二章数据属性:是一个数据字段,表示数据对象的一个特征属性类别:标称的 二元的 序数的 数值的数据的中心趋势度量方法:均值、中位数、众数数据相似性和异度量方法:欧式距离:它是在m维空间中两个点之间的真实距离曼哈顿距离:切比雪夫距离:例子上下为一题闵可夫斯基距离:第三章数据预处理:是指在主要的处理以前对数据进行的一些处理。比如缺项,噪声(工资=-100),不匹配(年龄和出生日期不匹配),冗余等等。原因:l 不完备:丢失属性,缺少某个感兴趣的属性,或仅含累计值。l 噪声:包含错误点和离群点l 不一致:存在代码或者名称的分歧数据预处理中的主要任务: 数据清理、数据集成、数据归纳、数据变换处理缺失值数据的方法:l 忽略:删除带有缺失值的属性或者案例、适用于错误率低的数据l 手工填充缺失值l 自动填充缺失值(根据推理得到)离群点分析的方法:通过如聚类来检测离群点聚类将类似的值组织成群或“簇”,落在簇集合之外的值被视为离群点如何对数据进行分箱:分箱方法通过考察数据的“临近”来光滑有序数据值l 箱均值光滑l 箱中位数光滑l 箱边界光滑。第四章数据仓库与OLAP技术数据仓库概念:数据仓库是一个面向主题的、集成的、随时间而变化的、不容易丢失的数据集合,支持管理部门的决策过程数据仓库特点:面向主题的、集成的、随时间而变化的(反映历史变化)、不容易丢失(相对稳定)数据仓库的组成:l 数据库l 数据抽取工具(ETL)l 元数据l 访问工具l 数据集市l 数据仓库管理工具l 信息发布系统数据仓库的体系结构:三层数据仓库模型联系分析处理OLAP:概念:即联机分析处理,是数据仓库的核心部心,所谓数据仓库是对于大量已经由OLTP形成的数据的一种分析型的数据库,用于处理商业智能、决策支持等重要的决策信息OLAP特点:l 快速性:快速反应能力l 可分析性:OLAP系统应能处理与应用有关的任何逻辑分析和统计分析l 多维性:系统必须提供对数据分析的多维视图和分析,包括对层次维和多重层次维的完全支持。l 信息性:不论数据量有多大,也不管数据存储在何处,OLAP系统应能及时获得信息,并且管理大容量信息。第五章关联规则基本概念频繁模式:是频繁地出现在数据集中的模式(如项集、子序列或子结构) 频繁集项:根据特征提取器得到的特征向量给一个被测对象附一个类别标记。支持度(support)支持度:X, Y同时出现的概率,例如:尿布,啤酒同时出现的概率尿布,啤酒的支持度 = 800 / 10000 = 0.08 尿布,面包的支持度 = 100 / 10000 = 0.01*尿布,啤酒的支持度等于啤酒,尿布的支持度,支持度没有先后顺序之分置信度(confidence)置信度:购买X的人,同时购买Y的概率,例如:购买尿布的人,同时购买啤酒的概率,而这个概率就是购买尿布时购买啤酒的置信度( 尿布 - 啤酒 ) 的置信度 = 800 / 1000 = 0.8 ( 啤酒 - 尿布 ) 的置信度 = 800 / 2000 = 0.4支持度与置信度规则的支持度和置信度是两个规则兴趣度度量,它们分别反映发现规则的有用性和确定性Apriori算法:原理:Apriori 使用一种称作逐层搜索的迭代方法,k-项集用于探索(k+1)-项集。首先,找出频繁1-项集的集合。该集合记作L1。L1 用于找频繁2-项集的集合L2,而L2 用于找L3,如此下去,直到不能找到频繁k-项集。找每个Lk 需要一次数据库扫描。步骤简化:1. 连接2. 剪枝3. 验证4. 回到1,直到没有频繁集生成FP-tree算法:原理:FP Tree算法改进了Apriori算法的I/O瓶颈,巧妙的利用了树结构来提高算法运行速度。利用内存数据结构以空间换时间。步骤:5. 扫描数据,得到所有频繁一项集的的计数。然后删除支持度低于阈值的项,将1项频繁集放入项头表,并按照支持度降序排列。6. 扫描数据,将读到的原始数据剔除非频繁1项集,并按照支持度降序排列。7. 读入排序后的数据集,插入FP树,插入时按照排序后的顺序,插入FP树中,排序靠前的节点是祖先节点,而靠后的是子孙节点。如果有共用的祖先,则对应的公用祖先节点计数加1。插入后,如果有新节点出现,则项头表对应的节点会通过节点链表链接上新节点。直到所有的数据都插入到FP树后,FP树的建立完成。8. 从项头表的底部项依次向上找到项头表项对应的条件模式基。从条件模式基递归挖掘得到项头表项项的频繁项集。9. 如果不限制频繁项集的项数,则返回步骤4所有的频繁项集,否则只返回满足项数要求的频繁项集。第六章分类概念:根据特征提取器得到的特征向量给一个被测对象赋一个类别标记。基本任务:分类的基本任务就是根据给定的一系列属性集,最后去判别它属于的类型常见的分类方法:l 决策树分类l 贝叶斯分类l 最近邻分类l 支持向量机(SVM)l 多层感知机与人工神经网络(NN)l 组合多分类器(ensemble)决策树:决策树又称为判定树,是运用于分类的一种树结构,其中的每个内部节点代表对某一属性的一次测试,每条边代表一个测试结果,叶节点代表某个类或类的分布。决策树的决策过程需要从决策树的根节点开始,待测数据与决策树中的特征节点进行比较,并按照比较结果选择选择下一比较分支,直到叶子节点作为最终的决策结果。BP神经网络:网络结构:特点:层间无反馈 、有监督学习步骤:10. 工作信号正向传递子过程11. 误差信号反向传递子过程主要思想:在外界输入样本的刺激下不断改变网络的连接权值,以使网络的输出不断地接近期望的输出。两环节组成:信息的正向传递与误差的反向传播SVM:一条非常完美的直线* * (其他一律看不懂) *朴素贝叶斯:朴素贝叶斯是一种基于概率理论的分类算法。原理基于 贝叶斯公式朴素贝叶斯详解第七章:聚类分析的概念:聚类分析(Cluster Analysis)是根据给定的一组对象的描述信息,按照相似程度划分为多个簇(Cluster)的过程。聚类的任务l 发现内部结构:作为一个独立的工具来获得数据集中数据的分布情况;l 数据压缩:作为其他数据挖掘算法的预处理步骤。l 作为一个独立的工具来获得数据集中数据的分布情况; 首先,对数据集执行聚类,获得所有簇; 然后,根据每个簇中样本的数目获得数据集中每类数据的大体分布情况。l 作为其他数据挖掘算法的预处理步骤。 首先,对数据进行聚类粗分类; 然后,分别对每个簇进行特征提取和细分类,可以有效提高分类精度。 聚类与分类的区别l 分类技术是一种有指导的学习,即每个训练样本的数据对象已经有类标识,通过学习可以形成表达数据对象与类标识间对应的知识。l 聚类是一种无指导学习。也就是说,聚类是在预先不知道欲划分类(无标识)的情况下,根据信息相似度原则进行信息聚类的一种方法。聚类常见聚类算法及原理:K-means(k均值算法):算法思路:事先确定常数K,常数K意味着最终的聚类类别数,首先随机选定初始点为质心,并通过计算每一个样本与质心之间的相似度(这里为欧式距离),将样本点归到最相似的类中,接着,重新计算每个类的质心(即为类中心),重复这样的过程,知道质心不再改变,最终就确定了每个样本所属的类别以及每个类的质心。K-means1、随机选取K个质心的值 2、计算各个点到质心的距离 3、将点的类划分为离他最近的质心,形成K个cluster 4、根据分类好的cluster,在每个cluster内重新计算质心(平均每个点的值)5、重复迭代2-4步直到满足迭代次数或误差小于指定的值K-medoids1、随机选取K个质心的值 (质心必须是某些样本点的值,而不是任意值)
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年低空经济产业服务业发展趋势报告
- 外出研学安全协议书
- 供应链管理合作协议书
- 2026-2031中国刮板式薄膜蒸发器行业市场发展深度调查及投资战略可行性报告
- 2025年艾滋病梅毒和乙肝母婴传播培训考试题附答案
- 2025年药物警戒质量管理规范培训试题附答案
- 保险代理从业人员资格考试模拟试题及解析
- 2025年物管员竞赛考试题及答案
- 煤矿专业基本知识考试题库附答案
- 2025传染病考试题及答案
- 2023-2024年山东省济南市历下区六年级上册期中数学试卷及答案(人教版)
- 幼儿饮水环节的课件
- 抗凝剂皮下注射护理规范专家共识解读课件
- 小学心理健康教育考核方案
- 电解质紊乱课件
- AED急救知识考试试题及答案
- 《富宁县国土空间总体规划(2021-2035)》
- 考研专业课辅导协议合同
- 铁路班组管理班组安全管理课件
- 德国低压并网要求VDE-AR-N41052018及参考测试方法分享
- 2025年度个人工作总结
评论
0/150
提交评论