




已阅读5页,还剩25页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据挖掘算法介绍 综述 2004年12月17日 数据挖掘 数据挖掘是从大量数据中提取出有效的 新颖的 有潜在作用的 可信的 并能最终被人理解的模式 pattern 的非平凡的处理过程 KDDDM KDD KDD knowledgediscoveryindatabase 数据建模验证应用 DM DM dataming KDD的一个阶段KDD与DM等同 DMislikesettinguparestaurantkitchen Startingarestaurantkitchen DataMining Food Info Cooks Team Kitchen DWH 数据挖掘与其他学科的关系 DataMining DatabaseTechnology Statistics OtherDisciplines InformationScience MachineLearning AI Visualization 数据挖掘与OLAP OLAP on lineanalyticalprocessing 只能限制于少量的维度和数据类型用户控制的流程假设 验证 结论DM 没有明确假设的前提下去挖掘信息 发现知识 具有未知 有效 可实用三个特征能自动的发现隐藏在数据中的规律可以发现比OLAP更复杂而细致的信息未知 归纳 结论联系 OLAP DMOLAM 数据挖掘与统计学 数据挖掘 数据挖掘利用了统计 人工智能 数据库等技术 把这些高深复杂的技术封装起来 使人们不用自己掌握这些技术也能完成同样的功能 并且更专注于自己所要解决的问题 不仅仅是统计分析 统计分析 统计分析技术都基于完善的数学理论和高超的技巧 预测的准确度还是令人满意的 但对使用者的要求很高联系统计分析方法学的延伸和扩展很多的挖掘算法来源于统计学 前景 预言 著名的咨询公司GartnerGroup在 2000年 一次高级技术调查将数据挖掘和人工智能列为 未来三到五年内将对工业产生深远影响的五大关键技术 之首 并且还将并行处理体系和数据挖掘列为未来五年内投资焦点的十大新兴技术前两位国外现状 成熟 产品 SAS CLEMENTINE UNICA 各大数据库国内现状 起步产品 大部分是实验室产品 数据挖掘分类 挖掘对象基于数据库的挖掘基于web的挖掘基于文本的挖掘其他 音频 视频等多媒体数据库 数据挖掘分类 应用响应模型交叉销售价值评估客户分群 数据挖掘分类 挖掘模式预测型 Predictive 描述型 Descriptive 实际作用可分为以下几种模式 分类 对没有分类的数据进行分类 预测 用历史来预测未来 关联分析 关联规则 聚类 物以类聚 序列模式 在多个数据序列中发现共同的行为模式 描述和可视化 数据挖掘的结果的表示形式 偏差分析 从数据分析中发现异常情况 数据挖掘分类 我的理解 挖掘的算法分为三个层次 模式 比如分类 聚类 模型 决策树 神经网络 算法 ID3 CHAID BP举例 分类 决策树 ID3 CHAID等 聚类 聚类分析 k means EM等 数据挖掘分类 挖掘模型决策树 decisiontree 关联规则 associationrules 聚类 clustering 神经网络 ArtificialNeuralNetworks 简记作ANN 粗糙集 roughset 概念格 conceptlattice 遗传算法 geneticalgorithms 序列模式 sequencepattern 贝叶斯 Bayes 支持向量机 supportvectormachine 简记作SVM 模糊集 fuzzyset 基于案例的推理 case basedreasoning 简记作CBR 决策树 决策树学习是以实例为基础的归纳学习算法 着眼于从一组无次序 无规则的事例中推理出决策树表示形式的分类规则 决策树基本算法是 贪心算法 它以自顶向下递归 各个击破方式构造决策树 关联规则 关联规则是形式如下的一种规则 在购买面包和黄油的顾客中 有90 的人同时也买了牛奶 面包 黄油 牛奶 关联规则的 三度 支持度 可信度 兴趣度 聚类 聚类是根据数据的不同特征 将其划分为不同的簇 cluster 目的是使得属于同一个簇中的对象之间具有较高的相似度 而不同簇中的对象差别 相异度 较大 聚类技术大致分为五种 划分方法 partitioningmethod 层次方法 hierarchicalmethod 基于密度的方法 density basedmethod 基于网格的方法 grid basedmethod 基于模型的方法 model basedmethod 神经网络 人工神经网络 是对人类大脑系统的中模拟 神经网络是一组连接的输入 输出单元 其中每个连接都与一个权相关联 在学习阶段 通过调整神经网络的权 使得能够预测输入样本的正确类标号来学习 激励函数的选择和权值的调整 粗糙集 粗糙集理论是一种研究不精确 不确定性知识的数学工具 粗糙集对不精确概念的描述方法是 通过上近似概念和下近似概念这两个精确概念来表示 一个概念 或集合 的下近似指的是其中的元素肯定属于该概念 一个概念 或集合 的上近似指的是其中的元素可能属于该概念 粗糙集方法则有几个优点 不需要预先知道的额外信息 如统计中要求的先验概率和模糊集中要求的隶属度 算法简单 易于操作 粗糙集理论在知识发现研究中有着许多具体应用 特别适合于数据之间 精确的或近似的 依赖关系发现 评价某一分类 属性 的重要性 数据相似或差异发现 数据模式发现 从数据中产生一般决策规则 削减冗余对象与属性 寻求属性的最小子集以确保产生满意的近似分类等等 粗糙集 举例 概念格 概念格描述的是对象和属性之间的联系和统一 表明概念之间的泛化和例化关系 相应的Hasse图实现数据的可视化 遗传算法 遗传算法 GeneticAlgoritms 简称GA 是以自然选择和遗传理论为基础 将生物进化过程中 适者生存 规则与群体内部染色体的随机信息交换机制相结合的搜索算法 遗传算法主要组成部分包括编码方案 适应度计算 父代选择 交换算子和变异算子 序列模式 是指在多个数据序列中发现共同的行为模式 通过时间序列搜索出重复发生概率较高的模式 这里强调时间序列的影响 例如 在所有购买了激光打印机的人中 半年后80 的人再购买新硒鼓 20 的人用旧硒鼓装碳粉 在所有购买了彩色电视机的人中 有60 的人再购买VCD产品 在时序模式中 需要找出在某个最短时间内出现比率一直高于某一最小百分比 阈值 的规则 贝叶斯 贝叶斯分类是统计学的分类方法 其分析方法的特点是使用概率来表示所有形式的不确定性 学习或推理都用概率规则来实现 朴素贝叶斯分类 假定一个属性值对给定类的影响独立于其他属性的值 贝叶斯网络 是用来表示变量间连接概率的图形模式 它提供了一种自然的表示因果信息的方法 用来发现数据间的潜在关系 支持向量机 支持向量机 SupportVectorMachine SVM 建立在计算学习理论的结构风险最小化 SRM 原则之上 其核心问题是寻找一种归纳原则 以实现最小化风险 从而实现最佳的推广能力 而且SVM一个重要的优点是可以处理线性不可分的情况 以往的机器学习理论的核心是经验风险最小化原则 ERM 模糊集 模糊集 不同于经典集合 没有精确边界的集合 定义 设X是对象x的集合 x是X的任一个元素 X上的模糊集合A定义为一组有序对 A x uA X x X 其中uA X 称为模糊集合A的隶属度函数 membershipfunction MF MF将集合中的元素映射为0到1之间的隶属度 隶属度为0 或者1 则A就退化为经典集合 案例的推理 案例是一段带有上下文信息的知识 该知识表达了推理机在达到其目标的过程中能起关键作用的经验 几个概念的区别 分类和聚类分类是指将数据归于一系列已知类别之中的某个类的分类过程 聚类是根据客体属性对一系列未分类的客体进行类别的识别 把一组个体
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 理赔服务合同协议书范本
- 清远入城证申请合同范本
- 自制挖掘机租赁合同范本
- 派遣员工终止合同协议书
- 鱼缸消毒灯销售合同范本
- 股份合同终止协议书范本
- 珠海住宅装修协议书范本
- 灯具工程分包合同协议书
- 特许经营权协议合同范本
- 签订房屋期权买卖协议书
- 语言学纲要(新)课件
- 高中物理必修一期中测试题及答案解析
- 风冷热泵机组调试方案
- 《园林主要病虫害防治一览表》
- 部编版语文五年级上册作文审题训练题目
- 李中莹心理创伤简快辅导技巧(课堂PPT)
- VS1真空断路器说明书
- JTT230-2021汽车导静电橡胶拖地带_(高清-最新)
- 监理周例会总承包单位工作汇报PPT课件
- 生态融合绿色发展(EOD)示范项目可行性研究报告模板
- 四大经典之温病
评论
0/150
提交评论