数据挖掘概念与技术.doc_第1页
数据挖掘概念与技术.doc_第2页
数据挖掘概念与技术.doc_第3页
数据挖掘概念与技术.doc_第4页
数据挖掘概念与技术.doc_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据挖掘概念与技术英文原书名: Data Mining:Concepts and Techniques作者: (加)Jiawei Han Micheline Kamber译者: 范明 孟小峰 等译书号: 7-111-09048-9出版社: 机械工业出版社出版日期: 2001-8-1页码: 374定价: ¥39.00数据挖掘(Data Mining)是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。近年来,数据挖掘引起了信息产业界的极大关注,其主要原因是由于企业数据库的广泛使用,存在大量的数据,并且迫切需要从这些数据中获取有用的信息的知识。获取的信息和知识有广泛的应用,例如:商务管理、生产管理、市场控制、市场分析、工程设计和科学探索等。越来越多的IT企业看到了这一诱人的市场,纷纷加入到数据挖掘工具的开发中来,并获得丰厚的回报。例如微软公司在它的最新的关系数据库系统SQL Server 2000加入了先进的数据挖掘功能,在基于NT的数据库软件市场中打败了Oracle公司,成为销售额最大的产品。又如IBM公司发布了一项新型的基于标准的数据挖掘技术-IBMDB2智能挖掘器积分服务(IBM DB2 Intelligent Miner Scoring Service),它可以帮助企业轻松地为自己的客户和供应商开发出个性化的解决方案。从种种迹象表明,数据挖掘这一研究领域的发展充满了机遇和挑战。数据挖掘:概念与技术一书从数据库专业人员的角度,全面深入地介绍了数据挖掘原理和在大型企业数据库中知识发现的方法。该书首先用浅显的语言介绍了数据挖掘的概念、数据挖掘系统的基本结构、数据挖掘系统的分类等,逐渐地把读者领入该领域,这一点做得非常好。作者接着便全面而详细的介绍了数据挖掘技术,其中还包括了当前的最新进展。书中的每一章之间都是相对独立的,分别对不同的关键主题进行了详细的描述。每一章所介绍的方法和实现都是可靠的并经过验证的,能够直接应用或根据实际需要在策略上稍加修改即可使用。此外,作者在每个可能的地方都会提出一些关于实用性、可行性、最优化以及可伸缩性等方面的问题,并给出他自己的回答。通过这样一些问题,能够把读者引向许多对方案的效果甚至最终成功与否产生影响的关键问题,而不是仅仅停留在技术的表面。如果没有很深的技术功底和丰富的实践经验是很难做到这一点的,但作者做到了,而且做的非常好。另外值得一提的是,该书的译者都是本领域的专家。从翻译的角度来看,译者对一些关键词语的掌握比较准确,而且语言流畅,读起来没有艰涩的感觉。不过,该书本身牵涉到一些比较深的理论问题,所以不可能非常通俗易懂。但这并不是翻译的问题。综上所述该书有如下的几大特点:1、从实用的角度全面地描述了必要的数据挖掘概念和技术。2、把各章组织为独立的部分,使读者能够聚焦于自己感兴趣的课题,并立即应用所学到的方法。3、提供了大量的算法和实际的应用例子,并且用易懂的伪代码来进行描述。所有这些算法和例子能够适用于实际的大规模数据挖掘项目。4、包含了各种在实践中必要的数据挖掘技术,包括:OLAP和数据仓库、数据预处理、概念描述、关联规则、分类和预测、聚类分析等。5、包含了基于先进数据库的数据挖掘方法,如对象关系数据库、空间数据库、多媒体数据库、时间序列数据库、文本数据库和万维网中的数据挖掘。当然该书也有一些缺点,如存在少量的文字错误、有些地方描述前后不一致以及某些语言比较难懂等。但瑕不掩瑜,该书是从事数据挖掘的专业人士和研究者期待已久的一本非常优秀的必备参考书,同样也是一本很好的专业教科书。书的目录 译者序序前言第1章 引言 11.1 什么激发了数据挖掘,为什么它是重要的 11.2 什么是数据挖掘 31.3 在何种数据上进行数据挖掘 61.3.1 关系数据库 71.3.2 数据仓库 81.3.3 事务数据库 101.3.4 高级数据库系统和高级数据库应用 111.4 数据挖掘功能可以挖掘什么类型的模式 141.4.1 概念/类描述:特征化和区分 141.4.2 关联分析 151.4.3 分类和预测 161.4.4 聚类分析 161.4.5 孤立点分析 171.4.6 演变分析 171.5 所有模式都是有趣的吗 181.6 数据挖掘系统的分类 191.7 数据挖掘的主要问题 201.8 小结 22习题 22文献注释 23第2章 数据仓库和数据挖掘的OLAP技术 262.1 什么是数据仓库 262.1.1 操作数据库系统与数据仓库的区别 272.1.2 为什么需要一个分离的数据仓库 292.2 多维数据模型 292.2.1 由表和电子数据表到数据立方体 292.2.2 星型、雪花和事实星座:多维数据库模式 322.2.3 定义星型、雪花和事实星座模式的例子 342.2.4 度量的分类和计算 362.2.5 引入概念分层 372.2.6 多维数据模型上的OLAP操作 392.2.7 查询多维数据库的星型网查询模型 412.3 数据仓库的系统结构 422.3.1 数据仓库的设计步骤和结构 422.3.2 三层数据仓库结构 442.3.3 OLAP服务器类型:ROLAP,MOLAP,HOLAP的比较 462.4 数据仓库实现 472.4.1 数据立方体的有效计算 472.4.2 索引OLAP数据 522.4.3 OLAP查询的有效处理 542.4.4 元数据存储 552.4.5 数据仓库后端工具和实用程序 562.5 数据立方体技术的进一步发展 562.5.1 数据立方体发现驱动的探查 562.5.2 多粒度上的复杂聚集:多特征方 592.5.3 其他进展 612.6 从数据仓库到数据挖掘 612.6.1 数据仓库的使用 622.6.2 从联机分析处理到联机分析挖掘 632.7 小结 65习题 66文献注释 68第3章 数据预处理 703.1 为什么要预处理数据 703.2 数据清理 723.2.1 空缺值 723.2.2 噪声数据 733.2.3 不一致数据 743.3 数据集成和变换 753.3.1 数据集成 753.3.2 数据变换 763.4 数据归约 773.4.1 数据立方体聚集 773.4.2 维归约 793.4.3 数据压缩 803.4.4 数值归约 823.5 离散化和概念分层生成 873.5.1 数值数据的离散化和概念分层生成 883.5.2 分类数据的概念分层生成 913.6 小结 93习题 93文献注释 94第4章 数据挖掘原语、语言和系统结构 964.1 数据挖掘原语:定义数据挖掘任务 964.1.1 任务相关的数据 984.1.2 要挖掘的知识的类型 994.1.3 背景知识:概念分层 1004.1.4 兴趣度度量 1024.1.5 发现模式的表示和可视化 1044.2 一种数据挖掘查询语言 1054.2.1 任务相关数据说明的语法 1074.2.2 指定挖掘知识类型的语法 1074.2.3 概念分层说明的语法 1094.2.4 兴趣度度量说明的语法 1104.2.5 模式表示和可视化说明的语法 1104.2.6 汇集一个DMQL查询的例子 1114.2.7 其他数据挖掘语言和数据挖掘原语的标准化 1124.3 根据数据挖掘查询语言设计图形用户界面 1134.4 数据挖掘系统的结构 1134.5 小结 115习题 115文献注释 117第5章 概念描述:特征化与比较 1195.1 什么是概念描述 1195.2 数据概化和基于汇总的特征化 1205.2.1 面向属性的归纳 1205.2.2 面向属性归纳的有效实现 1245.2.3 导出概化的表示 1255.3 解析特征化:属性相关分析 1285.3.1 为什么进行属性相关分析 1295.3.2 属性相关分析方法 1295.3.3 解析特征化:一个例子 1315.4 挖掘类比较:区分不同的类 1325.4.1 类比较方法和实现 1335.4.2 类比较描述的表示 1355.4.3 类描述:特征化和比较的表示 1365.5 在大型数据库中挖掘描述统计度量 1375.5.1 度量中心趋势 1385.5.2 度量数据的离散度 1395.5.3 基本统计类描述的图形显示 1415.6 讨论 1445.6.1 概念描述:与典型的机器学习方法比较 1445.6.2 概念描述的增量挖掘和并行挖掘 1455.7 小结 146习题 146文献注释 147第6章 挖掘大型数据库中的关联规则 1496.1 关联规则挖掘 1496.1.1 购物篮分析:一个引发关联规则挖掘的例子 1506.1.2 基本概念 1506.1.3 关联规则挖掘:一个路线图 1516.2 由事务数据库挖掘单维布尔关联规则 1526.2.1 Apriori算法:使用候选项集找频繁项集 1526.2.2 由频繁项集产生关联规则 1566.2.3 提高Apriori的有效性 1576.2.4 不产生候选挖掘频繁项集 1586.2.5 冰山查询 1616.3 由事务数据库挖掘多层关联规则 1626.3.1 多层关联规则 1626.3.2 挖掘多层关联规则的方法 1636.3.3 检查冗余的多层关联规则 1666.4 由关系数据库和数据仓库挖掘多维关联规则 1676.4.1 多维关联规则 1676.4.2 使用量化属性的静态离散化挖掘多维关联规则 1686.4.3 挖掘量化关联规则 1696.4.4 挖掘基于距离的关联规则 1716.5 由关联挖掘到相关分析 1726.5.1 强关联规则不一定是有趣的:一个例子 1726.5.2 由关联分析到相关分析 1736.6 基于约束的关联挖掘 1746.6.1 关联规则的元规则制导挖掘 1746.6.2 用附加的规则约束制导的挖掘 1756.7 小结 179习题 180文献注释 183第7章 分类和预测 1857.1 什么是分类,什么是预测 1857.2 关于分类和预测的问题 1877.2.1 准备分类和预测的数据 1877.2.2 比较分类方法 1877.3 用判定树归纳分类 1887.3.1 判定树归纳 1897.3.2 树剪枝 1927.3.3 由判定树提取分类规则 1927.3.4 基本判定树归纳的加强 1937.3.5 判定树归纳的可伸缩性 1947.3.6 集成数据仓库技术和判定树归纳 1957.4 贝叶斯分类 1967.4.1 贝叶斯定理 1967.4.2 朴素贝叶斯分类 1977.4.3 贝叶斯信念网络 1997.4.4 训练贝叶斯信念网络 2007.5 后向传播分类 2017.5.1 多层前馈神经网络 2017.5.2 定义网络拓扑 2027.5.3 后向传播 2027.5.4 后向传播和可解释性 2067.6 基于源自关联规则挖掘概念的分类 2077.7 其他分类方法 2097.7.1 k-最临近分类 2097.7.2 基于案例的推理 2097.7.3 遗传算法 2107.7.4 粗糙集方法 2107.7.5 模糊集方法 2117.8 预测 2127.8.1 线性回归和多元回归 2127.8.2 非线性回归 2137.8.3 其他回归模型 2147.9 分类法的准确性 2147.9.1 评估分类法的准确率 2147.9.2 提高分类法的准确率 2157.9.3 准确率足够判定分类法吗 2167.10 小结 217习题 218文献注释 219第8章 聚类分析 2238.1 什么是聚类分析 2238.2 聚类分析中的数据类型 2258.2.1 区间标度变量 2268.2.2 二元变量 2278.2.3 标称型、序数型和比例标度型变量 2288.2.4 混合类型的变量 2308.3 主要聚类方法的分类 2318.4 划分方法 2328.4.1 典型的划分方法:k-平均和k-中心点 2328.4.2 大型数据库中的划分方法:从k-中心点到CLARANS 2358.5 层次方法 2368.5.1 凝聚的和分裂的层次聚类 2368.5.2 BIRCH:利用层次方法的平衡迭代归约和聚类 2388.5.3 CURE:利用代表点聚类 2398.5.4 Chameleon(变色龙):一个利用动态模型的层次聚类算法 2408.6 基于密度的方法 2428.6.1 DBSCAN:一个基于高密度连接区域的密度聚类方法 2428.6.2 OPTICS:通过对象排序识别聚类结构 2438.6.3 DENCLUE:基于密度分布函数的聚类 2458.7 基于网格的方法 2468.7.1 STING:统计信息网格 2478.7.2 WaveCluster:采用小波变换聚类 2488.7.3 CLIQUE:聚类高维空间 2498.8 基于模型的聚类方法 2518.8.1 统计学方法 2518.8.2 神经网络方法 2538.9 孤立点分析 2548.9.1 基于统计的孤立点检测 2558.9.2 基于距离的孤立点检测 2568.9.3 基于偏离的孤立点检测 2578.10 小结 259习题 260文献注释 261第9章 复杂类型数据的挖掘 2639.1 复杂数据对象的多维分析和描述性挖掘 2639.1.1 结构化数据的概化 2639.1.2 空间和多媒体数据概化中的聚集和近似计算 2649.1.3 对象标识符和类/子类层次的概化 2659.1.4 类复合层次的概化 2659.1.5 对象立方体的构造与挖掘 2669.1.6 用分而治之方法对规划数据库进行基于概化的挖掘 2669.2 空间数据库挖掘 2699.2.1 空间数据立方体构造和空间OLAP 2709.2.2 空间关联分析 2739.2.3 空间聚类方法 2739.2.4 空间分类和空间趋势分析 2749.2.5 光栅数据库挖掘 2749.3 多媒体数据库挖掘 2749.3.1 多媒体数据的相似性搜索 2759.3.2 多媒体数据的多维分析 2769.3.3 多媒体数据的分类和预测分析 2779.3.4 多媒体数据中的关联规则挖掘 2779.4 时序数据和序列数据的挖掘 2789.4.1 趋势分析 2799.4.2 时序分析中的相似搜索 2809.4.3 序列模式挖掘 2839.4.4 周期分析 2849.5 文本数据库挖掘 2859.5.1 文本数据分析和信息检索 2859.5.2 文本挖掘:基于关键字的关联和文档分类 2899.6 Web挖掘 2909.6.1 挖掘Web链接结构,识别权威Web页面 2919.6.2 Web文档的自动分类 2939.6.3 多层Web信息库的构造 2939.6.4 Web使用记录的挖掘 2949.7 小结 295习题 296文献注释 297

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论