数据挖掘_概念与技术(第2版)习题答案.doc

上传人：t*** IP属地：河南上传时间：2020-03-01 格式：DOC 页数：14 大小：1MB 积分：15 举报 版权申诉

已阅读5页，还剩9页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

数据挖掘概念概念与技术DataMiningConcepts and Techniques习题解答Jiawei Han Micheline Kamber 著范明孟晓峰译1.3假设你是BigUniversity的软件工程师，任务是设计一个数据挖掘系统，分析学校课程数据库。该数据库包括如下信息：每个学生的姓名、地址和状态（例如本科生或研究生）、所修课程以及他们的GPA（平均积分点）。描述你要选取的结构。该结构的每个成分的作用是什么？答：该应用程序的数据挖掘的体系结构应包括以下主要组成部分：l 数据库，数据仓库，万维网或其他信息库：这是一个或一组包含学生和课程信息数据库、数据仓库、电子表格或其他类型的信息库；l 数据库或数据仓库服务器：根据用户数据挖掘请求，数据库或数据仓库服务器负责提取相关数据；l 知识库：这是领域的知识，用于指导搜索或评估结果模式的兴趣度。l 数据挖掘引擎：这是数据挖掘系统的基本部分，理想情况下由一组功能模块组成，用于执行特征化、关联和相关分析、分类、预测、聚类分析、离群点分析和演变分析等任务。l 模式评估模块：该成分使用兴趣度度量，并与数据挖掘模块交互，以便将搜索聚焦在有兴趣的模式上。l 用户界面：该模块在用户和数据挖掘系统之间通信，允许用户与系统交互，说明挖掘查询或任务，提供信息以帮助搜索聚焦，根据数据挖掘的中间结果进行探索式数据挖掘。1.4 数据仓库和数据库有何不同？有哪些相似之处？p8答：区别：数据仓库是面向主题的，集成的，不易更改且随时间变化的数据集合，用来支持管理人员的决策，数据库由一组内部相关的数据和一组管理和存取数据的软件程序组成，是面向操作型的数据库，是组成数据仓库的源数据。它用表组织数据，采用ER数据模型。相似：它们都为数据挖掘提供了源数据，都是数据的组合。1.5 简述以下高级数据库系统和应用：对象-关系数据库、空间数据库、文本数据库、多媒体数据库、流数据和万维网。答：对象关系数据库的设计是基于面向对象的编程范式的数据是大量对象类和类层次结构组织。每个实体在数据库中被视为一个对象。该对象包含一组变量描述的对象，一组消息的对象可以使用的沟通与其他物体或与其余的数据库系统，以及一套方法，每种方法持有的代码实现一个消息。空间数据库包含空间有关的数据，这可能是代表的形式，栅格或矢量数据。栅格数据包括n维位图或像素地图，矢量数据是由点，线，多边形或其他种类的图元处理，一些例子包括地理空间数据库（图）数据库，超大规模集成电路芯片设计，以及医疗和卫星图像数据库。文本数据库包含文本文件或其他长句或段落格式的文字说明，如产品规格、误差或错误报告、警告信息、总结报告、说明或其他文件。多媒体数据库存储的图像，音频，视频数据，并应用于诸如图像、基于内容的检索、语音邮件系统、视频点播系统、互联网和以语音为基础的用户界面。流数据是一类新的数据的产生和分析，其中数据动态地从观测平台（或窗口）流进或流出。特点：海量甚至可能无限，动态变化，以固定的次序流进或流出，只允许一遍或少数几遍扫描，要求快速响应时间。如电力供应、网络通信、股票交易、电信、Web点击流、视频监视和气象或环境监控数据。万维网上提供丰富的、全世界范围内的联机信息服务，其中的数据对象链接在一起便于交互访问。与之关联的分布式信息服务的例子如：美国在线，雅虎！Alta Vista等。翻译结果重试抱歉，系统响应超时，请稍后再试支持中文、英文免费在线翻译支持网页翻译，在输入框输入网页地址即可提供一键清空、复制功能、支持双语对照查看，使您体验更加流畅1.6 定义下列数据挖掘功能：特征化、区分、关联和相关分析、预测聚类和演变分析。使用你熟悉的现实生活的数据库，给出每种数据挖掘功能的例子。答：特征化是一个目标类数据的一般特性或特性的汇总。例如，学生的特征可被提出，形成所有大学的计算机科学专业一年级学生的轮廓，这些特征包括作为一种高的年级平均成绩(GPA：Grade point aversge)的信息，还有所修的课程的最大数量。区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。例如，具有高GPA 的学生的一般特性可被用来与具有低GPA 的一般特性比较。最终的描述可能是学生的一个一般可比较的轮廓，就像具有高GPA 的学生的75%是四年级计算机科学专业的学生，而具有低GPA 的学生的65%不是。关联是指发现关联规则，这些规则表示一起频繁发生在给定数据集的特征值的条件。例如，一个数据挖掘系统可能发现的关联规则为：major(X, “computing science”) owns(X, “personal computer”)support=12%, confidence=98% 其中，X 是一个表示学生的变量。这个规则指出正在学习的学生，12%（支持度）主修计算机科学并且拥有一台个人计算机。这个组一个学生拥有一台个人电脑的概率是98%（置信度，或确定度）。分类与预测不同，因为前者的作用是构造一系列能描述和区分数据类型或概念的模型（或功能），而后者是建立一个模型去预测缺失的或无效的、并且通常是数字的数据值。它们的相似性是他们都是预测的工具：分类被用作预测目标数据的类的标签，而预测典型的应用是预测缺失的数字型数据的值。聚类分析的数据对象不考虑已知的类标号。对象根据最大花蕾内部的相似性、最小化类之间的相似性的原则进行聚类或分组。形成的每一簇可以被看作一个对象类。聚类也便于分类法组织形式，将观测组织成类分层结构，把类似的事件组织在一起。数据演变分析描述和模型化随时间变化的对象的规律或趋势，尽管这可能包括时间相关数据的特征化、区分、关联和相关分析、分类、或预测，这种分析的明确特征包括时间序列数据分析、序列或周期模式匹配、和基于相似性的数据分析2.2 假设给定的数据集的值已经分组为区间。区间和对应的频率如下。年龄频率 15 200 515 450 1520 300 2050 1500 5080 700 80110 44 计算数据的近似中位数值。解答：先判定中位数区间：N=200+450+300+1500+700+44=3194；N/2=1597 200+450+300=9501597= 1.25 * min(shelf) and = 1.25*MIN(Shelf) and R1.Shelf = 1.5*MIN(Shelf) and R1.Price 100（c）这是一个分布式多特征立方体吗？为什么？答：不，这不是一个分布式的多特征立方体。因为在such that子句中含有 1. 所以，买 hot dogs不是独立于买humburgers。两者存在正相关关系6.1 简述决策树分类的主要步骤。6.6 给定一个具有50个属性（每个属性包含100个不同值）的5GB的数据集，而你的台式机有512M内存。简述对这种大型数据集构造决策树的一种有效算法。通过粗略地计算机主存的使用说明你的答案是正确的。 We will use the RainForest algorithm for this problem. Assume there are C class labels. The most memory required will be for AVC-set for the root of the tree. To compute the AVC-set for the root node, we scan the database once and construct the AVC-list for each of the 50 attributes. The size of each AVC-list is 100C. The total size of the AVC-set is then 100 C50, which will easily fit into 512MB of memory for a reasonable C. The computation of other AVC-sets is done in a similar way but they will be smaller because there will be less attributes available. To reduce the number of scans we can compute the AVC-set for nodes at the same level of the tree in parallel. With such small AVC-sets per node, we can probably fit the level in memory.这个问题我们将使用雨林算法。假设有C类标签。最需要的内存将是avc-set为根的树。计算avc-set的根节点，我们扫描一次数据库，构建avc-list每50个属性。每一个avc-list的尺寸是100C，avc-set的总大小是100C50，对于合理的C将很容易适应512 MB内存，计算其他avc-sets也是使用类似的方法，但他们将较小，因为很少属性可用。在并行计算时，我们可以通过计算avc-set节点来减少同一水平上的扫描次数，使用这种每节点小avc-sets的方法，我们或许可以适应内存的水平。6.11下表由雇员数据库的训练数据组成。数据已泛化。例如：age “31.35”表示年龄在31-35之间。对于给定的行，count表示department,status,age和salary在该行具有给定值的元组数。设status 是类标号属性。（a）如何修改基本决策树算法，以便考虑每个广义数据元组（即每一行）的count?(b)使用修改的算法，构造给定数据的决策树。 (c)给定一个数据元组，它在属性department,age和salary的值分别为“systems”,“26.30”,和“46K. 50K”。该元组status的朴素贝叶斯分类是什么？（d）为给定的数据设计一个多层前馈神经网络。标记输入和输出层节点。（e）使用上面得到的多层前馈神经网络，给定训练实例（sales,senior,31.35,46K.50K）,给出后向传播算法一次迭代的权重值。指出你使用的初始权重和偏倚以及学习率。6.12支持向量机（SVM）是一种具有高准确率的分类方法。然而，在使用大型数据元组集进行训练时，SVM的处理速度很慢。讨论如何克服这一困难，并为大型数据集有效的SVM算法。7.1简单地描述如何计算由如下类型的变量描述的对象间的相异度：（a）数值（区间标度）变量 (b)非对称的二元变量（c）分类变量（d）比例标度变量（e）非数据微量对象7.2给定年龄变量的如下测量值：18; 22; 25; 42; 28; 43; 33; 35; 56; 28;用如下的方法对该变量标准化（a）计算两个对象之间的欧几里

人人文库> 全部分类> 生活休闲 > 科普知识

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

数据挖掘_概念与技术(第2版)习题答案.doc

文档简介

温馨提示

最新文档

评论

数据挖掘_概念与技术(第2版)习题答案.doc

文档简介

温馨提示

最新文档

评论

相关文档