数据挖掘导论习题答案(中文版)_第1页
数据挖掘导论习题答案(中文版)_第2页
数据挖掘导论习题答案(中文版)_第3页
数据挖掘导论习题答案(中文版)_第4页
数据挖掘导论习题答案(中文版)_第5页
已阅读5页,还剩152页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、引入数据挖掘教师解决方案手册陈-宁迈克尔教授Vipin Kumar版权所有2006皮尔森艾迪森-韦斯利。保留所有权利。内容。1引言12数据53探索数据194分类:基本概念、决策树和模型评估255分类:替代技术456关联分析:基本概念和算法717关联分析:高级概念958聚类分析:基本概念和算法1259群集分析:附加问题和算法14710异常检测157三1介绍1.讨论是否执行以下每个活动是一个数据挖掘任务。(a)根据性别。不。这是一个简单的数据库查询。(b)根据客户公司的盈利能力对其进行排名。首先,它是会计计算和应用的门槛值。然而,预测新客户的盈利能力将是数据挖掘。计算出的销售公司总数。不,这是另一

2、个简单的会计工作。经过分类的学生数据库基于学生的身份证号码。第三,这是一个简单的数据库查询。一对骰子,具有丢失的(公平)预测结果。不,因为死亡是正义的,它是一种概率的计算。如果死亡是不公平的,我们需要为每个结果估计数据的概率,那么这更像是研究数据挖掘问题。然而,在这个特殊的例子中,这个问题的解决方案是很久以前由数学家提出的,所以我们不认为它是数据挖掘。公司用于预测未来股票价格。历史记录是的,我们将尝试创建一个模型,可以预测股票价格未来的可持续价值。这是第二章第一章的一个例子领域数据挖掘的预测模型。我们可以使用回归分析。尽管研究人员已经在许多领域开发了各种技术来预测时间序列,但这种建模方法并不奏

3、效。(g)监测患者的异常心率。是的,我们将建立一个正常心率行为的模型,并在正常心率行为发生时发出警报。这将涉及异常检测领域的数据挖掘。如果我们举两个正常和异常心脏行为的例子,这也可以被认为是一个分类问题。监测地震波的地震活动。是的,在这种情况下,我们将模拟不同类型地震波的行为,并在这些不同类型的地震活动时提高警报。这个例子说明了该地区数据挖掘的已知分类。(一)解压缩频率的声音波形。不,这是信号处理。2.假设你是一家互联网搜索引擎公司的数据挖掘顾问。本文介绍了如何帮助公司进行数据挖掘的具体实例,并举例说明了聚类、分类、关联规则挖掘和异常检测等技术的应用。以下示例显示了可能的答案。聚类可以用相似的

4、主题对结果进行分组,现在它们的用户可以用更简化的形式进行分组,例如,报告10个最常见的词集。分类可以将结果分为预定义的类别,如“体育”、“政治”等。连续关联分析可以检测到这个特定的查询很有可能被其他查询使用,因此可以更有效地缓存它。异常检测技术可以发现异常的用户流量模式,例如,一个话题突然变得更受欢迎。广告策略可以调整以利用这一发展。33.对于下面的每个数据集,解释数据私密性是否是一个重要问题。人口普查数据收集于1900年至1950年。不(二)你的网址及浏览次数。单击“是”环绕地球的卫星图像。不电话通讯录中的姓名和地址。不姓名和电子邮件地址收集网络。不2数据1.在初始示例的第2章中,统计学家说

5、:“是的,字段2和字段3基本相同。你能告诉我她为什么从三行的样本数据中说出来吗?7对显示值。虽然从这样一个小样本中得出结论是危险的,但这两个词似乎包含了基本相同的信息。2.将下列属性分类为二进制、离散或连续。它也可以分为质量(名义或序数)或数量(时间间隔或比例)。在某些情况下,可能有多种解释。如果你认为可能有一些模糊之处,请简要解释你的理由。例如,岁。回答:独立、定量和比率(a)上午或下午。二进制、定性、序列号光度计测量光度计。连续、定量、比率(c)亮度测量器的判断。离散、定性、序列号角度为0度和360度。连续、定量、比率奥林匹克运动会颁发铜牌、银牌和金牌。离散、定性、序列号高于海平面。连续、

6、定量、间隔/比例(取决于海平面)被视为任意来源。许多病人在医院。离散、定量、比率国际标准书号书籍。离散的、定性的和名义的(尽管国际标准书号没有订单信息)第二章数据(一)它可以是不透明的、半透明的和透明的,通过指示灯的以下值:离散、定性、序列号军衔。离散、定性、序列号从中心到公园的距离。连续、定量、间隔/比例(取决于)物质密度,单位为克/立方厘米。离散、定量、比率检查涂层编号。(当你参加活动时,你总是可以给你的衣服提供号码,并且你可以在离开时使用你的外套。)离散的、定性的、标称的3.你联系的当地公司营销总监认为他设计了一种简单的方法来衡量顾客满意度。他解释了他的计划。“事情这么简单,我不相信没人

7、想过。我只是记录顾客抱怨的每一种产品。我读的是数据挖掘的书,这是计数率的属性。因此,我国的产品满意度必须是具体的。但是当我所有的产品都是基于我新的顾客满意度衡量标准并展示给我的老板时,他告诉我,我忽略了一个显而易见的事实,那就是我的衡量标准毫无价值。我认为他疯了,因为我们最畅销的产品是最令人满意的,因为它有最多的抱怨。你能帮我把他弄直吗?”谁是谁的营销总监或老板?如果你回答,他的老板,你将如何修复措施的满意度?老板是对的。更好的衡量方法是对产品的投诉满意地注意产品)=”。销售的产品总数(二)您对该属性类型的原始产品满意度属性有什么看法?关于属性类型的原始度量没有什么可说的。例如,两个顾客满意度

8、相同的产品会有不同的抱怨,反之亦然。4.几个月后,你将再次接触到同一个营销总监。这一次,他设计了一种更好的方法来衡量顾客对一种产品的喜好程度。他解释道,“当我们开发新产品时,我们通常会创造几个变量,并评估顾客的喜好。我们的标准程序是让我们的测试对象在一段时间内更换所有产品,然后让他们安排不同的产品。然而,我们的测试对象非常优柔寡断,尤其是当有两个以上的产品。因此,测试总是需要的。我建议我们两人一组进行比较,然后使用这些比较得到的排名。因此,如果我们有三个产品变更,我们的客户会比较不同的1和2、2和3,最后是3和1。我们对我的新程序的测试时间是第三次,旧程序是什么,但是员工抱怨他们在测试期间不能

9、给出排名结果。我老板昨天想要最新的产品评估。我还想提一下,他的人已经开发了一种旧产品的评估方法。你能帮我吗?”(a)是营销总监的问题吗?客户对不同产品的偏好是按照其方法工作的生成顺序?解释一下。是的,市场总监有麻烦了。顾客的排名可能不稳定。例如,客户可能更喜欢1,2,2,3,但3比1。有什么办法可以弥补营销总监的做法吗?更一般地说,你能说些什么来创建一个基于标度的连续测量的成对比较?其中一个解决方案是:三个项目,只比较前两个。更通用的解决方案:将选择一个客户来订购产品,但仍然只允许匹配比较。因为可能存在矛盾,所以很难在创建的整体顺序中衡量基于规模的成对比较。(c)对于原始每个产品评估计划的总体

10、排名,计算在所有测试中发现其平均值的受试者。评论一下你是否认为这是一个合理的方法。你还有其他的方法可以考虑吗?首先,存在分摊比额表不能有时间间隔或比例分摊比额表的问题。但实际上,平均水平可能不够好。更重要的是,一些极端的评级可能会导致误导性的整体评级。因此,中指或修剪手指(见第3章)可能是更好的选择。5.你能想到的情况的识别号对预测有用吗?例如,学生证是一个很好的“掉头警告”功能的毕业日期。6.教育心理学家想用相关分析法来分析。测试结果测试包括100个问题,有四种可能的答案。第二章数据(a)如何将这些数据转化为关联分析?关联规则分析项目使用二进制属性,因此您必须将原始数据转换为二进制格式,如下

11、所示:Q1=AQ1=BQ1=CQ1=D.Q100=AQ100=BQ100=摄氏度Q100=D1000.10000010.0100特别是,你会有什么样的特质,有多少?400不对称二进制属性。7.以下哪一项可能会显示更多与:降雨量或日气温自动相关的时间?为什么?一个函数显示在一个空间中,该空间自动与一个位置相关联,在该位置上,该函数比该位置更远,如果该位置更接近每隔一个更相似的值。这是一个更常见的物理关闭位置,温度与降雨量相似,因为降雨量可能非常局部化;也就是说,降雨量可以突然从一个地方变到另一个地方。因此,日气温表现出更多的空间自相关性,然后是日降雨量。8.讨论为什么一些文档的列表是具有对称离散

12、或连续不对称的数据集。Ijth项目的文档列表在我的文档中长时间出现的次数。大多数文档只包含所有可能条件的一小部分,因此,无论是描述文档还是比较文档,零条目都不是很重要。因此,文档的矩阵具有不对称的离散特征。如果我们将TFIDF规范化的条件和归档的规范1应用到L2缓存,那么这将创建一个具有连续功能的文档矩阵。但是,该函数仍然是不对称的,因为这些更改不会在非零条目中创建所有条目,而非零条目以前是0。因此,零条目仍然没有重大意义。9.许多科学依赖于观察而不是(或除此之外)设计实验。观察科学、实验科学和数据挖掘中数据质量问题的比较。观察科学的问题不能完全控制他们获得的数据的质量。例如,卫星绕地球轨道运

13、行,根据海洋表面的温度测量船只。同样,天气测量通常是从位于城镇或城市的气象站进行的。因此,有必要提供数据,而不是来自精心设计的实验的数据。从这个意义上说,数据分析的科学观察类似于数据挖掘。10.讨论精确测量与单精度和双精度的区别,因为它们在计算机科学中使用,通常用浮点数表示,分别需要32位和64位。精度浮点数的最大精度。更具体地说,精度通常由有效数字的位数来表示。因此,单精度数字只能代表数值的精度,最多可达32位数字和9位小数。然而,使用32位(64位)的精度值远小于32位(64位)。11.用文本文件而不是二进制格式存储数据至少有两个优点。(1)文本文件很容易检查键入的文件或查看其文本编辑器。

14、(2)文本文件是可移植的二进制文件,跨越多个系统和方案。(3)可以更方便地修改文本文件,例如,使用文本编辑器或perl。12.区分噪音和异常值。请务必考虑。以下问题噪音比以往任何时候都更有趣或更有必要吗?离群值没有定义。是的(见第10章。)你能听到物体的异常值吗?是的,随机数据失真通常是异常值的原因。(c)有噪声的物体总是异常值?随机失真会使对象或值看起来更正常。所有异常值都总是发出噪音吗?离群值只是类的对象,不同于普通对象。(e)能使典型噪声值异常的噪声,反之亦然?是13.要考虑的问题是找出k个最近邻的数据对象。程序员正在设计算法2.1来执行这项任务。算法2.1找到k的最近邻居。1: for

15、i=1的数据对象2:找到距离物体的所有其他物体。3:按降序排列这些距离。(跟踪与对象相关的每个距离)。4:返回的关联对象的第一个k的距离,以及排序列表。5:结束。描述可能出现的问题的数据集,如果存在重复的对象,则描述该算法。假设距离函数将只返回距离为0的同一对象。有几个问题。首先,最近邻列表中的重复对象将取决于算法的细节和对象的顺序数据集。其次,如果有足够多的重复项,最近邻列表可能包含重复记录。第三,物体可能不是它最近的邻居。你将如何解决这个问题?根据具体情况,有几种方法。一种方法是只保留一个对象的每个组对象的重复。在这种情况下,每个邻居可以是单个对象或一组复制的对象。14.以下属性用于测量一组亚

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论