版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、介绍数据挖掘教师的解决方案手册陈甘美华Pang-NingMichael教授Vipin Kumar版权所有2006年Pearson Addison-Wesley。 保留所有权利。内容。TOC o 1-2 h z u HYPERLINK l _Toc318808 1 IntroductionPAGEREF _Toc318808 h1PAGEREF _Toc318808 h HYPERLINK l _Toc318809 2 DataPAGEREF _Toc318809 h5PAGEREF _Toc318809 h HYPERLINK l _Toc318810 3 Exploring DataPAGE
2、REF _Toc318810 h19PAGEREF _Toc318810 h HYPERLINK l _Toc318811 4 Classification: Basic Concepts, Decision Trees, and ModelPAGEREF _Toc318811 hPAGEREF _Toc318811 h HYPERLINK l _Toc318812 EvaluationPAGEREF _Toc318812 h25PAGEREF _Toc318812 h HYPERLINK l _Toc318813 5 Classification: Alternative Technique
3、sPAGEREF _Toc318813 h45PAGEREF _Toc318813 h HYPERLINK l _Toc318814 6 Association Analysis: Basic Concepts and AlgorithmsPAGEREF _Toc318814 h71PAGEREF _Toc318814 h HYPERLINK l _Toc318815 7 Association Analysis: Advanced ConceptsPAGEREF _Toc318815 h95PAGEREF _Toc318815 h HYPERLINK l _Toc318816 8 Clust
4、er Analysis: Basic Concepts and AlgorithmsPAGEREF _Toc318816 h125PAGEREF _Toc318816 h HYPERLINK l _Toc318817 9 Cluster Analysis: Additional Issues and AlgorithmsPAGEREF _Toc318817 h147PAGEREF _Toc318817 h HYPERLINK l _Toc318818 10 Anomaly DetectionPAGEREF _Toc318818 h157PAGEREF _Toc318818 h三1介绍讨论是否执
5、行下列每项活动的是一种数据miningtask。把客户的公司根据他们的性别。否。 这是一种简单的数据库查询。把客户的公司根据他们的盈利能力。第 这是一种会计计算、应用程序的门限值。 然而,预测盈利的一种新的客户将数据挖掘。计算的总销售公司。否。 这又是简单的会计工作。排序的学生数据库基于学生的身份证号码。第 再次,这是一种简单的数据库查询。预测结果丢(公平)的一对骰子。否。 既然死是公正的,这是一种概率的计算。 如果死是不公平的,我们需要估计的概率对每个结果的数据,那么这更象研究的问题数据挖掘。 然而,在这种特定的情况下,要解决这一问题是由数学家很长一段时间前,因此,我们不认为它是数据挖掘。预
6、测未来股价的公司使用。historicalrecords是的。 我们将试图创建的模型,可以预测未来的持续价值的股票价格。 这是一例的2第1章介绍领域的数据挖掘预测模型。 我们可以使用回归分析。这一建模,尽管研究人员在许多领域已经开发了多种技术来预测时间序列。监控在患者心率异常。是的。 我们将构建一种型号的正常行为的心率和提高报警当寻常心的行为发生。 这将涉及领域的数据挖掘被称为异常检测。 这也可以看作是一种分类的问题如果我们的例子两个正常和不正常的心的行为。监测地震波地震活动。是的。 在这种情况下,我们将构建模型的不同类型的地震波的行为与地震活动和提高报警时,这些不同类型的地震活动。 这一例子
7、说明,在区域的数据挖掘已知的分级。解压的频率的声音波形。否。 这是信号处理。假设您是作为一种数据挖掘咨询顾问的互联网搜索引擎公司。 介绍如何将数据挖掘可以帮助该公司的具体的例子,说明技术,如群集、分类、关联规则挖掘和异常检测可以被应用。下面的示例将可能的答案。群集可以组的结果与类似的主题和现在的他们的用户以更精简的形式,例如,报告了10个最常见的词集。分类可以将结果以预定义的类别如“体育”、“政治”等。连续的关联分析可以检测到这种特定的查询按照某些其他的查询使用的概率很高,从而更有效的高速缓存。异常检测技术可以发现不寻常的模式的用户流量,例如,一主题已突然变得更受欢迎。 广告策略可以调整,以利
8、用这种事态发展。3对于下面的每个数据集说明数据是否privacyis一项重要的问题。普查数据的收集从1900年1950年。 无IP地址和访问次数的Web用户访问你的网站。单击“是”图像从地球轨道运行的卫星。 无名字和地址的人从电话通讯簿。 无姓名和电子邮件地址收集网。 无 2数据在最初的例子第2章、统计师说:“是的,字段2和3基本上是相同的。您能告诉我从三条线的样本数据所显示的为什么她说吗?7对所显示的值。 虽然它可以是危险的结论从这样的小样本,两个字似乎包含基本相同的信息。分类以下属性为Binary、离散或连续的。 还将其归为质量(名义或序数)或数量(时间间隔或比例)。 某些情况下可能会有多
9、个解释,简要说明你的理由如果您认为可能有某些含糊不清之处。例如:年龄。答:独立的、定量的、比率时间在上午或下午。 Binary、定性、序号亮度计测量光度计。持续不断的、定量的、比率亮度测量人的判决。 离散的、定性的、序号角度以度为单位0和360。 持续不断的、定量的、比率铜牌、银牌和金牌颁发的奖项在奥运会上。 离散的、定性的、序号高度海平面以上。 持续不断的、定量的、间隔/比例(取决于海一级被认为是一种任意的来源)。多的病人在医院里。 离散的、定量的、比率ISBN号的书籍。 (查找格式在Web上的)离散的、定性的、名义上的(ISBN号码没有订单信息,虽然)第2章数据可以通过指示灯的以下值:不透
10、明、半透明、透明。 离散的、定性的、序号军衔。 离散的、定性的、序号中心的距离园区。 持续不断的、定量的、间隔/比例(取决于)密度的物质以克每立方厘米。 离散的、定量的、比率检查涂层的编号。 (当你参加活动,你可以常常giveyour衣的人将为您提供的号码,您可以使用要求您的外套当你离开。)离散的、定性的、名义您接触的营销总监,当地一家公司,他认为他已设计出一种简易的方法来衡量客户的满意度。 他解释了他的计划:“它是如此的简单,我不相信没有人想过。 我只是保持跟踪客户投诉的每个产品。 我读的是数据挖掘的图书,计数率的属性,因此,我国的产品满意度必须是比特性。 但当我的产品都是基于我的新的客户满
11、意度测量和显示出他们对我的老板,他告诉我,我忽略了很明显的,我的措施是毫无价值的。 我认为他是疯了,因为我们最畅销的产品,最满意的,因为它的投诉最多。 你可以帮我把他直吗?”谁是谁的营销总监或老板吗? 如果您的回答,hisboss你将如何修复措施的满意度?老板是正确的。 一种更好的衡量标准是由投诉的产品满意地注意到产品)=”。总数销售的产品你能说什么关于属性的类型的原始productsatisfaction属性?没有什么可以说的属性类型的原始度量。 例如,两个产品具有相同的客户满意度的级别会有不同的投诉数目和反之亦然。几个月后,你会再次接触相同的营销directoras行使3。 这一次,他已经
12、设计出一种更好的方法来衡量在多大程度上对客户更喜欢一种产品在其他类似的产品。 他解释说,“当我们开发新的产品,我们通常要创建几个变量和评估这一客户的喜欢。 我们的标准程序,以使我们的测试主体所有的产品变化在一段时间,然后让他们排的变型产品。 然而,我们的测试科目有很优柔寡断的,尤其是当有两个以上的产品。 结果,测试永远需要的。 我建议,我们执行的比较成对的然后使用这些比较获得的排名。 因此,如果我们有三个产品的变化,我们的客户比较不同1和2、2和3,和最后3和1。 我们的测试时间与我的新程序是第三,什么是旧的程序,但雇员在测试的抱怨说他们无法拿出排名的结果。 和我的老板想要的最新的产品的评价,
13、昨天。 我还要提到的是他的人了老产品的评价办法。 您能帮助我吗?”是营销总监的麻烦吗? 将他的方法工作的生成顺序排列的变型产品的客户的首选项? 解释一下。是的,营销总监是有麻烦了。 客户可能会不稳定的排名。 例如,客户可能更喜欢1,2,2,3,但3到1。有什么方法可以修复的营销总监的做法? 更普遍的是,你能说什么来创建顺序测量基于规模的成对比较的吗?解决方案之一:三个项目,只做前两个比较。 一种更通用的解决方案:将选择的客户之一,订购产品,但仍然只允许配对比较的。 总的创建顺序测量基于规模的成对比较是很困难的,因为可能的矛盾之处。对于原来的产品评估计划的整体排名eachproduct变化中发现
14、的计算其平均在所有测试的科目。 评论你是否认为这是一种合理的办法。 有什么其他的办法可能您考虑吗?第一,存在的问题是分摊比额表是不可能有时间间隔或比例分摊比额表。 但实际上,平均可能不够好。 更重要的是,少数几个极端的评级可能会导致在总的评级,是一种误导。 因此,中值或修剪指(请参阅第3章)可能是更好的选择。您能想到的情况的识别号码将usefulfor预测吗?例如:学生ID是一种良好的“调头预警”功能的毕业日期。一名教育心理学家想要使用关联分析方法来分析。testresults 测试包括100个问题有四个可能的答案。第2章数据你将如何将此类数据转换成适合于associationanalysis
15、吗?关联规则分析工程使用binary属性,因此您必须将原始数据转化为Binary格式如下所示:Q1=AQ1=BQ1=CQ1=D.Q100=AQ100=BQ100=CQ100=D1000.10000010.0100特别是,什么类型的属性将您和howmany,他们有吗?400不对称的二元属性。以下哪一项的数量很可能会表现出更多的时间自动关联:雨量或每日的温度吗? 为什么?一种功能显示的空间自动关联如果位置更接近每个其他的更多的类似的值的功能比位置更远的地方。 这是更为常见的物理关闭位置有类似的温度比类似的降雨量降雨量以来可以非常本地化;,即降雨量可更改突然从一处向另一处。 因此,每日温度显示了更多
16、的空间自相关性然后每天的降雨量。讨论为什么有的文档的列表是一种数据集hasasymmetric离散或连续的非对称性的特点。Ijth的项的文档的列表的次数,长期j出现在我的文档”。 大多数文档所包含的只是一小部分的所有可能的条件,因此,零条目并没有很大的意义,不论是在描述或比较文档。 因此,文档的矩阵有不对称的离散特性。 如果我们应用了TFIDF正常化的条件和归档到二级缓存的规范1、然后这将会创建一个文档矩阵与连续的功能。 然而,功能仍然是不对称的,因为这些变化并不创建非零的条目中的所有条目,以前是0,因此,零条目仍没有很大的意义。许多科学依赖于观察而不是(或除了)设计实验。 比较的数据质量问题
17、的参与观测的科学与实验科学和数据挖掘。观测科学的问题,不能够完全控制数据的质量,他们获得的。 例如,直到地球轨道运行的卫星,测量,海洋表面的温度依赖的测量船。 同样的,天气的测量往往采取从站位于城镇或城市。 因此,有必要与所提供的数据,而不是数据从精心设计的实验。 在这种意义上说,数据分析的科学观测类似的数据挖掘。讨论之间的差值的精度测量和termssingle和双精度,因为它们是用来在计算机科学中,通常为代表的浮点数字,需要32位和64位的分别。精度的浮点数字的最大精度。 更明确地规定,精度通常表示的有效数字的位数来表示的值。 因此,单精度数只能代表值与多达32位、9位小数位数的精确。 然而
18、,往往的精度值使用32位(64 bits)是远远少于32位数(64位)。提供至少两个优点与数据存储在文本文件中insteadof a binary格式。文本文件可以很容易的检查键入的文件或查看它的文本编辑器。文本文件是更便携的binary文件、两个跨越多个系统和方案。文本文件可以更方便地进行修改,例如,使用文本编辑器或perl。区分噪音和异常值。 请务必考虑。followingquestions噪音是以往任何时候都更加令人感兴趣的或需要? 异常值没有任何的定义。 是的。 (请参阅第10章。)可以噪音对象异常值?是的。 随机的数据失真通常负责为离群值。有噪音的对象总是异常值?第 随机的失真会导致
19、对象或值更象是正常的。都是异常值总是发出噪音的对象吗?第 往往离群值仅仅是类的对象,是不同于正常的对象。可以使噪声典型值不寻常的一种,或反之亦然?是的。 考虑的问题是找出K近邻的数据对象。 程序员在设计算法2.1来执行这项任务。算法2.1算法查找K最接近的邻居。1:fori=1的数据对象2:查找距离的对象的所有其他对象。3:排序这些距离递减的顺序。(跟踪对象所关联的每个距离)。4:返回的关联对象的第一次K的距离,经过排序的列表。5:结束。描述了可能出现的问题与此算法如果有重复的对象的数据集。 假设距离函数将仅返回的距离为0的对象是相同的。有几个问题。 第一,重复的对象在最近的邻居列表将取决于细
20、节的算法和对象的顺序数据集。 第二,如果有足够的重复的、最近的邻居列表中可能包含重复的记录。 第三,对象可能不是自己的最接近的邻居。您将如何解决此问题?有多个方法这取决于具体情况。 一种方法是只保留某个对象的每个组对象重复。 在这种情况下,每个邻居都可以是单一的对象或一组对象重复。以下属性用于衡量成员对一群亚洲象:重量、高度、象牙的长度、中继线的长度,和耳区。 基于这些测量值,什么种类的相似性测量从2.4节您会使用比较或组这些大象? 证明您的答案和解释的任何特殊情况。这些属性中的所有数字,但可以具有完全不同的值的范围内,取决于所使用的比额表对它们进行测量。 此外,该特性没有不对称和规模的属性问
21、题。 这后者的两个事实消除了余弦和相关措施。 欧几里德距离、应用进行标准化后的属性要有平均的0和标准偏差为1,将是适当的。你是给定一组m对象分为K的群体,其中的组的大小美。 如果我们的目标是要获得的样本大小n99.9%的遗传因子相同。)两人共享99.9%的相同基因。 如果我们想要比较的遗传组成的两个人,我们应把重点放在它们之间的分歧。 因此,Hamming距离更适合这种情况。对于下面的引导程序、x和y,计算出所示的相似性或距离的措施。X=(1、1、1、1)、y=(2”、“2”、“2”、“2)余弦、关联、欧几里德的cos(x,y)=1、更正(x,y)=0/0(未定义)、欧几里德(x,y)=2X=
22、(0、1、0、1)、y=(1、0、1、0)余弦、关联、欧几里德,雅卡尔cos(x,y)=0、更正(x,y)=-1、欧几里德(x,y)=2、雅卡尔(x,y)=0X=(0、-1、0、1)、y=(1、0、1、0)余弦、关联、欧几里德的cos(x,y)=0、更正(x,y)=0、欧几里德(x,y)=2X=(1、1、0、1、0、1)、y=(1、1、1、0、0、1)余弦、关联、雅卡尔cos(x,y)=0.75、更正(x,y)=0.25的Jaccard(x,y)=0.6X=(2-1”、“0”、“2”、“0、3),y=(-1、1-1、0、0、-1)余弦、关联的cos(x,y)=0、更正(x,y)=0在这里,我们
23、深入探讨和余弦的相互关系的措施。什么是值的范围,均可用于测量角度的余弦值?1、1。 许多倍的数据只有积极的条目。在这种情况下该值的范围是0,1。如果两个对象具有角度的余弦值的测量1、他们是相同的吗? 解释一下。不一定。 所有我们知道的是,属性数值相差恒定的因素。是一种什么样的关系的角度的余弦值为测量的相关性,如果有条提示:查看统计的措施,例如平均值和标准偏差的情况下,余弦和关联是相同的和不同的。)对于两个向量x和y的值为0、更正(x,y)=cos(x、y)。图2.1(a)显示了这种关系的角度的余弦值为测量的Euclideandistance 100000随机生成点已标准化的有L 2的长度为1。
24、 何总的意见可以使之间关系的欧几里德距离和余弦相似性当引导程序具有L 2规范1?因为所有的100000点落在曲线上,有一种功能关系欧几里德距离和余弦相似性的标准化数据。 更具体地说,是一种逆向的关系余弦相似性和欧几里德距离。 例如,如果两个数据点都是相同的,它们的余弦相似性是一种和他们的欧几里德距离为零,但如果两个数据点都有很高的欧几里德距离、他们的余弦值是接近于零。 注意的是,所有的样例数据点是从积极的象限,即仅有积极的价值。 这意味着所有的余弦(和关联值将是积极的。图2.1(b)显示了这种关系的关联到欧几里德10万distancefor随机生成的点都已标准化,有的意思是0,标准差为1。 何
25、总的意见可以使之间关系的欧几里德距离和关联当引导程序已经标准化的意思0、标准偏差为1?同先前的答覆,但与关联取代余弦。源之间的数学关系余弦相似性和欧几里德距离每个数据对象都有L 2的长度为1。让x和y是两个向量的每个引导程序已有L 2的长度为1。 对于这种媒介的差异仅仅是n次的总和,其方形的属性值和两者之间的媒介是他们点的产品除以n。源之间的数学关系的关联和Euclideandistance在每个数据点都已进行了标准化,减去它的意思和除以其标准偏差。让x和y是两个向量的每个向量的平均值为0,标准偏差为1。 对于这种媒介的差异(标准偏差的平方)是n次的总和,其方形的属性值和两者之间的媒介是他们点
26、的产品除以n。更正(x,y)显示设置的不同度量的D(A,B)=(A-B)的大小+(B-A)符合指标定理给出第70页上。A和B是设置和A-B的差值。00.20.40.610.8余弦相似性1.41.210.80.60.40.20欧几里德距离00.81关联1.41.210.80.60.40.20欧几里德距离。(一)关系辗转相除(b)之间的关系欧几里德距离和角度的余弦值测量距离和关联。图2.1。图为演习20日。第1条)。 这是因为一组是大于或等于0,d(x,y)0。B、A)焊接钢管.-C)因为大小(AB)大小(B)和大小(BC)大小(B)、D A、BD B CCBB讨论您可能如何映射关联值的时间间隔1
27、对的时间间隔0、1。 注意类型的转换,可以使用取决于应用程序的,您所想到的。 因此,考虑两个应用程序:群集时间序列和预测行为的一次系列一。对于时间序列的群集、时间序列具有较高的正相关关系应放在一起。 为此,以下的转变将是适当的:对于预测的行为的一种时间序列从另一,有必要考虑强烈的负面影响,以及强烈的积极的、相互关联的。 在这种情况下,下面的转换、sim=|更正|可能是适当的。 请注意,这一假定您只想要预测的规模,而不是方向。给定的一种相似性测量值的时间间隔0、1介绍两个waysto转换这一相似性值的差异值在时间间隔0,。和d=-logs。近距离通常定义对之间的对象。定义了两个方法,你可能定义的
28、接近在海湾小组的对象。两个例子如下:(一)基于轮换的感应,即最小成对的相似性或成对的最大差异,或(ii)在欧几里德空间计算质心(意味着所有的点请参阅第8.2节)然后计算的总和或平均值的点的距离的中点。您如何定义两点之间的距离的点的集合在欧几里德空间吗?一种方法是计算距离质心之间的两个点集的。您如何定义接近两个数据集对象?(作出任何假设的数据对象,但一近距离测量的定义任何一对对象。)一种方法是计算得到的平均成对近距离的对象的一组对象中的对象组。 其他的办法都是采取最小或最大距离。请注意,凝聚力的群集相关的概念接近的一组对象之间的分离的群集相关的概念接近,两个组的对象。 (请参阅8.4节。)此外,
29、靠近两个群集是一种重要的概念在种种机遇的分层结构的群集。 (请参阅第8.2节)。你是给定的一组点的欧几里德空间,以及远距离的每个点在S点的x。 (不要紧如果xS。)如果我们的目标是要找到所有的点指定距离内的点y、Y=X、解释如何可以使用三角上的不平等和已计算的距离为x,可能减少距离计算的需要吗? 提示:在三角地的不平等现象,d(x,z)d(x,y)+d(y,x)、可重写为d(x,y)d(x、z)d(y,z)。不幸的是,有的打字错误,缺乏明确的提示。 提示应如下所示:提示:如果z是一种任意点的S,然后是三角的不平等现象,d(x,y)d(x,z)+d(y,z),可以写成d(y、z)d(x,y)d(
30、x、z)。另一应用程序的三角不平等从d(x,z)d(x,y)+d(y,z)显示,d(y,z)d(x、z)-d(x,y)。 如果下限,d(y,z)从这些不平等现象是大于,然后d(y、z)不需要计算。 另外,如果上面的绑定,d(y,z)获得的不平等d(y,z)d(y,x)+d(x、z)的值小于或等于,则d(x、z)不需要计算。总的,如何将之间的距离x轴和y轴的数量产生影响的距离计算?如果x=y然后没有任何计算都是必要的。 作为x变到更远的地方,通常更多的远距离的计算是有需要的。假设,你可以找到一小部分点S,从原始的数据集,每点的数据集指定距离内,至少有一点在S和,你也有成对的距离矩阵。 介绍了一种
31、使用此信息来计算最短的距离计算,设置的所有接入点的距离范围内的的指定点的数据集。让x和y是两个点并让x和y的点在S中最接近的两个点,分别。 如果我们可以有把握地断定d(x,y)。 同样的,如果我们可以有把握地断定d(x,y)。 这些公式都是派生的,考虑的情况下x和y是远的x和y作为远或接近的。显示1个减号Jaccard相似性是一种距离测量twodata之间的对象的x和y满足指标定理给出第70页上。 具体来说,d(x,y)=1-J(x,y)。第1条)。 因为J(x,y)1,d(x,y)0。1(b)。 因为J(x,x)=1,d(x,x)=02个。 因为J(x,y)=J(y,x),d(x,y)=d(
32、y,x)3。 (证明由于Jeffrey Ullman)minhash(x)是索引的第一非零项的xProb(minhash(x)=k)上的概率tha minhash(x)=k当x为随机交换。请注意,prob(minhash(x)=minhash(y)=J(x,y)(minhash lemma)。因此,d(x,y)=1prob(minhash(x)=minhash(y)=prob(minhashminhash函数(y)我们要表明,Prob(minhash函数=minhash(z)prob(minhash函数=minhash(y)+prob(minhash函数=minhash(Z)但是请注意,每当m
33、inhash(x)=Minhash(z),那么至少一minhash(x)=Minhash(y和minhash函数=minhash(z)必须是真的。显示距离测量定义的角度在两个数据引导程序、x和y满足指标定理给出第70页上。 具体来说,d(x,y)=arccos(cos(x,y)。注意角度的范围为0至180。第1条)。 由于0cos(x,y)1,d(x,y)0。1(b)。 因为cos(x,x)=1,d(x,x)=arccos(1)=0因为cos(x,y)=cos(y,x),d(x,y)=d(y,x)如果这三个矢量的飞机然后很明显的是,角度之间的x和z的值必须小于或等于之间的角度x、y、y和z。
34、如果y是投影的y到定义的平面的X和Z,然后注意之间的角度x、y、y和z是更多比的x和y、y和z。解释为什么计算接近两个属性通常simplerthan计算之间的相似性两个对象。总的对象可以是记录的字段(属性)是不同的类型。 计算全部相似的,这两个对象在这种情况下,我们需要决定如何计算相似性对于每个属性,然后将这些类似之处。 这是可以做到很干脆的使用方程2.15或2.16,但仍是有点特设的,至少相比较接近的措施如欧几里德距离或关联,这在数学上是有理的。 相比之下,中属性的值都是相同的类型,因此,如果另一特性是同一类型,然后计算相似度的概念和计算非常简单。 Chapter 3Exploring Da
35、ta3探索数据。获得某个数据集在UCI机器学习的应用Repositoryand尽可能多的不同的可视化技术的章节中所述。 有的书目注释和本书的Web站点提供了可视化的软件。MATLAB和R具有卓越的设施来实现可视化。 大部分的数字在本章中的创建使用MATLAB。 R是可从/。至少确定两个优点和两个缺点,使用颜色tovisually表示信息。优点:颜色非常容易直观区分可视元素。 例如,3组二维点更容易判别如果标记代表该点具有不同的颜色,而不是仅在不同的形状。 另外,数字的颜色是更有趣的。缺点:有些人是色盲,可能无法正确地解释了彩色图。 灰度图可以显示更多的细节在某些情况下。 颜色可以是硬盘的正确使
36、用。 例如,一种颜色较差可那俗气的或可以把注意力集中在不重要的元素。有什么安排的问题,产生的三个dimensionalplots吗?它将会被更好地为国家的这一更为普遍,“有什么问题.”因为选择、以及安排方面发挥了关键的问题是显示三维图。关键的问题三维绘图是如何显示的资料,以便尽可能少的信息变得模糊不清。 如果土地是一种二维的表面上,然后选择新的观点是至关重要的。 但是,如果图形是以电子的形式,然后它有时可能是交互式地改变的观点以获得完整的表面上。 三维固体的情况就更加具有挑战性的。 通常情况下,部分信息必须省略,以提供必要的信息。 例如,一层或跨部分的三维对象通常是如图所示。 在某些情况下,透
37、明度也可以被使用。 再次,能力改变这项安排的可视元素的交互方式可以是有帮助的。讨论的优点和缺点,使用的采样,减少thenumber的数据对象,需要将其显示出来。 将简单的随机抽样(无需更换)是个好办法吗?采样 为什么可以或不可以吗?简单随机抽样并不是最好的办法,因为它可以消除大部分的点在稀疏区域。 这是更好地在k-t因子区域数据对象太密集的同时保持大多数或所有数据对象的稀疏区域。说明您如何创建可视化效果的显示信息thatdescribes以下类型的系统。一定要解决以下问题:代表性。您将如何将地图对象、属性和关系的可视化元素?安排的。是否有任何特别的考虑,需要考虑到如何的视觉元素的显示吗? 具体
38、的示例可能选择的角度来看,使用透明度、或分隔的某些组的对象。选择。你将会如何处理大量的属性和数据对象?下面的解决方案供图示。计算机网络的网络。 一定要包括两个静态方面close,诸如连接性、和动态的方面,如交通。网络的连通性,最好是将表示为图中的节点的路由器、网关或其他通信设备和链路的连接。 网络连接的带宽可以表示的宽度的链接。 颜色可以用来显示使用率的链路和节点。分发特定的植物和动物物种的worldfor特定的时刻。最简单的方法是将显示每个物种在单独的世界地图和阴魂的世界各地区的物种出现。 如果有好几个品种的一次显示的图标用于每个物种可以被放置在一张世界地图。21使用计算机上的资源,例如处理
39、器时间、主内存和磁盘的一组基准测试的数据库程序。资源的使用情况,每个程序可显示为一条图的三个数量。 因为这三个的数量将会有不同的分摊比额表的适当比例的资源是必要的,这能起到很大的作用。 例如,资源的使用情况都可以显示总数的比例。 或者,我们可以使用三个条形图,一种类型的资源的使用情况。 在其中的每个块有一栏的高度表示使用相应的程序。 这种方法不需要任何扩展。 另一选项将会显示一条线图的每个应用程序的资源使用情况。 对于每个程序,一条线将建成的(1)考虑到处理器时间、主内存和磁盘作为不同的x位置(2)允许该比例的资源使用的特定方案的三个数量的y值与x的值,然后(3)绘制一条线来连接这三个点。 请
40、注意,订购的三份量需要指定的,但是都是任意的。 对于这种方法,使用的资源,所有的方案都可以被显示在相同的图。改变职业的工人在特定国家/地区的逾thelast 30多年的历史。 假设您有每年的信息每个人,也包括性别和教育水平。对于每个性别、职业细分可显示为阵列中的饼图,其中每一行的饼图表示某一特定的教育水平和每个列指示特定的一年。 为方便起见,在时间上的差距每一列可以是5年或10年。或者,我们可以在职业和然后对每个性别、计算累积成就业的每一种职业。 如果此数量是绘制的每个性别,然后之间的两个连续的行显示了就业这种占领。 如果颜色是与每个占领,然后之间的地区,每个设置的行也可色的颜色与每个职业。
41、类似的方式来显示相同的信息将是使用顺序堆叠的条形图。描述一种优势和缺点之一的干细胞和叶图withrespect标准的直方图。茎和叶图显示了你的实际值的分布。 在酬金方面的干细胞和叶的阴谋变得相当笨拙的很大数量的值。如何解决这一问题,一种直方图取决于numberand位置的容器吗?最好的办法是什么的估计实际的分布函数的数据看起来就像使用内核密度估计。 这一分支机构的数据分析是比较发达的,更多的是合适的如果广泛提供,但简单的办法,一直方图是不足够的。描述如何使用框图可以给信息的值是否是anattribute对称分布。 你能说什么关于的对称性分布的属性显示在图3.11的吗?如果该行占入息中位数的数据
42、中间,thebox,然后数据是对称分布,至少在75个以上的数据之间的第一和第三个四分位。 其余的数据长度、毛刺和异常数据也显示,虽然,因为这些功能不需要更多的点,它们可能是误导的。Sepal宽度和长度似乎较为对称分布,花瓣长度似乎是歪斜的,花瓣宽度有点歪斜。比较sepal length、sepal width、花瓣长度和宽度的花瓣、usingFigure 3.12。对于Setosa、sepal lengthsepal width花瓣长度花瓣宽度。 对于鲜屑型、糜烂型足和Virginiica、sepal lengthsepal width和花瓣长度花瓣宽度,但sepal length花瓣长度、花
43、瓣长度sepal width。评论使用的框图来探索数据集与四个属性:年龄、体重、身高、和收入。大量的信息可通过查找(1)”框中每个plotsfor属性、和(2)框图的特定属性的各种类别的第二个属性。 例如,如果我们比较一下框图的年龄的不同类别的年龄,我们就会看到,重量随年龄增加而上升。给出一种可能的解释,说明为什么大多数值的花瓣长度andwidth落在桶沿对角的图3.9。我们希望这种分布的三个品种的综合注册资讯系统可以根据它们的大小,如果花瓣长度和宽度都是相关关系,厂的规模和每个其他。使用数字3.14和3.15到识别的特点,和petalwidth花瓣长度属性。23有一种相对平坦的曲线上的经验性
44、的民防部队和分位点别出心裁的两片花瓣长度和宽度的花瓣。 这表示一组鲜花,这些属性都有相对稳定的值。简单的线图,如图2.12的56页的、两个whichshows时间序列,可以用来有效地显示高维数据。 例如,在图56很容易判断的频率的两个时间序列是不同的。 有什么特点的时间系列允许的有效可视化高维数据吗?该属性的值是有序的。描述的各种情况下产生稀疏或密集数据的多维数据集文件中说明的例子以外使用的通讯簿。任何的数据集的所有组合的价值是不大可能发生的将会产生稀疏的多维数据集。 这将包括集的连续属性的一组对象的属性并不占据整个数据空间,但只有其中的一小部分,以及离散的属性,其中的许多组合值不发生。密集的
45、多维数据集将会出现,当几乎所有的测试项目组合”类别中的基本属性会发生、或总的水平足够高,以便所有的组合都可能有值的。 例如,考虑一种数据集包含类型的交通意外,以及它的位置和日期。 原始数据的多维数据集将会十分稀疏,但如果它是聚合的类别包括单一的或多个车祸,意外的发生,在这个月里发生,然后我们就会获得一种密集的多维数据集。您如何延长的概念的多层面数据的分析,以便使该目标变量是一种定性的变量? 换句话说,什么类型的摘要统计信息或数据的可视化效果会有兴趣吗?摘要统计信息,将有利于将频率值withwhich或组合的价值、目标和其他形式的出现。 从这我们可以从条件之间相互关系的不同的值。 反过来,这些关
46、系可以显示使用的图形相似,用于显示贝叶斯算法的网络。构建多维数据集的表3.1。 这是密集或稀疏数据立方体”。如果它是稀疏的、确定的单元格均为空。“多维数据集的表3.2。 它是一种高密度的多维数据集;只有两个单元格都是空的。表3.1。事实表的练习16。表3.2。多维数据集的练习16。产品标识号位置识别号。销售数量11101362152222123总11006162522027总1522643ProductID位置识别号。17日。 讨论之间的差别维度性减少基于聚合和维度性减少基于技术如PCA和SVD。的维度性PCA或SVD可以被视为一种投影的数据放到缩小的尺寸。 在聚合、团体的层面是结合在一起的。
47、 在某些情况下,如当天都汇聚到个月或六个月的销售一种产品的汇总,存储位置的聚合可以被视为一种改变分摊比额表。 相比之下,维度性减少提供的PCA和SVD没有作出这种解释。4分类:基本概念、决策树、和型号。评价绘制完整的决策树的奇偶校验功能的四个布尔属性,A、B、C和D。 它可以简化的树吗?图4.1。决策树用于奇偶校验功能的四个布尔型属性。 前面的树不能简化的。考虑培训的例子如表4.1所示的binary classificationproblem。表4.1。数据集的练习2。客户标识性别车型衬衫尺寸类别1M家庭小C 02M体育中等C 03M体育中等C 04M体育大C 05M体育超大C 06M体育超大
48、C 07F体育小C 08F体育小C 09F体育中等C 010F豪华大C 011M家庭大C 112M家庭超大C 113M家庭中等C 114M豪华超大C 115F豪华小C 116F豪华小C 117F豪华中等C 118F豪华中等C 119F豪华中等C 120F豪华大C 1计算的基尼指数全面收集培训的例子。答:基尼系数=1-2 0.52=0.5。计算的基尼指数为“客户标识”属性。答:坚尼对于每个客户ID的值为0。 因此,总的来说基尼系数的客户ID为0。计算的基尼指数的性别属性。答:坚尼的男性为1-2 0.52=0.5。 坚尼女也0.5。 因此,总的来说基尼系数的性别0.5 0.5+0.5 0.5=0.
49、5。表4.2。数据集的练习3。实例123目标类1TT1.0+2TT6.0+34T FFF5.04.0-+5678FFFTTTF F7.03.08.07.0-+9FT5.0-计算的基尼指数车型属性使用的多路分离。答:坚尼的家庭车0.375、体育汽车0、豪华车是0.2188。 总的基尼系数为0.1625。计算的基尼指数衬衫尺寸属性使用的多路分离。答:坚尼的小衬衫的尺寸是0.48,中等尺寸的衬衫是0.4898、宽大的T恤尺寸是0.5,和超大的T恤尺寸是0.5。 总的坚尼的球衣大小属性为0.4914。哪些属性是更好的、性别、车型、或衬衫的尺寸?答:车型,因为它的基尼系数最低的三个属性。解释为什么客户标
50、识不应被用作属性测试条件即使它具有最低的基尼系数。答:该特性没有预测能力,因为新客户分配给新的客户ID。考虑培训的例子中所示的表4.2的binary classificationproblem。什么是熵的这一收集培训的例子respectto积极的类?答:有四个正面的例子和五个负面的例子。 因此,第9。 熵的训练实例29)=0.二一一二九九一一。什么是信息增益的1和2相对这些培训的例子吗?答:对于属性1、相应的计数和概率是:1+-T31F14熵的1是”。因此,信息增益的1是0.二一一二九九一一-0.第12条健康权203-22153=022942557。对于属性2、相应的计数和概率是:2+-T23
51、F22熵的2”。因此,信息增益的20。二一一二九九一一-0.9839=0.0072。3、这是一种连续的属性、计算信息增益为每个可能的分拆。答:3类的标签。拆分点熵。信息增益1.0+2.00.84840.14273.0-3.50.9885零点零零二六4.0+4.50.91830.07285.0-5.0-5.50.98390.00726.0+6.50.97280.01837.0+7.0-7.50.88890.1022最好的拆分为3个时拆分点等于2。什么是最好的拆分(a1、a2、a3)根据信息的获得?答:根据信息的增益、1产生最佳的拆分。什么是最好的拆分之间(a1和a2)的分类错误率?答:对于属性1
52、:错误率=2/9。 对于属性2:错误率=4/9。因此,根据错误的发生率,1产生最佳的拆分。什么是最好的拆分之间(a1和a2)根据基尼指数?答:对于属性1的基尼指数是”。对于属性2、基尼指数是”。自在基尼指数为1是小,但它产生的更好地分割。4个。 显示熵的节点永远不会增加后拆分成更小的后继路由器的节点。答:让Y=y1,y2,yc表示c类和X=x1,x2,xk表示k的属性值的属性的X。 在节点上的拆分X,熵是:”(4.1)在那里我们用的是,从法的总的概率。拆分后的X、熵的每个子节点X=xi:)(4.2)其中P(yj|xi)是小部分的示例与X=xi,属于类yj。 熵分割之后在X的加权平均信息量的子节
53、点:(4.3)我们在那里用已知的事实是从概率论,P(xi,yj)=)。 请注意,E(Y|X)也称为有条件的熵。要回答这个问题,我们需要证明E(Y|X)E(Y)。 让我们的计算之间的区别后entropies分割和分割之前,即E(Y|X)-E(Y)、使用方程4.1和4.3:(4.4)为证明这一等式4.4非积极的,我们可以使用以下属性一种对数函数:”(4.5)但条件是=1。 此属性是一种特殊的情况下具有更普遍的定理涉及外接功能(其中包括对数函数)称为詹森的不平等。通过应用Jensen的不平等、等式4.4可以在限定范围内,如下所示:因为E(Y|X)-E(Y)0,因此熵从来没有增加分裂后的属性。考虑以下
54、的一组数据的binary类的问题。AB类的标签。TF+TT+TT+TTF T-+FFFTTFFFT F-计算信息增益当分裂的A和B。 该属性将决策树算法入门课程选择的?答:应急表格拆分后的属性上A和B是:A=TA=FB=TB=F+40+313315-总的熵分割之前是:Eorig=-0.4登录0.40.6登录0.6=0.9710信息获得后分裂的是:信息增益分裂后的B是:因此,属性将选择要分割的节点。计算的基尼指数当分裂的A和B。 该属性将决策树算法入门课程选择的?答:总体基尼系数的分割之前是:格里希=1-0.42-0.62=0.48增益在基尼系数的拆分后的是:增益在基尼系数的拆分后的B是:因此,
55、属性B将选择要拆分的节点。图4.13显示了熵的基尼指数都monotonouslyincreasing的范围0,0.5和他们两位都是单调减少的范围0.5,1。 可能是信息的获得和增益的基尼指数支持不同的属性吗? 解释一下。答:是的,尽管这些措施具有相似的范围和单调的行为、其各自的性别问题认识信息和联网系统、,这是按比例缩小的差别的措施,不一定是相同的行为方式,如图所示的结果在零件(a)和(b)。考虑以下的一组训练的例子。XYZ编号类别C 1的示例。编号类别C 2示例。000540001015010105011450100105101250110520111015(一)计算两级决策树使用贪婪的方法
56、本章所述。 使用分类错误率为准则来拆分。 什么是总体错误率引起的树吗?答:属性拆分为1级。要确定测试条件的根节点,我们需要计算的错误率特性的X、Y和Z。 对于属性X、相应的计数:XC 1C 20606014040因此,错误率使用属性的X是(60+40)/200=0.5。对于属性Y对应的计数:YC 1C 20406016040因此,错误率使用特性的Y是(40+40)/200=0.4。对于属性Z、相应的计数:ZC 1C 20307017030因此,错误率使用特性的Y是(30+30)/200=0.3。自Z使最小的错误率,它的选择被选择为分割的属性在1级。属性拆分为2级。拆分后的属性Z、随后的测试条件
57、可能涉及属性“X”或“Y”。 这在很大程度上取决于培训的例子分布到Z=0及Z=1的子节点。对于Z=0,相应的计数属性X和Y是相同的,如下表所示。XC 1C 2YC 1C 201545015451152511525错误的发生率在这两个案件(X和Y)(15+15)/100=0.3。对于Z=1,相应的计数属性X和Y都显示在下面的表中。XC 1C 2YC 1C 204515025151251514515虽然数略有不同,他们的错误率仍然是相同的,(15+15)/100=0.3。对应的两个一级的决策树是如下图所示。ZX或YC 2010011C 2C 1C 1X或Y总体错误率引起的树(15第15天第15天第
58、15天)/200=0.3。(二)重复第(一)部分使用X作为第一次分裂的属性然后选择最佳的其余属性的拆分每个后继节点。 什么是错误的发生率,引起的树吗?答:在选择属性X的第一分割特性、随后的测试条件可能涉及或特性的Y轴或Z轴的属性。对于X=0,相应的计数特性Y和Z如下表所示。YC 1C 2ZC 1C 2055501545155514515错误率使用特性的Y轴和Z轴都是10/120、30/120、分别。 因为属性Y会导致较小的错误率,它提供了一种更好的分离。对于X=1,相应的计数特性的Y轴和Z轴都显示在下面的表中。YC 1C 2ZC 1C 2035501525153512515错误率使用特性的Y轴
59、和Z轴都是10/80、30/80、分别。 因为属性Y会导致较小的错误率,它提供了一种更好的分离。对应的两个一级的决策树是如下图所示。XC 2010011C 1C 1C 2YY总体错误率引起的树是(10+10)/200=0.1。(c)对结果进行比较的部分(一)和(二)。 评论适用性贪婪的启发式用于拆分属性的选择。答:从上述结果的错误率为零件(一)远远大于零件(b)。 此示例显示了贪婪的启发并不总是产生最佳的解决方案。第7。 下表概述了数据集的三个属性的A、B、C和两类标注的“+”、“-”。 构建两级的决策树。ABC数量实例+-TTT50FTT020TFT200FFT05TTF00FTF250TF
60、F00FFF025(一)根据分类错误率,属性将被选为第一次拆分的属性吗? 对于每个属性,显示应变表和性别问题认识信息和联网系统的分类错误率。答:错误率的数据而不进行分区的任何属性”。拆分后的属性”中的增益错误率为:2500EA=T=1-最大值)”)=0=TA=F25 25252525050+E=F=1-最大值(25、50)=2575 7575-257525A=E电影原声大碟-EA=T-E=F=100100拆分后的属性B中的增益错误率为:3020203020502050EB=T=TB=F+EB=F=-505010B=E电影原声大碟-EB=T-EB=F=100100拆分后的属性C中的增益错误率为:
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 嵌顿痔的饮食管理
- 医学专业绩效考核制度
- 定制家具厂绩效考核制度
- 内部审计咨询服务制度
- 审计局信用承诺制度
- 地产项目风控制度
- 华为新员工绩效考核制度
- 农行教育培训管理制度
- 审计局项目检查制度
- 司法继续教育培训制度
- 化工企业安全隐患排查表
- 2024届新高考语文高中古诗文必背72篇 【原文+注音+翻译】
- 第五讲铸牢中华民族共同体意识-2024年形势与政策
- 组织工程学(新)
- 2023年胎膜早破的诊断和处理指南
- 府谷县新民镇丈八崖联办煤矿矿山地质环境保护与土地复垦方案
- 部队保密安全教育课件
- 交通基础设施智能建造技术探索与发展交流
- 计算机网络实验指导(郑宏等编著 华为)课件PPT(计算机网络实验指导)
- 国家基本药物培训
- 中学语文课程标准与教材研究
评论
0/150
提交评论