




已阅读5页,还剩9页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第一章导言1.面对高维、复杂、异构的海量数据,如何收集有用的信息和知识是数据挖掘需要解决的问题。2.数据挖掘定义:在技术层面,数据挖掘是从大量数据中提取有用信息的过程。在商业层面:数据挖掘是对大量业务数据进行提取、转换、分析和建模,从中提取辅助业务决策的关键数据。3.数据挖掘的特点:以前未知,有效和实用。4.数据挖掘对象:关系数据库(通过集合代数等概念和方法处理数据库中的数据)、数据仓库(支持管理决策的数据集)、事务数据库(每个记录代表一个事务)、空间数据库事件数据库和时间序列数据库流数据多媒体数据库文本数据库通用数据库5.数据挖掘任务:分类分析(根据一定的规则)、聚类分析(具有一般性)、回归分析、关联分析(具有关联规则)、离群点检测(发现异常数据)、进化分析(数据对象随时间变化的趋势)、序列模式挖掘(分析前后的序列模式)6.数据挖掘过程:数据清理、数据集成(考虑数据一致性和冗余)、数据选择、数据转换、数据挖掘、模式评估和知识表示。示例:1.1数据挖掘的对象是什么?请给出至少三个真实生活的例子。答:数据挖掘的对象是某个专业领域积累的数据。对象可以来自社会科学和科学自然科学的数据也可以从卫星观测中获得。数据格式和结构也不同。它可以是一个传统的关系数据库,一个面向对象的高级数据库系统,或者一个特殊的面向应用的数据库系统。数据库,如空间数据库、时间序列数据库、文本数据库和多媒体数据库,也可以是网络数据信息。真实生活的例子:(1)在电信行业,数据挖掘技术用于分析客户行为,包括客户通话记录、通话时间和办公室开放服务等。根据客户群划分和客户流失分析。(2)在天文学领域,数据挖掘方法如决策树被用来分类和分析数以百万计的天体数据以帮助天文学。科学家发现了其他未知恒星。(3)数据挖掘技术应用于制造业的部件故障诊断、资源优化、生产过程分析等。(4)将数据挖掘技术应用于市场定位、消费者分析和协助制定市场行业的营销策略。1.5定义以下数据挖掘功能:关联、分类、聚类、进化分析和异常检测。使用熟悉的学生实时数据,给出每个数据挖掘功能的例子。答:关联是指发现样本或样本不同属性之间的关联。例如,数据挖掘系统可能会发现关联规则是:专业(x,“计算科学”)拥有(x,“个人电脑”)支持=12%,确认=98%,其中x是代表学生的变量。这条规则规定了主要的主题。拥有计算机科学和个人计算机的学生比例是12%,他们主修计算机科学。98%的学生拥有个人电脑。分类是构建一系列能够描述和区分数据类型或概念的模型(或函数)。分类被用作预测。目标数据类的标签。例如,通过对过去银行客户损失和非损失客户数据的分析,得出预测新客户是否会流失的预测模型。聚类是将数据划分成相似对象组的过程,以便同一组中的对象在不同组中的相似性最大物体的相似性最小。例如,通过对大型超市的顾客购物数据进行聚类,顾客聚类被细分为低价值客户、高价值客户和普通客户等。数据演化分析描述并模拟了对象随时间变化的规律或趋势,尽管这可能包括时间相关数据的表征、区分、相关和相关分析、分类或预测。这种分析的明显特征包括时间序列数据分析、序列或周期模式匹配以及基于相似性的数据分析。离群点检测是发现异常数据。可用于检测金融领域的欺诈行为。第二章数据处理的基础1.数据和数据类型:数据是存储在数据库中的基本对象。数据类型:名义属性、序数属性、区间属性和比率属性。2.数据集分为三类:记录数据、基于图形的数据和有序数据集。补充:数据的统计特征:平均值、中值、中间列数(数据集中最大值和最小值的平均值)、模式(出现频率最高的值)、截断平均值(指定0-10% p,丢弃高端和低端(p/2)%数据,然后计算为计算平均值)3.数据挖掘的效果直接受到数据源的影响。4.数据清理的目的:试图填充丢失的数据,消除噪声,识别异常值,并纠正数据中不一致的值。5.缺失值的处理方法:分析时忽略元组,分析时忽略属性列,估计缺失值,手工填写缺失数据,估计缺失值,自动填写缺失数据。6.噪声平滑方法:划分盒子和聚类。7.数据聚合的目的是将来自两个或更多数据源的数据存储在一致的数据存储设备中。8.数据转换的内容:数据一般化(将学科分为科学和工程,忽略细节)、标准化、特征构造(集中数据特征来构造新特征,减少特征维数)和数据离散化(出现熵计算)。9.数据缩减:降维和特征变换:降维可以删除不相关的特征,降低噪声,降低维数灾难风险,降低数据挖掘的时间复杂度和空间复杂度。特征变化可以从不同的数据角度反映不同的特征。取样:长期用于数据预调查和最终数据分析。在数据挖掘中,采样是选择数据子集进行分析的常用方法。1)简单的无回报随机抽样方法2)简单随机抽样回归方法3)分层抽样法特征选择:从一组已知特征中选择最具代表性的特征子集,以保留原始数据的大部分特征,并正确区分数据集中的每个数据对象。根据特征选择过程与后续数据挖掘任务之间的关联,有三种方法:过滤、打包和嵌入。根据是否使用了类别信息的指导,可以分为有监督的、无监督的和半监督的特征选择。特征子集选择的搜索策略:逐步向前选择(从空集合开始,逐步添加),逐步向后删除(从整个属性集合开始,逐个删除),向前选择和向后删除相结合,决策树约简。特征搜索过程中不可缺少的一个环节是逐步评估。数据预处理方法:数据清理、数据集成、数据转换、数据约简和数据离散化示例:2.5假设用于分析的数据包含属性年龄,数据元组中年龄的值如下(按升序排列):13,15,16,16,19,20,20,21,22,22,25,25,25,30,33,33,35,35,35,36,40,45,46,52,70 .(a)使用盒子平均值的平滑来平滑上述数据,盒子的深度为3。解释你的步骤。对于给定的数据,评论这种技术的效果。数据平滑还有哪些其他方法?答:(a)已知数据元组中的年龄值如下(按升序排列):13,15,16,16,19,20,20,21,22,22,25,25,25,30,33,33,35,35,35,36,40,45,46,52,70,盒子的深度是3,分为(等频率)盒子:方框1: 13、15、16盒子2: 16,19,20盒子3: 20,21,22方框4: 22、25、25盒子5: 25,25,30方框6: 33,33,33盒子7: 35,35,35盒子8: 35,36,40盒子9: 45,46,52方框10: 70盒子平均值是平滑的:盒子1: 15,15,15盒子2: 18,18,18方框3: 21,21,21方框4: 24,24,24方框5: 27,27,37方框6: 33,33,33盒子7: 35,35,35方框8: 37,37,37盒子9: 48,48,48方框10:70;对于数据平滑,其他方法包括:(1)回归:可以使用函数(例如回归函数)来拟合数据,以平滑数据;(2)聚类:通过聚类可以检测出异常值,相似值可以组织成组或簇。直觉上,落在聚类集之外的值被视为异常值。2.6使用练习2.5中给出的年龄数据回答以下问题:(a)使用最小-最大归一化将年龄值35转换为0.0,1.0间隔。(b)使用z-score对换算年龄值35进行标准化,其中年龄的标准偏差为12.94岁。(c)使用十进制比例将转换年龄值35归一化。指出您希望对给定数据使用哪种方法。陈述你的理由。答:(a)如果已知最大值为70,最小值为13,则35可以归一化为:如果已知平均值为30,标准偏差为12.94,则35可以归一化如下:(c) 35可以归一化为:2.17给定两个矢量对象,它们分别表示为p1(22,1,42,10)和p2(20,0,36,8):(a)计算两个物体之间的欧几里德距离计算两个物体之间的曼哈顿距离使用x=3计算两个物体之间的闵可夫斯基距离计算两个物体之间的切比雪夫距离回答:(a)计算两个物体之间的欧几里德距离计算两个物体之间的曼哈顿距离(c)计算两个物体之间的闵可夫斯基距离,其中参数r=3切比雪夫距离:=62.8以下是在购物中心销售的商品价格列表(按升序排列,括号中的数字表示先前数字出现的次数)1(2)、5(5)、8(2)、10(4)、12、14(3)、15(5)、18(8)、20(7)、21(4)、25(5)、28、30(3)。请分别用等宽法和等高法划分上述数据集。回答:(1)等宽法:将其分为3个数据集,每个数据集的宽度为10。价格在1到10之间出现的次数是13;价格在11到20之间出现的次数是24;价格出现在21和30之间的次数是13。(2)等高线法:分为2个数据集,每个数据集的高度为4次出现。事件1-4之间的价格是1、8、10、12、14、21、28、30,共有8个数据。5-8次出现之间的价格是5、15、18、20和25,总共有5个数据。2.9讨论数据汇总中需要考虑的问题。A.数据汇总中需要考虑的问题包括:(1)模式识别:这主要是一个实体识别问题;(2)冗余:一个属性是冗余的,也就是说,它可以从另一个表中派生出来。如果属性或维度的名称不一致,也可能导致冗余,这可以通过相关性分析来检测。(3)数据值冲突的检测和处理:由于不同的表示尺度或代码,有些属性会有不同的属性。第三章分类和回归1.分类:分类是数据挖掘的主要方法。其任务是学习数据集并构造一个具有预测功能的分类模型,用于预测未知样本的类别标签,并将具有未知类别标签的样本映射到给定的类别标签。2.分类模型学习方法:基于决策树的分类方法、贝叶斯分类方法、k近邻分类方法、神经网络方法。3.决策树的概念和构造:决策树是一种树形结构,包括决策节点、分支节点和页面节点。决策节点:代表一个测试,通常对应于一个具有分类对象的属性。该属性的不同测试结果对应于一个分支。叶节点:每个叶节点对应一个类标签,指示一个可能的分类结果。决策树的构建:1)属性选择(非常重要,通常是为了最大化样品组纯度)2)获得合适大小的决策树3)使用ID3和其他经典算法构建决策树4.分类模型评估:分类过程一般分为两步:第一步是用分类算法学习训练集并建立分类模型;第二步是使用分类模型对标签未知的测试数据进行分类。5.分类模型性能评价指标:(1)分类准确性:指模型正确预测新数据或以前未知数据的类别标签的能力。(影响分类准确性的因素:训练数据集、记录数量、属性数量、属性中的信息、测试数据集记录的分布)(2)计算复杂度:它决定算法执行的速度和占用的资源,并取决于具体的实现细节和软硬件环境。(3)可解释性:分类结果只有在可解释性和易于理解的情况下才能更好地用于决策支持。(4)可扩展性。(5)稳定性:指不会随着数据的变化而剧烈变化。(6)稳健性:指当数据集包含噪声和空位值时,分类器对数据进行正确分类的能力。6.分类模型误差:(1)训练误差和泛化误差。7.评估分类模型性能的方法:(1)维护方法:通过非返回抽样将数据集分为两个独立的子集,训练集(2/3)和测试集(1/3)。(2)随机二次抽样:保持方法的多次迭代;(3)k-折叠交叉验证。示例:3.1考虑表3-23所示的二进制分类问题的数据集。表3-23练习3.4数据集AB类别标签TFTTTTTF-TTFF-FF-FF-TT-TF-(1)根据属性A和属性b计算信息增益。决策树归纳算法将选择哪个属性?(2)根据属性A和属性b划分时计算基尼系数。决策树归纳算法将选择哪个属性?回答:当按属性A和属性B划分时,数据集可分为以下两种情况:A=TA=F40-33B=TB=F31-15(1)划分前样本集的信息熵e=-0.4 log 20.4-0.6 log 20.6=0.9710通过根据属性a划分样本集获得的两个子集的信息熵(值t和值f)分别为:通过根据属性A划分样本集获得的信息增益是:通过根据属性b划分样本集获得的两个子集(b值t和b值f)的信息熵分别为:通过根据属性B划分样本集获得的信息增益是:因此,决策树归纳算法将选择属性a。(2)划分前的基尼系数是G=1-0.
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 河南省洛阳市嵩县2024-2025学年七年级下学期期末历史试题(含答案)
- 2025年福建省泉州市第六中学九年级最后一考数学试题(含部分答案)
- 食品物流行业发展前景研究报告
- 《道德经》的智慧启示知到智慧树答案
- “大庆精神”主题非遗文化剪纸知到智慧树答案
- 2025年哈尔滨房屋租赁合同范本
- JT-T 1178.2-2019 营运货车安全技术条件 第2部分:牵引车辆与挂车 含2025年第1号修改单
- 汇川区建设安全知识培训课件
- 水质监测基础知识培训课件
- 建筑工程施工安全技术培训方案
- 专题03词语梳理与辨析-2023年三年级语文暑假专项
- 自愿放弃景点协议书(2篇)
- 信息检索课件 第2章 文献检索方法(1)-2
- 2024-2030年中国热电行业运营模式及盈利前景预测报告
- 德佑房屋买卖合同范本
- (正式版)JBT 14875-2024 带式输送机 输送带纠偏装置
- 人教版数学六年级下册核心素养教案全册
- 新时代劳动教育教程(中职版劳动教育)全套教学课件
- 白银公司考试题2024
- 轧光机安全操作规程范本
- 眼耳鼻咽喉口腔科护理学(高职)全套教学课件
评论
0/150
提交评论