数据挖掘概念与技术读书笔记

上传人：m*** IP属地：贵州上传时间：2020-04-02 格式：DOCX 页数：8 大小：70.49KB 积分：20 举报 版权申诉

已阅读5页，还剩3页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

第一章第一章 1 可以挖掘的数据类型数据库数据数据仓库是一个从多个数据源收集的信息存储库存放在一致的模式下并且通常驻留在单个站点上通常数据仓库用称作数据立方体的多维数据结构建模数据立方体有下钻往下细分和上卷继续记性总和归纳操作事务数据时间先关或序列数据如历史记录股票交易数据等数据流空间数据工程设计数据超文本和多媒体数据 2 可以挖掘什么类型的模型数据挖掘功能包括特征化与区分频繁模式关联和相关性挖掘分类与回归聚类分析离群点分析数据挖掘功能用于指定数据挖掘任务发现的模式一般而言这些任务可以分为两类描述性和预测性描述性挖掘任务刻画目标数据中数据的一般性质预测性挖掘任务在当前数据上进行归纳以便做出预测特征化与区分数据特征化如查询某类产品的特征数据区分将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较如把具有不同特性的产品进行对比区分挖掘频繁模式关联和相关性频繁模式是在数据中频繁出现的模式频繁项集频繁子序列和频繁子结构用于预测分析的分类与回归分类是找出描述和区分数据类或概念的模型以便能够使用模型预测类标号未知的对象的类标号到处模型是基于对训练数据集的分析该模型用来预测类标号未知的对象类标号表现形式有分类规则 IF THEN 决策树数学公式和神经网络分类预测类别标号而回归简历连续值函数模型而不是离散的类标号相关分析可能需要在分类和回归之前进行他试图识别与分类和回归过程显著相关的属性聚类分析聚类分析数据对象而不考虑类标号离群分析数据集中可能包含一些数据对象他么对数据的一般行为或模型不一致这些数据时利群点 3 使用什么技术统计学中的统计模型机器学习监督学习分类的同义词学习中监督来自训练数据集中标记的实例无监督学习本质上是聚类的同义词学习过程是无监督的因为输入实例没有类标记由于训练无边际所以学习到的模型并不能告诉我们所发现的簇的语意半监督学习在学习模型时它使用标记的和未标记的实例标记的实例用来学习类模型而未标记的实例用来进一步改进类边界主动学习是一种机器学习方法它让用户在学习过程中扮演主动角色数据库系统和数据仓库 4 面向什么类型的应用哪里有数据哪里就用数据挖掘应用商务智能进行有效的市场分析比较类似产品的顾客反馈发现其竞争对手的优势和缺点留住具有高价值的顾客做出聪明的商务决策 Web 搜索引擎需要数以上千或上万计的计算机云协同挖掘海量数据把数据挖掘方法升级到计算机计算机云和大型分布数据集上 5 数据挖掘的主要问题挖掘方法挖掘各种新的知识类型挖掘多维空间中的知识数据挖掘跨学科的努力提升网络环境下的发现能力处理不确定性噪声或不完全数据模式评估和模式或约束指导的挖掘用户界面交互挖掘数据挖掘过程应该是高度交互的结合背景知识特定的数据挖掘和数据挖掘查询语言数据挖掘结果的表示和可视化有效性和可伸缩性数据挖掘算法的有效性和可伸缩性为了有效地从多个数据库或动态数据流的海量数据提取信息数据挖掘算法必须是有效的和可伸缩的并行分布式和增量挖掘算法大量数据和数据挖掘算法的计算复杂性是促使开发并行和分布式数据密集型挖掘算法的因素第二章第二章认识数据认识数据 1 主要学习了解属性的不同类型以及描述属性数据的中心趋势和散步的统计度量还有熟悉对属性值分布可视化的技术以及如何计算对象之间的相似性或相异性 2 数据对象与属性类型标称属性是一些符号或事物的名称有些使用数字表示但这些数字不具有数值属性二元属性 0 1 是否不是序数属性 ranking 数值属性是定量的即它是可度量的量用整数或实数值表示区间标度属性用相等的单位尺度度量如温度比例标度属性是具有固有零点的数值属性如不同币种间的汇率离散属性与连续属性离散属性具有有限或无线可数个数可以用或不用整数表示如果不是离散的就是连续的术语数值属性和连续属性通常可以互换地使用 3 数据的基本统计描述中心趋势度量均值中位数众数中列数数据的散布极差四分位数方差标注差和四分位数极差可视化的审视数据 2 1 1 2 1 1 2 2 2 上式表示的是方差其中是观测的均值观测值的标准差是方差的平方根 2 数据段基本统计描述的图形显示分位数图分位数分位数图直方图散点图与数据相关 4 数据可视化从存放在诸如关系数据库中的多维数据开始讨论一些表示方法包括基于像素的技术几何投影技术基于图符的技术以及层次的和基于图形的技术以及复杂数据对象和关系的可视化基于像素的可视化技术在屏幕上创建 m 个窗口每维一个记录的 m 个维值映射到这些窗口中对应位置上的 m 个像素像素的颜色反应对应的值集合投影可视化技术几何投影首要挑战是设法解决如何在二维显示上可视化高维空间散点图使用笛卡尔坐标显示二维数据点 5 度量数据的相似性和向异性 1 数据矩阵与向异性矩阵相似性等于 1 减去向异性 2 标称属性的邻近性度量 d i j p m p m 是匹配的数目 p 表示所有属性的个数二元属性的邻近性度量对于非对称性的二元属性计算向异性时分母的取值可以定义存在取值为 1 的属性个数数值属性的向异性闵可夫斯基距离一般而言用较小的单位表示一个属性将导致该属性具有较大的值域因而趋向于给种属性更大的影响或权重叙述属性的邻近性度量第 i 个对象的 f 值为 Xif 属性 f 有 Mf 个有序的状态表嫂排位 1 Mf 用对应的排位 Rifb 每个对象映射到 0 0 1 0 上以便每个属性都有相同的权重实现格式化如下图 P49 混合类型属性的向异性第三章第三章数据预处理数据预处理 1 数据预处理概述数据质量为什么要对数据预处理数据质量准确性完整性一致性时效性可信性和可解释性数据预处理的主要任务数据清理填写缺失值光滑噪声数据识别或删除离群点并解决不一致性来清理数据数据集成在分析中使用来自过个数据源的数据这涉及集成多个数据库数据立方体或文件数据归约得到数据集的简化表示他小得多但能够产生同样的或几乎同样的分析结果数据归约策略包括维归约使用数据编码方案以便得到原始数据的简化或压缩表示和数值归约使用参数模型如直方图聚类抽样或数据聚集用较小的表示取代数据 2 数据清理缺失值人工填写缺失值使用一个全局常量填充缺失值使用属性的中心独恋填充缺失值使用与给定元组属同一类的所有样本的属性均值或中位数使用最可能的值填充缺失值噪声数据分箱可以用箱均值中位数和箱边界光滑回归也可以用一个函数拟合数据来光滑数据离群点分析可以通过如聚类来检测离群点数据清理作为一个过程数据由于各种各样的原因如记录标准不同记录目的不同数据失效了等产生偏差如何进行偏差检测字段过载唯一性规则连续性规则空值规则 3 数据集成实体识别问题冗余和相关分析标称数据的卡方相关检验数值数据的协方差元组重复 4 数据归约可以用来得到数据集的归约表示他小得多但仍接近于保持原始数据的完整性数据归约策略维归约减少所考虑的随机变量或属性的个数数量归约用替代的较小的数据表示形式替换原数据数据压缩使用变量变换以便得到原数据的归约或压缩表示如果原数据能够从压缩后的数据重构而不损失信息则该

人人文库> 全部分类> 应用文书 > 事务文书

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

数据挖掘概念与技术读书笔记

文档简介

温馨提示

最新文档

评论

数据挖掘概念与技术读书笔记

文档简介

温馨提示

最新文档

评论

相关文档