大数据知识点梳理_第1页
大数据知识点梳理_第2页
大数据知识点梳理_第3页
大数据知识点梳理_第4页
大数据知识点梳理_第5页
已阅读5页,还剩18页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第一章引言什么是数据挖掘?数据挖掘更加精确地命名为“从数据挖掘知识”,是数据中知识发现(KDD )的同义词。 数据挖掘是从数据库、数据仓库、web和其他信息存储库中挖掘有趣的模式和知识的过程,包括动态流入系统的数据。2 .知识发现的过程是什么?知识发现的过程包括:(1)数据清理(去除噪声和删除不一致数据)(2)数据整合(可组合多个数据源)(3)数据选择(从数据库中提取与分析任务相关的数据)(4)数据转换(通过汇集或汇集操作,将数据转换统一为适合挖掘的形式)(5)数据挖掘(通过基本步骤、智能方法提取数据模式)(6)模式评价(根据某种兴趣度的尺度,识别代表知识的真正有趣的模式)(7)知识表示(运用可视化和知识表示技术,向用户提供挖掘知识)3、能挖掘什么种类的数据?数据挖掘可以应用于任何类型的数据。 数据的基本格式包括数据库数据、数据仓库数据和事务数据。 也可用于数据流、顺序/顺序数据、图或网络数据、空间数据、文本数据、多媒体数据和网络。(1)数据库数据它由一组内部相关的数据和用于管理和存储数据的软件程序组成。 关系数据库是表的集合,每个表都具有唯一的名称,包含一组属性(列或字段),通常包含大量元组(记录或行)。 每个元组代表一个对象,由唯一的关键字标识,并由一组属性值编写。 关系数据库的语义数据模型(如实体接触(ER )数据模型)通常是构建的。(2)数据仓库数据仓库是从多个数据源收集的信息存储库,处于一致模式,通常位于一个站点。 数据存储从历史角度提供信息,通常是摘要。 数据仓库是通过称为数据多维数据集的多维数据结构建模的。 每个维对应于模式中的一个或多个属性,每个单元格保留特定的聚集度量值(三)事务数据每个记录代表一个事务4、能发掘出什么样的模式?使用数据挖掘功能指定数据挖掘任务的检测模式。 通常,这些任务分为两类:说明和预测。 描述性挖掘任务描绘目标数据中数据的一般性质,预测性挖掘任务集中到当前数据中进行预测。(1)类别/概念描述:特征和区别数据可以与类或概念相关联。 数据特征是对象类数据的一般特性和特征的摘要。 如何聚合和特性化数据:基于统计度量和图表的简单数据聚合,基于数据多维数据集的OLAP上滚操作,以及面向属性的摘要技术。 可以以多种方式提供数据特征的输出:饼图、条形图、曲线、多位数据立方体和多维表数据分类将目标类数据对象的典型特性与一个或多个比较类对象的典型特性进行比较。(2)挖掘频繁模式、关联和相关;频繁模式包括频繁的项集(基础)、频繁的子序列和频繁的子结构。(三)用于预测分析的分类和回归;分类预测类别标签,回归建立连续值函数模型。 回归分析是最常用的数值预测统计学方法,相关分析需要在分类和回归之前进行,试图识别分类和回归过程中有意义的属性。(4)聚类分析无论类标签如何,都对数据对象进行聚类和分析。(5)离群点分析大部分的数据挖掘都是将偏离点作为噪声和异常丢弃,但是在一些应用中可以进行偏离点的分析和异常挖掘5 .支持度和信任度支持度表示在事物数据库中满足规则的东西所占的比例,信赖度评价被发现的规则的信赖度。正确率是规则被正确分类的数据所占的比例,霸权率表示像“支持度”这样规则能够发挥作用的数据所占的比例。第二章识别数据1 .数据对象和数据类型数据对象也称为示例、实例、数据点或对象,数据对象存储在数据库中。 数据对象是数据元组,数据库中的行对应于数据对象,列对应于属性。属性表示数据对象的特性(属性、维、特性、变量)标称属性:对于某些符号或事物的名称(分类或枚举),标称属性可以是整数,但不被视为数字属性。二元属性:是公称属性,只有两种状态。 通常,0或1,0表示该属性不出现,1表示不出现。 二元属性有对称和不对称两种。序数属性:可能值之间有意义的序数或秩评估,但连续值之间的差异是未知的。 中心倾向可以表示为其最频值和中值,但无法定义平均值。数值属性:以定量的、整数的或实数的数值来表示。数值属性可以是区间比例或比例。 除中心趋势测量的中央值和最频值外,还可以计算平均值。 比例属性是具有唯一零点的数字属性。离散属性和连续属性:离散属性具有有限或无限的数字,可以是整数,也可以不是整数2 .数据的基本统计描述(1)对于测量数据分布的中心或中心位置的中心趋势测量平均值(包括平均值、加权平均值、中值、最频值和中值)对极端值敏感,并且可使用截距平均值来抵消少数极端值的影响的非对称数据, 数据中心最好使用中值的最频值是集合中最频繁出现的值,分为单峰、双峰和三峰,对于适度倾斜的单峰数据,具有平均-最频值=3* (平均-中值)经验表达式的中值列数是数据集的最大值和最小值的平均值。(2)数据散布,最常见的测量为极差、四分位数、四分位数极差、五数摘要和方框图、数据分布和标准偏差。 极差:最大值和最小值之间的差异:从数据分布中的每个恒定间隔的点来识别可以将数据分割成大致相同大小的连续集合的离群点的一般规则选择第三四分之上或第一四分之下的至少1.5*IQR的值,其中IQR是四分之一的极端差异(Q3-Q1),即五分之一或中间部分方差和标准偏差表示数据分布的方差程度。 低标准偏差意味着数据观测趋向于非常接近平均值,而高标准偏差意味着数据被分散到较大的值区域。(3)柱状图、圆形图、线图以及分位图、分位-分位图、直方图、散布图等,可视化地观察数据。 分位图:以观察单变量数据分布的简单高效的方式,显示指定属性的所有数据。 分位-分位图(q-q图)可以观察从一个分布到另一个分布是否有漂移。 直方图:概括给定属性x的分布的图表方法分布图:确定两个数字变量之间是否存在关联的模式或趋势的最有效的图表方法之一。基本数据描述和图表统计信息显示有助于识别噪声和偏离点,特别对于数据清理尤其有用。3 .数据可视化数据可视化的目的是在图形显示中清晰、高效地表现数据。(1)基于像素的可视化技术像素颜色反映维度值,并为每个维度建立一个视窗。(2)几何投影可视化技术几何投影技术有助于用户发现立方体投影。 二维散布图以不同的颜色和形状表示不同的数据点,其中三维散布图使用三个正交坐标系坐标轴,并且对于维数大于4的数据集合,散布图通常不太有效。 平行坐标可以处理更高的维度,绘制n个等距离、相互平行的轴,每个维度各一个。(3)基于符号的可视化技术两种流行的符号技术切尔诺夫脸和人物线条。 切尔诺夫面部:面部元素表示维度值,限制表示多重联系,无法显示具体的数据值,外部特征取决于感知的重要性。 人物线条:将多维数据映射到5段人物线条上,每幅画都有四肢和身体。(4)分层可视化技术将所有维度分割为子集,并以阶层方式显示这些子空间。(5)将复杂的对象和关系视觉化标签云是用户生成的标签的统计量的可视化。 在标签云的使用方法中,如果一个术语的标签云使用标签的大小来表示不同用户使用该术语的次数,并使用多个术语来显示标签统计信息,则标签的大小来表示使用该标签的术语数量,即标签的流行性。4 .测量数据的相似性和异性(1)数据矩阵和各向异性矩阵数据矩阵(对象-属性结构)每行对应一个对象,每列代表一个属性,也称为两个模块矩阵各向异性矩阵(对象-对象结构)保持n个对象之间的接近度,仅包含被称为单模式矩阵的一种实体相似性度量可以表示各向异性度量的函数(2)公称属性的接近性度量公称属性对象之间的各向异性可以基于不一致性计算m是匹配的数(I,j是值相同状态的属性数),p是描绘对象的属性总数(3)二项属性的接近度量对象j对象I10sum1q.qrq r0st.tst.tsum智能手机罗伯特p基于对称二元属性的相异性被称为对称二元相异性,I,j的相异性基于不对称二元属性的各向异性被称为不对称二元各向异性,并且如果认为两个状态不是同等重要的并且取值比0有意义,负匹配t并不重要并且被忽略,则I、j各向异性变为(4)数值属性的各向异性最受欢迎的距离尺度是欧几里得距离曼哈顿距离欧几里得距离和曼哈顿距离满足数学性质非负性: d(i,j)0 :距离为非负值同一性: d(i,j)=0:从对象到自身的距离为0对称性: d(i,j)=d(j,I ) :距离是对称函数三角不等式: d(i,j)d(i,k) d(k,j )对象I到对象j的距离不大于根中的其它对象k的距离闵可夫斯基距离(5)序号属性的接近性测定第三章数据预处理为什么要对数据进行预处理数据质量与准确性、完整性、一致性、时效性、可靠性、可解释性等诸多因素有关。 不准确、不完整、不一致的数据是现实世界中大型数据库和数据仓库的共同特征。 数据预处理有助于改善数据质量,提高钻井过程的准确性和效率。2 .数据预处理的主要任务数据预处理的主要步骤:数据清理、数据整合、数据聚合和数据转换。(1)填写数据的整理缺失值,使噪音数据平滑,识别或删除偏离点,解决不匹配,对数据进行“整理”的数据汇总得到数据集的简化表示,数据汇总策略包括维汇总和数值汇总。 维聚合使用数据编码方案来简化或“压缩”原始数据,包括数据压缩技术(小波变换和主成分分析)、属性子集选择和属性结构,以及数字聚合使用参数模型(回归和对数线性模型)或非参数模型(直方图、簇)缺少值方法适用缺点忽略元组元组没有多个属性值忽略元组不能使用该元组的馀数属性值,因此这些数据可能有用用人工填写数据不足如果数据集的值太长,则不适用常数填充简单不可靠填充中心测量值正常数据应用平均值,倾斜数据使用中值数据不可靠输入类抽样属性的平均值或平均值给定类数据分布的斜率后,选择中值数据不可靠输入最可能的值可以用回归、贝叶斯形式和决策树进行总结决定最流行,但数据不可靠噪声数据:要测量的变量的随机误差或方差。方法另当别箱考察数据的邻接值,进行局部平滑,有箱子中央值的平滑度和箱子边界的平滑度回归函数拟合数据使数据平滑离群点分析通过聚类检测偏离点数据清理的第一步是偏差检测,其中唯一性规则的每个值必须与该属性的其他值不同;连续性规则的最小值和最大值之间没有值;所有值都是唯一的许多不同的业务工具可以帮助我们监控偏差:数据清洗工具使用简单的领域知识来检查和纠正数据中的错误,数据审计工具分析数据发现规则和联系人,检测违反这些条件的数据,从而发现偏差提供简单的转换。使用ETL工具,您可以使用图形用户界面描述转换。(2)数据统合:统合来自多个数据存储区的数据,存储到数据存储区等,存储到一致的数据存储区。冗馀:如果一个属性可以从另一个属性或从另一个属性集导出,则此属性可能是冗馀的。 一些冗馀可通过相关分析来检测,且对于标称数据,我们使用卡方检验且对于数值属性,我们使用相关因子或协方差公称数据的开方检定:用依存表显示2个数据群数值数据的相关系数:相关系数越大,相关度越强,可以作为冗馀度删除数值数据的协方差:(3)数据汇集数据聚合策略包括维聚合、数量聚合和数据压缩。 维度逼近减少了所考虑的随机变量和属性的数量,维度逼近的方法可以分为损坏和无损,以便用包括小波变换和主成分分析的数量代替原始数据的小数据表示格式进行数据压缩或变换来获得原始数据的聚合和“压缩”表示。小波变换是线性信号处理技术,其中使用的小波变换数据被丢弃,并且仅通过存储一点最强的小波系数,可以保持近似的压缩数据并且可以用于多维数据,例如数据多维数据集。主分量分析器搜索k个最代表性数据的n维正交向量,其中kn,原始数据被投影在非常小的空间上,从而导致二维聚合。 基本过程包括:1 )将输入数据归一化,使各属性进入同一区间2 )计算k个标准正交矢量,作为将输入数据规范化的基础。 这些是单位向量,每一个都垂直于其他向量。 这些向量称为主成分。 输入数据是主成分的线性组合。3 )按照“重要性”的降序排列主成分,去除弱成分的归属数据。 主成分分析可以更好地处理稀疏数据,小波变换适用于高维数据。属性子集选择通过删除不相关的属性或冗馀的属性来减少数据量并且找到最小属性集。回归和对数线性模型可以近似给定数据,利用线性回归可以对数据进行建模和拟合。直方图、属性值分割规则等宽度、频度聚类将目标分成组或聚类,并且用数据的聚类代表替换实际数据。个样本表示大型数据集,具有非常小的数据随机样本。数据多维数据集3 .数据转换和数据离散化数据转换策略包括平滑度、属性结构、聚合、规范化、离散化、从标称数据生成概念层次第四章数据仓库和在线分析处理什么是数据仓库?数据仓库是与单位操作数据库分开管理的数据库。 通过主题导向、统一、时变和非易失性数据集合帮助管理员决策过程。 通常只需要两个数据访

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论