数据挖掘第一章资料_第1页
数据挖掘第一章资料_第2页
数据挖掘第一章资料_第3页
数据挖掘第一章资料_第4页
数据挖掘第一章资料_第5页
已阅读5页,还剩19页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第一章引用论1.1为什么要进行数据挖掘1.2进行数据挖掘1.3能够进行哪种类型的数据挖掘1.5使用哪种技术1.6面向哪种类型的应用处理1.7数据挖掘的主要问题1.1 .为什么要把数据挖掘为了从这些庞大的数据中发现有价值的信息,并将该数据转换为组织性的知识,需要强大而通用的工具。 这个需求导致了数据挖掘的诞生。 例如,谷歌的Flu Trends (流感倾向)使用特别的检索项目作为流感活动的指标。 发现了检索流感相关信息的人数与确定实际流感症状的人数之间的密切关系。 聚集了所有关于流感的检索时,出现了一种模式。 使用收集的搜索数据,谷歌Flu Trends可以比传统系统早两周评估流感活动。 此示例

2、说明了数据挖掘如何将大数据集转换成知识并有助于解决现代的全球挑战。 1.1. 2数据挖掘是信息技术的进化数据库和数据管理产业发展为几个重要的功能的开发(参见图1.1 ) :数据收集和数据库创建、数据管理(包括数据的存储和检索、数据库的处理)和高级数据分析(数据仓库和数据数据收集和数据库建立机制是数据存储、检索和查询以及事件处理有效机制开发的必要基础。 数据库和信息技术已经从系统的最初的文件处理发展成了复杂强大的数据库系统。 数据库系统的研究和开发已经从开发水平和网格数据库发展为开发关系数据库系统、数据建模工具、索引和访问方法。 用户还可以通过查询语言、用户界面、查询处理优化和事务管理,来方便灵

3、活地访问数据。 最近出现的一个数据存储库是数据仓库,它支持管理决策,其中多个异构数据源是在一个站点上以统一的模式组织的存储。 数据仓库技术包括数据清理、数据整合和在线分析处理(OLAP )。 (OLAP是一种分析技术,可以聚合、整合、聚合数据,并从各种角度进行观察。 )决策者缺乏从大量数据中提取有价值知识的工具,因此必须开发系统数据挖掘的工具。1.2数据挖掘数据知识发现(KDD )指的是,(1)组织数据(去除噪声和删除不匹配数据) (2)数据聚合(可以将多个数据源组合) (3)数据选择(从数据库中提取与分析任务有关的数据) (4) (5)数据挖掘(基本步骤,以智能的方式提取数据的模式) (6)

4、模式评估(基于某一兴趣度的度量,标识代表知识的真正有趣模式在知识表示中(通过使用可视化和知识表示技术为用户提供挖掘知识),步骤1-4采用不同形式的数据挖掘预处理准备用于挖掘的数据,从而数据挖掘步骤可以与用户界和知识库交互。 有趣的模型提供给用户,或作为新知识存储在知识库中。 这个观点认为数据挖掘是知识发现过程的一个步骤,但是很多人把他当作整个知识发现过程,数据挖掘是从大量数据中发掘有趣的模式和知识的过程。 1.3可以挖掘的数据种类最基本的形式是数据库数据、数据仓库数据、事务数据。 1.3.1也称为数据库数据库系统、数据库管理系统(DBMS ),由管理并存储内部相关的数据(数据库)和数据的一系列

5、软件程序构成。软件程序定义了数据库结构和数据存储,同时解释和管理共享、分布式数据访问,并提供了一种机制来确保存储的信息的完整性和安全性,以防止系统的宕机或未经授权的访问。 关系数据库是一个表的集合,每个表都有唯一的名称。 每个表都有一组属性(列或字段),包含多个元组(行或记录)。 每个元组都代表一个对象,用唯一的关键字来标识,并用一组属性值来描述。 关系数据库通常构建语义数据模型,如实体联系(ER )数据模型。 ER数据模型将数据库表示为一系列实体及其关系的联系。 (例1.2 p30 )关系数据可以通过数据库查询访问。 可以使用关系查询语言(如SQL ),也可以使用图形用户界面来编写。 关系查

6、询语言可以包含求和函数,如sum、avg、count、max和min。 将数据挖掘应用于关系数据库,可以进一步查看趋势和数据模式。 1.3.2数据仓库数据仓库是从多个数据源收集的信息存储库,以一致的模式存储,通常存储在单个站点。 数据仓库是通过组织数据、转换数据、整合数据、加载数据和定期更新数据而构建的。 为了便于决策,数据仓库中的数据以主题组织为中心。 数据存储库从历史的角度提供信息,通常是摘要的。 数据仓库通常是通过称为数据多维数据集的多维数据结构来建模的。 每个维对应于架构中的一个或多个属性,每个单元格保存合并度量的值。 (例1.3 p32 )数据仓库适用于在线分析处理,可以在不同的抽象

7、层上提供数据。 OLAP操作的示例包括向下钻取和上滚,用户可以从不同的聚合级别观察数据。 1.3.3事务数据库的各记录代表一个事务,如顾客一次购物、用户网页的点击等。 通常,事务处理有唯一的事务处理id(trans-id )和构成事务处理的项目(例如在事务处理中购买的商品)的列表。 (例1.4p33 )虽然常规数据库系统不能分析购物数据的篮数据,但是事务数据上的数据挖掘可以挖掘频繁的项目集。 频繁的物品集是指频繁一起销售的商品的集合。1.3.4其他类型的数据时间相关或序列数据、数据流(视频监视和传感器数据,它们正在连续播放)、空间数字设计数据(建筑数据、系统部件或集成电路等)、超文本和多媒体数

8、据1.4能挖掘什么样的模式存在大量的数据挖掘功能,包括特征和划分、频繁的模式、关联和相关挖掘、分类和回归、聚类分析、偏离点分析。 一般来说。 数据挖掘任务分为两类:说明和预测。 描述性任务描述了目标数据的一般性质,预测性任务汇总到现在的数据中作出预测。 1.4.1类/概念的记述:用总结各类和概念的简洁准确的表现来记述是有用的。 该描述包括(1)数据的特征,一般摘要研究类(目标类)的数据(2)数据划分,将目标类与一个或多个可比较类(比较类)进行比较(3)数据的特征和划分。 有几种有效的方法来表征和摘要数据,基于统计度量和图表的简单数据摘要,基于数据立方体的OLAP上滚操作可用于执行由用户控制的、

9、沿指定维的数据摘要,而面向属性的摘要技术用于数据的泛化和特征化特征输出格式有哪些,如饼图、曲线、多维数据立方体和包含交叉表的多维表? 的双曲馀弦值。 结果的描述可以以广义的关系和规则(特征规则)的形式提供。 数据分类的输出类似于特征性描述,但必须包含有助于区分目标类和比较类的比较度量。1.4.2挖掘的频繁模式,关联性和相关性的频繁模式包括频繁的项集、频繁的子序列和频繁的子结构。 (1)频繁的项目集:频繁出现在事务数据中的商品的集合(2)频繁的子序列集:频繁出现的子序列首先购买,然后购买(3)频繁的子结构?各种形式(图、树、格)可以与项目集或子序列合并,关联分析、变量、可靠性、支持度。 例如,5

10、0%的可靠性表示,如果一个客户购买了计算机,则购买软件的可能性为50%,支持度为1%,分析的所有内容中有1%表示计算机是和软件一起购买的。 为此包含单一的关联规则称为一维关联规则,除了谓词符号以外,与多个属性和谓词相关的相关可以简称为多维关联规则。 例如,年龄的2%是2029岁,年收入是40万49万美元,购买手机,这个年龄和收入组的顾客购买手机的概率是60%。 不能同时满足最小支持度阈值和最小置信区间阈值被视为无聊而抛弃。 1.4.3用于预测分析的分类和回归分类描述数据类和概念,找到要区分的模型,以使模型能够预测类标签未知的对象类标签。 模型的导出是基于对训练数据集的分析的. “我如何提供导出

11、的模型呢?”? ”。分类规则(IF-THEN规则)、决策树、数学公式或神经网络。 决策树类似流程图的树结构。 每个节点代表属性值的测试,每个分支代表测试的结果,叶代表类或类的分布。 在决策树和分类规则之间容易转换。 在分类中,神经网络是类似于神经的一系列处理单元,并且是单元之间的加权连接。 对下图:和预测类别(离散、无序)标签进行分类,回归来构建连续值函数模型。 回归用于预测缺少或难以获得的数值数据值。 相关分析可能需要在分类和回归之前进行,并试图识别与分类和回归过程明显相关的属性。 1.4.4不考虑分类标签地分析聚类分析数据的对象。 对象基于使类内的相似性最大化、使类间的相似性最小化的原则进

12、行聚类和分组。 形成的每个群集都可以看作是可以导出规则的对象类. 类似于分类法的形成,将观测数据编成分类阶层结构,总结出类似的事件。 1.4.5分析了离群点与数据的一般行为和模型不一致,这些数据的对象是离群点。 大部分数据挖掘方法都将偏离的点作为噪声和异常废弃。 但是,在一些应用(欺诈检查等)中,这些离群票更感兴趣,离群点数据的分析被称为离群点分析或异常挖掘。 1.4.6所有的模式都有趣吗? 所有的模式都有趣吗? 答案是不。 一个模型很有趣。 如果(1)容易被人理解的话(2)以某个确信度,对新数据和检查数据有效(3)潜在有用(4)是新颖的模式兴趣度的客观测定:支持度和信赖度。 支持度是指满足事

13、务数据库规则的事务所所占的百分比。 支持速度取概率P(XUY ),并且表示包含x和y两者的事务,即项目集x和y的和。 置信度可以评估所发现规则的置信度,取条件概率P(Y/X ),并且包含x的交易也可以取包括y的概率。 一般来说,每个兴趣度量都与用户自己可以控制的阈值相关联。 其他关心尺度包括分类规则的精度和复盖率。 正解率表示按规则正确分类的数据所占的比例,复盖率与支持率相似,表示规则能发挥功能的数据所占的比例。 客观测量有助于识别有趣的模式,但这还不够,它将反映特定用户需求和兴趣的主观测量结合起来。 “数据挖掘系统能做出所有有趣的模型吗? ”与数据挖掘算法的完整性有关。“数据挖掘系统能做出有

14、趣的模型吗? ”是数据挖掘的优化问题。 1.5使用什么技术,1.5.1统计学的统计学研究数据的收集、分析、解释和显示。 统计模型是一系列数学函数,用随机变量及其概率分布描绘目标类对象的行为。 广泛的应用程序和数据和数据类的建模。 统计学研究开发了使用数据和统计模型进行预测和预报的工具。 统计学方法可以用于总结和描述数据集。 统计学方法可以在晚上用于验证数据挖掘的结果。 1.5.2考察机器学习机器学习计算机如何根据数据学习(提高性能)。 主要领域是计算机程序根据数据自动学习认识复杂的模式,做出智能的决定。 介绍数据挖掘和高度相关的经典机器学习问题:监督学习:分类同义词; 无监视学习:集群的同义词

15、由于输入的实例没有集群标记,所以半监视学习:学习模型时使用带标记的实例和未标记的实例,带标记的实例学习类模型,无标记的实例进一步划分类界限关于两种问题,把一种作为正的事例,另一种作为负的事例。 参见下面的图1.12。 如果不考虑未标记的实例,虚线是分离正实例和负实例的最佳决策边界,可以使用未标记的实例将此决策边界改进为实线边界。 另外,右上角的两个正实例可以检测噪音和偏离点。 尽管被标了标签。 自主学习:用户在学习过程中扮演主要颜色的机器学习方法。 目的是积极地从用户那里获得知识,提高模型的质量。 数据挖掘和机器学习有很多相似之处。 机器学习通常关注精度,除了精度之外,数据挖掘研究还非常强调数

16、据挖掘方法在大数据集上的有效性和可扩展性吗? 的双曲馀弦值。 1.5.3数据库系统和数据仓库数据库系统的研究关注单位和最终用户数据库的创建、维护和使用。 建立了数据建模、查询语言、查询处理和优化方法、数据存储、索引和访问方法的公认原则。 数据库系统以处理相对较大的结构化数据集的高级可伸缩性是众所周知的。 数据仓库将不同的数据源和时间段的数据整合起来。 在多维空间中整合数据,形成部分物理化吗? 的双曲馀弦值。 数据多维数据集不仅推动了多维数据库的OLAP,还推动了多维数据挖掘。 1.5.4信息检索信息检索(IR )是检索文件或文件中信息的科学。 文档可以创建文本和多媒体,并且可能存在于网络上。

17、传统的信息检索和数据库系统有两个区别:信息检索假设检索的数据没有结构的信息检索查询主要是关键词,没有复杂的结构。 信息检索的典型方法采用概率模型。 例如,可以将文本文档视为一个单词包和出现在文档中的多组单词。 文档的语言模型是生成文档中的词包的概率密度函数。 两个文档之间的麻烦相似度可以用对应的语言模型之间的相似度来测量吗? 的双曲馀弦值。 此外,文本文档集的主题是否可以通过词汇表的概率分布建模? 的双曲馀弦值。 一个文本文档可以包含多个主题,可以视为多个主题的混合模型。 通过集成信息检索模型和数据挖掘技术,可以确定文档的主要主题,并为集合中的每个文档确定相关的主要问题。 1.6面向什么类型的应用1.6.1商务智能对业务来说,充分理解客户、市场、供应和资源、竞争对手等业务背景很重要。 商业智能(BI )技术提供了业务运营的历史、现状和预测视图。 数据挖掘是商业智能的核心。 商业智能的在线分析处理工具依赖于数据仓库和多维数据挖掘.分类和预测技术是商业智能预测分析的核心,在市场、供给和销售分析中有很多应用。 另外,在顾客关系管理中,对其主要角色进行聚类,根据顾客的相似性对顾客进行分组。 1.6.2 Web搜索引擎Web搜

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论