《数据挖掘原理与应用 第2版 》课件 第3章 数据准备_第1页
《数据挖掘原理与应用 第2版 》课件 第3章 数据准备_第2页
《数据挖掘原理与应用 第2版 》课件 第3章 数据准备_第3页
《数据挖掘原理与应用 第2版 》课件 第3章 数据准备_第4页
《数据挖掘原理与应用 第2版 》课件 第3章 数据准备_第5页
已阅读5页,还剩177页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第3章数据准备基本概念转换后数据

知识目标数据数据预处理后数据数据准备数据挖掘解释评估模式数据源

数据挖掘解释评估数据选择数据集成预处理数据转换

数据准备要使数据挖掘能够得出良好的预期结果,需准备高质量的数据作为输入,这要求输入数据是完整的、一致的易于处理的、宜于运用数据挖掘算法的还要求数据是具有代表性的包含能够反映问题实质的特征数据因此,在进行数据挖掘之前,要进行一系列的数据收集和预处理工作,来改善数据的质量并提升数据的表现力,以利于提高数据挖掘的精度和性能。3数据准备对数据的预处理可以包括很多环节数据的质量、表现形式和代表性对数据挖掘算法选择、参数选取和最终结果都起着决定性的作用,因而这一过程在整个数据挖掘项目中起着至关重要的作用。4数据收集数据抽样数据集成数据清理数据规约数据变换第3章数据准备数据收集数据收集数据收集是指对数据挖掘项目所涉及的或所需的数据进行甄别和认定,并进行汇聚的过程。数据的汇聚将数据进行收集和复制,存放在集中性设备所搭建的数据仓库中对分布数据进行关联和连接,建立统一化的分布式数据集。数据收集方式有很多种,数据源(形式、地理位置)决定了进行数据收集应采用的方法和途径。6要考虑几个问题数据源多样化数据收集政务企事业咨询公司由政府部门所建立的电子政务等平台所收集和积累的数据,包括政府部门为了完成某项政务活动而委托专业机构所完成的持续的或一次性的调查活动所收集的数据。如人口统计数据、地理数据、户籍普查数据等等。在完成由政府部门委托的数据挖掘项目时,相关数据的收集相对容易一些。网络信息要考虑几个问题数据源多样化数据收集包括庞杂的生产、运营、管理、销售过程中所积累的数据。数据的质量视其信息化的意识和程度不同呈现较大的差异;政务企事业咨询公司网络信息要考虑几个问题数据源多样化数据收集专业从事数据调查的公司,长期或接受委托时进行数据的收集活动,形成的数据;政务企事业咨询公司网络信息要考虑几个问题数据源多样化数据收集政务企事业咨询公司网络信息互联网中的非结构化数据,例如气象网站公布的每日气象信息等。要考虑几个问题数据源多样化获得手段数据收集采取何种方式和途径来进行数据收集,由数据挖掘的目标来决定,也取决于数据的来源和经济方面的考虑。要考虑几个问题数据源多样化获得手段获得/第三方共享数据收集受委托的数据挖掘项目的数据的主要由委托方提供。要考虑几个问题数据源多样化获得手段获得/第三方共享购买/受让数据收集当需要的数据无法找到时,或者某些商业公司已经收集了所需的数据,一些数据可以从收集数据的公司那里购买得到。要考虑几个问题数据源多样化获得手段获得/第三方共享购买/受让自行调查数据收集有时,从利益的角度出发,没有必要一定要购买其数据,这时,调查就可能成为收集所需数据的必要手段要考虑几个问题数据源多样化获得手段获得/第三方共享购买/受让自行调查爬取数据收集从网络获取数据要考虑几个问题数据源多样化获得手段经济性时效性有效性数据收集小结数据收集是一个数据汇集的过程数据收集所涉及到的领域技术情况多种多样,需要按照任务要求和具体情况区别对待需要事先进行了解,进行设计,注重数据收集的有效性,避免无效工作17第3章数据准备数据抽样目的缩减数据的量体量数据抽样维度统计学与数据挖掘的数据抽样的目的不同统计学中是因得到感兴趣的整个数据样本集的资金和时间成本太高数据挖掘是为处理全部数据的资金成本和时间成本太高原则抽取的数据应有代表性抽取感兴趣的内容数据抽样抽样方法简单随机抽样分层抽样系统抽样整群抽样数据抽样简单随机抽样完全随机地从原始数据中抽取一定数量的样本数据抽样

–抽样方法11012242688711103595总体样本抽样样本简单随机抽样分为简单无放回抽样简单有放回抽样数据抽样

–抽样方法11012242688711103595总体样本抽样样本简单随机抽样优点随机度高简单缺点可能会效率低抽到差得样本抽出的样本分布不好不能很好地代表总体数据抽样

–抽样方法11012242688711103595总体样本抽样样本数据抽样

–抽样方法系统抽样将总体中的各数据项先按一定顺序排列并编号,然后按照一定的规则抽样,例如:等距离抽样数据抽样

–抽样方法系统抽样优点:简便、具有统计推断能力缺点:消除了可能存在的周期性数据抽样

–抽样方法分层抽样是把调查总体分为同质的、互不交叉的层(或类型),然后在各层(或类型)中独立抽取样本数据抽样

–抽样方法分层抽样例如:调查零售店的销售数据时,按照其销售规模大小或库存额的大小分层,然后在每层中按简单随机方法抽取大型零售店若干、中型若干、小型若干每组抽相同个数,或按比例数据抽样

–抽样方法分层抽样优点:适用于层间有较大的异质性,而每层内的个体具有同质性的总体,能提高总体估计的精确度,在样本量相同的情况下,其精度高于简单抽样和系统抽样;能保证“层”的代表性,避免抽到“差”的样本;不同层可以依据情况采用不同的抽样框和抽样方法。数据抽样

–抽样方法分层抽样缺点:要求有高质量的、能用于分层的辅助信息;由于需要辅助信息,抽样框的创建需要更多的费用,更为复杂,抽样误差的估计也比简单抽样和系统抽样更复杂。数据抽样

–抽样方法整群抽样先将调查总体分为群,然后从中抽取群,对被抽中群的全部数据进行处理整群抽样vs分层抽样数据抽样

–抽样方法优点适用于群间差异小,群内各个体差异大,可依据外观的或地域等的差异来划分的群体。缺点是群内单位有趋同性,其精度比简单抽样为低。数据抽样

–抽样方法数据抽样的策略具有代表性,体现数据的特性具有代表性,体现数据的特性保留原有特征数据抽样的策略具有代表性,体现数据的特性保留原有特征数据抽样的策略具有代表性,体现数据的特性保留原有特征渐进抽样(progressivesampling)自适应(adaptive)抽样原因:有时难以预先确定样本集大小方法:从小抽样率样本开始,逐步增加样本容量直至得到足够容量的样本需要有评估样本的方法,确定是否样本足够大例:使用渐进抽样,通过机器学习建立一个分类预测模型数据抽样的策略小结数据抽样是降低数据体量,使其能够用于有效的数据挖掘的一个重要的方法所采用的数据抽样的方法,需要根据数据挖掘的任务和数据的特性来针对地进行38第3章数据准备数据集成数据集成是把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中,从而为组织提供全面的数据共享数据集成是一个在信息化建设和数据服务领域普遍存在的问题应用场景数据挖掘信息化建设数据服务数据同步、融合云存储、云计算数据集成40数据集成的任务和面向的对象数据

集成ETL数据

剖析第三方

数据

接口数据

清洗数据

建模数据

迁移非结构化数据数据

安全41在企业数据集成领域,已经有了很多成熟的框架可以利用通常采用联邦式、中间件模式和数据仓库等方法来构造集成的系统这些技术在不同的着重点和应用上解决数据共享和为组织提供决策支持。数据集成42数据集成的难点异构性分布性自治性完整性包括系统异构、数据模式异构和数据异构。被集成的数据源通常是独立开发的,数据模型异构,给集成带来很大困难。这些异构性主要表现在:数据语义、相同语义数据的表达形式、数据源的使用环境等。43数据集成的难点异构性分布性自治性完整性数据源是异地分布的,依赖网络传输数据,这就存在网络传输的功能和性能上的问题。就要考虑和解决网络数据传输的准确性、便利性、实时性、稳定性和安全性等功能和性能上的问题。44数据集成的难点异构性分布性自治性完整性各个数据源有很强的内聚性和自治性,可以在不通知集成系统的前提下改变自身的结构和数据,给数据集成系统的鲁棒性提出挑战。45数据集成的难点异构性分布性自治性完整性数据集成,是要将更为全面更为广泛更能够体现问题本质和深度的数据进行汇聚,以期从中能够发现更感兴趣更具有价值的内容。46数据集成技术数据虚拟化数据联邦复制、聚集数据仓库/数据集市综合方法中间件47ETL数据联邦(DataFederation)数据联邦(也称数据联合)是一种基于数据查询操作,从不同的数据源完成数据汇集,并构成一个虚拟化的数据库的数据集成方法。48数据联邦特点不实际保存、复制和迁移数据只保存数据来源及连接、访问信息虚拟化的数据集成视图屏蔽了构成其数据的多数据源的物理位置、数据结构和保存方式49元数据:元数据是描述流程、信息和对象的数据,涉及技术属性、

业务定义和操作特征。元数据是描述数据的数据数据联邦应用框架APIDatabasesWebServiceFile配置数据DataVirtualizationServer查询语句……50数据联邦优点应用方便为数据应用提供比较简便的集成化的解决方法不需要转移数据就可以组织和存取来自多数据源的数据,提供统一的数据系统数据应用人员不需要了解过多的复杂的不同数据源系统及其数据结构,简化了实施和开发过程51数据联邦优点应用方便数据实时性好运行时只查询存取所需的数据,节省存储和网络开销,数据应用时即时操作,实现实时数据存取,适用于数据实时访问的应用,其数据可以是结构化的,也可以是非结构化的。52数据联邦优点应用方便数据实时性好开发快捷灵活允许应用直接访问数据数据架构调整快捷企业变化改进数据模型时,因数据联邦不实际保有数据,可快速适应变化,支持增量开发,加快了开发步伐53数据联邦缺点性能较低数据查询的反应较慢,数据结果集大时,性能会降低,不适合频繁查询,易出现争用和资源冲突等问题。集成场景中如果包含复杂数据转换的,会使响应时间变差而带来负面的影响。54数据联邦缺点性能较低系统可用性低依赖于多个数据源,其可用性是数据联邦技术无法保证的。一旦源数据离线,联邦工具的数据也不再有效。55数据联邦缺点性能较低系统可用性低服务器负担大真实数据源服务器的负载会有所增加。联邦服务器会把联邦视图分解为多个子操作,这些子操作会传送给数据源服务器,这些子操作越复杂这些源服务器的负载越大。56数据联邦缺点性能较低系统可用性低服务器负担大源数据内容数据来源于对原始数据源的实时查询,因此数据只包括来自源数据的内容,而不像其他数据集成方法所形成的数据系统,可以加入中间生成的结果。57数据仓库(Data

Warehouse)

广义上数据仓库描述了一种语义一致的数据组织与处理的体系结构,它将多个分散的、异质的原始数据融合在一起,完成不同数据存取、查询和文档分析、报告生成、决策支持等过程。狭义上数据仓库是支持经营管理中的决策制定过程的、面向主题的、集成的、内容相对稳定持久的、与时间相关的数据集合。58数据仓库专家W.H.Inmon:数据仓库……用于支持管理决策数据仓库架构源数据

数据应用

数据仓库

日志数据Log文档数据Documents数据库数据OLTP其他聚合数据Summary业务模型BusinessModel多维数据模型OLAP数据DetailedDataETL

报表Report数据分析DataAnalysis即席查询Ad-hoc数据挖掘DataMining元数据管理MetadataManagement轻运算轻汇集59数据仓库60数据仓库集成模型数据仓库是对多个异构的数据源有效集成,集成后按照主题进行了重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。元数据管理数据仓库集成系统封装器Wrapper封装器Wrapper……数据源1数据源n61数据仓库为最大限度地实现灵活性,集成的数据仓库的数据可以存储在标准RDBMS中,并经过规范的数据库设计,以及为了提高性能而增加一些小结性信息和不规范设计。这种类型的数据仓库设计被称为原子数据仓库。原子数据仓库的子集,又称为数据集市。62数据集市(Datamart)数据集市是用来满足特殊用户的应用需求的数据仓库,它们的规模可能达到数百GB。使其成为数据集市的关键是它的使用目标、范围,而非规模大小。数据集市可以理解为是一个小型的部门或者工作组级别的数据仓库。63数据仓库是数据集市的工作基础,数据集市是数据仓库的子集数据仓库特性可能无法满足特殊类型用户的各种需求,数据集市可灵活应用数据集市可与数据仓库一样大,甚至更大数据集市可以位于数据仓库的附近,或分布到更靠近用户的位置,放置在何处取决于使用和通讯成本数据仓库vs数据集市64数据仓库vs数据集市数据仓库数据集市数据来源遗留系统、OLTP系统、外部数据数据仓库范围企业级部门及或工作组级主题企业主题部门或特殊的分析主题数据粒度最细的粒度较粗的粒度数据结构规范化结构(第3范式)星星模式、雪片模式或二者混合模式历史数据大量的历史数据适度的历史数据优化处理海量数据数据探索便于访问和分析快速查询索引高度索引高度索引联机事务处理过程On-LineTransactionProcessing(OLTP)也称为面向交易的处理过程,其基本特征是前台接收的用户数据可以立即传送到计算中心进行处理,并在很短的时间内给出处理结果,是对用户操作快速响应的方式之一。65ETL数据抽取(Extraction)转换(Transformation)装载(Loading)使ETL系统连接到数据源系统上,选择和收集数据仓库或数据集市进行数据分析所需要的数据。数据抽取过程的复杂性差异较大,取决于数据源的个数和类型。通常要对来自多个数据源的、数据格式不同的异构的数据系统中的数据进行汇聚,因此必须在数据抽取过程中必须对数据进行一定的变换,使数据格式符合下一步的转换处理。66ETL数据抽取(Extraction)转换(Transformation)装载(Loading)执行一系列的规则或函数,并将抽取来的数据变换为标准格式。过程包括对数据记录的有效性检查,并将不符合要求的数据剔除掉。进行数据转换的计算量与数据密切相关。好的数据源需要的操作较少,有的数据则需要运用不止一种转换技术来使数据符合目标数据库或数据仓库的商业和技术上的要求。数据转换常用的步骤包括转换(conversion)、清理重复数据、标准化、过滤、排序、转化(translating),在数据源不一致的情况下进行查找和检验。67ETL数据抽取(Extraction)转换(Transformation)装载(Loading)将经抽取并转换后的数据输入到目标数据库或数据仓库中去。有些转载过程使用SQL插入语句,逐条地将数据记录插入到目标数据仓库的数据表中,有些则是利用块(bulk)装载程序大批量地插入数据。68数据联邦&数据仓库&ETL69数据联邦&数据仓库&ETL70中间件(MiddleWare)中间件模式通过统一的全局数据模型来访问异构的数据库、遗留系统、Web资源等。数据源数据集成中间件数据应用71中间件中间件位于异构数据源系统(数据层)和应用程序(应用层)之间数据源数据集成中间件数据应用向下协调各数据源系统向上为访问集成数据的应用提供统一数据模式和数据访问的通用接口实现不同来源、格式、性质的数据的转换与包装,从而把各种异构数据源集成在一起,提供一个统一的高层访问服务72中间件各数据源的应用仍然完成它们的任务,中间件系统则主要集中为异构数据源提供一个高层次检索服务。数据源数据集成中间件数据应用73中间件74数据源数据集成中间件数据应用中间件模式是比较流行的数据集成方法通过中间层提供统一的数据逻辑视图来隐藏底层的数据细节用户可以把集成数据源看为一个统一的整体关键问题是如何构造这个逻辑视图并使得不同数据源之间能映射到这个中间层利用中间件技术实现数据集成的关键在于如何解决好数据的异构性、完整性和语义冲突的问题。中间件数据的集成和发布都发生在中间件层通过中间件层接口以标准接口发布数据源数据集成中间件数据应用FILE适配器元数据应用适配器JDBCODBC75中间件优势中间件集成模式在分布式应用和异构数据集成领域具有一定的优势能够满足大量应用的需要能够运行于多种硬件和操作系统的平台能够支持分布式计算,提供跨网络、跨硬件和跨操作系统平台的透明性的应用或服务的交互能够支持标准协议和接口76中间件优势由于中间件所定义的标准接口对于可移植性和标准协议非常有利于互操作性,使之成为许多标准化工作的主要部分。在数据集成系统中,利用中间件为数据应用提供了一个相对稳定的环境,不管底层的数据源或数据结构及语义进行怎样的调整,只要将中间件升级更新,并保持中间件对外接口定义不变,则不会对数据应用产生影响,从而保护了企业在应用软件开发和维护上的利益。77小结异构数据源的集成一是通过数据联邦技术进行分布式数据访问,这将面临解决异构数据源数据结构和语义上的统一等问题二是通过数据仓库或中间件等技术,进行数据迁移,以利应用程序的访问,并提高数据的一致性(数据合并、数据安排)对于数据仓库、数据联邦,或中间件的数据集成架构,如何进行选择和应用,需要根据所要处理的数据的环境来进行。78第3章数据准备数据清理ETL中的数据清理应用模型80目标数据仓库装载数据源1数据源2

数据源3中间数据源抽取抽取清洗抽取清洗数据问题残缺数据部分应有的、关键的数据信息缺失。81例如商业运营数据中,分公司名称或客户区域信息残缺,或者业务系统中主表与明细表不能匹配等,都会对业务统计分析造成困难或带来偏差。数据问题残缺数据错误数据产生原因业务系统不够健全,缺乏对输入的判断和检验机制而直接写入数据库造成采集或输入错误82例如数值输入成了全角数字字符、字符串数据后面有多余的空格或回车符、日期格式不正确等处理时,对于全角字符、数据中有不可见字符的问题,可通过SQL语句的数据库操作进行甄别,由客户在业务系统修正之后抽取;日期数据格式错误或越界问题会导致ETL运行失败(失效),这类错误则需由业务部门在业务系统数据库中修正后再次抽取。例如将考试分数录入为了负值或超出100的数值等。数据问题残缺数据错误数据重复数据产生原因数据系统重复采集了同一数据;数据组织机制不够完善,缺乏对重复产生的数据的区分。一般处理方法删除重复项合并处理,并添加“次数”字段来进行频次记录。83某一业务数据因复制、分享、备份等操作多处存放,数据采集时也被多次抽取。例如数据库的主键设置不完善,无法区分重复产生的数据(例如无序号或时间戳等字段)例84数据问题残缺数据错误数据重复数据异义数据数据定义的语义差异,使数值所表达的意义有所偏差,并会造成数据处理结果的含义和解释的不同。85例如:将总分不同的测试成绩不经处理进行合并将表述学生对课程焦虑程度的由李克特量表衡量的“老师要纠正我错误时很害怕”问题和“去上课的路上感到很轻松”问题简单合并处理等一致性检查(consistencycheck)数据源内部及数据源之间从多数据源集成的数据可能有语义冲突定义完整性约束用于检测不一致性,通过分析数据发现联系,从而使得数据保持一致。根据每个变量的合理取值范围和相互关系,检查数据是否合乎要求,发现超出正常范围、逻辑上不合理或者相互矛盾的数据。清理方法用李克特量表测量的变量值出现了0或6体重出现了负数调查对象说自己开车上班,又报告没有汽车调查对象报告自己是某品牌的重度购买者和使用者,但同时又在熟悉程度量表上给了很低的分值性别变量定义1/01/286清理方法一致性检查(consistencycheck)消除重复项属性值相同的记录被认为是重复记录通过判断记录间的属性值是否相等来检测记录是否为重复项合并和清除是消除重复项的基本方法可将相同的记录进行合并消除,必要时可以添加计数变量对相同数据项出现的频次进行记录,用于后续的加权处理。87清理方法一致性检查(consistencycheck)消除重复项无效值和缺失值的处理由于调查、编码和录入误差,数据中可能存在一些无效值和缺失值,需要给予适当的处理常用方法估算88很多数情况下,缺失的值必须手工填入(即手工清理)用某个变量的样本均值、中位数或众数代替无效值和缺失值这种办法简单,但没有更为充分考虑数据中已有的信息,误差可能较大清理方法一致性检查(consistencycheck)消除重复项无效值和缺失值的处理由于调查、编码和录入误差,数据中可能存在一些无效值和缺失值,需要给予适当的处理常用方法估算逻辑推演89根据调查对象对其他问题的答案,通过变量之间的相关分析或逻辑推论进行估计例如,某一产品的拥有情况可能与家庭收入有关,可以根据调查对象的家庭收入推算拥有这一产品的可能性清理方法一致性检查(consistencycheck)消除重复项无效值和缺失值的处理由于调查、编码和录入误差,数据中可能存在一些无效值和缺失值,需要给予适当的处理常用方法估算逻辑推演整例删除90剔除含有缺失值的样本由于很多问卷都可能存在缺失值,这种做法的结果可能导致有效样本量大大减少,无法充分利用已经收集到的数据只适合关键变量缺失,或者含有无效值或缺失值的样本比重很小的情况清理方法一致性检查(consistencycheck)消除重复项无效值和缺失值的处理由于调查、编码和录入误差,数据中可能存在一些无效值和缺失值,需要给予适当的处理常用方法估算逻辑推演整例删除91如果某一变量的无效值和缺失值很多,而且该变量对于所研究的问题不是特别重要,则可以考虑将该变量删除这种做法减少了供分析用的变量数目,但没有改变样本量变量删除清理方法一致性检查(consistencycheck)消除重复项无效值和缺失值的处理由于调查、编码和录入误差,数据中可能存在一些无效值和缺失值,需要给予适当的处理常用方法估算逻辑推演整例删除92变量删除成对删除指对于两两配对的变量,如果某样本中其中一个变量数据缺失,则在对该配对变量进行数据统计时应删除含有缺失值的数据,而在进行其他变量数据统计时不做处理。处理时可采用保守的处理方法将缺失值用特殊码(例如-1、null等)进行标注,并不真正删除,数据统计时区分处理即可,这样可以最大限度地保留数据样本中的可用信息清理方法一致性检查(consistencycheck)消除重复项无效值和缺失值的处理错误值的检测及解决用统计分析的方法识别可能的错误值或异常值偏差分析识别不遵守分布或回归方程的值9357.6842.2868.4561.7447.1365.7042.3058.4048.4545.9445.2726.7241.0848.3444.2761.7253.5730.6253.3657.6133.5365.5944.6759.8428.8748.6855.6858.6347.9369.5247.1736.0448.9964.9542.7063.7438.0944.9680.0351.9051.0947.2977.7736.6358.3445.1958.3045.3866.1254.0860.5257.9437.0466.9171.1151.3269.4725.1445.2046.7853.6447.5670.2158.2745.5950.1252.0742.5038.7849.4633.4659.9737.1138.9041.4632.0744.2953.8352.6436.5655.3147.6642.1447.5944.5549.3463.1951.1142.0761.7655.0658.8351.4831.6050.2354.0333.2940.8456.9946.8154.0635.8751.0939.9535.6148.5165.5969.5649.2365.2327.9843.8752.0556.5961.1761.1652.1054.2950.2149.4658.4539.4041.0139.7361.6766.3050.7540.1148.4551.8856.4565.7738.2349.9953.4350.1284.0058.4833.6354.6937.2057.6448.4131.1335.7549.1742.1650.6830.9852.3238.6650.8145.8873.2836.8539.2750.6267.6158.8354.0255.7257.4771.1652.8537.2458.6156.1838.9557.4946.5262.0957.0355.8949.7585.0254.70【例】判定下列数据集中的异常值94前提:样本足够多;样本呈正态分布或近似正态分布。【例】判定下列数据集中的异常值前提检验样本足够多K-S和S-W检验计算均值、标准偏差95数值低于15.98或大于85.86的样本适用拉依达准则的剔除标准清理方法一致性检查(consistencycheck)消除重复项无效值和缺失值的处理错误值的检测及解决用统计分析的方法识别可能的错误值或异常值偏差分析识别不遵守分布或回归方程的值运用简单规则库(常识性规则、业务特定规则等)检查数据值不同属性间的约束外部数据检测&清理96小结97数据数据数据冗余检查一致性检查完整性检查异常检查关键字填充表达式上下文分析多级分类合并匹配数据清理工作非常重要,决定着数据挖掘成败有效的数据清理是在对数据充分了解的基础上完成的需对数据本身了解还需对数据所代表的业务内容充分了解第3章数据准备维度规约海量数据的较为复杂的分析和挖掘,需要满足:数据挖掘算法能够支持大量的、高维的数据的处理计算机硬件设备能够满足算法处理大量数据的要求计算时间不受到限制海量数据分析和挖掘数据集数据规约表示数据规约完整性有效性一致性99维规约大数据集也体现在它的属性数量上,有的数据集包含数以百计的属性,而其中有很大一部分与某项数据挖掘的任务并不相关,相对来说是冗余属性。例如,在对零售企业获取的顾客信息数据集进行分析时,他们的电话号码与购买意向、接受营销影响等方面的分析就不太相关。可以通过只选择与数据挖掘目标相关的那些属性的数据,来完成数据挖掘工作。100维规约维规约:通过删除不相关的属性(或维)减少数据集的复杂度和数据量。实际上,高维度数据中的信息往往主要包含在一个或几个低维度结构中,因此维规约技术是处理高纬数据的一个重要手段。101维规约好处提升数据挖掘算法效果使模型更容易理解更易实现可视化解决了维灾难问题维规约可删除主题不相关的特征,并降低噪声只涉及较少的变量或属性,能更清晰有效地对数据模型做出易于理解的评估和解释即使维规约没能将数据维度降为二维或三维的可视维度,但这时可以通过观察属性对二或三元组属性达到可视化,而这种组合的数目也大大减少了102维灾难维灾难:随着数据维度增加,很多数据分析、数据挖掘的应用变得非常困难从数据挖掘实践中可以得出,高维度数据的挖掘分析,会导致准确率降低,质量下降维度增加,则数据空间中,有效数据稀疏分类预测,无足够数据对象来创建模型,使模型准确率降低聚类分析,数据密度定义和距离定义失去意义,使模型质量下降其他数据分析算法也会遭遇不同的问题103维规约技术特征子集选择特征创建数据变换(下一小节)主成分分析因子分析线性判别分析104选择特征子集降低维度的一个有效的方法就是从整个数据集中选取一个子集来进行处理,而该子集具有原始数据集的特征,称为特征子集。105选择特征子集方法消除冗余存在冗余数据时,不会丢失信息例如数据中的各科成绩与总分商品销售额与消费税AgeMaritalstatusAddressIncomeIncomeCategoryCarpriceCarpricecategory5511272.00337.00356029153.00476.003281928.00213.901241426.00213.001251223.00111.301450976.00437.30344117144.00472.1034612075.00437.1034101026.00213.001290419.0019.601340089.00444.4035501772.00336.103280955.00328.202211220.0019.6015508283.00477.403350870.00335.403450448.00225.002210137.00218.402320028.00214.201106选择特征子集方法消除冗余消除不相关数据例如

学号、电话号码、邮政编码

太平洋彼岸蝴蝶翅膀扇动次数107选择特征子集方法消除冗余消除不相关数据系统方法经验方法(常识、行业领域知识)将所有可能的特征子集作为输入,用事先选定的数据挖掘算法进行处理,对处理结果进行比较评估,选取结果最好的那个子集作为特征子集。但是对于有n个属性的数据集,其子集的穷举组合有多达2n个,n值较大的情况下这样做已不现实。108选择特征子集方法方差选择法109方差选择法是基于统计学中的方差概念,计算数据集中各个特征属性的方差值,根据设定的阈值,选择方差大于该阈值的特征。方差较大的特征更有可能包含对目标变量有重要影响的信息,因此应予以保留;反之,方差较小的特征可能包含冗余或无关信息,可以选择舍弃,从而达到特征降维和提升模型性能的目的。例如,可删除方差为零的特征(即所有数据样本中具有相同值的特征),因为该特征无法解释目标变量的任何变化。选择特征子集方法方差选择法单因素特征选择110在统计测试方式中,主要方法有:1)卡方检验:计算特征与目标变量之间的卡方统计量,评估二者之间的独立性。卡方值越大,表示特征与目标变量的关联性越强。常用于分类问题;2)F检验:通过比较特征与目标变量的方差变化,评估特征的重要性。F值越大,表示特征对目标变量的影响越显著。常用于捕捉线性关系;3)互信息:计算特征与目标变量之间的互信息量,评估二者之间的共享信息。可用于检测非线性相关性。单因素特征选择,评估每个特征与目标变量之间的关系,分析其对目标变量的预测能力或重要性,从而选择出最具代表性的特征子集。该方法的核心在于对每个特征进行独立评估,而不考虑特征之间的相互作用。单因素特征选择通常通过统计测试或模型评估的方式,计算每个特征与目标变量之间的相关性或重要性得分,然后根据得分高低选择特征。选择特征子集方法方差选择法单因素特征选择111在统计测试方式中,主要方法有:1)卡方检验;2)F检验;3)互信息。Pima

Indians

DiabetesDataSet皮马印第安人糖尿病数据集选择特征子集方法方差选择法单因素特征选择112在统计测试方式中,主要方法有:1)卡方检验;2)F检验;3)互信息。Pima

Indians

DiabetesDataSet皮马印第安人糖尿病数据集选择特征子集方法方差选择法单因素特征选择113在统计测试方式中,主要方法有:1)卡方检验;2)F检验;3)互信息。Pima

Indians

DiabetesDataSet皮马印第安人糖尿病数据集选择特征子集方法方差选择法单因素特征选择114在模型评估方式中,主要方法有:1)基于单变量模型的评估:如使用单变量线性回归或逻辑回归模型,评估每个特征对目标变量的预测能力。通过模型的系数或重要性得分来选择特征。2)基于特征重要性的评估:某些机器学习模型(如随机森林、梯度提升树等)在训练过程中会计算每个特征的重要性,这些重要性得分可以直接用于特征选择。单因素特征选择忽略特征之间的相互作用,这可能导致重要信息丢失。对于非线性关系或复杂数据分布,该方法也可能无法准确评估特征的重要性。选择特征子集方法方差选择法单因素特征选择递归特征消除115递归特征消除的主要思想是反复构建模型,按照一定指标摘选出最好的(或者最差的)特征,再在剩余的特征上重复这个过程,直到遍历了所有的特征。在这个过程中被摘选的次序就是特征的排序。[例]使用RFE方法,对手写数字图像(8×8像素)中的各像素点的重要性进行分析。选择特征子集方法方差选择法单因素特征选择递归特征消除基于L1正则化的特征选择(线性模型的特征选择)116

选择特征子集方法方差选择法单因素特征选择递归特征消除基于L1正则化的特征选择(线性模型的特征选择)117糖尿病数据集age0sex0bmi504.75bp189.78s10s20s3-112.57s40s5438.80s60局部特征分析可将数据的局部抽取出来,用来代表和表征原始数据的特征,而该局部数据具有显著的特征性。118例如,在人脸识别处理时,就会采用局部特征分析的方法,选取具有代表性的眼睛、鼻子和嘴部的图像进行识别或甄别。局部特征分析在局部特征分析和数据抽取时,关键点在于如何确定数据中的有代表性的特征数据或属性,并且以最少的特征数据或属性来表征元数据的特征。119维规约处理时,可将数据中具有显著的特征性的局部抽取、生成或产生出来,用来代表和表征原始数据的特征。特征创建有时,所创建的特征属性能够更好的代表原数据所蕴含的意义120方法特征提取模式识别特征创建121方法特征提取空间映射时域-频域的映射多维空间映射特征创建傅里叶变换(Fouriertransform)小波变换(Wavelettransform)122方法特征提取空间映射特征构建(FeatureConstruction/CombiningFeatures)原始数据集的特征具有必要的信息,但其形式不适合数据挖掘算法由原特征构造的新特征可能比原特征更有用特征创建例:文物数据库文物的特征包括:体积、质量……

文物材质:木材、陶土、青铜、黄金原特征不适合分类构造新特征:密度=质量/体积例:成绩表,计算总分/计算比例

统计表数据,转换为等级123小结数据规约可以有效地减少数据规模,使数据挖掘更为快捷有效数据规约后的结果更便于表达和解释,使数据挖掘的结果更易于呈现和理解124第3章数据准备数据变换数据变换数据变换是指将数据变换成适合于数据挖掘的形式数据变换的目的从另一个角度、另一个域发现数据的更为显著的特征提升数据处理算法的效率、效果例如,将语音数据变换为频率谱,则更便于分析语音的特征数据变换方法属性变换(变量变换)离散化主成分分析(PCA)因子分析线性判别分析独立成分分析属性变换(变量变换)

目标:使整个值的集合具有特定的性质数据集合中的最小值,映射变换为0,最大值为1,其他数据依序变换属性变换(变量变换)归一化将数据映射变换到[0,1]区间目的便于进行比较便于进行加权处理idCountryCarMPGWeightDrive_RatioHorsepowerDisplacementCylinders0U.S.AMCConcordD/L18.13.412.7312025861U.S.AMCSpirit27.42.673.088012142GermanyAudi500020.32.833.910313153GermanyBMW320i21.52.63.6411012144U.S.BuickCenturySpecial20.63.382.7310523165U.S.BuickEstateWagon16.94.362.7315535086U.S.BuickSkylark28.42.672.539015147U.S.Chevette302.1553.7689848U.S.ChevyCapriceClassic173.842.4113030589U.S.ChevyCitation28.82.5952.69115173610U.S.ChevyMalibuWagon19.23.6052.56125267811U.S.ChryslerLeBaronWagon18.53.942.45150360812JapanDatsun21031.82.023.76585413JapanDatsun51027.22.33.5497119414JapanDatsun810222.8153.797146615U.S.DodgeAspen18.63.622.71110225616JapanDodgeColt35.11.9152.978098417U.S.DodgeOmni30.92.233.3775105418U.S.DodgeStRegis18.23.832.45135318819ItalyFiatStrada37.32.133.16991420U.S.FordCountrySquireWagon15.54.0542.26142351821U.S.FordLTD17.63.7252.26129302822U.S.FordMustang426.52.5853.0888140423U.S.FordMustangGhia21.92.913.08109171624JapanHondaAccordLX29.52.1353.056898425JapanMazdaGLC34.11.9753.736586426U.S.MercuryGrandMarquis16.53.9552.26138351827U.S.MercuryZephyr20.83.073.0885200628U.S.OldsOmega26.82.72.84115173629FrancePeugeot694SL16.23.413.58133163630U.S.PlymouthHorizon34.22.23.3770105431U.S.PontiacPhoenix33.52.5562.6990151432SwedenSaab99GLE21.62.7953.77115121433JapanToyotaCorona27.52.563.0595134434SwedenVolvo240GL173.143.5125163635GermanyVWDasher30.52.193.77897436GermanyVWRabbit31.91.9253.787189437GermanyVWScirocco31.51.993.7871894属性变换(变量变换)归一化将数据映射变换到[0,1]区间目的便于进行比较便于进行加权处理算法需要属性变换(变量变换)归一化将数据映射变换到[0,1]区间目的最小-最大规范化将数据映射到[min,max]属性变换(变量变换)

132可以用中位数取代均值可以用绝对标准差(absolutestandarddeviation)取代标准差属性变换(AttributeTransformation)

离散化和概念分层134分箱基本思想对于连续变量,在取值区间中指定n

1个分割点(splitpoint)将其划分为n个区间将一个区间中的所有值映射到同一个分类值离散化135离散化问题的关键选择多少个分割点?分割点位置如何确定?分割点数目一般由用户确定分割点位置可以用非监督/监督方法确定结果表示区间:{(x0,x1],(x1,x2],...,(xn-1,xn)},其中x0和xn可以分别为-

或+

不等式:x0<x≤x1,...,xn-1<x<xn离散化差别:是否使用类信息136为什么要离散化数据规约,维规约一些算法要求离散属性数据产生概念分层结构,可在不同抽象层进行挖掘离散化减少属性值个数,便于挖掘,结果知识表达更简洁、更易于理解、更易使用137为什么要离散化数据规约,维规约一些算法要求离散属性数据产生概念分层结构,可在不同抽象层进行挖掘消除奇异值带来的影响离散化高中低138【例】给定一组数据,进行离散化离散化DataEqualintervalwidthEqualfrequencyK-meansK-means算法是很典型的基于距离的聚类算法,采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大。该算法认为簇是由距离靠近的对象组成的,因此把得到紧凑且独立的簇作为最终目标。采用:等间隔(等宽)等频K-均值139离散化的特例二元化二元化方法确定一个分割点,划分为0/1二元分类值140什么是“二元化”?一些算法要求二元属性数据【例】一组成绩,进行二元化处理。学号成绩192286375468554645774873971106911681265离散化的特例二元化二元化方法141【例】5个值{awful,poor,OK,good,great}的分类变量二元化。需要三个二元变量x1、x2、x3

属性值整数值x1x2x3awful0000poor1001OK2010good3011great4100属性值整数值awful0poor1OK2good3great4属性值awfulpoorOKgoodgreat离散化的特例二元化二元化方法142如果属性具有m个值,则将每个原始值唯一地映射到区间[0,m

1]中的一个整数(保序)把m个整数都变换成一个二进制数需要n=

log2m

个二进位表示这些整数用n个二元属性表示这些二进制数缺点:建立了属性之间的联系(如good值用x1=0,x2=1,x3=1表示)不适合非对称属性处理假定数据属于不同类确定分割点的原则极大化区间纯度度量纯度的方法监督离散化最纯:区间中的数据都属于一个类别最不纯:区间中的数据以相同比例属于各个类别熵是一种不纯度度量分类错误率……143主成分分析(PCA)是一种设法将原来变量重新组合成一组新的相互无关的几个综合变量,同时根据实际需要从中可以取出几个较少的综合变量尽可能多地反映原来变量的信息的统计方法。144把多项指标转化为少数几个综合指标,以达到降维的目的主成分分析x2x1ee⊥145主成分分析主成分分析法在数学上是一种处理降维的方法,其基本原理是借助于一个正交变换,将一组分量相关的原随机向量(p个),重新组合转化成分量不相关的新随机向量(m个元素)来综合代表原分量。146主成分分析147处理过程:1.数据Z-score标准化;2.计算数据的协方差矩阵;3.协方差矩阵求特征值、特征向量;4.保留特征值显著的成分(特征向量),构建降维的表达式。主成分分析【例】148产生数据主成分分析【例】149标准化处理

xyzx1.000.80-0.44y0.801.000.07z-0.440.071.00协方差矩阵主成分分析【例】150提取特征值、特征向量

xyzx1.000.80-0.44y0.801.000.07z-0.440.071.001.88,占62.83%,累积62.83%1.06,占35.30%,累积98.13%0.06,占1.87%,累积100.00%特征值=0.0562,1.8848,1.059特征向量=

[-0.70

0.62, -0.37]

[0.72

0.62, -0.31]

[-0.04 0.48,

0.88]特征值选取

在线求特征值和特征向量/主成分分析【例】151新的随机变量表示特征向量=

[-0.70

0.62, -0.37]

[0.72

0.62, -0.31]

[-0.04 0.48,

0.88]

主成分分析【例】152原始数据降维

主成分分析【例3-3】素材_地区经济发展竞争力评价.csv153主成分分析【例3-3】因子分析检验154主成分分析(PCA)【例3-3】主成分分析155主成分分析(PCA)【例3-3】156省份z1z2z3……………………………………………………主成分分析(PCA)缺点变换后得到的主成分,其释义会带有一定的模糊性,难以给出符合实际背景和意义的解释,不如原始变量的含义那么清楚、确切,这是变量降维过程中不得不付出的代价。当主成分的因子负荷的符号有正有负时,综合评价函数意义就更为不明确。157主成分分析(PCA)注意抽取的主成分变量个数m通常应明显小于原始变量个数p否则维数降低的利可能抵不过主成分因子丧失原始含义的弊158主成分分析(PCA)注意相矛盾:保证所抽取的主成分的累计贡献率达到一个较高的水平159需进行仔细比较,综合权衡即变量降维后的信息量须保持在一个较高水平上主成分分析(PCA)主成分分析法在数学上是一种处理降维的方法,其基本原理是借助于一个正交变换,将一组分量相关的原随机向量(p个),重新组合转化成分量不相关的新随机向量(m个元素)来综合代表原分量。160161因子分析因子分析(FactorAnalysis)通过研究数据变量的相关系数矩阵,将相关性较高的变量归为同一个组,同时使不同组的变量间的相关性较低。每组变量代表一个基本结构,将其用一个不可观测的综合变量表示,就得到了公共因子。通过因子分析,可以把变量间错综复杂的关系归结成少数几个综合因子,其个数一定少于原始变量的个数,但又包含原始变量的主要信息,所以因子分析也可以用于数据的维度规约。162因子分析

1

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论