数据挖掘考试复习要点_第1页
数据挖掘考试复习要点_第2页
数据挖掘考试复习要点_第3页
数据挖掘考试复习要点_第4页
数据挖掘考试复习要点_第5页
已阅读5页,还剩20页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

主要内容数据挖掘综述数据仓库和数据挖掘的OLAP技术数据预处理数据挖掘原语、语言和系统结构概念描述:特征化与比拟挖掘大型数据库中的关联规那么分类和预测聚类分析复杂类型数据的挖掘数据挖掘的应用和开展趋势我们拥有丰富的数据,但却缺乏有用的信息解决方法:数据仓库技术和数据挖掘技术数据仓库(DataWarehouse)和在线分析处理(OLAP)数据挖掘:在大量的数据中挖掘感兴趣的知识〔规那么,规律,模式,约束〕数据库技术的演化1960s和以前:文件系统1970s:层次数据库和网状数据库〔1973年查理士·巴赫曼〕1980s早期:关系数据模型,关系数据库管理系统(RDBMS)的实现1980s晚期:各种高级数据库系统(扩展的关系数据库,面向对象数据库等等.)面向应用的数据库系统(spatial数据库,时序数据库,多媒体数据库等等〕1990s:数据挖掘,数据仓库,多媒体数据库和网络数据库2000s流数据管理和挖掘基于各种应用的数据挖掘XML数据库和整合的信息系统什么是数据挖掘?数据挖掘(从数据中发现知识)从大量的数据中挖掘哪些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或知识挖掘的不仅仅是数据〔所以“数据挖掘”并非一个精确的用词〕数据挖掘的替换词数据库中的知识挖掘〔KDD〕、知识提炼、数据/模式分析、数据考古、数据捕捞、信息收获等等。并非所有东西都是“数据挖掘”查询处理.专家系统或是小型的数学计算/统计程序知识挖掘的步骤了解应用领域了解相关的知识和应用的目标创立目标数据集:选择数据数据清理和预处理:(这个可能要占全过程60%的工作量)数据缩减和变换找到有用的特征,维数缩减/变量缩减,不变量的表示。选择数据挖掘的功能数据总结,分类模型数据挖掘,回归分析,关联规那么挖掘,聚类分析等.选择挖掘算法数据挖掘:寻找感兴趣的模式模式评估和知识表示可视化,转换,消除冗余模式等等运用发现的知识数据挖掘的主要方法(1)概念/类描述:特性化和区分归纳,总结和比照数据的特性。比方:对每个月来网站购物超过5000元的顾客的描述:40-50岁,有正常职业,信用程度良好。关联分析发现数据之间的关联规那么,这些规那么展示属性-值频繁的在给定的数据中所一起出现的条件。广泛的用于购物篮或事务数据分析。分类和预测通过构造模型(或函数)用来描述和区别类或概念,用来预测类型标志未知的对象类。比方:按气候将国家分类,按汽油消耗定额将汽车分类导出模型的表示:判定树、分类规那么、神经网络可以用来预报某些未知的或丧失的数字值聚类分析将类似的数据归类到一起,形成一个新的类别进行分析。最大化类内的相似性和最小化类间的相似性孤立点分析孤立点:一些与数据的一般行为或模型不一致的孤立数据通常孤立点被作为“噪音”或异常被丢弃,但在欺骗检测中却可以通过对罕见事件进行孤立点分析而得到结论。趋势和演变分析描述行为随时间变化的对象的开展规律或趋势趋势和偏差:回归分析序列模式匹配:周期性分析、基于类似性的分析、其他定向模式或统计分析所有模式都是有趣的吗?数据挖掘可能产生数以千计的模式或规那么,但并不是所有的模式或规那么都是令人感兴趣的。模式兴趣度的度量一个模式是有趣的,如果(1)它易于被人理解;〔2〕在某种程度上,对于新的或测试数据是有效的;〔3〕具有潜在效用;〔4〕新颖的;〔5〕符合用户确信的某种假设模式兴趣度的客观和主观度量客观度量:基于所发现模式的结构和关于它们的统计,比方:支持度、置信度等等主观度量:基于用户对数据的判断。比方:出乎意料的、新颖的、可行动的等等多种数据挖掘的视角根据所挖掘的数据库分类关系数据库,事务数据库,流式数据,面向对象数据库,对象关系数据库,数据仓库,空间数据库,时态数据库,文本数据库,多媒体数据库,异构数据库,历史数据库,WWW根据挖掘的知识类型特征分析,区分,关联分析,分类,聚类,孤立点分析/演变分析,偏差分析等等.多种方法的集成和多层次挖掘根据挖掘所用的技术面向数据库的挖掘、数据仓库、OLAP、机器学习、统计学、可视化等等.根据挖掘所用的应用金融,电信,银行,欺诈分析,DNA分析,股票市场,Web挖掘等等.什么是数据仓库?数据仓库的定义很多,但却很难有一种严格的定义它是一个提供决策支持功能的数据库,它与公司的操作数据库分开维护。为统一的历史数据分析提供坚实的平台,对信处理提供支持“数据仓库是一个面向主题的、集成的、随时间而变化的、不容易丧失的数据集合,支持管理部门的决策过程.”—W.H.Inmon〔数据仓库构造方面的领头设计师〕建立数据仓库(datawarehousing):构造和使用数据仓库的过程。数据仓库关键特征一——面向主题围绕一些主题,如顾客、供给商、产品等关注决策者的数据建模与分析,而不是集中于组织机构的日常操作和事务处理。排除对于决策无用的数据,提供特定主题的简明视图。数据仓库关键特征二——数据集成一个数据仓库是通过集成多个异种数据源来构造的。关系数据库,一般文件,联机事务处理记录使用数据清理和数据集成技术。确保命名约定、编码结构、属性度量等的一致性。当数据被移到数据仓库时,它们要经过转化。数据仓库关键特征三——随时间而变化数据仓库的时间范围比操作数据库系统要长的多。操作数据库系统:主要保存当前数据。数据仓库:从历史的角度提供信息〔比方过去5-10年〕数据仓库中的每一个关键结构都隐式或显式地包含时间元素,而操作数据库中的关键结构可能就不包括时间元素。数据仓库关键特征四——数据不易丧失尽管数据仓库中的数据来自于操作数据库,但他们却是在物理上别离保存的。操作数据库的更新操作不会出现在数据仓库环境下。不需要事务处理,恢复,和并发控制等机制只需要两种数据访问:数据的初始装载和数据访问〔读操作〕数据仓库与操作数据库系统操作数据库系统的主要任务是联机事务处理OLTP日常操作:购置,库存,银行,制造,工资,注册,记帐等数据仓库的主要任务是联机分析处理OLAP数据分析和决策OLTP和OLAP的主要区别:用户和系统的面向性:顾客VS.市场数据内容:当前的、详细的数据VS.历史的、汇总的数据数据库设计:实体-联系模型(ER)和面向应用的数据库设计VS.星型/雪花模型和面向主题的数据库设计视图:当前的、企业内部的数据VS.经过演化的、集成的数据访问模式:事务操作VS.只读查询〔但很多是复杂的查询〕为什么需要一个别离的数据仓库?提高两个系统的性能DBMS是为OLTP而设计的:存储方式,索引,并发控制,恢复数据仓库是为OLAP而设计:复杂的OLAP查询,多维视图,汇总不同的功能和不同的数据:历史数据:决策支持需要历史数据,而这些数据在操作数据库中一般不会去维护数据汇总:决策支持需要将来自异种源的数据统一〔如聚集和汇总〕数据质量:不同的源使用不一致的数据表示、编码和格式,对这些数据进行有效的分析需要将他们转化后进行集成数据仓库和数据仓库技术基于多维数据模型。这个模型把数据看作是数据立方体形式。多维数据模型围绕中心主题组织,该主题用事实表表示。事实是数值度量的。数据立方体允许以多维数据建模和观察。它由维和事实定义。维是关于一个组织想要记录的视角或观点。每个维都有一个表与之相关联,称为维表。事实表包括事实的名称或度量以及每个相关维表的关键字在数据仓库的研究文献中,一个n维的数据的立方体叫做根本方体。给定一个维的集合,我们可以构造一个方体的格,每个都在不同的汇总级或不同的数据子集显示数据,方体的格称为数据立方体。0维方体存放最高层的汇总,称作顶点方体;而存放最底层汇总的方体那么称为根本方体。数据仓库的概念模型种类:最流行的数据仓库概念模型是多维数据模型。这种模型可以以星型模式、雪花模式、或事实星座模式的形式存在。星型模式〔Starschema〕:事实表在中心,周围围绕地连接着维表〔每维一个〕,事实表含有大量数据,没有冗余。雪花模式〔Snowflakeschema〕:是星型模式的变种,其中某些维表是标准化的,因而把数据进一步分解到附加表中。结果,模式图形成类似于雪花的形状。事实星座〔Factconstellations〕:多个事实表共享维表,这种模式可以看作星型模式集,因此称为星系模式〔galaxyschema〕,或者事实星座〔factconstellation〕多维数据模型上的OLAP操作上卷(roll-up):汇总数据通过一个维的概念分层向上攀升或者通过维规约下钻(drill-down):上卷的逆操作由不太详细的数据到更详细的数据,可以通过沿维的概念分层向下或引入新的维来实现切片和切块(sliceanddice):投影和选择操作转轴(pivot):立方体的重定位,可视化,或将一个3维立方体转化维一个2维平面序列其他OLAP操作钻过(drill_across):执行涉及多个事实表的查询钻透(drill_through):使用关系SQL机制,钻到数据立方体的底层,到后端关系表数据仓库设计:一个商务分析框架数据仓库设计的四种视图自顶向下视图:允许我们选择数据仓库所需的相关信息数据源视图:揭示被操作数据库系统所捕获、存储和管理的信息数据仓库视图:有事实表和维表所组成商务查询视图:从最终用户的角度透视数据仓库中的数据数据仓库的设计过程自顶向下法、自底向上法或者两者的混合方法自顶向下法:由总体设计和规划开始〔成熟〕自底向上法:以实验和原型开始〔快速〕从软件过程的观点瀑布式方法:在进行下一步前,每一步都进行结构化和系统的分析螺旋式方法:功能渐增的系统的快速产生,相继版本之间间隔很短典型的数据仓库设计过程:选取待建模的商务过程、选取商务过程的粒度、选取用于每个事实表记录的维选取将安放在事实表中的度量OLAP效劳器类型关系OLAP效劳器(ROLAP)使用关系数据库或扩展的关系数据库存放并管理数据仓库的数据,而用OLAP中间件支持其余局部包括每个DBMS后端优化,聚集导航逻辑的实现,附加的工具和效劳较大的可扩展性多维OLAP效劳器(MOLAP)基于数组的多维存储引擎〔稀疏矩阵技术〕能对预计算的汇总数据快速索引混合OLAP效劳器(HOLAP)结合上述两种技术,更大的使用灵活性特殊的SQL效劳器在星型和雪花模型上支持SQL查询数据仓库的实现难点海量数据快速反响OLAP效劳器要在几秒内响应决策支持查询方法高效的数据立方体计算技术高效的存取方法高效的查询处理技术数据立方体的有效计算数据立方体可以被看成是一个方体的格最底层的方体是根本方体最顶端的方体〔顶点〕只包含一个单元的值一个n维的数据立方体,每维L层,可能产生的方体总数是多少?数据立方体的物化预先计算所有方体〔全物化〕,不预先计算任何“非根本”方体〔不物化〕,有选择的计算一个所有方体的适当子集〔局部物化〕确定物化哪些方体考虑工作负荷下的查询、它们的频率和它们的开销等等方体计算:关系型OLAP的方法〔ROLAP〕方体计算的有效方法基于ROLAP的方体算法(Agarwaletal’96)基于数组的算法(MOLAP)(Zhaoetal’97)自底向上的计算方法(Beyer&Ramarkrishnan’99)H-cubing技术(Han,Pei,Dong&Wang:SIGMOD’01)基于ROLAP的方法将排序、散列(hashing)和分组操作应用于维的属性,以便对相关元组重新排序和聚类在某些子聚集上分组,作为“局部分组步骤”。可以由以前计算的聚集计算新的聚集,而不必由根本领实表计算元数据存储在数据仓库中,元数据就是定义数据仓库对象的数据。有以下几种:数据仓库结构的描述仓库模式、视图、维、层次结构、导出数据的定义,以及数据集市的位置和内容操作元数据包括数据血统(datalineage)、数据类别(currencyofdata),以及监视信息汇总用的算法由操作环境到数据仓库的映射关于系统性能的数据索引,profiles,数据刷新、更新或复制事件的调度和定时商务元数据商务术语和定义、数据拥有者信息、收费政策等元数据的使用元数据与数据一起,构成了数据仓库中的数据模型,元数据所描述的更多的是这个模型的结构方面的信息。在数据仓库中,元数据的主要用途包括:用作目录,帮助决策支持系统分析者对数据仓库的内容定义作为数据仓库和操作性数据库之间进行数据转换时的映射标准用于指导当前细节数据和稍加综合的数据之间的汇总算法,指导稍加综合的数据和高度综合的数据之间的汇总算法。数据仓库的应用数据仓库的三种应用信息处理支持查询和根本的统计分析,并使用交叉表、表、图标和图进行报表处理分析处理对数据仓库中的数据进行多维数据分析支持根本的OLAP操作,切块、切片、上卷、下钻、转轴等数据挖掘从隐藏模式中发现知识支持关联分析,构建分析性模型,分类和预测,并用可视化工具呈现挖掘的结果三种应用间的差异从联机分析处理到联机分析挖掘为什么要联机分析挖掘数据仓库中有高质量的数据数据仓库中存放着整合的、一致的、清理过的数据围绕数据仓库的信息处理结构存取、集成、合并多个异种数据库的转换,ODBC/OLEDB连接,Web访问和访问工具等基于OLAP的探测式数据分析使用上卷、下钻、切片、转轴等技术进行数据挖掘数据挖掘功能的联机选择多种数据挖掘功能、算法和任务的整合作业:查阅资料,谈谈OLAP、DM、OLAM的联系和区别。

为什么要预处理数据?现实世界的数据是“肮脏的”不完整的:有些感兴趣的属性缺少属性值,或仅包含聚集数据含噪声的:包含错误或者“孤立点”不一致的:在编码或者命名上存在差异没有高质量的数据,就没有高质量的挖掘结果高质量的决策必须依赖高质量的数据数据仓库需要对高质量的数据进行一致地集成数据预处理的主要任务数据清理填写空缺的值,平滑噪声数据,识别、删除孤立点,解决不一致性数据集成集成多个数据库、数据立方体或文件数据变换标准化和聚集数据归约得到数据集的压缩表示,它小得多,但可以得到相同或相近的结果数据离散化数据归约的一局部,通过概念分层和数据的离散化来规约数据,对数字型数据特别重要数据预处理的形式空缺值数据并不总是完整的例如:数据库表中,很多条记录的对应字段没有相应值,比方销售表中的顾客收入引起空缺值的原因设备异常与其他已有数据不一致而被删除因为误解而没有被输入的数据在输入时,有些数据因为得不到重视而没有被输入对数据的改变没有进行日志记载空缺值要经过推断而补上如何处理空缺值忽略元组:当类标号缺少时通常这么做〔假定挖掘任务设计分类或描述〕,当每个属性缺少值的百分比变化很大时,它的效果非常差。人工填写空缺值:工作量大,可行性低使用一个全局变量填充空缺值:比方使用unknown或-∞使用属性的平均值填充空缺值使用与给定元组属同一类的所有样本的平均值使用最可能的值填充空缺值:使用像Bayesian公式或判定树这样的基于推断的方法噪声数据噪声:一个测量变量中的随机错误或偏差引起不正确属性值的原因数据收集工具的问题数据输入错误数据传输错误技术限制命名规那么的不一致其它需要数据清理的数据问题重复记录不完整的数据不一致的数据如何处理噪声数据分箱(binning):首先排序数据,并将他们分到等深的箱中然后可以按箱的平均值平滑、按箱中值平滑、按箱的边界平滑等等聚类:监测并且去除孤立点计算机和人工检查结合计算机检测可疑数据,然后对它们进行人工判断回归通过让数据适应回归函数来平滑数据数据平滑的分箱方法price的排序后数据〔单位:美元〕:4,8,15,21,21,24,25,28,34划分为〔等深的〕箱:箱1:4,8,15箱2:21,21,24箱3:25,28,34用箱平均值平滑:箱1:9,9,9箱2:22,22,22箱3:29,29,29用箱边界平滑:箱1:4,4,15箱2:21,21,24箱3:25,25,34数据集成:将多个数据源中的数据整合到一个一致的存储中模式集成:整合不同数据源中的元数据实体识别问题:匹配来自不同数据源的现实世界的实体,比方:A.cust-id=B.customer_no检测并解决数据值的冲突对现实世界中的同一实体,来自不同数据源的属性值可能是不同的可能的原因:不同的数据表示,不同的度量等等处理数据集成中的冗余数据集成多个数据库时,经常会出现冗余数据同一属性在不同的数据库中会有不同的字段名一个属性可以由另外一个表导出,如“年薪”有些冗余可以被相关分析检测到仔细将多个数据源中的数据集成起来,能够减少或防止结果数据中的冗余与不一致性,从而可以提高挖掘的速度和质量。数据变换 平滑:去除数据中的噪声聚集:汇总,数据立方体的构建数据概化:沿概念分层向上汇总标准化:将数据按比例缩放,使之落入一个小的特定区间最小-最大标准化z-score标准化小数定标标准化属性构造通过现有属性构造新的属性,并添加到属性集中。数据变换——标准化数据归约策略数据仓库中往往存有海量数据,在其上进行复杂的数据分析与挖掘需要很长的时间数据归约数据归约可以用来得到数据集的归约表示,它小得多,但可以产生相同的〔或几乎相同的〕分析结果数据归约策略数据立方体聚集维归约数据压缩数值归约离散化和概念分层产生用于数据归约的时间不应当超过或“抵消”在归约后的数据上挖掘节省的时间。数据立方体聚集最底层的方体对应于根本方体根本方体对应于感兴趣的实体在数据立方体中存在着不同级别的汇总数据立方体可以看成方体的格每个较高层次的抽象将进一步减少结果数据数据立方体提供了对预计算的汇总数据的快速访问使用与给定任务相关的最小方体在可能的情况下,对于汇总数据的查询应当使用数据立方体维归约通过删除不相干的属性或维减少数据量属性子集选择找出最小属性集,使得数据类的概率分布尽可能的接近使用所有属性的原分布减少出现在发现模式上的属性的数目,使得模式更易于理解启发式的〔探索性的〕方法逐步向前选择逐步向后删除向前选择和向后删除相结合判定归纳树数值归约通过选择替代的、较小的数据表示形式来减少数据量有参方法:使用一个参数模型估计数据,最后只要存储参数即可。线性回归方法:Y=α+βX多元回归:线性回归的扩充对数线性模型:近似离散的多维数据概率分布无参方法:直方图聚类选样直方图一种流行的数据归约技术将某属性的数据划分为不相交的子集,或桶,桶中放置该值的出现频率桶和属性值的划分规那么等宽等深V-最优MaxDiff数据预处理的主要任务数据清理填写空缺的值,平滑噪声数据,识别、删除孤立点,解决不一致性数据集成集成多个数据库、数据立方体或文件数据变换标准化和聚集数据归约得到数据集的压缩表示,它小得多,但可以得到相同或相近的结果数据离散化数据归约的一局部,通过概念分层和数据的离散化来规约数据,对数字型数据特别重要离散化三种类型的属性值:名称型——e.g.无序集合中的值序数——e.g.有序集合中的值连续值——e.g.实数离散化将连续属性的范围划分为区间有效的规约数据基于判定树的分类挖掘离散化的数值用于进一步分析离散化通过将属性域划分为区间,减少给定连续属性值的个数。区间的标号可以代替实际的数据值。概念分层通过使用高层的概念〔比方:青年、中年、老年〕来替代底层的属性值〔比方:实际的年龄数据值〕来规约数据数据挖掘原语、语言和系统结构为什么要数据挖掘原语和语言?没有精确的指令和规那么,数据挖掘系统就没法使用。一个完全自动〔不需要人为干预或指导〕的数据挖掘机器:会产生大量模式〔重新把知识淹没〕会涵盖所有数据,使得挖掘效率低下大局部有价值的模式集可能被忽略挖掘出的模式可能难以理解,缺乏有效性、新颖性和实用性——令人不感兴趣。用数据挖掘原语和语言来指导数据挖掘。数据挖掘原语的组成局部数据挖掘原语应该包括以下局部:说明数据库的局部或用户感兴趣的数据集要挖掘的知识类型用于指导挖掘的背景知识模式评估、兴趣度量如何显示发现的知识数据挖掘原语用于用户和数据挖掘系统通信,让用户能从不同的角度和深度审查和发现结果,并指导挖掘过程。说明数据挖掘任务的原语〔5种〕任务相关的数据数据库〔仓库〕名、数据立方体、选择条件、相关属性、分组条件挖掘的知识类型特征化、区分、关联、分类/预测、聚类背景知识概念分层,关联确实信度模式兴趣度度量简单性、确定性、实用性、新颖性发现模式的可视化规那么、表、图表、图、判定树…兴趣度度量特性:没有兴趣度度量,挖掘出来的有用模式,很可能会给淹没在用户不感兴趣的模式中。简单性确定性〔置信度〕实用性〔支持度〕新颖性简单性(simplicity)模式是否容易被人所理解模式结构的函数〔模式的长度、属性的个数、操作符个数〕。e.g.规那么长度或者判定树的节点个数。确定性(certainty)表示一个模式在多少概率下是有效的。置信度(A=>B)=(包含A和B的元组值)/(包含A的元组值),e.g.buys(X,“computer)=>buys(X,“software”) [30%,80%]100%置信度:准确的。实用性可以用支持度来进行度量:支持度(A=>b)=(包含A和B的元组数)/(元组总数)e.g.buys(X,“computer)=>buys(X,“software”) [30%,80%]同时满足最小置信度临界值和最小支持度临界值的关联规那么称为强关联规那么。新颖性提供新信息或提高给定模式集性能的模式通过删除冗余模式来检测新颖性〔一个模式已经为另外一个模式所蕴涵〕Location(X,“Canada”)=>buys(X,“Sony_TV”)[8%,70%]Location(X,“Vancouver”)=>buys(X,“Sony_TV”)[2%,70%]兴趣度的客观度量方法:根据模式的结构和统计,用一个临界值来判断某个模式是不是用户感兴趣的。指定挖掘知识类型要挖掘的知识类型将决定所使用的数据挖掘功能。几种主要的数据挖掘功能特征化目标数据的一般特征或特性汇总数据区分将目标对象的一般特性与一个或多个比照类对象的特性相比拟关联分析发现关联规那么,这些规那么展示属性-值频繁的在给定数据中集中一起出现的条件分类找出区分数据类或概念的模型〔或函数〕,以便用之标志未知的对象类。聚类分析、孤立点分析、演变分析…兴趣度度量说明的语法兴趣度的度量包括置信度、支持度、噪声和新颖度等度量,可以通过将模式的兴趣度度量与相应的临界值相比拟决定一个模式是否为感兴趣的模式。with<interest_measure_name>

threshold=threshold_value例如:挖掘关联规那么时限定找到的感兴趣模式必须满足最小支持度为5%,最小置信度为70%withsupportthreshold=5%withconfidencethreshold=70%概念描述:特征化与比拟什么是概念描述?描述性挖掘VS.预测性挖掘描述性挖掘:以简洁概要的方式描述数据,并提供数据的有趣的一般性质。预测性数据挖掘:通过分析数据建立一个或一组模型,并试图预测新数据集的行为。概念描述:为数据的特征化和比拟产生描述〔当所描述的概念所指的是一类对象时,也称为类描述〕概念描述方法:特征化:提供给定数据集的简洁汇总。区分:提供两个或多个数据集的比拟描述。概念描述VS.OLAP概念描述和数据仓库的联机分析处理〔OLAP〕都跟数据概化密切相关,即以简洁的形式在更一般的抽象层描述数据,允许数据在抽象层概化,便于考察数据的一般行为。两者的主要区别:概念描述可以处理复杂数据类型的属性及其聚集一个更加自动化的过程OLAP实际使用的OLAP系统中,维和度量的数据类型都非常有限〔非数值型的维和数值型的数据〕,表现为一种简单的数据分析模型一个由用户控制的过程数据概化和基于汇总的特征化数据概化数据库中的数据和对象通常包含原始概念层的细节信息,数据概化就是将数据库中的跟任务相关的数据集从较低的概念层抽象到较高的概念层的过程。主要方法:数据立方体〔OLAP使用的方法〕面向属性的归纳方法数据概化:数据立方体方法〔不使用面向属性的归纳〕执行计算并将结果存储在数据立方体中优点:数据概化的一种有效实现可以计算各种不同的度量值比方:count(),sum(),average(),max()概化和特征分析通过一系列的数据立方体操作完成,比方上卷、下钻等缺点只能处理非数据类型的维和简单聚集数值类型的度量值缺乏智能分析,不能自动确定分析中该使用哪些维,应该概化到哪个层次面向属性的归纳Attribute-orientedinduction,AOI(KDD`89Workshop)受数据类型和度量类型的约束比拟少面向属性归纳的根本思想:使用关系数据库查询收集任务相关的数据通过考察任务相关数据中每个属性的不同值的个数进行概化,方法是属性删除或者是属性概化通过合并相等的,概化的广义元组,并累计他们对应的计数值进行聚集操作通过与用户交互,将广义关系以图表或规那么等形式,提交给用户面向属性的归纳的根本步骤数据聚焦,获得初始工作关系进行面向属性的归纳根本操作是数据概化,对有大量不同值的属性,进行进一步概化属性删除属性概化属性概化控制:控制概化过程,确定有多少不同的值才算是有大量不同值的属性属性概化临界值控制概化关系临界值控制数据概化属性删除的适用规那么:对初始工作关系中具有大量不同值的属性,符合以下情况,应使用属性删除:在此属性上没有概化操作符〔比方该属性没有定义相关的概念分层〕该属性的较高层概念用其他属性表示属性概化的使用规那么:如果初始工作关系中的某个属性具有大量不同值,且该属性上存在概化操作符,那么使用该概化操作符对该属性进行数据概化操作属性概化控制确定什么是“具有大量的不同值”,控制将属性概化到多高的抽象层。属性概化控制的两种常用方法:属性概化临界值控制对所有属性设置一个概化临界值或者是对每个属性都设置一个临界值〔一般为2到8〕概化关系临界值控制为概化关系设置一个临界值,确定概化关系中,不同元组的个数的最大值。〔通常为10到30,应该允许在实际应用中进行调整〕两种技术的顺序使用:使用属性概化临界值控制来概化每个属性,然后使用关系临界值控制进一步压缩概化的关系。相等元组的合并、累计计数和其他聚集值导出概化的表示概化关系一局部或者所有属性得到概化的关系,包含计数或其他度量值的聚集交叉表二维交叉表使用每行显示一个属性,使用每列显示另外一个属性将结果集映射到表中可视化技巧:条形图、饼图、曲线和数据立方体浏览工具〔用单元的大小代表计数,用单元亮度代表另外的度量〕量化规那么量化特征规那么将概化的结果映射到相应的量化特征规那么中,比方:解析特征化:属性相关分析属性相关分析通过识别不相关或者是弱相关的属性,将它们排除在概念描述过程之外,从而确定哪些属性应当包含在类特征化和类比拟中。解析特征化包含属性/维相关分析的类特征化解析比拟包含属性/维相关分析的类比拟为什么进行属性相关分析?数据仓库和OLAP系统中的多维数据分析缺乏一个自动概化过程,这使得这个过程中需要有很多用户干预用户必须告诉系统哪些维或属性应当包含在类分析中属性太少,那么造成挖掘的描述结果不正确属性太多,浪费计算、淹没知识告诉系统每个维应当概化到多高的层次直接通过概化的临界值,说明给定维应当到达的概化程度对概化层次不满意,那么可以指定需要上卷或下钻的维属性相关分析通过属性相关性分析,滤掉统计上不相关或弱相关的属性,保存对手头数据挖掘任务最相关的属性。对于给定的属性,一个属性或维被认为是高度相关的,如果该属性或维的值可能用于区分该类和其他类。比方:区分昂贵汽车和廉价汽车〔可选择的属性:颜色,型号,品牌...〕在同一个维内,对于区分一个类与其他类不同层的概念可能有很不同的能力比方:birth_date维,day,month与salary无关,而year〔或将其进一步概化为birth_decade〕那么与salary有关类特征化中的比拟类除特征化的数据集外,数据库中可比拟的数据集都作为比照类比方:研究生特征化的例子,比照类为不是研究生的学生的集合〔e.g.本科生〕〔可选择的属性:性别、籍贯、专业、平均成绩、年龄段〕属性相关分析的方法属性相关分析的根本思想是计算某种度量,用于量化属性与给定类或概念的相关性。可采用的度量包括:信息增益、Gini索引、不确定性和相关系数。〔涉及机器学习、统计、模糊和粗糙集理论等方面的相关知识〕比方:信息增益通过计算一个样本分类的期望信息和属性的熵来获得一个属性的信息增益,判定该属性与当前的特征化任务的相关性。概念描述的属性相关分析步骤数据收集通过查询处理,收集目标类和比照类数据使用保守的AOI进行预相关分析识别属性和维的集合,它们是所选择的相关性分析度量的应用对象,通过该步骤产生候选关系使用选定的相关分析度量删除不相关和弱相关的属性使用选定的相关分析度量,评估候选关系中的每个属性使用AOI产生概念描述使用一组不太保守的属性概化临界值进行AOI类比拟描述的判别规那么表示〔1〕类比拟描述中的目标类和比照类的区分特性也可以用量化规那么来表示,即量化区分规那么量化区分规那么使用d-weight作为兴趣度度量qa-概化元组Cj-目标类qa的d-weight是初始目标类工作关系中被qa覆盖的元组数与初始目标类和比照类工作关系中被qa覆盖的总元组数的比在大型数据库中挖掘描述统计计量对于数据挖掘任务,用户经常关心的数据特征包括数据的中心趋势和离散特征中心趋势的度量包括:mean,median,mode和midrange数据离散度量包括:quartiles,outliers,variance和其他度量关系数据库中,系统提供了以下聚集函数:count(),sum(),avg(),max(),min()在大型数据库中挖掘用户感兴趣的描述统计计量涉及到如何利用关系数据库现有的函数来计算上述两类用户感兴趣的度量值算术平均值加权算术平均中位值:使用一个近似的计算来度量如果值的个数n是奇数,那么中位数(median)是有序集合的中间值,否那么它是中间两个数的平均值用插值法(interpolation)来近似计算模(mode)表示数据集中出现频率最高的值单模态、双模态、三模态、多模态和没有模的情况单模态近似值计算的经验公式:中列数:最大值和最小值的平均度量数据的离散度最常用度量:五数概括〔基于四分位数〕、中间四分位数区间和标准差四分位数、孤立点和盒图百分位数(percentile):第k个百分位数是具有如下性质的值x:数据项的k%在x上或低于x四分位数:Q1(25thpercentile),Q3(75thpercentile)中间四分位数区间(IQR):IQR=Q3–Q1对倾斜分布的描述,除了IQR还常需两个四分位数Q1和Q3,以及中位数M,一个识别孤立点的常用规那么是:挑出落在至少高于第三个四分位数或低于第一个四分位数1.5×IQR处的值在盒图中:端点在四分位数上,使得盒图的长度是IQR中位数M用盒内的线标记胡须延伸到最大最小观测值该盒图为在给定时间段在AllElectronics的4个分店销售的商品单价的盒图分店1中位数$80Q1:$60Q3:$100根本统计类描述的图形显示——直方图常用的显示数据汇总和分布的方法:直方图、分位数图、q-q图、散布图和局部回归曲线直方图一种单变量图形方法由一组矩形组成,这些矩形反映类在给定数据中出现的技术或频率大型数据库中的关联规那么挖掘什么是关联规那么挖掘?关联规那么挖掘:从事务数据库,关系数据库和其他信息存储中的大量数据的项集之间发现有趣的、频繁出现的模式、关联和相关性。应用:购物篮分析、分类设计、捆绑销售和亏本销售分析关联规那么:根本概念给定:项的集合:I={i1,i2,...,in}任务相关数据D是数据库事务的集合,每个事务T那么是项的集合,使得每个事务由事务标识符TID标识;A,B为两个项集,事务T包含A当且仅当那么关联规那么是如下蕴涵式:其中并且,规那么在事务集D中成立,并且具有支持度s和置信度c关联规那么度量:支持度和置信度对所有满足最小支持度和置信度的关联规那么支持度s是指事务集D中包含的百分比置信度c是指D中包含A的事务同时也包含B的百分比假设最小支持度为50%,最小置信度为50%,那么有如下关联规那么AC(50%,66.6%)CA(50%,100%)大型数据库关联规那么挖掘过程根本概念k-项集:包含k个项的集合{牛奶,面包,黄油}是个3-项集项集的频率是指包含项集的事务数频繁项集:如果项集的频率大于〔最小支持度×D中的事务总数〕,那么称该项集为频繁项集大型数据库中的关联规那么挖掘包含两个过程:找出所有频繁项集大局部的计算都集中在这一步由频繁项集产生强关联规那么:即满足最小支持度和最小置信度的规那么关联规那么挖掘——一个线路图关联规那么有多种分类:根据规那么中所处理的值类型布尔关联规那么:computer=>software量化关联规那么根据规那么中设计的数据维单维关联规那么多维关联规那么根据规那么集所涉及的抽象层单层关联规那么多层关联规那么Apriori算法利用频繁项集性质的先验知识〔priorknowledge〕,通过逐层搜索的迭代方法,即将k-项集用于探察(k+1)-项集,来穷尽数据集中的所有频繁项集。先找到频繁1-项集集合L1,然后用L1找到频繁2-项集集合L2,接着用L2找L3,直到找不到频繁k-项集,找每个Lk需要一次数据库扫描。Apriori性质〔原理〕:频繁项集的所有非空子集也必须是频繁的。Apriori算法是反单调的,即一个集合如果不能通过测试,那么该集合的所有超集也不能通过相同的测试。Apriori算法由连接和剪枝两个步骤组成。连接:为了找Lk,通过Lk-1与自己连接产生候选k-项集的集合,该候选k项集记为Ck。Lk-1中的两个元素L1和L2可以执行连接操作的条件是Ck是Lk的超集,即它的成员可能不是频繁的,但是所有频繁的k-项集都在Ck中〔为什么?〕。因此可以通过扫描数据库,通过计算每个k-项集的支持度来得到Lk。为了减少计算量,可以使用Apriori性质,即如果一个k-项集的(k-1)-子集不在Lk-1中,那么该候选不可能是频繁的,可以直接从Ck删除。使用Apiori性质由L2产生C31.连接:C3=L2L2={{A,C},{B,C},{B,E}{C,E}}{{A,C},{B,C},{B,E}{C,E}}={{A,B,C},{A,C,E},{B,C,E}}2.使用Apriori性质剪枝:频繁项集的所有子集必须是频繁的,对候选项C3,我们可以删除其子集为非频繁的选项:{A,B,C}的2项子集是{A,B},{A,C},{B,C},其中{A,B}不是L2的元素,所以删除这个选项;{A,C,E}的2项子集是{A,C},{A,E},{C,E},其中{A,E}不是L2的元素,所以删除这个选项;{B,C,E}的2项子集是{B,C},{B,E},{C,E},它的所有2-项子集都是L2的元素,因此保存这个选项。3.这样,剪枝后得到C3={{B,C,E}}由频繁项集产生关联规那么同时满足最小支持度和最小置信度的才是强关联规那么,从频繁项集产生的规那么都满足支持度要求,而其置信度计算那么可由一下公式计算:每个关联规那么可由如下过程产生:对于每个频繁项集l,产生l的所有非空子集;对于每个非空子集s,如果 那么输出规那么“ ”提高Apriori算法的有效性(1)Apriori算法主要的挑战要对数据进行屡次扫描;会产生大量的候选项集;对候选项集的支持度计算非常繁琐;解决思路减少对数据的扫描次数;缩小产生的候选项集;改良对候选项集的支持度计算方法方法1:基于hash表的项集计数将每个项集通过相应的hash函数映射到hash表中的不同的桶中,这样可以通过将桶中的项集计数跟最小支持计数相比拟先淘汰一局部项集。提高Apriori算法的有效性(2)方法2:事务压缩〔压缩进一步迭代的事务数〕不包含任何k-项集的事务不可能包含任何(k+1)-项集,这种事务在下一步的计算中可以加上标记或删除。方法3:划分挖掘频繁项集只需要两次数据扫描D中的任何频繁项集必须作为局部频繁项集至少出现在一个局部中。第一次扫描:将数据划分为多个局部并找到局部频繁项集第二次扫描:评估每个候选项集的实际支持度,以确定全局频繁项集提高Apriori算法的有效性(3)方法4:选样〔在给定数据的一个子集挖掘〕根本思想:选择原始数据的一个样本,在这个样本上用Apriori算法挖掘频繁模式通过牺牲精确度来减少算法开销,为了提高效率,样本大小应该以可以放在内存中为宜,可以适当降低最小支持度来减少遗漏的频繁模式可以通过一次全局扫描来验证从样本中发现的模式可以通过第二此全局扫描来找到遗漏的模式方法5:动态项集计数在扫描的不同点添加候选项集,这样,如果一个候选项集已经满足最少支持度,那么在可以直接将它添加到频繁项集,而不必在这次扫描的以后比照中继续计算。多层关联规那么数据项中经常会形成概念分层底层的数据项,其支持度往往也较低在适当的等级挖掘出来的数据项间的关联规那么可能是非常有用的通常,事务数据库中的数据也是根据维和概念分层来进行储存的在多个抽象层挖掘关联规那么,并在不同的抽象层进行转化,是数据挖掘系统应该提供的能力

多维关联规那么——概念单维关联规那么:buys(X,“milk”)=buys(X,“bread”)多维关联规那么:涉及两个或多个维或谓词的关联规那么维间关联规那么:不包含重复的谓词age(X,”19-25”)∧occupation(X,“student”)=>buys(X,“coke”)混合维关联规那么:包含某些谓词的屡次出现age(X,”19-25”)∧buys(X,“popcorn”)=>buys(X,“coke”)分类属性具有有限个不同值,值之间无序量化属性数值类型的值,并且值之间有一个隐含的序挖掘多维关联规那么的技术在多维关联规那么挖掘中,我们搜索的不是频繁项集,而是频繁谓词集。k-谓词集是包含k个合取谓词的集合。例如:{age,occupation,buys}是一个3-谓词集挖掘多维关联规那么的技术可以根据量化属性的处理分为三种根本方法:1.量化属性的静态离散化使用预定义的概念分层对量化属性进行静态地离散化2.量化关联规那么根据数据的分布,将量化属性离散化到“箱”3.基于距离的关联规那么考虑数据点之间的距离,动态地离散化量化属性多维关联规那么挖掘——使用量化属性的静态离散化量化属性使用预定义的概念分层,在挖掘前进行离散化数值属性的值用区间代替如果任务相关数据存在关系数据库中,那么找出所有频繁的k-谓词集将需要k或k+1次表扫描数据立方体技术非常适合挖掘多维关联规那么n-维方体的单元用于存放对应n-谓词集的计数或支持度,0-D方体用于存放任务相关数据的事务总数如果包含感兴趣的维的数据立方体已经存在并物化,挖掘将会很快,同时可以利用Apriori性质:频繁谓词集的每个子集也必须是频繁的挖掘基于距离的关联规那么因为未考虑数据点之间或区间的相对距离,分箱方法不是总能紧扣区间数据的语义等宽划分将很近的值分开,并创立没有数据的区间等深划分将很远的值放在一组基于距离的关联规那么挖掘考虑属性值的接近性,紧扣区间数据的语义,并允许值的类似基于距离的关联规那么挖掘的两遍算法:1.使用聚类找出区间或簇2.搜索频繁的一起出现的簇组,得到基于距离的关联规那么关联规那么的兴趣度度量客观度量两个流行的度量指标支持度置信度主观度量最终,只有用户才能确定一个规那么是否有趣的,而且这种判断是主观的,因不同的用户而异;通常认为一个规那么〔模式〕是有趣的,如果:它是出人意料的可行动的〔用户可以使用该规那么做某些事情〕挖掘了关联规那么后,哪些规那么是用户感兴趣的?强关联规那么是否就是有趣的?由关联分析到相关分析:相关度计算我们需要一种度量事件间的相关性或者是依赖性的指标当项集A的出现独立于项集B的出现时,P(A∪B)=P(A)P(B),即corrA,B=1,说明A与B无关,corrA,B>1说明A与B正相关,corrA,B<1说明A与B负相关将相关性指标用于前面的例子,可以得出录像带和游戏将的相关性为:结论:录像带和游戏之间存在负相关基于约束的关联挖掘如何对海量数据进行交互性的,解释性的挖掘?充分的利用各种约束条件知识类型约束数据约束维/层约束兴趣度约束规那么约束指定要挖掘的规那么形式,可以用元规那么(模式)来表示,说明规那么的前件和后件中谓词的最大和最小个数,或属性、属性值和/或聚集之间的联系元规那么使得用户可以说明他们感兴趣的规那么的语法形式一般,元规那么形成一个用户希望探察的假定,而系统那么寻找与该元规那么匹配的规那么在数据挖掘中,与元规那么一起使用的约束还有集合/子集联系,变量初始化和聚集函数等,它们将使挖掘过程更有效挖掘过程中使用的规那么约束通常的数据挖掘中,知识类型和数据约束在挖掘前使用,其它约束在挖掘后用来过滤规那么,但这使挖掘过程非常低效。什么类型的规那么约束可以在挖掘过程中使用,以缩小规那么搜索空间?对于频繁项集挖掘,在挖掘过程中使用的约束包括以下五种类型:反单调的单调的简洁的可转变的不可转变的反单调的和单调的约束反单调的:如果一个项集不满足该规那么约束,那么它的任何一个超集都不可能满足该约束;具有这种性质的规那么称为是反单调的。单调的:如果一个项集满足该约束,那么它的所有超集也满足该约束;具有这种性质的规那么称为是单调的。简洁性约束一个约束是简洁的,如果我们可以列出并仅仅列出所有确保满足该约束的集合;利用简洁性约束,我们可以在计数前进行剪枝,从而防止产生-测试方式的过大开销。可转变的和不可转变的约束有些约束不属于前面三类,但是如果项集中的项以特定的次序排列,那么对于频繁项集挖掘的全过程,约束可能成为单调的或者是反单调的。例:avg(I.price)不可转变的约束是数据挖掘中较难处理的局部,但这种约束往往较少。

分类VS.预测分类:预测分类标号〔或离散值〕根据训练数据集和类标号属性,构建模型来分类现有数据,并用来分类新数据预测:建立连续函数值模型,比方预测空缺值典型应用信誉证实目标市场医疗诊断性能预测数据分类——一个两步过程步骤第一步,建立一个模型,描述预定数据类集和概念集假定每个元组属于一个预定义的类,由一个类标号属性确定根本概念训练数据集:由为建立模型而被分析的数据元组形成训练样本:训练数据集中的单个样本〔元组〕学习模型可以用分类规那么、判定树或数学公式的形式提供第二步,使用模型,对将来的或未知的对象进行分类首先评估模型的预测准确率对每个测试样本,将的类标号和该样本的学习模型类预测比拟模型在给定测试集上的准确率是正确被模型分类的测试样本的百分比测试集要独立于训练样本集,否那么会出现“过分适应数据”的情况即第一步——建立模型第二步——用模型进行分类有指导的学习VS.无指导的学习有指导的学习〔用于分类〕模型的学习在被告知每个训练样本属于哪个类的“指导”下进行新数据使用训练数据集中得到的规那么进行分类无指导的学习〔用于聚类〕每个训练样本的类编号是未知的,要学习的类集合或数量也可能是事先未知的通过一系列的度量、观察来建立数据中的类编号或进行聚类准备分类和预测的数据通过对数据进行预处理,可以提高分类和预测过程的准确性、有效性和可伸缩性数据清理消除或减少噪声,处理空缺值,从而减少学习时的混乱相关性分析数据中的有些属性可能与当前任务不相关;也有些属性可能是冗余的;删除这些属性可以加快学习步骤,使学习结果更精确数据变换可以将数据概化到较高层概念,或将数据进行标准化比拟分类方法使用以下标准比拟分类和预测方法预测的准确率:模型正确预测新数据的类编号的能力速度:产生和使用模型的计算花销健壮性:给定噪声数据或有空缺值的数据,模型正确预测的能力可伸缩性:对大量数据,有效的构建模型的能力可解释性:学习模型提供的理解和洞察的层次用判定树归纳分类什么是判定树?类似于流程图的树结构每个内部节点表示在一个属性上的测试每个分枝代表一个测试输出每个树叶节点代表类或类分布判定树的生成由两个阶段组成判定树构建开始时,所有的训练样本都在根节点递归的通过选定的属性,来划分样本〔必须是离散值〕树剪枝许多分枝反映的是训练数据中的噪声和孤立点,树剪枝试图检测和剪去这种分枝判定树的使用:对未知样本进行分类通过将样本的属性值与判定树相比拟判定归纳树算法判定归纳树算法〔一个贪心算法〕自顶向下的分治方式构造判定树树以代表训练样本的单个根节点开始使用分类属性〔如果是量化属性,那么需先进行离散化〕递归的通过选择相应的测试属性,来划分样本,一旦一个属性出现在一个节点上,就不在该节点的任何后代上出现测试属性是根据某种启发信息或者是统计信息来进行选择〔如:信息增益〕递归划分步骤停止的条件给定节点的所有样本属于同一类没有剩余属性可以用来进一步划分样本——使用多数表决没有剩余的样本属性选择度量信息增益在树的每个节点上使用信息增益度量选择测试属性;选择具有最高信息增益〔或最大熵压缩〕的属性作为当前节点的测试属性。〔即根据当前节点对应的训练样本,计算各属性的信息增益,然后选用具有最高信息增益的属性来做样本划分〕防止分类中的过分适应产生的判定树会出现过分适应数据的问题由于数据中的噪声和孤立点,许多分枝反响的是训练数据中的异常对新样本的判定很不精确防止过分适应的两种方法先剪枝:通过提前停止树的构造——如果在一个节点划分样本将导致低于预定义临界值的分裂〔e.g.使用信息增益度量〕选择一个适宜的临界值往往很困难后剪枝:由“完全生长”的树剪去分枝——对于树中的每个非树叶节点,计算该节点上的子树被剪枝可能出现的期望错误率使用一个独立的测试集来评估每颗树的准确率,就能得到具有最小期望错误率的判定树由判定树提取分类规那么可以提取判定树表示的知识,并以IF-THEN形式的分类规那么表示对从根到树叶的每条路径创立一个规那么沿着给定路径上的每个属性-值对形成规那么前件〔"IF"局部〕的一个合取项叶节点包含类预测,形成规那么后件〔"THEN"局部〕IF-THEN规那么易于理解,尤其树很大时例如:IFage=“<=30”ANDstudent=“no”THENbuys_computer=“no”IFage=“<=30”ANDstudent=“yes”THENbuys_computer=“yes”IFage=“31…40”THENbuys_computer=“yes”IFage=“>40”ANDcredit_rating=“excellent”THENbuys_computer=“yes”IFage=“>40”ANDcredit_rating=“fair”THENbuys_computer=“no”集成数据仓库技术和判定树归纳将判定树归纳与多维数据立方体和面向属性的归纳(AOI)相集成,可以进行交互的多层挖掘数据立方体与判定树归纳存放在概念分层中的知识可以用在不同的抽象层归纳判定树对导出的判定树,可以进一步在属性上进行上卷或下钻,以概化或特化树节点;使用户将注意力集中于感兴趣的树区域AOI与判定树归纳利用属性上的概念分层,以高层概念替换低层概念概化训练数据应当概化到由领域专家或用户设定的某个中间值,防止概化过低或者是过分概化对判定树中,由于递归划分,使得某些数据子集太小而失去统计意义的情况,可以通过引入相应的临界值,控制子集的划分贝叶斯分类贝叶斯分类利用统计学中的贝叶斯定理,来预测类成员的概率,即给定一个样本,计算该样本属于一个特定的类的概率。朴素贝叶斯分类:假设每个属性之间都是相互独立的,并且每个属性对非类问题产生的影响都是一样的。后向传播分类后向传播是一种神经网络学习算法;神经网络是一组连接的输入/输出单元,每个连接都与一个权相连。在学习阶段,通过调整神经网络的权,使得能够预测输入样本的正确标号来学习。优点预测精度总的来说较高健壮性好,训练样本中包含错误时也可正常工作输出可能是离散值、连续值或者是离散或量化属性的向量值对目标进行分类较快缺点训练〔学习〕时间长蕴涵在学习的权中的符号含义很难理解很难根专业领域知识相整合其他分类方法k-最临近分类给定一个未知样本,k-最临近分类法搜索模式空间,找出最接近未知样本的k个训练样本;然后使用k个最临近者中最公共的类来预测当前样本的类标号基于案例的推理样本或案例使用复杂的符号表示,对于新案例,先检测是否存在同样的训练案例;如果找不到,那么搜索类似的训练案例遗传算法结合生物进化思想的算法粗糙集方法模糊集方法允许在分类规那么中定义“模糊的”临界值或边界什么是预测?预测是构造和使用模型评估无样本类,或评估给定样本可能具有的属性或值空间。预测和分类的异同相同点两者都需要构建模型都用模型来估计未知值预测当中主要的估计方法是回归分析线性回归和多元回归非线性回归不同点分类法主要是用来预测类标号〔分类属性值〕预测法主要是用来估计连续值〔量化属性值〕线性回归、多元回归和非线性回归线性回归:Y=+X其中和是回归系数,可以根据给定的数据点,通过最小二乘法来求得多元回归:Y=+1X1+2X2线性回归的扩展,设计多个预测变量,可以用最小二乘法求得上式中的,1和2非线性回归:Y=+1X1+2X22+3X33对不呈线性依赖的数据建模使用多项式回归建模方法,然后进行变量变换,将非线性模型转换为线性模型,然后用最小二乘法求解评估分类法的准确性导出分类法后,再使用训练数据评估分类法,可能错误的导致乐观的估计保持方法给定数据随机划分为两个集合:训练集(2/3)和测试集(1/3)训练集导出分类法,测试集对其准确性进行评估随机子选样:保持方法的一个变形,将保持方法重复k次,然后取准确率的平均值k-折交叉确认初始数据被划分为k个不相交的,大小大致相同的子集S1,S2…Sk进行k次训练和测试,第i次时,以Si做测试集,其他做训练集准确率为k次迭代正确分类数除以初始数据集样本总数提高分类法的准确性Bagging技术和boosting技术都通过将T个学习得到的分类法C1,C2…CT组合起来,从而创造一个改良的分类法C*Bagging技术对训练集S进行T次迭代,每次通过放回取样选取样本集St,通过学习St得到分类法Ct对于未知样本X,每个分类法返回其类预测,作为一票C*统计得票,并将得票最高的预测赋予XBoosting技术每个训练样本赋予一个权值Ct的权值取决于其错误率神经网络的组成与特性大量文献从各种不同的角度来解释生理神经网络是如何工作的。许多书藉和论文从细胞观点来解释神经元。另一些涉及神经传递器(neurotransmitters)和神经突触(synapses)上及其附近的活动细节。又有一些集中研究神经元在处理和传递信息时是如何连接和跟踪传递路径的。还有一些从现代工程观点得出不同的物体具有不同的传输路线和频率调制的思想。大多数想了解和复制神经网络功能的研究人员,在浩瀚的文献中,只能把注意力集中到神经元的少数几个特性上基于反向传播网络的学习反向传播(back-propagation,BP)算法是一种计算单个权值变化引起网络性能变化值的较为简单的方法。由于BP算法过程包含从输出节点开始,反向地向第一隐含层(即最接近输入层的隐含层)传播由总误差引起的权值修正,所以称为"反向传播"。1.反向传播网络的结构鲁梅尔哈特(Rumelhart)和麦克莱兰(Meclelland)于1985年开展了BP网络学习算法,实现了明斯基的多层网络设想。BP网络不仅含有输入节点和输出节点,而且含有一层或多层隐(层)节点,如下图。输入信号先向前传递到隐节点,经过作用后,再把隐节点的输出信息传递到输出节点,最后给出输出结果。节点的激发函数一般选用S型函数。BP算法的学习过程由正向传播和反向传播组成。在正向传播过程中,输入信息从输入层经隐单元层逐层处理后,传至输出层。每一层神经元的状态只影响下一层神经元的状态。如果在输出层得不到期望输出,那么就转为反向传播,把误差信号沿原连接路径返回,并通过修改各层神经元的权值,使误差信号最小。2.反向传播公式

反向传播特性的数学论证是以以下两个概念为依据的(1)设y为某些变量xi的平滑函数。我们想知道如何实现每个xi初始值的递增变化,以便尽可能快地增大y值,每个xi初始值的变化应当与y对xi的偏导数成正比,即这个概念称为梯度法(gradientascent)。3.反向传播学习算法〔BP算法〕

根据前面求得的两个反向传播方程,可得反向传播训练神经元的算法如下:

(1)选取比率参数r,〔学习效率,Learningrate〕

(2)进行以下过程直至性能满足要求为止:

①对于每一训练(采样)输入,

(a)计算所得输出。

(b)按下式计算输出节点的值

(c)按下式计算全部其它节点(d)按下式计算全部权值变化②对于所有训练(采样)输入,对权值变化求和,并修正各权值。

权值变化与输出误差成正比,作为训练目标输出只能逼近1和0两值,而绝不可能到达1和0值。因次,当采用1作为目标值进行训练时,所有输出实际上呈现出大于的值;而当采用0作为目标值进行训练时,所有输出实际上呈现出小于的值;这样的性能就被认为是满意的。

反向传播算法是一种很有效的学习算法,它已解决了不少问题,成为神经网络的重要模型之一。反向传播算法框图如下图。基于最小错误率贝叶斯决策理论1贝叶斯公式〔1〕概率:某事件发生的几率。〔2〕先验概率在实际的事件没有出现之前,我们所拥有的该事件可能出现的概率。举例:〔1〕扑克牌:大王,K。〔2〕硬币:正面,反面。〔3〕赌场押大小:1000次:810次大,190次小。1001次?1002次?…问题:是否可以提高押对的概率,减少押错的概率?除先验概率外,必须利用其他的信息。〔3〕类条件概率密度细胞识别:正常细胞ω1异常细胞ω2光密度特征:x类条件概率密度p(x|ω):类别状态为ω时的x概率密度函数。〔4〕贝叶斯公式A、P(ωj,x)=P(x|ωj)P(ωj)〔总体;类〕,P(ω2)=0.6,,那么:B、P(ωj,x)=P(ωj|x)P(x)C、贝叶斯公式

聚类的普遍应用模式识别空间数据分析通过聚类特征空间创立GIS中的主题映射探测空间簇,用空间数据挖掘解释它们图像处理经济学(特别指市场研究)WWW文档分类对web日志数据进行聚类以发现相似访问模式组2006年11月17日星期五DataMining:ConceptsandTechniques4聚类的应用例子在商务上:帮助市场分析人员从客户根本库中发现不同的客户群,并且用购置模式来刻画不同的客户群的特征土地使用:在一个地球观测数据库中识别相似土地使用的地区在保险业上:汽车保险单持有者的分组城市规划:房子的类型,价值和地理分布来识别房子组生物学上:用于推导植物和动物的分类,对基因进行分类2006年11月17日星期五DataMining:ConceptsandTechniques5什么是好的聚类?一个好的聚类方法将产生以下的高聚类最大化类内的相似性最小化类间的相似性聚类结果的质量依靠所使用度量的相似性和它的执行聚类方法的质量也可以用它发现一些或所有隐含模式的能力来度量2006年11月17日星期五DataMining:ConceptsandTechniques6数据挖掘对聚类的要求可伸缩性处理不同类型属性的能力发现任意形状的聚类用于决定输入参数的领域知识最小化处理噪声数据和孤立点的能力对于输入纪录的顺序不敏感高维性基于约束的聚类可解释性和可用性度量聚类的质量相异/相似矩阵:相似性用距离函数d(i,j)表示存在一个别离的“质量”函数来度量聚类的好坏聚类函数的定义根据是区间标度变量,二元变量,标称,序数还是比例标度变量通常是不同的根据应用和数据语义把权和不同的变量联系起来很难定义“足够相似”或“足够好”答案是高度主观的聚类分析中的数据类型区间标度变量:二元变量:标称,序数和比例标度变量:混合类型变量:区间标度变量标准化数据计算平均的绝对偏差:这里计算标准化的度量值(z-scor

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论