数据挖掘算法(wangye 2006.8)

上传人：n*** IP属地：河南上传时间：2020-04-15 格式：PPT 页数：87 大小：453KB 积分：15 举报 版权申诉

已阅读5页，还剩82页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

数据挖掘算法 WangYe2006 8 一概念和术语 1 1数据挖掘知识发现 1 数据挖掘是从存放在数据集中的大量数据挖掘出有趣知识的过程 2 数据挖掘又称为数据库中知识发现 KnowledgeDiscoveryinDatabases 或知识发现它是一个从大量数据中抽取挖掘出未知的有价值的模式或规律等知识的非平凡过程它与数据仓库有着密切的联系 3 广义的数据挖掘是指知识发现的全过程狭义的数据挖掘是指统计分析机器学习等发现数据模式的智能方法即偏重于模型和算法 4 数据库查询系统和专家系统不是数据挖掘在小规模数据上的统计分析和机器学习过程也不应算作数据挖掘 1 2机器学习 1 对于某类任务T和性能度量P 如果一个计算机程序在T上以P衡量的性能随着经验E而自我完善那么这个计算机程序被称为在从经验E学习 2 机器学习是知识发现的一种方法是指一个系统通过执行某种过程而改进它处理某一问题的能力 1 3数据挖掘的对象 1 关系型数据库事务型数据库面向对象的数据库 2 数据仓库多维数据库 3 空间数据如地图信息 4 工程数据如建筑集成电路的信息 5 文本和多媒体数据如文本图象音频视频数据 6 时间相关的数据如历史数据或股票交换数据 7 万维网如半结构化的HTML 结构化的XML以及其他网络信息 1 4数据挖掘的步骤 1 数据清理消除噪音或不一致数据补缺 2 数据集成多种数据源可以组合在一起 3 数据选择从数据库中提取相关的数据 4 数据变换变换成适合挖掘的形式 5 数据挖掘使用智能方法提取数据模式 6 模式评估识别提供知识的真正有趣模式 7 知识表示可视化和知识表示技术 1 5支持数据挖掘的关键技术 1 数据库数据仓库 OLAP 2 数学统计回归分析多元回归自回归判别分析 Bayes判别 Fisher判别非参数判别主成分分析相关性分析模糊集粗糙集 3 机器学习聚类分析关联规则决策树范例推理贝叶斯网络神经网络支持向量机遗传算法 4 可视化将数据知识和规则转化为图形表现的形式 1 6数据仓库 1 数据仓库是一个面向主题的集成的随时间变化的非易失性数据的集合用于支持管理人员的决策 2 数据仓库是一种多个异种数据源在单个站点以统一的模式组织的存储以支持管理决策数据仓库技术包括数据清理数据集成和联机分析处理 OLAP 3 数据仓库的逻辑结构是多维数据库数据仓库的实际物理结构可以是关系数据存储或多维数据方 Cube 4 数据方是由维度 Dimension 和度量 Measure 定义的一种数据集度量存放在由维度索引的数据方单元中维度对应于模式中的属性组度量对应于与主题相关的事实数据数据方的物化是指预计算并存储全部或部分单元中的度量 1 7数据仓库的模型 1 星形模式最常见模型其中数据仓库包括一个大的包含大批数据不含冗余的中心表事实表一组小的附属表维表每维一个 2 雪花模式雪花模式是星型模式的变种其中某些维表是规范化的因而把数据进一步分解到附加的表中 3 星系模式多个事实表共享维表这种模式可以看作星形模式集因此称为星系模式或事实星座 1 8典型的OLAP操作 1 OLAP是一种多维数据分析技术包括汇总合并和聚集等功能以及从不同的角度观察信息的能力 2 上卷从某一维度的更高概念层次观察数据方获得更概要的数据它通过沿维的概念分层向上或维归约来实现 3 下钻下钻是上卷的逆操作它从某一维度的更低概念层次观察数据方获得更详细的数据下钻可以通过沿维的概念分层向下或引入新的维来实现 4 切片和切块切片操作在给定的数据方的选择一个维的部分属性获得一个较小的子数据方切块操作通过对选择两个或多个维的部分属性获得一个较小的子数据方 5 转轴是一种改变数据方二维展现形式的操作它将数据方的二维展现中的某些维度由行改为列或由列改为行二数据准备现实世界的数据是不完整的有些感兴趣的属性缺少属性值或仅包含聚集数据含噪音的包含错误或存在偏离期望的异常值不一致的例如用于商品分类的部门编码存在差异需要数据清理数据集成数据选择数据变换等技术对数据进行处理 2 1维归约特征提取2 1 1决策树归约 1 决策树归约构造一个类似于流程图的结构其每个非叶子结点表示一个属性上的测试每个分枝对应于测试的一个输出每个叶子结点表示一个决策类 2 在每个结点算法选择当前对分类最有帮助的属性出现在树中的属性形成归约后的属性子集 2 1 2粗糙集归约 1 粗糙集理论在数学意义上描述了知识的不确定性它的特点是把用于分类的知识嵌入集合内使分类与知识联系在一起 2 知识的粒度不可分辨关系上近似下近似边界等概念见下图 2 1 2粗糙集归约续 3 令Q代表属性的集合 q Q是一个属性如果IND Q q IND Q 则q在S中不是独立的否则称q在S中是独立的 4 若集合满足IND R IND Q 且R中的每一个属性都是独立的则R被称为Q的一个约简记作R RED Q 5 约简可以通过删除冗余的不独立的属性而获得约简包含的属性即为对分类有帮助的属性 2 2数据变换2 2 1归一化与模糊化有限区间的归一化无限区间的归一化模糊隶属度 2 2 2核函数 1 核函数的基本思想是将在低维特征向量线性不可分的数据映射到线性可分的高维特征空间中去 2 映射可以是显式的也可以是隐式的显式映射即找到一个映射关系f 使高维空间的特征向量f x 可以被直接计算出来 3 隐式映射即引入一个核函数进行整体处理就避免了对的直接求f x 的计算困难核函数即某高维特征空间中向量的内积是核矩阵中的一个元素 4 并不是所有的实值函数f x 都可以作为空间映射的核函数只有f x 是某一特征空间的内积时即符合Mercer条件它才能成为核函数 2 2 2核函数续多项式函数高斯 RBF 函数多层感知机函数低维空间向量映射到高维空间向量举例 2 3数据压缩2 3 1离散化离散化的用途 1 适应某些仅接受离散值的算法 2 减小数据的尺度离散化的方法包括几下几种 1 等距分割 2 聚类分割 3 直方图分割 4 基于熵的分割 5 基于自然属性的分割 2 3 2回归回归和对数线性模型可以用来近似给定的数据在线性回归中用一条直线来模拟数据的生成规则多元回归是线性回归的扩展涉及多个预测变量在多项式回归中通过对变量进行变换可以将非线性模型转换成线性的然后用最小平方和法求解 2 3 2回归续利用线性回归可以为连续取值的函数建模广义线性模型则可以用于对离散取值变量进行回归建模在广义线性模型中因变量Y的变化速率是Y均值的一个函数这一点与线性回归不同常见的广义线性模型有对数回归和泊松回归对数回归模型是利用一些事件发生的概率作为自变量所建立的线性回归模型泊松回归模型主要是描述数据出现次数的模型因为它们常常表现为泊松分布 2 3 3主成分分析 PCA PCA算法搜索c个最能代表数据的k 维正交向量这里c k 这样原来的数据投影到一个较小的空间导致数据压缩步骤如下 1 对输入数据归一化使得每个属性都落入相同的区间 2 PCA计算c个规范正交向量作为归一化输入数据的基这些是单位向量每一个都垂直于另一个称为主成分输入数据是主要成分的线性组合 3 对主成分按意义或强度降序排列选择部分主成分充当数据的一组新坐标轴 2 3 4离散小波变换 DWT 离散小波变换是一种线性信号处理技术该技术方法可以将一个数据向量转换为另一个数据向量为小波相关系数且两个向量具有相同长度可以舍弃转换后的数据向量中的一些小波相关系数保留所有大于用户指定阈值的小波系数而将其它小波系数置为0 以帮助提高数据处理的运算效率这一技术方法可以在保留数据主要特征情况下除去数据中的噪声因此该方法可以有效地进行数据清洗给定一组小波相关系数利用离散小波变换的逆运算还可以近似恢复原来的数据 2 3 4离散小波变换续常用的小波函数包括Haar系列 Daubechies系列 Moret系列 Sym系列 Meyer系列 Coif系列 2 3 5潜在语义分析潜在语义分析将样本映射到语义概念空间以发现样本数据之间的潜在语义联系 1 构造特征样本矩阵特征样本矩阵中的每一列是对应于第i个样本特征向量 2 对该矩阵进行奇异值分解 SVD 3 用最大的k个奇异值所对应的特征语义矩阵Uk和样本语义矩阵Vk以及最大的k个奇异值重构特征样本矩阵下面两式分别代表在语义空间特征与特征之间的距离和在语义空间样本与样本之间的距离 2 3 6聚类分析聚类技术将数据元组视为对象它将对象划分为聚类使在一个聚类中的对象类似但与其它聚类中的对象不类似通常类似性基于距离用对象在空间中的接近程度定义聚类的质量可以用直径表示而直径是一个聚类中两个任意对象的最大距离质心距离是聚类质量的另一种度量它定义为由聚类质心表示平均对象或聚类空间中的平均点到每个聚类对象的平均距离 2 3 6聚类分析续 k means算法 k medoids算法三数据挖掘算法数据挖掘算法按挖掘目的可分为 1 概念描述总结对比等 2 关联规则分析 3 分类与预测信息自动分类信息过滤图像识别等 4 聚类分析 5 异常分析入侵检测金融安全等 6 趋势演化分析回归序列模式挖掘按训练方式机器学习可分为 1 有监督的学习有训练样本学习机通过学习获得训练样本包含的知识并用其作为判断测试样本的类别的依据 2 无监督的学习无训练样本仅根据测试样本的在特征空间分布情况判断其类别 3 半监督的学习有少量训练样本学习机以从训练样本获得的知识为基础结合测试样本的分布情况逐步修正已有知识并判断测试样本的类别 4 强化学习没有训练样本但有对学习机每一步是否更接近目标的奖惩措施有监督的学习半监督的学习无监督的学习 3 1关联规则挖掘关联规则挖掘发现大量数据中项集之间有趣的关联或相关联系设I i1 i2 im 是项的集合设任务相关的数据D是数据库事务的集合其中每个事务T是项的集合使得T I 设A是一个项集事务T包含A当且仅当A T 关联规则是形如A B的蕴涵式其中A I B I 并且A B 规则A B在事务集D中成立具有支持度s 其中s是D中事务包含A B的百分比即 P A B 规则A B在事务集D中具有置信度c 如果D中包含A的事务同时也包含B的百分比是c 这是条件概率P B A 即support A B P A B confidence A B P B A 3 1关联规则挖掘续 Apriori性质频繁项集的所有非空子集都必须也是频繁的 Apriori性质基于如下观察根据定义如果项集I不满足最小支持度阈值s 则I不是频繁的即P I s 如果项A添加到I 则结果项集即I A 不可能比I更频繁出现因此 I A也不是频繁的即P I A s 该性质表明如果一个集合不能通过测试则它的所有超集也都不能通过相同的测试将Apriori性质应用于算法下面算法的两个主要步过程由连接和剪枝组成 3 1关联规则挖掘续连接步为找Lk 通过Lk 1与自己连接产生候选k 项集的集合该候选项集的集合记作Ck Ck是Lk的超集扫描数据库确定Ck中每个候选的计数将令计数值不小于最小支持度计数的频繁的所有候选加入Lk 剪枝步但Ck可能很大这样所涉及的计算量就很大根据Apriori性质如果一个候选k 项集的 k 1 子集不在Lk 1中则该候选也不可能是频繁的从而可以由Ck中删除 Apriori性质逆反描述任何非频繁的 k 1 项集都不是可能是频繁k 项集的子集 3 2决策树决策树学习是归纳推理算法它是一种逼近离散函数的方法且对噪声数据有很好的健壮性在这种方法中学习到的知识被表示为决策树决策树也能再被表示为多个if then的规则以提高可读性基本决策树算法就是一个贪心算法它采用自上而下分而制之的递归方式来构造一个决策树通常决策树是一种自顶向下增长树的贪婪算法在每个结点选取能最好地分类样例的属性继续这个过程直到这棵树能完美分类训练样例或所有的属性都使用过了信息增益用于衡量属性的价值熵 entropy 是一种度量信息增益的指标它描述了样本的纯度 purity 下面是熵的定义 Entropy Pilog2Pi 3 2决策树续注意点 1 避免过度拟合应该适度剪枝 2 连续值的离散化 3 处理缺失值的方法最常见值按概率分配 4 处理权重不同的属性常用实现算法 CART ID3 ASSISTANT C4 5 3 3人工神经网络人工神经网络 ArtificialNeuralNetworks 提供了一种普遍而且实用的方法来从样例中学习值为实数离散或向量的函数反向传播 BackPropagation 这样的算法使用梯度下降来调节网络参数以最佳拟合由输入输出对组成的训练集合 BP网络的学习方法和目标对网络的连接权值进行调整使得对任一输入都能得到所期望的输出常用的非线性作用函数是Sigmoid函数即f x 1 1 e x 在神经网络模型中大量神经元节点按一定体系结构连接成网状神经网络一般都具有输入层隐层和输出层每个神经元都是一个结构相似的独立单元它接受前一层传来的数据并将这些数据的加权和输入非线性作用函数中最后将非线性作用函数的输出结果传递给后一层误差反向传播的过程 3 3人工神经网络续自适应共振理论模型 ART 聚类连续离散Hopfield神经网络求近似最优解识别与分类双向联想记忆模型 BAM 识别玻尔兹曼机 BM 求最优解脑中盒模型 BSB 识别与分类自组织映射模型 SOM 识别与分类对向传播网络模型 CPN 识别与分类小脑模型 CMAC 快速识别 3 4朴素贝叶斯 NaiveBayes 分类器朴素贝叶斯分类器是一种基于贝叶斯理论的分类器它的特点是以概率形式表达所有形式的不确定学习和推理都由概率规则实现学习的结果可以解释为对不同可能的信任程度 P H 是先验概率或H的先验概率 P H X 是后验概率或条件X下 H的后验概率后验概率P H X 比先验概率P H 基于更多的信息 P H 是独立于X的假定数据样本世界由水果组成用它们的颜色和形状描述假定X表示红色和圆的 H表示假定X是苹果则P H X 反映当我们看到X是红色并是圆的时我们对X是苹果的确信程度朴素贝叶斯分类能够奏效的前提是 P X H 相对比较容易计算假定X表示红色和圆的 H表示假定X是苹果则P X H 表示已知苹果它既红又圆的概率 3 5期望最大化 EM 期望最大化 EM 方法和朴素贝叶斯方法有着共同的理论基础期望最大化是一种基于循环过程的最大似然参数估计方法用于解决带缺失数据的参数估计问题样本数据分为标记样本和未标记样本按照统计的观点对于每一个样本的产生其背后都有一个模型即样本生成模型样本生成模型的参数先由标记样本确定再通过标记样本和利用当前模型判断标记的未标记样本共同调整 3 5期望最大化续如果参数适当 EM算法能得到较好的分类结果但计算速度相对较慢其具体的步骤如下一初始参数估计将未标记的样本按朴素贝叶斯分类方法进行类标注二反复迭代E步骤和M步骤直到收敛三 E步骤对于每个未标记的样本按下式计算类标记的期望值四 M步骤利用E步骤计算出的期望值按下式用已标记样本和未标记样本重新估计新的分类器参数 3 6K 最近邻分类K 近邻 K NN 分类是基于范例的分类方法它的基本思想是给定待分类样本后考虑在训练样本集中与该待分类样本距离最近最相似的K个样本根据这K个样本中大多数样本所属的类别判定待分类样本的类别它的特例是1 NN 即分类时选出待分类样本的最近邻并以此最近邻的类标记来判断样本的类 K NN算法的优点在于它有较高的精确程度研究表明 K NN的分类效果要明显好于朴素贝叶斯分类决策树分类 3 6K 最近邻分类续最近邻分类的算法步骤如下一以向量空间模型的形式描述各训练样本二在全部训练样本集中选出与待分类样本最相似的K个样本 K值的确定目前没有很好的方法一般采用先定一个100左右的初始值然后再调整三将待分类样本标记为其K个邻居中所属最多的那个类别中 3 7遗传算法遗传算法易于并行处理其依据是自然界进化和适者生存的原则遗传学习开始如下创建若干个由随机产生的个体组成的初始群体每个个体用一个二进位串表示形成由当前群体中最适合的个体组成新的群体以及这些规则的子女个体的适合度用某一目标函数来评估子女通过使用诸如交叉和变异等遗传操作来创建在交叉操作中来自个体对的子串交换形成新的个体对在变异操作中个体中随机选择的位被反转 3 7遗传算法续 Fitness 适应度评分函数为给定假设赋予一个评估得分 Fitness threshold 指定终止判据的阈值 p 群体中包含的假设数量 r 每一步中通过交叉取代群体成员的比例 m 变异率初始化群体 P 随机产生的p个假设评估对于P中的每一个h 计算Fitness h 当 Fitness h Fitness threshold 做产生新的一代PS 3 7遗传算法续选择用概率方法选择P的 1 r p个成员加入PS 从P中选择假设hi的概率P hi 通过下面公式计算交叉根据上面给出的P hi 从P中按概率选择r p 2对假设对于每一对假设应用交叉算子产生两个后代把所有的后代加入PS 变异使用均匀的概率从PS中选择m百分比的成员对于选出的每个成员在它的表示中随机选择一个位取反更新 P PS 评估对于P中的每一个h计算Fitness h 从P中返回适应度最高的假设 3 8聚类分析为达到全局最优基于划分的聚类会要求穷举所有可能的划分聚类技术将数据元组视为对象它将对象划分为群或聚类使得在一个聚类中的对象类似但与其它聚类中的对象不类似绝大多数应用采用了以下两个比较流行的基于划分的方法这些基于划分的聚类方法对在中小规模的数据库中发现球状簇很适用 1 k means算法在该算法中每个簇用该簇中对象的平均值来表示 2 k medoids算法在该算法中每个簇用接近聚类中心的一个对象来表示 3 8聚类分析续常用的相似程度度量余弦夹角 Dice系数 Jaccard系数 3 8聚类分析续基于层次的方法层次的方法对给定数据集合进行层次的分解根据层次的分解如何形成层次的方法可以被分为凝聚或分裂方法 Chameleon CURE BIRCH 基于密度的方法只要临近区域的密度超过某个阈值就继续聚类避免仅生成球状聚类 DBSCAN OPTICS DENCLUE 基于网格的方法基于网格的方法把对象空间量化为有限数目的单元所有的聚类操作都在这个量化的空间上进行这种方法的主要优点是它的处理速度很快 STING CLIQUE WaveCluster 基于模型的方法为每个簇假设一个模型发现数据对模型的最好匹配 COBWEB CLASSIT AutoClass 3 9隐马尔可夫模型对于一个随机事件有一个观察值序列 O1 OT 该事件隐含着一个状态序列 X1 XT假设1 马尔可夫性 P Xi Xi 1 X1 P Xi Xi 1 假设2 不动性 P Xi 1 Xi P Xj 1 Xj 对任意i j成立假设3 输出独立性 P O1 OT X1 XT P Ot Xt 一个隐马尔可夫模型是一个五元组 X O A B 其中 X Q1 QN 状态的有限集合 O V1 VM 观察值的有限集合 A aij aij P Xt 1 Qj Xt Qi 转移概率 B bik bik P Ot Vk Xt Qi 输出概率 i i P X1 Qi 初始状态分布 3 9隐马尔可夫模型续令 A B 为给定HMM的参数令 O1 OT为观察值序列隐马尔可夫模型的三个基本问题评估问题对于给定模型求某个观察值序列的概率P 向前向后算法定义向前向后变量采用动态规划算法复杂度O N2T 解码问题对于给定模型和观察值序列求可能性最大的状态序列 Viterbi算法采用动态规划算法复杂度O N2T 学习问题对于给定的一个观察值序列调整参数使得观察值出现的概率P 最大向前EM算法的一个特例带隐变量的最大似然估计 Baum Welch算法 3 9隐马尔可夫模型续向前向后算法定义向前向后变量初始化递归终结 3 9隐马尔可夫模型续 Viterbi算法初始化递归终结求S序列 3 9隐马尔可夫模型续 Baum Welch算法主要步骤 1 初始模型待训练模型 l0 2 基于l0以及观察值序列s 训练新模型l 3 如果logP X l log P X l0 Delta 说明训练已经达到预期效果算法结束 4 否则令l0 l 继续第2步工作 3 10支持向量机支持向量机基本模型是针对线性可分情况下的最优分界面提出的在这一条件下正类和反类训练样本可用超平面完全正确地分开设线性可分样本集合为 xi yi i 1 n x Rd y 1 1 是类别标记支持向量机工作的机理可描述为寻找一个超平面w x b 0 该平面把两类训练样本点完全正确地分开即满足且同时满足两类训练点到此超平面的最近距离之和即间隔 Margin 达到最大满足上述条件的分界面就是最优分界面经过两类样本中距离最优分类面最近的点且平行于最优分界面的超平面H1 H2 边界超平面上的训练样本称为支持向量即图中带圈的点 3 10支持向量机续根据最近距离之和最大以及正确分离两类样本这两个条件可以构造约束极值问题见 1 式通过拉格朗日乘数法并引入拉格朗日乘数该约束极值问题就可以转化成一个求解较为简单的对偶问题通过寻求该对偶问题的最优解就可以得到原问题的最优解构造分类器判决函数见 2 式 2 式中 sgn 是取符号函数产生 1或 1两种结果当测试无标记的测试数据时根据上式的计算结果就可判断无标记测试数据属于正类还是反类 1 2 3 10支持向量机续由于噪声或其他因素的影响两类数据可能有少数的融合或交叉引入松弛变量x使得分类器在训练后仍可以存在一些错分样本不但要使两类样本之间的间隔尽量大同时还要使错分的样本的松弛变量之和尽可能的小即其中 x为松弛变量满足xi 0 C为大于零的折衷因子它调和了间隔距离和错分样本数之间的关系 C趋近于无穷大时即为线性可分的形式为了提高支持向量机的推广能力 C通常取为较大的数 3 10支持向量机续解决线性不可分数据问题的方法是将低维空间的线性不可分数据映射到高维的线性可分空间中支持向量机通过非线性映射f x 把数据由低维空间向高维空间映射在高维空间为低维数据构造线性分离超平面该分离超平面对应着原特征空间上的一个分割超曲面在高维特征空间上所有涉及f x 的计算及判决函数都以f x 的内积形式出现因而可以引入一个核函数进行整体处理从而避免了对f x 的直接计算使所有的计算仍在原空间进行 3 10支持向量机续统计学习理论认为学习机误判未知数据类别的实际风险与学习机的训练误差并不完全一致对于两类分类问题实际风险与学习机的训练误差之间至少以1 h的概率 0 h 1 满足下式根据统计学习的理论对于两类分类的支持向量机在线性可分的情况下它的推广误差的上界以1 d的概率 0 d 1 保证为其中 m是连续分类正确的样本数 g 1 w 是间隔距离的一半 R是一个特征空间球的半径它将全部样本包含在其中 3 11关系学习关系学习所涉及的问题比传统机器学习中涉及到的问题高一个层次该类问题的假设空间庞大结构复杂需要加入领域知识反映问题的内在结构关系学习中知识的表示原子析取合取蕴含非验证等价涵蕴等句子由上述元素组成一阶Horn子句仅包含一个肯定文字的子句有三种类型的Horn子句单一原子事实一个蕴涵规则一个否定文字的集合目标 3 11关系学习续归纳逻辑编程 InductiveLogicProgramming ILP 是处理关系学习领域问题的重要方法它是归纳学习和逻辑程序结合的产物 ILP用于一阶逻辑的概念学习和逻辑程序的合成 ILP系统处理分类任务时主要采用两种方式覆盖方法和分治方法子句空间由形如 H L1 L2 Lm的一阶子句构成包容关系假设c和c 是两个程序子句子句c 包容子句c 如果存在一个替换使得c c 基于ILP的常用方法有 Progol FOIL TLIDE ICL 四模型上的模型 4 1装袋提升给定s个样本的集合S 装袋 Bagging 过程如下对于迭代t t 1 2 T 训练集St采用放回选样由原始样本集S选取由于使用放回选样 S的某些样本可能不在St中而其它的可能出现多次由每个训练集St学习得到一个分类法Ct 为对一个未知的样本X分类每个分类法Ct返回它的类预测算作一票装袋的分类法C 统计得票并将得票最高的类赋予X 通过取得票的平均值装袋也可以用于连续值的预测 4 1装袋提升续提升 Boosting 过程如下每个训练样本赋予一个权并学习得到一系列分类法对于迭代t t 1 2 T 学习得到分类法Ct后更新权使得随后的分类法Ct 1 更关注 Ct的分类错误最终的提升分类法C 组合每个分类法的表决这里每个分类法的表决是其准确率的函数通过取得票的平均值提升算法也可以扩充到连续值预测 4 2共同训练 Co Training 共同训练算法用两个不同的视图即特征集合来描述文本的特征基本思路每个视图对应一个学习机而每个学习机都根据自身已学到的规律来标记最有把握的无标记样本然后将这个或这几个新标记的样本加入训练样本并扩展后的训练样本提供给另一个学习机进行学习如此反复直到满足一定的条件为止该算法中所用到的两个视图需要满足以下两个条件首先每个特征集合对文本分类学习来说都是充分的其次在给定类别标记的条件下两个特征集合相互独立 4 3主动学习被动学习主动学习在学习过程中可以根据学习进程选择最有利于分类器性能的样本来进一步训练分类器它能有效地减少评价样本的数量被动学习只是随机地选择训练样本被动地接受这些样本的信息进行学习主动学习是实现监督学习过程的一个有效的方法在主动学习过程中分类器主动地选择对其最有帮助的一组子样本进行学习而不是被动地接受训练集最有帮助的样本指的是对当前分类器来说归属最不确定的样本即当前分类器最难以区分的样本通常情况下主动学习的计算复杂度比一般的监督学习过程要显著得低 4 3主动学习被动学习续初始状态下候选样本集中所有的样本都未带类别标注根据先验知识或者随机地从候选样本集中选择少量样本并标注它们的类别构造初始训练样本集确保初始训练样本集中至少包含有一个正例样本和一个负例样本在上述初始训练样本集上训练一个分类器并采用某种针对该分类器采样算法从候选样本集中选择最有利于提高分类器性能的样本手工标注其类别并加入训练样本集再重新训练分类器重复以上过程直到候选样本集为空或达到某种要求主动学习是一个循环反复的过程在主动学习的模型中全部数据被分为两部分一部分是带标签的样本集X 另一部分是无标签的样本集U 主动学习的模型还包括了一个在带标签的样本集X上训练的学习机L和一个决策模块q 决策模块q用来决定U中的哪一些样本应该被选出标记标签并加入带标签的样本集X 更新后的X将在下一个轮次被用于训练学习机L 主动学习的框架模型如图根据决策模块q的不同工作机理主动学习方法又可以被分为两大类其一是不确定取样方法另一是委员会咨询方法 4 4直推式学习直推式学习的思想来源于前面提到的机器学习的困境一方面获取已知标签的样本代价高昂另一方面获取无标签的样本要相对容易得多直推式学习的学习过程恰恰可以将大量无标签的测试集样本所携带的分类信息通过迭代逐步转移到了最终的分类器中去由于测试样本易于获得数量较多直推式学习机能够更好地描述整体样本空间上的数据分布特性使测试样本的分类结果更为准确 4 4直推式学习续在多数情况下人们只对测试文本的分类结果感兴趣这时就没有必要非得寻求具有良好泛化能力的规则而只要求分类器能对这些特定的文本做出正确分类即可它在目前已知标签样本十分紧缺而未知标签样本易于获得的条件下有着非常重要的现实意义 4 5广义EM算法EM算法可用于许多问题框架其中需要估计一组描述基准概率分布的参数只给定了由此分布产生的全部数据中能观察到的一部分一般地令X 代表在同样的实例中未观察到的数据并令Y X Z代表全体数据注意到未观察到的Z可被看作随机变量它的概率分布依赖于未知参数和已知数据X 类似地 Y是一随机变量因为它是由随机变量Z来定义的在EM算法的一般形式中用h来代表参数的假设值而h 代表在EM的每次迭代中修改的假设 4 5广义EM算法续 EM算法通过搜寻使E lnP Y h 最大的h 来寻找极大似然假设h 此期望值是在Y所遵循的概率分布上计算此分布由未知参数确定首先 P Y h 是给定假设h 下全部数据Y的似然性其合理性在于我们要寻找一个h 使该量的某函数值最大化其次使该量的对数lnP Y h 最大化也使P Y h 最大化第三引入期望值E lnP Y h 是因为全部数据Y本身也是一随机变量已知全部数据Y是观察到的X和未观察到的Z的合并我们必须在未观察到的Z的可能值上取平均并以相应的概率为权值 4 5广义EM算法续在EM算法的一般形式里重复以下两个步骤直至收敛步骤1 估计 E 步骤使用当前假设h和观察到的数据X来估计Y上的概率分布以计算Q h h 步骤2 最大化 M 步骤将假设h替换为使Q函数最大化的假设h 4 6强化学习强化学习的模型如图所示通过Agent与环境的交互进行学习 Agent与环境的交互接口包括行动 Action 回报 Reward 和状态 State 交互过程可以表述为如下形式每一步 Agent根据策略选择一个行动执行然后感知下一步状态和即时回报通过经验再修改自己的策略 Agent的目标就是最大化长期回报 4 6强化学习续马尔可夫过程是四元组M 其中S是状态集 A是行动集 A s 表示状态s下可执行的行动 T S A S 0 1 是状态转换模型 T s a s 表示状态s下执行行动a到达状态s 的概率且满足 s T s a s 1 R S A S R是即时回报函数 R s a s 表示状态s下执行行动a到达状态s 后可以得到的即时回报 4 6强化学习续转换模型和回报函数是环境的一部分描述了环境模型且只与当前状态和行动有关与以前的状态和行动都没有关系体现了马尔可夫特性 Agent为了完成任务必须知道每个行动的长远回报而不仅仅是即时回报而长远回报必须经过一定时间的延迟之后才可以获得有终任务和持续任务可以统一起来他们的长期回报是或 4 6强化学习续 Agent与环境交互的学习中选择行动的方法称为策略 S A 0 1 s a 表示在状态s下选择行动a的概率策略的一个退化形式为 S A 称为确定性策略表示在状态s下行动a的执行概率为1 其它行动均为0 Q学习是最常用的强化学习技术值函数 Q函数 4 6强化学习续学习的目的是找到一个最优策略设有策略和若对所有状态s S都有V s V s 则称策略比策略好这样就总存在一个策略它比其它所有策略都好称为最优策略若最优策略对应的状态评价函数记为V 则对所有状态s S 有V s maxV s 对所有状态s S 所有行动a A s 有Q s maxQ s 4 6强化学习续三种计算值函数 V s 方法动态规划法已知环境模型T和R 每步进行迭代 MonteCarlo法没有环境模型根据经验学习只考虑有终任务任务结束后对所有的回报进行平均时序差分法没有环境模型根据经验学习每步进行迭代不需要等任务完成 4 6强化学习续在多Agent系统中环境在多个Agent的联合动作下进行状态的迁移对于单个Agent来讲由于其只能确定自身Agent的行为动作因此体现出一种行为动作上的部分感知从而产生出另一种形式的非标准马尔可夫环境多Agent强化学习的技术包括合作多Agent强化学习适用于分布同构合作环境基于平衡解多Agent强化学习适用于同构或异构合作或竞争环境最佳响应多Agent强化学习适用于异构竞争环境多Agent强化学习机制被广泛应用到

人人文库> 全部分类> 应用文书 > 技术指导

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

数据挖掘算法(wangye 2006.8)

文档简介

温馨提示

最新文档

评论

数据挖掘算法(wangye 2006.8)

文档简介

温馨提示

最新文档

评论

相关文档