核密度估计及其在聚类算法构造中的应用.pdf_第1页
核密度估计及其在聚类算法构造中的应用.pdf_第2页
核密度估计及其在聚类算法构造中的应用.pdf_第3页
核密度估计及其在聚类算法构造中的应用.pdf_第4页
核密度估计及其在聚类算法构造中的应用.pdf_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第41卷 第10期 2004年10月 计 算 机 研 究 与 发 展 JOURNALOFCOMPUTERRESEARCHANDDEVELOPMENT Vol141 No110 Oct12004 收稿日期 2004 07 15 基金项目 国家自然科学基金项目 70371015 国家科技部中小型企业创新基金项目 02C26213210070 江苏省教育厅自然科学基金项目 02KJB520012 核密度估计及其在聚类算法构造中的应用 李存华 1 2 孙志挥 1 陈 耿 1 胡 云 1 2 1 东南大学计算机科学与工程系 南京 210018 2 淮海工学院计算机科学系 连云港 222005 cli hhit1edu1 cn 摘 要 经典数理统计学中的核密度估计理论是构造基于数据集密度函数聚类算法的理论基础 采用分箱近似的快速 核密度函数估计方法同样为构造高效的聚类算法提供了依据1 通过对核密度估计理论及其快速分箱核近似方法的讨论 给出分箱近似密度估计相对于核密度估计的均方误差界 提出基于网格数据重心的分箱核近似方法1 在不改变计算复杂 度的条件下 基于网格数据重心的分箱核近似密度函数计算可以有效地降低近似误差 这一思想方法对于构造高效大规 模数据聚类分析算法具有指导意义1 揭示了基于网格上密度函数近似的聚类算法与核密度估计理论之间的关系1 关键词 核密度估计 分箱规则 聚类算法 中图法分类号 TP391 KernelDensit yEstimationandItsApplicationtoClusteringAl gorithmConstruc2 tion LICun2Hua1 2 SUNZhi2Hui1 ChenGeng1 andHuYun 1 2 1 Department of Computer Science and Engineerin g Southeast Universit y Nan jin g210018 2 Department of Computer Science Huaihai Institute of Technology Lian yun gang222005 Abstract Kerneldensit yestimationprovidessolidfoundationfordensitybasedclusteringal gorithmcon2 struction1Whilebinneda pproximationisshowntobeanefficientmechanismforfastkerneldensitycom pu2 tation itisalsoproventobeapromisinga pproachtoconstructrobustclusteringal gorithms1This paper dealswithformationandaccuracyofthebinnedkerneldensityestimators presentsmeansquarederror boundsfortheclosenessofsuchestimatorstotheunbinnedkerneldensityestimators1Toim provetheaccu2 racyofthebinningmethod ana ve grid2levela pproximateddensit yestimatorisconstructed followedbya detailed proofofitsmeansquarederrorbounds1Theim proveda pproachconstructsbinneddensityestimator bysubstitutin gthecenterofagridwiththegravitycenterofthedatapoints whichresultsinbetteresti2 mationaccurac ywithoutlossofcomputationefficienc y1Asamainconcern thecloserelationbetweenthe density2basedclusterin gal gorithmsandthekernelestimationmethodsisrevealed1 Keywords kerneldensit yestimation binningrule clusteringal gorithm 1 引 言 聚类分析是数据挖掘技术的基本而重要的方法 和工具 是人们认识和探索事物之间内在联系的有 效手段 具有强大的功能和十分广泛的应用领域1 正因为如此 该技术一直受到研究者的重视并得到 广泛深入的研究1 近年来 众多研究者运用不同的 理论工具或基于不同的应用目的构造了一系列具有 重要应用价值的有效算法1 然而 实际问题的复杂 性 数据存储与获取技术的飞速发展始终对现有聚 类技术提出巨大的挑战1 其主要的表现之一是被处 理数据的巨量性 不论设备处理能力的增长如何 显著 人们总能够找到足够规模的数据集使计算资 源消耗殆尽 因此 研究并构造高性能的大规模数据 聚类算法成为目前普遍关注的问题1 众所周知 聚类分析与回归分析 判别分析一 起 构成了经典数理统计学的三大支柱1 其中 聚类 分析是一种不依赖于先验知识的 从数据本身出发 发现其内部分布模式的数据分析方法1 与其他技术 相比 它在分析和解决大规模复杂问题时体现出更 大的优越性1 随着数据挖掘技术的兴起和智能信息 技术的广泛运用 聚类分析理论与实现技术已远远 超越传统统计学的范畴 成为多学科分支相互交叉 共同作用的应用与研究领域1 尽管如此 数理统计 学仍然是聚类分析技术的基础和本源1 聚类方法本 身及对聚类结果的合理解释仍然需要经典数理统计 学的强有力支撑1 一般地 聚类算法可以根据其对聚类的定义方 法加以分类 1 1 常见的聚类定义包括基于距离的 基于质心的 基于连接的和基于密度的方法等 据 此 人们构造了一系列不同的聚类方法1 尽管不同 方法之间存在或多或少的差异 它们都有一个共同 的出发点 即数据的聚类依赖于数据对象之间的相 似性度量1 在这一意义上 基于数据空间密度函数 构造的方法具有显著的优越性1 首先 这种定义方 法具有坚实的理论基础 它的本源是数理统计学中 的密度估计 kerneldensit yestimation 理论1 其次 这一方法泛化了其他关于聚类的定义方法 2 1 此 外 基于密度函数的聚类定义对于噪声数据具有良 好的抗干扰性 并能够灵活地对任意形状的聚类加 以定义和发现1 由于这些显著的优点 基于数据空 间密度函数的聚类描述方法为构造聚类算法提供了 良好的基础条件 典型的基于密度的聚类算法包括 DENCLUE 2 等 它们在应用中表现了良好的性能1 然而 基于密度的聚类算法在实现上仍有一定的缺 陷 即由密度函数计算所导致的算法复杂性1 为此 李存华等人提出了基于数据空间网格划分的近似密 度计算方法1 这种方法继承了密度函数理论的严密 性 且充分考虑到聚类算法的要求 利用数据在局部 空间中密度不均匀的性质 有效地避免了对稠密区 域数据密度函数的点到点的计算1 通过细致的分析 不难发现 这种聚类构造方法在理论上与统计学中 的核密度估计具有密切的联系1 为此 本文从核密 度估计理论出发 讨论实现快速核密度估计的数据 分箱方法 在研究其误差估计问题的基础上 提出新 的基于网格数据重心的分箱核近似估计方法1 基于 网格数据重心的核近似估计在保持了分箱方法的高 效率特征的同时 可以有效提高近似精度1 这种思 想方法已经成功运用于聚类算法的构造 3 5 因 此 本文从统计学角度揭示了上述聚类算法的合 理性1 2 核密度估计 由给定样本点集合求解随机变量的分布密度函 数问题是概率统计学的基本问题之一1 解决这一问 题的方法包括参数估计和非参数估计1 参数估计又可分为参数回归分析和参数判别分 析1 在参数回归分析中 人们假定数据分布符合某 种特定的性态 如线性 可化线性或指数性态等 然 后在目标函数族中寻找特定的解 即确定回归模型 中的未知参数1 在参数判别分析中 人们需要假定 作为判别依据的 随机取值的数据样本在各个可能 的类别中都服从特定的分布1 经验和理论说明 参 数模型的这种基本假定与实际的物理模型之间常常 存在较大的差距 这些方法并非总能取得令人满意 的结果1 由于上述缺陷 Rosenblatt 6 和Parzen 7 提出了 非参数估计方法 即核密度估计方法1 由于核密度 估计方法不利用有关数据分布的先验知识 对数据 分布不附加任何假定 是一种从数据样本本身出发 研究数据分布特征的方法 因而 在统计学理论和应 用领域均受到高度的重视1 为了讨论多维空间上的核密度估计问题 我们 首先引入一维核估计的概念 8 1 定义11 设x1 x2 xn为取值于R的独立同 分布随机变量 其所服从的分布密度函数为f x x R1 定义函数 f h x 1 nh n i 1 K xi x h x R 1 它称为密度函数f x 的核密度估计 K 称为核 函数 h为预先给定的正数 通常称为窗宽或光滑 参数1 为方便起见 我们记Kh u K u h h 则 式 1 可以表示为 3171 10期李存华等 核密度估计及其在聚类算法构造中的应用 f h x 1 n n i 1 Kh x i x x R1 2 由定义1可知 分布密度函数f的核密度估计 f 不仅与给定的样本点集合有关 还与核函数的选 择和带宽参数的选择有关1 其中 带宽参数h控制 了在求点h处的近似密度时不同距离样本点对点密 度的影响程度1 在理论上 任何函数均可以用做核函数 但为了 密度函数估计的方便性与合理性 通常要求核函数 满足以下条件 K u K u 3 Sup K u 11 6 3 Biweight核函数 K u 15 1 u2 2 16 u 1 0 u 11 7 由式 2 定义的核密度函数贴切地反映了分布 密度函数在一点的值对该点邻域样本点密度的正比 依赖关系1 图1为采用高斯核函数时 样本点分布 与所得到的核密度函数曲线1 图1 由10个点描绘的高斯核估计曲线 定义21 设 K 为有界函数 且对正整数i和 k 2有 R uiK u du 1 i 0 0 1 i k 1 k 0 i k 8 则称 K 为k阶核函数1 在聚类分析应用中 待处理的数据集一般是多 维的1 因此 我们需要讨论多维空间上的核密度估 计问题1 为方便起见 我们假设维核函数是个同类 型一维基核函数的积1 定义31 设X1 X2 Xn为空间R d 上的独立 同分布随机变量 其分布密度函数f x 的核密度 估计定义为 f X 1 n n i 1 Kd h X i X 9 其中 Kd h X d i 1 Khi x i d i 1 K xi hi h i 10 K 为形如式 1 且满足式 3 4 的一维基核 函数1 特别地 采用d维同参数高斯核函数构造的R d 上的核密度函数具有如下形式 Kd x 2 d d i 1 e Y i xi 2 2 2 2 de i Y i xi 2 2 2 1 11 在文献 2 中 Hennibur g采用形如式 11 的分 布密度函数描述数据集在空间中的分布1 通过定义 密度函数的吸引子 局部极大值 给出了中心型聚 类和任意形状聚类的定义并构造了相应的DEN2 CLUE聚类算法1DENCLUE聚类算法从一个任意 的数据点出发 运用爬山法搜索其所属的局部吸引 子1 若吸引子所在点处的密度函数值达到或超过预 设的阈值 则将该点赋给由吸引子生成的类 否则 认为该吸引子所吸引的数据点太少而将所吸引的样 本点视为噪声数据1 可以证明 基于密度的聚类定 义方法涵盖了其他基于距离或基于连接的聚类的定 义 因此 它具有更为广泛的适应性1 尽管如此 直接基于核密度函数构造的聚类方 法在效率上存在巨大的局限性1 由式 9 易见 计算 含N个数据点的数据集在全体N个数据点上的密 度函数值的计算复杂度为O N 2 1 尽管文献 2 运 用高斯函数的快速衰减性质将求解全局密度函数的 过程简化为数据点邻域的局部计算 将聚类计算的 复杂度降低为O NlnN 其时间与空间效率仍使 其难以有效地运用于大规模数据集聚类问题1 基于 这一考虑 文献 3 5 提出的基于网格上近似密度 计算的聚类算法以数据空间网格划分作为数据存储 4171计 算 机 研 究 与 发 展2004年 与聚类过程的基础框架 研究网格层次上的密度近 似计算所产生的误差并提出了相应的误差补偿方 法1将复杂的点对点密度计算问题转化为带近似误 差修正的点对数据网格代表点的密度计算 从而大 大降低了聚类过程的空间需求和时间复杂度1 文献 3 4 提出的方法仅直观地考虑了网格上 近似密度计算问题 没有注意到这一思想与核密度 估计理论之间的关系1 事实上 这种方法在快速核 密度估计问题中已经得到了较为深入的讨论 其思 想类似于由Silverman首先提出的分箱核估计理论 binnedkernelestimation 9 1 3 分箱核估计 定义41 如果函数族 j x j Z 满足如 下的条件 x R j x 0 j Z 12 j Z j x 1 13 则称该函数族为分箱函数族 binningfunction 由 该族函数确定的数据分配规则称为数据分箱规则 binningrule 9 1 典型的分箱函数族有简单分箱函数族和线性分 箱函数族两种 如图2所示1 其中 简单分箱函数可 用下式表示 j x 1 j 1 2 x j 1 2 0 其他1 14 图2 简单分箱函数与线性分箱函数 易见 简单分箱规则对应于统计学中广泛运用 的频率直方图 histogram 方法1 该规则将一个长度 为 的区间中的全部样本点简单地集中分配到其 所在区间的中点1 线性分箱函数是另一类常用的分箱函数 j x 1 1 x j 当 1 x j 1 0 其他1 15 线性分箱规则将一个样本点根据其到周围区 间中点距离的远近 线性地把该样本点的 一部分 分配到这些区间的中点处1 在以下的讨论中可以发 现 在运用分箱规则进行核密度估计的近似计算时 线性分箱规则比简单分箱规则具有更高的近似 精度1 根据分箱函数的定义 如果将空间R等宽分割 成长度为 的子区间的集合 R j Z 1 2 j 1 2 j 集合 j j Z 包含了全部区间的中点1 利用分箱 规则 可以将一个数据集分配到若干个子区间的中 点处1 若记W x 0 x 1 且对不同区域的样本 点采用统一的分箱方法 则分箱函数可以一致地表 达为 j x W 1x j 因此 可以视 W 为分箱核函数1 为了使一个样本点能够在其左右两 侧距离相同的区间中点上分配相等的权值 必须要 求分箱函数是对称的 即W x W x 1 此外 一个样本点将其密度权值全部赋予其所在区间中点 当且仅当 W 0 11 引理1 8 1 设 f x 为随机变量x的分布密度 函数 则函数 j X 的数学期望具有以下性质 E j X k 0 Ck k 1 f k j 16 其中 C0 1 Ci i 1 uiW u du i 1 2 1 对于简单分箱函数 C1 0 C2 1 24 对于线性 分箱函数 C1 0 C2 1 121 一般地 我们有如下关 于分箱函数阶的定义 定义51 如果分箱函数族 j x 使得式 16 中的各项系数满足 Ci 0 i 1 2 s 11 Cs 0 17 则称 j x 为s阶的分箱函数族1 由定义5可见 简单分箱函数与线性分箱函数 均为2阶的分箱函数族1 为了获得更精确的分箱近 似结果 可以构造更高阶的分箱函数 8 1 与核密度估计类似 我们将一维分箱函数的定 义推广到多维空间R d 上1 为此 我们记J j 1 jd X x 1 xd 1 d h h 1 hd 分别表示相应的d维数组1 定义61 如果函数族 ij x j Z i 1 2 d 满足如下条件 1 X Rd ij X 0 j Z i 1 2 d 5171 10期李存华等 核密度估计及其在聚类算法构造中的应用 2 j Z ij X 1 i 1 2 d 则函数族 WJ X J j 1 j2 jd Z d WJ X d i 1 iji x i i 18 称为空间Rd上的分箱函数族1 与定义6相对应 如果对R d 在每一维上进行 等宽划分 从而将R d 划分为网格集合 d i 1 j i 1 2 i ji 1 2 i j 1 j2 jd Z d 则由式 18 确定的分箱规则将d维空间中的样本 点X X 1 Xd 以权值WJ X 将其部分赋予 网格中心点gJ 其中 gJ j 1 1 jd d 为J j 1 jd 网格的中心1 为简便起见 以下假设分箱 规则在各维上采用统一的分箱函数 即 ij j 于 是 我们有 WJ x d i 1 ji x i 1 19 运用分箱规则 可以将核密度估计中一个网格 单元内全部样本点对空间中一点X处的密度函数 累积值的计算转化为该网格代表点 网格中心 到点 X的运算 从而大大简化密度函数的计算复杂度1 例如 在图3所示的网格宽度为1的二维平面 上 A 015 015 B 015 015 C 015 015 和 D 015 015 分别为4个相邻的网格中心1 若采用线性分箱规则 当数据点落于 x 015 015 处 时 其将全部权重分配给网格中心点 D 015 015 而当点落于 y 015 0 时 其权重值被平均赋给中心 点 B 015 015 和 D 015 015 即相当于在中 心点B D各存在015个数据点 而当点位于 z 0 0125 时 A B C和D各点获得的数据点权值分别 为01125 01125 01375和013751 图3 线性分箱规则下数据点的权值分配 定义71 设维样本点集合X1 Xn的分布密 度函数为f 则f的基于分箱规则式 19 的分箱近 似密度估计定义为 f X h n 1 j Zd NjKd h X j X R d 20 其中 Nj n i 1 WJ X i 表示数据分箱后标号为 J的d维网格中心点gj所获得的数据点数1 与定义3类似 定义7同样给出了关于数据集 所服从的密度函数f的估计形式1 相对于估计式 9 来说 式 20 给出的分箱密度函数估计有效地避 免了直接的点对点计算1 然而 分箱近似计算必然 导致计算的误差 限于篇幅 以下我们不加证明地给 出关于f x h 与f x h 之间的误差估计式1 定理1 8 1 设一维基核函数Kh 具有2t 2 阶的连续导数 除有限个点外 K 2 t 1 存在且连续 J K 2 t 1 x K 2 t 1 x K 2 t 1 x 21 为K 2 t 1 在其全部不连续点处的累计阶跃 s为分 箱基函数 j x 的阶数1 设分布密度函数f具 有直到max s 2t 1 阶的连续偏导数 则当 i o hi 且hi 0时 对 X R d E f X h E f X h Cs d i 1 s 5 5xi sf X 1 2t B2tf X J K 2t 1 d i 1 h 2t o d i 1 s h 2t 22 其中 B2t为第2t个贝努利系数 Cs为式 17 定义 的常数1 对于采用高斯核函数的密度估计 我们有以下 关于f 和 f 关系的结论1 推论11 对于形如式 11 的高斯核函数 E f X E f X Cs s d i 1 5 5xi s f X o s 1 推论1说明 对于高斯函数等足够光滑的核函 数 核密度估计f 与 f 之间的误差仅与分箱函数及 其箱宽参数有关1 下述定理2给出了采用简单分箱规则和线性分 箱规则时 f 与 f 之间的全局误差 为简便起见 我 们假设d维核函数在各维上采用相同的窗宽参数h 且对空间R d 采用等宽的网格划分1 6171计 算 机 研 究 与 发 展2004年 定理2 8 1 1 当采用d维简单分箱规则时 E Rd f f 2 12 n 1 d 2 K h 2 K2h d 1 o 2 1 23 2 当采用d维线性分箱规则时 E f f 2 120 n 1 d 4 K h 2 K2h d 1 144 n 1 n 1 K h j i Kh 3f 2 o d i 1 4 i 1 24 定理2说明 当n较大且网格宽度 较小时 分 箱密度估计f 可以较好地拟合核密度估计 f 1 为 获得满意的近似精度 文献 8 10 对网格宽度的选 择和样本数据规模进行了细致的讨论和实验论证1 理论上 采用线性分箱规则所构造的密度函数 估计较之简单分箱规则具有更高的精度1 但细致的 分析发现 采用线性分箱规则时 同一个数据点会对 其周围的多个网格发生作用1 按一个数据点到其周 围各个网格的距离远近 它被 分解 并赋予这些相 邻的网格1 对于大规模数据集 这一过程无疑增加 了计算复杂度1 此外 线性分箱规则还会使一个在 空间位置上本来不包含数据点的网格由于其邻域存 在数据点而 分得 数据 形成逻辑上非空的数据网 格 这一现象在处理高维数据时尤为突出 它不利于 构造高效的聚类方法1 基于以上考虑 在运用数据 分箱策略构造基于密度的聚类算法时 应该考虑采 用简单分箱策略1 于是 这种思想又类似于常见的 基于网格 grid2based 聚类算法的构造方法1 尽管如此 基于分箱思想的核密度估计方法仍 具有重要的理论意义和应用价值 自该方法被提出 以来 它一直受到数理统计学界的重视1 4 简单分箱核近似方法的改进 由第3节的讨论可见 分箱近似密度函数计算 方法有效降低了密度函数构造过程的复杂度 但是 在网格宽度较大时 其相对于核密度函数f 的误差 不容忽视1 为此 我们考虑在不增加计算复杂度的 条件下 通过利用网格中数据点的重心取代原来的 网格中心作为代表点的方法 提高分箱密度计算的 精度1 如图4所示 当采用以式 14 为基分箱函数的 简单分箱规则时 网格 b 1 中全部k个点对网格 a 0 中的点X0的密度函数累积值的计算被简化 为网格 b 1 的中心点P处k个点对点X0的密度 累积值1 易见 由于 b 1 中数据在该网格中的分布 具有较大的偏倚性 点P显然并不是最合适的代表 点 利用 b 1 中数据点的重心取代点P具有更大 的合理性1 图4 简单分箱核密度估计 定义81 给定空间R d 中的数据集X1 X2 Xn和简单分箱函数族 WJ X J j 1 j2 jd Zd 以 NJ n i 1 WJ X i 25 X 3 J N 1 J n i 1 WJ X i X i 26 分别表示中心在gj j 1 jd 点的网格所包含 的数据点数及其数据重心1 称 f X h n 1 J Zd NJKd h X X 3 J X R d 27 为基于网格数据重心的分箱核估计1 对于由式 27 定义的近似核密度估计 我们有 以下的定理 定理31 设基核函数Kh 存在连续的二阶导 数 则有 E Rd f f 2 n 1 d 4 K h 2 K h 2 d 1 o 4 1 28 证明1 以X 3 J表示d维空间中标号为J的网格 中全部数据点的重心 X 3 i表示点Xi所在网格单元 数据点的重心 则 f X h f X h n 1 N i 1 Kd h X Xi J Zd NJKd h X X 3 J n 1 N i 1 S Kd h X Xi Kd h X X 3 i 1 7171 10期李存华等 核密度估计及其在聚类算法构造中的应用 注意到Kd h X Xi d k 1 Kh x k xik 将 其视为Xi的函数并在点X 3 i做Taylor展开得 Kd h X Xi Kd h X X 3 i d i 1 5 5xl Kd h X X 3 i xil x 3 il d k 1 d l 1 52 5xk5xl Kd h X X 3 i xik x 3 ik x il x 3 il o 2 1 由于在每个网格单元上均有 N i 1 d l 1 5 5xl Kd h X X 3 i xil x 3 il 0 所以 f X h f X h n 1 N i 1 d l 1 5 5xl Kd h X X 3 i xil x 3 il n 1 N i 1 d k 1 d l 1 52 5xk5xl Kd h X X 3 i x ik x 3 ik x il x 3 il o 2 n 1 N i 1 d k 1 d l 1 52 5xk5xl Kd h X X 3 i x ik x 3 ik x il x 3 il o 2 1 因为 xil x 3 il 故当 0时 E f f 2 n 1 4 d k 1 d l 1 52 5xk5xl Kd h X X 2 f y dy o 4 n 1 4 E d k 1 d l 1 52 5xk5xl Kd h X X 2 o 4 1 于是 当 0时 E Rd f f 2 n 1 d 4 K h 2 K h 2 d 1 o 4 1 比较式 23 和式 28 可见 在采用简单分箱策 略进行核密度近似估计时 利用网格中样本点的重 心取代网格中心 可以有效降低近似计算造成的误 差1在具体的算法实现时 非空网格中数据点的重心 可以通过简单的动态更新加以计算 因此 计算f 与f 具有相同的复杂度O mN 其中N为数据集 样本点数 m为采用简单分箱规则时的非空网 格数1 图5显示了在区间 0 10 上50个随机分布的 数据点生成的核密度估计f 以及简单分箱核估计 f 基于区间数据重心的改进简单分箱核估计 f相 对于f 的拟合情况1结果表明 f 比f 具有更理想的 拟合精度 能够更充分地反映原始核估计曲线的特 征1 本节提出的基于网格数据重心的简单分箱核估 计方法在文献 3 4 中成功地运用于基于网格上近 似的聚类方法构造1 进一步地 文献 3 4 还就大规 模数据集条件下近似密度计算的误差补偿问题进行 了进一步的研究1 显然 本节的结果在论证了上述 聚类算法的合理性的同时 也为提高分箱密度估计 的精确性提出了新的思路1 图5 f h与f h相对于f h的拟合效果对比 5 结 论 核密度估计及其近似计算方法是数理统计理论 与应用的重要手段1 尽管源于数理统计学的聚类分 析技术已经演变为多种技术共同促进的综合型数据 分析技术 其解决问题的思想方法仍与传统的数理 统计学具有密切的联系1 本文分析了一类基于数据 空间密度函数构造的聚类算法与核密度估计理论之 间的关系 为其提供了坚实的统计学背景1 参考文献 1JHan MKamber1DataMinin g Conce ptsandTechniques1New York Mor ganKaufmann 20001335 398 2AHinneburg DAKeim Anefficientapproachtoclusteringin largemultimediadatabaseswithnoise1In RAgrawal PE Stolorz GPiatetsky2Shapiro eds1Procofthe4thInt l Confon KnowledgeDiscover yandDataMining KDD 98 1NewYork AAAIPress 1998158 65 3LiCunhua SunZhihui SongYu qing1DENCLUE2M Boostin g 8171计 算 机 研 究 与 发 展2004年 DENCLUEa

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论