(计算机软件与理论专业论文)基于特征的图像数据挖掘模型的研究.pdf_第1页
(计算机软件与理论专业论文)基于特征的图像数据挖掘模型的研究.pdf_第2页
(计算机软件与理论专业论文)基于特征的图像数据挖掘模型的研究.pdf_第3页
(计算机软件与理论专业论文)基于特征的图像数据挖掘模型的研究.pdf_第4页
(计算机软件与理论专业论文)基于特征的图像数据挖掘模型的研究.pdf_第5页
已阅读5页,还剩49页未读 继续免费阅读

(计算机软件与理论专业论文)基于特征的图像数据挖掘模型的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

独创声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成 果 据我所知 除了文中特别加以标注和致谢的地方外 论文中不包含其他人己经发表或 撰写过的研究成果 也不包含为获得 注 如没有其他需要特别声明的 本栏可空 或其他教育机构的学位或证书使用过的材料 与我一同工作的同志对本研究所 做的任何贡献均已在论文中作了明确的说明并表示谢意 警位论文作者签名 苏军 导师签字 学位论文版权使用授权书 本学位论文作者完全亍解堂控有关保留 使用学位论文的规定j 有权保留并向国家有 关部门域机构送交论受的复印件和磁盘 允许论文被查阅和借阅穗本爽授权 越可以将学 位论文的全部或部分内容编入有关数据库进行检索 可以采用影印 缩印或扫描等复制手 段保存 汇编学位论文 保密的学位论文在解密后适用本授权书 学位论文作者签名 掀 军 导师签字 签字日期 2 0 0 年 i 月f 3 日 签字日期 2 0 0日 山东师范大学硕士学位论文 摘要 过去数十年中 科技飞快的发展 数据存储发生了爆炸性的增长 科学数据 医疗数 据 人口统计数据 财经数据和市场数据等等的大量出现 使我们迫切需要找到一种能在 这浩如烟海的数据里快速 有效地发现知识的工具和方法 数据挖掘因此应运而生 并成 为数据库系统和新的数据应用的一个有希望的 欣欣向荣的前沿学科 数据挖掘为解决信息量过大而人们无法有效利用的问题提供了新的解决途径 图像挖 掘就是从大量图像集中 通过综合分析视听特性和语义 发现隐含的有效的 有价值的 可理解的模式 进而发现知识 得出事件的趋向和关联 为用户提供问题求解层次的决策 支持能力 本文的研究思路是从挖掘系统本身的构建入手 就如何提高系统的整体性 更有效地 实现挖掘功能做了较为深入的研究 给出了 个基于w e b 的图像数据挖掘系统的框架结构模 型 对其功能模块进行了详细的分析和设计 并设计了图像特征库 该模型首先通过图像检索技术智能化的在i n t e r n e t 上搜索w e b 页面 然后利用图像特征 提取模块将图像数据保存到构建的图像特征库和原始图像库中 再从用户查询界面获得用 户韵查询要求后 进行图像信息检索 然后利用相关反馈技术提高信息检索的质量 最后 将结果传送到用户 本文主要做了以下几方面的研究 l 探讨了数据挖掘和知识发现的基本理论 数据挖掘是从大量的数据中 抽取出潜在的 有价值的知识 模型或规则 的过程 数 据挖掘是知识发现中的核心工作 主要研究发现知识的各种方法和技术 w e b 挖掘是从w e b 资源上抽取信息或知识的过程 它是将传统的数据挖掘的思想和方法应用与w e b 从w e b 中 抽取感兴趣的 潜在的 有用的模式和隐藏信息 2 图像特征库的建立是进行图像数据挖掘的前提 本文讨论了特征库的数据模型和数 据类型 详细介绍了颜色 纹理 形状和空间等图像特征的表示方法 该特征库能有效支 持基于多种特征的图像检索 3 提出了w e b 上基于图像特征库的图像数据挖掘系统模型 i m a g ed a t am i n i n gm o d e l 简称i d m m 并对各部分的工作机理做了详细的设计 介绍了系统结构 数据平台及主要部 件 并讨论了图像数据特征立方体的构建方法 全文共分为六章 第一章绪论首先对多媒体数据挖掘和国内外的研究现状进行了概述 然后对本文的主要研究内容和章节安排作了介绍 第二章探讨了数据挖掘和知识发现的基 本理论 第三章讨论了特征库中各种图像特征的数据类型 详细介绍了颜色 纹理 形状 和空间等图像特征的表示方法 第四章阐述了多媒体对象查询语言m o q l 以及各种图像 特征的近似匹配方法 第五章提出了建立在图像特征库之上的图像挖掘系统模型 介绍了 l 基于特征的图像数据挖掘模型的研究 模型的结构 数据平台 主要部件 用户界面和工作流程等 并对特征立方体的构建进行 了讨论 第六章指出了进一步有待研究和探讨的问题 关键词 图像特征数据库 图像数据挖掘 基于特征的检索技术 数据立方体 分类号 t p 3 1 1 虫查堕垫查堂堡主兰垡望壅 a b s t r a c t i nt h ep a s ty e a r s t h e r ei saq u i c kd e v e l o p m e n ti nt h et e c h n o l o g y w i t ht h ed a t ae x p l o d i n g i t i s e a g e rt of i n da t o o lt od i s c o v e ru s e f u lk n o w l e d g ef r o mt h eh u g ed a t aq u i c k l ya n de f f e c t i v e l y d a t a m i n i n gi st h er i g h tt o o la n db e c o m i n g ap r o m i s i n ga n dp r o s p e r o u ss u b j e c t d a t am i n i n gp r o v i d e su san e ww a yt or e s o l v et h ep r o b l e mt h a tw e c a n tm a k et h eb e s to f i n c r e a s i n gh u g ed a t a m u l t i m e d i ad a t am i n i n gi st h et e c h n i q u e t ob eu s e dt od i s c o v e rt h ei m p l i c i t e f f e c t i v e v a l u a b l ea n di n t e l l i g i b l ep a t t e r nf r o mal a r g ea m o u n to fi m a g ed a t ab ya n a l y s i s i n gt h e f e a t u r eo fs e e i n ga n dh e a r i n g a n dt h e nt od i s c o v e rk n o w l e d g ea n do b t a i nt h et e n d e n c ya n d a s s o c i a t i o na m o n gt h ee v e n t s a n di tc a na l s op r o v i d eu st h ea b i l i t yo fd e c i s i o n s u p p o r t i n gt o r e s o l v et h ep r o b l e m t h et a r g e to f t h ep a p e ri st os t u d y i n gd e e p l yh o wt oi m p r o v et h ef u n c t i o no f d m s a ni m a g e d a t a m o d e li sp u tf o r w a r dw h i c ht h ef u n c t i o no f e a c hm o d u l ei si n t r o d u c e de f f e c t i v e l y as e r i a lo f q u e s t i o n so ni m a g e sd a t am i n i n ga r ee x p l a i n e di nd e t a i l t h i sm o d e lc a nr e t r i e v a li n f o r m a t i o no nt h ew e bp a g ea u t o m a t i c a l l yt h r o u g hi m a g er e t r i e v a l t h e ns a v et h ed a t ai n t ot h ef e a t u r e b a s e r e c e i v i n gt h ea s kf o re x t r a c t i n g t h em o d e lc a nt r a n s m i t t h er e s u l tt ou s e ra f t e rc a r r y i n go nr e t r i e v a l i n g t h i sp a p e rh a sd o n et h ef o l l o w i n gw o r km a i n l y 1 d i s c u s s i n gt h eb a s i ct h e o r yo f d a t am i n i n ga n dk n o w l e d g ed i s c o v e r y d a t am i n i n gi sap r o c e d u r et h a te x t r a c t st h ep o t e n t i a l v a l u a b l ek n o w l e d g e m o d e lo rt h er u l e f r o mal a r g ea m o u n to f d a t a i ti st h ec o r et h a tr e s e a r c hv a r i o u sk i n d so f m e t h o d sa n dt e c h n o l o g y o f k n o w l e d g ed i s c o v e r ym a i n l y w e bm i n i n gi st h ec o u r s eo f c o l l e c t i o ni n f o m a a t i o no rk n o w l e d g e f r o mt h ew e b i ta p p l i e sc o m m o nt h o u g h ta n dm e t h o do fd a t am i n i n gt ow e b 2 t h e f o u n d a t i o n o f f e a t u r e b a s e i s t h e p r e m i s eo f i d m t h e p a p e r p r e s e n t s t h e d a t a m o d e l a n d d a t at y p eo f t h ef e a t u r e b a s e a n de l a b o r a t e st h ep r e s e n t a t i o no fi m a g ef e a t u r e s i n c l u d i n gc o l o r t e x t u r e s h a p ea n ds p a c ef e a t u r e s a n ds oo n t h ef e a t u r e b a s ec a r le f f e c t i v e l ys u p p o g f e a t u r e b a s e d r e t r i e v a lo fi m a g e 3 t h ep a p e rp u t sf o r w a r dam o d e lo f f e a t u r e b a s e dd ms y s t e m i d m m i tp r e s e n t si t ss t r u c t u r e d a t ap l a t f o r m m a i nc o m p o n e n t s a n dd i s c u s s e st h ec o n s t r u c to f i m a g ed a t af e a t u r e c u b e t h i sp a p e rm a i n l yc o n s i s t so f6c h a p t e r s c h a p t e r1 t h ep a p e rd i s c u s s e st h ei n t e m a t i o n a la n d d o m e s t i cd e v e l o p m e n ta n dt e n d e n c y6 fm d m t h e ni n t r o d u c e st h em a i n l yc o n t e n ta n dt h ec h a p t e r o 玛a n i z a t i o n c h a p t e r2g i v e sa b r i e fd i s c u s s i o no fd a t am i n i n ga n dk n o w l e d g e c h a p t e r3 t h e p a p e rp r e s e n t st h ed a t am o d e la n dd a t at y p eo f t h ef e a t u r e b a s e a n de l a b o r a t e st h ep r e s e n t a t i o no f i m a g ef e a t u r e s c h a p t e r4g i v e sa b r i e fd i s c u s s i o no fm u t i m e d i ao b j e c tq u e r yl a n g u a g ea n dt h e 3 基于特征的图像数据挖掘模型的研究 4 a p p r o a c ht om a t c hi m a g ef e a t u r e s c h a p t e r5p u t sf o r w a r dam o d e lo ff e a t u r e b a s e dd a t am i n i n g s y s t e m i m a g ed a t am i n i n gm o d e l i tp r e s e n t si t ss t r u c t u r e d a t ap l a t f o r m m a i nc o m p o n e n t s a n d d i s c u s s e st h ec o n s t r u c to fi m a g ed a t af e a t u r e c u b e i nt h ee n d f u r t h e rr e s e a r c ho fs u b j e c t sa r e p r e s e n t e d k e 州o r d s i m a g ef e a t u r eb a s e i m a g ed a t am i n i n g f e a t u r e b a s e dr e t r i e v a l d a t ac u b e c l a s s i f i c a t i o n t p 31 l 山东师范大学硕士学位论文 1 1 多媒体数据挖掘概述 第一章绪论 随着网络技术的发展和计算机性能的提高 数码相机 监视相机 卫星遥感系统的应 用越来越广泛 涌现出大量的图像数据 对这些图像进行自动分析以获取大量有用知识的 需求日益增加 图像挖掘技术提供了有效的方法和技术 1 图像挖掘 i m a g em i n i n g 以 下简称i m 是在图像数据库中抽取隐含的 先前未知的 潜在有用的知识 图像数据关 系的非平凡过程 是集中了计算机视觉 图像处理 图像检索 数据挖掘 机器学习 模 式识别 数据库和人工智能等技术的多学科交叉的研究领域 由于缺乏对i m 的深刻理解 及其本身存在 些理论和技术障碍 因而研究进展缓慢 自2 0 0 0 年召开第一届多媒体挖掘 年会以来 i m 尚未形成完整的理论框架和统一的技术方法 仍处于探索阶段 另一方面 图像技术的可行性带来了图像的爆炸性增长 许多关系数据库也包含了多媒体信息 巨量 多媒体数据的出现 必然要求检索 分类和理解这些数据 而且 随着扩展数据库和对象一 关系数据库中多媒体对象的流行 人们自然希望能用相同的方法从大型数据库中挖掘多媒 体数据和关系数据的知识 生产用于从大型多媒体数据库中发现知识的工具成为必然要求 1 2 国内外研究现状 多媒体技术和数据挖掘技术研究领域的不断进步 大大的促进了m d m 的发展 过去的几 年中 多媒体知识发现 k n o w l e d g ed i s c o v e r yi nd a t a b a s e 简称k d d 与数据挖掘工具 主要用于实验和研究环境 而今天已经处在面向主流商业用户的复杂工具迅速涌现的阶段 目前已有不少k d d 的原型系统 实用系统和开发工具 将知识发现应用于信息高速公路 市场营销预测 金融投资 社会保险 医学 天文 地质等领域 例如 r e g i a n 大学的k d d r 已被应用于医学数据分析和电信工业的市场分析 k a n s a s 大学开发的基于r 面曲集理论的学 习系统l e r s 已被美国n a s a 的j o h n s o n 空间中心作为专家系统开发工具用于医学及全球气候 变化分析 澳大利亚将大型地理调查数据库进行归纳学习发现土壤含盐分类知识等 l o c k h e a dm a r t i n 公司的a i 中心开发的r e c o n 系统 来辅助预测某种股票的趋势或推断是否可能 出现异常变化等 美国加州理工学院成功开发了自适应识别工具系统 来识别火星上的小 火山 其数据来自围绕火星飞行的m a g e l l o n 号航空器等 1 目前 多媒体数据的挖掘研究处于探索阶段 o s m a rr z a i a n e 在其博士论文中介绍了 多媒体数据的基本思想 给出了一个多媒体挖掘系统的原型m u l t i m e d i a m i n e r 0 1 图像挖 掘的研究相对较多 图像挖掘主要是对某一特定领域的大量图像进行分析和挖掘 得出有 用的模式 k i t a m o t oa s a n o b u 介绍了台风卫星图片的挖掘 研究台风的形成规律 用于预 测台风 文献 1 介绍了乳腺瘤图片的挖掘 用于检测乳腺瘤 这些研究对多媒体数据挖掘 的方法和技术进行了初步的探讨 与国外相比 国内对m d m 的研究起步较晚 1 9 9 3 年国家自然科学基金首次支持对该领域 的研究 目前 包括清华大学 中科院计算技术研究所 空军第三研究所海军装备论证中 s 基于特征的图像数据挖掘模型的研究 心等国内的许多科研单位和高等院校竞相开展知识发现的基础理论及其应用研究 其中 北京系统工程研究所对模糊方法在知识发现中的应用进行了较深入的研究 北京大学也在 开展对数据立方体代数的研究 华中理工大学 复旦大学 浙江大学 中国科技大学 中 科院数学研究所 吉林大学等单位开展了对关联规则开采算法的优化和改造 南京大学 四川联合大学和上海交通大学等单位探讨 研究了非结构化数据的知识发现以及w e b 数据挖 掘 1 1 3 本文的主要研究内容 本文主要在图像挖掘方面做了些研究工作 基于特征的图像挖掘是目前国际上数据库 多媒体技术和信息决策领域最前沿研究方向之一 是数据挖掘的一个新兴而且富有挑战性 的子领域 本文作者进行了如下研究工作 1 介绍了基于特征的图像挖掘的基本思想 2 设计了图像特征库的数据类型 详细介绍了各种图像特征的表示方法 3 详细说明了多媒体对象查询语言m o q l 以及各种图像特征的近似匹配方法 4 提出了一个基于图像特征库的数据挖掘系统模型i d m m 介绍了模型结构 数据平台 主要部件 工作流程等 描述了用户请求和知识表示方式 并探讨了图像特征立方体的结 构 1 4 本文安排 第一章绪论首先对多媒体数据挖掘和国内外的研究现状进行了概述 然后对本文的主 要研究内容和章节安排作了介绍 第二章介绍了数据挖掘和知识发现的基本理论 第三章讨论了特征库中各种图像特征的数据类型 详细介绍了颜色 纹理 形状和空 间等图像特征的表示方法 第四章阐述了多媒体对象查询语言m o q l 以及各种图像特征的近似匹配方法 第五章提出了建立在图像特征库之上的图像挖掘系统模型 介绍了模型的结构 数据 平台 主要部件 用户界面和工作流程等 并对特征立方体的构建进行了讨论 第六章指出了进一步有待研究和探讨的问题 山东师范大学硕士学位论文 2 1 数据挖掘概述 第二章数据挖掘理论 近十几年来 人们利用信息技术生产和搜集数据的能力大幅度提高 千千万万个数据 库被用于商业管理 政府办公 科学研究和工程开发等 并且这一趋势仍将持续发展下去 于是 一个新的挑战被提了出来 在这被称之为信息爆炸的时代 信息过量几乎成为人人需 要面对的问题 怎样才能不被信息的汪洋大海所淹没 从中及时发现有用的知识 变得越 发的重要 要想使数据真正成为一个公司的资源 只有充分利用它为公司自身的业务决策 和战略发展服务才行 否则大量的数据可能成为包袱 甚至成为垃圾 因此 数据挖掘和 知识发现技术应运而生 并得以蓬勃发展 越来越显示出其强大的生命力 2 1 1 数据挖掘的历史背景 数据挖掘技术是人们长期对数据库技术进行研究和开发的结果 起初各种商业数据是 存储在计算机的数据库中的 然后发展到可对数据库进行查询和访问 进而发展到对数据 库的即时遍历 数据挖掘使数据库技术进入了一个更高级的阶段 它不仅能对过去的数据 进行查询和遍历 而且能够找出过去数据之间的潜在联系 从而促进信息的传递 数据挖掘是一个逐渐演变的过程 电子数据处理的初期 人们就试图通过某些方法来 实现自动决策支持 当时机器学习成为人们关心的焦点 机器学习的过程就是将一些己知 的并己被成功解决的问题作为范例输入计算机 机器通过学习这些范例总结并生成相应的 规则 这些规则具有通用性 使用它们可以解决类似的问题 随后 随着神经网络技术的 形成和发展 人们的注意力转向知识工程 知识工程不同于机器学习那样给计算机输入范 例 让它生成出规则 而是直接给计算机输入己被代码化的规则 而计算机是通过使用这 些规则来解决特定的问题 专家系统就是利用这种方法所得到的成果 但它有投资大 效 果不甚理想等不足的地方 8 0 年代人们又在新的神经网络理论的指导下 重新回到机器学 习的方法上 并将其成果应用于处理大型商业数据库 8 0 年代末出现了一个新的术语 数据库中的知识发现 k n o w l e d g ed i s c o v e r yi nd a t a b a s e 它泛指所有从源数据中发掘模 式或联系的方法 人们接受了这个术语 并用k d d 来描述整个数据发掘的过程 包括最开始 的制定业务目标到最终的结果分析 用数据挖掘 d a t am i n i n g 来描述使用挖掘算法进行数 据挖掘的子过程 但最近人们却逐渐意识到数据挖掘中有许多工作可以由统计方法来完成 并认为最好的策略是将统计方法与数据挖掘有机的结合起来 研究数据挖掘的历史 可以发现数据挖掘的快速发展是和商业数据库的空前增长速度 分不开的 并且九十年代较为成熟的数据仓库技术也同样广泛地应用于各种商业领域 特别要指出的是 数据挖掘技术从 开始就是面向应用的 它不仅是面向特定数据库 的简单检索查询调用 而且要对这些数据进行微观 中观乃至宏观的统计 分析 综合和 推理 以指导实际问题的求解 企图发现事件问的相互关联 甚至利用已有的数据对未来 的活动进行预测 例如加拿大b c 省电话公司要求加拿大s i m o nf r a s e r 大学k d d 研究组 根 基于特征的图像数据挖掘模型的研究 据其拥有十多年的客户数据 总结 分析并提出新的电话收费和管理办法 制定既有利于 公司又有利于客户的优惠政策 这样一来 就把人们对数据的应用 从低层次的末端查询 操作 提高到为各级经营决策者提供决策支持 这种需求驱动力 比数据库查询更为强大 同时需要指出的是 这里所说的知识发现 不是要求发现放之四海而皆准的真理 也不是 要去发现崭新的自然科学定理和纯数学公式 更不是什么机器定理证明 而是所有发现的 知识都是相对的 是有特定前提和约束条件 面向特定领域的 同时还要能够易于被用户 理解 最好能用自然语言表达发现结果 因此 d m k d 的研究成果是很有实际应用价值的 2 1 2 数据挖掘的研究现状 k 呻一词首次出现在1 9 8 9 年8 月举行的第1 1 届国际联合人工智能学术会议上 美国人工 智能协会主办的k d d 国际研讨会的规模由原来的专题讨论会发展到国际学术大会 人数由二 三十人到七八百人 论文收录比例从2 x l 至u 6 x 1 研究重点也逐渐从发现方法转向系统应用 并且注重多种发现策略和技术的集成 以及多种学科之间的相互渗透 其他内容的专题会 议也把数据挖掘和知识发现列为议题之一 成为当前计算机科学界的一大热点 此外 数据库 人工智能 信息处理 知识工程等领域的国际学术刊物也纷纷开辟了 k d d 专题或专刊 i e e e 的k n o w l e d g ea n dd a t ae n g i n e e r i n g 会于0 领先在1 9 9 3 年出版了k d d 技 术专刊 所发表的5 篇论文代表了当时k d d 研究的最新成果和动态 较全面地论述了k d d 系统 方法论 发现结果的评价 k d d 系统设计的逻辑方法 集中讨论了鉴于数据库的动态性冗余 高噪声和不确定性 空值等问题 k d d 系统与其它传统的机器学习 专家系统 人工神经网 络 数理统计分析系统的联系和区别 以及相应的基本对策 随着d m k d 研究逐步走向深入 人们越来越清楚地认识到 d m k d 的研究主要有3 个技术支柱 即数据库 人工智能和数理统 计 目前 国外数据挖掘的发展趋势及其研究方面主要有 对知识发现方法的研究进一步发 展 如近年来注重对b a y e s 方法以及b o o s t i n g 方法的研究和提高 传统的统计回归法在k d d 中的应用 k d d 与数据库的紧密结合 在应用方面包括 k d d 商业软件工具不断产生和完善 注重建立解决问题的整体系统 而不是孤立的过程 用户主要集中在大型银行 保险公司 电信公司和销售业 国内从事数据挖掘研究的人员主要在大学 也有部分在研究所和公司 所涉及的研究领域很多 一般集中于学习算法的研究 数据挖掘的实际应用以及有关数据 挖掘理论方面的研究 一份o a r t n e r 的报告中列举了在今后3 年 5 年内对工业将产生重要影响的5 项关键技术 其中k d d 和人工智能排名第一 同时 这份报告将并行计算机体系结构研究和k d d 列入今 后5 年内公司应该投资的1 0 个新技术领域 从这我们不难看出 数据挖掘的研究和应用受到 了学术界和实业界越来越多的重视 相信在不久的将来 数据挖掘技术必将给我们的生活 带来巨大的变化 2 1 3 数据挖掘的概念 从技术上来说 数据挖掘 d a t am i n i n g 就是从大量的 不完全的 有噪声的 模糊的 随机的数据中 提取隐含在其中的 人们事先不知道的 但又是潜在有用的信息和知识的 过程 还有很多和这一术语相近似的术语 如从数据库中发现知识 数据分析 数据融合 d a t af u s i o n 以及决策支持等 人们把原始数据看作是形成知识的源泉 就像从矿石中采 山东师范大学硕士学位论文 矿一样 原始数据可以是结构化的 如关系数据库中的数据 也可以是半结构化的 如文 本 图形 图像数据 甚至是分布在网络上的异构型数据 发现知识的方法可以是数学的 也可以是非数学的 可以是演绎的 也可以是归纳的 发现了的知识可以被用于信息管理 查询优化 决策支持 过程控制等 还可以用于数据自身的维护 因此 数据挖掘是一门 很广义的交叉学科 它汇聚了不同领域的研究者 尤其是数据库 人工智能 数理统计 可视化 并行计算等方面的学者和工程技术人员 从商业角度来说 数据挖掘也是一种新的商业信息处理技术 其主要特点是对商业数 据库中的大量业务数据进行抽取 转换 分析和其他模型化处理 从中提取辅助商业决策 的关键性数据 简而言之 数据挖掘其实是一类深层次的数据分析方法 数据分析本身已经有很多年 的历史 只不过在过去数据收集和分析的目的是用于科学研究 另外 由于当时计算能力 的限制 对大数据量进行分析的复杂数据分析方法受到很大限制 现在 由于各行业业务 自动化的实现 商业领域产生了大量的业务数据 这些数据不再是为了分析的目的而收集 的 而是由于纯机会的商业运作而产生 分析这些数据也不再是单纯为了研究的需要 更 主要是为商业决策提供真正有价值的信息 进而获得利润 但所有企业面临的一个共同问 题是 企业数据量非常大 而其中真正有价值的信息却很少 因此从大量的数据中经过深层 分析 获得有利于商业运作 提高竞争力的信息 就像从矿石中淘金一样 数据挖掘也因 此而得名 因此 数据挖掘可以描述为 按企业既定业务目标 对大量的企业数据进行探索和分析 揭示隐藏的 未知的或验证己知的规律性 并进一步将其模型化的先进有效的方法 2 1 4 数据挖掘的范围 追根溯源 数据挖掘 这个名字有点类似于在山脉中挖掘有价值的矿藏 在商业应 用里 它就表现为在大型数据库里面搜索有价值的商业信息 这需要对巨量的材料进行详 细地过滤 并且需要智能且精确地定位潜在价值的所在 对于给定了大小的数据库 数据 挖掘技术可以用它如下的超能力产生巨大的商业机会m 自动趋势预测 数据挖掘能自动在大型数据库里面找寻潜在的预测信息 传统上需要很多专家来进行 分析的问题 现在可以快速而直接地从数据中找到答案 一个典型的利用数据挖掘进行预 测的例子就是目标营销 数据挖掘工具可以根据过去邮件推销中的大量数据找出其中最有 可能对将来的邮件推销做出反应的客户 自动探测以前未发现的模式 数据挖掘工具扫描整个数据库并辨认出那些隐藏着的模式 比如通过分析零售数据来 辨别出表面上看起来没联系的产品 实际上有很多情况下是 起被售出的情况 数据挖掘技术可以让现有的软件和硬件更加自动化 并且可以在升级的或者新开发 的平台上执行 当数据挖掘工具运行于高性能的并行处理系统上时时候 它能在数分钟内分析一个超 大型的数据库 这种更快的处理速度意味着用户有更多的机会来分析数据 让分析的结果 更加准确可靠 并且易于理解 此外 数据库可以由此拓展深度和广度 深度上 允许有 9 基于特征的图像数据挖掘模型的研究 更多的列存在 以往 在进行较复杂的数据分析时 专家们限于时间因素 不得不对参加 运算的变量数量加以限制 但是那些被丢弃而没有参加运算的变量有可能包含着另一些不 为人知的有用信息 现在 高性能的数据挖掘工具让用户对数据库能进行通盘的深度遍历 并且任何可能参选的变量都被考虑进去 再不需要选择变量的子集来进行运算了 广度上 允许有更多的行存在 更大的样本让产生错误和变化的概率降低 这样用户就能更加精确 地推导出一些虽小但颇为重要的结论 2 1 5 数据挖掘与传统分析方法的区别 数据挖掘与传统的数据分析 如查询 报表 联机应用分析 的本质区别是数据挖掘是 在没有明确假设的前提下去挖掘信息 发现知识 数据挖掘所得到的信息应具有先未知 有效性和实用性三个特征 先前未知的信息是指该信息是预先未曾预料到的 既数据挖掘是要发现那些不能靠直 觉发现的信息或知识 甚至是违背直觉的信息或知识 挖掘出的信息越是出乎意料 就可 能越有价值 在商业应用中最典型的例子就是一家连锁店通过数据挖掘发现了小孩尿布和 啤酒之间有着惊人的联系 2 2 数据挖掘的任务 方法 及技术 2 2 1 数据挖掘的挖掘任务 数据挖掘所能发现的知识有如下几种 广义型知识 反映同类事物共同性质的知识 特征型知识 反映事物各方面的特征知识 差异型知识 反映不同事物之间属性差别的知识 关联型知识 反映事物之间依赖或关联的知识 预测型知识 根据历史的和当前的数据推测未来数据 偏离型知识 揭示事物偏离常规的异常现象 所有这些知识都可以在不同的概念层次上被发现 随着概念树的提升 从微观到中观 再到宏观 以满足不同用户 不同层次决策的需要 以下将主要从挖掘任务和挖掘方法的角度 着重讨论数据抽取 分类发现 聚类和关 联规则发现四种非常重要的发现任务 1 数据抽取 数据抽取目的是对数据进行浓缩 给出它的紧凑描述 传统的也是最简单的数据抽取 方法是计算出数据库的各个字段上的求和值 平均值 方差值等统计值 或者用直方图 饼状图等图形方式表示 数据挖掘主要关心从数据泛化的角度来讨论数据总结 数据泛化 是一种把数据库中的有关数据从低层次抽象到高层次上的过程 由于数据库上的数据或对 象所包含的信息总是最原始 基本的信息 人们有时希望能从较高层次的视图上处理或浏 览数据 因此需要对数据进行不同层次上的泛化以适应各种查询要求 2 分类发现 分类在数据挖掘中是一项非常重要的任务 目前在商业上应用最多 分类的目的是学 会一个分类函数或分类模型 该模型能把数据库中的数据项映射到给定类别中的某一个 山东师范大学硕二 学位论文 分类和回归都可用于预测 预测的目的是从利用历史数据纪录中自动推导出对给定数据的 推广描述 从而能对未来数据进行预测 和回归方法不同的是 分类的输出是离散的类别 值 而回归的输出则是连续数值 分类模型的构造方法有统计方法 机器学习方法 神经网络方法等等 不同的分类模 型有不同的特点 另外要注意的是 分类的效果一般和数据的特点有关 有的数据噪声大 有的有缺值 有的分布稀疏 有的字段或属性间相关性强 有的属性是离散的而有的是连 续值或混合式的 目前普遍认为不存在某种方法能适合于各种特点的数据 3 聚类 聚类是把一组个体按照相似性归成若干类别 即 物以类聚 它的目的是使得属于 同一类别的个体之间的距离尽可能的小 而不同类别上的个体间的距离尽可能的大 聚类 方法包括统计方法 机器学习方法 神经网络方法和面向数据库的方法 4 关联规则发现 关联规则是形式如下的一种规则 在购买面包和黄油的顾客中 有9 0 的人同时也买 了牛奶 用于关联规则发现的主要对象是事务型数据库 其中针对的应用则是售货数据 也称货篮数据 一个事务 般由如下几个部分组成 事务处理时间 一组顾客购买的物品 有时也有顾客标识号 如信用户号 由于条形码技术的发展 零售部门可以利用前端收款机收集存储大量的售货数据 因 此 如果对这些历史事务数据进行分析 则可对顾客的购买行为提供极有价值的信息 例 如 可以帮助如何摆放货架上的商品 如把顾客经常同时买的商品放在一起 t 帮助如何规 划市场 怎样相互搭配进货 由此可见 从事务数据中发现关联规则 对于改进零售业等 商业活动的决策非常重要 如果不考虑关联规则的支持度和可信度 那么在事务数据库中存在无穷多的关联规则 事实上 人们一般只对满足一定的支持度和可信度的关联规则感兴趣 在文献中 般称 满足一定要求的 如较大的支持度和可信度 的规则为强规则 因此 为了发现出有意义的 关联规则 需要给定两个阈值 最小支持度和最小可信度 前者即用户规定的关联规则必须 满足的最小支持度 它表示了组物品集在统计意义上的需满足的最低程度 后者即用户规 定的关联规则必须满足的最小可信度 它反应了关联规则的最低可靠度 在实际情况下 一种更有用的关联规则是泛化关联规则 因为物品概念间存在一种层 次关系 如夹克衫 滑雪衫属于外套类 外套 衬衣又属于衣服类 有了层次关系后 可 以帮助发现一些更多的有意义的规则 例如买外套买鞋子 此处 外套和鞋子是较高层次上 的物品或概念 因而该规则是一种泛化的关联规则 由于商店或超市中有成千上万种物品 平均来讲 每种物品 如滑雪衫 的支持度很低 因此有时难以发现有用规则 但如果考虑到 较高层次的物品 如外套 则其支持度就较高 从而可能发现有用的规则 另外 关联规则发现的思路还可以用于序列模式发现 用户在购买物品时 除了具有 上述关联规律 还有时间上或序列上的规律 因为 很多时候顾客会这次买这些东西 下 次买同上次有关的一些东西 接着又买有关的某些东西 2 2 2 数据挖掘的分析方法 数据挖掘的核心模块技术历经了数十争的发展 其中包括数理统计 人工智能 机器 基于特征的图像数据挖掘模型的研究 学习 今天 这些成熟的技术 加上高性能的关系数据库引擎以及广泛的数据集成 让数 据挖掘技术在当前的数据仓库环境中进入了实用的阶段 数据挖掘利用的技术越多 得出 的结果精确性就越高 原因很简单 对于某一种技术不适用的问题 其它方法即可能奏效 这主要取决于问题的类型以及数据的类型和规模 数据挖掘方法有多种 其中比较典型的 有关联分析 序列模式分析 分类分析 聚类分析等 3 1 关联分析 利用关联规则进行数据挖掘 在数据挖掘研究领域 对于关联分析的研究开展得比较 深入 人们提出了多种关联规则的挖掘算法 女n a p r i o r i s t e m a i s d h p 等算法 关联分 析的目的是挖掘隐藏在数据间的相互关系 它能发现数据库中形如 9 0 的顾客在 次购买 活动中购买商品a 的同时购买商品b 之类的知识 2 序列模式分析 序列模式分析和关联分析相似 其目的也是为了挖掘数据之间的联系 但序列模式分 析的侧重点在于分析数据问的前后序列关系 它能发现数据库中形如 在某一段时间内 顾客购买商品a 接着购买商品b 而后购买商品c 即序列a b c 出现的频度较高 之类 的知识 序列模式分析描述的问题是 在给定交易序列数据库中 每个序列是按照交易时间 排列的一组交易集 挖掘序列函数作用在这个交易序列数据库上 返回该数据库中出现的 高频序列 在进行序列模式分析时 同样也需要由用户输入最小置信度c 和最小支持度s 3 分类分析 设有一个数据库和一组具有不同特征的类别 标记 该数据库中的每一个记录都赋予 一个类别的标记 这样的数据库称为示例数据库或训练集 分类分析就是通过分析示例数 据库中的数据 为每个类别做出准确的描述或建立分析模型或挖掘出分类规则 然后用这 个分类规则对其它数据库中的记录进行分类 举 个简单的例子 信用卡公司的数据库中 保存着各持卡人的记录 公司根据信誉程度 已将持卡人记录分成三类 良好 一般 较差 并且类别标记已赋给了各个记录 分类分析就是分析该数据库的记录数据 对每个信誉等 级做出准确描述或挖掘分类规则 如 信誉良好的客户是指那些年收入在5 万元以上 年龄 在4 0 5 0 岁之间的人士 然后根据分类规则对其它相同属性的数据库记录进行分类 目 前已有多种分类分析模型得到应用 其中几种典型模型是线性回归模型 决策树模型 基 本规则模型和神经网络模型 4 聚类分析 与分类分析不同 聚类分析输入的是一组未分类记录 并且这些记录应分成几类事先 也不知道 聚类分析就是通过分析数据库中的记录数据 根据一定的分类规则 合理地划 分记录集合 确定每个记录所在类别 它所采用的分类规则是由聚类分析工具决定的 聚 类分析的方法很多 其中包括系统聚类法 分解法 加入法 动态聚类法 模糊聚类法 运筹方法等 采用不同的聚类方法 对于相同的记录集合可能有不同的划分结果 聚类分析和分类分析是一个互逆的过程 例如在最初的分析中 分析人员根据以往的 经验将要分析的数据进行标定 划分类别 然后用分类分析方法分析该数据集合 挖掘出 每个类别的分类规则 接着用这些分类规则重新对这个集合 抛弃原来的划分结果 进行划 分 以获得更好的分类结果 这样分析人员可以循环使用这两种分析方法直至得到满意的 结果 山东师范大学硕士学位论文 2 2 3 数据挖掘的分析过程 数据挖掘是一个完整的过程 该过程从大型的数据库中挖掘先前未知的 有效的 可 使用的信息 并使用这些信息做出决策或丰富知识 数据挖掘环境如下图所示 数据准各数据挖掘 结果表达与解释 叫 i 叶 数据源 i i 一一j 一j 一 图2 1 数据挖掘的一般过程 图2 2 知识 图2 2 描述了数据挖掘环境 数据挖掘工具从数据库中抽取有用的信息 由可视化工具 表达给用户 数据挖掘的基本过程和主要步骤如下 1 确定业务对象 清晰地定义出业务问题 认清数据挖掘的目的是数据挖掘的重要一步 挖掘的最后结 构是不可预测的 但要探索的问题应是有预见的 为了数据挖掘而数据挖掘则带有盲目性 是不会成功的 2 数据准备 1 数据的选择 搜索所有与业务对象有关的内部和外部数据信息 并从中选择出适用 于数据挖掘应用的数据 2 数据的预处理 研究数据的质量 为进一步的分析做准备 并确定将要进行的挖掘 操作的类型 3 数据的转换 将数据转换成一个分析模型 这个分析模型是针对挖掘算法建立的 建立一个真正适合挖掘算法的分析模型是数据挖掘成功的关键 j j 亳 孽 基于特征的图像数据挖掘模型的研究 3 数据挖掘 对所得到的经过转换的数据进行挖掘 除了完善从选择合适的挖掘算法外 其余一切 工作都能自动地完成 4 结果分析 解释并评估结果 其使用的分析方法一般应根据数据挖掘操作而定 通常会用到可视 化技术 5 知识的同化 将分析所得到的知识集成到业务信息系统的组织结构中去 图2 3 描述了数据挖掘的基 本过程和主要步骤 i 竺l 挖掘 i 被抽取r 转换r 磊 硎竺堡璺i 预处延 际面i 了h 竺兰塑i i 被选择h 塑兰塑i 1 的数据l 图2 3 数据挖掘过程的步骤 在数据挖掘中被研究的业务对象是整个过程的基础 它驱动了整个数据挖掘过程 也 是检验最后结果和指引分析人员完成数据挖掘的依据和顾问 图2 3 各步是按一定顺序完 成的 当然整个过程中还会存在步骤间的反馈 数据挖掘的过程并不是自动的 绝大多数 的工作需要人工完成 在这些步骤中6 0 的时间用在数据准备上 这说明了数据挖掘对数据 要求的严格性 而后期的挖掘工作仅占总工作量的1 0 2 2 4 数据挖掘的常用技术 虽然数据挖掘的概念提出不久 但其核心模块技术却己历经了数十年的发展 其中包 括数理统计 人工智能 机器学习 统计学方法作为传统数据分析的基本方法 在数据挖 掘中得到广泛应用 常用的统计方法有假设检验 参数估计 方差分析 回归分析等 其 试验设计的思想也被广泛应用于其它挖掘方法的数据组织上 机器学习的过程就是将 些 己知的并己被成功解决的问题作为范例输入计算机 机器通过学习这些范例总结并生成相 应的规则 这些规则具有通用性 使用它们可以解决某一类的问题 人工智能是数据挖掘 技术的基础 它是以自动机为手段 通过模拟人类宏观外显的思维行为 从而高效率地解 决现实世界问题的科学和技术 这些技术已经很成熟 其中也有一些比较复杂的方法和算 法 今天 这些成熟的技术 加上高性能的关系数据库引擎以及广泛的数据集成 让数据 挖掘技术在当前的数据仓库环境中进入了实用的阶段

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论