




免费预览已结束,剩余2页可下载查看
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据挖掘技术分析与研究数据挖掘技术分析与研究 学 院 专 业 研 究 方 向 学 生 姓 名 学 号 任课教师姓名 任课教师职称 2013 年 6 月 23 日 数据挖掘技术综述数据挖掘技术综述 摘要 随着信息技术的迅速发展 数据库的规模不断扩大 产生了大量的数据 但大量的 数据往往无法辨别隐藏在其中的能对决策提供支持的信息 而传统的查询 报表工具无法 满足挖掘这些信息的需求 因此 需要一种新的数据分析技术处理大量数据 并从中抽取 有价值的潜在知识 数据挖掘 Data Mining 技术由此应运而生 本文主要介绍了数据挖 掘的基本概念 数据挖掘的过程 数据挖掘所需的工具 数据挖掘的任务 数据挖掘未来 的研究方向 数据挖掘的应用领域和未来发展所面临的一些问题 关键字 数据挖掘 数据挖掘工具 QUEST DBMiner 网站数据挖掘 研究方向 应用领域 引言引言 数据是知识的源泉 但是 拥有大量的数据与拥有许多有用的知识完全是两回事 过去 几年中 从数据库中发现知识这一领域发展的很快 广阔的市场和研究利益促使这一领域的 飞速发展 计算机技术和数据收集技术的进步使人们可以从更加广泛的范围和几年前不可 想象的速度收集和存储信息 收集数据是为了得到信息 然而大量的数据本身并不意味信息 尽管现代的数据库技术使我们很容易存储大量的数据流 但现在还没有一种成熟的技术帮助 我们分析 理解并使数据以可理解的信息表示出来 在过去 我们常用的知识获取方法是由 知识工程师把专家经验知识经过分析 筛选 比较 综合 再提取出知识和规则 然而 由 于知识工程师所拥有知识的有局限性 所以对于获得知识的可信度就应该打个折扣 目前 传 统的知识获取技术面对巨型数据仓库无能为力 数据挖掘技术就应运而生 数据的迅速增加与数据分析方法的滞后之间的矛盾越来越突出 人们希望在对已有的大 量数据分析的基础上进行科学研究 商业决策或者企业管理 但是目前所拥有的数据分析工 具很难对数据进行深层次的处理 使得人们只能望 数 兴叹 数据挖掘正是为了解决传统 分析方法的不足 并针对大规模数据的分析处理而出现的 目前 在需要处理大数据量的科研 领域中 数据挖掘受到越来越多的关注 同时 在实际问题中 大量成功运用数据挖掘的实例说 明了数据挖掘对科学研究具有很大的促进作用 数据挖掘可以帮助人们对大规模数据进行 高效的分析处理 以节约时间 将更多的精力投入到更高层的研究中 从而提高科研工作的效 率 数据挖掘技术数据挖掘技术 1 数据挖掘的概念 数据挖掘是指从数据集合中自动抽取隐藏在数据中的那些有用信息的非平凡过程 这 些信息的表现形式为 规则 概念 规律及模式等 它可帮助决策者分析历史数据及当前 数据 并从中发现隐藏的关系和模式 进而预测未来可能发生的行为 数据挖掘的过程也 叫知识发现的过程 2 数据挖掘的过程 数据挖掘是指一个完整的过程 该过程从大型数据库中挖掘先前未知的 有效的 可 实用的信息 并使用这些信息做出决策或丰富知识 下图描述了数据挖掘的基本过程和主要步骤 数据库数据库数据挖数据挖 掘工具掘工具 可视化可视化 工具工具 3 数据挖掘的工具 在数据挖掘技术日益发展的同时 许多数据挖掘的商业软件工具也逐渐问世 数据挖 掘工具主要有两类 特定领域的数据挖掘工具和通用的数据挖掘工具 下面简单介绍两种数据挖掘工具 1 QUEST QUEST 是 IBM 公司 Almaden 研究中心开发的一个多任务数据挖掘系统 目的是为新 一代决策支持系统的应用开发提供高效的数据开采基本构件 系统具有如下特点 提供了专门在大型数据库上进行各种开采的功能 关联规则发现 序列模式发现 时 间序列聚类 决策树分类 递增式主动开采等 各种开采算法具有近似线性 O n 计算复杂度 可适用于任意大小的数据库 算法具有找全性 即能将所有满足指定类型的模式全部寻找出来 4 为各种发现 功能设计了相应的并行算法 2 DBMiner DBMiner 是加拿大 SimonFraser 大学开发的一个多任务数据挖掘系统 它的前身是 DBLearn 该系统设计的目的是把关系数据库和数据开采集成在一起 以面向属性的多级 概念为基础发现各种知识 DBMiner 系统具有如下特色 能完成多种知识的发现 泛化规则 特性规则 关联规则 分类规则 演化知识 偏 离知识等 综合了多种数据开采技术 面向属性的归纳 统计分析 逐级深化发现多级规则 元 规则引导发现等方法 实现了基于客户 服务器体系结构的 Unix 和 PC Windows NT 版本的系统 提出了一种交互式的类 SQL 语言 数据开采查询语言 DMQL 4 数据挖掘技术的任务 数据挖掘技术主要有四种开采任务 数据总结是对数据进行浓缩 给出它的紧凑描述 数据挖掘是从数据泛化的角度来讨论 数据总结 分类发现这是一项非常重要的任务 分类是运用分类器把数据库中的数据项映射到给定 类别中的某一个 用于对未来数据进行预测 聚类是把一组个体按照相似性归成若干类别 它的目的是使得属于同一类别的个体之间 的距离尽可能的小 而不同类别的个体间的距离尽可能的大 关联规则是指事物之间的联系具有多大的支持度和可信度 有意义的关联规则必须给 定两个阈值 最小支持度和最小可信度 数据挖掘未来的研究方向和热点数据挖掘未来的研究方向和热点 1 数据挖掘未来的研究方向 当前 数据挖掘研究方兴未艾 其研究与开发的总体水平相当于数据库技术在 70 年代 所处的地位 迫切需要类似于关系模式 DBMS 系统和 SQL 查询语言等理论和方法的指导 才能使数据挖掘的应用得以普遍推广 预计在本世纪数据挖掘的研究还会形成更大的高潮 研究焦点可能会集中到以下几个方面 寻求数据挖掘过程中的可视化方法 使知识发现的过程能够被用户理解 也便于在知 识发现的过程中进行人机交互 发现语言的形式化描述 即研究专门用于知识发现的数据挖掘语言 也许会像 SQL 语 言一样走向形式化和标准化 研究在网络环境下的数据挖掘技术 WebMining 特别是在因特网上建立数据挖掘服 务器 并且与数据库服务器配合 实现 WebMining 处理的数据将会涉及到更多的数据类型 这些数据类型或者比较复杂 或者是结构比 较独特 为了处理这些复杂的数据 就需要一些新的和更好的分析和建立模型的方法 同时还会涉及到为处理这些复杂或独特数据所做的费时和复杂数据准备的一些工具和 软件 加强对各种非结构化数据的开采 DataMiningforAudio Video 如对文本数据 图形 数据 视频图像数据 声音数据乃至综合多媒体数据的开采 交互式发现和知识的维护更新 2 分析 随着 Web 技术的发展 各类电子商务网站风起云涌 建立起一个电子商务网站并不困 难 困难的是如何让您的电子商务网站有效益 要想有效益就必须吸引客户 增加能带来 效益的客户忠诚度 电子商务业务的竞争比传统的业务竞争更加激烈 原因有很多方面 其中一个因素是客户从一个电子商务网站转换到竞争对手那边 只需点击几下鼠标即可 网站的内容和层次 用词 标题 奖励方案 服务等任何一个地方都有可能成为吸引客户 同时也可能成为失去客户的因素 而同时电子商务网站每天都可能有上百万次的在线交易 生成大量的记录文件 Logfiles 和登记表 如何对这些数据进行分析和挖掘 充分了解客 户的喜好 购买模式 甚至是客户一时的冲动 设计出满足于不同客户群体需要的个性化 网站 进而增加其竞争力 几乎变得势在必行 若想在竞争中生存进而获胜 就要比您的 竞争对手更了解客户 3 电子商务网站数据挖掘 在对网站进行数据挖掘时 所需要的数据主要来自于两个方面 一方面是客户的背景 信息 此部分信息主要来自于客户的登记表 而另外一部分数据主要来自浏览者的点击流 Click stream 此部分数据主要用于考察客户的行为表现 但有的时候 客户对自己的 背景信息十分珍重 不肯把这部分信息填写在登记表上 这就会给数据分析和挖掘带来不 便 在这种情况之下 就不得不从浏览者的表现数据中来推测客户的背景信息 进而再加 以利用 就分析和建立模型的技术和算法而言 网站的数据挖掘和原来的数据挖掘差别并不是 特别大 很多方法和分析思想都可以运用 所不同的是网站的数据格式有很大一部分来自 于点击流 和传统的数据库格式有区别 因而对电子商务网站进行数据挖掘所做的主要工 作是数据准备 目前 有很多厂商正在致力于开发专门用于网站挖掘的软件 数据挖掘的应用领域数据挖掘的应用领域 数据挖掘技术从一开始就是面向应用的 目前 在很多领域 数据挖掘 data mining 都 是一个很时髦的词 尤其是在如银行 电信 保险 交通 零售 如超级市场 等商业领 域 数据挖掘不仅是面向特定数据库的简单检索查询调用 而且要对这些数据进行微观 中观乃至宏观的统计 分析 综合和推理 以指导实际问题的求解 企图发现事件间的相 互关联 甚至利用已有的数据对未来的活动进行预测 1 在科学研究中应用 从科学研究方法学的角度看 科学研究可分为三类 理论科学 实验科学和计算科学 计算科学是现代科学的一个重要标志 计算科学工作者主要和数据打交道 每天要分析各 种大量的实验或观测数据 随着先进的科学数据收集工具的使用 如观测卫星 遥感器 DNA 分子技术等 数据量非常大 传统的数据分析工具无能为力 因此必须有强大的智能 型自动数据分析工具才行 数据挖掘在天文学上有一个非常著名的应用系统 SKICAT Sky Image Cataloging and Analysis Tool 它是美国加州理工学院喷气推进实验室 即设计火星探测器 漫游者号的实验室 与天文科学家合作开发的用于帮助天文学家发现遥远的类星体的一个工 具 SKICAT 既是第一个获得相当成功的数据挖掘应用 也是人工智能技术在天文学和空 间科学上第一批成功应用之一 利用 SKICAT 天文学家已发现了 16 个新的极其遥远的类 星体 该项发现能帮助天文工作者更好地研究类星体的形成以及早期宇宙的结构 数据挖掘在生物学上的应用主要集中于分子生物学特别是基因工程的研究上 基因研究中 有一个著名的国际性研究课题 人类基因组计划 据报道 1997 年 3 月 科学家宣布已 完成第一步计划 绘制人类染色体基因图 然而这仅仅是第一步 更重要的是对基因图进行 解释从而发现各种蛋白质 有 10 000 多种不同功能的蛋白质 和 RNA 分子的结构和功能 近 几年 通过用计算生物分子系列分析方法 尤其是基因数据库搜索技术己在基因研究上作 出了很多重大发现 2 在商业上的应用 在商业领域特别是零售业 数据挖掘的运用是比较成功的 由于 MIS 系统在商业的普 遍使用 特别是码技术的使用 可以收集到大量关于购买情况的数据 并且数据量在不断 激增 利用数据挖掘技术可以为经营管理人员提供正确的决策手段 这样对促进销售及提 高竞争力是大有帮助的 3 在金融上的应用 在金融领域 数据量是非常巨大的 银行 证券公司等交易数据和存储量都是很大的 而对于信用卡欺诈行为 银行每年的损失非常大 因此 可以利用数据挖掘对客户信誉进 行分析 典型的金融分析领域有投资评估和股票交易市场预测 4 在医学上的应用 数据挖掘在医学上的应用十分广泛 从分子制药到医疗诊断 都可以利用数据挖掘的 手段来提高效率和效益 在药物合成方面 通过对药物分子化学结构的分析 可以确定药 物中哪种原子或原子基因对什么病能够发挥作用 这样在合成新药时 可根据新药的分子 结构确定该药将有可能治疗哪一种病 数据挖掘还可用于工业 农业 交通 电信 军事 Internet 等其它行业 数据挖掘具 有广泛的应用前景 它既可应用于决策支持 也可应用于数据库管理系统 DBMS 中 数据 挖掘作为决策支持和分析的工具 可以用于构造知识库 在 DBMS 中 数据挖掘可以用于 语义查询优化 完整性约束和不一致检验等 数据挖掘面临的问题和挑战数据挖掘面临的问题和挑战 数据挖掘应从以下三方面加以考虑 一是用数据挖掘解决什么样的商业问题 二是为 进行数据挖掘所做的数据准备 三是数据挖掘的各种分析算法 数据挖掘的分析算法主要来自于以下两个方面 统计分析和人工智能 机器学习 模 式识别等 数据挖掘研究人员和数据挖掘软件供应商 在这一方面所做的主要工作是优化 现有的一些算法 以适应大数据量 另外需要强调的是 任何一种数据挖掘的算法 不管 是统计分析方法 神经元网络 各种树分析方法 还是遗传算法 没有一种算法是万能的 不同的商业问题 需要用不同的方法去解决 即使对于同一个商业问题 可能有多种算法 这个时候 也需要评估对于这一特定问题和特定数据哪一种算法表现好 做数据挖掘研究的人 往往把主要的精力用于改进现有算法和研究新算法上 人们都 知道数据准备是必不可少的一步 但很少有人去真正花时间和精力去研究 其实数据挖掘 最后成功与失败 是否有经济效益 数据准备起到了至关重要的作用 数据准备包含很多 方面 一是从多种数据源去综合数据挖掘所需要的数据 保证数据的综合性 易用性 数 据的质量和数据的时效性 这有可能要用到数据仓库的思想和技术 另一方面就是如何从 现有数据中衍生出所需要的指标 这主要取决于数据挖掘者的分析经验和工具的方便性 人们通常把数据挖掘工具看得过份神秘 认为只要有了一个数据挖掘工具 就能自动 挖掘出所需要的信息 就能更好地进行企业运作 这是认识上的一个误区 其实要想真正 做好数据挖掘 数据挖掘工具只是其中的一个方面 同时还需要对企业业务的深入了解和 数据分析经验 一个企业要想在未来的市场中具有竞争力 必须有一些数据挖掘方面的专 家 专门从事数据分析和数据挖掘工作 再同其他部门协调 把挖掘出来的信息供管理者 决策参考 最后把挖掘出的知识物化 在国内的企业中 还很少有决策人员认识到这一点 如果管理者没有这方面的意识 数据挖掘和数据分析就很难发挥应有的作用 很容易走向 两个极端 一是认为数据挖掘没有用处 二是开始认为数据挖掘是万能的 如此得到的结 果往往与初始期望相去太远 虽然数据挖掘技术已经在各方面都得到了广泛的应用 但数据挖掘技术的研究还不够 成熟 在应用上有很大的局限性 正是这些局限性 促使数据挖掘技术进一步的发展 挖掘的对象 数据库更大 维数更高 属性之间更复杂 数据挖掘处理的数据通常十 分巨大 数据丢失问题 因大部分数据库不是为知识发现而定做的 那么它就有可能会存在一 些重要的数据和属性丢失的问题 多种形式的输入数据 目前数据挖掘工具能处理的数据形式有限 一般只能处理数值 型的结构化数据 网络与分布式环境的 KDD 问题 随网络的发展 资源的丰富 技术人员各自独立处 理分离数据库的工作方式应是可协作的 个人隐私问题 与其他系统的集成问题 结束语结束语 数据挖掘现在越来越为更多的人们所关注 被认为是未来最有发展前景和广阔市场潜 力的新兴学科之一 随着信息技术和数据库技术的不断发展 各行各业的人们掌握了大量 的数据 在竞争日益激烈的现今社会里 如何迅速有效的获得隐藏在数据之后的有用的知 识信息 成为众多企业决策者和管理者的当务之急 数据挖掘是一
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年石首市属事业单位考试试卷
- 2025年甘肃警察学院考核招聘急需紧缺专业人才考前自测高频考点模拟试题含答案详解
- 2025年大庆石化分公司春季高校毕业生招聘模拟试卷及答案详解(网校专用)
- 2025华天集团中层管理岗位公开招聘模拟试卷及答案详解(考点梳理)
- 2025江苏连云港市赣榆区事业单位招聘31人模拟试卷(含答案详解)
- 2025湖南益阳市安化县五雅高级中学春季教师招聘模拟试卷含答案详解
- 2025湖南长沙市财盛国际贸易有限公司招聘2人模拟试卷及答案详解(考点梳理)
- 2025金沙酱酒酒业投资集团有限公司模拟试卷及答案详解一套
- 2025年甘肃省兰州大学物理科学与技术学院诚聘英才考前自测高频考点模拟试题及答案详解(考点梳理)
- 2025昆明市晋宁区残疾人联合会招聘编外人员(1人)考前自测高频考点模拟试题及答案详解(典优)
- 人生的因拼搏而精彩课件
- 2025年国企综合笔试试题及答案
- 中药用药安全知识培训课件
- 老旧护栏加固施工方案
- 中国资源循环集团有限公司子公司招聘笔试题库2025
- 雨季行车安全培训
- 2025年青海海东通信工程师考试(通信专业实务终端与业务)高、中级考前题库及答案
- 2025年浙江省档案职称考试(档案高级管理实务与案例分析)综合能力测试题及答案
- 景区接待培训课件
- 部编人教版二年级上册语文全册教学设计(配2025年秋改版教材)
- 2025年郑州航空港经济综合实验区招聘社区工作人员120名考试参考题库附答案解析
评论
0/150
提交评论