


全文预览已结束
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
正如柏拉图所说 需要是发明之母 随着信息时代的步伐不断迈进 大量数据日积月 累 我们迫切需要一种工具来满足从数据中发现知识的需求 而数据挖掘便应运而生了 正如书中所说 数据挖掘已经并且将继续在我们从数据时代大步跨入信息时代的历程中做 出贡献 1 数据挖掘 数据挖掘 数据挖掘应当更正确的命名为 从数据中挖掘知识 不过后者显得过长了些 而 挖掘 一词确是生动形象的 人们把数据挖掘视为 数据中的知识发现 KDD 的同义 词 而另一些人只是把数据挖掘视为知识发现过程的一个基本步骤 由此而产生数据挖掘的定义 从大量数据中挖掘有趣模式和知识的过程 数据源包括 数据库 数据仓库 Web 其他信息存储库或动态地流入系统的数据 作为知识发现过程 它通常包括数据清理 数据集成 数据变换 模式发现 模式评估和知识表示六个步骤 数据挖掘处理数据之多 挖掘模式之有趣 使用技术之大量 应用范围之广泛都将会 是前所未有的 而数据挖掘任务之重也一直并存 这些问题将继续激励数据挖掘的进一步 研究与改进 2 数据分析 数据分析 数据分析是指用适当的统计方法对收集来的大量第一手资料和第二手资料进行分析 以求最大化地开发数据资料的功能 发挥数据的作用 是为了提取有用信息和形成结论而 对数据加以详细研究和概括总结的过程 数据分析有极广泛的应用范围 典型的数据分析可能包含以下三个步 1 探索性数据分析 当数据刚取得时 可能杂乱无章 看不出规律 通过作图 造表 用各种形式的方程拟合 计算某些特征量等手段探索规律性的可能形式 即往什么方向和 用何种方式去寻找和揭示隐含在数据中的规律性 2 模型选定分析 在探索性分析的基础上提出一类或几类可能的模型 然后通过进一 步的分析从中挑选一定的模型 3 推断分析 通常使用数理统计方法对所定模型或估计的可靠程度和精确程度作出推 断 数据分析的目的是把隐没在一大批看来杂乱无章的数据中的信息集中 萃取和提炼出 来 以找出所研究对象的内在规律 在实用中 数据分析可帮助人们作出判断 以便采取 适当行动 数据分析是组织有目的地收集数据 分析数据 使之成为信息的过程 这一过 程是质量管理体系的支持过程 在产品的整个寿命周期 包括从市场调研到售后服务和最 终处置的各个过程都需要适当运用数据分析过程 以提升有效性 由上可见 数据挖掘和数据分析虽然概念上层次清晰 作用上分工明确 数据分析主 要以上数理统计为主数理统计为主 数据挖掘主要是挖掘算法挖掘算法为主 但很明显的是 数据挖掘必须借助 数据分析的有关方法来挖掘出有效的 对目标应用有意义的模式和知识 或者可以说 数数 据挖掘也可以是数据分析的一种 据挖掘也可以是数据分析的一种 在这样一个信息迅速膨胀的时代 数据挖掘和分析都与大量数据打交道 两者都离不 开一种 80 年代后期兴起的一种高级数据分析技术 数据仓库和联机分析处理 3 数据仓库 数据仓库 数据仓库是一个从多个数据源收集的信息存储库 存放在一致的的模式下 并且通常 驻留在单个站点上 数据仓库通过数据清理 数据变换 数据集成 数据装入和定期数据 刷新来构造 为便于决策 数据仓库中的数据围绕主题组织 数据存储从历史的角度提供 信息 并且通常是汇总的 数据仓库提供一些数据分析能力 称作联机分析处理 联机分析处理 OLAP 数据仓库有以下四种关键特征 面向主题的 面向主题的 数据仓库围绕一些重要主题 如顾客 供应商 产品 和销售组织 数 据仓库关注决策者的数据建模与分析 而不是单位的日常操作和事务处理 因此 数据仓 库通常排除对于决策无用的数据 提供特定主题的简明视图 集成的 集成的 通常 构造数据仓库是将多个异构数据源 使用数据清理和数据集成技术 确保命名约定 编码结构 属性度量等的一致性 时变的 时变的 数据存储从历史的角度提供信息 数据仓库中的关键结构都隐式或显式地包 含时间元素 非易失的 非易失的 数据仓库总是物理地分离存放数据 这些数据源于操作环境下的应用数据 由于这种分离 数据仓库不需要事务处理 恢复和并发控制机制 通常 它只需要两种数 据访问操作 数据的初始化装入和数据访问 4 分类及算法 分类及算法 分类分类是一种重要的数据分析形式 它提取刻画重要数据类的模型 分类是找出数据库 中一组数据对象的共同特点并按照分类模式将其划分为不同的类 其目的是通过分类模型 将数据库中的数据项映射到某个给定的类别 它可以应用到客户的分类 客户的属性和特 征分析 客户满意度分析 客户的购买趋势预测等 如一个汽车零售商将客户按照对汽车 的喜好划分成不同的类 这样营销人员就可以将新型汽车的广告手册直接邮寄到有这种喜 好的客户手中 从而大大增加了商业机会 分类算法分类算法主要有决策树归纳 贝叶斯分类 使用 IF THEN 规则分类 神经网络 支持 向量机等 5 聚类分析 聚类分析 聚类分析是把一组数据按照相似性和差异性分为几个类别 其目的是使得属于同一类 别的数据间的相似性尽可能大 不同类别中的数据间的相似性尽可能小 它可以应用到客 户群体的分类 客户背景分析 客户购买趋势预测 市场的细分等 常用的算法有 划分方法 k 均值算法 k 中心点算法 层次方法 层次聚类算法 平衡迭代归约和算法 Chameleon 变色龙 基于密度的方法 DBSCAN 算法 OPTICS 算法 DENCLUE 算法 基于网格的方法 STING 统计信息网格 CLIQUE 6 广泛应用 广泛应用 作为一个应用驱动的领域 数据挖掘融汇来自其他一些领域的技术 这些领域包括统 计学 机器学习 数据库和数据仓库系统 以及信息检索 数据挖掘研究与开发的多学科 特点大大促进了数据挖掘的成功和广泛应用 数据挖掘已经有许多成功的应用 如商务智能 Web 搜索 生物信息学 卫生保健信 息学 金融 数字图书馆和数字政府等 7 学习总结 学习总结 数据挖掘技术已经形成很广泛的应用空间 而目前 JDMP 的版本也在完善当中 大多 数数据挖掘开发工具涌现出来 各种相关的框架如 Hadoop 也如雨后春笋纷纷出现 这些 现象的出现 正是因为数据挖掘的发
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年事业单位工勤技能-湖南-湖南护理员五级(初级工)历年参考题库典型考点含答案解析
- 2025-2030中国粘蟑螂板胶行业市场运营模式及未来发展动向预测报告
- 2025年事业单位工勤技能-浙江-浙江垃圾清扫与处理工三级(高级工)历年参考题库含答案解析(5套)
- 2025年事业单位工勤技能-浙江-浙江仓库管理员五级(初级工)历年参考题库含答案解析(5套)
- 2025年事业单位工勤技能-河南-河南水工监测工四级(中级工)历年参考题库含答案解析
- 2025年事业单位工勤技能-河南-河南动物检疫员五级(初级工)历年参考题库典型考点含答案解析
- 2025年事业单位工勤技能-河北-河北舞台技术工五级(初级工)历年参考题库含答案解析(5套)
- 2025年事业单位工勤技能-江苏-江苏广播电视天线工一级(高级技师)历年参考题库含答案解析(5套)
- 2025年事业单位工勤技能-广西-广西汽车修理工(技师/高级技师)历年参考题库典型考点含答案解析
- 2020-2025年设备监理师之设备工程监理基础及相关知识自我提分评估(附答案)
- AQ 1097-2014 井工煤矿安全设施设计编制导则(正式版)
- NBT 47013.13-2015 承压设备无损检测 第13部分:脉冲涡流检测
- 2023全球数字经济白皮书
- 2024年三亚市海棠区营商环境建设局一级科员招录1人《行政职业能力测验》高频考点、难点(含详细答案)
- 2024-2030年中国培南类抗菌药物行业市场运行态势及发展战略研究报告
- 知识题库-人社练兵比武竞赛测试题及答案(七)
- 陆上石油天然气开采安全管理人员复习题
- 孔子的美学思想对现代设计的启示
- 回弹法测试原始记录表
- 《热力发电厂》热力发电厂全面性热力系统
- 新教师岗前培训讲座中小学教学常规PPT
评论
0/150
提交评论