



免费预览已结束,剩余1页可下载查看
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据挖掘在大数据时代下的应用 摘要 数据挖掘一直是各个行业的关注的重点 近几年 数据挖掘伴随着大数据的火热开始迎来更大的机 遇 本文介绍了数据挖掘相关的概念 一些常用的数据挖 掘的分析方法 最后介绍了数据挖掘技术几个常见的应用 领域 关键词 数据挖掘 分析方法 应用 一 基本概念介绍 1 大数据 2011 年 5 月 麦肯锡全球研究院在 大 数据 创新 竞争和生产力的下一个新领域 中指出 大 数据是一种规模大到在获取 存储 管理 分析方面大大 超出了传统数据库软件工具能力范围的数据集合 具有海 量的数据规模 快速的数据流转 多样的数据类型和价值 密度低四大特征 数据已经渗透到每一个行业和业务职能 领域 逐渐成为重要的生产要素 而人们对于大数据的运 用预示着新一波生产率增长和消费者盈余浪潮的到来 据 估计 在未来 数据将至少保持每年 50 的增长速度 2 数据挖掘 数据挖掘是一门新兴的学科 它诞生于 20 世纪 80 年代 主要面向商业应用的人工智能研究领域 从技术角度看 数据挖掘就是从大量的 复杂的 不规则 的 随机的 模糊的数据中获取隐含的 人们事先没有发 觉的 有潜在价值的信息和知识的过程 从商业角度来说 数据挖掘就是从庞大的数据库中抽取 转换 分析一些潜 在规律和价值 从中获取辅助商业决策的关键信息和有用 知识 二 数据挖掘的基本分析方法 分析方法是数据挖掘的核心工作 通过科学可靠的算 法才能实现数据的挖掘 找出数据中潜在的规律 通过不 同的分析方法 将解决不同类型的问题 在现实中针对不 同的分析目标 找出相对应的方法 目前常用的分析方法 主要有聚类分析 分类和预测 关联分析等 1 聚类分析 聚类分析就是将物理或抽象对象的集 合进行分组 然后组成为由类似或相似的对象组成的多个 分类的分析过程 其目的就是通过相似的方法来收集数据 分类 它是一种无先前知识 无监督的学习过程 从数据 对象中找出有意义的数据 然后将其划分在一个未知的类 这不同于分类 因为它无法获知对象的属性 物以类聚 人以群分 通过聚类来分析事物之间类聚的潜在规律 聚 类分析广泛运用于心理学 统计学 医学 生物学 市场 销售 数据识别 机器智能学习等领域 聚类分析根据隶 属度的取值范 可分为硬聚类和模糊聚类两种方法 硬聚类 就是将对象划分到距离最近聚类的类 非此即彼 也就是 说属于一类 就必然不属于另一类 模糊聚类就是根据隶 属度的取值范围的大小差异来划分类 一个样本可能属于 多个类 常见的聚类算法主要有密度聚类算法 层次聚类 算法 划分聚类算法 网格聚类算法 模型聚类算法等 2 分类和预测 分类和数值预测是问题预测的两种 主要类型 分类是预测分类 离散 无序的 标号 而预 测则是建立连续值函数模型 分类是数据挖掘的重要基础 它是对已知的训练数据集表现出来的特性 获得每个类别 的描述或属性来构造相应的分类器或者分类 分类是一种 有监督的学习过程 它是根据训练数据集发现准确描述来 划分类别 常见的分类算法主要有决策树 粗糙集 贝叶 斯 遗传算法 神经网路等 预测就是根据分类和回归来 预测将来的规律 常见的预测方法主要有局势外推法 时 间序列法和回归分析法 3 关联分析 在自然界 事物之间存在着千丝万缕 的联系 当某一事件发生时 可能会带动其它事件的发生 关联分析就是利用事物之间存在的依赖或关联知识来发现 事物之间存在的规律性 然后通过这种规律性进行预测 如经典实例购物篮分析 就是通过分析顾客购物篮中物品 的管理规律 来分析顾客的购物心理和习惯 然后根据这 种规律来帮助营销人员制定营销策略 三 大数据时代的数据挖掘的应用领域 1 科学研究 在科学研究中 经常需要分析各种大量 的实验和观测数据 并找出相关的规律和知识 这些数据分 析和挖掘都需要一定的算法 利用数据挖掘技术能科学的 找出数据之间的规律以及找出我们未发现的知识 例如 对 外空星体的探索 对 DNA 数据的分析等等 2 制造业 在制造业领域 通过对零部件生产的各种 数据分析 来提高生产效率和提高良品率 如分析造成产 品缺陷的环节及数据 找出生产过程影响生产率的因素 暴露制造和装配操作过程中变化情况等各种因素 从而通 过重点改进相关环节及工艺 来提高企业的生产效率及利 益 3 电信业 近些年 随着电信业的蓬勃发展 电信业 的技术和服务已经成为一个非常庞大的混合载体 它不仅 关系市场 也关系到技术及服务 在将企业有效资源整合 实现无缝连接的过程中 将产生大量的复杂数据集合 如 何从庞杂的数据中找寻出规律和知识 已成为电信业的重 要问题 通过数据挖掘的运用 能很好的解决上述问题 为行业的发展起到很好的作用 如系统负载 数据通信速 率和容量 用户行为 利润率等 采用孤立点分析和聚类 方法 查找出盗用模式和异常状态 利用关联和序列模式 找出影响电信发展的相关因素 更好的推动电信业务的发 展 参 考 文 献
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 涉电作业基础知识培训课件
- 2025年智慧校园安全管理报告:校园食品安全监管研究
- 2025年线下演出市场演出市场演出效果评估体系研究报告
- 2025年文化娱乐产业投资风险分析报告:风险识别与防范措施
- 2025年工业互联网平台漏洞扫描技术创新与信息安全技术研发报告
- 2025年电商平台大数据驱动的用户互动行为分析与精准营销策略研究
- 2025年家居零售行业库存管理报告
- 2025年环保产业园产业集聚与区域协同发展模式研究探讨分析报告
- 就业保障 培训课件下载
- 机械安全培训知识点课件
- 云计算环境下的数据安全与隐私保护研究
- 传媒入股协议合同
- 《有机化学》课程标准
- 《高效能电机》课件
- 汽车维护与保养 任务工单1 发动机油液与滤清器检查及更换
- 外科腹腔镜手术护理
- 非专用化妆包项目质量管理方案
- 工程类公路培训课件
- 2024年度中药的性能《四气五味》课件
- 太阳能光伏发电项目EPC工程设计施工范围及主要工程量
- 《汽车电工电子》课程标准
评论
0/150
提交评论