浅谈大数据背景下数据挖掘的方法及其应用_第1页
浅谈大数据背景下数据挖掘的方法及其应用_第2页
浅谈大数据背景下数据挖掘的方法及其应用_第3页
浅谈大数据背景下数据挖掘的方法及其应用_第4页
浅谈大数据背景下数据挖掘的方法及其应用_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

-精选财经经济类资料- -最新财经经济资料-感谢阅读- 1 浅谈大数据背景下数据挖掘的方法 及其应用 摘要:人类已迈入大数据时代, 但很多时候我们会感到被数据淹没,却 缺乏知识的困窘,并没有“得数据者得 天下”的能力。因此,数据挖掘成了我 们提取海量数据信息的必要窗口,本文 主要探讨数据挖掘的一些算法、模型及 其应用以提高大数据处理能力。 中国论文网 /3/view-12946260.htm 关键词:大数据 数据挖掘 算法 模型 中图分类号:TP311 文献标识码: A 1.什么是大数据 虽然说“ 大数据” 一词在当今时期 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 2 是炙手可热,很多人都曾对大数据进行 定义,但至今为止仍然没有人给出一个 明确的定义。大家都认为它具备规模大、 多样化、动态化、处理速度快、蕴含有 价值的信息,由于其具有规模庞大的特 点,我们只能通过机器从浩如烟海、杂 乱无章的数据中挖掘对我们有价值的信 息,实现数据为我们所用。 2.什么是数据挖掘 从规模庞大的信息中,可以利用 数学建模算法以及数学软件去找到对我 们有价值的隐晦信息。1数据挖掘是面 向事实的,利用数据挖掘工具,以客观 统计分析方法挖掘出企业经营的需求信 息,得到正确的销售模式、客户关系和 行为策略等,有利于企业掌握正确的经 营动态,增加利润并减少开支。 “数据挖 掘”在方法论上强调 “面向数据 ”,由于 它充分运用了自动化的数据收集技术与 速度快、容量大的计算机,从而具有处 理大量复杂数据库的能力。数据挖掘技 术能够进一步运用统计等方法对数据进 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 3 行再分析,以获得更深入的了解,并具 有预测功能,可借助已有的数据预测未 来。所以,曾有人说“ 数据挖掘是掌握 商机的命脉” 。 3.稻萃诰虻墓 程 数据挖掘的过程一般可分为三个 阶段,包括数据准备、模式发现与数据 挖掘结果。数据准备阶段用于为后续的 模式发现提供有质量的数据。包括数据 净化、数据集成、数据变换和数据归约。 模式发现阶段是数据挖掘过程中的核心 阶段,第一要确定挖掘任务和挖掘算法, 通过对历史数据的分析,结合用户需求、 数据特点等因素,得到供决策使用的各 种模式与规则,从该任务的众多算法中 选择合适算法进行实际挖掘,得出挖掘 结果,即相应的模式。挖掘结果阶段是 怎样将挖掘出来的模式与规则以一种直 观、容易理解的方式呈现给用户,即可 视化。 4.数据挖掘的方法及应用 4.1 关联规则 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 4 关联规则挖掘2是数据挖掘的本 质,它通过对规模庞大的信息进行量化 处理,然后建立各类信息的联系,从而 让那些看似无关的信息的关联性得以显 现并为我们所用。 应用:关联规则的案例最著名的 莫过于“啤酒与尿布 ”的故事,这两件看 似毫无关联的事务,挖掘人士通过在杂 乱无章、浩如烟海的数据中将两者建立 关联,从而为超市带来巨大利润。而这 一方法被称为“ 购物篮分析 ”。此外,关 联规则在金融服务、通信、互联网行业 的应用也越来越广,公司利用它在大量 的金融数据中找到与开发投资策略相关 联的交易和风险模型;股票公司则利用 关联规则挖掘股票价格的趋势,信用卡 公司挖掘客户的数据来获得信用模式; 在通信领域,在路由器中采集有关入侵 的信息,来判断黑客对系统的攻击习惯 和行为,进而有效地提高了通信的安全 性。此外,Web 挖掘、科学数据分析、 分类设计、捆绑销售和亏本销售分析等 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 5 也都会从关联规则挖掘中受益。 4.2 聚类分析 聚类分析是通过一定的规则将已 有的数据集合划分成新的种类,而新的 种类在性质上是相似的。所以它是研究 数据间物理上或逻辑上相互关系的技术。 通俗地讲即是“ 物以类聚”。聚类分析3 获得的结果可以作为下一步研究的基础 数据,比如关联规则挖掘、多元统计分 析、时间序列分析等模型需要的数据。 聚类分析的划分方法包括 K-means 算法、 K-medoid 算法;层次方法包括 BIRCH 算法、CURE 算法;密度方法包括 DBSCN 算法、 OPTICS 算法;网格算法 包括 STING 算法、Wavecluster 算法等。 对全国网络招聘信息3的文本数 据进行聚类,获得主要的职业类型、专 业领域以及热门的行业、职位、地域等, 进而能够为高等院校及时了解社会对人 才种类的需求变化情况,分析预测未来 的人才市场的热点,有针对性地调整人 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 6 才培养方案和设置安排相关课程提供重 要的参考息,促进高校培养出更多适用 当前社会就业形势的优秀人才,有助于 广大在校大学生做出更合理有效的职业 规划。对 1999 年全国 31 个省、直辖市 和自治区的城镇居民家庭平均每人全年 消费性支出的食品、交通和通讯、衣着、 娱乐教育文化服务、家庭设备用品及服 务、居住、医疗保健、杂项商品和服务 八个主要变量将我国的地区发达程度三 类等。 聚类分析还可以帮助公司在客 户基本库中获得不同的客户群体,通过 购买模式来描述种类不同的客户特征。 除此,聚类分析在生物学、信息检索、 气候、心理学和药学领域也得到广泛的 应用。 4.3 遗传算法 遗传算法4是对生物系统在计算 机上模拟研究,基于生物遗传、进化机 制的适合于复杂系统优化的自适用概率 优化算法。具有鲁棒性强、应用范围广、 简单通用的特点。遗传算法搜索最优解 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 7 的方法是模仿生物的进化过程,模拟自 然选择、遗传中发生的复制、交叉、变 异等现象。遵循“ 适者生存、不适者被 淘汰”的进化规则,从而留下适应环境 能力强的个体,结果群体不断地向最优 解的方向进化,最终把最后一代种群里 最优的个体通过解码得到满足要求的最 优解。 遗传算法由于全局搜索能力强、 能胜任各种函数、高维空间的优化问题, 而且在数据库领域中能较好地处理不同 属性之间的关系,所以大数据库容量非 常大时,我们进行穷举搜索是行不通的 或者解决范围大、复杂的优化问题时, 这时采取遗传算法进行搜索则是一个非 常有效的选择。在数据挖掘领域中常见 的有基于遗传算法的关联规则挖掘,基 于遗传算法的聚类算法,基于遗传算法 的分类、遗传算法和模拟退火算法相结 合等。 遗传算法在图像处理中的图像识 别、图像边缘特征提取、图像恢复方面 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 8 有着广泛的应用;在生产调度问题上, 很多时候采用其他算法建立起来的数学 模型只能得出近似解,而数据在不断的 使用时误差会越来越大,此时采用遗传 算法可以较为有效地解决这一问题,比 如在流水线生产调度、任务分配、生产 规划等方面。由于遗传算法是基于人工 自适用的系统研究,所以在机器人领域 占据很重要的地位,例如:基于遗传算 法的模糊控制规则学习、使用遗传算法 来设计空间交汇控制器、机器人逆运动 求解问题等。 4.4 神经网络 人工神经网络是由一个人工建立 神经元的、有着模拟人脑结构和功能的 有拓部结构和学习规则的动态信息处理 系统。通过网络中各连权的改变,实现 信息的处理与储存,每个神经元不仅是 信息的存储单元,还是信息的处理单元, 信息的处理与存储合二为一,在每个神 经元的共同作用下,完成对输入模式的 识别和记忆。神经网络的基本功能有非 线性映射、分类识别、知识处理。因为 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 9 人工神经元类型有很多种,他们之间的 链接也种类不同,所以神经网络种类也 有很多。从神经网络的的拓扑结构来看, 有全互连型结构、层次性结构、网孔结 构。BP 神经网络是一种基于有监督的 学习、使用非线性的可导函数作为它的 传递函数的前馈神经网络,功能最为强 大,也是应用领域最为广泛的类型。 神经网络由于模拟生物的神经网 络进行信息的处理,有着不断地自我学 习的优势,被广泛地应用在聚类、预测、 偏差分析等数据挖掘方面。比如在信息 领域,常用来进行系统识别、神经控制 和智能z 测;在医学领域,神经网络 被用于检测数据分析、生物活性研究、 建立医学专家系统;在经济领域上,用 来进行信贷分析、市场预测;在军事领 域上导弹的智能引导、航天器的姿态调 控、战场管理和决策支持系统等。 5.结束语 未

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论