




已阅读5页,还剩2页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
精品文档深度学习在数据挖掘中应用及相关介绍 摘 要 当今,由于互联网频繁的使用,海量的数据的产生,人们已然进入了大数据时代。在人们日常生活中产生了大量的数据,由于这些数据涉及信息量巨大、内容越来越复杂,导致对数据的分析和使用过程中所需考虑的问题越来越多。随着问题的加深深度学习在数据挖掘上的应用应运而生。本文对深度学习和数据挖掘进行一定的介绍和了解,以此分析总结深度学习在数据挖掘上的应用。 【关键词】数据挖掘 神经网络 深度学习 人工智能 1 引言 在大数据时代,我们已经离不开对数据进行分析与处理。大数据正在成为生活中的一部分:用大数据预测疾病,用大数据预测奖项,用大数据支撑智能交通,用大数据助力企业商业决策,用大数据分析客户心理。随着人们对数据结果的要求日益增加,人们提出了诸如分类、聚类、结合神经网络等更加可靠的方案。然而大量的数据中存在有用和无用的数据,如何从繁琐的大数据中取其精华去其糟粕成为当前挖掘数据中亟须解决的问题。为了这一需求人们对在数据处理中应用深度学习进行研究与技术推进,以此来适应在大数据时代下各领域对数据的应用。 2 数据挖掘 从海量的数据库中挖掘信息的过程挖掘就称之为数据挖掘(Data Mining)。换句话说,在数据库中的海量数据里找出隐含的、之前未知的有研究价值的信息的这一非平凡过程就是所谓数据挖掘。 数据挖掘是一项探测大量数据的业务流程,而且以发现有意义的模式(pattern)和规则(rule)为目的的。数据挖掘是基于机器学习、人工智能、模式识别等的一种决策支持过程,来智能分析企业数据,做出归纳性预测,帮助决策者根据已挖掘出的潜在的模式决策出正确的方案。 数据挖掘是要构造一个分类函数或模型(常称作分类器),该函数是根据事物属性、特点加以划分,而且该函数或模型能把数据库中的数据项映射到一个指定的分类类别,即分类功能;把整个数据库划分成不同的群组,并且规定同一群组内数据尽量接近相同、不同的组群差别显著,此为数据的聚类;关联分析就是采用关联规则和序列模式技术发现数据库各值的相关性;数据的预测顾名思义,把握数据规律,做出合理推测;偏差的检测是对少数的极端数据进行分析,表明其内在原因。 3 深度学习 研究人员对神经网络的不断研究,以此引出了深度学习(deep learning),可以说深度学习是神经网络的延伸。深度学习常常被误会为一种机器学习模型,而实际上它是一个框架、一种思路。 经研究表明,为能够学习表达高阶抽象的复杂函数,解决模式识别、数据分类、聚类和语言理解等相关的人工智能任务,需要融合深度学习。对于一些机器学习算法,会提到特征提取与选择,深度学习所解决的问题是在像文本分类,图片识别等过程中可以提取到让计算机明白的特征,最理想的情况就是把人类理解的特征复制到计算机上。 相对浅结构神经网络其优势为可以较好的实现高维复杂函数的表示;一个很重要的原因引用深度学习是它的高精确度;不需要手动提取特征,自动提取特征;其采用分层进行处理数据,神经网络每一层可以提取出输入数据不同水平的特征。 4 深度学习在数据挖掘中的应用 人工智能是通过一定的算法使计算机认知、认识世界,制造出与人类智能相似的方式做出反应的机器。研究人员模仿人类来制定特定的推理和认知,以此形成最初的人工智能。目前深度学习被人们所重视起来,许多公司企业着手研究深度学习。 近年来,深度学习尝试解决抽象认知的问题,而且取得巨大的突破。深度学习将人工智能带上一个新台阶,不仅在学术上产生巨大的影响,而且在实用性上取得进展。在数据挖掘方面取得一定的研究进展,语音识别方面,深度学习采用深度模型去替换声学模型中混合高斯模型,获得30%左右错误率降低;图像识别方面,通过构造深卷积神经网络,将原有26%的错误率降低到15%,又进一步加大加深网络的结构,错误率降至11%;在自然语言处理方面,在所得结果相当的条件下与其他方法相比,如果采用深度学习框架,能免去繁琐的提取特征的步骤。可以说,深度学习是特别接近人的大脑的智能学习方法,在一定程度上在挖掘数据的过程中非常适用。 在视觉问题上,深度学习带来了巨大影响。其中几个成果: (1)人脸识别LFW数据库上的结果,起初90%左右的正确率,到现在99.5%以上。人脸相关的应用受此影响,也越来越多。 (2)通用物体检测ImageNet上的检测任务结果,MAP最早的0.3左右,提高到0.66,而且还有提高空间。 (3)图像分割现在深度学习已经可以做到输入的是一张图片,输出就是逐个像素分割后的结果,中间也不需要任何预处理,并且精度远超非深度学习的结果。 5 结语 目前,采用深度学习对数据进行挖掘是比较热门的方法,因为能自动对数据进行快速处理,而且准确度较高,但毕竟深度学习还是一门不成熟的框架,同样存在着一些问题。诸如,局部最优问题;内存消耗大,计算复杂;人脑机理许多没应用上;认为设计模板可行性;代价函数设计;整个网络的设计等。这些问题需要在将来的研究中解决,以便更加完善深度学习,适应大数据时代。 参考文献 1Jiwei Han,等.数据挖掘概念与技术M.北京:机械工业出版社,2012(07):9-23. 2Simon Haykin(加),等.神经网络与机器学习M.北京:机械工业出版社,2011(01):1-25. 3谷俊丽:基于大数据的深度学习.http://s/blog_4cc6846d0102v20n.html,2014. 作者简介 曲宏锋(1989-),男,辽宁省大连市人
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025广西百色市平果市民政局公益性岗位人员招聘1人考前自测高频考点模拟试题附答案详解(模拟题)
- 2025河南郑州市新郑市面向社会聘任政务服务社会监督员、政务服务体验员10人考前自测高频考点模拟试题附答案详解(完整版)
- 2025年冀北博望电力产业管理(北京)有限公司高校毕业生招聘(第三批)模拟试卷及答案详解(易错题)
- 2025中电信翼智教育科技有限公司招聘6人笔试题库历年考点版附带答案详解
- 2025中国电信股份有限公司广东分公司校园招聘笔试题库历年考点版附带答案详解
- 2025中国东航东航股份规划部2025校园招聘笔试题库历年考点版附带答案详解
- 2025中外合作项目合同协议书
- 2025-2026学年云南省文山州富宁县上海市新纪元总校高二(上)月考数学试卷(9月份)(含答案)
- 定期安全人员培训课件
- 2025年国际贸易合作协议
- 电商行业员工行为规范与工作手册
- 借款合同中国农业银行担保借款合同3篇
- 建筑装修工程质量监督管理制度
- 不锈钢栏杆施工全流程方案
- 2025住院医师规范化培训院内师资培训考核测试题附答案
- 《一定要争气》(第2课时) 课件 小学语文部编版三年级上册
- 血透室护士手卫生
- USP232-233标准文本及中英文对照
- 部编版八上语文名著《红岩》问答题精练(教师版)
- 2025-2026学年人教精通版四年级英语上册(全册)教学设计(附目录)
- 2025年秋期人教版2年级上册数学核心素养教案(校园小导游)(教学反思有内容+二次备课版)
评论
0/150
提交评论