下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、云计算大数据挖掘体系构建分析 摘要:随着移动互联网、移动智能终端技术的快速发展,各种业务数据有了井喷式的增加,尤其是物联网的快速发展,产生了海量的实时监测数据。随着数据量的增大和数据类型的丰富,产生了大数据挖掘和云计算技术,本文从大数据挖掘步骤为切入点,分析了大数据挖掘存在的问题以及利用云计算技术解决问题的过程。 关键词:云计算;大数据挖掘 1引言 随着互联网技术的飞速发展以及各行业信息化的深入,业务数据从数量上还有类型上都发生了井喷式增长,特别是近几年物联网技术的普及,大量时序数据的产生标识着人类已经迈进了大数据时代。大数据不仅是数据量大,数据类型也极大的丰富。有传统的结构化数据,也有文本、
2、图片、视频等非结构化数据。大数据带来的潜在价值随着大数据挖掘技术的发展渐渐凸显出来。同时,基于云计算自身具备的计算存储资源松耦合集成和弹性资源分配等特点,能够在很大程度上支撑构建大数据挖掘体系所需的算力和存储资源需求,降低运行成本,安全可靠。 2大数据挖掘技术介绍 随着信息系统数字化和智能化的不断推进,数据规模也将呈指数级趋势增长。大数据挖掘将成为推动整个产业数字化升级的重要抓手和举措。大数据顾名思义是指数量极大的数据汇聚而成,大数据包括业务系统产生的业务数据,电商交易数据,物联网技术产生的时序数据,工业制造数据等等。这些数据中包含了极大的潜在价值有待开发,大数据挖掘技术指的是从海量数据中利用
3、合适的模型挖掘出有用的信息反馈给原来的系统,带来更多的业务价值。大数据挖掘分成六个步骤:(1)定义问题:在进行数据挖掘之前,首先需要定义本次挖掘需要解决的问题是什么,也就是说要给本次数据挖掘定义明确的目标。根据大数据定义的问题选择适合的模型,模型是否合适关系着本次挖掘是否成功。(2)建立大数据挖掘库:大数据挖掘的根本就是用存在的历史数据训练选择的模型,调整模型中可以改变的参数达到本次挖掘最好的效果,所以建立大数据挖掘库至关重要。建立大数据挖掘库首先要收集数据并对数据进行描述,通过ETL技术对数据进行清洗、转化和加载。保证数据库中的数据是有效数据。(3)分析数据:对准备好的数据进行分析,由于大数
4、据的数据量非常巨大,用人工分析几乎不可能。一般借助R语言或者Scala语言对数据进行分析,发现数据中对挖掘预测有影响的字段,为接下来的工作做好准备。(4)准备数据:通过数据分析后,可以锁定对挖掘预测结果有明显影响的字段,选择这些数据并进行记录,如果有进一步的需要,可以对这些数据进行函数转化后创造新的变量,并对这些新的变量进行记录,为后续的数据挖掘工作夯实数据基础。(5)建立并训练模型:根据过程开始定义的问题建立挖掘模型,建立挖掘模型是一个迭代的过程,首先考察不同的模型以判断是否对定义的问题有用。先用一部分准备的数据对模型进行训练,调整模型中的变量,然后在选择另一部分数据对模型进行测试,如有需要
5、,可以再选取一个数据集,对建立的模型进行验证。(6)评价模型并进行实施:训练好的模型要在实际的应用中进行推广,这对模型是一次考验。训练模型中会存在某些假设的条件,如果这些条件与实现的应用中条件一致,模型的评价度将会更高。评价模型首先要在小规模范围内进行实施然后分析预测的结果是否与实际情况相符。如果模型的评价度较高,则可以在大范围内进行推广。模型的实施一般有两种使用方法,一种是给数据分析人员或者是业务系统作为工具,根据实际的数据对业务趋势进行预测;二是把评价过的模型应用到不同的数据集合上。随着近几年互联网的高速发展,业务数据量的急速增长,业务场景也变得越来越复杂,大数据挖掘过程中数据的存储,数据
6、的计算对计算机的要求变得越来越高,大数据挖掘需要的基础资源的成本也随之迅速上升。 3云计算助力大数据挖掘 云计算能够为大数据挖掘提供低成本的算力和存储环境。云计算主要是通过虚拟化技术将CPU计算资源、硬件存储和网络资源虚拟成多个环境,根据计算和存储资源的需求情况进行动态弹性管理,从而最大限度提升物理资源的复用价值,有效降低大数据挖掘的运行成本。云计算能够为大数据挖掘构建一个高可用的算力及存储运行环境。为此利用云计算技术能够完成大数据挖掘所需要的规模级数据存储和计算功能。同时,云计算提供了一个高度安全可靠的运行环境,通常可以实现99.9%的高可用计算性能,能够为大数据挖掘提供实时计算和安全保障,
7、最大限度避免因电路故障或其它故障导致大数据挖掘服务停止运行等问题。云计算能够为大数据挖掘构建一个高扩展的算力及存储运行环境。基于云计算自身的高度开放集成和扩展性等特点,能够随着大数据挖掘规模的变化来动态增减算力和存储资源,从而使得整个应用集成系统构建具有较高灵活性,从而有效降低算力资源和存储资源的浪费,极大提升大数据挖掘系统的经济和环境效益。 4结束语 云计算技术的落地为大数据的存储和计算提供了弹性的资源管理环境,按需分配大数据挖掘需要的资源,降低了大数据挖掘的成本。随着云计算和大数据技术的不断进步,云计算和大数据技术的融合越来越紧密,云计算为大数据挖掘的快速发展提供良好的资源支持。 参考文献 1邓仲华,刘伟伟,陆颖隽.基于云计算的大数据挖掘内涵及解决方案研究J.情报理论与实践,2015,38(07):103-108. 2饶正婵,蒲天银.云计算条件下的大数据挖掘内涵及解决方案J.电子技术与软件工程,2018(13):154-155. 3孙培锋.基于
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025-2026学年福建省莆田市第二十四中学初三3月测试(线上)数学试题含解析
- 2026年大学大一(康复工程技术)假肢适配调整阶段测试题及答案
- 护理技能竞赛与授课展示
- 急诊科护理人员的创新能力培养
- 培训安全风险防控指南
- 护理核心制度与护理服务评估
- 护理引导式教学的课程设计与开发
- 护理应急调配改进措施
- 护理不良事件患者安全指标
- 心理评估服务规范考核试题及答案
- 风电、光伏项目前期及建设手续办理流程汇编
- 低血糖护理新技术新进展
- GB/T 44577-2024商用电动洗碗机性能测试方法
- 五育并举-立德树人始于行润品育心成于思
- T-CRHA 043-2024 住院患者皮肤撕裂伤风险评估和预防措施
- 工会安全监督检查记录
- 能源管理体系机械制造企业认证要求
- 《水电工程运行调度规程编制导则》(NB-T 10084-2018)
- 腰椎间盘突出疑难病例讨论
- 沪教版七年级下英语各单元语法课件
- 内分泌科糖尿病管理PDCA循环案例
评论
0/150
提交评论