基于海量数据的装备维修保障数据挖掘方法研究计算机科学和技术专业_第1页
基于海量数据的装备维修保障数据挖掘方法研究计算机科学和技术专业_第2页
基于海量数据的装备维修保障数据挖掘方法研究计算机科学和技术专业_第3页
基于海量数据的装备维修保障数据挖掘方法研究计算机科学和技术专业_第4页
基于海量数据的装备维修保障数据挖掘方法研究计算机科学和技术专业_第5页
已阅读5页,还剩17页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

陆军装甲兵学院本科毕业论文基于海量数据的装备维修保障数据挖掘方法研究基于海量数据的装备维修保障数据挖掘方法研究摘要现如今,全球诸多领域均致力于实现信息化,数据体量不断增加,与之伴随而来的是传统数据处理方式的衰退,海量的数据不能再以以往的方式进行存储和管理,在此背景下,学者们纷纷研究出更为优良的大数据处理技术。在目前成熟的大数据平台下,针对各种类型的数据进行深入挖掘,已经成为当前大数据领域的主流研究课题。正是由于大数据表现出海量的规模,并且含有可伸缩的基本特性,才可为后期的数据挖掘提供极其有力的先决条件。因此,本文选择基于海量数据对装备维修保障决策分析算法进行研究。本文对于装备维修保障决策分析数据挖掘算法进行了研究。首先,笔者针对此次设计的基本背景及其实际意义,进行较为深入的细致阐述,并确定本课题在当前时期的发展现状;其次,笔者针对数据挖掘自始至终的发展进程,进行科学深入的依次阐述;之后在对数据挖掘中的算法进行简要分析,最后,结合数据挖掘技术在装备维修保障中的运用进行理性分析和研究。近年来,我军装备的绝大部分基本上实现机械化,并且伴随信息化以及装备维修保障的进步和创新,累积下了数据庞大的数据量。因此当前如何利用好这些数据,为后期的装备维护提供极其有力的数据支撑,是一个很是有意义和影响深远的课题。在本篇论文中,着重于秉持数据挖掘的基本准则,并选择恰当适宜的基本方法,针对其在装备维护方面所能达到的应用效果,进行科学合理的综合探究。并介绍基于海量数据的装备维修保障的数据挖掘的具体理论和方法,为具体的运用提供一些参考价值,也具有一定的指导作用。关键词:数据挖掘;大数据;装备维修;保障AbstractWiththeadventofthebigdataage,thescaleandstyleofdataaregettinglargerandlargerandmorecumbersome.Alargenumberofdatahavedifferentqualitiesanddifferentdatacapacities,resultingindifferentvaluedensities.Therefore,itisverydifficultforuserstoobtainvaluableinformationfromtheperiodtomeetindividualneeds.Inordertoreasonablysolveindividualneeds,weshouldanalyzedatamining,Thedefinitionofbigdataandthecharacteristicsofbigdata.Inrecentyears,themainbusinessofvariousunitsinChinahasbasicallybeenmodernized,andwiththedevelopmentandinnovationofinformationtechnologyandbusiness,ahugeamountaccumulated.Therefore,howtomakebetteruseofthesedatatoprovideeffectivedecision-makingsupportinvariousfieldsisafar-reachingissue.Thispaperintroducestheprocessofdataminingbasedonequipmentmaintenanceandthemethodofspecifictheory.Keywords:Datamining;Bigdata;Equipmentmaintenance;Support

第一章绪论1.1课题研究的背景和意义本课题来源于装备维修保障决策分析这一科研项目,属于应用学科的分支。由于以云计算和物联网为例的多样化信息技术,正逐步充斥于人们生活中的方方面面,故而大数据时代已经来临;我国军事能力大幅提升,装备越来越精良,但同时也产生了装备维修保障困难的问题。从本质上来看,多样化装备所涉及的维修统计信息往往相对复杂,并且过于分散,难以实现信息共享,更遑论对其进行充分的实际利用,也无法达到科学有效的统筹管理效果。故而,以多样化数据为基础而构建出科学完善的装备维修保障信息分析系统势在必行,通过针对多元化装备所涉及的维修信息,进行较为深入的数据挖掘以及科学合理的统筹分析,将可据此围绕一系列业务进行更深层次的细致研究。例如:全寿命周期的费用分析。不仅如此,还能据此针对装备使用单位等,制定出合理健全的维修保障计划,并可持续完善现有的资源配置。从大数据范畴来看,尤为关键的核心技术即为数据挖掘技术,本课题着重利用数据挖掘技术解决困扰我军已久的装备维修保障困难的问题,并提出建设性意见和可行性方案。本课题基于建设装备维修保障系统,借助尤为典型的数据挖掘方法,针对多样化装备所涉及的损坏数据,进行较为细致的深入研究,并通过朴素贝叶斯、关联分类等算法对数据进行分析,目的在于根据已有的数据,找出其中的规律,以此来制定出科学完善的装备维修保障方案。在本篇论文中,主要基于现有装备所涉及损坏数据的各项基本特征,运用如今已有的数据挖掘处理方法技术,提出基于海量数据的装备保障维修算法,并进行实例验证。总体来说,本文主要有以下几点意义:(1)我军所持有的装备技术,在近年来日益获得相对稳定的迅猛发展,信息化装备逐步列装,故而对于多样化装备所提出的一系列维修保障需求也与日俱增,在此背景下,如何高效地对装备维修保障方案进行决策分析,是我军目前装备保障的重点。在我军装备更新日益加快的今天,装备损坏数据就变得越规模更加庞大、价值更高,如能运用数据挖掘技术准确高效的分析这些数据,不仅能直观的看出装备损坏的总体情况,还能找出一些隐藏其中的规律,这对于装备保障、宏观统筹装备是一个非常重要的手段。(2)实际上,全球各国彼此间围绕数据挖掘技术而获得的研究成果相距甚远,这种差距不仅存在于理论方面,也存在于应用方面。相较于西方发达国家现有的研究成果而言,中国在此方面所开展的研究相对较迟,故而尚未研究出较为成熟的理论予以支撑。在当前时期,中国主要针对海量数据进行较为基础的初级处理,其中尤为典型的即为模糊化处理。而在某些西方发达国家中,已经在此方面研发相匹配的软件。相比之下,中国在此方面尚未研发出优良的软件,究其根本,在于研发主力为国内各大高校,研究经费均由国家拨款,故而不具备竞争力,这极大制约中国在此方面的实际发展进程。海量数据挖掘技术在我军军队装备管理中运用较少,如本文提出的基于海量数据的装备维修保障数据挖掘方法研究有所成效,那对于数据挖掘技术的推广和装备数据的处理都可以起到积极的作用和效果。1.2课题研究的现状1.2.1大数据的发展现状现如今,全球学者针对大数据技术所开展的各项研究,通常基于四大关键点着手,其中包含基础理论以及应用时间,与此同时,还涵盖关键技术以及相应的数据安全。以基础理论为例,其在现今依然存在一系列理论问题亟待解决。例如:当今学者并未针对大数据技术进行统一的合理定义,并且尚未在结构模型等方面设定规范化的判定标准。以关键技术为例,当前学者尚未找到可统一转换大数据基本格式的有效方法,并尚未针对以数据转移为例的一系列问题,进行科学有效的解决。然而,大数据却表现出尤为显著的异构性,这意味着若能有效提高大数据格式转化过程中的实际效率,则将能大幅提升其所含有的应用价值;值得一提的是,若想有效提高大数据的计算能力,则必须首先提升各项数据表现出的转移速率,这须有待于操作者针对各类数据进行科学有效的细致处理。在此过程中,数据重组以及针对不正确的数据进行二次利用等基本方式,均可切实提升大数据所含的应用价值。以应用实践为例,现如今,大数据在各个领域中的应用,大多集中于数据管理及其相应的数据集成等方面。此外,以数据安全为例,如何切实保障数据安全,维护用户的个人隐私,已经成为该领域亟待解决的根本问题。这是由于,如果应用大数据技术,则将很容易暴露用户隐私;不仅如此,因为大数据在精准度方面存在一定的偏差,故而将会不可避免的出现一系列数据质量问题。1.2.2数据挖掘技术在军队中的应用最新出现的科学技术往往都能在军事中有所体现,并为军事技术的发展起到积极的推进作用。毋庸置疑的是,西方发达国家在数据挖掘技术方面开展的研究相对较早,并且技术也更加趋于成熟。美军早在2010年就建成了完整的装备数据库和仓库业务管理自动化系统,能够实现装备数据的电子化管理,每件装备都有对应的电子档案。以美国为例的发达国家,已经针对自身的装备维修保障系统进行长达半个世纪的持续优化,早期即已实现自动化,并日益获得相对稳定的蓬勃发展。不仅如此,这些国家还将极为优良的数据挖掘技术,均融于自身的装备维修过程,此外还应用前沿的自动检测技术,设定数字化的高端工具箱,成功构建科学健全的远程维修支援系统,这将对多样化装备所涉及的后期维护工作,提供极其有力的技术保障。相比之下,我军在装备管理上一直处于较低水平,其中主要的问题在于装备数据的不完整和不健全,没有形成完整的装备数据存储体系,在我军庞大的装备量这一背景下。为了充分了解通用装备现状,2013年底,完成通用装备的普查工作,成功构建出大规模的装备数据库。在此背景下,应当怎样针对海量数据进行科学合理的综合分析,并有效提高数据的实际利用率特别关键。在本篇论文中,旨在基于数据挖掘技术针对各种类型的数据,进行较为深入的细致分析并深入挖掘,以求找到更为良好的应用保障法。1.2.3数据挖掘技术的发展趋势在大数据时代的背景下,若能将现今备受青睐的数据挖掘技术引入现有的装备维修保障系统中,必将可获得良好成效。这不仅是时代发展的必由途径,而且还可有效提升军队现有的装备维护能力。大数据作为一个强大的数据库,其具有巨大的实用价值,对于装备维修保障系统来说,其强大的信息资源供应量已经为军队信息化建设的重要支持力量,对于信息的获取渠道也必将进一步拓展。我军装备的发展正朝着多样化、智能化、信息化的方向发展,主要表现在装备种类多、数量多、高科技程度高等方面,这将会给维修保障带来了不小的困难,大数据、云计算、人工智能技术将对装备维修保障系统辅助决策提供强有力支持,结合数据挖掘技术,将可针对多样化装备所涉及的一系列维修保障信息,进行较为深入的细致处理,并由此获得精准有效的分析结果。1.3本文研究内容在本篇论文中,主要秉持我军现有装备涉及各项维护任务的基本特征,利用海量数据挖掘技术,针对性提出可行性高的辅助决策。研究内容主要有以下几点;(1)深入掌握数据挖掘领域的基本知识。大数据作为新兴产业,在过去的一段时间内展现了惊人的活力与生产力,数据挖掘技术知识繁多复杂,在研究本课题主要解决的问题之前,必须首先对数据挖掘技术有所了解和掌握。值得一提的是,对于数据挖掘技术而言,尤为关键的元素即为算法,故而需要据此进行更深层次的细致研究。(2)深入研究我军现有装备所涉及的各项维护数据本课题的算法主要应用于装备维修保障数据分析,所以我们首先需要研究我军装备维修保障现状以及收集整理数据,并进行全面细致的分析。本文介绍了基于海量数据的装备维修保障数据挖掘方法研究,并对其进行检测。(3)深入研究以多样化数据为基础而成功构建的数据挖掘算法现如今,全球学者围绕数据挖掘技术而研究的各项算法已经逐步趋于成熟。在多种多类的算法中我们需要找出适用于本课题的算法,并对其进行优化处理。(4)数据处理和可视化处理大数据往往不会直观的表现出其特点和规律,对于算法处理后的数据,必须对其进行科学深入的可视化处理,以帮助使用者更加清晰的看出其规律,更好地辅助决策。1.4本文章节组织本文在章节组织上主要分为:第一章,绪论。在此章节中,旨在针对本文的基本背景及其实际意义,进行较为深入的细致阐述,以及通过对大数据和数据挖掘技术的发展现状和趋势的介绍,简要介绍了本课题所研究的方向。第二章大数据与数据挖掘技术具体介绍了大数据技术的数据挖掘技术这两个基本内容,通过对两大基本内容体系结构和技术原理的分析,为下文的具体数据分析应用打下理论基础。第三章数据挖掘方法研究主要介绍了常用的数据挖掘方法以及算法第四章数据挖掘技术在装备维修保障中的运用介绍了全军通用装备维修保障数据的处理和计算,然后分析了全军通用装备维修保障数据的特点,然后对数据进行预处理和简化以方便用算法对数据进行处理,设计出数据计算模型,并详细介绍了全军通用装备维修保障数据的处理过程,最后,针对已经获得的处理结果进行科学合理的可视化分析。第二章大数据与数据挖掘技术2.1大数据技术2.1.1大数据技术简介大数据的基本定义最先起源于西方发达国家美国。大数据名称来自未来学钻研规模权势巨子未来学家托夫勒的书《第三次海潮》。大数据的进步蓬勃伊始于2009年,“大数据”这一名词在全球范围内广泛传播。然而,大数据是成熟进步经历中的一个自我进步经历和概念。当前的崛起和进步,是由于其规模的巨大变换和数据积累。在当今世界,大数据存在于各行各业,衣食住行,充斥于人们生活中的方方面面,并且还将在未来一段时期,为人类社会带来极其深远的影响。2.1.2大数据技术的特点大数据具备以下4个特点:首先,其含有海量数据。以印刷材料为例,其至今为止的生产数据量累计高达200PB。然而,普通的硬盘容量已经达到TB量级,甚至于某些企业级数据量将达到EB量级。中国具有世界上非常多的网络名,每时每刻产生的数据量极大。比如众所周知的淘宝网站每日产生的数据量大于5万CB而存储量大于4000万GB。百度目前的总数据大于10亿GB。每时每刻解决大于60亿个数据请求和转发。一台8mbps的相机可以在两小时内产生8.0GB的数据请求。其次,数据的种类趋于多样化。在当前时期,数据并不单单以文本形式呈现出来,而是以图片以及视频等各种类型的数据加以呈现,愈加趋于个性化。其三,其表现出尤为迅猛的处理速度。甚至可在1s内,即在多样化数据中获得自身所需的各项信息。最后,表现出不太高的价值密度。例如:在1h的视频中,由于持续测试,故而后期可获得的高价值数据,也许仅为1s左右。2.1.3大数据技术的未来大数据技术极富创新性,故而必将在未来得到快速地发展和广泛的应用,其原因有以下几点:首先,大数据本身可以产生更多的利润。简而言之就是付出和回报是呈现正比例。重点是数据本身,数据本身也将为信息社会提供整体能量。其次,科技规模在大数据的推进下正在迅速进步。这些进步大都在推进科学技能的进步。大数据正在推进科学技能的快速进步,相辅相成构成大数据特有的产业链。大数据经过多年的进步,初步构成为了自己独特的产业文化和产业链,包括数据的采组合、整理、传输等。在大数据的进步中,一些行业已经构成为了必然的规模。相信在未来伴随的数据的持续长足的进步,和大数据有所联系关系的产业也将迎来改变。第三,产业构造的互联网将促进大数据的登陆。互联网目前正在产生巨大变换,这是一个历史性转折点和过渡期。2.2数据挖掘概述数据挖掘的基本含义为:在各种类型的数据中迅速挖掘自身所需的高价值信息,经由科学合理的综合分析,将可掌握多样化数据彼此间的深入联系。数据挖掘技术主要代表为实现一系列数据挖掘任务,而必须采用的所有技术。现如今,以金融为例的多样化领域,已经针对各项数据挖掘技术进行较为广泛的多方位应用,并以此针对用户更加倾向的购物需求,进行较为深入的细致分析。在此过程中,大部分企业均研究用户的短期行为,亦或为针对某特定问题展开深入研究,暂时并不存在规范化的理论。但须注意的是,对于以往一直沿用的数据挖掘技术而言,若持续提高数据维度,则亟待挖掘的资源将迅速攀升。故而当作用于超过PB级的大数据时,应该针对性研究出匹配的有效方法。2.2.1数据挖掘当前时期,互联网领域掀起一阵研发数据库系统的浪潮,在此背景下,数据挖掘应运而生。其实则为交叉性学科,涉及到诸多领域,其中包含机器学习、人工智能以及相应的模式识别等各个领域,详见下图。数据挖掘的基本概念为:基于各种类型的海量数据,挖掘其中所隐含的关键信息的行为。数据挖掘重点涵盖数据融合以及相应的决策支持等一系列基本内容。值得一提的是,数据源的数量必须足够,并应富含一定的噪声,还得是绝大多数用户均感兴趣的各项数据。而成功挖掘的数据需要含有良好的实用性,并便于理解。知识实则起源于数据,则主要包含是概念、模式以及约束等各项内容。原始数据将能设定为结构化数据,例如:存在于某特定关系型数据库当中的一系列数据;与此同时,还能设定为也非结构化数据,例如:文本以及图像等各项数据。除此之外,还能设定为半结构化数据,例如:网页。不仅如此,挖掘知识过程中所应用的方法,将能选择为数学方法,但同时也能选择为非数学方法;此外还能选定为演绎亦或为归纳的方法。而通过挖掘操作所获得的知识需要含有一定的应用价值,将能适用于查询优化以及过程控制等一系列环节,还能维护多样化数据。从本质上而言,数据挖掘实则属于交叉学科,由于现今用户提出的一系列需求与日俱增,故而全球学者纷纷将数据库技术、数理统计以及并行计算等诸多领域涉及的专业知识融于其中,以求获得相对良好的成效。在数据挖掘的过程中,需要首先成功采集自身所需的海量数据,这些数据不仅需要数量足够,而且应该趋于多样化,唯有如此,才可进行科学精准的判断,并由此构建相匹配的认知模型。据此而形成的经验若能经过长期的积累,则将可有助于操作者进行科学的判断。值得一提的是,认知模型表现出尤为显著的渐进发展特征,一旦认识充分,则将衍生出一系列猜想,据此将可针对现有模型进行良好的扩展,以实现深度挖掘。2.2.2数据挖掘分类通常情况下,数据挖掘将能细分为两大类别,其中包含直接数据挖掘,与此同时,还涵盖间接数据挖掘。(1)直接数据挖掘前者主要借助当前数据构建科学完善的特定模型,并据此针对某特定变量进行较为深入的细致描述以及预估等一系列操作。(2)间接数据挖掘后者主要基于全部变量构建彼此间的深入关系模型,其中涉及到关联规则、可视化等基本内容。2.2.3数据挖掘技术数据挖掘技术主要针对多样化数据挖掘方法进行科学融合。事实上,现有的数据挖掘方法种类繁多。如果基于挖掘任务进行细分,则其将能细分为预测模型、分类回归、序列模式、依赖模型以及相应的离群点检测等若干类别。如果基于挖掘对象进行细分,则其将能细分为关系数据库、空间数据库、文本数据源、异质数据库及其相应的环球网Web等基本类别。与此同时,如果基于挖掘方法进行细分,则其将能细分为机器学习以及相应的神经网络方法等。如果基于机器学习法进行细分,则其将能细分为归纳学习及其相应的遗传算法等若干类别。除此之外,如果基于统计方法进行细分,则其将能细分为回归分析、判别分析、聚类分析以及相应的探索性分析等一系列方法。以神经网络法为例,其还能细分为自组织神经网络法等。而数据库方法则重点涵盖OLAP法等。事实上,数据挖掘还融于多样化领域所涉及的各项算法,其中重点涵盖:(1)统计学所涉及的抽样算法以及检验算法等。(2)人工智能以及机器学习领域所涉及的搜索算法等。(3)进化计算、信号处理以及相应的信息检索算法等。不仅如此,其他诸多领域所含有的技术也尤为关键。例如:高性能计算技术以及优良的分布式技术,均可有助于数据库系统针对多样化数据进行科学有效的细致处理,这能实现融合处理。2.2.4数据挖掘的发展进步自20世纪末期,基于多样化学科的前提下,数据挖掘技术应运而生。近年来,由于数据库所含技能的逐步提升,人工智能领域日益获得相对稳定的迅猛发展,并逐步实现机械化。在此背景下,人类将两者彼此间良好衔接,借助数据库管制系统的作用针对海量数据进行实时存储,与此同时,借助计算机的作用针对海量数据进行科学合理的综合分析,并致力于挖掘各项数据隐含的关键信息。正因如此,才衍生出常识发明学科。直至今日,KDD的倾向研究点已经由此逐步过渡至应用过程。自21世纪起,持续优化的数据挖掘已经逐步趋于成熟。而在当前时期,由于各种类型的信息技术日益获得相对稳定的蓬勃发展,故而挖掘技术所发挥出的作用愈加关键,并通常以法则、概念、法则和模式加以表示。置身于21世纪,数据挖掘已经成为当前时期尤为典型的跨学科课题之一。随着信息技能的进步,数据挖掘技能愈来愈成熟。自21世纪起,数据库、统计学、模式识别、数据可视化及其相应的空间数据分析等创新性技术日益兴起,而数据挖掘恰恰涵盖这些领域的理论知识,故而显得至关重要。第三章数据挖掘方法研究3.1算法的概念数据挖掘算法的基本含义为:基于多样化数据而成功创建的相匹配数据挖掘模型,以此进行较为深入的细致计算。当正式创建模型之前,需要首先针对亟待挖掘的数据进行科学合理的综合分析,以确定查找类型。当获得分析结果后,将可针对挖掘模型所涉及的最佳参数进行跟踪确定。其次,将其融于某特定的数据集,将可获得可行的各类模式等。基于挖掘模型的多样化,将可跟踪选择相匹配的算法,其中涵盖:(1)意味着数据集所含事例怎样相互关联的某特定分类。(2)可预测后期所得结果的决策树。(3)预测数据的数学模型。伴随着数据挖掘技术的诞生,产生了它独特的理论和算法,在数据挖掘发展历史中,无数的算法被推广,为了更方便快捷的进行挖掘计算,所产生的算法也成了研究的重中之重。伴随算法诞生以及其独特的联系关系法则。从本质上而言,数据挖掘算法实则以多样化数据为基础,以此来成功构建相匹配的数据挖掘模型。但当正式创建模型之前,需要首先针对亟待挖掘的数据进行科学合理的综合分析,以确定查找类型。3.2十大数据挖掘算法3.2.1C4.5(决策树)对于各种类型的机器学习算法来说,尤为典型的即为C4.5算法,这项算法实则为决策树算法,其中尤为关键的算法即为ID3算法,其不仅含有ID3算法所含的优势之处,而且还在下述基本方面,针对ID3算法进行针对性改进:1.首先,基于信息增益率选择与之相对应的属性;2.其次,在树构造时剪枝;3.随后,将可针对连续属性进行必要的离散化处理;4.最后,将能针对不全面的数据进行科学有效的处理。对于C4.5算法而言,其所含有的基本优势详细如下:由此而形成的分类规则将很容易进行理解,并可达到相对较高的精准率。然而,其依然存在某些不足之处,例如:在构造树时,必须针对某特定数据集进行频繁扫描,故而算法无法将保持较为良好的高效性。分类器将可针对海量数据的所属类别,进行恰当适宜的精准分类,而C4.5可将分类器通过决策树的基本形式呈现出来。必要时收集组合以C4.5表示的内容的分类数据。举例说明,假设一个涵盖大量信息的数据组合,比如年龄,爱好等。这些都被称为数据属性。现综合上述基本特征,针对多样化数据进行细致分类,C4.5根据数据属性猜测类型构建决策树。3.2.2K-Means(k均值聚类)K-Meansalgorithm算法实为当前备受青睐的聚类算法,即K-Means算法,将n个对象基于彼此属性将可细分为k个,并且k<n。此后,假定对象属性均来源空间向量,并力求使得群组所含的均方误差累加之和达到极小值。K-Means算法主要基于已知的某特定目标,成功创建若干个组,而这些组别所含的成分基本一致。对于聚类分析而言,类与组均代表一致。例如,若已知某相关步兵战车的数据集。则当处于聚类分析的过程中,必须知道这些战车所涉及的基本信息,如车辆尺寸、最大时速、油耗、最大速度和车辆全重等。这些信息即为匹配的特征向量。单个向量将可反应出战车的单列数据。也可看作为多维空间的对应坐标。在此之中,车辆尺寸主要代表一维坐标,而油耗主要代表其余维度的所含坐标。确定这个战车的向量集,K-Means算法可以把具有最大时速、最大速度和车辆全重等相似数据的战车进行聚类。K-Means算法将能基于操作者自身所需的数据种类,对各种变量进行恰当的深入处理,更深入地解决了这个问题。1.K-Means算法在多维空间中选取一些点来表示每个k类,它们叫做中心点。2.每辆战车都能从中找到最近的中心点。每辆战车最靠近的点不是相同的中心点,它们围绕最近的中心点构成一个类。3.现在有k个类,并且每辆战车都是属于同一个类。4.K-Means算法将可以类成员为基础,并基于战车所涉及的信息向量,以此来获得所有k聚类的中心位置。5此位置即为新的中心点。6因为中心点所处位置的差异性,故而战车将会趋向于其他中心点。这意味着,战车已经针对自身所含的类成员身份进行跟踪调整。循环2-6步骤,直至中心点已经保持恒定,则此时类成员将基本稳定。这也叫做收敛性。通常情况下,算法实则属于非监督学习的范畴。以K-Means算法为例,其将会自行学习怎样进行聚类。K-Means算法之所以能够广泛运用是因为它的简单性。这代表相较于其他各种算法而言,K-Means算法将能达到尤为迅猛的计算速度,并且极富有效性。特别在针对各类海量数据集进行科学有效的深入处理时,更能体现其优点。不仅如此,K-Means算法还能完成下述优化。首先,其可针对海量数据集进行较为深入的提前聚类处理;其次,还可针对某些成本较高的子类进行匹配的聚类分析。然而,K-Means算法依然存在某些不足之处,例如:其相对于异常值表现出尤为显著的敏感特性,这种特性同样存在于针对初始中心点进行恰当选择的过程中。值得一提的是,K-Means算法旨在针对连续数据进行科学有效的处理。故而若作用对象为离散数据,将有必要先通过其他方法进行妥善处理,才可运用K-Means算法。3.2.3SVM(支持向量机)支持向量机,英文简称SVM,其实则属于监督式学习的范畴,在统计分类以及相应的回归分析领域中,已经获得较为广泛的实际应用。事实上,支持向量机可将某特定向量径直映射至对应的高维空间,并据此成功构建某特定的最大间隔超平面。与此同时,还会在其两侧均建立彼此平行的超平面,当对其进行分隔时,则将可使得两者之间的实际距离达到极大值,若这项差距越大,则意味着分类器所能达到的总误差将会越小。当支持向量机成功获得某特定的超平面时,可将数据细分为两大类别,并选择高标准对其进行深入分析,此方法和C4.5算法的唯一差别,即并未应用到决策树,除此之外均完全一致。而超平面实为较为特殊的函数。基于实践结果将可得知,SVM仅需借助某特定技巧即可将各项数据带至高维度进行深入处理,此后还可将这些数据成功分离为两大类别的超平面。例如:若桌上本来含有一些黑球以及白球,这些球的颜色并未充分混合,则在此情况下,无需对此尽数移动,仅需借助某根棍子即能将其成功分离。然而,若在桌面添加某特定的新球,则将必须基于棍子两侧的球体颜色,来辨别此球的实际颜色。而SVM算法即可针对此超平面计算得知相匹配的方程。如果情况比例子中还要复杂,两种球充分混合在一起,那么一根棍子就不能简单地把两种球分开了。此时则应借助其他方法对该问题进行有效解决。例如:将桌子向上大力掀起,使得所有的球均处于空中,此时再将某大型纸板基于空中划分为两大平面。值得一提的是,这并不违反规则,而将桌子向上大力掀起,则意味着将数据成功映射至对应的高维空间。SVM算法主要基于核函数来实现高维空间的一系列操作。虽然大型纸板仍旧可看作为超平面,然而其所匹配的方程旨在描述某特定的平面,而非单独的线。桌面上的任意球均处于自身独有的位置,通过坐标即可对其进行直观表示。例如:某特定球和左方边缘相距20cm,而和底端相距50cm,此时即可通过坐标(20,50)对其进行表达。其中,20与50依次代表球所含的两大维度。若已知全部战车的基本信息,则可通过一系列向量对其加以描述,如车辆尺寸、最大时速、油耗、最大速度和车辆全重等,每个向量都代表一个维度。SVM通常会将相关数据径直映射至对应的高维空间,并由此获得可进行细致分类的某特定超平面。在此过程中,往往会与类间间隔彼此间良好衔接,其中,类间间隔主要代表超平面与某些类中和其相距最小的数据点彼此间的实际距离。例如:和棍子相距最小的红球,与蓝球间彼此间的实际距离即为所谓的类间间隔。而SVM则致力于针对类间间隔进行科学合理的最大化处理,从而使得已经分类后的超平面,尽可能和红球以及蓝球保持较远的实际距离。此举将能有效减少分类失误现象的发生。需要注意的是,超平面和红球的直线距离,与其到蓝球的实际距离完全一致。故而这些球将可看作为数据点,这是由于,其均支持此特定的超平面,故而这些数据点也可被称之为支持向量。从常理上来看,SVM应当纳入监督式学习的范畴。这是由于,有必要借助某特定的数据集,使得SVM可针对若干数据类型进行深入学习。唯有如此,SVM才可针对新的数据进行较为合理的细致分类。实际上,SVM以及C4.5均属于二类分类器,而对于SVM算法而言,其所含有的劣势在于核函数存在一定的选择性以及相应的可解释性。3.2.4Apriori关联算法Apriori算法所秉持的核心思想即为两阶段频集思想。而其遵循的关联规则若从类别上进行考量,则将可细分为单维以及布尔等若干关联规则。在本篇论文中,将全体支持度超过最小支持度的相关项集,统一看作为频繁项集。对于Apriori算法而言,尤为突出的基本特征,即遵循学习数据的关联规则,故而该算法适合蕴含大规模事务的数据库。值得一提的是,学习关联规则主要针对数据库当中所含多样化变量彼此间存在的内在关系,进行较为深入的数据挖掘。例如:存在仅蕴含海量装备维护数据的某特定数据库,此时可将其看作为大型电子数据表,而表中的单行则代表某项装备当前的维修保障情况,单列则代表闲置的装备项。基于运行Apriori算法,即可获得在同一时间维护的装备项,此举也可看作为关联规则。它的优点在于你能发现相比较其他装备项来说有些装备项维修保障次数更加频繁,而频繁维修的装备项将可看作为项集。在下述内容中,主要针对Apriori算法所表现出的工作方式,进行较为深入的细致研究,首先要明确以下三各方面:1.明确项集的大小,其类型是1-itemsets、2-itemsets还是3-itemsets。2.选择可支持的一系列项集,而能够有效满足一定支持度的某些项集,则将可看作为频繁项集。3.基于通过统计所得的项集中而含有的数据项,将可针对某特定数据项所含的条件概率等,进行科学精准的计算。例如:若在某特定项集中存在步战车,则将存在67%的信心水准,此特定项集应该会存在坦克。对于Apriori算法而言,其将可细分为下述基本步骤:1.参与。首先,针对数据库进行全面系统的扫描,以获得1-itemsets发生的频率。2.剪枝。将有效满足一定支持度的若干1-itemsets,径直移动至下一流程,并找到2-itemsets。3.重复。针对处在同一水平的项集进行循环计算,直至满足预先拟定的项集标准。与SVM算法不同,Apriori算法通常被看作为非监督类型的学习方法,这是由于,其往往作用于针对特殊的关系进行深入挖掘。而若能对其进行持续完善,则将可针对已完成标记的各项数据,进行科学合理的细致分类。此方法的优势之处在于很容易进行理解和使用,并存在一系列衍生算法;然而,其依然存在某些不足之处,例如:在生成项集的过程中,往往必须占据巨大的空间。3.2.5EM最大期望算法通常情况下,当处于统计计算过程中,最大期望算法(英文简称EM)主要基于概率模型,以获得最大后验估计算法。而在此之中,概率模型主要取决于不能进行观测的相应隐藏变量。值得一提的是,最大期望算法在当前已经于机器学习等领域中,获得较为广泛的多方位应用。当其作用于数据挖掘领域时,此方法通常又被人们称之为聚类算法,并以此进行较为深入的知识挖掘。当处于统计学领域中,若针对不能看出隐藏变量的某特定统计模型所涉及的参数,进行大致的估算时,EM算法将能通过持续迭代来获得此参数所涉及的似然估计值。模型可以反映出观测数据生成的规律。例如:在某随机的射击考核过程中,考生所得的考核成绩或许呈现出正态分布曲线,此时可假定该曲线即为模型,而通过分布可以预测可测量结果。还是这个例子,正是因为考核成绩完全遵从正态分布曲线,故而此曲线将可涵盖考核分数的全部可能性。此外,模型所含的分布属性需要通过各项参数进行描述。基于若干可测定的结果,针对某特定参数进行相应的估算,并据此获得的实际结果概率,通常又可被称之为似然性。此时概率主要代表确定结果的相应假设概率。继续使用上文的例子,若通过射击考核所得的分数分布曲线,均值表现为85,方差表现为100。则针对该曲线进行描述的全体参数,均为方差以及对应的均值。若已经掌握大量的分数数据,并且这些数据均遵循此曲线,然而,却并未获得全部成绩,仅获得某特定的样本。在此情况下,虽然无法获得全部分数的实际方差亦或为均值,然而却能基于样本进行细致计算。通过EM算法进行聚类,需要首先针对一系列模型参数进行必要的猜测。然后会进行以下3步的循环:1.首先,以模型参数为基础,针对全部数据点所含聚类的真实分配概率,进行较为精准的深入计算。2.其次,更新现有的模型参数。3.最后,循环上述基本流程,直至模型参数收敛。对于EM算法而言,其实则表现出显著的非监督特性。优势之处在于简洁易懂,不仅能针对现有的模型参数进行持续完善,而且还可针对已经丢失的数据,进行循环猜测和深入分析。同样,EM算法有以下两个缺点:1.其在早期迭代过程中,表现出尤为迅猛的运行速度,然而后期却逐步降低。2.其无法持续获得最优参数,故而仅能得到局部最优解。3.2.6PageRank算法对于Google算法而言,尤为关键的算法即为PageRank。2001年,全球著名学者拉里•佩奇成功研究出PageRank算法。对于此算法而言,其主要基于网站所含的内部以及外部链接数量等,来评判该网站所含的实际价值。此外,链接流行度的基本概念为:针对愿意和某特定的网站彼此连接的其他网站的实际数量,进行较为精准的衡量。PageRank主要以某特定的网络为基准,针对若干对象与其中所含其余对象彼此间的重要性,进行较为精准的衡量,该算法实则为当前尤为典型的连接分析算法,旨在针对多样化对象彼此间存在的内在关系进行深入挖掘。而存在于万维网中的网页则彼此链接,若已经成功链接至CNN当中的某特定网页,则CNN网页将会提高1个投票,这意味着R与CNN网页彼此关联。当然,这项投票的关键性将决定于本身的重要性。可这样认为,所有给投票的网页也能提升网页的关联性。在下述内容中,将重点阐述PageRank所涉及的若干创新应用:1.学者DrStefanoAllesina曾经将PageRank成功融于生态学领域当中,从而针对多样化物种相对于生态系统而表现出的关键性,进行较为深入的细致研究。2.学者Twitter曾经成功研发WTF算法,其将可向用户推荐匹配的关注人。3.学者BinJiang曾经借助于已优化的PageRank,针对伦敦行人表现出的移动速率,进行较为精准的预测。PageRank算法实则为尤为典型的非监督学习算法。若想针对图表所含一系列元素的优先性等进行深入分析,则将能运用此类算法。3.2.7AdaBoost迭代算法AdaBoost属于迭代算法的范畴,其主要以某特定训练集为基础,针对多样化分类器进行必要的训练,随后,再将其彼此集合,以构建出性能更为优良的最终分类器。对于此算法而言,其主要基于训练集所含全部样本的分类精准性进行判定,并通过上次操作所得的精准性,针对全部样本的实际权值进行及时确定。其次,将已经完成修改的权值所属的数据集,移送至下层分类器依次训练,随后,将经由全部训练所获得的分类器进行良好衔接,以此构建出性能更为优良的决策分类器。因为弱分类器仅含有单层决策树,故而尤其所获得的结果,在精准性方面仅略微高于预测值。相比之下,强分类器将能表现出尤为显著的精准率,其中SVM的代表性较高。若存在3个弱分类器,则需要基于蕴含海量装备维护数据的某特定数据训练集中,对其进行高达10轮的依次训练。接下来对某件装备是否需要进行维修进行预测:AdaBoost将会提取一系列训练数据,并依次针对所有分类器能够达到的精准率,进行较为深入的细致测试,以此来找出最优分类器。不仅如此,最优分类器也需基于自身的精准率来赋予匹配的权重,并将其融于现有的联合分类器当中。随后,AdaBoost将会致力于找到最优分类器。事实上,分类者仅能确保某些装备在分类过程中的精准性,故而若能针对误分类装备进行科学有效的深入处理,必将可获得较为良好的效果。当最佳分类器二次赋予匹配权重,并融于联合分类器之中,则经过误分类的相关装备也将含有自身的权重,从而更容易在后期选中,并循环利用。周而复始,最终仅会留存已结束相应训练的性能优良的联合学习分类器。从本质上而言,AdaBoost实则属于监督学习方法。其不仅相对简单,而且很容易进行编程,并能达到尤为迅猛的运行速度。算法含有较强的灵活性和通用性,当处于AdaBoost之中,将能融于多样化学习算法,还可针对各种类型的数据,进行科学有效的及时处理。相较于强学习器而言,弱分类器不仅相对简单,而且可达到尤为迅猛的运行速度。这是由于,单轮不间断的Adaboost回合将可持续更新最优学习器的实际权重,故而分类者仅需确定运行过程的回合数即可。3.2.8K最近邻分类算法K最近邻分类算法(英文简称KNN),属于当前尤为典型的一类机器学习算法。其所秉持的基本思路详细如下:若某特定样本基于指定特征空间所含的k个最相似的样本中,表现出完全一致的类别,则此样本也在其列。KNN算法属于懒散学习算法的范畴,其在训练时无需进行深入的细致处理。仅在输入全新并且没有进行分类的数据时,KNN算法才会对其进行必要的分类处理。相比之下,积极学习算法则将会在训练过程中,构建出科学完善的分类模型,一旦输入全新并且没有进行分类的数据时,则分类器会将其会转移至此分类模型中进行深入处理。值得一提的是,C4.5以及SVM算法等均为积极学习算法。分析如下:1.C4.5在训练中建立了一个决策分类树模型。2.SVM在训练中建立了一个超平面分类模型。3.AdaBoost在训练中建立了一个联合分类模型。然而,KNN算法却并未构建出此种分类模型,而是对已经实现分类的一系列数据进行及时存储。在此情况下,一旦输入全新数据,则KNN将会遵循下述两项步骤:1.观察最近的已分类的训练数据点——k最临近点(k-nearestneighbors)2.使用新数据最近邻近点的分类。若作用对象为连续数据,则KNN将会运用相匹配的距离测度,该测度的恰当选择主要由数据类型所决定;而若作用对象为离散数据,则一般会将其转换成相对应的连续数据,下面列举两种方法:1.使用汉明距离(HammingDistance)作为两个字符串紧密程度的测度。2把离散数据转化为二进制表征。KNN算法的本质为监督学习算法,非常便于理解和实现,若运用以距离测度为基础而构建的算法,则此类算法将表现出尤为良好的精确度。下面是需要注意的5点:1.当试图在一个大数据集上计算最临近点时,KNN算法可能会耗费高昂的计算成本。2噪声数据(NoisyData)可能会影响到KNN的分类。3通常情况下,若选择大规模的属性筛选将能获得显著的的效果,这一点尤为关键。4由于数据处理会出现延迟,KNN相比积极分类器,一般需要更强大的存储需求。5选择一个合适的距离测度对KNN的准确性来说至关重要。3.2.9朴素贝叶斯算法在一系列分类模型中,尤为典型的分类模型主要分为两种,其中包含决策树模型,与此同时,还涵盖朴素贝叶斯模型(英文简称NBC)。后者源自古典数学理论,表现出相对稳定的分类效率。不仅如此,其所需的估计参数相对较少,算法也较为简单。基于理论方面来看,NBC模型的误差率较低。然而实际却不然,这是由于,NBC模型首先假定多样化属性彼此独立,但这种理想状态并存在。若出现属性实际数量较多的情况下,则NBC模型所能达到的分类效率将远远不及。当属性相关性不大的情况下,NBC模型将可达到尤为良好的性能。基于上述内容将可得知,朴素贝叶斯实为针对分类算法而构建的模型,多样化属性彼此间的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论