大数据创新课程总结报告_第1页
大数据创新课程总结报告_第2页
大数据创新课程总结报告_第3页
大数据创新课程总结报告_第4页
大数据创新课程总结报告_第5页
已阅读5页,还剩6页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

精选优质文档-----倾情为你奉上精选优质文档-----倾情为你奉上专心---专注---专业专心---专注---专业精选优质文档-----倾情为你奉上专心---专注---专业*******************创新课程*******************兰州理工大学计算机与通信学院2015年秋季学期学习总结报告专业班级:计算机科学与技术13级4班姓名:尚锞学号:指导教师:王艳成绩:TOC\o"1-3"\h\u摘要数据(Data)是对事实、概念或指令的一种表达形式,可由人工或装置进行处理。数据经过解释并赋予一定的意义之后,便成为信息。数据处理(dataprocessing)是对数据的采集、、检索、加工、变换和传输。本文介绍了多种数据分析与处理的方法,数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。这一过程也是的支持过程。在实用中,数据分析可帮助人们作出判断,以便采取适当行动。数据处理的基本目的是从大量的、可能是杂乱无章的、难以理解的数据中抽取并推导出对于某些特定的人们来说是有价值、有意义的数据。关键词:数据处理、数据采集、存储、检索一、数据分析与处理概述越来越多的应用涉及到大数据,这些数据的属性,包括数量,速度,多样性等等都是呈现了数据不断增长的复杂性,所以,数据的分析方法在数据领域就显得尤为重要,可以说是决定最终信息是否有价值的决定性因素。基于此,数据分析的方法理论有哪些呢?1.1数据分析PredictiveAnalyticCapabilities(预测性分析能力)数据挖掘可以让分析员更好的理解数据,而预测性分析可以让分析员根据可视化分析和数据挖掘的结果做出一些预测性的判断。DataQualityandMasterDataManagement(数据质量和数据管理)数据质量和数据管理是一些管理方面的最佳实践。通过标准化的流程和工具对数据进行处理可以保证一个预先定义好的高质量的分析结果。AnalyticVisualizations(可视化分析)不管是对数据分析专家还是普通用户,数据可视化是数据分析工具最基本的要求。可视化可以直观的展示数据,让数据自己说话,让观众听到结果。SemanticEngines(语义引擎)我们知道由于非结构化数据的多样性带来了数据分析的新的挑战,我们需要一系列的工具去解析,提取,分析数据。语义引擎需要被设计成能够从“文档”中智能提取信息。DataMiningAlgorithms(数据挖掘算法)可视化是给人看的,数据挖掘就是给机器看的。集群、分割、孤立点分析还有其他的算法让我们深入数据内部,挖掘价值。这些算法不仅要处理大数据的量,也要处理大数据的速度。假如大数据真的是下一个重要的技术革新的话,我们最好把精力关注在大数据能给我们带来的好处,而不仅仅是挑战。1.2数据处理数据处理时代理念的三大转变:要全体不要抽样,要效率不要绝对精确,要相关不要因果。具体的大数据处理方法其实有很多,但是根据长时间的实践,笔者总结了一个基本的大数据处理流程,整个处理流程可以概括为四步,分别是采集、导入和预处理、统计和分析,以及挖掘。采集数据的采集是指利用多个数据库来接收发自客户端的数据,并且用户可以通过这些数据库来进行简单的查询和处理工作。比如,电商会使用传统的关系型数据库MySQL和Oracle等来存储每一笔事务数据,除此之外,Redis和MongoDB这样的NoSQL数据库也常用于数据的采集。在数据的采集过程中,其主要特点和挑战是并发数高,因为同时有可能会有成千上万的用户来进行访问和操作,比如火车票售票网站和淘宝,它们并发的访问量在峰值时达到上百万,所以需要在采集端部署大量数据库才能支撑。并且如何在这些数据库之间进行负载均衡和分片的确是需要深入的思考和设计。统计/分析统计与分析主要利用分布式数据库,或者分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总等,以满足大多数常见的分析需求,在这方面,一些实时性需求会用到EMC的GreenPlum、Oracle的Exadata,以及基于MySQL的列式存储Infobright等,而一些批处理,或者基于半结构化数据的需求可以使用Hadoop。统计与分析这部分的主要特点和挑战是分析涉及的数据量大,其对系统资源,特别是I/O会有极大的占用。导入/预处理虽然采集端本身会有很多数据库,但是如果要对这些海量数据进行有效的分析,还是应该将这些来自前端的数据导入到一个集中的大型分布式数据库,或者分布式存储集群,并且可以在导入基础上做一些简单的清洗和预处理工作。也有一些用户会在导入时使用来自Twitter的Storm来对数据进行流式计算,来满足部分业务的实时计算需求。导入与预处理过程的特点和挑战主要是导入的数据量大,每秒钟的导入量经常会达到百兆,甚至千兆级别。挖掘与前面统计和分析过程不同的是,数据挖掘一般没有什么预先设定好的主题,主要是在现有数据上面进行基于各种算法的计算,从而起到预测的效果,从而实现一些高级别数据分析的需求。比较典型算法有用于聚类的K-Means、用于统计学习的SVM和用于分类的NaiveBayes,主要使用的工具有Hadoop的Mahout等。该过程的特点和挑战主要是用于挖掘的算法很复杂,并且计算涉及的数据量和计算量都很大,还有,常用数据挖掘算法都以单线程为主二、算法理论2.1随机森林算法在机器学习中,随机森林(RandomForests)是一个包含多个决策树的分类器,并且其输出的类别是由个别树输出的类别的众数而定。由LeoBreiman和AdeleCutler发展、推论出的算法。这个术语是1995年由贝尔实验室的TinKamHo所提出的随机决策森林(randomdecisionforests)而来的。这个方法则是结合Breimans的"Bootstrapaggregating"想法和Ho的"randomsubspacemethod""以建造决策树的集合。随机森林算法过程:根据下列算法而建造每棵树:1.用N来表示训练例子的个数,M表示变量的数目。2.我们会被告知一个数m,被用来决定当在一个节点上做决定时,会使用到多少个变量。m应小于M3.从N个训练案例中以可重复取样的方式,取样N次,形成一组训练集(即bootstrap取样)。并使用这棵树来对剩余预测其类别,并评估其。4.对于每一个节点,随机选择m个基于此点上的变量。根据这m个变量,计算其最佳的分割方式。5.每棵树都会完整成长而不会剪枝(Pruning)(这有可能在建完一棵正常树状分类器后会被采用)。2.2高斯混合模型高斯混合模型和k-means其实是十分相似的,区别仅仅在于GMM引入了概率。高斯混合模型属于统计学习的模型中的概率模型。所谓概率模型,就是指我们要学习的模型的形式是P(Y|X),这样在分类的过程中,我们通过未知数据X可以获得Y取值的一个概率分布,也就是训练后模型得到的输出不是一个具体的值,而是一系列值的概率(对应于分类问题来说,就是对应于各个不同的类的概率),然后我们可以选取概率最大的那个类作为判决对象(算法分类softassignment)高斯混合模型的学习过程就是训练出几个概率分布,对样本中的数据分别在几个高斯模型上投影,就会分别得到在各个类上的概率,然后我们可以选取概率最大的类所为判决结果。三、算法实现3.1随机森林算法Trainingtree1/100...Trainingtree10/100...Trainingtree20/100...Trainingtree30/100...Trainingtree40/100...Trainingtree50/100...Trainingtree60/100...Trainingtree70/100...Trainingtree80/100...Trainingtree90/100...Trainingtree100/100...Classifierdistributions:18815nodeswereemptyandhadnoclassifier.Classifierwithid=1wasusedat0nodes.Classifierwithid=2wasusedat6685nodes.Classifierwithid=3wasusedat0nodes.Classifierwithid=4wasusedat0nodes.3.2高斯混合模型for(i=0;i<K_MODELS;i++)//K_MODELS为预先定义的模型数{//calculatethevector,v=(X-u)for(j=0;j<3;j++)v[j]=pixel[j]-model->mean[j];//calculatethesquareddistance,d=|v|^2model->dist2=v[0]*v[0]+v[1]*v[1]+v[2]*v[2];//zot:thisisonlyequaltomahalanobisdistance//whencovariancematrix=vI//(v=scalarvarianceforallchannels)model->mah2=model->dist2/model->var;//即为马兹距离//seeifXiscloseenoughtothismodelif(model->mah2<SFSquared)break;//thecurrentpixelmatchesoneoftheKmodels//SFSquared是预定义的值}四、仿真试验结果及分析4.1随机森林算法它是利用bootstrap重抽样方法从原始样本中抽取多个样本,对每bootstrap样本进行决策树建模,然后组合多棵决策树的预测,通过投票得出最终预测结果。它具有很高的预测准确率,对异常值和噪声具有很好的容忍度,且不容易出现过拟合,在医学、生物信息、管理学等领域有着广泛的应用。4.2高斯混合模型所谓高斯混合模型(GMM)就是指对样本的概率密度分布进行估计,而估计的模型是几个高斯模型加权之和(具体是几个要在模型训练前建立好)。其中,每个高斯模型就代表了一个类(一个Cluster)。五、结束语本次课题研究的是数据的分析与处理,在统计学领域,有些人将数据分析划分为描述性统计分析、探索性数据分析以及验证性数据分析;其中,探索性数据分析侧重于在数据之中发现新的特征,而验证性数据分析则侧重于已有假设的证实或证伪。数据处理是系统工程和自动控制的基本环节。数据处理贯穿于社会生产和社会生活的各个领域。数据处理技术的发展及其应用的广度和深度,极大地影响着人类社会发展的进程。通过数据分析与处

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论