【《数据分析与可视化技术综述》3400字】_第1页
【《数据分析与可视化技术综述》3400字】_第2页
【《数据分析与可视化技术综述》3400字】_第3页
【《数据分析与可视化技术综述》3400字】_第4页
【《数据分析与可视化技术综述》3400字】_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据分析与可视化技术综述目录TOC\o"1-3"\h\u27486数据分析与可视化技术综述 118931.1.1大数据分析技术 132381.1.2大数据可视化技术 266121.1.3自然语义处理技术 3大数据分析技术多源异构数据治理后最终的目的是为了人才数据的最大化应用。而在数据应用过程中,需要对数据进行全面且深入的分析。目前数据分析的三种形态有:查询、固定报表,OLAP分析,数据统计与挖掘[27]。这三种形态中,以传统的查询、固定报表形态居多。但是,由于大量多源异构数据(特别是非结构化数据)进入大数据平台,并实现了数据融合,从而导致OLAP分析和数据统计与挖掘形态也迅速增加。因此,通常采用分析挖掘流程来对接现有的业务分析系统(比如ACRM)[28]。并通过对外的数据服务接口,满足逐渐增多的分析类应用需求,提升数据分析效率。如图2-3所示,描述了某大数据平台的数据分析流程。图2.SEQ图2.\*ARABIC3大数据平台数据分析流程在数据分析流程中,提供了各种数据挖掘算法:可通过SQL引擎读写报表数据,实现结构化数据分析;也可进行自然语言处理和文本挖掘,实现非结构化数据分析。(1)数据挖掘R算法:通过并行化机器学习算法实现的分类、聚类、回归等功能。比如,K-Means聚类算法、HMM时间序列算法、基于用户的协同过滤算法、线性回归算法等。(2)自然语言处理和文本挖掘:自然语言处理和文本挖掘是大数据分析中比较复杂的一类场景,需要结合分布式系统的计算能力和分析师建立有效的模型共同作用。目前比较常用的是朴素贝叶斯分类算法,文本分类。该分类器基于一个简单的假定:给定目标值时属性之间相互条件独立。该模型所需估计的参数很少,对缺失数据不太敏感,算法也比较简单实用。此外,还包含其他多种算法如SVM都是常用在文本分析场景中的。(3)实时分析:通过分布式队列加载入TDH时,TDH利用小批量实时流处理系统,可以对这些数据进行基于SQL或者R的算法分析,并实时反馈给用户实现实时分析需求。大数据可视化技术可视化技术定义为:针对由n维属性和m个元素组成的数据集构成的多维信息空间,采用一定的算法和工具对数据进行定量的推演和计算,并通过切片、块、旋转等动作剖析数据,从而能多角度多侧面观察数据,最后借助于图形化的手段清晰、快捷、有效的传达出数据信息。数据可视化能让用户和管理者直观的抓住重点数据信息。因此,数据可视化技术具有准确性、创新性和简洁性三大特征。数据可视化已经提出了许多方法,这些方法根据其可视化的原理不同被划分为以下类型[29]:(1)面积&尺寸可视化对同一类图形(如柱状、圆环和蜘蛛图等)的长度、高度或面积加以区别,来清晰的表达不同指标对应的指标值之间的对比。这种方法使得数据及其之间的对比一目了然。制作这类数据可视化图形时,要用数学公式计算,来表达准确的尺度和比例。(2)颜色可视化通过颜色的深浅来表达指标值的强弱和大小,是数据可视化设计的常用方法,用户可整体的看出哪一部分指标的数据值更突出。(3)图形可视化使用有对应实际含义的图形来结合呈现,会使数据图表更加生动的被展现,更便于用户理解图表要表达的主题。目前较为常用的图形有排列图、直方图、散点图、鱼骨图等形式。排列图:排列图是分析和寻找影响质量主原因素的一种工具。其形式用双直角坐标图,左边纵坐标表示频数(如件数金额等),右边纵坐标表示频率(如百分比表示)。分折线表示累积频率,横坐标表示影响质量的各项因素,按影响程度的大小(即出现频数多少)从左向右排列。通过对排列图的观察分析可抓住影响质量的主原因素。直方图:直方图又称柱状图、质量分布图。是一种统计报告图,由一系列高度不等的纵向条纹或线段表示数据分布的情况。一般用横轴表示数据类型,纵轴表示分布情况。将一个变量的不同等级的相对频数用矩形块标绘的图表(每一矩形的面积对应于频数)。散点图:散点图表示因变量随自变量而变化的大致趋势。可以选择合适的函数对数据点进行拟合,用两组数据构成多个坐标点。通过考察坐标点的分布,判断两变量之间是否存在某种关联或总结坐标点的分布模式。鱼骨图:鱼骨图是一种发现问题“根本原因”的方法,它也可以称之为“因果图”。其特点是简捷实用,深入直观。它看上去有些像鱼骨,问题或缺陷(即后果)标在"鱼头"外。(4)地域空间可视化当指标数据要表达的主题跟地域有关联时,一般采用地图为大背景。这样用户可以直观的了解整体的数据情况,同时也可以根据地理位置快速的定位到某一地区来查看详细数据。(5)概念可视化通过将抽象的指标数据转换成比较熟悉且容易感知的数据时,用户便更容易理解图形要表达的意义。自然语义处理技术由于人才的非结构化数据以“文本”形式呈现的数据居多,因此本文对多源异构数据分析的时候主要采用自然语义处理方法。目前自然语义处理主要包含了分词法、主题模型、句子相似度[30]。(1)分词法分词法是指采用词典、统计学、机器学习等方式将文档中的字序列切分为合理的词序列的过程。基于词典的分词方法基于一个现有的词典,把待分词的文档看作一个字符串,按照一定的策略将字符串和词典中的词进行查询,识别出查询成功的词。常见的基于词典的分词算法有最大匹配法、逆向最大匹配法、双向最大匹配法[31]。基于词典的分词算法是应用范围最广、分词速度最快的中文分词方法。但是,分词效果严重依赖词典和匹配方法且分词准确率不高,无法很好的处理词典中未录入的词和有歧义的词。因此,一般会采用基于机器学习的模型(如隐马尔可夫模型(HiddenMarkovModel,HMM)提高分词的效率与精度。相比于基于词典的分词方法,基于机器学习的分词方法可以充分利用统计特性来增强分词的效果,比如结合词典的HMM[32]。通过使用非常复杂的特征进行训练和推理,不仅可以采集相邻的字作为特征,还能采集上下文中的信息作为特征。而且还可以任意地添加其他外部特征,比如外部词典中词与字的统计特征等,以提高对词的识别效果。结合词典的HMM分词方法基本思想是:当从i时刻进入i+1时刻时,首先寻找从起始点S到i时刻上各个状态的最短路径(最大概率路径),然后计算每一个状态到i+1的各个时刻的状态的距离,取最短距离即可并记录在状态节点上。通过观察序列O1,O2,… (2.9) (2.10)通过公式(2.9)和(2.10)的归纳计算,就可以得出隐藏状态序列S1在将HMM用于分词中,一般设置隐藏状态集合为{B,M,E,S},每个状态表示字在词中位置的信息,B(Begin)表示字处于词的开始位置,M(Middle)表示字处于词的中间位置,E(End)代表字处于词的结束位置,S(Single)表示单字成词的情况。可观察状态为所有不同的字组成的集合。通过人工标注好字所属状态的文档集,可以得到训练好的HMM模型,用于新文档的分词。(2)主题模型主题模型认为一个文档反映若干个主题,其中每个主题是一系列的词的概率分布[33]。以一定的概率选取某个主题,然后在这个主题下以一定的概率选取某一个词,这样就生成了这个文档的第一个词,即文档到主题和主题到词的双重随机过程。不断重复这个双重随机过程,就生成了整个文档。常用的有贝叶斯LDA主题模型。假设生成文档的词袋为d={w1,w2,…,wN (2.11)其中,Pzk表示生成文档中第k个主题的概率,Pwn|zk表示在第k (2.12)统计训练文档集D中每一个文档的词袋中词的出现概率,再使用期望最大化(Expectation-maximization,EM)算法对LDA中的两个狄利克雷过程中的参数α、β进行估计,如公式(2.13)所示。 (2.13)其中Iα,β是最大似然估计,p(di|α,β)表示文档 (2.14)因此,为了得到LDA主题模型的狄利克雷分布的参数α和β,需要使用采样方法近似采样得到主题集合Z中所有主题下的词的概率分布矩阵ϕ和文档集合D中所有文档下的主题的概率分布矩阵θ。(3)句子相似度多源异构数据进行融合处理时,一

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论