版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第一章–大数据与可视化背景介绍BigData&DataVisualization大数据的定义与本质0102大数据的分析方法可视化是什么03目录可视化发展历史04“大数据是以容量大、类型多、存取速度快、应用价值高为主要特征的数据集合,正快速发展为对数量巨大、来源分散、格式多样的数据进行采集、存储和关联分析,从中发现新知识、创造新价值、提升新能力的新一代信息技术和服务业态。”第一章-基础知识大数据定义2018年《中国大数据产业发展水平评估报告》的定义是:第一章-基础知识大数据的体量很大主要特征单位含义Byte字节,计算机存储信息的基本单位.一个汉字或字母根据不同的编码方式,可能会占1到4个字节。KB一篇作文约3KB。MB一首歌约4MB。GB一部电影约2GB。TB一台家用电脑的硬盘约1TB。中国国家图书馆的印刷版图书馆藏约10TB。PB谷歌一小时数据处理量约1PB。EB美国2021年即将建成的Frontierexascale超级计算机的存储能力约1EB。ZB英特尔预测,2020年中国数据总量将达到8ZB,约占全球五分之一。第一章-基础知识大数据的类型多样主要特征来源:GSMA移动智库文本、网页、图像、音视频等非结构化数据占数据增长的绝大多数第一章-基础知识大数据的处理速度要求高主要特征数亿级的广告服务都要在0.5s内完成依赖Hadoop、Spark等大数据技术框架第一章-基础知识大数据的本质大数据的本质是利用全部原始数据解决问题的思维方式取样统计学有缺陷:样本选取带来信息损失数据获取带有认知偏见第一章-基础知识古代也有大数据的思想盛宣怀依靠对电报、文稿、信札、账册甚至是菜单等各类文档的存档,分析情报了解对手,从而完成了对政敌胡雪岩的精准商业狙击。至其死后,盛氏图书馆保存了大量的珍贵资料,被称作“盛档”。其中一大部分如今存于上海图书馆,统计17万余件,1亿多字。第一章-基础知识大数据的分析方法统计:统计学是研究不确定现象规律性的学科。统计学的基本研究过程可以分为抽取样本、描述统计和统计推断三部分。数据挖掘:数据挖掘是通过探测大型数据库来发现先前未知,或者对未来进行预测的。数据挖掘的常见任务有以下几种:预测建模、聚类分析、关联分析、异常检测。人工智能:人工智能是关于智能主体的研究与设计的学问,其中“智能主体”是指一个可以观察周遭环境并做出行动以实现某个目标的系统。通俗而言,我们可以简单认为人工智能就是机器学习,即让机器学习数据,并利用所习得知识解决某个具体问题。经第一章-基础知识我们现在拥有利用大数据的成熟能力谷歌文件系统GFS01MapReduceb编程模型02BigTable非关系数据库03基础电子产业发展带来的计算机算力提升,网络通讯技术飞跃引发的信息爆炸,分布式计算提供的优秀解决方案:通过连接很多性能一般的机器来构建整体性能强大的系统00大数据不是风口,是生产材料大数据不仅可以用在电商、广告、政务、金融这些成熟而易于取得成就的地方,大数据也完全适用于种植、养殖、制造、餐饮等传统行业。大数据是一种思维变革,就像我们一定会使用电子设备来取代纸质材料记录生产、销售进购、人力等信息,这些记录下来的信息也一定会发挥其更深层次的价值。大数据不是风口,是生产材料只是需要有更多大数据行业的人才,真正专注的进入一些传统的领域中,去理解那个领域的问题,找出解决方案来。这个过程就如同计算机一开始带来的信息化一样,是一个缓慢渗透的过程。这些过程需要时间,热钱在这里会碰壁,但有耐心挖掘的人可以找到真正有价值的,能推动生产力发展的东西可视化概述-视觉是人类最发达的感觉系统视觉是人类获取信息最重要的通道,超过50%的人脑功能用于视觉的感知。数据可视化技术,就是利用人眼的感知能力,对数据进行交互的可视表达,以增强认知的技术。人的视觉系统可以接收视觉信息,并完成将画面认知为物体、发现颜色不同或正在运动的物体、联想到物体背后的象征意义甚至是文字理解等抽象思考我们可以把没有形体的数据、文字和概念变成图像来帮助我们理解。可视化观察四个二维数据点集四个点集的均值、方差、线性回归方程等统计特征均一致,但画出散点图,差别一目了然可视化理解勾股定理可视化分析“鬼图”画病例位置图找出传染源:病例最集中区域的一口水井第一章-基础知识可视化应用如今可视化最主流、最成熟的应用方向莫过于商业智能(BusinessIntelligence,BI),即利用数据仓库、数据挖掘和数据展示,辅助进行商业决策,以最大化预期的商业价值。另一个常见的应用领域是新闻行业。当下,新闻从业者需要使用直观而又精致的图表,将重要的信息迅速地传递给读者。大屏展示也是可视化一个重要的应用。可视化表达利用优美而放大差异的图表打动政客“南丁格尔玫瑰图”统计图表的萌芽七个天体的运行轨迹托莱多到罗马之间的12个经度差异利用等磁线可视化地球磁场地图绘制的突破EdmondHalley(1656-1742),著名天文学家,哈雷彗星轨道计算者。他第一个将具有三维空间属性的物理量表现在了地图上,开创了新的可视化表达。地球主流风场分布苏格兰一年间的进出口贸易情况统计制图的正式出现WilliamPlayfair(1759-1823),统计图形学奠基人,坚信图表比数据更有说服力,发明了折线图、柱状图、饼状图等最常用的基本统计图形,找到了具象表现数据结构的方式。英格兰同丹麦和挪威进出口的贸易规模在地图上表示社会学信息个人作品,1826年法国男爵CharlesDupin
发明了在地图上使用连续的黑白底纹来显示法国识字程度分布情况的方法。国家出版的地图集”AlbumsdeStatistique
Graphique”中包含了大量国家发展规划相关数据图,这里是法国各省1801-1881年每五年的人口变化。优秀的可视化设计优秀的可视化作品是信息表达和艺术的完美结合,将长久的影响人们使用图像表达想法的思维方式。CharlesJosephMinard是一位一生都在不断努力将可视化应用于工程和统计的法国工程师。他于1869年初版了下面这幅流地图作品——《拿破仑1812远征图》。在二维图上表现了法军部队规模、地理坐标、前进撤退方向、抵达某处的时间、撤退路上的温度。丰富的信息被巧妙的安排在同一张图上,呈现出极强的表现力。《拿破仑1812远征图》优秀的可视化设计在以前,地铁图一直是直接画在真实地图上的。1933年HenryBeck设计了一副新的伦敦地铁图,立足于一个站在地铁站内的乘客的视角,关注最重要的问题,摒弃了包含无用地理信息的真实路线,用平直的线段和等距的节点使得地铁信息变得简明易用,扁平化的视觉效果跨越了时代,可谓是可视化的一次典范设计。伦敦地铁图可视化分析作用愈显Hertzsprung-Russell图(Hertzsprung,1911),作为温度函数的恒星亮度的对数图,解释了恒星的演化,成为现代天体物理的奠基之一。Hertzsprung-Russell图JacquesBertin(1918–2010),法国制图师和图形理论家。1967年,他出版了一部里程碑式的著作,SemiologieGraphique。这部书根据数据的联系和特征,来组织图形的视觉元素,为信息的可视化提供了一个坚实的理论基础。可视化成为独立学科大数据就是大量的、各种类型的原始数据,对这些数据进行详细的分析是一件困难而昂贵的事情,但是如果我们对其进行可视化处理,利用人脑对图像的天然敏感性来辅助分析,再去验证,无疑提高了处理的效率,降低了成本。可视化和大数据有天生的契合随着技术的发展,人人都可以利用大数据来发现洞见,辅助自己的决策。第二章数据预处理DataPreparation数据获取的方式0102网络爬虫数据处理的类型03目录数据清洗04数据获取的几种方式在软件系统的运行过程中,记录用户操作和系统运行状态的文件。日志文件按照一定规则,自动地抓取万维网信息的程序或者脚本。网络爬虫感受被测量的信息,并将之按一定规律变换成为电信号或其他所需形式的信息传感器爬虫类型定义特定通用爬虫不加区分的下载目标网页及其链接的所有网页到本地,形成一个互联网内容的镜像备份关键字搜索,高覆盖率,简单信息冗余,效率低下,只能下载网页聚焦爬虫通过定义网网页重要性使爬虫有目的的下载网页节省硬件和网络资源,易于满足特定需求增量式爬虫对已下载的网页进行增量式更新,并只爬取新产生或者有变化的网站减少下载量并及时更新,提高了空间和时间效率增加了算法复杂度和实现难度深层页面爬虫爬取那些无法用静态链接获取的、需要完成特定用户操作才能触达的深层页面(如注册可见的内容)深层页面包含远比表层页面更多更有价值的数据常见的网络爬虫类型爬虫的工作流程输入要爬取的URL(统一资源定位符,UniformResourceLocator),如:爬取豆瓣电影排行TOP250(URL:/top250)读取URL,解析DNS,并且得到主机IP,并将URL对应的网页下载下来。解析网页,从已经下载的网页数据中分离出所需要的、有价值的信息、以及新的待爬的URL。对于新的URL,有些爬虫会使用,进而获取更多的数据,而有些爬虫会忽略新的URL只抓取目标URL。抓取目标数据。已下载的网页内容网页数据URL、Herf、String等目标数据URLURL输入读取URL网页下载解析网页通过HTTP请求下载网页服务器和客户端通过请求响应模型通讯请求响应客户端服务器一段简单的Python语言urllib模块代码GET和POST请求对比
GETPOST参数包含在URL中通过requestbody传递参数缓存能被缓存不能缓存对数据长度的限制发送数据时GET请求向URL添加数据,URL最大长度2048个字符无限制对数据类型的限制ASCII字符无限制安全性较差,因为发送数据在URL中体现比GET安全,请求数据不会被保存在浏览器历史和web日志中TCP一个TCP数据包把http,header和data一并发送两个TCP数据包,先发送header服务器响应后,再发送data。Python是一门高级编程语言,其代码具有简洁的语法和优秀的可读性。这使得初学者只要可以读懂英文,基本就可以读懂代码的含义,也使得Python在完成相同任务时往往只需要更少的代码行数。Python有氛围良好的线上社区,并且在Web应用、游戏、数据分析、可视化等诸多领域已经建立了丰富的开源库。各式的开源库能够大大简化编程的工作量,把更多的精力留给独创性工作。网络爬虫实现–Python语言BeautifulSoup是一个可以支持使用HTML解析器和一些第三方解析器从HTML或XML文件中提取数据的Python库。BeautifulSoup库将负责的HTML文档转换成一个树形结构每个节点都是一个Python对象,一共可以分为四种:使用BeautifulSoup解析HTML文档Tag--HTML中的标签Tag与HTML原生文档中的Tag保持一致,其最重要的属性是name和attributes。每个tag都有自己的名字,通过.name来获取,如果改变了tag的name,那将影响所有通过当前BeautifulSoup对象生成的HTML文档。一个tag可能有很多个属性.tag<bclass="boldest">有一个“class”的属性,值为“boldest”.tag的属性的操作方法与字典相同,可以被添加、删除或修改。NavigableString包装标签内的字符串Tag中包含的字符串不能编辑,但是可以用replace_with()方法替换成其它的字符串BeautifulSoup和CommentBeautifulSoupBeautifulSoup对象表示的是一个文档的全部内容,大部分时候可以把它当作Tag对象,因为BeautifulSoup对象并不是真正的HTML或XML的tag,所以它没有name和attribute属性.但有时查看它的.name属性是很方便的,所以BeautifulSoup对象包含了一个值为“[document]”的特殊属性.nameComment您的内容打在这里,或者通过复制您的文本后,在此框中选择粘贴,并选择只保留文字VS遍历文档树通过tag的.children生成器,可以对tag的子节点进行循环父节点、兄节点的操作方式大同小异。将遍历后的数据保存在文件中,就完成了简单的爬虫工作tag的.contents属性可以将tag的子节点以列表的方式输出Dagoo网站爬虫案例豆瓣电影TOP250排名数据影响数据质量的重要因素一致性一致性,即在不同地方出现的同一数据不一样。比如一个用户不可以成功下单并拿到自己购买的商品,却并没有扣除货款。主要由程序BUG和网络丢包、延迟等导致。还有及时性、信任度以及可解释性等准确率一致性完整性完整性完整性,即缺失属性值、特征值等。导致数据不完整的原因可能有不当的删除操作、数据采集标准更改等准确率准确率,即与实际值之间存在偏差的错误值。影响准确率的原因有很多,比如数据录入操作不当,数据传输发生计算机错误,用户刻意提交了错误值,输入字段并没有遵守格式要求,数据重复等。数据处理的四个阶段数据清理提高数据准确率和完整性的核心过程,包括处理缺失值、异常值和噪声等。01数据集成将不同来源的数据整合在一起并去除其中的重复和矛盾。02数据缩减03数据转换04以精简的方式表示数据集,既降低数据量又保证完整性,以提高计算效率,比如降维。把数据转换为合适建模的格式,比如规范化和离散化等。数据清理的过程数据清理的过程脏数据数据清理规则、策略满足数据质量要求的数据空值不合法值拼写错误等数据统计数据挖掘异常检测重复处理不同数据源获取的数据概览数据方法函数功能所属库mean()数据样本的算数平均数Pandasvar()数据样本的方差Pandasstd()数据样本的标准差Pandascov()数据样本的协方差矩阵Pandasdescribe()数据样本基本描述(如均值、标准差等)Pandas使用Python第三方库Pandas对数据建立初步的认知缺失值处理-删除整例删除,即删除行,把含有缺失值的样本整个删除,这可能导致有效样本数量减少,所以只适合关键变量缺失的情况。变量删除,即删除列,如果某一变量的无效值和缺失值很多,而且这一变量对于所研究的问题不是特别重要,就可以考虑将该变量删除。成对删除,使用特殊码来代替无效值和缺失值,同时保留数据集中的全部变量和样本,当进行具体计算时,只采用该计算中涉及变量有正常值的样本,这样不同的分析便具有不同的样本量。成对删除是一种保守的处理方法,最大限度的保留了数据集中的可用信息。估算操作是从本数据源或者其他数据源推导出来值来填入缺失处,最简单的方法就是使用该变量的平均值(分布均匀时)、中位数(分布倾斜)或者众数,但这种办法没有考虑样本的其他特征信息,误差较大。另一种方法是利用变量之间的相关分析进行建模,比如家庭消费统计中饮食支出与家庭总收入存在较大的相关性,就可以构造一个家庭总收入与饮食支出的决策树,然后通过样本的总收入值来预测缺失的饮食支出值。不过建模法会导致属性之间的相关性变大,从而影响模型训练。缺失值处理-估算随机插补是从总体中随机选取一个样本来代替缺失样本的值,但是这种方式不太稳定。多重插补是利用蒙特卡洛方法,进行多次全部数据集的随机插补,得到多个完整数据集,然后对每个数据集应用统计模型,再把它们整合为一组结果,最后得到的模型便可以拥有正确的P值和标准差。缺失值处理-插补异常值处理简单的统计分析,利用箱线图和分位点来判断,例如直接使用Pandas的describe函数。3σ原则,若数据呈现正态分布,异常值为数据集中与平均值的偏差超过3倍标准差的值,因为这种值出现的概率小于0.003。基于模型,对数据集建立一个数学模型,不能较好拟合的值是异常值为样本定义距离,异常值是远离其他样本的点,这个方法简单易操作,但是时间复杂度高,不适用于较大的数据集。对数据集进行聚类,如果一个小簇远离其他簇,或者一个样本不属于任何簇,那么这是离群点。利用聚类可以同时发现簇和离群点,但是离群点本身可能影响到聚类算法的效果,可以删除离群点再次聚类观察结果。噪声值处理分箱法,按照一定的宽度把数据装到一个个箱子里,由于局部的点被放在一起考虑,噪声的影响就被中和掉了。可以利用箱子里数据的均值、中位数或者是最值来替换箱子里每个数据的值。分箱既是好的降噪方法,也是一种离散化技术。回归法,建立数据集的数学模型,然后把数据落到回归曲线上去。Dagoo数据清洗案例Dagoo数据清洗第三章
基础统计分析
BasicStatisticsandDataAnalysis目
录基本概念 3统计描述 7统计图表 17PART1PART2PART3统计学就是研究随机现象随机背后存在规律扔骰子时向上的点数便利店每天卖出的薯片数量一个班的学生每人身高罹患肝癌后是否可以治愈基本概念个体:所研究问题的一个最小对象总体:全部个体的集合样本:一次研究中从总体中选出的可测量的个体集变量:研究对象的某个研究指标变量a变量b变量c个体1个体2个体3注:有些变量由于实际原因并不连续,比如分数可能只能取0到100的整数,但对其进行计算得到的均值等连,续且有意义,也算连续变量。连续变量在一个数值区间内任意取值的变量,一般有度量单位。例:身高、体重、金额有序分类变量在一个有序集合中取值,值有高低差异,但没有具体度量。例:优良中差无序分类变量在一个集合中取值,值没有高低差异,没有具体度量。例:性别、国籍信息量递减,可以从上到下转化变量类型选题,明确研究目的,提出假设,明确总体范围,确立观察指标,控制研究偏差,给出具体方案。设计耗时最久的步骤,需要妥善利用工具整理统计描述(呈现样本数据)与统计推断(从样本推及总体,得到解答)分析直接决定研究质量,垃圾数据→垃圾结果收集统计研究步骤设计收集整理分析通过抽样调查收集到数据之后,为了便于理解,对数据进行汇总的过程叫做统计描述。统计描述连续变量分类变量各省GDP直方图汽缸数参数饼图直方图频数观察直观而粗糙的观察方法连续变量的统计描述组数和组距决定效果可以观察:集中趋势、离散趋势、分布形态需要进一步使用描述指标直方图集中趋势指标均值-算术平均数均值是统计技术应用最成熟的指标,必要时可以对数据进行变换以方便使用均值一组数据的和,除以数据的个数定义将全部个体的差异抽离出来相互抵消,得到一个所有数据集中的位置本质掩盖内部差异,易受极端值影响缺点对每一个个体的变化灵敏,信息量高,接受程度广,易用优点对称分布数据适用集中趋势指标中位数-二分位数优先使用均值,有需要才用中位数一个满足如下条件的数据——它所在的一组数据中有一半比它大,一半比它小定义位置平均数,完全忽视数据的内部差异本质只保留数据的大小关系而损失了数值变化信息,样本数量一旦小就很不稳定缺点不受极端值影响优点集中趋势指标几何平均数n个变量的乘积的n次方根定义变换后的算术平均数。一些正偏态分布的数据,其实既具有指数增长的特点,又服从正态分布,对数据求对数后求算术平均数,就比较合理,之后再求指数变换回来,即几何平均数。容易发现这种计算和上述定义计算是等价的本质等比关系数据,如平均速度、平均利率等适用优点:受极端值影响比较小缺点:数据必须为正数优缺点集中趋势指标众数一组数据中出现次数最多的数据定义少数服从多数本质极大损失信息量,更适用于分类变量,连续变量有可能不存在众数特点截尾均值去掉最小和最大5%的数据,只用中间90%数据算出的均值定义排除头尾极端值干扰本质离散趋势指标全距–极差一组数据最大值最小值之差定义数据的最大分布范围本质不稳定,信息量低缺点接受程度广,易用优点在均值适用的正太分布中适用离散趋势指标均值-集中趋势的最佳指标离均差
-个体与集中趋势的差异指标离均差之和
-由均值定义,显然为0离均差绝对值之和
-可以表示总体与集中趋势的差异,但是不易计算离均差平方和
-易于计算,但与数据个数有关方差-离均差平方的均值,但是单位不对标准差-离散趋势的最佳指标变异系数-跨量纲比较离散趋势μx-μ∑(x-μ)∑|x-μ|∑(x-μ)2σ2=∑(x-μ)2/nCV=σ/μ
离散趋势指标百分位数百分位数需要多个组合使用,最常用的组合是四分位数,即P25(下四分位数),P50(中位数)和P75(上四分位数)。定义位置指标,用Px表示。一个百分位数Px将数据分为两部分,使得x%的数据比它小,(100-x)%的数据比它大。优点适用于各种分布缺点需要大样本量,P95等两端数值才有价值P0即最小值,P50即中位数,P100即最大值离散趋势指标四分位数将样本值四等分,四分位间距为P25-P75,排除了极端值影响,反映了居于中间的半数数据的离散程度定义P25(下四分位数),P50(中位数),P75(上四分位数)的总称频数观察比任意描述指标通过比值定义出的新指标。一个变量的两个分组或任意两个变量的比值,只要有实际指导意义即可,如性别比或货运的收益与耗时比。分类变量的统计描述频数表,条形图,百分占比,饼图集中趋势众数率某个时期内,事件发生的频率,类似速度概念,用以反映事物发展的进度。比如研究离婚率,应该长期追踪观察某一年中结婚的一个样本,记录每一年中样本有多少发生了离婚,得到十年二十年的数据。相比之下,记录每年离婚人数占总人口的比值就比较粗糙,而每年离婚人数与结婚人数的比值则根本错误。条形图定义使用矩形长条对比分类数据的统计图表,每个矩形各表示一个分类,矩形长度与分类数量成正比本质表现分类变量频数注意请勿修改条形图的纵轴起点来突出差异变体玉珏图(在极坐标上画条形图,改变视觉效果),旋风图(左右对称呈现两组分类相同的条形图以进行对比)其他条形图衍生图堆叠柱状图显示较大类别如何划分为较小类别,如果是大类长度均一致的百分比堆叠柱状图,则其内涵与饼图其实更为接近误差柱状图矩形长度表现的并非是分类数量,而是均值,增加误差线以表示标准误差区间柱状图矩形长度表现分类最值堆叠柱状图误差柱状图区间柱状图饼图定义划分为几个扇形的圆形图表,每个扇形各表示一个分类,扇形圆心角与分类数量成正比本质表现构成比(各部分占总体比例)优点直观、易用、接受度高缺点表达效率低,无法与其他扇形比较(构成比的缺点)变体甜甜圈图(空出中心区域以填入其他信息),水球图(用不常规的视觉效果突出显示一个值)直方图定义显示连续变量在其取值区间内的分布情况,将取值区间分为定长的许多组,区间的直方高度与落在区间内的数据频率成正比本质连续变量的频率观察注意直方图与条形图是用于不同类型变量的不同图表直方图箱线图定义同时呈现一组或多组数据的最大值(上部横线)、最小值(下部横线)和四分位数(箱体的上、中、下三条线),并可以单独剥离异常值优点高度精练的表现数据散点图定义同时呈现两个连续变量的图表,作直角坐标系并将两个变量分别映射到两个轴,描出所有的数据点,大量数据点呈现出整体分布趋势本质显示变量相关性注意相关性不等于因果关系,聚集非常明显的散点图,也许两个变量之间并没有直接关系,而是由外部某变量同时影响的变体散点图可以通过建立三维坐标,编码散点大小、颜色、形状等方法扩张到描述多个变量延申回归分析(通过数学建模作一条光滑的曲线来模拟变量关系)折线图定义使用直角坐标系的横轴表示有序分类变量(如年、月等时间变量),纵轴表示连续变量,将数据点描出,并使用线段连接相邻数据点本质显示连续变量随有序变量变化的趋势注意过多的数据和趋势不明确的数据不适合折线图变体阶梯折线图(使用阶梯状的连线,用以呈现发生时间不规律的变化,如税改),面积图(在连续变量可被积分时使用,呈现累积效果)折线图阶梯折线图面积图第四章多维数据分析第四章
多维数据分析Multi-dimensionalDataAnalysis目
录多维数据定义 3多维分析算法 4PART1PART2筛选算法矩阵散点图平行坐标图降维算法聚类分析相关性分析什么是多维数据同时使用研究对象的多个研究指标进行分析的方法叫做多变量分析,我们把适合做多变量分析的数据称作多维数据多维数据过滤分析对多维数据的分析,最简单的是可以根据要求,删选过滤出符合要求的数据。我们介绍一种常见的多维数据过滤方法——平行坐标。原理
作用
这种过滤在数据查询、检索中具有重要的作用。工具多维数据过滤分析--平行坐标图为每个变量做一个轴线,将所有轴线平行放置,并赋予各自的测量单位和刻度,最后把每个个体在各个轴线上的坐标相连,得到总体个数条折线。通过在各轴上圈选来筛选数据,可以方便的观察一簇数据的分布。定义本质比较多变量相关性和数据过滤。数据过多可能会纷乱难看。优点缺点折线表示的是一个个体的取值,不代表任何趋势。平行坐标图案例平行坐标图的坐标轴排序很重要,因为相邻坐标的关系更容易观察,可以通过拖动坐标来寻找更合适的排序。矩阵散点图的筛选效果可以看出汽缸是核心指标,直接决定了马力、ACC和重量的分布,而油耗则显然与之负相关。相关性分析两个随机变量之间线性关系的强度和方向。注意相关关系不等于因果关系,Y=3X这种变量之间的直接因果可以导致相关,但啤酒和尿布共同受已婚男人的影响也导致他们产生相关。定义本质寻找变量之间的影响关系。注意相关系数只能反应变量有没有线性关系,变量独立则相关系数为0,但反之不然。相关性算法两个变量间协方差(方差的一般形式,两个变量离均差之积的和)与标准差的商
定义皮尔逊相关系数连续变量、有序变量和分类变量有不同的计算方式,这里我们讲解两个连续变量的相关性计算公式注意根据公式,ρ的取值范围为[-1,1],绝对值越大相关性越大,正数为正相关,负数为负相关,此外X,Y都不应该标准差为0(取定值),否则公式无意义
相关性案例在进行多变量分析时,我们可以同时计算所有变量两两之间的相关性,并将之制成热力图矩阵,把相关性系数的大小通过颜色和深浅度来表示。Dagoo相关性分析同时计算了所有变量两两之间的相关性,并制成热力图矩阵,将系数映射为红绿两色。汽缸数、马力、加速度正相关,可以称为豪华程度,油耗和来源正相关,可以称为经济程度矩阵散点图释义使用矩阵同时画出多个变量两两之间的散点图。多维数据的一种呈现方式。定义本质多变量的相关性直观观察。快速发现多个变量中具有较强相关性的那些,而且不局限于线性相关。特点优点矩阵散点图案例图中横纵坐标是同一组变量,每一个散点图是对应横纵坐标位置的两个变量的散点图,而同一变量的横纵坐标交汇处(对角线上)的图是该变量的直方图从图中可以看出,除了来源和汽缸数外,寿命数据也是比较离散的,而马力、重量和油耗表现出了最明显的相关,并且不完全符合线性。矩阵散点图矩阵散点图的筛选效果除了观察全部数据的相关性外,矩阵散点图也可以在图上做圈选交互,并观察被圈选的数据在其他维度上的分布,而下方的表格中可以显示和导出被圈选的数据。矩阵散点图的筛选效果聚类释义定义:把具有相似特征的数据划分为一组,并使得组与组之间具有不同特征的无监督学习方法区别:分类是根据有标签的旧数据,将新数据贴上已知类别的标签,分类以我们已有的对事物的认知为基础,而聚类是对新事物建立认知的过程,可以创造出新的标签层次聚类:自顶向下或自底向上的将数据分成树状的簇划分聚类:给定簇数,从一个初始态开始逐渐迭代得到各自相近的几组数据,以Kmeans为代表密度聚类:Kmeans以距离衡量相似度,只能得到球状簇,密度聚类把区域划分为许多小块,密度足够大的融合起来,密度小的作为分离地带,可以得到不规则形状的聚类,并且对噪声鲁棒许多聚类技术和降维技术都会相互结合以提升性能和效果聚类释义定义把具有相似特征的数据划分为一组,并使得组与组之间具有不同特征的无监督学习方法区别分类是根据有标签的旧数据,将新数据贴上已知类别的标签,分类以我们已有的对事物的认知为基础,而聚类是对新事物建立认知的过程,可以创造出新的标签层次聚类自顶向下或自底向上的将数据分成树状的簇划分聚类给定簇数,从一个初始态开始逐渐迭代得到各自相近的几组数据,以k-NN为代表密度聚类密度聚类把区域划分为许多小块,密度足够大的融合起来,密度小的作为分离地带,可以得到不规则形状的聚类,并且对噪声鲁棒。许多聚类技术和降维技术都会相互结合以提升性能和效果基于鸢尾花数据进行的k-NN聚类分析层次聚类算法自底向上把每个个体视作一个簇,然后将最相似的簇合并,反复此过程直至全部个体合为一个簇自顶向下把全部个体视作一个簇,然后一步步将差异最大的部分拆分成子簇,直至所有子簇都只包含一个个体优点解释性强,规则简单,无需预设簇数,可以得到比较好的结果层次聚类得到的结果可以用一颗树来表示,可以根据需要在树上找一个聚类结果缺点时间复杂度高,像其他贪心算法一样一步错步步错根据11座城市的GDP、总人口、平均工资、高校学生数等常用宏观统计指标对其进行层次聚类,结果如图所示可以清晰的看出这些城市是如果归并成一类的,可以加一条水平线(紫线)来截取聚类图,交点即为所得聚类北京上海为样本中的第一梯队城市,天津郑州南京杭州为第二梯队,其余城市为第三梯队相似度最高的是合肥和济南以及沈阳和长春层次聚类案例降维释义将高维数据映射至低位空间,并尽可能的保持信息量。降低计算量、简化问题、消除噪音、便于寻找数据的本质结构。定义本质找到真正重要的变量(一个正方体的表面积、体积、顶面面积等数据对于棱长来说都是不重要的冗余数据)。优点降维算法常用作机器学习等的数据处理步骤,也可以直接将降维结果可视化来进行分析通过线性变化将原始数据转化为一组线性无关的维度,每个维度都被称作一个主成分按照数据在各个维度投影的方差大小来衡量主成分的重要性,因为方差大的维度被认为含有的信息量大主成分分析对数据的预处理敏感
PCA(主成分分析法)1、将m条n维数据组m行n列的矩阵X算法
3、求协方差矩阵5、取最大的d个特征值所对应的特征向量为投影向量P作为输出值4、对协方差矩阵的特征值分解AB汽车参数PCA中圈A与圈B属性差异将数据从高维空间变换到低维空间后,保持个体之间的相似性尽量不变一般用欧氏距离衡量点的远近,距离远的相似性低,距离近的相似性高计算简单,可视化效果好各个维度对结果贡献度相同MDS(多维尺度变换)1、计算所有数据项两两间的实际距离算法2、将数据项随机放置在二维图上。3、针对每两两构成的一对数据项,将它们的实际距离与当前在二维图上的距离进行比较,求出一个误差值4、根据误差的情况,按照比例将每个数据项的所在位置移近或移远少许量5、重复第三步、第四步直到无法再通过移动节点来减少总体误差为止。CA汽车参数MDS中圈A与圈B属性差异SNE(随机邻域嵌入)构建高维对象的概率分布,使得相似的对象有更高概率被选择,不相似的对象有较低概率被选择SNE是靠正态分布来建立概率模型的1
2
SNE是一种非监督学习模型,其基本思路是将数据点映射到概率分布上来维持降维过程中数据点之间的相对关系,可以分为两个步骤:在低维空间构建数据点的概率分布,使得两个分布尽可能相似SNE是靠正态分布来建立概率模型的SNE有拥挤的问题,因为维度越高的空间中,一个球体内均匀分布的点就有越多是靠近球面的,这些的数据映射至低维后挤在一起t-SNE(T-分布随机邻域嵌入)只适用于可视化T-SNE是通常来说比较好用的降维算法,可以捕捉数据的整体特征,得到较好的呈现缺点为了解决SNE拥挤的问题,T-SNE在高维空间高斯分布将距离转换为概率分布,而在低维空间使用T分布来建立概率模型,由于T分布更注重长尾,可以使高纬度中较小的距离在映射之后变大一些,得到比较好的分布。可以通过降维结果将全部数据清晰的分为五个簇,继而对这些簇分别观察得到其各自特征多维特征提取-雷达图由于数据中不同维度的单位和范围是不同的,因此要比较数据在不同维度下的相对重要性就可以使用雷达图这样的可视化工具雷达图是一种对比性数据的可视化展示方式。当数据维度保持在一定的规模,通常为4-12之间时,雷达图是一种较好地展示样本各变量之间数值的相对关系的图表。基于t-SNE汽车数据的用户画像多维特征提取-用户画像雷达图的方法也适用于提取用户画像。试想如果此数据为多维的用户数据,那么多维数据投影下的用户分布,通过雷达图即可展示出用户画像的特征信息。用户画像又称用户角色,作为一种勾画目标用户、联系用户诉求与设计方向的有效工具,用户画像在各领域得到了广泛的应用。基于t-SNE汽车数据的用户画像–A组E组特征筛选(Radviz)思路假设m个变量在一个二维圆环作为节点上均匀分布,对于每一个数据点,用弹簧将其与变量点相连,个体的数据值(标准化后)决定了弹簧弹力的大小,则数据点将处于平衡位置上,画出所有数据点,得到分布优点计算复杂度低,数据易于理解,可显示的维度大Radviz是一种非线性降维可视化方法,可以将高维数据呈现在二维平面上缺点不是一一映射所以点可能重叠或遮挡,维度的排列顺序对可视化影响很大,需要手动调整观察更好的聚类结果根据一组二手房数据做出的Radviz图,可以通过调整设置来改变作图使用的变量和变量排布顺序最好根据变量之间的相关性分析结果,把负相关的变量放在相对的位置图中的数据点按照价格分档涂色,可以分组研究其分布特征特征筛选案例二手房价影响因素Chapter5:TimeSeriesDataAnalysis第五章时序数据分析目录1概述2时序折线图3时序柱状图4预测分析周期性检测5时间年末总人口(万人)男性人口(万人)女性人口(万人)城镇人口(万人)乡村人口(万人)201813953871351681878313756401201713900871137678718134757661201613827170815674567929858973201513746270414670487711660346201413678270079667037491661866201313607269728663447311162961201213540469395660097118264222201113473569068656676907965656201013409168748653436697867113200913345068647648036451268938表1我国总人口数据。数据来源:国家统计局第六章-时序数据分析INTRODUCTION概述
时序数据是指时间序列数据时序数据即时间序列数据。时间序列数据是包含时间变量,并按照时间顺序记录的数据,用于描述随时间变化的现象。时序数据分为时间点数据(如下表中每年的人口数),和时间段数据(如每季度的营业额)。6.2时序折线图什么是时序折线图?
折线图将是数据点按照时间轴的顺序连接,形成的一条可以反映指标变化趋势的曲线。中国GDP增长折线图6.2时序折线图多维时序折线图一般而言,如果需要同时呈现多个变量,最简单的方法是将多条折线放在同一个图上。分三次产业的GDP折线图6.2时序折线图堆叠面积图但当变量太多时,大量的折线有可能相互纠缠在一起而不易观察。对于那些可以叠加在一起的时序数据,可以作堆叠面积图。堆叠面积图有一个缺点,在视觉效果上,各个变量对总体的变化趋势影响是有差异的。分三次产业的GDP堆叠面积图6.2时序折线图主题河流图解决堆叠面积图缺点的一个办法,把图形从底端向上延伸的“山峰”变成从中间向两侧铺展的“河流”,即形成“主题河流图”。通常情况下,当主题河流图容纳较多的变量时,也不会显得杂乱无章。与堆叠式面积图不同在于数值表达不是沿着轴线绘制,而是以中心基线为主不断变化。不同类别的数据通过流动的形状呈现随时间变化的情况,每个类别数据颜色和形状都不同,看起来像彩虹般的河流十分美观。主题河流图主要用来表示事件或主题等在一段时间内的变化。可互动的主题河流图主题河流图
每条河流形状大小与每个类别中的数值成比例不同颜色的条带状河流分支编码了不同的事件或主题河流分支的宽度编码了原数据集中的value值图为中国1999至2018的20年间各行业GDP变化,可以明显看出工业的基础推动和其他非传统行业的迅猛增长6.2时序折线图6.3时序柱状图什么是柱状图?
柱状图(条形图)是使用矩形条表示数值,每一个矩形条代表不同的分类,其高度决定数值大小。柱状图可以呈现不同分类的一组数据,也可以呈现同一事物随时间的变化。但是如果想同时呈现多组数据随时间的变化,柱状图的信息量便不足了,需要扩充维度。6.3时序柱状图堆叠柱状图当利用柱状图表现多个变量时,可以使用堆叠柱状图。这样的呈现效果类似于堆叠面积图。但是由于没有折线,产生的视觉误差就要小很多——从相邻柱状的顶端观察出的高度差会很快地被认出是整体差异。分三次产业的GDP堆叠柱状图6.3时序柱状图分类柱状图此外,也可以作分类柱状图,即将不同分类的柱形在水平方向(时间)上排列开来。分三次产业的GDP分类柱状图6.3时序柱状图三维柱状图堆叠柱状图和分类柱状图都是提高空间利用率以传递更多信息的图形模式,但是都会在变量较多的时候显得纷乱而难以观察。这种情况下,可以通过使用三维图像来扩展变量表现的维度,即多系列三维柱状图。分三次产业的GDP三维柱状图动态柱状图6.3时序柱状图什么是动态柱状图?
动态柱状图在柱状图的基础上添加了时间轴,以柱形的动态变化来直观的展示数据随时间的变化。动态柱状图节省了空间资源,并扩充了对大数据集的容纳能力。6.3时序柱状图Dagoo:动态柱状图案例图为中国1993至2018年间各省GDP变化,图中动态的筛选了排名前十的省份图4.1疫情走势来源:香港大学6.4预测分析什么是预测分析?
预测分析是一种数据挖掘分析算法,旨在利用过去数据所蕴含的信息对未来的事物变化做出预测。例如:图4.1,模型预测的新型冠状肺炎疫情走势。影响事物变化的因素有很多,预测分析只能对那些在过去已经体现出影响的因素做出正确预测,而对突然出现的没有前例的事情的影响无能为力。6.4预测分析预测分析算法1简单均值法时序数据的数值都是随着时间波动性变化的。简单均值法适用于数值以微小的幅度随机上升或者下降,平均值几乎不变的数据。例如:货币的价格变化,每天都是小幅变化,但是每个时间段的均值与之前的平均值相近。这种预测期望值等于所有预测点平均值的预测技术称为简单均值法:x是数据数目,y是数据值。我们取已知的时序数据,计算平均值,然后将平均值作为下一个预测值。6.4预测分析预测分析算法2移动平均法当数据不以微小浮动变化,先在某段时间内突然上升或下降后,现在趋于平稳。此时简单均值法不再适用于数值预测。所以我们对简单均值法作出改进,只计算后边平稳数据求其均值。显然,后边最近平稳的数据才是重要的。我们用窗体选取最近平稳的数据,这种方式叫做移动平均法:我们选取一个大小为N的窗体截取最近的数据集进行计算,对所有的i,i>N。
6.4预测分析预测分析算法对于移动均值法,我们可以做出更有效的改进—加权移动均值法。在移动均值法中,我们同样使用过去的N个观测值,但每一次观测值都影响预测的方式和程度都是不相同的。因此,我们可以给滑动窗口的值赋予不同的权重:6.4预测分析预测分析算法3简单指数平滑法在了解简单均值法和加权移动均值法之后,我们可以看到两种方法各有优劣。因此我们需要采取某种方法,集合两种方法的优势,即权衡数据点的同时要考虑所有的数据点。这种方式叫简单指数平滑法:是预测值;𝑦𝑡是真实值;𝜶是观测值权重,预测使用加权平均计算,之前的观测值的权重是指数递减的,最小的权重与最早的预测值相关。6.4预测分析预测分析算法权重的下降速率由决定。公式也可以写成:Forecastequation:Smoothingequation:其中𝑙_𝑡是平滑值。我们可以定义残差,其中t=1,2,3,4...。通过优化的方法我们可以得到𝜶和𝑙_0:6.4预测分析预测分析算法4Holt线性趋势法我们了解到几种预测方法,但是都是在平稳状态下的预测。对于变化较大的数据,结果都不是太好。趋势是数据在一段时间内的变化走向。如Naive方法会假定最后两点之间的趋势将保持不变,所以预测点与最后一个点值是相同的。我们可以寻找一种方法,能够准确地将趋势绘制下来。这种考虑数据集趋势的方法叫做Holt线性趋势法。Holt线性趋势法扩展了简单指数平滑法,可以用于有趋势的数据预测,适用于多个序列的平均值和有趋势的指数平滑方法。用数学公式表示,需要三个等式:等级、趋势、结合等级与趋势得到预测:Forecastequation:Levelequation:Trendequation:
6.4预测分析Dagoo:预测分析案例对于中国城镇人口的预测分析,中国在保持现在的高速城市化进程的情况下,城镇人口将很快突破9亿。图
5.1音频数据图5.2音频数据的频谱6.5周期性检测什么是周期性检测?
当存在过多的时序数据的数据值,我们将其可视化为折线图时会显得杂乱无章。如图5.1,一个音频信号,数字化后的声音就是一个时序数据集,在你看来就是一团杂乱章的线条,你很难直观的感受到他想要表达的意义。傅里叶变换是一种基础的信号处理工具,可确定数据中的频率分量。在经过傅里叶变换分析后,我们将时间域上的数据变换到频率域,很快就能知道其各个频率成分的比重,而且在频域处理起来也非常方便。从上图杂乱无章的时间域过程中转换为有规律的频域,如图5.2。同理,对于其他时间域上的离散数据,即时序数据,傅里叶变换也同样适用于分析。我们通过变换后的图像,对上传数据中的不同属性经过傅里叶分析的周期检测,来判断时序数据稳定性。6.5周期性检测周期性检测算法周期性检测主要是傅里叶变换,根据数据类型不同周期性不同分为四类。对于时序数据使用快速离散傅里叶变换,傅立叶变换是数字信号处理领域一种很重要的算法。傅立叶原理表明:任何连续测量的时序或信号,都可以表示为不同频率的正弦波信号的无限叠加。而根据该原理创立的傅立叶变换算法利用直接测量到的原始信号,以累加方式来计算该信号中不同正弦波信号的频率、振幅和相位,傅里叶变换公式为:𝑓(𝑡)视作以t为自变量的原函数,𝐹(𝝎)为𝑓(𝑡)的像函数。6.5周期性检测周期性检测算法离散信号的傅里叶分析公式为:离散信号分析和处理的主要手段是利用计算机去实现。为便于计算机去实现,高效、快速地计算离散傅里叶变换(DFT),引入快速傅里叶变换(FFT)。FFT的基本思想是把原始的N点序列,依次分解成一系列的短序列。充分利用DFT计算式中指数因子所具有的对称性质和周期性质,进而求出这些短序列相应的DFT并进行适当组合,达到删除重复计算,减少乘法运算和简化结构的目的。对大约1700至2000年间的苏黎世太阳黑子相对数绘图。使用fft函数获取苏黎世数据的傅里叶变换。6.5周期性检测Dagoo:周期性检测案例经典案例:使用傅里叶变换来分析数据中的变化,例如:一个时间段内的自然事件,使用苏黎世太阳黑子相对数将几乎300年的太阳黑子的数量和大小,使用FFT分析周期性数据,分析太阳黑子活动发生的频率解释的周期活动。以频率函数的形式绘制功率频谱图结果揭示了太阳黑子活动约每11年出现一次高峰6.5周期性检测Dagoo:周期性检测案例图为亚马逊公司的收盘价数据经过傅里叶变换,可以清楚的看出该数据的频率分布第六章
地理数据分析
GeographicDataAnalysis目
录地理热度分析 4地理空间分析
9连接地图 15PART1PART2PART3什么是地理数据地理数据是以地球表面空间位置为参照,描述自然、社会和人文景观的数据,它直接或间接关联着相对于地球的某个地点的数据,是表示地理位置、分布特点的自然现象和社会现象的诸要素文件,包括自然地理数据和社会经济数据。如土地覆盖类型数据、地貌数据、土壤数据、水文数据、植被数据、居民地数据、河流数据、行政境界及社会经济方面的数据等。面:分布地图地理热度分析地理热度分析本质简单而言,就是通过不同的算法,将空间地理数据的数值映射到地图上,并通过算法转换后的结果将不同数值映射成该地理区域内的不同颜色。地理热度地图是在一定的地理区域内将数据的某一或某些特征的空间态势分布进行可视化展示的一种工具。优点直观、易于理解缺点行政区划往往由许多因素导致,一些小的区域在地图上有时会难以辨认,这在世界地图中尤其明显,这种情况需要人为的合并区划来方便显示。同样的数据在大的区域中往往比小的区域给人感觉更多,因为面积是一个在这种地图中没有显式的用到但确实影响了读图者的编码信息,为了解决这个问题,可以人为的将地图划分为面积相等的区域,也可以将显示的变量重定义为和面积的比值。中国GDP分布图地理热度分析—分布地图中国人口密度分布中国人均GDP分布地理空间分析散点地图释义定义在一个大地图上显示地理坐标和数据变量之间的关系,将要表示的变量数值按照一个范围映射为散点的大小、颜色、形状等,根据地理坐标的变量值为其分别绘制散点(气泡)优点规避了区域面积对可视化表达的影响工具中储存了地点的二维地理坐标,绘图时用户只需要提供地点名称即可缺点相对密集的散点之间可能出现相互重叠、遮蔽的情况而影响呈现效果由于数据格式一致,散点地图和分布地图可以直接转换,但建议用分布地图来表现完整的行政划分数据,或者按照人为研究重新划分区域作图,因为这种图有利于展示区域特征和差异。而行政划分区域缺失值较多时可以考虑用散点地图,较少的数据在散点图中更突出,另外如果有不同层级的数据也可以用散点地图,比如在中国地图上标注了三个省和五个市的数据,还可以将分布地图和气泡结合起来与分布地图对比散点地图案例根据2019年中国名列世界五百强的公司分布,绘制了右图,可以看到以北京为总部的公司数量比较突出(银行、石油等国有企业)广东有一个广州、深圳、珠海、香港组成的城市群,由于在大地图上位置较近,散点之间相互产生覆盖现象,应该将广东省的数据合并显示比较合理五百强企业数2000-2010东亚国家城市化演变连接地图连接地图释义定义在一个大地图上显示地点之间的连接关系,使用带箭头的曲线来表示数据在不同地点之间的流动本质数量的流动网络工具中储存了地点的二维地理坐标,绘图时用户只需要提供地点名称即可优点直观显示进出口流动、人口迁移等数据流动现象缺点起止地点距离较短的线段长度不足时,不引人注目连接地图案例利用连接地图画出春运最热门的航线,可以看出最热的十条航线主要都是围绕北上广展开,而西双版纳节内旅游业旺盛,由于机场规模的限制,许多乘客需要从昆明中转前往春运航班数最高航线Chapter7:GraphDataAnalysis第七章图数据分析1树状图2矩形树图3旭日图4嵌套关系分析图数据关联数据56力导向布局7搜索算法8最短路径目录第七章–图数据分析INTRODUCTION引言
网络数据即图数据,是由事物及其之间的关系所构成的数据。图是一个数学概念,是若干顶点(事物)及其之间的连线(关系)所构成的图形,图论的研究起源于科尼斯堡七桥问题。网络数据分析的目的是找出图数据中的一些特殊值,并对图进行合理呈现,以便于理解。如何不重复的经过图中所有线段?--柯尼斯堡七桥问题图2.1学科分类7.1树图什么是树图?
树图是一种层次嵌套图。树图中的连线都是有向的,一头是父节点,一头是子节点,父节点对于子节点是包含关系。树就是从没有父节点的根节点开始,依次画出其每个子节点,再依次画出这些子节点的子节点,如此循环直至子节点不再包含子节点。图2.2树结构示例7.1树图树图特征
树图是一种层次嵌套图。树图中的连线都是有向的,一头是父节点,一头是子节点,父节点对于子节点是包含关系。12子树不相交(每个子节点最多能有一个父节点)除了根节点外,每个结点都有一个父结点3一棵N个节点的树图有N-1条边如图2.2,是一棵有7个节点的树,这棵树包含6条边。树状结构下所有子树都不相交。7.1树图树图使用场景
树图的展示重点在于层级关系,所以适合于分类、组织结构、文章架构等内容的呈现。当数据不符合前述树的特点描述、不具有层级关系,或者有层级关系,但是层数很少时,不适合使用树图。分类组织架构文章架构
A1A2A3A4A10111A20010A30001A40000表2.1邻接矩阵表图2.2邻接矩阵示例7.1树图数据类型绘制树图的数据类型之一是邻接矩阵。邻接矩阵是一个n*n的表示顶点之间相邻关系的矩阵。A[i][j]=1表示第i个节点与第j个节点是邻接点,A[i][j]=0则表示它们不是邻接点;而A[i][j]=n表示的是邻接关系的值;例如,A[1,2]=1,表示A1与A2点具有父子关系,即学科中包含哲学。如下表所示:案例链接:http://dagoo.work:8000/workbench/887.1树图Dagoo:树图案例学科分类图3.1矩形树图示意7.2矩形树图什么是矩形树图?
矩形树图,是将树状结构展示在矩形中的可视化方法。在普通树图中,我们可以观察子树的大小来感受不同分类数据的多少,但是当节点本身具有权值数据时,是无法呈现的,比如分为多层的销售网,每个节点都有销售额数据。使用矩形树图我们可以直接对层级数据的权值进行呈现,在每一层中,都按照子类的权值分配对应矩形的面积,并按照子类权值的和来决定父类的权值,从而将整个矩形分成许多小矩形,来代表每个类。7.2矩形树图矩形分割方式同⼀级别的树多层父子关系通过不同分割算法,按各自占父节点的权重大小进行分割对于多层嵌套型结构,矩形图会根据子节点进行递归分割,直到将所有叶子节点分割完毕。7.2矩形树图矩形树图特征使用空间填充展示数据布局。优化空间利用率适合大规模层级数据。显示分类占比易于呈现有权值的数据。特征一特征二特征三7.3旭日图同样地,为了提高空间利用率,可以依照圆形树图的处理方式,将矩形树图也沿着径向绘制,就构成了旭日图。旭日图中国人口分布旭日图7.4图嵌套关系分析矩形堆积图矩形树图的另一种表达方式是矩形堆积图(Treemap)。指的是一种利用嵌套式矩形来显示树状结构数据的方法。此种呈现方法能以不同颜色区块呈现不同资料,可以透过区块大小看出各资料数值大小比较。当该区块范围越大,代表该资料数值越大、越多。图4.2各洲的各国人口数目什么是圆堆积图?
与矩形堆积图相同,圆堆积图也是一种利用空间分割可视化数据层级的算法。我们从根节点开始,使用圆形来代表同一层级的节点。圆形大小由节点所占权重决定。数据的层级关系表现在圆形的嵌套中,同一个圆形里划分出来的小圈代表着此节点下所属的子节点,通过小圈的大小累积逐渐接近于一个大圈。为了美观,还可以按照某个属性给不同组别的圆形上色。7.4图嵌套关系分析图6.1圆形布局原理说明图7.5图数据关联数据什么是弧线图?
不同于树图的层级排布,弧线图是一种平等对待数据中所有节点的可视化方法,从而将表现的重点放在节点之间复杂关系所透露出的特征上。为了将所有节点置于统一层级上,弧线图一般采用水平铺开或者沿一个圆周均匀放置的排布方式。然后再将存在关系的节点之间使用弧线连接,由观察来得到节点和关系的分布特征。节点之间的顺序可以随机决定,可以由其他属性值决定,也可以根据节点拥有的关系数等决定。弧线图特征
优点缺点不需要预设节点之间的结构,通过观察来发现见解当数据点过多或者关系过多时,图像都会因为过于拥挤而难以观察数据类型可以加入权值的有向关系7.5图数据关联数据极坐标弧线图弧线图与极坐标弧线图,图中数据为中美俄英法五国之间的进出口贸易额,点的大小为出口额总和。7.5图数据关联数据图5.1鱼类贸易流量来源:/chord/chordi/chordi.html什么是弦图?
弦图(ChordDiagram)是极坐标弧线图的升级。弦图中的节点也是在圆周上,不过使用一段弧而非一个点来表示,而节点之间的关系使用一条彩带来表示。这些彩带的两端粗细是不一样的,分别与该端节点作为源头的关系权值成正比,如在进出口图中,连接中国与欧洲的一条彩带,在中国这一端的粗细与中国出口到欧洲的总额成正比,反之亦然。彩带的颜色则与粗的那一端颜色一致,而每个节点的弧线长度与其总输出成正比。弦图适合节点之间关系复杂的数据呈现。7.5图数据关联数据什么是弦图?
弦图元素的两部分研究对象节点的集合内层为节点间相互连接的弦(代表各研究对象之间的关系)从C到C的关系从B到C的关系7.5图数据关联数据特征一弦图特征
特征弦图展示的重点是边数据集是节点之间的关系特征二弦图适合呈现复杂关系大数据集或者数据流动特征三复杂的弦图容易混乱,需要高亮、标签等交互功能特征四弦图既可以用于有向图,也可以用于无向图7.5图数据关联数据Dagoo:弦图案例中法英美俄五国之间的进出口关系,易于看出,中国是最大的出口国,最大宗的贸易关系是中美,中国是贸易顺差国,而英国是贸易逆差国。进出口关系图7.5图数据关联数据冲积图又称桑吉图,即把节点从圆周上转移到多条平行线上,每条平行线代表一个组别或是一个时间点,从而表现出数据在组间转移或者随时间流动的趋势来的图。7.5图数据关联数据力导向设计思路对规模宏大、没有明确结构的数据(如社交网络的用户关系数据),可以使用力导向图。力导向图表达节点之间的关系时,只用到了节点位置这一个可视化因素。7.6力导向布局社交网络关系力导向图一种常用的算法是用库仑力作为斥力,弹簧弹力作为引力。若将节点视为带有同种电荷的粒子,则所有节点会相互施加斥力,且该力的大小与距离的平方成反比。同时,将连线视作是一根弹簧,若被连接的节点超出初始距离,则会产生与形变长度成正比的引力。从一个随机的初始态出发,在运动的过程中能量逐渐衰减,最后得到的稳定布局就是力导向分布的。力导向布局优点高质量的结果。至少对于中等大小的图形(最多50-500个顶点),基于以下标准获得的结果通常具有非常好的结果:均匀的边长,均匀的顶点分布和显示对称性。对称性很重要,很难用任何其他类型的算法来实现。灵活性。力导向算法可以轻松进行调整和扩展,以满足其他审美标准。这使它们成为最通用的图形绘制算法类。现有扩展的示例包括有向图,3D图,集群图,约束图和动态图。直觉的。由于它们基于弹簧等常见对象的物理类比,因此算法的行为相对容易预测和理解。其他类型的图形绘制算法则不是这种情况。简单。典型的力导向算法很简单,可以用几行代码实现。通常还涉及其他类别的图形绘制算法,例如用于正交布局的图形绘制算法。互动性。这类算法的另一个优点是交互方面。通过绘制图表的中间阶段,用户可以了解图表的演变方式,将其从纠结的混乱中解脱出来,变成美观的配置。在某些交互式图形绘制工具中,用户可以将一个或多个节点从其平衡状态中拉出,并观察它们迁移回原位。这使它们成为动态和在线图形绘制系统的首选。强大的理论基础。虽然简单的临时力导向算法经常出现在文献中和实践中(因为它们相对容易理解),但更多有道理的方法开始受到关注。7.6力导向布局力导向布局缺点高运行时间。通常认为典型的力导向算法的运行时间等效于O(n3),其中n是输入图的节点数。这是因为迭代次数估计为O(n),并且在每次迭代中,都需要访问所有节点对并计算其相互排斥力。局部最小值问题。不难发现,力导向算法产生的图具有最小的能量,但这种最小能量也许只是局部的。在许多情况下,发现的局部最小值可能会比全局最小值差很多,这就好像是半山腰的一个小坑,会转化为低质量的工程图。对于许多算法,尤其是仅允许顶点下坡移动的算法,最终结果可能会受到初始布局的强烈影响,而在大多数情况下,初始布局是随机生成的。随着图的顶点数量增加,局部极小值不佳的问题变得更加重要。不同算法的组合应用有助于解决此问题。7.6力导向布局图10.1搜索树模型7.7搜索算法搜索树模型我们根据初始条件和扩展规则,把一个具体的问题抽象成为树状的图论模型,即搜索算法使用第一步。由图10.1可知搜索树模型。初始状态对应着根节点,目标状态对应着目标结点。排在前的结点叫父结点,其后的结点叫子结点,同一层中的结点是兄弟结点,由父结点产生子结点叫扩展。完成搜索的过程就是找到一条从根结点到目标结点的路径,每个路径都是一个解,找出一个最优的解。搜索算法搜索算法的实现类似于图或树的遍历,通常可以有两种不同的实现方法,即深度优先搜索(DFS,DepthFirstsearch)和广度优先搜索(BFS,BreadthFirstSearch)。广度优先搜索并不考虑结果可能的位置,单纯的进行整张图搜索。广度优先搜索利用队列结构,先从开始节点的邻居开始遍历,先进行检索,看节点是否满足要求,若满足目标要求,则结束搜索,若不满足就将给该节点弹出队列,并标记该点已访问过,将该节点的邻居加入队列,最终完成遍历。广度优先搜索深度优先搜索算法要尽可能“深”地搜索树。深度优先搜索采用递归或者栈来实现。搜索过程的基本思想是:选择某一种可能情况向前(子结点)探索,在探索过程中,一旦发现原来的选择不符合要求,就回溯至父亲结点重新选择另一结点,继续向前探索,如此反复进行,直至求得最优解。简要来说就是对每一个可能的分支路径深入搜索,并且每个节点只访问一次。深度优先搜索7.7搜索算法图10.2广度优先搜索算法示例搜索算法广度优先搜索算法往往用于解决两类问题:1、从X出发是否存在到达Y的路径2、从X出发到达Y的最短路径。Dijkstra单源最短路径算法和Prim最小生成树算法都采用了和宽度优先搜索类似的思想。7.7搜索算法图10.2广度优先搜索算法示例广度优先搜索如图10.2所示,使用广度优先搜索算法。广度优先搜索算法类似树的按层遍历,首先设置A为初始点,访问初始点A,并将其标记为已访问过,接着访问A的所有未被访问过可到达的邻接点B、C,并均标记为已访问过,然后再按照B、C的次序,访问每一个顶点的所有未被访问过的邻接点D、E,并均标记为已访问过,然后访问F。这样图中所有和初始点A有路径相通的顶点都被访问过,输出A到F的路径(路径不止一条),以及最短距离。7.7搜索算法图10.3深度优先搜索示例深度优先搜索利用深度优先搜索算法可以产生目标图的相应拓扑排序表,利用拓扑排序表可以方便的解决很多相关的图论问题,如最大路径问题等等。同时,在迷宫问题上也经常会使用到深度优先搜索。7.7搜索算法图10.3深度优先搜索示例深度优先搜索如图10.3所示深度优先搜索示例,我们使用深度优先搜索算法,设A为初始点。首先访问初始点A,然后选择一个子节点继续探索,这里选择B,那么路径就是A→B→D→E→F。此时到F,没有子节点,我们回溯至点E。然后选择C进行探索,访问C过后,由于没有下一个子节点,我们继续回溯至E。E无子节点可以选择,继续回溯至D,D也无子节点,依次类推回溯至A,所有节点都被访问,得到最优结果。7.7搜索算法7.8最短路径什么是最短路径?
最短路径是指,一个图里有很多边,每条边有权值,找出两点之间的权值最小的路径。最短路径是具有现实价值的问题,也是图数据处理的基本算法。说明:假设节点1是源点,如果用这样长度的绳子将各个节点连接起来,那么拎起节点1,从上往下悬挂,那些绷直的线相加就是源点到各个点的最短距离7.8最短路径最短路径算法求最短路径有多种方法,这里我们来介绍一下Dijkstra算法。Dijkstra算法采用贪心策略,使用了广度优先搜索解决赋权有向图或者无向图的单源最短路径问题,算法最终得到一个最短路径树。该算法常用于路由算法或者
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 医务室值班工作制度
- 医生诊断室工作制度
- 二轮专题:简谐运动在电学中的综合应用
- 医院观察室工作制度
- 午托部安全工作制度
- 单位老干部工作制度
- 卫健局妇幼工作制度
- 卫生责任区工作制度
- 卫生院病房工作制度
- 印刷室工作制度汇编
- 逐梦九天:中国航天70年辉煌成就与未来展望
- 河南省郑州市九校联考2026届九年级下学期中考一模物理试卷(含答案)
- 2026年浙江省宁波外国语等名校共同体中考语文模拟试卷
- 安全风险分级管控和隐患排查治理监理实施细则范例
- JJF 2370-2026 建筑运行阶段碳排放计量技术规范
- 2026“市委书记进校园”引才活动穆棱市事业单位招聘10人笔试模拟试题及答案解析
- 外贸企业培训课件
- 课件-项目5-5.2AI赋能高效办公的常用工具
- 神奇的动物世界课件
- 《12345政务便民服务热线工作表态发言》
- Rsoft软件说明介绍和使用
评论
0/150
提交评论