《Python大数据可视化方法与实践(微课版)》课件 第1-5章 大数据可视化基础-关系数据可视化_第1页
《Python大数据可视化方法与实践(微课版)》课件 第1-5章 大数据可视化基础-关系数据可视化_第2页
《Python大数据可视化方法与实践(微课版)》课件 第1-5章 大数据可视化基础-关系数据可视化_第3页
《Python大数据可视化方法与实践(微课版)》课件 第1-5章 大数据可视化基础-关系数据可视化_第4页
《Python大数据可视化方法与实践(微课版)》课件 第1-5章 大数据可视化基础-关系数据可视化_第5页
已阅读5页,还剩556页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第一章大数据可视化基础从古老的日晷到现代的大数据分析,数据始终是连接过去与未来的桥梁。让我们一起探索数据的本质、演变与价值。1.1数据是什么大数据的定义大数据是指具有数量巨大、类型多样、处理时效短、数据源可靠性保证度低等综合属性的海量数据集合。这类数据无法在一定时间内用常规软件工具进行捕捉、管理和处理。它们是海量、高增长率和多样化的信息资产,在新处理模式中具有更强的决策力、洞察力和流程优化能力。1.1.1数据与大数据在人类历史的长河中,数据一直扮演着至关重要的角色。自上古时代起,人们就开始观察天象运动规律。到商朝晚期,人们采用干支纪元来度量时间。日晷仪等工具被用来计算时间,这些早期的数据实践为古人提供了宝贵的时间信息,帮助他们进行各种日常活动。然而,随着科技的进步和社会的发展,数据的概念和应用已经发生了翻天覆地的变化,特别是在当今数字化时代,"大数据"已成为最炙手可热的话题之一。时代变迁从传统数据到数字化浪潮进入21世纪,以大数据、物联网、人工智能、5G为核心技术的数字化浪潮席卷全球。车联网、工业物联网、生物识别技术等应用带来了前所未有的海量数据。文本数据文字、日志、报告等结构化与非结构化文本图片数据照片、扫描件、医学影像等视觉信息视频音频监控、语音、流媒体等多媒体内容这一时期的"数据"已不再局限于传统统计数字,而是包含来自各个领域的多种形式的非结构化或半结构化数据,需要分布式存储、云计算、数据挖掘、机器学习等新技术来处理和分析。大数据的5V特征Volume·大规模数据量极其庞大,远超常规软件工具的处理范围Velocity·高速度数据产生和处理速度极快,强调实时或近实时处理Variety·多样性包含文本、图片、视频、音频等多种数据格式Veracity·真实性数据来源广泛,需要严格的清洗和验证流程Value·价值通过深度挖掘发现潜在模式、趋势和关联对比分析大数据vs普通数据维度普通数据大数据规模规模较小,传统工具可轻松管理极其庞大,需分布式存储和高性能计算速度静态或更新频率较低实时/近实时数据流处理,增长速度极快多样性结构化程度高,易于分类处理多种格式,非结构化/半结构化信息多真实性质量和准确性通常较高噪声多,对数据清洗验证要求更高价值价值较为直观需深度挖掘发现潜在模式与趋势数据的温度数据不是冰冷的数字数据不是冰冷的数字,而是现实生活的一种映射,其中隐藏着许多故事。如果没有明确的目标和概念指导,数据将变得枯燥乏味。然而,通过统计学原理和可视化技巧,我们可以赋予数据情感和故事,与用户产生共鸣。分析和洞察是数据可视化展现的一个目的,富有情感地讲述数据、与用户产生共鸣也是很好的选择。经典案例WeFeelFine:用数据讲故事图1-2乔纳森·哈里斯和赛普·卡姆瓦尔的作品WeFeelFine乔纳森·哈里斯和塞普·卡姆瓦尔的作品WeFeelFine用Processing语言编写,从公开的个人博客中抓取词句,以悬浮气泡的形式展现。每个气泡代表某种情绪,用相应颜色标记颜色越深代表心情越不好气泡像无数个体在空间中漂浮,逐渐聚集可通过分类菜单发现看似随机片段之间的联系整个作品既富有诗意又给人以启迪,展示了数据可视化的情感力量。数据的相关性力量在无法确定因果关系时,数据为我们提供了解决问题的新方法。数据中所包含的信息可以帮助我们消除不确定性,而数据之间的相关性在某种程度上可以替代原来的因果关系,帮助我们得到想要的答案。大数据不仅仅是大量数据的集合,它代表了一种全新的思维方式和技术框架,用于应对快速变化的世界所带来的挑战。核心观点无论是古老的历法还是现代的大数据分析,数据始终是连接过去与未来的桥梁,帮助我们更好地理解这个世界。数据·信息·知识从原始数据到有用信息,再到系统知识——理解三者的关系是掌握大数据的基础。1.1.2数据、信息与知识什么是数据?数据是观察和记录客观事物所得到的事实或结果,是对客观现象的逻辑归纳,作为未经加工的原始素材,用于表示和描述客观事物。连续型数据表示模拟数据,例如声音和图像离散型数据表示数字数据,例如符号和文字在现今的生活中,人们每天都会接触到大量的数据,以及由数据构成的文字、符号、声音、图像等信息。计算机中的数据存储在计算机系统中,数据以二进制形式表示。存储数据的最小单位是比特(bit),存储容量的基本计量单位是字节(Byte,B)。8个二进制位(bit)=1个字节(Byte)011B=8bit021KB=1024B031MB=1024KB041GB=1024MB051TB=1024GB什么是信息?信息(Information)是隐藏在数据背后的规律,需要人为挖掘和探索。信息是对事物的描述,它比数据更加抽象。数据与信息的区别数据=信息+冗余。冗余包含多余部分和人为增加的备份部分。数据是采集得到的,信息是从数据中获取的有用数据。数据与信息的联系数据和信息相互依存。数据经过加工处理后成为信息;信息经过数字化处理,转变成数据后才能存储和传输。什么是知识?对数据和信息进行处理后将会得到知识(Knowledge),知识是比数据和信息更加高级的抽象概念,具有系统性、规律性和可预测性。数据观测、记录行星出现的位置和时间信息对数据进行分析挖掘,计算得到行星运动的规律知识对信息进行总结提炼,得到开普勒三定律知识使人们更加清晰地了解世界和生活,同时人们通过知识不断改变周围的世界——而这一切的基础就是数据。从数据到信息再到知识数据原始观测与记录知识系统理解并具备预测能力信息通过分析提取模式与规则从数据到信息再到知识,清晰界定各概念的范围,有利于后续对大数据的学习。从数据到信息,可能会得到不同的信息;而从信息到知识,则直接影响了后续数据的应用场景和使用价值。价值篇大数据的时代价值在当今数字化社会,数据已成为推动经济发展、社会治理和科学研究的重要资源。大数据分析的新范式核心理念大数据分析强调在海量、高维、动态的数据环境中,通过先进技术高效挖掘信息,提炼出有价值的洞见。在当今数字化社会,数据的价值不再局限于传统统计。大数据概念的兴起,不仅反映了数据规模的扩展,更体现了一种新的思维方式和分析范式,为更科学的决策和创新实践提供支撑。大数据面临的核心挑战1存储与管理规模庞大不仅带来存储容量挑战,还涉及如何高效管理和检索海量数据2实时分析数据产生速度迅速加快,实时分析在金融交易、网络安全等关键领域愈发重要3数据质量数据源极其多样,确保数据质量对准确判断至关重要,数据清洗和验证不可或缺大数据的核心目标从大数据中挖掘出有价值的信息,帮助企业制定战略决策、提高运营效率或发现新的商业机会,才是利用大数据的核心目标。海量数据先进分析宝贵洞察竞争优势通过采用先进的分析技术,企业和组织能够将海量数据转化为宝贵的洞察,从而在竞争激烈的市场中占据优势。总结与回顾1大数据定义具有大规模、高速度、多样性、真实性和价值五大特征的海量数据集合2历史演变从古代日晷到21世纪数字化浪潮,数据的概念和应用发生了翻天覆地的变化3数据·信息·知识数据经加工成为信息,信息经提炼成为知识,三者层层递进、相互依存4核心价值大数据代表全新的思维方式,通过先进技术将海量数据转化为决策支撑与竞争优势无论是古老的历法还是现代的大数据分析,数据始终是连接过去与未来的桥梁。第一章1.2大数据与可视化数据会说话——从案例到流程,探索大数据可视化的核心价值与实践方法数据会说话大数据可视化涵盖了各种应用情景,要制作精美、优质的数据可视化图,除了需要具备出色的分析能力之外,还需要具备设计图形和讲述故事的能力。接下来,我们通过三个经典案例来感受大数据可视化的魅力与价值。案例1-1百度搜索指数百度是我国最大的搜索引擎之一,其搜索指数是衡量特定关键词在一段时间内受关注程度和搜索量的指标。百度搜索指数不仅可以反映人们对某个关键词的兴趣度,还可以在一定程度上反映社会热点、事件趋势和用户关注的话题。它可以根据时间和地域进行搜索量的分析和比较,提供图表和数据展示,帮助用户更好地理解和分析搜索趋势。百度搜索指数·核心功能搜索指数的三大应用搜索趋势分析了解关键词搜索量的增长或下降趋势、高峰期和低谷期,对市场研究、舆情分析和产品策划具有重要意义。比较分析比较不同关键词的搜索量,以及不同地区、不同时间段内的搜索趋势,助力竞争对手分析和广告投放决策。预测趋势观察关键词搜索量变化,推测未来趋势和热点话题,对舆情预警、新闻追踪和市场预测有参考价值。这些分析与预测充分体现了大数据分析在舆情监测、市场研究和产品策划中的价值。案例1-1·实例"志愿填报"搜索指数如图1-4所示,可以明显发现在高考结束后,会有大量用户搜索"志愿填报",这正是百度搜索指数反映社会热点和事件趋势的典型体现。图1-4"志愿填报"的百度搜索指数案例1-2百度迁徙平台百度迁徙平台是基于百度地图位置服务数据构建的大数据可视化应用。该平台通过动态地图、流向图和折线图等可视化形式,将抽象的迁徙数据转化为直观的信息呈现。平台实时统计全国各城市的"热门迁入地"和"热门迁出地",并以橙色光圈的大小直观反映人口迁徙的规模和热点分布,同时提供迁徙趋势分析功能,帮助用户观察不同时期人口迁徙的变化规律。案例1-2·深度解读从数据展示到信息叙事核心洞察大数据可视化不仅是对数据的简单展示,更是一种有效的信息组织和表达方式。通过将海量数据库中的分散数据整合为清晰的图表和趋势线,大数据可视化帮助用户在浏览过程中自然而然地理解数据背后的社会规律,形成情境化的认知。这种叙事化的可视化表达,使数据不再是冰冷的数字,而成为展现城市活力、节日特征和社会运行态势的生动载体。案例1-3"自拍之城"项目"自拍之城"(Selfiecity)项目以全球视野对自拍现象进行了系统性研究。该项目收集并分析了来自世界各地的12万张自拍照片,通过可视化技术揭示了不同城市自拍者在年龄分布、面部表情等方面的显著差异。头部倾斜角度不同城市自拍者的头部倾斜角度分布与拍照姿势特征微笑频率统计基于年龄和性别的微笑频率统计与文化差异分析全球文化共性从微观层面揭示全球自拍文化的共性与差异案例1-3·数据展示不同城市自拍者的微笑评分随着社交媒体的日益普及,该项目为用户理解全球文化现象提供了新的视角。平台特别设计了交互式可视化界面,用户可以通过筛选器等交互功能,亲身体验大数据分析在文化研究中的独特价值。图1-6不同城市自拍者的微笑评分均值统计案例1-3·启示突破个人经验的局限交互式设计通过筛选器等交互功能,将复杂分析结果转化为直观图形,让用户亲身体验大数据的分析价值。宏观与微观突破个人经验局限,揭示宏观文化趋势在微观个体行为中的具体表现,彰显大数据可视化在文化研究中的独特力量。大数据可视化的核心价值通过上述3个案例,我们可以总结出大数据可视化的三大核心价值:抽象数据具象化通过图形化手段呈现复杂数据离散数据结构化对散乱信息进行系统组织原始数据故事化用视觉语言讲述数据背后的内涵优秀的可视化设计不仅要准确展示数据特征,更要通过合理的视觉叙事引导用户理解数据内涵,实现认知共鸣。1.2.2可视化流程可视化流程大数据可视化的流程以数据流向为主线,核心流程主要包括数据采集、数据处理、可视化映射和用户感知4个步骤。整个可视化过程可以看成数据流经过一系列处理步骤得到转换的过程。用户可以通过可视化的交互功能互动,同时数据分析人员可以通过用户的反馈优化可视化的效果。步骤一数据采集可视化的对象是数据,而采集的数据涉及数据格式、维度、分辨率和精确度等重要特性,这些特性决定了可视化的效果。在可视化过程中,务必了解数据的来源、采集方法和属性,以便准确地反映待解决的问题。步骤二数据处理原始数据中可能含有噪声和误差,还可能会有部分信息被隐藏。可视化之前需要将原始数据转换成用户可以理解的模式并显示出来。数据处理是数据可视化的前期准备工作,包括:数据去噪数据清洗提取特征步骤三可视化映射可视化映射是整个数据可视化流程的核心,其主要目的是让用户通过可视化结果理解数据信息以及数据背后隐含的规律。标记与位置将数据数值和空间坐标映射为视觉元素形状与大小用不同形状和尺寸表达数据间的差异颜色编码通过色彩变化传递数据关联信息可视化映射需要与数据、感知、人机交互等方面相互依托,共同实现可视化目标。步骤四用户感知可视化映射后的结果只有通过用户感知才能转换为知识和灵感。用户从数据的可视化结果中进行信息融合、提炼,总结知识并获得灵感。数据可视化使用户能够从数据中探索新信息,验证自己的想法是否与数据所展示的信息相符,同时也可以利用可视化结果向他人展示数据所包含的信息。交互功能在可视化辅助分析、决策方面发挥了重要作用。当前,有很多科学可视化和信息可视化工作者仍在不断优化可视化工作流程。可视化四步流程总览用户感知可视化映射数据处理数据采集整个可视化过程是数据流经过一系列处理步骤得到转换的过程,用户可通过交互功能参与其中,数据分析人员则根据反馈持续优化效果。经典模型哈伯与麦克纳布的可视化流程图图1-7所示为哈伯和麦克纳布提出的可视化流程图,该图描述了从数据空间到可视空间的映射,包含数据分析、数据过滤、数据可视化映射和渲染绘制等各个阶段。这个流水线常用于科学计算可视化系统。图1-7可视化流程图本节知识回顾1数据会说话百度搜索指数、百度迁徙平台、"自拍之城"三大案例展示可视化的多元应用2核心价值抽象数据具象化、离散数据结构化、原始数据故事化3可视化流程数据采集→数据处理→可视化映射→用户感知的四步核心流程4经典模型哈伯与麦克纳布的流水线模型:从数据空间到可视空间的系统映射第一章数据绘图1.2.3数据绘图数据绘图用于实现原始数据信息的可视化呈现。实际选择图表时应先从总体上观察数据,然后将数据细化到具体的类型和其他特性。数据绘图常用图表类型一览数据绘图·01柱形图柱形图采用长方形和颜色编码体现数据属性,利用直柱的高度反映数据差异。适用于只有一个维度需要呈现差异的中小规模二维数据集。柱形图的每根直柱内部也可以用像素方式编码,这种柱形图称为堆叠柱形图。堆叠柱形图可同时展示各部分的构成与总量。数据绘图·01柱形图与堆叠柱形图示例柱形图示例图1-8历次人口普查数堆叠柱形图示例图1-92019—2023年三次产业增加值占GDP比重数据绘图·02条形图条形图可以看作将柱形图向右旋转90°得到的图形。当属性数目较多时(如大于12个),柱形图会显得过于拥挤,此时更适合采用条形图。条形图的条目数一般要求不超过30个,否则容易带来视觉和记忆上的负担。图1-10条形图示例(历次人口普查数)数据绘图·03折线图折线图适用于二维大数据集,尤其是那些趋势比单个数据点更重要的场合。通过观察折线图,用户能够清晰地了解数据的变化及规律。图1-112018年1月至2019年8月重点城市商品住宅成交面积走势数据绘图·04直方图直方图是一种呈现数据分布情况的二维统计图表,以长条图形式表现。直方图实际上是一种特殊的柱形图,但用于描述定量变量。与柱形图的区别柱形图中每个矩形对应一个定性变量的取值;直方图中每个矩形对应定量变量的区间(集合)。面积特性由于各区间等宽,不仅高度,各区间的面积也与频数或频率成比例。图1-122020年人口普查年龄比例直方图数据绘图·05饼图饼图以圆形为基础,通过将圆形分割成若干扇形来展示各类别之间的相对比例关系。每个扇区的弧长、圆心角和面积都与其所表示的数量成正比。许多统计学家并不推荐使用饼图,因为它不便于比较不同扇区的大小。但当我们关注某个大扇区在整体中的占比时,饼图尤为有用。图1-132023年三次产业投资占固定资产投资比重数据绘图·06散点图散点图能够将多维度的复杂数据直观地呈现于二维坐标系中。通过将每个观测值映射为坐标系中的一个点,散点图不仅能清晰展示两个变量之间的相关性和分布模式,还能有效识别数据中的整体趋势和异常值。散点图特别适用于探索性数据分析,当数据点以特定形态聚集时,往往能揭示出变量间潜在的内在联系。数据绘图·07热力图热力图通过色彩梯度直观呈现矩阵数据中的数值分布特征。最初用于地理空间分析,通过颜色深浅反映点的空间密度分布。其优势在于能够不受缩放比例影响地展示数据聚集程度。目前已广泛应用于网页流量分析、商业智能等多个领域,特别适合展示高维数据中的趋势分析。图1-14航班乘客数量热力图(基于Seaborn数据集)数据绘图·08箱线图箱线图基于5个关键统计值来描绘数据集:最小值、第一四分位数(Q1)、中位数(Q2)、第三四分位数(Q3)和最大值。箱线图能够直观明了地识别数据中的异常值。若不加甄别地把异常值包含进计算分析中,会对结果造成不良影响;但如果重视异常值并分析其产生原因,则往往能发现潜在问题,为改进决策提供线索。图1-15某小学不同年级成绩箱线图数据绘图·09小提琴图小提琴图是箱线图与核密度估计图的结合,用于显示数据分布及其概率密度。它在箱线图的每一侧添加了旋转的核密度估计图,通过小提琴图可以知道哪些位置的密度较高。图1-16小提琴图示例——包含中位数、四分位数范围、密度图宽等统计量数据绘图·10雷达图雷达图又叫蜘蛛网图,以二维图表形式显示多维数据。由多个从同一点出发的轴组成,每个轴表示一个定量变量,适用于展示3个或更多个定量变量。所有轴之间夹角相等,每个轴有相同刻度,连接各变量数据点形成多边形。雷达图对于查看哪些变量具有相似值、是否有异常值都很有用,非常适合用来显示性能、排名、评估等数据。图1-17某同学各科考试雷达图数据绘图·11词云图词云图也称"标签云图"或"文字云图",是关键词的视觉化描述。标签一般是独立的词汇,其重要程度通过改变字体大小或颜色来表现。词云图过滤了大量文本信息,使浏览者只要一眼扫过文本就可以领略文本的主旨,可灵活依照字母顺序或热门程度来检索标签。图1-18词云图示例数据绘图·12&13圆环图与气泡图圆环图通过圆环形状表示整体,各扇区表示不同部分的占比。角度大小与比例成正比,通过颜色、标签和图例增强信息表达。图1-19圆环图示例数据绘图·12&13圆环图与气泡图气泡图在二维坐标系上使用圆形气泡展示数据关系。位置由x轴和y轴确定,气泡大小表示第三个变量的值。图1-20气泡图示例数据绘图图表选择指南第一章可视化理论1.3知识拓展:可视化理论与设计基础大数据可视化既是一门艺术,也是一门科学。为了清晰、有效地传递信息,数据可视化采用统计图形、图表、信息图表等工具,以点、线或条形对数字数据进行编码,在视觉上传达信息。1.3.1视觉感知什么是视觉感知?视觉感知是利用由环境中物体反射的可见光谱中的光来解释周围环境的能力。它是人类大脑的一项至关重要的高级功能,涉及语言学、心理学、认知科学、神经科学和分子生物学等多个领域。眼睛作为专门的视觉器官,能够接收并初步解析视觉信息。人脑首先处理颜色、形状、空间关系等低层次特征,然后在高级视觉皮层完成物体识别和场景理解等高级认知过程。视觉感知视觉感知与数据可视化核心关系视觉感知是视觉认知的前提。数据可视化提供直观的可视化界面,使用户通过视觉感知器官获取编码信息,在大脑中完成解码和形成认知。两个感知层次低级感知层次与物体特性有关:深度、形状、边界和表面材质等高级感知层次涉及物体的识别和分类,是人类认知的重要组成部分视觉感知视觉感知的三个阶段图像接收外界光线通过瞳孔进入眼睛,经角膜和晶状体折射后在视网膜上形成影像。视杆细胞负责明暗感知,视锥细胞负责色彩感知。信号传递与处理神经电信号通过视神经传递至大脑。经视交叉和外侧膝状体中转后,到达枕叶初级视觉皮层,完成边缘检测、运动感知等基础分析。高级加工颞叶负责物体和面孔识别,顶叶处理空间关系,前额叶参与工作记忆和决策。边缘系统同步产生情绪反应。视觉感知视觉感知对设计的指导意义符合生理特性保持适当的对比度和视角范围遵循认知规律运用格式塔原理组织信息,建立清晰的视觉层次减少认知负担通过合理的视觉编码方式,让信息传达更加直观高效第一章格式塔理论1.3.2格式塔理论格式塔学派兴起于20世纪初的德国,由马克斯·韦特海默、沃尔夫冈·科勒和库尔特·科夫卡三位心理学家创立,总结了一系列知觉组织原则,解释人类如何将零散刺激组织为有序而有意义的整体。格式塔理论格式塔理论在设计中的应用格式塔原则可用于指导设计师更有效地组织和呈现视觉元素,优化用户的视觉体验,使数据可视化和界面设计更直观、美观。邻近与相似建立视觉层次图形—背景突出重点信息连续性强化趋势理解格式塔理论·核心特征四大核心特征1整体性人类视觉系统优先感知整体信息而非局部信息2具体化人脑主动补全信息的能力3组织性将零散刺激整合为连贯整体4恒常性物体变化后仍能识别为同类对象核心特征·整体性整体性整体性是指人类视觉系统优先感知整体信息而非局部信息。例如观察一只在树荫下的狗时,观察者并非通过逐一识别狗的各个部位来推断这是一只狗,而是直接将其感知为一个完整的"狗"的形象。图1-21一只狗在树荫下——整体性示例核心特征·具体化具体化具体化展示了人脑主动补全信息的能力。人脑获得的经验往往比实际呈现的刺激包含更多外在空间信息,大脑会主动补全或生成缺失的部分。(a)闭合与补全三个缺口圆形使人感知到不存在的白色三角形(b)遮蔽补全不规则图形被看作被遮挡的矩形(c)三维立体化二维刺激引发三维球体感知(d)连续性效应孤立弯曲图形被看作连续波浪线核心特征·组织性组织性组织性是指视觉系统按照知觉组织规律将零散刺激整合为连贯整体的能力。当刺激存在歧义时,视觉系统会在几种整体解释之间交替切换,形成多稳态知觉现象。(a)立方体示意图同一组线段可被组织为"左下角在前"或"右上角在前"两种三维结构(b)鲁宾图同一条边界既可被感知为黑色花瓶轮廓,也可被感知为两张白色人脸侧影核心特征·恒常性恒常性恒常性是指当物体发生旋转、平移、缩放、形变或光照条件改变时,人们仍能将其识别为同类对象,并保持对其大小、形状、明度和方位等特征的稳定判断。(a)方位变化仍可识别(b)结构打乱不再识别(c)弹性形变仍可识别(d)不同描绘仍可识别格式塔理论·基本原则格式塔基本原则格式塔的基本原则包含闭合原则、相似原则、邻近原则和连续性原则,它们解释了人类视觉的归类与分组机制。基本原则·闭合闭合原则视觉系统会自动尝试将敞开的图形封闭起来,从而将其感知为完整的物体而不是分散的碎片。当图形是一个残缺图形时,我们会有一种使其闭合的倾向——视觉系统能自行填补缺口以将其认知为一个整体。例如看到残缺的线段时,会认为它是一个圆形和一个矩形,而非多条线段。基本原则·相似相似原则如果其他因素相同,那么相似的物体将会被归为一组。例如圆点纵横间距相同时,用户会习惯性地把外形相同的空心圆看成一组,把实心圆看成另外一组。手机软件图标就应用了相似原则:不同图标代表不同功能,但图标大小、文字说明的大小及字体相同,均匀分布在空间内,用户清楚地知道每个图标代表的不同意义。基本原则·邻近邻近原则物体之间的相对距离会影响人们对它们是否属于同一组的感知。距离较近时容易被视为一组,距离较远时则被视为另一组。登录/注册表单通常在输入框下方设置操作按钮,应用了邻近原则和共同区域原则:相邻且被同一容器包围的元素会被视为同一功能单元。基本原则·连续性连续性原则我们的视觉系统倾向于感知连续的形态而不是离散的碎片。如图所示的两把交叉钥匙,尽管它们互相遮挡,我们仍然可以识别出来。由此可见,我们会下意识地将离散的碎片组织成整体。格式塔理论格式塔原则总结第一章设计基础1.3.3设计基础可视化设计遵循一定的规则,基于物理定律、光的波长以及人眼感知世界的方法。特定色调组合会产生对比效果,高对比度色调比柔和色调更容易吸引注意力,每种颜色表达的含义和情感也不同。设计基础·光与颜色可见光与颜色光vs颜色"光"指电磁辐射,描述波长、频率与能量分布等物理量;"颜色"是人类的主观感知结果,并非光本身的固有属性。可见光人类视觉能够感知的电磁波段。短波段邻近紫外线,长波段邻近红外线。颜色感知视网膜上三类视锥细胞分别对短波(S)、中波(M)和长波(L)敏感,大脑整合信号形成色相、明度和饱和度的感知。设计基础·色彩模式RGB与CMYKRGB—加色模型RGB通过将红光(Red)、绿光(Green)和蓝光(Blue)以不同比例相加合成各种色光。主要用于电子系统中的图像采集、表示与显示CMYK是以青、品红、黄和黑四种颜色构成的减色空间,以青、品红、黄和黑四种油墨的数值表示,主要应用在打印机或彩色印刷系统的颜色处理中。注:RGB是与设备相关的颜色空间,不同设备对相同RGB值的显示效果可能存在差异。CMYK—减色模型设计基础·色彩模式RGB与CMYK对比特性RGBCMYK模式加色模型减色模型原色红、绿、蓝青、品红、黄、黑应用场景显示器、电视、相机印刷、打印色域较大,色调更鲜明较小,高饱和色受限设备依赖与设备相关受纸张、油墨等影响在版式设计时,既要考虑CMYK叠印的色域限制,也可根据需要选用专色油墨(如Pantone、金属色或荧光色)以获得更稳定、纯度更高的印刷效果。设计基础·颜色基础颜色基础与色彩理论色彩理论总结了颜色的基本要素(色相、明度、饱和度)及其相互关系,解释了不同配色方法所产生的视觉效果和审美感受。色彩心理学进一步研究了色彩与人类情绪、行为之间的关系。颜色基础·术语色彩术语色相颜色的基本类别,如红、橙、黄、绿、蓝、紫等浅色与深色浅色:加入白色使颜色变浅;深色:加入黑色使颜色变暗色调加入灰色或补色,使饱和度降低,呈现更柔和的效果饱和度颜色的纯度或强度,高饱和度鲜艳纯净,低饱和度偏灰暗色值颜色的明暗程度,浅色色值较高,深色色值较低颜色基础·色环色环与原色体系图1-32RYB色环图1-33原色(红、黄、蓝)RYB色环以红、黄、蓝为三原色。相对位置的两种颜色为互补色(如红与绿),相邻颜色具有相似特性,通常适合作为配色方案。颜色基础·色环二次色与三次色图1-34二次色与三次色二次色由两种原色等比例混合而成:黄+蓝=绿,黄+红=橙,蓝+红=紫。在色环上位于对应两种原色中间。三次色由相邻的原色和二次色混合而成,如黄+绿=黄绿色。命名通常采用"原色+二次色"的方式。颜色基础·配色配色方法使用色环可以搭配出多种配色方案。合理的色彩搭配能产生令人愉悦的效果。以下介绍七种常用的配色方法。配色方法单色配色与无彩色配色①单色配色法以单一颜色为基础,通过调整同一色相的明度、纯度和饱和度进行搭配。通过同一色相的渐变过渡,既保持画面简洁统一,又避免单调乏味。②无彩色配色法使用缺乏色相和饱和度的颜色(白、灰、黑)。许多艺术家偏爱在无彩色环境中创作,因为这些颜色能通过明暗对比直接呈现色彩的明度关系。配色方法相似色配色与互补色配色③相似色配色法组合色环上相邻的三色或四色。以一种色调为主(冷色调或暖色调),挑选主色后用相似色作为衬托。④互补色配色法色环上位置相对的两种颜色。使用互补色可增强画面的对比度和视觉强度。配色方法补色分割配色与矩形配色⑤补色分割配色法由一个基色加上其互补色相邻的两个颜色构成。具有类似互补色的视觉魅力,但强度更小,对比更柔和。⑥矩形配色法使用两组互补色使画面效果更强烈丰富。选择一个主色并降低其他颜色饱和度有助于保持平衡。配色方法三等分配色法三等分配色包含3种颜色,在色环上构成等边三角形。设计时要遵循一个重要原则:建立层次感——指定一种主色,然后点缀衬托色,而不让颜色相互"争艳"。配色方法七种配色方法总结设计基础·色彩心理色彩与心理色彩心理学研究色彩的象征意义及其对人类情绪的影响。基于色彩心理学的正向品牌认知,能够有效促进消费者做出购买决定,最终提高销售业绩。色彩心理·暖色调暖色调暖色调通常给人温暖、积极和有活力的心理感受。但高饱和度暖色作为主色可能引起视觉疲劳或压迫感,通过使用浅色、调和色和深色可以降低强度。🔴红色充满活力和温暖感,能引发强烈情绪反应。常用来提升兴奋度或促进食欲,餐饮品牌常使用红色。高饱和度红色应用于局部强调。🟠橙色象征热情和轻松感,传递自信、友善和新的开始。与蓝色搭配形成互补对比,与红色或黄色搭配营造协调暖色调氛围。🟡黄色象征阳光、温馨和愉悦感。明亮黄色能有效吸引注意,常用于警示标志。过于刺眼的黄色可能引发焦躁情绪。色彩心理·冷色调冷色调冷色调通常给人以宁静、理性和可信赖的心理感受。在设计中既可作为主色传递专业与安定感,也可作为强调色突出沉稳与高雅的效果。🟢绿色与自然、生命和成长相关,传递安全、环保感受。常见于健康、金融和环保类品牌,视觉上具有良好辨识度与舒适度。🔵蓝色象征和平、可靠与忠诚,是品牌设计中使用最广泛的颜色之一。可与橙色或黄色等暖色搭配形成视觉对比效果。🟣紫色兼具红色的活力与蓝色的沉稳,给人高贵、神秘的印象。常用于奢侈品、文化艺术等高端品牌及静谧空间的营造。总结知识回顾数据绘图13种图表类型,从柱形图到气泡图,覆盖比较、趋势、分布、占比、关系等分析需求视觉感知图像接收→信号传递→高级加工三阶段,低级与高级两个感知层次格式塔理论四大核心特征(整体性、具体化、组织性、恒常性)与四大基本原则(闭合、相似、邻近、连续性)设计基础可见光与颜色、RGB与CMYK、色环与七种配色方法、色彩心理学核心要点关键启示1选择图表先观察数据从总体上观察数据,然后细化到具体类型和特性,选择最合适的图表类型2理解视觉感知机制设计应符合人眼生理特性,遵循认知规律,减少用户认知负担3运用格式塔原则通过邻近、相似、闭合、连续性等原则组织视觉元素,建立清晰层次4掌握色彩理论合理运用配色方法和色彩心理学,让信息传达更加直观、高效、美观第2章可视化编程基础系统掌握大数据可视化工具、编程环境搭建、数据获取与处理的核心基础知识本章学习目标了解可视化工具掌握各类主流大数据可视化工具的特点与应用场景搭建编程环境掌握Anaconda与PyCharm的安装与配置方法获取数据源了解获取高质量数据资源的常用方法数据存储与处理了解数据的存储方式与属性间的关系章节导读随着国家对大数据战略的高度重视与推动实施,大数据可视化技术已成为提升社会治理效能、服务经济社会发展的重要手段。我国已涌现出众多功能强大且满足多元化需求的数据可视化工具,广泛应用于政府决策、企业发展、社会公共服务等多个方面。本章将系统梳理国内广泛应用的大数据可视化工具,详细阐述Python编程环境的安装与配置,并深入讲解实现大数据可视化的必要基础知识,包括如何获取和利用高质量的数据资源,为后续深入的数据可视化实践奠定坚实基础。2.1可视化工具简介2.1可视化工具简介大数据可视化工具大致可分为四个类别,从入门级制图工具到编程高级分析工具,覆盖不同层次的用户需求。2.1.1ExcelExcel—入门级数据分析首选Excel是微软Office的组件之一,以工作簿形式存储数据,可进行各种数据处理、统计分析和辅助决策操作,广泛应用于管理、统计、金融等领域。Excel是日常数据分析中最常用的工具之一,用户通过简单学习即可使用其丰富的图表功能。在制作折线图、饼图、柱形图、散点图等统计图表时,Excel通常是普通用户的首选。⚠️Excel的缺点是在颜色、线条和样式方面可选择的种类较为有限。2.1.2TableauTableau—新一代商业智能工具Tableau将数据连接、运算、分析与图表结合在一起,用户只需将大量数据拖放到数字画布上,就能快速创建各种图表。其子产品包括TableauDesktop、TableauServer、TableauPublic和TableauReader等。Tableau核心产品矩阵1TableauDesktop分为个人版和专业版,能连接Access、Excel、MySQL等多种数据源。通过拖曳快速生成美观的图表、仪表盘与报告,支持自定义视图、布局、形状、颜色等设置。2TableauServer企业智能化应用软件,基于浏览器提供数据分析和图表生成功能。可将Desktop中的交互式数据转换为可视化内容,支持iOS和Android移动端的数据交互、过滤与排序。3TableauReader免费应用软件,可打开TableauDesktop创建的报表、视图、仪表盘文件。在分享数据分析结果的同时,可进一步对工作簿中的数据进行筛选和监测。2.1.3SPSSSPSS—强大的统计分析软件软件概述SPSS广泛应用于社会科学、自然科学、商业、医疗、市场研究等多个领域,为研究人员和决策者提供有力的数据分析支持。SPSS支持Python或R语言脚本扩展功能,IBM还提供了SPSSModeler用于数据挖掘和预测分析。用户界面SPSS具有友好的图形用户界面(GUI),非专业统计人员也能相对容易地进行数据处理和分析。界面主要包括:数据视图:查看和编辑数据变量视图:定义和修改变量属性SPSS功能与应用数据编辑方便地进行数据输入、修改、删除、排序、转置、计算等操作统计分析支持描述性统计、方差分析、回归分析、卡方检验、时间序列分析等图表生成生成直方图、散点图、饼图、折线图、箱线图等多种图表数据挖掘构建预测模型、分类模型,完成聚类分析等高级分析任务文件处理处理Excel、CSV、数据库文件,输出文本、HTML、PDF等格式决策支持通过数据分析结果帮助用户进行决策和业务优化2.1.4PythonPython—最受欢迎的编程语言Python是一种面向对象的解释型计算机程序设计语言,具有简单、易学、免费、开源、可移植性好、可扩展性强等特点。众多开源科学计算软件包都提供了Python的调用接口,如计算机视觉库OpenCV、三维可视化库VTK、医学图像处理库ITK等。NumPy快速数组处理pandas数据处理分析SciPy数值运算Matplotlib绘图功能Python及其众多扩展库所构成的开发环境十分适合工程技术人员和科研人员处理实验数据、制作图表,甚至开发科学计算应用程序。2.1.5RR—开源统计分析语言R是基于GNU项目的开源编程语言,主要用于统计分析、数据挖掘及图形化展示。它提供了强大的数据存储与处理能力、高效的数据运算能力、完整的统计分析功能以及强大的图形可视化功能。作为功能完整的编程语言,R支持流程控制、函数定义、模块化开发等特性,用户可自定义函数和扩展包,实现复杂的数据操作与分析任务自动化。2.1.6GephiGephi—复杂网络分析与可视化Gephi是一款开源的复杂网络分析和可视化软件,主要用于探索、操作和分析各种类型的图数据和网络结构,广泛应用于社会网络分析、信息网络、生物网络、知识图谱、语义网络、互联网等领域。DataLaboratory数据管理和预处理Overview图形的可视化和分析Gephi主要通过图形用户界面操作,同时提供了API和插件系统,允许开发者通过Java或Python编写自定义算法和工具来扩展功能。Gephi功能特性详解数据导入与预处理支持CSV、GEXF、GraphML、Pajek等多种数据格式,可在DataLaboratory中查看和编辑节点与边的数据可视化提供力导向布局、环形布局、分层布局等多种布局算法,生成各种视觉效果的网络图探索与分析通过交互式界面动态探索网络结构,分析中心性、聚类系数、社区结构等特性地理布局支持GeoLayout和Mapsofcountrieslayouts插件,将节点位置与实际地理位置对应2.1.7PolymapsPolymaps—高性能地图渲染库Polymaps是一个功能强大、灵活且高性能的地图渲染库,适合在线地图应用、数据可视化项目和GIS相关开发工作。它能快速加载和处理大量地理空间数据,即使处理国家级别的大型数据集时也能保持良好性能。通过智能图块加载策略,实现地图的渐进加载,只请求必要的图块数据。Polymaps核心功能地图渲染使用SVG技术渲染地图,在各种屏幕分辨率下保持清晰,支持缩放和平移操作多图层支持可添加街道地图、卫星图像、地形图、热力图、点密度图等多个图层,支持叠加或切换数据绑定将数据集与地图元素(标记、区域或线条)关联,数据直观显示在地图上Polymaps支持鼠标单击、悬停、拖动等用户交互事件,当数据发生变化时可动态更新地图视图,提供实时数据反馈。2.1.8ModestMapsModestMaps—轻量级地图库ModestMaps是一个轻量、灵活且易于扩展的地图库,适合希望在不依赖大型地图服务的情况下实现定制化地图体验的开发者和设计师。在多种现代浏览器上运行良好,包括Chrome、Firefox、Safari和IE(9.0及以上),同时支持移动设备的触屏操作和响应式布局。地图渲染显示地理坐标系统上的地图图像,支持平移和缩放图层管理管理和组合多个图层,包括基础地图图层和自定义数据图层ModestMaps提供地图视图控制(中心点、缩放级别、旋转角度等)和坐标转换工具,虽不如Leaflet或MapboxGLJS功能丰富,但在特定场景下具有独特价值。2.1.9EChartsECharts—强大的数据可视化工具ECharts是一款强大、灵活、易用的数据可视化工具,主要用于在网页上创建交互式图表和图形,无论在商业报告、数据分析还是科学研究领域,都能提供高质量的图表制作和交互体验。ECharts核心特点基于JavaScript完全基于JavaScript编写,可直接嵌入网页,无需安装额外插件跨平台兼容兼容Chrome、Firefox、Safari等主流浏览器,支持IE6及以上版本高性能渲染采用轻量级渲染引擎ZRender,基于Canvas技术实现高效渲染丰富图表类型提供折线图、柱状图、饼图、散点图、地图、热力图、雷达图等多种类型交互与可定制支持缩放、拖曳、单击、数据筛选等交互操作,提供丰富的配置项和API数据驱动以数据为导向,高效处理大规模数据,通过动画实现实时更新ECharts使用基本步骤01引入依赖引入ECharts库和其他依赖包(如jQuery或ZRender)02创建容器在HTML文档中创建一个承载图表的元素,并分配唯一ID03初始化实例使用echarts.init()方法初始化图表实例,传入DOM元素04定义配置定义图表配置选项,包括数据源、图表类型、样式、交互设置等05渲染图表调用setOption()方法设置选项,触发图表渲染显示06交互扩展(可选)通过监听事件和调用API方法实现复杂交互和动态更新可视化工具对比总览工具类别核心优势适用场景Excel入门级简单易学,图表丰富日常数据分析、统计图表制作Tableau商业智能拖曳式操作,多数据源企业级数据分析与报告SPSS统计分析友好GUI,统计方法全面社会科学、医疗、市场研究Python编程分析开源免费,扩展库丰富科学计算、大数据可视化R编程分析统计分析强大,图形化出色统计分析、数据挖掘Gephi网络分析复杂网络可视化社会网络、知识图谱分析EChartsWeb可视化JavaScript原生,高性能网页交互式图表Polymaps地图可视化SVG渲染,高性能在线地图应用、GIS开发2.2可视化编程环境准备可视化编程环境准备Python具有丰富的库和工具,能无缝集成各类数据分析平台,具备出色的大数据处理性能,且免费开源,因此在大数据可视化领域得到广泛应用。Python版本建议使用3.8及以上版本开发环境PyCharm社区版即可满足需求推荐版本2023.3、2024.x或2025.x系列2.2.1Anaconda环境的安装与配置Anaconda环境的安装与配置登录Anaconda官方网站,可选择安装Distribution版本或Miniconda版本。Distribution版本(推荐初学者)包含完整的科学计算与数据分析环境,内置NumPy、pandas、Matplotlib、Seaborn、Scikit-learn、Jupyter等常用库,安装后可直接使用。Miniconda版本仅包含Python与Conda管理工具,不额外预装其他库,体积更小,用户可自定义安装所需库,适合有经验的用户或磁盘空间受限的情况。步骤一:启动安装向导图2-1Anaconda官方网站图2-2欢迎安装界面双击安装包进入Anaconda安装向导,在欢迎安装界面单击"Next"按钮继续。步骤二:同意许可协议图2-3许可同意界面进入许可同意界面,单击"IAgree"按钮,同意使用条款。步骤三:选择安装类型进入选择安装类型界面:仅为当前用户安装:安装路径默认为C盘下的用户文件夹为全部用户安装:需要管理员权限,路径默认为C盘下的ProgramData文件夹根据个人需求选择后,单击"Next"按钮。图2-4选择安装类型界面步骤四:选择安装路径图2-5选择安装路径界面进入选择安装路径界面,建议使用默认路径,单击"Next"按钮继续。💡使用默认路径可以避免后续配置中可能出现的路径问题。步骤五:高级安装选项图2-6高级安装选项界面推荐勾选第1、3、4项,单击"Install"按钮开始安装。✅Createshortcuts:创建快捷方式,可在开始菜单中快速启动❌AddtoPATH:不建议勾选,可能与其他Python版本冲突✅RegisterasdefaultPython:其他开发工具会自动检测Anaconda的Python✅Clearpackagecache:安装后清理缓存,节省磁盘空间安装完成后的提示图2-7安装完成后的提示⚠️安装完成后,某些Anaconda版本可能会弹出安装VSCode的提示,可选择安装或单击"Skip"按钮跳过。如果是Windows操作系统,需要在系统环境变量PATH中添加Anaconda安装目录下的Scripts文件夹。验证Anaconda安装按Win+R组合键打开命令行窗口,执行以下命令查看Anaconda版本:C:\Users\user>conda--versionconda4.5.4如果成功输出版本号,说明环境变量设置成功。接下来执行升级命令:condaupgrade--all升级过程中会要求确认Proceed([y]/n)?,输入"y"并按Enter键。💡为避免可能发生的错误,建议对所有工具包进行升级。检测Python环境安装完成后,在命令行中执行python命令,如果出现"Anaconda,Inc…"提示则表示配置成功:C:\Users\user>pythonPython3.11.5|Anaconda,Inc.|(default,Mar292025,13:32:41)[MSCv.190064bit(AMD64)]Type"help","copyright","credits"or"license"formoreinformation.>>>使用activate命令可进入Anaconda的base虚拟环境:C:\Users\user>activate(base)C:\Users\user>python--versionPython3.11.5::Anaconda,Inc.(base)C:\Users\user>2.2.2PyCharm的安装与配置PyCharm的安装与配置PyCharm是JetBrains公司开发的专业Python集成开发环境。社区版(CommunityEdition)已能满足数据可视化学习需求,以下为详细安装步骤。PyCharm安装步骤(一)图2-8欢迎安装PyCharm界面图2-9选择安装位置界面进入PyCharm官方网站下载安装包,双击打开安装向导。在欢迎界面单击"下一步",进入选择安装位置界面,建议选择默认安装路径,单击"下一步"继续。PyCharm安装步骤(二)图2-10安装选项界面图2-11选择"开始"菜单文件夹界面在安装选项界面中,勾选"将'bin'文件夹添加到PATH"选项(需要重启),以及创建关联栏下的".py"选项文件,然后单击"下一步"。进入选择"开始"菜单文件夹界面,单击"安装"按钮。PyCharm安装完成图2-12安装完成安装完成后将显示完成界面,单击"完成"按钮即可。接下来需要在PyCharm中配置Python解释器,将Anaconda环境与PyCharm关联起来。在PyCharm中配置Python解释器图2-13在PyCharm中配置Python解释器解释器配置详细步骤1打开设置打开PyCharm,单击顶部菜单栏的File选项,在快捷菜单中选择Settings...选项2选择解释器在Settings窗口中,展开左侧的Project菜单,选择PythonInterpreter选项3添加解释器单击AddInterpreter按钮,选中Selectexisting,在Type下拉列表中选择Conda选项4完成配置单击"OK"按钮,等待Python环境导入完成环境搭建完整流程回顾配置Conda解释器安装PyCharm验证conda安装Anaconda完成以上四个步骤后,即可拥有一个完整的Python大数据可视化开发环境,可以开始进行数据分析与可视化实践。知识架构工具选择决策指南根据实际需求选择合适的工具,初学者建议从Python入手,配合Matplotlib等库进行可视化实践。2.1-2.2要点回顾四类可视化工具入门级制图、商业智能、地图可视化、编程高级分析,覆盖不同层次需求Python生态优势免费开源、库丰富、大数据处理性能出色,是可视化领域首选语言环境搭建要点AnacondaDistribution+PyCharm社区版,配置Conda解释器即可开始开发掌握工具是基础,理解数据是核心。扎实的编程环境搭建为后续深入的数据可视化实践奠定坚实基础。第二章2.3数据源数据是可视化的基础,没有数据,可视化便无从谈起。了解数据获取的多种方式,是开展可视化工作的第一步。2.3.1客户提供数据客户提供的数据源可靠性较高,大都包含有价值的数据。常见场景是受公司委托对数据进行分析和可视化——该公司拥有丰富的数据源,但不太清楚数据背后的含义。尽管数据来自客户,仍不能掉以轻心——重复数据、无意义的数据也常常存在,需要做好数据处理工作。爬取数据2.3.2爬取数据以爬虫方式获取数据,除了要求一定的技术手段,还可能引发性能影响、法律风险、隐私泄露等问题。常见方法包括调用开放API或编写网络爬虫程序,针对性较强但技术门槛较高。常见的数据爬取方式1HTTP请求获取网页向目标网页发送请求,获取HTML页面,解析源代码并提取所需信息。2HTML解析与提取使用正则表达式或HTML解析库处理网页文本,筛选特定标签、字段或结构化数据。3API接口调用许多平台提供开放API,允许通过标准化方式直接获取数据,更高效安全,建议优先使用。4自动化工具辅助使用Selenium、Playwright等浏览器自动化框架,或八爪鱼等可视化爬虫工具,降低技术门槛。爬虫可能引发的问题性能影响爬虫的高频请求会为服务器带来巨大的资源开销,影响正常用户访问。法律风险服务器上的数据有产权归属,若用爬虫获取数据后牟利,将带来法律风险。隐私泄露爬虫可能突破简单访问控制,获取被保护的数据,造成用户个人隐私泄露。Robots协议Robots协议全称"机器人排除协议"(RobotsExclusionProtocol),网站通过该协议告诉搜索引擎哪些页面可以抓取,哪些不能。爬虫访问站点时,会先检查根目录下的robots.txt文件来确定访问范围。原则一:搜索技术应服务于人类,同时尊重信息提供者的意愿,并维护其隐私权。原则二:网站有义务保护其使用者的个人信息和隐私不被侵犯。自觉遵守Robots协议,维护良好的网络环境是每一位程序员应遵守的基本职业道德。数据资源平台2.3.3数据资源平台开放的数据源是学习大数据可视化的最好选择——既不需要第三方提供专业数据集,也不需要编写爬虫。目前互联网上有许多数据竞赛平台提供大量免费数据。阿里天池阿里天池是阿里巴巴集团旗下的大数据竞赛平台和AI开发者社区,旨在推动数据科学、人工智能和云计算技术的创新与发展。平台涵盖丰富的行业与学术应用场景。官方数据集权威机构提供,可信度高公共数据集面向社会开放共享打榜数据集配合竞赛任务验证算法聚合与推荐数据集整合多源数据,专家精选KaggleKaggle是全球知名的数据建模和数据分析竞赛平台。企业和研究者可发布数据,统计学者和数据挖掘专家可对数据进行分析建模。该平台通过众包机制解决预测建模问题,推动了数据科学的普及和发展。除竞赛功能外,还提供海量结构化数据集,涵盖经济、医疗、教育、计算机视觉、自然语言处理等领域,可用于数据清洗、分析与可视化训练。和鲸社区和鲸社区是一个开放的数据科学社区,打造的K-Lab在线数据分析协作平台为数据工作者带来全新体验。社区拥有数万名数据科学家与AI开发工程师,是我国AI与数据科学领域在人才质量、数量、活跃度等维度均有亮眼表现的社区之一。对初学者来说,社区中也有教程和项目,可以一边学习一边实践。图2-16和鲸社区数据集资源第二章2.4大数据存储大数据存储是指针对大数据设计专门的存储架构、技术和系统,以实现高效、可靠、可扩展的数据持久化与管理。存储技术全景分布式文件系统分布式文件系统是指文件在物理上可能被分散存储在不同地点的节点上,各节点通过计算机网络进行通信和数据传输。用户无须知道数据存储在哪个具体节点上,只需像操作本地文件系统一样管理数据即可。HDFSHadoop分布式文件系统GFSGoogle分布式文件系统KFSKosmos分布式文件系统文档存储核心特点以键值对形式存储,支持嵌套结构(如XML和JSON文档),字段的"值"可嵌套存储其他文档。主流产品MongoDB通过JSON字段路径查询CouchDB面向文档的NoSQL数据库Terrastore/RavenDB支持数组和列值键列式存储列式存储将所有数据以列的形式进行流式存储。每一列的数据值被连续存储在一起,然后再存储下一列。由于查询时只需读取少量数据块,列式数据库具有较快的查询速度和较高的数据压缩比。✅适用场景决策支持系统、数据集市、数据仓库❌不适用场景OLTP等数据频繁变化的场景(插入和更新效率较低)键值存储与图形数据库键值存储数据按键值对形式组织、索引和存储,能有效减少读写磁盘次数,比关系型数据库具有更好的读写性能。主流产品包括Redis、Bigtable等。图形数据库基于图论原理,用节点表示实体、边表示关系,高效支持关系遍历和最短路径查询。适用于社交网络、知识图谱等场景。主流产品包括Neo4j、JanusGraph等。关系数据库关系数据库通常提供事务处理机制,用于保证在执行多条操作时保持数据的一致性和完整性。在编程语言中,表常被类比为数组、记录列表或结构体。目前,关系数据库也在不断扩展功能,如支持分布式集群、列式存储等,并能存储XML和JSON等半结构化数据。内存数据库内存数据库(MMDB)将数据存放在内存中直接操作。与磁盘数据库相比,内存的读写速度高出几个数量级,能够显著提升数据访问效率。为保证数据安全,许多内存数据库还提供持久化机制,防止系统故障造成数据丢失。典型应用场景缓存与会话管理实时监控高频交易RedisMemcachedOracleTimesTeneXtremeDB数据仓库数据仓库(DataWarehouse)是一种用于存储海量数据并支持分析与决策的特殊数据库。它具有面向主题、集成、稳定性和反映历史变化等特点。数据抽取清洗转换加载入库建模管理数据仓库中的数据通常只追加而不频繁修改,其建设依赖企业现有的业务系统和长期积累的数据。八大存储技术对比存储类型核心特点代表产品分布式文件系统分散存储,透明访问HDFS、GFS、KFS文档存储键值对,支持嵌套MongoDB、CouchDB列式存储按列存储,查询快HBase、Vertica键值存储高效读写,减少磁盘IORedis、Bigtable图形数据库节点+边,关系遍历Neo4j、JanusGraph关系数据库事务处理,一致性MySQL、PostgreSQL内存数据库内存操作,极速访问Redis、Memcached数据仓库面向分析,历史数据Hive、Snowflake第二章2.5大数据处理在大数据时代,数据来源广泛,类型和格式存在差异,大部分数据是有噪声的、不完整的,甚至存在错误。在分析与挖掘前,需要对数据质量进行评估并进行预处理。2.5.1数据质量数据质量对数据价值存在直接影响,低质量数据将导致低质量的分析和挖掘。可从以下六个方面评估数据质量:有效性数据是否与实际情况相符,是否违反预设约束条件准确性数据是否准确地反映现实情况完整性数据集是否包含所有数据点,每个样本属性是否完整一致性整个数据集中的数据衡量标准是否一致时效性数据是否适用于特定时间范围内的分析任务可信性数据源中的数据是否可靠2.5.2数据预处理大数据系统中的数据通常来自一个或多个数据源,包括同构或异构的数据库、文件系统和服务接口等。这些数据容易受到采集方式、人工录入或传感器误差等因素影响,可能出现噪声数据、数据不一致或数据缺失的情况。数据预处理有助于提升数据质量,使后续处理与分析更加高效和准确,同时改善用户体验。数据预处理四大环节数据清洗检查修正不一致项、删除无效数据。数据集成合并不同数据源、消除分散性。数据规约减少数据规模、保留主要特征。数据转换规范化与格式化处理。经过这四个环节的处理,数据集规模更小但仍保留原始数据的主要特征和分析价值,更适合后续分析与建模。数据清理01检查不一致项识别并修正数据中的不一致项02删除无效数据识别并删除无效数据记录03过滤异常值检测并处理数据中的异常值04平滑噪声数据对含有噪声的数据进行平滑处理数据集成与数据归约数据集成将来自不同数据源的数据进行合并,消除数据分散性和冲突,形成集中统一的数据库、数据立方体或宽表。数据归约在保证分析结果准确性的前提下,通过减少数据规模来提高处理效率。常用方法包括维度归约、数值归约和抽样。数据转换对数据进行规范化与格式化处理,使数据更适合分析与建模。基于规则的转换使用预定义规则或元数据进行数据格式转换基于模型的转换利用机器学习模型进行智能数据转换第二章2.5.3数据格式不同的可视化工具支持不同的数据格式,数据结构越灵活,所能支持的可视化场景就越丰富。数据格式的意义在于使计算机能够正确识别和处理数据。三种通用数据格式1带分隔符的文本文件如CSV文件,按行和列排列数据,通过逗号、制表符等分隔符分隔各列。应用广泛,可被大多数电子表格程序识别,具有良好的通用性和兼容性。2JSON广泛应用于网页API的数据格式,采用键值对形式组织数据,能表示对象和数组两种结构。便于计算机解析,也易于人工阅读,已成为通用数据交换格式。3XML常见的互联网数据格式,广泛用于API之间的数据传输。每个值封装在各自的标签内,如RSSfeed格式就是XML文件。JSON数据格式示例图2-18JSON数据格式JSON语法源自JavaScript,但已成为与编程语言无关的通用数据交换格式。若将JSON数据转换为CSV格式,通常每个JSON对象对应CSV文件中的一行。目前各类主流应用程序、编程语言和函数库均支持JSON格式的读写操作。第二章2.6属性关系与选择一个优秀的可视化设计必须展示适量的信息。信息过少,用户无法理解;信息过多,用户可能混乱甚至错失重要信息。选择对结果模型贡献最大的特征的过程称为"属性选择"。2.6.1数据相关性数据相关性是指在数据集中,多个变量和属性之间存在一定的关系,主要体现在两个方面:属性依赖一个或多个属性可能依赖于另一个属性或其他多个属性的值关联程度属性之间可能存在一定的关联程度相关性的作用预测能力借助相关性,可以通过一个属性的值预测另一个属性的值因果线索相关性有时可以表示因果关系,但二者并不等同建模参考相关性是多种建模技术的重要参考依据相关性的分类——按趋势正相关两个变量的变化趋势相同。在散点图中,数据点大致分布在从左下角到右上角的区域内。一个变量增大时,另一个也随之增大。负相关两个变量的变化趋势相反。在散点图中,数据点大致分布在从左上角到右下角的区域内。一个变量增大时,另一个随之减小。相关性的分类——按形式线性相关一个变量变化时,另一个变量以成比例的方式变化非线性相关一个变量变化时,另一个变量以不成比例的方式变化不相关两个变量之间不存在明显的关系相关系数通常使用相关系数来衡量变量之间的相关程度,其取值范围为-1到+1。70%很强相关相关系数0.7~0.950%较强相关相关系数0.5~0.730%中等相关相关系数0.3~0.5当相关系数接近+1时表示完全正相关,接近-1时表示完全负相关,接近0时表示基本没有线性关系。如果数据集存在完全正/负相关的属性,建议删除其中一个以避免冗余和多重共线性。相关关系图示图2-19相关关系⚠️相关性≠因果关系相关性经常被误解为因果关系。变量之间存在相关性并不意味着存在因果关系,任何高度相关的变量都需要谨慎解读。经典案例:有研究发现某城市周边鹳的数量与分娩数据之间存在显著相关性——但这并不能"证明"婴儿是由鹳接生的。事实上,可能存在未被观察到的第三方变量(如人口规模变化)才是真正原因。鹳与婴儿的"相关性"图2-20鹳的数量与该城市分娩数据之间存在显著相关性图(a):负相关随着鹳的数量增加,医院内分娩婴儿数量呈下降趋势。图(b):正相关医院外分娩婴儿数量随鹳的数量增加而增加,两条曲线走势一致。正确理解相关性在数据分析中,相关性具有重要价值,特别是在回归分析等统计建模过程中,它能帮助我们识别变量之间潜在的关联性和规律性。然而,如果简单地将相关性等同于因果关系,就可能导致错误结论。因此,不仅要计算和比较各变量之间的相关性,更要结合具体业务背景和其他佐证材料进行深入分析,才能避免产生误导性推论。因果关系2.6.2因果关系因果关系指的是一个事件("因")与另一个事件("果")之间的作用关系。通常一个事件是多种原因共同作用的结果,这些原因发生在较早的时间点,而该事件本身也可能成为其他事件的原因。医学新型药物对特定患者群体是否有效?社会学新法规能减少多少犯罪率?安全学事故致死的直接原因是什么?从相关到因果相关分析从海量数据中发现相关性线索因果结论得出可靠的因果解释与结论因果推断运用随机对照试验、因果图模型等方法相关性通常作为因果关系的线索,提示哪些变量可能存在联系。但相关性本身无法证明因果关系,可靠的因果解释需要运用进一步的因果推断方法,如随机对照试验、自然实验、因果图模型等。知识拓展JupyterJupyter是一个开源的交互式计算环境,由IPythonNotebook发展而来。名字由Julia、Python和R三种编程语言组合而成,体现了对数据科学社区的包容性。Jupyter的核心优势交互式笔记本基于网页的界面,编写代码、运行并立即查看结果,即时反馈模式对探索性数据分析尤其有用多语言支持支持超过40种编程语言,包括R、Julia、Scala、SQL、Markdown等便于共享协作富文本格式文档,包含代码、输出、文本解释、公式和图像,方便分享与传播模块化组织多个单元格可独立执行,复杂任务分解为易于理解和处理的部分Jupyter的生态与扩展强大的生态系统Python生态中的NumPy、Pandas、Matplotlib、Seaborn、Scikit-learn等库与Jupyter高度兼容,轻松完成数据清洗、统计分析、机器学习建模等任务。教学与演示讲师可在实时环境中展示代码运行过程,学员能直接复制、修改代码进行实践。可扩展性通过安装各种插件扩展功能,如代码自动补全、语法检查、版本控制等,进一步提高工作效率。核心知识回顾2.3-2.6要点回顾1数据源多样客户提供、爬虫获取、开放数据平台(阿里天池、Kaggle、和鲸社区)各有优劣,爬虫需注意性能影响、法律风险和隐私泄露2存储技术丰富八大存储技术各有适用场景,从分布式文件系统到数据仓库,不同的存储介质和组织形式对应不同的大数据特征3数据质量至关重要从有效性、准确性、完整性、一致性、时效性、可信性六个维度评估,通过清理、集成、归约、转换四步预处理提升质量4相关性需谨慎解读相关性是因果分析的重要起点,但不能取代因果推理本身,需结合业务背景深入分析第3章对比与趋势可视化章节导读大数据可视化技术作为处理和分析大规模数据集的重要工具,旨在洞察数据背后的深层含义和趋势,服务于社会经济的高质量发展。通过科学严谨的数据分析与直观生动的可视化展现,用户能更清晰地把握时间序列特征、空间分布规律以及各维度数据的动态变化。本章着重介绍对比与趋势分析这一核心领域,通过柱形图、折线图等典型表现形式,阐述如何借助可视化手段揭示数据间的关系结构和演变规律,并使用Python带领读者进入实操。本章内容概览柱形图了解及掌握数据对比与分类展示折线图了解及掌握趋势分析与时间序列表现箱线图了解及掌握数据分布与异常值识别词云图了解及掌握文本数据可视化与关键词突出每个小节均包含概念讲解、参数说明和完整Python代码示例,帮助读者从理论到实践全面掌握。3.1柱形图什么是柱形图?柱形图将不同数据表示为长短不一的矩形(柱形),并按一定顺序排列。它是统计分析中最常用的图形,一

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论