Python大数据可视化方法与实践课件 第2章 可视化编程基础_第1页
Python大数据可视化方法与实践课件 第2章 可视化编程基础_第2页
Python大数据可视化方法与实践课件 第2章 可视化编程基础_第3页
Python大数据可视化方法与实践课件 第2章 可视化编程基础_第4页
Python大数据可视化方法与实践课件 第2章 可视化编程基础_第5页
已阅读5页,还剩82页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第2章可视化编程基础系统掌握大数据可视化工具、编程环境搭建、数据获取与处理的核心基础知识本章学习目标了解可视化工具掌握各类主流大数据可视化工具的特点与应用场景搭建编程环境掌握Anaconda与PyCharm的安装与配置方法获取数据源了解获取高质量数据资源的常用方法数据存储与处理了解数据的存储方式与属性间的关系章节导读随着国家对大数据战略的高度重视与推动实施,大数据可视化技术已成为提升社会治理效能、服务经济社会发展的重要手段。我国已涌现出众多功能强大且满足多元化需求的数据可视化工具,广泛应用于政府决策、企业发展、社会公共服务等多个方面。本章将系统梳理国内广泛应用的大数据可视化工具,详细阐述Python编程环境的安装与配置,并深入讲解实现大数据可视化的必要基础知识,包括如何获取和利用高质量的数据资源,为后续深入的数据可视化实践奠定坚实基础。2.1可视化工具简介2.1可视化工具简介大数据可视化工具大致可分为四个类别,从入门级制图工具到编程高级分析工具,覆盖不同层次的用户需求。2.1.1ExcelExcel—入门级数据分析首选Excel是微软Office的组件之一,以工作簿形式存储数据,可进行各种数据处理、统计分析和辅助决策操作,广泛应用于管理、统计、金融等领域。Excel是日常数据分析中最常用的工具之一,用户通过简单学习即可使用其丰富的图表功能。在制作折线图、饼图、柱形图、散点图等统计图表时,Excel通常是普通用户的首选。⚠️Excel的缺点是在颜色、线条和样式方面可选择的种类较为有限。2.1.2TableauTableau—新一代商业智能工具Tableau将数据连接、运算、分析与图表结合在一起,用户只需将大量数据拖放到数字画布上,就能快速创建各种图表。其子产品包括TableauDesktop、TableauServer、TableauPublic和TableauReader等。Tableau核心产品矩阵1TableauDesktop分为个人版和专业版,能连接Access、Excel、MySQL等多种数据源。通过拖曳快速生成美观的图表、仪表盘与报告,支持自定义视图、布局、形状、颜色等设置。2TableauServer企业智能化应用软件,基于浏览器提供数据分析和图表生成功能。可将Desktop中的交互式数据转换为可视化内容,支持iOS和Android移动端的数据交互、过滤与排序。3TableauReader免费应用软件,可打开TableauDesktop创建的报表、视图、仪表盘文件。在分享数据分析结果的同时,可进一步对工作簿中的数据进行筛选和监测。2.1.3SPSSSPSS—强大的统计分析软件软件概述SPSS广泛应用于社会科学、自然科学、商业、医疗、市场研究等多个领域,为研究人员和决策者提供有力的数据分析支持。SPSS支持Python或R语言脚本扩展功能,IBM还提供了SPSSModeler用于数据挖掘和预测分析。用户界面SPSS具有友好的图形用户界面(GUI),非专业统计人员也能相对容易地进行数据处理和分析。界面主要包括:数据视图:查看和编辑数据变量视图:定义和修改变量属性SPSS功能与应用数据编辑方便地进行数据输入、修改、删除、排序、转置、计算等操作统计分析支持描述性统计、方差分析、回归分析、卡方检验、时间序列分析等图表生成生成直方图、散点图、饼图、折线图、箱线图等多种图表数据挖掘构建预测模型、分类模型,完成聚类分析等高级分析任务文件处理处理Excel、CSV、数据库文件,输出文本、HTML、PDF等格式决策支持通过数据分析结果帮助用户进行决策和业务优化2.1.4PythonPython—最受欢迎的编程语言Python是一种面向对象的解释型计算机程序设计语言,具有简单、易学、免费、开源、可移植性好、可扩展性强等特点。众多开源科学计算软件包都提供了Python的调用接口,如计算机视觉库OpenCV、三维可视化库VTK、医学图像处理库ITK等。NumPy快速数组处理pandas数据处理分析SciPy数值运算Matplotlib绘图功能Python及其众多扩展库所构成的开发环境十分适合工程技术人员和科研人员处理实验数据、制作图表,甚至开发科学计算应用程序。2.1.5RR—开源统计分析语言R是基于GNU项目的开源编程语言,主要用于统计分析、数据挖掘及图形化展示。它提供了强大的数据存储与处理能力、高效的数据运算能力、完整的统计分析功能以及强大的图形可视化功能。作为功能完整的编程语言,R支持流程控制、函数定义、模块化开发等特性,用户可自定义函数和扩展包,实现复杂的数据操作与分析任务自动化。2.1.6GephiGephi—复杂网络分析与可视化Gephi是一款开源的复杂网络分析和可视化软件,主要用于探索、操作和分析各种类型的图数据和网络结构,广泛应用于社会网络分析、信息网络、生物网络、知识图谱、语义网络、互联网等领域。DataLaboratory数据管理和预处理Overview图形的可视化和分析Gephi主要通过图形用户界面操作,同时提供了API和插件系统,允许开发者通过Java或Python编写自定义算法和工具来扩展功能。Gephi功能特性详解数据导入与预处理支持CSV、GEXF、GraphML、Pajek等多种数据格式,可在DataLaboratory中查看和编辑节点与边的数据可视化提供力导向布局、环形布局、分层布局等多种布局算法,生成各种视觉效果的网络图探索与分析通过交互式界面动态探索网络结构,分析中心性、聚类系数、社区结构等特性地理布局支持GeoLayout和Mapsofcountrieslayouts插件,将节点位置与实际地理位置对应2.1.7PolymapsPolymaps—高性能地图渲染库Polymaps是一个功能强大、灵活且高性能的地图渲染库,适合在线地图应用、数据可视化项目和GIS相关开发工作。它能快速加载和处理大量地理空间数据,即使处理国家级别的大型数据集时也能保持良好性能。通过智能图块加载策略,实现地图的渐进加载,只请求必要的图块数据。Polymaps核心功能地图渲染使用SVG技术渲染地图,在各种屏幕分辨率下保持清晰,支持缩放和平移操作多图层支持可添加街道地图、卫星图像、地形图、热力图、点密度图等多个图层,支持叠加或切换数据绑定将数据集与地图元素(标记、区域或线条)关联,数据直观显示在地图上Polymaps支持鼠标单击、悬停、拖动等用户交互事件,当数据发生变化时可动态更新地图视图,提供实时数据反馈。2.1.8ModestMapsModestMaps—轻量级地图库ModestMaps是一个轻量、灵活且易于扩展的地图库,适合希望在不依赖大型地图服务的情况下实现定制化地图体验的开发者和设计师。在多种现代浏览器上运行良好,包括Chrome、Firefox、Safari和IE(9.0及以上),同时支持移动设备的触屏操作和响应式布局。地图渲染显示地理坐标系统上的地图图像,支持平移和缩放图层管理管理和组合多个图层,包括基础地图图层和自定义数据图层ModestMaps提供地图视图控制(中心点、缩放级别、旋转角度等)和坐标转换工具,虽不如Leaflet或MapboxGLJS功能丰富,但在特定场景下具有独特价值。2.1.9EChartsECharts—强大的数据可视化工具ECharts是一款强大、灵活、易用的数据可视化工具,主要用于在网页上创建交互式图表和图形,无论在商业报告、数据分析还是科学研究领域,都能提供高质量的图表制作和交互体验。ECharts核心特点基于JavaScript完全基于JavaScript编写,可直接嵌入网页,无需安装额外插件跨平台兼容兼容Chrome、Firefox、Safari等主流浏览器,支持IE6及以上版本高性能渲染采用轻量级渲染引擎ZRender,基于Canvas技术实现高效渲染丰富图表类型提供折线图、柱状图、饼图、散点图、地图、热力图、雷达图等多种类型交互与可定制支持缩放、拖曳、单击、数据筛选等交互操作,提供丰富的配置项和API数据驱动以数据为导向,高效处理大规模数据,通过动画实现实时更新ECharts使用基本步骤01引入依赖引入ECharts库和其他依赖包(如jQuery或ZRender)02创建容器在HTML文档中创建一个承载图表的元素,并分配唯一ID03初始化实例使用echarts.init()方法初始化图表实例,传入DOM元素04定义配置定义图表配置选项,包括数据源、图表类型、样式、交互设置等05渲染图表调用setOption()方法设置选项,触发图表渲染显示06交互扩展(可选)通过监听事件和调用API方法实现复杂交互和动态更新可视化工具对比总览工具类别核心优势适用场景Excel入门级简单易学,图表丰富日常数据分析、统计图表制作Tableau商业智能拖曳式操作,多数据源企业级数据分析与报告SPSS统计分析友好GUI,统计方法全面社会科学、医疗、市场研究Python编程分析开源免费,扩展库丰富科学计算、大数据可视化R编程分析统计分析强大,图形化出色统计分析、数据挖掘Gephi网络分析复杂网络可视化社会网络、知识图谱分析EChartsWeb可视化JavaScript原生,高性能网页交互式图表Polymaps地图可视化SVG渲染,高性能在线地图应用、GIS开发2.2可视化编程环境准备可视化编程环境准备Python具有丰富的库和工具,能无缝集成各类数据分析平台,具备出色的大数据处理性能,且免费开源,因此在大数据可视化领域得到广泛应用。Python版本建议使用3.8及以上版本开发环境PyCharm社区版即可满足需求推荐版本2023.3、2024.x或2025.x系列2.2.1Anaconda环境的安装与配置Anaconda环境的安装与配置登录Anaconda官方网站,可选择安装Distribution版本或Miniconda版本。Distribution版本(推荐初学者)包含完整的科学计算与数据分析环境,内置NumPy、pandas、Matplotlib、Seaborn、Scikit-learn、Jupyter等常用库,安装后可直接使用。Miniconda版本仅包含Python与Conda管理工具,不额外预装其他库,体积更小,用户可自定义安装所需库,适合有经验的用户或磁盘空间受限的情况。步骤一:启动安装向导图2-1Anaconda官方网站图2-2欢迎安装界面双击安装包进入Anaconda安装向导,在欢迎安装界面单击"Next"按钮继续。步骤二:同意许可协议图2-3许可同意界面进入许可同意界面,单击"IAgree"按钮,同意使用条款。步骤三:选择安装类型进入选择安装类型界面:仅为当前用户安装:安装路径默认为C盘下的用户文件夹为全部用户安装:需要管理员权限,路径默认为C盘下的ProgramData文件夹根据个人需求选择后,单击"Next"按钮。图2-4选择安装类型界面步骤四:选择安装路径图2-5选择安装路径界面进入选择安装路径界面,建议使用默认路径,单击"Next"按钮继续。💡使用默认路径可以避免后续配置中可能出现的路径问题。步骤五:高级安装选项图2-6高级安装选项界面推荐勾选第1、3、4项,单击"Install"按钮开始安装。✅Createshortcuts:创建快捷方式,可在开始菜单中快速启动❌AddtoPATH:不建议勾选,可能与其他Python版本冲突✅RegisterasdefaultPython:其他开发工具会自动检测Anaconda的Python✅Clearpackagecache:安装后清理缓存,节省磁盘空间安装完成后的提示图2-7安装完成后的提示⚠️安装完成后,某些Anaconda版本可能会弹出安装VSCode的提示,可选择安装或单击"Skip"按钮跳过。如果是Windows操作系统,需要在系统环境变量PATH中添加Anaconda安装目录下的Scripts文件夹。验证Anaconda安装按Win+R组合键打开命令行窗口,执行以下命令查看Anaconda版本:C:\Users\user>conda--versionconda4.5.4如果成功输出版本号,说明环境变量设置成功。接下来执行升级命令:condaupgrade--all升级过程中会要求确认Proceed([y]/n)?,输入"y"并按Enter键。💡为避免可能发生的错误,建议对所有工具包进行升级。检测Python环境安装完成后,在命令行中执行python命令,如果出现"Anaconda,Inc…"提示则表示配置成功:C:\Users\user>pythonPython3.11.5|Anaconda,Inc.|(default,Mar292025,13:32:41)[MSCv.190064bit(AMD64)]Type"help","copyright","credits"or"license"formoreinformation.>>>使用activate命令可进入Anaconda的base虚拟环境:C:\Users\user>activate(base)C:\Users\user>python--versionPython3.11.5::Anaconda,Inc.(base)C:\Users\user>2.2.2PyCharm的安装与配置PyCharm的安装与配置PyCharm是JetBrains公司开发的专业Python集成开发环境。社区版(CommunityEdition)已能满足数据可视化学习需求,以下为详细安装步骤。PyCharm安装步骤(一)图2-8欢迎安装PyCharm界面图2-9选择安装位置界面进入PyCharm官方网站下载安装包,双击打开安装向导。在欢迎界面单击"下一步",进入选择安装位置界面,建议选择默认安装路径,单击"下一步"继续。PyCharm安装步骤(二)图2-10安装选项界面图2-11选择"开始"菜单文件夹界面在安装选项界面中,勾选"将'bin'文件夹添加到PATH"选项(需要重启),以及创建关联栏下的".py"选项文件,然后单击"下一步"。进入选择"开始"菜单文件夹界面,单击"安装"按钮。PyCharm安装完成图2-12安装完成安装完成后将显示完成界面,单击"完成"按钮即可。接下来需要在PyCharm中配置Python解释器,将Anaconda环境与PyCharm关联起来。在PyCharm中配置Python解释器图2-13在PyCharm中配置Python解释器解释器配置详细步骤1打开设置打开PyCharm,单击顶部菜单栏的File选项,在快捷菜单中选择Settings...选项2选择解释器在Settings窗口中,展开左侧的Project菜单,选择PythonInterpreter选项3添加解释器单击AddInterpreter按钮,选中Selectexisting,在Type下拉列表中选择Conda选项4完成配置单击"OK"按钮,等待Python环境导入完成环境搭建完整流程回顾配置Conda解释器安装PyCharm验证conda安装Anaconda完成以上四个步骤后,即可拥有一个完整的Python大数据可视化开发环境,可以开始进行数据分析与可视化实践。知识架构工具选择决策指南根据实际需求选择合适的工具,初学者建议从Python入手,配合Matplotlib等库进行可视化实践。2.1-2.2要点回顾四类可视化工具入门级制图、商业智能、地图可视化、编程高级分析,覆盖不同层次需求Python生态优势免费开源、库丰富、大数据处理性能出色,是可视化领域首选语言环境搭建要点AnacondaDistribution+PyCharm社区版,配置Conda解释器即可开始开发掌握工具是基础,理解数据是核心。扎实的编程环境搭建为后续深入的数据可视化实践奠定坚实基础。第二章2.3数据源数据是可视化的基础,没有数据,可视化便无从谈起。了解数据获取的多种方式,是开展可视化工作的第一步。2.3.1客户提供数据客户提供的数据源可靠性较高,大都包含有价值的数据。常见场景是受公司委托对数据进行分析和可视化——该公司拥有丰富的数据源,但不太清楚数据背后的含义。尽管数据来自客户,仍不能掉以轻心——重复数据、无意义的数据也常常存在,需要做好数据处理工作。爬取数据2.3.2爬取数据以爬虫方式获取数据,除了要求一定的技术手段,还可能引发性能影响、法律风险、隐私泄露等问题。常见方法包括调用开放API或编写网络爬虫程序,针对性较强但技术门槛较高。常见的数据爬取方式1HTTP请求获取网页向目标网页发送请求,获取HTML页面,解析源代码并提取所需信息。2HTML解析与提取使用正则表达式或HTML解析库处理网页文本,筛选特定标签、字段或结构化数据。3API接口调用许多平台提供开放API,允许通过标准化方式直接获取数据,更高效安全,建议优先使用。4自动化工具辅助使用Selenium、Playwright等浏览器自动化框架,或八爪鱼等可视化爬虫工具,降低技术门槛。爬虫可能引发的问题性能影响爬虫的高频请求会为服务器带来巨大的资源开销,影响正常用户访问。法律风险服务器上的数据有产权归属,若用爬虫获取数据后牟利,将带来法律风险。隐私泄露爬虫可能突破简单访问控制,获取被保护的数据,造成用户个人隐私泄露。Robots协议Robots协议全称"机器人排除协议"(RobotsExclusionProtocol),网站通过该协议告诉搜索引擎哪些页面可以抓取,哪些不能。爬虫访问站点时,会先检查根目录下的robots.txt文件来确定访问范围。原则一:搜索技术应服务于人类,同时尊重信息提供者的意愿,并维护其隐私权。原则二:网站有义务保护其使用者的个人信息和隐私不被侵犯。自觉遵守Robots协议,维护良好的网络环境是每一位程序员应遵守的基本职业道德。数据资源平台2.3.3数据资源平台开放的数据源是学习大数据可视化的最好选择——既不需要第三方提供专业数据集,也不需要编写爬虫。目前互联网上有许多数据竞赛平台提供大量免费数据。阿里天池阿里天池是阿里巴巴集团旗下的大数据竞赛平台和AI开发者社区,旨在推动数据科学、人工智能和云计算技术的创新与发展。平台涵盖丰富的行业与学术应用场景。官方数据集权威机构提供,可信度高公共数据集面向社会开放共享打榜数据集配合竞赛任务验证算法聚合与推荐数据集整合多源数据,专家精选KaggleKaggle是全球知名的数据建模和数据分析竞赛平台。企业和研究者可发布数据,统计学者和数据挖掘专家可对数据进行分析建模。该平台通过众包机制解决预测建模问题,推动了数据科学的普及和发展。除竞赛功能外,还提供海量结构化数据集,涵盖经济、医疗、教育、计算机视觉、自然语言处理等领域,可用于数据清洗、分析与可视化训练。和鲸社区和鲸社区是一个开放的数据科学社区,打造的K-Lab在线数据分析协作平台为数据工作者带来全新体验。社区拥有数万名数据科学家与AI开发工程师,是我国AI与数据科学领域在人才质量、数量、活跃度等维度均有亮眼表现的社区之一。对初学者来说,社区中也有教程和项目,可以一边学习一边实践。图2-16和鲸社区数据集资源第二章2.4大数据存储大数据存储是指针对大数据设计专门的存储架构、技术和系统,以实现高效、可靠、可扩展的数据持久化与管理。存储技术全景分布式文件系统分布式文件系统是指文件在物理上可能被分散存储在不同地点的节点上,各节点通过计算机网络进行通信和数据传输。用户无须知道数据存储在哪个具体节点上,只需像操作本地文件系统一样管理数据即可。HDFSHadoop分布式文件系统GFSGoogle分布式文件系统KFSKosmos分布式文件系统文档存储核心特点以键值对形式存储,支持嵌套结构(如XML和JSON文档),字段的"值"可嵌套存储其他文档。主流产品MongoDB通过JSON字段路径查询CouchDB面向文档的NoSQL数据库Terrastore/RavenDB支持数组和列值键列式存储列式存储将所有数据以列的形式进行流式存储。每一列的数据值被连续存储在一起,然后再存储下一列。由于查询时只需读取少量数据块,列式数据库具有较快的查询速度和较高的数据压缩比。✅适用场景决策支持系统、数据集市、数据仓库❌不适用场景OLTP等数据频繁变化的场景(插入和更新效率较低)键值存储与图形数据库键值存储数据按键值对形式组织、索引和存储,能有效减少读写磁盘次数,比关系型数据库具有更好的读写性能。主流产品包括Redis、Bigtable等。图形数据库基于图论原理,用节点表示实体、边表示关系,高效支持关系遍历和最短路径查询。适用于社交网络、知识图谱等场景。主流产品包括Neo4j、JanusGraph等。关系数据库关系数据库通常提供事务处理机制,用于保证在执行多条操作时保持数据的一致性和完整性。在编程语言中,表常被类比为数组、记录列表或结构体。目前,关系数据库也在不断扩展功能,如支持分布式集群、列式存储等,并能存储XML和JSON等半结构化数据。内存数据库内存数据库(MMDB)将数据存放在内存中直接操作。与磁盘数据库相比,内存的读写速度高出几个数量级,能够显著提升数据访问效率。为保证数据安全,许多内存数据库还提供持久化机制,防止系统故障造成数据丢失。典型应用场景缓存与会话管理实时监控高频交易RedisMemcachedOracleTimesTeneXtremeDB数据仓库数据仓库(DataWarehouse)是一种用于存储海量数据并支持分析与决策的特殊数据库。它具有面向主题、集成、稳定性和反映历史变化等特点。数据抽取清洗转换加载入库建模管理数据仓库中的数据通常只追加而不频繁修改,其建设依赖企业现有的业务系统和长期积累的数据。八大存储技术对比存储类型核心特点代表产品分布式文件系统分散存储,透明访问HDFS、GFS、KFS文档存储键值对,支持嵌套MongoDB、CouchDB列式存储按列存储,查询快HBase、Vertica键值存储高效读写,减少磁盘IORedis、Bigtable图形数据库节点+边,关系遍历Neo4j、JanusGraph关系数据库事务处理,一致性MySQL、PostgreSQL内存数据库内存操作,极速访问Redis、Memcached数据仓库面向分析,历史数据Hive、Snowflake第二章2.5大数据处理在大数据时代,数据来源广泛,类型和格式存在差异,大部分数据是有噪声的、不完整的,甚至存在错误。在分析与挖掘前,需要对数据质量进行评估并进行预处理。2.5.1数据质量数据质量对数据价值存在直接影响,低质量数据将导致低质量的分析和挖掘。可从以下六个方面评估数据质量:有效性数据是否与实际情况相符,是否违反预设约束条件准确性数据是否准确地反映现实情况完整性数据集是否包含所有数据点,每个样本属性是否完整一致性整个数据集中的数据衡量标准是否一致时效性数据是否适用于特定时间范围内的分析任务可信性数据源中的数据是否可靠2.5.2数据预处理大数据系统中的数据通常来自一个或多个数据源,包括同构或异构的数据库、文件系统和服务接口等。这些数据容易受到采集方式、人工录入或传感器误差等因素影响,可能出现噪声数据、数据不一致或数据缺失的情况。数据预处理有助于提升数据质量,使后续处理与分析更加高效和准确,同时改善用户体验。数据预处理四大环节数据清洗检查修正不一致项、删除无效数据。数据集成合并不同数据源、消除分散性。数据规约减少数据规模、保留主要特征。数据转换规范化与格式化处理。经过这四个环节的处理,数据集规模更小但仍保留原始数据的主要特征和分析价值,更适合后续分析与建模。数据清理01检查不一致项识别并修正数据中的不一致项02删除无效数据识别并删除无效数据记录03过滤异常值检测并处理数据中的异常值04平滑噪声数据对含有噪声的数据进行平滑处理数据集成与数据归约数据集成将来自不同数据源的数据进行合并,消除数据分散性和冲突,形成集中统一的数据库、数据立方体或宽表。数据归约在保证分析结果准确性的前提下,通过减少数据规模来提高处理效率。常用方法包括维度归约、数值归约和抽样。数据转换对数据进行规范化与格式化处理,使数据更适合分析与建模。基于规则的转换使用预定义规则或元数据进行数据格式转换基于模型的转换利用机器学习模型进行智能数据转换第二章2.5.3数据格式不同的可视化工具支持不同的数据格式,数据结构越灵活,所能支持的可视化场景就越丰富。数据格式的意义在于使计算机能够正确识别和处理数据。三种通用数据格式1带分隔符的文本文件如CSV文件,按行和列排列数据,通过逗号、制表符等分隔符分隔各列。应用广泛,可被大多数电子表格程序识别,具有良好的通用性和兼容性。2JSON广泛应用于网页API的数据格式,采用键值对形式组织数据,能表示对象和数组两种结构。便于计算机解析,也易于人工阅读,已成为通用数据交换格式。3XML常见的互联网数据格式,广泛用于API之间的数据传输。每个值封装在各自的标签内,如RSSfeed格式就是XML文件。JSON数据格式示例图2-18JSON数据格式JSON语法源自JavaScript,但已成为与编程语言无关的通用数据交换格式。若将JSON数据转换为CSV格式,通常每个JSON对象对应CSV文件中的一行。目前各类主流应用程序、编程语言和函数库均支持JSON格式的读写操作。第二章2.6属性关系与选择一个优秀的可视化设计必须展示适量的信息。信息过少,用户无法理解;信息过多,用户可能混乱甚至错失重要信息。选择对结果模型贡献最大的特征的过程称为"属性选择"。2.6.1数据相关性数据相关性是指在数据集中,多个变量和属性之间存在一定的关系,主要体现在两个方面:属性依赖一个或多个属性可能依赖于另一个属性或其他多个属性的值关联程度属性之间可能存在一定的关联程度相关性的作用预测能力借助相关性,可以通过一个属性的值预测另一个属性的值因果线索相关性有时可以表示因果关系,但二者并不等同建模参考相关性是多种建模技术的重要参考依据相关性的分类——按趋势正相关两个变量的变化趋势相同。在散点图中,数据点大致分布在从左下角到右上角的区域内。一个变量增大时,另一个也随之增大。负相关两个变量的变化趋势相反。在散点图中,数据点大致分布在从左上角到右下角的区域内。一个变量增大时,另一个随之减小。相关性的分类——按形式线性相关一个变量变化时,另一个变量以成比例的方式变化非线性相关一个变量变化时,另一个变量以不成比例的方式变化不相关两个变量之间不存在明显的关系相关系数通常使用相关系数来衡量变量之间的相关程度,其取值范围为-1到+1。70%很强相关相关系数0.7~0.950%较强相关相关系数0.5~0.730%中等相关相关系数0.3~0.5当相关系数接近+1时表示完全正相关,接近-1时表示完全负相关,接近0时表示基本没有线性关系。如果数据集存在完全正/负相关的属性,建议删除其中一个以避免冗余和多重共线性。相关关系图示图2-19相关关系⚠️相关性≠因果关系相关性经常被误解为因果关系。变量之间存在相关性并不意味着存在因果关系,任何高度相关的变量都需要谨慎解读。经典案例:有研究发现某城市周边鹳的数量与分娩数据之间存在显著相关性——但这并不能"证明"婴儿是由鹳接生的。事实上,可能存在未被观察到的第三方变量(如人口规模变

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论