第1章 数据分析概述_第1页
第1章 数据分析概述_第2页
第1章 数据分析概述_第3页
第1章 数据分析概述_第4页
第1章 数据分析概述_第5页
已阅读5页,还剩31页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第1章数据分析概述初步认识数据分析数据分析的主要方法Python的安装与使用数据分析的工具库Anaconda--最受欢迎的开源Python分发平台

了解数据分析的概念及特点。

掌握数据分析主要方法及主要工具库。

掌握Anaconda的安装与使用方法。1.1初识数据分析为什么会有数据分析怎样去做数据分析1.1初识数据分析1.1.1为什么会有数据分析用户在使用互联网浏览信息的过程中会产生大量的数据,这些数据可能来自于不同的领域,而数据分析的目的就是把隐藏在一大批看起来杂乱无章的数据中最有价值的部分提炼出来,从而找出需要研究的对象的规律,得出有价值的信息。例如,在用户日常生活中会使用到某些购物网站,这些购物网站往往会设计一种模块——猜你喜欢,这一模块通常会推送用户可能感兴趣的商品,购物平台通过分析用户搜索某一类商品的次数来判断其是否对这类商品有意愿购买,从而间接提高商品的浏览量和购买率。1.1.2怎样去做数据分析1.1初识数据分析“数据分析师”最基本的职业素养便是要对数据敏感。数据分析师可以利用计算机对数据进行最基本的数据预处理,还应该具备基础的统计学知识素养。一名优秀的数据分析师会有自己独到的见解,会结合当今社会的时代发展背景去分析数据,如果脱离了现实认知,那么分析的结果就没有太大的价值。同时,数据分析中的数据源是所研究问题的周边化的数据,那么就需要利用自身具备的数学知识进行数据的概率化操作,因此相关数学知识也是一名数据分析师应该具备的基础知识。除此之外,数据分析师还应具备对应行业的专业知识。1.1认识Python1.1.2怎样去做数据分析数据分析具体流程包括确定分析目标及思路、数据获取、数据预处理、数据分析与建模、数据可视化及结果验证、数据应用。分析目标及思路:一个分析问题、拆分问题的过程。通过分析要研究的目标从而得出分析思路,确定目标需要对哪些方面进行具体的分析。数据获取:在确立了分析需求之后需要用一些技术手段获取数据,包括但不限于下载数据集、爬取数据数据预处理:数据预处理可以大致分为4个基本步骤,分别是数据合并、数据转换、数据清洗数据标准化数据分析与建模:通过建模可以得出数据中存在的特定规律,而模型就是这种规律的抽象化实例数据可视化:将数据分析结果以图表的形式展现出来,会更加清晰直观有效数据应用:将数据分析之后的结果运用到相应的领域中去1.1认识Python1.1.2怎样去做数据分析1.2数据分析的主要方法5W1H分析法逻辑树分析法对比分析法群组分析法1.2数据分析的主要方法1.2.15W1H分析法5W1H,即为什么(Why)、什么事(What)、谁来做(Who)、什么时候(When)、什么地方(Where)、如何做(How),5W1H分析法广泛应用于企业管理、生产生活、教学科研等方面,这种思维方法极大地方便了人们的工作、生活。1.2.2逻辑树分析法1.2数据分析的主要方法逻辑树分析法,又称为麦肯锡逻辑树、问题树、演绎树或分解树,其最大的优势在于将繁杂的数据工作细分为多个关系密切的部分,不断地分解问题,帮助人们在纷繁复杂的现象中找出关键点,推动问题的解决。1.2.2逻辑树分析法1.2数据分析的主要方法在运用逻辑树分析法时,从上至下、从左至右地先画出树干,简要分析其内容,然后依次画出主要分支,再画出细节分支,可以划分为任意层级,但一般情况下不要超过3层。超过3层的,一般来说需要从中间断开,单独分析。逻辑树最经典的案例就是费米问题,有人曾经问科学家费米:“芝加哥有多少位钢琴调音师?”为了保持钢琴音的准确性,需要定期由专业人员检查,调整不准确的音,从事这类工作的人被称为钢琴调音师。1.2.2逻辑树分析法1.2数据分析的主要方法通过逻辑树分析法进行问题的拆解,现将“芝加哥有多少调音师?”这个问题拆解为2个子问题1.2.2逻辑树分析法1.2数据分析的主要方法第一个子问题:全部钢琴调音师一年的总工作时长则拆解为3个子问题,如图所示。芝加哥的钢琴总数?钢琴每年要调几次音?调一次音需要多少时间?1.2.2逻辑树分析法1.2数据分析的主要方法芝加哥有多少架钢琴又可拆解成2个问题,如图1.6所示。①芝加哥有多少人口?②有钢琴的人占多少比例?1.2.2逻辑树分析法1.2数据分析的主要方法通过查询,芝加哥人口大约有250万,由于钢琴不是普通家庭能够添置的物件,因此,钢琴的人均拥有比例是较低的,再考量学校等机构拥有的钢琴数量,估算其为2%。钢琴每年调音的次数估算为一年一次。调一次音需要的时间估算为2个小时,如图所示。1.2.2逻辑树分析法1.2数据分析的主要方法由此可以推算出第一个子问题的答案:全部钢琴师一年的总工作时长=250万×2%×2=10万小时。接下来回到第二个子问题:一位调音师每年的工作时间。每天工作时长为8小时,一年50个星期,一星期工作5天,每年工作=8×5×50=2000小时,减去路程上损耗的20%的时间,一位调音师每年工作的实际时间是:1600小时,如图所示。1.2.2逻辑树分析法1.2数据分析的主要方法芝加哥最终有多少调音师,最终的结果为100000÷1600≈63(人)。在后来的调查中,费米找到了一份芝加哥的调音师表,上面记录了83名调音师,但是有不少名字是重复的。可见费米估计的人数是十分接近事实的。1.2.3对比分析法1.2数据分析的主要方法对比分析法就是将两个或者两个以上的数据进行比较,进而发现数据之间的差异和规律。对比分析包括绝对对比和相对对比。绝对对比是指绝对数据之间的比较,例如用户数、浏览量、访问量、下单量、注册量等。相对对比是指相对数据之间的比较,例如转化率、留存率、沉默率、下单率、注册率等。从不同的对比视角,可以归纳为如下常见的对比场景:时间对比,包括同比、环比、变化趋势等;空间对比,包括不同城市间的对比、不同类比的对比、不同渠道的对比等;用户对比,包括新用户与老用户对比、登录用户与未登录用户对比、高粘用户与低粘用户对比、活跃用户与不活跃用户对比等;转化对比,包括不同渠道转化对比、不同类别转化对比、不同活动转化对比等。在实际分析过程中需要针对不同情况去采用不同的对比分析法。1.2.4群组分析法1.2数据分析的主要方法群组分析法就是按某个特征对数据进行分组,通过分组比较,得出结论的方法。群组分析法通常有3个步骤:数据分组、假设检验和相关性分析法。以日常生活中的某共享单车用户为例进行群组分析,首先将共享单车的用户进行分组整合,将总体用户分为注册用户和未注册用户,再将注册用户的注册时间段按照时间、年龄段等因素分为相应的组群,从而对不同种类的用户做对应的数据分析,产生可视化图表。1.3Python的安装与使用Python的下载与安装安装完成检验第一个Python程序1.3python的安装与使用数据分析与可视化通常对数据处理的高效性与简洁性有着很高的要求,那么就需要去选取一款高效简单的数据处理“工具”。Python是一款数据处理的常用语言,可以处理数量级从几KB至几TB不等的数据,具有较高的开发效率和可维护性,还具有较强的通用性和跨平台性。1.3.1Python的下载与安装1.3python的安装与使用1.3.2安装完成检验1.3python的安装与使用1.3.2第一个Python程序1.3python的安装与使用依次点击IDLE→File→newfile按钮,新建Python文件,输入print(‘helloworld’),依次单击Run→run→module按钮,保存对应路径(例如桌面)之后运行第一个Python程序1.4数据分析工具库NumpyMatplotlibPandasScikit-Learn1.4.1Numpy1.4数据分析工具库NumPy(NumericalPython)是Python科学计算的基础库,它提供了非常丰富的功能,可以用于线性代数运算、傅里叶变换以及随机数生成,还可作为在算法之间传递数据的容器。对于数值型数据,NumPy数组在存储和处理数据时比内置的Python数据结构高效,并且由其它语言(如C语言)编写的库可以直接操作NumPy数组中的数据,无须进行数据复制工作。1.4.2Matplotlib1.4数据分析工具库Matplotlib是用于绘制二维平面图表的Python第三方拓展库,该库可以绘制直方图、功率图、条形图等常用图表,是数据分析过程中常用的可视化工具库。Matplotlib提供了一个套面向绘图对象编程的API接口,能够很轻松地实现各种图像的绘制,并且它可以配合PythonGUI工具(如PyQt、Tkinter等)在应用程序中嵌入图形。同时Matplotlib也支持以脚本的形式嵌入到IPythonshell、Jupyter笔记本、Web应用服务器中使用。1.4.3Pandas1.4数据分析工具库Pandas提供了大量快速处理结构化数据的数据结构与函数,它是使Python成为强大而有效的数据分析工具的重要因素之一。Pandas是一个开放源码、BSD许可的库,提供高性能、易于使用的数据结构和数据分析工具。Pandas名字衍生自术语“paneldata”(即面板数据)和“Pythondataanalysis”(即Python数据分析),其基础是NumPy(提供高性能的矩阵运算)。Pandas可以从各种文件格式比如CSV、JSON、SQL、MicrosoftExcel等导入数据。Pandas还可以对各种数据进行运算操作,比如归并、再成形、选择,还可以进行数据清洗和数据加工。所以,Pandas被广泛应用于学术、金融、统计学等各个数据分析领域。1.4.4Scikit-Learn1.4数据分析工具库Scikit-Learn是用于机器学习的Python第三方拓展库,该库可以用于数据分析过程中的数据建模环节。Scikit-Learn中包含了多种数据源,可供开发者快捷调用,它是一种简单高效的数据挖掘和数据分析工具,其开放源代码可在各种环境中重复利用。1.5Anaconda--最受欢迎的开源Python分发平台初识AnacondaAnaconda安装与使用1.5.1初识Anaconda1.5Anaconda--最受欢迎的开源Python分发平台Anaconda是一个开源的Python发行版本,可以看作Python的包管理工具,类似于pip。Anaconda包含conda、Python等一百八十多个科学包及其依赖项,由于包含的科学包数量较多,因此所占的存储空间较大1.5.2Anaconda安装与使用1.5Anaconda--最受欢迎的开源Python分发平台1.5.2Anaconda安装与使用1.5Anaconda--最受欢迎的开源Python分发平台本章小结本章小结大数

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论