数据科学概论PPT完整全套教学课件_第1页
数据科学概论PPT完整全套教学课件_第2页
数据科学概论PPT完整全套教学课件_第3页
数据科学概论PPT完整全套教学课件_第4页
数据科学概论PPT完整全套教学课件_第5页
已阅读5页,还剩184页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第1章数据与信息概述数据的概念、特征和作用数据的尺度与类型数据的表格化数据的数字化信息与信息熵全套课件数据的概念、特征和作用数据的概念数据具有普遍性数据是信息的表现形式和载体信息可以视为经过加工处理的、有价值的数据数据不等同于数字数据的特征数据的事实性;数据的可复制性数据的共享性;数据的时效性数据的开放性与安全性数据的作用数据是一种社会经济资源数据是认识世界的基本材料数据是管理决策的依据,是决定企业竞争成败的关键数据的尺度与类型定性数据:对客观事物各种质化属性的文字描述,分为:定类尺度(NominalScale)数据例如:性别中的男、女定序尺度(OrdinalScale)数据例如:受教育程度中的小学、初中、高中、大学等定量数据:对客观事物各种量化属性的数字描述,分为:定距尺度(IntervalScale)数据例如:气温、海拔等数值定比尺度(RatioScale)数据定比尺度数据中的0表示“没有”或“无”,负数没有意义定量数据中的离散数据和连续数据数据的尺度与类型结构化数据和非结构化数据结构化数据,简单讲是指符合行列二维表格式的规范化数据,符合Excel电子表格和关系型数据库数据表的组织格式要求统计视角个案;变量关系数据库视角记录;字段数据的尺度与类型结构化数据和非结构化数据非结构化数据主要包括文字资料、图片、音频和视频信息等非结构化数据在计算机数据库系统中需要用一些特殊技术进行存储处理例如:数据的表格化个体数据的表格化从计算机科学的数据仓库理论角度来看,表1-6是高校学生情况的实际反映,常被称为数据粒度较细的事实表(FactTable),是记录所有学生当前状态的台账数据的表格化批量汇总数据的表格化多维统计表是对批量数据提炼精简和直观展示的有效途径表1-9的学生统计表又称为数据粒度较粗的快照表(SnapshotTable),是事实表在某个时刻数据状态汇总的历史留存信息与信息熵信息熵:不确定性的度量信息论将信息抽象地定义为事物不确定性的减少,并建立了信息定量测度的数学描述,即信息熵信息量:信息熵:信息熵越大,不确定性越大;信息熵越小,不确定性越小信息与信息熵信息增益:不确定性减少的度量例如:负面消息发布前的信息熵负面消息发布后的信息熵负面消息的信息量信息熵的应用示例第2章数据科学概述数据科学的科学观数据科学概念历史观察:探讨数据科学的发展历程数据世界:探讨数据科学的对象DIKW模型:探讨数据科学中的若干基本概念维恩图:探讨数据科学的学科交叉性从数据到模型:探讨数据科学的一般方法三维视角:总览数据科学数据科学的科学观从科学高度看数据科学通过案例初识数据科学孟德尔的豌豆杂交试验通过长期观察和分析积累数据发现事物本质规律,是数据科学研究的根本方法确定《红楼梦》后40回的作者数据科学在人文社会科学中的应用数据科学概念数据科学产生的重大技术背景新一代移动互联网和物联网技术云计算技术大数据技术人工智能技术数据科学产生的典型应用背景全面发展的电子商务服务大力推动开展的智慧城市建设大力推动开展的教育现代化工程数据科学的定义数据科学(DataScience)定义为关于数据处理本质规律的知识体系历史观察:探讨数据科学的发展历程古代:从结绳记事到阿拉伯数字古典:政治算术和国势学近代:随机现象、概率论与数理统计现代:抽样与推断统计计算机时代:技术革命带来的繁荣大数据时代:奠定数据科学基础数据世界:探讨数据科学的对象数据世界和数据科学数据世界是客观现实世界(包括自然世界和人类社会)变化发展的忠实记录者,是客观现实世界的全息映射,构成了一个人类全面了解和深入研究客观现实世界的虚拟空间数据世界和数字孪生数据世界是可实现人类对客观现实世界实时在线、镜像对应、双向互动和动态发展的认识和把握,这种状态称为数据世界与现实世界的“数字孪生”(DigitalTwins)示例:数字孪生---虚拟新加坡DIKW模型:探讨数据科学中的若干基本概念DIKW模型Data,Information,Knowledge,WisdomDIKW模型认为人类的认知过程是一个数据处理过程,是一个从数据到信息到知识再到智慧的不断提高升华的形式化过程涉及:数据、信息、知识和智慧四大核心概念,以及它们之间的关系示例环保主题下的全球升温和气体排放数据与对策DIKW模型:探讨数据科学中的若干基本概念从DIKW模型看数据科学DIKW模型:探讨数据科学中的若干基本概念维恩图:探讨数据科学的学科交叉性对数据科学的一个基本共识是它是一门交叉性的多门类学科从数据到模型:探讨数据科学的一般方法反问题的方法反问题是“由果推因”的模式,可以理解为从数据反求规律,也就是根据事物演化的结果从可观测到的现象探求事物本质数据驱动的方法数据驱动以数据为核心模型化的方法概念模型物理模型数学模型四个基本要素:算法、算料(数据)、算力和领域知识数据处理流程:探讨数据科学方法论传统理念下的数据处理方法论计算机时代的数据处理方法论数据处理流程:探讨数据科学方法论大数据时代的数据处理方法论,特点:提升数据存取能力提升输出内涵提升在线处理能力提升可视化能力提升安全与伦理意识三维视角:总览数据科学从三维视角看数据科学理论方法维度:数据科学的理论体系、方法、技术、工具等处理流程维度:数据采集、数据存储与管理、数据分析、数据可视化和数据安全与伦理等应用领域维度:在政府部门、科学研究、行业与领域、企事业单位、公众与个人等方面的应用第3章数据科学中的计算机基础计算机系统概述计算机硬件计算机软件计算机网络计算机应用的技术模式计算机应用计算机系统概述计算机系统由硬件和软件组成硬件由五个基本部分组成(运算器、控制器、存储器、输入设备和输出设备),技术上由电子元件和电子电路构成计算机系统利用二进制数字0和1进行信号处理和数据存储,用存储程序代替单指令输入操作计算机的发展计算机在硬件方面主要经历了电子管、晶体管、集成电路、大规模集成电路和超大规模集成电路的发展计算机在软件编制方面主要经历了计算机机器语言、汇编语言、高级语言和面向对象语言的发展计算机的种类计算机硬件计算机硬件的组成:计算机硬件(Hardware)是构成计算机系统的电子元件、电子电路及物理设备系统,是计算机工作的物质基础主板是计算机系统的关键部件,组成:中央处理器(CentralProcessUnit,CPU)图形处理器(GraphicsProcessingUnit,GPU)内存条、各种插卡、各种设备接口和集成电路等CPU可分为单核和多核两类计算机硬件中应重点关注的计算机芯片计算机硬件计算机硬件的工作原理概念:内存和外存内存:用于临时存储各种程序和数据等外存:用于永久存储各种程序和数据等计算机硬件一般工作原理的四大步骤计算机正常启动后,操作系统软件将自动加载到内存开始运行将内存中的程序或数据等提交给CPU处理将内存中的程序或数据保存到外存中用户再次将信息重新从外存调入内存,继续编辑提交给CPU处理如此循环往复计算机软件计算机软件:是人们编写的指挥计算机工作的各种程序及相关资源的总称一个程序就是由计算机处理命令组成的工作步骤的序列分类:系统软件和应用软件系统软件:主要由操作系统软件、计算机语言软件、数据库管理系统软件,以及一些维护计算机系统正常运作的软件(如计算机测试与诊断软件、反病毒软件等工具软件)组成应用软件:是使用计算机语言编写的解决特定应用问题的各种软件的总称计算机软件操作系统:是管理和操作计算机硬件、网络和其他软件的软件主流的操作系统单任务操作系统和多任务操作系统单用户操作系统和多用户操作系统文件:操作系统以文件形式组织、存储和管理各种软件及其有关资源,并提供对文件的管理计算机语言:是一种供人们编写程序并运行程序的软件程序是由计算机处理命令组成的工作步骤的序列三种类型:机器语言;汇编语言;高级语言应用软件:是使用计算机语言编写的解决特定应用问题的各种软件的总称计算机网络计算机网络是利用有形的通信线路和无形的通信介质,将分布在不同地理位置上的计算机系统连接起来的协同工作系统计算机网的两种主要处理模式集中处理和分布式处理从不同的技术和应用角度,计算机网络可分为多种类型局域网、广域网和因特网局域网(LocalAreaNetwork,LAN)是将某个局部区域内的计算机系统通过网线连接在一起形成的网络广域网(WideAreaNetwork,WAN)是通过将若干局域网相互连接形成的覆盖范围更大的网络系统因特网(Internet),即俗称的互联网,是一个覆盖全球的广域网系统计算机网络计算机网络的通讯协议:是一组网络中各种设备以一定的方式交换信息的规定两个处理过程:数据在网络中由信息源传输到目的地需要经过多种通信设备进行不同的加工处理,总体来讲需要进行数据打包和解压缩两个相反的处理过程OSI参考模型:“开放系统互连参考模型”,对传输的信息需要经过七个处理环节由顶层至底层依次是应用层、表示层、会话层、传输层、网络层、数据链路层和物理层。TCP/IP协议:是一个包含众多网络协议的协议族,OSI参考模型的简化版本,包括四层应用层、传输层、网络层和网络接口层计算机应用的技术模式个人计算机进行工作是最简单的一种计算机应用模式在网络环境下的计算机应用的技术模式主机/终端模式:H/T模式客户机/服务器模式:C/S模式浏览器/服务器模式:B/S模式云计算模式类型:公有云、私有云、混合云云计算服务:基础设施即服务、平台即服务、软件即服务云计算特点:虚拟化、按需服务、可扩展性、超大规模和高可靠性等对等模式计算机应用科学计算案例:花旗银行的经济预测模数据处理与大数据使用计算机系统完成数据的采集、存储、分析和可视化等一系列过程,实现将数据提炼为信息、知识和智能的目标随着大数据的发展,数据处理的规模、速度、复杂性和价值等得到不断提升与突破,大数据成为数据科学产生与发展的重要推动力人工智能起步发展阶段;初步应用阶段;快速发展阶段;未来发展趋势过程控制:收集传感器获取的实时数据并在快速分析处理后将有关信息反馈给控制设备,控制设备自动调节控制对象的后续处理过程或工作状态第4章数据科学中的数学与统计基础微积分与数据科学应用线性代数与数据科学应用统计学与数据科学应用集合论与数据科学应用图论与数据科学应用微积分与数据科学应用

微积分的产生背景微积分的基本思想方法示例:示例:微积分与数据科学应用

梯度下降法及数据科学应用示例梯度概念梯度下降法算法示例线性代数与数据科学应用

向量与向量空间及应用示例向量是一种有方向、有大小的量向量运算内积线性代数与数据科学应用

矩阵与线性变换及应用示例概念矩阵乘法利用矩阵求解线性方程组利用矩阵实现数据的线性变换特征值与奇异值及数据科学应用示例统计学与数据科学应用

描述统计要点使用数字描述使用表格描述使用图形描述统计学与数据科学应用

概率与概率分布要点概率概率分布正态分布推断统计和多元统计分析要点参数和统计量主要方法:回归分析、方差分析、因子分析、判别分析、聚类分析、多元时间序列分析等统计学与数据科学应用

贝叶斯思维在数据科学中的应用条件概率和贝叶斯定理示例:贝叶斯思维,从贝叶斯思维角度再看上述示例集合与数据科学应用

集合论与罗素悖论集合的性质粗糙集与数据科学应用示例粗糙集利用集合论、计算机系统和人工智能技术进行数据处理结合示例了解相关概念:罗素悖论:指出集合论在自含式集合中可能存在逻辑矛盾论域、决策属性、条件属性和值域知识库、粗糙集、下近似集合和上近似集合图论与数据科学应用

欧拉和哥尼斯堡七桥问题图论的发展沿革:图是由若干给定的点及连接两点的线构成图论建立了顶点、边、度、同构、有向/无向图、边的权重、路径/最短路径、环、树、连通图、子图和网络等基本概念图论与数据科学应用示例图论与搜索引擎;图论与风险控制;图数据库与知识图谱欧拉将这个实际问题抽象化,建立一个与之对应的数学模型:将三个城区和小岛设计为一个节点,而将连接它们的桥梁设计为节点间的通路,转换为一个简明的几何问题第5章数据科学中的SQL基础SQL概述SQL的数据定义和应用SQL的数据操纵和应用SQL的数据查询SQL概述SQL已成为数据库领域公认的数据查询语言SQL的优点功能丰富风格简洁统一适合各种数据库系统人员使用MySQL和SQL入门MySQL的安装第一个SQL查询示例SQL的帮助系统一个数据库系统中可以包含多个数据库,一个数据库中可以包含多个数据表。数据表是存储数据的基本逻辑单元,由数据表的结构和数据记录组SQL的数据定义和应用通过示例讲解SQL的数据定义语句SQL的数据定义和应用SQL数据定义语句数据定义是对数据库系统中的基本对象(如数据库、数据表、数据视图和数据索引等)进行规范的定义数据库:可直观地理解为一个存储数据的大型仓库数据表:是存放数据的基本单元。关系型数据库的数据表是一个按行和列组织的二维表格数据视图:是一张基于若干数据表生成的虚拟表数据索引:是对数据表中的一列或多列进行排序后构造指向原始记录位置的索引指针。基于索引存储表的查询可以极大提高数据查询效率唯一索引、主键普通索引组合索引SQL的数据定义和应用SQL数据定义应用创建Orders数据表、Goods数据表和Suppliers数据表显示MyDB数据库中的数据表和数据表结构修改畅销商品表top_Goods数据表的结构定义Goods数据表的数据视图对Customers数据表建立数据索引SQL的数据操纵和应用SQL数据的增加、删除、修改和查询等基本操作,这些数据处理工作在SQL中被称作数据操纵SQL中使用INSERT语句、DELETE语句、UPDATE语句和SELECT语句来完成数据库的增、删、改、查四个基本功能SQL数据操纵语句SQL的数据操纵和应用SQL数据操纵应用在Goods数据表增加记录在Suppliers数据表中增加记录修改Goods数据表中的数据删除表中的数据SQL的数据查询SELECT语句是SQL的核心内容,由若干子语句组成SELECT语句的简单应用基本查询SQL的数据查询SELECT语句的简单应用带WHERE条件的查询SQL的数据查询SELECT语句的简单应用带GROUPBY子语句的查询SQL的数据查询SELECT语句的简单应用带HAVING子语句的查询带ORDERBY子语句的查询SQL的数据查询SELECT语句的进阶应用左连接查询右连接查询内连接查询SQL的数据查询SELECT语句的进阶应用组合查询第6章数据科学中的Python基础Python概述Python基础Python语言进阶NumPy入门Pandas入门Matplotlib入门Python综合应用示例Python概述Python的特点简明易用,严谨专业具有良好的开发生态具有丰富的第三方程序包Python的安装和启动命令行交互方式第一个Python程序与帮助Python基础Python的基本数据类型和组织Python的基本数据类型数字型字符串布尔型Python基础Python的基本数据类型和组织Python数据的基本组织方式元组集合Python基础Python的基本数据类型和组织Python数据的基本组织方式列表字典Python的程序结构和流程控制通常一个完整的程序由三部分构成数据输入部分、数据加工处理部分、信息输出部分最常见的程序结构是顺序结构顺序结构的程序的执行顺序将按语句的书写顺序从第一条语句开始依次执行下去,直到最后一句结束分支结构、循环结构、函数、面向对象等方式,使得程序的处理能力更加强大,同时使得程序结构更加复杂分支结构与条件语句单重分支结构示例:产生51个0至100的随机数,作为51名学生的模拟考试成绩。统计考试及格的人数Python的程序结构和流程控制分支结构与条件语句双重分支结构示例:产生51个0至100的随机数,作为51名学生的模拟考试成绩。分别统计考试及格和不及格的人数Python的程序结构和流程控制分支结构与条件语句多重分支结构示例:产生51个0至100的随机数,作为51名学生的模拟考试成绩,统计各个分数段的人数Python的程序结构和流程控制循环结构与循环语句示例:利用for...in循环依次逐个读取列表元素示例:利用for...in循环找到10个随机数(0至100之间的整数)中的偶数Python的程序结构和流程控制循环结构与循环语句示例:利用while循环找出第一个90以上的随机数(0至100之间的整数)示例:输出九九乘法表Python的程序结构和流程控制函数定义与函数结构当程序中出现一些功能类似的语句块时,可以把这些语句块定义为一个具有指定名称的函数,该指定名称称为函数名。Python的函数分为两类系统函数或内置函数用户自己编写的函数,称为用户自定义函数示例:计算组合C(10,3)=10!/(3!7!)Python的程序结构和流程控制异常处理结构示例:一个简单的除法Python语言进阶面向对象程序设计:以业务类为单位,将属于这个类的变量和函数,以及相关的业务处理逻辑封装起来,可在更高层次上实现程序重用,提高开发效率将某些变量视为这个类的属性;函数视为这个类的方法示例:关于公司员工的类Python语言进阶模块与包模块:一个包含程序的文件。模块中包括很多函数、类等。导入和使用模块可以极大地提高程序开发效率包:由一个或多个相关模块组成,一般以文件目录的方式组织,文件目录名就是包名。文件目录中可以包含子目录,子目录也是包,形成了包和子包的层次包含关系如何使用模块或包Python综合:chaos混沌态NumPy入门NumPy数组的创建示例:基础知识NumPy入门NumPy数组的创建:示例:有关随机数NumPy入门NumPy数组的访问:NumPy入门NumPy数组的计算:示例:基础知识NumPy入门NumPy数组的计算:示例:逻辑运算NumPy入门NumPy数组的计算:示例:数组与广播NumPy入门NumPy数组的计算:示例:矩阵运算Pandas入门Pandas的数据组织:示例:序列和索引Pandas入门Pandas的数据组织:示例:创建数据框和索引Pandas入门Pandas的数据组织:示例:访问数据框Pandas入门Pandas的数据加工处理Matplotlib入门Matplotlib的基本绘图Matplotlib入门Matplotlib的参数配置Matplotlib入门Matplotlib的子图设置Matplotlib入门Matplotlib的常见统计图绘制统计柱形图Matplotlib入门Matplotlib的常见统计图绘制簇状柱形图Matplotlib入门Matplotlib的常见统计图绘制饼图绘制直方图Matplotlib入门Matplotlib的常见统计图绘制散点图Python综合应用示例:对空气质量监测数据的分析空气质量数据的预处理读取并浏览数据数据预处理空气质量数据的基本分析计算各季度AQI和PM2.5的平均值等描述统计量找到空气质量较差的若干天数据,各季度中空气质量较差的若干天数据计算季度和空气质量等级的列联表派生空气质量等级的虚拟变量,对数据集进行抽样空气质量数据的可视化观察AQI的时序变化观察AQI历年均值的变化情况第7章数据采集传统数据采集方式和技术互联网数据采集物联网数据采集数据采集与人工智能传统数据采集方式和技术数据采集是围绕数据处理目标,找到可靠的数据来源,利用各种方法获得数据的过程数据采集涉及数据采集方式和数据采集技术等方面传统数据采集方式普查和统计报表制度普查:一个国家或机构为专门目的而组织的全面性调查统计报表制度:一种经常性、定期性和制度化的全面调查传统数据采集方式和技术传统数据采集方式抽样调查和问卷调查抽样调查:从全部被调查对象中抽取一部分作为样本进行调查,并根据样本调查结果推断并获得有关总体信息的数据采集方法问卷调查:是一种要求被调查者回答并填写一份设计制作的问卷的调查方法。案例:EPQ问卷调查传统数据采集方式和技术传统数据采集方式观察法和实验法观察法:调查人员利用自身感官和辅助工具,采取非直接询问方式观察被调查对象,并主动记录获取数据的一种数据采集方式案例:某玩具公司产品设计调查;案例:某资金管理公司风险投资的企业调查实验法:实验者根据实验目标,通过有意识地改变或控制实验品或实验环境的一个或多个影响因素,观察实验对象的变化情况,获得相关数据资料,并经分析发现实验对象或实验品的本质规律案例:药物随机双盲对照实验传统数据采集方式和技术传统数据采集技术案例:我国2010年第六次全国人口普查光电扫描技术互联网数据采集互联网数据采集概述数据主要来自三类网站政府、企事业单位等自行开发建立的用于形象宣传和信息服务的网站用户生成内容(UserGeneratedContent,UGC)类网站,如电子商务、社交平台、招聘求职、社区论坛、长/短视频、百科知识与问答等,这类网站的数据是由网站用户输入和发布生成的搜索引擎和门户类网站,用于信息检索和网页导航等,其数据通常是对其他网站数据的有效整合网站的访问者大致分为两类网站自己的运营人员访问网站的普通用户(一般访客、注册用户和付费用户等)互联网数据采集网站运营数据库和数据分析及采集网站运营数据库网站关于用户的各种数据都存储在网站的数据库中,一般包括用户注册数据库、业务数据库和系统日志数据库(或日志文件)等网站运营数据的分析计算常用的运营指标:如注册用户数、付费用户数、日/月活跃用户数、在线用户数、在线时长、网站跳出率、PV、UV、IP和ARPU等案例:某电商公司人口迁移大数据分析案例:谷歌流感趋势预测互联网数据采集网站运营数据库和数据分析及采集网站运营数据的采集网页埋点和数据采集网页埋点数据采集:在网页程序中的某个适当位置插入一段数据采集的程序互联网数据采集网站运营数据库和数据分析及采集开放数据库和数据采集互联网数据采集网站运营数据库和数据分析及采集搜索引擎和数据采集搜索引擎的衍生应用和服务互联网数据采集网站运营数据库和数据分析及采集网页爬虫和数据采集网络爬虫的一般工作步骤网络爬虫的实现物联网数据采集物联网数据采集概述(InternetofThings,IoT)从英文名称角度可理解为“物物连接的互联网”,一般指利用各种传感器技术,实时采集观测物体的各种数据,通过各类网络传输数据,以实现物与物、物与人的更广泛的连接,最终达成对各类物体及其过程的智能化感知、识别和管理的目的物联网数据采集传感器和数据采集传感器:是一种具有检测功能的元件或装置,用于感知观测物体的预定数据,并按照一定规则将其转换为可用信号输出,以满足传输、显示、存储和控制等处理需求传感器网络物联网数据采集卫星通信和数据采集卫星通信技术是以卫星为中继站进行无线电波发射或转发的一种通信方式,能够实现两个或多个远程设备及地面站间的通信物联网数据采集射频识别技术、条形码和数据采集射频识别系统由一个阅读器(Reader)和多个电子标签(Tag)组成数据采集与人工智能数据标注与数据采集数据标注是指对文本、图像、语音和视频等数据进行分类整理和批说明等。数据标注可为原始数据增加必要的标签属性,是实现人工智能中的有监督学习的基本前提文本数据标注语音数据标图像和视频数据标注文本数据采集和挖掘图像数据采集和识别第8章数据存储与管理数据文件与数据库系统数据仓库系统数据库系统的技术发展Hadoop大数据系统Spark大数据系统Flink大数据系统数据湖系统数据文件与数据库系统数据文件从寄生在程序中的数据到独立于程序的数据(数据文件)数据文件系统的问题来自程序的问题来自数据的问题数据文件与数据库系统数据库系统的概念数据库系统(DataBaseSystem)是一种计算机数据服务系统数据库系统的构成核心:数据库管理系统和数据库数据库模式:数据库系统呈现出由外模式、模式和内模式组成的三级架构模式外模式又称子模式或用户模式,针对数据库系统的最终用户而言的,是最终用户看到的数据展示形式模式又称逻辑模式或概念模式,针对数据库管理员而言的,是由数据库应用系统开发人员综合各用户的需求设计构造的全局数据库结构内模式又称存储模式,针对数据库管理系统产品的技术开发人员而言的,是数据在操作系统文件及物理介质上的内部存储结构数据文件与数据库系统关系型数据库系统和联机事务处理关系型数据库系统:采用关系数据模型组织数据关系数据模型的基本形式是以记录为行、字段为列构成一张二维数据表,以表示各种数据实体和属性以及实体和实体间的关系,故也称为二维关系表二维数据表必须满足的条件关系型数据库的三种关系运算:投影、选择、连接联机事务处理(OnlineTransactionProcessing,OLTP)是关系型数据库系统典型的数据服务方式,适用于基础业务数据的操作管理计算机科学家吉姆·格雷提出了数据库事务处理的原则和方法:事务处理的ACID原则数据文件与数据库系统数据库索引技术数据库索引:数据库系统对某个数据表的指定字段值排序,并建立一种便于快速检索的数据结构及其算法索引的数据结构数据仓库系统数据仓库的概念数据仓库(DataWarehouse,DW)是一个面向主题的、集成的、反映历史变化的、相对稳定的数据集合建立数据仓库的目的是支持数据分析和管理决策数据仓库的特点数据仓库是面向主题的数据仓库是集成的数据仓库中的数据是反映历史变化的数据仓库中的数据是相对稳定的数据仓库系统数据仓库系统的基本结构ETL和ETL工具元数据和元数据管理元数据又称关于数据的数据数据集市:数据仓库的子集数据仓库中的数据组织事实表、维度表数据仓库系统联机分析处理联机分析处理(OnlineAnalyticalProcessing,OLAP)是计算机数据服务的一种基本方式以数据库或数据仓库系统等为数据支撑,着力为用户提供数据分析的应用服务OLAP数据查询钻取上卷切片切块旋转数据仓库系统知识发现与商业智能知识发现:数据库中的知识发现,是指从大型数据库或数据仓库的数据集合中,发现隐含的、有用的、可理解的知识,并理解和应用知识的过程数据挖掘:是利用数据处理方法,从海量的、有噪声的各类数据中提取潜在的、可理解的、有价值的信息的过程商业智能/决策支撑系统数据系统的技术发展数据库系统更关注性能、可用性和可扩展性等体系架构问题并行数据库技术计算机并行处理:首先将较大的处理对象划分为多个子部分,将较复杂的处理操作划分为多个子任务并行数据库技术及其系统架构并行数据库技术:指运行在并行计算机系统上的具有并行数据处理能力的数据库技术建立并行处理的计算机服务器系统架构改造数据库管理系统软件,增加实现并行处理必需的并行处理算法然后,由多个计算机服务器或处理器并行处理,实现数据级并行和任务级并行数据系统的技术发展分布式数据库技术:将数据库中的数据分别存储在不同物理节点的局部数据库中一致性(Consistency):当分布式数据库成功完成数据更新操作后,分布式数据库系统的所有用户在其客户端的计算机上都应看到完全一致的数据可用性(Availability):指数据服务在正常响应时间内一直可用分区容错性(PartitionTolerance):指分布式数据库系统在遇到某节点或网络分区故障时,仍能对外提供满足一致性和可用性的服务分布式数据库技术的性能评价:CAP数据系统的技术发展NoSQL数据库系统和NewSQL数据库系统NoSQL数据库系统简介SQL数据库系统中的数据库管理系统一般是那些以关系数据模型为基础的、采用ACID原则进行OLTP应用的、适合使用SQL进行数据操作的关系型数据库管理系统(RelationalDataBaseManagementSystem,RDBMS)NoSQL数据库系统采用更加适合分布式技术和系统水平扩展性的新型数据模型,利用简便的数据操作替代SQL数据操作。例如:列式数据库系统:采用按列顺序存储的内模式键值数据库系统:在内模式设计中采用键(Key)和值(Value)的方式存储和管理数据表中的数据数据系统的技术发展NoSQL数据库系统和NewSQL数据库系统NewSQL数据库系统简介NewSQL数据库系统是指在充分满足数据库系统性能、可用性和可扩展性的前提下,继续支持事务处理的ACID原则,继续使用SQL进行数据操作的一类关系型数据库系统Hadoop大数据系统什么是Hadoop网络文件系统(NetworkFileSystem,NFS)Hadoop是一个以分布式文件系统为基础的、以MapReduce为计算处理方式的、支持多种数据处理工具的大数据开发与应用系统Hadoop一般构成分布式文件系统(HDFS)MapReduce分布式计算计算机集群资源管理系统(如YARN)后续人们基于Hadoop开发了许多提供大数据处理分析和管理服务的应用软件工具,形成了一个广义的Hadoop大数据应用生态系统Hadoop大数据系统HDFSHDFS的核心设计思想:将一个大型数据文件分割为多个均等的文件块(Block),并将文件块尽可能均匀地分布存储在计算机集群的有关节点上根据系统设置的副本个数(ReplicateFactor),在不同节点上进行冗余存储,以确保在个别节点出现故障时文件仍能可靠使用HDFS的特点:将计算机集群中的多个节点划分为两个类型:名称节点(NameNode)和数据节点(DataNode)NameNode是HDFS的主节点,DataNode是HDFS的从节点Hadoop大数据系统HDFSHDFS文件的写和读操作Hadoop大数据系统MapReduce计算框架MapReduce为大数据系统提供了强大的并行计算处理能力Hadoop的MapReduce是一种高效的HDFS计算处理方案,既是一个编程方法的模型,也是一个计算过程的框架计算过程示例:Hadoop大数据系统Hadoop大数据生态系统底层:Hadoop的HDFS、MapReduce、YARN;中间层:提供各种大数据支持服务的组件,包括左侧用于数据管理的组件及右侧用于数据传输管理的组件,这些组件被统称为大数据平台生态系统组件;顶层:Spark和Flink是基于Hadoop开发的极具特色的两大主流大数据系统Hadoop大数据系统Hadoop大数据生态系统YARN资源调度管理系统:不涉及MapReduce具体业务处理过程的相对独立的Hadoop资源调度管理系统HBASE:采用键值对表示数据的逻辑关系结构,数据模型属于NoSQL数据库系统系列Hive数据仓库系统:将分布式文件中的结构化数据映射为符合业务逻辑的数据表,并创建了一套类似SQL的数据查询语言HQL(HiveQueryLanguage)对数据表进行查询、统计和多维分析等处理Pig数据处理系统:提供了一种面向过程的数据处理语言数据传输管理组件Spark大数据系统什么是SparkSpark采用DAG和RDD等优化技术,是一个具有较强通用性的高效大数据计算框架DAG技术RDD技术Spark大数据系统Spark大数据生态系统Spark是一个具有较强通用性的高效大数据计算框架每个集群由集群管理器(ClusterManager)和工作节点(WorkerNode)组成集群管理器负责管理工作节点,根据工作节点是否空闲及资源情况等为工作节点分配任务(Task)工作节点负责执行集群源管理器分配的任务Spark大数据系统Spark大数据平台databricks应用基于PySpark实现对空气质量数据的分析导入案例数据编写Spark程序Spark大数据系统基于PySpark实现对空气质量数据的分析Flink大数据系统流数据流数据是一种大量的、快速的、顺序且连续产生的实时大数据流数据的数据价值随时间流逝快速下降流数据不具有时间上的边界性流数据的处理一个完整的流数据处理系统包括:数据源数据汇集与导入系统数据实时计算系统数据存储系统Flink大数据系统Flink大数据生态系统目前被认为是一个相对完整的流批一体化的大数据处理系统数据湖系统什么是数据湖系统是以原始的自然形态存储和管理各类数据的集中数据服务系统数据湖系统的基本功能数据获取功能、数据存储功能、数据管理功能、数据服务功能典型的数据湖系统AWS数据湖系统HUDI数据湖系统第9章数据可视化数据可视化概述数据可视化一般方法数据可视化实现和Tableau应用数据可视化的新发展数据可视化概述数据可视化起源和发展案例:伦敦霍乱疫情中的病亡人员分布图计算机系统的发明与应用让人类处理数据的能力有了跨越式提升数据可视化元素数据可视化是一种数据表达方式,它先建立图形与数据的映射关系,然后通过人类视觉系统获取图形传达的数据中的信息图形原始图形属性数据映射数据可视化概述数据可视化步骤和原则数据可视化步骤确定数据可视化目标确定可视化数据数据可视化设计数据可视化开发与应用评估数据可视化原则准确、简洁和直观的原则重点突出的原则内容与形式相互统一原则数据可视化一般方法电子地图及地图图表电子地图(ElectronicMap)是利用计算机技术,以数字化方式制作存储和查询应用的地图系统电子地图的特点:交互性、信息共享性Echarts示例:基于电子地图绘制2020年我国部分省、自治区、直辖市GDP和人均GDP的热力图数据可视化一般方法高维数据的可视化展现三维图形的展示:通常需经过透视、投影和旋转等几何变换,从主视图、俯视图和侧视图等不同观察视角,将三维图形对象有效地呈现在二维平面显示系统上数据可视化一般方法高维数据的可视化展现高维图形的展示:三种展现高维数据特点的高维图形的二维抽象图安德鲁斯曲线图:对每个样本数据的一组属性值进行傅立叶变换,并以此展示多维数据的整体效果数据可视化一般方法高维数据的可视化展现高维图形的展示:三种展现高维数据特点的高维图形的二维抽象图平行坐标图:为每一个变量设置一个纵向垂直坐标,并在坐标上标注对应数据值;然后将多个坐标轴上的对应样本观测点用直线连接起来,并以此展示多维数据的整体效果数据可视化一般方法高维数据的可视化展现高维图形的展示:三种展现高维数据特点的高维图形的二维抽象图图瑞德维兹图:通过径向投影方式将高维数据映射到低维空间,并使具有相似特征的样本观测点可以投影到相近的位置上将一个维度视为一个维度锚点,多个维度就视为多个维度锚点,可将一个样本数据视为多个维度锚点拉力合力作用下的结果数据可视化实现和Tableau应用数据可视化实现方式:编程或选用数据可视化工具软件Tableau及其应用特点简便高效地处理多种格式的海量数据无须编程,通过简单的鼠标拖曳、菜单点选和参数配置就可以实现可轻松完成动态图形和动态报表的自动化生成利用图形交互及仪表盘和数据故事等方式,表达商业智能内容案例:奥运会数据的可视化实现数据可视化的新发展计算机图形学ISO将计算机图形学定义为通过计算机系统将数据转换成图形,并在指定显示设备上进行展示的有关原理、方法和技术的学科计算机图形技术数据可视化的新发展虚拟现实及相关技术3D技术和全息技术案例:央视春晚节目《蜀绣》数据可视化的新发展虚拟现实及相关技术虚拟现实技术:利用计算机系统图形产生器、位置跟踪器、多功能传感器、控制器等,模拟或构造现实世界的三维场景空间,并使人们能够自然地与该空间进行交互,从而产生一种身临其境的感觉案例:FundamentalVR眼科手术培训数据可视化的新发展虚拟现实及相关技术增强现实技术增强现实技术先使用摄影摄像设备获得真实世界图景,同时捕捉人们感兴趣的特定的图形对象,确定其位置、方向等信息然后使用计算机系统生成虚拟图形对象并将其合成进真实世界图景中最后使用显示设备或投影设备等呈现出来,进而实现虚拟图形对象与真实世界图景的叠加与集成案例:增强现实技术在物流仓储中的应用第10章数据分析数据分析方法、目标及软件工具数据预处理经典聚类算法数据预测:经典统计方法数据预测:经典机器学习方法数据分析方法、目标及软件工具数据分析方法数据分析:通过有效的量化分析方法,努力探索数据的特征及内在关系,旨在发现其中隐藏的规律以支持科学决策普遍将分析方法分为:定性分析和定量分析,这里强调定量分析定量分析中的数据离线数据和在线数据;为结构化数据、半结构化数据和非结构化数据定量分析中的方法数据分析方法、目标及软件工具数据分析目标数据预测:基于已有数据集,归纳出输入变量和输出变量间的数量关系基于这种数量关系,发现对输出变量产生重要影响的输入变量在数量关系具有普适性和未来不变性的假设下,预测新数据输出变量的取值数据预测的细分:回归预测和分类预测(包括二分类预测和多分类预测)数据聚类:发现数据中可能存在的小类通过小类刻画和揭示数据的内在组织结构数据聚类的最终结果是为每个样本指派一个属于哪个小类的标签,称为聚类解数据分析方法、目标及软件工具数据分析软件工具:sklearn简介数据分析软件工具的呈现或使用方式一般包括以计算机语言为主体的实现可通过计算机语言直接调用预先开发好的分析算法库及程序包,在调用时需按照一定的标准提供具体的调用参数以软件工具为主体的实现使用者只需在图形界面的软件环境中,利用菜单点选、鼠标拖曳、对话框参数配置等操作,即可轻松得到数据分析结果通常不需要进行编程,操作简单使用方便,可以快速入门上手数据分析方法、目标及软件工具数据分析软件工具:sklearn简介scikitlearn简称sklearn,是Python语言用于机器学习的主要程序包sklearn的安装sklearn的数据集导入数据预处理数据标准化处理:在保持数据分布特征的前提下消除不同数据量级的影响,使变换后的数据具有可比性极差法;计算z分数示例:有4名职工的员工号、年龄和月销售额的数据,现对该数据进行标准化处理数据预处理缺失值处理,需对数据中存在的少量缺失值进行预处理删除缺失值所在行,即删除不完整数据缺失值进行插补处理:在不影响数据主要分布特征的前提下,将缺失值替换为变量的均值或其他指定值数据预处理缺失值处理,需对数据中存在的少量缺失值进行预处理删除缺失值所在行,即删除不完整数据缺失值进行插补处理:在不影响数据主要分布特征的前提下,将缺失值替换为变量的均值或其他指定值数据预处理特征选择与特征提取特征选择:对变量进行合理选取,保留那些对数据分析有用的变量去除那些对数据分析无用的变量特征提取:将多个相关特征综合成较少的新变量,降低变量的维度基于业务知识的特征选择基于数据过滤的特征选择基于模型的特征选择和特征提取数据预处理特征选择与特征提取示例:鸢尾花数据的特征提取经典聚类算法聚类分析:一种对数据进行自然分类的数据分析算法按照数据间的距离远近或相似程度等指标,将数据集自动划分为若干个小类(也称群组、群簇)同一个小类内的个体间具有较高相似性,不同小类的个体间具有较大差异性聚类分析的特点不以人为预定的规则分类,而依据数据的自然属性和内在结构进行分类小类的数量可以是任意的,可以是最大值N和最小值1间的任意个类聚类解的评价:内部度量法和外部度量法聚类分析的距离定义经典聚类算法层次聚类将每一个样本观测点视为一类,样本数据被划分成最多的N个小类计算所有小类两两之间的距离,并将距离最近的两个类归并为一个类如此往复,最终可将样本数据并为一个类经典聚类算法层次聚类:示例经典聚类算法K-均值聚类:一种基于划分策略的聚类分析算法先将聚类变量空间随意分割成K个区域,对应K个小类,并确定K个小类的中心位置,即质心点计算各个样本观测点与K个质心点间的距离,将所有样本观测点指派到与之距离最近的小类中,形成初始聚类结果重新计算质心点,反复迭代,直到聚类稳定经典聚类算法K-均值聚类:示例经典聚类算法DBSCAN聚类:基于密度的聚类将任意样本观测点O的邻域内的邻居个数作为O所在区域的密度测度邻域半径;邻域半径范围内包含样本观测点的最少个数(minPts)基于这两个参数,DBSCAN聚类将样本观测点分成4类核心点P核心点P的直接密度可达点Q核心点P的密度可达点Q噪声点经典聚类算法DBSCAN聚类:示例数据预测:经典统计方法数据预测中的一般问题回归预测模型的常用评价指标:均方误差分类预测模型的常用评价指标ROC曲线总正确率总错判率敏感性特异性查准率F1分数数据预测:经典统计方法

数据预测:经典统计方法一般线性回归分析:示例数据预测:经典统计方法二项逻辑回归分析基本思路数据预测:经典统计方法二项逻辑回归分析:示例数据预测:经典机器学习方法K-近邻分析对于一个待预测的样本观测点X0,为预测其输出变量的值,可先依据距离找到距其最近的K个样本观测点,由K个邻近点的输出变量值共同决定X0的预测值对于回归预测,可将K个邻近输出变量的均值作为X0的预测值对于分类预测,按照少数服从多数的原则,将K个邻近输出变量的众数类作为X0的预测类别可通俗地理解为“近朱者赤,近墨者黑”样本观测点间距离的计算及近邻数K的确定可借助旁置法或K折交叉验证法寻找使模型未来预测误差最小的K值数据预测:经典机器学习方法K-近邻分析:示例数据预测:经典机器学习方法决策树算法:找到输入变量和输出变量取值间的内在关系或逻辑规则,并将其体现在一棵倒置的决策树中对于一个待预测的样本数据X0,为预测其输出变量的值,可先根据其输入变量的取值,沿着树的分支找到相应的叶节点对于回归预测,可将叶节点中所有输出变量的均值作为X0输出变量的预测值对于分类预测,可将叶节点中所有输出变量的众数类作为X0输出变量的预测类别数据预测:经典机器学习方法决策树算法:示例数据预测:经典机器学习方法支持向量机:以最优化数学求解为基本手段,寻找分类边界区域中的若干样本观测点,构成支持向量,并以支持向量为基础得到使两类边界间隔最大的分类模型数据预测:经典机器学习方法支持向量机:示例数据预测:经典机器学习方法4种算法的分类边界对比第11章数据安全与伦理数据安全概述数据安全体系传统数据安全技术大数据时代的数据安全技术数据伦理和算法伦理数据安全概述什么是数据安全数据安全是指数据资源系统及相关技术支撑系统和管理运营系统得到保护、避免损害、正常运行的各种技术与方法数据安全要实现数据体系的保密性、完整性、可用性保密性、完整性、可用性(Confidentiality、Integrity、Availability,CIA)是数据安全的三个基本要素按照数据安全的主体,数据安全分为国家数据安全案例:孟加拉国中央银行SWIFT系统黑客攻击事件企业或机构数据安全案例:国内酒店入住数据泄露个人数据安全案例:希拉里“邮件门”事件数据安全体系从宏观角度来看,数据安全体系一般构成:数据安全管理系统、数据安全法律法规系统和数据安全技术系统是数据安全的基本保障系统,它们以数据资源系统为对象,支持数据安全应用系统开展安全的数据处理数据安全管理系统:主要指为实现数据安全目标而建立的一套管理制度、流程和办法数据安全法律法规系统:数据安全体系建设必须做到有法可依数据安全技术系统采集安全技术;存储安全技术;访问服务安全技术;共享安全技术;分析安全技术传统数据安全技术数据加密(DataEncryption):是按照一定的加密算法,把敏感的明文数据转换成难以识别的密文数据数据加密技术的类型按加密工具划分:硬件加密和软件加密按加密方法划分:哈希加密(包括MD5和SHA等)、同态加密、差分隐私、混淆电路等按网络传输方式划分:链路层加密、节点加密、端对端加密按密钥类型划分:对称加密、非对称加密对称加密的发送方和接收方使用相同密钥进行加密和解密,即加密密钥和解密密钥是完全对称的非对称加密的发送方和接收方使用不同密钥进行加密和解密,即加密密钥和解密密钥是不对称的。加密密钥称为公钥,解密密钥称为私钥传统数据安全技术数据脱敏技术:是指按照一定方法对敏感数据进行变换处理的技术静态数据脱敏:是将实际运行环境中的敏感数据一次性导出到非实际运行环境中进行脱敏处理动态数据脱敏:是在访问实际运行环境的过程中对敏感数据进行即时脱敏处理脱敏算法,常用的脱敏算法加密:指根据加密算法重新对数据进行计算,新生成的数据类型和长度均可发生变换掩码:指保持数据长度不变遮盖部分字符替换:是指按一定规则替换敏感数据的内容偏移取整:是指对数值或日期型数据进行固定运算并对结果取整大数据时代的数据安全技术区块链(BlockChain):采用点对点(PeertoPeer,P2P)网络、分布式数据存储、共识算法机制、数据加密等技术,对数据区块进行有序连接与存储的一种新型应用模式区块链本质上是一个去中心化的数据存储系统区块链是一种数据结构,主要由区块和链构成大数据时代的数据安全技术联邦学习(FederatedLearning),又称联邦机器学习、联合学习或联盟学习,是一个新型的分布式机器学习应用方案联邦学习的一般处理流程系统初始化本地局部计算中心聚合计算模型更新大数据时代的数据安全技术联邦学习的类型横向联邦学习:特征对齐的联邦学习纵向联邦学习:特征对齐的联邦学习数据伦理和算法伦理数据伦理与案例数据伦理的形成数据伦理涉及的主要方面知情、控制、公平、信任、归属、隐私案例:谷歌数字图书馆项目算法伦理算法的特点具有一定的透明性、具有一定的选择性、具有广泛的连接性算法与人的主体性伦理案例:信息茧房算法与正义性伦理案例:大数据杀熟第12章数据的应用与案例数据科学的商业应用:RFM分析与客户终身价值数据科学的海关应用:抽样方案升级数据科学的企业应用:数字化转数据科学的商业应用:RFM分析与客户终身价值客户购买行为的RFM分析RFM模型是目前被广泛使用的经典且易用的客户分类数据模型R(Recency)表示观测期内某客户最近一次消费距离现在的时间,又称近度,反映此客户对商家的活跃度,该值越小越好F(Frequency)表示观测期内某客户的总消费次数,又称频度,反映此客户对商家的忠诚度,该值越大越好M(Monetary)表示观测期内某客户的总消费金额,又称值度,反映此客户对于商家的消费能力,该值越大越好数据科学的商业应用:RFM分析与客户终身价值客户终身价值(CustomerLifetimeValue,CLV):客户在某个商家的整个生命周期中为其带来的价值(或净现值)客户终身价值的计算策略确定性计算方法;随机性预测模型随着大数据技术的发展,越来越多的商业研究人员开始将机器学习算法纳入客户终身价值计算模型客户终身价值的计算和应用案例数据概况基于概率模型:Pareto/NBD模型和Pareto/GGG模型的预测基于机器学习算法:GBDT和RF的预测基于客户终身价值识别优质客户和劣质客户数据科学的商业应用:RFM分析与客户终身价值应用启示:理解业务才能做好分析在千姿百态的数据科学应用场景中一般包含:业务和技术两大基本要素数据资源是连接业务与技术的重要纽带,数据应用本质上包括两个任务:业务数据化,是数据资源从业务流向技术的过程数据业务化,是数据资源从技术流向业务的过程业务能够确定数据应用问题业务能够确定数据应用方向业务能够确定数据应用效率业务能够确定数据应用效果数据科学的海关应用:抽样方案升级海关稽查案例以报关单的抽样稽查优化为突破口,通过论证研究以期发现查验率和查获率之间的数量关系,旨在有效评估海关高风险报关单的总体水平,并在较低查验率水平获得更高的查获率海关稽查抽样的数据模拟低查验率下通过简单随机抽样得到的查获率具有高方差性广义分层抽样可有效改进低查验率下查获率的高方差性问题数据科学的海关应用:抽样方案升级应用启示:数据治理体系企业级数据资产管理整体解决方案数据管理能力数据资源目录管理数据架构管理数据标准管理数据质量管理数据安全管理数据应用管理数据科学的企业应用:数字化转型数字化转型概述充分利用各种数字化技术,以数据资源为驱动要素,通过数字化应用对企业进行系统性的变革,旨在提升企业能力,重构企业价值的发展途径与过程数字化转型案例数字化1.0:信息系统一致化数字化2.0:数据驱动的C2M数字化3.0:工业互联网数字化转型中的软实力数据科学的企业应用:数字化转型应用启示:数字化转型的评估模型IOMM(EnterpriseDigitalInfrastructureOperationMaturityModule)是企业数字化转型的参考模型、评价标准和评估方法论两大部分:I:企业数字化基础设施建设水平;O:企业数字化基础设施的运营水平四大象限:从技术与平台、流程与规范、组织与人员、服务与运营四个象限出发五类成熟度:电子化、线上化、协同化、智能化、生态化六大能力六大价值前言

我们已经进入一个蓬勃发展的数字化时代,面临着一个瞬息万变的数字化世界。越来越多的青年学子进入数据科学、大数据技术和人工智能等专业;越来越多的有志之士进入数据处理、数据分析和数据运营等岗位。因此,系统地学习和掌握一些与数据科学相关的知识非常重要,这是一把开启通往未来之门的钥匙。由于数据科学理论体系丰富、技术工具纷杂、应用领域众多,因此提供一本数据科学基础教材和通识读物是非常有必要的。

以大数据和人工智能为代表的一系列新技术与新应用彻底改变了数据处理方式,并使得数据处理具有普遍性、通用性、创新性、价值性。数据科学被从诸多纵向领域中抽象出来,成为一种横向层面的具有一定指导意义的知识体系。本教程以数据及其相关概念为出发点,力求从科学的高度,结合数据科学的有关理论基础(数学与统计学、计算机科学及应用领域知识)和重点技术工具(Python、SQL及实用软件),围绕数据处理全流程(采集、存储与管理、可视化、分析、安全与伦理及应用),进行详略得当且深入浅出的讲解,以使读者可以循序渐进地掌握有关数据科学的理论方法和技术工具,从而能够从整体层面感知数据科学的广度,体验数据科学的深度,感受数据科学的高度;同时在实践层面可以边学边做,为后续专业学习和职业发展打开知识视野并奠定一定实操基础。

1.本教程特点

(1)对知识进行清晰讲解。

数据科学知识体系宏大、内容繁多,具有很强的多学科交叉特征,因此作为入门教材及读物,本教程在保证体系架构相对完整的前提下,力求对相关知识内容进行合理的取舍,并根据知识脉络进行编排。对于涉及的知识点,本教程力争在讲明基本概念与基本原理的同时指出来龙去脉,说明对数据科学的作用,以及在数据应用中的使用方法,等等,且配以充实的案例和示例,避免罗列空洞的概念和堆砌枯燥的理论。同时对于文字论述,本教程力求准确严谨、通俗自然。

(2)对操作进行有效实现。

数据科学是一门实操性很强的科学,不能只重视数据科学的思想性和理论性,忽视数据科学的方法性和实践性。学习者只有边学边做才能对知识点有更加深刻的认知,并在课后练习和工作实践中举一反三,不断提高。作者根据市场调研和教学反馈等信息,将Python计算机语言、SQL数据查询语言和Tableau可视化工具作为目前数据科学常用的基本软件,并将网络爬虫、数据管理Navicat和大数据平台databricks等作为典型工具,本教程用专门章节对其进行介绍,可使学习者快速把握这些技术工具的全貌与精髓,从而尽可能地将数据科学的理论方法应用到实践中。

2.本教程适用对象

本教程可作为高校数据科学或数据应用相关专业的入门教材,以每周2~3课时、总计约17周设计教学进程。全书共12章,可分为三大部分;1、2章是数据科学概述部分,是必须讲解的基础内容;3~6章是数据科学理论基础和重点工具部分,可根据先修课情况(如高等数学、线性代数、统计学、计算机基础、计算机语言或数据库系统概论等)选讲或将某些章节作为课后自学与练习;7~12章是数据科学全流程的技术与方法部分,可根据专业需求有所侧重地进行讲解。这种相对灵活的课程安排不仅与大部分数据科学与大数据技术专业课程设置相吻合,还可以满足主流计算机应用、人工智能、统计学及涉及数据应用等相关专业的课程要求。

目录

第1章数据与信息概述 1

1.1数据的概念、特征和作用 1

1.1.1数据的概念 1

1.1.2数据的特征 2

1.1.3数据的作用 3

1.2数据的尺度与类型 3

1.2.1定性数据和定量数据 4

1.2.2离散数据和连续数据 5

1.2.3结构化数据和非结构化数据 5

1.3数据的表格化 8

1.3.1个体数据的表格化 8

1.3.2批量汇总数据的表格化 9

1.3.3统计指标 11

1.4数据的数字化 12

1.4.1二进制与数字化 12

1.4.2文本的数字化 13

1.4.3数字的数字化 15

1.4.4多媒体的数字化 17

1.4.5数字化转型与数字化经济 18

1.5信息与信息熵 19

1.5.1信息熵:不确定性的度量 19

1.5.2信息增益:不确定性减少的度量 20

第2章数据科学概述 22

2.1数据科学的科学观 22

2.1.1从科学高度看数据科学 22

2.1.2通过案例初识数据科学 23

2.2数据科学概念 25

2.2.1数据科学产生的重大技术背景 25

2.2.2数据科学产生的典型应用背景 25

2.2.3数据科学的定义 27

2.3历史观察:探讨数据科学的发展历程 27

2.3.1古代:从结绳记事到阿拉伯数字 27

2.3.2古典:政治算术和国势学 29

2.3.3近代:随机现象、概率论与数理统计 29

2.3.4现代:抽样与推断统计 31

2.3.5计算机时代:技术革命带来的繁荣 32

2.3.6大数据时代:奠定数据科学基础 33

2.4数据世界:探讨数据科学的对象 37

2.4.1数据世界和数据科学 37

2.4.2数据世界和数字孪生 38

2.5DIKW模型:探讨数据科学中的若干基本概念 39

2.5.1DIKW模型 39

2.5.2从DIKW模型看数据科学 41

2.6维恩图:探讨数据科学的学科交叉性 42

2.6.1文献中的数据科学维恩图 42

2.6.2数据科学学科交叉性的总结 43

2.7从数据到模型:探讨数据科学的一般方法 45

2.7.1反问题的方法 45

2.7.2数据驱动的方法 46

2.7.3模型化的方法 47

2.8数据处理流程:探讨数据科学方法论 53

2.8.1传统理念下的数据处理方法论 53

2.8.2计算机时代的数据处理方法论 54

2.8.3大数据时代的数据处理方法论 56

2.9三维视角:总览数据科学 58

2.9.1从三维视角看数据科学 58

2.9.2理论方法维度 58

2.9.3处理流程维度 60

2.9.4应用领域维度 60

第3章数据科学中的计算机基础 61

3.1计算机系统概述 61

3.1.1计算机的发展 62

3.1.2计算机的种类 62

3.2计算机硬件 63

3.2.1计算机硬件的组成 63

3.2.2计算机硬件的工作原理 64

3.3计算机软件 65

3.3.1操作系统 65

3.3.2计算机语言 66

3.3.3应用软件 68

3.4计算机网络 68

3.4.1局域网、广域网和因特网 69

3.4.2计算机网络的通信协议 71

3.5计算机应用的技术模式 72

3.5.1主机/终端模式 72

3.5.2客户机/服务器模式 73

3.5.3浏览器/服务器模式 74

3.5.4云计算模式 75

3.5.5对等模式 78

3.6计算机应用 79

3.6.1科学计算 79

3.6.2数据处理与大数据 80

3.6.3人工智能 81

3.6.4过程控制 85

第4章数据科学中的数学与统计学基础 86

4.1微积分与数据科学应用 87

4.1.1微积分的产生背景 87

4.1.2微积分的基本思想方法 88

4.1.3梯度下降法及数据科学应用示例 90

4.2线性代数与数据科学应用 93

4.2.1向量与向量空间及应用示例 93

4.2.2矩阵与线性变换及应用示例 95

4.2.3特征值与奇异值及数据科学应用示例 99

4.3统计学与数据科学应用 103

4.3.1描述统计要点 104

4.3.2概率与概率分布要点 107

4.3.3推断统计和多元统计分析要点 108

4.3.4贝叶斯思维在数据科学中的应用 109

4.4集合论与数据科学的应用 113

4.4.1集合论与罗素悖论 113

4.4.2粗糙集与数据科学应用示例 115

4.5图论与数据科学的应用 120

4.5.1欧拉和哥尼斯堡七桥问题 120

4.5.2图论的发展沿革 121

4.5.3图论与数据科学应用示例 122

第5章数据科学中的SQL基础 125

5.1SQL概述 125

5.1.1SQL的优点 125

5.1.2MySQL和SQL入门 127

5.2SQL的数据定义和应用 130

5.2.1SQL数据定义语句 131

5.2.2SQL数据定义应用 133

5.3SQL的数据操纵和应用 137

5.3.1SQL数据操纵语句 137

5.3.2SQL数据操纵应用 137

5.4SQL的数据查询 139

5.4.1SELECT语句的简单应用 139

5.4.2SELECT语句的进阶应用 145

5.4.3SELECT语句的其他应用 150

5.5MySQL的系统管理 151

5.5.1MySQL的用户管理 151

5.5.2MySQL的权限管理 152

5.5.3MySQL的事务管理 153

5.5.4MySQL的文件存储和日志管理 155

5.5.5MySQL的客户端数据库管理工具Navicat 158

第6章数据科学中的Python基础 160

6.1Python概述 160

6.1.1Python的特点 160

6.1.2Python的安装和启动 161

6.1.3第一个Python程序与帮助 162

6.2Python基础 164

6.2.1Python的基本数据类型和组织 164

6.2.2Python的程序结构和流程控制 169

6.2.3异常处理结构 173

6.3Python语言进阶 176

6.3.1面向对象程序设计 176

6.3.2模块与包 177

6.3.3Python综合:chaos混沌态 178

6.4NumPy入门 181

6.4.1NumPy数组的创建 182

6.4.2NumPy数组的访问 185

6.4.3NumPy数组的计算 186

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论