版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、统计学基本概念在数据科学的世界里,如果数据科学家是魔法师,那统 计学就是他 们的魔杖。总的来说,统计,就 是利用数学对数据进行技术性分析。当然,像 条形图这样的简单可视化图像也能给你提供一些高等级的信息,但利用 统计学,我们将能以一种更有针对性,更”信息驱动 的方式来处理数据。 这其中涉及的数学知识能帮助我们形成关于数据的具体结论,而不仅仅 是猜测。使用统计数据,我们可以获得更深入、更 细微的洞察能力,可 以了 解我们的数据是如何构建的。在了解结构的基础上,我们将能发现应用 其他数据科学技术的最佳方式,并以此获取更多信息。今天,我们将一起了解数据科学家必学必会的5个基本统计概念, 以及如何最有
2、效地应用它们!1,统计特征统计特征可能是数据科学中最常用的统计概念之一。它通常是你在 探索数据集时使用的第一种统计技术。常见的统计特征包括偏差、方差、 均值、中位 数、百分位数等等。它们 其实非常容易理解,也很 容易在代 码中实现!让我们看看下面这个图吧:一个简单的箱形图中间的这 条横线是数据的中位数。相对 于平均数,中位 数在 数据中 有异常值的时候能更加忠实地反应数据的特征。下四分位数基本上是数 据的25%点,也就是数据中25% 的点低于该值。上四 分位数是数据 的75%点,也就 是数据中75% 的点低于该值。最小值和最大值表示 数据范围的上端和下端。箱形图能很好地表现出基本统计特征的用途
3、:?如果箱形图很短,就意味着你的大部分数据点都很相似,因为很多数据 都集中在很小的范围内?如果箱形图很长,就意味着你的大部分数据点都差异很大,因为这些值 分布在很宽的范围内?如果中位数接近底部,那么我们就能知道大多数数据具有较低的值。如 果中位数接近顶部,那么我们就能知道大多数数据具有更高的值。基本 上,如果中位数不在框的中间,则表明数据存在偏斜。?图中方框上下的 胡须”会不会很长?这意味着数据具有较高的标准差 和方差,也就 是说数值分散且变化很大。如果 方框的一侧有 胡须”,而 另一侧没有,那么数据可能只在一个方向上变化很大。上面这些信息,都来自这几个易于计算的简单统计特征!如果你需 要对数
4、据进行快速又翔实的分析,请务必先试着分析一下统计特征。2 .概率分布我们可以将概率定义为某个事件发生的几率。在数据科学中,这个 几率通常被量化成在0到1之间的数字。其中0表示我们确定它不会发生,1表示我们确定它肯定发生。那么,概率 分布就是表示实验中所有可能值的概率的函数让我们看看下面这二张图:常见概率分布:均匀分布(上)、正态分布(中)、泊松分布(下)均匀分布是上面3张图中最简单的。它有一个值,而且只出现在 一定范围内,超出该范围的都是0。这是一种 开关”分布一一每个点要 么有数据,要么是0。我们还可以将其视为只有0和某个数值的分类变 量。同样,如果某个分类变量具有除0以外的多个值,我们也可
5、以将 其视为多个均匀分布组成的分段函数。正态分布,通常也称为高斯分布,是由其平均值和标准差定义的。 平均值改变分布的空间高度,而标准差控制分布的扩散程度。与其他分 布(例如泊松分布)的重要区别在于,正态分布的标准差在所有方向上 是相同的。因此,利用高斯分布,我们能了解到数据的平均水平,以及 数据的散布范围一一比如它是分散在较大范围里,还是高度集中在几个 值附近。泊松分布类似于正态分布,但具有附加的偏斜量。当偏斜量很低的 时候,泊松分布将在所有方向上都具有相对均匀的扩展,就像正态分布 一样。但是当偏斜量较大时,数据在不同方向上的分散程度会有所不同 一一在一个方向上它将非常分散,而在另一个方向上它
6、将高度集中。除此之外,还有更多不同的概率分布值得你深入研究,但目 前这3 个分布模式已经很有用啦。比如,我们可以使用平均分布模型来快速查 看并解释分类变量。如果看到数据呈高斯分布,那么我们就应该选择那 些特别适用于高斯分布的算法来处理它们。而对泊松分布,我们就必须特别小心地选 择算法,以便在空间分布不 均匀的时候也 能可靠地处理数 据。3 .降维技术降维这个词应该不难理解,大家应该都听过降维打击”吧?没错, 就是拍扁(误。举例来说,对一个很复杂的数据集,我们希望减少它的维度。在数 据科学中,这主要是特征变量的数量。以下图为例:一个降维的示意图上面这个立方体代表了一个3维的数据集,里面大约有10
7、00个特征点。当然,以现在的计算能力,分析1000个点基本上是小菜一碟, 但对于更大尺度上的数据集,还是 可能碰到一些问题的。然而,如果我们从2维角度来分析其中的数据一一就像只从立方体的某个面看进去我们就能从这个角度很轻易地区分各种不同颜色的数据点。在降维技术的帮助下,我们就像是把3维的数据集投影到一个2维平面上, 再进行操作。这能相当有效地减少需要计算的特征点的数量一一现在只剩100个啦!另外一种降维的思路,是特征修剪。在进行特征修剪的时候,我们 希望能去除那些对分析结果无关的特征。举例来说,假如在探索数据的 时候,我们发现有10个特征,其中7个与输出有很高的相关性,另 外3个的相关性很低。
8、那么,这3个低相关的特征或许并不值得我们 分析,可能可以直接从分析中去掉,而不影响最后的输出。在降维操作中,最常见 的统计技术是 PCA ( Principal ComponentAnalysis ,主成分分析)。它实际上是通过创建各种特征的矢量,标明 它们对输出结果的重要性,即它们的相关性。PCA在上面讨论的两种 降维方式中都发挥着重要的作用。在这里你能看到更多关于PCA的 详细介绍。4 .过采样和欠采样过采样(Over Sampling )和欠采 样(Under Sampling )是用于分类 问题的统计技术。有时,我们的分类数据集可能会太过偏向其中的一侧。 例如,我们在第1类中有2000
9、个样本,但在第2类中只有200个。这 将严重影响我们尝试用于建模和预测的许多机器学习技术!因止匕,我们 可以使用过采样和欠采样技术来解决这个问题。请看下面的示意图:欠采样(左)和过采样(右)在上面的两张图中,蓝色的样本数 量都大大超过了橙色。在这种情 况下,我们可以通 过两种预处 理方法对 样本进 行处理,以构 建机器学习 所需的模型。欠采样意味着对于量多的一类,我们只抽取其中的一部分数据,组 成一个和量少的那类相当的数据集。如果你需要保持样本概率分布的一 致性,那你就该选择这种采样方式。是不是很简单?这样两类样本的数 量就平衡了!过采样就刚好相反,我们将总量较少的那类样本复制多次,以便该 类
10、样本的总数和多的那类一致。在复制的过程中,应当 保证不改变这类 样本的分布情况。这样,我们在没有引入额外数据的情况下,使两类样 本的数量平衡了!5 .贝叶斯统计学要想完全理解我们为什么使用贝叶斯统计学,首先就得了解频率统 计的问题在哪里。频 率统计是 大多数人在听到 概率”一词时所考虑的统 计数据类型。它涉及到应用数学来分析某些事件发生的概率,具体而言, 我们计算的唯一数据是先验数据。拿骰子做例子吧。假设我给了你一个骰子,并问你扔出6的几率有 多大,我想大多数人都会直接说出是六分之一。事实上,如果我们要按 频率统计的方法进行分析,就得真的统计10000次掷骰的结果,并计 算每个数字的频率一一最
11、后结果差不多在1/6上下!但如果有人告诉你,给你的这个特定的骰子其实灌了铅,保证每次 都会投出6,那又会如何呢?既然频率统计只考虑先验数据,那么这条 关于骰子的信息并不会被纳入统计结果中。而贝叶斯统计会将这些证据纳入统计计算中。看看贝叶斯定理公式 吧:在上面这个公式中,P(H)的概率就是频率统计分析的结果,按照 先验数据统计得出事件H发生的概率;而P(E|H)被称为、似然性、, 也就是这个证据正确与否的概率,也是根据频率分析提供的信息得来的c在上面灌铅骰子的例子中,假设你想要投10000次骰子,然后投 出的前1000个值都是6那么你应该不可能不觉得这个骰子有问 题吧。最后,P(E)则是这个证据本身出现的概率。如果我告诉你骰子是灌 铅的,你能在多大程度上相信我,还是你会觉
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 护理查房:护理服务全员参与
- 西北电力设计院汽水管道支吊架设计手册
- 2026三年级数学下册 年月日的记忆
- 德育包保责任制度
- 心理包保责任制度
- 意识形态责任制七项制度
- 房屋出售责任制度
- 执法主体责任制度汇编
- 扶贫包保责任制度
- 技术质量责任制度
- 内科学教学课件:肺气肿
- GB/T 38212-2019哌嗪
- GA/T 1476-2018法庭科学远程主机数据获取技术规范
- 工程施工安全保证体系流程图
- 远程医疗项目技术方案
- 基层干部如何提升管理能力 课件
- 路灯管护合同(3篇)
- 高压氧舱课件
- 2023年安徽商贸职业技术学院单招职业适应性测试笔试题库及答案解析
- (新版)中国移动认证L1、L2、L3等级考试总题库-多选题库(共10部分-3)
- 离心泵的结构、工作原理
评论
0/150
提交评论