数据分析师面试技巧_第1页
数据分析师面试技巧_第2页
数据分析师面试技巧_第3页
数据分析师面试技巧_第4页
数据分析师面试技巧_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1 / 5 数据分析师面试技巧 数据分析师面试技巧 数据分析师题目 计算平均有哪些指标,各有哪些优缺点 数值平均数有算术平均数、调和平均数、几何平均数等形式 位置平均数有众数、中位数、四分位数等形式 前三种是根据各单位标志值计算的,故称为数值平均值,后三种是根据标志值所处的位置 . 相关分析和回归分析有什么关系 回归分析与相关分析的联系:研究在专业上有一定联系的两个变量之间是否存在直线关系以及如何求得直线回归方程等问题,需进行直线相关和回归分析。从研究的目的来说,若仅仅为 了了解两变量之间呈直线关系的密切程度和方向,宜选用线性相关分析;若仅仅为了建立由自变量推算因变量的直线回归方程,宜选用直线回归分析。 回归分析和相关分析都是研究变量间关系的统计学课题,它们的差别主要是: 1、在回归分析中, y 被称为因变量,处在被解释的特殊地位,而在相关分析中, x 与 y 处于平等的地位,即研究x 与 y 的密切程度和研究 y与 2、相关分析中, x 与 在回归分析中, 可以是非随机的,通常在回归模型中,总是假定 2 / 5 3、相关分析的研究主要是两个变量之间的密切程度,而回归分析不仅可以揭示 x对 可以由回归方程进行数量上的预测和控制。 方差和均值 极大似然估计 求极大似然函数估计值的一般步骤: ( 1) 写出似然函数; ( 2) 对似然函数取对数,并整理; ( 3) 求导数 ; ( 4) 解似然方程 极大似然估计,只是一种概率论在统计学的应用,它是参数 估计的方法之一。说的是已知某个随机样本满足某种概率分布,但是其中具体的参数不清楚,参数估计就是通过若干次试验,观察其结果,利用结果推出参数的大概值。极大似然估计是建立在这样的思想上:已知某个参数能使这个样本出现的概率最大,我们当然不会再去选择其他小概率的样本,所以干脆就把这个参数作为估计的真实值。当然极大似然估计只是一种粗略的数学期望,要知道它的误差大小还要做区间估计。 例 知总体 (0, x=0,1,) (x1,是从总体 X 中抽取 的一个样本的观测3 / 5 值,试求参数 的极大似然估计 . 解参数 的似然函数为 两边取对数 : 上式对 求导 ,并令其为 0,即从而得,即样本均值是参数 的极大似然估计 . 例 总体 X 服从正态分布 N(, 2) ,试求 及 2 的极大似然估计 . 解 , 的似然函数为似然方程组为解之得 ,因此及分别是 及 2 的极大似然估计 神经网络方法:即通过大量神经元构成的网络来实现自适应非线性动 态系统,并使其具有分布存储、联想记忆、大规模并行处理、自学习、自组织、自适应等功能的方法;在空间数据挖掘中可用来进行分类和聚类知识以及特征的挖掘。 决策树方法:即根据不同的特征,以树型结构表示分类或决策集合,进而产生规则和发现规律的方法。采用决策树方法进行空间数据挖掘的基本步骤如下:首先利用训练空间实体集生成测试函数;其次根据不同取值建立决策树的分支,并在每个分支子集中重复建立下层结点和分支,形成决策树;然后对决策树进行剪枝处理,把决策树转化为据以对新实体进行分类的规则。 数据挖掘的应用 步骤 4 / 5 数据挖掘的步骤 数据挖掘是通过对数据的收集整理、分析、建模和效果跟踪完成对知识的发现和应用,是一个不断反复的过程,其基本步骤包括以下几步。 (1)确定分析和预测目标 在进行数据挖掘前,首先要明确业务目标,即通过数据挖掘解决什么样的问题,达到什么目的。 (2)了解数据 对待挖掘的数据要进行初步了解。如数据从哪儿来,所选的数据表哪些字段是必要的,如何描述这些数据等。对数据的初步了解可以帮助分析数据的可用性和实用性,减少返工造成的资源浪费。 (3)数据准备 数据准备是 指对已确定的基本数据进行必要的转换、清理、填补及合并。数据准备工作比较繁锁,但非常重要,如果数据里的噪声太多,就会影响建立模型的准确度,数据越完整、越准确,在此基础上发掘的数据规律就越具有较高的可信度,能更好地实现数据挖掘的目标,否则从垃圾数据里再怎么挖掘,出来的也只能是垃圾。 (4)数据相关性前期探索 有些数据挖掘在定性和数据分类使用方面,可以作为更高一级预测的探索工具。比如,先用决策树或聚类方法帮助找出数据的总体趋势,并预测数据相关性,再用神经网络或规则引导法有针对性地建模。这样做的好处是一来 可以细化数据,提高性能;二来可以在某种程度上帮助消除数据噪声。 5 / 5 (5)模型构造 模型构造的过程主要包括:选择适用的挖掘技术、建立培训数据和测试数据、利用培训数据采用相应的算法建立模型、模型解释和模型评估和检验。 (6)部署和应用 如果经过测试和检验,所建立的模型可信,并在预定的误差范围内,那么便可以按照这种模型计算出输出值,并按

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论