![想去谷歌、微软、Uber等大牛公司做数据分析,最新面试真题_第1页](http://file4.renrendoc.com/view/bd86bfaf6db1399af65190cd6e4dac78/bd86bfaf6db1399af65190cd6e4dac781.gif)
![想去谷歌、微软、Uber等大牛公司做数据分析,最新面试真题_第2页](http://file4.renrendoc.com/view/bd86bfaf6db1399af65190cd6e4dac78/bd86bfaf6db1399af65190cd6e4dac782.gif)
![想去谷歌、微软、Uber等大牛公司做数据分析,最新面试真题_第3页](http://file4.renrendoc.com/view/bd86bfaf6db1399af65190cd6e4dac78/bd86bfaf6db1399af65190cd6e4dac783.gif)
![想去谷歌、微软、Uber等大牛公司做数据分析,最新面试真题_第4页](http://file4.renrendoc.com/view/bd86bfaf6db1399af65190cd6e4dac78/bd86bfaf6db1399af65190cd6e4dac784.gif)
![想去谷歌、微软、Uber等大牛公司做数据分析,最新面试真题_第5页](http://file4.renrendoc.com/view/bd86bfaf6db1399af65190cd6e4dac78/bd86bfaf6db1399af65190cd6e4dac785.gif)
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、【招聘海外留学生】想去谷歌、微软、Uber等大牛公司做数据分析,最新面试真题(已分类)来自Glassdoor的最新数据可以告诉我们各大科技公司最近在招聘面试时最喜欢向候 选人提什么问题。首先有一个令人惋惜的结论:根据统计,几乎所有的公司都有着自己的不 同风格。由于Glassdoor允许匿名提交内容,很多乐于分享的应聘者向大家提供了 Facebook、 谷歌、微软等大公司的面试题。我们把其中的一部分列出以供大家参考。通用问题Apple如果你有几百万用户,每个用户都会发生数百笔交易,这些交易存在于数十种产品中。 你该如何把这些用户细分成有意义的几类?Microsoft描述一个你曾经参与的项目,以及
2、它的优点。如何处理具有高基数(high-cardinality)的类属特征?如果想要给Twitterfeed写summarize,你要怎么办?在应用机器学习算法之前纠正和清理数据的步骤是什么?如何测量数据点之间的距离?请定义一下方差。请描述箱形图(boxplot)和直方图(histogram)之间的差异,以及它们的用例。Twitter你会使用什么功能来为用户构建推荐算法?Uber选择任何一个你真正喜欢的产品或应用程序,并描述如何改善它。如何在分布中发现异常?如何检查分布中的某个趋势是否是由于异常产生的?如何估算Uber对交通和驾驶环境造成的影响?你会考虑用什么指标来跟踪Uber付费广告策略在吸
3、引新用户上是否有效?然后,你 想用什么办法估算出理想的客户购置成本?LinkedIn(对大数据工程师)请解释REST是什么。机器学习问题Google为什么要使用特征选择(featureselection)?如果两个预测变量高度相关,它们对逻辑回归系数的影响是什么?系数的置信区间是 什么?高斯混合模型(GaussianMixtureModel)和K-Means之间有什么区别?在K-Means中如何拾取k?你如何知道高斯混合模型是不是适用的?假设聚类模型的标签是已知的,你如何评估模型的性能?Microsoft你有哪些引以为豪的机器学习项目?随便找一个机器学习算法,然后描述它。请解释Gradient
4、Boosting是如何工作的。(对数据挖掘工程师)请解释决策树模型。(对数据挖掘工程师)什么是神经网络?请解释偏差方差权衡(Bias-VarianceTradeoff)。如何处理不平衡二进制分类?L1和L2正则化之间有什么区别?Uber你会通过哪种特征来预测Uber司机是否会接受订单请求?你会使用哪种监督学习算 法来解决这个问题,如何比较算法的结果?LinkedIn点出及描述三种不同的内核函数,在哪些情况下使用哪种?随意解释机器学习里的一种方法。如何应付稀疏数据?IBM如何防止过拟合(overfitting)?如何处理数据中的离群值?如何评估逻辑回归与简单线性回归模型预测的性能?监督学习和无监
5、督学习有什么区别?什么是交叉验证(cross-validation),为什么要使用它?用于评估预测模型的矩阵的名称是什么?逻辑回归系数和胜算比(OddsRatio)之间存在什么关系?主成分分析(PCA)和线性和二次判别分析(LDA和QDA)之间的关系是什么?如果你有一个因变量分类,又有一个连续自变量的混合分类,你将使用什么算法,方 法或工具进行分析?(对行业分析师)逻辑与线性回归有什么区别?如何避免局部极小值?Salesforce你会使用哪些数据和模型来测量损耗/流失?如何测试模型性能?假设我是一名非技术人员,请向我解释一种机器学习算法。CapitalOne如何构建一个模型来预测信用卡诈骗?如
6、何处理丢失或不良数据?如何从已存在的特征中导出新的特征?如果你试图预测客户的性别,但只有100个数据点,可能会出现什么问题?在拥有两年交易历史的情况下,哪些特征可以用来预测信用风险?请设计一个用来下井字棋的人工智能程序。Zillow请解释过拟合,以及如何防止过拟合。为什么SVM需要在支持向量之间最大化边缘?HadoopTwitter如何使用Map/Reduce将非常大的图形分割成更小的块,并根据数据的快速/动态变化 并行计算它们的边缘?(对数据工程师)给定一个列表:123,345234,678345,123其中第一列是粉丝的ID, 第二列是被粉者的ID。查找所有相互后续对(上面的示例中的对是1
7、23, 345)。当列表超 出内存时,如何使用Map/Reduce来解决问题?CaptialOne(对数据工程师)什么是Hadoop序列化(serialization)?解释一个简单的Map/Reduce问题。HiveLinkedIn(对数据工程师)请编写返回情感分数的HiveUDF。例如,假如好二1,坏=-1,平均 数=0,那么对餐厅做评价时因为食物好,服务差,你的分数可能为1-1二0SparkCaptialOne(对数据工程师)用Scala语言,RDD在Spark中是如何工作的?统计和概率问题Google假设我是一名非技术人员,请向我解释一下交叉验证(Cross-validation)。请
8、描述一下非正态概率分布,随后告诉我们它该如何应用?Microsoft(对数据挖掘)请解释异方差(heteroskedasticity)是什么,以及如何解决它。Twitter在给定Twitter用户数据的情况下,你该如何衡量参与度?Uber时间序列预测技术有什么不同?解释原理组件分析(PrincipleComponentAnalysis, PCA)和PCA使用的方程。如何解决多重共线性(Multicollinearity)?(对分析师)请写一个方程,优化我们在Twitter和Facebook上的广告费用支出。Facebook在一副牌中抽取两张,出现同一花色的概率是多少?IBM1.什么是p-val
9、ue和置信区间?CapitalOne(对数据分析师)如果你有70个红色弹珠,绿色和红色弹珠的比例是2比7,有多 少绿色弹珠?纽约市的通勤数据看起来应该遵从什么分布?一个骰子,在扔6次的情况下出现1个6的几率,与扔12次的情况下出现至少两个 6的几率,和扔600次出现至少100次6的几率相比哪个大?Paypal1.什么是中心极限定理(CentralLimitTheorem),如何证明它?它的应用方向是什么?编程和算法Google1.(对数据分析师)请写一个程序可以判定二叉树的高度。Microsoft1.请创建一个函数检查一个词是否具有回文结构。Twitter请构建一个幂集(powerset)。请
10、问如何在一个巨大的数据集中找到中值?Uber1.(对数据工程师)编写一个函数用来计算给定数字的平方根(2个小数点精度)。随 后:避免冗余计算,现在使用缓存机制优化你的功能。Facebook假设给定两个二进制字符串,写一个函数将它们添加在一起,而不使用任何内置的字 符串到int转换或解析工具。例如:如果给函数二进制字符串100和111,它应该返回1011。 你的解决方案的空间和时间复杂性如何?编写一个函数,它接受两个已排序的列表,并在排序列表中返回它们的并集。LinkedIn(对数据工程师)请编写一些代码来确定字符串中的左右括号是否是平衡的?如何找到二叉搜索树中第二大的元素?请编写一个函数,它接
11、受两个排序的向量,并返回一个排序的向量。如果你有一个输入的数字流,如何在运行过程中找到最频繁出现的数字?编写一个函数,将一个数字增加到另一个数字,就像pow()函数一样。将大字符串拆分成有效字段并将它们存储在dictionary中。如果字符串不能拆分, 返回false。你的解决方案的复杂性如何?CaptialOne(对数据工程师)如何拆散两个数列(就像SQL中的JOIN反过来)?请创建一个用于添加的函数,数字表示为两个链表。请创建一个计算矩阵的函数。如何使用Python读取一个非常大的制表符分隔的数字文件,来计算每个数字出现的 频率?Paypal请编写一个函数,让它能在O(n)的时间内取一个句
12、子并逆向打印出来。请编写一个函数,从一个数组中拾取,将它们分成两个可能的数组,然后打印两个数 组之间的最大差值(在O(n)时间内)。请编写一个执行合并排序的程序。SQL问题Microsoft(对数据分析师)定义和解释聚簇索引和非聚簇索引之间的差异。(对数据分析师)返回表的行计数有哪些不同的方法?Facebook(对数据工程师)如果给定一个原始数据表,如何使用SQL执行ETL (提取,转换, 加载)以获取所需格式的数据?如何编写SQL查询来计算涉及两个连接的某个属性的频率表?如果你想要ORDERBY 或GROUPBY 一些属性,你需要做什么变化?你该怎么解释NULL?LinkedIn1.(对数据工程师)如何改进ETL (提取,转换,加载)的吞吐量?智力游戏Google1.假设你有10包弹球,每包里面都是10个弹球。如果其中一包的重量和其他的不同, 但你只能进行一次称重,你该用什么办法?Facebook你打算坐飞机去西雅图,想知道是不是需要带伞,于是你分别打电话给三位在西雅图 的朋友。每个朋友都有2/3的几率说真话,1/3的几率在骗你。如果他们都说会下雨, 西雅图下雨的概率是多少?假如在一个等边三角形的三个角上都有一只蚂蚁,每只随机选择方向然后直走一直到 另一个边缘,三只蚂蚁互相不交汇的几率是多少?如果有n只蚂蚁在n角形中,概率又是多 少
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024-2029年中国金属废料行业市场发展前瞻及投资战略研究报告
- 2024-2029年中国野餐用品行业市场发展分析及前景与投资战略研究报告
- 2024-2029年中国重型叉车行业市场发展分析及需求分析与投资研究报告
- 2024-2029年中国酥皮类糕点行业市场全景调研及投资价值评估咨询报告
- 2024-2029年中国酒店一次性洗漱用品行业市场现状分析及竞争格局与投资发展研究报告
- 2024-2029年中国通气鼻贴行业市场现状分析及竞争格局与投资发展研究报告
- 2024-2029年中国通信工程行业市场发展现状及发展趋势与投资前景研究报告
- 2024-2029年中国进口食品行业市场发展前瞻及投资战略研究报告
- 2024-2029年中国运动装行业供需分析及发展前景研究报告
- 2024-2029年中国辣片行业市场发展分析及竞争策略与投资前景研究报告
- 中国肠道健康年龄调查问卷
- MOOC 电子线路设计、测试与实验(一)-华中科技大学 中国大学慕课答案
- 河北省2024年中考模拟考历史试卷(含答案)
- 2024春期国开电大本科《行政领导学》在线形考(形考任务一至四)试题及答案
- 《互联网征信》考试复习题库(含答案)
- 部编版四年级语文下册第一单元整体作业设计
- 系统解剖学呼吸系统
- 宠物店加盟合作协议
- 云南省部分地州县2022-2023学年七年级下学期期末考试数学试卷(含答案)
- 粮食产业经济高质量发展刍议
- 数学与信息学:数学在信息科学中的应用
评论
0/150
提交评论