数据分析笔试题_第1页
数据分析笔试题_第2页
数据分析笔试题_第3页
数据分析笔试题_第4页
数据分析笔试题_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

从互联网巨头数据挖掘类招聘笔试题目看我们还差多少知识从互联网巨头数据挖掘类招聘笔试题目看我们还差多少知识 1 1 从阿里数据分析师笔试看职业要求从阿里数据分析师笔试看职业要求 以下试题是来自阿里巴巴招募实习生的一次笔试题 从笔试题的几个要求我们 一起来看看数据分析的职业要求 一 异常值是指什么 请列举 1 种识别连续型变量异常值的方法 异常值 Outlier 是指样本中的个别值 其数值明显偏离所属样本的其余观 测值 在数理统计里一般是指一组观测值中与平均值的偏差超过两倍标准差的 测定值 Grubbs test 是以 Frank E Grubbs 命名的 又叫 maximum normed residual test 是一种用于单变量数据集异常值识别的统计检测 它假定数据 集来自正态分布的总体 未知总体标准差 在五种检验法中 优劣次序为 t 检验法 格拉布斯检验 法 峰度检验法 狄克逊检验法 偏度检验法 点评 考察的内容是统计学基础功底 二 什么是聚类分析 聚类算法有哪几种 请选择一种详细描述其计算原理和 步骤 聚类分析 cluster analysis 是一组将研究对象分为相对同质的群组 clusters 的 统计分析技术 聚类分析也叫分类分析 classification analysis 或数值分 类 numerical taxonomy 聚类与分类的不同在于 聚类所要求划分的类是未 知的 聚类分析计算方法主要有 层次的方法 hierarchical method 划分方法 partitioning method 基于密度的方法 density based method 基于 网格的方法 grid based method 基于模型的方法 model based method 等 其中 前两种算法是利用统计学定义的距离进行度量 k means 算法的工作过程说明如下 首先从 n 个数据对象任意选择 k 个对象作 为初始聚类中心 而对于所剩下其它对象 则根据它们与这些聚类中心的相似 度 距离 分别将它们分配给与其最相似的 聚类中心所代表的 聚类 然 后再计算每个所获新聚类的聚类中心 该聚类中所有对象的均值 不断重复 这一过程直到标准测度函数开始收敛为止 一般都采用均方差一般都采用均方差 标准差标准差 作为标作为标 准测度函数准测度函数 k 个聚类具有以下特点 各聚类本身尽可能的紧凑 而各聚类之 间尽可能的分开 其流程如下 1 从 n 个数据对象任意选择 k 个对象作为初始聚类中心 2 根据每个聚类对象的均值 中心对象 计算每个对象与这些中心对象的 距离 并根据最小距离重新对相应对象进行划分 3 重新计算每个 有变化 聚类的均值 中心对象 4 循环 2 3 直到每个聚类不再发生变化为止 标准测量函数收敛 优点 本算法确定的 K 个划分到达平方误差最小 当聚类是密集的 且类与类 之间区别明显时 效果较好 对于处理大数据集 这个算法是相对可伸缩和高 效的 计算的复杂度为 O NKt 其中 N 是数据对象的数目 t 是迭代的次数 一般来说 K N t N 缺点 1 K 是事先给定的 但非常难以选定 2 初始聚类中心的选择对聚类 结果有较大的影响 点评 考察的内容是常用数据分析方法 做数据分析一定要理解数据分析算法 应用场景 使用过程 以及优缺点 三 根据要求写出 SQL 表 A 结构如下 Member ID 用户的 ID 字符型 Log time 用户访问页面时间 日期型 只有一天的数据 URL 访问的页面地址 字符型 要求 提取出每个用户访问的第一个 URL 按时间最早 形成一个新表 新 表名为 B 表结构和表 A 一致 createtable B asselectMember ID min Log time URL from Agroup byMember ID 点评 SQL 语句 简单的数据获取能力 包括表查询 关联 汇总 函数等 四 销售数据分析 以下是一家 B2C 电子商务网站的一周销售数据 该网站主要用户群是办公室女 性 销售额主要集中在 5 种产品上 如果你是这家公司的分析师 a 从数据中 你看到了什么问题 你觉得背后的原因是什么 b 如果你的老板要求你提出一个运营改进计划 你会怎么做 表如下 一组每天某网站的销售数据 a 从这一周的数据可以看出 周末的销售额明显偏低 这其中的原因 可以从 两个角度来看 站在消费者的角度 周末可能不用上班 因而也没有购买该产 品的欲望 站在产品的角度来看 该产品不能在周末的时候引起消费者足够的 注意力 b 针对该问题背后的两方面原因 我的运营改进计划也分两方面 一是 针对 消费者周末没有购买欲望的心理 进行引导提醒消费者周末就应该准备好该产 品 二是 通过该产品的一些类似于打折促销等活动来提升该产品在周末的人 气和购买力 点评 数据解读能力 获取数据是基本功 仅仅有数据获取能力是不够的 其 次是对数据的解读能力 五 用户调研 某公司针对 A B C 三类客户 提出了一种统一的改进计划 用于提升客户的 周消费次数 需要你来制定一个事前试验方案 来支持决策 请你思考下列问 题 a 试验需要为决策提供什么样的信息 c 按照上述目的 请写出你的数据抽样方法 需要采集的数据指标项 以及你 选择的统计方法 a 试验要能证明该改进计划能显著提升 A B C 三类客户的周消费次数 b 根据三类客户的数量 采用分层比例抽样 需要采集的数据指标项有 客户类别 改进计划前周消费次数 改进计划后周客户类别 改进计划前周消费次数 改进计划后周 消费次数消费次数 选用统计方法为 分别针对 A B C 三类客户 进行改进前和后的周消费次数 的 两独立样本 T 检验 two sample t test 点评 业务理解能力和数据分析思路业务理解能力和数据分析思路 这是数据分析的核心竞争力 综上所述 一个合格的数据分析应该具备统计学基础知识 数据分析方法 数 据获取 数据解读和业务理解 数据分析思想几个方面能力 即将成为数据分 析师的亲们 你们准备好了吗 2 2 从腾讯 数据挖掘方向 笔试题目看技术储备从腾讯 数据挖掘方向 笔试题目看技术储备 笔试内容 1 历 已知中序遍历顺序以及前序遍历顺序 求后序遍历顺序 2 SQL 语句 找出 QQset 中最小的 QQ 号码 3 encodeURI Node next 接口为 Node merge sort Node 2 设计 S 型层次遍历树的算法 比如根节点是第一层 第二层从左至右遍 历 第三层从右至左遍历 第四层再从左至右遍历 以此类推 举例 应依次输出 1 2 3 6 5 4 7 8 9 3 一个 url 文件 每行是一个 url 地址 可能有重复 1 统计每个 url 的频次 设计函数实现实现 2 设有 10 亿 url 平均长度是 20 现在机器有 8G 内存 怎么处理 写出 思路 三 系统设计题 自然语言处理中的中文分词问题 前向最大匹配算法 FMM 注 题目举例说明了 FMM 的基本思想 1 设计字典的数据结构 struct dictnote 2 用 C C 实现 FMM 可选接口为 int FMM vectoriLetters dictnode iRoot vector oResults 其中 iLetters 为待分词的句子 比如 小 明 今 天 买 了 i p o n e 6 iRoot 是字典 oResults 保存输出结果 即分词的位置 也可以自己设 计接口 3 收集了一些手机品牌的字典 如 iphone 诺基亚 现在要求查找包含这些手机品牌的网页 比如包含 iphone6 诺基亚 9973 等 怎么修改 FMM 实现这个功能 可以写伪代码 4 4 从搜狐 数据挖掘算法工程师 笔试题目看技术储备从搜狐 数据挖掘算法工程师 笔试题目看技术储备 笔试 1 类的继承 2 资源互斥下的死锁 3 一维数组 元素为指针 指针指向一个参数为 Int 返回值为 int 的函数 4 进程间的通信方式 5 Const 标志符常量一定要 6 String 的普通构造函数 拷贝构造函数 赋值函数 析构函数 7 Strcpy 函数 8 N 个不同数的全排列 打印所有全排列 9 Sizeof char name hello 10 继承的转换 子类可以转换成基类 基类不能转换成子类 多继承下同一 子类的基类间不能相互转换 5 5 从网易 数据挖掘研究员 笔试题目看技术储备从网易 数据挖掘研究员 笔试题目看技术储备 笔试 1 字符串匹配的算法复杂度 主串 N 字串 M N M 2 排序算法的稳定性 快速排序为非稳定 3 平衡二叉树的插入 4 20 个亿整数的两个集合 a 与 b 求 a 与 b 的交集 内存为 4Gb 5 在 N 个无序数中找 K 个最小值 6 页面文件的逻辑地址位 8 个 1024 字放内 32 帧内存里 7 计算机网络各层应用连接 8 哪一种模式不关心算法 Abstract Factory 提供一个创建一系列相关或相互依赖对象的接口 而无需 指定它们具体的类 使用得非常频繁 Adapter 将一个类的接口转换成客户希望的另外一个接口 A d a p t e r 模 式使得原本由于接口不兼容而不能一起工作的那些类可以一起工作 Bridge 将抽象部分与它的实现部分分离 使它们都可以独立地变化 Builder 将一个复杂对象的构建与它的表示分离 使得同样的构建过程可以创 建不同的表示 Chain of Responsibility 为解除请求的发送者和接收者之间耦合 而使多个 对象都有机会处理这个请求 将这些对象连成一条链 并沿着这条链传递该请 求 直到有一个对象处理它 Command 将一个请求封装为一个对象 从而使你可用不同的请求对客户进行参 数化 对请求排队或记录请求日志 以及支持可取消的操作 Composite 将对象组合成树形结构以表示 部分 整体 的层次结构 它使得 客户对单个对象和复合对象的使用具有一致性 Decorator 动态地给一个对象添加一些额外的职责 就扩展功能而言 它比 生成子类方式更为灵活 Facade 为子系统中的一组接口提供一个一致的界面 F a c a d e 模式定义 了一个高层接口 这个接口使得这一子系统更加容易使用 Factory Method 定义一个用于创建对象的接口 让子类决定将哪一个类实例 化 Factory Method 使一个类的实例化延迟到其子类 Flyweight 运用共享技术有效地支持大量细粒度的对象 Interpreter 给定一个语言 定义它的文法的一种表示 并定义一个解释器 该解释器使用该表示来解释语言中的句子 Iterator 提供一种方法顺序访问一个聚合对象中各个元素 而又不需暴露该 对象的内部表示 Mediator 用一个中介对象来封装一系列的对象交互 中介者使各对象不需要 显式地相互引用 从而使其耦合松散 而且可以独立地改变它们之间的交互 Memento 在不破坏封装性的前提下 捕获一个对象的内部状态 并在该对象之 外保存这个状态 这样以后就可将该对象恢复到保存的状态 Observer 定义对象间的一种一对多的依赖关系 以便当一个对象的状态发生改 变时 所有依赖于它的对象都得到通知并自动刷新 Prototype 用原型实例指定创建对象的种类 并且通过拷贝这个原型来创建新 的对象 Proxy 为其他对象提供一个代理以控制对这个对象的访问 Singleton 保证一个类仅有一个实例 并提供一个访问它的全局访问点 State 允许一个对象在其内部状态改变时改变它的行为 对象看起来似乎修改 了它所属的类 Strategy 定义一系列的算法 把它们一个个封装起来 并且使它们可相互替换 本模式使得算法的变化可独立于使用它的客户 Template Method 定义一个操作中的算法的骨架 而将一些步骤延迟到子类中 Template Method 使得子类可以不改变一个算法的结构即可重定义该算法的某 些特定步骤 Visitor 表示一个作用于某对象结构中的各元素的操作 它使你可以在不改变 各元素的类的前提下定义作用于这些元素的新操作 9 数据库系统的两种语言 一种用于定义数据库模式 另一种用于表达数据 的查询和更新 10 数据库的连接运算 11 建立索引的原则 在经常需要搜索的列上 可以加快搜索的速度 在作为 主键的列上 强制该列 的唯一性和组织表中数据的排列结构 在经常用在连接的列上 这些列主要是 一些外键 可以加快连接的速度 在经常需要根据范围进行搜索 的列上创建索 引 因为索引已经排序 其指定的范围是连续的 在经常需要排序的列上创建 索引 因为索引已经排序 这样查询可以利用索引的排序 加快排序查询 时间 在经常使用在 WHERE 子句中的列上面创建索引 加快条件的判断速度 不应该 创建索引的的 这些列具有下列特点 第一 对于那些在查询中很少使用或者参 考的列不应该创建索引 这是因为 既然这些列很少使用到 因此有索引或者 无索引 并不能提高查 询速度 相反 由于增加了索引 反而降低了系统的维 护速度和增大了空间需求 第二 对于那些只有很少数据值的列也不应该增加 索引 这是因为 由于这些列的 取值很少 例如人事表的性别列 在查询的结 果中 结果集的数据行占了表中数据行的很大比例 即需要在表中搜索的数据 行的比例很大 增加索引 并不能明显加 快检索速度 第三 对于那些定义为 text image 和 bit 数据类型的列不应该增加索引 这是因为 这些列的数据 量要么相当大 要么取值很少 第四 当修改性能远远大于检索性能时 不应 该创建索 引 这是因为 修改性能和检索性能是互相矛盾的 当增加索引时 会提高检索性能 但是会降低修改性能 当减少索引时 会提高修改性能 降 低检索性能 因 此 当修改性能远远大于检索性能时 不应该创建索引 12 事务的定义与特点 事务隔离的级别 事务 Transaction 是并发控制的单位 是用户定义的一个操作序列 这些操 作要么都做 要么都不做 是一个不可分割的工作单位 通过事务 SQL Server 能将逻辑相关的一组操作绑定在一起 以便服务器保持数据的完整性 事务的特性 ACID 特性 A 原子性 Atomicity 事务是数据库的逻辑工作单位 事务中包括的诸操作要么全做 要么全不做 B 一致性 Consistency 事务执 行的结果必须是使数据库从一个一致性状态变到另一个一致性状态 一致性与

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论