面试算法讲座ppt课件.ppt

上传人：闯*** IP属地：广东上传时间：2020-01-02 格式：PPT 页数：100 大小：4.22MB 积分：25 举报 版权申诉

已阅读5页，还剩95页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

面试算法机器学习 1 本次讲座大纲第一部分面试笔试面试考什么解决笔试面试题的常用算法常用算法的时间复杂度O N 时间复杂度内能解决的问题第二部分算法如何学习算法循序渐进 KMP 相互串联以Trie树后缀树贪心动态规划为例追本溯源二叉树红黑树 2 3 4树 B树为例海量数据处理面试题十种解决之道第三部分机器学习SVM的简单介绍与SMO的简单推导 2 以前的不足对着PPT一本正经念到底堆砌知识没有要害100页PPTPPT上字多不够一目了然体力不支互动太少 3 第一部分面试 4 笔试面试考什么 5 笔试偏基础语言基础inthope int hope double p 3 void func 操作系统线程与进程的区别产生死锁的条件如何规避死锁C 内存分配堆栈自由存储区全局静态存储区常量存储区网络协议TCP建立连接的三次握手数据库概率论与数理统计推荐数理统计学简史 6 面试偏算法数据结构上的增删改查查找遍历排序算法分治递归回溯贪心动态规划海量数据处理 7 基于各个数据结构上的增删改查字符串字符串库函数的编写例如atoi等字符串查找翻转匹配数组查找如二分查找杨氏矩阵查找链表翻转遍历查找删除合并Hash表查找树遍历前序中序后序 set map高级树的查找红黑树 B树 R树图遍历查找 DFS BFS 最短路径算法 8 知道了考什么怎么破 9 笔试面试常用算法穷举递归回溯万能的求n个数的全排列 8皇后 N皇后问题分治分而治之然后归并递归回溯DFS空间换时间hashtable巧用数据结构堆能排序考虑排序前后两个指针往中间扫若已经排好序想想有无必要二分不能排序贪心最小生成树Prim Krusal最短路dijkstra动态规划如01背包问题每一步都在决策细节处理注意边界条件 10 各类算法的时间复杂度 11 O 1 到O nlogn O 1 基本运算寻址Hash表的期望复杂度O logn 二分查找O n1 2 枚举约数O n 线性查找建立堆O nlogn 归并排序快速排序的期望复杂度基于比较排序的算法下界 12 O n2 到O nn O n2 集合里枚举所有二元组朴素最近点对O n3 集合里枚举三元组 Floyd最短路普通矩阵乘法O 2n 枚举全部的子集O 2nn TSP的动态规划算法O n 枚举全排列O nn 枚举 1 n 的n维数组的全部元素总结O 1 O logn O n1 2 O n O nlogn O n2 O n3 O 2n O 2nn O n O nn 13 各种排序算法的时间复杂度 14 O N 的时间复杂度能解决什么问题 15 O N 时间内能解决的问题字符串字符串循环位移最长回文子串数组寻找最小的K个数2 sum最大连续子数组和快排的partition奇偶排序荷兰国旗问题完美洗牌问题最大面积直方图最大连续乘积子数组查找排序杨氏矩阵查找出现次数超过一半的数字建立堆计数排序二叉查找树的前中后序遍历ManacherKMP 16 字符串翻转把字符串abcdef左旋转3位得到字符串defabc 要求时间复杂度为O n 空间复杂度为O 1 暴力移位三步翻转字符串abcdef defabc X abc Y def X X T 得 abc cba Y Y T 得 def fedX TY T 得到 cbafed defabc 即 X TY T T YX 17 寻找最小的k个数输入1 2 3 4 5 6 7和8这8个数字请输出其中最小的4个数字 1 2 3和4 18 寻找和为定值的两个数输入数组1 2 4 7 11 15和数字15由于4 11 15 因此输出4和11解答百试不厌暴力穷举如果无序先排序排完序后 ij前后两个指针往中间扫 19 编程艺术github 20 第二部分算法 21 如何学习算法 22 算法学习方法论基础很重要学习什么心中有大纲算法解决什么问题解决策略是什么广搜一层一层往外遍历寻找最短路径策略队列最小生成树最小代价连接所有点策略贪心 Prim 贪心权重队列 Dijkstra寻找单源最短路径策略贪心非负权重队列Floyd多结点对的最短路径策略动态规划方法论循序渐进对比联系从简单入手追本溯源 23 如何学习算法之一要则一循序渐进KMP 24 有一个算法本科期间无数人被虐过是哪个算法 25 字符串的查找匹配有一个文本串S和一个模式串P请查找P在S中的位置 26 暴力一步步往后匹配 27 继续暴力匹配失败回溯 28 改进暴力利用模式串中具有相同的前缀后缀不做没用的重复匹配 29 找模式串中最大的相同前缀后缀考察前缀后缀得到最大前缀后缀公共元素长度 30 失配时模式串向右移动的位数为已匹配字符数失配字符的上一位字符所对应的最大长度值 31 基于前后缀的最大公共元素长度匹配1 2 D跟空格失配时向右移动的位数已匹配的字符数上一位字符B对应的最大公共元素长度6 2 4再度失配向右移动 2 0 2位 32 基于前后缀最大公共长度匹配2 2 A跟空格失配向右移动一位D跟C失配时向右移动的位数为已匹配的字符数上一位字符B对应的最大长度即 6 2 4匹配成功 33 前后缀概念引申出next数组前缀后缀的最大公共元素长度失配时移动位数已匹配字符数失配字符的上一位字符所对应的最大长度值next数组把上面的最大长度值整体向右移动一位然后初始值赋为 1失配时移动位数失配字符所在位置失配字符对应的next值j next j 注意无论是哪种匹配方法得出的向右移动位数一样 34 基于 next数组匹配1 2 Next数组失配时移动位数 j next j j从0开始计数向右移动6 2 4位再次失配向右移动 j next j 2 0 2位 35 基于 next数组匹配2 2 接上移动两位之后A跟空格不匹配再次后移一位D处失配向右移动j next j 6 2 4位 36 KMP算法假设现在文本串S匹配到i位置模式串P匹配到j位置如果j 1 或者当前字符匹配成功即S i P j 都令i j 继续匹配下一个字符如果j 1 且当前字符匹配失败即S i P j 则令i不变 j next j 此举意味着失配时模式串P相对于文本串S向右移动了j next j 位 37 intKmpSearch char s char p inti 0 j 0 intsLen strlen s intpLen strlen p while i sLen 38 next数组的递推计算对于值k 已有p0p1 pk 1 pj kpj k 1 pj 1 相当于next j k 下面的问题是已知next 0 j 如何求出next j 1 呢 pk pjpk pj 39 40 voidGetNext char p intnext intpLen strlen p next 0 1 intk 1 intj 0 while j pLen 1 p k 表示前缀 p j 表示后缀if k 1 p j p k k j next j k else 拿前缀去跟后缀匹配如果pk跟pj失配继续递归前缀索引p next k k next k 41 42 如何学习算法之二要则二把相关算法串联起来相互比对贪心动态规划 43 贪心与动规贪心最优子结构局部最优动态规划最优独立重叠子结构全局最优枚举所有状态然后剪枝寻找最优状态同时将每一次求解子问题的结果保存在一张表格中以后再遇到重叠的子问题从表格中保存的状态中查找俗称记忆化搜索 44 动态规划 45 两个简单的例子最短路径 A B经过x1 x2 x3故枚举所有可能从A到B要经过的路径选择一条最优如何求最优比较如何比较写DP方程求min比如二维数组最小路径和一个二维矩阵M N矩阵matrix中找出一条路径只能向右或向下求路径经过元素之和最小当前位置 i j 上一个位置只可能是 i 1 j 或 i j 1 path i j min path i j 1 path i 1 j matrix i j 46 寻找和为定值的多个数输入两个整数n和m 从数列1 2 3 n中随意取几个数使其和等于m 要求将其中所有的可能组合列出来 list1 push front n 典型的01背包问题find factor sum n n 1 放n n 1个数填满sum nlist1 pop front find factor sum n 1 不放n n 1个数填满sum动态规划适用条件最优子结构独立重叠子问题 47 如何学习算法之三要则三从简单入手追本溯源二叉树红黑树 2 3 4树 B树 48 追本溯源红黑树为何要有RB Tree完全平衡完全二叉树高度平衡AVL树先理解二叉树的插入删除后理解红黑树的插入修复删除修复B树先学习2 3 4树理解结点饱和分裂结点稀缺合并为何因为2 3 4树在计算机科学中是阶为4的B树意味着什么意味着2 3 4树中每个结点的关键字数目是 1 3个 ceil m 2 1 n m 1m为阶数即孩子树等于4 49 二叉树到完全二叉树树的深度越小搜索时间logn n即为树的深度 50 AVL树高度平衡树AVL树中任何节点的两个子树的高度最大差别为一 51 红黑树的5个性质每个结点要么是红的要么是黑的根结点是黑的每个叶结点叶结点即指树尾端NIL指针或NULL结点是黑的如果一个结点是红的那么它的俩个儿子都是黑的对于任一结点而言其到叶结点树尾端NIL指针的每一条路径都包含相同数目的黑结点 52 二叉树的插入插入一个节点 53 红黑树的插入插入一个元素后需要修复修复有两种手段重新着色旋转操作左旋与右旋 54 红黑树的插入修复代码 3种插入修复情况 55 2 3 4树 56 2 3 4树的查找 57 2 3 4树的插入1 3 58 2 3 4树的插入2 3 59 2 3 4树的插入3 3 关键字数要超过4时就要开始分裂4阶的B树的关键字数满足大于等于1 小于等于3 60 2 3 4树一次完整的插入示例1 2 不断插入多个元素的过程 61 2 3 4树一次完整的插入示例1 2 接上继续插入元素N B X 62 看过了红黑树的插入看过了2 3 4树分裂接下来看另外一种新树它与红黑树最大的区别在于它的结点可以有许多子女从几个到几千个 63 B树出现缘由二叉查找树结构由于树的深度过大而造成磁盘I O读写过于频繁进而导致查询效率低下 64 一棵B树的示例查找文件29一直往下 3次磁盘IO操作和3次内存查找 65 B树的插入示例1 5 一棵5阶即树中任一结点至多含有4个关键字 5棵子树 B树根结点至少得有2个孩子5阶 2 4个key 3 5个childrenB树除根结点之外的结点包括叶子结点的关键字的个数n必须满足 ceil m 2 1 n m 12 关键字数 4m为孩子数即子树的数目等于5 66 B树的插入示例2 5 插入以下字符字母到一棵空的B树中非根结点关键字数小了小于2个就合并大了超过4个就分裂 CNGAHEKQMFWLTZDPRXYS 67 B树的插入示例3 5 CNGAHEKQMFWLTZDPRXYS 当咱们插入E K Q时不需要任何分裂操作插入M需要一次分裂 M恰好是中间关键字元素以致向上移到父节点中 68 B树的插入示例4 5 CNGAHEKQMFWLTZDPRXYS 插入F W L T不需要任何分裂操作插入Z时中间元素T上移到父节点中 69 B树的插入示例5 5 CNGAHEKQMFWLTZDPRXYS 插入D时 D上移到父节点中然后字母P R X Y陆续插入插入S时中间元素Q上移到父节点中 Q上移导致父结点 DGMT 也满了将父节点中的中间元素M上移到新形成的根结点中从而致使树的高度增加一层 70 B 树一棵m阶的B 树和m阶的B树的异同点在于有n棵子树的结点中含有n 1个关键字所有的叶子结点中包含了全部关键字的信息及指向含有这些关键字记录的指针且叶子结点本身依关键字的大小自小而大的顺序链接而B树的叶子节点并没有包括全部需要查找的信息所有的非终端结点可以看成是索引部分结点中仅含有其子树根结点中最大或最小关键字而B树的非终节点也包含需要查找的有效信息 71 B 树 B tree是B tree的变体在B 树的基础上所有的叶子结点中包含了全部关键字的信息及指向含有这些关键字记录的指针 B 树中非根和非叶子结点再增加指向兄弟的指针 B 树定义了非叶子结点关键字个数至少为 2 3 M 即块的最低使用率为2 3 代替B 树的1 2 72 总结有了二叉树为何要有AVL平衡树有了AVL树为何要有红黑树有了红黑树为何要有B树 73 海量数据处理 74 十个密匙哈希分治simhash算法外排序MapReduce多层划分BitmapBloomFilterTrie树数据库倒排索引 75 76 万丈高楼平地起 Reb Blacktreeset map map同时拥有key和value set的key就是value multiset multimap 允许重复键值 hashtablehashmap hashset hash multiset hash multimap 允许重复键值备注 C 11标准命名了基于hash函数实现的unordered set unordered map unordered multiset unordered multimap相当于hash set hash ma 和hash multiset hash multimap 76 77 分而治之 hash映射 hash统计堆快速归并排序海量日志数据提取出某日访问百度次数最多的那个IP分而治之 hash映射比如模1000 把整个大文件映射为1000个小文件hash map ip value 来进行频率统计 hash map对那1000个文件中的所有IP进行频率统计然后依次找出1000个文件中频率最大的那个IP 再在这1000个最大的IP中找出那个频率最大的IP 77 类似问题变形 hash函数映射 hashmap统计堆排有100W个关键字长度小于等于50字节用高效的算法找出top10的热词并对内存的占用不超过1MB 假设已有10w个敏感词现给你50个单词查询这50个单词中是否有敏感词单机5G内存磁盘200T的数据分别为字符串然后给定一个字符串判断这200T数据里面有没有这个字符串怎么做如果查询次数会非常的多怎么预处理 78 simHash的具体算法分词给定一段语句 CSDN博客结构之法算法之道的作者July 分词后为 CSDN 博客结构之法算法之道的作者 July 然后为每个特征向量赋予权值 CSDN 4 博客 5 结构 3 之 1 法 2 算法 3 之 1 道 2 的 1 作者 5 July 5 其中括号里的数字代表这个单词在整条语句中的重要程度数字越大代表越重要 hash 通过hash函数计算各个特征向量的hash值 hash值为二进制数01组成的n bit签名比如 CSDN 的hash值Hash CSDN 为100101 博客的hash值Hash 博客为 101011 就这样字符串就变成了一系列数字加权W Hash weight W CSDN 100101 4 4 4 44 44 W 博客 101011 5 5 55 555 合并将上述各个特征的加权结果累加变成一个序列串如 4 5 4 5 4 5 4 5 4 5 4 5 得到 9 9 1 1 1 降维对于n位签名的累加结果如果大于0则置1 否则置0 从而得到该语句的simhash值最后我们便可以根据不同语句simhash的海明距离来判断它们的相似度例如把上面计算出来的 9 9 1 1 1 9 降维得到 101011 从而形成它们的simhash签名 79 80 把64位的二进制simhash签名均分成4块每块16位

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

面试算法讲座ppt课件.ppt

文档简介

温馨提示

最新文档

评论

面试算法讲座ppt课件.ppt

文档简介

温馨提示

最新文档

评论

相关文档