大规模数据处理的那些事儿.ppt_第1页
大规模数据处理的那些事儿.ppt_第2页
大规模数据处理的那些事儿.ppt_第3页
大规模数据处理的那些事儿.ppt_第4页
大规模数据处理的那些事儿.ppt_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大规模数据处理的那些事,梁斌 ,2,内容概要,Mass Data Processing 什么是Mass Data Processing MDP的应用场合 为什么要学习MDP MDP在高校教学中的现状 设想中的一些工作 将目前的一些经验和理论进行整理 能够开展一些传播工作 建立私立实验室 Q & A,3,什么是Mass Data Processing,在受限的机器,网络资源的情况下, 通过软件和硬件共同完成的G以上级别的 数据计算和存储。 -penny liang,索引的网页有数10亿条 中国的网民有1亿,平均每天访问10个网页。 电子商务、金融机构、通讯话单,这些数量更大。,4,MDP的应用场合,搜索引擎 索引数10亿网页,能够提供高效检索服务 google,baidu 数据挖掘 日志挖掘 商务智能(cognos(IBM),share point(MS) 云计算,云存储,云安全 map reduce, hadoop ,5,为什么要学习MDP,能够将大学本科阶段各个科目,在这个实践背景下结合起来 深刻理解磁盘,内存层次,体系结构,操作系统 深刻理解分布式算法设计,数据结构 排序算法(Penny sort,图灵奖得主Jim Gray发起) 压缩算法 搜索算法 深刻理解分析业务,解决问题的思路和方法 查找100亿网页中,PV最高的前10个。 能够对工作中的问题给出解释,编写高效率代码 举个memset的例子,6,MDP在高校教学中的现状,国内的情况 北大,/course/cs402/ 清华,/course/cs402/resource/ mdp_tsinghua/index.htm 国外的情况 麻省理工不定期课程,关于Map reduce /home 斯坦福大学 /class/cs245/ 权威教材 Garcia-Molina, Ullman, Widom; “DATABASE SYSTEMS, THE COMPLETE BOOK“ Tanenbaum, Maarten ven Steen, Distributed Systems: Principles and Paradigms, 2/e, by Andrew S. Prentice-Hall, 2006.,7,设想中的一些工作,将目前的一些经验和理论进行整理 个性化推荐工作,新闻搜索,商业日志挖掘 水木社区上写了一些连载 /bbscon.php?bid=715&id=14649 /bbscon.php?bid=715&id=14744 /bbscon.php?bid=715&id=14865 阅读一些感兴趣的论文,做一些感兴趣的实验 开展一些传播工作 推广搜索引擎相关技术 推广大规

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论