大数据核心技术之数据挖掘与机器学习技术探索培训大纲.doc_第1页
大数据核心技术之数据挖掘与机器学习技术探索培训大纲.doc_第2页
大数据核心技术之数据挖掘与机器学习技术探索培训大纲.doc_第3页
大数据核心技术之数据挖掘与机器学习技术探索培训大纲.doc_第4页
大数据核心技术之数据挖掘与机器学习技术探索培训大纲.doc_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

时间培训大纲内容第一天上午第一章机器学习及数据挖掘基础原理1) 什么是机器学习?2) 什么是数据挖掘?3) 什么是大数据?4) 典型应用5) 机器学习基本思想与原理 a) 假设空间 b) 主要流派(机械学习/示教学习/类别学习/归纳学习) c) 归纳学习(有监督的学习/无监督的学习)6) 机器学习应用的一般流程(收集数据/准备数据/分析数据/训练/测试/应用)7) 大数据下机器学习算法的特点8)基础知识 a) 常见文本处理流程(分词、词性标注、实体识别、句法分析、索引) b) 向量空间模型 c) 高维数据降维 c) 相似度计算方法 d) 基本概率统计知识9) 常用工具第一天下午第二章机器学习及数据挖掘常用技术1) 分类方法a) 特征选择及降维b) 朴素贝叶斯c) 决策树d) 回归分类器第二天上午第二章机器学习及数据挖掘常用技术e) 中心向量法f) KNNg) SVMh) 线性分类器2) 分类的研究进展及趋势a) 大数据下的分类算法b) 情感分析c) 众包标注第二天下午第二章机器学习及数据挖掘常用技术3) 常见聚类算法a) k-Meansb) 层次聚类c) DBSCAN4) 聚类的研究进展及趋势a) 大数据下的聚类算法b) Science上最新发表的聚类算法c) 社交网络中的社区发现第三天上午第二章机器学习及数据挖掘常用技术5) 回归算法a) 线性回归b) Logistic回归c) 岭回归d) Lasso回归6) 回归的研究进展及趋势a) 树回归b) 支持向量回归第三天下午第二章机器学习及数据挖掘常用技术7) 推荐算法a) 基于内容的推荐b) 基于协同的推荐8) 推荐的研究进展及趋势c) 社交化推荐第四天上午第三章数据挖掘实战1大数据基础应用之分类问题:垃圾邮件过滤1) 实验环境a) 开发语言b) 软件包2) 问题定义a) 目标b) 可用数据c) 预期输出3) 算法分析a) 贝叶斯方法回顾b) 理论与应用结合c) 算法应用过程 4) 数据预处理a) 获取原始数据b) 查看数据样本c) 编写数据过滤程序d) 获取训练样本与测试样本5) 特征提取a) 使用哪些特征?b) 使用什么类型的特征?c) 编写特征提取程序6) 模型训练a) 一般过程b) 训练与测试c) 参数化模型选择d) 关于 overfitting 模型实验e) 回顾第四天下午第三章数据挖掘实战2大数据基础应用之回归问题:美国社区犯罪率预测1) 实验环境2) 问题定义a) 目标b) 可用数据c) 预期输出3) 算法分析a) 回归方法回顾b) 理论与应用结合c) 算法应用过程4) 数据预处理a) 获取原始数据b) 查看数据样本c) 编写数据过滤程序d) 获取训练样本与测试样本5) 模型训练a) 一般过程b) 训练与测试c) 参数化模型选择d) 关于 overfitting 模型实验e) 回顾第三章数据挖掘实战3分布式计算: 大数据基础设施1) 分布式环境简介a) 分布式环境的基石b) Apache Hadoop生态环境2) 分布式计算举例a) Mapreduce原理b) WordCount: 基本案例c) WordMedian: WordCount的深化d) 计算值:统计学与大数据e) 分布式Nave Bayes:从单机小数据到分布式大数据第三章数据挖掘实战4大数据应用问题1) 大数据在实际场景中面临的问题与挑战2) 大数据系统方案选型3) 大数据应用常见误区第五天上午实践教学中国科学院计算技术研究所网络数据科学与技术重点实验室 网络数据科学与技术重点实验室致力于面向网络空间的大规模数据感知与获取、存储与管理、分析与挖掘等方面的基础理论、关键技术与应用系统的研究工作。研究方向包括网络数据复杂性与数据计算理论、网络空间

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论