




已阅读5页,还剩4页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
教学大纲 第 1 版 版权 课程简介课程简介 大数据概论是大数据/云计算专业的高级专业课程。主要面向有一定的概率统计和数据库基础知识,并且 具有一定软件开发能力的本科高年级或研究生学生。课程会介绍和大规模数据处理、分析和挖掘相关的常用算法 理论,Hadoop 生态系统的架构与应用以及在实际应用中的大规模数据处理技术。课程需要学生阅读大量的相关 文献来获得对技术的理解,还要求学生通过完成一系列实验来掌握大规模数据处理理论知识和工具。通过本课程 的学习,希望学生能够在了解和掌握大规模数据处理、分析和挖掘理论的基础上,学会应用大规模数据处理技术 解决现实数据处理、分析和挖掘问题。 课堂规则课堂规则 请仔细阅读并遵守以下课堂规则: 学习周期:学习周期:此门课程学习周期为六周。每周开课第一天早 9 点开始学习,第七天午夜 12 点结束。 学习方式:学习方式:每周在线学习,包含学习课程材料、参与论坛讨论、完成作业等 ,需在规定时间内完成学习任务。 作业提交:作业提交:每周的作业提交时间在第七天的午夜 12 点截止。截止日期之后系统将不予接收。 课程教材课程教材 教材 1:大数据概论学材,开课吧出组编制。 学习学习考核考核计划计划 周周 名称名称 分值分值 第一讲 大数据应用领域分析报告 8 论坛讨论参与 4 第二讲 利用 R 语言实现关联规则挖掘 15 论坛讨论参与 4 第三讲 使用 Gephi 软件实现社群划分和中心性分析 15 论坛讨论参与 4 第四讲 使用 R 语言实现协同过滤算法 15 论坛讨论参与 4 第五讲 使用 R 语言进行文本聚类和文本分类 15 论坛讨论参与 4 第六讲 Hadoop 生态系统业务领域分析 8 论坛讨论参与 4 总分总分 100 第一周:第一周:大数据应用概述大数据应用概述 内容内容 分值分值 对应目标对应目标 学习目标学习目标 1.1 通过搜索引擎、推荐系统、舆情系统以及社交网络的介绍,了解大数 据的应用领域 学习材料学习材料 学材章节学材章节 大数据概论第一讲 全部 多媒体材料多媒体材料 大数据技术的机遇和挑战 1.1 搜索引擎概述 1.1 推荐系统的表现形式 1.1 推荐系统的基本算法 1.1 舆情监控系统 1.1 舆情系统的架构和模型 1.1 社交网络概述 1.1 学习活动学习活动 (第一天面授)(第一天面授) 破冰活动破冰活动 老师和同学互相介绍认识 重难点解析重难点解析 老师重点剖析本周内容的重难点 推荐系统的基本算法 舆情系统的架构和模型 全部 学习活动学习活动 (第二天(第二天 第七天非面授)第七天非面授) 论坛讨论论坛讨论参参 与与 由导学老师组织学生在线上进行第一次互动,并组建学习小组,以促成良好 的学习氛围。同时对本周的出勤进行考核。 详细活动步骤: 登陆学习平台 点击第一周“学习活动”中的“在线讨论”进入论坛 按照论坛中的题设要求进行讨论 4 作业作业 实验报告实验报告 大数据应用领域分析报告大数据应用领域分析报告 报告目的:报告目的: 结合自己所熟悉的业务领域的特点,知道如何把大数据应用到该领域。 报告内容:报告内容: 列举熟悉的领域的特点 分析自己熟悉领域内数据的特点 8 全部 阐述如何把大数据技术运用到该领域中 报告结果:报告结果: 提交大数据应用领域分析报告,以 Word 文档的格式撰写,文档名称以作 业题目命名,字数在 500-800 字之间。 第二第二周:周:数据挖掘算法与实践数据挖掘算法与实践 内容内容 分值分值 对应目标对应目标 学习目标学习目标 2.1 能够从数据挖掘系统的分类和数据挖掘面临的问题,了解大数据挖掘 的现状 2.2 运用分类方法、聚类方法、K 均值算法等分析大数据中蕴藏的价值 学习材料学习材料 学材学材章节章节 大数据概论第二讲 多媒体材料多媒体材料 数据挖掘系统的分类 2.1 分类挖掘 2.2 聚类挖掘 2.2 数据挖掘面临的问题 2.2 聚类分析的要求及实操 2.2 聚类分析中的变量 2.2 聚类分析的方法及实操 2.2 K 均值算法及实操 2.2 关联规则及实操 2.2 Apriori 算法 2.2 学习活动学习活动 (第一天面授)(第一天面授) 重难点解析重难点解析 老师重点剖析本周内容的重难点 分类挖掘 聚类挖掘 K 均值算法 关联规则分析 全部 学习活动学习活动 (第二天(第二天 第七天非面授)第七天非面授) 论坛讨论论坛讨论参参 与与 论坛讨论: 对本周的出勤进行考核 详细活动步骤: 登陆学习平台 点击第二周“在线讨论” 按照论坛中的题设要求进行讨论 4 作业作业 分析报告分析报告 利用利用 R 语言实现关联规则挖掘语言实现关联规则挖掘 报告目的:报告目的: 利用提供给数据集,用 R 语言实现关联规则的挖掘。 报告内容:报告内容: 安装 R 语言软件 - 点击提供的软件安装包进行 R 软件的安装 - 安装过程中如遇到问题可及时与老师联系 下载数据集 - 用 R 语言挖掘所提供的数据集中的关联规则 - 如果手里有其它的数据也可以试着用 R 语言进行关联规则挖掘 输出结果 - 输出数据挖掘的关联规则结果 - 对输出的结果进行描述并形成说明文档 报告结果:报告结果: 提交 R 语言实现关联规则挖掘的结果。 15 全部 第三第三周:周:社交网络算法与实践社交网络算法与实践 内容内容 分值分值 对应目标对应目标 学习目标学习目标 3.1 依据基于模块度的社群发现算法和中心性分析方法掌握社交网络数据 的分析 3.2 基于社群发现和中心性分析对社群角色进行描述 学习材料学习材料 学学材章节材章节 大数据概论第三讲 多媒体材料多媒体材料 SNA 基本概念 3.1 基于模块度的社群发现 3.1 中心性分析及实操 3.2 角色分配及社群描述实操 3.2 学习活动学习活动 (第一天面授)(第一天面授) 重难点解析重难点解析 老师重点剖析本周内容的重难点 基于模块度的社群发现 中心性分析 全部 学习活动学习活动 (第二天(第二天 第七天非面授)第七天非面授) 论坛讨论论坛讨论参参 与与 论坛讨论: 对本周的出勤进行考核 详细活动步骤: 登陆学习平台 点击第四周“论坛讨论” 按照论坛中的题设要求进行讨论 4 作业作业 调研报告调研报告 使用使用 Gephi 软件实现社群划分和中心性分析软件实现社群划分和中心性分析 报告目的:报告目的: 利用 Gephi 软件实现社群划分和中心性分析,并将其可视化。 报告内容:报告内容: 安装 Gephi 软件 - 点击提供的软件安装包进行 Gephi 软件的安装 - 安装过程中如遇到问题可及时与老师联系 下载数据集 - 用 Gephi 软件实现社群划分 - 用 Gephi 软件实现中心性分析 输出结果 - 输出社群划分和中心性分析的结果 - 对输出的结果保存为图片格式并进行描述形成说明文档 报告结果:报告结果: 提交 Gephi 软件实现社群划分和中心性分析,以图片格式提交。 15 全部 第四第四周:周:推荐系统挖掘算法与实践推荐系统挖掘算法与实践 内容内容 分值分值 对应目标对应目标 学习目标学习目标 4.1 借助推荐系统的模型以及算法分析如何设计受欢迎的推荐系统。 学习材料学习材料 学材章节学材章节 大数据概论第四讲 多媒体材料多媒体材料 推荐系统简述 4.1 推荐系统的建模 4.1 推荐算法及实操 4.1 推荐系统的评测 4.1 重难点解析重难点解析 老师重点剖析本周内容的重难点 推荐系统的建模 推荐算法 全部 学习活动学习活动 (第二天(第二天 第七天非面授)第七天非面授) 论坛讨论论坛讨论参参 与与 论坛讨论: 对本周的出勤进行考核 详细活动步骤: 登陆学习平台 点击第五周“论坛讨论” 按照论坛中的题设要求进行讨论 4 作业作业 上线方案制作和上线方案制作和 优化优化 使用使用 R 语言实现协同过滤算法语言实现协同过滤算法 报告目的:报告目的: 利用 R 语言实现 item-based-cf 算法。 报告内容:报告内容: 安装 R 语言 - 点击提供的软件安装包进行 R 语言的安装 - 安装过程中如遇到问题可及时与老师联系 下载数据集 - 用 R 语言实现简单的 item-based-cf 算法 输出结果 15 全部 - 对 item-based-cf 算法的实现过程进行描述 报告结果:报告结果: 提交 R 语言实现简单的 item-based-cf 算法结果。 第五第五周:周:文本挖掘算法与实践文本挖掘算法与实践 内容内容 分值分值 对应目标对应目标 学习目标学习目标 5.1 借助文本的特征以及算法分析文本数据的价值。 学习材料学习材料 学材章节学材章节 大数据概论第五讲 多媒体材料多媒体材料 文本挖掘概述 5.1 文本的特征和算法及实操 5.1 文本挖掘分析及实操 5.1 Web 挖掘概述 5.1 Web 挖掘分析 5.1 重难点解析重难点解析 老师重点剖析本周内容的重难点 文本的特征和算法 文本挖掘分析 全部 学习活动学习活动 (第二天(第二天 第七天非面授)第七天非面授) 论坛讨论论坛讨论参参 与与 论坛讨论: 对本周的出勤进行考核 详细活动步骤: 登陆学习平台 点击第五周“论坛讨论” 按照论坛中的题设要求进行讨论 4 作业作业 上线方案制作和上线方案制作和 优化优化 使用使用 R 语言进行文本聚类和文本分类语言进行文本聚类和文本分类 报告目的:报告目的: 利用 R 语言做文本聚类和文本分类。 报告内容:报告内容: 安装 R 语言 15 全部 - 点击提供的软件安装包进行 R 语言的安装 - 安装过程中如遇到问题可及时与老师联系 下载数据集 - 用 R 语言实现文本聚类 - 用 R 语言实现文本分类 输出结果 - 对 R 语言实现的文本聚类和文本分类进行描述 报告结果:报告结果: 提交 R 语言文本聚类和文本分类结果。 第六第六周:周:Hadoop生态系统生态系统 内容内容 分值分值 对应目标对应目标 学习目标学习目标 6.1 初步了解 Hadoop 生态系统的主要工具。 学习材料学习材料 学材章节学材章节 大数据概论第六讲 多媒体材料多媒体材料 Hadoop 生态系统介绍上 6.1 Hadoop 生态系统介绍下 6.1 Spark 分布式计算系统 6.1 重难点解析重难点解析 老师重点剖析本周内容的重难点 Hadoop 生态系统的主要工具 Spark 分布式计算系统的主要工具 全部 学习活动学习活动 (第二天(第二天 第七天非面授)第七天非面授) 论坛讨论论坛讨论参参 与与 论坛讨论: 对本周的出勤进行考核 详细活动步骤: 登陆学习平台 点击第五周“论坛讨论” 按照论坛中的题设要求进行讨论 4 作业作业 上线方案制作和上线方案制作和 优化优化 Hadoop 生态系统业生态系统业务领域分析报告务领域分析报告 报告目的:报告目的: 结合自己所熟
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年神经内科临床实践模拟考试答案及解析
- 关于烟草新质生产力的建议
- 工程力学 课件 力的性质
- 2025年产科妇科妇科护理常见问题考察试卷答案及解析
- 2025年病理科白细胞计数的实验操作模拟考试答案及解析
- 2025年麻醉药理学专业知识检测答案及解析
- 2025年护理学基本技能实操考核答案及解析
- 2025年消化内科十二指肠溃疡并发症预防评估试卷答案及解析
- 2025年病毒学HIV病毒的抗病毒治疗模拟考试卷答案及解析
- 2025年麻醉科无痛分娩操作技能考核模拟试卷答案及解析
- 全国行政区域身份证代码表(EXCEL版)
- 新麻醉记录单
- 社区合理用药讲课
- 2022 CSCO胃癌诊疗指南
- GB/T 26955-2011金属材料焊缝破坏性试验焊缝宏观和微观检验
- 马克思主义基本原理概论 第六章
- 急诊急救护理教学课件
- 最新医疗安全十八项核心制度课件
- 住宅小区供配电系统设计课件
- 社保费和非税收入课件
- “三高”讲座-课件
评论
0/150
提交评论