《大数据导论》 教学大纲、授课计划_第1页
《大数据导论》 教学大纲、授课计划_第2页
《大数据导论》 教学大纲、授课计划_第3页
《大数据导论》 教学大纲、授课计划_第4页
《大数据导论》 教学大纲、授课计划_第5页
已阅读5页,还剩15页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

《大数据导论》教学大纲课程名称:大数据导论课程类别:必修适用专业:大数据技术类相关专业总学时:32学时(其中理论32学时)总学分:2.0学分课程的性质发展数字经济已经在全球形成广泛共识,因为当前社会经济生活的生产要素发生了巨大改变,数据已经成为一种新的且十分重要的生产要素。建立在数据基础上的数字经济则成为一种新的经济社会发展形态,并形成新动能,重塑经济发展结构和深刻改变生产生活方式。在数字时代,数据量呈现爆炸式增长,数据的采集和处理方式也发生了巨大改变,如何保证数据的安全性、如何合理地展示数据内容、如何管理和存储数据等成了亟待解决的问题。随着数据量的增长,在数据中发现隐藏的价值信息成为可能,大数据技术成为研究的热点。大数据算法可以对数据进行处理和分析,给出智能决策,帮助行业人员解决传统方法无法解决的问题。本课程系统介绍了大数据技术的发展历史,大数据技术的主要算法及相关技术。课程的任务通过本课程的学习,使学生了解大数据的出现及发展历史,了解大数据的采集算法、存储管理,以及主要的数据存储架构,详细介绍了几种分布式存储框架,学会大数据分析算法,重点介绍掌握数据可视化的各种工具,了解大数据的安全知识,如何在数据处理中保护个人隐私,并详细拆解大数据技术在城市管理,金融领域,和互联网行业的具体案例,将理论与实践相结合,为将来从事大数据分析研究、工作奠定基础。课程学时分配序号教学内容理论学时其它1第1章大数据概述22第2章大数据采集43第3章大数据存储与管理64第4章大数据分析65第5章数据可视化66第6章数据安全、隐私保护与开放共享47第7章大数据技术应用案例4总计32教学内容及学时安排理论教学序号章节名称主要内容教学目标学时1大数据概述了解三次信息化浪潮的内容了解大数据技术的发展历史了解大数据技术的起源和概念掌握大数据的特点了解大数据产业的发展现状了解大数据产业的应用领域和应用价值了解大数据的产业链了解大数据的技术体系了解大数据技术相关的岗位需求掌握大数据的概念和五个特点了解大数据技术发展的历史和重要作用了解大数据技术的应用领域和产业链构成了解大数据的技术体系和相关岗位22大数据采集了解数据采集技术在大数据中的重要作用掌握大数据采集技术掌握主流的大数据采集框架Flume和Sqoop掌握大数据采集包含的内容和过程掌握大数据的数据来源和采集方法掌握大数据的批量采集技术掌握网络数据日志数据的采集内容和方法掌握大数据采集框架43大数据存储与管理了解大数据存储的用途了解传统的大数据存储技术掌握大数据时代的数据存储技术掌握分布式存储和云存储掌握主流的分布式存框架掌握大数据存储的基本概念掌握传统大数据存储技术掌握大数据时代的数据存储技术,与传统数据存储技术的区别掌握分布式存储和云存储技术掌握主流的分布式存储框架64大数据分析了解什么是用户画像了解个性化用户画像的作用了解如何进行用户画像掌握大数据分析技术的基本概念掌握数据分析与数据挖掘的关系掌握数据认知的概念掌握数据处理的方法掌握数据建模的方法掌握模型评估的方法掌握主流的大数据分析框架掌握用户个性化画像的作用和方法掌握大数据分析技术掌握大数据分析框架的概念和使用方法65数据可视化了解数据可视化的概念掌握数据可视化的作用掌握数据可视化的设计方法掌握数据可视化设计工具了解数据可视化技术内容了解数据可视化的发展方向了解数据可视化方法的分类掌握数据可视化的作用掌握数据可视化的设计思路和方法掌握数据可视化的主要设计工具掌握数据可视化的发展方向66数据安全、隐私保护与开放共享了解数据安全的概念了解数据安全和隐私保护的必要性掌握数据安全和隐私保护的技术体系了解大数据安全和隐私保护的关键技术内容掌握数据安全的基本技术了解数据开放和共享的概念了解数据开放和共享的重要作用掌握数据开放和共享的的实施方法掌握大数据安全的概念和意义掌握大数据安全的方法掌握大数据开放共享的意义掌握数据开放共享的方法47大数据技术应用案例分析大数据技术在城市管理中的现状了解城市公共出行数据的分析过程了解城市管理中环保数据的分析方法分析大技术在金融领域的现状掌握大数据分析技术对金融系统的作用了解大数据技术在互联网领域的作用掌握大数据推荐系统的作用和方法了解大数据技术在零售业的作用掌握大数据技术在零售业中的具体使用方法熟悉大数据技术对城市管理的作用和分析过程了解大数据技术在金融领域的作用和应用技术掌握大数据技术在互联网领域的技术方法掌握大数据技术在零售业中的作用4学时合计32考核方式突出学生解决实际问题的能力,加强过程性考核。课程考核的成绩构成=平时作业(10%)+课堂参与(20%)+期末考核(70%),期末考试建议采用开卷形式,试题应包括基本概念、大数据采集算法描述、采集算法框架配置、大数据存储系统、分布式存储框架、大数据分析框架、数据可视化工具等部分,题型可采用判断题、选择、简答、应用题等方式。教材与参考资料教材林涛,张良均.大数据导论[M].北京:人民邮电出版社.2024.参考资料[1] 肖芳,张良均.Spark大数据技术与应用[M].北京:人民邮电出版社.2018.[2] 王哲,张良均.Hadoop与大数据挖掘(第2版)[M].北京:机械工业出版社.2022.[3] 张军,张良均.Hadoop大数据开发基础(第2版)(微课版)[M].北京:人民邮电出版社.2021.学院课程教学进度计划表(学年第二学期) 课程名称大数据导论 授课学时32 参与教学教师 授课班级/人数 专业(教研室) 填表时间教务处编印年月课程教学目的通过本课程的学习,使学生了解大数据技术的发展和起源,了解大数据技术的重要性,掌握大数据的获取,处理,分析和展示等技术,并能够运用教材中的算法对实际应用中的数据进行处理,分析出具有行业价值的结果,将理论与实践相结合,为将来从事数据分析挖掘研究、工作奠定基础。教学方法及手段本课程将采用理论与实践相结合的教学方法。在理论上,通过任务引入概念、原理和方法。在实践上,充分地利用现有的硬件资源,发挥学生主观能动性,指导学生使用Flume和Sqoop进行数据采集,使用Hive和Hbase对数据进行存储,掌握Hadoop和Spark等工具,对数据进行分析,并使用ECharts、FineBI等工具对数据分析结果进行展示。同时结合四个领域的实际案例,引导学生将所学知识与企业需求相结合,将知识活学活用。要求学生自己动手分析实例,学习基本理论和方法,结合已有的知识,适当组织一些讨论,充分调动学生的主观能动性,以达到本课程的教学目的。课程考核方法突出学生解决实际问题的能力,加强过程性考核。课程考核的成绩构成=平时作业(10%)+课堂参与(20%)+期末考核(70%),期末考试建议采用开卷形式,试题应包括基本概念、大数据采集算法描述、采集算法框架配置、大数据存储系统、分布式存储框架、大数据分析框架、数据可视化工具等部分,题型可采用判断题、选择、简答、应用题等方式。

《大数据导论》教学日历周次学时授课内容作业要求备注14第1章大数据概述第2章大数据采集(1)第1章课后习题24第2章大数据采集(2)第3章大数据存储与管理(1)第2章课后习题34第3章大数据存储与管理(2)第3章课后习题44第4章大数据分析(1)第4章课后习题-单选题、多选题54第4章大数据分析(2)第5章大数据可视化(1)第4章课后习题-简答题64第5章大数据可视化(2)第5章课后习题74第6章数据安全、隐私保护与开放共第6章课后习题84第7章大数据技术应用案例第7章课后习题注:教材:林涛,张良均.大数据导论[M].北京:人民邮电出版社.2024.《大数据导论》教学大纲课程名称:大数据导论课程类别:必修适用专业:大数据技术类相关专业总学时:16学时(其中实验16学时)总学分:1.0学分课程的性质发展数字经济已经在全球形成广泛共识,因为当前社会经济生活的生产要素发生了巨大改变,数据已经成为一种新的且十分重要的生产要素。建立在数据基础上的数字经济则成为一种新的经济社会发展形态,并形成新动能,重塑经济发展结构和深刻改变生产生活方式。在数字时代,数据量呈现爆炸式增长,数据的采集和处理方式也发生了巨大改变,如何保证数据的安全性、如何合理地展示数据内容、如何管理和存储数据等成了亟待解决的问题。随着数据量的增长,在数据中发现隐藏的价值信息成为可能,大数据技术成为研究的热点。大数据算法可以对数据进行处理和分析,给出智能决策,帮助行业人员解决传统方法无法解决的问题。本课程系统介绍了大数据技术的发展历史,大数据技术的主要算法及相关技术。课程的任务通过本课程的学习,使学生能够搭建和配置常见的大数据平台,包括数据采集、存储、处理和分析的相关组件,培养动手实践能力和解决问题的能力,为将来从事大数据分析研究、开发和应用工作奠定坚实的基础。课程学时分配序号教学内容实验学时其它1Hadoop伪分布式环境搭建22Flume的安装和配置13MySQL的安装配置1.54Hive的安装配置25Sqoop的安装和配置1.56HBase的安装配置27Spark伪分布式安装和配置28Flink的安装配置1.59ECharts的安装配置1.510FineBI的安装配置1总计16教学内容及学时安排实验教学序号实验项目名称实验要求学时1Hadoop伪分布式环境搭建在清华大学开源软件镜像站下载CentOS7.8镜像文件。下载、安装15.0版本的VMwareWorkstationPro。在VMware创建虚拟机,并添加镜像文件。安装JDK,并配置环境变量。配置SSH密钥。从官网下载Hadoop安装包并上传至Linux系统的/usr/local目录。解压该安装包,进入/usr/local/hadoop-3.1.4目录。配置Hadoop伪分布式环境,修改4个配置文件core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml。配置Hadoop环境变量,修改hadoop-env.sh文件。格式化并启动Hadoop。测试是否安装成功,可使用浏览器进入HDFS的Web监控端口(主机ip:9870)。22Flume的安装和配置从NetSarangComputer公司官网免费下载Xftp工具,并进行安装。从Flume官网下载1.9.0版本的Flume的压缩包,下载完成后使用Xftp工具将其上传至Linux系统。将压缩包上传到目录/usr/local,解压到目录/opt/ronnie,使用mv命令重命名文件为“flume”。进入Flume配置文件目录,复制并修改环境配置文件。配置环境变量。通过“flume-ngversion”命令查看Flume版本。配置Flume运行文件perties。通过flume-ngagent运行Flume。13MySQL的安装配置切换到目录/usr/local/。创建mysql文件夹。切换到mysql文件夹下。下载MySQL8.0安装包。解压MySQL8.0安装包。重命名解压出来的文件夹为mysql-8.0。在/usr/local/mysql/mysql-8.0文件夹下创建data文件夹以存储文件。分别创建用户组以及用户和密码。授权刚刚新建的用户。配置环境,编辑/etc/profile文件,执行“source/etc/profile”命令,使配置文件生效。编辑f文件。切换到/usr/local/mysql/mysql-8.0/bin目录下。初始化基础信息,得到数据库的初始密码。复制mysql.server文件。赋予权限。检查一下/var/lib/mysql是否存在,若不存在则进行创建。启动数据库,出现SUCCESS说明MySQL安装完成。修改密码,并设置远程连接。1.54Hive的安装配置解压安装包到/usr/local/目录下,进入/usr/local/hive/conf目录。复制hive-env.sh.template为hive-env.sh文件,配置hive-env.sh文件。解压mysql-connector-java-8.0.30.tar.gz,将MySQL驱动mysql-connector-java-8.0.30.jar上传到/usr/local/apache-hive-3.1.2-bin/lib目录,并同步jar包。配置环境变量,并使其生效。在MySQL中创建Hive数据库,并修改Hive数据库编码为latin1。确保Hadoop已启动服务,在Linux命令行初始化元数据库。启动Hive服务,开启Hive。在Hive界面输入“showdatabases;”,验证Hive安装成功与否。25Sqoop的安装和配置从NetSarangComputer公司官网免费下载Xftp工具,并进行安装。从Sqoop官网下载1.4.7版本的Sqoop,下载完成后使用Xftp工具将其上传至Linux系统。解压Sqoop到目录/usr/local,并修改文件名。配置环境变量并使环境变量生效。复制sqoop-env.sh文件并修改内部配置。创建Hive配置文件的软连接,并复制MySQL驱动包到Sqoop的lib文件夹下。测试Sqoop是否安装成功。执行MySQL到Hive的数据同步测试。1.56HBase的安装配置提前安装ZooKeeper、Hadoop,并确保都已启动。通过Xftp将HBase文件上传到Linux系统中。解压HBase到目录/usr/local,并重命名。配置环境变量并使之生效。修改配置文件hbase-env.sh。修改配置文件hbase_site.xml。修改配置文件regionservers。启动HBase。查看进程。27Spark伪分布式安装和配置下载解压Spark安装包到/usr/local目录。配置Spark环境变量,修改profile文件,并使其生效。进入Spark配置目录$SPARK_HOME/conf/,配置Spark参数,修改spark-env.sh、slaves文件。启动Hadoop进程。启动Spark进程。测试是否安装成功,可使用浏览器进入Spark的任务提交端口(主机ip:7077)。28Flink的安装配置下载Flink安装包,上传至Linux系统,解压到/usr/local目录。配置Flink环境变量,修改profile文件。修改配置文件$FLINK_HOME/conf/flink-conf.yaml。进入Flink安装目录下的bin目录,执行命令“start-cluster.sh”启动Flink。测试是否安装成功,可使用浏览器进入Flink的Web可视化端口(主机ip:8081)。1.59ECharts的安装配置从代码托管平台官网的Apache社区进入ECharts项目中的release页面。找到ApacheECharts4.7.0,单击下载页面下方Assets中的Sourcecode。解压后,dist目录下的echarts.js即为包含完整ECharts功能的文件。在echarts.js的同级目录下新建一个demo.txt文件。将ECharts官网提供的示例代码复制到demo.txt中。将demo.txt文件后缀名修改为.html。使用默认浏览器打开示例代码,验证结果。1.510FineBI的安装配置打开FineBI官网,在页面上方选择“产品”→“产品下载”,进入FineBI安装包下载页。安装包下载页面提供了3种版本的安装包,选择下载Windows64位系统对应版本的安装包到本地。文件下载好后,双击FineBI安装文件,加载安装向导。单击“下一步”,弹出许可协议对话框,选择“我接受协议”。单击“下一步”,弹出选择安装目录对话框,单击“浏览”,选择FineBI安装目录。单击“下一步”,弹出设置最大内存对话框,设置JVM内存为2048MB。需要注意的是,最大JVM内存不能超过本机最大内存。单击“下一步”,弹出选择开始菜单文件夹对话框,根据需求勾选。单击“下一步”,弹出选择附加工作对话框,根据需求勾选。单击“下一步”,弹出完成FineBI安装程序对话框。单击%FineBI%/bin/finebi.exe文件,验证FineBI是否安装成功。1学时合计16考核方式突出学生解决实际问题的能力,加强过程性考核。课程考核的成绩构成=课堂参与(30%)+实训指导书(70%)。教材与参考资料教材林涛,张良均.大数据导论[M].北京:人民邮电出版社.2024.参考资料[1] 肖芳,张良均.Spark大数据技术与应用[M].北京:人民邮电出版社.2018.[2] 王哲,张良均.Hadoop与大数据挖掘(第2版)[M].北京:机械工业出版社.2022.[3] 张军,张良均.Hadoop大数据开发基础(第2版)(微课版)[M].北京:人民邮电出版社.2021.学院课程教学进度计划表(学年第二学期) 课程名称大数据导论 授课学时16 参与教学教师 授课班级/人数 专业(教研室) 填表时间教务处编印年月课程教学目的通过本课程的学习,使学生了解大数据技术的发展和起源,了解大数据技术的重要性,掌握大数据的获取,处

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论