数据科学与大数据技术实验室建设需求

上传人：转*** IP属地：广东上传时间：2024-06-24 格式：DOCX 页数：93 大小：100.40KB 积分：45 举报 版权申诉

已阅读5页，还剩88页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

数据科学与大数据技术实验室建设需求1、建设需求序号货物名称数量单位1容器云资源管理平台1套2大数据教学管理平台1套3Python编程实训平台1套4Hadoop/Spark大数据开发实训平台1套5电子教室软件1套6Python编程基础1套7Python大数据数学基础1套8Python数据分析与应用1套9Python网络爬虫实战1套10Python机器学习算法实现1套11Python文本挖掘实战1套12Python数据可视化1套13家用热水器用户行为分析【BP神经网络】1套14市财政收入分析及预测【SVR】1套15城市公交用户出行分析【OD矩阵模型】1套16电力窃漏电用户识别【随机森林】1套17航空公司客户价值分析【K-Means聚类】1套18广电大数据营销推荐【协同过滤】1套19《流浪地球》豆瓣影评采集【Selenium】1套20电商产品评论数据情感分析【LDA模型】1套21垃圾短信智能识别【朴素贝叶斯】1套22水产养殖水质智能识别【颜色矩】1套23招聘网站数据采集与人才需求分析【Request】1套24基于医学影像的血管三维重构【最近邻约束】1套25Linux操作系统基础1套26Java编程基础1套27MySQL数据库基础1套28Scala编程基础1套29Hadoop大数据技术基础1套30Spark大数据技术与应用1套31Zookeeper分布式服务框架1套32Flume大数据采集与传输1套33Sqoop大数据转换与处理1套34Kafka大数据数据流处理1套35HBase分布式数据库1套36Hive数据仓库1套37航空客户乘机数据预处理【Hive】1套38冠字号查询系统【HBase】1套39用户社交网络分析【SparkGraphX】1套40竞赛网站目标用户智能识别【SparkMllib】1套41法律服务网站数据探索分析【SparkSQL】1套42热门博文实时推荐【SparkStreaming】1套43餐饮大数据智能推荐【Spark/协同过滤】1套44容器平台计算节点3台45应用平台计算节点1台46服务器机柜1台47机架式KVM切换器1台48管理交换机1台49应用交换机2台50大数据教学一体机80台51投影设备（智慧黑板）1台52音响功放（组合）1套53网络机柜1台2、技术需求序号货物名称数量单位技术参数、配置/主要配置1容器云资源管理平台1套一、功能要求：

集群管理：

1、高可用集群：提供3副本高可用集群，避免单点故障。

2、命名空间：用户可使用命名空间功能根据业务需求创建多个虚拟的空间，以实现工作区间的逻辑隔离。

3、节点标签：支持对节点进行标签（Label）标注，通过配置节点标签，将容器组（Pod）捆绑调度到指定的Worker节点上。

部署管理、支持通过标准镜像部署，也支持通过自定义YAML或JSON文件进行部署；秒级发布、回滚，利用滚动升级不中断业务更新服务。支持deployment、daemonset、statefulset、cronjob、job多种部署。

4、应用管理：结合Helm，简化K8s部署应用的版本控制、打包、发布、版本对比、回滚、删除、更新等操作。

5、服务管理：支持通过服务ip或服务名称加端口访问服务，可避免服务后端容器重启时IP变更的影响。

6、容器组管理：支持多副本实现容器高可用，异常自动恢复；容器可跨集群部署，可快速迁移。

7、持久化存储卷：支持使用持久化存储卷，对有状态服务数据进行持久化存储。

8、配置项：支持配置项，帮助用户管理不同环境和不同业务，方便快速将配置以文件或环境变量的形式导入到容器中。

9、保密字典：支持控制台通过yaml创建secret资源，帮助用户管理集群敏感信息。

10、健康检查：提供集群中应用健康检查探针，支持livenessProbe、readinessProbe探测类型。

11、资源配额：通过yaml配置资源配额（ResourceQuota）可指定命名空间能够使用的cpu、内存、存储量、服务数量、配置项、密钥等资源的数量。

12、权限管理：支持基于RBAC权限策略控制用户对K8s集群中资源的权限。

仓库管理：

1、镜像管理：提供存放、管理用户上传docker镜像的功能。

2、Chart管理：提供存放、管理用户HelmChart包的功能，可通过控制台一键上传Chart包。

3、多用户管理：支持多用户管理，针对不同用户分配不同权限。

4、操作记录：提供日志查看相关操作记录的功能。

5、同步管理：支持同步管理功能，可将镜像、Chart在不同仓库间同步。

监控管理

1、集群监控：支持查看集群整体资源使用情况，例如CPU使用率、内存使用率、网络流量。

2、存储监控：支持查看集群存储资源使用情况，例如存储使用率、IOPS等指标。

3、集群资源监控：支持查看集群中多种资源的监控数据，例如deployment、statefulset、pod等资源的cpu使用率、内存使用率等指标。

4、集群节点监控：支持查看集群各节点监控数据，例如cpu使用率、内存使用率、磁盘使用率。

5、集群组件监控：支持查看集群中组件的监控数据，例如ControllerManager、Kubelet、Scheduler、etcd。2大数据教学管理平台1套一、功能要求：

基础模块：

1、采用B/S架构，即浏览器/服务器架构。

2、支持用户角色和权限区分。分为管理员、教师、助教和学生共四种角色。不同角色提供不同的权限。

3、支持管理员管理平台所有课程、用户。

4、支持教师创建学生账户。

5、支持教师自主创建课程，添加课程资源，添加学生，布置作业，成绩管理。

6、支持学生参加课程学习，参与实训，提交报告，查看成绩。

7、支持播放轮播图。

8、支持对课程分类展现，每类默认展现固定数量。

9、支持展现全部课程。

课程管理模块：

1、支持创建课程，课程设置和信息包括：课程名称、课程类别、显示设置、开始时间、结束时间、课程编号、课程封面等。

2、支持自定义课程资源，可灵活配置教学课件、视频、实训指导书、作业、考试等教学实训内容。

3、所有教学资源均可设置访问权限，指定资源对学生进行隐藏。

4、支持上传课件并在线查看，支持上传视频文件并在线播放。支持上传实训指导书并在线查看。

5、提供题库管理功能，支持批量上传题目到题库并应用于作业或考试。

6、支持学生在线考试，系统对客观题实现自动评分。

7、支持课程分类管理。

7.1支持新建类别，设置包括类别名称、分类ID、类别描述。

7.2支持对类别进行全选，批量删除类别。对类别进行排序、隐藏设置、删除，编辑等操作，支持显示各类别下的课程总数。查看某类别的课程列表。

7.3支持对课程进行批量排序，排序规则包含：按课程名称、课程ID、创建时间等。支持对课程进行全选，批量删除或更改类别。

8、支持对课程资源进行备份与还原。

8.1课程备份，以列表方式展现平台所有课程，显示信息包括课程名称、创建时间、授课教师。对课程进行全选，批量备份课程。

8.2课程还原，以列表方式展现所有课程备份文件，显示信息包括文件名、时间、大小。对备份文件进行全选，批量删除备份文件。

用户管理：

1、支持创建用户。

1.1单个创建，设置和信息包括：用户名、密码、角色、姓名、学号、手机、头像。

1.2批量创建，所有用户使用统一的用户名前缀和密码，自定义创建数量。

1.3批量导入，通过csv文件方式上传用户信息至平台，csv文件只需按要求定义用户名、密码、姓名即可。

2、支持学生管理，支持创建班级，添加学生至班级，对班级学生进行批量选课等。

3、支持查看平台所有用户，筛选用户，管理员可编辑其他用户的个人信息，包括姓名，角色，学号等。

实训管理:

1、支持直接进入所集成的实训环境，展现已创建的实训环境，每个实训环境展现信息包含环境名称，适用课程等。

2、支持按需创建实训环境入口，自定义环境名称、实训环境、开始时间、结束时间、排序编号、课程标签、用户等。

3、支持按需创建工程实训环境入口，自定义环境名称、实训环境、实训时间、课程标签、具备权限用户等，支持直接进入工程实训环境，无需二次登陆。

4、支持标签管理，对标签进行添加，删除、编辑操作。

平台管理：

1、支持定义平台角色，自定义各角色的权限。

2、提供课程缺省设置功能，备份、恢复默认设置。

3、成绩设置，提供常规设置、成绩项设置等功能，包含总体报表和用户报表等设置功能。3Python编程实训平台1套一、功能要求：

1、支持从大数据教学管理平台提供入口一键进入Python编程实训平台。

2、基于B/S架构，通过浏览器访问平台。

3、底层基于Docker技术，秒级打开实训平台。

4、平台内置Python、Jupyter等相关IDE、数据库软件等实训工具。

5、支持实训报告在线提交，并支持提交本地文件报告和实训环境中的文件报告这2种方式。

6、实训环境标配为2核CPU和4G内存配置。

7、支持根据实际需求扩展实训环境资源（CPU、内存等）。

8、支持实训指导书与实训环境同屏显示。

9、实训指导书提供目标、环境、内容、步骤等内容。

10、支持隐藏实训环境界面，实训指导书全屏查看。

11、支持隐藏实训指导书界面，实训环境全屏操作。

12、支持将实训环境的文件导出至本地，支持将本地文件导入至实训环境进行使用。

支持实训环境界面分辨率随浏览器窗口变化自适应调整。4Hadoop/Spark大数据开发实训平台1套一、功能要求：

基础模块:

1、底层基于Docker技术，秒级打开实训平台。

2、支持学生在做实训过程中进行实训指导书的查看，实训指导书与实训环境同屏显示。

3、支持隐藏实训环境界面，实训指导书全屏查看。

4、支持隐藏实训指导书界面，实训环境全屏操作。

5、支持实训报告在线提交，并支持提交本地文件报告和实训环境中的文件报告这2种方式。

6、支持实训环境与本地环境进行文件传输，支持下载上传数据。

7、实训指导书提供目标、环境、内容、步骤等内容。

8、包含3台Linux云主机全分布式集群。

9、配置vim文本编辑、SSH远程登录、NTP时间同步等软件。

增强模块：

10、支持分布式文件系统HDFS，用于大容量数据存储，提供网页查看HDFS文件列表。

11、支持分布式计算框架MapReduce，用于大规模数据集的并行运算。支持任务运行过程中实时查看日志，可通过日志定位问题。

12、支持集群资源管理YARN，为上层应用提供统一的资源管理和调度。可通过网页查看任务状态及运行总耗时等信息。

13、支持数据仓库Hive，可将结构化的数据文件映射为一张数据库表。

14、支持Hive表的导入导出功能。

15、支持数据仓库HBase，基于列的模式，支持非结构化的数据存储。

16、支持计算引擎Spark，支持直接启动Spark-shell进行操作。

17、支持大数据任务调度框架oozie，提供基于网页的可视化界面。5电子教室软件1套1、提供屏幕广播功能，老师可以将自己或者指定某个同学的屏幕同步给其他学生

2、提供分组教学功能，可快速将学生分成若干小组，并针对不同主题推送实验实训资料

3、提供随堂小考功能，不用在黑板书写，老师实时了解所有学生的解答结果，并立即生成统计结果。

4、提供班级管理功能，通过创建班级模型，准确记录学生座位排布。使用多频道教学功能，教师可给不同机房的学生上课。

5、Windows/Mac/Linux平台全面兼容，全面兼容虚拟机。6Python编程基础1套《Python编程基础》

一、课程简介

Python可以用于数据统计、分析、可视化等任务，以及机器学习、人工智能等领域。大量的第三方模块所支持的内容涵盖了从统计计算到机器学习，从金融分析到生物信息，从社会网络分析到自然语言处理，从各种数据库各种语言接口到高性能计算模型等领域。《Python编程基础》是大数据与人工智能Python系列课程的入门课程。课程以任务为导向，能满足完全面向对象的Python的高校教学工作，可以作为高校中数学和统计学等专业的基础课程。

二、课时数

理论教学36学时，实践教学36学时，总计72学时

3、课程资源包含实训指导书：38份，课程视频：32个，课程PPT：7份，数据：7份，代码：25份。

四、课程内容

第1章准备工作：

1.1Python认识

1.2搭建Python环境

1.3了解常用PythonIDE并创建一个应声虫程序

第2章Python基础知识：

2.1Python的固定语法

2.2了解Python变量与相互转化数值型变量

2.3Python基础类型之字符型

2.4掌握常用操作运算符及优先级

第3章Python数据结构：

3.1认识数据结构与列表

3.2列表的增删改查

3.3列表推导式

3.4元组

3.5字典

3.6集合

第4章程序流程控制语句：

4.1条件分支语句

4.2循环

4.3嵌套循环与多变量迭代、列表解析

第5章函数：

5.1自定义函数

5.2调用自定义函数

5.3嵌套函数、全局变量与局部变量

5.4匿名函数与高阶函数

5.5存储并导入函数模块

第6章面向对象编程：

6.1认识面向对象编程

6.2类与绑定self

6.3类的专有方法

6.4创建对象

6.5迭代器

6.6继承与其他方法

第7章文件基础：

7.1认识文件、读取整个文件

7.2with语句读取文件与设置工作路径

7.3读取txt、csv文件

7.4os模块与shutil模块

五、实训目录

第1章准备工作:

实训1Python环境搭建

实训2使用PyCharm创建一个应声虫程序

实训3输入输出

第2章Python基础知识:

实训1创建字符串变量并提取里面的数值

实训2计算圆形的各参数

实训3对用户星座进行分析

实训4通过表达式计算给定的三个数值均值、方差、标准差

第3章Python数据结构:

实训1创建一个列表（list）并进行增删改查操作

实训2转换一个列表为元组（tuple）并进行取值操作

实训3创建一个字典（dict）并进行增删改查操作

实训4将两个列表转换为集合（set）并进行集合运算

实训5计算出斐波那契数列前两项给定长度的数列，并删除重复项和追加数列各项之和为新项

实训6用户自定义查询菜单，输出查询结果

实训7简单的好友通讯录管理程序

实训8对两个给定的数进行最大公约数、最小公倍数的分析

第4章程序流程控制语句:

实训1实现考试成绩划分

实训2实现一组数的连加与连乘

实训3使用冒泡排序法排序

实训4输出数字金字塔

实训5猜数字游戏

实训6统计字符串内元素类型的个数

第5章函数:

实训1自定义函数实现方差输出

实训2使用匿名函数添加列表元素

实训3存储并导入函数模块

实训4构建一个计算列表中位数的函数

实训5使用lambda表达式实现对列表中的数求平方

第6章面向对象编程:

实训1创建Car类

实训2创建Car对象

实训3迭代Car对象

实训4产生Land_Rover对象（子类）

实训5在精灵宝可梦游戏创建小火龙角色，对给出的各属性进行迭代和私有化

实训6对小火龙游戏角色采用继承的方式

第7章文件基础:

实训1对txt文件进行读写

实训2对csv文件进行读写

实训3os模块

实训4shutil模块

实训5计算iris数据集的均值

实训6编程实现文件在当前工作路径的查找7Python大数据数学基础1套一、课程简介

在大数据的研究和应用中，数学是其坚实的理论基础，在数据处理、数据挖掘、评判分析等过程中，数学方法扮演着至关重要的角色。《Python大数据数学基础》是大数据与人工智能Python系列课程的基础课程。课程致力于大数据分析技术的基础数学知识传播，以期通过理论结合实践的方式，运用相关数学知识解决一些实际问题。

二、课时数

理论教学58学时，实践教学22学时，总计80学时

三、课程资源至少包含18份实训指导书、34个课程视频、8份课程PPT、8份数据、21份代码。

四、课程内容

第1章绪论：

1绪论

第2章微积分基础：

2.1引言

2.2函数与极限

2.3导数与微分

2.4微分中值定理与导数的应用

2.5不定积分与定积分

第3章概率论与数理统计基础：

集中趋势度量

集中趋势度量代码讲解

离散趋势度量及偏度与峰度度量

离散趋势度量及偏度与峰度度量代码讲解

3.2.1随机事件及其概率

3.2.2随机变量与概率分布

3.2.3随机变量的数字特征

3.2.4随机变量与概率分布及随机变量的数字特征代码讲解

3.3参数估计与假设检验以及章节小结

第4章线性代数基础：

4.1.1行列式

4.1.2行列式代码讲解

4.2.1矩阵及其运算

4.2.2矩阵及其运算代码讲解

4.3.1矩阵的特征分解与奇异值分解

4.3.2矩阵的特征分解与奇异值分解代码讲解

第5章数值计算基础：

5.1数值计算的基本概念

5.2插值方法

5.3函数逼近与拟合

5.4非线性方程（组）求根及小结

第6章多元统计分析：

6.1.1一元线性回归

6.1.2多元线性回归

6.1.3Logistic回归

6.1.4回归分析代码讲解

6.2.1判别分析

6.2.2判别分析代码讲解

6.3.1聚类分析

6.3.2聚类分析代码讲解

6.4小结

五、实训目录

第2章微积分基础：

实训1函数与极限

实训2导数

实训3微分

实训4微分中值定理与导数的应用

实训5不定积分与定积分

第3章概率论与数理统计基础：

实训1数据分布特征的描述统计

实训2概率与概率分布

实训3参数估计与假设检验

第4章线性代数基础：

实训1行列式

实训2矩阵及其运算

实训3矩阵的特征分解与奇异值分解

第5章数值计算基础：

实训1误差

实训2插值方法

实训3函数逼近与拟合

实训4非线性方程（组）求根

第6章多元统计分析：

实训1回归分析

实训2判别分析

实训3聚类分析8Python数据分析与应用1套《数据分析与应用》

一、课程简介

数据分析技术将帮助企业用户在合理时间内获取、管理、处理以及整理海量数据，为企业经营决策提供积极的帮助。数据分析作为一门前沿技术，广泛应用于物联网、云计算、移动互联网等战.略.新.兴.产.业。《数据分析与应用》课程是大数据与人工智能系列课程的核心课程。课程以任务为导向，将数据分析知识点融入其中，能够让学生在练中学，学会即应用。

二、课时数

理论教学54学时，实践教学54学时，总计108学时

3、课程资源包含实训指导书：34份，课程视频：23个，课程PPT：7份，数据：25份，代码：7份。

四、课程内容

第1章Python数据分析概述：

1.1数据分析概述

1.2熟悉Python数据分析的工具

1.3安装Python的Anaconda发行版

1.4掌握JupyterNoteBook常用功能

第2章NumPy数值计算基础：

2.1掌握numpy数组对象ndarray_x264

2.2掌握Numpy矩阵与通用函数

2.3利用Numpy进行统计分析

第3章Matplotlib数据可视化基础：

3.1掌握绘图基础语法与常用参数

3.2分析特征间关系

3.3分析特征内部数据分布与分散情况

第4章pandas统计分析基础：

4.1读写不同数据源的数据

4.2掌握DataFrame的常用操作

4.3转换与处理时间序列数据2

4.4使用分组聚合进行组内计算

4.5创建透视表与交叉表

第5章使用pandas进行数据预处理：

5.1合并数据

5.2清洗数据

5.3标准化数据

5.4转换数据

第6章使用scikit-learn构建模型：

6.1使用sklearn转换器处理数据

6.2构建并评估聚类模型

6.3构建并评估分类模型

6.4构建并评估回归模型

五、实训目录

第2章NumPy数值计算基础:

实训1掌握NumPy数组对象ndarray

实训2掌握NumPy矩阵与通用函数

实训3利用NumPy进行统计分析

实训4创建数组并进行运算

实训5创建一个国际象棋的棋盘

第3章Matplotlib数据可视化基础:

实训1掌握绘图基础语法与常用参数

实训2分析特征间的关系

实训3分析特征内部数据分布与分散状况

实训4分析1996~2015年人口数据各个特征的分布与分散状况

实训5分析1996~2015年人口数据特征间的关系

第4章pandas统计分析基础:

实训1读写不同数据源的数据

实训2掌握DataFrame的常用操作

实训3转换与处理时间序列数据

实训4使用分组聚合进行组内计算

实训5创建透视表与交叉表

实训6读取并查看P2P网络贷款数据主表的基本信息

实训7提取用户信息更新表和登录信息表的时间信息

实训8使用分组聚合方法进一步分析用户信息更新表和登录信息表

实训9对用户信息更新表和登录信息表进行长宽表转换

第5章使用pandas进行数据:

实训1合并数据

实训2清洗数据

实训3标准化数据

实训4转换数据

实训5插补用户用电量数据缺失值

实训6合并线损，用电量趋势与线路告警数据

实训7标准化建模专家样本数据

第6章使用scikit-learn构建模型:

实训1使用sklearn转换器处理数据

实训2构建并评价聚类模型

实训3构建并评价分类模型

实训4构建并评价回归模型

实训5使用sklearn处理wine和wine_quality数据集

实训6构建基于wine数据集的K-Means聚类模型

实训7构建基于wine数据集的分类模型

实训8构建基于wine_quality数据集的回归模型9Python网络爬虫实战1套《数据采集与网络爬虫》

一、课程简介

数据采集与网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。《数据采集与网络爬虫》是大数据与人工智能Python系列课程的进阶课程。课程以任务为导向，详细陈述了不同网页的爬取，以及最流行爬虫框架的使用。

二、课时数

理论教学36学时，实践教学36学时，总计72学时

3、课程资源包含实训指导书：27份，课程视频：37个，课程PPT：6份，数据：2份，代码：4份。

四、课程内容

第1章Python爬虫环境与爬虫简介：

1.1Python网络爬虫实战介绍

1.2认识爬虫

1.3认识反爬虫

1.4Python爬虫环境

第2章网页前端基础：

2.1概述

2.2HTTP请求方法与过程

2.3常见HTTP状态码

2.4HTTP头部信息

2.5认识c.o.o.k.i.e.s

2.6小结

第3章简单静态网页爬取：

3.1静态网页爬取概述

3.2使用urllib3实现HTTP请求

3.3使用requests库实现HTTP请求

3.4谷歌开发者工具介绍

3.5正则表达式介绍

3.6使用正则表达式获取网页标题信息

3.7使用XPath进行网页解析

3.8使用BeautifulSoup进行网页解析

3.9数据存储

3.10小结

第4章常规动态网页爬取：

4.1常规动态网页爬取概述

4.2逆向分析爬取动态网页

4.3使用Selenium打开浏览对象

4.4Selenium页面等待

4.5使用Selenium获取图书信息

4.6小结

第5章模拟登录：

5.1模拟登录概述

5.2查找表单数据入口及提交数据

5.3验证码人工处理与代理IP

5.4使用POST请求方法登录

5.5使用浏览器c.o.o.k.i.e.s登录

5.6基于表单登录的c.o.o.k.i.e.s登录

5.7小结

第6章终端协议分析：

6.1终端协议分析概述

6.2了解HTTPAnalyzer工具

6.3爬取千千音乐PC客户端数据

6.4小结

五、实训目录

第2章网页前端基础：

实训1使用Socket库进行TCP编程

实训2使用Socket库进行UDP编程

实训3使用Socket库连接百度首页

第3章简单静态网页爬取：

实训1urllib3库实现HTTP请求

实训2Requests库实现HTTP请求

实训3正则表达式模块解析网页

实训4Xpath解析网页

实训5Soup库解析网页

实训6MySQL数据存储

实训7生成GET请求并获取指定网页内容

实训8搜索目标节点并提取文本内容

实训9在数据库中建立新表并导入数据

第4章常规动态网页爬取：

实训1逆向分析爬取动态网页

实训2使用Selenium库爬取动态网页

实训3存储数据至MongoDB数据库

实训4爬取网页“”推荐图书的信息

实训5爬取某网页的Java图书信息

实训6将数据储存到MongoDB数据库中

第5章模拟登录：

实训1使用表单登录方法实现模拟登录

实训2使用C.oo.kie登录方法实现模拟登录

实训3使用表单登录方法模拟登录数睿思论坛

实训4使用浏览器Coo.kie模拟登录数睿思论坛

实训5基于表单登录后的Coo.kie模拟登录数睿思论坛

第6章终端协议分析：

实训1爬取千千音乐PC客户端数据

实训2分析人民日报APP

实训3抓取千千音乐PC客户端的推荐歌曲信息

实训4爬取人民日报APP的旅游模块信息

第7章Scrapy爬虫：

实训1使用Scrapy爬取泰迪动态

实训2定制BdRaceNews爬虫项目的中间件10Python机器学习算法实现1套一、课程简介:算法的相关任务往往会受到数据变化、计算能力和经验性判断等的限制。《Python机器学习算法实现》是大数据与人工智能Python系列课程的核心课程。课程深入讲解了机器学习中的常用算法，详细陈述了每种算法解决问题时的思路。让学员掌握各个算法的应用场景，算法理论基础，编程实现、模型评价体系等，为后续课程的学习及从事数据挖掘的开发和项目业务奠定基础。

二、课时数：理论教学36学时，实践教学28学时，总计64学时

三、课程资源：

至少包含15份实验指导书、49个课程视频、9份课程PPT、13份数据、8份代码。

四、课程内容：

第1章机器学习绪论：

1.1引言

1.2基本术语

1.3假设空间&归纳偏好

第2章模型评估与选择

2.1经验误差与过拟合

2.2评估方法

2.3性能度量

2.4性能度量Python实现

第3章回归分析

3.1线性回归基本形式

3.2线性回归模型的Python实现

3.3波士顿房价预测的Python实现

3.4逻辑回归介绍

3.5研究生入学录取预测的Python实现

第4章决策树

4.1从女生相亲到决策树

4.2明天适合打球吗

4.3决策树拆分属性选择

4.4决策树算法家族

4.5泰坦尼克号生还者预测—数据预处理

4.6泰坦尼克号生还者预测—模型构建与预测

4.7决策树可视化

第5章神经网络

5.1单个神经元介绍

5.2经典网络结构介绍

5.3神经网络工作流程演示

5.4如何修正网络参数-梯度下降法

5.5网络工作原理推导

5.6网络搭建准备

5.7样本从输入层到隐层传输的Python实现

5.8网络输出的Python实现

5.9单样本网络训练的Python实现

5.10全样本网络训练的Python实现

5.11网络性能评价

5.12调用sklearn实现神经网络算法

第6章KNN

6.1KNN算法介绍

6.2KNN算法解决鸢尾花分类问题

第7章朴素贝叶斯

7.1非洲人还是北美人

7.2为什么有“朴素”二字

7.3拉普拉斯修正

7.4用高斯朴素贝叶斯算法解决鸢尾花分类问题

第8章聚类分析

8.1聚类分析概述

8.2相似性度量

8.3K-Means聚类分析算法介绍

8.4利用K-Means算法对鸢尾花进行聚类

8.5聚类结果的性能度量

8.6调用sklearn实现聚类分析

第9章支持向量机

9.1间隔与支持向量

9.2对偶问题

9.3核函数

9.4软间隔与正则化

9.5支持向量机算法的Python实现

第10章小结

10.1小结

五、实训目录：

第1模块回归分析

实训1：完成波士顿房价预测模型

实训2：对研究生是否被录取进行预测

第2模块决策树

实训1：决策树算法自编

实训2：用决策树算法构建鸢尾花分类模型

第3模块神经网络

实训1：自定义sigmoid激活函数

实训2：网络输入到输出

实训3：网络权值和阈值更新

实训4：网络模型训练

实训5：网络模型预测

第4模块KNN与朴素贝叶斯

实训1：求距离矩阵

实训2：找邻居

实训3：归类

实训4：自编KNN算法实现鸢尾花分类

第5模块聚类分析

实训1：对鸢尾花数据进行K-Means聚类

第6模块支持向量机

实训1：用支持向量机解决鸢尾花分类11Python文本挖掘实战1套《文本挖掘技术与应用》

一、课程简介

早在上个世纪，已存在人工文本分析挖掘，并广泛应用在密码学等领域，由于技术的受限，这项技术得不到很好的传承与推广，直到近十几年科技的进步使这一领域迅速发展。文本挖掘已广泛应用于信息检索、自动问答、数据挖掘、语言翻译等领域。《文本挖掘技术与应用》是大数据与人工智能Python系列课程的实战课程。课程着重讲解了文本信息转化为数据，进行建模分析，提炼出核心内容、分析文本数据之间的关系等内容，是学习文本挖掘的首选课程。

二、课时数

理论教学36学时，实践教学36学时，总计72学时

3、课程资源包含实训指导书：9份，课程视频：18个，课程PPT：2份，数据：9份，代码：14份。

四、课程内容

第1章文本预处理技术：

1.1文本挖掘概述

第2章文本向量化表示：

2.1文本预处理_正则表达式

2.2中文分词概述

2.2.1机械分词法

2.2.2马尔科夫链分词法

2.2.3隐马尔可夫模型（HMM）

2.2.4viterbi算法

2.2.5隐马尔可夫与viterbi算法应用

2.2.6jieba库_jieba分词

2.3绘制词云

第3章常见文本分类器及评估：

3.1文本向量化表示

第4章垃圾短信分类模型构建：

4.1案例：垃圾短信识别_数据抽取

4.2案例：垃圾短信识别_文本清洗

4.3案例：垃圾短信识别_分词与去除停用词

4.4案例：垃圾短息识别_绘制词云

4.5案例：垃圾短信识别_文本向量化表示

4.6案例：垃圾短信识别_文本分类器

4.7案例：垃圾短信识别_分类模型评估

五、实训目录

第1章文本预处理技术：

实训1正则表达式

实训2中文分词：匹配法

实训3中文分词：HMM

实训4中文分词：HMM的维特比算法实现分词

实训5绘制词云

第4章垃圾短信分类模型构建：

实训1文本分类：数据探索

实训2文本分类：数据预处理

实训3文本分类：绘制词云图

实训4文本分类：识别垃圾短信12Python数据可视化1套《数据可视化技术》

一、课程简介:一幅精心绘制的图形能够帮助我们在数以千计的零散信息中进行比较，提炼出使用其他方法是不那么容易发现的模式。而Python有着非常丰富且强大的绘图功能。本课程将通过讲述创建图形到输出保存图形的整体流程到具体的各种图形及修改图形中的特征来介绍Matplotlib模块、Seaborn模块、Bokeh交互式绘图，向读者逐步呈现Python由基础到高级绘图。

二、理论教学36学时，实践教学36学时，总计72学时

3、课程资源包含实训指导书：35份，课程视频：51个，课程PPT：8份，数据：10份，代码：4份。

四、课程内容：

第1章Matplotlib绘图基础：

1.1Matplotlib绘制流程说明

1.2文本标准与绘图风格

1.3rc参数说明

第2章Matplotlib基础绘图：

2.1Matplotlib绘制散点图

2.2Matplotlib绘制折线图

2.3Matplotlib任务实现

2.4Matplotlib绘制柱状图

2.5Matplotlib绘制饼图

2.6Matplotlib绘制箱线图

2.7分析人口数据特征间的关系

2.8分析人口数据各个特征的分布与分散情况

第3章Seaborn进阶绘图：

3.1Seaborn基础介绍

3.2Seaborn简单绘图

3.3Seaborn绘图风格

3.4Seaborn调色板

3.5Seaborn绘制关系图

3.6Seaborn绘制分类图

3.7Seaborn绘制分布图

3.8Seaborn绘制回归图

3.9Seaborn绘制矩阵图

3.10Seaborn绘制网格图

第4章Bokeh交互式绘图：

4.1Bokeh库介绍

4.2Bokeh基本绘图

4.3Bokeh风格与主题

4.4Bokeh数据源与转换

4.5Bokeh布局

4.6Bokeh绘制条形图

4.7Bokeh绘制网络图

4.8Bokeh导出与嵌入

4.9运行Bokeh应用程序

第5章Pyecharts简介：

5.1Pyecharts介绍

5.2Pyecharts安装

5.3Pyecharts绘图逻辑

第6章Pyecharts绘制基本图表：

6.1Pyecharts绘制日历图

6.2使用Pyecharts绘制主题河流图

6.3使用Pyecharts绘制词云图

6.4Pyecharts绘制漏斗图

6.5Pyecharts绘制仪表盘

6.6Pyecharts绘制水球图

6.7Pyecharts绘制关系图

6.8Pyecharts绘制平行坐标系

6.9使用Pyecharts绘制饼图

6.10使用Pyecharts绘制雷达图

6.11使用Pyecharts绘制词云图

第7章Pyecharts绘制直角坐标系图表：

7.1Pyecharts绘制直角坐标系图表

第8章Pyecharts绘制树形图表：

8.1使用Pyecharts绘制树图

8.2使用Pyecharts绘制矩阵树图

第9章Pyecharts绘制地理图表：

9.1Pyecharts绘制地理图表

第10章Pyecharts绘制3D图表：

10.1Pyecharts绘制3D图表

五、实训目录：

第2章Matplotlib基础绘图：

实训1-绘图基础语法和常用参数

实训2-分析特征间关系

实训3-分析特征内部数据分布于分散状况

实训4-分析1996-2015年人口数据特征间的关系-副本

实训5-分析1996-2015年人口数据各个特征的分布与分散状况

第3章Seaborn进阶绘图：

实训1-实现scatterplot关系图

实训2-实现lineplot关系图

实训3-实现relplot关系图

实训4-实现分类散点图

实训5-实现分类分布图

实训6-实现分类估计图

实训7-实现kdeplot分布图

实训8-实现rugplot分布图

实训9-实现distplot分布图

实训10-实现regplot回归图

实训11-实现lmplot回归图

实训12-实现heatmap矩阵图

实训13-实现clustermap矩阵图

实训14-实现FacetGrid网格图

实训15-实现PairGrid网格图

实训16-实现JoinGrid网格图

第4章Bokeh交互式绘图：

实训1-实现Bokeh基本绘图

实训2-实现Bokeh风格与主题转换

实训3-实现数据源转化

实训4-实现Bokeh布局

实训5-实现条形图与分类数据图

实训6-实现网络图

实训7-实现地理图

实训8-实现图形导出与嵌入

实训9-运行Bokeh应用程序

第6章Pyecharts绘制基本图表

实训1-Pyecharts绘制基本图表

实训2-Pyecharts绘制直角坐标系图表

实训3-Pyecharts绘制树形图表

实训4-Pyecharts绘制地理图表

实训5-Pyecharts绘制3D图表13家用热水器用户行为分析【BP神经网络】1套一、资源

至少包含3份实训指导书、9个课程视频、1份课程PPT、5份数据、3份代码。

二、概要

居民在使用家用电器过程中，会因地区气候、区域不同、用户年龄性别差异，形成不同的使用习惯。家电企业若能深入了解其产品在不同用户群的使用习惯，开发新功能，就能开拓新市场。

三、目标

根据热水器采集到的数据，识别出洗浴事件。

四、流程

1)数据抽取：从国内某热水器生产厂商处抽取用户的用水数据。

2)数据预处理：删除冗余特征；划分用水事件；确定单次用水事件时长阈值；构建用水时长与频率特征、用水量与波动特征；筛选候选洗浴事件。

3)模型构建：将数据划分为训练集和测试集，构建神经网络模型，评价神经网络模型。

4)模型解读：在洗浴事件的识别上精确率（precision）非常高，达到了96%，同时召回率（recall）也达到了70%以上，可以确定此模型是有效并且效果良好的能够用于实际的洗浴事件的识别别中。

五、技术点

冗余特征处理；划分事件；确定阈值；特征构建；神经网络模型。

六、案例内容

1)案例背景

2)删除冗余特征

3)划分用水事件

4)确定单次用水事件时长阈值

5)构建用水时长与频率特征

6)构建停顿特征

7)构建用水量与波动特征

8)筛选候选洗浴事件

9)模型构建

七、实训目录

实训1预处理热水器用户用水数据

实训2构建用水行为特征并筛选用水事件

实训3构建BP神经网络模型14市财政收入分析及预测【SVR】1套一、资源

至少包含4份实训指导书、19个课程视频、1份课程PPT、1份数据、5份代码。

二、概要

在我国现行的分税制财政管理体制下，地方财政收入不但是国家财政收入的重要组成部分，而且具有其相对独立的构成内容。如何制定地方财政支出计划，合理分配地方财政收入，促进地方的发展，提高市民的收入和生活质量是每个地方需要考虑的首要问题。因此，地方财政收入预测是非常必要的。

三、目标

根据历史数据预测财政收入。

四、流程

1)数据抽取：从《统计年鉴》中抽取相关财政的数据。

2)数据探索：分析数据特征的相关性。

3)数据预处理：使用Lasso回归选取财政收入预测的关键特征。

4)模型构建：结合使用灰色预测和SVR算法构建财政收入预测模型；评价模型。

5)模型解读：根据模型评价指标可以看出，建立的支持向量回归模型拟合效果优良，可以用于预测财政收入。

五、技术点

特征的相关性；Lasso回归；灰色预测算法；SVR算法，预测模型评价。

六、案例内容

1)财政收入预测背景介绍

2)数据基本情况介绍

3)分析目标解读

4)项目流程介绍

5)求解person相关系数

6)person相关系数解读

7)了解Lasso回归方法

8)Lasso回归选取关键特征的实现

9)Lasso回归数据写出及相应解读

10)关键特征数据读取及准备

11)GM11特征值预测

12)GM11特征数据整理及写出

13)数据标准化

14)模型训练及预测

15)结果可视化

16)教学目标确认

17)案例任务点拆解

18)技能梳理与串联

19)重难点解析及分享

七、实训目录

实训1分析财政收入数据特征的相关性

实训2Lasso模型选取财政收入预测的关键特征

实训3灰色预测法GM(1,1)预测各自变量值

实训4支持向量回归SVR预测财政收入15城市公交用户出行分析【OD矩阵模型】1套《城市公交站点设置的优化分析》

一、资源包含实训指导书：2份，视频：13个，PPT：1份，数据：76份、代码：6份

二、概要

城市交通情况对于城市规划，居民城市归属感，城市品牌有着至关重要的影响。大城市的可持续发展，应该立足当前、着眼长远，倡导绿色环保出行，大力优先发展城市公共交通，构建性能优良的交通系统工程，是解决城市交通拥堵的有效手段。

三、目标

利用公交车载GPS数据与公交刷卡数据，构建模型，分析居民出行规律，并提出城市公交站点设置的优化建议。

四、流程

1)数据抽取：选取某城市的地面公交车GPS监控数据和地面公交车刷卡数据。

2)数据探索：绘制折线图分析5天每个时间段刷卡的人数。

3)数据预处理：数据归约；缺失值处理；数据合并。

4)模型构建：构建DBSCAN聚类模型，得到每个站点，并计算每个站点的上下车人数，得到OD矩阵。

5)模型应用：根据每个站的上下车人数，提供站点的优化方案。

五、技术点

数据归约；缺失值处理；数据合并；DBSCAN聚类模型；OD矩阵。

六、案例内容

1)案例背景

2)数据情况与挖掘目标

3)分析方法与过程、数据抽取

4)数据探索

5)数据预处理

6)数据读取（Python实现）

7)数据预处理（Python实现）

8)数据探索（Python实现）

9)案例思路与密度聚类分析

10)构建OD矩阵模型

11)密度聚类（Python实现）

12)分时段（Python实现）

13)构建OD矩阵模型（Python实现）

七、实训目录

实训1数据探索分析与预处理

实训2模型构建16电力窃漏电用户识别【随机森林】1套一、资源至少包含3份实训指导书、11个课程视频、1份课程PPT、17份数据、6份代码

二、概要

电力是以电能作为动力的能源。发明于19世纪70年代，电力的发明和应用掀起了第二次工业化高潮。成为人类历史18世纪以来，世界发生的三次科技革命之一，从此科技改变了人们的生活。20世纪出现的大规模电力系统是人类工程科学史上最重要的成就之一，是由发电、输电、变电、配电和用电等环节组成的电力生产与消费系统。它将自然界的一次能源通过机械能装置转化成电力，再经输电、变电和配电将电力供应到各用户。据统计，全国每年因窃电造成的损失都在200亿元左右；被查获的窃电案件不足总窃电案件的30%。

三、目标

根据电力营销系统与计量自动化系统数据，构建窃漏电用户识别模型，自动检测判断是否存在窃漏电行为。

四、流程

1)数据抽取：从营销、计量自动化系统收集目标数据。

2)数据探索：统计出各个用电类别的窃漏电用户分布情况；随机抽取一个正常用电用户和一个窃漏电用户，采用周期性分析对用电量进行探索；异常用电电量探索；

3)数据预处理：将非居民用电类别的用电数据过滤掉；过滤节假日的用电数据；插补缺失值。

4)指标构造：构造电量趋势下降指标；构造线损指标；构造告警指标。

5)模型构建：将数据划分为训练集和测试集，占比分别为80%、20%；构建CART决策树模型；评价模型。

6)结果诊断：用构建好的窃漏电用户识别模型计算用户的窃漏电诊断结果，实现窃漏电用户实时诊断，并与实际稽查结果作对比。

五、技术点

pyplot图形绘制；缺失值处理；CART决策树模型。

六、案例内容

1)案例背景

2)项目案例整体流程

3)数据抽取

4)数据探索分析

5)数据预处理

6)特征构建

7)模型构建与评价

8)代码实现流程梳理

9)数据探索代码实现

10)告警指标构建代码实现

11)随机森林模型构建与评估

七、实训目录

实训1数据抽取与探索分析

实训2数据预处理

实训3模型构建17航空公司客户价值分析【K-Means聚类】1套一、资源

至少包含2份实训指导书、13个课程视频、1份课程PPT、1份数据、2份代码

二、概要

民航的竞争除了三大航空公司之间的竞争之外，还将加入新崛起的各类小型航空公司、民营航空公司，甚至国外航空巨头。航空产品生产过剩，产品同质化特征愈加明显，于是航空公司从价格、服务间的竞争逐渐转向对客户的竞争。随着高铁、动车等铁路运输的兴建，航空公司受到巨大冲击。目前航空公司已积累了大量的会员档案信息和其乘坐航班记录，利用这些记录今夕特征分析可以对不同价值的客户制定相应的营.销策.略。

三、目标

对不同价值的客户类别提供个性化服务，制定相应的营.销策.略。

四、流程

1)数据抽取：从航空公司处抽取会员档案信息和其乘坐航班记录。

2)数据预处理：处理数据缺失值与异常值；构建航空客户价值分析关键特征L、R、F、M、C；标准化L、R、F、M、C特征。

3)模型构建：构建K-Means聚类模型，对客户进行分群。

4)模型应用：根据每个群的特点，可定义五个等级的客户类别：重要保持客户、重要发展客户、重要挽留客户、一般客户、低价值客户，并根据这五个等级的客户制定3种营.销策.略：会员的升级与保级、首次兑换积分、交叉销售。

五、技术点

缺失值处理；异常值处理；构建特征；K-Means聚类模型。

六、案例内容

1)案例背景

2)案例目标

3)数据读取

4)剔除票价为空的记录

5)剔除异常记录

6)RFM模型介绍

7)LRFMC模型

8)构造入会时长特征

9)剩余特征构造

10)使用K-means算法进行客户分群

11)获取K-Means聚类结果

12)聚类结果可视化

13)小结

七、实训目录

实训1预处理航空客户数据

实训2使用K-Means算法进行客户分群18广电大数据营销推荐【协同过滤】1套《广电大数据营销推荐项目实战》

一、资源包含实训指导书：8份，视频：26个，数据：8份、代码：14份

二、概要

随着经济的不断发展，人民的生活水平显著提高，对生活质量的要求也在提高。互联网技术的快速发展适应了时代的需求。为人们提供了许多娱乐的渠道。其中“三网融合”为人们在信息化时代利用网络等高科技手段获取所需的信息提供了极大的便利性。在三网融合的大背景下，广播电视运营商与众多的家庭用户实现信息实时交互。广电为了提升自身的竞争力，需要不断提高用户体验，基于已有数据挖掘其价值。

三、目标

利用产品信息数据，对用户提供个性化精准推荐服务，有效提升用户的转化和生命周期价值。

四、流程

1)数据抽取：从某集团的大数据平台抽取收视行为信息数据、账单数据、订单数据、收费数据及用户状态数据。

2)数据预处理：在收视行为信息数据中，去重，处理异常值数据；在账单数据与收费数据中，删除特殊线路的用户和政企用户；在订单数据中，去重，删除与分析无关的数据，选择符合时间规则的数据；在用户状态数据中，删除与分析无关的数据。

3)数据探索：绘制条形图查看用户观看总时长，绘制折线图查看付费频道与点播回看的周观看时长；对比分析工作日与周末观看时长；对所有收视频道名称的观看时长与观看次数进行贡献度分析；建立标签库；构建用户画像（客户特征、业务特征、兴趣爱好）；基于每个数据，构建相关特征；通过爬虫来获取一些新的产品标签数据。

4)模型构建：构建基于物品的协同过滤算法的推荐模型；构建基于SimpleTagBasedTF-IDF算法的标签推荐模型；构建Popular流行度推荐模型。

5)模型解读：计算分类准确度、召回率指标，对比基于物品的协同过滤算法的推荐模型与Popular流行度推荐模型的性能，可以发现协同过滤算法推荐效果优于流行度算法。

五、技术点

重复值处理；异常值处理；pyplot图形绘制；用户画像；构建特征；爬虫；基于物品的协同过滤算法的推荐模型；基于SimpleTagBasedTF-IDF算法的标签推荐模型；Popular流行度推荐模型。

六、案例内容

1)背景与目标

2)目标分析与解读

3)数据介绍

4)收视数据探索

5)异常数据探索

6)收视数据处理介绍

7)去除特殊线路和政企用户记录

8)去除直播记录中不关机顶盒的数据记录

9)去除累计超过3小时或小于4秒的直播记录

10)订单数据预处理介绍

11)订单数据处理-业务品牌和用户状态筛选

12)订单数据预处理-产品失效时间和去重处理

13)保存预处理后的数据

14)用户观看电视时长可视化

15)热门频道的可视化

16)构建标签库介绍

17)客户标签的计算方式

18)产品标签体系

19)客户标签体系介绍

20)客户标签计算方法

21)电视依赖度标签计算-低

22)电视依赖度标签计算-中高

23)用户画像构建

24)协同过滤推荐

25)基于流行度的推荐

26)案例小结及平台呈现

七、实训目录

实训1数据准备

实训2构建用户画像

实训3客户价值分析

实训4节目信息的获取

实训5构建基于物品的协同过滤推荐模型

实训6构建基于SimpleTagBasedTF-IDF的标签推荐模型

实训7构建Popular流行度推荐模型

实训8模型评价与结果分析19《流浪地球》豆瓣影评采集【Selenium】1套《爬虫实践:《流浪地球》豆瓣影评分析》

一、资源包含实训指导书：4份，视频：28个，PPT：1份，数据：2份、代码：4份

二、概要

2019年2月5日电影《流浪地球》正式在内地上映，业界明星都对该电影给予极高的评价，可是公映后，豆瓣评分却一度下降，观众对该电影的评价呈现2个极端。

三、目标

根据豆瓣对《流浪地球》的短评数据进行文本挖掘及可视化的操作。

四、流程

1)数据抽取：通过爬虫获取评论数据。

2)数据处理：删除不符合分析的字符串符号。

3)统计分析：绘制词云图展示总体评论；绘制词云图展示好评与差评；统计评分；绘制时序图查看评论数量随日期、时刻的变化；分析豆瓣评分的时间趋势。

五、技术点

Selenium爬虫；XPath网页解析；数据保存；pyplot图形绘制。

六、案例内容

1)案例背景与挖掘目标

2)短评数据爬取介绍

3)安装selenium及配置chromedriver

4)获取用户名

5)获取短评正文

6)设置coo.kies

7)获取用户居住地和入会时间信息

8)单页数据整理

9)自定义获取单页数据的函数

10)判定网页是否已被加载

11)翻页爬取

12)代码整理及小结

13)短评正文数据预处理

14)词频统计

15)绘制整体评论数据的词云图

16)好评差评词云图绘制及小结

17)评分分数分布统计

18)短评数量与日期的关系

19)短评数量与时刻的关系

20)不同评分数量与时间的关系

21)评论最多的前十个城市

22)评分数量与城市的关系

23)总结

24)教学目标确认

25)案例任务点拆解

26)技能梳理与串联

27)重难点解析

28)教学技巧分享

七、实训目录

实训1获取豆瓣短评数据

实训2分析好评与差评的关键信息

实训3分析评论数量及评分与时间的关系

实训4分析评论者的城市分布情况20电商产品评论数据情感分析【LDA模型】1套资源

至少包含4份实训指导书、22个课程视频、1份课程PPT、3份数据、4份代码

二、概要

网购盛行，许多人都能够上网网购，电商平台之间的竞争十分激烈。如今消费者的反馈通畅，并且在消费评论蕴含丰富信息。分析信息能够知道消费者的意见和评价。

三、目标

对京东平台上的热水器评论做文本挖掘分析，分析某一热水器的用户情感倾向，从评论文本中挖掘出该热水器的优点与不足。

四、流程

1)数据抽取：爬取‘美的’的评论数据。

2)数据预处理：对评论数据进行文本去重、停用词去除、分词操作。

3)模型构建：通过LDA模型对评论数据进行主题分析，形成3个主题。

4)模型解读：主题1反映了美的热水器安装收费和售后服务问题；主题2反映的是美的热水器不满足用户需求等；主题3反映了美的热水器自己安装的问题。从热水器的质量和服务人员的素质上提升竞争力。

五、技术点

文本去重、文本分词、LDA

六、案例内容

1)背景与目标

2)数据介绍

3)数据读取及简单查看

4)剔除换行符

5)去除评论数据中的产品型号信息

6)去除html语言中的表情符号

7)文本去重

8)分词及去停用词

9)词云绘制

10)文本情感分析介绍

11)读取所需词表

12)计算情感词分数

13)程度副词计算

14)否定词计算

15)程度副词和否定词融合

16)自定义分值计算函数

17)所有评论数据的情感得分

18)保存处理后的评论数据

19)LDA主题模型介绍

20)读取好评数据

21)LDA主题模型构建

22)小结

七、实训目录

实训1数据预处理

实训2分词并去除停用词

实训3根据情感评分划分正面评论与负面评论

实训4构建主题模型21垃圾短信智能识别【朴素贝叶斯】1套一、资源

至少包含5份实训指导书、14个课程视频、1份课程PPT、5份数据、5份代码

二、概要

据统计，各类垃圾内容中，冒充类短信占所有垃圾短信的92.9%，多以银行诈骗、互联网虚假网购、电信诈骗等内容为主。

三、目标

基于短信文本内容，建立识别模型，准确地识别出垃圾短信，以解决垃圾短信过滤问题。

四、流程

1)数据抽取：抽取某运营商短信数据。

2)数据探索：统计正反例样本数量；设置图形参数；绘制图形。

3)数据预处理：采用欠抽样技术使得两个类别的样本数相同；去除重复样本；去除脱敏字符；利用jieba分词包对短信作分词处理；去除停用词。

4)绘制词云图：统计分好了词的短信数据的词频；设置词云的轮廓、绘图窗口大小等参数；绘制正负样本词云图。

5)识别垃圾短信：对数据进行拆分，分成训练集和测试集；使用文档向量表达短信的文本数据；构建多项式贝叶斯模型；评价多项式贝叶斯模型。

五、技术点

词云图、文档向量、多项式贝叶斯模型、词频统计、分词、去停用词。

六、案例内容

1)背景与目标

2)数据读取

3)数据抽取

4)去除短信中的x序列

5)结巴分词

6)去除停用词

7)数据预处理函数封装

8)垃圾短信的词频统计

9)词云图绘制

10)文本数据的向量化表达

11)获取训练样本的tf-idf权值向量

12)获取测试样本的tf-idf权值向量

13)模型训练及评价

14)小结

七、实训目录

实训1数据分布探索

实训2文本数据清洗

实训3绘制正常短信和垃圾短信的词云图

实训4构建词条文档矩阵

实训5贝叶斯分类模型构建和评价22水产养殖水质智能识别【颜色矩】1套一、资源

至少包含4份实训指导书、16个课程视频、1份课程PPT、197份数据、3份代码

二、概要

水产养殖的关键因素之一是水质，养殖水体生态系统的平衡状况可通过水质颜色体现而传统水质监控的关键是行家。在这种过程中，行家判断存在着局限性：对个人经验要求高，存在主观性引起的观察性偏差观察结果的可比性、可重复性不高，不易推广应用。

三、目标

根据水质图片，利用图像处理技术和相应模型，实现水质的自动评价。

四、流程

1)数据抽取：抽取某地区多个罗非鱼池水样图片数据。

2)数据预处理：使用图像切割提取水样图像中央部分具有代表意义的图像；对切割后的图像提取其颜色矩，作为图像的颜色特征。

3)构建分类模型：对建模数据进行数据标准化；划分训练集与测试集；构建支持向量机（SVM）模型。

4)模型评价：将测试集带入构建的模型，得到预测结果；使用混淆矩阵评价水质。

五、技术点

图像切割、颜色矩提取、决策树、混淆矩阵。

六、案例内容

1)案例背景与目标

2)读取一张图片数据

3)获取图片数据的像素值矩阵

4)截取图像的有效区域

5)水质图像特征-颜色矩

6)三个颜色矩的Python实现

7)如何进行批量化数据转换

8)自定义函数获取指定路径中的所有图片名称_x264

9)处理所有图片数据

10)数据处理代码整理

11)模型构建与性能评估

12)教学目标确认

13)案例任务点拆解

14)技能点梳理及串联

15)重难点解析

16)教学技巧分享

七、实训目录

实训1数据清洗

实训2特征提取

实训3建模前数据整理

实训4模型构建与评估23招聘网站数据采集与人才需求分析【Request】1套《大数据岗位人才招聘信息的分析与挖掘》

一、资源至少包含11份实训指导书、26个课程视频、1份课程PPT、5份数据、3份代码

二、概要

在这个信息高速发展的时代，人才市场网络化的产生，使得网络招聘越来越成为如今社会的主流趋势，它以招聘范围广、方便迅速、不受时空限制等区别于传统招聘的优势成为越来越多求职者和企业单位青睐的招聘渠道，在人力资源招募与配置方面中起着至关重要的作用。同时，随着互联网、云计算和大数据产业的兴起，面对海量的网络数据，数据分析、数据挖掘等相应行业也正快速发展。网络招聘信息反映着各行各业的发展现状，各地区发展水平，不同职业类型对人才基本条件、能力和素质的要求，以及对新兴行业的发展动向都有着最及时有效的传达。因此，对网络招聘信息进行分析研究，了解不同职业领域的需求特点，挖掘兴起的数据类行业相应的人才需求现状及发展趋势，为广大求职者提供正确的就业指导有着重要意义。

三、目标

1)爬取招聘网站全国范围内大数据、数据分析、数据挖掘、机器学习、人工智能等相关岗位的招聘信息。

2)分析比较不同岗位的薪资、学历要求等情况，并进行可视化呈现。

3)分析比较不同区域、行业对相关人才的需求情况，并进行可视化呈现。

4)分析比较不同岗位的知识、技能要求。

5)对大数据人才培养给出相关建议。

四、流程

1)数据采集：从某主流招聘网站中采集大数据相关岗位人才信息

2)数据预处理：对采集的各个字段进行预处理

3)数据分析：分析比较不同岗位的薪资、学历要求等情况，并进行可视化呈现。

4)数据分析：分析比较不同区域、行业对相关人才的需求情况，并进行可视化呈现。

5)数据分析：分析比较不同岗位的知识、技能要求。

6)模型解读：经过对不同职业类型对人才的技术要求分析，得知在互联网的发展下，对于人才的沟通协调能力及自主学习能力都较为注重，且倾向具备一定编程基础、数据库基础的人才，也需要有创造力和管理能力的人才。

五、技术点

数据采集；XPath查询语言；字符串处理；数据可视化；数据合并；词云。

六、案例内容

1)背景与目标

2)信息爬取介绍

3)获取岗位名称数据

4)获取目录页的所有字段信息

5)获取二级网址的网页链接

6)获取二级网址的所有字段信息

7)对单一目录页中的所有二级网页信息进行抓取

8)将第一个目录页的数据进行保存

9)批量爬取及数据保存

10)已爬取数据介绍

11)根据岗位名筛选招聘信息_batch

12)统一岗位名称

13)根据工资列筛选数据

14)完成工资数据处理

15)工作地点字段处理

16)公司类型字段处理

17)行业字段数据处理

18)工作描述字段处理_batch

19)公司规模字段处理

20)数据预处理小结

21)热门招聘岗位可视化

22)热门行业及公司招聘分析

23)热门岗位的工资水平

24)可视化综合分析_batch

25)岗位技能分析

26)总结

七、实训目录

实训1数据采集：目录页信息采集

实训2数据采集：岗位介绍页信息采集

实训3数据采集：循环采集岗位信息

实训4岗位信息预处理

实训5岗位分布分析

实训6热门行业分析

实训7热门岗位的薪资待遇分析

实训8热门行业的薪资待遇分析

实训9热门城市的薪资待遇分析

实训10不同体量企业的薪资待遇分析

实训11岗位技能分析24基于医学影像的血管三维重构【最近邻约束】1套一、资源

包含视频、PPT、实训指导书、数据、代码

二、概要

这个案例的来源于序列图像的计算机三维重建。序列图像的计算机三维重建是应用数学和计算机技术在医学与生物学领域的重要应用之一；是医学和生物学的重要研究方法，它帮助人本由表及里、由浅入深地认识生物体的内部性质与变化，理解其空间结构和形态。

血管是血液流通的通路，其在生命活动中的重要性是众所周知，诊断师在临床中经常需要了解血管的分布、走向等重要信息。理想的血管可以看成是粗细均匀的管道，如何建立其数学模型是图像三维重构的重要一环。

三、课时数

理论教学8学时，实践教学8学时，总计16学时。

四、案例资源包含10份实训指导书、2个课程视频、1份课程PPT、113份数据、2份代码。

五、目标

1)计算管道的中轴线与半径，给出具体的算法；

2)绘制中轴线在XY、YZ、ZX平面的投影图。

六、流程

1)问题描述：了解问题背景，简化问题及合理假设。

2)解题思路：必要假设及假设验证。

3)数字图像的读取和显示；

4)血管半径计算：直接搜索法、内切圆算法、切线法。

5)确定切片的圆心；

6)多圆心处理；

7)拟合平滑处理；

8)模型检验。

七、技术点

图像读取；半径计算；确定圆心；拟合平滑处理。

八、案例内容

1)背景与挖掘目标

2)解题思路

九、实训目录

实训1问题描述

实训2解题思路

实训3数字图像的读取与显示

实训4直觉思维法

实训5内切圆算法

实训6叠加算法

实训7确定切片的圆心

实训8多圆心处理

实训9拟合平滑处理

实训10模型检验25Linux操作系统基础1套《Linux基础》

一、课程简介

目前在大数据领域，主流的服务器操作系统、主流的软件开发环境和主流的互联网应用都是基于Linux系统。《Linux操作系统》是大数据技术系列课程的基础课程，采用了理论与实践相结合的教学模式。课程以培养学生的动手实践能力为主，逐步展开介绍相关的理论知识点，配合相应的实践操作，给学生充分的实战指导。通过学习本课程，能够让学生掌握大数据技术所需的Linux技术。

二、课时数

理论教学36学时，实践教学36学时，总计72学时

3、课程资源包含实训指导书：111份，课程视频：22个，课程PPT：4份，数据：1份，代码：15份。

四、课程内容

第1章Linux简介：

1.1Linux简介与发展历程

1.2Linux常见版本

第2章Linux基本命令：

2.1Linux文件系统树

2.2创建与删除目录或文件

2.3查看文件内容

2.4创建硬链接和符号链接

2.5帮助命令

2.6重定向相关命令

2.7用户及用户组

2.8权限相关命令

2.9用户、用户组及权限实践操作

2.10进程

第3章LinuxVi编辑器：

3.1模式介绍与常见快捷命令

3.2.1一般模式快捷键

3.2.2编辑模式与指令模式快捷键

第4章LinuxShell编程：

4.1LinuxShell编程介绍

4.2变量和字符串

4.3数组与参数传递

4.4.1算术运算符

4.4.2比较型运算符

4.4.3运算符实践操作

4.5for循环

五、实验目录

实验1安装CentOSLinux服务器

实验2Linux图形界面基本操作

实验3Linux文本模式基本操作

实验4Linux命令行与Shell操作

实验5使用vim编辑器

实验6用户与用户组管理

实验7文件与目录管理

实验8管理文件权限

实验9网络连接配置

实验10软件安装

实验11创建和管理Linux磁盘分区

实验12创建和使用文件系统

实验13磁盘阵列配置与管理

实验14逻辑卷配置与管理

实验15配置和管理交换空间

实验16管理磁盘配额

实验17文件系统的备份

实验18Linux进程管理

实验19计划任务管理

实验20内核管理

实验21硬件管理

实验22创建systemd单元文件(以emacs.service为例)

实验23systemd基本管理操作

实验24使用systemd管理Linux服务

实验25使用systemd实现计划任务管理

实验26Linux系统启动过程分析

实验27Linux系统启动配置与故障排除

实验28系统性能监测

实验29配置和使用rsyslog系统日志系统

实验30配置和使用systemd日志

实验31NetworkManager与network脚本

实验32使用sysconfig文件进行网络配置

实验33两块网卡绑定的操作

实验34两块网卡组合的操作

实验35两块网卡进行桥接操作

实验36网络测试与监控

实验37IP路由与路由器使用

实验38静态路由配置示例

实验39动态路由配置示例

实验40Libreswan的安装及部署

实验41主机到主机IPsecVPN连接配置

实验42网络到网络IPsecVPN连接配置

实验43firewalld安装

实验44firewalld服务管理

实验45区域的配置和管理

实验46在区域中设置常规规则

实验47设置富语言规则和直接规则

实验48使用图形界面配置工具firewall-config

实验49基本网络防火墙配置

实验50通过端口转发发布内网服务器

实验51配置PAM

实验52使用TCPWrappers控制网络服务访问

实验53进程的SELINUX上下文-查看passwd工具示例

实验54启用SELinux

实验55SELinux类型文件标记

实验56系统审核实现

实验57安装DNS服务器

实验58主DNS服务器配置实例

实验59管理DNS服务

实验60DNS客户端配置与管理

实验61使用rndc管理DNS服务器

实验62配置DNS转发服务器

实验63配置根区域自定义DNS递归查询

实验64部署主DNS服务器与辅助DNS服务器

实验65使用view语句实现分区解析

实验66DHCP服务器的部署、启动与管理

实验67DHCP客户端配置和地址租约管理

实验68地址池定义和使用分组简化DHCP配置

实验69共享网络配置

实验70与DHCP集成实现DNS动态更新

实验71安装和运行NFS服务

实验72配置和测试NFS服务器

实验73配置和使用NFS客户端

实验74部署Samba服务器

实验75在Samba服务器中配置匿名共享

实验76在Samba服务器中配置安全共享

实验77Samba主配置文件编辑、Samba用户配置和管理

实验78监测Samba服务器

实验79Linux和Windows客户端访问Samba服务器

实验800Samba客户端访问控制

实验81配置和管理本地打印机

实验82配置CUPS打印服务器

实验83部署Samba打印服务器

实验84部署Apache服务器

实验85部署MariaDB数据库服务器

实验86配置PHP应用程序

实验87使用phpMyAdmin管理MariaDB

实验88虚拟主机配置实例

实验89在单一IP地址上运行多个基于名称的Web网站

实验90在多个IP地址上运行基于名称的Web网站

实验91基于TCP端口架设多个Web网站

实验92使用基本认证方法实现Web用户认证

实验93为Apache服务器配置SSL

实验94penSSH的安装与配置

实验95SSH客户端的使用

实验96VNC服务器的安装与配置

实验97VNC客户端的使用

实验98Linux虚拟化基础virt命令的使用

实验99KVM虚拟系

人人文库> 全部分类> 行业资料 > 信息产业

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

数据科学与大数据技术实验室建设需求

文档简介

温馨提示

最新文档

评论

相关文档