大数据分析技术教学大纲课程设计_第1页
大数据分析技术教学大纲课程设计_第2页
大数据分析技术教学大纲课程设计_第3页
大数据分析技术教学大纲课程设计_第4页
大数据分析技术教学大纲课程设计_第5页
已阅读5页,还剩24页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

PAGE2**学院《大数据分析技术》课程教学大纲(课程类别:理论课(含课内实践))课程基本信息课程名称大数据分析技术BigdataAnalysisTechnology课程代码0600084课程性质必修£选修课程类型£思想政治理论课£通识课程£专业基础课程专业核心课程£专业方向(选修)课程£集中性实践课程£创新创业与劳动教育课程£通识扩展课程考核方式£考试考查适用专业数据科学与大数据技术开课单位数学与计算机学院开课学期第4学期学时学分学分:2总学时:48理论学时:16实践学时:32先修课程数学分析、高等代数、概率论与数理统计、Python程序设计二、课程简介(性质、内容、任务)性质:《大数据分析技术》是应用统计学专业的一门专业核心课。内容:本课程主要介绍数据预处理、无监督学习、有监督学习(回归、分类)和深度学习五个模块的数据分析理论及实践,对应有数据预处理、插值与拟合、回归分析(一元和多元、线性和非线性)、logistic回归、树结构模型(决策树、随机森林、轻梯度提升机器)、支持向量机、聚类分析(模糊c均值聚类、kmeans++、KNN)、特征降维(PCA、ICA、t-SNE)、复杂网络分析及基于pytorch的深度学习(经典神经网络、深度神经网络)等数据分析技术。任务:通过本课程的学习,学生可以了解数据的价值及数据分析的重要性,掌握数据预处理、机器学习、深度学习等数据分析技术,具备数据建模、python编程、应用统计、数据分析报告撰写等能力。三、课程目标本课程的任务是通过课堂教学和实验教学,使学生获得数据科学与大数据技术领域的基本知识,提高学生分析和解决大数据价值挖掘方面问题的能力,支撑专业学习成果中相应指标点的达成。通过本课程学习,预期学生可以具备以下知识、技能或素养:课程目标1(L01):熟练掌握和运用数据预处理的基本原理、基本概念、基本知识对原始数据进行数据清洗、数据集成、缺失项(及重复项、奇异项)数据的发现与处理、数据变换(标准化、归一化、离散化、编码)、数据规约等一系列操作,原始数据经预处理后成为数据成品,保存于数据仓库进行分类和管理,备后续应用。(开启数据分析第一个步骤)课程目标2(L02):掌握监督学习方法的基本原理、基本概念和基本知识,熟练运用插值、拟合、回归分析、树结构模型、支持向量机等技术进行数据建模,进而完成数据预处理、因果推断、趋势预测、特征重要性评估等分析任务,并对模型精确性进行有效评估。课程目标3(L03):掌握无监督学习的基本原理、基本概念和基本知识,熟练运用聚类分析、特征降维等技术进行数据建模,进而完成样本归类、标准模式库的建立等分析任务,并对模型精确性进行有效评估,对降维效果进行可视化。熟练运用复杂网络分析相关知识完成社交网络、互联网搜索、信用评估和风险控制、交通流量管理、流行病学研究等领域的数据分析任务,挖掘网络中的超级节点和社区结构。课程目标4(L04):理解神经网络的概念,并能延伸理解深度学习的概念。熟练运用神经网络和深度学习知识建立数据分析模型,完成因果推断、趋势预测等任务。课程目标支撑毕业要求指标点及指标内涵支撑毕业要求指标点及贡献度(H/M/L)L012-3对原始数据进行预处理:数据集成、数据清洗、数据变换及数据归约,并对预处理完成的数据进行有效管理以备后用。2-3/ML023-3能熟练运用有监督机器学习相关方法和原理进行数据预处理、因果推断和趋势预测等分析,并能对模型精确性进行评估,能对模型进行统计检验。3-3/HL033-3能熟练运用无监督机器学习相关方法和原理进行聚类分析、特征降维和复杂网络分析,并能对聚类模型精确性进行评估。3-3/HL045-1能运用深度学习相关方法和原理进行图像分类、目标检测、文本分类等分析。5-1/H(说明:将通用标准中的毕业要求指标点及指标内涵与本专业知识和能力相结合进行描述;H-高支撑、M-中支撑、L-低支撑)教学内容及要求教学单元一:数据预处理学时:9其中实验学时:6支撑课程目标:4、5主要内容填写说明:某一单元包含的主要内容,不写章节,可逐项列出。须包含思政融入点、教学重难点。内容思政融入点重点难点数据集成培养“数据是战略资源”意识,树立加强数据管理、数据安全观念数据集成的概念数据集成的Python实现数据清洗数据清洗的概念数据清洗的Python实现数据变换数据变换的概念数据变换的Python实现数据归约实验内容填写说明:实验名称、学时、目的要求、方法原理、主要实验仪器及材料、掌握要点、实验内容、实验类型(演示性、验证性、设计性、综合性、研究性等)、实验要求(必做、选做)、安全教育。实验一1实验名称数据集成-新冠疫情数据统计2学时33目的要求(1)掌握在excel中进行数据清洗的基本方法;(2)掌握应用Python进行缺失数据填充等基本数据清洗的操作;(3)熟练掌握应用pandas实现数据集成。4方法原理应用excel和pandas等工具实现数据清洗和集成5主要实验仪器及材料电脑,excel(或wps),anaconda(python、spyder)6掌握要点(1)应用excel实现初步数据清洗(2)应用python实现缺失项填充、重复项发现及处理、奇异项发现及处理、数据光滑处理等基本数据清洗;(3)应用pandas实现数据集成。7实验内容将全国各省新冠肺炎疫情数据汇集在一张电子表格中,并进行数据清洗8实验类型综合性9实验要求必做实验二1实验名称数据变换-空气质量监测数据分析2学时33目的要求(1)掌握在excel中进行数据清洗的基本方法;(2)掌握应用Python进行缺失数据填充等基本数据清洗的操作;(3)熟练掌握应用python实现数据变换。4方法原理应用excel和python等工具实现数据清洗和数据变换5主要实验仪器及材料电脑,excel(或wps),anaconda(python、spyder)6掌握要点(1)应用python实现缺失项填充、重复项发现及处理、奇异项发现及处理、数据光滑处理等基本数据清洗;(2)应用python实现数据变换7实验内容对空气质量监测数据进行预处理,再对预处理后的数据施行数据变换8实验类型综合性9实验要求必做教学方式填写说明:教学方式包含讲授、练习、演示、讨论、实验、上机操作、小组报告、线上线下混合教学等。教学方式应清楚明确,详细描述。1.教师讲授数据预处理的概念及必要性等知识点。2.围绕“集成”、“清洗”、“变换”等主题,学生自由讨论,相互启发;3.教师总结并引导学生纠正或坚持自己在上述主题的讨论中所形成的认知(经验或知识);培养学生多途径获取知识的能力。教学单元二:有监督学习学时:21其中实验学时:14支撑课程目标:4、5主要内容(注明重、难点)内容思政融入点重点难点插值与拟合寻找真相、逼近真相插值与拟合的python实现插值与拟合的概念回归分析向平庸回归线性回归分析非线性回归分析Logistic回归格物致知Logistic回归的python实现Logistic回归的概念树结构模型决策树生长联想中国家谱文化决策树、随机森林lightGBM支持向量机完美的数学模型支持向量机的python实现支持向量机的数学原理实验内容实验三1实验名称插值-水箱水流量问题2学时33目的要求(1)理解插值的含义及基于Python的实现;(2)掌握应用插值技术进行缺失数据的填充;(3)会应用python计算数值导数。4方法原理线性插值、多项式插值、样条插值原理5主要实验仪器及材料电脑,excel(或wps),anaconda(python、spyder)6掌握要点(1)应用erpolate模块实现插值;(2)应用插值进行缺失数据的填充;(3)会应用numpy.gradient计算数值导数。7实验内容水箱水流量问题:根据观测数据推断水箱流速8实验类型研究性9实验要求必做实验四1实验名称多元线性回归分析-产品销量与广告媒体投入之间关系分析2学时33目的要求(1)理解多元线性回归模型的概念,掌握应用Python实现多元线性回归模型的参数估计及模型评估,能应用Python做各种统计检验;(2)掌握应用Python工具箱stats,scipy,sklearn求解多元线性回归模型的方法和步骤。4方法原理多元线性回归模型5主要实验仪器及材料电脑,excel(或wps),anaconda(python、spyder)6掌握要点(1)掌握多元线性回归建模步骤(2)熟练掌握应用python求解多元线性规划模型,并进行各种检验7实验内容根据产品销量与广告媒体投入的数据,分析产品销量与广告媒体投入之间的关系8实验类型综合性9实验要求必做实验五1实验名称树结构模型-信贷影响因素研究2学时53目的要求(1)理解决策树和随机森林模型的概念,掌握应用决策树求解问题的最优解决方案,掌握应用随机森林挖掘特征的重要性,掌握应用Python实现决策树和随机森林的方法和步骤;(2)了解信贷的背景和一些操作方法,做一个讲信用、有信誉的人。4方法原理决策树,随机森林,lightGBM5主要实验仪器及材料电脑,excel(或wps),anaconda(python、spyder)6掌握要点(1)应用决策树或随机森林解决信贷人员类别预测问题;(2)信贷影响因素重要性的评估7实验内容根据信贷记录应用决策树、随机森林或lightGBM预测信贷成员类别8实验类型综合性9实验要求必做实验六1实验名称支持向量机-口罩销量影响因素研究2学时33目的要求(1)熟练掌握应用支持向量机回归器对口罩销量进行预测;(2)了解空气质量的描述方法,做一个环保的人,为国家“绿水青山就是金山银山”的环保战略贡献一份力量。4方法原理支持向量机5主要实验仪器及材料电脑,excel(或wps),anaconda(python、spyder)6掌握要点(1)了解支持向量机回归模型的建模步骤;(2)应用支持向量机回归器实现口罩销量的预测7实验内容应用支持向量机预测口罩销量8实验类型研究性9实验要求必做教学方式1.教师讲授插值、logistic回归、决策树、支持向量机等模型的原理、建模方法和步骤。2.围绕拟合、回归分析、随机森林等主题,学生自由讨论,相互启发;3.学生分组对拟合、回归分析、随机森林等主题查阅资料,引导学生学会通过文献等途径获取知识,培养自学的能力,形成自己的观点和见解;4.各组汇报、相互提问、质疑辩驳、自由表达;5.教师总结并引导学生理解从插值到拟合再到回归分析、从决策树到随机森林的学习扩展途径;培养学生从特殊到一般、从现象到规律的融会贯通的能力。教学单元三:无监督学习学时:12其中实验学时:8支撑课程目标:4、5主要内容(注明重、难点)内容思政融入点重点难点聚类分析物以类聚模糊C均值聚类、kmeans++KNN特征降维化繁为简PCA,ICAt-SNE复杂网络分析大海航行靠舵手中心性分析社区检测实验内容实验七1实验名称聚类分析-大型百货商场会员画像2学时33目的要求(1)理解聚类分析的概念,掌握应用模糊C均值聚类、k均值聚类、k最邻近聚类等方法进行聚类分析,掌握应用Python实现上述聚类方法的步骤,并能熟练地对各聚类方法进行评估;(2)了解大型百货商场的会员管理策略。4方法原理模糊c均值聚类,k均值聚类、k最邻近聚类5主要实验仪器及材料电脑,excel(或wps),anaconda(python、spyder)6掌握要点(1)应用模糊c均值聚类(k均值聚类、k最邻近聚类)对大型百货商场会员画像,为大型百货商场会员管理提供建议;(2)掌握聚类分析评估方法;(3)了解大型百货商场会员管理策略。7实验内容利用会员消费明细对会员进行画像。8实验类型综合性9实验要求必做实验八1实验名称特征降维-大学生公益参与情况影响因素分析2学时33目的要求(1)理解特征降维的概念,掌握PCA、ICA、t-SNE等特征降维方法;(2)熟练掌握应用python实现特征降维解决高维因果推断问题。4方法原理PCA,ICA,t-SNE5主要实验仪器及材料电脑,excel(或wps),anaconda(python、spyder)6掌握要点(1)应用PCA、ICA、t-SNE等方法进行特征降维分析;(2)熟练掌握PCA、ICA、t-SNE的python实现。7实验内容通过调查问卷获得大学生对公益的基本认知及参与情况,调查数据数据预处理后有116个维度,对数据进行降维,之后进行影响因素分析。8实验类型综合性9实验要求必做实验九1实验名称复杂网络分析-大学生公益参与情况影响因素分析2学时23目的要求(1)对大学生公益参与情况影响因素(116个)进行复杂网络分析;(2)熟练掌握中心性分析及社区检测的python实现。4方法原理中心性分析,社区检测5主要实验仪器及材料电脑,excel(或wps),anaconda(python、spyder)6掌握要点(1)掌握复杂网络分析的方法和原理;(2)熟练掌握中心性分析及社区检测的python实现。7实验内容通过调查问卷获得大学生对公益的基本认知及参与情况,调查数据数据预处理后有116个维度,对影响因素进行复杂网络分析。8实验类型研究性9实验要求必做教学方式1.教师讲授模糊c均值聚类、主成分分析、复杂网络分析等模型的原理、建模方法和步骤。2.围绕kmeans++、ICA等主题,学生自由讨论,相互启发;3.学生分组对kmeans++、ICA等主题查阅资料,引导学生多角度解决问题,形成自己的观点和见解;4.各组汇报、相互提问、质疑辩驳、自由表达;5.教师总结并引导学生理解多角度多方法解决聚类问题、特征降维问题;培养学生学会深度思考且多方法解决问题的能力。教学单元四:深度学习学时:6其中实验学时:4支撑课程目标:4、5主要内容(注明重、难点)内容思政融入点重点难点神经网络人脑的模拟,勇攀科技高峰应用python第三方库构建神经网络模型神经网络的概念深度学习我国科学家在相关领域的成就基于PyTorch构建深度学习模型PyTorch操作实验内容实验十1实验名称深度学习-上证指数预测2学时33目的要求(1)了解时间序列的概念,掌握应用基于PyTorch平台的深度学习方法实现时间序列的预测;(2)熟练掌握循环神经网络“LSTM”在时间序列预测中的应用;(3)了解金融时间序列的概念。4方法原理长短时记忆网络5主要实验仪器及材料电脑,excel(或wps),anaconda(python、spyder)6掌握要点(1)应用PyTorch搭建LSTM网络;(2)应用“LSTM”对时间序列进行预测。7实验内容根据给定的上证指数时间序列,预测今后一段时间内上证指数走势。8实验类型研究性9实验要求必做实验十一1实验名称深度学习-图像识别2学时13目的要求(1)了解图像识别的概念,掌握基于PyTorch的深度学习实现图像识别的方法和步骤;(2)掌握卷积神经网络在图像识别中的应用。4方法原理卷积神经网络5主要实验仪器及材料电脑,excel(或wps),anaconda(python、spyder)6掌握要点(1)应用PyTorch搭建CNN网络;(2)应用CNN实现图像识别。7实验内容根据给定图像,建立并训练CNN网络,实现未知图像的识别。8实验类型验证性9实验要求选做教学方式1.教师讲授经典神经网络-多层感知机的原理、建模方法和步骤。2.围绕LSTM、CNN等主题,学生自由讨论,相互启发;3.学生分组对LSTM、CNN等主题查阅资料,引导学生攻坚克难,勇攀科技高峰;4.各组汇报、相互提问、质疑辩驳、自由表达;5.教师总结并引导学生理解深度学习的概念及技术实现;培养学生不畏难、勇攻关的科学精神。五、考核方式及成绩评定(填写说明:课程考核分考试和考查两种。考试课程要明确是开卷考试还是闭卷考试,要明确是采用百分制还是五级制;考查课程请注明考查方式(如论文、大作业等等)。建议采用过程性考核方式,明确各考核环节的权重,各考核环节要反映课程目标的达成情况。)(一)成绩评定方法考核环节权重考核要素实验50%根据实验参加次数、实验正确率、实验报告质量评定课堂表现及书面作业20%根据出勤率、课堂表现、课堂小练习、书面作业等情况评定期末考查30%根据试卷答题正确性评定,答题步骤正确性与解题思路正确性酌情给分。(二)课程目标评定权重课程目标课程目标权重实验(权重50%)课堂表现及书面作业(权重:20%)期末考试(权重:30%)合计(权重:100%)课程目标达成度分数分配分数分配分数分配课程目标分数L01Y1=17%20(A1)20(A2)10(A3)17(M1)Q1L02Y2=31.5%30(B1)30(B2)35(B3)31.5(M2)Q2L03Y3=31.5%30(C1)30(C2)35(C3)31.5(M3)Q3L04Y4=20%20(D1)20(D2)20(D3)20(M4)Q4合计100%100100100100Q课程目标达成度计算方法:(1)课程目标分数计算M1=A1*K1+A2*K2+A3*K3=10+4+3=17M2=B1*K1+B2*K2+B3*K3=15+6+10.5=31.5M3=C1*K1+C2*K2+C3*K3=15+6+10.5=31.5M4=D1*K1+D2*K2+D3*K3=10+4+6=20(2)课程分目标达成度计算Q1=(K1*该项课程目标考核方式1学生平均分+K2*该项课程目标考核方式2平均分+K3*该项课程目标考核方式3平均分)/M1Q2=(K1*该项课程目标考核方式1学生平均分+K2*该项课程目标考核方式2平均分+K3*该项课程目标考核方式3平均分)/M2Q3=(K1*该项课程目标考核方式1学生平均分+K2*该项课程目标考核方式2平均分+K3*该项课程目标考核方式3平均分)/M3Q4=(K1*该项课程目标考核方式1学生平均分+K2*该项课程目标考核方式2平均分+K3*该项课程目标考核方式3平均分)/M4(3)课程目标总达成度(含n个课程目标)Q=Q1*Y1+Q2*Y2+Q3*Y3+Q4*Y4(4)课程目标期望值:0.65(三)课程目标评价标准实验课程目标评分标准L01:熟练运用所学数据预处理相关知识对原始数据进行数据集成、数据清洗、数据变换、数据规约等操作。能熟练地使用excel和python完成数据预处理各项任务。优(90-100)能较好使用excel和python完成数据预处理各项任务。良(80-89)能使用excel和python完成数据预处理各项任务。中(70-79)基本能够使用excel和python完成数据预处理各项任务。及格(60-69)不能使用excel和python完成数据预处理各项任务。不及格(0-59)L02:熟练运用所学监督学习方法完成数据预处理、因果推断、趋势预测、分类等数据分析任务,能熟练评估模型的精确性,能对线性回归等回归模型进行参数估计和统计检验。能熟练地使用监督学习方法完成数据预处理、因果推断、趋势预测、分类等数据分析任务,能熟练地对模型精确性进行评估,并能熟练地对线性回归等回归模型进行参数估计和统计检验。优(90-100)能较好使用监督学习方法完成数据预处理、因果推断、趋势预测、分类等数据分析任务,能较好地对模型精确性进行评估,并能较好地对线性回归等回归模型进行参数估计和统计检验。良(80-89)能使用监督学习方法完成数据预处理、因果推断、趋势预测、分类等数据分析任务,能对模型精确性进行评估,并能对线性回归等回归模型进行参数估计和统计检验。中(70-79)基本能够使用监督学习方法完成数据预处理、因果推断、趋势预测、分类等数据分析任务,基本能够对模型精确性进行评估,基本能够对线性回归等回归模型进行参数估计和统计检验。及格(60-69)不能使用监督学习方法完成数据预处理、因果推断、趋势预测、分类等数据分析任务,不能对模型精确性进行评估,不能对线性回归等回归模型进行参数估计和统计检验。不及格(0-59)L03:熟练运用无监督学习完成聚类分析、特征降维、复杂网络分析等数据分析任务,能熟练评估聚类模型的精确性,能熟练通过可视化技术观察降维效果。能熟练地使用无监督学习完成聚类分析、特征降维、复杂网络分析等数据分析任务,能熟练评估聚类模型的精确性,能熟练通过可视化技术观察降维效果。优(90-100)能较好使用无监督学习完成聚类分析、特征降维、复杂网络分析等数据分析任务,能较好地评估聚类模型的精确性,能较好地通过可视化技术观察降维效果。良(80-89)能使用无监督学习完成聚类分析、特征降维、复杂网络分析等数据分析任务,能评估聚类模型的精确性,能通过可视化技术观察降维效果。中(70-79)基本能够使用无监督学习完成聚类分析、特征降维、复杂网络分析等数据分析任务,基本能够评估聚类模型的精确性,基本能够通过可视化技术观察降维效果。及格(60-69)不能使用无监督学习完成聚类分析、特征降维、复杂网络分析等数据分析任务,不能评估聚类模型的精确性,不能通过可视化技术观察降维效果。不及格(0-59)L04:理解神经网络及深度学习的概念,能熟练建立神经网络或深度学习模型,熟练运用神经网络或深度学习方法完成因果推断、趋势预测、模式识别等数据分析任务。能熟练地建立神经网络或深度学习模型,熟练运用神经网络或深度学习方法完成因果推断、趋势预测、模式识别等数据分析任务。优(90-100)能较好地建立神经网络或深度学习模型,能较好地运用神经网络或深度学习方法完成因果推断、趋势预测、模式识别等数据分析任务。良(80-89)能建立神经网络或深度学习模型,能运用神经网络或深度学习方法完成因果推断、趋势预测、模式识别等数据分析任务。中(70-79)基本能建立神经网络或深度学习模型,基本能较好地运用神经网络或深度学习方法完成因果推断、趋势预测、模式识别等数据分析任务。及格(60-69)不能建立神经网络或深度学习模型,不能运用神经网络或深度学习方法完成因果推断、趋势预测、模式识别等数据分析任务。不及格(0-59)2.课堂表现及书面作业课程目标评分标准L01:熟练运用所学数据预处理相关知识对原始数据进行数据集成、数据清洗、数据变换、数据规约等操作。能够熟练针对数据分析目的及要求,熟练地选取数据预处理方法,完成对原始数据的预处理;出勤率高,每次按时提交作业,作业字迹工整,作业内容正确;实践作业、研讨作业,均能积极参与,对所讨论内容理解正确。优(90-100)能够较好地针对数据分析目的及要求,较好地选取数据预处理方法,较好地完成对原始数据的预处理;出勤率较高,每次按时提交作业,作业字迹工整,作业内容正确;实践作业、研讨作业,均能积极参与,对所讨论内容理解正确。良(80-89)能够针对数据分析目的及要求,能够选取数据预处理方法,完成对原始数据的预处理;出勤率较高,每次按时提交作业,作业字迹工整,作业内容正确;实践作业、研讨作业,均能积极参与,对所讨论内容理解正确。中(70-79)基本能够针对数据分析目的及要求,基本能够选取数据预处理方法,基本能够完成对原始数据的预处理;出勤率不高;实践作业、研讨作业,均能参与,对所讨论内容理解基本正确。及格(60-69)能针对数据分析任务及目的选取合适的数据预处理方法来完成对原始数据的预处理;出勤率低,不能按时提交作业;不参与实践作业或研讨作业。不及格(0-59)L02:熟练运用所学监督学习方法完成数据预处理、因果推断、趋势预测、分类等数据分析任务,能熟练评估模型的精确性,能对线性回归等回归模型进行参数估计和统计检验。能够熟练针对数据分析目的及要求,熟练地选取监督学习方法完成数据分析任务;出勤率高,每次按时提交作业,作业字迹工整,作业内容正确;实践作业、研讨作业,均能积极参与,对所讨论内容理解正确。优(90-100)能够较好地针对数据分析目的及要求,较好地选取监督学习方法完成数据分析任务;出勤率高,每次按时提交作业,作业字迹工整,作业内容正确;实践作业、研讨作业,均能积极参与,对所讨论内容理解正确。良(80-89)能够针对数据分析目的及要求选取合适的监督学习方法完成数据分析任务;出勤率较高,每次按时提交作业,作业字迹工整,作业内容正确;实践作业、研讨作业,均能较好地参与,对所讨论内容理解正确。中(70-79)基本能够针对数据分析目的及要求选取合适的监督学习方法完成数据分析任务;出勤率不高,每次按时提交作业,作业字迹工整,作业基本正确;实践作业、研讨作业,基本能参与,对所讨论内容理解基本正确。及格(60-69)不能选取监督学习方法完成数据分析任务;出勤率低,不能按时提交作业;不参与实践作业或研讨作业。不及格(0-59)L03:熟练运用无监督学习完成聚类分析、特征降维、复杂网络分析等数据分析任务,能熟练评估聚类模型的精确性,能熟练通过可视化技术观察降维效果。能够熟练针对数据分析目的及要求,熟练地选取无监督学习方法完成聚类分析、特征降维或复杂网络分析等任务;出勤率高,每次按时提交作业,作业字迹工整,作业内容正确;实践作业、研讨作业,均能积极参与,对所讨论内容理解正确。优(90-100)能够较好地针对数据分析目的及要求,较好地选取无监督学习方法完成聚类分析、特征降维或复杂网络分析等任务;出勤率较高,每次按时提交作业,作业字迹工整,作业内容正确;实践作业、研讨作业,均能积极参与,对所讨论内容理解正确。良(80-89)能够针对数据分析目的及要求选取无监督学习方法完成聚类分析、特征降维或复杂网络分析等任务;出勤率一般,每次能提交作业,作业字迹工整,作业内容正确;实践作业、研讨作业,能较积极参与,对所讨论内容理解正确。中(70-79)基本能够针对数据分析目的及要求选取无监督学习方法完成聚类分析、特征降维或复杂网络分析等任务;出勤率不高,每次能提交作业,作业内容基本正确;实践作业、研讨作业,能参与,对所讨论内容理解基本正确。及格(60-69)不能针对数据分析目的及要求选取无监督学习方法完成聚类分析、特征降维或复杂网络分析等任务;出勤率低,不按时提交作业;不参与实践作业或研讨作业。不及格(0-59)L04:理解神经网络及深度学习的概念,能熟练建立神经网络或深度学习模型,熟练运用神经网络或深度学习方法完成因果推断、趋势预测、模式识别等数据分析任务。能够熟练针对数据分析目的及要求,熟练地选取神经网络或深度学习方法完成回归或分类任务;出勤率高,每次按时提交作业,作业字迹工整,作业内容正确;实践作业、研讨作业,均能积极参与,对所讨论内容理解正确。优(90-100)能够较好地针对数据分析目的及要求,较好地选取神经网络或深度学习方法完成回归或分类任务;出勤率较高,每次按时提交作业,作业字迹工整,作业内容正确;实践作业、研讨作业,均能积极参与,对所讨论内容理解正确。良(80-89)能够针对数据分析目的及要求选取神经网络或深度学习方法完成回归或分类任务;出勤率一般,每次能提交作业,作业内容正确;实践作业、研讨作业,能积极参与,对所讨论内容理解正确。中(70-79)基本能够针对数据分析目的及要求选取神经网络或深度学习方法完成回归或分类任务;出勤率不高,每次按时提交作业,作业基本正确;参与实践作业或研讨作业,对所讨论内容理解基本正确。及格(60-69)不能针对数据分析目的及要求选取神经网络或深度学习方法完成回归或分类任务;出勤率低,不按时提交作业;不参与实践作业或研讨作业。不及格(0-59)3.期末考查(大作业或课程论文)课程目标评分标准L01:熟练掌握和运用数据预处理的基本原理、基本概念、基本知识完成相关数据预处理任务。能够很好地掌握数据预处理知识,对基本内容有很好的理解。优(90-100)能够较好地掌握数据预处理知识,对基本内容有较好的理解。良(80-89)能够掌握数据预处理知识,对基本内容有一定的理解。中(70-79)基本上能够掌握数据预处理知识,对基本内容有一定的了解。及格(60-69)不能够掌握数据预处理知识,对基本内容不了解。不及格(0-59)L02:熟练运用所学监督学习知识完成数据预处理、回归和分类等数据分析任务,能熟练评估模型的精确性,能对线性回归等回归模型进行参数估计和统计检验。根据数据分析任务能熟练地选择恰当的机器学习模型,能熟练地选用适宜的模型评估方法,并能熟练地比较不同方法的优缺点。优(90-100)根据数据分析任务能较好地选择恰当的机器学习模型,能较好地选用适宜的模型评估方法,并能较好地比较不同方法的优缺点。良(80-89)根据数据分析任务能选择恰当的机器学习模型,能选用适宜的模型评估方法,并能比较不同方法的优缺点。中(70-79)根据数据分析任务基本能选择恰当的机器学习模型,基本能选用适宜的模型评估方法,并基本能比较不同方法的优缺点。及格(60-69)根据数据分析任务不能选择恰当的机器学习模型,不能选用适宜的模型评估方法,也不能比较不同方法的优缺点。不及格(0-59)L03:熟练运用无监督学习完成聚类分析、特征降维、复杂网络分析等数据分析任务,能熟练评估聚类模型的精确性,能熟练通过可视化技术观察降维效果。根据数据分析任务,能够熟练地选择无监督学习模型进行聚类分析、特征降维或复杂网络分析,对聚类分析能熟练选用模型精确性的评估方法,对特征降维能熟练地通过可视化技术观察降维效果。优(90-100)根据数据分析任务,能较好地地选择无监督学习模型进行聚类分析、特征降维或复杂网络分析,对聚类分析能较好地选用模型精确性的评估方法,对特征降维能较好地地通过可视化技术观察降维效果。良(80-89)根据数据分析任务,能选择无监督学习模型进行聚类分析、特征降维或复杂网络分析,对聚类分析能选用模型精确性的评估方法,对特征降维能通过可视化技术观察降维效果。中(70-79)根据数据分析任务,基本能选择无监督学习模型进行聚类分析、特征降维或复杂网络分析,对聚类分析基本能选用模型精确性的评估方法,对特征降维基本能通过可视化技术观察降维效果。及格(60-69)根据数据分析任务,不能选择无监督学习模型进行聚类分析、特征降维或复杂网络分析,对聚类分析不能选用模型精确性的评估方法,对特征降维不能通过可视化技术观察降维效果。不及格(0-59)L04:理解神经网络及深度学习的概念,能熟练建立神经网络或深度学习模型,熟练运用神经网络或深度学习方法完成因果推断、趋势预测、模式识别等数据分析任务。根据数据分析任务,能熟练地选择基于PyTorch的深度学习模型完成回归或分类等数据分析任务。优(90-100)根据数据分析任务,能较好地选择基于PyTorch的深度学习模型完成回归或分类等数据分析任务。良(80-89)根据数据分析任务,能选择基于PyTorch的深度学习模型完成回归或分类等数据分析任务。中(70-79)根据数据分析任务,基本能选择基于PyTorch的深度学习模型完成回归或分类等数据分析任务。及格(60-69)根据数据分析任务,不能选择基于PyTorch的深度学习模型完成回归或分类等数据分析任务。不及格(0-59)六、教材与主要参考书目(填写说明:列出获省、部级以上获奖或公认的水平较高的新教材以及有特色的公开出版的自编教材和教学参考书。书名、作者、出版社、出版时间、版次等应清晰、准确。网络课程资源也在此一并列出。)【教材】1.大数据分析与挖掘.石胜飞.北京:人民邮电出版社,2018,第一版该教程荣誉:(1)教育部高等学校计算机类专业教学指导委员会-华为ICT产学合作项目(2)数据科学与大数据技术专业系列规划教材(3)华为信息与网络技术学院指定教材2.Python机器学习基础教程.安德里亚斯·穆勒[德],莎拉·吉多[美].北京:人民邮电出版社,2018,第一版该教程荣誉:图灵程序设计丛书3.PyTorch深度学习和图神经网络.李金洪.北京:人民邮电出版社,2021,第一版4.自编讲义,大数据分析技术【主要参考书】1.Python数据处理与挖掘.吴振宇,李春忠,李建峰.北京:人民邮电出版社,20202.应用多元统计分析.高惠璇.北京:北京大学出版社,20053.数据科学与大数据技术导论.杜小勇.北京:人民邮电出版社,20214.Python深度学习:基于PyTorch.吴茂贵,郁明敏,杨本法,李涛.北京:机械工业出版社,2023,第2版七、大纲编写的依据与说明(填写说明:本大纲撰写的相关依据,如培养方案、专业指导委员会要求、专业认证要求、课程指导委员会要求或者专业培养需要等等。其它需要说明的问题也可在此列出。)本课程教学大纲是根据数据科学与大数据技术专业培养目标和基本要求,结合本课程的性质、教学的基本任务和基本要求,及我校应用型本科院校建设及应用性人才培养方案等来制定的。制定人:******审核人:******审核日期:2023年10月

**学院《大数据分析技术》教学大纲(课程类别:课程设计)一、课程基本信息课程名称大数据分析技术BigdataAnalysisTechnology课程代码0600084课程性质R必修£选修课程类型£思想政治理论课£通识课程£专业基础课程R专业核心课程£专业方向(选修)课程£集中性实践课程£创新创业与劳动教育课程£通识扩展课程考核方式£考试R考查适用专业数据科学与大数据技术开课单位数学与计算机学院开课学期6学时学分学分:1学时:1周先修课程数学分析、高等代数、概率论与数理统计、Python数学实验、大数据分析技术二、课程性质、目的与任务(说明:本实践课程在人才培养过程中的地位及作用,概括本课程的指导思想,提出本课程的任务。通过本实践课程,学生得到哪方面的实际训练,掌握那些基本操作和技能。包括对学生分析、解决问题的能力,实践能力和创新能力的培养等。)性质:《大数据分析技术》课程设计是数据科学与大数据专业的一门专业方向课。内容:本课程主要在大数据分析技术课堂教学的基础上,对源于医疗、工业、金融、农业等领域的大数据应用所学大数据分析技术开发一个数据分析工具包(PythonAPI),并将该工具包应用于更加广泛领域的数据,提高数据分析水平,俱备初级软件开发水平。任务:通过本课程的学习,学生可以了解对源于生产或生活中的数据建立数学模型(主要是机器学习模型)方面的知识,掌握运用Python开发一个数据分析或可视化的自建库函数(API)的方法和流程,并将自建库函数推广应用于更广泛类型的数据,达到从数据资源中获取价值的目标,具备API开发和撰写设计说明书(或设计报告)等能力。三、课程目标及其对毕业要求的支撑本课程的任务是通过设置医卫大数据分析、有色金属工业大数据分析、金融大数据分析、农林牧副渔大数据分析等内容的课程设计,使学生获得医卫、工业、金融、农业等领域相关数据分析的基本知识,提高学生解决问题和分析问题的能力,支撑专业学习成果中相应指标点的达成。通过本课程学习,预期学生可以具备以下知识、技能或素养:课程目标1(L01):掌握监督学习方法的基本原理、基本概念和基本知识,熟练运用插值、拟合、回归分析、树结构模型、支持向量机等技术进行数据建模,进而完成数据预处理、因果推断、趋势预测、特征重要性评估等分析任务,并对模型精确性进行有效评估。课程目标2(L02):掌握无监督学习的基本原理、基本概念和基本知识,熟练运用聚类分析、特征降维等技术进行数据建模,进而完成样本归类、标准模式库的建立等分析任务,并对模型精确性进行有效评估,对降维效果进行可视化。熟练运用复杂网络分析相关知识完成社交网络、互联网搜索、信用评估和风险控制、交通流量管理、流行病学研究等领域的数据分析任务,挖掘网络中的超级节点和社区结构。课程目标3(L03):掌握神经网络和深度学习的基本原理、基本概念和基本知识,熟练运用神经网络和深度学习建立数据分析模型,完成回归或分类等任务。课程目标支撑毕业要求指标点及指标内涵支撑毕业要求指标点L012.3,3.3:对源于各领域的数据抽象建模,选择恰当的监督学习模型对数据进行描述和分析-数据填充、因果推断、趋势预测、特征重要性提取等,并对模型精确性进行评估和修正。2.3,3.3L022.3,3.3:对源于各领域的数据抽象建模,选择恰当的无监督学习模型对数据进行描述和分析-特征降维、对象归类、标准模式库建立、社区发现、中心性分析等,并对聚类模型精确性进行评估和修正,对降维效果进行可视化。2.3,3.3L032.3,3.3,5.1:对源于各领域的数据抽象建模,选择恰当的深度学习模型对数据进行描述和分析-回归、分类、预测等,并将模型应用于相关领域的实践。2.3,3.3,5.1(注:毕业要求指标点及指标内涵通用标准中的毕业要求指标点与本专业相结合进行描述)内容及要求教学内容:(1)通过实例讲解大数据分析设计流程:根据设计任务查阅资料制定设计方案,再根据数据分析的目的和要求进行数据预处理、选择相关模型进行实验,并对模型进行评估,最后对模型进行封装。(2)学生分组完成设计课题:老师分配设计课题,学生按老师讲解的流程独立地完成所分配的课题,并按课程设计任务书推进设计工作,按时提交设计报告,并积极准备答辩。在这个阶段老师采取互动的方式帮助、指导学生在方案设计、实验调试、python实现及封装过程中遇到的各种问题。(3)答辩:陈述自己的设计作品,并回答老师针对性的提问。设计要求:1、通过大数据分析模型的建立、实现、调参及多方案的比较等环节掌握机器学习及深度学习等数据分析技术和工程设计方法。2、综合应用大数据分析技术课程中学到的理论知识去独立完成一个设计任务。3、通过严格的科学训练和设计实践,逐步树立严肃认真、一丝不苟、实事求是的工作作风和严谨的科学态度。教学重点:根据设计任务及要求对课题进行分析,通过查阅资料等了解数据背景及当前研究状况,搭建技术框架、选择合适的机器学习或深度学习模型,得到设计方案;对多方案进行评估,选择最优方案对完成数据分析任务;写出设计总结报告。教学难点:根据任务得到设计方案,Python实现五、教学单元及学时分配教学单元(含思政融入)学时分配支撑教学目标教学方法与教学手段U1.关于该课程设计的内容讲解1.5天通过讲解让学生掌握设计流程集中授课,教师利用多媒体讲解课程设计的流程,并结合实例介绍设计框架搭建、模型选择、实验过程的要点、难点以及注意事项。U2.设计方案确定、实验及程序封装等2.5天让学生思考并得到设计方案,并熟练实现设计方案采取互动的方式帮助、指导学生在方案设计、实验调试、python实现及封装过程中遇到的各种问题。U3.撰写课程设计报告及答辩1天培养学生独立撰写设计报告的能力指导学生按照规范撰写课程设计报告;验收基于设计方案进行封装的API;组织学生分组答辩、现场提问。六、考核方式与成绩评定标准以平时表现、设计报告、答辩等形式进行考核(一)成绩评定方法考核环节权重考核要素考核方式1(平时表现)20%根据考勤、互动、学习态度、实践等方面考核考核方式2(设计报告)50%根据设计内容是否完整、正确、报告的撰写质量考核考核方式3(答辩)30%根据内容汇报、问题回答、团队表现情况酌情给分合计100%课程目标评定权重课程目标课程目标权重考核方式1(权重:20%)考核方式2(权重:50%)考核方式3(权重:30%)合计(权重:100%)课程目标达成度分数分配分数分配分数分配课程目标分数L0145%45454545Q1L0235%35353535Q2L0320%20202020Q3合计100%10010010010036.5课程目标达成度计算方法:(1)课程目标分数计算:M1=A1*K1+A2*K2+A3*K3;(2)课程分目标达成度计算:Q1=(K1*该项课程目标考核方式1学生平均分+K2*该项课程目标考核方式2平均分+K3*该项课程目标考核方式3平均分)/M1(3)课程目标总达成度(含n个课程目标):Q=M1×Y1+M2×Y2+M3×Y3(4)以上课程目标数量和考核方式数量可自行确定。(三)评分标准1.平时表现课程目标评分标准课程目标1针对设计课题,能熟练独立地查阅关于监督学习的文献、收集资料;能快速准确地制定课程设计方案和日程安排。设计态度认真,遵守纪律,出勤率高。积极参与组内讨论,对所讨论内容理解正确。90-100针对设计课题,能较好地查阅关于监督学习的文献、收集资料;能较快速地制定课程设计方案和日程安排。设计态度认真,遵守纪律,出勤率高。较积极地参与组内讨论,对所讨论内容理解正确。80-89针对设计课题,能查阅关于监督学习的文献、收集资料;能制定课程设计方案和日程安排。设计态度比较认真,出勤率较高。较积极地参与组内讨论,对所讨论内容理解基本正确。70-79针对设计课题,基本能查阅关于监督学习的文献、收集资料;基本能制定课程设计方案和日程安排。设计态度比较认真,出勤率一般。较积极地参与组内讨论,对所讨论内容理解基本正确。60-69针对设计课题,不能查阅关于监督学习的文献、收集资料;不能制定课程设计方案和日程安排。设计态度一般,出勤率低。不参与组内讨论。0-59课程目标2针对设计课题,能熟练独立地查阅关于无监督学习的文献、收集资料;能快速准确地制定课程设计方案和日程安排。设计态度认真,遵守纪律,出勤率高。积极参与组内讨论,对所讨论内容理解正确。90-100针对设计课题,能较好地查阅关于无监督学习的文献、收集资料;能较快速地制定课程设计方案和日程安排。设计态度认真,遵守纪律,出勤率高。较积极地参与组内讨论,对所讨论内容理解正确。80-89针对设计课题,能查阅关于无监督学习的文献、收集资料;能制定课程设计方案和日程安排。设计态度比较认真,出勤率较高。较积极地参与组内讨论,对所讨论内容理解基本正确。70-79针对设计课题,基本能查阅关于无监督学习的文献、收集资料;基本能制定课程设计方案和日程安排。设计态度比较认真,出勤率一般。较积极地参与组内讨论,对所讨论内容理解基本正确。60-69针对设计课题,不能查阅关于无监督学习的文献、收集资料;不能制定课程设计方案和日程安排。设计态度一般,出勤率低。不参与组内讨论。0-59课程目标3针对设计课题,能熟练独立地查阅关于深度学习等相关的文献、收集资料;能快速准确地制定课程设计方案和日程安排。设计态度认真,遵守纪律,出勤率高。积极参与组内讨论,对所讨论内容理解正确。90-100针对设计课题,能较好地查阅关于深度学习等相关的文献、收集资料;能较快速地制定课程设计方案和日程安排。设计态度认真,遵守纪律,出勤率高。较积极地参与组内讨论,对所讨论内容理解正确。80-89针对设计课题,能查阅关于深度学习等相关的文献、收集资料;能制定课程设计方案和日程安排。设计态度比较认真,出勤率较高。较积极地参与组内讨论,对所讨论内容理解基本正确。70-79针对设计课题,基本能查阅关于深度学习等相关的文献、收集资料;基本能制定课程设计方案和日程安排。设计态度比较认真,出勤率一般。较积极地参与组内讨论,对所讨论内容理解基本正确。60-69针对设计课题,不能查阅关于深度学习等相关的文献、收集资料;不能制定课程设计方案和日程安排。设计态度一般,出勤率低。不参与组内讨论。0-592.设计报告课程目标评分标准课程目标1能够熟练针对设计任务及要求,熟练地选取监督学习模型搭建课题的技术框架,能熟练地实验及封装;按期圆满完成规定的设计任务,工作量饱满,难度适宜;设计报告立论正确,论述充分,结论严谨合理,文字通顺,技术用语准确,符号统一,编号齐全,图表完备,书写工整规范。90-100能够较好地针对设计任务及要求,较好地选取监督学习模型搭建课题的技术框架,能较好地实验及封装;按期较圆满地完成规定的设计任务,工作量较饱满,难度适宜;设计报告立论正确,论述充分,结论较为严谨合理,文字通顺,技术用语准确,符号统一,编号齐全,图表完备,书写工整规范。80-89能针对设计任务及要求选取监督学习模型搭建课题的技术框架,能实验及封装;按期完成规定的设计任务,工作量较饱满;设计报告立论基本正确,论述较为充分,结论较为严谨合理,文字通顺,技术用语准确,书写工整规范。60-79基本能针对设计任务及要求选取监督学习模型搭建课题的技术框架,基本能实验及封装;基本能按期完成规定的设计任务,工作量一般;设计报告立论基本正确,论述较为充分,结论较为严谨合理,技术用语准确,书写较为工整规范。60-69不能针对设计任务及要求选取监督学习模型搭建课题的技术框架,不能实验及封装;不能按期完成规定的设计任务,工作量不足。0-59课程目标2能够熟练针对设计任务及要求,熟练地选取无监督学习模型搭建课题的技术框架,能熟练地实验及封装;按期圆满完成规定的设计任务,工作量饱满,难度适宜;设计报告立论正确,论述充分,结论严谨合理,文字通顺,技术用语准确,符号统一,编号齐全,图表完备,书写工整规范。90-100能够较好地针对设计任务及要求,较好地选取无监督学习模型搭建课题的技术框架,能较好地实验及封装;按期较圆满地完成规定的设计任务,工作量较饱满,难度适宜;设计报告立论正确,论述充分,结论较为严谨合理,文字通顺,技术用语准确,符号统一,编号齐全,图表完备,书写工整规范。80-89能针对设计任务及要求选取无监督学习模型搭建课题的技术框架,能实验及封装;按期完成规定的设计任务,工作量较饱满;设计报告立论基本正确,论述较为充分,结论较为严谨合理,文字通顺,技术用语准确,书写工整规范。60-79基本能针对设计任务及要求选取无监督学习模型搭建课题的技术框架,基本能实验及封装;基本能按期完成规定的设计任务,工作量一般;设计报告立论基本正确,论述较为充分,结论较为严谨合理,技术用语准确,书写较为工整规范。60-69不能针对设计任务及要求选取无监督学习模型搭建课题的技术框架,不能实验及封装;不能按期完成规定的设计任务,工作量不足。0-59课程目标3能够熟练针对设计任务及要求,熟练地选取深度学习模型搭建课题的技术框架,能熟练地实验及封装;按期圆满完成规定的设计任务,工作量饱满,难度适宜;设计报告立论正确,论述充分,结论严谨合理,文字通顺,技术用语准确,符号统一,编号齐全,图表完备,书写工整规范。90-100能够较好地针对设计任务及要求,较好地选取深度学习模型搭建课题的技术框架,能较好地实验及封装;按期较圆满地完成规定的设计任务,工作量较饱满,难度适宜;设计报告立论正确,论述充分,结论较为严谨合理,文字通顺,技术用语准确,符号统一,编号齐全,图表完备,书写工整规范。80-89能针对设计任务及要求选取深度学习模型搭建课题的技术框架,能实验及封装;按期完成规定的设计任务,工作量较饱满;设计报告立论基本正确,论述较为充分,结论较为严谨合理,文字通顺,技术用语准确,书写工整规范。60-79基本能针对设计任务及要求选取深度学习模型搭建课题的技术框架,基本能实验及封装;基本能按期完成规定的设计任务,工作量一般;设计报告立论基本正确,论述较为充分,结论较为严谨合理,技术用语准确,书写较为工整规范。60-69不能针对设计任务及要求选取深度学习模型搭建课题的技术框架,不能实验及封装;不能按期完成规定的设计任务,工作量不足。0-593.答辩课程目标评分标准课程目标1能够熟练地陈述本组的设计思想、设计技术路线及设计结果,对监督学习模型选用理由描述恰当。能够熟练且准确地回答教师提出的问题,表达清晰,思维敏捷。90-100能较好地陈述本组的设计思想、设计技术路线及设计结果,对监督学习模型选用理由描述比较恰当。能较好地回答教师提出的问题,回答较为正确,表达清晰。80-89能陈述本组的设计思想、设计技术路线及设计结果,对监督学习模型选用理由描述基本恰当。能回答教师提出的问题,回答较为正确,表达较为清晰。70-79基本能陈述本组的设计思想、设计技术路线及设计结果,基本能描述监督学习模型选用的理由。基本能回答教师提出的问题,回答基本正确,表达基本清晰。60-69不能陈述本组的设计思想、设计技术路线及设计结果,不能描述监督学习模型选用的理由。不能回答教师提出的问题,或回答不正确。0-59课程目标2能够熟练地陈述本组的设计思想、设计技术路线及设计结果,对无监督学习模型选用理由描述恰当。能够熟练且准确地回答教师提出的问题,表达清晰,思维敏捷。90-100能较好地陈述本组的设计思想、设计技术路线及设计结果,对无监督学习模型选用理由描述比较恰当。能较好地回答教师提出的问题,回答较为正确,表达清晰。80-89能陈述本组的设计思想、设计技术路线及设计结果,对无监督学习模型选用理由描述基本恰当。能回答教师提出的问题,回答较为正确,表达较为清晰。70-79基本能陈述本组的设计思想、设计技术路线及设计结果,基本能描述无监督学习模型选用的理由。基本能回答教师提出的问题,回答基本正确,表达基本清晰。60-69不能陈述本组的设计思想、设计技术路线及设计结果,不能描述无监督学习模型选用的理由。不能回答教师提出的问题,或回答不正确。0-59课程目标3能够熟练地陈述本组的设计思想、设计技术路线及设计结果,对深度学习模型选用理由描述恰当。能够熟练且准确地回答教师提出的问题,表达清晰,思维敏捷。90-100能较好地陈述本组的设计思想、设计技术路线及设计结果,对深度学习模型选用理由描述比较恰当。能较好地回答教师提出的问题,回答较为正确,表达清晰。80-89能陈述本组的设计思想、设计技术路线及设计结果,对深度学习模型选用理由描述基本恰当。能回答教师提出的问题,回答较为正确,表达较为清晰。70-79基本能陈述本组的设计思想、设计技术路线及设计结果,基本能描述深度学习模型选用的理由。基本能回答教师提出的问题,回答基本正确,表达基本清晰。60-69不能陈述本组的设计思想、设计技术路线及设计结果,不能描述深度学习模型选用的理由。不能回答教师提出的问题,或回答不正确。0-59七、教材与主要参考书目[1]大数据分析:理论、方法及应用.史蒂文·S.斯基纳(StevenS.Skiena).北京:机械工业出版社,2022,第一版[2]大数据实践:45家知名企业超凡入圣的真实案例.伯纳德·马尔(BernardMarr).北京:电子工业出版社,2020,第一版[4]基于Python的大数据分析基础及实战.余本国.北京:水利水电出版社,2018,第一版[5]大数据时代的统计学思维.刘强.北京:水利水电出版社,2018,第一版八、大纲编写的依据与说明本课程教学大纲是根据数据科学与大数据技术专业培养目标和基本要求,结合本课程的性质、教学的基本任务和基本要求,及我校应用型本科院校建设及应用性人才培养方案等来制定的。制定人:******审核人:日期:

《大数据分析技术》课程设计指导书一、课程设计目的与任务本课程设计是为数据科学与大数据技术、应用统计学等相关专业设置的,是这些专业教学计划中实践环节的有机组成部分,在完成了数学分析(或高等数学)、高等代数(或线性代数)、概率论与数理统计、Python程序设计、大数据分析技术等课程的学习之后,接受本课程设计的综合训练,提升数据分析实践创新能力。本课程设计的任务是培养学生对源于生产或生活中的数据建立数据模型,然后运用Python开发一个数据分析或可视化的自建库函数(API),并将自建库函数推广应用于更广泛类型的数据,实现从数据资源中获取价值的目标,最后撰写设计说明书(或设计报告)等方面的能力,培养方式以上机操作和实践为主。通过课程设计的综合训练,让学生加深对数据科学概论、大数据分析技术等课程理论与方法的掌握,同时具备对源自生产生活实际的数据进行分析与挖掘并提供解决方案的能力,改变传统的理论教学与生产实际脱节的现象,从而解决实践创新能力相对薄弱的问题。二、课程设计组织及教学方式由指导教师向学生发放有关的课程设计背景资料,并向学生讲述课程设计的方法、步骤和要求,设计过程采取在实验室机房中集中辅导,学生独立设计的方式进行。在设计的每个环节中,学生每人1台计算机独立自主地进行操作,教师则巡回指导并回答学生的问题。三、课程设计课题及步骤(一)设计课题当前本课程设计的相关课题如下表所示。对下述所有课题课程设计要达到的目标是,就课题设计任务的解决过程及相关算法集成为一个PythonAPI,以解决普适性问题。序号课题设计任务1我国省域数字经济评估1.数字经济受到三大定律的支配,其中第一个定律是梅特卡夫法则:数字网络的价值等于其节点数的平方。请以梅特卡夫法则为准则,完成下述三问。(1)自定义网络价值;(2)按自定义的数字网络价值计算表中各省级行政单位的数字网络的价值;(3)可视化相关结果。2.根据当前数据,选用合适的方法预测各省级行政单位在2021年的数据。3.根据当前数据(不包括预测的2021年的数据),对各省级行政单位在各年的数字经济水平进行评估。2肾病综合征影响因素分析本设计要求根据所附数据集研究慢性肾病综合征(CKD)的影响特征,并据此对CKD患者进行识别。1.建立两个CKD识别模型,比如logistic模型和随机森林模型;2.对模型中的参数进行估计,并对模型精度进行评估(随机森林没有待估计的参数);3.现有100份体检数据,见附件“体检待识别数据.xlsx”,试应用所建模型对这100份体检数据进行识别,给出识别结果。3帕金森病步态分析本设计根据所附数据集研究帕金森患者的步态特征,并据此对帕金森患者进行识别。1.建立两个帕金森病识别模型,比如logistic模型和随机森林模型;2.对模型中的参数进行估计,并对模型精度进行评估(随机森林没有待估计的参数);3.现有如下3名受试者的步态数据,见附件“三名受试者步态数据.zip”,试应用所建模型对三名受试者进行识别。4胆囊术后胆漏病理因素分析由所附数据集进行胆囊术后胆漏病例分析。1.用至少两种相关性描述各变量与胆漏的相关性;2.建立胆漏识别模型,并对模型进行评估(包括混淆矩阵、ROC曲线,等);3.根据模型提取各变量的重要性并可视化;4.提取重要性前10或前多个变量重新建模,并对模型进行评估。5小麦种子的识别本设计根据所附数据集研究小麦种子的识别规则,并据此对小麦进行识别。1.对数据先进行描述性统计分析,再进行标准化变换;2.应用标准化数据建立小麦品种的logistic识别模型及神经网络识别模型;3.对logistic模型,要求对模型中的参数进行估计,并提取各特征的重要性;4.对两个模型的精度进行评估,要求输出描述精度的混淆矩阵;5.现获得一批小麦麦粒在7个特征上的观测值,见数据集中“新样本”表,试识别这批小麦分别来自哪个品种。6城市重金属污染问题本设计要求完成以下任务:1.可视化8种主要重金属元素在该城区的空间分布;2.根据可视化结果分析重金属污染物的传播特征,确定污染的源和汇的位置;3.应用TOPSIS方法对该城区内不同区域重金属的污染程度进行综合评价;4.对该城区内不同区域重金属的污染程度进行聚类分析。7红葡萄酒的评价本设计要求完成以下任务:1.分析附件1中两组评酒员的评价结果有无显著性差异,哪一组结果更可信?2.根据附件1中两组评酒员的评价结果对葡萄酒进行质量分级。3.葡萄酒质量等级与酿酒葡萄的理化指标紧密相关,试建立以酿酒葡萄的理化指标为变量、以葡萄酒质量等级为目标的葡萄酒等级识别模型,并对模型进行评估。8雷达回波的识别本设计要求完成以下任务:1.对数据集进行描述性统计分析;2.对数据集进行标准化变化;3.应用标准化数据建立大气结构的决策树识别模型和支持向量机识别模型;4.对建立的识别模型进行评估,并以ROC及混淆矩阵来可视化评估结果。9鲍鱼年龄预测问题本设计根据所附数据集研究鲍鱼年龄的预测问题。1.按如下步骤对数据进行预处理:(1)对数据先进行描述性统计分析;(2)对定量变量识别其中的奇异值,并删除所发现的奇异值;(3)对定量变量进行标准化;(4)对定性变量进行独热编码。完成预处理。2.应用预处理后的数据建立鲍鱼年龄的下述预测模型:(1)线性回归模型(2)一次有理模型(3)logistic模型3.对上述模型的精度进行评估。10乳腺癌致病基因挖掘本设计根据所附数据集挖掘乳腺癌的致病基因。1.给出每个基因分别在Normal、DCIS、IDC三类组织中的表达信息进行探索性分析;2.自定义可视化方法对Normal、DCIS、IDC三类组织中前100个基因进行可视化;3.通过倍数差异法筛选DCISvsNormal、IDCvsNormal、DCISvsIDC的差异表达基因;4.通过两样本t检验方法筛选DCISvsNormal、IDCvsNormal、DCISvsIDC的差异表达基因;5.建立基因表达差异模型,筛选乳腺癌差异表达基因。11共享单车骑行量预测请根据所给数据完成下述任务。1.建立共享单车骑行量预测模型(非线性回归或随机森林或神经网络,三者之一即可);2.给出表中影响骑行量的11个特征的重要性;3.将模型训练好后应用于预测“待预测数据”表对应的骑行量;4.将预测模型封装为一个预测函数,并通过Python实现,供相关企业使用。随着科技的发展及对生产生活实践数据的积累,本课程设计课题将保持增量更新。(二)设计步骤第一步:精读并深刻理解课题。精读设计课题,了解并熟悉问题背景,查找相关文献资料以帮助自己迅速深刻理地解课题中的各个设计任务。比如课题6“城市重金属污染问题”,该问题是对某城市表层土壤重金属污染情况进行分析,这就要求首先要了解环境污染的相关背景——污染物的分类、污染程度指标、污染级别分类,等等;这些要通过查询相关文献才能获悉。第二步:数据建模。在了解了课题背景、理解了课题中各个设计任务的基础上,基于所附数据就课题中的各个问题选用恰当的数学方法逐一、递进地建立数学模型(机器学习模型),一个问题可能会建立多个模型,这些模型互为补充、或相互印证,以更好地解决问题。比如课题6“城市重金属污染问题”,对于第一问,可以通过地貌叠加污染指数的四维图形来描述重金属污染的空间分布;污染程度则可建立内梅罗指数法模型;对于第二问,可建立多元统计相关性模型或模糊聚类模型分析各种重金属的相关性来探究重金属污染的主要原因;对于第三问,可建立Kriging插值模型来获得污染源的位置。第三步:模型训练。选用恰当的算法,运用Python相关库或模块对模型进行训练。比如课题6“城市重金属污染问题”,对于第一问,可调用Python插值模块erpolate及可视化模块matplotlib.pyplot作重金属污染空间分布图,计算污染指数后对污染进行分级,从而获悉污染程度;运用Python统计模块scipy.statsmatlab计算各重金属的相关性,以描述重金属的相伴性;对于第三问,依然调用erpolate对Kriging插值进行计算,获得污染源位置。第四步:模型评估。模型评估主要针对预测模型。对所求模型的参数进行检验,并进行灵敏度分析和可靠性评估。对所求模型的解进行检验,并进行灵敏度分析和可靠性评估,并据此对模型进行反复地修正、改进,直到得到问题的满意解为止。Python提供了丰富的模型评估模块,各模块又集成了丰富的评估方法。回归:RMSE(平方根误差)、MAE(平均绝对误差)、MSE(平均平方误差)、Coefficientofdetermination(决定系数R2)、MAPE(平均绝对百分误差)、MSLE(均方根对数误差),等。分类:混淆矩阵、精确率、召回率、准确率、F1值、ROC-AUC、PRC、G-MEAN等。聚类:兰德指数、互信息、轮廓系数等。第五步:模型应用。将评估好的模型应用于实践,主要是预测和决策。第六步:算法集成。将上述数据分析流程整理为一个综合算法,并利用Python来实现,集成为一个PythonAPI。第七步:撰写设计说明书或设计报告。为第六步集成的PythonAPI撰写一份使用说明书,包括API的功能,输入参数、输出参数、应用示例,等等。将上述六个步骤的整理为一篇设计报告。提交设计说明书或设计报告。四、课程设计的具体要求1、设计过程以个人为单位,独立自主完成设计任务;2、设计说明书或设计报告电子版一律按照提供的“设计说明书”或“课程设计报告”模板撰写,并打印纸质版;3、课程设计严格按照任务书上规定的时间和内容完成。五、课程设计基本目标理解并掌握数据科学和大数据分析技术等课程相关理论与方法,对设计课题所涉及的对象的背景、相关领域知识和材料有较好的了解,能灵活运用本课程理论知识和方法,对数据进行深刻分析、挖掘数据价值,为相关问题提供解决方案,通过本课程设计,达到如下目标:1.掌握运用大数据知识分析和解决生产实际问题的具体方法;2.培养遇到困难解决困难的坚忍不拔的精神,独立自主地分析问题和解决问题的能力;3.熟练运用python进行数据建模和数据分析的能力;4.将数据分析和应用的流程整理为算法并利用Python集成为API的能力;5.撰写设计说明书或设计报告的能力;6.为相关实际问题提供解决方案的能力。指导教师对本课程设计的内容,要求、方法、步骤有较深入的了解和把握。能熟练地指导学生完成设计任务,能熟练地处理课程设计过程所碰到的各种问题。要善于激发和培养学生独立思考和分析问题的能力和学生的创新能力,要善于组织和引导学生独立自主进行设计或按团队方式进行协作设计。六、建议参考文献(一)Python及数据分析相关文献[1]铜陵学院.大数据分析技术.2023[2]李子奈、潘文卿.计量经济学[M].北京:高等教育出版社,第四版,2015[3]Python实现逻辑回归(LogisticRegressioninPython):/zj360202/article/details/78688070[4]周志华.机器学习[M].北京:清华大学出版社,2016[5]邱锡鹏著,神经网络与深度学习,第六章循环神经网络.GithubInc.,2020-06-14(二)设计课题相关文献1.我国省域数字经济评估[1]逄健,朱欣民.国外数字经济发展趋势与数字经济国家发展战略[J].

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论