版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
智慧学情分析第6章6.1机器学习与智慧学情分析【学习导航】6.2教育数据预处理与图形化编程6.3学生分群与学习风格识别6.4学习成绩预测与表现关联分析6.5学习行为聚类与个性化学习推荐6.6习题与实践【学习目标】1.了解机器学习与人工智能的研究内容。2.了解机器学习在智慧学情分析中的应用。3.掌握机器学习的开发工具。4.掌握图形化编程工具的使用。5.掌握KNN分类学情分析。6.掌握一元线性回归学情分析。7.掌握KMeans聚类学情分析。6.1机器学习与智慧学情分析6.1.1机器学习基础机器学习机器学习作为人工智能的重要分支,是研究让机器如何模拟和实现人类学习能力从而使机器具有智能的重要方法。机器学习一般可以分为以下四类:监督学习无监督学习半监督学习强化学习
监督学习监督学习的数据集是包含类别标签的,利用这些已经分类的数据集对模型进行训练,从而确定模型的参数,然后对未分类的新数据利用该模型进行预测。监督学习主要包括分类和回归。分类目的是对未知数据的类别进行判断,预测结果为离散的数值,基于类别数目的不同,可以分为二分类和多分类两种类别。回归是一种基本的预测方法,它主要是在分析自变量和因变量间相关关系的基础上,建立变量之间的回归方程,预测结果为连续的数值。
无监督学习无监督学习指数据集中的数据是无类别标签。算法只根据数据集本身的数据特性来分析。无监督学习主要包括聚类和降维两类。聚类是在数据类别未知的情况下将数据划分为彼此不相交的簇,使簇内的样本间相似度高,不同簇之间的相似度低。降维是指将数据的特征从高维转换到低维的方法!可以消除冗余信息或便于数据可视化。
半监督学习半监督学习是一种监督学习和无监督学习相结合的算法,通过利用少量有标签的数据集和大量无标签的数据集进行模型的训练。
强化学习强化学习是在无预先给定任何数据情况下,通过环境对其动作的反馈,不断训练模型,从而获得可以执行某项具体任务的算法。比如在智能机器人中的应用。
深度学习深度学习是机器学习一种实现技术,也是人工智能领域热门研究方向,深度学习技术可以方便的应用于监督学习、无监督学习和强化学习等传统机器学习领域,常用的深度学习网络有适合于处理图像问题的卷积神经网络和适合于处理序列问题的循环神经网络等。6.1.2智慧学情分析智慧学情分析是机器学习在教育领域的主要应用,它通过对学习过程的深度刻画,正在重塑教育的形态,使其朝着更加个性化,高效化,科学化的方向发展。智慧学情分析主要应用于以下几个方面。个性化学习自动化评估与反馈智能辅导系统教学分析与教学改进
6.1.3未来展望机器学习正在重构传统的标准化教育模式。未来的教育应该是“人机协同”的模式:机器负责处理海量数据,进行重复性劳动(如批改作业),
提供个性化路径和实时反馈,教师专注于机器无法替代的工作,如启发学生思考,培养批判性思维,进行情感交流,组织小组讨论和创造性的教学活动。实现千百年来教育家们追求的理想,“因材施教”的规模化。
6.2教育数据预处理和图形化编程6.2.1数据预处理数据预处理是指在对数据进行分析或建模之前,对原始数据进行一系列清洗,整理,转换的过程。通过对数据标准化,归一化,正则化等变换,可以提升机器学习模型的性能与准确度。开发工具:scikit-learn,又写作sklearn,是一个开源的基于Python语言的机器学习工具包,它实现了高效的算法应用,并且涵盖了几乎所有主流机器学习算法。
数据归一化同一数据集中,不同列的数据往往有着完全不同的含义,数值大小差异很大,可能会影响数据处理的最终结果。因此常常需要把每列数据都映射到0-1范围之内处理,即归一化。案例6-2-3对学习行为“flsc6-2-3(score_kmeans.csv)”数据集的前5行后2列数据进行归一化并打印显示。fromsklearn.preprocessingimportMinMaxScalerimportpandasaspddata=pd.read_csv('score_kmeans.csv',encoding='gbk')X=data.iloc[:5,1:]#转换器实例化minmax_scaler=MinMaxScaler()#数据归一化data_minmax=minmax_scaler.fit_transform(X)print(data_minmax)运行结果如下:[[1.0.43478261][0.0.02173913][0.967213110.52173913][0.032786890.][0.491803281.]]
数据标准化数据标准化是通过将所有特征转换到同一个尺度(通常是均值为0,标准差为1的标准正态分布),确保了每个特征对模型的初始贡献是平等的,让模型能够真正地从数据本身学习规律,
而不是被数据的量纲所误导。案例6-2-5对学习行为“flsc6-2-5(score_kmeans.csv)”数据集的前5行后2列数据进行标准化并打印显示。#导入库fromsklearn.preprocessingimportStandardScalerimportpandasaspddata=pd.read_csv('score_kmeans.csv',encoding='gbk')X=data.iloc[:5,1:]#转换器实例化standerd_scaler=StandardScaler()#数据标准化data_standerd=standerd_scaler.fit_transform(X)print(data_standerd)运行结果如下:[[1.159024390.10618407][-1.15144907-1.01464773][1.083271160.34214865][-1.07569584-1.07363888][-0.015150651.63995389]]
数据正则化正则化是一种通过在损失函数中引入惩罚项来限制模型复杂度的技术。其最终目标是找到一个既简单又有效的模型,从而在面对未知数据时能有最佳表现。正则化的主要作用是防止过拟合,通过约束,使模型不再仅仅依赖训练数据中的细微相关性和噪声,从而获得更强的泛化能力。案例6-2-7对学习行为“flsc6-2-7(score_kmeans.csv)”数据集的前5行后2列数据进行正则化并打印显示。#导入库fromsklearn.preprocessingimportNormalizerimportpandasaspddata=pd.read_csv('score_kmeans.csv',encoding='gbk')X=data.iloc[:5,1:]#转换器实例化normalizer_scaler=Normalizer()#数据正则化data_normalizer=normalizer_scaler.fit_transform(X)print(data_normalizer)运行结果如下:[[0.963517910.26764386][0.979260420.2026056][0.949757040.31298812][0.987241120.15923244][0.756534610.65395365]]训练集、测试集为了更好地评测模型的效果,通常将原始数据集划分为训练集和测试集两部分训练集是训练机器学习算法的数据集测试集是用来评估经训练后的模型性能的数据集案例6-2-9加载鸢尾花数据集,按测试集占比30%,随机种子为3,将所加载的鸢尾花数据集拆分成训练集和测试集。按先后顺序输出(特征训练集,
目标训练集,特征测试集,目标测试集)fromsklearn.model_selectionimporttrain_test_splitfromsklearnimportdatasets#通过给出参数,获得df类型的data和targetdata,target=datasets.load_iris(return_X_y=True)#其中参数return_X_y控制输出数据的结构,若选为True,则将因变量和自变量独立导出X_train,X_test,y_train,y_test=train_test_split(data,target,test_size=.3,random_state=3)print('特征训练集:\n',X_train)print('目标训练集:\n',y_train)print('特征测试集:\n',X_test)print('目标测试集:\n',y_test)6.2.2图形化编程新大陆AloT在线工程实训平台简介图形化编程是为了简化和加速应用程序开发过程。支持拖拉拽编程动态生成源代码保存源码/图形化工程加载本地工程/数据在线运行动态日志输出软件安装与平台启动下载并且安装VMware15(推荐)。下载GraphicalProgramming_v1_2.0.rar图形化编程系统,并解压到无中文路径下。使用VMware软件加载解压后的图形化编程系统并启动。图形化编程案例6-2-10图形化编程示例("拖曳积木块'输出)HelloWorld操作步骤:
侧边栏找到“基础库,语句,选择第一项print节点,点击左键不放拉取出来,将其嵌入到if模块节点中。点击右上角Run按钮运行代码。保存代码文件保存图形化配置信息图形化编程案例6-2-11采用KNN分类算法实现鸢尾花分类预测。操作步骤:打开新大陆AIoT在线工程实训平台后,在左上角处单击“UploadData”
选择“flsc6-2-11(iris_data.csv)”左上角处单击“UploadJSON”,选择”flsc6-2-11(iris_data.json)”文件点击右上角Run按钮运行代码查看结果6.3学生分群与学习风格识别6.3.1学生分群(KNN分类)算法原理KNN算法简介K近邻算法(K-NearestNeighborAlgorithm,简称KNN)的核心思想是通过寻找特征空间中距离最近的K个邻居,根据它们的属性(如多数表决或求平均)来推断新样本的类别或数值。即在判定一个未知样本时,可以考察它最近的几个已知样本的类别,如果多数邻居属于某一类,则将该未知样本划分为该类。其中,K表示所选取的最近邻居的数量。
6.3.1学生分群(KNN分类)算法原理2.学生学习风格分群
学号作业提交次数(次)完成时间(小时)标签S1121.00S2111.50S3130.80S492.00S5101.20S638.01S747.51S829.01S956.51S10110.01学生学习风格分群原始数据学生分群的二维特征分布学号特征(x,y)标签距离d(T,Si)K=1K=3S1(12,1.0)05.2202
S2(11,1.5)04.1231
√S3(13,0.8)06.2362
S4(9,2.0)02.0616√√S5(10,1.2)03.2696
√S6(3,8.0)16.8007
S7(4,7.5)15.8310
S8(2,9.0)18.2006
S9(5,6.5)14.4721
S10(1,10.0)19.6047
新生T与10名学生距离列表现收集了10名学生的学习数据,包括作业提交次数与平均完成时间,以及他们的学习风格:风驰电掣型和慢条斯理型,具体如表所示,现需要用KNN算法来预测一位新生T(作业提交次数为7次,平均完成时间为2.5小时)的学习类型。6.3.2AI辅助代码生成与学习行为分类基于KNN算法的学生学习状态分类已知数据文件中包含若干学生的课堂学习行为数据,其中包括“SubmissionCount”(表示作业提交次数)和“CompletionTime”(表示作业完成时间(小时))”两项特征,以及对应的标签“StudentType”(表示学生学习状态的类型(0:高效主动型,1:低效被动型))。希望通过KNN(K-NearestNeighbors)算法模型,对学生的学习状态进行自动分类,从而在后续教学中提供有针对性的个性化支持。请借助“新大陆AloT平台”的可视化建模功能,完成以下任务:(1)导入待完善的积木块JSON文件“flsc6-3-1(knn_1).json”和数据集“flsc6-3-1(student_knn1).csv”文件;(2)以“SubmissionCount”和“CompletionTime”为特征,以“学习状态标签”为目标或标签数据;(3)对特征数据进行标准化处理,随后拆分数据集,测试集比例为20%;(4)创建KNN模型,使用训练集数据进行训练;(5)使用测试集数据进行预测,并对模型性能进行评估,打印评估报告;(6)将分类结果可视化。6.3.2AI辅助代码生成与学习行为分类基于KNN算法的学生学习状态分类打开新大陆AloT在线工程实训平台,具体实验步骤如下:(1)导入JSON文件和数据集(2)从数据文件中读取特征和标签数据(3)拆分数据集(4)对特征数据进行标准化处理(5)创建KNN模型并训练(6)预测与评估(7)可视化6.3.2AI辅助代码生成与学习行为分类2.利用KNN算法识别学生学习风格
利用KNN算法对学生的学习风格进行自动分类。已知数据文件中包含若干学生的学习行为特征信息,其中包括作业提交次数与平均完成时间两项特征,以及对应的学习风格标签(0:风驰电掣型,1:稳步前行型,2:慢条斯理型)。使用KNN算法构建分类模型,并评估模型在学生学习风格识别中的应用效果,完成以下任务:(1)读取“flsc6-3-2(student_knn2).csv”文件,提取特征数据与标签数据;(2)将数据集随机划分为训练集和测试集,测试集比例为20%;(3)使用KNN算法进行分类,设置K=3;(4)对测试集进行预测,并输出预测结果与模型评估报告;(5)对分类结果进行可视化。6.3.2AI辅助代码生成与学习行为分类2.利用KNN算法识别学生学习风格
提示词参考你是Python编程专家,编写一段Python代码,使用scikit-learn库实现KNN分类。已有文件“flsc6-3-2(student_knn2).csv”,包含字段:submit_count:学生作业提交次数finish_time:作业平均完成时间label:学习风格(0:风驰电掣型,1:稳步前行型,2:慢条斯理型)要求:1读取CSV文件;2划分训练集和测试集(测试集占20%);3使用K=3的KNN模型进行分类;4输出测试集预测结果与分类评估报告;5绘制学生学习风格的二维分布散点图。实验步骤:(1)读取CSV文件;(2)划分训练集和测试集(测试集占20%);(3)使用K=3的KNN模型进行分类;(4)输出测试集预测结果与分类评估报告;(5)绘制学生学习风格的二维分布散点图。测试集预测结果:[021101012122210011120212211021]
详细分类评估报告:precisionrecallf1-scoresupport
风驰电掣型1.00000.70000.823510
稳步前行型0.76921.00000.869610
慢条斯理型1.00001.00001.000010
accuracy0.900030macroavg0.92310.90000.897730weightedavg0.92310.90000.8977306.3.2AI辅助代码生成与学习行为分类3.利用KNN算法分析学生学习投入水平
某课程教师希望依据学生的“视频观看时长(分钟/天)”与“课后测验得分(%)”两项特征,识别学生的学习投入类型。根据既有经验,将学生划分为以下三类:0:高投入型——视频观看时间长、测验成绩高;1:中等投入型——学习表现处于中等水平;2:低投入型——观看时间短、测验成绩低。已知数据文件中包含若干学生的视频观看时长(分钟/天)、测验得分,以及对应的学生类型标签(0:高投入型,1:中等投入型,2:低投入型)。要求完成以下任务:(1)读取数据文件,提取特征“视频观看时长”和“测验得分”和标签“学生类型”;(2)使用KNN算法(K=3)对学生的学习类型进行分类训练;(3)输入一个测试样本(观看时长=70分钟,测验得分=75%),利用模型进行学生类型预测;
(4)绘制三类学生的散点分布图,直观展示数据特征分布。6.3.2AI辅助代码生成与学习行为分类3.利用KNN算法分析学生学习投入水平
提示词参考编写一段Python代码,使用scikit-learn中的KNN算法实现学生学习投入类型的分类。数据包含两列特征(视频观看时长、测验得分)和一个标签(学生类型:0、1、2)。要求:1读取数据文件“flsc6-3-3(student_knn3).csv”,设置“视频观看时长(分钟/天)”、“测验得分”为特征数据,“学生类型”为标签数据。2使用K=3构建KNN模型;3预测一个新学生(观看时长=70分钟,得分=75%)所属的类型,并打印输出;4打印输出KNN算法在测试集上的正确率;5可视化三类学生的散点分布图;实验步骤:(1)读取数据文件(2)划分训练集与测试集(测试集占20%)(3)建立KNN分类模型(K=3)(4)输入测试样本进行预测(5)输出模型在测试集上的准确率(6)可视化:绘制散点图展示三类学生分布测试样本:观看时长=70分钟,测验得分=75%模型预测结果:该学生属于——中等投入型模型在测试集上的准确率:1.0实验结果:6.4学习成绩预测与表现关联分析6.4.1学习成绩预测(回归)算法原理1.线性回归简介线性回归是一种通过“线性模型”来刻画两个或多个变量之间关系的数学方法。例如,可以用一条直线来描述“学习时间”与“考试成绩”的关系,从而根据学习时间预测学生的可能成绩。6.4.1学习成绩预测(回归)算法原理2.一元线性回归现有10名学生在一个学期内平时作业的提交次数和期末考试成绩,数据如下表所示:学生编号平时作业提交次数(次)期末考试成绩(分)S1665S2872S31078S41285S5460S6975S71183S8768S91388S105626.4.2学习成绩与出勤率、作业提交、周测的相关性分析1.基于一元线性回归的学生成绩与作业提交次数关联分析已知数据文件中包含50名学生的平时学习行为数据,其中包括“AssignmentCount”(作业提交次数)与“FinalScore”(期末成绩)两项信息。教师希望通过一元线性回归模型,分析作业提交次数与学生期末成绩之间的数量关系,从而根据平时学习行为预测学生的学习表现。使用新大陆AloT平台实现模型构建与可视化分析,完成以下任务:(1)导入待完善的积木块JSON文件和数据集文件;(2)以“作业提交次数”为自变量(特征),以“期末成绩”为因变量(标签);(3)将数据划分为训练集与测试集,测试集比例为20%;(4)创建线性回归模型,使用训练集数据进行训练;(5)输出模型的系数、截距及在测试集上的预测结果,并对结果进行评估;(6)绘制散点图与回归拟合线,观察特征与成绩的线性关系。6.4.2学习成绩与出勤率、作业提交、周测的相关性分析1.基于一元线性回归的学生成绩与作业提交次数关联分析打开新大陆AloT在线工程实训平台,具体实验步骤如下:(1)导入JSON文件和数据集(2)从数据文件中读取特征和标签数据(3)拆分数据集(4)创建线性回归模型并训练(5)打印系数、预测与评估(6)可视化[1.66674537]59.45700321118247[81.1246930584.4581837969.45747544106.1258736384.45818379101.1256375169.4574754472.7909661979.4579476866.123984796.1254014]0.9240548948116151程序运行结果如下:6.4.2学习成绩与出勤率、作业提交、周测的相关性分析2.利用多元线性回归分析成绩与出勤率、作业提交和周测关系已知数据文件“flsc6-4-2(score_linear2).csv”中包含学生的学习行为与成绩信息,其中包括作业提交次数、出勤率、周测成绩等特征,以及期末成绩标签。
assignments:作业提交次数
attendance:出勤率
quiz1~quiz4:4次周测成绩
final_score:期末成绩希望通过多元线性回归模型,综合分析多种学习特征对期末成绩的影响程度,并实现成绩预测。请使用大模型生成Python代码并完成以下任务:(1)读取“flsc6-4-2(score_linear2).csv”文件,提取特征数据与标签数据;(2)将数据划分为训练集与测试集,测试集比例为20%;(3)创建多元线性回归模型;(4)输出模型的系数、截距及在测试集上的预测结果。6.4.2学习成绩与出勤率、作业提交、周测的相关性分析2.利用多元线性回归分析成绩与出勤率、作业提交和周测关系提示词参考你是数据分析专家。请根据以下要求,使用Python编写代码并完成多元线性回归分析任务:1.读取“flsc6-4-2(score_linear2).csv”文件,提取特征数据(assignments、attendance、quiz1、quiz2、quiz3、quiz4)与标签(final_score);2.将数据划分为训练集与测试集(测试集比例20%);3.使用多元线性回归模型进行训练;4.输出模型的系数、截距及在测试集上的预测结果。实验步骤:(1)读取CSV文件;(2)划分训练集与测试集;(3)建立多元线性回归模型;(4)输出模型参数;(5)模型性能与特征影响分析。实验结果:模型系数(每个特征的权重):[-0.440732530.079905810.345967280.297340350.260762970.16734633]模型截距:-8.73900239965873
测试集预测结果:
实际值
预测值09191.4218382.5727070.5638586.07
模型决定系数R²:0.99236.4.2学习成绩与出勤率、作业提交、周测的相关性分析3.基于线性回归的学生学习行为与测验表现关联分析已知数据文件中包含学生的多维学习行为数据,包括“视频观看时长(分钟/天)”“课后练习完成率(%)”和“在线答疑参与次数”三项特征,以及对应的“周测成绩(%)”标签。
video_time:每日视频观看时长(分钟/天)
practice_rate:课后练习完成率(%)
qa_count:在线答疑参与次数
quiz_score:周测成绩(%)(作为预测目标)希望通过线性回归模型分析学习行为与周测成绩的关联程度,并预测新学生的学习表现。请使用提示词驱动大模型生成Python代码,完成以下任务:(1)读取数据文件,并提取三项特征与目标变量;(2)使用scikit-learn构建线性回归模型,划分训练集与测试集(测试集比例为20%);(3)训练模型并输出每个特征的回归系数与截距;(4)对测试集数据进行预测,计算模型的决定系数(R²)。6.4.2学习成绩与出勤率、作业提交、周测的相关性分析3.基于线性回归的学生学习行为与测验表现关联分析提示词参考你是一名教育数据分析专家,请根据“flsc6-4-3(score_linear3).csv”文件中的学生学习行为数据,使用Python和scikit-learn构建线性回归模型,完成以下任务:1.读取数据文件并提取三项特征(video_time、practice_rate、qa_count)与标签(quiz_score);2.将数据划分为训练集和测试集(测试集比例20%);3.训练线性回归模型,并输出各特征的回归系数与截距;4.对测试集进行预测并计算模型的决定系数(R²),并打印输出结果。实验步骤:(1)读取CSV文件;(2)划分训练集与测试集;(3)建立并训练线性回归模型(4)输出模型参数;(5)在测试集上预测并计算模型决定系数R²实验结果:模型系数(各特征权重):[0.078658120.505531311.2625885]模型截距:27.89850119866746
测试集预测结果:
实际值
预测值06866.9118684.8327372.7837271.88
模型决定系数R²:0.98576.5学习行为聚类与个性化学习推荐6.5.1学习行为聚类与个性化学习推荐1.K-Mearns算法简介K-Means是一种经典的无监督聚类算法,其核心思想是将数据集划分为预先指定的K个簇,使得簇内数据相似度最大、簇间差异最大。K-Means算法迭代过程聚类算法流程图6.5.1学习行为聚类与个性化学习推荐2.学生行为聚类原理现收集了6名学生的“每日视频观看时长(分钟/天)”和“每周在线答疑参与次数”的数据,具体如下表所示。希望根据学生的日常学习行为,自动发现学生群体中的典型行为模式,以便后续实施分层教学与个性化资源推送。学号每日视频观看时长(分钟/天)每周在线答疑参与次数S111S222S331S464S575S684学生学习行为数据散点图6.5.1学习行为聚类与个性化学习推荐2.学生行为聚类原理第一次迭代6.5.1学习行为聚类与个性化学习推荐2.学生行为聚类原理第1次迭代接着,计算新的质心:C1=(1,1)C2=((2+3+6+7+8)/5,(2+1+4+5+4)/5)=(5.2,3.2)6.5.1学习行为聚类与个性化学习推荐2.学生行为聚类原理第2次迭代再次计算新的质心:C1=((1+2+3)/3,(1+2+1)/3)=(2,1.33)C2=((6+7+8)/3,(4+5+4)/3)=(7,4.33)6.5.1学习行为聚类与个性化学习推荐2.学生行为聚类原理第3次迭代计算新的质心:C1=((1+2+3)/3,(1+2+1)/3)=(2,1.33)C2=((6+7+8)/3,(4+5+4)/3)=(7,4.33)由于质心均未发生变化,因此算法收敛——簇划分稳定,中心不再变化(或变化非常小)。6.5.1学习行为聚类与个性化学习推荐2.学生行为聚类原理聚类结果:6.5.2AI辅助代码生成与学习行为聚类结果解析1.基于K-Means的学习互动程度行为聚类已知数据文件中记录了若干学生在在线学习平台中的学习行为数据,其中包括“每日视频观看时长(分钟/天)”与“每周在线答疑参与次数”。教师希望通过K-Means聚类算法,对学生的学习投入与互动特征进行自动分组,识别出不同学习群体,从而为个性化教学提供依据。请使用AI辅助代码生成方式(如大模型提示词)完成以下任务:(1)读取数据文件,提取两项学习行为特征;(2)使用scikit-learn中的K-Means算法对学生进行聚类分析,设定聚类数为2;(3)输出每个学生所属的聚类类别,并给出聚类中心的坐标值;(4)绘制学习行为的聚类可视化散点图,不同类别使用不同颜色标识,并在图中标出聚类中心位置。6.5.2AI辅助代码生成与学习行为聚类结果解析1.基于K-Means的学习互动程度行为聚类提示词参考你是一名教育数据分析专家,请根据以下任务生成可运行的Python代码:任务:1.读取文件“flsc6-5-1(student_clusters_data1).csv”,该文件包含两列特征:“video_time”(每日视频观看时长,单位:分钟/天)与“qa_participation”(每周在线答疑参与次数)。2.使用scikit-learn中的K-Means算法,对学生学习行为数据进行聚类分析,设定聚类数k=3;3.输出每个学生所属的聚类类别,并显示聚类中心的坐标;4.使用Matplotlib进行可视化:绘制聚类结果的散点图,不同类别使用不同颜色区分,并在图中标出聚类中心,添加标题、坐标轴名称和图例。实验步骤:(1)读取CSV文件;(2)构建K-Means聚类模型,设定聚类数为2;(3)输出聚类结果;(4)绘制聚类结果可视化。实验结果:聚类中心:[[87.64.56][26.520.96]]6.5.2AI辅助代码生成与学习行为聚类结果解析2.基于K-Means的学习节奏与作业行为聚类在智慧教育环境中,学生的学习节奏与作业完成行为是影响学习成效的重要维度。教师希望利用聚类分析方法,根据学生的行为特征识别不同类型的学习者,从而为个性化教学和精准学习支持提供参考。已知数据文件中包含若干学生的学习行为数据,其中包括以下三个特征: 每周学习天数(StudyDays) 平均每日学习时长(StudyHours) 作业按时提交率(SubmitRate,%)使用K-Means聚类算法对学生进行聚类分析,以揭示学生在学习节奏与作业态度上的差异,从而识别出如“规律型学习者”“拖延型学习者”“高效自律型学习者”等典型群体。完成以下任务:(1)读取数据文件,提取特征数据;(2)对数据进行标准化处理;(3)使用K-Means算法进行聚类,设置聚类数为3;(4)输出每个簇的聚类中心及样本分布情况;(5)绘制聚类结果的三维可视化散点图。6.5.2AI辅助代码生成与学习行为聚类结果解析2.基于K-Means的学习节奏与作业行为聚类提示词参考你是一名Python数据分析专家。请使用K-Means算法对学生的学习节奏与作业行为数据进行聚类分析。数据文件名为“flsc6-5-2(student_clusters_data2).csv”,包含以下三个特征:-每周学习天数(StudyDays)-平均每日学习时长(StudyHours)-作业按时提交率(SubmitRate,%)请完成以下任务:1.读取CSV文件;2.对数据进行标准化;3.使用K-Means算法进行聚类(n_clusters=3);4.输出聚类中心和每个簇的样本数量;5.绘制3D散点图展示聚类结果。实验结果:原始数据预览:StudyDaysStudyHoursSubmitRate038.8141153.9887233.9582345.3995435.2880
聚类中心(标准化后):[[-0.25010243-0.09670859-0.06480984][-1.100745561.30773867-1.21057551][1.01246619-0.840109040.91983903]]
各簇样本数量:Cluster238035127Name:count,dtype:int64
6.6习题与实践6.6.1选择题1.______是人工智能(ArtificialIntelligence,AI)的重要分支,是实现人工智能的重要方法。A.机器学习 B.计算机算法 C.程序设计 D.计算机语言2.监督学习主要包括了______和______两类A.分类、降维 B.回归、聚类 C.分类、回归 D.聚类、降维3.在训练模型时要最小化损失函数,有可能出现过拟合的问题。以下哪项数据处理方式可以防止模型过拟合______。A.正则化 B.归一化 C.规范化 D.标准化4.机器学习的数据一般是由______和______两部分组成。结构、标签 B.特征、标签 C.结构、流量 D.特征、流量5.下列关于有监督和无监督学习说法中不正确的是______。A.无监督学习与有监督学习相比更加接近人类学习的过程B.有监督学习训练数据的获得需要专业人士进行标注C.K近邻算法中无需对训练数据进行训练D.有监督学习有明确的学习目标,而无监督学习完全没有任何学习目标6.6.1选择题6.下面哪个情形可以作为K-Means迭代终止的条件______。A.前后两次迭代中,计算时间不再改变 B.前后两次迭代中,每个聚类的质心不再改变C.前后两次迭代中,每个聚类中样本的数量不变 D.迭代达到指定的迭代次数7.下列关于机器学习描述正确的是______。A.分类和聚类都是有监督的学习 B.分类和聚类都是无监督的学习C.分类是有监督的学习,聚类是无监督的学习 D.分类是无监督的学习,聚类是有监督的学习8.当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离______。A.分类 B.聚类 C.关联分析 D.隐马尔可夫链9.对于类sklearn.neighbors.KNeighborsClassifier,利用______方法可以实现某个数据点类别的预测。A.fit() B.
predict() C.KNeighborsClassifier() D.Kmeans()10.下列关于KNN算法描述正确的是_______。A.KNN分类的结果与K值无关 B.KNN分类的结果随着K值的增大而更加准确C.KNN分类的结果随着K指的增大而更加不准确 D.KNN算法需要事先确定K值6.6.1选择题
6.6.2填空题机器学习一般可以分为____________、无监督学习、____________和____________四类。分类是一种______学习算法。分类算法常见的性能指标有______、________和________。对于线性回归,如果预测的变量是离散的或定性的,称其为分类;如果预测的变量是连续的或定量的,则称其为___________。在人工智能研究中,聚类通常属于非监督学习,而回归属于___________学习。6.6.3实践题打开“sysc6-6-1.py”,补全程序,完成以下功能:提取给定数据集前20行后4列前五行前五列,将数据做归一化,标准化处理。使用新大陆AIoT在线工程实训平台,点击“UploadJSON”,打开“sysc6-6-2.
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025-2026学年玩拖拉玩具教案
- 2025-2026学年校园歌唱绘画教案
- 2025-2026学年小手变动物教案
- 2025-2026学年制作风车教学设计
- 2026届青海省海东市高一生物第二学期期末经典试题含解析
- 2026 年中职地球物理勘探技术(勘探设备操作)试题及答案
- 2026 年中职道路与桥梁工程施工(道桥施工基础)试题及答案
- 2026年园林机械行业的市场化改革与政策影响
- 2026年人类活动对生态系统的影响评估
- 西北大学《普通物理实验(1)》2024-2025学年第二学期期末试卷
- 2024年山西新华书店集团有限公司招聘笔试参考题库含答案解析
- 樱与刀:日本民间故事集
- 智能制造企业制造成熟度能力域打分表
- 3000 吨-年果蔬干、果蔬脯生产加工项目环评报告表
- 卢氏去世前后纳兰性德词风变化探究
- 欧姆龙cx-programmer操作手册
- GB/T 42756.1-2023卡及身份识别安全设备无触点接近式对象第1部分:物理特性
- 土地复垦-损毁预测
- 水平定向钻穿越高速公路施工方案
- 应用写作写作四要素
- GA/T 1772-2021机动车查验场地设置规范
评论
0/150
提交评论