




已阅读5页,还剩3页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
分类器组合增量集成的远程教育论文 引言 基于上述分析为了更好地在远程教育系统中对学生的表现进行预测本文提出使用投票方法结合朴素贝叶斯的增量版本、和算法实验结果表明本文提出的算法应用于预测学生表现方面非常有用能够识别出学生的不良表现还能使老师在较早阶段采取预防措施甚至在学年一开始为了对有危险的群体提供额外的帮助更加准确地诊断出学生表现的能力会随着学期中加入新的课程数据而提升为老师提供了更加有效的结果 背景 本章给出为预测学生表现进行的教育数据挖掘、在线学习算法和增量集成分类器的一些基本理论 教育数据挖掘 分类、分簇、可视化、关联规则和统计挖掘通常基于学生们的使用数据发掘新的、有趣且有用的知识主要应用于电子学习问题或对象可处理与评估学生的学习表现、基于学生的学习表现提供适应性课程和学习建议、处理与评估学习材料和基于网页的教育课程、提供教师和学生的电子学习课程反馈、监督非典型学生的学习表现分类(电子学习中最有用的教育数据挖掘任务之一)可用作不同的教育目标例如:将提示驱动或错误驱动的那些学生分组找出这些学生通常有的错误观念;使用智能教学系统时预测分类学生等还有使用不同数据挖掘方法预测学生学习成绩(分出低、中、高等级)、使用来自日志的神经网络模型 在线学习算法和增量集成分类 在线学习任务是为了从标记的随时间分布的训练数据中获得一组概念描述这类学习对许多应用都是重要的如计算机安全、智能用户接入和市场购物篮分析客户的喜好会随着新产品而变化服务变得可用应对概念漂移算法必须快速并精确地收敛到新的目标概念而且在时间和空间上都有效在不断变化的环境中增量学习系统理想的特征有:无明显关于系统环境变化的信息进入系统时监测环境变化的能力从变化环境中迅速恢复的能力和调整假设满足新环境的能力旧环境重复出现时在环境中利用先验经验的能力在线学习算法处理每个训练实例一次不需要存储和预处理维护当前的影响目前所有训练实例的假说这类算法对大型数据集也是有用的对大数据使用要求多次遍历的批算法代价非常昂贵批神经网络学习算法会多次遍历数据集但在线学习的神经网络仅需遍历一次数据然而仅遍历一次数据可能会有一些相关损失所有这些算法都有一个已知的缺点一次进行几个例子的学习非常困难为了解决这个问题一些技术依赖于窗口技术它包括存储的最后个例子当新例子加进来时才执行一次学习任务加权多数算法()是许多在线算法的基础维护专家集的权重向量通过专家之间的加权多数投票预测输出投票感知在训练期间能存储更多的信息然后使用这个精细的信息在测试集上产生更好的预测为了计算一个预测算法计算了每个预测向量的二进制预测通过加权多数投票合并所有这些预测使用的权重是上述的幸存次数这产生了直观的感受“优秀”的预测向量幸存时间长在多数投票中有较大的权重合并分类器的概念是改进分类器性能的一个新方向然而在线设置中不是很明白如何直接应用集成方法一个解决办法是依靠用户指定每个基本学习者输入流中例子的数目但该方法假设已知很多关于数据流结构的情况也存在重新加权分类器的在线升级算法但是这些算法假设分类器数目是固定的此外当基本模型由少量例子训练时在线升级最初可能会有很大的损失算法可能再也无法恢复 算法 提出众所周知分类器优化集的选择是多分类器系统的一个重要部分通常把分类器输出的独立性当作获得更好的多分类器系统的优势分类器合并项中投票方法要求分类器无任何先决条件当使用投票方法合并多个分类器时如果大多数专家同意他们的观点就会做出正确的决策基于对这一点的信任本文期待能获得更好的结果目前有三种集成学习算法备受关注:算法的核心类似于感知如果它分类一个新的实例到类否则分类至类然而如果预测的类是正确的如下更新它的权重如果预测的值是且实际值为则权重太小;因此对于每个权重这类的特征其中推广参数大于如果且则权重太大;因此对于每个特征会通过设定权重中来降低对应的权重称为降级参数是指数更新算法的一个实例相关特征的权重呈指数增长但是不相关特征的权重呈指数缩小基于这个原因能迅速适应目标函数中的变化(概念漂移)最近邻()是基于这样的原则:一般会存在与数据集内实例很靠近的实例且这些实例有类似的属性如果把实例打上类标签则未分类实例的标签值可以通过观察它的最近邻居类而确定这个空间内实例的绝对位置不如实例之间相对位置那么重要使用距离度量标准确定相对距离理想的距离度量标准一定是两个相似类的实例之间的最小距离而不同类的实例之间的最大距离朴素贝叶斯分类器是最简单的贝叶斯网络形式因为它认定了每个特征与其他特征都是独立的假设给定类特征的状态独立性的假设显然几乎总是错误的然而简单的朴素贝叶斯方法仍然很有竞争力尽管它提供了对基础概率很差的估计朴素贝叶斯算法用于“批模式”意味着算法见到它的训练实例之后还不能执行它绝大部分计算而是在所有训练实例上累积特定信息然后在整个群里或者实例的“批”上执行最终的计算然而需要注意的是算法中没有固定任何东西去阻止使用它进行增量式的学习例如考虑增量式朴素贝叶斯算法可以运行假设它只遍历一次训练数据第步初始化所有的计数和总和为然后贯穿训练实例一次一个对于每个训练实例给定特征向量和它的标签值算法贯穿特征向量并递增合适的计数;第步用每个计数值除以同一类训练实例的数目转化这些计数和总数为概率;最后计算之前的概率()当作类所有训练实例的分数本文提出的集成算法以创建三个算法(、)的集为起点当新的实例到达时算法经过它并接收每个专家的预测在线设置中算法连续修改它使用的假说重复接收模式基于专家的预测多数投票预测它的分类找出正确的分类可能因此更新它的假说本文提出的集成方法的整体框图如图所示其中是每个分类器产生的假说是分类的实例是提出的在线集成方法的预测模型的数目或运行时间参数由用户调整这也是算法的一个易用性指标对于非专业性数据挖掘本文提出的集成方法无用户调整参数将更吸引人本文使用这三个具体的算法是因为它们很容易适应在线环境不仅同一个的新标记可利用而且下一个的标记也变得可用对这三个算法使用简单的多数投票方法是因为它在在线环境中使用简单增量训练学习者成为新实例的打包升级实现是可用的但是没有新特征变得可用本文提出的集成方法能轻松的实现每台机器并行使用学习算法并行和分布式计算对机器学习()执行者来说很重要系统并行或是分布执行的优点有: )提高速度; )增加可使用的应用范围(例如它可以处理更多数据) 实验 数据集 本文以希腊远程教育大学“信息”课程提供的训练集为研究目标的基本教育单元是模块一个学生每年可以注册高达三个模块“信息”课程由个模块组成可得到学士学位的模块中每学年学生必须上交四份书面作业参加与老师面对面的四个可选会议个月后应考最终的测试希腊的大学成绩系统是分制系统学生分数大于等于则通过课程或模块而小于则意味着挂科共有个实例(学生的记录)注册如表所示从两个不同资源中收集数据的学生注册和老师的记录几乎收集到了所有学生的有关数据“类属性”(因变量)表示导致期末考试测试结果的两个值“失败”表示学生表现差“差表现”表示学年内暂停学业的学生(由于个人或专业原因或没能力上交两份书面作业)及不参加期末考试或参加了期末考试但分数低于分的学生“通过”表示完成了模块在期末考试中得到的分数超过分 实验结果及分析 第一阶段(训练阶段)使用学年收集的数据训练每个算法将训练阶段划分成四个连续步骤第步包括来自第一份书面作业和得到的类中的数据第步包括第步使用的数据和第二份书面作业的数据第步包括第步使用的数据和第三份书面作业的数据第步包括第步使用的数据和第份书面作业的数据随后收集新学年()的一组数据这组数据用于测量预测值精度(测试阶段)测试阶段也分成四个步骤第步为了预测类使用第一份书面作业剩余的步骤以上述相同的方式使用新学年的数据实验一:将本文提出的算法与每个在线学习算法(朴素贝叶斯、)进行比较本文通过调整任一算法的特定数据集来最小化任一专家系统偏见的影响尽可能使用学习参数的缺省值这样可能导致较低的估计误差率但可能会影响所有学习算法的偏置表中的标记的行表示预测精度从表可以明显看出依照的测试本文提出的集成算法的分类精度优于其它各个分类器总的来说本文提出的集成算法在四个测试步骤的四个输出上明显比算法更精确此外本文提出的算法在四个测试步骤的两个输出上明显比算法更精确而且本文提出的算法在四个测试步骤的一个输出上明显比算法更精确实验二:将本文提出的集成方法与每一批先进的机器学习技术的代表性算法进行了比较批算法是用于测量学习算法精度的上层算法大部分批算法的增量版本都不是无损的无损在线学习算法就是当给定同一个训练集时这个算法会返回一个假说与它对应的批算法返回的相同算法是一个决策树代表性算法算法是一个众所周知的估计神经网络权重值的学习算法是神经网络的代表性算法本研究中算法结合了强鲁棒性噪声是规则的代表性学习者最后序贯最小优化算法()是的代表性算法表中、标记的行表示每个算法的预测精度表明显地表示出本文提出的集成方法在四个测试步骤的一个输出上明显比、和算法更精确此外本文提出的算法在四个测试步骤的两个输出上明显比算法更精确本文提出的算法在四个测试步骤的一个输出上明显比和算法更精确最后本文提出的算法在四个测试步骤的四个输出上也明显比投票感知方法更精确实验三:将本文提出的方法与几个众所周知的集成分类器进行了比较必须提到的是其他集成方法只能用于批模式本文使用批集成作为测量集成方法精确度的上层算法第三个实验用于比较: )决策树桩算法和次迭代算法 )有颗树的随机森林集成算法 )投票感知器算法 )带的旋转森林算法和次迭代算法表明显地表示出本文提出的集成方法在四个测试步骤的一个输出上明显比其他测试的批集成方法更精确从表可以看出正如之前提到的本文提出的集成方法的主要优点是它能很容易地适用于在线环境不仅相同的新标记变得可用而且下一个的标记也可用如果本文已经使用了另一个测试学习者和集成方法那么当下一个的标记变成可用时应该从零开始重新训练分类器实验四:将本文的数据集中所有算法都用于批学习者表给出了训练时间从表可以明显看出增量更新将比在目前所见的所有数据上返回一个批算法快得多它甚至可能是仅有的办法如果不能存储目前所见的所有数据或者如果实时时间内需要执行在线预测和更新至少它是非常迅速的最大限度减小所需的训练时间是学者们非常感兴趣的事正
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年城市供水项目财务监管与服务协议
- 2025年主题餐厅吧台特色饮品研发与品牌授权合作协议
- 2025年抖音平台内容创作者专属许可与推广服务合同
- 2025年高品质员工宿舍租赁及公共区域智能化维护合同
- 2025年智能照明系统改造工程合同-北京展览馆专用版
- 2025年家庭财产分割及子女抚养权变更调解协议书
- 2025年绿色食材供应合作餐饮连锁原料采购合同
- 2025年离婚协议书撰写及风险评估专项服务合同
- 2025年智慧社区公共区域清洁与消毒服务外包协议
- 二零二五年度网络文学版权购买与改编合同
- 合同的订立与有效性
- 梁的弯曲振动-振动力学课件
- 钢结构长廊施工方案
- 临床检验专业医疗质量控制指标(2015版)
- 信保业务自查问题统计表
- 2023年大学试题(大学选修课)-创业:道与术考试历年真摘选题含答案
- 心理健康评定量表
- 河道修防工高级工试题
- 女性生殖脏器
- 保障农民工工资支付协调机制和工资预防机制
- 流体力学的课件
评论
0/150
提交评论