【世界银行】从黑板到聊天机器人_第1页
【世界银行】从黑板到聊天机器人_第2页
【世界银行】从黑板到聊天机器人_第3页
【世界银行】从黑板到聊天机器人_第4页
【世界银行】从黑板到聊天机器人_第5页
已阅读5页,还剩85页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

WORLDBANKGROUP ,以支持学生在六周内进行英语语言学习。干预措及初始学业成绩较高的学生身上。研究结果人工智能辅助教学,在设计和使用得当的情。本文是教育全球部门的成果。这是世界银行更大范围提供研究开放获取并促进全球从粉笔到聊天机器人:评估生成式人工智能对尼日利亚´†关键词:大型语言模型、自适应学习、人工智能、教育技术、中学教育、因材施教。JEL分类:C93,I21,J24,O15,O33.*团队感谢世界银行的谢尔扎达·拉蒂夫和哈里勒·敦达尔教育实践经理。团队对乔恩·奥萨·奥维韦博士和詹妮弗·艾苏安的协作表示感谢。在整个试点实施期间,以及感谢AlexTwinomugisha、RobertHawkins和CristobalCobo对干预措施提供的支持。该团队感谢为该论文的先前版本提供评论的人员,包括DavidEvans、HalseyRogers、CarolinaLoRodriguez-Segura、NoahYarrow、JuanBaron和LucasGortazar。该团队承认获得了MastercardFound2全球教育领域正面临学习危机。根据学习贫困指数,低收入和中等收入国家的约70%的10岁儿童无法阅读和理解适龄文本。世界银行,2022).这些学习上的差距不断累积,并在中学阶段变得尤为突出,这一点有大量的国际、区域和国家评估作为佐证。在他具有里程碑意义的1984年研究中,Bloom证明接受一对一辅导的学生平均比在传统课堂环境中的同龄人表现优异两个标准差。Bloom,1984).后续研究一致证实了一对一辅导的显著益处(Nickow等人,2020然而,挑战在于大规模实施一对一辅导既成本高昂,大多数教育系统也难以负担。布鲁姆将这一挑战称为“两西格玛问题”:如何在具有成本效益的方式下,大规模复制个性化辅导的收益。本文探讨了生成式人工智能,特别是大型语言模型(LLM),是否能够帮助解决该问题。我们评估了尼日利亚一项为期六周的课外辅导项目,该项目使用公开可用的LLM(ChatGPT-4)来支持学生学习英语。来自贝宁城九所公立学校的一年级中学生被邀请参加;在这批学生中,52%的合格学生表达了兴趣,参与者从中随机选取。被分配到干预组的参加者在计算机实验室参加了十二次90分钟的课程,并在教师的指导下参与与课程相关的活动。我们采用随机对照试验(RCT)设计来估计该项目对学习成果的因果影响。我们呈现了三组主要结果。首先,我们发现被选入参与该项目的学生的最终评估成绩比干预结束后交付的评估高出0.31个标准差。我们发现该评估的所有部分都存在强烈的统计显著意向治疗(ITT)效应:英语技能(其中包含大部分问题,0.24σ),数字技能(0.14σ),人工智能技能(0.31σ)和每位学生考试的项目反应理论(IRT)复合分数(0.26σ)。我们还证明,干预措施在第三学期的常规英语课程考试中产生了强有力的积极结果。这个结果很重要,因为考试中评估的内容比干预期间所涵盖的内容更广泛,并且包括了全年的内容。我们计算了入选该项目的干预效应(ITT效应)对第三学期考试成绩的影响为0.21个标准差。其次,我们检验了由某些预处理特征引起的效应异质性。3处理效应在所有基线绩效水平上均为正且具有统计显著性,但在先前表现较好的学生中更为显著。类似地,处理效应在整个社会经济地位代理指标分布上均为正且具有统计显著性,但在社会经济地位较高学生中更为显著。最后,处理效应在女学生中更为显著,弥补了她们基线绩效的不足。第三,我们开展剂量反应分析。我们估计局部平均处理效应(LATE)估计值,重点关注实际参与干预课程的影响,治疗组平均参与率为72%。利用参与数据,我们估计剂量反应关系,发现参与天数与学习成果改善之间存在强烈的线性关联,每增加额外一天参与的效果量约为0.031个标准差。进一步分析预测,延长项目时长将带来显著收益,估计参与一整学年(取决于参与率)可使效果提升1.2至2.2个标准差。研究结果结合成本分析表明,该计划具有很高的成本效益。为期六周的试点项目产生了相当于常规情况下1.5至2年学习收益的提升。该计划每投入100美元可产生3.2个等效学习年(EYOS),超越了众多可比干预措施。以学习调整学习年(LAYS)作为分析指标 ,该计划可产生高达0.9年的高性能教育年。与来自低收入和中等收入国家的证据进行基准比较时,该试点计划位列解决学习危机最具成本效益的解决方案之中。我们的研究为旨在识别试图根据学生水平定制教学(无论使用技术与否)的项目的效果的文献的不同分支做出了贡献。为应对这一挑战所做的努力包括开发“适切教学水平”(TaRL)方法,该方法已证明在印度、肯尼亚、加纳和赞比亚等环境中能够提高学习成果(Banerjee等人,2016).TaRL的实施方式varied,从将学生从课堂中带出(Banerje于TaRL项目具有劳动密集型的特点,扩大这些项目仍然具有挑战性。这一挑战在全球教anerjee等人,2016),以及雇用志愿者而不是教师(Banerjee等人,2008).然而,于TaRL项目具有劳动密集型的特点,扩大这些项目仍然具有挑战性。这一挑战在全球教师短缺的情况下尤为突出,尤其是在撒哈拉以南非洲地区。最近估计表明,到2040年,该地区的国家每年将需要增加21%的中学教师(EvansandMendezAcosta,即将到来).教师短缺是 4进一步加剧了高离职率问题,并且二级水平所需的专业知识需求使得TaRL项目实施更加近年来,适应性学习软件通过利用技术模拟一对一辅导,已成为解决辅导项目可扩展性问题的潜在方案。研究表明,计算机适应性学习系统可以提升学习成果。例如,一项针对印度中学生个性化技术辅助课后教学的研究报告称,在4.5个月期间,数学成绩提升了0.37个标准差,哈里语成绩提升了0.23个标准差(Muralidharan等人,2019一个埔寨针对小学生数学教学的研究发现,由于学生每小时的学习效率提高,对认知技能产2021).在萨尔瓦多,用于适应性学习的软件被证明是有效的。环境具有异构类别和资质较差的教师(Buchel等人,2022).中国的实验也发现对标准规学校时间内实施的情况(Mo等,2014).在厄瓜多尔,使用适应性学习软件四个月的可能性导致了数学标准化考试成绩的显著正面影响(Angel-Urdinola等人,2023).其他没有采用实验方法的研究也估计了类似软件程序的正效应,例如乌拉圭的一个项目显示数学测试分数提高了0.2个标准差(Perera和Aboal,2019). 尽管取得了这些成功,适应性学习项目仍面临若干挑战。首先,大多数项目并未部署在世界最具挑战性的教育环境中,特别是在撒哈拉以南非洲地区,这引发了对外部效度的疑问。其次,这些项目通常依赖专有软件,其中既包括固定成本也包含按学生计算的成本,这使得它们在资源受限的环境中难以规模化推广。一些自适应学习方案利用人工智能(AI)来调整以适应学生的水平,但它们主要依赖于模式识别和预测算法,根据包含数千个项目的题库为学生提供与其水平相符的练习。生成式人工智能的最新进展为使用软件教学提供了一个有前景的途径,同时通过使用自然语言与学生保持更类人的互动。大多数考察教育领域中生成式AI的研究都已在发达国家和实验室环境中进行,评估了短期互动的影响(Kumaretal.,2023).在意大利,研究发现大型语言模型(LLMs)通过作业支持对学习成果有积极影响(Vanzo等人,2024).In 5美国,一种人类-AI方法,通过语言模型提供专家指导来支持导师,而不是直接为学生提供帮助,发现随机分配获得导师副驾驶服务的数学学生更有可能掌握课题(Wangetal.,2024).一项在哈佛大学本科生中开展的研究显示,在家使用AI辅导工具的学生表现优于仅接受主动学习课程的学生(Kestin等人,2024). 仅有少数研究评估了生成式AI在辅导学生方面的效果。在加纳,每周获得一小时手机访问权限并被允许通过短信应用使用AI驱动的数学辅导工具进行独立数学学习的学生,其成绩提升幅度远超未获得访问权限的学生,其效应量为¨0.36(Henkeletal.,2024).一项最近在土耳其进行的研究表明,包含仅四次的干预措施显示,虽然大型语言模型(LLMs)可以改善数学学习成果,但如果它们被用作“拐杖”而非导师,则可能在长期内对学习产生不利影响(Bastani等人,2024).在实验室环境下进行编码课程时,也发现了类似的效果。Lehmannetal.,202,在使用旨在保护学习的提示来配合大型语言模型时,产生了更积极的影响。Bastani 因此,本文通过在南撒哈拉地区采用真实实验设计,考察了在发展中国家背景下运用大型语言模型(LLMs)进行教育目的的早期项目之一的影响,从而为近期相关文献做出了贡献。本文旨在解决近期关于LLMs对学习效果影响新兴研究综述中识别出的一些挑战:缺乏客观指标来补充主观评估的影响,以及控制组和实验组定义的不足(Weidlichetal.,2025),以及缺乏功率分析来确定适当的样本量(Dengetal.2024).此外,所使用的干预措施是一个免费的现成模型,仅需最少的定制化,并且没有预构建的题库,这可能有助于其可扩展性。此项干预措施的调查结果强调了针对发展中国家,特别是撒哈拉以南非洲地区学习危机所包含的若干关键政策启示。该计划在学习成果方面展现出显著影响,即使面临互联网中断和停电等挑战,突显其在师资严重短缺和资源受限环境下的潜力。采用大型语言模型的AI辅导项目可通过提升教师生产力和提供个性化学习体验来补充传统教学,尤其在与指导性提示、教师监督及课程内容相协调时更显有效。该干预措施的成本效益和可扩展性前景可观,通过利用本地员工和免费工具实现。6以最小化成本为前提,同时消除传统自适应软件所需的大量题库。然而,政策制定者必须解决因数字素养差异和技术获取不均而产生的潜在不平等问题。在基础设施、教师培训和包容性数字教育方面的投资对于确保公平获取和降低加剧不平等风险至关重要。鉴于大型语言模型在教育领域的应用尚处萌芽阶段,仍有诸多问题悬而未决,这也突显了复制本研究(包括进行微小变体)的重要性。4讨论成本效益,提出未来研究方向,并阐述政策启示。本文其余部分的结构安排如下。第2描述了干预措施和实验设计,包括所使用的数据。第34讨论成本效益,提出未来研究方向,并阐述政策启示。该研究分析了在遵循国家课程、每周两次与大型语言模型互动以提升英语技能的课后项目的影响。该干预措施在尼日利亚的贝宁城实施,当时使用的是由GPT-4模型驱动的Copilot(一种LLM)。1该计划于2024年6月至7月期间,历时六周实施,目标群体为通常为15岁的一年级高中生。2干预旨在利用AI聊天机器人为虚拟导师,提升英语课堂的学习效果。所选工具为MicrosoftCopilot,由ChatGPT-4驱动,免费提供且仅需学生注册。该项目在九所学校开展,学生根据各校电脑实验室的数量分组,每场平均30名学生。每位学生每周最多允许参加两次1.5小时的课后活动。学校的选择基于计算机实验室的可用性。这些实验室在使用的设备类型上有所不同,从笔记本电脑到台式计算机不等。互联网接入,对于与大型语言模型进行实时交互至关重要,是通过路由器提供的。1GPT-4在各种专业和学术基准测试中表现出人类水平的表现,包括以约前10%考生的分数通过模拟律师2在表格中可以找到详细的实施时间线。 和移动电话信号。然而,互联网中断和停电是在干预期间面临的常见挑战。尽管存在这些问题,学生能够在大多数课程中与聊天机器人进行互动。所有学生的监护人签署了知情同意书,同意其子女参与试点项目。学生们两人一组,共用一台电脑,并通过与AI工具进行对话来增强学习。教师在其中扮演了关键角色,负责指导学生但并不直接授课,他们参与了为期三天的单次培训课程。该培训向教师介绍了大语言模型的功能,并使他们掌握教学方法,以确保其负责任地使用大语言模型并监督课堂活动。同时,培训也使教师意识到大语言模型可能存在的潜在风险,如幻觉和偏见。在第一次课上,教师向学生介绍了MicrosoftCopilot,强调了其教育益处和潜在风险,例如过度依赖模型以及出现幻觉和带有偏见输出的可能性。其目的是培养负责任的用法,鼓励学生在使用AI工具的同时补充学习,并保留批判性思维能力。每次后续课程聚焦于第一学年英语课程中的某个主题,与学生在常规课堂所学内容保持一致。课程以教师提供的提示开始,随后是学生与AI工具之间的自由互动。教师穿梭于课堂,确保学生的互动内容相关且专注。每位教师均获得一个三部分组成的实施工具包 ,包括:a)关于Copilot和LLMs使用的精选在线学习资源;b)关注人工智能素养及其潜在风险与益处的手册;以及c)课程指南,内含建议初始提示和可能需要的后续问题,以协助学生。教师若在课程实施过程中遇到任何问题,还可获得相关联系人支持,并建立了一个群聊以简化沟通。学生也获得了一份定制指南,其中包含初始提示。该教学指南及其提示经过精心设计,旨在将大语言模型定位为导师,重点在于促进学习 ,而非仅仅提供直接答案。这些提示基于学习科学的原则,并根据尼日利亚南部地区的文化背景进行了调整,融入了学生熟悉的姓名和习俗,以使其产生共鸣。3部分提示结 3在通过提示增强学习所采用的策略之一是鼓励大语言模型利用\"理想的困难\",而不是仅仅提供直接答案 。这些是条件,8Mollick(2023a).该设计旨在鼓励大型语言模型适应每位学生的学习水平,通过情境相关的示例和多样化的教学技巧提供教学支持。学生通过与大型语言模型提问、完成练习和接收个性化反馈进行互动。在每个会话结束时,鼓励学生反思和讨论会话期间所学到的知识和遇到的挑战,以促进小组成员间的知识共享。为确保项目实施的准确性,首先对监控员进行培训,并提供监控指南,然后指派他们使用KoboToolbox跟踪学生出勤情况,并收集每次课程的相关信息。4该系统实现了实时数据收集,确保干预措施在各所学校按预期执行,并提供了及时应对任何挑战的机会。52.2样本与随机化试点项目的随机化在九所选定学校的学生层面进行。这些学校中所有的一年级高中学生通过信息会了解到该计划,并被给予十天的时间表达参与兴趣。只有在该期间自愿表达兴趣的学生才被纳入随机化池。为评估对课后项目表示兴趣的学生是否系统性地不同于那些没有表示兴趣的学生,我们将参与抽签资格(即后来表示兴趣)的学生与不参与抽签资格的学生在项目前的考试成绩进行比较。表12报道了基于基准学术成果对资格状况进行回归分析所得的估计值。在第一项中,后来表达兴趣的学生比他们的同伴高出0.085个标准差(p<0.1见图).然而,在第二学期——仍然在彩票之前——这种关系逆转:学生虽然看似充满挑战,但要促进更具持久性和灵活性的学习(Bjork,1994).例如,最初的和建议的提示中包含了基于证据的原则,例如检索练习——当通过选择题和简答题测验实施时,已被证明对高中学生是einetal.,2018).然而,我们相信未来干预措施的迭代具有巨大潜力,能够更充分地利用基于证据的策略来改善学习成果。例如,虽然在我们的项目中,每一节课程都专注于单一的课程主题,但未来的项目可以尝试各种变化,例如结合交错训练(Weinsteinetal.,2018)和间距规范(Kang,2016).这些方法将允许在单次会议中涵盖多个主题,随着时间的推移回顾和强化它们,以增强长期记忆和理解。5监测数据包括教师和学生的出勤率、准时性、电源和互联网状况,以及参与者的参与度等因素。4关于此工具的详细信息,请参见Das(2024).5监测数据包括教师和学生的出勤率、准时性、电源和互联网状况,以及参与者的参与度等因素。 9未表示兴趣的得分高出0.147个标准差(p<0.01见图)7).各项指标缺乏一致的定向模式表明,被选入该项目的选择与学术表现并非具有很强的或系统性的相关性。尽管我们的分析集中于对表示兴趣的群体的处理效应,但由于缺乏明确的学术选择标准,研究结果可能推广到这一群体之外。然而,我们缺乏对未表示兴趣学生的人口统计数据,这限制了我们在其他维度上评估其代表性的能力。一旦表达兴趣的期限届满,采用不放回简单随机抽样进行随机分组。6在感兴趣的学生中,将他们分配到治疗组(参与项目)或对照组(未接受任何干预,但继续在教室进行常规学习)。学生们完成了一份基线调查和一份终期调查,其中包含社会人口统计信息。最初,657名学生被分配到治疗组,671名学生被分配到对照组。然而,只有422名治疗组学生和337名对照组学生完成了最终评估,这构成了用于分析的最终样本。表1提供两组关键可观察特征的综合统计数据和平衡性检验。人口统计变量包括性别、年龄和社会经济地位(SES)指数。该指数是从家庭特征的主成分分析中推导得出的,例如获得商品(电脑、手机)、服务(互联网连接)、学习空间和父母教育程度等。7SES指数以及其他变量,例如女生比例和年龄,显示样本在处理组和控制组之间是平衡的 ,差异较小且不具有统计显著性。这些结果证实随机化过程在关键特征上实现了平衡,支持后续处理组和控制组之间比较的有效性。除社会人口统计信息外,干预前的第一次和第二次考试成绩用于衡量基线学业表现。治疗组和控制组学生在第一次考试的平均基线分数之间的差异为0.131(SE=0.073),在第二次考试中,6随机化过程未采用分层,而是使用计算机化系统进行。尽管随机化过程未包含固定的随机种子,但分配结果已记录并保存,以确保分配的可重复性和透明性,这符合建议要求。Bruhn和McKenzie(2009).7参见关于使用主成分分析法构建SES指数的讨论。Vyas和Kumaranyake(2006). 0.096(SE=0.073)。这些差异在统计上也不显著,表明在项目开始前,两组学生的学业表现是相当的。2.3学习数据作为因变量在六周干预结束时,参与和非参与学生完成了一项标准化评估,旨在测量三个关键结果:(a)与尼日利亚相应时期课程相一致的英语语言能力(我们的主要关注结果),(b)对人工智能的知识,以及(c)对基本数字概念的理解(从现在起为方便起见,简称“数字技能”)。多数问题旨在评估英语能力。为最大限度降低作弊风险,创建了该评估的多个版本,每个版本都包含随机顺序的问题。此外,在学校设置了监控人员以监督评估的实施并确保符合测试规程。该评估采用传统的纸笔格式进行,由专家根据尼日利亚课程设计 ,包含多项选择题。对于每位学生,基于其在所有主题上的正确答案百分比,生成了一个简单的分数,同时为三个领域(英语语言、AI知识和数字技能)分别生成了单独的分数。除了这些未加权的分数外,还针对每个领域和整体评估计算了加权分数。这些权重基于每个测试项目的预先估计难度,该难度由测试设计者在实施前确定。使用项目反应理论(IRT)为每个主题计算了额外的熟练度分数。8这种方法通过将学现了跨学生的可比性。基于IRT(项目反应理论)的分数通过综合考虑学生的回答以及评生的表现置于一个共同的尺度上,并考虑到每道题目的现了跨学生的可比性。基于IRT(项目反应理论)的分数通过综合考虑学生的回答以及评估项目的不同难度水平,为英语语言能力——以及人工智能和数字技能知识——提供了一个更细致的衡量方式。除了针对干预措施的评估外,还从学生的期末英语考试成绩中推导出了一个附加的因变量。该考试由学校独立进行,涵盖了整个学期的内容,其时间范围超出了课后项目的六8对于IRT模型的更详细解释,请参见范德林登和哈姆布尔顿(2015).关于在教育学随机对照试验中使用IRT的重要性之讨论,参见Muralidharan(2017).3.1模型与主要结果我们使用以下回归估计干预措施的意向治疗(ITT)效果:sss第二任期(),andatermβ作为我们主要感兴趣的一个变量——一个指标s尽ik管干预前治疗组与对照组的学术表现差异未达到统计学意义,但治疗组的表现仍略占 k 表2该报告旨在评估干预措施在三个主要结果上的意向性治疗效应:最终评估总分(加权和IRT量表)以及第三学期考试成绩。第二学期考试的系数在所有模型中均显著,反映了先前表现的预测效度。所有模型均包含学校固定效应,观测值数量根据结果的不同在636至654之间变化。总分(加权)的治疗效应为0.31个标准差(SE=0.068),并在使用项目反应理论(IRT )进行标准化后,仍然为正且显著(0.263个标准差,SE=0.068)。这些结果表明,干预措施显著提升了学生在与项目直接相关的评估中的表现。重要的是,干预措施对第三学期考试分数也产生了积极且显著的影响,效应量为0.206个标准差(SE=0.067),尽管该考试并未局限于干预措施的具体内容。这表明干预措施可能培养了可推广的技能或改善了超出目标内容的学习成果。表3通过将总分分解为英语技能、数字技能和人工智能技能,它提供了更细致的分析。结果表明,干预对人工智能知识的影响最大,系数为0.309个标准差(SE=0.077),其次是英语技能(0.238σ:,SE=0.068)和数字技能(0.139σ,SE=0.076).对英语技能(我们主要关注的结局指标)和AI技能的影响在1%水平上具有统计学显著性。对数字技能的影响在10%水平上具有统计学显著性。对AI和数字技能的积极且显著的影响进一步表明,这些技能领域可能对其他技能领域产生潜在的溢出效应,尽管这些技能领域并非该项目的首要目标。与表2,第二学期考试成绩是结果的重要预测指标,且包含了学校固定效应以解释学校层面的不可观测因素。这项试点研究的结果尤为显著,因为若干因素可能削弱了估计的治疗效应。首先,随机化是在学生层面而非学校层面进行的,这一设计特征可能导致溢出效应,因为对照组学生在常规授课时间内可能与治疗组学生互动,从而可能稀释干预措施的影响。其次,监控与评估数据显示,由于部分教师缺乏执行区别的意愿,尤其是在最初几周,一些对照组学生无意中获得了课后课程的参与机会。此外,在项目启动的第一几周发生了显著的实施挑战,许多学生在创建账户以及与大型语言模型互动时遇到了困难。尽管存在这些挑战,干预措施产生了积极且显著的结果,表明观察到的效应应被视为干预影响保守的一项针对低收入和中等收入国家学前教育、小学和中学教育领域随机对照试验的最新综述发现,在整体测试分数方面,中位效应为0.10个标准差,在阅读方面为0.14(EvansandYuan,2022).因此,本研究的结果至少处于所有随机对照试验的80%百分位数,与人数在500至1000人之间的随机对照试验,结果仍高于其他80%的研究。当仅考虑对语言结果的影响时,结果接近所有研究的70%百分位数。作为第一步,我们进行了分位数回归,以检验在不同结果分布点上处理效应。分析表明 ,该处理对所有分位数均有正向且统计显著的效应,表明无论学生的初始表现水平如何 ,都能从中获得广泛益处。表4考察了性别、社会经济地位和基线学业表现对处理效应的异质性。第(1)列通过处理指标与女性虚拟变量的交互项探索性别异质性。尽管在该设定下处理效应的主效应在统计上不显著,但处理与身为女性的交互项在5%的水平上为正值且显著(0.420),表明干预对女性学生产生的积极影响大于男性学生。该结果应谨慎解读,因为其似乎受到样本中一所仅收女生的学校的影响,该校在干预前表现劣于其第(2)列通过基线学业表现(以第二学期考试成绩衡量)考虑异质性。治疗组与第二学期考试成绩的交互项为正且在5%水平上显著,表明学业基础较好的学生从干预中获益更多。第(3)列通过社会经济地位(SES)考察异质性,使用治疗组与SES指数的交互项。该交互项为正(0.113)且在5%水平上显著,表明来自较高社会经济背景的学生体验到更大的干预效应。这一发现与轶事证据一致,表明来自贫困家庭的学生通常是他们第一次接触计算机。尽管这些学生在未参与干预的对照情况下仍取得显著进步,但对技术的初始不熟悉可能削弱了干预的影响程度。迄今为止所有呈现的结果均为ITT估计,该估计基于治疗组参与者平均参与率约为72%。在本节中,我们呈现LATE和OLS估计,这些估计衡量了实际参与课程的影响。这些估计利用了作为项目监测和评估工作一部分收集的参与数据(见图表)。5).此外,在进一步假设下,我们提供了在不同项目接触水平上的预测治疗效果。我们估计出出席天数与附加值之间的剂量反应关系,采用以下模型:得分(),andatermµ对于我们感兴趣的主要变量——天数提供了证据表明存在剂量反应效应ik,每个额外一天的出席估计效应大小约为d=0.033。这一发现强调了持续参与的重要性 ,因为更多地接触项目导致学生成果产生有意义的改进。这些估计值捕捉了处理的平均因果反应(ACR),它表示受工具影响的那些个体中,处理状态发生单位变化(在本例中,为额外一天出席)的加权平均因果效应(instrument )AngristandImbens,1995).但是,如前所述,使用这些工具变量(IV)估计来预测不同出席水平的影响需要额外的假设。Muralidharan等人在不同学生之间如何变化的假设,因为平均处理效应(ACR)仅被识别于子集的执行者(至少参加一次课程的学生)而非整个样本,且(ii)关于天数参与与治疗效果之间关系函数形式的假设,因为平均处理效应反映了不同处理强度水平的平均值。对于第一个假设,我们不能假设对非遵守者的影响与遵守者相同。这是因为我们有证据表明,表现不佳的学生从项目中受益较少(表4),以及先前考试中的较好表现与出勤率呈正相关(表9).因此,我们采取保守做法,假设那些被分配至治疗组但未参加任何课程的非遵守者——若他们参加了该项目——将完全不会受益。在此假设下,并且考虑到非遵守者仅占被分配至治疗组人数的3.5%,则每增加一天出席的估计效应量为0.031。尽管遵循Muralidharan等人的做法,(2019),另外两方面的证据则与预期ACR适用于非依从者相符。第一,我们无法拒绝方程(3)的工具变量(IV)估计值与使用增值(VA)规范进行的最小二乘法(OLS)估计值相等,这表明平均处理效应和局部平均处理效应(ATE和LATE)可能相似。第二,在使用全样本和使用仅限于处理组的数据来估计OLSVA规范中的常数项(对应于0出勤)时,该常数项相似。这表明不同依从率学生的潜在结果相等。关于天数与治疗效果之间关系的功能形式,图形表示表明存在线性关系(图4).此外,虽然分数的增值在线性规定中与出勤天数高度相关,但添加二次项并不能提高拟合度,且二次项不显著,如表所示。7从更理论的角度来看,鉴于大语言模型的适应性,线性效应也是可以预料的。因此,似乎可以合理地假设,虽然效应在不同学生之间存在差异,但每个学生的效应并不会随着项目接触的增多而递减。来自干预的定性证据与这些结果一致,表明该项目的最初几天对学习成果几乎没有或没有可衡量的影响。这种滞后可能反映了学生熟悉技术和适应新的教学格式所需的时间。在此初始适应期之后,参加额外天数的效应保持持续积极,没有出现平台期的迹象。这表明,将干预实施期延长至六周之外可能会进一步放大学习收益。同时,鉴于参与最初几天的无效效应,这也表明LATE估计值可能被低估了。在假设治疗效应因对非依从者无效果而减弱,且存在线性剂量反应关系(这两种情况在本语境中均显得合理)的前提下,并遵循文献(Muralidharan等人,2019),我们的工具变量分析预测,参加该计划36周(相当于一个学年)将带来约2.23个标准差的增益。基于72%的出席率(我们样本中的经验值)的更保守估计预测,参加该计划21周(超过理论总时长36周)将带来约1.55个标准差的增益。在50%出席率的更悲观情况下,估计值仍为1.2个标准差。这些发现突出了持续实施所带来的潜在效益。学习成果的变革性影响。为检验结果的稳健性,我们进行了一系列检验,逐步调整基准模型以提升稳健性并考虑潜在的偏误来源。首先,对于所有展示的模型,我们采用稳健标准误来处理数据中的异方差性问题。其次,我们所有展示的模型中均包含了学校固定效应,并使用稳健标准误 ,以控制可能影响学生结果的不可观测的学校层面特征。第三,我们将干预实施前的第二学期考试成绩纳入控制变量。尽管治疗组与对照组之间的表现差异在统计上不显著,但治疗组学生的得分略高。如前所述,加入该变量使我们能够采取保守方法,减轻任何潜在的(尽管不太可能)选择偏误风险。包含所有这些设定的模型是我们主要结果的依据,见表2.此外,我们使用因变量的替代规格对模型进行了估计,以评估我们结果的稳健性。对于感兴趣的每个结果——总分、英语能力、数字技能和人工智能知识——我们分析了包含或不包含专家问题加权难度的模型规格。此外,我们还将项目反应理论(IRT)作为评分评估的替代方法。这种方法确保了估计结果不会受到测试设计或组成的过度影响。我们展示了加权总分的主要结果(表格第(1)栏)。2),均为0.31个标准差,以及项目反应理论(IRT)的量表结果(表2第(2)列)表8进行敏感性分析以测试处理效应的稳健性,通过每次从样本中迭代排除一所学校进行。所显示的因变量是最终学习评估的加权总分,但使用其他设定也得到了相似结果。估计的处理效应范围从排除IdiaCollege时的0.156(标准误=0.085)到排除ImagueroCollege时的0.360(标准误=0.072)。尽管在大多数情况下效应在1%水平上仍然具有统计显著性,但排除IdiaCollege将效应大小和显著性降低至10%水平。然而,考虑到IdiaCollege规模巨大(657所中的219所,或样本的33%),其排除会削弱计算效力,这一结果是可以理解的。对于所有其他学校,估计系数稳定在0.30左右并保持统计显著性。 在1%的水平上。总体而言,结果表明处理效应在大多数规格中保持一致且具有统计学上的显著性,这表明研究结果并非由任何单一学校的影响所驱动。最后,由于处理组和对照组的流失率差异显著,我们首先提供Lee边界估计处理效应(ITTeffects)对结果变量的影响。这些边界表明使用估计方法所得到的处理效应的范围。Lee(2005)的边界方法。该方法考虑了由于流失或被选入项目而可能产生的偏差。分析表明,即使采用这种保守的方法(表10此外,为评估我们的研究发现的稳健性以应对参与者流失问题,我们基于观察到的特征对最终评估阶段参与的似然性进行建模。随后,我们计算了逆概率加权处理效应,发现估计的ITT效应基本未发生变化(见表)。11).因此,即使在结项时存在非随机流失,我们的主要结论仍然成立。本节对试点项目进行成本效益分析,与其他高剂量项目进行比较,并探讨其可规模化的一些挑战与机遇。我们利用规划与预算数据测算项目的名义成本,并根据比例(ValdiviaTeixeira,2019为657名学生实施为期6周的试点项目,每位学生的成本约为48美元,边际成本估计为9美元。此外,将试点项目扩展到四个学季度将每位学生的成本增至124美元,这对于在没有进一步改善学习成果的情况下(考虑到我们剂量效应结果的保守性)构建关于长期干预投资回报的政策讨论尤为有用。表13提供试点成本明细以及我们针对四季度的项目估算。在试点实施过程中,固定成本占总体成本的43%(在假设的四季度项目中为39%),这为第二轮项目中的潜在成本降低提供了参考。9为了分析试点项目的有效性,我们遵循了Evans所使用的方法论。 9考虑到内容开发占所有固定成本的72%,并且对于年度实施来说将达到80%,这一点尤其相关。Yuan(2019).为了评估有效性,规模效应被转化为EYOS(预期年数),它以给定干预措施所提供的学习成果来表示“常规业务”学校的年数。我们在英语方面的IT效应为0.238个标准差。108个标准差。10相当于尼日利亚增加了1.5年的常规教育时长,而0.31标准差的总得分提措施,例如结构化教学法,后者通常在整个学年持续实施。在本节余下部分,我们使用英语方面的效果数据,因为这是我们主要关注的成果。该干预措施的成本效益,以每参与者投入100美元(理论上)所产生的预期有效学习年数(EYOS)来衡量,在假设规模报酬不变的情况下,预计可产生3.2EYOS。我们将测试分数的增长转化为工资的增加EvansandYuan,2019)).我们估计英语水平的提高将导致工资增加14%。11额外年收入范围在392至630美元之间。12在其工作生涯中,每位参与者的收入增长的现值介于7,767至12,517美元之间。13在考虑长期工资效应和我们的试点成本时,我们的试点项目的收益成本比是161至260。作为参考点,我们计算得出,即使在学习成果方面没有进一步改进,运行该试点一年也能产生62至100的高收益成本比。为进行比较,该项目的投资回报率与美国近期的高剂量个性化辅导项目(包括使用技术,FryerandHoward-Noveck(2020)产生2.4至8的成本效益比。然家(LICs)和下中等收入国家(LMICs)的证据显示,成本效益比在8至156之间变化(Glewweetal.(2010),杜弗洛等人。(2011),Banerjee等人(2007),EvansandYuan(2019)).与我们的研究结果一致,最近一项对全球150项教育干预措施的回顾(Angristetal.,2023)发现,在合适水平教授并包含技术元素的课程能产生最大的效益成本。10本部分重点探讨英语方面的结果,因为大多数使用EYOS和LAYS的文献主要关注语言或数学技能。如果我们使用总体分数,估计值将会更大。,肯尼亚是人均收入与尼日利亚最接近的国家(($6,200versus$6,020inPPP,current2023)。11FollowingEvans,肯尼亚是人均收入与尼日利亚最接近的国家(($6,200versus$6,020inPPP,current2023)。12这些值取决于所应用的劳动收入份额。世界银行表估计其值为0.465。()Feenstra等人,2015),和国际劳工组织的估计值为0.748。尽管我们更倾向于国际劳工组织的方法,因为它对自雇收入进行了调整,但我们同时提供了这两个数值。13我们采用3%的折现率,假设代表性代理人在20岁时进入劳动力市场,并拥有40年的工作寿命。我们还假设在一个人的一生中,工资对技能的回报是恒定的。LICs和LMICs之间的比率,加权平均值为65。如同任何其他中低收入国家一样,尼日利亚学校中“按常规”一天的生产力低于表现优异的国家。为了促进跨国比较,我们计算了LAYS(Angristetal.,2025;2020),该模型根据尼日利亚的学习质量调整了我们的项目在年受教育年限方面的学习收益。使用英语技能的学习收益(0.24σ),我们估计在两种情况下LAYS的情况。如果影响仅持续一年,干预措施会产生0.3LAYS。相反,如果影响持续到剩余的学校预期寿命,该计划将为每个参与者创造额外0.9年的优质教育。14换句话说,我们的尼日利亚参与者平均获得了(最高表现国家)0.9年的教育资源。最后,我们的项目每100美元产出0.6至1.9LAYS。如果我们将6周项目基于的估计替换为英语在剂量效应部分计算的估计,则考虑到观察到的出席率,该项目一年的LAYS将应为1.25。超越比较微小的数量差异,鉴于各研究的潜在假设、估计不精确性和情境条件各不相同 ,评估结果时应关注其序数而非基数。通过这一视角,分析可为政策制定、预算分配和项目设计中的重大权衡提供依据。因此,试点项目的成本效益比和其他成本效率指标均处于基准线以上或更高水平,凸显其在解决资源匮乏环境下的学习危机方面的潜在成本4.2未来研究方向本研究结果为未来研究提供了若干潜在方向。首先,将项目持续时间延长至六周以上,可探究更长时间的干预是否能带来更显著或持续的学业成果改进,以及随着时间推移学习曲线的形态。更长的项目可能允许学生与聊天机器人进行更复杂的互动,从而进一步增强其教育效益。这些延伸研究应辅以对学生在与人工智能工具互动过程中的定性评估 ,以理解推动学业改善的因果机制,以及学生具体如何从虚拟辅导中获益。考虑到我们的参与者处于十年级,我们使用3作为剩余的预期在校年数。其次,扩大研究范围以纳入更多样化的学校群体,特别是农村地区的学校,将提高研究结果的推广效度。通过调查该项目在不同教育环境中的有效性,有可能评估其在不同情境下的可扩展性和适应性。干预时间的延长以及学校群体的扩大都能提供有关其作用机技干预措施推出后可能出现,可能包括教师态度、努力程度和行为等方面的潜在变化,即使作为常规教学的一部分。另一个值得探索的途径是增加一个额外的治疗组,该组由教师提供一对一辅导,且不使用技术。这将允许直接比较LLM驱动辅导与传统教师主导辅导的有效性,为成本效益和教学效能提供有价值的见解,并有助于计算技术在教师生产力提升方面可能产生的影响。类似地,额外的治疗组还可以帮助分离可能驱动该效果的多种因果机制,包括额外的教学时间和与教师支持的聊天机器人互动。理解干预措施的长期影响也至关重要。未来的研究应调查短期内观察到的积极效果是否能够持续,从而对学生学术轨迹产生持久的改善。同样,从政策角度来看,评估此类课后项目是否会导致长期内学生从有生产力的校内活动中投入的努力或时间发生转变,以及校内项目是否可能作为替代方案提供更高的有效性,这将具有重要价值。15最后,进一步的研究可以探讨学生是否会将其使用AI工具的技能——在没有明确指导的情况下——从一个学科领域转移到另一个学科领域。例如,未来的研究可以考察英语课中AI工具的熟悉程度是否提升了学生在其他学科(如数学或科学)的学习表现。这种跨学科应用AI将为LLMs在教育领域更广泛的学习潜力提供见解。15关于课后项目与计算机辅助自适应学习的优缺点讨论,请参见Mo等人(2014). 这项试点干预措施的研究结果突出了若干对解决发展中国家,尤其是撒哈拉以南非洲地区学习危机具有前景的政策启示。首先,尽管存在一些实施挑战,例如网络中断和停电,干预措施对学习成果产生了实质性的影响。这对于面临严重教师短缺、高人口增长和教师流失率不断上升的国家来说尤其令人鼓舞。政策制定者可以得出的一个关键启示是,投资于由大型语言模型(LLMs)支持的人工智能辅导项目,可以显著提高教师的生产力,这与最近的一些定性证据一致。Keppler等人,2024).通过将传统课堂教学与基于人工智能的支持相结合,教育系统可以提供个性化学习体验,尤其是在人力资源紧张的环境中。其次,该程序表明,LLMs在正确使用时可以提高学习效果。近期文献中的一项辩论似乎表明,当LLMs被用作捷径时,即在不鼓励学生思考的情况下,用来快速解答学生的问题时,它们可能会损害学习效果。这些是例如以下研究所发现的结果Bastani等人(2024).一些研究也表明,当学生使用LLMs搜索信息时,可能导致推理和论证质量降低(Stad2024).相反,我们所评估的干预措施似乎表明,当通过提示(prompting)将其专门用作适应特定用例和上下文的导师时,大型语言模型(LLMs)可以改善学习效果。因此,这些发现与所强调的观点一致。Gerlich(2025)教育策略应促进对人工智能技术的批判性参与,以避免认知卸载,这可能降低批判性思维能力。本文评估的干预措施利用了三个关键机制来实现有效的辅导。首先,提示被有意设计为引导大型语言模型提供基于学习科学原理的解释和支持,而不是简单地提供直接答案。其次,教师在监控和引导学生使用大型语言模型方面发挥了重要作用,以确保其得到恰当和富有成效地使用。第三,每次课程的內容与官方课程大纲保持一致。16换句话说,我们认为整体干预措施——包括与LLM的交互以及教师通过具体提示提供的指导——正在推动结果。我们有理由相信,这些效果并非完全由额外的时间驱动16在这种情况下,虽然我们的干预在使用LLMs方面有所不同,但它更紧密地符合“计算机辅助教学”——融入教师的授课和课程——而不是“独立运作的计算机辅助学习”。这一区别由Ba 种解释表明,教师与技术之间可能存在互补性,而技术如何被使用和部署对于理解其影one-on-oneorinsmallgroups(Nickow等人,2020;KraftandLovison,2024).17种解释表明,教师与技术之间可能存在互补性,而技术如何被使用和部署对于理解其影响至关重要。Muralidharan等人(2019),我们的结果也可以被解释为表明在教育中使用技术——尤其是LLMs——可以提高讲师的生产力。18第三,尽管这项干预是在试点规模下进行的,但其成本效益使其成为大规模实施的有希望的候选方案。尽管干预的效果随着样本量的增大通常会降低(EvansandYuan,2022),大型语言模型的快速发展以及实施过程的改进潜力表明,该项目的未来迭代可能具有更大的影响力。此外,该干预措施由本地员工(包括教师和监控人员)实施,这可能有助于其可扩展性。类似地,使用免费工具,而非传统的基于订阅的计算机自适应软件,可以显著降低边际成本。此外,大型语言模型在自适应学习方面具有独特优势:它们消除了开发包含不同难度级别的大量题库以准确将学生分类到不同表现层级的需要,这一要求Rodriguez-Segura(2022)强调对于传统自适应软件至关重要。这种可扩展性潜力对于寻求在资源受限环境中以经济高效方式解决学习差距的政策制定者尤为重要。第四,虽然人工智能干预有潜力缩小学习差距,但政策制定者必须警惕此类项目可能无意中加剧不平等的地区。尽管干预措施可能提供帕累托最优效益,但数字素养和技术接入方面的差异可能会加剧现有不平等。确保所有学生都能受益于人工智能助教、数字技能和人工智能素养课程的前提是,这些课程应在课程早期以实用和包容的方式引入,教师应接受培训,利用数字技能改进其教学实践并支持学生成为数字和人工智能素养者。此外,需要在基础设施和设备上进行重大投资,以在区域间提供公平的技术接入。政策制定者必须确保将人工智能整合到此外,Rodriguez-Segura(2022)比较Bucheletal.(2022),一个来自萨尔瓦多的研究Ma等人(2024来自中国的这项研究表明,在传统计算机辅助自适应学习中,对于国家能力相对较低的国家(如尼日利亚),额外的教学时间不太可能是提高成果的主要驱动因素。教育伴随着解决数字鸿沟的举措,尤其是在低收入和农村地区。这可能需要跨部门重新调整优先事项,因为教育预算通常严重倾向于经常性支出,如工资。最后,生成式人工智能的迅速发展提供了一个独特的机会来解决全球学习危机。通过利用负责任的人工智能应用,以大规模提供个性化、自适应的学习,各国政府可以采取果断措施,改善那些传统上面临重大教育挑战的背景下的学习成果。参考文献技术报告,.ANGRIST,J.D.ANDG.W.IMBENS(1995变量处理强度模型中的因果效应,ageANGRIST,N.,D.K.EVANS,D.FILMER,R.GLENNERSTER,H.ROGERS,ANDS.SABAR-WAL(2025):“如何最有效地提高教育成果?——一项综述。”技术与教学的冲击:来自农村随机对照试验的证据”BANERJEE,A.,R.BANERJI,J.BERRY,E.DUFLO,H.KANNAN,S.MUKHERJI,M.BANERJEE,A.,R.BANERJI,E.DUFLO,R.GLENNERSTER,ANDS.KHEMANI(2008):“参与式项目的陷阱:来自印度教育随机评估的证据,”工作论文14311,美国国家经济BANERJEE,A.V.,S.COLE,E.DUFLO,ANDL.LINDEN(2007):“补救教育:“印度两项随机实验的证据,”经济学24):A(2024):“技术能否促进规模?来自对高剂量辅导的随机评估的证据,”工作论文32510 ,美国国家经济研究局。BJORK,R.A.(1994):“记忆与元记忆考虑因素在人类培训中的应用,”.(2009):“追求平衡:随机化的实践BUCHEL,K.,M.JAKOB,C.KUHNHANSS,D.STEFFEN,ANDA.BRUNETTI(2022):“教师与学习软件的相对有效性:来自实地实验的证据”,由A.Pundhir、A.K.Mehto和A.Jaiswal编辑,学术生的学习能力”“学习?一项关于实验研究的系统性综述与元分析,”“追踪的影响:肯尼亚一项随机评估的证据”(2013):“通过有效的学习技巧提升学生学习效果:充满希望的研究方向。”来自认知和教育心理学的指导,EVANS,D.ANDF.YUAN(与挑战,”全球发展中心工作论文,全球发展FEENSTRA,R.C.,R.INKLAAR,ANDFILMER,D.,H.ROGERS,N.ANGRIST“受教育年限(LAYS):定义教育的新宏观衡量标准”GLEWWE,P.,N.ILIAS,ANDGURYAN,J.,J.LUDWIG,M.P.BHATT,P.J.COOK,J.M.V.DAVIS,K.DODGE,G.FARKAS,J.FRYER,ROLANDG.,S.MAYER,H.POLLACK,L.STEINBERG,ANDG.STODDARD(2023):“为时未晚:提升青少年学业表现”.学支持:关于人工智能影响的实验证据。”Springer,373–381.d“如何提升儿童的认知和非认知能力?”KEPPLER,S.,W.P.SINCHAISRI,ANDC.SNYDER(2024):“逆向规划与**”“关键人工智能:来自美国K12教师的案例研究证据,”.”数学辅导项目的实验证据。教育工作论文编号。习是否提高学习成果?来自一项随机实验的证据?”“对北京移民学校的调查”,47,34–48.LAI,F.,L.ZHANG,Q.Q5b):“教授更广泛交流的语言、少数民族学生和整体教育表现:来自青海省一项随机实验的证据LEE,D.S.(2005):“培训、工资和样本选择:估计处理效应的严格界限,”.LEHMANN,M.,P.B.CORNELIUS,ANDF.J.STING(2024):“人工智能走进课堂:MA,Y.,R.FArlie,P.LOYALKA,ANDS.ROZELLE教育科技:关于中国计算机辅助学习的实验证据中学和高中课堂的考试成绩。”ELLAND,S.ROZELLE(2014):“将计算机辅助学习整合到常规课程中:,来自陕西农村学校的随机试验的证据,”MOLLICK,E.R.ANDL.MOLLICK(2023b)课堂教学中的策略:五种策略,包括提示。关于印度技术辅助教学的实验证据,影响:一项对实验证据的系统综述和元分析,”工作论文,美国国家经济研究局。PERERA,M.ANDD.ABOAL(2019):“一个数学计算机辅助学习平台对学生数学考试成绩的影响,”MERIT工作论文2019-007,联合国大学-马斯特里赫特创新与技术经济与社会研究学院(MERIT).Ev-“认知便利的代价:大语言模型“减少认知负担但在学生科学探究中牺牲深度”CRCPress.VANZO,C.A.,S.P.CHOWDHURY,ANDM.SACHAN“导师可以提升学生参与度和学习成果,”WANG,R.E.,A.T.RIBEIRO,C.D.ROBINSON,S.LOEB,ANDD.DEMSZKY(2024):“T“torCoPilot:一种人类-人工智能方法,用于扩展实时专业知识,”WEIDLICH,J.,D.GASEVIC,ANDP.A.KIRSCHNER(2025):“ChatGPT在教育领域:寻找原因的影响,”《全球学习贫困状况报告:2022年更新》,技术报告,世界银表1:样本描述性特征和观测余额均值(处理组)均值(对照组)差值标准误95%置信区间人口统计特征人口统计特征SES指数0.059-0.0750.1330.105[-0.073,0.339]基准测试分数第二次考试0.045-0.050基准测试分数学校学校处理组和控制组指的是被随机分配参加Copilot的学生。注意sessions.用于评估本表中协变量平衡的人口统计学变量是在注意基线调查。SES指数使用主成分分析中的第一个因子进行估计。:(连接),家中的学习空间,以及父母的教育程度。基线测试分数为通过观察学生在常规课程学校考试中的表现来衡量。干预前的条款。表2:主要结局的意向治疗(ITT)效应总分总分第三学期考试(加权)(IRT量表)第二次考试0.470******学校固定效应√√√:∗<<<p0.1;∗∗p0.05∗∗∗p<0.01。括号内为异方差稳健标准误。处理变量是一个虚拟变量,表示学生是否被分配参加Copilot课程。模型1中的结果为干预期期末学习评估的总分,如前所述。Section4.1模型2的结果是相同的评估分数,但使用项目反应理论模型进行了缩放。模型3的结果是在干预之后进行的第三学期常规课程考试中获得的分数,该考试内容与干预材料无关。所有结果都标准化,使其均值为零,标准差为一。表3:意向治疗(ITT)对特定领域的影响英语技能数字技能人工智能技能ScoreScoreScore第二次考试0.401***学校固定效应√√√:∗<<<p0.1;∗∗p0.05∗∗∗p0.01.鲁棒异方差性标准误括号内。处理变量是一个虚拟变量,指示学生是否被分配参加Copilot课程。模型1中的结果是在干预中的最终学习评估总得分,如描述。Section4.1模型2的结果是相同的评估分数,但使用项目反应理论模型进行了缩放。模型3的结果是在第三学期的常规课程考试中获得的分数,该考试在干预之后进行,其内容与干预材料无关。所有结果均标准化,使其均值为零,标准差为一。表4:按性别、社会经济地位和既往学生表现分解的处理效应异质性女性第二任期高级管理人员指数考试成绩治疗-0.039第二次考试0.477***治疗*第二学期考试0.151**-0.293**SES指数-0.054**学校固定效应√√√p0.1;∗∗p0.05∗∗∗p0.01.异方差稳健标准误置于括号内。所有模型均使用干预组最终学习评估中的总分作为因变量,如前所述。Section4.1模型1中的交互项包含一个女性学生的虚拟变量。模型2中的交互项包含学生在第二学期常规课程学校考试中获得的分数。模型3中的交互项包含社会经济地位指数(SES),该指数是通过主成分分析(PCA)的第一主成分估计得出的,该分析包括对某些商品(电脑、手机 )的获取、服务(互联网连接)、家庭学习空间以及父母教育程度的表5:参与项目场次的活动剂量反应分析:工具变量估计DependDepend人工智能技能英语技能ent人工智能技能英语技能entvariable:总分总分第三季度数字技能(加权)(IRT量表)考试分数分数分数出勤天数0.033***0.028***-0.372**学校固定效应√√√√√√R2

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论