大语言模型前瞻偏差_第1页
大语言模型前瞻偏差_第2页
大语言模型前瞻偏差_第3页
大语言模型前瞻偏差_第4页
大语言模型前瞻偏差_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大语言模型前瞻偏差:用未来诠释过去大语言模型暗中记忆其预训练数据中的信息(参数),包括预测目标。指定提示词能否消除偏差?去除公司身份能否消除偏差?我们能否根据训练数据截止日期依赖大语言模型?我们是否应该训练自定义机器学习模型,从而控制训练数据时间线?使用大语言模型的最佳方式是什么?大语言模型2020年的预测输出未来股票回报/收益2019年的输入以往收益、股票回报、电话会议等截至2023年10月的预训练输入未来股票回报/收益分析师在2019年预测2020年解决方案可能不起作用:提示工程简单地告诉大语言模型不要在提示词中使用未来信息。这个解决方案不起作用(Sarkar和Vafa,2024年)参数中嵌入未来信息难以避免使用参数哪些解决方案可能有效?解决方案1:去除名称/日期Levy(2024年):预测性能确实显著下降。能否彻底解决前瞻偏差?如果大语言模型可以对公司名称进行逆向工程,并获得未来的未来信息,情况会怎么样?更多行动:询问大语言模型是否能分辨出是哪家公司;淘汰那些对公司身份进行逆向工程的观测值。Engelberg等人(2025年):在去除身份信息后,90%的样本“不可恢复”。解决方案2:使用大语言模型训练数据截止日期的真样本外测试使用预训练数据中没有的结果信息。Levy(2024年),Sarkar与Vafa(2024年)大语言模型2025年的预测输出未来股票回报/收益2024年的输入以往收益、股票回报、电话会议等截至2023年10月的预训练输入未来股票回报/收益分析师在2024年预测2025年解决方案3:自行训练模型你可以控制训练样本的时间线Cao等人(2024年)以及Gu、Kelly、Xiu(2020年):仅以滚动方式使用历史训练样本来预测下一年/下一个月的股票收益。Sarkar(2024年)及Levy(2024年):通过同样的逻辑来训练大语言模型,控制训练样本时间线2018年2019年2020年2021年2022年2023年模型2021训练验证预测模型2022训练验证预测模型2023训练验证预测使用大语言模型的最佳方式是什么如果需要进行预测,可以使用解决方案2或3。两者均控制训练样本的时间线将其用作检索增强(RA)而不是预测模型,会更加安全。RA可以阅读2020年的电话会议供你搜索;大语言模型可以为你完成同样的任务,从2020年电话会议中提取一些文本特征。文本输入大语言模型(作为预测模型)预测结果大语言模型(作为检索增强)输入:仅“2020年”会议记

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论