基于机器学习算法的照片分类模型在投资者情绪分析中的应用

上传人：b*** IP属地：北京上传时间：2022-08-18 格式：DOCX 页数：25 大小：1.57MB 积分：18 举报 版权申诉

已阅读5页，还剩20页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、一、简介投资者情绪能够帮助研究者理解并预测金融市场活动，为此研究者们一直在探索度量投资者情绪的不同方法。较多研究从新闻文本中提取投资者情绪信息，但信息化时代下愈发流行的照片化新闻报道传达着更为直接的信息，因此如何从新闻照片中提取投资者情绪信息成为学界的热点问题。既有文献尝试从新闻照片中人工提取投资者情绪信息，然而受限于人工判定照片情绪的高额成本与主观性，这一方法处理的样本量通常较小且可能存在偏误。为此，由 Khaled Obaid 与Kuntara Pukthuanthong 两位学者合作撰写并发表在 Journal of Financial Economics 的论文“A Picture i

2、s Worth a Thousand Words: Measuring Investor Sentiment by Combining Machine Learning and Photos from News”使用机器学习对新闻照片进行分类，构建出照片悲观指数来预测美国金融市场活动，并创新性地对照片悲观指数与文本悲观指数进行了比较。首先，作者介绍了构建照片悲观指数与文本悲观指数的技术细节。模型方面，卷积神经网络技术(Convolutional Neural Networks)中的 Google Inception v3 模型能够非常好地对照片进行分类，因此被广泛地应用于实践与研究。作者使用该

3、模型通过分析新闻照片的对象、色彩及面部表情将照片分为乐观情绪组与悲观情绪组。在变量构建方面，作者将照片悲观指数定义为每天新闻照片中被模型分为悲观情绪组的比例，文本悲观指数则通过文本分析方法对新闻标题与摘要的悲观情绪进行评估得到。其次，作者对照片悲观指数预测金融市场活动的能力进行评估。金融工程模型预测在市场悲观情绪上升时金融市场回报会迅速下降并在周内剩余交易日回升至正常水平。在金融市场交易量方面，作者发现纽交所交易量在照片悲观指数波动时增加，表明照片悲观指数影响投资者情绪而非交易成本的增加。为分析套利限制对照片悲观指数影响幅度的作用，作者将资产组合根据特质波动率(Idiosyncratic Vo

4、latility)与公司规模进行分类。异质性分析表明照片悲观指数对金融市场回报的影响幅度在资产组合具有更高特质波动率或公司规模更小时更大，表明照片悲观指数对难以套利的资产组合有更大影响。随后，为显示从新闻照片中提取投资者情绪信息的优势，作者对照片悲观指数与文本悲观指数进行了比较。结果表明新闻文本除投资者情绪信息外还传达出反映金融市场活动的基本信息。照片悲观指数影响金融市场回报的系数在恐慌时期约是平时的数倍，而文本悲观指数在恐慌时期的系数与平时类似，表明照片在传达恐慌情绪时较文本更为有效。进一步的分析表明，新闻照片与新闻文本包含的悲观情绪的作用相互替代，即照片悲观指数变动导致的金融市场回报下降幅

5、度在文本悲观指数处于高水平时较小。本文创新性地利用机器学习分析新闻照片构建出了照片悲观指数，该指数能够很好地预测金融市场活动。未来研究者应该继续发展照片分类的机器学习技术以捕捉新闻照片中蕴含的信息。二、数据选取本章首先讨论了计算的方法。其次，讨论了选择 Getty Images 作为照片数据来源的原因，以及筛选照片样本的方法。第三，对进行了描述性统计，分析其与其他投资者情绪指标的关系。1、照片分类文章使用 CNN 模型中的 Google Inception v3 对新闻照片进行分类，通过使用预先训练好的Google Inception v3 模型（用 ImageNet 数据集训练）并进行转移

6、学习（用二分类问题的新层替换原来的全连接层）使其适用于本文的问题，转移学习可以利用预先训练好的模型中的已有知识，简化模型构建。使用DeepSent 数据集进行转移学习，DeepSent 数据集的主要优点是通过人工任务网站(MTurk)验证情绪标签，确保标签准确性。为提高可靠性，文章使用了所有 5 名 MTurk 调查参与者在情绪标签（干净标签）上达成一致的照片，该条件限制将训练样本减少到 882 张照片。模型学习率设为 0.01，步骤设为 5000 步，测试容量为 100 张。保留 10%的训练照片作为验证集，10%作为测试集。训练集是用来调整最后全连接层中的权重，验证集用来降低模型训练中的过

7、拟合，另外还使用增强算法扩大训练集，并应用正则化算法降低过拟合。测试集用来检验模型的最终准确率。DeepSent 训练集中的照片可能与Getty Images 样本中的专业照片不太相似。因此，使用 DeepSent 训练集训练的模型可能无法准确地对照片进行专业分类。为解决这个问题，文章使用分层抽样从 Getty Images 样本中随机抽取 100张照片，并由 MTurk 的 5 位人士对每张照片进行分类。将通过深度学习模型获得的预测结果与从 MTurk 收集的分类结果进行比较，可以得到如下的混淆矩阵：图 1 混淆矩阵A Picture is Worth a Thousand Words: M

8、easuringInvestor Sentiment by Combining Machine Learning and Photos from混淆矩阵显示，准确率为 77.0%，召回率为 77.9%，精确率为 90.9%，F1 为 83.9%，可见使用 DeepSent 训练集训练的模型对 Getty Images 数据集进行分类方面表现良好。2、Getty Images作者在 1926 年 1 月至 2018 年 6 月间的每天从 Getty Images Editorial News 收集照片，关注编辑新闻部分有助于避免包括创造性或艺术性的照片、体育赛事照片、名人集会、时装秀和股票照片。

9、Getty Images 数据库包含为 Getty Images 工作的摄影师拍摄的照片，以及为各种新闻媒体工作的摄影记者拍摄的照片，如彭博、洛杉矶时报和华盛顿邮报等。在时间方面，Getty Images 数据库中的照片最早在事件发生后几分钟内发布；而传统的印刷新闻（如华尔街日报）的滞后时间更长，因为要为编辑和印刷过程留出时间。作者按受欢迎程度对照片进行排序，每天下载 20 张最受欢迎的照片，受欢迎程度考察购买历史和查看次数。理想情况下，会根据受欢迎程度分布选择照片，而不是等级。在 1.4 节中，使用了基于给定月份受欢迎程度等级分布前 5%的替代样本选择标准，优点是重点关注最有影响力的照片,，

10、缺点是不是每天都有照片数据，因为某些天可能没有符合受欢迎程度前 5%的照片。为了过滤掉不重要或不相关的照片，对照片样本应用两个过滤器。首先，要求每天至少有 15 张照片可用，因为可能有几天的照片比较少，而这几天没有什么重要事件或与金融市场没有明显的联系，要求每天有至少 15 张照片有助于只包括有重要事件的日期。其次，根据 Loughran 和 McDonald(2011)词典，要求照片描述包含至少一个表示否定或肯定的单词，该过滤器删除了非英文描述的照片，也有助于增加照片与金融市场相关的概率。总的来说，经过筛选后，分别有有 220,136 张（前 20 张）、169,886 张（前 15 张）和

11、 74,044 张（前 10 张）合格照片，下表总结了每一步筛选过程后的照片数量：图 2 过滤后的照片样本数量A Picture is Worth a Thousand Words: Measuring Investor Sentiment byCombining Machine Learning and Photos from News对于文章中的主要检验，作者使用了经过干净标签数据（5/5 的调查参与者一致同意的情绪标签）训练的模型，但对于稳健性测试，作者还使用了用噪声标签数据（至少 4/5 的调查参与者一致同意的标签）训练的模型结果。选择使用清洁标签数据训练的照片分类模型的原因是，清洁标

12、签数据有助于模型达到较高的测试精度，预测结果更加可靠。3、变量构建文章的主要变量定义为最受欢迎的前 10 张照片中预测为悲观的照片的比例。在文章最后，作者也展示了如果包括最受欢迎的前 15 位或前 20 位照片，文章主要结论依然成立。作者根据照片的受欢迎程度来进行赋权（即1 ），加权的目的为了给予更受欢迎的照片更高的权重，因为这些照片更有可能包含引起更大市场关注的事件。第 t 天的计算方法如下： ( 1), = 1 其中是样本预测为悲观的指示变量，分母是样本权重之和，每天照片样本的数量最大为 10 张。文本悲观()是基于照片描述中悲观与乐观单词数量差除以总单词数的平均值构建的，并通过照片的受欢

13、迎程度等级来加权，的计算方法如下：) ( 1 = 1, 其中为悲观单词数量，为乐观单词数量，为照片描述的总单词数。作者使用 Loughran 和 McDonald(2011) 词典将单词分类为悲观或乐观。Loughran 和 McDonald(2011)认为，使用来自其他学科的词表来判断文本的语气会在金融市场问题中导致重大错误。例如，哈佛社会心理学词典中将“税收”和“成本”这样的单词归类为悲观，但在财务背景下，这些单词只是在描述公司的正常运作。三、实证分析行为金融学理论暗含两个假设：第一，一些投资者是非理性的，能够影响价格（De Long 等，1990a），外推（Tversky和 Kahn

14、eman，1983）和过度自信（Fischhoff、Slovic 和 Lichtenstein，1977）等偏倚可能导致非理性投资者增加风险偏好和投资需求，将价格抬高到远离基本面的位置；第二，套利限制使理性投资者无法迅速纠正价格偏离的情况（Pontiff，1996；Shleifer 和 Vishny，1997）。因而，当乐观（悲观）情绪飙升时，非理性投资者将增加（减少）风险偏好和投资需求，推动价格远离基本面。行为金融学模型预测，这种需求的增加（减少）将导致更高（更低）的回报，随着时间推移，市场纠正资产价格到正常水平，回报将发生反转。1、照片和文字中的新闻情绪首先，照片中的悲观情绪预示着与行为金

15、融学模型预测相一致的市场回报反转（De Long 等人，1990a）。其次，作者发现照片中的悲观情绪是文本中悲观情绪的补充。第三，作者探索了与文本相比，哪些新闻内容能够更有效地通过照片传达。第四，作者发现在包含有影响力的照片的日子里，照片的悲观情绪包含了文本的悲观情绪。第五，作者构建了三种交易策略，以突出分析新闻照片的优势。、PhotoPes 对市场回报的影响在验证模型预测之前，作者进行了一些汇总统计，对两个市场指数进行时间序列回归来评估指数表现以及在回归中需要控制什么。下表分别列示了简单平均（EWRETD）和市值加权平均（VWRETD）的 CRSP 指数收益的样本统计量， Panel A 显

16、示 1926 年 1 月至 2018 年 6 月间，VWRETD 平均日收益为 3.6bp，日均标准差为 106.3bp。在 Panel C中，对于EWRETD，作者也得出了相似的结论，平均日收益为 7.1bp，日均波动率为 104.4bp。图 3 简单平均和加权平均的市场回报的样本统计量（Panel A）A Picture is Worth a Thousand Words: Measuring Investor Sentiment by Combining MachineLearning and Photos from News图 4 简单平均和加权平均的市场回报的样本统计量（Panel

17、C）A Picture is Worth a Thousand Words: Measuring Investor Sentiment by Combining MachineLearning and Photos from NewsPanel B 和Panel D 展示了如下时间序列回归的结果： = () + + ,其中表示VWRETD（Panel B）和EWRETD（Panel D）的对数日收益，表示 s 期滞后算子（设定 s=5），是一组包含截距的外生变量。VWRETD 和 EWRETD 收益都表现出显著的自相关，而 EWRETD 自相关性更强。作者还发现星期一的回报明显低于一周中的其

18、他日子。图 5 简单平均和加权平均的市场回报的样本统计量（Panel B）A Picture is Worth a Thousand Words: Measuring Investor Sentiment by Combining MachineLearning and Photos from News图 6 简单平均和加权平均的市场回报的样本统计量（Panel D）A Picture is Worth a Thousand Words: Measuring Investor Sentiment by Combining MachineLearning and Photos from News

19、下面几张表展示了市场回报对和控制变量做回归的结果，带有 White-t 统计量的模型如下： = 1 + 2() + 3() + 4(2) + 5 + ,其中表示VWRETD 和 EWRETD 下的对数日收益，是 t 日最受欢迎的照片中预测为悲观的数量占比，表示 s 期滞后算子（设定 s=5），是一组包含截距的外生变量。在第（1）种情况中，与是显著负相关的，换句话说，悲观情绪的照片占比越高，市场收益越低。这个效应在经济意义上也是显著的，一个标准差的变动将导致变动 1.9bp，比 VWRETD 的日均收益的一半还高。考察的滞后项，作者发现的系数显著为正，表明在第三天发生收益反转，并且收益反

20、转的大小与初始效应近乎一致，3一个标准差的变动将导致变动 1.7bp。第（2）种情况与第（1）种情况相似，与显著负相关，然而收益反转的情形却略有不同：1的系数显著为正，说明在第二天发生了反转。3的系数也显著为正说明在第三天反转仍持续。另外，从系数的总和来看，作者发现 EWRETD 的反转比 VWRETD 更全面。作者不知道照片的具体发布时间，推测大部分照片是在开市同时也是记者最活跃的时候发布的。如果一张照片是 t 日闭市后发布的，作者仍然控制了1变量。实证结果显示照片在开市时发布，由于1显著为正，市场对照片信息反应非常迅速。第（3）-（6）种情况的结论与之前较为相似，当天发布的照片与当天市场

21、回报呈负相关，与之后一天的市场回报呈显著正相关。总之，结果拒绝系数的总和显著不为 0 的假设。如果照片含有新的基本面信息，下跌后将不会有后续的反转；反之，如果照片含有的信息已经充分反映到股票价格上，照片将对收益没有影响。图 7 PhotoPes 对市场回报的影响A Picture is Worth a Thousand Words: Measuring Investor Sentiment by Combining Machine Learning and Photos from、PhotoPes 和文本中的情绪下面作者对和市场收益的关系是否能被新闻文本中的情绪解释进行了分析，并做了如下回归

22、： = 1 + 2 + 3() + 4() + 5() + 6(2) + 7 + ,其中是或，其他变量与之前相同。在控制了新闻文本中的悲观情绪后，与、仍显著负相关，效应略微减小，尤其是对于 VWRETD。与相比，的系数与的系数显著不同，然而与没有显著不同。由于不含有与市场回报相关的信息，后文将用作为新闻文本情绪的代理变量。第（5）和（6）种情况检验了对文本情绪信息是否有加强或替代作用。无论控制文本情绪变量与否，的系数不会发生太大改变，说明具有额外的解释力。为了进一步说明这个问题，作者引入了和的交互项，结果显示交互项的系数显著为负，说明照片的悲观情绪加强了文本中的悲观情绪，并且交互项的加强作

23、用是比较强的。由于 Getty Images 中的照片不一定都与金融市场相关，用金融词典去分析照片描述文字中的情绪可能不是最优。作者用哈佛社会心理学词典重新计算，记为。在情形（7）和（8）中，的系数分别是-1.1 和-1.5bp，都不显著，意味着应用非金融词典进行文本分析并无助益。作者应用自然语言处理软件（斯坦福大学的 CoreNLP 软件）对照片描述文字进行分析，对每句话的情绪打分然后取平均，最后对某天所有照片描述的情绪得分按照受欢迎程度加权计算。在情形（9）和（10）中，的系数分别是-0.6bp、0.1bp，都不显著，说明应用更复杂的文本处理方法并无助益。A Picture is Wort

24、h a Thousand Words: Measuring Investor Sentiment by Combining Machine Learning and Photos fromA Picture is Worth a Thousand Words: Measuring Investor Sentiment by Combining Machine Learning and Photos from News、哪些信息能够更有效地借助照片传递？作者尝试解答哪些信息是新闻照片能够传递的而文本不能。有研究表明照片在灾难性事件上是更好的传播媒介，作者测试了在灾难性事件发生时，市场回报和照片及

25、文本中情绪的关系是否会变化。作者定义死亡人数超过 1000 人为灾难性事件发生日，考虑灾难性事件是否发生进行如下回归： = ()1 + 2() + 3 + 4() + 5 + 6() + 7(2)+ (1 )1 + 2() + 3 + 4() + 5+ 6() + 7(2) + 8 + ,其中是哑变量，当灾难性事件发生时为 1，否则为 0，其他变量与前文相同。在情形（1）中，作者发现1是1的 15 倍且是3的 5 倍，说明在灾难性事件发生时照片的重要性。情形（2）的结论也类似。、有影响力的照片作者发现在具有较高影响力新闻照片的日子，与基线模型结果相比，与市场回报之间呈现更强的关系。此外，在具

26、有较高影响力照片的日子，比文本中的悲观情绪与市场回报之间的关系更强。文本中的悲观情绪及其与的交互项不显著，这表明，与文本相比，某些新闻内容能更有效地被照片捕获。、应用作者构建了三种交易策略，以突出分析新闻照片的优势。为确保交易策略的回报不受收益动量或日历效应影响，作者将或对滞后的市场回报和日期哑变量回归的残差分别表示为或。策略要求投资者每天基于新闻中的悲观情绪持有道琼斯工业平均指数或国债。第一个策略是基于照片中的新闻悲观情绪，第二个策略是基于文本中的悲观情绪，第三个策略涉及文本和照片的悲观情绪。考虑每日 1 个bp 的交易成本。图 10 显示，开始投入 1 美元，在结束时三个策略分别能够获

27、得 255.84、146.44、437.56 美元，年化收益分别为 6.18%、 5.54%、6.80%，基于以及和的策略总回报远高于买入并持有的策略。图 11 展示了采用而不是的模型结果，模型表现不佳的原因是交易策略只利用了第二天的反转。图 10 交易策略表现A Picture is Worth a Thousand Words: Measuring Investor Sentiment by Combining Machine Learning and Photos from News图 11 交易策略表现A Picture is Worth a Thousand Words: Meas

28、uring Investor Sentiment by Combining Machine Learning and Photos from News2、PhotoPes 的稳健型检验、套利限制下表重点说明了套利限制如何影响与市场回报之间的关系。纠正市场上的定价错误是有风险的，定价错误可能需要很长的时间来纠正。De Long 等人(1990a)表示投资者情绪会对最难套利的股票产生最大的影响，而 DAvolio(2002)发现，对于风险更大的股票来说，套利风险比更安全的股票更大，成本更高。我们基于组合总波动率进行分类测试，验证对难以估值或风险更高的股票会产生更大影响，为此作者进行如下回归： =

29、 1 + 2() + 3() + 4(2) + 5 + ,其中是按照过去一个月日均波动率分组的股票平均日收益。图 12 中情形（1）和情形（5）表明，与所有投资组合呈负相关，但最高波动组合的统计显著性高于最低波动组合。最低和最高波动组合的收益反转均发生在第二天，因为1上的系数显著为正。然而，与最低波动组合相比，最高波动组合的反转幅度更高。卡方检验显示，所有滞后的系数总和与 0 无显著差异，表明不包含任何与基本面有关的新信息。为了检验与最低波动股票相比，最高波动股票的情绪对股票回报的影响是否更强，作者对最高和最低波动分位组合 (H-L)的回报差和以及控制变量进行了回归。的系数在 1%置信水平

30、下显著为负，且系数大小具有经济意义一个标准差的偏离将 H-L 组合的条件平均日收益提高 2.4bp。图 12 稳健型检验：PhotoPes 和波动率A Picture is Worth a Thousand Words: Measuring Investor Sentiment by Combining Machine Learning and Photos from、不确定性作者研究了照片的悲观情绪是如何根据市场的不确定性而变化的。个人投资者会基于不同的情绪（包括不确定性）对信息做出不一样的反应。因此作者推测，在市场高度不确定性的时期，投资者将会更加情绪化。NVIX 是通过对华尔街日报头版

31、新闻文章进行文本分析构建的新闻隐含波动率指数。NVIX 是从所有类型的新闻中提取的，而不仅仅是金融类新闻，它是基于机器学习开发的，并在 1889 年至 2016 年间月频更新。作者进行以下回归，以区分在不同波动率水平对市场回报的影响。 = ()1 + 2() + 3() + 4(2) + (1 )1 + 2()+ 3() + 4(2) + 5 + ,其中是哑变量，当波动率水平高于当月NVIX 中位数时为 1，反之为 0，其他变量与之前一致。情形（1）中，1衡量在高隐含波动率时期对市场回报的影响，系数显著为负，且比图 7 中系数绝对值更大。1衡量在低隐含波动率时期对市场回报的影响，系数仅 0.

32、1bp 且统计不显著。考察2和2检验是否存在反转效应，作者发现在高隐含波动率时期，在照片发布后第三天有收益反转，但是在低隐含波动率时期并没有反转现象。情形（2）揭示的结论类似，总之，在经济意义和统计意义上，在市场高隐含波动率时期对市场回报的影响均更强。图 13 稳健型检验：PhotoPes 和总体不确定性A Picture is Worth a Thousand Words: Measuring Investor Sentiment by Combining Machine Learning and Photos from News3、PhotoPes 的机制、基于金融新闻的 PhotoPe

33、s本节目标是探索背后是哪种类型的新闻能提供额外的信息。数据收集自 1997 年 7 月至 2018 年 3 月期间的1,036 期经济学人。虽然经济学人可以追溯到 1843 年，但 1997 年 7 月之前的出版物只有印刷品，旧照片的扫描版将使算法难以正确预测情绪，因为旧照片的扫描版与数码照片的可比性较低。作者共收集 17284 篇文章，其中 8253 篇来自“商业”部分，988 篇来自“本周商业”，8043 篇来自“金融和经济”。作者手动检查所有照片，并删除图表和徽标，这一步将样本减少到 814 期，其中包含 4939 张符合标准的照片。作者使用干净模型对照片进行分类，以获得对情绪的预测。悲

34、观指数是 t 日三个部分的所有照片中负面情绪的平均概率。平均而言，该样本预测结果中 19.66%的照片具有负面情绪（而 Getty Images 样本中概率为 30.9%）。为了检验经济学人照片中的悲观指数是否与投资者情绪理论一致，作者进行了以下回归： = 1 + 25 + 3() + 4(2) + 5 + ,其中表示i 日（i=t，t+1，（t，t+1）以 VWRETD 或 EWRETD 计算的对数日均收益。t 日是经济学人出版的日期（星期五）。作者预测，与当前市场回报呈负相关，与未来市场回报呈正相关。如果在经济学人出版后的第二天发生反转，则与 t 日和 t+1 日间的累积市场回报无关。

35、图 14 中结果显示，第一天的市场跌幅在出版的第二天就被完全反转了，用 VWRETD 和 EWRETD 均呈现类似的结果。接下来，作者基于非金融市场主题的照片进行测试，从经济学人的“书籍和艺术”部分选择照片，涵盖与书籍、电影、历史和艺术相关的主题，作者收集了 3167 张可用照片，发现这些照片中的悲观情绪与同期和未来市场回报之间没有关系。本节中，作者证明了金融类主题是照片与市场回报之间联系的关键因素，来自非金融新闻的照片（书籍和艺术除外）可能会产生影响，但影响不如金融新闻照片明显。图 14 PhotoPes 和金融新闻A Picture is Worth a Thousand Words:

36、Measuring Investor Sentiment by Combining Machine Learning and Photos from News、PhotoPes 的非线性性鉴于做空限制，作者推测，与负面情绪相比，正面情绪对市场回报的影响更大。Miller(1977)认为，做空限制限制了投资者纠正定价过高的能力。图 15 考察了与市场回报在悲观、乐观情绪照片上是否对称，作者运行了以下回归 = 15 + 24 + 33 + 42 + 51 + 6()+ 7(2) + 8 + ,其中5 是的最高分位（大部分照片都被预测为包含负面情绪），1 是的最低分位（只有少量照片被预测为包含乐

37、观情绪）。根据图 15，与市场回报之间的关系主要由大多数照片为正面（负面照片最少）的日子驱动。当大多数照片都是负面时，市场并没有给出强烈的反应。作者推测，这是由于在大多数照片都是负面时，市场存在做空限制。图 15 PhotoPes 和市场回报的非线性关系A Picture is Worth a Thousand Words: Measuring Investor Sentiment by Combining Machine Learning and Photos from News、PhotoPes 对交易量的影响影响市场活动的另一个渠道是交易量。在图 16 中，作者测试了 NYSE 总交易

38、量是否与相关。DeLong 等(1990a)预测，情绪冲击表明噪音投资者会想买入或卖出。随着市场吸收这些订单，的变化与交易量的增加有关。但是如果将视为交易成本，则可以预期的激增应导致交易量减少。为了消除交易量的时间趋势，作者对交易量建模如下： = () + + ,其中表示纽交所每日总交易量的对数。从上述公式中取残差，将其归一化为单位方差和零均值，并将其用作以下回归中的关键因变量。本回归旨在消除时间趋势外的日历或星期效应影响。为了测试与交易量是否相关，作者运行了以下模型： = 1 + 2 + 3() + 4() + 5() + 6(2) + ,其中，是大于 0.5 的，是小于或等于 0.5 的

39、，两者的系数均为正但不显著表明照片中的负面或正面情绪与同期异常交易量之间无显著相关性。然而，、、11、的系数显著为正，说明照片的悲观情绪能够预测异常交易量增加。与未来交45易量之间的关系主要由负面情绪驱动。图 16 PhotoPes 和纽约证券交易所的异常交易量A Picture is Worth a Thousand Words: Measuring Investor Sentiment by Combining Machine Learning and Photos from News、PhotoPes 是投资者情绪的代表还是直接影响投资者情绪？新闻照片是普通投资者情绪的代表，还是会直

40、接驱动情绪？一方面，投资者在新闻中看到很多负面照片，变得更加悲观。Bazley 等人(2017)认为，视觉信息可以直接影响个体的风险偏好。报纸编辑挑选的照片一般与市场当下的情绪一致。Shiller(2005) 认为，新闻情绪是投资者情绪的代表，由于需求动机，新闻编辑倾向于提供与读者想法一致的新闻。作者认为，照片中的悲观情绪与市场回报之间的关系主要是由于照片对市场情绪的直接影响。作者验证是否由过去的市场回报决定。图 17 显示过去的生产回报不是的主要决定因素。作者发现只有第 t-4 天的回报在 10%的显著性水平下对产生微弱影响。情形（4）和（5）作者使用经济学人中有影响力的照片和所有照片

41、进行相同的测试，发现过去的市场回报对没有任何影响。相比之下，情形（3）中，过去的市场回报强烈影响。考虑到 Getty Images 数据库中的照片可快速获得（多数情况下拍摄后几分钟即可获得），新闻照片中的悲观情绪与过去市场回报之间没有负相关关系，表明投资者在获得照片后立即对照片做出反应。如果正在捕捉编辑的情绪，则过去的市场回报应该可以预测，因为拍摄照片和编辑选择将照片纳入新闻之间存在延迟。因此，作者认为不太可能捕捉现有的投资者情绪。当然，作者不能证明消除 t 日的照片包含当时编辑的情绪的情况完全不存在，因为这很难测试，Getty Images 的照片没有准确的时间戳。图 17 市场回报

42、对投资者悲观情绪的影响A Picture is Worth a Thousand Words: Measuring Investor Sentiment by Combining Machine Learning and Photos from News4、稳健性检验作者进行了稳健性检验，大部分检验均与核心变量的构建有关，也讨论了采样时间和机器学习算法的问题。、变量构建在原始变量设定中，如果判定为悲观情绪的概率值高于 50%，则照片被标记为悲观。在下表的前 3 个情形中，作者将临界值从 50%分别调整为 55%、60%和 65%。作者还将检验中使用的照片数量从 10 张增加到 20 张，因为调整临界值会减少满足要求的照片数量。根据前三个情形的结果，可以发现收益反转现象与之前类似。在情形（4）中，作者不对变量进行极端值处理，结果不受影响。在情形（5）中，作者基于照片受欢迎程度加权计算，结果亦不受影响。有些人可能会有疑问，为什么计算时不使用负面情绪的置信度，原因是模型不是用来识别照片悲观情绪的强弱，而只是简单地对照片进行二分类。因此，模型预测的置信度与照片中情绪的强弱无直接关系。然而，基线模型结果并不依赖于虚拟变量，而是预测的置信度。在情形（6）中，作者用负面情绪的预测置信度替换负面情绪虚拟变量，结果仍与之前一致。图 18 稳健性检验：变量构建A Picture is

人人文库> 全部分类> 行业资料 > 金融保险

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

基于机器学习算法的照片分类模型在投资者情绪分析中的应用

文档简介

温馨提示

最新文档

评论

基于机器学习算法的照片分类模型在投资者情绪分析中的应用

文档简介

温馨提示

最新文档

评论

相关文档