版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
内容目录1、融坛本析战与方案 6融坛本析四大战 6统感析局6于感别主类的情股略架 62、据预理 7融坛本据源介绍 7本征 8本盖与本步清洗 93、感类因挖掘 9FinBERT2模:金融本化预练型 9比代FinBERT的核优化 9用Finbert2模行文情分类 10深300票的子测试 11证500票的子测试 13证1000股池子测试 14感类因挖总结 154、新径索——BERTopic+LLM主分类 16BERTopic:新代题建技的心势 16融坛本题类建全程 17融坛本题类效果 18题类子建 19深300票因测试 19证500票因测试 20证1000股池测试 21充试——点方向分是是效子 235、因合与股构建 24子关分——以证1000票为例 24因合方案 25风因相性析——以证1000股为例 25成子试——深300股池 26成子试——证500股池 28成子试——证1000票池 30感主多合门股热股应如选股? 31音易主的门股合——险票池 326、论展望 33点论 33践义 33风险示 33图表目录图表1:舆选策整体架 7图表2:金论数式 7图表3:各票帖数分(左右次沪深300中证500、证1000) 8图表4:不股池帖子量化中数计 8图表5:不股池覆盖统计 9图表6:FinBERT2整作流介 9图表7:情分任中FinBert2与他型模型对比 10图表8:情分后、负帖占统计 10图表9:基情分舆情子单 11图表10:周因构逻辑 11图表11:效欠的度正帖数因分数组表现 12图表12:基情分的舆因清单 12图表13:pos_momentum_90子位组表多空合值升) 12图表14:pos_acceleration子位组表及多组净(序) 12图表15:中证500股池情分因测结(有因) 13图表16:周正帖数量子试果升) 13图表17:正帖占比180动因测() 13图表18:正帖数180日量子试果升序) 14图表19:周正帖变动子试果升) 14图表20:中证1000池情分因测结(有因) 14图表21:周正帖数量子试果升) 15图表22:周正帖变动子试果升) 15图表23:正帖数180日量子试果升序) 15图表24:正帖占因子试果升) 15图表25:Bertopic模与LDA模的异 16图表26:Bertopic模的工流 17图表27:金论文主题类模流程 18图表28:沪深300股池中主占比 18图表29:主分效例子 19图表30:主分因清单 19图表31:主分在深300股池行试 19图表32:主分因在证500股池进测试 20图表33:基面比子IC测结果 20图表34:情发占因子位组表及空净(序) 20图表35:技分占因子位组表及空净(序) 21图表36:情发占比180动因分数表现多净(序) 21图表37:技分占比180动因分数表现多净(序) 21图表38:主分因在证1000票中测试 22图表39:基面比子IC测结果 22图表40:情发占因子位组表及空净(序) 22图表41:技分占因子位组表及空净(序) 22图表42:情发占比180动因分数表现多净(序) 23图表43:技分占比180动因分数表现多净(序) 23图表44:技分占周变因分数合现及空值升) 23图表45:推观方的提词计 24图表46:中证500股池中点向子效 24图表47:情分因与主分因因相性测结(证1000票池) 25图表48:因合架构 25图表49:合后子风格子关测(证1000票) 26图表50:从空值势看关(证1000票池) 26图表51:技因多收益与情子关(证1000票) 26图表52:情分合因子深300股池进行试 26图表53:情分合因子位组表及空组净(深300票池) 26图表54:基情分合成子舆选策表现深300) 27图表55:基情分合成子舆选策表现深300) 27图表56:舆选策分年超收率深300) 28图表57:合因在证500股池进测试 28图表58:舆综因分位组表及空合净(证500票) 28图表59:基情分合成子舆选策表现证500) 29图表60:基舆综合成子舆选策表现证500股池) 29图表61:舆选策分年超收率证500票) 29图表62:合因在证1000票中行试 30图表63:情分合因子位组表及空组净(证1000票池) 30图表64:情分合因子股略现证1000股池) 30图表65:基情分合成子舆选策表现证1000) 31图表66:舆选策分年超收率证1000) 31图表67:不热程股票中主分合因的IC表(证1000) 32图表68:情分合因子主分合子5*5合中证1000) 32图表69:噪交者导的股vs冷股表现比证1000) 32图表70:噪交者导的股vs冷股分年表(证1000) 32图表71:股票A股票B的期顶号 331、金融论坛文本分析的挑战与新方案KNLP20“涨”“跑套了”LDA300“”正面或“负面标签,“与“MACD”正面“”和“情绪发泄”NLP模型进行情感分35APIGPU基于情感识别+“投资者情绪如何”逐步转向“”。相NLP”基于上述金融论坛文本的特性和研究困境,我们的舆情选股框架,综合了传统的情感分类图表1:舆情选股策略的整体框架2、数据与预处理()2018(股民及股市大V言论ILKM我们已获取的论坛文本来自以下3个股票池:沪深300成分股、中证500成分股、中证1000成分股。图表2:金融论坛数据形式样本特征209年5025年9月:1) 300:55,139,00755.052) 500:69,593,64757.963) 1000:108,204,67160从各股票池的样本特征来看,金融论坛主帖的字数较少,平均字数仅有50-60字,而50字以内的帖子占比均超过80。图表3:各股票池帖子字数分布(从左到右依次为沪深300、中证500、中证1000)0
0.00%
0
0.00%
90.00%80.00%70.00%60.00%50.00%40.00%30.00%20.00%10.00%0.00% 数量(万条) 占比(右轴)
数量(万条) 占比(右轴)
数量(万条) 占比(右轴)子长科技300500100010图表4:不同股票池周度帖子数量变化及中位数统计0
0 沪深300周度帖子数(条) 中证500周度帖数条)0
中证1000周度帖子数(条)
0
沪深300 中证500 中证周度帖子数中数条)子长科技3005001000297.7492.88985.08图表5:不同股票池样本覆盖度统计1200.001000.00
985.08492.88297.70492.88297.70600.00400.00200.000.00
沪深300
中证500
中证1000子长科技2019520259(3、情感分类与因子挖掘FinBERT2FinBERT2由北京邮电大学与北京熵简科技联合研发。延续了BERT家族的架构,属于双向编码器模型。它使用Chinese-RoBERTa-wwm-ext作为初始骨干网络进行进一步的预训练。与目前流行的生成式大语言模型不同,FinBERT2专注于通过较小的参数量(Base/Large版本)在特定的金融判别与检索任务中提供高效率、高精度的解决方案,旨在弥补大模型在金融垂类部署中的成本与精度差距。图表6:FinBERT2整体工作流简介FinBERT2:ASpecializedBidirectionalEncoderforBridgingtheGapinFinance-SpecificDeploymentofLargeLanguageModelsFinBERTFinBERT2并非简单的增量更新,而是从底层数据、分词机制到下游应用范式进行了全面的重构与升级。以下是主要的优化维度:320Token(160+64we2.5模型作为"过滤器"清洗约15低质量数据。专属金融分词器的构建:通过WordPiece算法从海量金融语料中提取特征,扩充14,000Fin-LbelNRtrive(RAGFin-Tpicode(性能标,FinBERT2-base模型金情分析F1分数达92.95平性领先流大Clad-.-nnet8310。图表7:情感分类任务中FinBert2与其他模型及大模型的对比FinBERT2:ASpecializedBidirectionalEncoderforBridgingtheGapinFinance-SpecificDeploymentofLargeLanguageModels》,国金证券研究所使用Finbert2FinBERT24060图表8:情感分类后正面、负面帖子占比统计70.00%60.00%50.00%40.00%30.00%20.00%10.00%0.00%
沪深300
中证500正面占比 负面占
中证1000子长科技TT-7T-1图表9:基于情感分类的舆情因子清单序号 因子名称因子代码类型时间窗口说明1 周度帖子总数weekly_total数量t-7~t-1过去7天总帖子量2 周度正面帖子数weekly_positive数量t-7~t-1过去7天正面帖子量3 周度负面帖子数weekly_negative数量t-7~t-1过去7天负面帖子量4 周度正面占比weekly_pos_ratio比例t-7~t-1正面量/总量5 周度负面占比weekly_neg_ratio比例t-7~t-1负面量/总量6 情绪差异sentiment_spread差值t-7~t-1正面占比-负面占比7 情绪比率sentiment_ratio比率t-7~t-1正面量/负面量8a-c 帖子数加速度total/pos/neg_acceleration差分7vs7两周总量/正/负差9a-c 帖子数变动比例total/pos/neg_change_ratio比率7vs7两周总量/正/负比10a-c 30total/pos/neg_momentum_30动量30天口径近7天均值相对近30天均值偏离11a-c 90total/pos/neg_momentum_90动量90天口径近7天均值相对近90天均值偏离12a-c 180total/pos/neg_momentum_180动量180天口径近7天均值相对近180天均值偏离13a-b 正/负面占比加速度pos/neg_ratio_acceleration差分7vs7周度占比-上周占比14a-b 正/负面占比变动比例pos/neg_ratio_change_ratio比率7vs7周度占比/上周占比15a-b 30/负面占比动量pos/neg_ratio_momentum_30动量30天口径近7天占比均值相对近30天偏离16a-b 90/负面占比动量pos/neg_ratio_momentum_90动量90天口径近7天占比均值相对近90天偏离17a-b 180日正/负面占比动量 pos/neg_ratio_momentum_180动量180天口径近7天占比均值相对近180天偏离国金证券研究所图表10:周频因子构建逻辑利用这段时间的舆情数据构建因子,T-7日 T-1日T日(初)300300IC与“90(pos_momentum_90)”IC基于正面情绪帖子数量构建的情绪因子整体效果优于直接使用总体帖子数量构建的关注300IC22020112025915图表11:效果欠佳的周度正面帖子数量因子分位数组合表现242456789310
50.00%40.00%-2.00% 30.00%
20.00%10.00%-10.00%
年化超额收益率 胜率(右轴
0.00%子长科技,图表12:基于情感分类的舆情因子清单因子IC平均值标准差最小值最大值风险调整的ICt统计量Top组合年化超额收多空年化收益率益率pos_acceleration-1.9710.13-31.1736.11-0.19-3.338.43pos_momentum_90-2.699.98-41.9226.07-0.27-4.602.14子长科技,图表13:pos_momentum_90因子分位数组合表现及多空组合净值(升序)10.5.00%0.00%-5.00%-10.00%
60.00%0 1 2 3 4 5 6 7 8 950.00%0 1 2 3 4 5 6 7 8 940.00%30.00%20.00%10.00%
210
8.00%6.00%4.00%2.00%0.00%-2.00%-4.00%-6.00%-8.00%-10.00%-15.00%
年化超额收益率 胜
0.00%
多空组合收益(轴) 多空净值子长科技,图表14:pos_acceleration因子分位数组合表现及多空组合净值(升序)10.00%5.00%0.00%-5.00%-10.00%
70.00%0 1 2 3 4 5 690 1 2 3 4 5 698750.00%40.00%30.00%20.00%10.00%
210
8.00%6.00%4.00%2.00%0.00%-2.00%-4.00%-6.00%-8.00%-15.
年化超额收益率 胜
0.00%
多空组合收益(轴) 多空净值子长科技,500300500IC图表15:中证500股票池情感分类因子测试结果(有效因子)风险调整的 多空年化收益 Top组合年化超Bottom组合年化因子 IC平均值标准差 最小值 最大值 t统计量IC率额收益率超额收益率pos_change_ratio-1.757.70-22.7027.51-0.23-3.8915.591.90-12.34pos_momentum_180-3.999.78-41.8521.28-0.41-6.9824.721.11-19.88pos_ratio_mm_180-1.598.84-30.3823.79-0.18-3.085.25-0.50-6.05weekly_positive-4.8212.42-47.5633.61-0.39-6.6326.412.28-20.44子长科技,IC回测区间为2020年1月1日至2025年9月15日,采用周频调仓方式进行测试。图表16:周度正面帖子数量子试结果(升序) 图表17:正面帖子占比180日动因子测试(升序)10.00%5.00%0.00%-5.00%-10.00%-15.00%-20.00%-25.00%
年化超额收益率 胜率
70.00%0 1 2 3 4 5 6 790 1 2 3 4 5 6 79850.00%40.00%30.00%20.00%10.00%0.00%
4.00%2.00%0.00%-2.00%-4.00%-6.00%-8.00%
年化超额收益率 胜率
60.00%0 1 2 3 4 5 60 1 2 3 4 5 68 9740.00%30.00%20.00%10.00%0.00%43210
12.00%10.00%8.00%6.00%4.00%2.00%0.00%-2.00%-4.00%-6.00%
10
8.00%6.00%4.00%2.00%0.00%-2.00%-4.00%-6.00% 多空组合收益(轴) 多空组合净值 多空组合收益(轴) 多空组合净值子科, 子科,图表18:正面帖子数180日动量子测试结果(升序) 图表19:周度正面帖子变动子试结果(升序)10.00%5.0.00%-5.00%-10.00%-15.00%-20.00%-25.00%
年化超额收益率 胜率
70.00%0 1 2 3 4 5 6 790 1 2 3 4 5 6 79850.00%40.00%30.00%20.00%10.00%0.00%
10.00%5.00%0.00%-5.00%-10.00%-15.00%
年化超额收益率 胜率
70.00%0 1 2 3 4 50 1 2 3 4 5 6 7 8950.00%40.00%30.00%20.00%10.00%0.00%43210
12.00%10.00%8.00%6.00%4.00%2.00%0.00%-2.00%-4.00%-6.00%
210
6.00%4.00%2.00%0.00%-2.00%-4.00%-6.00%-8.00%-10.00% 多空组 多空净值 组合收益(轴) 多空净值子科, 子科,10003005001000ICIC图表20:中证1000股票池情感分类因子测试结果(有效因子)风险调整的 多空年化收益 Top组合年化超Bottom组合年化因子 IC平均值标准差 最小值 最大值 t统计量IC率额收益率超额收益率weekly_pos_ratio-2.088.70-26.5727.14-0.24-4.087.605.90-2.09weekly_positive-5.3410.92-41.0033.06-0.49-8.3645.613.81-30.05pos_change_ratio-1.346.29-16.1222.38-0.21-3.6516.983.41-12.03pos_momentum_180-4.268.96-31.2222.69-0.48-8.1338.926.33-24.49子长科技,
ICBottom-20回测区间为2020年1月1日至2025年9月15日,采用每周调仓方式进行测试。图表21:周度正面帖子数量子试结果(升序) 图表22:周度正面帖子变动子试结果(升序)10.00%5.00%0.00%-5.00%-10.00%-15.00%-20.00%-25.00%-30.00%-35.00%
年化超额收益率 胜率
70.00%0 1 2 3 4 5 6 7 8 960.00%0 1 2 3 4 5 6 7 8 950.00%40.00%30.00%20.00%10.00%0.00%
6.00%4.00%2.00%0.00%-2.00%-4.00%-6.00%-8.00%-10.00%-12.00%-14.00%
年化超额收益率 胜率
70.00%0 1 2 3 4 5 6 7 8 960.00%0 1 2 3 4 5 6 7 8 950.00%40.00%30.00%20.00%10.00%0.00%10 8.00%9 6.00%8 4.00%76 2.00%5 0.00%4 -2.00%3 -4.00%21 -6.00%0 -8.00%
3210
5.00%4.00%3.00%2.00%1.00%0.00%-1.00%-2.00%-3.00%-4.00%-5.00%-6.00% 多空组合收益(轴) 多空净值 多空组合收益(轴) 多空净值子科, 子科,图表23:正面帖子数180日动量子测试结果(升序) 图表24:正面帖子占比因子试果(升序)10.00%5.00%0.00%-5.00%-10.00%-15.00%-20.00%-25.00%-30.00%
年化超额收益率 胜率
70.00%0 1 2 3 4 5 6 7 8 960.00%0 1 2 3 4 5 6 7 8 950.00%40.00%30.00%20.00%10.00%0.00%
8.00%6.00%4.00%2.00%0.00%-2.00%-4.00%-6.00%-8.00%
年化超额收益率 胜率
60.00%0 1 2 3 4 590 1 2 3 4 5987640.00%30.00%20.00%10.00%0.00%8 10.00%7 8.00%6 6.00%5 4.00%4 2.00%3 0.00%2 -2.00%1 -4.00%0 -6.00%
1
8.00%6.00%4.00%2.00%0.00%-2.00%-4.00%-6.00%-8.00% 多空组合收益(轴) 多空净值
多空组合收益(轴) 多空净值子科, 子科,整体来看,不同市值股票池中的情绪因子表现存在明显差异。从沪深300到中证1000,随着股票池市值下降,有效情绪因子的数量持续增加,因子整体表现也有所改善,表明论坛情绪信息在中小市值股票中的定价作用更为显著。Top”4、创新路径探索——BERTopic+LLM主题分类BERTopic2018BERT(BidirectionalEncoderRepresentationsfromTransformers)为(PLMsTransformer下文信息的词语和句子表示,极大地提升了几乎所有下游NLP任务的性能。在此背景下,MaartenGrootendorst2022BERTopicBERToicClutethen-eprsenBERT:BERTopicHDBSCANc-TF-IDFPythonAPILDA(LatentDirichletAllocation)LDABERTopicTransformerHDBSCANLDA特性维度BER特性维度BERTopcLDA(LatentDiricletAlloction)理论基础算法流程(嵌入+聚类)概率生成模型(贝叶斯)上下文理解强(基于Transformer)弱(词袋模型)主题连贯性非常高中等短文本性能优异差主题数量自动确定需预先指定计算成本高低灵活性/模块化非常高低主要优点主题质量高,灵活,自动确定主题数理论完备,计算成本低特特性维度 BERTopc LDA(LatentDiricletAlloction)主要缺点 计算成本高,参数多,随机性 需调主题数,依赖词共现,短文本差最佳适用场景 需要高质量、细粒度主题的各种任务,尤其擅长短文本和需深度语义理解的场景
大规模长文档集合的初步探索,计算资源受限的场景BERTopicNeuraltopicmodelingwithaclass-basedTF-IDFprocedureTopicmodelingalgorithmsandapplicationsAsurvey究所,BERTopicSentence-BERTUMAPHDBSCANc-TF-IDF图表26:Bertopic模型的工作流BERTopic:Neuraltopicmodelingwithaclass-basedTF-IDFprocedure整体而言,BERTopicLDABERTopic“文档嵌入—UMAP降维—HDBSCAN聚类—c-TF-IDF”(4“HTMLBERTopicFin-Retriever-baseEmbeddingUMAPHDSCAN(Tpic-1,BERTopic“”图表27:金融论坛文本主题分类建模全流程3002019.5-2025.9.15Bertopic+LLM图表28:沪深300股票池中各主题占比3.93%3.93%8.19%1.62%29.95%40.59%9.93%公司基本面与营态其他非投资相内容 市场情绪与观表技术分析与交策略 未分类 行业趋势与政环子长科技Bertopic29.95。帖子样例 Bert帖子样例 Bertopc+LM最终分类结果
除此场绪点表类本比中位约40.59而分本面10。100看来今年福田汽车又要逆势增长了,坐等股票上10块!
公司基本面与经营动态主力近期做线诱导接盘而已,底部筹码已经派发的差不多了! 技术分析与交易策略今天又红不了了,散了,睡觉 市场情绪与观点表达子长科技主题分类因子构建图表30:主题分类因子清单序号因子名称因子代码类型时间窗口1-3周度分类占比wmsr/wtar/wfar比例t-7~t-17-9分类占比加速度msr/tar/far_acceleration差分当前7天vs前7天10-12分类占比变动比例msr/tar/far_change_ratio比率当前7天vs前7天13-1530日占比动量msr/tar/far_momentum_30动量30天口径16-1890日占比动量msr/tar/far_momentum_90动量90天口径19-21180日占比动量msr/tar/far_momentum_180动量180天口径国金证券研究所300对于我们构建的主题分类因子,在沪深300股票池的测试结果显示,这类因子完全无效。图表31:主题分类在沪深300股票池进行测试因子IC平均值标准差最小值最大值风险调整的ICt统计量far_acceleration-0.438.40-26.0521.14-0.05-0.87far_change_ratio-0.228.82-27.6025.87-0.03-0.43far_momentum_1800.618.56-26.3625.500.071.22far_momentum_300.388.48-30.5023.420.040.76far_momentum_900.538.54-28.6726.320.061.07msr_acceleration0.667.67-20.8524.030.091.45msr_change_ratio0.577.91-22.2225.350.071.22msr_momentum_180-0.087.74-21.7322.52-0.01-0.18msr_momentum_300.467.56-20.4127.460.061.05msr_momentum_900.257.47-22.2222.460.030.58tar_acceleration0.097.58-19.6823.020.010.20tar_change_ratio-0.148.35-24.3425.74-0.02-0.28tar_momentum_180-0.417.57-22.4719.74-0.05-0.93tar_momentum_30-0.217.13-22.8221.83-0.03-0.51tar_momentum_90-0.147.18-22.7018.08-0.02-0.34weekly_far1.019.08-27.5627.900.111.90weekly_msr-0.718.91-22.4324.75-0.08-1.36weekly_tar-0.039.11-24.8929.590.00-0.06子长科技,500500化超额收益率超额收益率益率t化超额收益率超额收益率益率t多空年化收 Top组合年化 Bottom组合年风险调整的ICIC平均值 标准差 最小值 最大值因子msr_momentum_180 6.33-16.46-0.15 -2.47 7.273.27-4.14tar_momentum_180 6.42-20.57-0.21 -3.50 6.756.39-0.78w_msr 7.12-20.48-0.18 -2.97 8.554.18-4.36w_tar 7.63-24.96-0.23 -3.81 7.206.61-1.34子长科技,“情绪类占比”“”“”“技术类动量IC180IC图表33:基本面占比因子IC测试结果因子平均值标准差最小值最大值风险调整的ICt统计量w_far1.197.32-16.4923.910.162.73子长科技,IC图表34:情绪发泄占比因子分位数组合表现及多空净值(升序)6.00%4.00%2.00%0.0-2.00%-4.00%
60.00%0 13 4 50 13 4 59876240.00%30.00%20.00%10.00%
10
6.00%5.00%4.00%3.00%2.00%1.00%0.00%-1.00%-2.00%-3.00%-4.00%-6.00%
年化超额收益率 胜率
0.00%
多空组合收益(轴) 多空净值子长科技,图表35:技术分析占比因子分位数组合表现及多空净值(升序)8.00%6.00%4.00%2.00%0.00%-2.00%
60.00%02024 579863140.00%30.00%20.00%10.00%
10
14.00%12.00%10.00%8.00%6.00%4.00%2.00%0.00%-2.00%-4.00%-6.00%-4.00%
年化超额收益率 胜率
0.00%
多空组合收益(轴) 多空净值子长科技,图表36180及多空净值(升序)
图表37:技术分析占比180日动量因子分位数组合表现及多空净值(升序)0 10 1 2 3 4 5 6 7982.00%0.00%-2.00%-4.00%-6.00%-8.00%
0.00%胜率
7.00%6.00%5.00%4.00%3.00%2.00%1.00%0.00%-1.00%-2.00%-3.00%
年化超额收益率 胜率
56.00%03 4 03 4 5 6 7 8 92152.00%50.00%48.00%46.00%44.00%42.00%40.00%10.0.0.20
6.00%4.00%2.00%0.00%-2.00%-4.00%-6.00%
10
14.00%12.00%10.00%8.00%6.00%4.00%2.00%0.-2-4.00%-6.00% 多空组合收益(轴) 多空净值 多空组合收益(轴) 多空净值子科, 子科,10001000500图表38:主题分类因子在中证1000股票池中进行测试风险调整 多空年化收 Top组合年化 Bottom组合年因子 IC平均值 标准差 最小值 最大值 t统计量的IC益率超额收益率化超额收益率weekly_msr-1.315.27-13.5914.59-0.25-4.236.523.85-2.72weekly_tar-1.586.45-19.5423.70-0.24-4.175.584.05-1.88msr_momentum_180-0.894.69-13.4217.65-0.19-3.237.433.26-4.10tar_change_ratio-1.095.91-26.3328.69-0.18-3.109.106.70-2.56tar_momentum_180-1.235.63-17.3424.98-0.22-3.718.855.89-3.15子长科技,IC“(weekly_far)”图表39:基本面占比因子IC测试结果因子IC平均值标准差最小值最大值风险调整的ICt统计量weekly_far1.235.58-15.5225.360.223.78子长科技,IC图表40:情绪发泄占比因子分位数组合表现及多空净值(升序)
图表41:技术分析占比因子分位数组合表现及多空净值(升序)6.00%4.00%2.00%0.00%-2.00%-4.00%-6.00%-8.00%
年化超额收益率 胜率
60.00%0 1 2 3 4 590 1 2 3 4 5987640.00%30.00%20.00%10.00%0.00%
6.00%4.00%2.00%0.00%-2.00%-4.00%-6.00%
年化超额收益率 胜率
60.00%0 1 2 3 4 5 6 7 8 950.00%0 1 2 3 4 5 6 7 8 940.00%30.00%20.00%10.00%0.00%1.64.00%1.510.00%1.43.00%1.48.00%1.22.00%1.36.00%11.00%0.00%-1.00%-2.00%-3.00%14.00%2.00%0.00%-2.00%-4.00%0 -4.00%
0.6
-6.00% 多空组合收益(轴) 多空净值 多空组合收益(轴) 多空净值子科, 子科,图表42180及多空净值(升序)
图表43:技术分析占比180日动量因子分位数组合表现及多空净值(升序)4.00%3.00%2.01.00%0.00%-1.00%-2.00%-3.00%-4.00%-5.00%
年化超额收益率 胜率
56.00%0 1 2 3 40 1 2 3 4 5 698752.00%50.00%48.00%46.00%44.00%42.00%40.00%
8.00%4.00%2.00%0.00%-2.00%-4.00%
年化超额收益率 胜率
60.00%0 1 250 1 257 8964340.00%30.00%20.00%10.00%0.00%10
4.00%3.00%2.00%1.00%0.00%-1.00%-2.00%-3.00%-4.00%
210
14.00%12.00%10.00%8.00%6.00%4.00%2.00%0.00%-2.00%-4.00%-6.00% 多空组合收益(轴) 多空净值 多空组合收益(轴) 多空净值子科, 子科,图表44:技术分析占比周变动因子分位数组合表现及多空净值(升序)8.00%6.00%4.00%2.00%0.00%-2.0-4.00%-6.00%-8.00%
年化超额收益率 胜率
60.00%1 27 8 91 27 8 940.00%30.00%20.00%10.00%0.00%
10
多空组合收益(轴) 多空净
8.00%6.00%4.00%2.00%0.00%-2.00%-4.00%-6.00%子长科技,补充测试——//偏空,对DeepSeek-R114b基本面帖子(公司基本面与经营动态) 技术面帖子(技术分析与交易策略)图表45:推理观点方向的提示词设计基本面帖子(公司基本面与经营动态) 技术面帖子(技术分析与交易策略)将模型设定为“金融情感分析专家”,要求仅基于帖子文本本身判断,不得使用模型先验知识。分析流程包括:先判断帖子是“情况陈述”还是“包含观点”;/内幕/务、行业前景、管理层变化、公告解读;好/看空”,否则判定为“不明确”;传闻则归为“不明确”。
容”进行分析,重点从技术分析与交易策略角度抽取观点:1)提取技术指标与图表信号(KMACD、RSI、成交量、支撑阻力等;2)提取交易动作与策略(买卖、加减仓、时点、价格区间、仓位建议;由时,统一判为“不明确”。500——图表46:中证500股票池中观点方向因子无效因子IC平均值标准差最小值最大值风险调整的ICt统计量技术面-看多占比-0.177.83-21.1839.23-0.02-0.38基本面-看多占比0.539.88-23.8435.990.050.95子长科技,其次,技术分析讨论占比或情绪发泄讨论占比,可以视为“噪音交易者风险”下跌(Informed“”——5、多因子合成与选股策略构建因子相关性分析10001000该因子。图表47:情感分类因子与主题分类因子因子相关性测试结果(中证1000股票池)子长科技,多因子合成方案在进行多因子合成时,具体的筛选与处理方案如下:——图表48:因子合成架构——100010000.3202011到2025年9月15日。测试结果如下表所示:图表49:合成后因子与风格因子相关性测试(中证1000股票池)spearmn相关性舆情综合因子主题分类合成因子情感分类合成因子波动率0.220.150.18动量0.190.080.21质量0.050.030.04技术0.260.170.23一致预期0.020.000.03成长-0.020.00-0.03价值0.030.030.02子长科技,
测试时间段为2020年1月1日到2025年9月15日。测试结果如下表所示:图表50:从多空净值走势看关(中证1000股票池) 图表51:技术因子多空收益与情因子相关性(中证1000股票池)98765432102020/1/2 2021/1/2 2022/1/2 2023/1/2 2024/1/2 2025/1/2技术因子 情感分类合成因子子科, 子科,合成因子测试300股票池300300化超额收益率超额收益率收益率t化超额收益率超额收益率收益率t多空年化 Top组合年化Bottom组合年的ICIC平均值 标准差 最小值 最大值因子情感分类合成因子 2.52-32.400.24 4.19 4.52-14.20子长科技,图表53:情感分类合成因子分位数组合表现及多空组合净值(沪深300股票池)10.00%5.00%0.00%-5.00%-10.00%-15.00%
60.00%0 1 2 3 4 5 6 7 8 950.00%0 1 2 3 4 5 6 7 8 940.00%30.00%20.00%10.00%
3210
10.00%8.00%6.00%4.00%2.00%0.00%-2.00%-4.00%-6.00%-8.00%-10.00%-20.0
年化超额收益率 胜率
0.00%
多空组合收益率(右轴) 多空净值子长科技,为了验证舆情因子的实际应用效果,我们以沪深300为股票池进行了具体的选股策略回测。选股策略与回测设置的具体参数与规则设定如下:1) 3002) 202.1.—25.9.2(025.22—0263.3()TopBottom(10)300图表54:基于情感分类合成因子的舆情选股策略表现(沪深300)1.71.51.31.10.90.70.5
1 策略多头净值 沪深300 超额净值子长科技,策略在沪深3005.252021-202420262020-2021策略仅剔除少部分股票,因此整体上持股数量较多,换手率较低,双边周平均换手率23.22。20202021510图表55:基于情感分类合成因子的舆情选股策略表现(沪深300)统计指标策略多头基准年化收益率6.421.11年化波动率18.2518.42Sharpe比率0.350.06最大回撤率30.4245.60年化超额收益率5.25--信息比率1.12--超额最大回撤率10.66--年化跟踪误差1.84子长科技,图表56:舆情选股策略分年度超额收益率(沪深300)16.00%%12.00%10.00%8.00%6.00%4.00%2.00%0.00%2020 2021 2022 2023 2024 2025 2026子长科技,合成因子测试500股票池500CC最终的策略,我们选择了舆情综合因子作为中证500股票池的最终选股因子。图表57:合成因子在中证500股票池中进行测试风险调整 多空年化 Top组合年化Bottom组合年因子 IC平均值 标准差 最小值 最大值 t统计量的IC收益率超额收益率化超额收益率舆情综合因子4.749.37-25.8626.230.518.6531.354.09-21.51情感分类因子合成4.479.46-24.9931.830.478.0727.862.13-21.08主题分类因子合成2.467.40-19.9321.540.335.5911.323.12-7.88子长科技,图表58:舆情综合因子分位数组合表现及多空组合净值(中证500股票池)15.00%10.00%5.00%0.00%-5.00%-10.-15.00%-20.00%-25.00%
年化超额收益率 胜率
70.00%0 1 2 3 4 5 6 790 1 2 3 4 5 6 79850.00%40.00%30.00%20.00%10.00%0.00%
654320多空组合收益(轴) 多空净
6.00%4.00%2.00%0.00%-2.00%-4.00%-6.00%子长科技,5001) 5002) 202.1.—25.9.2(025.22—0263.3(。TopBottom少数票增组仓日据情合子从大小序选前90的股票(10。500图表59:基于情感分类合成因子的舆情选股策略表现(中证500)3210
1.71.61.51.41.31.21.110.90.8策略多头净值 基准净值
超额净值子长科技,策略中证500票回测果示策年额收率为7.59息率为1.53,2.592020-2022300策略仅剔除少部分股票,因此整体上持股数量较多,换手率较低,双边周平均换手率23.05。策略超额最大回撤率为7.59,剔除尾部10股票后,组合整体上回撤水平大幅下降。图表60:基于舆情综合合成因子的舆情选股策略表现(中证500股票池)统计指标策略多头基准年化收益率13.215.77年化波动率20.2321.31Sharpe比率0.650.27最大回撤率29.0141.81年化超额收益率6.79--信息比率1.53--超额最大回撤率7.59--年化跟踪误差2.59子长科技,图表61:舆情选股策略分年度超额收益率(中证500股票池)14.00%12.00%10.00%8.00%6.00%4.00%2.00%0.00%2020 2021 2022 2023 2024 2025 2026子长科技,合成因
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 铁路土地整平施工方案及技术措施
- 急诊科药物不良反应突发事件应急预案演练脚本
- 模切作业机械伤害应急预案演练脚本
- 四川省四川综合评标专家库考试(第二阶段-住建类实务)模拟题及答案解析
- 居家养老服务项目及标准
- ICU病房血液透析管路铱沉积事故应急演练脚本
- 断路作业安全措施
- 广东某超高层电视塔变频供水设备安装工程施工方案
- 急诊科血液透析管路进气事故应急演练脚本
- 2026年6月广东深圳启元中学面向2026年应届毕业生赴外招聘教师7人(编制)参考题库含答案详解(基础题)
- 有机化学200道选择题强化训练
- 2023自然语言处理导论 7信息抽取
- 肺脓肿手术的麻醉(3医院)
- 东方日立用户培训-设备维护培训教材
- 高中数学德育渗透教案【六篇】
- 电动车摩托车交通安全培训
- 委托工作联系单
- YY/T 0719.6-2020眼科光学接触镜护理产品第6部分:有效期测定指南
- GB/T 33092-2016皮带运输机清扫器聚氨酯刮刀
- PLC、组态控制十字路口交通灯毕业设计
- GA 1029-2017机动车驾驶人考试场地及其设施设置规范
评论
0/150
提交评论