版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
核心观点
传统方法在处理行业因子信息时通常采用one-hot将行业转变为哑变量进行处理(对于某些特殊模型,可以采用category变量)。这两者均无法表示行业之间的内在关联关系。且哑变量为稀疏矩阵,信息密度较低,增加了计算开销。本文利用行业相关性矩阵构建图结构,采用Graph
Embedding的算法Node2vec将行业因子进行向量化处理,得到的行业因子能够有效的包括行业内在相关性。提纲03讨论02行业Embedding01Graph
Embedding介绍
Embedding 嵌入(Embedding)是指一个数学结构经映射包含到另一个结构中。某个物件X称为嵌入到另一个物件Y中,是指有一个保持结构的单射f:X→Y,这个映射f就给出了一个嵌入万物皆可Embedding(word
embdding、item
embedding、graph
embedding)经典的Word
Embedding算法包括:
Word2vec、
GloVe、FastText等大语言Embedding模型
:
BERT、EloMo、GPT等
One-hot 独热编码(one-hot):用N位状态寄存器来对N个状态进行编码在NLP中,将单词转换为独热向量缺点:维数灾难语义鸿沟I [1,0,0,0]am [0,1,0,0]a [0,0,1,0]quant [0,0,0,1]
Word2vec 资料来源:中信建投Word2vec: 将单词转换为连续向量基于连续向量,计算单词相似度:model.most_similar(‘贵州茅台’):('洋河股份',
0.9215401411056519)('酒鬼酒',
0.9041466116905212)('600519',
0.899872362613678)('海天味业',
0.8987340331077576)('口子窖',
0.8912389874458313)('顺鑫农业',
0.8851066827774048)('五粮液',
0.8838584423065186)('老白干酒',
0.8835573196411133)('山西汾酒',
0.8828251361846924)('古井贡酒',
0.8824747204780579)Iamaquant[[0.312334,
-0.128755,0.560548,
0.30743…][0.22087,
0.02268,0.288854,
0.488231…][0.335961,
-0.178007,0.054437,
0.895583…][-0.006239,
0.098319,0.46317,
0.31525…]
Graph
Embedding 图数据结构用来表达物体之间的关联关系图的定义:𝐺=(𝑉,
𝐸)V代表顶点集合,E代表边邻接矩阵:常见的图嵌入算法包括DeepWalk,
LINE,
Node2Vec,
SDNE,
Struct2Vec,
GraphSAGE等图算法能够有效的计算节点之间的关系图嵌入(Graph
Embedding)和图神经网络(Graph
Neural
Network,
GNN)两者互相关联,embedding生成的向量可以作为GNN的输入,同时某些embedding需要用到GNN的算法。
DeepWalk 在图中采用随机游走生成结点序列,利用Word2Vec(SkipGram)算法进行无监督训练,生成embedding结果资料来源:DeepWalk:
online
learning
of
social
representations,
中信建投 资料来源:DeepWalk:
online
learning
of
social
representations,
中信建投优点:算法简单高效缺点:没有考虑边的属性,无法跳出有向图中出度为0的节点Node2VecNode2vec是在DeepWalk的基础上,引入参数p和q,将随机游走序列调节为宽度优先搜索和深度优先搜索的序列生成资料来源:
node2vec:
Scalable
Feature
Learning
forNetworks,中信建投优点:可以学习同质图和同构图结构缺点:超参p,q需要调节𝜋𝑣𝑥=𝛼𝑝𝑞(𝑡,𝑥)·
𝑤𝑣𝑥资料来源:
node2vec:
Scalable
Feature
Learning
for
Networks,中信建投
行业因子
传统方法在处理行业因子信息时通常采用one-hot将行业转变为哑变量进行处理(对于某些特殊模型,可以采用category变量)两者均无法表示行业之间的内在关联关系且哑变量为稀疏矩阵,信息密度较低,增加了计算开销资料来源:中信建投
行业因子Word Embedding 直接采用Word
Embedding提取行业名称的向量能够反映行业之间的关系,但与二级市场的行业关系存在一定的区别,此关系主要来文本资料,映射到二级市场会发生一定的改变单次训练,无法回测Node2Vec资料来源:WIND,中信建投构造有权完全无向图,指数收益率相关性矩阵作为邻接矩阵节点为行业,边为行业之间的相关性使用Node2vec
对行业因子进行embeddingNode2vecwalk_length:10num_walks:1e6window_size:
5embed_size:
30每个行业均可用30维向量表示,利用TSNE将向量压缩到2维可视化展示
讨论
相比于行业哑变量,行业graph
embedding向量信息密度更高,且向量之间内在的包含了行业之间的相关性关系。Embedding向量可以作为各类机器学习和深度学习模型的输入,更好的提高预测效果。资料来源:中信建投
风险提示
本报告中所有数据结果是基于历史统计结果的展示,未来有可能发生风格切换导致因子失效的风险。模型运行存在一定的随机性,初始化随机数种子会对结果产生影响,单次运行结果可能会有一定偏差。历史数据的区间选择会对结果产生一定的影响。模型参数的不同会影响最终结果。模型对计算资源要求较高,运算量不足会导致结果存在一定的欠拟合风险。本文所有模型结果均来自历史数据,模型存在统计误差,不保证模型未来的有效性,对投资不构成任何建议。行业因子Graph
Embedding00 -0.0771 0.0532 -0.0053 -0.1924 0.0565 -0.0076 0.0307 -0.0288 -0.2259 0.11810 -0.03411 -0.05512 -0.00813 -0.00214 -0.04415 0.21016 -0.09817 0.05218 0.10719 -0.08420 0.07621 0.12522 -0.09023 -0.10424 -0.07825 -0.04026 -0.12327 -0.21228 -0.07429 -0.11010.1680.0190.0390.101-0.036-0.0760.028-0.020-0.066-0.0310.198-0.0430.124-0.061-0.116-0.052-0.1830.038-0.040-0.1870.0860.1110.076-0.103-0.1280.001-0.007-0.1140.067-0.1122-0.014-0.082-0.172-0.110-0.0590.043-0.153-0.006-0.1700.0320.1670.035-0.026-0.0910.1610.1310.003-0.0980.0690.0180.1200.1130.1010.143-0.0280.1130.0740.0740.0280.0513-0.227-0.153-0.0770.0380.060-0.023-0.057-0.0470.000-0.1360.101-0.1990.012-0.076-0.0540.0050.0460.1620.059-0.021-0.0140.056-0.033-0.0060.072-0.0220.0060.020-0.0270.2634-0.008-0.068-0.1600.1570.018-0.1590.064-0.062-0.1230.009-0.246-0.0890.0590.0080.0960.0640.0930.0010.001-0.1190.1520.1730.045-0.038-0.063-0.0200.0810.2120.0250.05350.0190.0070.110-0.154-0.0270.2200.0120.0090.0290.019-0.030-0.053-0.034-0.0970.091-0.149-0.094-0.016-0.003-0.2150.1320.214-0.0160.0020.002-0.131-0.004-0.0040.0430.0626-0.111-0.180-0.089-0.041-0.276-0.105-0.093-0.1460.1390.1490.1430.0310.1830.0980.2520.072-0.0340.0970.180-0.003-0.1250.028-0.1780.0160.1840.195-0.0050.0160.0290.1277-0.042-0.069-0.1410.099-0.0110.005-0.054-0.0420.1570.161-0.0210.158-0.070-0.014-0.043-0.104-0.0290.080-0.0420.167-0.0400.093-0.0680.045-0.099-0.0220.254-0.0620.0690.10180.019-0.084-0.0970.015-0.101-0.1580.133-0.081-0.021-0.047-0.208-0.190-0.2280.0910.031-0.0190.055-0.0620.073-0.0110.1380.0050.1340.174-0.341-0.082-0.196-0.119-0.0730.09090.0120.0430.088-0.178-0.061-0.005-0.173-0.1890.131-0.081-0.1130.0290.1010.021-0.1500.0840.030-0.028-0.059-0.0060.0860.0550.0860.064-0.0600.0720.0560.0940.0230.08510-0.094-0.052-0.0200.022-0.1090.094-0.023-0.015-0.116-0.0350.012-0.0200.0910.0290.099-0.003-0.0150.1430.1400.152-0.025-0.0750.079-0.009-0.002-0.0320.087-0.2010.025-0.05411-0.098-0.0090.0700.0770.1650.010-0.1300.0550.0450.0520.0070.0090.012-0.0220.035-0.053-0.0420.021-0.076-0.098-0.083-0.073-0.0630.197-0.0930.049-0.213-0.082-0.012-0.136120.1560.0990.1580.0620.1740.171-0.015-0.204-0.0200.2500.1970.0550.059-0.016-0.061-0.1650.042-0.026-0.0800.044-0.159-0.111-0.164-0.0830.0150.1080.1020.091-0.1940.014130.0360.126-0.1250.0400.0500.0340.074-0.056-0.009-0.171-0.038-0.0110.091-0.0260.1170.105-0.1770.0400.174-0.0440.1720.0460.0610.208-0.044-0.148-0.050-0.058-0.262-0.127140.108-0.0190.1500.088-0.0300.140-0.133-0.021-0.0700.1360.0940.0390.2130.1290.0450.0650.1330.007-0.003-0.026-0.094-0.078-0.0590.1630.104-0.1890.030-0.1030.0580.026150.106-0.058-0.008-0.177-0.069-0.089-0.054-0.030-0.204-0.105-0.0660.044-0.011-0.0150.114-0.1460.0340.183-0.0270.105-0.072-0.038-0.0880.041-0.0350.025-0.0380.054-0.0910.06916-0.0470.1360.1910.1760.0100.085-0.028-0.0700.0280.0250.1040.080-0.088-0.0540.1900.0710.0690.1880.085-0.007-0.049-0.1200.058-0.001-0.070-0.0030.0350.1090.1580.054170.0880.1530.0790.0320.1070.000-0.062-0.0030.040-0.123-0.142-0.304-0.0180.0820.1040.029-0.043-0.0610.0780.1000.1180.0350.0400.000-0.0330.1100.082-0.0330.028-0.046180.0580.117-0.1090.084-0.099-0.0260.048-0.120-0.007-0.027-0.031-0.212-0.043-0.220-0.125-0.0530.159-0.089-0.0630.0930.1070.0510.0380.056-0.060-0.099-0.222-0.090-0.031-0.18519-0.080-0.226-0.132-0.051-0.1460.035-0.091-0.0890.0630.0500.013-0.065-0.1940.2070.0760.129-0.0640.2270.1460.0400.0050.0410.0860.0210.138-0.0390.0330.182-0.047-0.125200.158-0.031-0.112-0.0440.1230.133-0.022-0.0340.172-0.013-0.0030.0210.0740.0070.1620.1330.0740.0790.045-0.0310.042-0.0340.122-0.177-0.101-0.115-0.174-0.1130.0300.02621-0.173-0.1270.037-0.2120.004-0.208-0.1440.0450.0490.0840.014-0.0180.071-0.1140.1680.0220.0360.0910.1840.0260.058-0.0040.057-0.092-0.003-0.172-0.028-0.059-0.129-0.24822-0.092-0.249-0.071-0.011-0.2260.134-0.0310.1120.0160.008-0.0520.0220.027-0.1600.0220.150-0.0110.0660.066-0.073-0.008-0.0360.012-0.0820.0560.1880.108-0.009-0.249-0.060230.095-0.055-0.117-0.022-0.0440.152-0.1150.0250.0070.0240.0070.0130.0660.010-0.031-0.0550.1220.1990.140-0.001-0.074-0.104-0.1590.0230.0500.1190.0280.0520.177-0.067240.0640.045-0.082-0.1090.052-0.0490.1750.0710.0920.150-0.019-0.104-0.004-0.0610.0080.0020.0590.054-0.086-0.181-0.033-0.1320.1300.1410.0770.0820.1780.0160.042-0.007250.0530.056-0.021-0.019-0.068-0.002-0.0230.1960.112-0.0670.073-0.128-0.0420.2040.0620.0750.2040.0640.081-0.0060.0380.000-0.052-0.011-0.199-0.0930.044
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- JJF 2367-2026冷滤点测定仪校准规范
- 长期照护师操作技能能力考核试卷含答案
- 水解酵母分离工安全检查模拟考核试卷含答案
- 巷修工QC管理水平考核试卷含答案
- 兽用化学药品制剂工安全风险能力考核试卷含答案
- 锂盐田工操作水平测试考核试卷含答案
- 桥梁架设培训课件
- 桥梁养护管理培训
- 酒店员工薪酬激励与员工满意度制度
- 酒店前厅接待与客户关系管理制度
- 2026湖北十堰市丹江口市卫生健康局所属事业单位选聘14人参考考试题库及答案解析
- 手术区消毒和铺巾
- 企业英文培训课件
- 土方回填安全文明施工管理措施方案
- (正式版)DBJ33∕T 1307-2023 《 微型钢管桩加固技术规程》
- 2025年宠物疫苗行业竞争格局与研发进展报告
- 企业安全生产责任培训课件
- 绿化防寒合同范本
- 2025年中国矿产资源集团所属单位招聘笔试参考题库附带答案详解(3卷)
- 中国昭通中药材国际中心项目可行性研究报告
- 烟草山东公司招聘考试真题2025
评论
0/150
提交评论