指数与ETF研究系列架构篇:冰雪经济主题指数的编制方案-基于NLP成分股识别与Barra因子权重优化_第1页
指数与ETF研究系列架构篇:冰雪经济主题指数的编制方案-基于NLP成分股识别与Barra因子权重优化_第2页
指数与ETF研究系列架构篇:冰雪经济主题指数的编制方案-基于NLP成分股识别与Barra因子权重优化_第3页
指数与ETF研究系列架构篇:冰雪经济主题指数的编制方案-基于NLP成分股识别与Barra因子权重优化_第4页
指数与ETF研究系列架构篇:冰雪经济主题指数的编制方案-基于NLP成分股识别与Barra因子权重优化_第5页
已阅读5页,还剩32页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

目 录摘要 4研究背景与产基础 6题起点:一个被低估的万亿赛道 6求:结构性变迁,而非单季热点 7给:产业链趋于完整,投资标的日益清晰 8策:从体育目标到经济战略,定性发生关键升级 9有数工具的局限性:客观约束与改进空间 10指数编制框架方论 10制则与合规基础 10一段:主题股票识别 10数据来源与采集框架 10关键词体系:分层设计与语义权重 11噪声控制:三层过滤机制+风险控制 11情感与上下文分析:两层语义精筛 12关评分模型:IDF·时间衰减·情感三重加权 13评分公式 13IDF:关键词区分度权重 13时间衰减:调仓窗口内的信息时效性 16评分汇总与归一化 16二段:资格筛选(中证规范对接) 17三段:权重优化方案 19权重方案的选择逻辑 19基本面综合因子 20权重约束与上下限控制 20仓制与时间窗口设计 20调仓日历 20无前视偏差保证 20指数起始日期的选取 20数本容量 21成分股资格筛选 21选功能定位与执行时序 21一:证券类型排除 21二:风险警示排除(ST/*ST与退市) 22三:流动性筛选 22四:市值筛选 23五:盈利要求 24权重优化方案 24重化的目标与约束框架 24骤1:得分分位预筛选 25骤2:财务健康辅助筛选 25骤3:成分股数量补充机制 25骤4:得分重新标准化 25骤5:乘法加权与基本面因子增强 264.6.1基础乘法权重(𝜛0) 26基本面综合因子26最终权重计算 27权重分布实证 27指数价格合成 29块位与输出规格 29骤1:交易日历获取 29骤2:调仓生效日计算 29骤3:历史收盘价获取与处理 30骤4:链式指数合成 30核心公式 30基准价的取价时点设计 31调仓时的锚点衔接 31骤5:指数基点标准化与对比序合并 32成程总结 32指数历史表现差化分析 32测间与基准设置 32体绩概览 33数值表现 33数比的深度差异分析 347总结 36风险提示 37图表目录图1、本研究编制的冰雪经济指数的价格变化与指数对比 5图2、构建冰雪经济指数的工程化拓扑图 6图3、冰雪经济关键词IDF分布 14图4、部分关键词的IDF时序图 15图5、公告权重的时间衰减曲线 16图6、最新一期成分股日均成交金额分布 22图7、最新一期成分股自由流通市值分布 23图8、本研究编制的冰雪经济指数的价格变化 34图9、指数走势对比 34图10、指数分年度对比 35表1、各调仓期候选股筛选统计 18表2、各调仓期成分股统计 18表3、各调仓期权重分布统计 27表4、指数表现统计 33摘要冰雪经济是当前中国政策与产业双重利好叠加的新兴赛道。202411202412月中央经济20152700亿元增长至2024年的9800亿元,2025年预计突破万亿,且参与人口的代际更替、室内滑雪场的地理扩张和消费结构升级三重驱动因素使得这一产业具备结构性增长潜力而非仅是季节性热点。本文旨在构建一支能够系统追踪冰雪经济全产业链的标准化指数。现有消费类和文旅类指数对冰雪的主题暴露度低,冰雪相关指数存在主题界定不准确、加权方式不合理、维护机制缺失等问题。这一供给缺口,是本研究的直接动机。本文提出了一套基于NLP阶段。第一阶段为主题股票识别,构建四层分级关键词体系(核心经营/业务关联//60+个关键词(关NLP大幅A(kw_base)逆文档频率(IDF)捕捉关键词的统计稀缺性(实测最高与最低关键词IDF相差5.2倍),时间衰减函数(18个月半衰期)反映信息时效性,情感系数(上下文相关性×情感分类)区分主动业务布局与偶然提及。第二阶段为资格筛选,对应中证指数编制规范,依次执行证券类型排除(港股与B股)、风险警示排除(ST/*ST及退市)、流动性门槛(60交易日日均成交额≥1000万元)、市值门槛(自由流通市值≥5亿元)、盈利要求(近3年至少1年净利润为正)五层筛选,全部以调仓决策日当日数据为准,不引入前视信息。第三阶段为权重优化,在分位截断(去除相关度得分最低10%)和财务健康辅助筛选(营收≥1亿元、资产负债率≤60%、近3年ROE均值≥3%)后,取前50只成分股进行权重计算,采用基本面增强的乘法加权方案𝜔𝑖∝𝑠𝑐𝑜𝑟𝑒𝛼1×𝑐𝑎𝑝𝑖𝛼2×𝜆,其中𝜆𝑖由BarraCNE5三因子(盈利预期×0.40+成长𝑖 𝑖×0.40+价值×0.20)合成的综合基本面因子确定,并施加单股上限15%、下限0.5%的硬约束。指数调仓决策日为每年5月15日和11月15日,生效日为下个月第二个周五的下一个交易日,遵循中证指数的半年度调整惯例。5×0.40+价值×0.20)合成的综合基本面因子确定,并施加单股上限15%、下限0.5%的硬约束。指数调仓决策日为每年5月15日和11月15日,生效日为下个月第二个周五的下一个交易日,遵循中证指数的半年度调整惯例。5图1、本研究编制的冰雪经济指数的价格变化与指数对比冰雪经济指数价格变化图1、本研究编制的冰雪经济指数的价格变化与指数对比冰雪经济指数价格变化同花顺同花顺,聚宽,聚宽基于后复权收盘价20201210002020122026年4146.31520个交易日的回测结果显示:TRI61.1%,年化+7.922.1%,最大回撤-29.3%,夏普0.10。TRI与PI31.86.3再投资收益,折算年化股息贡献约+3.7%。与基准指数的比较方面,本指数TRI(59的最大优势体现在回撤控制:TRI29.3%,较某平台低17.2(-46.1%)(0.27vs0.25)35有一定相关性(0.710.68)制的优良特性足以形成独立的产品定位价值。本文建立的NLP指数编制框架具有工程化可复现性和跨赛道可迁移性,这也是本系列研报的核心价值所在。图1展示了本研究编制的冰雪经济指数的价格变化,及其与相关指数的走势对比。图2展示了整个工程项目的流程图。指数走势对比指数走势对比图2、构建冰雪经济指数的工程化拓扑图江海证券研究发展部研究背景与产业基础本文的出发点,是一个直观的观察。A股市场已有覆盖消费、文旅、体育等多个相关维度的主题指数产品,需要专门针对冰雪经济领域,能够精准追踪全产业链的标准化指数。2.法无法真实反映冰雪经济含量3.研究深度不足,市场上缺乏专业团队长期深度跟踪该赛道4.自动化程度低,无法工程化操作与快速迭代5.市场上存6.从20612024年11月首份以2202534策的完整顶层支持——这些特征,通常是主题ETF编制所需要的基本条件。下面,将从需求端、供给端和政策端三个维度,系统梳理冰雪经济的产业基础,为指数编制方案提供结构性依据。理解冰雪经济的需求逻辑,需要把握一个基本区分:季节性热点与结构性变迁之间的差异。前者随天气和媒体关注度起伏,后者来自人口行为的系统性转变。冰雪经济正在经历的,是后者。触发这一转变的直接事件是2015年北京申办20222024—2025冰雪季2.921.93个百分点5。参与人数的持续扩张,背后有几个值得关注的结构性驱动因素,它们与政策周期无关,更接近于居民消费行为的长期转型。第一是参与群体的代际更替。消费主体呈现多元化趋势,“亲子家庭”客群占比54%,“新生世代”以17%的消费占比和GMV177%的日均增长成为市场重要驱动力。6家庭化和年轻化的消费结构,意味着冰雪运动的参与不再依附于特定的精英群体,而是在向更广泛的人群渗透。这一渗透过程一旦启动,其惯性通常难以在短期内逆转。第二是地理边界的突破。过去,冰雪消费高度集中于黑龙江、吉林、内蒙古等东北和华北省份。中国冰雪产业区域布局正在由单一集聚向多元协同转变,逐步形成“一区两带多节点”的发展格局,东北地区、京津冀地区、西北地区和南方地区各具特色。这一格局的形成,有赖于室内滑雪场的技术进步。截至2025年4月,全国室内滑雪场(真雪)79个,增长20个,增幅1年323月,习近平总书记参加十二届全国人大四次会议黑龙江代表团审议时指出。2国务院办公厅,《国务院办公厅关于以冰雪运动高质量发展激发冰雪经济活力的若干意见》,国办发〔2024〕49号。3新华社,《政府工作报告——2025年3月5日在第十四届全国人民代表大会第三次会议上》中“三、2025年政府工作任务”提及,2025年3月12日。4央视网,《今年产业规模将突破万亿元——冰雪经济迈入黄金发展期》,2025年11月24日。5国家体育总局,《2.92亿人参与1875亿元消费冰雪经济创新驱动全产业链高质量发展》,2025年8月14日。6抖音生活服务,《2025冰雪消费报告》,2026年02月06日。33.9%,且仍有16个在建7。室内滑雪场中共有55个位于南方省份,占比约70%,浙江、江苏、广东合计有24个,占全国室内滑雪场总数的30.38%8。室内滑雪场将冰雪消费从一项需要长途出行的季节性活动,转变为城市居民可以日常参与的体验项目。这从根本上改变了产业的季节性约束,使得“四季冰雪”从概念变为商业现实。第三是消费结构的升级。调查显示,86.01%的受访居民参与冰雪运动有消费,52.55%的居民预计总花费在500元以上,超八成居民愿意在冰雪运动上花更多钱9)(场馆运营)、下游(文旅服务)均提供了持续的需求支撑。从资本市场的视角看,需求侧的变化只是必要条件,还需要供给侧形成足够数量的可投资标的,才能支撑起一支指数的编制。就冰雪经济而言,供给侧在过去十年经历了从资产分散到产业链逐步成形的过程。产业规模是最直接的指标。我国冰雪产业总规模从2015年的2700亿元快速增长至20249800亿元,并预计在2025年突破万亿元大关10。这是3.7(CAGR)14%,这一以装备制造为核心,相关企业数量从2015年约300家增长至2023年900201550202322015个大类冰雪装备器材产品体系1;中游以场馆建设及运营、赛事管理为核餐饮住宿为核心,其中2024—2025冰雪季滑雪场周边两公里消费金额增长27.9%2这四个层级中均已有上市公司布局,且这些公司分属轻工制造、社会服7国家体育总局,《2.92亿人参与1875亿元消费冰雪经济创新驱动全产业链高质量发展》,2025年8月14日。8海报新闻,《南方滑雪场10天吸引30万人次港澳游客纷至沓来》,2025年10月26日。9国家体育总局,《2.92亿人参与1875亿元消费冰雪经济创新驱动全产业链高质量发展》,2025年8月14日。10央视网,《一季到四季;小众到大众!创新重构冰雪产业链冰雪消费释放新增长点》,2025年10月19日。11央视新闻,《相关企业数量、销售收入均增长!我国已形成15大类冰雪装备器材产品体系》,2024年11月6日。12央视网,《2025年我国冰雪产业规模将突破万亿元大关冰雪消费快速提升》,2025年10月18日。务、建筑装饰、纺织服饰等不同申万一级行业——这一特征,正是主题指数相对于行业指数的核心价值所在:它能够跨越传统的行业分类边界,把同一产业逻辑下的异质性资产纳入统一的投资框架。从企业主体数量来看,至2024年全国新增冰雪企业达到2001家,全国总的冰雪企业数量已达到约3万家13。这一基数已经足以支撑指数成长与样本筛选。A对主题进行界定和维护。贴)2024年11月国务院办公厅印发的《关于以冰(20244982420301.5紧接其后,202412月中央经济工作会议明确提出“积极发展首发经202514。2025从政策演进的逻辑来看,这一升级并非偶然。冰雪经济具有两个对当前宏观政策环境高度兼容的特征:其一,它是纯粹的内需产业,不依赖出口,在外部环境不确定性上升的背景下,具有天然的战略价值;其二,它是服务消费的重要载体,在居民消费倾向有待提振的当下,具有政策优先布局的合理性。这两点,决定了冰雪经济的政策支持不会是一次性的风口,而是与内需扩张这一中长期战略目标深度绑定的结构性安排。13北京日报,《〈2024中国冰雪产业发展研究报告〉发布相关数据令人欣喜》,2024年10月12日。14中国新闻网,《中央经济工作会议部署明年九项重点任务》,2024年12月12日。将上述三个维度放在一起,可以描述一个相对清晰的供需格局:冰雪经济已具备万亿产业规模、完整产业链条和持续政策红利,但目前缺乏能够对该产业进行系统性、专业化追踪的标准化指数。现存部分消费类、文旅类和体育类主题指数,在成分股层面与冰雪经济存在一定的重叠。然而,这些产品的设计初衷并非针对冰雪经济,由此在客观上产生了若干结构性局限,使其难以承担“冰雪经济核心资产标尺”的功能。60畴,且长期缺乏维护,实用性下降。需要说明的是,本研究在成分股筛选和指数编制环节,覆盖的是全国范围内的A股上市公司。指数编制框架与方法论ETF作性要求。NLP数据来源与采集框架成分股识别的信息来源为上市公司公开披露的招股书、财务报告和公司公告,不含新闻资讯或研报文本。范围全量覆盖A股所有上市公司。数据采集通过全文检索实现。以关键词为检索单元,对2015年1月至2026年3月间的历史公告进行全量检索,每个关键词返回命中公告及其摘要片段,作为后续文本分析的输入。PDF计:优先使用PyMuPDF提取文字层内容(处理速度最快);若提取文本量不足100字符,降级至pdfplumber(对表格结构有更好的支持);若仍不满足,对扫描版PDFPaddleOCR进行光学字符识别。考虑到年报体量通常在100至200页之间,每份文件最多解析前150页,以兼顾提取质量与计算效率。关键词是整个识别框架的语义锚点。本指数设计了一套四层分级的关键词体系。经前期测试和检查,最新涵盖60+核心关键词,各层级对应不同的产业链深度和业务相关程度,赋予其不同的基础权重(kw_base)。((只列举部分,下同)雪经济相关。(((IDF佐证——这一点将在2.3噪声控制:三层过滤机制+风险控制使用关键词检索的方式,不可避免地引入噪声。从实际检索结果来看,噪声的主要来源有三类:系统的字符级误匹配(如将“冰”和“雪”分别命中,而非完整关键词)、泛化词在非冰雪业务语境中的出现(如“冬奥”被所有参与奥运服务的公司命中),以及名称含冰雪字但业务与冰雪经济无关的公司(如“雪榕生物”、“香雪制药”等)。针对这三类噪声,分别设计了相应的过滤机制。洗率约在1020%之间。之一,否则视为无关命中。处理与黑NLP文本2.找出高频3.人名和公司名称筛“XX80关//一类主体。黑/白名单仅需每次调仓前更新。情感与上下文分析:两层语义精筛完成上述字面层面的过滤后,再进一步对命中片段进行语义层分析,以区分业务阶段和关联性。有两层语义分析机制:第一层:检验上下文相关性。针对每条命中记录,提取关键词前后各50个字符作为上下文窗口,进行以下检验:2,赋值0.7,0.3较低权重即可,让语料和业务核心程度自然相关。检测负面词和否定组,识别“终止冰雪”、“退出滑雪场”、“关闭雪场”、“转让冰雪”等组合模式,直接将相关系数赋值0。(posiive1.0(nutl04、负面(negative,系数0.0)和惩罚(penalty,系数-0.2)。1.03.01.03.01.5两层分析输出的综合系数计算方式如下:𝑓𝑖𝑛𝑎𝑙_𝑠𝑐𝑜𝑟𝑒=上下文相关性系数×情感系数该分数作为后续评分的调节项,实现从命中方向和命中强度的连续刻画。IDF··评分公式完成文本挖掘和语义过滤后,对每家候选公司计算综合相关度得分,公式如下:𝑆𝑐𝑜𝑟𝑒𝑐,𝑇=Σ𝑖

𝐼𝐷𝐹𝑘

Σℎ𝑖𝑡∈𝑐,

𝑑𝑒𝑐𝑎𝑦𝑡𝑖,𝑇∙𝑘𝑤_𝑏𝑎𝑠𝑒(𝑘)∙𝑓𝑖𝑛𝑎𝑙_𝑠𝑐𝑜𝑟𝑒𝑖其中,c为命中公司,T为调仓日,k为某个关键词,i为某条公告(回36),𝑡𝑖别对公式中的各项指标加以说明。IDF:关键词区分度权重逆文档频率(𝐼𝐷𝐹)的计算公式为:𝑁𝑘𝐼𝐷𝐹𝑘=ln1+𝑁𝑘其中𝑁𝑡𝑜𝑡𝑎𝑙A股公司总数,𝑁𝑘为命中某个关键词𝑘的公司数𝐼𝐷𝐹图3、冰雪经济关键词IDF分布江海证券研究发展部

行过前期检测和过滤,降低了关键词无关的风险,故提升了𝐼𝐷𝐹值的区分意义。图3展示了在2024年11月调仓期部分有效关键词的IDF分布,颜色区分四个层级的基础权重。有几个规律值得关注:5.2IDF差距(1.01vs5.27),IDFIDF的方法。5(21IDF(kw_base)IDF(IDF≈5.3刀”,前者描述一类商业模式,后者仅是一种运动器材),通过基础权重赋予差异化的语义权重,使最终得分能够反映关键词在冰雪经济产业链中的真实位置。第三,图中可以看到基础设施类(绿色)的关键词IDF整体落在3.2至3.7低。基础权重仅设定为1.0。图4、部分关键词的IDF时序图部分关键词的IDF时序图(调仓期之间非连续时序)6.05.04.03.02.01.00.0冰雪乐园 室内滑雪 冰雪节 速度滑冰江海证券研究发展部IDF20192025年的调仓期IDF20194.242025384上升至4.18222(IDF5.25)。这一动态演变说明,冰雪经济的产业外延在持续扩张,新的商业基础权重与IDF的协同机制在此得到清晰体现:基础权重(kw_base)捕捉语义层级——该词属于核心经营、业务关联、还是设备供应链;IDF捕捉统计稀缺性——该词在A股公告中出现的频率有多低。两者相乘,共同决定单条命中记录的初始权重,从而使模型对“在年报中多次提及滑雪场运营收入”的公司赋分显著高于“偶尔举办冰雪节”的公司。时间衰减:调仓窗口内的信息时效性公司业务结构会随时间演变。如果公告中再无提及冰雪业务,权重自然衰减;相反,如果持续/阶段性提及,权重自然变化。为反映信息的时效性,引入指数时间衰减函数:𝑑𝑒𝑐𝑎𝑦(𝑡,𝑇)=𝑒−𝜆∙𝛥𝑡其中𝛥𝑡=(𝑇−𝑡)/365.25,衰减系数𝜆=ln2/(18/12)≈0.462,对应18个月半衰期。更直观地理解,调仓日当期的公告权重为1.0;18个月前的公告权重降至0.5;36个月前的公告权重降至0.25,如图5所示。图5、公告权重的时间衰减曲线江海证券研究发展部回视窗口设定为36个月,即每次调仓时仅纳入过去3年内的披露文件。这一设定兼顾两个约束:一是覆盖足够多的公告(避免因公司披露频率差异导致样本稀疏),二是确保评分能够及时响应业务变化,不考虑过于早期的历史公告。评分汇总与归一化对每家公司,将所有命中记录的单条得分×按关键词。在此基础上计算以下辅助指除以样本期内的关键词总数,标(越接近1说明命中集中在近期);5个关键词,用于人工校验和调仓报告。将在公司层面加总后,得到𝑆𝑐𝑜𝑟𝑒𝑐,𝑇。将其归一化至[0,1]区间,获得()完成相关度评分并按得分降序排列后,对候选公司施加资格筛选,以满足中证指数编制通则对成分股的基本合规要求。筛选规则如下,各条款均以调仓日当期数据为准,不使用前视信息:证券类型:仅纳入AB(其中B代码前缀200或900)。*ST601000万元。5310。160%、近3ROE3%。通过上述筛选后,剩余候选公司按normalized_score50表1、各调仓期候选股筛选统计调仓决策日筛选后候选数本期新增本期剔除均相关度得分自由市值中位数(亿)日均成交中位数(万)均命中关键词数2019-11-15109790.5927.14,348.04.602020-05-1511212150.6125.48,144.64.672020-11-1511113120.5827.58,250.54.732021-05-1510715110.5929.19,417.04.862021-11-1511210150.5626.510,334.74.512022-05-1511423250.6328.314,015.74.252022-11-1511611130.5928.99,520.04.262023-05-1511519180.6031.010,436.84.262023-11-1511515150.5928.18,837.04.302024-05-1510628190.6129.310,594.84.482024-11-1510913160.5728.813,014.94.512025-05-1510827260.6532.617,938.24.792025-11-151051180.6035.621,269.65.12同花顺调仓决策日成分股调仓决策日成分股数量本期剔除/新增均相关度得分自由市值中位数(亿)日均成交中位数(万)均命中关键词数换手率2019-11-1550130.6124.63,516.35.5031.6%2020-05-1550150.6224.36,144.15.5632.8%2020-11-155080.5829.47,824.05.3818.8%2021-05-1550130.5928.78,406.65.2030.3%2021-11-1550110.5722.38,913.44.0424.1%2022-05-1550130.6222.911,202.43.7033.0%2022-11-1550130.5923.07,949.04.0226.8%2023-05-155090.5927.310,238.24.4222.4%2023-11-155090.5926.78,221.64.0219.5%2024-05-1550110.6126.19,092.74.2425.2%2024-11-1550100.6027.510,308.74.2019.6%2025-05-1550130.6626.914,930.24.4031.4%2025-11-155060.6128.115,028.05.0613.6%同花顺注:换手率为整体换手率,包含个股剔除/新增,及成分股之间的权重增减调整。表1汇总了132105116A够的根本性约束。25.3%(含剔除/度低/20225(33.0%)和20205月2021其三,成分股的日均成交中位数从2019年的3,516.3万元增至2025年的15,028.0(4.27成分股池对ETF申赎操作更为友好。权重方案的选择逻辑权重方案直接决定指数的主题纯度与风险分散特征,需要在三个目标之间寻求平衡:一是主题代表性,权重应向冰雪经济主营业务占比高的公司倾斜;二是平衡市值影响与流动性可执行性,避免过度集中于大/小市值公司;三是基本面质量,对基本面较好的公司给予适度加成,提升指数的长期持有价值。纯市值加权无法体现主题纯度,纯相关度加权则可能放大流动性不足的高分小盘股风险,等权加权两者均无法满足。本指数最终采用基本面增强的乘法加权方案:𝜔∝𝑠𝑐𝑜𝑟𝑒𝛼1×𝑐𝑎𝑝𝛼2×𝜆𝑖 𝑖

𝑖 𝑖为归一化相关度得分;𝑐𝑎𝑝𝑖为自由流通市值的平方根变换,𝜆𝑖为权重调整因子,根据基本面因𝛼1=𝛼2=0.1。相关度和市值的影响相对平缓(𝛼<1时对差异有压缩效果),基本面因子的影响辅以调整,共同形成一个以基本面为主要调节维度的混合权重体系。关于权重方案的设计在第四章具体说明。基本面综合因子𝜆𝑖的大小由基本面综合因子𝐹𝑖决定。对于𝐹𝑖排名前25%的个股,𝜆𝑖为1.5,对于𝐹𝑖后25%的个股,𝜆𝑖为-1.5,处于中间的个股不进行调整。采用固定乘数的方法,简化模型,便于复制。𝐹𝑖由三个因子加权合成,对应Barra风险模型中的标准化因子:𝐹𝑖=0.4×𝑍𝑒𝑎𝑟𝑛𝑖𝑛𝑔𝑠_𝑦𝑖𝑒𝑙𝑑𝑖+0.4×𝑍𝑔𝑟𝑜𝑤𝑡ℎ𝑖+0.2×𝑍𝑏𝑜𝑜𝑘_𝑡𝑜_𝑝𝑟𝑖𝑐𝑒_𝑟𝑎𝑡𝑖𝑜𝑖权重约束与上下限控制0.5分配。调仓日历本指数采取每年两次定期调仓机制。调仓决策日(即名单生成日期)为每年5月15日和11月15日,然后进行内部审核,完毕后于当月月底公布。生效日(即实际调仓日)为每年6月和12月第二个周五的下一个交易日。6无前视偏差保证评分计算严格使用调仓日T𝑇36≤𝑡≤𝑇区间内的记录。市场数据(成交额、市值、净利润等)指数起始日期的选取10002020年12日(1000)50成分股资格筛选ETF(ST/*ST)Aorg_idgshkB股识别。B股流通限制较多,不适合纳入供境内投资者使用的主题指数成分。筛选逻辑通过股票代码前缀判断:代码以900开头(上交所B股)或200开头(深交所B股)的标的直接排除。该规则以代码字符串匹配方式实现,执行速度最快,因此置于筛选流程的最前端。(ST/*ST)处于特别处理(ST)或退市风险警示(*ST)状态的公司,通常面临重大财务异常、信息披露违规或流动性极度萎缩等问题,不宜纳入机构可投资的标准指数成分。数据来源与无前视偏差处理。在实现上,在当期股票名称字段进行字符串匹配,判断在当前是否包含“ST”、“*ST”或“退”等风险标记。不影响过往和未来入库。如果在未来摘星,仍有可能进入候选池。2021当前已被标注为ST2021年的历史成分股中排除。601,000元人民币。60图6、最新一期成分股日均成交金额分布同花顺在最新一期成分股中,近60交易日日均成交金额最小值为5327.2万元,中位数为16,380.1万元,均值为29,369.2万元,最大值为141,364.5万元。远远满足流动性要求。当ETF规模在10亿元量级、单次大额申赎在300万元以内时,在日均5,000万元成交量的成分股上完成建仓或减仓,理论冲击成本通常可控制在0.1%以内,不会对ETF净值产生显著拖累。要求成分股候选的自由流通市值在调仓日不低于5亿元人民币。5亿元自由流通市值门槛的设定兼顾两个约束:一是与中证系列小盘指数的入选基准基本对齐,确保成分股具备一定的市场可见度,不会因过小的市值而面临流动性突变风险;二是不过度排除冰雪经济中仍处于成长扩张期的中小市值企业。——这类企业往往是主题纯度高的成分候选。图7、最新一期成分股自由流通市值分布同花顺2025117.128.649.2194.75—10026100413局。要求成分股候选在调仓日前3个完整会计年度内,净利润至少有1年大于0。查询盈利数据时,查询区间为调仓日往前推3年至调仓日。按股票代码分组后,判断区间内是否存在至少一期净利润大于0的记录,同时记录3年内的净利润最大值用于后续辅助分析。本层要求近31135年,部分使指数成分股向综合旅游集团和大型制造商集中。近3年任意1年盈利的标准,在满足基本财务合规要求(排除持续亏损、商业模式存在根本性问题的公司)的同时,为成长期的冰雪专营标的保留了入选空间。权重优化方案完成资格筛选并确定成分股池后,权重分配是指数编制流程的最后一个关键环节,也是区别本指数与现有主题产品的第二个核心创新点。ETF15%(对应中证主题指数编制通则单股权重下限0.55大权重合计上限不超过60纯市值加权无法体现主题纯度,纯相关度加权会放大低流动性小盘股风险。本指数最终选择基本面增强的乘法加权方案,通过连乘结构和权重调整因子控制。整个权重优化流程分五步执行,以下逐步展开。1在进入权重计算前,首先对资格筛选后的候选股票进行一次分位截断,去掉每期相关度得分最低的10%。这一步骤的设计初衷是处理“边界噪声”。提升主题纯度,降低对相关度赋权的依赖,使后续的权重调整空间更大。2对通过分位截断的候选公司,进一步施加财务层面的辅助约束。结合行业增长特征与业务收入模式,筛选条件设置如下:年营业收入不低于1亿元,排除业务规模过小、抗风险能力较弱的微型公司;资产负债率不超过60%,排除财务杠杆过高、偿债压力显著的标的;近3年OETTM均值不低于33本指数设定每期成分股数量为固定50只。当某期经过上述筛选后,数量50衰减得分补入。具体逻辑为:取当期调仓日往前最近4期(约2年)的历史成分股作为备选来源,排除已在当期成分中的股票;对每只历史候选股,将其历史score乘以时间衰减系数折算到当期:𝑑𝑒𝑐𝑎𝑦𝑒𝑑_𝑠𝑐𝑜𝑟𝑒=𝑠𝑐𝑜𝑟𝑒历史×𝑒−𝜆∙∆𝑡其中衰减系数𝜆=ln2/(18/12)≈0.462,1850sourcebackfill标记,原期候选标的以source=primary步骤4normalized_score𝑠𝑐𝑜𝑟𝑒𝑖𝑚𝑎𝑥𝑠𝑐𝑜𝑟𝑒−𝑚𝑖𝑛𝑠𝑐𝑜𝑟𝑒𝑠𝑐𝑜𝑟𝑒𝑖𝑚𝑎𝑥𝑠𝑐𝑜𝑟𝑒−𝑚𝑖𝑛𝑠𝑐𝑜𝑟𝑒𝑖和财务筛选后,成分股池的构成发生了变化,原始得分已不再反映当期成分股之间的真实相对关系,需要在最终成分股范围内重新建立参照系。重新标准化后的得分用于权重计算,确保权重分配基于当期成分股之间的相对主题强度,而非与最终未入选公司的比较结果。步骤5基础乘法权重(𝝕0)对每期成分股,首先计算基础乘法权重𝜔0:𝜔 ∝𝑠𝑐𝑜𝑟𝑒𝛼1×𝑐𝑎𝑝𝛼20,𝑖 𝑖 𝑖其中𝛼1=𝛼2=0.1, 𝑐𝑎𝑝𝑖为自由流通市值的平方根变换弱化长右尾中大市值公司的极端影响,使其分布更加接近正,稳定方差。𝛼=0.1𝛼=1𝛼→0时,(所有公司权重相同𝛼=0.1的设定使得得分之间的差异被大幅压缩——1.00.5≈100(高相关度公司仍获得略高权重)在基础权重𝜔0之上,获取三个BarraCNE5风格因子,合成综合基本面因子𝐹。因子构成与合成方法:𝐹𝑖=0.4×𝑍𝑒𝑎𝑟𝑛𝑖𝑛𝑔𝑠_𝑦𝑖𝑒𝑙𝑑𝑖+0.4×𝑍𝑔𝑟𝑜𝑤𝑡ℎ𝑖+0.2×𝑍𝑏𝑜𝑜𝑘_𝑡𝑜_𝑝𝑟𝑖𝑐𝑒_𝑟𝑎𝑡𝑖𝑜𝑖其中𝑍∙为截面标准化函数,先对原始因子值做±2.5𝜎去极值处理,再在截面上做Z-score标准化(减均值、除标准差)。单因子内部按照公式配方加权求和。三个子因子的权重配置体现了冰雪经济的产业特征:盈利预期因子(earnings_yield,权重40%)(growth综合衡量营收增速和利润增速,25%)仓日恰好是非交易日的情形。最终权重计算获得𝐹𝑖251.525%的个股,𝜆𝑖为-1.5,其余个股𝜆𝑖1。这种做法符合指数编制中对于权重调整𝜔0权重:𝑖𝜛𝑟𝑎𝑤∝𝜛0,𝑖×𝜆𝑖𝑖对原始权重归一化(令各权重之和为1)后,施加全局硬约束:𝜛𝑓𝑖𝑛𝑎𝑙=𝑐𝑙𝑖𝑝𝜛,𝜛

=0.5%,

=15%𝑖 𝑖

𝑚𝑖𝑛

𝑚𝑎𝑥并通过迭代收敛算法完成超限权重的再分配:每次迭代中,将超过上限的超额权重按比例分配给尚未触及上限的其他成分股,将低于下限的不足权重从其他成分股中等比扣除,直至所有权重满足约束或达到最大迭代次数。权重分布实证将上述权重方案应用于2019年11月至2025年11月的13个调仓期,主要权重统计如表3所示。表3、各调仓期权重分布统计调仓决策日成分股数量最高单股权重最高权重公司Top5权重合计平均权重权重标准差HHI(bps)2019-11-15503.22%中工国际13.78%2.00%0.56%215.12020-05-15503.76%中工国际12.58%2.00%0.63%219.42020-11-15503.36%中工国际12.00%2.00%0.57%216.02021-05-15503.62%鄂武商A11.48%2.00%0.60%217.62021-11-15503.52%河钢资源11.61%2.00%0.65%220.72022-05-15503.18%鄂武商A12.99%2.00%0.59%216.82022-11-15502.94%华邦健康10.93%2.00%0.56%215.52023-05-15503.05%京东方A10.65%2.00%0.59%217.32023-11-15503.28%京东方A12.87%2.00%0.73%226.42024-05-15503.35%奥瑞金11.52%2.00%0.60%217.52024-11-15503.24%奥瑞金12.85%2.00%0.57%215.72025-05-15503.11%长白山14.88%2.00%0.60%217.62025-11-15503.28%中工国际13.73%2.00%0.61%218.433|op5权重均值125|一个标准差均值060|HHI均值210|单股平均权重20(150。注:调仓决策日为名单生成日,生效日请查阅正文说明。𝐻𝐻𝐼=∑论HHI=200。江海证券研究发展部

𝜛𝑖2×10−4,值越低代表权重越分散;50只个股等权时理3.7615%的上(小α值的压缩效果Top512.5(10.0%)HHI稳定在215至227之间。等权50只时理论HHI为200,实际各期HHI均值218,与理论等权的偏差不超过10%。这说明基本面增强的乘法方案在实现主题倾斜的同时,并未引入显著的额外集中风险——从指数风险管理的角度看,这一特性使其比市值加权方案在极端行情下具有更稳定的净值表现。0.38,市值权重与最终权重的相关系数0.23。满足权重与关联度和市值正相关的需求,且受相关度影响更大。202511(因其具有雪具定制化包材、雪具寄存等特色业务而入选):其自由流通市值达930.7亿元,纯市值权重高达29.13%,相关度权重为0.09%,但最终权重为2.28%。这一案例直观说明了为何本指数相较于纯相关度或纯自由市值的加权方案,能够更有效地防止产业链中规模较大但冰雪业务占比有限的综合型公司对指数的稀释。Top510.614.95重分散、投资价值等方面的要求。202311(HHI8K3.28整倾斜,是业内合理的做法。指数价格合成指数价格合成是整个编制流程的最终环节,生成连续的日频指数时间序列,为后续的历史回测、业绩归因和与基准指数的比较分析提供基础数据。本研究输出两条平行的指数序列,分别对应国际主流指数编制惯例中的两种标准形式:(Price价格指数是标准参照。全收益指数(TotalReturnIndex,TRI)ETFETF两条指数序列的基点均设为1000点,起算日为2020年1月2日。步骤1指数的每日计算和调仓生效日的确定均依赖准确的交易日历。模块通过数据接口获取上交所全部交易日列表,覆盖从最早调仓期前一个月至指数终止日的完整区间。步骤2生效日规则参照中证指数有限公司对半年度定期调整的通行规范:515(611月15日调仓(对应三季报披露完毕后)→生效日为12月第二个周五的下一个交易日。151115日)到生效日之这种处理也符合业内的一般做法。生效日的具体计算逻辑为:先定位生效月当月1日所对应的星期,推算出其第一个周五的日期,再加七天得到第二个周五;然后在交易日历中找到第二个周五次日起的第一个有效交易日。若计算出的日期不在交易日历中,则顺延至其后最近的交易日。以2025年11月15日调仓期为例:对应生效月为12月,2025年12月第二个周五为12月12日,其下一个交易日为12月15日(周一,非节假日),因此该期成分股于2025年12月15日开盘正式生效。步骤3(适用于PI)和后复权(不复权后复权800.4()保留为步骤4核心公式(Fixed-WeightChain-Linking)序列,这也是中证、MSCI每日指数值的计算公式为:𝐼𝑛𝑑𝑒𝑥(𝑡)=𝐴𝑛𝑐ℎ𝑜𝑟×

∑∑𝑖𝜛𝑖∙𝑃𝑖𝑡/𝑃𝑖𝑏𝑎𝑠𝑒∑𝑖∈𝑣𝑎𝑙𝑖𝑑𝜛𝑖其中:𝐴𝑛𝑐ℎ𝑜𝑟:当前计算段的起始锚点值,等于上一段最后一个交易日的指数收盘值。𝜛𝑖:成分股𝑖在当前段的权重(各股之和为1)𝑃𝑖𝑡:成分股𝑖在日期𝑡的收盘价(PI用不复权价格,TRI用后复权价格)𝑃𝑖𝑏𝑎𝑠𝑒:成分股𝑖的基准价,取生效日前一个交易日的收盘价(见5.5.2节)。𝑃𝑖𝑡和𝑃𝑖𝑏𝑎𝑠𝑒进行过ffill(如当日价格为空,取往前最近的非空价格填充)。∑𝑖∈𝑣𝑎𝑙𝑖𝑑𝜛𝑖ffill基准价的取价时点设计基准价𝑃𝑖𝑏𝑎𝑠𝑒取生效日前一交易日的收盘价,而非生效日当天收盘价。在实际的ETF运作中,基金管理人在成分股生效日当天需要完成换仓操作:买入新增成分股、卖出剔除成分股、调整续留成分股的持仓比例,建仓成本依据的是生效日当天的市场价格(即以当天开盘后的实际执行价格或接近当日收盘价的价格建仓)。取生效日前一交易日收盘价作为基准价,意味着从生效日当天开始,指数即可捕捉该日的完整涨跌(Pi(生效日)/Pi(前一交易日)),完整记录了换仓当天成分股的价格变动,与ETF基金净值的实际变化逻辑保持一致。调仓时的锚点衔接每当迭代到新的生效日时,执行以下操作:将当前锚点更新为前一交易日已计算完成的指数值,使新段的起点严格等于旧段的终点,确保前后两段在生效日当天实现无缝衔接,使指数序列不会因调仓而产生人为跳升或跳降。(取前一交易日收盘价(0.9999缺失数据的容错机制80%有效权重阈805010(权重合计%51000202012(锚定至1000):𝐼𝑛𝑑𝑒𝑥𝑡𝐼𝑛𝑑𝑒𝑥𝐼𝑛𝑑𝑒𝑥𝑡𝐼𝑛𝑑𝑒𝑥𝑡0

×1000,𝑡0为2020年1月2日2020(201520222025整个流程的五个步骤相互解耦,每一步的输出均可独立缓存,支持在任意步骤中断后从缓存重启,而不需要重新运行全流程。价格缓存机制(pkl文件)是其中最重要的效率节点:覆盖全部历史调仓期的成分股价格数据体量较大,初次从数据接口完整拉取约需10分钟,而后续重跑均在秒级完成。这一设计确保了在调仓参数调整或权重方案迭代时,可以快速重新生成指数序列,而无需重复请求价格数据。指数历史表现与差异化分析下面基于第五章合成的指数价格序列,对冰雪经济主题指数进行历史表现分析,并与四条外部基准序列进行系统比较。分析区间为2020年1月2日至2026年4月14日,共覆盖约6年3个月、1,520个交易日。起始日选取20201月2日,一方面对应本指数第一个完整生效期(2019年11月15日调仓、2019年12月生效)的覆盖范围,另一2020(2020—2021)(2022—2023)(2023—2024)(2025至今)年1月21000点。比较基准选取三条:某平台冰雪产业指数(等权,容量59只,作为现有同类产品的代理基准)、中证旅游指数(代表广义文旅板块)、申万消费指数(代表大消费板块)。表4汇总了各指数在全分析区间的核心业绩指标。类别累计收益年化收益率与TRI相关性类别累计收益年化收益率与TRI相关性年化波动率贝塔阿尔法夏普胜率日胜率盈亏比最大回撤最大回撤起止冰雪经济价格指数(PI)29.3%4.2%99.8%22.1%0.86-0.020.1053.6%49.6%1.0433.5%2022-01-06,2024-09-18冰雪经济全收益指数(TRI)61.1%.9%100.0%22.1%0.860.020.2754.1%50.2%1.0729.3%2023-07-31,2024-02-05某平台冰雪产业指数65.2%.3%88.1%25.0%0.840.020.2553.1%50.5%1.0646.1%2022-01-06,2024-02-07申万消费4.5%.7%71.3%20.1%0.73-0.05-0.0649.8%48.9%1.0149.2%2021-02-10,2024-09-18中证旅游-28.3%-5.2%67.9%27.3%0.76-0.11-0.2648.4%47.1%0.9752.7%2021-04-09,2024-09-18中证50050.7%6.8%83.6%21.4%1.000.000.2252.1%1.0641.8%2021-09-13,2024-09-13780 注:以中证500为基准指数计算贝塔、阿尔法和日胜率。日胜率是收益率跑赢基准指数的频率。计算夏普时,年化𝑟𝑓为2.0%。与TRI的相关性指与冰雪经济全收益指数(TRI)的日收益率的线性相关性。表格中的指数如无特别说明,均为全收益指数。同花顺累计收益61.1%、年化收益率8.2%,而价格指数(PI)累计收益29.3%和年化收益31.8ETF是跟踪误差考核的正确参照。撤控制明显更优。TRI的夏普比率为0.27,稍高出某平台的0.25。某平台的指数容量为5946.1%。50(0.71)(0.68)申万旅游综合在分析区间累计涨幅-28.3%,年化-5.2%,其年化波动率更高(27.3%)52.7图8展示了本研究编制的冰雪指数的价格变化走势。可见其长期投资价值及较好的回撤控制。图8、本研究编制的冰雪经济指数的价格变化冰雪经济指数价格变化图9、指数走势对比指数走势对比2,0001,8001,6001,4001,2001,000800600注:以上指数均为全收益指数同花顺2020-01-02图8、本研究编制的冰雪经济指数的价格变化冰雪经济指数价格变化图9、指数走势对比指数走势对比2,0001,8001,6001,4001,2001,000800600注:以上指数均为全收益指数同花顺2020-02-202020-04-012020-05-182020-06-302020-08-10某平台冰雪产业指数2020-09-18某平台冰雪产业指数2020-11-062020-12-172021-01-282021-03-172021-04-282021-06-112021-07-232021-09-022021-10-222021-12-02中证旅游2022-01-13中证旅游2022-03-022022-04-142022-05-302022-07-112022-08-19申万消费2022-09-30申万消费2022-11-172022-12-282023-02-152023-03-282023-05-12中证5002023-06-26中证5002023-08-042023-09-142023-11-022023-12-132024-01-24冰雪经济全收益指数(TRI)2024-03-13冰雪经济全收益指数(TRI)2024-04-252024-06-112024-07-222024-08-302024-10-212024-11-292025-01-102025-02-282025-04-112025-05-272025-07-082025-08-182025-09-262025-11-142025-12-252026-02-06342026-03-2734

2020-01-021,8001,6001,4001,2001,0008006002020-02-191,8001,6001,4001,2001,000800600同花顺2020-03-30同花顺2020-05-132020-06-222020-08-032020-09-102020-10-282020-12-072021-01-152021-03-032021-04-132021-05-262021-07-066.46.4图9展示了TRI和其他指数的净值走势对比。冰雪经济价格指数(PI)2021-09-24冰雪经济价格指数(PI)2021-11-102021-12-202022-01-282022-03-162022-04-272022-06-102022-07-202022-08-292022-10-142022-11-232023-01-032023-02-17冰雪经济全收益指数(TRI)2023-03-29冰雪经济全收益指数(TRI)2023-05-122023-06-212023-08-022023-09-112023-10-272023-12-062024-01-162024-03-042024-04-152024-05-282024-07-082024-08-152024-09-262024-11-122024-12-202025-02-072025-03-192025-04-292025-06-122025-07-222025-08-292025-1

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论