版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
目录CatalogTOC\o"1-2"\h\z\u一、财报附注结构 3(一)资产负债表项目注释 3(二)利润表项目注释 7(三)现金流量表项目注释 9(四)其他表外及特殊项目注释 11(五)管理层的讨论与分析 12二、财报信息提取 16(一)索引爬取与高并发下载 16(二)语义感知坐标定位 17(三)结构清洗修复 18(四)文本信息提取 19三、信息提取结果与分析 20(一)资产负债表数据提取 20(二)利润表数据提取 21(三)现金流量表数据提取 22(四)管理层分析与讨论数据提取 23(五)管理层的分析与讨论文本提取及分析 24(六)报告处理累计耗时分析 25四、财报附注数据应用示例 26(一)金融财报画像生成Skill 26(二)财报附注基本面因子构建示例 29五、风险提示 31六、附录 32一、财报附注结构传统财务报表的三张主表虽然构建了企业财务状况和经营成果的宏观框架,但受限于高度聚合的列报格式,往往难以满足现代量化投资对高维度、精细化数据的需求。仅仅依靠主表静态的总额数据,极易被企业表面的高利润或高增长所掩盖,无法穿透至底层的真实业务运转与隐性风险。相比之下,财报附注作为对正表核心科目的深度解构与补充说明,蕴含着更加丰富的微观信息。通过解析附注,我们能够还原主表背后资产负债的真实状况、盈利质量的优劣以及现金流转的实质,从而获取传统财务比率无法提供的超额Alpha信号。然而,与格式标准化的主表不同,财报附注的信息多以非结构化的长文本、嵌套表格以及多维数据矩阵的形式展示,排版上的相对自由与多变不仅使得人工梳理耗时费力,更对规模化、自动化的代码读取带来了较大的技术挑战。因此,在探讨如何运用前沿的语义感知与结构清洗技术进行高效信息提取之前,首要前提是必须理清各类财报附注的披露顺序与披露格式。基于此,本报告将遵循企业财务报告的内在编制逻辑,依次从资产负债表项目、利润表项目、现金流量表项目、其他表外及特殊项目和管理层讨论与分析五大维度,全面梳理财报附注的典型排版结构与可得信息。我们将通过对各类核心科目(如应收账款账龄、存货物理形态、研发费用明细等)附注形态的解析,展示如何将合并报表中的宏观数字细化为微观的业务切片,从而为后续通过代码精准提取数据、进而搭建多维基本面量化模型奠定坚实的业务基石。图1:资产负债表附注结构
(一)资产负债表项目注释在资产负债表的注释中,其结构严格按照资产与负债的流动性强弱与期限长短依次向下展开,核心在于对企业营运资本质量与底层资产结构的还原。资 院资产类项目在流动资产端,货币资金拆分为库存现金、银行存款及其他货币资金等细分项,并展示因承兑汇票保证金、信用证保证金等导致使用权受限的具体明细。对于应收款项(包含应收票据、应收账款、应收款项融资及预付款项),附注通常会从多角度展示应收账款的特征,包括账龄结构、按单项和信用风险特征组合计提坏账准备的金额与比例、期末余额前五名的应收账款与合同资产情况,等等。图2:中国通号2025年半年报财报附注:应收账款资 院存货的注释则将其物理形态拆解为原材料、在产品、库存商品、发出商品等明细项,并对应披露存货跌价准备的期初余额、本期计提与本期转销金额。图3:中国通号2025年半年报财报附注:存货资 院在非流动资产及负债端,附注的结构重点转向企业的资本沉淀与长期杠杆。固定资产与无形资产部分以“原值、累计折旧/摊销、减值准备、账面价值”的四行变动表形式,来展示期初余额、本期购置、在建工程转入、本期处置及期末余额的完整资产流转轨迹。图4:中国通号2025年半年报财报附注:固定资产资 院在建工程注释会穿透至具体的重大工程项目,披露其预算数、期初末余额、工程累计投入占预算比例以及利息资本化金额。图5:中国通号2025年半年报财报附注:在建工程资 院商誉部分则系统列示账面原值及其减值测试的核心参数。通过披露这些信息,有助于了解商誉减值测试的合理性和潜在风险,从而更全面地评估企业的资产质量和未来盈利能力。图6:中国通号2025年半年报财报附注:商誉资 院负债与权益类项目在负债端,附注依次拆解短期借款与长期借款的融资性质(信用、质押、保证等),披露应付债券的期限结构与利率水平,同时也列示应付职工薪酬中短期薪酬与离职后福利的计提发放情况。在权益端,从未分配利润的附注表格中,我们可获取企业当年净利润提取盈余公积、提取风险准备与派发现金股利的具体情况。图7:中国通号2025年半年报财报附注:短期借款、长期借款资 院图8:利润表附注结构图
(二)利润表项目注释利润表项目的附注结构采用了从总额到明细的自上而下拆解法,其重点在于企业收入与成本的结构、期间费用的拆解与营业外收支等非日常经营活动带来的利润变化。资 院其中,营业收入和营业成本的披露是最核心的信息。附注通常要求将主营业务收入与成本按照产品类别、业务类型以及经营地区等维度进行多层次交叉拆分。例如,在经营地区维度上,收入还可以进一步区分为国内与国外(或其他国家和地区)来源。这些数据可穿透利润表中的汇总数据,拆解企业各项细分业务的规模体量、成本分布与毛利变动,也有助于识别不同区域市场的收入贡献及其经营表现差异。图9:中国通号2025年半年报财报附注:营业收入和营业成本资 院理费用、研发费用被详细拆解为职工薪酬、折旧摊销、物料消耗、差旅及业务招待费、广告宣传费等具体开支项目,我们可从中进一步了解企业期间费用中付现费用(包含人力成本与物料等投入)和非付现费用(折旧摊销)的构成。财务费用则被拆分为利息支出、利息收入、汇兑损益及手续费等子项。图10:中国通号2025年半年报财报附注:期间费用资 院此外,附注将非核心主业的收益单列并进行列明其来源,包括具体补助项目的政府补助(其他收益/营业外收入)、分类列示的公允价值变动收益与资产处置收益,以及细分到具体底层资产科目的信用减值损失和资产减值损失。图11:中国通号2025年半年报财报附注:营业外收入与营业外支出资 院图12:中国通号2025年半年报财报附注:信用减值损失和资产减值损失资 院(三)现金流量表项目注释现金流量表项目注释的核心结构是现金流量表的项目细分,其提供了连接利润表(应计制)与资产负债表(收付实现制)的完整数据调节链条。该部分附注详细披露了现金流量表的项目,包括与经营活动有关的现金、与投资活动有关的现金、与筹资活动有关的现金,以及现金和现金等价物的构成。图13:现金流量表附注结构图资 院现金流量表项目中列示了现金流量表中各项重要收支的构成明细,包括与经营、投资及筹资活动相关的现金流入与流出等具体项目,并通过表格形式清晰呈现各项具体业务(如政府补助、各项费用支出、理财产品收支等)的本期发生额。同时,附注也单独披露了筹资活动产生的各项负债变动情况,细致划分了现金变动与非现金变动的影响,从而有效补充了现金流量主表的汇总数据,使得我们能够深度透视企业底层资金的真实流转轨迹与各项活动的实际资金消耗。图14:中国通号2025年半年报财报附注:现金流量表项目资 院附注中也详细列示了现金及现金等价物的构成,包括库存现金、可随时用于支付的银行存款及其他货币资金等具体项目;同时,单独列出了母公司或集团内子公司使用的受限制现金和现金等价物,我们可依此对企业现金资源的真实流动性水平进行定量刻画。图15:中国通号2025年半年报财报附注:现金和现金等价物资 院(四)其他表外及特殊项目注释这一部分附注涵盖了传统财务报表正表无法直接体现的结构化信息与异质性数据,揭示了企业的隐性特征与潜在敞口。首先是“外币货币性项目”,该部分按照具体的原币币种(如美元、欧元、日元等),分类披露了各项外币资产(如外币存款、外币应收账款)和外币负债(如外币短期借款、外币应付账款)的期末外币原币余额、适用的折算汇率及折算后的人民币余额,直观呈现了企业的各类外汇敞口。图16:海尔智家2024年年报财报附注:外币货币性项目资 院此外,该部分内容还包含了特殊项目披露,例如租赁业务中企业作为承租人与出租人的未折现租赁收款额与付款额结构。附注从两方视角出发,既披露了承租方的各项可变费用与现金流出总额,又通过期限结构表直观呈现了出租方未来五年及以上的未折现收款额分布。这些内容有效补充了企业表外资产负债的情况。图17:中国通号2025年半年报财报附注:租赁资 院研发支出附注主要揭示企业研发投入的结构与资本化情况。利润表中的“研发费用”仅能反映当期费用化研发支出的状况,而“研发支出”还包含资本化研发支出的投入与结转状况,可更加全面地反映企业在研发活动上的投入水平。此外,研发支出资本化比例过高也可能存在降低费用、虚增利润之嫌,了解公司研发支出资本化的情况可从侧面反映企业财务报表的质量。图18:中国通号2025年半年报财报附注:研发支出资 院(五)管理层的讨论与分析管理层的分析与讨论章节主要涵盖企业对行业趋势、经营情况、核心竞争力及风险因素的综合阐述,从更前瞻的视角补充了传统三大财务报表无法直接呈现的的经营逻辑、发展战略与潜在风险。图19:管理层的分析与讨论结构图资 院在研项目情况主要披露企业重点研发项目的投入规模、当前进展及成果转化预期,通常涵盖预计总投资、本期及累计投入金额、阶段性成果、拟达到目标、技术水平和应用前景等信息。该部分能够较为直观地反映企业的研发储备深度、技术推进节奏以及未来产业化落地潜力。图20:中国通号2025年半年报管理层分析与讨论:在研项目示例资 院知识产权列表主要披露企业报告期内各类知识产权的新增与累计情况,包括发明专利、实用新型专利、外观设计专利及软件著作权等类别。该部分可从知识产权储备与成果产出的角度,反映企业的技术积累深度、自主创新能力及研发成果转化情况。图21:中国通号2025年半年报管理层分析与讨论:知识产权列表资 院前五名客户与供应商部分主要披露企业报告期内核心销售对象和采购对象的金额、占比及关联关系情况。该部分能够从收入集中度、采购集中度及关联交易风险等维度,反映企业上下游结构稳定性、客户依赖程度与供应链安全状况。图22:有研硅2025年半年报管理层分析与讨论:公司前五名客户与供应商资 院储备与竞争优势来源,但由于不同公司年报在该类表格的字段设置、表头层级、描述口径等方面差异较大,当前难以基于统一规则实现稳定且高质量的批量提取。因此,本研究对该部分内容的提取结果仅在部分公司年报中生效,尚未覆盖全部样本。后续若需进一步提升该模块的适用范围与提取稳定性,仍需针对不同表格类型设计更细化的识别与适配规则。例如下图中,澜起科技年报“核心技术及其先进性”部分全部为成段落的文字,而寒武纪年报“核心技术及其先进性”部分则以表格为主,同时也包含文字与图片,提取信息难度较大。针对这一问题,未来我们将根据具体数据需求,改善数据质量。图23:澜起科技2025年年报管理层分析与讨论:核心技术及其先进性资 院图24:寒武纪2025年年报管理层分析与讨论:核心技术及其先进性资 院二、财报信息提取(一)索引爬取与高并发下载获取财报附注数据的第一步是获取财报PDF文件。在下载财报PDF文件这一步,我们面临着全市场公告数量庞大、服务器请求限制以及文件易损坏等问题。为此,我们设计了对接巨潮资讯(CNINFO)标准API的智能爬虫系统。爬虫系统采用高频时间切片轮询策略,并引入了基于正则表达式的智能关键词过滤机制,在获取索引的环节即自动剔除标题中含有“摘要”、“英文版”、“已取消”等字样的无效公告,从而有效提升了目标文件池的纯度。图25:2025年半年度报告链接爬取结果示例资 院在文件下载环节,系统调用了多进程并发下载引擎(Multi-processEngine)以实现万级PDF文件的自动化存取。为了避免网站反爬,在常规的更新请求头等手段之外,下载引擎内置了三级重试与超时保护机制。同时,为了防止下载到因网络中断而产生的“空壳”或损坏文件,我们在数据流写入阶段直接对二进制文件进行了完整性校验。系统不仅会检查文件大小是否为零,还会严格读取文件头部的首字节(Bytes),验证其是否包含标准的“%PDF”标识。只有通过物理层完整性校验的文件,才会被放入后续的解析池中。图26:财报下载结果示例资 院图27:语义感知坐标定位
(二)语义感知坐标定位一份标准的上市公司年报通常长达两三百页,附注信息仅为其中某几个大的章节,且完全缺乏统一的HTML或XML标签结构。为了在海量文本中精准锁定目标科目,我们采用了一套基于正则驱动的语义感知与边界锚定技术。资 院图28:结构清洗修复流程图
在解析具体PDF页面时,系统首先会测算页面高度,并自动剥离顶部和底部的页眉、页码等边无效的全文本遍历。(下一个相邻科目)”的专属正则表达式。当算法逐行扫描并匹配到目标科目的开始标题时,会立即提取该文本在当前页面上的绝对Y轴物理坐标(Top值);同理,算法继续向下寻找结束标题并提取其Y轴坐标。通过这两个纵向坐标,系统在二维空间上框定了一个严格的物理边界,后续的表格提取将仅限于该边界内进行。此外,为了提升计算效率,系统在锁定科目标题后会向下快扫若干行,一旦识别到“□适用√不适用”等特征表述,将触发全局阻断信号,直接跳过该科目的提取,以降低无效的算力开销。(三)结构清洗修复由于PDF中的表格本质上只是纯文本块和线条坐标的集合,在解析时极易发生行列错位、表头嵌套和跨页断裂。为此,我们融合了多种启发式规则进行表格的结构化重塑。首先,在表格提取引擎的选择上,系统优先采用基于物理线框的识别策略;若遇到隐形边框排版,则自动降级触发基于文本坐标对齐的策略,并通过动态调整捕捉容差来兼容不同上市公司财报的排版风格。提取出的原始表格往往包含跨行、跨列的复杂多层表头(如“期初余额”下挂“账面余额”与“减值准备”)。系统通过自上而下的逻辑扫描,识别上下层表头的从属关系,利用跨列继承与字符串拼接技术,将多维度的复杂表头“压平”为一维的标准表头。其次,针对被页面物理截断的长表格,我们开发了跨页断头表合并算法。该算法利用“红绿灯”机制,通过检测当前行第一列的特征来判断其数据属性。如果当前页表格的第一列为空白,或者缺乏“合计/总计”等终结性标识,系统会将其判定为上一页未完结数据的延续(黄灯或绿灯),进而触发跨页拼接逻辑,将当前行的数据与缓存中上一行的对应单元格进行文本融合,解决了长表格跨页导致的行断裂问题。对于列内出现空值导致的数据整体错位,系统亦会触发自适应挤压算法,将有效数值强制左对齐至正确的表头维度下。(四)文本信息提取与财务报表附注中大量以表格形式呈现的结构化数据不同,管理层讨论与分析部分往往以连续长文本为主,内容涵盖经营情况讨论与分析、行业发展趋势、核心竞争力分析以及风险因素等多个维度。这类信息虽然缺乏统一的表格边框与字段标签,却蕴含着对企业经营逻辑、战略方向与潜在风险的高密度语义表达。为实现对此类非结构化文本的规模化提取,系统在表格抽取链路之外,进一步构建了一套基于标题识别与边界截断的文本提取机制,将原本分散在年报正文中的文字段落切分为可直接存储和分析的独立文本单元。此作为文本抽取的入口。随后,针对“经营情况讨论与分析”“报告期内新技术、新产业、新业态、标题与下一相邻标题的正则匹配规则。算法在匹配到目标标题后,不再依赖坐标框选表格区域,而是沿页面文本流继续向下扫描,直至识别到下一个章节标题为止,从而完成当前文本区块的边界截断。通过这种“标题锚定—顺序扫描—相邻标题终止”的方式,系统能够较为稳健地从长篇叙述中抽离出语义完整、边界清晰的文本内容,避免不同主题段落之间的相互混入。图29:中国通号2025年年报:管理层讨论与分析资 院为了提升提取结果的可用性与稳定性,系统在文本抽取过程中还加入了轻量级清洗与有效性判断机制。一方面,程序会对原始文本中的换行符、回车符及非断行空格等噪声字符进行统一清理,尽可能保留文本语义的连续性;另一方面,系统会在目标标题附近检测“√适用/□不适用”等标防止页眉、页码或极短碎片化文本干扰正文语义,算法仅保留具有一定长度的有效文本行,从而提高输出文本的整体质量。在输出层面,文本提取结果不再写入Excel表格,而是按照所属类别分别保存为txt文件,并在最终汇总表中同步记录项目名称、提取状态、提取类型、文本行数及输出路径等关键信息。相较于表格类数据直接服务于数值型因子构建,文本类结果更适合作为后续自然语言处理、主题归纳、风险标签识别及公司画像的原始语料来源。三、信息提取结果与分析表1:资产负债表数据提取
基于前文所述的语义感知与结构清洗引擎,我们成功实现了对海量上市企业非结构化财报附注的深度解析与结构化重塑,并构建了一个较为完整的基本面量化特征库,提取范围覆盖资产负债表、利润表、现金流量表等3大核心报表区间。在提取维度上,系统共计精准锁定了23个核心财务科目,并将其向下穿透拆解为79个底层细分数据列。财报附注数据有效丰富了传统基本面数据库的信息,为后续搭建多维度的基本面Alpha模型、精准识别企业盈余管理与财务风险提供了坚实的数据基础。(一)资产负债表数据提取资产负债表附注提取的重点在于透视企业的底层资产质量与真实债务杠杆。我们目前已提取到9个核心科目,细分32个底层数据列,包括按账龄划分的应收账款结构与对应的坏账计提情况、存货分类、固定资产情况、长短期借款的性质、职工薪酬列示等。未来我们可基于这些数据,构建账龄结构、存货结构、固定资产质量、潜在坏账风险、流动性风险、企业员工变动等多维基本面因子。科目报表区间数据列数据类别数据含义资产负债表:流动资产现金风险类企业库存现金及可以随时用于支付的存款。现金等价物风险类持有期限短、流动性强且易于转换为已知金额现金的投资。期末现金及现金等价物余额风险类报表期末企业实际持有的现金及等价物总额。可随时用于支付的银行存款风险类存放在银行且未受限制、可随时支取的款项。库存现金风险类币资金,包括人民币和外币现金。按账龄披露资产负债表:应收账款各时间范围内应收账款账面余额各时间范围内应收账款账面余额按照欠款时间长短分类统计的尚未扣除坏账准备的应收账款总额。存货分类资产负债表:流动资产原材料风险类用于生产加工主要产品所需的原料及辅助材料。库存商品风险类已完成全部生产过程并验收入库,可直接销售的产品。在产品风险类/成本类正在生产线上加工,尚未完成全部工序的半成品。发出商品盈利类/风险类已发给客户但尚未满足收入确认条件的发出货物。固定资产情况资产负债表:非流动资产账面原值成本类购置或建造固定资产时实际支付的原始成本总额。累计折旧成本类资产在使用过程中因磨损消耗而分摊的累积成本。减值准备风险类资产因毁损或技术陈旧导致可收回金额低于账面的预留。账面价值成本类/风险类扣除累计折旧及减值准备后的固定资产净额。短期借款分类资产负债表:流动负债保证借款风险类由第三方承诺在企业违约时承担连带偿还责任的借款。信用借款风险类仅凭借企业自身信誉、无需提供任何担保而取得的借款。抵押借款风险类以房产、机器设备等实物资产作为抵押物而取得的借款。质押借款风险类以动产、存单、股权或票据等权利凭证移交质押的借款。长期借款分类资产负债表:非流动负债抵押借款风险类以房产、土地使用权等不动产设定抵押的长期融资贷款。保证借款风险类由担保公司或关联方为企业长期融资提供的信用担保。信用借款风险类银行基于对企业长期经营及信用认可发放的无担保贷款。质押借款风险类以持有的长期股权或长期债券等权利作为质押的融资。其他流动负债资产负债表:流动负债待转销项税风险类已确认收入但因未开具发票等原因尚未发生纳税义务的税额。应付职工薪酬列示资产负债表:流动负债短期薪酬成本类企业需在报告期结束后12个月内支付的工资及福利。离职后福利成本类员工退休或离职后获得的养老保险及失业保险待遇。辞退福利成本类/风险类企业在劳动合同到期前解除劳动关系支付的补偿金。短期薪酬列示资产负债表:流动负债工伤保险费成本类针对员工因工负伤风险而依法缴纳的保险费用。医疗保险费成本类用于保障员工基本医疗需求而缴纳的保险费用。生育保险费成本类用于保障女职工生育期间待遇而缴纳的保险费用。社会保险费成本类企业按国家规定为员工缴纳的各项社会保障基金。住房公积金成本类企业按规定比例为员工长期缴存的住房专项储金。职工福利费成本类食堂补助、防暑降温费及过节费等集体福利支出。(二)利润表数据提取利润表附注提取的核心在于拆解成本结构与提纯核心盈利。本部分包含销售费用、研发费用、资产减值损失等9个关键科目,提炼出31个细分数据列。从成本费用的角度,附注数据能够将期间费用划分为职工薪酬、折旧费及业务招待费等具有不同经济属性的成本单元,我们可依此剥离期间费用中折旧摊销等非付现成本,了解企业真实的费用支出状况;从收入利润的角度,一方面我们可以获得营业收入在不同业务、不同国家地区间的构成比例,另一方面也可剔除政府补助等偶发性收益,刻画核心业务的增长情况,有效规避因非经常性损益造成的业绩高增假象。表2:利润表数据提取科目报表区间数据列数据类别数据含义境内销售额盈利类来源于中国大陆地区客户的销售收入。境外销售额盈利类/风险类来源于港澳台及海外国家客户的销售收入。各类商品的收入成本盈利类按产品品类统计的销售收入及对应的直接成本。管理费用利润表:营业总成本职工薪酬成本类公司高管、行政、财务及人力等后台人员的薪酬。业务招待费成本类管理部门因公发生的公务接待及相关费用。办公费成本类公司行政日常运营消耗、订阅、水电及维修费。差旅费成本类管理人员参加会议、考察等因公出差的费用。租赁物业费成本类办公场所的租金、物业管理费及车位费。折旧费成本类办公楼、办公设备及家具等固定资产的折旧。销售费用职工薪酬成本类销售部门人员的工资、奖金、社保及公积金。差旅费成本类销售人员因业务推广、拜访客户产生的交通食宿费。业务招待费成本类为拓展市场宴请客户产生的餐饮、赠礼等交际费。办公费成本类销售部门日常运营产生的文具、通讯及邮电费。财务费用利息收入盈利类/成本类企业的银行存款及资金管理产生的利息收益。利息支出成本类企业因银行贷款、发行债券等融资产生的利息成本。汇兑损益风险类外币结算或期末折算因汇率波动产生的差额。手续费成本类银行办理转账、汇款及账户维护产生的手续费。研发费用职工薪酬研发类专门从事研发活动人员的工资、奖金及福利。差旅费研发类研发人员进行学术交流、技术考察产生的差旅费。材料费研发类研发过程中消耗的原材料、模具及低值易耗品。折旧费研发类研发专用仪器、设备、实验室及软件的折旧摊销。营业外收入利润表政府补助盈利类收到与日常业务无直接挂钩的政府奖励或补贴。接受捐赠盈利类接受外部单位或个人无偿赠与的资产或资金。营业外支出利润表对外捐赠成本类公司向公益组织、灾区或贫困地区的无偿捐款。非流动资产报废损失风险类固定资产或无形资产因报废、毁损清理产生的净损失。资产减值损失坏账损失风险类因债务人违约导致应收账款无法收回而确认的损失。存货跌价损失风险类存货因毁损或市价下跌导致可变现净值低于成本的差额。商誉减值损失风险类收购产生的商誉因被收购方业绩未达标而计提的减值。投资收益权益法核算的长期股权投资收益盈利类按持股比例确认的联营或合营企业的净利润份额。处置长期股权投资产生的投资收益盈利类出售或转让子公司、参股公司股权实现的盈亏。处置交易性金融资产取得的投资收益盈利类买卖股票、基金、债券等短期理财产品实现的盈亏。(三)现金流量表数据提取对于现金流量表附注,我们围绕经营、投资与筹资三大活动,提取了3大关联科目及8个具体业务流向数据列。相较于主表的净额数据,附注进一步拆解了“其他与经营/筹资活动有关的现金”等项目,包含政府补助流入、理财产品收支及保证金变动等现金流变化。根据现金流量表的附注数据,我们可以从中了解企业真实的自由现金流创造能力,同时也可评估企业是否存在空转套利、过度金融化等异常风险。表3:现金流量表数据提取科目报表区间数据列数据类别数据含义与经营活动有关的现金现金流量表:与投资活动有关的现金保证金及押金风险类用于业务履约或合同担保而存出的资金。政府补助风险类从政府获得的各类无偿补贴、奖励资金。除政府补助外营业外收入风险类与日常经营无关的其他偶发性利得。利息收入风险类存款或资金拆借产生的利息收益。与投资活动有关的现金现金流量表:与经营活动有关的现金赎回理财产品风险类投资理财到期或提前支取收回的本金。购买理财产品风险类利用闲置资金购买投资产品的支出。与筹资活动有关的现金现金流量表:与筹资活动有关的现金回购股票风险类公司购回自身发行股份支付的现金。租赁支付现金风险类承租资产按约支付的租金及相关费用。(四)管理层分析与讨论数据提取除三大财务报表及附注外,管理层讨论与分析中还包含一批以表格形式呈现、便于直接结构化提取的关键信息。本部分首先聚焦于以xlsx报表形式输出的项目,主要包括核心技术及其先进性、在研项目情况、知识产权列表、前五名客户以及前五名供应商等内容。这类数据具有字段清晰、口径相对标准化、横向可比性较强的特点,能够从技术储备、研发投入、知识产权积累以及上下游集中度等多个维度,对企业的核心竞争力进行量化刻画。其中,核心技术及其先进性、在研项目情况和知识产权列表有助于识别企业的技术壁垒与成长潜力,前五名客户和前五名供应商则能够反映企业收入结构、客户依赖度、采购集中度及供应链稳定性,可帮助我们量化识别企业的供应链风险。表4:管理层分析与讨论数据提取科目报表区间数据列数据类别数据含义在研项目情况管理层分析与讨论预计总投资规模研发类完成该研发项目全生命周期计划所需的资金预算总额本期投入金额研发类报告期内实际发生在研发项目上的资金及资源投入累计投入金额研发类项目从启动至今历年累计发生的研发资金投入总额技术水平研发类项目成果在行业内所处的领先程度知识产权列表管理层分析与讨论发明专利研发类对产品、方法或其改进提出的具有高创新性的新技术方案实用新型专利研发类对产品的形状、构造提出的适于实用的新的技术方案软件著作权研发类开发者对计算机软件代码及文档依法享有的专有权利外观设计专利研发类对产品的外观、形状、图案等作出的新设计核心技术及其先进性管理层讨论与分析技术领域研发类所从事核心技术对应的行业或细分技术方向技术名称研发类自主研发或掌握的核心技术或关键技术名称技术特点和先进性说明研发类对核心技术在性能指标、实现方式、技术路径或应用效果等方面的描述公司前五名供应商管理层讨论与分析供应商名称供应链类报告期内向公司提供原材料、设备或服务金额排名前五的供应商名称采购额供应链类在报告期内向对应供应商采购商品或服务的金额占年度采购总额比例%供应链类报告期内采购额占公司当期采购总额的比例是否与上市公司存在关联关系供应链类(公司前五名客户管理层讨论与分析客户名称供应链类报告期内为公司贡献销售收入排名前五的客户名称销售额供应链类报告期内向该客户销售商品或提供服务所实现的收入金额占年度销售总额比例供应链类该客户销售额占公司当期营业收入的比例,用于衡量客户集中度是否与上市公司存在关联关系供应链类)(五)管理层的分析与讨论文本提取及分析管理层讨论与分析中还包含大量以txt文本形式提取的文字类项目,主要包括新技术新产业发展趋势、经营情况讨论与分析、核心竞争力分析以及风险因素等内容。相较于表格类数据,这部分信息更偏向企业对外部行业环境、内部经营变化、竞争优势来源及潜在不确定性的综合阐述,具有较强的语义密度和前瞻属性。通过对相关文本进行结构化整理与语义归纳,可以进一步提炼企业所处赛道景气度、战略发展方向、主营业务变化、竞争壁垒来源以及主要经营风险暴露等关键内容,从而补充传统财务指标难以覆盖的定性信息。对于基本面研究而言,这类文字信息不仅能够增强对企业经营逻辑的理解深度,也有助于从行业趋势、竞争格局和风险预期等维度挖掘具有解释力的增量因子。表5:其他文字数据提取科目报表区间数据类别数据含义新技术新产业发展趋势管理层讨论与分析研发类公司对所处行业及相关新技术、新产业发展方向的判断与分析经营情况讨论与分析管理层讨论与分析盈利/风险类公司对报告期内经营成果及财务表现的综合分析核心竞争力分析管理层讨论与分析研发类公司对自身核心竞争优势的总结与说明风险因素管理层讨论与分析风险类公司披露的可能对未来经营业绩产生不利影响的主要风险在完成管理层讨论与分析文本的原始抽取后,本报告进一步引入基于本地大语言模型的语义分析模块,对文字类项目进行标准化归纳,并以Excel形式展示不同模型的输出结果。相较于前述规则引擎主要解决年报PDF中目标文本的定位与切分问题,该模块的重点在于考察大语言模型在管理层文本归纳任务中的执行效果,并对不同模型的处理效率与输出表现进行横向比较。具体而言,程序读取前序环节输出的txt文本后,通过本地Ollama接口调用不同模型,分别对“经营情况讨论与分析”、“报告期内获得的研发成果”等文本开展字段约束下的语义归纳,最终将结果统一写入Excel文件中。从分析方式看,系统为不同任务预设了明确的输出模式。其中,对于“经营情况讨论与分析”/产品类别”“具体成果”“性能指标”“应用前景”“进展状态”等字段。通过设定统一的schema,并要求模型仅返回JSON数组,系统能够在相同输入口径下对不同模型的输出结果进行对照,从而提升多模型测试过程的一致性与可比性。考虑到大语言模型在长文本输出场景下可能出现markdown包裹、引号异常、尾随逗号、括号缺失以及结果截断等问题,程序在解析层加入了相应的清洗与修复机制。具体包括对代码块标记、表6:LLM
控制字符和异常符号的统一清理,以及括号补全、尾逗号修正和对象级恢复等处理;若检测到模型输出疑似因长度限制而中断,系统还会自动触发一次续写请求,以尽量补齐未完成内容。上述设计主要服务于多模型比较过程中的结果稳定输出,避免由于格式问题影响不同模型之间的横向评估。在模型比较方面,本文构建了统一的测试流程,对不同本地模型在管理层文本归纳任务中的表现进行横向评估。评估内容主要包括经营文本与研发文本两个子任务的成功标记、输出记录条数、单模块耗时、总耗时以及最终Excel输出情况等。通过这一流程,可以较为直观地比较不同模型在响应速度、输出完整性与格式稳定性方面的差异,为后续模型选型和实验展示提供依据。整体而言,轻量模型通常在推理时延上更具优势,而能力较强的模型在复杂文本归纳和字段完整性方面往往表现更为稳定;因此,模型优劣的判断并不应仅基于耗时指标,而应结合输出结果的完整程度与稳定性进行综合考量。模型经营情况分析状态经营情况分析条数经营情况分析耗时研发情况分析状态研发情况分析条数研发情况分析耗时总耗时deepseek-r1:1.5b成功412.61成功1433.3545.969deepseek-r1:7b成功549.242成功1167.3116.566gea3成功526.608成功43100.229126.894qwen2.5:7b成功531.889成功47194.482226.434glb成功433.994成功47223.621257.637资 院从多模型对比结果来看,gemma3:4b在输出完整性与推理效率之间取得了较优平衡。一方面,该模型在经营情况与研发情况文本中均能给出较为充分的归纳结果;另一方面,其总耗时控制在相对较低水平,明显优于输出规模接近但耗时更高的qwen2.5:7b和glm4:9b。综合考虑分析完整度与运行成本,后续文本分析统一采用gemma3:4b作为默认模型。(六)报告处理累计耗时分析为进一步评估整套财报附注提取流程在大规模样本下的可行性,本文对科创板2025年半年报样本进行了批量处理耗时统计。整体流程采用多进程并行处理方式,通过在操作系统层面启动多个Python子进程,同时分发不同PDF报告的解析任务,从而提升批量年报处理效率。相较于串行逐份处理,多进程模型能够更充分利用多核CPU资源,在高并发下载、页面解析、表格提取与文本清洗等环节实现更高的整体吞吐能力。从累计耗时曲线来看,随着已完成报告数量持续增加,累计处理时间整体呈近似线性上升,说明在批量运行过程中,程序处理节奏总体较为平稳,未出现明显的性能退化或大规模阻塞现象。结合图中结果可以看出,在多进程并行处理模式下,完成全部587份半年报样本的提取累计耗时约为17分钟,表明该方法在面对大规模财报样本时仍具备较高的处理效率和较好的扩展能力。图30:代码累计处理耗时资 院四、财报附注数据应用示例为进一步展示财报附注数据的实际应用价值,后文中,我们将从企业财报画像与基本面因子构建两个角度,具体展示财报附注数据可行的应用场景。从静态历史的角度,我们完成了金融财报画像生成Skill的封装,可实现年报自动下载与数据提取,最终输出包含多张图表与语义摘要的综合画像;从动态前瞻的角度,我们实现了财报附注基本面因子的初步构建,从结果来看,多数财报附注因子可以达到较高的数据覆盖度,其中部分因子具有较优的因子有效性表现,且财报附注因子整体相关度较低,表明财报附注数据可在合并报表之外,有效提供微观层面的增量信息。(一)金融财报画像生成Skill我们将前文中下载年报PDF、解析并提取财报附注数据、LLM文本分析等内容汇总并封装为Skill,命名为FNPortraitoolkit。该工具可对某一指定上市公司,从巨潮资讯自动下载年报/半年报PDF并进行财报附注数据提取,最终输出关键财务指标的图表及财务趋势分析等内容,以长图形式直观展示该公司的财务变化趋势、技术发展水平与经营战略等核心信息。系统概述FNPortraitToolkit是一个用于中国A股上市公司财务报告分析的自动化工具。系统能够从PDF年报中提取结构化财务数据,通过LLM进行智能分析,最终生成包含趋势分析和可视化图表的综合Portrait报告。其核心功能包括:PDF自动下载:从巨潮资讯网自动下载上市公司年报PDF结构化数据提取:PDF中提取16项关键财务指标LLM智能分析:5维度趋势分析(/费用/资产/研发/供应链)Portrait可视化:生成包含趋势头部、16张子图、语义摘要的综合图表流程架构FNPortraitToolkit系统采用四步流水线架构,各步骤解耦,支持断点续跑。具体流程如下图所示。图31:FNPortraitToolkit流程架构使用指南使用FNPortraitToolkit有两种方式,一是通过OpenClawSkill安装,二是运行源码,两种方式具体配置如下:OpeThClawSkill安装图32:FNPortraitToolkit使用方法一:OpenClawSkill安装源码运行图33:FNPortraitToolkit使用方法二:源码运行在指定上市公司与统计时间区间时,需设置以下参数,详情如下表所示。表7:FNPortraitToolkit参数说明参数说明示例stock_code6位股票代码688777stock_name公司中文名中控技术--years年份范围2023-2025--plate板块科创板/创业板/沪主板/深主板最终输出的结果包含结构化的Excel数据与长图形式的综合财务画像,输出文件名称如下:结构化Excel数据:output2/<代码>_<名称>/多个Excel文件综合财务画像:portraits/Portrait_<代码>_<名称>.png综合财务画像输出结果的示例如下图所示。图34:FNPortraitToolkit综合财务画像示:中控技术资 院(二)财报附注基本面因子构建示例财报附注数据同样在量化策略中可得到有效应用,我们能够获取尚未充分定价的差异化因子,从财报附注因子中挖掘Alpha增量,这也是我们进行财报附属数据系列研究的初衷。目前我们已初步构建了一些计算较为简单的财报附注因子,下文中我们将展示部分示例,以验证财报附注因子在量化投资中的效果。在未来的系列报告中,我们将进一步在因子构建、因子预处理、有效性测试与回测等方面对财报附注因子进行深入的挖掘与改进。在报告《主题选股策略系列:成长为矛基本面为盾,量化掘金科技股投资》中,我们曾详细拆解了研发费用财报附注的构成,并构建了研发费用折旧摊销占比、研发费用直接投入占比等因子,这是我们银河金工团队研究财报附注数据的开端。而在本报告中,我们进一步提取了在研项目、知识产权列表等数据,基于这些数据,我们构建了研发类财报附注因子,具体计算方法如下表所示。表8:研发类财报附注因子列表指标名称数据来源计算公式指标释义平均单项研发成本研发费用;在研项目情况研发费用合计/在研项目数力度越大。折旧摊销占研发费用比研发费用折旧摊销/研发费用合计设备折旧摊销,在材料、人力等方面直接投入不足。人员薪酬占研发费用比研发费用工资费用/研发费用合计材料投入占研发费用比研发费用材料费用/研发费用合计属于制造型,研发过程中消耗物料较多,更可能属于第二产业。在研项目平均投入金额在研项目情况本期投入金额合计/在研项目数分散式研发。在研项目技术水平得分在研项目情况(国内领先*1*2/项目总数垒和竞争优势。研发预算执行率在研项目情况(本期投入金额+累计投入金额)/预计总投资100100本失控,预算管理存在较大风险。本年新增申请知识产权占研发费用比知识产权列表;研发费用本年新增申请知识产权总数/研发费用合计本年新增获得知识产权占研发费用比知识产权列表;研发费用本年新增获得知识产权总数/研发费用合计识产权更具实际价值。发明专利占比知识产权列表发明专利数量/专利合计由于在研项目、知识产权列表等数据仅在科创板范围内披露较为全面,下文所有示例及有效性测试结果等数据均仅在科创板范围内计算。在科创板范围内,我们首先计算因子完整度。由下图可见,在未经任何填充空值等预处理的前提下,对于2025年半年报,除在研项目技术水平因子外,其他所有因子数据完整度均高于80%,其中半数以上因子数据完整度高于90%;从2019年报至2025半年报的均值来看,也有半数以上因子平均数据完整度在90%以上,表明研发类财报附注因子总体数据较为完整,可在科创板范围内进行后续的预处理与有效性测试。图35:研发类财报附注因子数据完整度2025半年报 平均值00%00%00%.%资 院在完成了填充空值、去极值、标准化、中性化等因子预处理后,我们首先计算了因子相关性结果,由下图可见,除了平均单项研发成本和在研项目平均投入金额等本身计算公式之间存在较高相似度的因子外,绝大多数因子两两之间相关系数都在±0.2之内,相关性较弱,也从侧面说明财报附注因子可有效提供增量信息。图36:研发类财报附注因子相关性资 院更进一步,我们将半年频的财报附注因子转化为月频,并采用RankIC法测试了因子有效性。从结果来看,在研项目技术水平的ICIR最高,发明专利占比的ICIR次之,表明企业的技术水平确实与未来股价收益率存在较为显著的正相关;此外,本年新增申请知识产权占研发费用比的ICIR为负,表明该因子的倒数,即研发费用/本年新增申请知识产权的ICIR为正,这说明平均单个知识产权付出的研发费用越多,表明企业的研发投入力度越大,这也与公司未来股价收益率之间存在正相关关系。表9:研发类财报附注因子RankIC测试结果汇总指标名称最近1月IC最近1年IC均值最近1年ICIRIC均值ICIRIC大于0的比例IC大于0.03的比例IC绝对值大于0.03的比例平均单项研发成本0.0215-0.0238-0.46410.00230.027848.53%39.71%80.88%折旧摊销占研发费用比-0.0492-0.0115-0.250.00520.091960.29%32.35%54.41%人员薪酬占研发费用比-0.0446-0.0149-0.26690.00070.010755.88%33.82%67.65%材料投入占研发费用比0.02920.0270.55910.00030.005152.94%29.41%58.82%在研项目平均投入金额-0.0286-0.0348-0.7857-0.0009-0.010945.59%33.82%75.00%在研项目技术水平0.1460.03540.52980.01730.266461.7
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年河南周口扶沟县招聘事业单位工作人员17人易考易错模拟试题(共500题)试卷后附参考答案
- 2026年河北邯郸馆陶县政府系统事业单位招聘工作人员26人易考易错模拟试题(共500题)试卷后附参考答案
- 2026年河北石家庄市事业单位招考易考易错模拟试题(共500题)试卷后附参考答案
- 2026年河北省唐山滦州市事业单位招聘383人笔试易考易错模拟试题(共500题)试卷后附参考答案
- 高中二年级班主任主题班会示范课《2026·时代新人的使命与担当:在新起点上整装出发》
- 劳动·小学五年级下册|对称剪纸“蝶恋花”蝴蝶技法教学设计(教案)
- “智”护绿水青山-初中信息科技“AI赋能环境保护”跨学科综合活动课例
- 高中地理·艺考百日冲刺讲义 第52讲:解码工业区位-成本、变化与未来
- 班会教案:为什么努力学习-时代召唤下的高中生自我赋能
- 小学六年级上册劳动教案:《纸板凳的设计与制作》
- 2026上海青浦发展(集团)有限公司自主招聘7人考试参考试题及答案解析
- 国开中国古代文化常识期末试题及答案2026年
- 小学生525心理健康知识竞赛题库+答题卡(完整版可打印)
- 外墙涂料工程施工合同
- 重庆南岸区2026年九年级质量监测英语试卷试题(含答案详解)
- 公益性业务分类核算制度
- 2026年北京市西城区中考语文一模试卷(含详细答案解析)
- 2026内蒙古阿拉善盟事业单位招聘工作人员暨“智汇驼乡·鸿雁归巢”143人考试备考试题及答案解析
- 2026届河南省郑州市外国语中学中考数学适应性模拟试题含解析
- 慢性肾病诊疗指南(2026年版)基层规范化诊疗
- 景德镇景德镇市公安机关2025年招聘65名警务辅助人员笔试历年参考题库附带答案详解
评论
0/150
提交评论