中国股市分形特征剖析与基于遗传算法优化小波神经网络的股指预测研究

上传人：露*** IP属地：上海上传时间：2025-08-29 格式：DOCX 页数：25 大小：47.64KB 积分：15 举报 版权申诉

已阅读5页，还剩20页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

中国股市分形特征剖析与基于遗传算法优化小波神经网络的股指预测研究一、引言1.1研究背景与意义近年来，中国股市在经济发展中的地位愈发重要，规模持续扩张，上市公司数量稳步增长，投资者参与度不断提高，已成为全球资本市场不可或缺的一部分。股市作为经济的“晴雨表”，不仅反映了宏观经济的运行态势，也为企业提供了融资渠道，为投资者创造了财富增值的机会。然而，中国股市具有高度复杂性和不确定性，其波动受到众多因素的综合影响。宏观层面，经济增长趋势、货币政策调整、财政政策导向以及国际经济形势的变化，都会对股市产生显著影响。例如，当经济处于快速增长阶段，企业盈利预期提高，股市往往呈现上升趋势；而货币政策的宽松或紧缩，会直接影响市场的资金流动性，进而影响股票价格。微观层面，公司的经营业绩、财务状况、管理层决策以及行业竞争态势等因素，也会左右个股的表现。此外，投资者的情绪、市场的热点话题以及突发事件的冲击，都会增加股市波动的复杂性和不可预测性。在这样的背景下，对中国股市进行分形研究具有重要的理论和实践意义。传统金融理论中的有效市场假说（EMH）认为，股票价格已经充分反映了所有可得信息，价格变化遵循随机游走，收益率服从正态分布。但大量实证研究表明，股市并非完全符合有效市场假说的假设。分形市场理论则为我们理解股市提供了新的视角，它认为市场具有自相似性、长记忆性和分形结构，价格变化并非完全随机，而是存在一定的规律和趋势。通过分形研究，可以深入揭示中国股市的内在结构和运行规律，发现市场中隐藏的分形特征和长期记忆性，从而为投资者提供更准确的市场分析和决策依据。准确的股指预测一直是金融领域的研究热点和难点，对市场参与者和监管者都具有至关重要的意义。对于投资者而言，精准的股指预测有助于制定科学合理的投资策略，降低投资风险，提高投资收益。在股市上涨趋势中，投资者可以增加股票投资比例，获取更多的收益；而在下跌趋势来临前，及时调整投资组合，减少损失。对于金融机构来说，准确的股指预测可以帮助其优化资产配置，提高风险管理能力，增强市场竞争力。监管者则可以依据股指预测结果，及时调整监管政策，防范金融风险，维护市场的稳定和健康发展。例如，当预测到股市可能出现大幅波动时，监管部门可以提前采取措施，加强市场监管，防止过度投机和市场操纵行为，保障市场的公平、公正和透明。1.2国内外研究现状在分形理论应用于股市研究方面，国外起步较早。Mandelbrot在20世纪60年代首次提出分形概念，为研究复杂不规则的自然和社会现象提供了全新视角，这一理论逐渐被引入金融市场领域。Peters进一步发展了分形市场假说（FMH），指出金融市场中的价格波动并非遵循有效市场假说中的随机游走和正态分布，而是呈现出有偏随机游走、分形分布和长记忆性等特征，市场具有自相似结构，不同时间尺度下的价格波动具有相似性。此后，众多学者运用R/S分析、DFA分析等方法对各国股市进行实证研究，验证了分形市场假说的合理性。例如，通过R/S分析计算Hurst指数，若Hurst指数大于0.5，则表明市场存在长记忆性和趋势持续性；若Hurst指数等于0.5，则符合随机游走假设；若Hurst指数小于0.5，则市场具有反持续性。国内学者也对中国股市的分形特征展开了大量研究。朱品品、严定琪、沈红梅运用R/S分析方法，对中国股票市场进行研究，实证结果表明中国股票市场是有偏的随机游动过程，存在状态持续性和非周期性循环，并通过V统计计算出该循环的长度。还有学者通过对中国股市收益率序列进行分析，发现其不服从正态分布，而是呈现出尖峰厚尾的特征，进一步验证了中国股市的分形特性。此外，部分研究还探讨了不同板块、不同时间段股市分形特征的差异，以及宏观经济因素、政策因素对股市分形结构的影响。在股指预测方法上，国外学者不断探索创新。传统的预测方法包括时间序列分析、回归分析等。时间序列分析中的ARIMA模型通过对历史数据的建模，捕捉数据的趋势和季节性特征，从而对未来股指进行预测；回归分析则是通过建立股指与宏观经济变量、公司财务指标等之间的线性关系，来预测股指走势。然而，随着人工智能技术的发展，神经网络、支持向量机等机器学习方法逐渐应用于股指预测领域。神经网络具有强大的非线性映射能力，能够自动学习数据中的复杂模式和规律，其中BP神经网络在股指预测中应用较为广泛，通过调整网络的权重和阈值，使网络输出与实际股指数据尽可能接近。支持向量机则是基于结构风险最小化原则，在小样本、非线性问题上具有较好的预测性能，通过寻找一个最优分类超平面，将不同类别的数据分开，从而实现对股指走势的预测。国内在股指预测方面也取得了丰富的研究成果。一些学者结合中国股市的特点，对传统预测方法进行改进和优化。例如，在时间序列分析中引入干预分析，考虑政策调整、突发事件等因素对股指的影响，提高预测的准确性。在机器学习方法应用方面，国内学者也进行了大量的实证研究，比较不同模型在中国股市预测中的表现，并尝试将多种模型进行融合，发挥各自的优势，提升预测效果。例如，将神经网络与遗传算法相结合，利用遗传算法的全局搜索能力优化神经网络的初始权重和阈值，避免神经网络陷入局部最优解，从而提高预测精度。在遗传算法和小波神经网络应用于股指预测方面，国外学者将遗传算法用于优化小波神经网络的结构和参数。通过遗传算法对小波神经网络的权值、小波基函数的伸缩和平移参数等进行搜索和优化，使小波神经网络能够更好地拟合股指数据，提高预测性能。同时，他们还研究了不同遗传操作算子（如选择、交叉、变异）对优化效果的影响，以及如何确定合适的遗传算法参数（如种群规模、交叉概率、变异概率等），以达到最佳的优化效果。国内学者在这方面也做了深入研究。一方面，在算法改进上，提出自适应遗传算法，根据进化过程中种群的适应度分布情况，动态调整遗传操作的参数，提高算法的搜索效率和收敛速度；另一方面，在应用拓展上，将遗传算法优化的小波神经网络应用于不同市场条件下的股指预测，分析模型在市场波动剧烈、平稳等不同阶段的预测能力，以及对不同行业指数的预测效果。尽管国内外在股市分形研究和股指预测方面取得了诸多成果，但仍存在一些不足。在分形研究中，对于分形特征的形成机制和影响因素尚未完全明确，不同分形分析方法的适用性和局限性还需进一步探讨。在股指预测方面，现有的预测模型大多基于历史数据进行训练，对突发事件、政策变化等外部因素的适应性较差，难以准确预测市场的突变情况。此外，各种预测模型的性能评价指标尚不完善，缺乏统一的标准来比较不同模型的优劣。1.3研究方法与创新点本研究综合运用多种方法，从不同角度深入探究中国股市的特性与股指预测问题，具体研究方法如下：R/S分析方法：该方法由Hurst提出，用于研究时间序列的统计特性，后被引入分形分析，是一种有效的分析工具，可分析任何时间序列的分形性质。在本研究中，通过R/S分析计算中国股市收益率序列的Hurst指数，以此判断市场是否存在分形特征、长记忆性及趋势持续性。若Hurst指数大于0.5，表明市场存在状态持续性，过去的价格波动对未来有正向影响，即市场具有长期记忆性，价格变化呈现一定的趋势；若Hurst指数等于0.5，说明市场符合随机游走假设，价格变化完全随机，不存在记忆性和趋势性；若Hurst指数小于0.5，则市场具有反持续性，过去的价格波动对未来有反向影响。遗传算法：遗传算法是借鉴生物界优胜劣汰的进化规律演化而来的一种并行随机搜索算法。在股指预测中，将小波神经网络的参数（如权值、小波基函数的伸缩和平移参数等）进行编码，形成初始种群。通过选择算子，依据个体的适应度值从种群中挑选优良个体，使其有更多机会遗传到下一代；利用交叉算子，以一定概率对选择后的个体进行基因重组，产生新的个体，增加种群的多样性；借助变异算子，按一定概率随机改变个体的某些基因，避免算法陷入局部最优解。通过不断迭代这些遗传操作，使种群逐渐向更优的方向进化，最终得到小波神经网络的最优参数。小波神经网络模型：小波神经网络是小波分析与神经网络相结合的产物，具有强大的非线性逼近能力和对复杂数据的处理能力。本研究采用融合型小波神经网络，其结构中用小波元替代神经元，用小波函数的伸缩、平移参数替代输入层到隐含层的权值及隐含层阈值。在股指预测过程中，将历史股指数据作为输入，通过网络的学习和训练，不断调整网络参数，使网络输出尽可能逼近实际股指数据，从而实现对未来股指的预测。本研究的创新点主要体现在以下几个方面：多方法融合的创新视角：将分形理论中的R/S分析与遗传算法优化的小波神经网络相结合，从市场分形特征分析和精准预测模型构建两个层面，深入研究中国股市。这种多方法融合的研究视角，既能挖掘股市的内在分形结构和运行规律，又能利用先进的智能算法提升股指预测的精度，弥补了以往单一方法研究的局限性。动态适应市场变化的预测模型：传统的股指预测模型对市场动态变化的适应性较差，难以应对突发事件和政策调整等因素对股市的影响。本研究构建的遗传算法优化的小波神经网络模型，具有较强的自适应性和学习能力，能够根据市场数据的实时变化，动态调整模型参数，及时捕捉市场的变化趋势，提高预测的准确性和可靠性。深入剖析分形特征与预测的关联：不仅研究中国股市的分形特征，还进一步探讨分形特征与股指预测之间的内在联系。通过分析分形特征对股指波动规律和趋势的影响，为预测模型的构建提供更坚实的理论基础，使预测结果更具解释性和可理解性。二、中国股市分形理论基础与研究方法2.1分形理论概述分形理论是一门研究复杂不规则几何形态和现象的数学理论，其核心概念是分形。分形通常被定义为“一个粗糙或零碎的几何形状，可以分成数个部分，且每一部分都（至少近似地）是整体缩小后的形状”，即具有自相似的性质。这种自相似性可以是严格的数学自相似，如科赫曲线、谢尔宾斯基三角形等典型分形图形，在不同尺度下其形状和结构完全相同；也可以是统计自相似，在自然界和社会科学中的许多分形现象多属于此类，虽不是完全相同，但在统计意义上呈现出相似的特征和规律。分形理论的发展历程曲折且富有开创性。其思想渊源可追溯到19世纪，德国数学家维尔斯特拉斯在1875年构造了处处连续但处处不可微的函数，集合论创始人康托同年构造了具有奇异性质的三分康托集，这些早期的研究为分形理论的诞生埋下了种子。此后，意大利数学家皮亚诺于1890年构造出填充空间的曲线，瑞典数学家科赫1904年设计出类似雪花和岛屿边缘的曲线，波兰数学家谢尔宾斯基1915年设计出如地毯和海绵般的几何图形，他们的工作进一步丰富了分形的概念和实例。1910年，德国数学家豪斯道夫开始研究奇异集合性质与量，提出分数维概念，为分形理论的定量分析奠定了基础。然而，在之后的一段时间里，分形相关的研究并未受到广泛关注，先驱们的成果仅作为分析与拓扑学教科书中的反例流传。直到20世纪60年代，美籍法国数学家曼德尔布罗特的一系列研究才使分形理论迎来了重大突破。1960年，他在研究棉价变化的长期性态时，发现了价格在大小尺度间的对称性；在研究信号传输误差时，发现误差传输与无误差传输在时间上按康托集排列；在对尼罗河水位和英国海岸线的数学分析中，也发现了类似规律。1973年，曼德尔布罗特在法兰西学院讲课时，首次提出了分维和分形的设想，并于1975年用法文出版了分形几何第一部著作《分形：形状、机遇和维数》，1977年该书再次用英文出版，标志着分形理论的正式创立。此后，分形理论迅速发展，维数计算方法不断改进，应用领域不断拓展，逐渐成为一门独立且影响力广泛的学科。分形理论具有几个显著的特点。自相似性是其最核心的特点，这使得分形在不同尺度下呈现出相似的结构和形态，从宏观到微观都具有一致性。分形的结构往往是极其复杂和不规则的，无法用传统的欧几里得几何来准确描述，如蜿蜒曲折的海岸线、起伏连绵的山脉等。分形还具有标度无关性，即在不同的观测尺度下，分形对象的分形性质保持不变，这为研究不同尺度下的复杂现象提供了统一的框架。此外，分形的维数通常为非整数，分形维数能够更准确地描述分形对象的复杂程度和空间填充能力，突破了传统整数维数的限制。金融市场作为一个复杂的系统，其价格波动、交易行为等现象具有高度的复杂性和不规则性，与分形理论所研究的对象特征相契合，因此分形理论在金融市场研究中具有很强的适用性。传统金融理论中的有效市场假说认为市场是完全有效的，价格遵循随机游走，收益率服从正态分布。但大量的实证研究表明，金融市场存在许多有效市场假说无法解释的“异象”，如收益率的尖峰厚尾特征、波动的集群性等。分形市场假说则为解释这些现象提供了新的视角，它认为金融市场是一个复杂的、交互作用的、适应性的系统，市场中的投资者是有限理性的，价格波动并非完全随机，而是具有分形结构和长记忆性。通过分形理论的分析方法，如R/S分析、DFA分析等，可以深入挖掘金融市场数据中的分形特征，揭示市场的内在规律和长期记忆性，为金融市场的研究和投资决策提供更有力的支持。2.2分形市场假说与有效市场假说对比有效市场假说（EMH）作为传统金融理论的重要基石，在金融市场研究中曾占据主导地位。该假说认为，在一个有效的市场中，股票价格能够迅速、准确地反映所有可得信息，投资者无法通过分析已有的信息来获取超额收益。其核心假设包括投资者的理性行为、信息的完全对称以及市场的无摩擦性。在有效市场中，价格的波动被认为是随机的，收益率服从正态分布，市场参与者对新信息的反应是即时且一致的，市场始终处于均衡状态。例如，当公司发布新的财务报告时，股票价格会立即根据报告中的信息进行调整，投资者无法利用该信息在价格调整后获得额外的利润。然而，随着金融市场的发展和研究的深入，人们发现市场中存在许多有效市场假说无法解释的现象，如股票价格的过度波动、长期记忆性、收益率的尖峰厚尾分布等。这些“异象”表明市场并非完全符合有效市场假说的假设，市场中存在着复杂的非线性关系和投资者的非理性行为。例如，在某些市场恐慌时期，股票价格的下跌幅度远远超过了基本面的变化所能解释的范围，投资者的恐慌情绪导致了过度的抛售行为，使得价格偏离了其合理价值。分形市场假说（FMH）正是在这样的背景下应运而生，它为解释金融市场的复杂现象提供了新的视角。分形市场假说认为，金融市场是一个复杂的、交互作用的、适应性的系统，市场中的投资者是有限理性的，他们的投资决策受到多种因素的影响，包括自身的经验、知识、情绪以及市场的流动性等。市场中的价格波动并非完全随机，而是具有分形结构和长记忆性，不同时间尺度下的价格波动具有相似性。例如，在股票市场中，短期的价格波动模式可能在长期的时间尺度上也会以某种相似的形式出现，这种自相似性体现了市场的分形特征。与有效市场假说相比，分形市场假说在解释股市复杂现象方面具有显著的优势。分形市场假说考虑了投资者的有限理性，认为投资者并非完全理性地对信息做出反应，而是会根据自身的情况和市场环境进行选择性的信息处理。在市场中，不同的投资者对同一信息可能会有不同的理解和反应，这导致了市场价格的形成过程更加复杂。而有效市场假说假设投资者完全理性，忽视了投资者的个体差异和非理性行为对市场的影响。分形市场假说强调市场波动的内生性，认为市场波动是由市场内部的各种因素相互作用产生的，而不是像有效市场假说所认为的那样仅仅是对外部信息的被动反应。市场中的投资者行为、交易策略以及市场的结构等因素都会影响市场的波动。例如，当市场中存在大量的趋势跟随者时，他们的交易行为可能会加剧市场的波动，形成价格的趋势性变化。有效市场假说则将市场波动简单地归因于外部信息的冲击，无法解释市场波动的持续性和集群性等现象。分形市场假说还能够解释市场中的长期记忆性现象，即过去的价格波动对未来的价格走势具有一定的影响。通过R/S分析等方法计算得到的Hurst指数大于0.5时，表明市场存在长记忆性，价格变化具有一定的趋势持续性。这意味着投资者可以通过分析历史价格数据来预测未来的价格走势，而有效市场假说认为价格变化是完全随机的，历史数据对未来没有预测价值。在实际的股市中，我们可以观察到某些股票价格在一段时间内呈现出明显的上升或下降趋势，这种趋势的持续性与分形市场假说中的长记忆性特征相符。2.3中国股市分形特征研究方法——R/S分析R/S分析方法（RescaledRangeAnalysis），即重标极差分析，由英国水文学家Hurst在研究尼罗河水库蓄水量时提出，后被广泛应用于分析时间序列的分形特征和长期记忆性，在金融市场领域，常用于判断股市是否存在分形结构以及价格波动的趋势持续性。其原理基于对时间序列的重标极差（R/S）与时间标度之间关系的研究，通过计算Hurst指数来揭示时间序列的统计特性。该方法的计算步骤较为复杂。假设我们有一个长度为N的时间序列X_t，t=1,2,\cdots,N，首先对其进行标准化处理，得到均值序列M_n，M_n=\frac{1}{n}\sum_{t=1}^{n}X_t，其中n为子序列长度，且1\leqn\leqN。接着计算累计离差序列X_{t,n}，X_{t,n}=\sum_{i=1}^{t}(X_i-M_n)，t=1,2,\cdots,n。在此基础上，计算极差R_n，R_n=\max(X_{t,n})-\min(X_{t,n})，以及标准差S_n，S_n=\sqrt{\frac{1}{n}\sum_{t=1}^{n}(X_t-M_n)^2}。然后得到重标极差(R/S)_n，(R/S)_n=\frac{R_n}{S_n}。Hurst通过大量研究发现，对于具有长期记忆性的时间序列，重标极差(R/S)_n与时间标度n之间存在幂律关系，即(R/S)_n=K\timesn^H，其中K为常数，H即为Hurst指数。对该式两边取对数，得到\log(R/S)_n=H\logn+\logK。通过对不同时间标度n下的\log(R/S)_n和\logn进行最小二乘法回归，就可以估计出Hurst指数的值。Hurst指数是判断股市分形特征的关键指标。当H=0.5时，表明股市价格变化符合随机游走假设，收益率呈正态分布，市场是有效的，即过去的价格波动对未来没有影响，现在的价格已经充分反映了所有可得信息。当0.5\ltH\lt1时，市场存在状态持续性，时间序列是一个持久性的或趋势增强的序列，收益率遵循有偏随机过程。这意味着如果股市前一期价格上涨，下一期价格多半也会上涨，市场具有长期记忆性，过去的价格波动对未来有正向影响，存在一定的趋势性。当0\ltH\lt0.5时，时间序列是反持久性的或逆状态持续性的，若股市前一个期间价格上涨，那么下一期多半会下跌，市场具有反持续性。在实际应用R/S分析方法研究中国股市分形特征时，通常选取沪深两市的股票价格指数作为研究对象，如上证指数、深证成指等。以某一时间段内的每日收盘价数据为基础，按照上述计算步骤计算Hurst指数。例如，选取2010年1月1日至2020年12月31日期间上证指数的每日收盘价，经过数据处理和计算，得到不同时间标度下的重标极差(R/S)_n，进而通过回归分析得到Hurst指数。若计算得到的Hurst指数大于0.5，如为0.6，则表明在该时间段内中国股市存在分形特征和长记忆性，价格波动具有一定的趋势持续性，投资者可以利用历史价格信息对未来价格走势进行一定程度的预测。三、中国股市分形特征的实证分析3.1数据选取与预处理为全面、准确地揭示中国股市的分形特征，本研究选取具有代表性的上证指数和深证成指作为研究对象。上证指数由上海证券交易所编制，涵盖了上海证券市场的各类股票，能综合反映上海证券市场的整体表现，是中国资本市场的重要风向标。深证成指则是深圳证券交易所的主要股指，包含了深市具有代表性的上市公司，对深圳证券市场的运行态势具有重要的指示作用。数据时间跨度设定为2010年1月1日至2023年12月31日，该时间段涵盖了中国股市的多个发展阶段，经历了市场的繁荣与低迷，政策的调整与变革，以及国内外经济形势的复杂变化，能够充分体现中国股市在不同市场环境下的特征。数据频率为日度数据，每日的交易数据包含了开盘价、收盘价、最高价、最低价和成交量等信息，这些数据能够反映股票在一天内的价格波动和市场交易活跃程度，为后续的分形特征分析提供了丰富的信息基础。原始数据的获取渠道主要来源于权威金融数据平台，如Wind数据库、东方财富Choice数据等，这些平台的数据具有准确性、完整性和及时性的特点，能够确保研究数据的质量。然而，从这些平台获取的原始数据可能存在各种问题，需要进行数据清洗和预处理，以提高数据质量，确保分析结果的准确性。数据清洗主要针对数据中的缺失值、异常值和重复值进行处理。在数据收集过程中，由于各种原因，可能会出现某些交易日的数据缺失情况。对于缺失值，若缺失比例较小，如某只股票在个别交易日的收盘价缺失，采用插值法进行补充，根据该股票前后交易日的价格数据，通过线性插值或样条插值等方法，估算出缺失值。若缺失比例较大，超过一定阈值，如某只股票在连续多个交易日的数据缺失，考虑删除该部分数据，以避免对整体分析结果产生较大影响。异常值是指与其他数据点差异较大的数据，可能是由于数据录入错误、交易异常等原因导致的。通过绘制数据的箱线图，直观地识别出异常值。对于价格异常高或低的数据点，以及成交量异常大或小的数据点，进行仔细检查和分析。若是数据录入错误，如小数点错位等，进行修正；若是由于特殊事件导致的交易异常，如股票停牌后复牌的大幅价格波动，结合具体情况进行处理，如剔除该异常数据或对其进行特殊标记。重复值会增加数据处理的负担，降低分析效率，因此需要对其进行识别和删除。利用数据分析工具，如Python中的pandas库，通过判断数据的行索引或关键列（如日期、股票代码等）是否重复，找出重复的数据行，并将其删除，确保数据的唯一性。在数据清洗完成后，进行数据预处理，以满足后续分析的要求。首先，对数据进行标准化处理，将不同量级的数据转化为具有相同量级的数据，消除量纲的影响。对于股票价格数据，采用Z-score标准化方法，将数据转化为均值为0，标准差为1的标准正态分布。对于成交量数据，由于其具有较大的波动性，采用Min-Max标准化方法，将数据缩放到[0,1]区间。其次，计算收益率序列，收益率是衡量股票投资收益的重要指标，通过计算每日收盘价的对数收益率，能够更准确地反映股票价格的变化情况。对数收益率的计算公式为r_t=\ln(P_t/P_{t-1})，其中r_t为第t日的对数收益率，P_t为第t日的收盘价，P_{t-1}为第t-1日的收盘价。最后，对数据进行平稳性检验，采用单位根检验方法，如ADF检验，判断数据是否平稳。若数据不平稳，进行差分处理，使其满足平稳性要求，为后续的分形特征分析提供可靠的数据基础。3.2R/S分析结果与分形特征判断对经过预处理的上证指数和深证成指日收益率序列进行R/S分析，运用Python编程语言中的相关库（如numpy、pandas、matplotlib等）编写代码实现计算过程。通过逐步改变时间标度n，计算不同时间标度下的重标极差(R/S)_n，并对\log(R/S)_n和\logn进行最小二乘法回归，从而得到Hurst指数的估计值。以上证指数为例，计算得到的Hurst指数为0.58（深证成指的Hurst指数计算过程与之类似，此处先以上证指数结果进行分析）。由于该Hurst指数大于0.5，这表明上证指数收益率序列具有长记忆性和趋势持续性，中国股市存在分形特征，并非完全符合有效市场假说中的随机游走假设。在过去的市场走势中，若股价呈现上升趋势，那么在未来一段时间内，股价延续上升趋势的可能性较大；反之，若过去股价下跌，未来股价继续下跌的概率也相对较高。这意味着市场中的价格波动并非是完全随机的，而是存在一定的内在关联和趋势，过去的价格变化对未来的价格走势具有一定的影响。进一步分析Hurst指数的大小与市场趋势持续性的关系，当Hurst指数越接近1时，说明市场的趋势持续性越强，过去价格波动对未来价格走势的影响越大。在实际的中国股市中，当市场处于某些特殊时期，如经济快速增长阶段或重大政策利好出台后，市场的乐观情绪高涨，投资者信心增强，此时市场的Hurst指数可能会更接近1，股价的上升趋势会更加明显且持续时间更长。相反，当Hurst指数虽然大于0.5但更接近0.5时，市场虽然存在趋势持续性，但这种持续性相对较弱，过去价格波动对未来的影响相对较小。在市场处于震荡调整阶段，各种因素相互交织，市场方向不明确，Hurst指数可能就会处于这种状态。与其他研究结果进行对比，早期的一些关于中国股市分形特征的研究，由于数据选取的时间跨度、频率以及分析方法的差异，得到的Hurst指数可能会有所不同。例如，某些研究选取的数据时间跨度较短，可能无法全面反映市场的长期特征，导致Hurst指数的估计值存在偏差。本研究通过选取较长时间跨度（2010年1月1日至2023年12月31日）的数据，并且采用严谨的数据预处理和R/S分析方法，得到的结果更能准确反映中国股市当前的分形特征。一些研究表明，随着中国股市的发展和完善，市场的有效性在逐渐提高，但仍然存在分形特征。本研究结果与这一观点相符，虽然Hurst指数大于0.5说明市场存在非随机性和长记忆性，但与早期研究相比，Hurst指数的值可能会有所变化，反映出市场在不断发展过程中，其分形特征也在发生动态变化。3.3分形特征的动态变化分析为了深入探究中国股市分形特征随时间的动态变化情况，将2010年1月1日至2023年12月31日这一时间跨度划分为多个子时间段，分别计算每个子时间段内上证指数和深证成指收益率序列的Hurst指数。具体划分方式为：以2010-2012年为第一个子时间段，2013-2015年为第二个子时间段，2016-2018年为第三个子时间段，2019-2021年为第四个子时间段，2022-2023年为第五个子时间段。这样划分的依据是考虑到中国股市在不同时期受到宏观经济环境、政策调整以及市场情绪等多种因素的综合影响，呈现出不同的运行态势。在2010-2012年期间，全球经济仍处于金融危机后的复苏阶段，中国经济也面临着结构调整和转型的压力。国内货币政策在保持稳健的同时，根据经济形势进行了适度的微调。在这一背景下，计算得到上证指数的Hurst指数为0.56，深证成指的Hurst指数为0.57。这表明在该时间段内，两个指数均存在分形特征和长记忆性，市场具有一定的趋势持续性。但Hurst指数相对不是很高，说明趋势持续性的强度一般，市场受到多种复杂因素的交织影响，波动较为频繁，价格走势的确定性相对较弱。2013-2015年，中国股市经历了一轮快速上涨和随后的大幅调整。前期，随着国内经济改革的推进和创新驱动发展战略的实施，市场对经济转型和新兴产业的发展充满期待，大量资金涌入股市，推动股价持续攀升。后期，由于市场过度投机、杠杆资金规模过大等问题，引发了股市的剧烈波动。在这一时期，上证指数的Hurst指数上升至0.62，深证成指的Hurst指数达到0.63。Hurst指数的升高反映出市场趋势持续性增强，在牛市阶段，价格的上涨趋势较为明显且具有一定的延续性；而在股灾期间，价格的下跌趋势也表现出较强的持续性。2016-2018年，股市监管加强，金融去杠杆持续推进，市场逐渐回归理性。在这一过程中，市场的波动性有所降低，但仍受到国内外经济形势变化的影响。计算结果显示，上证指数的Hurst指数为0.58，深证成指的Hurst指数为0.59。与前一阶段相比，Hurst指数略有下降，表明市场趋势持续性有所减弱，市场在监管政策和经济环境变化的双重作用下，波动更加平稳，价格走势的规律性相对减弱。2019-2021年，全球经济受到新冠疫情的严重冲击，但中国在疫情防控和经济复苏方面取得了显著成效。国内货币政策保持灵活适度，财政政策积极有为，为股市的稳定发展提供了有力支持。在此期间，上证指数的Hurst指数为0.60，深证成指的Hurst指数为0.61。Hurst指数再次上升，说明市场在这一时期又呈现出较强的趋势持续性，疫情背景下经济的快速复苏以及政策的支持，使得市场的投资情绪和趋势性更加明显。2022-2023年，国内外经济形势依然复杂多变，地缘政治冲突、通货膨胀等因素给股市带来了较大的不确定性。这一阶段，上证指数的Hurst指数为0.57，深证成指的Hurst指数为0.58。Hurst指数有所下降，反映出市场趋势持续性再次减弱，市场在各种不确定性因素的影响下，波动较为频繁且缺乏明显的趋势性。从上述不同时间段的分析可以看出，中国股市的分形特征并非一成不变，而是随着市场环境的变化而动态演变。宏观经济形势的变化对股市分形特征有着重要影响。当经济处于稳定增长阶段，企业盈利预期向好，投资者信心增强，市场的趋势持续性往往较强，Hurst指数较高；而当经济面临较大的不确定性或下行压力时，市场的波动性增大，趋势持续性减弱，Hurst指数相应降低。政策调整也是影响股市分形特征的关键因素。例如，宽松的货币政策和积极的财政政策通常会为市场注入流动性，刺激股市上涨，增强市场的趋势持续性；而严格的监管政策和金融去杠杆措施，则会促使市场回归理性，降低市场的波动性和趋势持续性。重大事件如新冠疫情、地缘政治冲突等，会引发市场情绪的剧烈波动，导致市场的不确定性增加，进而影响股市的分形特征。四、小波神经网络与遗传算法原理4.1小波神经网络原理与结构小波神经网络（WaveletNeuralNetwork，WNN）是将小波分析理论与神经网络技术相结合的一种新型神经网络模型，它融合了小波变换良好的时频局部化特性和神经网络强大的自学习、自适应能力，在函数逼近、模式识别、信号处理等领域展现出独特的优势。其基本原理基于小波变换的多分辨率分析思想，通过小波函数的伸缩和平移对输入信号进行多尺度分解，从而能够更有效地提取信号的局部特征，为神经网络的学习和预测提供更丰富的信息。小波神经网络的结构通常包括输入层、隐含层和输出层。输入层的主要作用是接收外界输入的原始数据信号，并将其传递给隐含层。输入层神经元的数量根据输入数据的特征维度来确定，例如在股指预测中，如果输入数据包含过去若干天的股指收盘价、成交量、开盘价等多个特征，那么输入层神经元的数量就等于这些特征的数量。隐含层是小波神经网络的核心部分，其中的神经元采用小波函数作为激活函数。与传统神经网络中常用的Sigmoid函数等激活函数不同，小波函数具有在时域和频域都能同时提供局部化信息的特性。常见的小波函数有Morlet小波、Haar小波、MexicanHat小波等。以Morlet小波函数\psi(x)=e^{-x^{2}/2}\cos(5x)为例，它在x=0附近具有较强的振荡特性，并且在x远离0时迅速衰减为0，这使得它能够对输入信号的局部特征进行有效的捕捉。隐含层神经元通过对输入信号进行小波变换，将信号分解为不同尺度和位置的小波系数，从而提取出信号在不同频率和时间尺度下的特征。隐含层神经元的数量通常需要根据具体问题进行调整和优化，它直接影响着网络的学习能力和泛化性能。如果隐含层神经元数量过少，网络可能无法充分学习到数据中的复杂模式和特征，导致预测精度较低；而如果隐含层神经元数量过多，网络可能会过度拟合训练数据，对新数据的适应性变差。输出层根据网络的学习目标，将隐含层输出的结果进行综合处理，最终输出预测值或分类结果。在股指预测任务中，输出层通常只有一个神经元，其输出即为预测的股指值。输出层神经元的激活函数根据问题的性质选择，对于回归问题，如股指预测，常用的激活函数为线性函数，以保证输出值为连续的实数；对于分类问题，则可能采用Softmax函数等，将输出转换为各个类别的概率分布。在小波神经网络中，输入层到隐含层的连接权值并非传统意义上的固定权重，而是通过小波函数的伸缩和平移参数来体现。设输入向量为X=(x_1,x_2,\cdots,x_n)，隐含层第j个神经元的输入为u_j=\sum_{i=1}^{n}w_{ij}x_i+b_j，这里的w_{ij}实际上是由小波函数的伸缩参数a_{ij}和平移参数b_{ij}决定的。隐含层第j个神经元的输出为h_j=\psi(u_j)，即通过小波函数对输入进行变换。输出层第k个神经元的输入为v_k=\sum_{j=1}^{m}w_{jk}'h_j+b_k'，其中w_{jk}'是隐含层到输出层的连接权值，b_k'是输出层第k个神经元的偏置，输出层第k个神经元的输出为y_k=f(v_k)，f为输出层的激活函数。通过这样的结构设计，小波神经网络能够对输入数据进行更精细的特征提取和处理，从而提高对复杂数据的建模和预测能力。4.2小波神经网络的学习算法小波神经网络的学习过程是一个不断优化网络参数，以提高网络对输入数据的拟合能力和预测准确性的过程，主要包括前向传播和反向传播两个阶段。在前向传播阶段，输入数据从输入层开始，依次经过隐含层和输出层的处理，最终得到网络的输出结果。具体来说，输入层接收外部输入的原始数据信号X=(x_1,x_2,\cdots,x_n)，并将其原封不动地传递给隐含层。隐含层的神经元采用小波函数作为激活函数，对输入信号进行小波变换。以Morlet小波函数\psi(x)=e^{-x^{2}/2}\cos(5x)为例，隐含层第j个神经元的输入为u_j=\sum_{i=1}^{n}w_{ij}x_i+b_j，这里的w_{ij}是由小波函数的伸缩参数a_{ij}和平移参数b_{ij}决定的。隐含层第j个神经元的输出为h_j=\psi(u_j)，即通过小波函数对输入进行变换，提取出信号在不同频率和时间尺度下的特征。输出层根据隐含层的输出结果进行综合处理，输出层第k个神经元的输入为v_k=\sum_{j=1}^{m}w_{jk}'h_j+b_k'，其中w_{jk}'是隐含层到输出层的连接权值，b_k'是输出层第k个神经元的偏置。若输出层采用线性激活函数，那么输出层第k个神经元的输出为y_k=v_k，即得到网络的最终输出结果。在股指预测中，这个输出结果就是对未来股指的预测值。在反向传播阶段，主要是根据前向传播得到的网络输出与实际值之间的误差，反向调整网络的参数，包括输入层到隐含层的连接权值（即小波函数的伸缩和平移参数）以及隐含层到输出层的连接权值和偏置。首先计算输出层的误差，设实际值为t_k，网络输出为y_k，则输出层的误差e_k=t_k-y_k。然后计算输出层误差对输出层输入的偏导数\delta_k^L=e_k，这里L表示输出层。接着计算隐含层误差对隐含层输入的偏导数\delta_j^{L-1}=\sum_{k=1}^{p}\delta_k^Lw_{jk}'\psi'(u_j)，其中\psi'(u_j)是小波函数\psi(u_j)的导数。在计算出各层的误差偏导数后，根据梯度下降法来更新网络的参数。对于隐含层到输出层的连接权值w_{jk}'，更新公式为w_{jk}'=w_{jk}'+\eta\delta_k^Lh_j，其中\eta为学习率，控制参数更新的步长。对于输出层的偏置b_k'，更新公式为b_k'=b_k'+\eta\delta_k^L。对于输入层到隐含层的连接权值（即小波函数的伸缩和平移参数），更新过程较为复杂，需要根据具体的小波函数形式和参数定义进行相应的计算和更新。通过不断地进行前向传播和反向传播，网络的参数逐渐得到优化，使得网络输出与实际值之间的误差不断减小，从而提高网络的预测性能。4.3遗传算法原理与流程遗传算法（GeneticAlgorithm，GA）是一种基于自然选择和遗传变异原理的优化算法，其基本思想源于达尔文的生物进化论和孟德尔的遗传学说。在自然界中，生物通过遗传、变异和自然选择的过程不断进化，适者生存，不适者淘汰，从而使物种不断适应环境的变化。遗传算法模拟了这一自然进化过程，将问题的解编码为个体，个体组成种群，通过对种群中的个体进行选择、交叉和变异等遗传操作，使种群不断进化，逐渐逼近问题的最优解。在遗传算法中，首先需要对问题的解进行编码，将其转化为遗传算法能够处理的形式。常见的编码方式有二进制编码、实数编码等。以二进制编码为例，将问题的解表示为一串二进制数字，每个二进制位代表一个基因，基因的不同组合构成了不同的个体。在求解一个函数的最大值时，假设函数的自变量取值范围是[0,10]，可以将自变量用8位二进制数表示，那么00000000表示0，11111111表示10，中间的二进制组合对应相应的数值。初始种群的生成是随机的，以确保种群的多样性。种群规模的大小会影响算法的搜索效率和精度，规模过小可能导致算法过早收敛，无法找到全局最优解；规模过大则会增加计算量和时间复杂度。在实际应用中，需要根据问题的复杂程度和计算资源来合理确定种群规模。适应度函数用于评估每个个体在解空间中的优劣程度，它是遗传算法进行选择操作的依据。适应度函数的设计需要根据具体问题来确定，通常与问题的目标函数相关。在股指预测中，可以将预测值与实际值之间的均方误差的倒数作为适应度函数，均方误差越小，适应度值越大，说明个体的预测性能越好。选择操作是根据个体的适应度值，从当前种群中选择优良个体，使其有更多机会遗传到下一代。常用的选择方法有轮盘赌选择法、锦标赛选择法等。轮盘赌选择法的原理是，将每个个体的适应度值看作是轮盘上的一块扇形区域，适应度值越大，对应的扇形区域面积越大，被选中的概率也就越大。通过随机转动轮盘，指针指向的扇形区域对应的个体被选中。交叉操作是遗传算法中产生新个体的重要方式，它模拟了生物的交配过程，将两个父代个体的基因进行交换和重组，生成新的子代个体。常见的交叉方式有单点交叉、多点交叉、均匀交叉等。以单点交叉为例，随机选择一个交叉点，将两个父代个体在交叉点之后的基因片段进行交换，从而产生两个新的子代个体。假设父代个体A为10110011，父代个体B为01001100，选择第4位作为交叉点，交叉后得到子代个体C为10111100，子代个体D为01000011。变异操作则是按一定概率随机改变个体的某些基因，以增加种群的多样性，避免算法陷入局部最优解。变异操作可以在一定程度上修复由于选择和交叉操作可能导致的优良基因丢失问题。在二进制编码中，变异操作通常是将基因位上的0变为1，或者将1变为0。遗传算法的流程如下：初始化种群：随机生成一定数量的个体，构成初始种群。每个个体都代表问题的一个潜在解，个体的编码方式根据问题的特点选择。计算适应度：根据适应度函数，计算每个个体的适应度值，评估个体在解空间中的优劣程度。选择操作：依据个体的适应度值，采用选择方法从当前种群中选择优良个体，组成父代种群。交叉操作：从父代种群中随机选择两个个体作为父代，按照交叉概率进行交叉操作，生成新的子代个体。变异操作：对子代个体按照变异概率进行变异操作，改变个体的某些基因。更新种群：将经过选择、交叉和变异操作后产生的新个体加入到种群中，替换掉原来的部分个体，形成新一代种群。判断终止条件：检查是否满足终止条件，如达到最大迭代次数、适应度值不再变化或满足预设的精度要求等。如果满足终止条件，则输出当前种群中的最优个体作为问题的解；否则，返回步骤2，继续进行遗传操作，直到满足终止条件为止。4.4遗传算法优化小波神经网络的优势遗传算法在优化小波神经网络的参数方面具有独特的优势，能够显著提升小波神经网络在股指预测中的性能，包括预测精度和泛化能力。从参数优化的角度来看，小波神经网络的参数主要包括输入层到隐含层的连接权值（即小波函数的伸缩和平移参数）以及隐含层到输出层的连接权值和偏置。这些参数的初始值对网络的学习和预测性能有着重要影响。传统的小波神经网络在确定初始参数时，往往采用随机赋值的方式，这种方式缺乏系统性和针对性，容易导致网络陷入局部最优解，无法找到全局最优的参数组合。例如，在实际的股指预测中，若初始参数设置不合理，网络可能无法准确捕捉股指数据的复杂特征和规律，使得预测结果与实际值偏差较大。遗传算法则为解决这一问题提供了有效的途径。它通过对小波神经网络的参数进行编码，将其转化为遗传算法中的个体。在遗传算法的操作过程中，选择算子依据个体的适应度值，从种群中挑选优良个体，使具有更优参数组合的个体有更多机会遗传到下一代。交叉算子通过对选择后的个体进行基因重组，产生新的个体，为参数空间引入新的组合方式。变异算子则以一定概率随机改变个体的某些基因，增加种群的多样性，避免算法陷入局部最优。以股指预测为例，假设小波神经网络的参数包括5个伸缩参数、5个平移参数以及隐含层到输出层的10个连接权值和5个偏置。遗传算法将这些参数编码为一个个体，每个参数对应个体中的一段基因。在选择操作中，适应度值高（即预测误差小）的个体被选中的概率更大。在交叉操作中，随机选择两个父代个体，如个体A和个体B，在某个交叉点将它们的基因片段进行交换，生成子代个体C和D。变异操作时，以一定概率对个体C和D中的某些基因进行变异，如将某个伸缩参数对应的基因位进行翻转。通过不断迭代这些遗传操作，种群中的个体逐渐向更优的参数组合进化，最终得到小波神经网络的最优参数。在提高预测精度方面，遗传算法优化后的小波神经网络能够更好地拟合股指数据的复杂规律。传统的小波神经网络在训练过程中，由于初始参数的随机性和局部搜索能力的限制，可能无法充分挖掘股指数据中的非线性特征和趋势。而遗传算法的全局搜索能力使得它能够在更广泛的参数空间中寻找最优解。在对大量历史股指数据进行分析时，遗传算法可以尝试不同的参数组合，找到最能准确描述股指变化规律的参数。经过遗传算法优化后的小波神经网络，能够更准确地捕捉股指数据的趋势性、周期性和突变性等特征。在市场处于上升趋势时，网络能够准确预测股指的上涨幅度；在市场出现突然下跌时，也能及时捕捉到信号，做出较为准确的预测。与未经过遗传算法优化的小波神经网络相比，预测误差明显降低，均方误差（MSE）等指标显著改善。遗传算法优化后的小波神经网络在泛化能力方面也有显著提升。泛化能力是指模型对新数据的适应能力和预测准确性。在金融市场中，市场环境复杂多变，新的数据往往具有与训练数据不同的特征和规律。传统的小波神经网络可能会过度拟合训练数据，导致在面对新数据时预测性能大幅下降。遗传算法通过不断优化参数，使小波神经网络能够学习到数据的本质特征，而不是仅仅记忆训练数据的表面模式。在训练过程中，遗传算法会对不同的参数组合进行评估，选择那些能够在训练数据和验证数据上都表现良好的参数。这样得到的网络模型具有更强的泛化能力，能够更好地适应市场的变化。当出现新的市场情况或数据特征发生变化时，优化后的小波神经网络依然能够保持较高的预测准确性，为投资者提供可靠的决策依据。五、基于遗传算法的小波神经网络股指预测模型构建5.1模型设计思路本研究旨在构建一种基于遗传算法的小波神经网络（GA-WNN）股指预测模型，充分融合遗传算法强大的全局搜索能力和小波神经网络卓越的非线性逼近能力，以实现对股指的精准预测。该模型的设计思路紧密围绕解决传统股指预测方法的局限性展开，通过对两种算法的有机结合，优化模型的参数和结构，提高模型对复杂股指数据的适应性和预测准确性。在设计过程中，充分考虑到小波神经网络的参数优化问题。小波神经网络的性能高度依赖于其参数设置，包括输入层到隐含层的连接权值（即小波函数的伸缩和平移参数）以及隐含层到输出层的连接权值和偏置。传统的参数初始化方法具有随机性，容易导致网络陷入局部最优解，从而降低预测精度。遗传算法的引入则为解决这一问题提供了有效途径。通过将小波神经网络的参数进行编码，使其成为遗传算法中的个体，利用遗传算法的选择、交叉和变异等操作，对这些参数进行全局搜索和优化。在选择操作中，根据个体的适应度值（即预测误差的倒数，误差越小适应度值越高），挑选出优良的个体，使其有更多机会遗传到下一代。交叉操作通过对选择后的个体进行基因重组，产生新的个体，增加种群的多样性。变异操作则以一定概率随机改变个体的某些基因，避免算法陷入局部最优解。通过不断迭代这些遗传操作，使种群逐渐向更优的参数组合进化，最终得到小波神经网络的最优参数。在模型结构方面，采用融合型小波神经网络结构。这种结构用小波元替代神经元，用小波函数的伸缩、平移参数替代输入层到隐含层的权值及隐含层阈值，实现了小波和神经网络的直接融合。相比松散型小波神经网络，融合型结构能够更好地利用小波函数的时频局部化特性，对输入数据进行更精细的特征提取和处理。在股指预测中，输入层接收历史股指数据，包括收盘价、开盘价、最高价、最低价和成交量等信息，将这些原始数据传递给隐含层。隐含层中的小波神经元利用小波函数对输入数据进行多尺度分解，提取不同频率和时间尺度下的特征。输出层则根据隐含层的输出结果，综合计算得出预测的股指值。为了提高模型的预测性能，还对模型的训练和预测过程进行了精心设计。在训练阶段，将历史股指数据划分为训练集和测试集，利用训练集对模型进行训练，通过遗传算法不断优化小波神经网络的参数，使模型的预测值与实际值之间的误差最小化。在训练过程中，动态调整遗传算法的参数，如种群规模、交叉概率和变异概率等，以提高算法的搜索效率和收敛速度。在测试阶段，利用测试集对训练好的模型进行验证，评估模型的预测精度和泛化能力。通过比较模型预测值与实际股指值之间的误差指标，如均方误差（MSE）、平均绝对误差（MAE）等，判断模型的性能优劣。若模型性能不理想，则进一步调整模型参数或结构，重新进行训练和测试，直到模型达到满意的预测效果。5.2模型参数设置与初始化在构建基于遗传算法的小波神经网络股指预测模型时，合理设置模型参数并进行准确初始化是确保模型性能的关键步骤，这些参数的取值直接影响模型的训练效率、预测精度以及泛化能力。对于遗传算法部分，种群规模的确定至关重要。种群规模过小，可能导致算法搜索空间有限，无法充分探索解空间，容易陷入局部最优解；种群规模过大，则会增加计算量和计算时间，降低算法的运行效率。经过多次试验和对比分析，本研究将种群规模设定为50。在这个规模下，既能保证种群具有一定的多样性，使算法有足够的机会搜索到全局最优解，又能在可接受的计算资源和时间范围内完成训练。例如，在对不同种群规模（如30、50、70）进行对比实验时，发现种群规模为30时，模型在某些复杂市场情况下容易陷入局部最优，预测误差较大；而种群规模为70时，虽然模型的搜索能力有所增强，但训练时间明显延长，且在一些简单市场场景下，并没有显著提高预测精度。交叉概率决定了遗传算法中交叉操作发生的可能性，它对算法的全局搜索能力和收敛速度有着重要影响。交叉概率过高，可能导致优良基因被破坏的概率增加，使算法难以收敛；交叉概率过低，则算法的搜索效率会降低，进化速度变慢。本研究将交叉概率设置为0.8。这样的取值在保证能够充分利用交叉操作进行基因重组，产生新的优良个体的同时，也能避免过度交叉对已有优良基因的破坏。在实验中，当交叉概率设置为0.6时，模型的进化速度较慢，需要更多的迭代次数才能达到较好的收敛效果；而当交叉概率提高到0.9时，虽然初期模型的搜索范围扩大，但后期容易出现不稳定的情况，导致模型的收敛性变差。变异概率是遗传算法中保持种群多样性的重要参数，它以一定概率随机改变个体的某些基因，防止算法陷入局部最优。变异概率过大，会使算法类似于随机搜索，降低算法的收敛速度；变异概率过小，则可能无法有效修复因选择和交叉操作导致的优良基因丢失问题。本研究将变异概率设定为0.05。这个取值在保持种群多样性的同时，不会对算法的收敛性产生过大的干扰。通过实验对比，当变异概率为0.03时，在某些复杂的市场数据模式下，模型容易陷入局部最优，无法找到更优的参数组合；而当变异概率提高到0.1时，模型在训练过程中表现出较大的波动性，难以稳定收敛。最大迭代次数是遗传算法的终止条件之一，它限制了算法的运行时间和计算量。如果最大迭代次数设置过小，算法可能在未找到最优解之前就提前终止；如果设置过大，则会浪费计算资源和时间。本研究根据实际的计算资源和模型训练效果，将最大迭代次数设置为100。在这个迭代次数下，模型能够在合理的时间内完成训练，并达到较好的收敛效果。在多次实验中，发现当最大迭代次数为80时，部分复杂市场数据下模型无法充分收敛，预测精度受到影响；而当最大迭代次数增加到120时，虽然模型的收敛效果略有提升，但计算时间明显增加，且在大多数情况下，对预测精度的提升并不显著。在小波神经网络部分，输入层神经元的数量根据输入数据的特征维度确定。在股指预测中，输入数据包含过去5天的股指收盘价、开盘价、最高价、最低价和成交量等信息，因此输入层神经元数量为5×5=25个。隐含层神经元的数量对网络的学习能力和泛化性能有重要影响，通过多次试验和调整，本研究将隐含层神经元数量设定为10个。这个数量能够在保证网络对复杂股指数据特征提取能力的同时，避免网络过于复杂导致的过拟合问题。输出层神经元数量根据预测目标确定，由于本研究旨在预测未来一天的股指收盘价，所以输出层神经元数量为1个。在初始化过程中，对于遗传算法的种群，采用随机生成的方式。每个个体代表小波神经网络的一组参数，包括输入层到隐含层的连接权值（即小波函数的伸缩和平移参数）以及隐含层到输出层的连接权值和偏置。这些参数在一定范围内随机取值，以保证种群的多样性。对于小波神经网络的连接权值和偏置，也采用随机初始化的方法，但取值范围会根据经验进行适当限制，以避免初始值过大或过小导致网络学习困难。在初始化小波函数的伸缩和平移参数时，将其随机取值范围设定在[0.1,10]之间；对于隐含层到输出层的连接权值，随机取值范围设定在[-1,1]之间；偏置的初始值则在[-0.5,0.5]范围内随机生成。5.3遗传算法优化小波神经网络的过程遗传算法优化小波神经网络的过程是一个复杂且有序的迭代过程，旨在通过模拟生物进化机制，寻找小波神经网络的最优参数组合，从而提高其在股指预测中的性能。该过程主要包括参数编码、初始种群生成、适应度计算、遗传操作以及终止条件判断等关键步骤。在参数编码环节，由于小波神经网络的参数众多，包括输入层到隐含层的连接权值（即小波函数的伸缩和平移参数）以及隐含层到输出层的连接权值和偏置，为了便于遗传算法的操作，采用实数编码方式。将这些参数按照一定顺序排列，每个参数对应编码串中的一个基因位。假设小波神经网络有5个伸缩参数、5个平移参数、隐含层到输出层的10个连接权值和5个偏置，则将这些参数依次排列，形成一个长度为25的实数编码串。这种编码方式直接、直观，能够真实反映参数的取值，避免了二进制编码在解码过程中可能出现的精度损失问题。初始种群的生成是随机的，种群规模设定为50。在生成初始种群时，每个个体的参数值在一定范围内随机生成。对于小波函数的伸缩参数，取值范围设定在[0.1,10]之间；平移参数在[-5,5]范围内随机生成；隐含层到输出层的连接权值在[-1,1]之间随机取值；偏置则在[-0.5,0.5]范围内随机生成。这样的取值范围设定是基于经验和多次试验确定的，既能保证种群的多样性，又能使参数在合理的范围内进行搜索。例如，在多次试验中发现，若伸缩参数的取值范围过大，如[0.01,100]，可能导致网络的学习过程不稳定，难以收敛；若取值范围过小，如[0.5,2]，则可能限制了参数的搜索空间，无法找到最优解。适应度计算是遗传算法中的关键步骤，它用于评估每个个体在解空间中的优劣程度。在股指预测中，选择均方误差（MSE）的倒数作为适应度函数。均方误差能够衡量预测值与实际值之间的误差平方的平均值，其值越小，说明预测值与实际值越接近，预测效果越好。适应度函数的计算公式为Fitness=\frac{1}{MSE}，其中MSE=\frac{1}{n}\sum_{i=1}^{n}(y_{i}^{predicted}-y_{i}^{actual})^2，n为样本数量，y_{i}^{predicted}为第i个样本的预测值，y_{i}^{actual}为第i个样本的实际值。通过计算每个个体对应的小波神经网络在训练集上的预测误差，并将其转化为适应度值，为后续的选择操作提供依据。在训练集上，若某个个体对应的小波神经网络预测的股指值与实际股指值的均方误差为0.01，则其适应度值为100；而另一个个体的均方误差为0.05，则其适应度值为20。显然，适应度值为100的个体在选择操作中具有更大的优势，更有可能被选中遗传到下一代。选择操作是根据个体的适应度值，从当前种群中挑选优良个体，使其有更多机会遗传到下一代。采用轮盘赌选择法，该方法将每个个体的适应度值看作是轮盘上的一块扇形区域，适应度值越大，对应的扇形区域面积越大，被选中的概率也就越大。假设有一个种群包含5个个体，其适应度值分别为10、20、30、40、50。计算每个个体的选择概率，第一个个体的选择概率为\frac{10}{10+20+30+40+50}=\frac{10}{150}\approx0.067，第二个个体的选择概率为\frac{20}{150}\approx0.133，以此类推。通过随机转动轮盘，指针指向的扇形区域对应的个体被选中。在实际操作中，会进行多次轮盘转动，选择出多个个体组成父代种群，用于后续的交叉和变异操作。交叉操作是遗传算法中产生新个体的重要方式，采用单点交叉方式。从父代种群中随机选择两个个体作为父代，随机选择一个交叉点，将两个父代个体在交叉点之后的基因片段进行交换，生成新的子代个体。假设有两个父代个体A和B，A的编码串为[0.5,0.8,0.3,0.6,0.9,0.2,0.7,0.4,0.1,0.6]，B的编码串为[0.2,0.4,0.6,0.8,0.1,0.3,0.5,0.7,0.9,0.2]。随机选择第5个基因位作为交叉点，交叉后得到子代个体C和D。C的编码串为[0.5,0.8,0.3,0.6,0.1,0.3,0.5,0.7,0.9,0.2]，D的编码串为[0.2,0.4,0.6,0.8,0.9,0.2,0.7,0.4,0.1,0.6]。交叉操作通过基因重组，为种群引入新的基因组合，增加了种群的多样性，有可能产生更优的个体。变异操作则是按一定概率随机改变个体的某些基因，以增加种群的多样性，避免算法陷入局部最优解。变异概率设定为0.05。在变异操作中，对于每个个体，以0.05的概率随机选择基因位进行变异。若选择的基因位是伸缩参数对应的基因位，假设原伸缩参数值为3，变异后可能变为3.5（在取值范围内随机变化）。变异操作虽然发生的概率较小，但它能够在一定程度上修复由于选择和交叉操作可能导致的优良基因丢失问题，使算法有机会跳出局部最优解，搜索到更优的参数组合。在完成一轮遗传操作（选择、交叉和变异）后，检查是否满足终止条件。终止条件设定为达到最大迭代次数100。若未达到最大迭代次数，则将经过遗传操作后产生的新个体加入到种群中，替换掉原来的部分个体，形成新一代种群，继续进行下一轮遗传操作。若达到最大迭代次数，则终止遗传算法，将最后一代群体中最优个体的解码还原值作为小波神经网络的初始参数。在多次实验中发现，当迭代次数达到100时，模型基本能够收敛到一个较优的参数组合，继续增加迭代次数对预测精度的提升效果不明显。将这些最优参数应用于小波神经网络，用于后续的股指预测模型训练和预测。5.4预测模型的性能评估指标为了全面、客观地评估基于遗传算法的小波神经网络（GA-WNN）股指预测模型的性能，采用了多个具有代表性的性能评估指标，这些指标从不同角度反映了模型预测值与实际值之间的差异程度，以及模型的预测准确性和稳定性。均方误差（MeanSquaredError，MSE）是一种常用的评估指标，它能够衡量预测值与实际值之间误差平方的平均值。其计算公式为MSE=\frac{1}{n}\sum_{i=1}^{n}(y_{i}^{predicted}-y_{i}^{actual})^2，其中n为样本数量，y_{i}^{predicted}为第i个样本的预测值，y_{i}^{actual}为第i个样本的实际值。MSE考虑了每个样本预测误差的大小，并且对较大的误差给予了更大的权重。在股指预测中，若模型预测的某一天股指值与实际值相差较大，那么这个较大的误差在MSE的计算中会被平方放大，从而更显著地影响MSE的值。MSE的值越小，说明模型的预测值与实际值越接近，模型的预测精度越高。若MSE值为0.01，表明模型预测值与实际值之间的平均误差平方较小，模型的预测效果较好；若MSE值增大到0.1，则说明模型预测误差明显增大，预测性能变差。平均绝对误差（MeanAbsoluteError，MAE）也是一种重要的评估指标，它计算预测值与实际值之间绝对误差的平均值。计算公式为MAE=\frac{1}{n}\sum_{i=1}^{n}|y_{i}^{predicted}-y_{i}^{actual}|。与MSE不同，MAE对每个样本的误差同等对待，不考虑误差的平方，更直观地反映了预测值与实际值之间的平均偏差程度。在评估模型对股指短期波动的预测能力时，MAE能够清晰地展示出模型预测值与实际值在短期内的偏离情况。当MAE值较小时，说明模型的预测值在平均意义上与实际值的偏差较小，模型对股指的预测较为准确。若MAE值为0.05，表示模型预测值与实际值之间的平均绝对偏差为0.05，相对较小，模型的预测效果较好；若MAE值上升到0.15，则表明模型预测值与实际值的平均偏差增大，预测准确性下降。决定系数（CoefficientofDetermination，R^{2}）用于衡量模型对数据的拟合优度，它表示因变量的总变异中可以由自变量解释的比例。其取值范围在0到1之间，越接近1，说明模型对数据的拟合效果越好，即模型能够解释的因变量变异越多，预测能力越强。在股指预测中，R^{2}值接近1意味着模型能够很好地捕捉股指数据的变化规律，预测值与实际值之间的拟合程度高。若R^{2}值为0.8，说明模型能够解释80%的股指数据变异，模型的拟合效果较好；若R^{2}值降低到0.5，则表明模型对股指数据的解释能力较弱，只有50%的变异能够被模型解释，模型的预测性能有待提高。平均绝对百分比误差（MeanAbsolutePercentageError，MAPE）是一种相对误差指标，它计算预测值与实际值之间绝对百分比误差的平均值。计算公式为MAPE=\frac{1}{n}\sum_{i=1}^{n}|\frac{y_{i}^{predicted}-y_{i}^{actual}}{y_{i}^{actual}}|\times100\%。MAPE能够直观地反映预测值与实际值之间的相对偏差程度，以百分比的形式展示，便于理解和比较。在评估不同模型对股指预测的准确性时，MAPE可以消除数据量纲的影响，更准确地比较不同模型的性能。当MAPE值较小时，说明模型的预测值与实际值之间的相对偏差较小，模型的预测精度较高。若MAPE值为5%，表示模型预测值与实际值之间的平均相对偏差为5%，相对较小，模型的预测效果较好；若MAPE值增大到15%，则表明模型预测值与实际值的平均相对偏差较大，预测准确性较低。六、实证检验与结果分析6.1数据准备与划分本研究选取2010年1月1日至2023年12月31日期间上证指数的日度数据作为研究样本，数据来源于Wind数据库，确保了数据的准确性和完整性。这些数据包含了每日的开盘价、收盘价、最高价、最低价和成交量等关键信息，能够全面反映上证指数的市场表现。为了构建基于遗传算法的小波神经网络（GA-WNN）股指预测模型，需要对数据进行合理划分，分为训练集、验证集和测试集。划分比例为60%、20%、20%。这种划分方式是基于对模型训练和评估的综合考虑。训练集用于模型的训练，使模型能够学习到股指数据的内在规律和特征。验证集则用于在训练过程中调整模型的超参数，如遗传算法的种群规模、交叉概率、变异概率，以及小波神经网络的隐含层神经元数量等。通过验证集的反馈，能够避免模型过拟合，提高模型的泛化能力。测试集则用于评估模型的最终性能，检验模型在未知数据上的预测准确性。具体划分过程如下：首先，将2010年1月1日至2023年12月31日的上证指数日度数据按时间顺序排列。然后，按照60%的比例，选取前部分数据作为训练集，即从2010年1月1日至2017年12月31日的数据，共1974个样本。接着，从剩余的数据中按照20%的比例选取验证集，即2018年1月1日至2020年12月31日的数据，共730个样本。最后，剩下的20%数据作为测试集，即2021年1月1日至2023年12月31日的数据，共731个样本。在划分过程中，充分考虑了数据的时间顺序和市场的实际情况。由于股指数据具有时间序列的特性，按时间顺序划分能够更好地模拟实际的预测场景，避免出现未来数据影响模型训练的情况。在市场行情波动较大的时期，如2015年的股灾期间，训练集、验证集和测试集中都包含了相应时期的数据，以确保模型能够学习到不同市场环境下的股指变化规律，提高模型的适应性和鲁棒性。6.2模型训练与预测利用划分好的训练集对基于遗传算法的小波神经网络（GA-WNN）股指预测模型进行训练。在训练过程中，遗传算法发挥其全局搜索能力，不断优化小波神经网络的参数。首先，将小波神经网络的参数进行编码，形成初始种群。每个个体代表一组参数组合，包括输入层到隐含层的连接权值（即小波函数的伸缩和平移参数）以及隐含层到输出层的连接权值和偏置。以某一次训练为例，初始种群规模设定为50，每个个体的参数在一定范围内随机生成。接着，计算每个个体的适应度值，适应度函数采用预测值与实际值之间均方误差（MSE）的倒数。通过适应度值评估每个个体在解空间中的优劣程度，适应度值越高，说明对应的小波神经网络在训练集上的预测误差越小，性能越好。在第一轮计算中，可能会发现部分个体的适应度值较低，即预测误差较大，这表明这些个体对应的参数组合还需要进一步优化。然后，进行遗传操作，包括选择、交叉和变异。选择操作采用轮盘赌选择法，依据个体的适应度值，从当前种群中挑选优良个体，使其有更多机会遗传到下一代。交叉操作采用单点交叉方式，随机选择两个父代个体，在某个交叉点将它们的基因片段进行交换，生成新的子代个体。变异操作则以一定概率随机改变个体的某些基因，变异概率设定为0.05。在一次交叉操作中，随机选择个体A和个体B作为父代，在第10个基因位进行交叉，交换基因片段后生成子代个体C和D。通过这些遗传操作，种群中的个体不断进化，逐渐向更优的参数组合逼近。在训练过程中，利用验证集对模型进行实时监测和参数调整。验证集的数据不参与模型的训练，但用于评估模型在不同参数下的性能表现。当模型在训练集上的

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

中国股市分形特征剖析与基于遗传算法优化小波神经网络的股指预测研究

文档简介

温馨提示

最新文档

评论

中国股市分形特征剖析与基于遗传算法优化小波神经网络的股指预测研究

文档简介

温馨提示

最新文档

评论

相关文档