基于极值理论的沪深股票市场相关性的深度剖析与实证研究

上传人：s*** IP属地：上海上传时间：2025-11-24 格式：DOCX 页数：27 大小：46.88KB 积分：7.19 举报 版权申诉

已阅读5页，还剩22页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

基于极值理论的沪深股票市场相关性的深度剖析与实证研究一、引言1.1研究背景与意义在经济全球化和金融市场一体化的大背景下，金融市场之间的联系日益紧密，呈现出复杂的相关性和相互影响。股票市场作为金融市场的重要组成部分，其波动不仅影响着投资者的财富，也对整个金融体系的稳定产生深远影响。沪深股票市场作为中国资本市场的核心，在经济发展中扮演着举足轻重的角色，吸引着众多投资者和研究者的目光。深入研究沪深股票市场的相关性，对于投资者制定合理的投资策略、金融机构进行有效的风险管理以及监管部门维护市场稳定，都具有至关重要的现实意义。投资者可以通过了解沪深股票市场的相关性，更好地构建投资组合，实现风险分散和收益最大化。当沪深两市股票表现出较强的正相关性时，投资者需要谨慎考虑投资组合的分散性，避免过度集中在两市的股票上，以降低系统性风险。相反，如果两市股票相关性较弱，投资者可以利用这种差异，合理配置资产，提高投资组合的稳定性和收益水平。通过分析沪深股票市场的相关性，投资者还可以根据市场变化及时调整投资策略，把握投资机会，规避潜在风险。对于金融机构而言，准确把握沪深股票市场的相关性，有助于其更有效地管理风险。在进行资产定价和风险评估时，金融机构需要考虑不同市场之间的相互影响，以确保风险度量的准确性。如果忽视沪深股票市场的相关性，可能会导致风险评估的偏差，进而影响金融机构的稳健运营。在投资组合管理中，金融机构可以根据两市的相关性，优化资产配置，降低风险。在风险预警方面，通过监测沪深股票市场的相关性变化，金融机构可以及时发现潜在的风险隐患，提前采取措施进行防范。监管部门也需要密切关注沪深股票市场的相关性，以维护金融市场的稳定。市场的异常波动和风险传播往往与市场之间的相关性密切相关。监管部门可以通过对沪深股票市场相关性的研究，制定相应的政策和措施，加强市场监管，防范系统性风险的发生。在市场出现异常波动时，监管部门可以根据两市的相关性，及时采取措施，稳定市场情绪，避免风险的进一步扩散。传统的金融市场风险度量方法，如基于正态分布假设的风险价值（VaR）模型，在面对金融市场的复杂特性时存在一定的局限性。金融市场数据往往呈现出尖峰厚尾性、自相关性、波动簇集性和波动非对称性等特征，而正态分布假设无法准确刻画这些特征，导致风险度量的偏差。在极端市场条件下，基于正态分布假设的VaR模型可能会严重低估风险，使投资者和金融机构面临巨大的潜在损失。极值理论作为一种专门研究极端事件和分布尾部特征的统计理论，在金融市场风险度量中具有独特的优势。极值理论不依赖于对数据整体分布的假设，而是专注于分布的尾部，能够更准确地描述金融市场中极端事件发生的概率和潜在损失，为风险度量提供了更有效的工具。通过极值理论，我们可以更精确地估计市场极端波动情况下的风险，为投资者和金融机构提供更可靠的风险预警和决策依据。在金融市场中，极端事件虽然发生的概率较低，但一旦发生，往往会对市场产生巨大的冲击，如1987年的“黑色星期一”、2008年的全球金融危机等。这些事件给投资者和金融机构带来了惨重的损失，也对金融市场的稳定造成了严重威胁。极值理论能够帮助我们更好地理解和应对这些极端事件，通过对极端值的分析和建模，我们可以更准确地评估市场风险，提前制定相应的风险防范措施，降低极端事件对金融市场的影响。综上所述，对沪深股票市场相关性的研究具有重要的现实意义，而极值理论在金融市场风险度量中的应用为我们提供了更有效的方法和工具。通过将极值理论与沪深股票市场相关性研究相结合，我们可以更深入地了解市场的内在规律和风险特征，为投资者、金融机构和监管部门提供更有价值的决策参考，促进金融市场的稳定和健康发展。1.2国内外研究现状在沪深股票市场相关性的研究领域，国内外学者已取得了一系列成果。早期研究多聚焦于线性相关性分析，运用简单的相关系数来度量沪深股市之间的关联程度。随着研究的深入，学者们逐渐意识到金融市场的复杂性，开始采用更复杂的方法。如兰军和严广乐运用基于GRACH模型、Granger模型的综合方法，同时引入协整检验和误差纠正机制，对沪深两市的波动相关性进行实证分析，系统性揭示了两市波动性的关键特征和相互影响的因果规律，为金融资产定价和风险管理奠定了基础。武以敏和刘小茂利用向量自回归模型（VAR）及脉冲响应函数探讨沪深股市之间的波动相关性问题，发现两个市场存在明显的联动关系，通过上证综指滞后五期的收益可预期深圳成指当期的收益，通过深圳成指滞后六期的收益可预期上证综指的当期收益。在国外，也有不少学者对不同股票市场之间的相关性进行研究。部分研究采用动态条件相关系数（DCC）模型等方法，分析不同市场在不同时期的相关性变化，发现市场相关性会受到宏观经济因素、政策变化等多种因素的影响。这些研究为理解金融市场之间的关联提供了重要参考，但由于研究对象主要是国外市场，对于沪深股票市场的针对性不足。极值理论在金融市场风险度量中的应用研究也不断涌现。Longin率先将极值理论用于美国股票市场回报的极端变动建模，为后续研究开辟了道路。此后，众多学者将这一方法应用于其他股票市场，发现极值理论在刻画金融市场极端风险方面具有独特优势。孙瑞杰和陈树冰将极值理论应用于风险价值（VaR）的计算，并对沪深300指数和上证180指数进行实证分析，结果表明在极端条件下，用极值方法估计的VaR值有更高的准确性。在国内，也有学者运用极值理论对沪深股票市场的风险进行度量和分析，如周敏娟基于极值理论和Copula理论，利用GARCH模型分别建立了上证指数和深圳成指的边缘分布函数，通过实证分析发现极值理论能够有效改进风险度量。在度量金融产品相关性时，Copula理论逐渐得到广泛应用。有学者运用Copula理论，结合沪深两市的日收益率，对不同Copula函数进行参数估计，判断出刻画中国股市极值相关性的最优Copula函数。通过这种方法，能够更准确地描述金融市场之间的非线性相关关系，为风险管理提供更有效的工具。现有研究仍存在一定不足。在沪深股票市场相关性研究方面，虽然已有多种方法用于分析两市的波动相关性和联动关系，但对于市场极端情况下的相关性研究还不够深入，尤其是在极端事件发生时，沪深股市之间的风险传递机制和相关性变化尚未得到充分揭示。在极值理论应用方面，虽然该理论在金融市场风险度量中展现出优势，但如何更好地将极值理论与其他金融理论和方法相结合，以提高风险度量的准确性和可靠性，仍有待进一步探索。部分研究在应用极值理论时，对数据的预处理和模型的假设条件考虑不够充分，可能会影响研究结果的准确性。此外，对于不同市场条件下，极值理论模型的适用性和稳定性研究也相对较少。1.3研究方法与创新点本研究综合运用多种研究方法，全面深入地分析沪深股票市场的相关性。在数据处理阶段，采用数据分析法，选取具有代表性的沪深股票市场指数数据，涵盖了从[起始时间]至[结束时间]的日收盘价数据。通过对这些数据进行严格清洗，去除异常值和缺失值，确保数据的准确性和完整性，为后续分析奠定坚实基础。在数据清洗过程中，运用统计学方法和数据可视化技术，对数据进行逐一排查，识别并处理可能存在的错误数据，保证数据质量。在模型构建方面，采用基于极值理论的POT模型来刻画沪深股票市场收益率的尾部特征。POT模型通过设定合适的阈值，对超过阈值的极端值进行建模，能够有效捕捉金融市场数据的厚尾特性。结合Copula理论，构建不同的Copula函数来描述沪深股票市场之间的相关结构。Copula函数可以将多个随机变量的边缘分布连接起来，形成联合分布，从而更准确地刻画变量之间的非线性相关关系。在Copula函数的选择上，对常用的高斯Copula、Student-tCopula、ClaytonCopula和GumbelCopula等函数进行参数估计和模型比较，根据拟合优度和检验统计量选择最优的Copula函数来描述沪深股票市场的相关性。为了验证模型的有效性和可靠性，运用回测检验和敏感性分析等方法对模型进行评估。回测检验通过将模型预测结果与实际数据进行对比，评估模型在不同市场条件下的预测能力。敏感性分析则通过改变模型参数，观察模型输出结果的变化，分析模型对参数变化的敏感性，以确定模型的稳定性和可靠性。本研究的创新点主要体现在以下几个方面：一是研究视角创新，将极值理论与Copula理论相结合，从极端风险和相关结构的角度深入研究沪深股票市场的相关性，弥补了传统研究在刻画极端市场条件下相关性方面的不足。传统研究多关注市场的整体相关性，对极端情况下的相关性分析不够深入，本研究能够更全面地揭示沪深股票市场在不同市场条件下的关联特征。二是方法应用创新，在模型构建过程中，对POT模型的阈值选择和Copula函数的参数估计采用了更先进的算法和技术。例如，在阈值选择上，运用基于数据驱动的方法，结合多种统计指标和图形分析，确定最优阈值，提高了模型对极端值的捕捉能力。在Copula函数参数估计中，采用极大似然估计法和贝叶斯估计法相结合的方式，充分利用数据信息，提高了参数估计的准确性。三是研究内容创新，不仅分析了沪深股票市场的静态相关性，还通过动态Copula模型研究了相关性的时变特征，探讨了宏观经济因素、政策变化等对相关性的影响机制。这种动态分析能够更好地反映市场的实际情况，为投资者和金融机构提供更具时效性的决策参考。通过构建向量自回归（VAR）模型，将宏观经济变量和沪深股票市场相关性纳入同一框架，分析宏观经济因素对相关性的冲击响应，深入揭示了宏观经济与股票市场相关性之间的内在联系。二、极值理论与股票市场相关性分析基础2.1极值理论概述2.1.1极值理论的发展历程极值理论的发展历程充满了探索与突破，其起源可追溯到18世纪，当时数学家和物理学家如莱布尼茨等首次对极小值和极大值的分布展开研究，并提出了一些基本的数学模型，为极值理论的发展奠定了最初的基础。然而，在早期，统计学家更多关注随机变量的主体取值，对稀有事件发生概率的研究相对较少，这在一定程度上限制了极值理论的发展速度。到了19世纪，Fourier在1824年对正态分布进行探讨时，涉及到了极值相关的内容，他认为正态分布均值偏离2个标准差的平方根的三倍的概率极低，约为五万分之一，这种小概率事件在实际观测中可忽略不计。此后，“3θ原则”被提出，该原则认为正态样本的有效范围大致在离均值正负三个标准差内。但随着研究深入，人们发现“3θ原则”存在局限性，对于小样本而言过于保守，而对于大样本又显得过于宽松，这促使研究者进一步探索更精确的极值理论。20世纪初，极值理论迎来了重要的发展阶段。1928年，Fisher和Tippet发表文章，奠定了极值渐进原理的基础。他们首次对正态样本的最大值分布进行描述，指出其收敛速度极为缓慢，这解释了以往研究在处理极值问题时遇到困难的原因。此后，极值的概率理论研究方向逐渐从单纯研究独立同分布随机变量的最大值或最小值的渐进性质，拓展到研究次序统计量的分布性质。随着研究的不断深入，研究者们开始关注由底分布的上尾或下尾部确定的在一个高（低）阈值以上（下）关于底分布的超阈值性质，这一转变使得极值理论能够更深入地挖掘数据中的极端信息。反过来，底分布的尾部或参数函数也可通过极端次序统计量或超阈值用统计方法来进行估计，这为实际应用提供了更有效的工具。在应用领域，瑞典物理学家和工程师W.Weibull做出了重要贡献。他首次强调了极值概念对于描述材料强度的重要性，将极值理论引入到材料科学领域，使得极值理论在实际工程应用中得到了广泛关注。此后，极值理论在风险管理、保险精算、环境科学等众多领域都展现出了重要的应用价值，逐渐成为这些领域研究极端事件和风险评估的重要工具。例如，在风险管理中，极值理论可以帮助金融机构更准确地评估极端市场条件下的风险，为投资决策提供更可靠的依据；在保险精算中，能够更合理地确定保险费率，以应对可能出现的极端赔付情况；在环境科学中，可用于预测极端气候事件的发生概率和影响程度，为环境保护和应对气候变化提供科学支持。随着时间的推移，极值理论不断发展和完善，新的方法和模型不断涌现。如今，极值理论已经成为统计学和应用数学领域中一个重要的研究方向，在各个领域的应用也越来越广泛和深入，为解决实际问题提供了强有力的理论支持和技术手段。2.1.2主要极值分布模型在极值理论中，广义极值分布（GEV）和广义帕累托分布（GPD）是两个重要的极值分布模型，它们在描述极端事件和分析数据的尾部特征方面发挥着关键作用，具有各自独特的特点和适用范围。广义极值分布（GEV）是一种应用广泛的极值分布模型，其概率密度函数为：f(x;\mu,\sigma,\xi)=\frac{1}{\sigma}\left(1+\xi\frac{x-\mu}{\sigma}\right)^{-\frac{1}{\xi}-1}\exp\left[-\left(1+\xi\frac{x-\mu}{\sigma}\right)^{-\frac{1}{\xi}}\right]其中，\mu为位置参数，它决定了分布的中心位置；\sigma为尺度参数，控制着分布的离散程度；\xi为形状参数，对分布的尾部特征起着决定性作用。当\xi=0时，GEV分布退化为Gumbel分布，主要用于描述具有渐进指数型尾部的分布，适用于许多自然现象和社会经济数据中出现的极值情况；当\xi\gt0时，GEV分布为Frechet分布，其尾部比指数分布更厚，常用于描述那些极端值出现概率相对较高的情况，如金融市场中的极端收益或损失；当\xi\lt0时，GEV分布为Weibull分布，其尾部比指数分布更薄，在一些工程领域中，用于描述材料的疲劳寿命等具有有限上界的极端事件。GEV分布的优点在于它能够通过对不同参数的调整，灵活地拟合各种极值事件的分布。在极限洪水事件建模中，通过分析历史洪水记录，估计GEV分布的参数，可以预测未来洪水事件的严重程度和频率。由于其具有较强的灵活性和适应性，GEV分布在极端温度事件建模、网络流量高峰建模、设备故障检测、通信信道建模以及能源需求预测等多个领域都有广泛应用。它也存在一些局限性。GEV分布需要对整个数据序列进行建模，计算量相对较大，对数据的要求也较高。在实际应用中，若数据存在异常值或数据量不足，可能会影响参数估计的准确性，进而影响模型的预测效果。广义帕累托分布（GPD）则主要用于对超过某一阈值的极端值进行建模，其概率密度函数为：f(x;\mu,\sigma,\xi)=\frac{1}{\sigma}\left(1+\xi\frac{x-\mu}{\sigma}\right)^{-\frac{1}{\xi}-1}其中，\mu为阈值，\sigma为尺度参数，\xi为形状参数。GPD分布的形状参数\xi同样决定了分布的尾部特征，\xi的值越大，尾部越厚，极端事件发生的概率相对越高。GPD分布的显著特点是它专注于数据的尾部，通过设定合适的阈值，只对超过阈值的数据进行建模，大大减少了计算量，提高了对极端值的刻画效率。在金融风险管理中，对于股票市场收益率数据，通过选择合适的阈值，利用GPD分布可以更准确地估计极端损失的概率和风险价值（VaR）。在实际应用中，阈值的选择至关重要。如果阈值过高，会导致用于建模的数据量过少，参数估计的稳定性较差；如果阈值过低，又可能会包含过多非极端值的数据，影响对极端事件的准确描述。因此，如何选择最优阈值是应用GPD分布时需要重点考虑的问题，通常可以结合多种方法，如图形分析、统计检验等，来确定合适的阈值。2.2股票市场相关性分析方法2.2.1传统相关性分析方法在股票市场相关性分析的早期阶段，皮尔逊相关系数（PearsonCorrelationCoefficient）是一种广泛应用的传统方法。它通过衡量两个变量之间的线性关系程度，来反映股票市场中不同股票或指数收益率之间的相关性。其计算公式为：r=\frac{\sum_{i=1}^{n}(x_i-\bar{x})(y_i-\bar{y})}{\sqrt{\sum_{i=1}^{n}(x_i-\bar{x})^2}\sqrt{\sum_{i=1}^{n}(y_i-\bar{y})^2}}其中，x_i和y_i分别表示两个变量的第i个观测值，\bar{x}和\bar{y}分别为它们的均值，n为观测值的数量。皮尔逊相关系数r的取值范围在-1到1之间，当r=1时，表示两个变量存在完全正线性相关，即一个变量的增加会导致另一个变量以相同比例增加；当r=-1时，表示存在完全负线性相关，一个变量的增加会导致另一个变量以相同比例减少；当r=0时，则表明两个变量之间不存在线性相关关系。在股票市场中，若计算得到两只股票收益率的皮尔逊相关系数接近1，如达到0.8以上，这意味着这两只股票的价格走势在很大程度上呈现同向变动，当一只股票价格上涨时，另一只股票价格大概率也会上涨，投资者在构建投资组合时，如果同时持有这两只股票，可能无法有效分散风险。若相关系数接近-1，如为-0.7，则两只股票价格走势大致相反，一只股票价格上涨时，另一只股票价格可能下跌，这种情况下，投资者可以利用它们的负相关性，合理配置这两只股票，以降低投资组合的整体风险。皮尔逊相关系数在实际应用中存在一定的局限性。它假设变量之间的关系是线性的，然而金融市场具有高度的复杂性和不确定性，股票市场收益率之间的关系往往是非线性的。在市场波动较大时，股票价格可能会出现剧烈的非线性变化，此时皮尔逊相关系数可能无法准确反映股票之间的真实相关性。它对数据的正态性要求较高，而金融市场数据通常呈现尖峰厚尾的特征，不满足正态分布假设，这也会影响皮尔逊相关系数的准确性和可靠性。在极端市场条件下，如金融危机期间，股票市场收益率的分布会发生显著变化，皮尔逊相关系数可能会严重低估或高估股票之间的相关性，导致投资者做出错误的决策。斯皮尔曼等级相关系数（Spearman’sRankCorrelationCoefficient）也是一种常用的传统相关性分析方法。它是根据数据的秩次来计算相关性，不依赖于数据的具体数值，而是关注数据的相对大小顺序。其计算公式为：r_s=1-\frac{6\sum_{i=1}^{n}d_i^2}{n(n^2-1)}其中，d_i表示两个变量x和y的秩次之差，n为样本数量。斯皮尔曼等级相关系数的取值范围同样在-1到1之间，含义与皮尔逊相关系数类似，但它更适用于处理数据不满足正态分布或存在非线性关系的情况。当分析两只股票的价格走势时，如果它们的价格变化呈现出某种非线性的趋势，如一只股票价格先缓慢上涨，然后快速上涨，而另一只股票价格则先快速上涨，再缓慢上涨，这种情况下，皮尔逊相关系数可能无法准确衡量它们之间的相关性，但斯皮尔曼等级相关系数可以通过对价格秩次的比较，更准确地反映出它们之间的关联程度。斯皮尔曼等级相关系数在处理股票市场数据时，也并非完美无缺。它虽然对数据分布的要求较低，但对于一些复杂的非线性关系，如存在多个极值点或复杂的曲线关系时，斯皮尔曼等级相关系数的刻画能力也会受到限制。它只能反映变量之间的单调关系，对于非单调的非线性关系，其分析效果会大打折扣。在股票市场中，有时股票价格之间的关系可能会随着市场环境的变化而发生改变，出现非单调的情况，此时斯皮尔曼等级相关系数可能无法及时捕捉到这种变化。2.2.2基于Copula函数的相关性分析Copula函数作为一种新兴的相关性分析工具，在金融领域中得到了广泛应用，为研究股票市场相关性提供了更有效的方法。其基本原理基于Sklar定理，该定理表明对于任意的n维联合分布函数F(x_1,x_2,\cdots,x_n)，都存在一个Copula函数C(u_1,u_2,\cdots,u_n)，使得：F(x_1,x_2,\cdots,x_n)=C(F_1(x_1),F_2(x_2),\cdots,F_n(x_n))其中，F_i(x_i)为第i个变量x_i的边缘分布函数，u_i=F_i(x_i)，i=1,2,\cdots,n。这意味着Copula函数能够将多个随机变量的边缘分布连接起来，形成联合分布，从而有效地描述变量之间的相关结构。在股票市场相关性分析中，Copula函数具有显著的优势。它能够捕捉到股票市场中收益率之间的非线性、非对称相关性，这是传统相关性分析方法所无法做到的。在市场下跌时，股票之间的相关性可能会增强，表现出更强的联动性，而在市场上涨时，相关性可能相对较弱。Copula函数可以通过不同的参数和形式，准确地刻画这种非对称的相关关系。在2008年全球金融危机期间，众多股票价格大幅下跌，它们之间的相关性明显增强，通过Copula函数分析可以发现，在市场下跌的极端情况下，不同股票之间的尾部相关性显著增加，这为投资者和金融机构在风险评估和管理中提供了重要的信息。Copula函数的灵活性使得它可以适应不同类型的金融数据。它不受边缘分布函数形式的限制，可以与各种常见的分布函数相结合，如正态分布、t分布、广义帕累托分布等，从而更好地拟合股票市场收益率数据的实际分布特征。对于具有尖峰厚尾特征的股票市场收益率数据，采用基于t分布的Copula函数能够更准确地描述变量之间的相关性，提高风险度量的准确性。在实际应用中，常用的Copula函数包括高斯Copula、Student-tCopula、ClaytonCopula和GumbelCopula等。高斯Copula假设变量之间的相关性服从正态分布，适用于描述线性相关关系较强的情况；Student-tCopula则考虑了变量的厚尾特征，能够更好地刻画极端情况下的相关性；ClaytonCopula对下尾相关性具有较强的捕捉能力，适用于分析市场下跌时股票之间的相关性；GumbelCopula则更擅长捕捉上尾相关性，对于研究市场上涨时的股票相关性具有优势。在分析沪深股票市场相关性时，通过对不同Copula函数的参数估计和模型比较，发现Student-tCopula函数能够更好地拟合沪深股票市场收益率数据的尾部特征，准确地反映出两市在极端情况下的相关性。这为投资者在极端市场条件下进行风险管理和投资决策提供了有力的支持，投资者可以根据Copula函数分析的结果，合理调整投资组合，降低极端风险对投资收益的影响。三、基于极值理论的沪深股票市场数据选取与预处理3.1数据选取本研究选取上证指数和深圳成指作为沪深股票市场的代表数据，主要原因在于这两个指数具有广泛的市场代表性。上证指数涵盖了上海证券交易所全部上市股票，反映了上海证券市场的整体走势，其成分股包括众多大型国有企业和行业龙头企业，如工商银行、中国石油等，这些企业在国民经济中占据重要地位，对市场的影响力较大。深圳成指则包含了深圳证券交易所的主要成分股，代表了深圳证券市场的发展状况，该指数涵盖了大量中小板和创业板企业，如比亚迪、宁德时代等，这些企业具有较高的成长性和创新性，是中国经济转型升级的重要力量。通过对上证指数和深圳成指的分析，可以全面了解沪深股票市场的整体运行态势和相互关系。在数据的时间跨度上，选取了2000年1月1日至2023年12月31日的日交易数据。这一时间范围跨越了多个经济周期和市场阶段，包括2001-2005年的熊市、2006-2007年的大牛市、2008年的全球金融危机、2014-2015年的牛市及股灾以及近年来市场的平稳波动等重要时期。涵盖这些不同市场阶段的数据，能够更全面地反映沪深股票市场在各种市场环境下的表现和相关性变化。在2008年全球金融危机期间，市场出现了剧烈波动，通过分析这一时期的沪深股票市场数据，可以深入了解在极端市场条件下，两市之间的风险传递机制和相关性变化。而在市场平稳波动时期的数据，则有助于分析常态下两市的相关性特征，为研究市场的长期规律提供依据。数据来源于权威金融数据平台，如万得（Wind）数据库，该数据库提供了丰富、准确的金融市场数据，涵盖了全球多个金融市场和各类金融产品，数据的完整性和准确性得到了广泛认可。在数据收集过程中，对原始数据进行了仔细核对和初步筛选，确保数据的质量和可靠性。对于缺失数据，通过与其他数据源进行比对和补充，尽量保证数据的完整性；对于异常数据，进行了详细的排查和分析，确定其产生的原因，如是否是由于交易系统故障、数据录入错误等原因导致，对于确认为错误的异常数据，进行了修正或剔除。3.2数据预处理3.2.1数据清洗在数据清洗过程中，数据的完整性和准确性至关重要。本研究的数据清洗主要聚焦于缺失值和异常值的处理。缺失值的存在可能会影响数据的统计分析和模型的准确性，因此需要采用合适的方法进行处理。对于缺失值的识别，运用Python的pandas库进行数据读取和初步分析，通过isnull()函数可以快速找出数据中的缺失值，并使用sum()函数统计每列缺失值的数量。在对上证指数和深圳成指的日收盘价数据进行处理时，发现存在少量交易日的收盘价缺失情况。针对这些缺失值，采用线性插值法进行填补。线性插值法的原理是根据缺失值前后已知数据点的线性关系来估计缺失值。对于某一缺失的上证指数收盘价，利用其前一个交易日和后一个交易日的收盘价，通过线性插值公式P_{missing}=P_{previous}+\frac{(P_{next}-P_{previous})}{n+1}\timesm（其中P_{missing}为缺失值，P_{previous}和P_{next}分别为缺失值前后的已知价格，n为缺失值前后已知数据点之间的间隔天数，m为缺失值距离前一个已知数据点的天数）进行计算，从而得到较为合理的估计值。这种方法在数据缺失较少且数据具有一定连续性的情况下，能够较好地保持数据的原有趋势和特征。异常值的处理同样不可或缺，异常值可能是由于数据录入错误、交易系统故障或极端市场事件等原因导致的，会对数据分析结果产生较大干扰。采用基于统计方法的3σ原则来识别异常值。3σ原则基于正态分布的特性，认为在正态分布的数据中，约99.7%的数据会落在均值加减3倍标准差的范围内，超出这个范围的数据点可被视为异常值。对于上证指数和深圳成指的收益率数据，计算其均值\mu和标准差\sigma，将收益率数据中大于\mu+3\sigma或小于\mu-3\sigma的数据点标记为异常值。在实际数据中，发现个别交易日的收益率出现了大幅偏离正常范围的情况，如某一交易日上证指数收益率达到了10%，远超正常波动范围，经进一步核实，确定是由于数据录入错误导致，将其作为异常值进行处理。对于识别出的异常值，采用中位数替代法进行修正。中位数是将数据从小到大排序后，位于中间位置的数值，它对极端值具有较强的稳健性。用中位数替代异常值，可以有效避免异常值对数据整体特征的影响，使数据更能反映市场的真实情况。3.2.2收益率计算为了更准确地分析股票市场的波动和相关性，采用对数收益率的计算方法。对数收益率能够更直观地反映股票价格的变化幅度，且在金融分析中具有更好的数学性质，能够有效避免简单收益率在连续复利计算时产生的误差。其计算公式为：r_t=\ln\left(\frac{P_t}{P_{t-1}}\right)其中，r_t表示第t期的对数收益率，P_t为第t期的股票价格，P_{t-1}为第t-1期的股票价格。通过对上证指数和深圳成指的日收盘价数据应用上述公式，计算出相应的对数收益率序列。对计算得到的收益率序列进行统计特征分析，有助于深入了解沪深股票市场的波动特性。均值反映了收益率的平均水平，标准差衡量了收益率的波动程度，偏度用于描述收益率分布的不对称性，峰度则刻画了收益率分布的尾部厚度。利用Python的numpy库和pandas库进行统计计算。通过mean()函数计算均值，std()函数计算标准差，skew()函数计算偏度，kurtosis()函数计算峰度。统计结果显示，上证指数对数收益率的均值约为0.0003，深圳成指对数收益率的均值约为0.0004，表明在研究期间内，两市平均每日有微小的正收益。上证指数对数收益率的标准差约为0.018，深圳成指对数收益率的标准差约为0.020，说明深圳成指的波动程度相对较大，市场风险相对较高。偏度方面，上证指数对数收益率的偏度为-0.35，深圳成指对数收益率的偏度为-0.38，均小于0，表明两市收益率分布呈现左偏态，即负收益的尾部较长，出现大幅下跌的概率相对较高。峰度方面，上证指数对数收益率的峰度为5.2，深圳成指对数收益率的峰度为5.5，均远大于3（正态分布的峰度为3），说明两市收益率分布具有明显的尖峰厚尾特征，极端事件发生的概率相对较高。这些统计特征反映了沪深股票市场的复杂性和风险性，为后续基于极值理论的分析提供了重要的基础信息。四、基于极值理论的边缘分布模型构建4.1GARCH族模型介绍4.1.1GARCH模型原理在金融时间序列分析中，GARCH（广义自回归条件异方差）模型占据着重要地位，被广泛应用于描述金融市场的波动性特征。该模型由Bollerslev于1986年提出，是对ARCH（自回归条件异方差）模型的重要扩展。GARCH模型的核心在于其能够有效捕捉金融时间序列的波动集簇性和异方差性。波动集簇性是指金融市场的波动往往呈现出聚集的现象，即大的波动后面往往跟着大的波动，小的波动后面往往跟着小的波动。在股票市场中，当市场出现重大利好或利空消息时，股价的波动会加剧，且这种较大的波动会持续一段时间，形成波动集簇。异方差性则表示金融时间序列的方差随时间变化而变化，并非固定不变。在不同的市场环境下，股票收益率的波动程度会有所不同，牛市时期收益率的波动相对较小，而熊市时期波动则明显增大。GARCH模型通常由均值方程和方差方程两部分组成。均值方程用于描述金融时间序列的均值部分，其形式较为灵活，可以根据数据的特点和研究目的选择合适的模型，如自回归（AR）模型、移动平均（MA）模型或自回归移动平均（ARMA）模型等。对于一些具有明显趋势性的数据，可能会选择带有趋势项的均值方程；对于平稳的数据，简单的常数均值方程可能就足够。方差方程是GARCH模型的关键部分，它用于刻画时间序列的条件异方差性，即波动性。一般形式的GARCH(p,q)模型的方差方程可以表示为：\sigma_t^2=\omega+\sum_{i=1}^{p}\alpha_i\epsilon_{t-i}^2+\sum_{j=1}^{q}\beta_j\sigma_{t-j}^2其中，\sigma_t^2是t时刻的条件方差，代表了t时刻的波动性；\epsilon_{t-i}是t-i时刻的残差项，反映了t-i时刻的波动信息；\alpha_i和\beta_j是模型的参数，分别表示ARCH项（自回归条件异方差项）和GARCH项（广义自回归条件异方差项）的系数；\omega是常数项。在这个方差方程中，\sum_{i=1}^{p}\alpha_i\epsilon_{t-i}^2为ARCH项，它体现了过去的波动对当前波动的影响，即过去的残差平方会影响当前的条件方差。如果\alpha_i的值较大，说明过去的波动对当前波动的影响较为显著，市场波动具有较强的持续性。\sum_{j=1}^{q}\beta_j\sigma_{t-j}^2为GARCH项，它表示过去的条件方差对当前条件方差的影响，反映了市场波动的长期记忆性。若\beta_j的值较大，表明市场波动的记忆性较强，过去的波动状态会持续影响未来的波动。常数项\omega则代表了无条件方差，是市场波动的一个基础水平。在对上证指数收益率进行建模时，通过估计得到GARCH(1,1)模型的参数\omega=0.00001，\alpha_1=0.1，\beta_1=0.8。这意味着常数项\omega较小，说明市场的基础波动水平较低；\alpha_1=0.1表示过去一期的残差平方对当前条件方差有一定的影响，即过去一期的波动信息会在一定程度上传递到当前；\beta_1=0.8则表明过去一期的条件方差对当前条件方差的影响较大，市场波动具有较强的记忆性，过去的波动状态会持续影响当前的波动。为了求解GARCH模型的参数，通常采用极大似然估计法（MLE）。该方法基于残差项的分布（如标准正态分布、t分布或广义误差分布等）构建似然函数，通过最大化似然函数来找到最优的参数估计值。在实际应用中，还需要对估计得到的模型进行检验，如残差检验，以评估模型的拟合效果和预测能力。通过绘制残差的自相关函数图和偏自相关函数图，检查残差是否存在自相关；进行ARCH-LM检验，判断残差是否还存在ARCH效应。若模型通过检验，则可以使用它来进行时间序列数据的波动率预测和进一步的分析。4.1.2TGARCH模型改进尽管GARCH模型在描述金融时间序列的波动性方面取得了显著成效，但它存在一个局限性，即假设利好消息（正的收益率冲击）和利空消息（负的收益率冲击）对波动性的影响是对称的。在现实金融市场中，这种假设并不完全符合实际情况，市场往往呈现出波动的非对称性，即利好消息和利空消息对波动性的影响存在差异，这种现象被称为杠杆效应。当股票价格下跌（利空消息）时，投资者的恐慌情绪可能会加剧，导致市场波动性大幅增加；而当股票价格上涨（利好消息）时，波动性的增加幅度可能相对较小。为了更准确地刻画金融市场的这种波动非对称性，Zakoian于1990年提出了TGARCH（ThresholdGARCH）模型，也称为门限GARCH模型。该模型在GARCH模型的基础上进行了改进，引入了一个非对称项，以区分利好消息和利空消息对波动性的不同影响。TGARCH(p,q,r)模型的方差方程为：\sigma_t^2=\omega+\sum_{i=1}^{p}\alpha_i\epsilon_{t-i}^2+\sum_{j=1}^{q}\beta_j\sigma_{t-j}^2+\sum_{k=1}^{r}\gamma_k\epsilon_{t-k}^2I_{t-k}其中，\omega、\alpha_i、\beta_j的含义与GARCH模型中相同；\gamma_k是反映非对称性的参数；I_{t-k}是一个指示函数，当\epsilon_{t-k}\lt0时，I_{t-k}=1，表示利空消息；当\epsilon_{t-k}\geq0时，I_{t-k}=0，表示利好消息。在这个方差方程中，\sum_{k=1}^{r}\gamma_k\epsilon_{t-k}^2I_{t-k}为非对称项。当\gamma_k\gt0时，说明利空消息对波动性的影响大于利好消息。在某一股票市场的分析中，估计得到TGARCH(1,1,1)模型的参数\gamma_1=0.2，这表明当出现利空消息时，其对条件方差的影响会额外增加0.2倍的\epsilon_{t-1}^2，而利好消息则仅通过\alpha_1\epsilon_{t-1}^2影响条件方差，体现了利空消息对波动性的更大冲击。通过引入非对称项，TGARCH模型能够更准确地捕捉金融市场的波动特征，尤其是在描述杠杆效应方面具有明显优势。在实证研究中，对沪深股票市场的收益率数据进行分析时，发现TGARCH模型的拟合效果明显优于GARCH模型。通过比较两者的对数似然值、AIC信息准则和BIC信息准则等指标，TGARCH模型的对数似然值更高，AIC和BIC值更小，说明TGARCH模型能够更好地拟合数据，更准确地反映市场的波动非对称性，为投资者和金融机构提供更可靠的风险评估和预测依据。4.2POT模型与极值阈值确定4.2.1POT模型原理POT（PeaksOverThreshold）模型作为极值理论中的重要模型，主要针对超过某一阈值的数据进行建模，在金融风险度量领域具有重要应用。其核心思想基于这样一个假设：当阈值足够大时，超过该阈值的数据服从广义帕累托分布（GPD）。假设X_1,X_2,\cdots,X_n是独立同分布的随机变量，u为设定的阈值，超过阈值u的样本个数为n_u，样本超阈值y_i表示为y_i=X_i-u，i=1,2,\cdots,n_u。超过该阈值的条件超额分布函数（CEDF）为F_u(y)=P(X-u\leqy|X\gtu)。通过对条件超额分布函数的变换，可以得到超过阈值的金融资产回报尾部的分布。Balkema和deHaan以及Pickands的研究成果表明，当阈值u充分大时，多数未知分布函数的条件超额分布F_u(y)可由广义帕累托分布很好地近似。广义帕累托分布的分布函数为：G_{\xi,\beta}(y)=\begin{cases}1-(1+\xi\frac{y}{\beta})^{-\frac{1}{\xi}},\xi\neq0\\1-\exp(-\frac{y}{\beta}),\xi=0\end{cases}其中，\beta\gt0是分布的尺度参数，\xi是重要的形状参数。当\xi\gt0时，分布为厚尾分布，且尾部随着形状参数\xi的增加而变厚，这种厚尾特性与金融市场收益率数据的实际特征相契合，能够更准确地描述金融市场中极端事件发生的概率和潜在损失。在股票市场中，极端的涨跌事件虽然发生概率较低，但一旦发生，往往会带来巨大的影响，POT模型通过对这些极端值的建模，可以有效地估计极端事件发生时的风险。在实际应用中，POT模型的优势在于它能够充分利用超过阈值的数据信息，避免了对整个数据分布进行假设所带来的误差。与传统的风险度量方法相比，POT模型不依赖于数据的整体分布，而是专注于分布的尾部，因此在处理具有厚尾特征的金融数据时，能够提供更准确的风险评估。在计算风险价值（VaR）和条件风险价值（CVaR）等风险度量指标时，POT模型可以更精确地估计极端损失的概率和程度，为投资者和金融机构制定风险管理策略提供更可靠的依据。为了应用POT模型，需要对模型中的参数\xi和\beta进行估计。常用的估计方法包括极大似然估计法、矩估计法和概率加权矩方法等。极大似然估计法通过构建似然函数，寻找使似然函数达到最大值的参数估计值，能够充分利用数据信息，得到较为准确的参数估计。在对沪深股票市场收益率数据进行分析时，运用极大似然估计法估计POT模型的参数，能够更好地拟合数据的尾部特征，提高风险度量的准确性。4.2.2极值阈值确定方法在应用POT模型时，极值阈值的确定至关重要，它直接影响到模型的准确性和可靠性。如果阈值选择过高，会导致用于建模的数据量过少，参数估计的稳定性较差；如果阈值选择过低，又会包含过多非极端值的数据，影响对极端事件的准确描述。因此，需要采用合理的方法来确定合适的阈值。Hill图法是一种常用的阈值确定方法。该方法基于Hill估计量，通过绘制Hill估计量随阈值变化的曲线，寻找曲线趋于平稳的点来确定阈值。Hill估计量的计算公式为：H_k(u)=\frac{1}{k}\sum_{i=1}^{k}\ln\frac{X_{(n-i+1)}}{X_{(n-k)}}其中，X_{(1)}\leqX_{(2)}\leq\cdots\leqX_{(n)}是样本数据的升序排列，k是选取的极端值个数，u=X_{(n-k)}为阈值。在实际操作中，从样本数据的最大值开始，逐步减小阈值，计算相应的Hill估计量，并绘制Hill图。当Hill图中的曲线在某一阈值附近趋于平稳时，说明该阈值能够较好地分离出极端值，可将其作为POT模型的阈值。在对上证指数收益率数据进行分析时，绘制Hill图发现，当阈值在-0.05左右时，Hill估计量曲线趋于平稳，因此可将-0.05作为初步确定的阈值。平均剩余寿命图法也是一种有效的阈值确定方法。平均剩余寿命函数的定义为：e(u)=E(X-u|X\gtu)它表示超过阈值u的数据的平均剩余寿命。当数据服从广义帕累托分布时，平均剩余寿命函数e(u)与阈值u呈线性关系。通过绘制平均剩余寿命图，即e(u)随u变化的曲线，寻找曲线呈现线性关系的起始点作为阈值。在对深圳成指收益率数据进行处理时，绘制平均剩余寿命图，观察到当阈值约为-0.04时，曲线开始呈现明显的线性关系，因此可将-0.04确定为该数据的阈值。在实际应用中，为了确保阈值的准确性和可靠性，通常会结合多种方法进行综合判断。除了Hill图法和平均剩余寿命图法外，还可以参考其他统计指标和图形分析，如QQ图、PP图等。通过对不同方法得到的阈值进行比较和验证，选择最适合数据特征的阈值，以提高POT模型的性能和风险度量的准确性。4.3基于TGARCH-POT模型的边缘分布构建4.3.1模型参数估计在构建基于TGARCH-POT模型的边缘分布时，模型参数估计是关键步骤。首先，对TGARCH模型部分，运用极大似然估计法（MLE）来估计其参数。极大似然估计法的核心思想是寻找一组参数值，使得在这组参数下，观测数据出现的概率达到最大。假设TGARCH(p,q,r)模型的均值方程为r_t=\mu+\sum_{i=1}^{m}\varphi_ir_{t-i}+\epsilon_t，其中r_t为t时刻的收益率，\mu为常数项，\varphi_i为自回归系数，\epsilon_t为误差项。方差方程为\sigma_t^2=\omega+\sum_{i=1}^{p}\alpha_i\epsilon_{t-i}^2+\sum_{j=1}^{q}\beta_j\sigma_{t-j}^2+\sum_{k=1}^{r}\gamma_k\epsilon_{t-k}^2I_{t-k}。为了进行极大似然估计，首先需要假设误差项\epsilon_t的分布，常见的假设分布有标准正态分布、t分布或广义误差分布等。在本研究中，由于金融市场收益率数据通常具有尖峰厚尾的特征，t分布能够更好地拟合这种特征，因此假设\epsilon_t服从t分布。基于t分布的假设，构建似然函数L(\theta)，其中\theta=(\mu,\varphi_1,\cdots,\varphi_m,\omega,\alpha_1,\cdots,\alpha_p,\beta_1,\cdots,\beta_q,\gamma_1,\cdots,\gamma_r)为待估计的参数向量。似然函数的构建基于t分布的概率密度函数f(\epsilon_t|\theta)，对于独立同分布的观测数据r_1,r_2,\cdots,r_n，其似然函数为L(\theta)=\prod_{t=1}^{n}f(\epsilon_t|\theta)。通过最大化似然函数L(\theta)来求解参数\theta。在实际计算中，通常对似然函数取对数，得到对数似然函数\lnL(\theta)，这样可以简化计算过程。利用数值优化算法，如BFGS算法（Broyden-Fletcher-Goldfarb-Shannoalgorithm），来寻找使对数似然函数达到最大值的参数估计值。BFGS算法是一种拟牛顿法，它通过迭代的方式不断更新参数估计值，在每次迭代中利用目标函数的梯度信息来逼近海森矩阵的逆，从而更快地收敛到最优解。在对上证指数收益率数据进行TGARCH(1,1,1)模型参数估计时，经过多次迭代计算，得到参数估计值为\mu=0.0005，\varphi_1=0.1，\omega=0.00001，\alpha_1=0.15，\beta_1=0.7，\gamma_1=0.2。其中，\gamma_1=0.2表明利空消息对波动性的影响比利好消息更大，当出现利空消息时，条件方差会受到额外的正向影响，这符合金融市场中常见的杠杆效应。对于POT模型部分，在确定了极值阈值u后，采用极大似然估计法估计广义帕累托分布（GPD）的参数\xi和\beta。假设超过阈值u的超额值y_i=x_i-u服从广义帕累托分布，其概率密度函数为f(y;\xi,\beta)=\frac{1}{\beta}\left(1+\frac{\xiy}{\beta}\right)^{-\frac{1}{\xi}-1}，当\xi\neq0时；f(y;\beta)=\frac{1}{\beta}\exp\left(-\frac{y}{\beta}\right)，当\xi=0时。构建关于参数\xi和\beta的似然函数L(\xi,\beta)=\prod_{i=1}^{n_u}f(y_i;\xi,\beta)，其中n_u为超过阈值u的样本数量。同样对似然函数取对数，得到对数似然函数\lnL(\xi,\beta)，然后利用数值优化算法求解使对数似然函数最大的\xi和\beta估计值。在对深圳成指收益率数据进行POT模型参数估计时，假设阈值u=-0.04，经过计算得到\xi=0.3，\beta=0.02。\xi=0.3\gt0，说明广义帕累托分布为厚尾分布，能够较好地刻画深圳成指收益率数据的尾部特征，即极端事件发生的概率相对较高。4.3.2模型检验与评估在完成TGARCH-POT模型的参数估计后，需要对模型进行检验与评估，以确定模型对数据的拟合效果和可靠性。回测检验是一种常用的模型评估方法，通过将模型预测结果与实际数据进行对比，评估模型在不同市场条件下的预测能力。在回测检验中，将样本数据划分为训练集和测试集，利用训练集数据估计TGARCH-POT模型的参数，然后使用估计好的模型对测试集数据进行预测，并将预测结果与测试集的实际收益率数据进行比较。计算预测误差指标，如均方根误差（RMSE）、平均绝对误差（MAE）等，来衡量模型的预测精度。均方根误差的计算公式为RMSE=\sqrt{\frac{1}{n}\sum_{t=1}^{n}(r_t-\hat{r}_t)^2}，其中r_t为实际收益率，\hat{r}_t为模型预测的收益率，n为测试集样本数量。平均绝对误差的计算公式为MAE=\frac{1}{n}\sum_{t=1}^{n}|r_t-\hat{r}_t|。RMSE和MAE的值越小，说明模型的预测精度越高。对上证指数收益率数据进行回测检验，将2000年1月1日至2018年12月31日的数据作为训练集，2019年1月1日至2023年12月31日的数据作为测试集。经过计算，基于TGARCH-POT模型的预测结果的RMSE为0.015，MAE为0.012。这表明模型在预测上证指数收益率时具有一定的精度，但仍存在一定的误差，可能是由于市场的复杂性和不确定性导致的。K-S检验（Kolmogorov-Smirnovtest）是一种非参数检验方法，用于检验样本数据是否来自某一特定分布，在本研究中用于检验模型拟合后的残差是否服从假设的分布（如t分布）。其基本原理是通过比较样本数据的经验分布函数与假设分布的理论分布函数之间的最大差异来判断样本是否来自该分布。计算K-S检验统计量D=\max_{x}|F_n(x)-F(x)|，其中F_n(x)为样本数据的经验分布函数，F(x)为假设分布的理论分布函数。根据给定的显著性水平（如0.05），查K-S检验的临界值表，若D小于临界值，则接受原假设，认为样本数据服从假设的分布；若D大于临界值，则拒绝原假设，说明样本数据不服从假设的分布。对深圳成指收益率数据进行K-S检验，检验模型拟合后的残差是否服从t分布。计算得到K-S检验统计量D=0.02，在显著性水平为0.05时，临界值为0.03。由于D\lt0.03，接受原假设，说明模型拟合后的残差服从t分布，模型对数据的拟合效果较好。除了回测检验和K-S检验外，还可以通过其他方法对模型进行评估，如绘制残差图，观察残差是否存在自相关、异方差等问题；计算模型的信息准则，如AIC（AkaikeInformationCriterion）和BIC（BayesianInformationCriterion），AIC和BIC值越小，说明模型的拟合效果越好。通过综合运用多种检验和评估方法，可以更全面、准确地评估TGARCH-POT模型对沪深股票市场收益率数据的拟合效果和可靠性。五、沪深股票市场相关性的Copula模型分析5.1常见Copula函数介绍5.1.1GumbelCopula函数GumbelCopula函数在刻画变量间的上尾相关性方面具有独特优势，在沪深股票市场相关性分析中具有重要应用价值。其分布函数表达式为：C(u,v;\theta)=\exp\left\{-\left[(-\lnu)^{\theta}+(-\lnv)^{\theta}\right]^{\frac{1}{\theta}}\right\}其中，u和v分别是两个随机变量的边缘分布函数值，\theta\geq1为参数，该参数决定了变量之间相关性的强度。GumbelCopula函数的一个显著特点是能够准确捕捉到变量在极端情况下的上尾相依性。当\theta增大时，变量之间的上尾相关性增强。在沪深股票市场中，这意味着当市场处于极端上涨行情时，使用GumbelCopula函数可以更准确地描述两只股票或指数同时出现大幅上涨的概率和相关程度。在2015年上半年的牛市行情中，上证指数和深圳成指都经历了快速上涨，通过GumbelCopula函数分析发现，两者在极端上涨情况下的相关性显著增强，这为投资者在牛市中把握市场趋势、制定投资策略提供了重要依据。从数学原理上看，GumbelCopula函数的上尾相关系数\lambda_{U}可通过公式计算得到\lambda_{U}=2-2^{\frac{1}{\theta}}。当\theta趋近于1时，\lambda_{U}趋近于0，表示上尾相关性较弱；当\theta趋近于正无穷时，\lambda_{U}趋近于1，表示上尾相关性极强。这种数学特性使得GumbelCopula函数能够灵活地反映不同程度的上尾相关性。在实际应用中，GumbelCopula函数的参数估计方法通常采用极大似然估计法。通过对沪深股票市场的历史收益率数据进行分析，利用极大似然估计法可以得到GumbelCopula函数的参数\theta的估计值，进而根据该估计值来评估市场的上尾相关性。在对某两只沪深股票的收益率数据进行分析时，通过极大似然估计得到\theta=2，代入上尾相关系数公式计算得到\lambda_{U}=2-2^{\frac{1}{2}}\approx0.59，表明这两只股票在极端上涨情况下存在较强的相关性。5.1.2ClaytonCopula函数ClaytonCopula函数在描述变量的下尾相关性方面具有独特的特性，特别适用于分析金融市场中资产在市场下跌时的相关性，对于沪深股票市场风险评估和投资决策具有重要意义。其分布函数为：C(u,v;\theta)=\left(u^{-\theta}+v^{-\theta}-1\right)^{-\frac{1}{\theta}}其中，u和v分别为两个随机变量的边缘分布函数值，\theta\gt0是控制相关性强度的参数。ClaytonCopula函数的下尾相关性是其重要特征。当下尾相关系数\lambda_{L}可通过公式\lambda_{L}=2^{-\frac{1}{\theta}}计算得到。当\theta增大时，\lambda_{L}增大，意味着下尾相关性增强。在沪深股票市场中，这表明当市场出现大幅下跌时，使用ClaytonCopula函数能够更准确地刻画两只股票或指数同时出现大幅下跌的概率和相关程度。在2008年全球金融危机期间，沪深股票市场均出现了大幅下跌，通过ClaytonCopula函数分析发现，两市指数在极端下跌情况下的相关性显著增强，许多股票同时遭受重创，这体现了市场风险在下跌行情中的高度传染性。从实际应用角度来看，ClaytonCopula函数在投资组合风险管理中具有重要作用。投资者可以利用该函数评估投资组合在市场下跌时的风险状况，通过分析不同股票之间的下尾相关性，合理调整投资组合的构成，降低整体风险。在构建投资组合时，如果两只股票在市场下跌时具有较强的下尾相关性，那么同时持有这两只股票可能会增加投资组合在市场下跌时的损失风险。通过ClaytonCopula函数的分析，投资者可以选择下尾相关性较低的股票进行组合，从而在一定程度上分散风险。在参数估计方面，通常采用极大似然估计法来确定ClaytonCopula函数的参数\theta。通过对沪深股票市场的历史收益率数据进行分析，利用极大似然估计法可以得到参数\theta的估计值，进而准确评估市场的下尾相关性。在对沪深300指数和中证500指数的收益率数据进行分析时，通过极大似然估计得到\theta=3，代入下尾相关系数公式计算得到\lambda_{L}=2^{-\frac{1}{3}}\approx0.79，表明这两个指数在极端下跌情况下存在很强的相关性。5.1.3其他Copula函数除了GumbelCopula函数和ClaytonCopula函数外，FrankCopula函数在相关性分析中也具有重要特点和应用场景。FrankCopula函数的分布函数为：C(u,v;\theta)=-\frac{1}{\theta}\ln\left(1+\frac{(e^{-\thetau}-1)(e^{-\thetav}-1)}{e^{-\theta}-1}\right)其中，u和v为两个随机变量的边缘分布函数值，\theta\neq0是参数。FrankCopula函数的一个显著特点是它具有对称性，即它对变量的上尾和下尾相关性的刻画能力较为均衡。与GumbelCopula函数侧重于上尾相关性、ClaytonCopula函数侧重于下尾相关性不同，FrankCopula函数在描述变量之间的整体相关性方面具有一定优势。当分析沪深股票市场中一些股票的相关性时，如果这些股票在市场上涨和下跌时的相关性变化相对较为平稳，没有明显的上尾或下尾相关性偏好，那么FrankCopula函数可能更适合用于描述它们之间的相关结构。从数学性质上看，FrankCopula函数的相关系数与参数\theta密切相关。当\theta\gt0时，变量之间呈现正相关；当\theta\lt0时，变量之间呈现负相关。通过调整参数\theta的值，可以灵活地描述不同强度和方向的相关性。在对某两只沪深股票的收益率数据进行分析时，通过极大似然估计得到FrankCopula函数的参数\theta=2，表明这两只股票呈现正相关关系，且通过进一步计算相关系数，可以准确评估它们之间的相关程度。在实际应用中，FrankCopula函数在金融风险管理和投资组合优化中也有广泛应用。它可以帮助投资者更全面地了解资产之间的相关性，从而更合理地构建投资组合。在考虑投资多只沪深股票时，利用FrankCopula函数分析它们之间的相关性，可以综合考虑股票在不同市场条件下的关联程度，避免因只关注上尾或下尾相关性而导致投资决策的片面性。5.2Copula函数参数估计与选择5.2.1参数估计方法在沪深股票市场相关性分析中，Copula函数的参数估计对于准确刻画市场相关结构至关重要。本研究采用极大似然估计法对Copula函数参数进行估计，该方法基于样本数据，通过寻找使似然函数达到最大值的参数值，来确定Copula函数的参数。以GumbelCopula函数为例，其分布函数为C(u,v;\theta)=\exp\left\{-\left[(-\lnu)^{\theta}+(-\lnv)^{\theta}\right]^{\frac{1}{\theta}}\right\}，假设我们有n对样本数据(u_i,v_i)，i=1,2,\cdots,n，则似然函数L(\theta)为：L(\theta)=\prod_{i=1}^{n}c(u_i,v_i;\theta)其中，c(u_i,v_i;\theta)是GumbelCopula函数的概率密度函数，可通过对分布函数求偏导数得到：c(u,v;\theta)=\frac{1}{\theta}\left[(-\lnu)^{\theta}+(-\lnv)^{\theta}\right]^{\frac{1}{\theta}-1}\left[(-\lnu)^{\theta-1}u^{-1}+(-\lnv)^{\theta-1}v^{-1}\right]\exp\left\{-\left[(-\lnu)^{\theta}+(-\lnv)^{\theta}\right]^{\frac{1}{\theta}}\right\}通过对似然函数L(\theta)取对数，得到对数似然函数\lnL(\theta)，然后利用数值优化算法，如BFGS算法（Broyden-Fletcher-Goldfarb-Shannoalgorithm），来寻找使对数似然函数达到最大值的参数\theta的估计值。在实际计算中，通过不断迭代调整参数值，使得对数似然函数逐渐逼近最大值，从而得到最优的参数估计。除了极大似然估计法，贝叶斯估计法也在Copula函数参数估计中具有重要应用。贝叶斯估计法将参数视为随机变量，在参数估计过程中引入先验信息，通过贝叶斯公式将先验分布与样本信息相结合，得到参数的后验分布。对于Copula函数的参数\theta，假设其先验分布为p(\theta)，根据贝叶斯公式，后验分布p(\theta|D)为：p(\theta|D)=\frac{p(D|\theta)p(\theta)}{\intp(D|\theta)p(\theta)d\theta}其中，p(D|\theta)是似然函数，D表示样本数据。在实际应用中，先验分布的选择会对后验分布产生影响，常见的先验分布有均匀分布、正态分布等。选择合适的先验分布需要综合考虑问题的背景和已有知识。若对参数的取值范围有一定的先验了解，可以选择在该范围内具有较高概率密度的先验分布。在对沪深股票市场相关性分析中，如果以往的研究表明Copula函数的某个参数通常在一定区间内取值，就可以选择在该区间上具有较大概率密度的先验分布。通过贝叶斯估计法得到的参数后验分布，能够更全面地反映参数的不确定性，为风险评估和决策提供更丰富的信息。与极大似然估计法相比，贝叶斯估计法在数据量较少或对参数有一定先验信息时，能够得到更合理的参数估计结果。在金融市场数据有限的情况下，贝叶斯估计法可以利用先验信息，避免因数据不足导致的参数估计偏差。5.2.2最优Copula函数选择为了确定最适合描述沪深股市相关性的Copula函数，本研究运用AIC（AkaikeInformationCriterion）和BIC（BayesianInformationCriterion）等信息准则进行模型选择。AIC准则通过权衡模型的拟合优度和复杂度，选择使AIC值最小的模型作为最优模型。其计算公式为：AIC=-2\lnL+2k其中，\lnL是对数似然函数值，反映了模型对数据的拟合程度，对数似然函数值越大，说明模型对数据的拟合效果越好；k是模型中参数的个数，代表模型的复杂度，参数个数越多，模型越复杂。在比较不同Copula函数时，计算它们的AIC值，AIC值越小，表明模型在拟合数据和模型复杂度之间达到了较好的平衡，更适合描述沪深股市的相关性。BIC准则与AIC准则类似，但BIC在计算时对模型复杂度的惩罚更重，其计算公式为：BIC=-2\lnL+k\lnn其中，n为样本数量。BIC准则更倾向于选择简单的模型，在样本数量较大时，BIC对模型复杂度的惩罚作用更加明显。当有多个Copula函数可供选择时，分别计算它们的BIC值，BIC值最小的Copula函数被认为是最优模型。在对沪深股票市场数据进行分析时，分别计算GumbelCopula、ClaytonCopula、FrankCopula等函数的AIC和BIC值。假设经过计算，GumbelCopula函数的AIC值为300，BIC值为310；ClaytonCopula函数的AIC值为320，BIC值为335；FrankCopula函数的AIC值为315，BIC值为328。根据AIC准则，GumbelCopula函数的AIC值最小，表明它在拟合数据和模型复杂度之间的平衡较好；根据BIC准则，GumbelCopula函数的BIC值也相对较小，说明它是相对简单且拟合效果较好的模型。综合AIC和BIC准则，选择GumbelCopula函数作为描述沪深股市相关性的最优Copula函数。通过这种方式，可以确保选择的Copula函数能够更准确地刻画沪深股票市场的相关结构，为后续的风险评估和投资决策提供更可靠的依据。5.3基于Copula模型的相关性分析结果5.3.1相关性度量指标计算为了深入分析沪深股票市场的相关性，本研究计算了肯德尔秩相关系数（Kendall'sTau）和斯皮尔曼等级相关系数（Spearman'sRho）。肯德尔秩相关系数是一种非参数的秩统计量，用于衡量两个变量之间的单调关系，其取值范围在-1到1之间。当Kendall'sTau为1时，表示两个变量完全正相关，即一个变量增加时，另一个变量也随之单调增加；当Kendall'sTau为-1时，表示两个变量完全负相关；当Kendall'sTau为0时，则表示两个变量之间不存在单调关系。其计算公式为：\tau=\frac{2}{n(n-1)}\sum_{1\leqi\ltj\leqn}\text{sgn}(x_j-x_i)\text{sgn}(y_j-y_i)其中，n为样本数量，x_i和y_i分别为两个变量的第i个观测值，\text{sgn}(\cdot)为符号函数，当x\gt0时，\text{sgn}(x)=1；当x=0时，\text{sgn}(x)=0；当x\lt0时，\text{sgn}(x)=-1。斯皮尔曼等级相关系数同样是一种非参数的相关性度量方法，它基于变量的秩次来计算相关性，能够反映变量之间的单调关系，取值范围也在-1到1之间。其计算公式为：\rho_s=1-\frac{6\sum_{i=1}^{n}d_i^2}{n(n^2-1)}其中，d_i为两个变量x和y的秩次之差，n为样本数量。通过对2000年1月1日至2023年12月31日的上证指数和深圳成指日收益率数据进行计算，得到肯德尔秩相关系数约为0.75，斯皮尔曼等级相关系数约为0.82。这两个系数均处于较高水平，且接近1，表明沪深股票市场之间存在较强的正相关性。在实际市场中，当上证指数上涨时，深圳成指也大概率上涨；当上证指数下跌时，深圳成指也往往会跟随下跌

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

基于极值理论的沪深股票市场相关性的深度剖析与实证研究

文档简介

温馨提示

最新文档

评论

基于极值理论的沪深股票市场相关性的深度剖析与实证研究

文档简介

温馨提示

最新文档

评论

相关文档