华乐网
当前位置: 首页 >头条 >财经 >正文

协方差矩阵的估计和评价方法

2018-03-25 22:35    

协方差矩阵的估计在量化投资中有广泛的应用,许多量化策略都会使用到协方差矩阵(或其逆矩阵)。例如多因子选股中,最大化复合因子IC_IR的加权方式会用到因子IC序列协方差矩阵的逆;在组合优化中,需要使用股票收益率序列的协方差矩阵来估计组合未来的波动率。样本协方差是一种简单常用的估计方法。然而,由于可取样本的限制,资产的数量通常会大于样本数量,而在这种情况下,样本协方差矩阵是不可逆的,并且存在较大的估计误差。工欲善其事,必先利其器,如何准确估计协方差矩阵是一个很重要的议题。本文梳理了常用的协方差估计方法,然后在一套新的评价体系下比较了不同协方差的估计效果,供投资者参考。

本文首先梳理了常见的协方差矩阵估计方法(如图1所示),包括其假设、原理、计算方法、优势与缺陷等。

其次,本文为协方差估计量的比较确定了一个相对合理的标准。常用的评价标准如均方根误差、最小方差组合等都存在一定的缺陷,不能较好地反应协方差矩阵所蕴含的关于组合风险的信息,因此本文采用了一种基于组合风险的度量方法(特征距离),来比较各种协方差矩阵估计量的好坏。

下面首先对各种协方差估计方法进行介绍。为了便于表示,本文统一以矩阵X(N×T)表示N个变量的T个样本(即N个资产T期的收益率序列)。

样本协方差

1

样本协方差存在的问题

在收益率服从正态分布的假设下,样本协方差是无偏的极大似然估计量,即给定数据下最可能的参数,也就是说“完全让数据说话”。在估计参数时,如果样本数量足够大,那么样本协方差具有良好的性质。而在小样本下,使用该估计量可能会出现过拟合。

2

协方差估计的改进思路

从以上分析可以看到,由于样本数量的限制,样本协方差矩阵具有不可逆以及估计误差较大两个主要的缺陷。

面对这个问题,一个很直接的解决方法是增加样本容量。这两个问题都与样本数量少于股票数量有关,因此可以考虑通过使用较高频或者较长时间区间的数据。然而,这种方法在实际投资中的作用是有限的。

首先,使用较高频的数据可能会带一些与市场微观结构相关的问题;此外,由于组合的调整频率通常较低,使用高频数据获得的协方差矩阵并不适宜作为组合管理的输入。

其次,通过增加时间区间而获得更多的样本也可能存在一些问题。较长时间之前的样本包含的信息可能具有一定的滞后性,当股票收益率序列非平稳时,使用滞后信息估计协方差矩阵会造成较大的偏差。

因而,单纯地试图通过增加样本容量来改善样本协方差是不够的,要想获得更合适的协方差估计,应当从估计方法的改善上入手。

应对估计误差常见的方法是在在估计过程中使用一定的结构化模型,但是这在减小估计误差的同时,也会引入设定偏差。与其他估计量一样,协方差矩阵的估计也不可避免地包含误差,然而估计误差与设定偏差是有区别的。估计误差通常出现在样本数量与待估参数相比数量不够大时,而设定偏差指对模型结构进行假设时存在的偏差。在估计误差与设定偏差之间存在一定的权衡,而我们希望在减少协方差矩阵估计误差的同时,不要引入太多的设定偏差。

在实务中常见的改进股票收益率协方差估计的方法有因子模型、压缩估计、随机矩阵理论模型等。

(1)因子模型

前文提到,可以通过给协方差矩阵加以一定的结构,从而减少数据的维数,降低估计误差。这种结构可以来源于因子模型,如单一指数模型(市场模型)、多因子模型(行业因子、宏观因子、基本面因子、统计因子)。然而,因子模型的缺陷在于,关于模型中应当包含几个因子、包含哪些因子并没有统一的标准。因而,并不能提前知晓在特定环境下应该使用什么模型,这就使得因子模型的设置往往具有一定的“艺术性”。

(2)压缩估计

为了避免因子模型中的因子选择问题,可以将样本协方差矩阵与其他结构化模型进行加权,以此来设定结构。如Ledoit& Wolf(2003)压缩估计,估计量组合等。

(3)随机矩阵理论模型

除了在估计中引入结构化,也可以根据随机矩阵理论来分离样本协方差矩阵中的信息与噪声,即通过调整相关系数矩阵的特征根来降低协方差矩阵的估计误差。

下面就详细介绍这几类模型的估计方法。

因子模型

因子模型认为有一些公共的因子驱动了资产的收益率,从而使得资产的收益率之间产生联系。因子模型能够减少协方差矩阵估计的维度。常见的有单因子模型(市场模型)和多因子模型。

1

市场模型

1.1 无调整Beta模型

1.2 Blume调整Beta模型

1.3 Vasicek调整Beta模型

2

多因子模型

因子模型都包含一定的结构化假设,因子越少,结构越强。市场模型是建立在资本资产定价模型(CapitalAsset Pricing Model, CAPM)的基础上,模型中仅包含市场因子,这种较强的假设可能引入较大的模型设定偏差。因此,在使用因子模型估计协方差矩阵时,实际上同时面临着估计误差和设定偏差两种误差。在结构化模型中增加因子可能减少模型的设定偏差,而根据套利定价模型(ArbitragePricing Theory, APT)建立的多因子模型就是一个选择。

多因子模型试图捕捉除了市场收益外的其他引起股票收益率相互联系的因素,如行业因子、宏观因子、基本面因子、统计因子(主成分因子)等。

2.1 基本形式与估计方法

使用多因子模型估计协方差矩阵需要估计因子暴露以及因子收益。在学术以及实务中,估计因子暴露及因子收益主要有两种方法,一种是Fama& French(1993)的时间序列回归,通过个股收益率序列对因子收益回归估计因子暴露;一种是横截面回归,在每一期通过个股收益率对因子暴露回归,估计因子收益。

在时间序列回归的估计窗口内,因子暴露是固定的,而因子收益是变化的。因此,这样估计得到的因子暴露对于市场的变化反应较慢。而在横截面回归中,因子暴露会根据公司特征的变化而及时变化。对于基本面因子模型,两种方法都具有一定的适用性,时间序列回归方法在学术论文中比较常见,而商业中使用较多的是横截面回归,如Barra风险模型。对于宏观因子模型,时间序列回归方法更加适用。

虽然多因子模型是一种常用的降维方法,但是关于因子的内涵以及模型中因子的数目尚未形成共识。因此,难以确定应当使用的多因子模型。虽然增加因子的数量能够提高模型样本内的解释力度,但是会降低其对样本外协方差的预测能力。这使得多因子模型的建立与使用具有很大的“艺术性”。

下面具体介绍几种多因子模型的形式以及协方差矩阵的估计方法。

2.2 时间序列回归

下面首先介绍时间序列回归估计行业因子模型的方法。

同一行业的股票收益率更容易受到相同事件的影响,因此会更加相关。行业因子模型认为个股收益率受到市场收益率和所属行业收益率的驱动,而行业收益率与市场收益率及其他行业收益率不相关。为了避免回归模型中的多重共线性,可使用两步法估计行业因子模型。首先,各行业收益对市场收益进行回归,取其残差作为经市场收益调整的行业收益,即

2.3 横截面回归

横截面回归在每一期使用个股收益率对股票因子暴露进行横截面回归,从而得到因子收益序列。Barra风险模型使用了横截面回归的方法。在本报告中,使用横截面回归估计了两种多因子模型,分别为行业因子模型以及风格行业因子模型,其中风格行业因子模型中包含风格因子与行业因子,而行业因子模型中仅包含行业因子。下面以包含风格因子及行业因子的多因子模型为例,介绍以横截面回归估计因子收益的步骤。此处借鉴了Barra风险模型的方法,具体可参考Barra USE4(The Barra US Equity Model)、CNE5(The Barra China EquityModel)。

(1)因子收益的估计

(2)因子收益协方差矩阵的估计

(3)特质波动率的估计

3

主成分模型

压缩估计

1

Ledoit& Wolf压缩估计

关于压缩目标的选取,Lediot & Wolf(2003, 2004, 2004)使用了三种压缩目标,包括市场模型、单位矩阵及固定相关系数模型。理论上来讲,压缩目标的选取是不受限制的,因为在其推导过程没有用到关于压缩目标结构的假设,仅需满足压缩目标为有偏估计及其他较弱的假设。

2

估计量组合

与Lediot& Wolf压缩估计使用损失函数确定压缩强度的方法不同,估计量组合(Portfolioof estimators)对样本协方差及其他协方差估计量取等权平均。这是因为当对不同协方差估计量的估计误差知之甚少时,等权加权是一种相对保险的做法。估计量的等权加权避免了Ledoit& Wolf压缩估计量中求解最优压缩强度的问题,使用起来更加简便。

和Ledoit & Wolf压缩估计量一样,这种方法也是在估计误差与设定偏差之间取得平衡,认为其他协方差矩阵主要包含设定偏差,因此与含有估计误差的样本协方差平均后,可以提高估计量的整体效果。

3

小结

协方差压缩估计量实际上通过一种不同于因子模型的方式来增加结构化。因子模型的建立需要选取因子、计算因子、不断维护与更新,因而通过因子模型估计协方差矩阵的成本是较高的。此外,一些商业机构如APT、Barra开发的风险模型是保密并且需要付费使用的,因此外部的使用者难以知晓其具体的建模过程。而压缩估计量使用简便,能够避免因子模型存在的一些问题。

随机矩阵理论模型

随机矩阵理论(Random matrix theory)模型提供了一种去除样本协方差矩阵噪音的方法。根据随机矩阵理论,当股票数量相对于样本数量较大时,位于一定范围内的协方差矩阵特征根与完全随机的收益序列的协方差矩阵特征根相近。因此,通过对该特定范围内的特征根进行修正,可以提高样本协方差矩阵所包含的信息量。

其他方法

本节介绍一些其他的协方差估计方法,包括固定相关系数模型、时变模型、合成聚类模型。

1

固定相关系数模型

固定相关系数模型(Constant correlation model)假设股票之间的相关系数是相同的,并以所有股票间的样本相关系数的平均值作为固定相关系数的估计。平均相关系数为

2

时变模型

由于市场环境是不断变化的,因此收益率的协方差结构也会不断变化。传统的刻画协方差矩阵时变特征的模型如GARCH类模型等,需要估计的参数比较多,不适用于估计维数较高的股票协方差矩阵。因此,通常协方差模型中较少考虑协方差矩阵的时变性。RiskMetrics的指数加权移动平均值(Exponentiallyweighted moving average, EWMA)模型在估计方差及协方差时,给近期的股票收益率更多的权重,从而更加及时地反应市场的变化。该模型认为越陈旧的信息与未来股票收益率之间的关系越弱。RiskMetrics模型的关键在于衰减系数(Decayfactor)的选取。衰减系数越小,给与最新信息的权重越大。

然而,当股票数量多于样本数量时,RiskMetrics存在与样本协方差类似的问题,即估计误差以及不可逆。

3

合成聚类模型

合成聚类(Agglomerative hierarchicalclustering)根据不同元素间的相似性,将数据点中最为相似的两个元素进行组合,并反复迭代,从而生成一个有层次的聚类树。

具体过程如下:

1.每个元素都代表一个类别,根据两个元素时间序列间的相关系数确定元素的相似性,将相似性最高的两个元素合并为一类;

2.计算所有新的类别之间的相似性,将相似性最高的两个类别合并(不同的聚类方法在定义类别之间的距离时有所区别);

3.重复第2步直到所有元素都合并为一个类。

聚类树的各节点与连接其的两个元素之间的相关性有关,因而可以根据聚类树构建一个相关系数矩阵,并由此根据样本方差形成协方差矩阵。

协方差矩阵估计量的评价指标

协方差矩阵估计量的比较既与估计量本身有关,也与评价方法有关。

在学术论文中,常见的协方差估计量评价方法主要有统计类指标以及经济类指标。

1

统计类指标

统计类指标直接比较协方差矩阵在元素上的差别,如均方根误差(Root mean square error, RMSE),平均绝对误差(Mean absolute error, MAE)等。

统计类指标比较了协方差矩阵元素一对一的差距,但是忽略了协方差矩阵的结构所包含的信息。在实务中,使用协方差矩阵主要是为了获得关于风险的度量,而统计类指标并不能揭示与风险有关的信息.

2

经济类指标

经济类指标考察根据协方差矩阵估计量生成的组合的样本外表现。比如,比较组合在有效前沿上的位置,比较不同风险水平下组合的风险收益特征,比较最小方差组合(Minimumvariance portfolios, MVP)的实际波动性等。

与统计类指标相比,经济类指标与量化投资中应用协方差矩阵的目标更加一致,能够直接比较协方差矩阵在构建组合中的优劣。但是常见的MVP检验仅能够考察一个组合的表现,并且其检验与优化模型的设置、约束条件等有关,难以充分反应协方差矩阵蕴含的风险信息。

有研究使用组合优化的方法比较不同协方差矩阵相对于样本协方差的表现,然而,这种比较方法存在以下问题:

(1)样本协方差不可逆

不少文献中用于估计样本协方差的时间序列长度通常小于股票数量,即Q=N/T比值大于1。在这种情况下,样本协方差矩阵本身是不满秩的,在求解最小方差组合时,虽然可以通过广义逆矩阵(Generalizedinverse)来获得不满秩矩阵的逆,然而这样求得的解只是二次规划问题的一个解。而基于该结果比较协方差矩阵的效果,结论还是难以令人信服的。

(2)组合优化的约束条件

组合优化的约束条件如卖空限制、权重上限等也会影响对协方差矩阵的比较。由于较大的方差与协方差会求解出来负权重,即卖空,而卖空限制相当于将较大的方差和协方差向正常值压缩。因此,不同文献设置的优化模型也会影响协方差矩阵的相对表现。

因此,在组合优化中,协方差矩阵对组合优化结果的影响与估计量的选取、约束条件的设置、N/T比值等因素都有关。虽然改善协方差估计量主要是为了较好地控制组合的风险,但是由于影响组合优化结果的因素较为复杂,单纯从组合优化的结果来看并不能筛选出较好的估计量。

从以上分析可以看到,统计类指标与经济类指标都有其各自的局限性。鉴于此,为了更加合理地比较不同协方差估计量的差别,需要一种兼具统计意义与经济意义的评价方法,以相对全面地评估协方差矩阵所包含的风险信息。本文采用了Liu& Lan(2007)提出的一种基于协方差矩阵特征分解的评价指标,通过比较与两个协方差矩阵相关的组合风险所能够达到的最大差别,来比较不同的协方差估计方法。

3

基于特征距离的协方差矩阵估计量评价方法

3.1 特征距离的定义与含义

3.2 特征距离的计算

应用与实证

1

协方差估计量列表

表1列出了本文比较的协方差矩阵估计量。

其中,因子模型中的行业使用中信行业分类。具体地,在中信一级行业分类的基础上,采用中信二级行业分类进一步划分银行和非银金融行业,即将银行业分为国有银行和股份制与城商行,将非银行金融分为证券、保险和信托及其他,共计32个行业。

风格因子为从规模、技术反转、流动性、波动性、估值、成长、质量等7个维度选取的7个典型因子,如表2所示。

本文使用特征距离来比较各协方差估计方法。在每一期,比较各协方差矩阵估计量与下一期实际协方差矩阵之间的特征距离。该特征距离在推导中假设两个协方差矩阵都为正定矩阵,然而会存在协方差矩阵不满秩的情况,如样本协方差矩阵。因此在实际计算中,进行了如下调整:

2

实证结果分析

在实际应用中,通常需要估计全市场股票的协方差矩阵,因此本文比较了各种方法估计全市场股票协方差的效果。在每月最后一个交易日,根据过去250个交易日的日度数据估计股票收益率协方差矩阵,然后计算协方差矩阵估计量与下月实际收益率协方差矩阵的特征距离,回测区间是2010年1月-2017年10月。

在每一期,计算各协方差估计量与下期实际协方差矩阵之间的特征距离,如图3所示。其中下期实际协方差矩阵为下月日度收益率的样本协方差。为了便于展示,仅选取了部分协方差估计量。

可以看到,除了RiskMatrics及样本协方差以外,其他协方差矩阵估计量与下期实际协方差之间的特征距离较为相近。

为了更加直观地比较各协方差估计量与下期实际协方差之间的特征距离,表3计算了各期特征距离的均值,即

可以看到,压缩估计、风格行业多因子模型估计量、随机矩阵理论模型相对优于市场模型、主成分模型、样本协方差及RiskMatrics等。

虽然均值可以比较出来各估计量的相对效果,但是在每一期估计协方差矩阵时,使用了相同的信息,而唯一的差别在于估计方法,因此更好的比较方法是成对地比较任意两种估计量在各期的差别。

可以发现:

1、整体来看,协方差估计效果从高到低排序为:Ledoit& Wolf压缩估计>估计量组合≈多因子模型>随机矩阵理论模型>市场模型>样本协方差>RiskMetrics。

2、在多因子模型中,表现排序为:风格及行业因子模型(横截面回归)>行业因子模型(时间序列估计)>主成分模型>行业因子模型(横截面回归)。

3、在Ledoit& Wolf压缩估计中,不同压缩目标的表现排序为:风格及行业因子模型(横截面回归)>行业因子模型(横截面回归)>固定相关系数模型≈对角阵>无调整Beta模型。

4、随机矩阵理论模型表现差于风格及行业因子模型(横截面回归),与行业因子模型(时间序列估计)及主成分模型接近。

实证结果表明,常用的Ledoit & Wolf压缩估计及包含风格及行业因子的多因子模型的表现较好。而以多因子模型为压缩目标的压缩估计量表现最好。然而,以多因子模型作为压缩目标与Ledoit& Wolf压缩估计的初衷并不太相符。使用多因子模型作为压缩目标既没有回避因子选取的问题,也没有简化运算,无法体现出压缩估计的优势。基于此,在实务中,本文较为推荐以固定相关系数或者对角阵为压缩目标的Ledoit& Wolf压缩估计,以及包含风格及行业因子的多因子模型。

协方差矩阵估计的一些补充说明

1

含有缺失值的样本协方差

由于股票停牌,股票收益率会出现缺失值,即样本矩阵中存在缺失值,这给样本协方差矩阵的计算带来一些问题。

首先,直接将包含空值的观测删掉是不合理的。

其次,如果用一对一对的变量来计算协方差,较为合理的方法是只保留两者都非缺失的观测,然后计算协方差,即

其中q为保留的观测数量。因此,在计算协方差矩阵中各元素时,分母中的观测数量q可能不完全相同。在这种情况下,得到的样本协方差可能会不是半正定的,即可能会出现负的特征根。这样估计得到的样本协方差矩阵虽然可以通过压缩估计、随机矩阵理论模型等方法来调整或者寻找与其最接近的半正定矩阵等方式,使其成为半正定矩阵,但是负特征根对样本协方差的影响是难以估计的。此外,当两个变量没有共同的观测时,会无法估计出协方差。因而,为了避免这个问题,可以选择填补空值,简单的方法是直接用0来填充,当然这也不可避免地会带来一些估计的误差。

实际上,有很多方法可以用来估计包含缺失值样本的协方差矩阵,较为常见的有多重填补(Multipleimputation)、全息极大似然估计(Full information maximumlikelihood)。当然,这些计算方法较为复杂,并且估计得到的样本协方差矩阵本身仍包含较多的估计误差。在实际应用中,可以根据需求选择合适的处理方法。

2

N/T比值对协方差估计量相对表现的影响

在比较协方差矩阵估计量时,还要注意到N/T比值对协方差矩阵相对表现的影响。例如,当N/T>1时,很多文献发现固定相关系数模型比样本协方差矩阵表现好,这可能由于股票数量多于时间序列样本数量,样本协方差包含较多估计偏差,因此简单的模型能够有效减少估计偏差。而在N/T<1时,有文献发现固定相关系数模型没有样本协方差矩阵表现好,这是由于此时时间序列样本量较多,过于简单的模型对于降低估计误差的作用不明显,并且会损失掉部分信息。

Pafka and Kondor(2003)使用模拟的方法,比较了不同N/T比值下协方差矩阵的相对表现,并发现:

1.当N/T<1时,不同协方差矩阵生成的最优组合在实际风险以及分散程度上差别不大。

2. 当N/T接近1时,组合的表现与模型中是否添加卖空限制条件有关。当允许卖空时,样本协方差矩阵生成的组合表现最差;而当限制卖空时,样本协方差矩阵与其他估计量生成的组合在风险方面非常相近。正如前文所述,卖空限制相当于对样本协方差矩阵进行修正。

3. 当N/T>1时,样本协方差估计的组合在风险上表现最差,而不论是否添加卖空限制,其它协方差估计量生成的组合都具有更好的风险特征。

品牌、内容合作请点这里: 寻求合作 ››

榜单

今日推荐