量化投资与机器学习微信公众号,是业内垂直于量化投资、对冲基金、Fintech、人工智能、大数据等领域的主流自媒体。公众号拥有来自公募、私募、券商、期货、银行、保险、高校等行业30W+关注者,荣获2021年度AMMA优秀品牌力、优秀洞察力大奖,连续2年被腾讯云+社区评选为“年度最佳作者”。
公众号遴选了各大期刊前沿论文,按照理解和提炼的方式为读者呈现每篇论文最精华的部分。QIML希望大家能够读到可以成长的量化文章,愿与你共同进步!
本期遴选论文 来源:The Journal of Investing Vol. 31, Issue 2 February 2022 标题:Study of Dynamic Multifactor Model Application In China A-Shares 作者:Ying Lan
核心观点
因子库及因子数据预处理
作者基于Ricequant和Wind数据库构建了五大类(价值、规模、质量、成长及技术指标)共计62个因子。每个大类大概有15个因子,这些因子涵盖了大部分常用的因子。部分因子如下表1,详细的62个月度因子定义见附录。
因子的方向也是根据因子的逻辑决定的,下表2列出了负向因子和双向因子。比如DAR是一个负向因子,因为逻辑上负债资产比率越高,股票的质量越低,收益率就越低。但像return_1M因子可能是双向的,正向代表动量效应,负向表示反转效应。
此次研究的股票池为沪深300指数成分股,一共包括2008年7月至2020年3月的670个股票。所有因子数据都经过了以下处理:
因子分析
因子分析主要是从时序截面等角度分析因子的IC值,文中的IC为Spearman相关系数,也就是我们常说的Rank IC。
时间序列分析
IC的时间序列能够展示出该因子预测能力的稳定性,表3给出了62个因子的IC的统计值。表4给出了每个分类下ICIR最大的因子的IC序列,可以看出即使ICIR最大的因子,也有可能在很长一段时间表现出不稳定性。
Gupta和Kelly(2019)在对全球市场65个常见因子的自相关性研究中发现了因子展现出强劲的一个月的因子动量。65个因子其中有59个因子的AR1(一阶自回归)为正,49个因子的一阶自回归系数统计上显著。所以,本文也对A股的62个因子进行了自回归测试,结果如图5和图6。其中图5是对因子IC序列进行自回归测试的结果,有43个因子IC的自回归系数为正。其中图6表示因子收益(每个因子多空组合的收益)自回归测试的结果,有47个因子的自回归系数为正。这说明A股存在因子动量和因子收益动量效应。
截面分析
虽然每个因子在时间序列预测能力方面表现出很大的差异,但对于整个研究期间的每个因子大类(风格),在大多数月份,每组内都存在有效因子(表7)。
这一发现表明,这些共同风格的因子大部分时间一般能够区分股票的表现水平;然而,内部风格定义的轮换可能会随着时间的推移而存在。例如,投资者一直在寻找高质量的公司。在经济扩张期间,他们可能会寻找质量因子,如资产收益率(ROA)或净资产收益率(ROE),但在经济低迷周期或流动性紧张时期,随着对破产的担忧加剧,债务与资产比率(DAR)等因子变得更有效。这揭示了A股稳健模型的重要性——识别市场变化和适应不断变化的市场机制的能力。
面板数据分析
在一段强劲的表现之后,因子的有效性会衰减或完全消失(Vopati et al.2020)。这是由于因子拥挤造成的。因子拥挤度可以通过一个月的因子横截面重要性与历史重要性滚动平均值的相对值来评估。由于因子库包含具有相似特征的因子,因此在测量因子拥挤度时可以将它们分组到不同的聚类中。
作者使用K-means,基于62个因子的IC序列,对它们进行聚类。K的数量取决于轮廓系数(silhouette)。silhouette系数是聚类效果好坏的一种评价方式。值越大,说明聚类效果越好。如图8,说明K等于30时聚类效果最好。
对于聚类在t时刻的重要性,用以下公式计算。也就是该时刻,所有聚类内因子IC的均值。
而因子k在t时刻的相对重要性(相对于过去12个月)等于:
其中,
我们发现因子的相对价值能够捕捉到因子的过度拥挤。研究期间,因子有76.5%可能的损失预测能力(单向因子的IC < 0.05或双向因子|IC | < 0.05 )。
通过以上的测试,对因子模型的构建得出了以下几个启发:
因子模型和组合优化
基于以上发现,我们构建了一个动态多因子模型(Model 1),除此之外还构建了三个用于对比的模型(Model2-Model4)。下面分别介绍一下这4个模型:
Model1 动态多因子模型
模型的整体流程如图10所示,具体说明如下:
1、因子预测能力过滤,考虑到因子动量效应,t-1时刻,在每个因子组内选择一个预测效果最好的因子(基于t-1时刻的因子Rank IC)。
2、预测能力持续性过滤(Predictive power persistency filtering),根据36个月滚动数据计算一阶马尔可夫链转移概率。对于一个因子,预测能力持续性过滤的条件是:正向因子 大于 1/3;负向因子 大于1/3;双向因子 或 大于1/3。每一组的因子选择逻辑如下:
最终确保每组都至少有2个(或者4个)因子进入下一步。
基于因子月度Rank IC值,把因子分为三个状态:1. 较强正向预测能力(IC>=0.05)2. 较差预测能力(|IC|<=0.05)3. 较强负向预测能力(IC<=-0.05)。也就是说,给定这三种状态,任何一个因子的IC时间序列都可以转变为类似[1,1,2,2,1,1,2,3,3...]的状态序列。可以使用较长时间的历史数据得到状态序列,并由此计算因子预测能力的转移概率。用p_i,j表示从状态i转移到j的概率,p_1,1表示从状态1(较强正向预测能力)变到还是状态1的概率。
关于如何使用Python,基于历史状态序列计算转移概率矩阵,可以参考这个链接:
https://stackoverflow.com/questions/46657221/generating-markov-transition-matrix-in-python/46657489
因子拥挤性测试,基于等式10计算因子的拥挤度指标。对于单向因子,如果指标值大于2;或者双向因子,指标绝对值大于2;其原先的因子权重需要再乘以1/2。因子原先的权重由以下等式计算:
双向因子的方向由其上一期的因子IC决定。
其他三个模型定义如下:
组合优化
基于以上各模型计算每个股票的因子得分和因子权重,然后基于以下目标函数(最大化Alpha因子)及限制条件(主要包括行业暴露、主动权重及行业市值限制)求解股票权重:
(i) industry constraint versus benchmark industry breakdown: For each CITIC Level I industry j:
(ii) active weight constraint versus benchmark stock weights: For CSI 300 constituent stock i: For non-CSI 300 constituent stock i: (iii) market-cap constraint versus benchmark market cap:
实证结果
下表11至14给出了测试结果,可以看出Model1动态因子模型的回测大幅领先于其他三个对比模型。
附录
因子定义:
扫码关注腾讯云开发者
领取腾讯云代金券
Copyright © 2013 - 2025 Tencent Cloud. All Rights Reserved. 腾讯云 版权所有
深圳市腾讯计算机系统有限公司 ICP备案/许可证号:粤B2-20090059 深公网安备号 44030502008569
腾讯云计算(北京)有限责任公司 京ICP证150476号 | 京ICP备11018762号 | 京公网安备号11010802020287
Copyright © 2013 - 2025 Tencent Cloud.
All Rights Reserved. 腾讯云 版权所有