Loading [MathJax]/jax/input/TeX/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >收藏级!A股动态多因子模型实践

收藏级!A股动态多因子模型实践

作者头像
量化投资与机器学习微信公众号
发布于 2022-03-03 10:32:52
发布于 2022-03-03 10:32:52
1.6K0
举报

量化投资与机器学习微信公众号,是业内垂直于量化投资、对冲基金、Fintech、人工智能大数据等领域的主流自媒体。公众号拥有来自公募、私募、券商、期货、银行、保险、高校等行业30W+关注者,荣获2021年度AMMA优秀品牌力、优秀洞察力大奖,连续2年被腾讯云+社区评选为“年度最佳作者”。

量化投资与机器学习公众号独家解读 量化投资与机器学公众号  QIML Insight——深度研读系列 是公众号全力打造的一档深度、前沿、高水准栏目。

公众号遴选了各大期刊前沿论文,按照理解和提炼的方式为读者呈现每篇论文最精华的部分。QIML希望大家能够读到可以成长的量化文章,愿与你共同进步!

本期遴选论文 来源:The Journal of Investing Vol. 31, Issue 2 February 2022 标题:Study of Dynamic Multifactor Model Application In China A-Shares 作者:Ying Lan

核心观点

  • A股市场,因子存在短期动量效应,这种效应可以用在动态因子的模型构建中。
  • A股市场中,因子有效性并不稳定,当因子发生拥挤时,其有效性会减弱或消失。
  • 通过结合因子短期动量、因子有效性持续能力过滤及基于因子拥挤的权重调整构建的动态因子模型能够提供更稳定的Alpha能力。

因子库及因子数据预处理

作者基于Ricequant和Wind数据库构建了五大类(价值、规模、质量、成长及技术指标)共计62个因子。每个大类大概有15个因子,这些因子涵盖了大部分常用的因子。部分因子如下表1,详细的62个月度因子定义见附录。

因子的方向也是根据因子的逻辑决定的,下表2列出了负向因子和双向因子。比如DAR是一个负向因子,因为逻辑上负债资产比率越高,股票的质量越低,收益率就越低。但像return_1M因子可能是双向的,正向代表动量效应,负向表示反转效应。

此次研究的股票池为沪深300指数成分股,一共包括2008年7月至2020年3月的670个股票。所有因子数据都经过了以下处理:

  • 行业中性化,采用中信一级行业,对每个因子计算行业内Z-Score的方式计算中性化后的因子值。
  • 异常值处理,也在行业内进行异常值处理,异常值的判定标准为超过正负3个标准差。

因子分析

因子分析主要是从时序截面等角度分析因子的IC值,文中的IC为Spearman相关系数,也就是我们常说的Rank IC。

时间序列分析

IC的时间序列能够展示出该因子预测能力的稳定性,表3给出了62个因子的IC的统计值。表4给出了每个分类下ICIR最大的因子的IC序列,可以看出即使ICIR最大的因子,也有可能在很长一段时间表现出不稳定性。

Gupta和Kelly(2019)在对全球市场65个常见因子的自相关性研究中发现了因子展现出强劲的一个月的因子动量。65个因子其中有59个因子的AR1(一阶自回归)为正,49个因子的一阶自回归系数统计上显著。所以,本文也对A股的62个因子进行了自回归测试,结果如图5和图6。其中图5是对因子IC序列进行自回归测试的结果,有43个因子IC的自回归系数为正。其中图6表示因子收益(每个因子多空组合的收益)自回归测试的结果,有47个因子的自回归系数为正。这说明A股存在因子动量和因子收益动量效应。

截面分析

虽然每个因子在时间序列预测能力方面表现出很大的差异,但对于整个研究期间的每个因子大类(风格),在大多数月份,每组内都存在有效因子(表7)。

这一发现表明,这些共同风格的因子大部分时间一般能够区分股票的表现水平;然而,内部风格定义的轮换可能会随着时间的推移而存在。例如,投资者一直在寻找高质量的公司。在经济扩张期间,他们可能会寻找质量因子,如资产收益率(ROA)或净资产收益率(ROE),但在经济低迷周期或流动性紧张时期,随着对破产的担忧加剧,债务与资产比率(DAR)等因子变得更有效。这揭示了A股稳健模型的重要性——识别市场变化和适应不断变化的市场机制的能力。

面板数据分析

在一段强劲的表现之后,因子的有效性会衰减或完全消失(Vopati et al.2020)。这是由于因子拥挤造成的。因子拥挤度可以通过一个月的因子横截面重要性与历史重要性滚动平均值的相对值来评估。由于因子库包含具有相似特征的因子,因此在测量因子拥挤度时可以将它们分组到不同的聚类中。

作者使用K-means,基于62个因子的IC序列,对它们进行聚类。K的数量取决于轮廓系数(silhouette)。silhouette系数是聚类效果好坏的一种评价方式。值越大,说明聚类效果越好。如图8,说明K等于30时聚类效果最好。

对于聚类在t时刻的重要性,用以下公式计算。也就是该时刻,所有聚类内因子IC的均值。

而因子k在t时刻的相对重要性(相对于过去12个月)等于:

其中,

我们发现因子的相对价值能够捕捉到因子的过度拥挤。研究期间,因子有76.5%可能的损失预测能力(单向因子的IC < 0.05或双向因子|IC |  < 0.05 )。

通过以上的测试,对因子模型的构建得出了以下几个启发:

  • 因子IC表现出的不稳定性,说明静态的因子模型可能效果不会很好;
  • 一阶自回归测试结果说明因子筛选时可以考虑因子动量
  • 许多AR(1)为正,但不显著,这种情况下,可以在每个因子分类中加入一个动态因子筛选器。
  • 尽管单因子不稳定,但每组中总有有效的因子,说明在模型要考虑每组中因子的分散性。
  • 因子很有可能由于因子拥挤而衰减,说明因子拥挤可以用在因子权重配比中。

因子模型和组合优化

基于以上发现,我们构建了一个动态多因子模型(Model 1),除此之外还构建了三个用于对比的模型(Model2-Model4)。下面分别介绍一下这4个模型:

Model1 动态多因子模型

模型的整体流程如图10所示,具体说明如下:

1、因子预测能力过滤,考虑到因子动量效应,t-1时刻,在每个因子组内选择一个预测效果最好的因子(基于t-1时刻的因子Rank IC)。

2、预测能力持续性过滤(Predictive power persistency filtering),根据36个月滚动数据计算一阶马尔可夫链转移概率。对于一个因子,预测能力持续性过滤的条件是:正向因子 大于 1/3;负向因子 大于1/3;双向因子 或 大于1/3。每一组的因子选择逻辑如下:

  • 如果这一步没选出因子,则返回上一步,选择这组IC最高的4个因子直接进入下一步。
  • 如果这一步选出因子,再在这组剩下的因子中,选择一个IC最高的,此时这组有两个因子进入下一步。

最终确保每组都至少有2个(或者4个)因子进入下一步。

基于因子月度Rank IC值,把因子分为三个状态:1. 较强正向预测能力(IC>=0.05)2. 较差预测能力(|IC|<=0.05)3. 较强负向预测能力(IC<=-0.05)。也就是说,给定这三种状态,任何一个因子的IC时间序列都可以转变为类似[1,1,2,2,1,1,2,3,3...]的状态序列。可以使用较长时间的历史数据得到状态序列,并由此计算因子预测能力的转移概率。用p_i,j表示从状态i转移到j的概率,p_1,1表示从状态1(较强正向预测能力)变到还是状态1的概率。

关于如何使用Python,基于历史状态序列计算转移概率矩阵,可以参考这个链接:

https://stackoverflow.com/questions/46657221/generating-markov-transition-matrix-in-python/46657489

因子拥挤性测试,基于等式10计算因子的拥挤度指标。对于单向因子,如果指标值大于2;或者双向因子,指标绝对值大于2;其原先的因子权重需要再乘以1/2。因子原先的权重由以下等式计算:

双向因子的方向由其上一期的因子IC决定。

其他三个模型定义如下:

  • Model2是一个静态模型。基于训练期(2009-2012)的数据,在每组中选择ICIR绝对值最大的两个因子,组成静态因子模型。因子权重也基于ICIR绝对值计算。
  • Model3与Model2的区别是因子的选择是每年滚动选取,也是基于ICIR绝对值排序每组选取两个因子。
  • Model4是一个动态因子模型,在每一组中,每个月选取上一期因子IC最大的两个因子。

组合优化

基于以上各模型计算每个股票的因子得分和因子权重,然后基于以下目标函数(最大化Alpha因子)及限制条件(主要包括行业暴露、主动权重及行业市值限制)求解股票权重:

(i) industry constraint versus benchmark industry breakdown: For each CITIC Level I industry j:

(ii) active weight constraint versus benchmark stock weights: For CSI 300 constituent stock i: For non-CSI 300 constituent stock i: (iii) market-cap constraint versus benchmark market cap:

实证结果

下表11至14给出了测试结果,可以看出Model1动态因子模型的回测大幅领先于其他三个对比模型。

附录

因子定义:

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-02-09,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 量化投资与机器学习 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
多因子尝试(一):因子加权方法在选股中的应用
之前在A股动量与反转的实证过程中,提到了因子择时和风格轮动的重要性,本篇算是对因子择时的一个小小的尝试,没有什么创新性,只是把现在比较传统的方法都拿来试了一遍,目前没有能力创造方法,只做方法的搬运工。
量化小白
2019/08/29
6.6K0
101因子新测评,会有哪些新发现?
之前公众号分享过网友自行编写的WorldQuant 101因子源代码,大家有需要可以点击链接进行免费获取。
量化投资与机器学习微信公众号
2019/05/23
2.6K0
101因子新测评,会有哪些新发现?
干货:如何提升高换手因子的『IR』?
来自:Turnover-Adjusted Information Ratio 作者:Feng Zhang、Xi Wang、Honggao Cao
量化投资与机器学习微信公众号
2024/03/25
3240
干货:如何提升高换手因子的『IR』?
因子评估全流程详解
首先,这是一篇值得收藏的干货文。基本上覆盖到了因子评估的每个方面每个细节,小白友好型,很长,慢慢看。
量化小白
2023/04/03
5K1
因子评估全流程详解
价值因子的改进:结合动量的思想
价值投资一直是投资策略的重要基石之一。现代投资之父,Benjamin Graham,也是价值投资的重要倡导者。在量化投资领域,Fama-French三因子模型中的HML因子,也是学术界及业界用来度量价值股票表现的公认基准。他们的研究表明,价值股票表明要持续优于成长股这种我们称为“价值异象”的现象持续了很长时间。在他们的研究中,用book-to-market(B/M)比率作为衡量公司价值的指标,B/M高的公司被认为是有价值的公司。
量化投资与机器学习微信公众号
2021/07/29
9000
追寻因子的足迹:分类、构造与检验
这是基础方法论专题的第 001 篇文章,也是因子动物园的第 027 篇独立原创文章。
量化小白
2019/08/20
1.3K0
Carhart四因子模型A股实证(附源码)
接上一篇《Fama-French三因子回归A股实证》,继续写Carhart四因子模型,整个过程比较容易,还是基于Fama三因子的框架,多加进去一个动量因子进行回归。全文的代码数据论文获取请在后台回复“C4"。
量化小白
2020/11/17
4.3K0
Carhart四因子模型A股实证(附源码)
动态情景Alpha模型
本文参考了一些国外的文献和国内的报告,需要后文提到的报告的在后台回复“DCAM”获取。
量化小白
2023/04/03
7690
动态情景Alpha模型
单因子测试框架
SignalFactorAnalyse单因子测试框架哪些因子可以为组合提供超额收益?这是构建多因子模型的第一步,也是最关键一步。 特征选择非常关键,只有把握关键特征才能对数据达到重要性认识,选择好的因子,才能获取超额收益率。 对于传统交易经验、金融理论、微观市场、机器学习、深度学习等不断挖掘出来的巨量待验因子,一个快速且有效的因子测试框架,将是Multi-factor策略系统中最为关键的一环。 因子模型测试思路 因子有效性的判断与筛选: •备选因子确定: 数学意义、经济意义、统计意义 •预处理: 数据空缺与
企鹅号小编
2018/01/10
2.6K0
单因子测试框架
多因子尝试(二):因子正交化
本系列的第一篇因子加权方法中提到,对于因子间有相关性的情况,可以通过最大化IR来解决,但也会存在另一个问题:因子协方差矩阵的估计,文中对比了最原始的样本协差阵和Ledoit压缩估计量结果的差异,表明协方差矩阵的估计效果对于结果有很大影响。本文给出另一种更为常用的解决因子间相关性的方法:因子正交化。
量化小白
2019/01/22
12K1
单因子测试(下)——回归测试法
之前两篇分别总结了因子数据的预处理和单因子测试的分层测试法,本篇总结回归测试法,相较于分层测试法,回归测试法更简洁。
量化小白
2019/01/22
6.1K1
QIML Insight | 新闻情绪改进反转因子:基于A股实践
量化投资与机器学公众号 QIML Insight——深度研读系列 是公众号全力打造的一档深度、前沿、高水准栏目。
量化投资与机器学习微信公众号
2023/04/20
8220
QIML Insight | 新闻情绪改进反转因子:基于A股实践
刀尖上的舞蹈?股票Alpha模型与机器学习
在开发股票投资模型这项工作中,很少有凭空搭建的楼阁。尽管可以使用机器学习类的工具增强模型性能,但是大部分模型的基础结构,依然基于传统的资产定价模型和因子分析演化而来。
量化投资与机器学习微信公众号
2020/02/20
1.9K0
刀尖上的舞蹈?股票Alpha模型与机器学习
A股市场机器学习多因子模型实证
量化投资与机器学习微信公众号,是业内垂直于量化投资、对冲基金、Fintech、人工智能、大数据等领域的主流自媒体。公众号拥有来自公募、私募、券商、期货、银行、保险、高校等行业30W+关注者,荣获2021年度AMMA优秀品牌力、优秀洞察力大奖,连续2年被腾讯云+社区评选为“年度最佳作者”。 量化投资与机器学习公众号 独家解读 量化投资与机器学公众号  QIML Insight——深度研读系列 是公众号全力打造的一档深度、前沿、高水准栏目。 公众号遴选了各大期刊前沿论文,按照理解和提炼的方式为读者呈
量化投资与机器学习微信公众号
2022/09/08
1.2K0
A股市场机器学习多因子模型实证
【深度研究】Stacking 集成学习在多因子选股中的应用
今天我们来继续我们机器学习应用量化投资系列,本期,我们介绍一篇来自华泰证券金工的研究报告。将深入为你剖析Stacking 集成学习在量化投资中的应用!希望大家有所收获! Stacking 集成学习模型简介 Stacking 集成学习的原理 Stacking 是一种常见的集成学习框架。一般来说,Stacking 将训练一个多层(一般是两层, 本文中默认两层)的模型结构,第一层(也叫学习层)包含 n 个不同的模型,将得到的预 测结果合并为新的特征集,并作为下一层模型的输入,由下一层模型再次根据对应的数据 标签进
量化投资与机器学习微信公众号
2018/05/28
2.1K0
动量扩散比MSR:有效的动量因子收益预测指标
量化投资与机器学习微信公众号,是业内垂直于量化投资、对冲基金、Fintech、人工智能、大数据等领域的主流自媒体。公众号拥有来自公募、私募、券商、期货、银行、保险、高校等行业30W+关注者,荣获2021年度AMMA优秀品牌力、优秀洞察力大奖,连续2年被腾讯云+社区评选为“年度最佳作者”。 作者:Siyuan Ma 股价动量仍然是迄今为止最显著、最神秘的异象,在股票和投资组合层面都普遍存在。在动量相关的研究方向上,大多数研究集中在动量的截面特征上,而动量的时间序列特性却很少被提及。经过几十年的探索,支持基
量化投资与机器学习微信公众号
2022/07/19
5930
动量扩散比MSR:有效的动量因子收益预测指标
Fama-Macbeth 回归和Newey-West调整
Fama Macbeth是一种通过回归方法做因子检验,并且可以剔除残差截面上自相关性的回归方法,同时为了剔除因子时序上的自相关性,可以通过Newey West调整对回归的协方差进行调整。
量化小白
2019/12/30
14.2K25
FactorVAE:基于变分自编码器的动态因子模型
量化投资与机器学习微信公众号,是业内垂直于量化投资、对冲基金、Fintech、人工智能、大数据等领域的主流自媒体。公众号拥有来自公募、私募、券商、期货、银行、保险、高校等行业30W+关注者,荣获2021年度AMMA优秀品牌力、优秀洞察力大奖,连续2年被腾讯云+社区评选为“年度最佳作者”。 量化投资与机器学习公众号 独家解读 量化投资与机器学公众号  QIML Insight——深度研读系列 是公众号全力打造的一档深度、前沿、高水准栏目。 公众号遴选了各大期刊前沿论文,按照理解和提炼的方式为读
量化投资与机器学习微信公众号
2022/06/24
1.3K0
FactorVAE:基于变分自编码器的动态因子模型
动量因子30年
自从Jegadeesh和Titman(1993)验证了“买入过去收益较高的股票,卖出收益较低的股票“的交易策略能够带来显著的正收益,动量效应的提出至今已经有30多年。这种动量效应在各种资产类别和全球范围内都很强劲,这可能是对有效市场假说最直接的反驳。对投资者来说,动量是一种稳健、多变且有利可图的投资策略,这种策略已被共同基金、对冲基金和被动ETF广泛采用。对于金融研究来说,动量与Fama(1970)的弱形式有效市场假说存在显著矛盾。
量化投资与机器学习微信公众号
2023/04/20
1.4K0
动量因子30年
Quantopian Risk Model (QRM)
在量化投资领域中,因子(factor)就是对股票池进行筛选的指标。大家耳熟能详的因子模型(factor model)有
用户5753894
2019/11/04
1.2K0
Quantopian Risk Model (QRM)
相关推荐
多因子尝试(一):因子加权方法在选股中的应用
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档