前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >对因子合成的思考

对因子合成的思考

作者头像
量化小白
发布于 2019-09-24 08:11:16
发布于 2019-09-24 08:11:16
2.3K0
举报

最近思考了一些关于因子合成的东西。多因子的体系里,我们希望通过多个因子的叠加来提高模型整体对于未来收益率的预测能力。如何确定叠加后的因子一定会效果更好?

因子相关性

一般来说,我们考虑更多的是因子的共线性,也就是因子的相关性,之前写过一篇文章(点这里),分析了因子共线性对于因子合成结果的影响以及通过正交化的方式消除相关性。这里再从IC的角度来分析这个问题。(公式难打,直接贴图了)

这是合成后因子IC与合成前两因子的关系,可以说明两个问题:

1. 两个因子加权合成后的IC至少大于两个IC的加权和,当且仅当相关性为1时取等

2. 两个因子相关性越低,合成后因子IC越高,这也是符合常理的

以等权合成为例

相关性为1时,和的IC为两IC的均值。也就是说合成后因子的IC至少是二者的平均水平。相关性越低,合成后因子的IC会越高,相关性为负时,IC可以非常高。从这个角度来说,只要我们能找到很多正相关性很低并且有效的因子,最终的IC可以累的很高。

但上面的分析没有考虑到的是,一方面两个因子的相关性最低能低到什么程度。另一方面是,现实中是否真的有很多有效并且相关性很低的因子。

对于第一个问题,有这样一个结论:

因此理论上来说,两因子的相关性可以非常低,但对于第二个问题,答案是否定的。除了已经大量使用的成长、价值、动量、流动性、盈利、流动性、一致预期等因子外,要找到新的有效并且相关性很低的因子,难度很高。

因子分布

除了因子的相关性,还有一个很重要的问题是因子的分布特征,两个分布不同的因子合成之后,因子的效果是否会变好?从IC的角度来说,前面的推导可以看出,因子分布是不影响IC,但分布会影响因子效果。

可以这样去理解考虑分布和考虑IC的差异,IC刻画的是所有股票因子值和未来收益率方向的一致性, 每个股票权重是一样的,高IC可能是因子头尾部顺序比较一致,也可能是中间部分顺序比较一致,因此IC评价结果比较稳健。但分布特征对于股票的权重是不一样的,评价的是股票在不同因子取值下的情况,实际选股更关注的也只是因子头尾部的一致性,所以这也是考虑分布的必要性。

一般都假设因子是服从正态分布的,但实际中因子的分布可能是各种各样的,[1]中提到一个结论,我觉得非常有道理,当因子不服从正态分布时,偏度和峰度的影响会使得个股在某一个因子上的得分偏大或偏小,使得其在多因子的效用被显著放大或缩小

比如一个因子是正态的,另一个因子是均匀分布的,均匀分布的峰度会异常低,数据集中度低,头尾部的概率会高很多,结果是合成因子得分的头尾部会严重依赖于均匀分布因子的值,正态分布因子的效果会被严重削弱,中间部分会严重依赖于正态分布的值。

反之如果是一个t分布的因子和正态分布的因子,t分布的因子峰度会异常高,使得因子值的集中度非常高,两端概率很小,结果是头尾部会严重依赖于正态分布因子的值,而中间部分严重依赖于t分布因子的值。不论哪种情况,即使是按照IC或ICIR去加权,也并不能达到预先的想法。

[1]中还提到了一些对因子做标准化及正态性转换的方法,标准化包括zscorewinsorMADboxplot,正态性转换主要是box-cox,都是很常见的方法,不一一列出了。有兴趣可以看看报告,后台回复“正态转换”获取研报。但个人觉得ranknorm效果会更好一些,此外还看到一个signlog的方法,没试过,后面有时间会自己测一下对比这些方法的效果。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-09-22,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 量化小白躺平记 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
组合优化(一):换手率和alpha模型
新开一个系列写写组合优化的相关内容,主要以分享看到的各种研究和思考为主,偏理论。
量化小白
2023/03/19
1.2K0
组合优化(一):换手率和alpha模型
单因子测试(上)——因子中性化
之前做了很多因子测试的工作,但一直没有总结,感觉很凌乱,决定花时间把这部分东西写一写,温故知新,也为后续学习打基础。首先写一下单因子测试部分,分三篇,数据预处理一篇, 回归法一篇,分层测试法一篇。本篇首先说明多因子模型是什么,随后着重于单因子测试流程及数据预处理的细节,附代码。
量化小白
2019/01/22
12.6K0
多因子模型之因子(信号)测试平台----alphalens(三)
广告:本人的单因子测试视频教程 https://study.163.com/course/introduction/1005568012.htm
钱塘小甲子
2019/01/28
1.9K0
机器学习系列:深度探秘K线结构新维度
在金融投资领域下运用机器学习并非易事,许多在看似直观的应用方式下直接套用机器学习算法的做法往往并不能达到预期的效果。在光大金工机器学习系列第一篇报告中我们提出“机器学习能否在金融投资取得成功,更取决于算法之外的细节处理”的理念。本篇报告延续上述思路,探索在运用机器学习算法之前,如何更好地处理交易数据的K线结构。
量化投资与机器学习微信公众号
2019/05/09
2.1K0
机器学习系列:深度探秘K线结构新维度
101因子新测评,会有哪些新发现?
之前公众号分享过网友自行编写的WorldQuant 101因子源代码,大家有需要可以点击链接进行免费获取。
量化投资与机器学习微信公众号
2019/05/23
2.5K0
101因子新测评,会有哪些新发现?
无敌了!新闻情绪因子进阶来啦!
我们详细分析对比了采用不同情绪得分计算方法的因子表现。从而得出一个很重要且结论:即情绪因子构建时应该考虑新闻与股票的相关度即情绪得分的时间衰减。基于以上的结论,在本篇推文中,我们主要基于中证800指数的成分股,测试新闻情绪因子在这些成份股中的具体表现。报告的第一部分我们会对从各个维度对新闻情绪数据进行统计,第二部分主要对基于日度的新闻情绪因子进行测试及对比。
量化投资与机器学习微信公众号
2019/10/25
1.6K0
【视频】Copula算法原理和R语言股市收益率相依性可视化分析|附代码数据
copula是将多变量分布函数与其边缘分布函数耦合的函数,通常称为边缘。在本视频中,我们通过可视化的方式直观地介绍了Copula函数,并通过R软件应用于金融时间序列数据来理解它(点击文末“阅读原文”获取完整代码数据)。
拓端
2022/10/28
8090
单因子测试(下)——回归测试法
之前两篇分别总结了因子数据的预处理和单因子测试的分层测试法,本篇总结回归测试法,相较于分层测试法,回归测试法更简洁。
量化小白
2019/01/22
6.1K1
Barra系列(二):收益模型
不同国家的市场也是影响个股超额收益的因素之一,需要在收益模型中加入国家因子。为了让收益模型解唯一,约束市值加权的行业因子收益率之和为零。
量化小白
2020/02/25
2.3K0
【技术分享】机器学习在量化交易方向的应用—基于神经网络的多因子选股策略
量化交易策略无非三点:择时、选股、仓控。择时为短期套利交易策略,选股为中长期交易策略,目标是在中长期跑赢指数、获取市场超额收益率alpha。多因子选股的关键是找到寻找因子与股票收益率之间的相关性,即对收益率预测能力强的因子。一般多采用如下步骤:
腾讯云TI平台
2019/11/19
7.1K0
多因子尝试(一):因子加权方法在选股中的应用
之前在A股动量与反转的实证过程中,提到了因子择时和风格轮动的重要性,本篇算是对因子择时的一个小小的尝试,没有什么创新性,只是把现在比较传统的方法都拿来试了一遍,目前没有能力创造方法,只做方法的搬运工。
量化小白
2019/08/29
6.5K0
使用蒙特卡罗模拟的投资组合优化
在金融市场中,优化投资组合对于实现风险与回报之间的预期平衡至关重要。蒙特卡罗模拟提供了一个强大的工具来评估不同的资产配置策略及其在不确定市场条件下的潜在结果。
deephub
2023/11/06
6420
使用蒙特卡罗模拟的投资组合优化
单因子测试框架
SignalFactorAnalyse单因子测试框架哪些因子可以为组合提供超额收益?这是构建多因子模型的第一步,也是最关键一步。 特征选择非常关键,只有把握关键特征才能对数据达到重要性认识,选择好的因子,才能获取超额收益率。 对于传统交易经验、金融理论、微观市场、机器学习、深度学习等不断挖掘出来的巨量待验因子,一个快速且有效的因子测试框架,将是Multi-factor策略系统中最为关键的一环。 因子模型测试思路 因子有效性的判断与筛选: •备选因子确定: 数学意义、经济意义、统计意义 •预处理: 数据空缺与
企鹅号小编
2018/01/10
2.5K0
单因子测试框架
Man Group最新:动态风险管理在股票投资组合中的应用
今天公众号为大家分享一篇Man Group最新的研究文章,干货满满!重点在第四节~
量化投资与机器学习微信公众号
2020/12/08
1.3K0
Man Group最新:动态风险管理在股票投资组合中的应用
R语言风险价值:ARIMA,GARCH,Delta-normal法滚动估计VaR(Value at Risk)和回测分析股票数据|附代码数据
此分析的目的是构建一个过程,以在给定时变波动性的情况下正确估计风险价值。风险价值被广泛用于衡量金融机构的市场风险。我们的时间序列数据包括 1258 天的股票收益
拓端
2023/07/07
3930
R语言有状态依赖强度的非线性、多变量跳跃扩散过程模型似然推断分析股票价格波动
跳跃扩散过程为连续演化过程中的偏差提供了一种建模手段。但是,跳跃扩散过程的微积分使其难以分析非线性模型。本文开发了一种方法,用于逼近具有依赖性或随机强度的多变量跳跃扩散的转移密度。通过推导支配过程时变的方程组,我们能够通过密度因子化来近似转移密度,将跳跃扩散的动态与无跳跃扩散的动态进行对比。在这个框架内,我们开发了一类二次跳跃扩散,我们可以计算出对似然函数的精确近似。随后,我们分析了谷歌股票波动率的一些非线性跳跃扩散模型,在各种漂移、扩散和跳跃机制之间进行。在此过程中,我们发现了周期性漂移和依赖状态的跳跃机制的依据。
拓端
2021/07/16
7210
R语言有状态依赖强度的非线性、多变量跳跃扩散过程模型似然推断分析股票价格波动
价值因子的改进:结合动量的思想
价值投资一直是投资策略的重要基石之一。现代投资之父,Benjamin Graham,也是价值投资的重要倡导者。在量化投资领域,Fama-French三因子模型中的HML因子,也是学术界及业界用来度量价值股票表现的公认基准。他们的研究表明,价值股票表明要持续优于成长股这种我们称为“价值异象”的现象持续了很长时间。在他们的研究中,用book-to-market(B/M)比率作为衡量公司价值的指标,B/M高的公司被认为是有价值的公司。
量化投资与机器学习微信公众号
2021/07/29
8850
RNN增强—ACT(自适应计算次数)多因子选股模型
今天我们来读一篇来自国信证券研究文章 RNN简介 RNN 不同于传统神经网络的感知机的最大特征就是跟时间挂上钩,即包含了一个循环的网络,就是下一时间的结果不仅受下一时间的输入的影响,也受上一时间输出的影响,进一步地说就是信息具有持久的影响力。放在实际中也很容易理解,人们在看到新的信息的时候产生的看法或者判断,不仅仅是对当前信息的反应,先前的经验、思想的也是参与进去这次信息的推断的。人类的大脑 不是一张白纸,是包含许多先验信息的,即思想的存在性、持久性是显然的。举个例子,你要对某电影中各个时点发生的事件类
量化投资与机器学习微信公众号
2018/01/29
2.1K0
RNN增强—ACT(自适应计算次数)多因子选股模型
多因子尝试(二):因子正交化
本系列的第一篇因子加权方法中提到,对于因子间有相关性的情况,可以通过最大化IR来解决,但也会存在另一个问题:因子协方差矩阵的估计,文中对比了最原始的样本协差阵和Ledoit压缩估计量结果的差异,表明协方差矩阵的估计效果对于结果有很大影响。本文给出另一种更为常用的解决因子间相关性的方法:因子正交化。
量化小白
2019/01/22
11.9K1
基于 RNN、LSTM 的股票多因子预测模型
前言 在机器学习如何应用到量化投资的系列文章中,今天我们专门来介绍一篇来自国信证券的研究报告,来从券商角度分析这个问题。 对于最直接的问题:能否利用神经网络,要机器自己识别 K 线图,自己做出判断,本篇推文的内容无法给出肯定的答案,但也不能否定其可能性,回答它需要更为深入、更为复杂的神经网络。本篇推文的目的是利用深度神经网络中的 RNN 的一些基本结果,对多因子模型进行尝试,以检验深度神经网络在多因子、投资领域的适用性,使得投资者能够对神经网络有 更为实践的理解,并能够在投资领域有所运用。 RNN简介 R
量化投资与机器学习微信公众号
2018/01/29
8.6K0
基于 RNN、LSTM 的股票多因子预测模型
推荐阅读
相关推荐
组合优化(一):换手率和alpha模型
更多 >
领券
💥开发者 MCP广场重磅上线!
精选全网热门MCP server,让你的AI更好用 🚀
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档