前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >DiffsFormer:基于扩散模型的端到端股票因子挖掘与增强

DiffsFormer:基于扩散模型的端到端股票因子挖掘与增强

作者头像
VachelHu
发布2024-03-20 07:58:22
5230
发布2024-03-20 07:58:22
举报
文章被收录于专栏:时序人时序人

机器学习模型在广泛的股票预测任务中表现出了令人瞩目的有效性和效率。然而,数据稀缺性所带来的固有挑战,包括低信噪比(SNR)和数据同质性,对准确预测构成较大挑战。

近日,来自中国科学技术大学以及阿里巴巴达摩院的研究团队提出了一种新颖的方法,利用人工智能生成的样本(AIGS)来增强训练过程,力求解决上述问题。具体来说,研究者引入了扩散模型(Diffusion Model)来生成具有Transformer架构的股票因子(研究者称之为DiffsFormer)。DiffsFormer最初在大规模源域上进行训练,并结合条件指导以捕获全局联合分布。当面对特定的下游任务时,利用DiffsFormer通过编辑现有样本来增强训练过程。

论文标题:DiffsFormer: A Diffusion Transformer on Stock Factor Augmentation

论文地址:https://arxiv.org/abs/2402.06656

论文源码:暂未公布

论文概述

准确的股票预测在有效的资产管理和投资策略中发挥着至关重要的作用。其目标是通过分析相关的历史因素来预测未来的股票走势(如收益率或价格)。之前的研究已经探索了多种机器学习技术,如SFM、ALSTM和HIST。然而,要想使用这些方法获得理想性能,通常需要大量高质量数据的支持。高随机性和同质性数据所带来的挑战使得满足数据质量要求的难度加大,从而导致预测误差上升和不确定性增加。

股票预测任务中的数据稀缺性通常从信噪比(SNR)数据同质性两个方面来体现。

(1)该论文深入探讨了股票因素与收益率之间的关系,为SNR提供了洞见。下图(a)展示了股票因素与收益率之间的皮尔逊相关系数,显示出较弱的相关性(绝对值小于0.03),这表明因素的SNR较低。这种弱相关性通常归因于随机性和非平稳投机行为。

(2)该论文探究了同一行业部门内股票的表现,以展示数据同质性带来的问题。研究者发现,同一行业部门内的股票表现出相似的行为,如上图(b)所示,它报告了按部门分类的大幅下跌股票的平均数量。

因此,这种同质性导致具有独特信息特征的股票数量减少。数据稀缺性带来的固有挑战可能导致过拟合,使模型面临更高的学习捷径和虚假相关的风险,最终影响其预测性能。数据的有限可用性是实现训练集和测试集之间有效泛化的重大障碍,从而导致整体性能下降。

克服数据稀缺性的一个直接解决方案是因子增强。这是一种通过引入微小变化或基于特定因素生成新的数据点来扩充训练数据集的技术。受到扩散模型(DMs)在不同领域成功应用的启发,如文本到图像的转换、时间序列插补和波形生成,研究者探索了将DMs用于股票预测的可能性。

DMs是一种生成模型,包括两个阶段:扩散过程和去噪过程。扩散过程通过参数化一个马尔可夫链,逐步向因子引入噪声,直到达到纯噪声状态。随后,在去噪过程中,模型旨在通过预测通过扩散过程生成的噪声来恢复原始数据。

在本研究中,研究者回顾了8天的数据,并将最近的股票因子组织成一个序列,利用基于Transformer架构的DMs进行因子增强。期望通过纳入增强的因子,提出的模型将展现出对股票预测领域数据稀缺性的更强适应能力。

将DMs用于股票因子增强面临着不小的挑战,特别是在为生成的因子分配相应标签时。虽然一种可能的方法是将标签直接视为股票因子的一个维度,但这种方法存在生成不准确结果的风险。明确生成标签具有挑战性,因为很难准确地将因子与其对应的标签进行匹配,特别是考虑到收益率的不可预测性。

为了克服这一挑战,研究者提出通过利用灵活的无需预测器的条件因子生成器,将DMs从生成任务适应到监督学习任务。生成器使用标签作为条件进行训练,这使能够预期生成的因子将与原始因子具有相同的标签。此外,研究者还探索了利用其他类型的条件(如行业部门)来进一步提高准确性。相关说明如下图所示。

该论文的贡献点总结如下:

• 揭示了数据增强在股票预测中的重要性,并探索了使用扩散股票转换器(简称DiffsFormer)来解决数据稀缺问题。

• 为了将DM从生成任务适应到监督学习任务,提出使用真实标签(例如收益率)作为条件来增强因子与标签之间的关系。此外,我们还通过整合无需预测器的指导方法,增强了指导的灵活性。

• 由于因子的低信噪比,提出以迁移学习的方式编辑现有样本,而不是合成新样本。这种机制的一个优势在于其能够从与随机噪声增强等方法相比中提炼新知识。

• 使用八个常用的机器学习模型在CSI 300和CSI 800上验证了DiffsFormer增强训练的有效性。所提出的方法在年化收益率方面分别实现了7.2%和27.8%的相对提升。

模型框架

股票价格预测任务之所以具有挑战性,主要是因为数据的稀缺性。为了充分发挥机器学习模型的潜力,充足的高质量数据至关重要。

在本研究中,研究者利用扩散模型(DM)的强大功能,并引入了一种新颖的方法——DiffsFormer。该方法能够生成额外的数据点,促进因子增强,从而即使在数据稀缺的情况下,也能对现实世界股票的潜在收益率(RR)进行预测。

DiffsFormer包含了扩散和去噪过程,这与大多数扩散模型(DMs)相似。

01

训练过程

在股票预测中,输入数据

,包含了

支真实股票及其最近

天的历史因子,其中

是因子的维度。我们将每一支股票

(即

的一行)视为从

中采样的初始状态

,并添加随机噪声建模为:

通过这种方式,DiffsFormer能够逐步为原始股票数据添加噪声,生成额外的数据样本。这些样本不仅有助于模型更好地理解和捕捉股票数据的内在规律和模式,还能提升模型的鲁棒性和泛化能力,从而更准确地预测股票价格。同时,由于DiffsFormer保留了原始数据的分布特性,因此生成的增强数据在保持真实性的同时,也丰富了数据的多样性,有助于提升股票预测的准确性。

为了加速采样,去噪过程(逆向过程)遵循DDIM框架,可以建模为:

在这里,

是可训练的噪声项,用于预测扩散过程中的

。去噪过程与扩散过程相反,它逐步去除之前添加的噪声,以恢复出原始的股票数据或特征。通过优化模型参数θ,我可以使去噪过程更加准确,从而提高最终预测的精度。

整体的学习目标是使用

来最小化对ϵ的估计误差,则DiffsFormer的优化函数为:

02

编辑过程

为了解决数据同质性问题,研究者通过噪声消除过程对目标域中的原始因子进行增强。与仅从纯噪声中生成合成因子(这很难保证数据的保真性)不同,研究者采用了一种不同的方法,即编辑原始因子而不是完全生成新的因子。此外,由于因子固有的低信噪比特性,研究者设计了一个迁移学习框架,以从更大、不同的领域中提取新的知识和信息,并将其提炼到编辑后的数据中。

具体来说,首先在源域

上训练DiffsFormer的扩散步骤

在推理过程中,从目标域的一个数据点

开始,通过 T′≪T 步将其损坏以得到一个种子点:

然后,从种子点反向进行这个过程,以在目标域中获得一个新的数据点

。由于目标域是源域的一个子集,这个过程提炼了新的知识和信息,并增强了数据的异质性。此外,由于推理过程从种子点开始,我们可以成功编辑现有的样本。

如下图所示,

可以控制知识提炼的强度:较大的

使生成的数据更接近源域的特征分布,而较小的

使生成的数据更接近目标域数据

。我们将

称为编辑步骤。通过这样做,提高了生成数据的保真性,避免了从纯噪声中创建数据。最近的工作将这一技巧称为“真实指导”。

为了调节条件信号的强度,DiffsFormer在采样时,会引入控制强度进行如下改动:

实验效果

研究者选取了CSI 300(沪深300)和CSI 800(沪深300+中证500)两个真实的数据集进行实验评估。

总体而言,提出的框架DiffsFormer在CSI 300和CSI 800上的回报率上分别将骨干模型的性能提高了0.50%~13.19%和4.01%~70.84%。这一观察结果从经验上验证了数据增强策略在股票预测中的必要性。

此外,研究还揭示,数据增强能够有效缓解金融数据中信噪比(SNR)较低的问题。经过数据增强后,基础模型的性能得到了提升,这进一步证实了数据增强在改善模型对噪声数据的处理能力方面的积极作用。

最后,通过对比不同的数据增强方法,研究发现DiffsFormer的表现优于随机高斯噪声添加和Shake-shake增强方法。这一结果表明,DiffsFormer在增强模型稳定性和性能方面具有显著优势,为股票预测任务提供了一种更为高效和可靠的数据增强策略。

以下是DiffsFormer和其他生成模型的比较结果。可以看出(1)DiffsFormer 的性能优于其他增强方式。(2)数据增强可以增强模型的稳定性,因为数据增强模型的标准差通常比原始模型的标准差小。(3)算法的下界从左到右增加,表明数据增强可以改善最坏情况下的模型性能。

总结

在这项工作中,研究者揭示了股票预测任务面临的一大挑战——数据稀缺性。为了解决这个问题,继而提出了DiffsFormer,这是一种新颖的条件扩散Transformer框架,专注于利用标签和行业信息来增强时间序列股票数据。为了提炼新知识,研究者通过在更大的源域中训练并在目标域中合成数据,将迁移学习融入到扩散模型(DM)中。此外,研究者还开发了几种新颖的机制来提升整体模型性能、降低波动性并提升时间效率。

这项工作在股票预测中迈出了数据增强的第一步。未来的工作方向和局限性可以为进一步的研究提供有价值的见解。研究者发现诸如行业板块等条件信息可以提升性能,因此,通过编辑因子使目标股票归属于特定行业或生成具有特定市值的股票,有可能进一步增强目标股票的性能。此外,这项工作还强调了股票预测中的数据冲突和同质性问题,进一步的研究可以涉及开发技术来识别和处理数据冲突,以及制定策略来明确地在训练数据中引入多样性和异质性。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-03-18,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 时序人 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档