首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >基于『大语言模型』和『新闻数据』的股票预测研究

基于『大语言模型』和『新闻数据』的股票预测研究

作者头像
量化投资与机器学习微信公众号
发布于 2024-08-01 10:48:14
发布于 2024-08-01 10:48:14
5660
举报
作者: Tian Guo、Emmanuel Hauptmann

前言

量化投资依赖于从各种数据源(包括市场价格、经济指标、财务文本等)提取定量特征或信号,以构建和优化投资组合。近年来,由于自然语言处理(NLP)技术的发展,使用文本数据进行量化投资的趋势显著增长。特别是,大语言模型(LLMs)在各种语言理解和生成任务上展示了卓越的性能,并且微调技术允许将预训练的LLMs适应于量化投资。

本文专注于使用财务新闻进行股票预测以进行选股。传统使用财务新闻数据应用于选股方法涉及,如下图a所示,包括特征标注(例如,情感、主题、受欢迎程度等),提取特征(例如,训练财务情感分类模型),并通过统计分析或构建预测模型来验证提取特征的预测能力。这个过程可能是耗时的,并且需要额外的数据(例如,标记的财务情感数据)和持续的改进。

本文探索了通过微调LLMs使用新闻直接进行股票收益预测,如上图b所示:

1、我们设计了一个包含文本表示和预测模块的基于LLM的收益预测模型。

2、我们假设,仅包含编码器的和仅包含解码器的大型语言模型在预训练和微调阶段对文本序列的处理方式不同,因此它们的文本表示性能可能会有所差异;基于此,我们提出比较仅使用编码器的模型(如DeBERTa)和仅使用解码器的模型(如Mistral和Llama3)作为预测模型中的文本表示模块。

3、考虑到LLM生成的文本表示在Token级别,我们提出了两种简单的方法将Token表示集成到预测模块中:bottleneck表示和aggregated表示。

4、我们在真实的财务新闻和各种股票池上进行实验。除了评估预测误差外,我们还通过在样本外时期进行回测来评估基于收益预测构建的两种类型的投资组合。对仅包含编码器的和仅包含解码器的LLMs的实验,为识别适合不同投资策略和市场的文本表示提供了帮助。

具体介绍

下图为使用大模型基于新闻数据进行股票收益预测的流程:

我们知道大语言模型大部分是基于Transformer结构,其中又分为encoder-only(仅使用编码器部分),decoder-only(仅使用解码器部分)和encoder-decoder。本文中对encoder-only和decoder-only两类大语言模型的预测效果进行了对比。

Encoder-Only LLMs(编码器LLMs):

这类模型主要关注于学习输入文本的上下文嵌入(contextual embeddings)。它们通过预训练阶段的掩码语言建模(masked-language modeling)来实现这一目标。

在掩码语言建模中,文本序列中的一些标记(tokens)会被随机遮蔽(mask),然后模型的任务是预测这些被遮蔽的标记。这个过程使得模型学习到的每个标记的向量表示能够结合其左侧和右侧的上下文信息。

一个著名的例子是(BERTBidirectional Encoder Representations from Transformers),它通过这种方式生成输入文本的双向表示。

在预训练中,模型会看到如“[MASK]”这样的特殊标记,并尝试根据周围的上下文来预测这个位置原本的词。

Decoder-Only LLMs(解码器LLMs):

decoder-onlyLLMs在预训练中使用下一个词预测任务(next-token prediction task),它们被训练来生成文本,通过预测序列中下一个词来建模。

这类模型的预训练目标是自回归地(autoregressively)建模输入序列,即每个词的预测都依赖于之前已经看到的词。

为了模拟序列的第一个词,通常会在序列开始处添加一个特殊的开始序列标记(BOS,Beginning-of-Sequence token)。

一个例子是GPT-3(Generative Pretrained Transformer 3),它通过这种方式生成文本,并能够捕捉序列的流动性和连贯性。

作者还提到了两种将LLMs生成的标记级(token-level)向量表示整合到预测模块的方法:瓶颈表示(bottleneck representations)和聚合表示(aggregated representations)。这两种方法都旨在将LLMs生成的文本表示转化为能够用于预测股票回报的形式,但它们在如何整合序列信息方面采取了不同的策略。瓶颈表示通过一个单一的向量来捕捉整个序列的信息,而聚合表示则通过综合考虑序列中所有标记的信息来实现。论文的实验结果表明,这两种方法在不同的投资领域和不同的LLMs中表现各有优劣。

瓶颈表示(Bottleneck Representations):

1、这种方法的核心思想是在微调(fine-tuning)过程中,促使LLMs将整个文本序列的信息压缩成一个单一的向量表示。

2、实际操作中,通过在输入序列的末尾添加一个序列结束(End-of-Sequence, EOS)标记来实现。由于EOS标记在所有序列中都是相同的,它的向量表示将依赖于序列中的实际标记。

3、在微调过程中,EOS标记的向量表示被送入预测模块,并在训练过程中通过反向传播(backpropagation)来调整,以总结序列中实际标记的表示。

4、对于encoder-only LLMs,这种方法与预训练阶段的掩码语言建模任务一致,可能有助于更有效地总结序列级特征。

聚合表示(Aggregated Representations):

1、与瓶颈表示不同,聚合表示不是将信息压缩成一个单一的向量,而是允许预测模块综合考虑序列中所有标记的向量表示。

2、这种综合可以通过简单的方法实现,例如对所有标记的向量表示进行平均,或者使用更复杂的方法,如注意力机制(attention mechanisms)。

3、论文中选择了简单的平均方法,因为它不需要训练额外的参数,并且可以清晰地与瓶颈表示进行比较。

4、对于decoder-onlyLLMs,使用聚合表示可能会增加预训练和微调之间的差异,因为每个标记的表示是基于上下文和自身,而不是预训练中的掩码标记。

5、对于decoder-only LLMs,平均所有标记的表示可能会导致对输入序列中早期标记的偏见,因为在自回归设置中,早期标记会反复合并到后续所有标记的表示中。

实证结果

作者使用了2003年至2019年间的公司级财务新闻流数据,这些数据由一家金融数据供应商提供。每条新闻都包含一个或多个公司标识符,表示新闻主要关注的公司。测试范围为北美、欧洲及新兴市场。

模型训练和验证数据覆盖了2003年至2014年,剩余的数据用于样本外测试(out-of-sample testing)。模型训练使用了32的批量大小(batch size)、1e-5的学习率。微调LLMs时,所有线性层都应用了秩为4的低秩适应(Low-Rank Adaptation, LoRA)技术。所有模型都在两个A100 GPU上进行了10个epoch的训练。

此外,我们还将基于预测的投资组合与传统基于情感分析的投资组合进行了比较,使用了FinBERT和FinVader这两种情感分析方法来构建基于情感的投资组合,并使用相同的方法,但以情感值为排名标准。通过这些设置和指标,作者能够全面评估不同LLMs和表示方法在股票回报预测任务上的有效性。

上门的两幅图和表格揭示了在北美市场进行股票收益预测时,大语言模型(LLMs)的实证研究成果。研究表明,聚合表示法(Aggregated Representations)通常在生成增强多头仓位和长空头仓位投资组合表现的回报预测方面优于瓶颈表示法(Bottleneck Representations)。具体来说,在顶部分位数(如第9分位数)上,聚合表示法能够产生更高的回报,这对多头仓位投资组合有利。然而,瓶颈表示法在某些情况下,如Llama模型,也能展现出与聚合表示法相当的性能。

在不同模型的对比中,Mistral模型在多个投资领域展现出了更为稳健的表现,尤其是在使用聚合表示法时。DeBERTa模型虽然在某些情况下表现良好,但在大型投资领域中,其基于瓶颈表示法的预测模型表现不如基于聚合表示法的模型。Llama模型虽然在某些分位数上表现不俗,但在整体的一致性和稳健性方面似乎不如Mistral。

表格内容进一步证实了这些发现,显示基于预测的投资组合在年化收益和夏普比率上普遍优于传统的基于情感分析的投资组合。这表明,直接从LLMs的文本表示中派生出的回报预测是一个强有力的信号,能够有效地支持量化投资组合的构建,超越了传统的基于情感的分析方法。

上图是在北美市场对不同大语言模型(LLMs)的性能进行了深入的比较分析,揭示了研究的关键发现。首先,第一幅图展示了encoder-only和decoder-only LLMs在适合的表示方法下的表现。结果表明,decoder-only模型Mistral和Llama在预测高回报(第9分位数)和低回报(第0分位数)方面表现突出,这直接反映在多头仓位和长空头仓位投资组合的优越表现上。特别是,decoder-only模型在长空头仓位投资组合中的表现尤为显著,这强调了在投资组合的多头和空头两边都进行有效股票选择的重要性。

第二幅图进一步将基于预测的投资组合与基于情感分析的投资组合进行了对比。基于LLM的预测型投资组合不仅在年化收益和夏普比率上超越了情感型投资组合,而且在累积收益图表中也显示出更优的曲线。特别是,基于LLM预测的多空头仓位投资组合的收益曲线比多头仓位投资组合更为平滑,这表明空头部分有助于降低整体投资组合的波动性。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-07-30,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 量化投资与机器学习 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
从新闻到预测:基于大语言模型时序预测中的迭代事件推理
论文标题:From News to Forecast: Iterative Event Reasoning in LLM-Based Time Series Forecasting
科学最Top
2025/06/11
1720
从新闻到预测:基于大语言模型时序预测中的迭代事件推理
图解BERT模型:从零开始构建BERT
本文首先介绍BERT模型要做什么,即:模型的输入、输出分别是什么,以及模型的预训练任务是什么;然后,分析模型的内部结构,图解如何将模型的输入一步步地转化为模型输出;最后,我们在多个中/英文、不同规模的数据集上比较了BERT模型与现有方法的文本分类效果。 1. 模型的输入/输出 BERT模型的全称是:BidirectionalEncoder Representations from Transformer。从名字中可以看出,BERT模型的目标是利用大规模无标注语料训练、获得文本的包含丰富语义信息的Repre
腾讯Bugly
2019/01/30
47.4K3
图解BERT模型:从零开始构建BERT
LLMs大模型在金融投资领域的15个具体应用场景
传统的股票时间序列预测主要依赖统计和计量经济学方法,如自回归滑动平均模型(ARMA-GARCH)、向量自回归模型(VAR)、状态空间模型、扩散模型和误差修正向量模型(VECM)。这些模型通过识别金融系列中的模式和波动性,对市场进行分析和预测。随着机器学习的发展,决策树、支持向量机(SVM)等方法逐渐受到重视。近年来,深度学习技术如循环神经网络(RNN)、卷积神经网络(CNN)和Transformer模型的应用显著提升了股票时间序列预测的精度和效率。GPT-3、GPT-4和LLaMA等大型语言模型在解析复杂数据关系方面表现出色,推动了时间序列数据转化为文本序列的创新。
AIGC部落
2024/07/22
3470
大语言模型的预训练[1]:基本概念原理、神经网络的语言模型、Transformer模型原理详解、Bert模型原理介绍
预训练属于迁移学习的范畴。现有的神经网络在进行训练时,一般基于反向传播(Back Propagation,BP)算法,先对网络中的参数进行随机初始化,再利用随机梯度下降(Stochastic Gradient Descent,SGD)等优化算法不断优化模型参数。而预训练的思想是,模型参数不再是随机初始化的,而是通过一些任务进行预先训练,得到一套模型参数,然后用这套参数对模型进行初始化,再进行训练。
汀丶人工智能
2023/07/17
6.9K0
大语言模型的预训练[1]:基本概念原理、神经网络的语言模型、Transformer模型原理详解、Bert模型原理介绍
Data+AI时代下,如何权衡俩者之间的关系?
在当今信息爆炸的时代,每秒都会产⽣海量数据,各⾏各业万花筒式的开展,导致结构化数据与⾏为追踪数据⼤量涌⼊我们的视野。
一臻数据
2025/01/13
1160
Data+AI时代下,如何权衡俩者之间的关系?
RAG 修炼手册|一文讲透 RAG 背后的技术
今天我们继续剖析 RAG,将为大家详细介绍 RAG 背后的例如 Embedding、Transformer、BERT、LLM 等技术的发展历程和基本原理,以及它们是如何应用的。
Zilliz RDS
2024/04/11
1.9K0
RAG 修炼手册|一文讲透 RAG 背后的技术
万字长文——这次彻底了解LLM大语言模型
自然语言处理领域正在经历着一场又一场的革命,各类技术层出不穷,不断的改变我们对文本的理解方式和文本生成方式。类似与蝴蝶效应,这场革命不仅提高了机器翻译、文本摘要、文本分类等任务的性能,还在各行各业引发了巨大的变革。越来越 多的行业AI化、智能化。在本小节,将介绍一些语言模型中的核心概念,为更好的理解大语言模型做铺垫。
聪明鱼
2023/12/07
6.5K2
LLM4Rec:当推荐系统遇到大语言模型
大模型LLM在越来越多的领域开始崭露头角,前段时间我们整理了大模型在推荐系统中的应用 survey,当时留了一些坑没填上,今天补上。
NewBeeNLP
2024/01/17
3.6K0
LLM4Rec:当推荐系统遇到大语言模型
大语言模型技术原理
在今天这个时代,人们的工作和生活已经离不开数据访问,而几乎所有平台背后的数据存储和查询都离不开数据库。SQL作为一种数据库的查询和处理语言历史悠久,最早由IBM于上世纪70年代初研究关系数据模型时提出,后续发展为一种广泛使用的数据库标准访问接口。
NineData
2023/05/30
1.9K0
大语言模型技术原理
大语言模型简史:从Transformer(2017)到DeepSeek-R1(2025)的进化之路
2025年初,中国推出了具有开创性且高性价比的「大型语言模型」(Large Language Model — LLM)DeepSeek-R1,引发了AI的巨大变革。本文回顾了LLM的发展历程,起点是2017年革命性的Transformer架构,该架构通过「自注意力机制」(Self-Attention)彻底重塑了自然语言处理。到2018年,BERT和GPT等模型崭露头角,显著提升了上下文理解和文本生成能力。2020年,拥有1750亿参数的GPT-3展示了卓越的「少样本」和「零样本」学习能力。然而,「幻觉」问题 — —即生成内容与事实不符,甚至出现「一本正经地胡说八道」的现象 — — 成为了一个关键挑战。2022年,OpenAI通过开发「对话式」的ChatGPT应对这一问题,采用了「监督微调」(SFT)和「基于人类反馈的强化学习」(RLHF)。到2023年,像GPT-4这样的「多模态模型」整合了文本、图像和音频处理能力,使LLM能够以更接近人类的「听」、「说」、「看」能力。近期推出的OpenAI-o1和DeepSeek-R1「推理模型」(Reasoning Model)在复杂问题解决方面取得突破,赋予LLM更接近人类「系统2思维」的深度推理能力,标志着人工智能在模拟人类思维模式上迈出了重要一步。此外,DeepSeek-R1模型以其「超成本效益」和「开源」设计挑战了AI领域的传统规范,推动了先进LLL的普及,并促进了各行业的创新。
致Great
2025/02/17
1.2K0
大语言模型简史:从Transformer(2017)到DeepSeek-R1(2025)的进化之路
Transformer 架构—Encoder-Decoder
最初的Transformer是基于广泛应用在机器翻译领域的Encoder-Decoder架构:
JOYCE_Leo16
2024/03/19
1.2K0
Transformer 架构—Encoder-Decoder
AI论文速读 | 计时器(Timer):用于大规模时间序列分析的Transformer
题目:Timer: Transformers for Time Series Analysis at Scale
时空探索之旅
2024/11/19
4200
AI论文速读 | 计时器(Timer):用于大规模时间序列分析的Transformer
大语言模型-2.2/3-主流模型架构与新型架构
本博客内容是《大语言模型》一书的读书笔记,该书是中国人民大学高瓴人工智能学院赵鑫教授团队出品,覆盖大语言模型训练与使用的全流程,从预训练到微调与对齐,从使用技术到评测应用,帮助学员全面掌握大语言模型的核心技术。并且,课程内容基于大量的代码实战与讲解,通过实际项目与案例,学员能将理论知识应用于真实场景,提升解决实际问题的能力。
IT从业者张某某
2025/03/24
2530
大语言模型-2.2/3-主流模型架构与新型架构
[量化投资]万字综述,94篇论文分析股市预测的深度学习技术
论文 | Stock Market Prediction via Deep Learning Techniques: A Survey
核桃量化
2023/01/31
3.9K0
[量化投资]万字综述,94篇论文分析股市预测的深度学习技术
论文推荐:大语言模型在金融领域的应用调查
这篇论文总结了现有LLM在金融领域的应用现状,推荐和金融相关或者有兴趣的朋友都看看
deephub
2024/01/30
5030
论文推荐:大语言模型在金融领域的应用调查
QuantML | 使用财务情绪与量价数据预测稳健的投资组合(附代码)
投资组合管理是最大化投资组合回报的过程。投资组合经理根据他们对风险的偏好,代表客户做出交易决策。他们在决定他们应该在投资组合中持有哪些股票以平衡风险和获取最大回报之前,分析不同的资产的优势和劣势。这使得投资组合管理变得困难。我们的目标是通过使用预测建模和深度学习技术使这个过程更好,根据下个季度的预测股价生成稳定的投资组合。
量化投资与机器学习微信公众号
2019/06/20
2.3K0
深度学习在股市的应用概述
股票市场预测由于其非线性、高度波动性和复杂性,一直是个复杂的问题。近年来,深度学习在许多领域占据了主导地位,在股市预测方面取得了巨大的成功和普及。本文以深度学习技术为重点,对其应用于股市预测研究进行结构化和全面的概述,介绍了股市预测的四个子任务及股市预测主流模型,并分享了一些关于股市预测的新观点及未来的几个方向。
算法进阶
2023/09/15
1.2K0
深度学习在股市的应用概述
【AI大模型】BERT模型:揭秘LLM主要类别架构(上)
LLM本身基于transformer架构。自2017年,attention is all you need诞生起,原始的transformer模型为不同领域的模型提供了灵感和启发。基于原始的Transformer框架,衍生出了一系列模型,一些模型仅仅使用encoder或decoder,有些模型同时使用encoder+decoder。
小言从不摸鱼
2024/09/26
6470
【AI大模型】BERT模型:揭秘LLM主要类别架构(上)
LLM主要类别架构
💫LLM分类一般分为三种:自编码模型(encoder)、自回归模型(decoder)和序列到序列模型(encoder-decoder)。
@小森
2024/06/04
5910
Python用langchain、OpenAI大语言模型LLM情感分析苹果股票新闻数据及提示工程优化应用
本文主要探讨了如何利用大语言模型(LLMs)进行股票分析。通过使用提供的股票市场和金融新闻获取数据,结合Python中的相关库,如Pandas、langchain等,实现对股票新闻的情感分析。利用大语言模型构建情感分析模型,通过提示工程等技术优化模型,最终通过可视化展示股票市场的情感倾向,为股票投资决策提供参考。
拓端
2025/02/07
2490
Python用langchain、OpenAI大语言模型LLM情感分析苹果股票新闻数据及提示工程优化应用
推荐阅读
相关推荐
从新闻到预测:基于大语言模型时序预测中的迭代事件推理
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档