量化投资与机器学习微信公众号,是业内垂直于量化投资、对冲基金、Fintech、人工智能、大数据等领域的主流自媒体。公众号拥有来自公募、私募、券商、期货、银行、保险、高校等行业30W+关注者,荣获2021年度AMMA优秀品牌力、优秀洞察力大奖,连续2年被腾讯云+社区评选为“年度最佳作者”。
近日,第三期湾区数据沙龙“跨境数据新趋势,量化投资应用与合规”成功举办。该研讨会由深圳数据交易公司(简称“深数交”)牵头主办,数库(上海)科技有限公司(简称“数库科技”)承办,旨在从量化投资视角入手,共同探讨跨境数据带来的机遇及挑战,以更好地提升跨境数据要素流通,打造国际化数据开放合规市场。
量化投资与机器学习公众号作为邀请媒体对活动内容进行梳理报道,以下是白鹭资管投资总监张晨樱在第三期湾区数据沙龙上进行的主题分享报道。
白鹭资管投资总监张晨樱
前言
近年来,随着大数据的普遍运用和计算机性能的日新月异,另类数据在量化分析中的运用逐渐成为可能。
另类数据通常具备实时性高、数据量大、“原始”等特点,往往能提供和传统数据不一样的信息来源,从而产生同质化较低的策略,近年来另类数据的供应商个数和使用人数都有了大幅度的增加。
什么是另类数据
另类数据是个相对概念。我们往往把那些广为人知、格式统一、相对易于获得、已经在投资领域获得广泛运用的数据叫做传统数据(traditional data),比如价量、trade order、基本面财报数据等。相对应的其他数据就统称为另类数据。
通常来说,另类数据主要包含以下四种:个人产生的数据、由业务流程产生的数据、传感器产生的数据和第三方数据。
现在国内常用主要是业务流程数据和第三方数据,如:
和传统数据相比,另类数据主要有两个特征,最直接的特点是数据来源不同,在这个维度上等同于新的Alpha;第二点是另类数据的格式和处理方式往往非标准化,甚至难以被量化。也就是“New, Raw, and Unprocessed”。
这点在QIML之前的报道中张晨樱也提到过:
白鹭目前有专门的数据处理团队,日常也在不断挖掘、了解和引入市场上新兴的各类数据源。在这些不同信息的基础上制定出各类相关性较低的交易策略,达到互补效果。
举例来说,现在大家对个股因子挖掘都比较充分了,都转而关注股票之间的关系,这方面最表面的比如说同行业间股票的对比,深层一点的比如说大小票之间的、交易活跃的票和不活跃的票之间的lead-lag关系,或者说产业上下游之间的关系,本质上说都是希望利用某个股票自身信息以外的东西去预测该股票。
利用供应链的数据挖掘股票lead-lag是一个很典型的例子,整个过程中会用到刚才提到的很多种技术,首先供应链数据本身散布在财报、分析师研报、新闻等一系列文本数据中,需要借助NLP的模型去自动化地抓取与整合情感、语义、关联类的信息。整合完数据之后,需要挖掘股票之间的关系并构造对应的知识图谱,其中包括关系的指向方向(单向或者双向)、强弱、动态变化等等,进一步去研究影响这些关系的因素,以及如何利用股票间关系预测个股收益,这时候图神经网络就是个很适合的工具。但图神经网络的效果会受限于知识图谱的有效性,同时在训练中也有着更多的参数要调整优化。
另类数据是一个不断变化的概念,比如分析师预测、分析师调研、券商金股之前也属于另类数据,但随着数据供应商对这类数据的标准化的处理和发布,这些数据的使用门槛降低,现在它们会被认为是传统数据类。
此外随着处理方式的改变和进化,传统数据也可能转化为另类数据。举例来说,财报数据被认为是传统数据。但是不断有论文证明,使用文本分析进一步解读财报,或关注常被忽视的脚注,都能带来Marginal Alpha。这一类就会被认为是另类数据。
另类数据本质上是在投资线索上追求极致的量化理念,某种程度上可视为投资方法论上的进化。
另类数据的运用
另类数据在投资领域的运用已经非常广泛,目前主要分为两块:一块是直接预测公司未来的盈利以及股价,另外一块是去寻找公司之间的潜在联系,进一步转化成一些lead-lag相关的策略。
在预测公司未来盈利或股价方面,包括用文本分析去解读财报、研报,对个股表现做判断,或者通过新闻、搜索量、点击率等分析判断个股或指数的关注度和情绪高低;也包括用信用卡、电商消费数据、消费者足迹等相关数据去预测公司的营业收入。Man Group近期的研究发现,Google在新冠期间的搜索数据对细分行业趋势有不错的预测作用,并且有一些反直觉的结论。
在寻找公司之间的潜在关系方面,主体思想是相关公司间的股价会互相传导,例如龙头股的上涨和下跌有时候能引领同行业内的其他股票。其中,产业链和供应链方面的另类数据、其他知识图谱相关的信息都有广阔的运用空间。比如一个公司的客户和供应商的returns都可能预测该公司的股票回报率;再比如公司常住地数据会运用在债券投资上,一家企业违约时,所有当地的发债企业评级往往会同步下调;在同一领域享有共同IP的公司,即使不属于同一细分行业,彼此都可能互相影响股价。
不仅公司之间的关联值得研究,个人之间的关联也会影响他们的投资行为,从而影响资本市场定价,社交网络数据的应用就是很好的例子。
另类数据的挑战与机遇
我们希望另类数据可以提供传统数据之外的perspective和marginal的贡献。在使用上,以下两方面的问题要重点考虑:
1、在处理技术上是否有足够的知识储备,如何防止过拟合;
2、是否对数据的适用范围有足够的了解和把握。
首先,也是最重要的一点,处理和量化另类数据往往需要借助机器学习或者更复杂的技术,但这类数据由于天然限制、历史时间不长。高技术要求和有限的历史数据,很容易导致过拟合。以利用供应链的数据为例,整个过程中会用到很多种机器学习技术,如需要借助NLP的模型在财报等文本数据中抓取整合,整合后要用图神经网络挖掘股票之间的关系并构造对应的知识图谱,但图神经网络的效果受限于知识图谱的有效性,在训练中也有着更多的参数要调整优化。要确保某个数据真的有效而不是样本内拟合,需要有另类数据和处理技术这两方面的理解和经验,这其实是提高了对人才的要求。
此外,另类数据通常只覆盖市场的某个方面,例如某些另类数据只能覆盖一部分股票,或者只能在某些事件发生的时间范围内给出相关信号。数据覆盖度不足会降低横截面和时序上的可比性,给量化使用带来挑战。
综合而言,开拓新的另类数据需要投入极大的人力和时间成本,而第三方数据虽然性价比更高,但其作为“另类数据”的意义却可能因为公开而迅速减弱。这是个两难的选择。
另一方面,这些“问题”同时也是机遇。在基本面和价量类等传统数据运用上,量化已经可以和主观投资者分庭抗礼;而另类数据领域以前在量化投资触及范围之外,近年来随着科技进步,量化正在逐步渗透,甚至可能在细分领域占得优势。另外,因为认知和技术上的难度,在这块深耕的量化机构有机会获得附带一定壁垒的、更独特更宝贵的Alpha。虽然短期内投入产出比可能有限,但长期看来意义重大。
相信随着技术的提高,另类数据的使用将会向我们展示一个更复杂、更真实、更接近本质的世界,我们也将和所有量化投资者一起持续探索。