在金融科技迅猛发展的今天,华安基金作为行业的先行者,面临着数据管理和分析的全新挑战。随着业务的不断扩展和数据量的激增,传统的数据库架构已难以满足系统对实时性、灵活性和分析能力的需求。在这样的背景下,HTAP(混合事务/分析处理)数据库成为了数字化转型的关键。
本文由华安基金大数据开发工程师郑圣瑜撰写。探讨了华安基金在 HTAP 场景下的数据库选择。从实际业务场景出发,解析了选择 HTAP 数据库的原因及选择 TiDB 的决策过程;以及如何通过 POC 测试和实际应用,验证 TiDB 的优势;同时展示报表系统后台数据库从 MySQL 迁移到 TiDB 的案例及性能提升,分享测试和使用中的挑战及 TiDB 的新特性应用。
华安基金管理有限公司,成立于 1998 年,总部位于上海,是中国证监会批准成立的首批 5 家基金管理公司之一。华安基金旗下公募基金规模超过 6000 亿元,非货币公募资产管理规模超过 3500 亿元。公司管理的公募基金共计 248 只,服务的客户数量超过 1.3 亿,累计为投资者实现分红金额超过 1000 亿元。华安基金凭借其出色的资产管理能力,累计获得金牛奖 57 座,另外多次获得金基金奖、明星基金奖等荣誉。
在 2018 年以前,华安基金的数据库技术栈采用了集中式架构,以 Oracle 为主,MySQL 为辅;在 2018 年后,系统的数据量和并发量都有了大规模的增长,数据仓库层面引入了一套基于 Hadoop 生态的国产化分布式数据库;到 2023 年华安基金响应号召进行了国产化改造,进行了国产集中式数据库的选型替换。随着业务的不断发展,面对系统的复杂性,一个既能处理大量事务,又能进行实时分析的数据库解决方案成为了必须,因此,华安基金开启了新一轮的架构选型。
华安基金第一次感受到 HTAP 数据库的重要性是在反洗钱系统的研发中。由于该系统既包含批处理场景,也包含交易场景。尤其是审计模块,业务分析前置条件较多、需要处理的数据量很大,服务于 1.3 亿投资人,涉及到大量的数据增删改查操作。
过去,OLAP 请求从上游负责 OLTP 请求的各个信息数据库中提取数据,在数仓进行加工处理,再将处理后的数据推送到下游的各个应用系统中。在纯分析场景中,原有的 Hadoop+分布式数据库架构能够满足需求,但在交易场景中,尤其是审计模块,效率下降得十分明显。
为了应对业务的需求,新的数据库架构必须具备以下能力:
因此,华安基金开启了 HTAP 数据库选型的技术储备工作。
华安基金是上海仅有的两家基金行业中的国产化改造试点单位之一,根据相关部门要求,需要在 2027 年之前完成所有系统的国产化化改造,目前已经完成了 70%。
TiDB 是新一代分布式数据库的引领者,坚持自主开源的价值主张和全球化策略,2024 年 9 月,依托于 TiDB 经过深度优化与功能增强,为企业级关键业务场景量身打造的分布式数据库平凯数据库首批通过分布式数据库安全可靠测评,现已在金融、运营商、能源、医疗、电力、政企等多个行业的关键业务系统中得到了广泛应用和验证,这也是华安基金选择 TiDB 的前提条件。
在降本增效的大背景下,企业的 IT 人员有限,需要数据库可靠、稳定,并且运维简单;与此同时,金融行业的安全性和审计也至关重要,TiDB 的架构恰好能够满足这些需求:
TiDB 凭借先进的架构和透明、灵活、高效、易用的使用体验成为了此次 HTAP 数据库选型中的优选。
在框定了选型范围后,需要通过严格的全链路测试来验证产品能力。在设置测试标准时,主要有两方面考虑:
根据以上原则,本轮选型测试采用 3 节点国产化硬件服务器以及操作系统进行部署,对百万级/亿级别/百亿级别等 13 项 HTAP 场景进行了业务测试,测试的场景和标准如下:
TiDB 超过 2 TB 级别混合场景中,运维、管控、数据处理、弹性扩容等场景均表现优秀。经过综合评估,TiDB 在 GPT(General Purpose Transactional Processing,通用事务处理)得分上脱颖而出:
在将报表系统升级至 TiDB 之后的性能对比分析显示,原先依赖单机 MySQL 数据库的系统经过升级,采用了三台服务器的配置,性能提升显著,远超三倍的预期。升级后的系统表现赢得了后台运营团队和业务团队的高度满意。
TiDB 在华安基金的近期应用主要集中在 OLAP 能力上,支持大规模数据的聚合分析和精确查询,这些场景要求数据库能够处理千万级以上的多表关联和聚合分析,以及百亿级的数据查询和范围扫描。未来,TiDB 在华安基金的应用将扩展到 OLTP 层面,支持更复杂的事务处理和在线交易业务,包括注册登记系统 TA、华安基金 APP、华安基金投资助手公众号,以及反洗钱系统审计等场景。
在测试过程中,除了对 HTAP 能力的验证,TiDB 的新特性也带给了华安基金惊喜的使用体验。
过去,在处理大规模事务的过程中,往往需要调整应用端的业务逻辑和需求以适应大量数据的导入,使用到批处理 DML(Batch DML)功能。随着 TiDB pipelined DML 功能的推出,现在可以通过简单地添加一个参数开关来提升性能,无需再对业务操作进行修改。这一改进显著简化了操作流程,提高了效率。
TiDB 的新版本相较于旧版本,在性能上也实现了显著的飞跃。这些性能上的改进极大地提升了华安基金在处理大规模数据时的效率,并且优化了操作流程。
TiDB 的资源管控特性为系统提供了关键的资源分配能力。报表系统需要特定的资源分配策略,尤其是确保高层管理部门能够优先获取计算资源。对于后台部门,如执行常规数据处理的,对速度的要求相对宽松。为此,华安基金实施了两个资源池的设置:一个是高优先级的 online(在线)资源池,另一个是 offline(离线)资源池。在系统界面中(RU Consumed by Resource Groups),online 资源池以红色标识,而 offline 资源池以蓝色显示,确保 online 资源池能够获得更高的优先级和使用权限。
TiDB 的新特性——分区表全局索引,在营销领域的客户持仓分析中发挥了重要作用。面对一张每天新增超过 6000 万条持仓数据的明细表,数据导入过程中的稳定性非常重要,需要开启特定开关来确保操作的安全性。此外,针对业务人员的查询需求,通常基于普通索引执行点查询或小范围查询,TiDB 提供的全局索引(Global Index)功能显著提升了使用的高效性和便捷性。
华安基金的上游数据仓库是基于开源 Hadoop 生态系统构建,主要采用 ORC 格式存储文件,TiDB 团队快速响应,在原有的文本文件和 Parquet 文件导入之外,实现了 ORC 文件的导入,从而满足了报表系统下游的多样化需求。
TiDB 的图形化管控界面简化了操作流程,避免了仅依赖命令行进行操作的复杂性,同时集成了告警管理、数据备份和主机管理等关键功能。这些功能的集成与华安基金现有的大数据仓库操作高度一致,从而提高了管理效率和用户体验。
华安基金在选择 HTAP 数据库的过程中,遵循了一套全面而细致的选型思路,以确保所选技术能够充分满足业务需求并推动公司发展:
经过细致的选型过程后,华安基金选择了 TiDB 作为 HTAP 数据库解决方案。现在,TiDB 在华安基金报表系统上已经稳定运行,成为了有参考性的解决方案;反洗钱系统作为金融行业当前的一个重点和难点,华安基金也在积极与众多同业探讨交流,探索 TiDB 的应用场景。
国内金融机构正纷纷借数字化转型建设加大投入,科技对于公募基金行业创新发展的驱动正在进入新的阶段。展望未来,相信 TiDB 有能力支撑华安基金的业务发展和技术需求,更好地服务于广大持有人和投资者。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。