首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Vast+产品展厅 | Vastbase SMP并行执行流程介绍

当一条查询语句在所涉及的表中的数据量达到阈值时,由规划器生成的计划去执行扫描时性能会比较差,因此需要使用多个worker线程并行各自去执行扫描表操作。这就是并行流式执行,简称SMP。

它是一种利用计算机多核CPU架构来实现多线程并行计算,以充分利用CPU资源来提高查询性能的技术。

本文将为您介绍Vasebase中SMP并行执行流程的实现原理,包括解决的问题、整体设计框架以及原理等。通过了解Vastbase SMP并行执行流程,数据库管理员和开发者可以更好的利用Vastbase,提高数据库算力。

下层算子向上层算子吐出数据,在单个线程中只能顺序执行。中间算子(例如HashJoin、NestedLoop等)一般拥有1-2个下层算子,部分算子(例如Append)拥有多个下层算子。叶节点算子一般是某种Scan算子(例如SeqScan、IndexScan)。

显而易见,当某个算子的时间开销过大时,会拉低整个计划的性能。

这是并行计划的一种形式示例,最下层Scan算子并行,每个并行算子在单独的线程中执行,共同完成数据扫描任务,向上层收集器(Gather)吐出数据,而收集器成为上层算子的子节点。

实际实现中,中间算子也可以并行,共同组成形式多样的并行计划。

并行线程通过内存队列与上层算子完成数据传输,由两个组件StreamConsumer

和StreamProducer协同完成处理,他们之间可以是多对一、一对多、多对多关系。

SMP主线程

该线程是查询语句的调用入口(exec_simple_query),负责初始化、顶层执行、数据汇总等,在线程上下文的子角色为顶层消费者TOP_CONSUMER。

SMP子线程

根据并行参数和查询计划,会生成多个并行执行子线程,负责处理自己的那部分并行执行逻辑,并把数据发送给上层线程。在线程上下文的角色为STREAM_WORKER 或 THREADPOOL_STREAM。

在一个复杂的计划中,会存在多层SMP执行流嵌套的情况。以下图的情况为例,整个计划会被分为3层,query_dop并行度为2。第一层主线程作为顶层消费者获取和汇总数据,第二层有2个子线程,它们作为消费者向下层获取数据,执行后作为上层的生产者发送数据,第三层2个子线程只负责执行,并作为生产者向第二层发送数据。

通过以上的介绍可以看出,在Vastbase并行执行流程中,每个并行算子在单独的线程中执行,共同完成数据扫描任务,向上层收集器(Gather)吐出数据,共同组成形式多样的并行计划。通过这种并行数据处理,对于相同的执行计划,Vastbase可以表现出更好的执行性能。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OAlH33aEX6YvOO35Kw3kcIog0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券