本文最初发表在 Apache Flink 官博,经原作者授权,InfoQ 中文站翻译并分享。
Apache Flink 开源的 StatefulSet Functions 可以极大降低构建和编排分布式有状态应用程序的复杂性,集成了 Apache Flink 和函数即服务(Function-as-a-Service,FaaS)的流处理优点,为下一代事件驱动架构提供了强大的抽象能力。日前,StatefulSet Functions 2.2.0 现已发布。
Apache Flink 社区很高兴宣布 Stateful Functions 2.2.0 的发布!这个版本引入了扩展 SDK 的主要功能,例如 Python SDK 中对异步函数的支持、新的持久化构造,以及允许在 Flink DataStream 作业中嵌入 StateFun 函数的新 SDK。此外,我们还包括一些重要的更改,这些更改提高了常见工作负载的开箱即用稳定性,并提高了操作目的的可观察性。
自上个版本发布以来,我们也看到了新的第三方 SDK 正在为 StateFun 开发。虽然它们并不是发布版本的一部分,但是看到这些由社区驱动的新增功能,我们还是很高兴的!我们在下面的公告中,强调了这些努力。
二进制发行版和源码产品现在就可以在 Flink 网站的更新下载页面上获得,最新的 Python SDK 发行版可以在 PyPI 上获得。有关更多详细信息,请查阅完整的版本变更日志和更新文档。我们鼓励你下载这一版本,并通过 Flink 邮件列表或 JIRA 与社区分享你的反馈意见。
此版本通过在 Python SDK 中引入新的处理程序,可以将异步 Python 函数注册为有状态函数:AsyncRequestReplyHandler
这允许使用 Python Web 框架提供 StateFun 函数,这些框架本身就支持本地异步 IO(例如 aiohttp):
from statefun import StatefulFunctions
from statefun import AsyncRequestReplyHandler
functions = StatefulFunctions()
@functions.bind("example/greeter")
async def greeter(context, message):
html = await fetch(session, 'http://....')
context.pack_and_reply(SomeProtobufMessage(html))
# expose this handler via an async web framework
handler = AsyncRequestReplyHandler(function
有关更多详细信息,请参阅有关公开 Python 函数的文档。
使用这个 SDK,你可以将使用 Flink DataStream
API 或更高级别的库(如 Table API、CEP 等等,基本上是任何可以使用或生成 DataStream
的东西)与 StateFul Functions 提供的编程结构结合起来,如下所示:
StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
DataStream<RoutableMessage> namesIngress = ...
StatefulFunctionEgressStreams egresses =
StatefulFunctionDataStreamBuilder.builder("example")
.withDataStreamAsIngress(namesIngress)
.withRequestReplyRemoteFunction(
RequestReplyFunctionBuilder.requestReplyFunctionBuilder(
REMOTE_GREET, URI.create("http://..."))
.withPersistedState("seen_count")
.withFunctionProvider(GREET, unused -> new MyFunction())
.withEgressId(GREETINGS)
.build(env);
DataStream<String> responsesEgress = getDataStreamForEgressId(GREETINGS
来自 DataStream
入口的事件被路由到绑定函数,发送到出口的事件被捕获为 DataStream
出口。这为构建复杂的流媒体应用提供了可能性。
在这个版本之前,Java SDK 中的持久状态构造,如 PersistedValue
、PersistedTable
等,必须在一个有状态函数的类中即时定义。在某些场景中,函数所需的状态是事先未知的,并且只能在运行时动态注册(例如,在调用函数时)。
这个版本通过提供新的 PersistedStateRegistry
构造实现了这一点:
public class MyFunction implements StatefulFunction {
@Persisted
private final PersistedStateRegistry registry = new PersistedStateRegistry();
private final PersistedValue<String> myValue;
public void invoke(Context context, Object input) {
if (myValue == null) {
myValue = registry.registerValue(PersistedValue.of("my-value", String.class));
}
...
}
}
在观察到常见工作负载之后,我们调整了一些与远程函数通信的配置,以获得更好的开箱即用连接稳定性。这包括以下内容:
statefun.async.max-per-task
),StateFun 就会施加背压,但观察典型的工作负载,我们发现默认值设置得过高了。在这个版本中,为提高稳定性和资源消耗,我们降低了默认值,以应对响应缓慢的远程函数。这个版本的一个主要目标是采取必要的步骤来支持远程函数的自动扩展。为此,我们已经公开了几个与远程函数的工作负载以及由此产生的函数调度器施加的背压有关的指标。这包括以下内容:
度量标准及其描述的完整列表可以在这里找到。
在这个版本中,可以通过远程函数为 HTTP 请求的总持续时间和单个读写 IO 才做设置单独的超时。你可以在定义这些超时值的函数规范中找到相应的字段名称。
自从上一个版本发布以来,我们已经看到在 StateFun 的远程函数 HTTP 请求-应答协议之上实现了针对不同语言的新的第三方 SDK,包括 Go 和 Rust 实现。虽然这些 SDK 没有得到 Apache Flink PMC 的认可或维护,目前也不是当前版本的一部分,但看到这些新功能的添加,证明了框架的可扩展性是非常棒的。
出于这一原因,我们在文档中添加了一个新页面,列出了社区所了解的第三方 SDK。
下面是面向用户的界面和配置更改、依赖关系版本升级或删除受支持版本的列表,当你将 StateFun 应用程序升级到此版本时,需要注意的重要事项:
如果你计划将安装程序升级到 Stateful Functions 2.2.0,请查看发行说明以获取更改和新功能的详细列表。
作者介绍:
Tzu-Li(Gordon)Tai,Apache Flink 代码提交者、PMC 会员,Ververica 软件工程师;Sebastian Riedel,Apache Flink 原创者,Ververica 软件工程师。
原文链接:
https://issues.apache.org/jira/secure/ReleaseNote.jspa?projectId=12315522&version=12348350
领取专属 10元无门槛券
私享最新 技术干货