首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >如何从kafka流到cassandra和递增计数器

如何从kafka流到cassandra和递增计数器
EN

Stack Overflow用户
提问于 2017-10-11 18:05:57
回答 2查看 1.2K关注 0票数 0

我有apache访问日志文件,我想在cassandra表中存储每个页面的访问计数(总数/每天/每小时)。

我正在尝试使用kafka连接从日志文件流到kafka主题。为了在Cassandra中增加指标计数器,我可以再次使用Kafka Connect吗?否则,这里应该使用哪些其他工具,例如kafka streams,spark,flink,kafka connect等?

EN

回答 2

Stack Overflow用户

发布于 2017-10-11 19:19:47

你说的是流处理,Kafka可以做到这一点--无论是使用Kafka's Streams API,还是KSQL。KSQL运行在Kafka Streams之上,为您提供了一种非常简单的方法来构建您正在讨论的那种聚合。

以下是在KSQL中聚合数据流的示例

代码语言:javascript
运行
复制
SELECT PAGE_ID,COUNT(*) FROM PAGE_CLICKS WINDOW TUMBLING (SIZE 1 HOUR) GROUP BY PAGE_ID

欲了解更多信息,请访问:https://www.confluent.io/blog/using-ksql-to-analyse-query-and-transform-data-in-kafka

您可以获取KSQL的输出,它实际上只是一个Kafka主题,并通过Kafka Connect将其流式传输到Elasticsearch、Cassandra等。

您提到了其他流处理工具,它们也是有效的-部分取决于现有的技能和语言偏好(例如,Kafka Streams是Java库,KSQL是…KSQL,Spark Streaming有Python以及Java等),但也有部署首选项。Kafka Streams只是一个可以部署到现有应用程序中的Java库。KSQL可以在集群中部署,依此类推。

票数 3
EN

Stack Overflow用户

发布于 2017-10-16 03:17:56

这可以使用Flink轻松完成,无论是批处理作业还是流作业,也可以使用Kafka或不使用Kafka (Flink可以从文件读取和写入Cassandra)。使用Flink的SQL api可以轻松完成这种时间窗口聚合;请参阅examples here

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/46685411

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档