大数据流式计算_流式大数据计算_流式计算大数据 - 腾讯云开发者社区 - 腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

Flink笔记02 | 一文读懂流式大数据引擎的基础概念

最近我在学习流式计算引擎Flink，正在阅读Flink的官方文档、一些技术博客以及《Streaming Processing with Apache Flink》这本书，并试图将一些知识整理下来，形成一个系列。

02

都在追捧的新一代大数据引擎Flink到底有多牛？

提起大数据处理引擎，很多人会想到Hadoop或Spark，而在2019年，如果你身处大数据行业却没听说过Flink，那你很可能OUT了！Flink是大数据界冉冉升起的新星，是继Hadoop和Spark之后的新一代大数据处理引擎。2019年初，阿里巴巴以1.033亿美元的价格收购了总部位于德国柏林的初创公司Data Artisans，Data Artisans的核心产品是正是Flink。

02

您找到你想要的搜索结果了吗？

是的

没有找到

开源XL-LightHouse与Flink、ClickHouse之类技术相比有什么优势

Flink是一款非常优秀的流式计算框架，而ClickHouse是一款非常优秀的OLAP类引擎，它们是各自所处领域的佼佼者，这一点是毋庸置疑的。Flink除了各种流式计算场景外也必然可以用于流式统计，ClickHouse同样也可以用于流式统计，但我不认为它们是优秀的流式统计工具。XL-Lighthouse在流式统计这个细分场景内足以完胜Flink和ClickHouse。在企业数据化运营领域，面对繁杂的流式数据统计需求，以Flink和ClickHouse以及很多同类技术方案为核心的架构设计不能算是一种较为优秀的解决方案。

03

流式数据 | 天天在做大数据，你的时间都花在哪了

大数据做了这许多年，有没有问过自己，大数据中，工作量最大和技术难度最高的，分别是什么呢？ 01 大数据时代我每天都在思考，思考很重要，是一个消化和不断深入的过程。正如下面的一句话: 我们从出生开始如果没思考过人生本身这件事情，一切按照社会的习惯前行，那人生是没有意义的。因为你连人生都没有想过。那么延生出来，我们有没有想过大数据本身？大数据到底是在做什么，为什么我做了这么多年的大数据，总是做不完呢？大数据本质是：随着科学技术发展，更多的数据能够被存储了，能被分析了。所以有了大数据的概念。机器学习

06

腾讯云大数据技术介绍-实时并行处理数据

上面我们讲了大数据的数据查询方法，使用Hive或者 Impala，但是这些只能查询固定历史的数据，如果要实时计算可能就不是那么合适了。

06

五大最核心的大数据技术

大数据技术有5个核心部分，分别是数据采集、数据存储、数据清洗、数据挖掘、数据可视化。关于这5个核心部分都有哪些核心技术？

03

2021年大数据Spark（三十四）：Spark Streaming概述

在很多实时数据处理的场景中，都需要用到流式处理（Stream Process）框架，Spark也包含了两个完整的流式处理框架Spark Streaming和Structured Streaming（Spark 2.0出现），先阐述流式处理框架，之后介绍Spark Streaming框架使用。

02

BDCC - Lambda VS Kappa

Lambda架构使用了批处理和流处理两种不同的处理方式来处理数据。数据首先通过流处理层进行实时处理，然后再通过批处理层进行离线处理，最后将两种处理结果合并起来得到最终的结果。Lambda架构的优点是可以同时处理实时和历史数据，并且可以保证数据的一致性，但是需要维护两套不同的代码和基础设施。

01

为什么Flink会成为下一代大数据处理框架的标准？

导读：本文将告诉你Flink是什么，以及为什么Flink会成为下一代大数据处理框架的标准。

02

那些年我们用过的流计算框架

数据时代，从数据中获取业务需要的信息才能创造价值，这类工作就需要计算框架来完成。传统的数据处理流程中，总是先收集数据，然后将数据放到DB中。当人们需要的时候通过DB对数据做query，得到答案或进行相关的处理。这样看起来虽然非常合理，但是结果却非常紧凑，尤其是在一些实时搜索应用环境中的某些具体问题，类似于MapReduce方式的离线处理并不能很好地解决。基于此，一种新的数据计算结构---流计算方式出现了，它可以很好地对大规模流动数据在不断变化的运动过程中实时地进行分析，捕捉到可能有用的信息，并把结果发送

08

Flink入门（一）——Apache Flink介绍

在当代数据量激增的时代，各种业务场景都有大量的业务数据产生，对于这些不断产生的数据应该如何进行有效的处理，成为当下大多数公司所面临的问题。随着雅虎对hadoop的开源，越来越多的大数据处理技术开始涌入人们的视线，例如目前比较流行的大数据处理引擎Apache Spark,基本上已经取代了MapReduce成为当前大数据处理的标准。但是随着数据的不断增长，新技术的不断发展，人们逐渐意识到对实时数据处理的重要性。相对于传统的数据处理模式，流式数据处理有着更高的处理效率和成本控制能力。Flink 就是近年来在开源社区不断发展的技术中的能够同时支持高吞吐、低延迟、高性能的分布式处理框架。

01

从单体到Flink：一文读懂数据架构的演变

如图1-1所示，传统单体数据架构（Monolithic Architecture）最大的特点便是集中式数据存储，企业内部可能有诸多的系统，例如Web业务系统、订单系统、CRM系统、ERP系统、监控系统等，这些系统的事务性数据主要基于集中式的关系性数据库（DBMS）实现存储，大多数将架构分为计算层和存储层。

04

Spark概述

Spark，是一种通用的大数据计算框架[1]，正如传统大数据技术Hadoop的MapReduce、Hive引擎，以及Storm流式实时计算引擎等。

01

流批一体数据交换引擎 etl-engine

但客户需求场景更多是“t+1”形式，只需对当日、当周、当月数据进行分析，这些诉求仅离线分析就可满足。

大数据是什么？

大数据是指海量数据或巨量数据，其规模巨大到无法通过目前主流的计算机系统在合理时间内获取、存储、管理、处理并提炼以帮助使用者决策。

03

10个最热门的大数据技术

大数据已经融入到各行各业，哪些大数据技术是最受欢迎？哪些大数据技术潜力巨大？请听大讲台老师对10个最热门的大数据技术的介绍。

02

详解10个最热门的大数据技术

随着大数据分析市场快速渗透到各行各业，哪些大数据技术是刚需?哪些技术有极大的潜在价值?根据弗雷斯特研究公司发布的指数，这里给出最热门的十个大数据技术。 1、预测分析预测分析是一种统计或数据挖掘解决方

大数据入门之Hadoop基础学习

目前人工智能和大数据火热，使用的场景也越来越广，日常开发中前端同学也逐渐接触了更多与大数据相关的开发需求。因此对大数据知识也有必要进行一些学习理解。

02

flink与Spark的对比分析

我们是否还需要另外一个新的数据处理引擎？当我第一次听到flink的时候这是我是非常怀疑的。在大数据领域，现在已经不缺少数据处理框架了，但是没有一个框架能够完全满足不同的处理需求。自从Apache spark出现后，貌似已经成为当今把大部分的问题解决得最好的框架了，所以我对另外一款解决类似问题的框架持有很强烈的怀疑态度。不过因为好奇，我花费了数个星期在尝试了解flink。一开始仔细看了flink的几个例子，感觉和spark非常类似，心理就倾向于认为flink又是一个模仿spark的框架。但是随着了

04

大数据时代：十大最热门的大数据技术

随着大数据分析市场快速渗透到各行各业，哪些大数据技术是刚需?哪些技术有极大的潜在价值?根据弗雷斯特研究公司发布的指数，这里给出最热的十个大数据技术。预测分析：预测分析是一种统计或数据挖掘解

06

大数据驱动的实时文本情感分析系统：构建高效准确的情感洞察【上进小菜猪大数据】

随着互联网的快速发展和大数据技术的不断成熟，用户推荐系统在各个应用领域变得越来越重要。本文将介绍如何利用大数据技术构建一个实时用户推荐系统。我们将通过结合Apache Kafka、Apache Spark和机器学习算法，实现一个高效、可扩展且准确的推荐系统。同时，本文还将提供具体的代码实例和技术深度解析，帮助读者更好地理解和实践。

01

主流实时流处理计算框架Flink初体验

Apache Flink是由Apache软件基金会开发的开源流处理框架，其核心是用Java和Scala编写的分布式流数据流引擎。Flink以数据并行和流水线方式执行任意流数据程序，Flink的流水线运行时系统可以执行批处理和流处理程序。此外，Flink的运行时本身也支持迭代算法的执行。百度百科

02

从港口煤炭工人，到国企大数据负责人：曾经的网瘾少年是怎么做到的？

大家好，我是独孤风，一位曾经的港口煤炭工人，目前在某国企任大数据负责人，公众号大数据流动主理人，近日公众号粉丝也刚刚突破了万人算是一个小小的里程碑。

01

女友问粉丝过万如何庆祝，我发万字长文《保姆级大数据入门篇》感恩粉丝们支持，学姐|学妹|学弟|小白看了就懂

Java基础语法，面向对象，字符串，异常，集合，IO，线程、数据库、JDBC，Maven

04

荐读|大数据时代：十大最热门的大数据技术

随着大数据分析市场快速渗透到各行各业，哪些大数据技术是刚需?哪些技术有极大的潜在价值?根据弗雷斯特研究公司发布的指数，这里给出最热的十个大数据技术。预测分析：预测分析是一种统计或数据挖掘解决

07

流式系统 - 第一章: Streaming 入门（一）

Streaming流式计算这个词被用来表示各种不同的东西。这种缺乏精确性的术语模糊了流式计算的真正含义。设计良好的流式计算系统与任何现有的批处理引擎一样，能够产生正确的、一致的、可重复的结果（技术上更胜一筹）。

01

2021年大数据Spark（三）：框架模块初步了解

整个Spark 框架模块包含：Spark Coke、 Spark SQL、 Spark Streaming、 Spark GraphX、 Spark MLlib，而后四项的能力都是建立在核心引擎之上。

02

流式计算的代表：Storm、Flink、Spark Streaming

Spark Streaming 巧妙地利用了 Spark 的分片和快速计算的特性，将实时传输进来的数据按照时间进行分段，把一段时间传输进来的数据合并在一起，当作一批数据，再去交给 Spark 去处理。

02

腾讯大数据套件带你玩转大数据

前言 ‍ 人类每一次大的技术变革都是先在新兴产业生根发芽，再慢慢把触角伸到传统行业。在当前这股由IT(Information Technology)向DT(Data Technology)转变的技术浪潮中，互联网行业成为云计算、大数据等高新技术的试验田。经过近十年的发展，随着大数据技术的不断成熟以及互联网应用案例的普及，"数据驱动业务"的模式逐渐得到各行各业的广泛认同，“互联网+”战略的提出更是为大数据从互联网向其他行业的传播吹来一阵东风。腾讯作为互联网企业的代表，早在09年就开始探索建设大数据平台，经过批

08

Apache Paimon流式湖仓学习交流群成立

Apache Paimon是一个流式数据湖平台。致力于构建一个实时、高效的流式数据湖平台。这个项目采用了先进的流式计算技术，使企业能够实时处理和分析大量数据。Apache Paimon 的核心优势在于它对于大数据生态系统中流式处理的支持，尤其是在高并发和低延迟方面表现出色。

01

数据天生就是流式的

部门目前核心其实就是流式计算，从根部开始(一个超大的Kafka集群)开始，延伸出一个超级庞大的树形结构。整个过程都是数据自我驱动进行流转，没有使用类似Azkaban/Oozie 等外部工具去让数据从一个系统流转到另外一个系统。而我之前提出 Transformer架构本质就是一个流式数据架构。

04

大数据架构、高性能、数据治理面试题及答案

4. Bloom Filter（BF）是一种空间效率很高的随机数据结构，下面描述错误的是__

02

TDengine是怎么解决物联网大数据处理问题的

物联网平台里模块很多，但其中很重要的一块就是数据处理，包括采集、存储、查询、分析和计算，是整个物联网行业里面比较共性的部分，个性化程度不高。

01

大数据分析与机器学习：技术深度与实例解析【上进小菜猪大数据系列】

大数据分析与机器学习已成为当今商业决策和科学研究中的关键组成部分。本文将深入探讨大数据技术的背景和原则，并结合实例介绍一些常见的大数据分析和机器学习技术。

01

什么是实时流式计算？

实时流式计算，也就是RealTime,Streaming,Analyse,在不同的领域有不同的定义,这里我们说的是大数据领域的实时流式计算。

04

Flink 01 | 十分钟搭建第一个Flink应用和本地集群

上一篇文章中我对新一代大数据处理引擎Flink做了简单的介绍，包括：批量计算与流式计算的区别、流式计算引擎的重要性，以及Flink相比其他流式计算引擎的优势。因为Flink性能优秀，解决了之前流式计算引擎的痛点，非常适合电商促销、风险控制、异常检测、金融交易等领域，阿里、腾讯、华为、美团、滴滴等大公司为了保证业务的实时性，正在积极将Flink部署在生产环境。Flink是当前大数据界冉冉升起的新星。比起Hadoop和Spark，精通Flink技术的人才相对较少，因此，掌握Flink技术对于转行或跳槽的朋友来说显得越发重要。

03

Apache Beam 初探

Beam可以解决什么问题？当MapReduce作业从Hadoop迁移到Spark或Flink，就需要大量的重构。Dataflow试图成为代码和执行运行时环境之间的一个抽象层。代码用Dataflow SDK实施后，会在多个后端上运行，比如Flink和Spark。Beam支持Java和Python，与其他语言绑定的机制在开发中。它旨在将多种语言、框架和SDK整合到一个统一的编程模型。

01

什么是实时流式计算？

无限数据指的是,一种不断增长的，基本上无限的数据集。这些通常被称为“流数据”，而与之相对的是有限的数据集。无界数据处理,一种持续的数据处理模式,能够通过处理引擎重复的去处理上面的无限数据，是能够突破有限数据处理引擎的瓶颈的。低延迟，延迟是多少并没有明确的定义。但我们都知道数据的价值将随着时间的流逝降低，时效性将是需要持续解决的问题。

02

构建基于LBS的大数据应用

目前，3.0产品最重要的技术——电子围栏技术：电子围栏是精确捕捉用户场景，实时给用户推送有价值消息的手机推送解决方案。客户根据业务需求，在地图上设置电子围栏区域和目标用户属性，通过冷数据画像（结合大数

07

Flink核心概念：系统架构、时间处理、状态与检查点

上图的Flink示例程序对一个数据流做简单处理，整个过程包括了输入（Source）、转换（Transformation）和输出（Sink）。程序由多个DataStream API组成，这些API，又被称为算子（Operator），共同组成了逻辑视角。在实际执行过程中，逻辑视角会被计算引擎翻译成可并行的物理视角。

01

天天在做大数据，你的时间都花在哪了

那么延生出来，我们有没有想过大数据本身？大数据到底是在做什么，为什么我做了这么多年的大数据，总是做不完呢？

03

腾讯云 Serverless 衔接 Kafka 上下游数据流转实战

导语：腾讯云 CKafka 作为大数据架构中的关键组件，起到了数据聚合，流量削峰，消息管道的作用。在 CKafka 上下游中的数据流转中有各种优秀的开源解决方案。如 Logstash，File Beats，Spark，Flink 等等。本文将带来一种新的解决方案：Serverless Function。其在学习成本，维护成本，扩缩容能力等方面相对已有开源方案将有优异的表现。

02

腾讯云 Serverless 衔接 Kafka 上下游数据流转实战

腾讯云 CKafka 作为大数据架构中的关键组件，起到了数据聚合，流量削峰，消息管道的作用。在 CKafka 上下游中的数据流转中有各种优秀的开源解决方案。如 Logstash，File Beats，Spark，Flink 等等。本文将带来一种新的解决方案：Serverless Function。其在学习成本，维护成本，扩缩容能力等方面相对已有开源方案将有优异的表现。 Tencent Cloud Kafka 介绍 Tencent Cloud Kafka 是基于开源 Kafka 引擎研发的适合大规模公有云部

06

揭秘流式计算引擎Flink中的时间窗口机制

数据，已经渗透到当今各行各业的价值创造过程中，成为核心生产要素之一。海量数据的挖掘和运用，已经初见成效。各大厂也在不断尝试用新的流式计算框架来对数据进行处理。其中Flink就是一个非常耀眼的存在。今天，这篇文章就重点介绍一下Flink作为一个实时流处理引擎，其最核心的时间和窗口机制。

03

直播回顾 | 腾讯云 Serverless 衔接 Kafka 上下游数据流转实战

关注腾讯云大学，了解行业最新技术动态戳阅读原文观看完整直播回顾讲师介绍腾讯云 CKafka 产品经理，负责腾讯云消息队列系列产品的产品策划相关工作，在PaaS中间件领域有着丰富的经验。腾讯云Ckafka核心研发，精通Kafka及其周边生态，拥有多年分布式系统研发经验。主要负责腾讯云CKafka定制化开发及优化工作。专注于Kafka在公有云多租户和大规模集群场景下的性能分析和优化。腾讯云 CKafka 作为大数据架构中的关键组件，起到了数据聚合，流量削峰，消息管道的作用。在 CKafk

01

落地百余场景、扛过双11，蚂蚁TuGraph流式图计算引擎正式开源！

流图计算，一个基础软件领域攻坚难度极高的分支。行业首个工业级流式图计算引擎 TuGraph-Analytics，与目前世界范围内有记录的、最快的图数据库开源项目 TuGraph DB 来自于一家中国企业，这不仅仅解决了国产基础软件领域的一大难题，健全了开源生态，更重要的是向全球展示了中国的开源力量。

04

Flink太强了！据说SparkStreaming不是对手？

相信大数据人对这两年冉冉升起的新星 Flink 都不陌生，Flink是一款构建在数据流之上的有状态计算框架，通常被视为第三代大数据分析方案。

01

倒计时1天！DIVE全球基础软件创新大会即将线上开幕！

导语由InfoQ主办的DIVE全球基础软件创新大会，将于4月15-16日线上举办。关于DIVE 深入基础软件，打造新型数字底座 InfoQ 的使命是让创新技术推动社会进步。所以，基础软件及开源领域将始终是 InfoQ 的重点关注及报道的领域。本次大会分两天进行，60+专家倾心打造，涵盖数据库、开源、操作系统、编程语言、中间件、微服务等十余场专题演讲，希望成为基础软件领域内容最丰富、最前沿、最具技术性的行业大会，成为基础软件领域的风向标，许多标杆企业发布重要趋势性更新的首选舞台；并为行业领导人物、学者、

05

天天在做大数据，你的时间都花在哪了

随着数据变多了，量变导致质变，数据足够大后其内部的隐含的规律会越来越精确和完整。机器学习则是将数据内存存在的这种隐含关联给挖掘出来的一项技术。

02

Wormhole＃流式处理平台设计思想

在流式计算领域，越来越多成熟的技术框架出现在开源世界，如Storm、Heron、Spark、Samza、Flink、Beam等。流式技术也逐步进化发展，支持流上丰富计算语法（类SQL）、支持at least once或exactly once语义、支持高可靠高可用、支持高吞吐低延迟、支持基于事件时间计算、支持统一整合接入抽象等，这些都从不可能变为可能。

04

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭