摘要:本文作者彭明德,介绍了钱大妈与阿里云 Flink 实时计算团队共建实时风控规则引擎,精确识别羊毛党以防营销预算流失。主要内容包括:
对一个互联网产品来说,典型的风控场景包括:注册风控、登陆风控、交易风控、活动风控等,而风控的最佳效果是防患于未然,所以事前事中和事后三种实现方案中,又以事前预警和事中控制最好。
本文整理自网易互娱资深工程师, Flink Contributor, CDC Contributor 林佳,在 FFA 实时风控专场的分享。本篇内容主要分为五个部分:
Flink Forward Asia 2022 将于 11 月 26-27 日在线上举办,议程内容正式上线! 今年是 Flink Forward Asia(下文简称 FFA)落地中国的第五个年头,也是 Flink 成为 Apache 软件基金会顶级项目的第八年。过去这几年,Flink 一方面持续优化其流计算核心能力,不断提高整个行业的流计算处理标准,另一方面沿着流批一体的思路逐步推进架构改造和应用场景落地。伴随着实时化浪潮的发展和深化,Flink 已逐步演进为流处理的领军角色和事实标准。 作为开源大数据领域
Flink Forward Asia 2022 将于 11 月 26-27 日在线上举办,议程内容正式上线! 今年是 Flink Forward Asia(下文简称 FFA)落地中国的第五个年头,也是 Flink 成为 Apache 软件基金会顶级项目的第八年。过去这几年,Flink 一方面持续优化其流计算核心能力,不断提高整个行业的流计算处理标准,另一方面沿着流批一体的思路逐步推进架构改造和应用场景落地。伴随着实时化浪潮的发展和深化,Flink 已逐步演进为流处理的领军角色和事实标准。 作为开源大数据领
为Flink最高层的API,易于使用,所以应用更加广泛,eg. ETL、统计分析、实时报表、实时风控等。
摘要:本文整理自中泰证券大数据中心实时计算平台架构师连序全,在 Flink Forward Asia 2022 行业案例专场的分享。本篇内容主要分为四个部分:
摘要:本文整理自 XTransfer 资深 Java 开发工程师、Flink CDC Maintainer 孙家宝在 Flink CDC Meetup 的演讲。主要内容包括:
的确,实时这个名词在现代这个科技社会越来越重要,仅以此篇文章记录我的Apache Flink实践学习过程~
本文将深入探讨Flink实时流处理框架的原理、应用,以及面试必备知识点与常见问题解析,助你在面试中展现出深厚的Flink技术功底。
采访嘉宾|王峰(莫问) 作者 | Tina 作为最活跃的大数据项目之一,Flink 进入 Apache 软件基金会顶级项目已经有八年了。 Apache Flink 是一款实时大数据分析引擎,同时支持流批执行模式,并与 Hadoop 生态可以无缝对接。2014 年,它被接纳为 Apache 孵化器项目,仅仅几个月后,它就成为了 Apache 的顶级项目。 对于 Flink 来说,阿里有非常适合的流式场景。作为 Flink 的主导力量,阿里从 2015 年开始调研 Flink,并于 2016 年第一次在搜
本文由 PingCAP 研发工程师雷宇分享,主要从宏观角度分析 TiDB 究竟能做什么,创造什么样的价值,以及研发过程中的一些设计立足点。 文章将从四个部分分享:
如今的我们正生活在新一次的信息革命浪潮中,5G、物联网、智慧城市、工业4.0、新基建……等新名词层出不穷,唯一不变的就是变化!对于我们所学习的大数据来说更是这样:数据产生的越来越快、数据量越来越大,数据的来源越来越千变万化,数据中隐藏的价值规律更是越来越被重视!数字化时代的未来正在被我们创造!
近日,某家电企业在官网商城举办五一促销,活动期间,用户可以购买特价电饭煲、电饼铛等小家电,吸引了众多消费者的关注,也被羊毛党盯上。活动刚开始不久,羊毛党们就几乎全部扫空了特价小家电,导致企业损失数十万元。该家电企业迅速部署了风控系统,并对活动规则进行细化。活动再次重启后,风控系统发现了大量涉嫌参与羊毛党的账号,并及时对其进行了拦截,保证了活动的顺利进行。
该文介绍了万达网络科技集团利用 TiDB 实现实时风控平台的技术实践。通过对比 MySQL Galera Cluster、MySQL 主从复制、MySQL Proxy 等方案,作者认为 TiDB 是最适合万达网络科技集团业务需求的数据库。在实时风控平台中,TiDB 的高性能、高扩展性和高可靠性保证了业务的稳定运行,同时简化了业务应用开发和运维,提升了整体效率。
大数据时代中,数据仓库解决了商业智能分析过程中的数据管理问题,但是存在烟囱式、冗余高的弊端
2022 年 11 月 26-27 日,Flink Forward Asia(FFA)峰会成功举行。Flink Forward Asia 是由 Apache 软件基金会官方授权、由阿里云承办的技术峰会,是目前国内最大的 Apache 顶级项目会议之一,也是 Flink 开发者和使用者的年度盛会。由于疫情原因,本届峰会仍采用线上形式。此外,本次峰会上还举行了第四届天池实时计算 Flink 挑战赛的颁奖仪式,4346 支参赛队伍中共有 11 支队伍经过层层角逐脱颖而出,最终收获了奖项。 FFA 大会照例总结了
例:flink run -m yarn-cluster -yd -yjm 1024m -ytm 1024m -ynm -ys 1
信贷是一个非常严谨的行业,对实时风控的性能、精度和可靠性都有很高的要求。蚂蚁集团围绕信贷业务实时场景打造高可用、高并发、数据智能的在线实时风控系统,上千条实时策略只需要 25ms、服务可靠性 99.99%+。在 7 月 21-22 日深圳 ArchSummit 全球架构师峰会上,来自蚂蚁集团的高级技术专家马希民分享了,基于信贷实时风控,构建数据智能的高可用实时风控决策系统实践。以下是演讲内容整理。
自 Flink 开源以来,越来越多的开发者加入了 Flink 社区。仅仅 2019 年,Flink 在 GitHub 上的 Star 数量翻了一倍,Contributor 数量也呈现出持续增长的态势。而它目前在 GitHub 上的访问量,也位居 Apache 项目中前三,是 Apache 基金会中最为活跃的项目之一。
那么问题来了:配置每次变化都得手动修改代码,再重启作业吗?答案显然是否定的,毕竟实时任务的终极目标就是7 x 24无间断运行。Spark Streaming和Flink的广播机制都能做到这点,本文分别来简单说明一下。
ByteHouse是火山引擎上的一款云原生数据仓库,为用户带来极速分析体验,能够支撑实时数据分析和海量数据离线分析。便捷的弹性扩缩容能力,极致分析性能和丰富的企业级特性,助力客户数字化转型。
传统意义上的数据集市主要处理T+1的数据。随着互联网的发展,当前越来越多的业务场景对于数据时效性提出了更高的要求,以便及时快速地进行数据分析和业务决策,比如依托实时数据情况开展实时推荐、实时风控、实时营销等。特别是各种新技术的出现、发展和日趋成熟,实时数据分析和处理也成为可能。实时的大规模数据处理成为企业数字化转型过程中需要破解的难题,也是企业当前面临的一个普遍需求。
风控引擎是一种基于数据分析和机器学习算法的系统,能够实时识别和处理各种风险问题,适用于金融、电商、智能制造、交通运输等各领域,能够提高企业的风险管理水平和业务效率。
TiDB 作为一款高效稳定的开源分布式数据库,在国内外的银行、证券、保险、在线支付和金融科技行业得到了普遍应用,并在约 20 多种不同的金融业务场景中支撑着用户的关键计算。在TiDB 在金融行业关键业务场景的实践(上篇)中,我们介绍了 TiDB 在银行核心交易场景的应用,本篇文章将主要分享 TiDB 在核心外围的关键业务场景的实践。
近日,在由决策者会议策划集团主办的第五届互联网金融与支付创新年度盛会上,有专家指出,互联网带来了很好的商业模式变革,传统银行一般是业务驱动技术,业务主导技术,而互联网企业通过大数据等技术驱动业务。一方面通过大数据做风控模型,根据客户以往的交易历史,可以快速授信、贷款;另一方面是对客户以往的行为数据进行分析,为客户定制差异化的产品和针对性营销。 技术进步推动实时风控 随着互联网金融的发展,各类网银支付欺诈、电商钓鱼网站等风险因素也在增加,对风险控制(简称“风控”)的要求越来越高。 储信
数据湖是大数据领域近年来非常火热的技术,传统数仓无法实现增量数据的实时更新,也无法支持灵活的元数据格式,数据湖技术便在这一背景下诞生了。数据库的增量变更是数据湖中增量数据的主要来源,但目前 TiDB 的入湖路径还比较割裂,全量变更用 Dumpling 组件,增量变更用 TiCDC 组件。两者处于割裂的链路, TiDB 也无法通过实时物化视图完成数据入湖的实时清洗和加工。
摘要:本文整理自阿里云开发工程师耿飙&阿里云开发工程师胡俊涛,在 FFA 实时风控专场的分享。本篇内容主要分为四个部分:
上一个十年,以 Hadoop 为代表的大数据技术发展如火如荼,各种数据平台、数据湖、数据中台等产品和解决方案层出不穷,这些方案最常用的场景包括统一汇聚企业数据,并对这些离线数据进行分析洞察,来达到辅助决策或者辅助营销的目的,像传统的 BI 报表、数据大屏、标签画像等等。
本次 Apache Flink 极客挑战赛暨 AAIG CUP——电商推荐“抱大腿”攻击识别 赛题以电商推荐反作弊为背景,要求选手在少样本、半监督、隐私保护的场景下搭建风控模型来实时预测用户点击商品的行为是否恶意,实现对恶意流量的实时识别。下面分享一下我们队伍对本次比赛的理解和详细方案。
在过去的一年,拼多多受到羊毛党大规模攻击,航空公司网站遭遇大量虚假订票查询,生鲜平台“呆萝卜”频频暴雷……现实而惨重的代价,验证了业务安全正逐步成为企业持续发展的生命线。
电信网络诈骗已经成为资金欺诈的主要风险来源,反欺诈技术的进步在反欺诈中的表现出的价值则越来越高。在6月29日世界移动大会(MWCS)2018的领袖论坛中,蚂蚁金服副总裁芮雄文将支付宝第五代智能风控引擎AlphaRisk推荐给了全球的观众。
每天,有无数网友跟小刘一样,登录i商城“打卡“。领积分、领流量、领优惠券、兑换礼品,参与益智小游戏。除此外,还可以进行充值、缴费、买手机、修手机、买手机、买流量、买数码产品、买小家电,甚至买母婴日化用品。
7 月 24 日,由 PingCAP 主办的年度顶级数据技术盛会 PingCAP DevCon 2021 在京举行。本届 DevCon 以“开放 x 连接 x 预见”为主题,来自光大银行、浙商银行、微众银行、平安科技、中国人寿、小米、理想汽车、中通快递、知乎、58同城、爱奇艺、360、中国移动移动云、中国电信翼支付、神州数码、英特尔、AWS、Google Cloud、Databricks 等多家 PingCAP 重量级客户及合作伙伴出席。五十多位来自全球的技术大咖聚焦开源、云原生、数据基础架构、数据技术生态、数字化场景实践等热门话题,为线上线下数万位观众带来一场技术盛宴。
实时数据仓库,简称实时数仓,是一种用于集成、存储和分析大规模结构化数据与非结构化数据的数据管理系统,强调数据的易用性、可分析性和可管理性。它主要面向实时数据流,能够实时地接收、处理和存储数据,并提供实时的数据分析结果。
Apache Flink是一个分布式流处理引擎,它提供了丰富且易用的API来处理有状态的流处理应用,并且在支持容错的前提下,高效、大规模的运行此类应用。通过支持事件时间(event-time)、计算状态(state)以及恰好一次(exactly-once)的容错保证,Flink迅速被很多公司采纳,成为了新一代的流计算处理引擎。2020年2月11日,社区发布了Flink 1.10.0版本, 该版本对性能和稳定性做了很大的提升,同时引入了native Kubernetes的特性。对于Flink的下一个稳定版本,社区在2020年4月底冻结新特性的合入,预计在2020年5-6月会推出Flink1.11,该版本重点关注新特性的合入(如FLIP-105,FLIP-115,FLIP-27等)与内核运行时的功能增强,以扩展Flink的使用场景和应对更复杂的应用逻辑。。
导读:本文主要介绍一种通用的实时数仓构建的方法与实践。实时数仓以端到端低延迟、SQL标准化、快速响应变化、数据统一为目标。在实践中,我们总结的最佳实践是:一个通用的实时生产平台 + 一个通用交互式实时分析引擎相互配合同时满足实时和准实时业务场景。两者合理分工,互相补充,形成易于开发、易于维护、效率最高的流水线,兼顾开发效率与生产成本,以较好的投入产出比满足业务多样需求。
实时数仓以端到端低延迟、SQL标准化、快速响应变化、数据统一为目标。美团外卖数据智能组总结的最佳实践是:一个通用的实时生产平台跟一个通用交互式实时分析引擎相互配合,同时满足实时和准实时业务场景。两者合理分工,互相补充,形成易开发、易维护且效率高的流水线,兼顾开发效率与生产成本,以较好的投入产出比满足业务的多样性需求。
我国证券行业目前仍处于变革阶段,近些年来最明显的变化就是“以企业和牌照为中心”向“以客户为中心”的服务理念转变,数据价值正在超过交易价值。如何融合信息技术与证券业务,不断地通过先进的科技手段,通过数据的汇聚和分析,通过智能化的探索,为各业务板块的核心竞争力赋能,是各大券商关注的重点。
https://flink.apache.org/zh/usecases.html
备注:Table & SQL API通过Apache Calcite进行SQL解析,并转换成Calcite执行计划,最终调用Flink DataStream/DataSet API。
近两年新冠肺炎疫情对各行各业造成重大冲击,但对于跨境电商行业来说则是机大于危,跨境支付赛道也因此备受关注。其中,受疫情影响,大量 B2B 外贸交易转到线上,相比起 B2C,B2B 跨境交易支付场景更为复杂,因为其业务场景也往往更为复杂、周期长、贸易参与角色众多。
导读:本文由中原银行大数据平台研发工程师白学余分享,主要介绍实时金融数据湖在中原银行的应用。主要内容包括:
首先我们来聊一聊实时数仓是怎么诞生的,在离线数仓的时候数据是T+1的也就是隔一天才能看到昨天的数据,这种形式持续了很久的时间,但是有些场景真的只有实时的数据才有用武之地。例如推荐、风控、考核等。那么这个时候实时指标也就应运而生,在最开始的时候,采用flink\spark streaming来进行数据的指标统计。在这个时候,数据存在哪里又是一个问题。例如大屏计算结果可能存储在redis中,可以参考如下图所示的,实时大屏架构图。
导语 | 随着互联网场景的不断深化发展,业务实时化趋势越来越强,要求也越来越高。特别是在广告推荐、实时大屏监控、实时风控、实时数仓等各业务领域,实时计算已经成为了不可或缺的一环。在大数据技术的不断发展的过程中,Flink已经成为实时计算的工业标准,越来越多的公司正在使用 Flink作为自己实时计算的工具。本文由腾讯云实时计算Oceanus专家工程师杜立在 Techo TVP开发者峰会「数据的冰与火之歌——从在线数据库技术,到海量数据分析技术」 的《实时流式计算实践与优化》演讲分享整理而成,为大家详尽介
据报告显示到2025年,全球将产生180ZB的数据。这些海量的数据正是企业进行数字化转型的核心生产因素,然而真正被有效存储、使用和分析的数据不到百分之十。如何从ZB级的数据中寻找分析有价值的信息并回馈到业务发展才是关键。11月30日UCan技术沙龙大数据专场(北京站)邀请了5位资深大数据技术专家分享他们对大数据的探索和应用实践。
作者简介 刘江,携程金融管理部风险管理总监,负责携程集团的全面风险管理工作。拥有近15年风险管理经验,先后在广发银行、OperaSolutions、阿里巴巴和腾讯等公司任重要管理岗位,一直从事风控政策、风控模型、大数据征信等相关工作。 携程反欺诈体系经过超过10年的发展和积累,在大数据实时并行计算和实时多维关联分析方面已经非常成熟,是整个体系稳定高效运行的基础。 近两年来,我们在大数据和人工智能方向投入研发资源,产出了设备指纹、CDNA、实时复杂变量计算引擎等一系列创新项目,取得到很好的应用效果。2017年
👆关注“博文视点Broadview”,获取更多书讯 以下内容节选自《Flink实战派》一书! ---- --正文-- 大数据技术和人工智能(机器学习)的结合,使利用数据价值的技术有了新的突破。 在通常情况下,大数据技术与机器学习是互相促进、相依相存的关系。 01 大数据和机器学习之间的关系 机器学习不仅需要合理、适用和先进的算法,还需要依赖足够好和足够多的数据。 大数据可以提高机器学习模型的精确性。 数据的数据量越多,质量越高,机器学习的效率和准确性就越高。机器学习是大数据分析的一个重要方向(方式)。
快狗打车业务快速发展是公司众多人员的努力,同时对数据侧提出了更高的要求。数据的价值随着时间的增加而降低,分析以及运营更加希望实时数据助力业务发展,研发也希望借助BI侧的大数据综合计算能力得到汇总数据。
随着移动支付的迅猛发展,多个行业的用户体验和商业逻辑被极大改变,聚合支付进入行业深耕阶段。 在多年计费经验的沉淀下,腾讯计费(米大师)依托腾讯云,向全行业开放。 腾讯计费为商户提供专业的一站式计费解决
领取专属 10元无门槛券
手把手带您无忧上云