文章 2024-02-20 来自:开发者社区

【天衍系列 03】深入理解Flink的Watermark:实时流处理的时间概念与乱序处理

01 基本概念 Watermark 是用于处理事件时间的一种机制,用于表示事件时间流的进展。在流处理中,由于事件到达的顺序和延迟,系统需要一种机制来衡量事件时间的进展,以便正确触发窗口操作等。Watermark 就是用来标记事件时间的进展情况的一种特殊数据元素。 02 工作原理 Watermark 的生成方式通常是由系统根据数据流中的事件来自动推断生成的。一般来说,系统会...

文章 2023-08-31 来自:开发者社区

【原理】Flink如何巧用WaterMark机制解决乱序问题

这是彭文华的第91篇原创问:数据工程师最期望数据怎么来?答:按顺序来。 MapReduce当初能用起来,就是因为Map阶段对所有数据都进行排序了,后面的Reduce阶段就可以直接用排序好的数据了。批处理的时候因为数据已经落地了,咱可以慢慢排序。但是流式数据都是一条一条过来的,这个时候数据到达的时间和出发时的顺序不一致会导致非常多的问题,这该咋整呢?Sparkstreaming对乱序支持很差,因为....

【原理】Flink如何巧用WaterMark机制解决乱序问题

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐

阿里云实时计算Flink

一套基于Apache Flink构建的一站式、高性能实时大数据处理平台,广泛适用于流式数据处理、离线数据处理、DataLake计算等场景。

+关注