文章 2017-11-21 来自:开发者社区

Apache Flink fault tolerance源码剖析(六)

上篇文章我们分析了基于检查点的用户状态的保存机制——状态终端。这篇文章我们来分析barrier(中文常译为栅栏或者屏障,为了避免引入名称争议,此处仍用英文表示)。检查点的barrier是提供exactly once一致性保证的主要保证机制。这篇文章我们会就此展开分析。 这篇文章我们侧重于核心代码分析,原理我们在这个系列的第一篇文章《Flink数据流的Fault Tolerance机制》 一...

文章 2017-11-21 来自:开发者社区

Apache Flink fault tolerance源码剖析完结篇

这篇文章是对Flinkfault tolerance的一个总结。虽然还有些细节没有涉及到,但是基本的实现要点在这个系列中都已提及。 回顾这个系列,每篇文章都至少涉及一个知识点。我们来挨个总结一下。 恢复机制实现 Flink中通常需要进行状态恢复的对象是operator以及function。它们通过不同的方式来达到状态快照以及状态恢复的能力。其中function通过实现Checkpointed的.....

文章 2017-11-21 来自:开发者社区

Apache Flink流分区器剖析

这篇文章介绍Flink的分区器,在流进行转换操作后,Flink通过分区器来精确得控制数据流向。 StreamPartitioner StreamPartitioner是Flink流分区器的基类,它只定义了一个抽象方法: public abstract StreamPartitioner<T> copy(); 但这个方法并不是各个分区器之间互相区别的地方,定义不同的分区器的核心...

文章 2017-11-21 来自:开发者社区

Apache Flink流作业提交流程分析

用户编写的程序逻辑需要提交给Flink才能得到执行。本文来探讨一下客户程序如何提交给Flink。鉴于用户将自己利用Flink的API编写的逻辑打成相应的应用程序包(比如Jar)然后提交到一个目标Flink集群上去运行是比较主流的使用场景,因此我们的分析也基于这一场景进行。 Flink的API针对不同的执行环境有不同的Environment对象,这里我们主要基于常用的RemoteStreamE...

文章 2017-11-21 来自:开发者社区

Apache Flink Client生成StreamGraph

概述 上文我们分析提交流程时,RemoteStreamEnvironment类的execute方法的第一步就是生成StreamGraph。 StreamGraph是用于表示流的拓扑结构的数据结构,它包含了生成JobGraph的必要信息。它的类继承关系图如下: 如果你按照StreamGraph的继承链向上追溯,最终会发现它实现了接口FlinkPlan。Flink在这里效仿的是数据库的执行SQL...

文章 2017-11-08 来自:开发者社区

Apache Flink vs Apache Spark——感觉二者是互相抄袭啊 看谁的好就抄过来 Flink支持在runtime中的有环数据流,这样表示机器学习算法更有效而且更有效率

Apache Flink是什么   Flink是一款新的大数据处理引擎,目标是统一不同来源的数据处理。这个目标看起来和Spark和类似。没错,Flink也在尝试解决 Spark在解决的问题。这两套系统都在尝试建立一个统一的平台可以运行批量,流式,交互式,图处理,机器学习等应用。所以,Flink和Spark的目 标差别并不大,他们最主要的区别在于实现的细节,后面我会重点从不同的角度对比这两者。 A....

文章 2017-10-31 来自:开发者社区

大数据分析引擎Apache Flink

Apache Flink是一个高效、分布式、基于Java实现的通用大数据分析引擎,它具有分布式 MapReduce一类平台的高效性、灵活性和扩展性以及并行数据库查询优化方案,它支持批量和基于流的数据分析,且提供了基于Java和Scala的API。从Apache官方博客中得知,Flink已于近日升级成为Apache基金会的顶级项目。Flink项目的副总裁对此评论到: Flink能够成为基金会的顶级....

文章 2017-10-17 来自:开发者社区

阿里云与Apache Flink商业公司DataArtisans于2017杭州云栖大会达成战略合作并发布

10月12日,Apache Flink商业公司DataArtisans CEO、联合创始人Kostas Tzoumas在云栖大会上宣布和阿里集团达成战略合作伙伴关系,希望能够借助全球最大的云计算公司之一阿里云,服务更多的大数据实时流计算的客户。同时期待通过加强和阿里集团技术合作,进一步优化Flink大数据处理能力,提升Flink在开源社区的影响力, Apache Flink是目前开源最火爆的实.....

文章 2017-08-01 来自:开发者社区

Apache Flink实现的数据流体系结构

数据流体系结构可用于处理随着时间流逝以事件流方式持续生成的数据,这一点不同于传统的静态数据集。相对于传统的集中式“状态化”数据库和数据仓库,数据流应用程序可以处理事件流以及针对历史事件汇总而来的应用程序本地状态。流式数据处理的一些优势包括: 降低从信号到决策的过程延迟 通过统一的方式处理实时和历史数据 Time travel查询 Apache Flink是一种开源的分布式流化和批量化数据处理平台....

文章 2017-07-03 来自:开发者社区

Apache Flink实现的数据流体系结构

data Artisans应用程序工程总监Jamie Grier最近在OSCON 2016 Conference大会发言谈到了使用Apache Flink构建的一种数据流体系结构。同时还谈到了数据流应用程序的构建块。 数据流体系结构可用于处理随着时间流逝以事件流方式持续生成的数据,这一点不同于传统的静态数据集。相对于传统的集中式“状态化”数据库和数据仓库,数据流应用程序可以处理事件流以及针对历史....

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐

Apache Spark 中国技术社区

阿里巴巴开源大数据技术团队成立 Apache Spark 中国技术社区,定期推送精彩案例,问答区数个 Spark 技术同学每日在线答疑,只为营造 Spark 技术交流氛围,欢迎加入!

+关注
相关镜像