文章 2018-12-02 来自:开发者社区

Apache Flink 漫谈系列(10) - JOIN LATERAL

聊什么 上一篇《Apache Flink 漫谈系列 - JOIN算子》我们对最常见的JOIN做了详尽的分析,本篇介绍一个特殊的JOIN,那就是JOIN LATERAL。JOIN LATERAL为什么特殊呢,直观说因为JOIN的右边不是一个实际的物理表,而是一个VIEW或者Table-valued Funciton。如下图所示: 本篇会先介绍传统数据库对LATERAL JOIN的支持,然后介绍A.....

文章 2018-11-30 来自:开发者社区

Apache Flink 干货合集打包好了,速来下载

作者:王绍翾(花名:大沙) 最近的一份市场调查报告显示,Apache Flink 是2018年开源大数据生态中发展“最快”的引擎,和2017年相比增长了125% 。为了让大家更为全面地了解Flink,我们制作了一本电子干货合集:《不仅仅是流计算:Apache Flink实践》,融合了Apache Flink在国内各大顶级互联网公司的大规模实践,希望对大家有所帮助。 在...

Apache Flink 干货合集打包好了,速来下载
问答 2018-11-28 来自:开发者社区

Apache flink是否有与Spark HiveContext相同的api?

我已经阅读了有关Apache Flink 1.6的文档和参考资料,并希望找到一些类似Spark HiveContext的api来从Hive读取数据,但只能找到HDFS api和JDBC api。是否有与Spark HiveContext相同的api来连接Hive?

问答 2018-11-28 来自:开发者社区

如何使用Apache Flink读取HDFS中的parquet文件?

我只找到TextInputFormat和CsvInputFormat。那么如何使用Apache Flink在HDFS中读取parquet文件?

问答 2018-11-28 来自:开发者社区

如何使用maven仅重建Apache Flink中的更改

"我正在玩flink并在包runtime.io.network中做了一些小改动。 要测试这些更改,我总是需要重建整个maven项目,如下所示: mvn clean install -Dcheckstyle.skip -Drat.skip=true -DskipTests -T 1C 运行代码段展开代码段(跳过测试等以使其更快) 有没有办法重建flink发布以执行更快的更改? 例如。如果我只是运行....

问答 2018-11-28 来自:开发者社区

Apache Flink:如何使用SourceFunction以指定的时间间隔执行任务?

"我需要我的flink作业以指定的时间间隔从数据库中提取记录并在处理后将其归档。我已经实现了SourceFunction来从数据库中获取所需的记录,并添加了SourceFunction作为StreamExecutionEnvironment的源。如何指定StreamExecutionEnvironment需要每隔10分钟使用SourceFunction从数据库中获取记录? SourceFunct....

问答 2018-11-28 来自:开发者社区

Apache Flink:keyby和window运算符

"我想知道一些与keyedstream相关的机制。代码如下: DataStream> counts = // split up the lines in pairs (2-tuples) containing: (word,1) text.flatMap(new Tokenizer()) // group by the tuple field ""...

问答 2018-11-28 来自:开发者社区

Apache Flink:窗口检查点

"我想知道如何检查一个窗口。例如,窗口wordcount: DataStream> counts = // split up the lines in pairs (2-tuples) containing: (word,1) text .flatMap(new Tokenizer()) ...

问答 2018-11-28 来自:开发者社区

Apache Flink:Wierd FlatMap行为

"我正在向Flink提取数据流。对于此数据的每个“实例”,我都有一个时间戳。我可以检测到我从中获取数据的机器是“生产”还是“不生产”,这是通过自定义平面地图功能来完成的,该功能位于其自己的静态类中。 我想计算机器生产/不生产的时间。我目前的方法是在两个普通列表中收集生产和非生产时间戳。对于数据的每个“实例”,我通过从最早的时间戳中减去最新的时间戳来计算当前的生产/非生产持续时间。不过,这给了我不....

问答 2018-11-28 来自:开发者社区

Apache Flink - 增量检查点 - CP的意外大小

"是什么原因导致一些CP节省了预期的大小(大约500kB),有些CP的大小在整个当前管理状态大小附近,即使负载是恒定的?使用增量检查点时,lastCheckpointSize指标的确切测量结果是什么?"

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐

Apache Spark 中国技术社区

阿里巴巴开源大数据技术团队成立 Apache Spark 中国技术社区,定期推送精彩案例,问答区数个 Spark 技术同学每日在线答疑,只为营造 Spark 技术交流氛围,欢迎加入!

+关注
相关镜像