阿里云文档 2025-05-29

EMR Spark Streaming节点

EMR Spark Streaming节点用于处理高吞吐量的实时流数据,并具备容错机制,可以帮助您快速恢复出错的数据流。本文为您介绍如何创建EMR Spark Streaming节点并进行数据开发。

阿里云文档 2024-10-18

表格存储对接 Spark Streaming 场景案例的视频介绍

表格存储对接 Spark Streaming 场景案例的视频介绍

阿里云文档 2024-10-18

表格存储对接 Spark Streaming 的操作示例

表格存储对接 Spark Streaming 的操作示例

阿里云文档 2024-10-18

表格存储对接 Spark Streaming 介绍

表格存储对接 Spark Streaming 介绍

阿里云文档 2024-07-05

如何在Spark Streaming SQL中使用INSERT INTO语句

StarRocks中INSERT INTO语句的使用方式和MySQL等数据库中INSERT INTO语句的使用方式类似, 但在StarRocks中,所有的数据写入都是一个独立的导入作业 ,所以StarRocks中将INSERT INTO作为一种导入方式介绍。本文为您介绍Insert Into导入的使用场景、相关配置以及导入示例。

文章 2023-01-13 来自:开发者社区

spark streaming知识总结[优化]

RDD与job之间的关系Spark Streaming是构建在Spark上的实时流计算框架,扩展了Spark流式大数据处理能力。Spark Streaming将数据流以时间片为单位分割形成RDD,使用RDD操作处理每一块数据,每块数据(也就是RDD)都会生成一个Spark Job进行处理,最终以批处理的方式处理每个时间片的数据说明:Spark中的Job和MR中Job不一样不一样。MR中Job主要....

文章 2019-06-18 来自:开发者社区

Spark Streaming的优化之路—从Receiver到Direct模式

作者:个推数据研发工程师 学长    1 业务背景   随着大数据的快速发展,业务场景越来越复杂,离线式的批处理框架MapReduce已经不能满足业务,大量的场景需要实时的数据处理结果来进行分析、决策。Spark Streaming是一种分布式的大数据实时计算框架,他提供了动态的,高吞吐量的,可容错的流式数据处理,不仅可以实现用户行为分析,还能在金融、舆情分析、网络监...

Spark Streaming的优化之路—从Receiver到Direct模式
问答 2019-01-30 来自:开发者社区

使用spark 2.3 structed streaming 时 checkpoint 频繁在HDFS写小文件,块数到达百万级别 ,这个怎么优化下

请教各位大神们: 使用spark 2.3 structed streaming 时 checkpoint 频繁在HDFS写小文件,块数到达千万级别 ,这个怎么优化下

文章 2016-09-07 来自:开发者社区

Spark Streaming 数据接收优化

看这篇文章前,请先移步Spark Streaming 数据产生与导入相关的内存分析, 文章重点讲的是从Kafka消费到数据进入BlockManager的这条线路的分析。 这篇内容是个人的一些经验,大家用的时候还是建议好好理解内部的原理,不可照搬 让Receiver均匀的分布到你的Executor上 在Spark Streaming 数据产生与导入相关的内存分析中我说了这么一句话: 我发现在数据量....

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

Apache Spark 中国技术社区

阿里巴巴开源大数据技术团队成立 Apache Spark 中国技术社区,定期推送精彩案例,问答区数个 Spark 技术同学每日在线答疑,只为营造 Spark 技术交流氛围,欢迎加入!

+关注