文章 2022-06-13 来自:开发者社区

【Spark Streaming】(五)Spark Streaming 与 Kafka 集成实战!

文章目录一、前言二、项目准备2.1 添加Kafka的pom依赖2.2 启动zookeeper集群2.3 启动kafka集群2.4 创建topic2.5 向topic中生产数据三、KafkaUtils.createDstream3.1 原理3.2 实战四、KafkaUtils.createDirectStream4.1 原理4.2 实战4.3 结果展示一、前言首先,我们先来简单的了解...

【Spark Streaming】(五)Spark Streaming 与 Kafka 集成实战!
文章 2022-05-27 来自:开发者社区

Spark Streaming,Flink,Storm,Kafka Streams,Samza:如何选择流处理框架

如今,有许多可用的开源流框架。有趣的是,几乎所有它们都是相当新的,仅在最近几年才开发出来。因此,对于新手来说,很容易混淆流框架之间的理解和区分。在本文中,我将首先大致讨论流处理的类型和方面,然后比较最受欢迎的开源流框架:Flink,SparkStreaming࿰...

Spark Streaming,Flink,Storm,Kafka Streams,Samza:如何选择流处理框架

大数据实战项目:反爬虫系统(Lua+Spark+Redis+Hadoop框架搭建)第一阶段

33 课时 |
390 人已学 |
免费

大数据实战项目:反爬虫系统(Lua+Spark+Redis+Hadoop框架搭建)第二阶段

28 课时 |
276 人已学 |
免费

大数据实战项目:反爬虫系统(Lua+Spark+Redis+Hadoop框架搭建)第三阶段

25 课时 |
120 人已学 |
免费
开发者课程背景图
文章 2022-02-17 来自:开发者社区

通过Spark Streaming作业处理Kafka数据

本节介绍如何使用阿里云E-MapReduce部署Hadoop集群和Kafka集群,并运行Spark Streaming作业消费Kafka数据。 前提条件 已注册阿里云账号,详情请参见注册云账号。 已开通E-MapReduce服务。 已完成云账号的授权,详情请参见角色授权。 背景信息 在开发过程中,通常会遇到消费Kafka数据的场景。在阿里云E-MapReduce中,您可通过运行Spark S...

通过Spark Streaming作业处理Kafka数据
文章 2022-02-17 来自:开发者社区

windows 本地测试spark streaming + kafka direct api

windows 本地测试spark streaming + kafka direct api 卡在如下信息出: “Kafka scala consumer marked as dead for group” 1.环境: kafka server为集群,连接时使用的是hostname:9092方法去连接,程序也不报错, 就是卡在上面的信息出,没有输出。 2.之前已经在集群上使用shel...

文章 2022-02-16 来自:开发者社区

Spark Streaming kafka实现数据零丢失的几种方式

 在使用Spark streaming消费kafka数据时,程序异常中断的情况下发现会有数据丢失的风险,本文简单介绍如何解决这些问题。 在问题开始之前先解释下流处理中的几种可靠性语义: 1、At most once - 每条数据最多被处理一次(0次或1次),这种语义下会出现数据丢失的问题; 2、At least once - 每条数据最少被处理一次 (1次或更多),这个不会出现数据丢失,...

文章 2022-02-16 来自:开发者社区

Spark Streaming vs. Kafka Stream 哪个更适合你

译者注:本文介绍了两大常用的流式处理框架,Spark Streaming和Kafka Stream,并对他们各自的特点做了详细说明,以帮助读者在不同的场景下对框架进行选择。以下是译文。流式处理的需求每天都在增加,仅仅对大量的数据进行处理是不够的。数据必须快速地得到处理,以便企业能够实时地对不断变化的业务环境做出反应。流式处理是持续而又并发地对数据进行实时处理。流式处理是处理数据流或传感器数据的理....

问答 2022-02-15 来自:开发者社区

Spark Streaming Kafka Stream批处理执行

Spark Streaming Kafka Stream批处理执行

问答 2022-02-15 来自:开发者社区

Spark Structured Streaming获取最后一个Kafka分区的消息

我正在使用Spark Structured Streaming来读取Kafka主题。没有任何分区,Spark Structired Streaming消费者可以读取数据。但是当我向主题添加分区时,客户端仅显示来自最后一个分区的消息。即如果主题中有4个分区,并且I.am推送主题中的1,2,3,4之类的数字,则客户端仅打印4而不是其他值。我正在使用来自Spark Structured Streami....

问答 2022-02-15 来自:开发者社区

Spark Streaming Kafka Stream批处理执行

我目前正在实现一个从Kafka主题流式传输数据的应用程序。是否常常使用应用程序仅运行一次批处理,例如,当天结束,收集主题中的所有数据,进行一些聚合和转换等等?这意味着在使用spark-submit启动应用程序后,所有这些内容将在一个批处理中执行,然后应用程序将关闭。或者是spark流构建用于连续批量运行无限和永久流数据?

问答 2022-02-15 来自:开发者社区

spark streaming和kafka集成的时候,auto commit offset设置位false,存储这个offset,大家是怎么做的啊?

1、一个rdd处理完去更新一下吗?还是rdd里的一个msg处理完就更新?那会不会有问题啊?比如rdd拿了n个msg,处理到m(n2、拿出来处理了,然后插到mysql里,失败了,你让我把rdd中前面的m-1个都从mysql里删除掉?你失败了那不就是offset没存到mysql中去么,下次还是从原先的offset读取吧

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

apache spark更多streaming相关

Apache Spark 中国技术社区

阿里巴巴开源大数据技术团队成立 Apache Spark 中国技术社区,定期推送精彩案例,问答区数个 Spark 技术同学每日在线答疑,只为营造 Spark 技术交流氛围,欢迎加入!

+关注