阿里云文档 2024-12-02

通过SparkStreaming作业处理Kafka数据

本文介绍在阿里云E-MapReduce创建的包含kafka服务的DataFlow集群中,如何使用Spark Streaming作业从Kafka中实时消费数据。

文章 2020-02-21 来自:开发者社区

解析SparkStreaming和Kafka集成的两种方式

spark streaming是基于微批处理的流式计算引擎,通常是利用spark core或者spark core与spark sql一起来处理数据。在企业实时处理架构中,通常将spark streaming和kafka集成作为整个大数据处理架构的核心环节之一。 针对不同的spark、kafka版本,集成处理数据的方式分为两种:Receiver based Approach和Direct App....

解析SparkStreaming和Kafka集成的两种方式
问答 2019-08-19 来自:开发者社区

actor与thread写sparkstreaming多线程消费kafka时候,哪个更好一些?

本问题来自阿里云开发者社区的【11大垂直技术领域开发者社群】。https://developer.aliyun.com/article/706511 点击链接欢迎加入感兴趣的技术领域群。

问答 2019-06-28 来自:开发者社区

写hbase+接口的时候是否需要单例模式,hbase+连接是否需要关闭?【应用场景:sparkstreaming+从kafka+拿数据存入hbase

写hbase+接口的时候是否需要单例模式,hbase+连接是否需要关闭?【应用场景:sparkstreaming+从kafka+拿数据存入hbase

问答 2018-11-08 来自:开发者社区

写hbase 接口的时候是否需要单例模式,hbase 连接是否需要关闭?【应用场景:sparkstreaming 从kafka 拿数据存入hbase】

1、使用单例的时候,程序里边始终只有一个connection实例,但是,我spark程序本身就是一个多线程,一个线程在使用连接的时候其 他的线程是不是在等待?2、spark程序处理的时候 假设我有是个计算节点,如果每个节点使用一个连接,或者每个线程使用一个连接,效率会不会更高一点?3、如果我的benchtime 设置时间为5s 我实际处理的时间为3s 剩余的时间sparkstream...

问答 2018-11-08 来自:开发者社区

sparkstreaming异步消费kafka疑问

假设A topic有3个分区(p0、p1、p2),Spark streaming分配1个Executor,3个CPU。streaming会在这个Executor上启动3个Task(t0、t1、t2),这3个task会分别消费A topic上3个分区的数据,然后消费完将offset写到zk上。假设t1和t2消费的快,而t0很慢。我sparkstreaming是以异步方式消费的,那么这时Execut....

问答 2018-11-08 来自:开发者社区

sparkstreaming+kafka+hbase实时写入数据,执行6天后,出现异常,数据无法写入

没找到怎么贴图片------- tf.filter(!_.contains(str1)).filter(!_.contains(str2)).map(_.replaceAll(""", "")).map(_.split(",")).filter(_.length == 7) .map(p => (p(0).substring(3), p(1), p(4), p(5), p(6))).map(...

文章 2018-09-06 来自:开发者社区

SparkStreaming+Kafka

摘自 : Spark踩坑记——Spark Streaming+Kafka SpringStreaming+Kafka 1.SpringStreaming+Kafka 接受数据和发送数据 (1)SparkStreaming 接受kafka方式 (2)Spark 发送数据至Kafka中 2.Spark streaming+Kafka调优 2.1 批处理时间设置 2.2 合理...

SparkStreaming+Kafka
文章 2017-10-02 来自:开发者社区

SparkStreaming与Kafka整合遇到的问题及解决方案

前言 最近工作中是做日志分析的平台,采用了sparkstreaming+kafka,采用kafka主要是看中了它对大数据量处理的高性能,处理日志类应用再好不过了,采用了sparkstreaming的流处理框架 主要是考虑到它本身是基于spark核心的,以后的批处理可以一站式服务,并且可以提供准实时服务到elasticsearch中,可以实现准实时定位系统日志。 实现 Spark-Streamin....

SparkStreaming与Kafka整合遇到的问题及解决方案
文章 2016-09-19 来自:开发者社区

Sparkstreaming读取Kafka消息再结合SparkSQL,将结果保存到HBase

亲自摸索,送给大家,原创文章,转载注明哦。 import org.apache.hadoop.hbase.HBaseConfiguration import org.apache.hadoop.hbase.mapreduce.TableOutputFormat import org.apache.spark.SparkConf import org.apache.spark.sql._ im...

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐

消息队列

消息队列是构建分布式互联网应用的基础设施,通过消息队列实现的松耦合架构设计可以提高系统可用性以及可扩展性,是适用于现代应用的优秀设计方案。

+关注