问答 2018-12-21 来自:开发者社区

在Spark Streaming Python中将RDD转换为Dataframe

我试图在Spark Streaming中将RDD转换为DataFrame。我正在关注以下流程。 socket_stream = ssc.socketTextStream("localhost", 9999)def convert_to_df(rdd): schema = StructType([StructField("text", StringType(), True)]) df =spark....

问答 2018-12-11 来自:开发者社区

spark streaming job运行卡住

问题 虚拟机中运行sparkStreaming job一段时间后,偶尔会卡住, 过一段时间就恢复, 需要定位原因解决 背景 1.sparkStreaming消费kafka数据, 开启反压机制, 将接收每一条kafka消息(json串)转换为对象后, 再使用Phoenix存入hbase; 2.有三台虚拟机, 三个worker节点,以standalone模式运行application3.使用3个ex....

问答 2018-12-10 来自:开发者社区

Spark Structured Streaming获取最后一个Kafka分区的消息

我正在使用Spark Structured Streaming来读取Kafka主题。没有任何分区,Spark Structired Streaming消费者可以读取数据。但是当我向主题添加分区时,客户端仅显示来自最后一个分区的消息。即如果主题中有4个分区,并且I.am推送主题中的1,2,3,4之类的数字,则客户端仅打印4而不是其他值。我正在使用来自Spark Structured Streami....

问答 2018-12-06 来自:开发者社区

Spark Structured Streaming error读取字段'topic_metadata'时出错

我正在运行spark 2.4.0和Kafka 0.10.2 var streamingInputDF = spark.readStream .format("kafka") .option("kafka.bootstrap.servers", "localhost:9092") .option("subscribe", "twitter-topic") .load() 控制台writeStre.....

问答 2018-12-06 来自:开发者社区

如何缓存spark streaming Dataset <Row>

我有一个sparkDataset,它流式传输csv文件的目录。所以我有这些问题: 如何缓存流数据集。如何在YARN中提交我的spark流媒体作业,我的流媒体作业应该永远运行,直到用户手动中断。

文章 2018-12-05 来自:开发者社区

Apache Spark 系列技术直播 - 从 Spark Streaming 到 Structured Streaming

本期分享主题:From Spark Streaming to Structured Streaming 讲师:敌珐@E-MapReduce 内容提纲1. Spark Streaming 1.1 Overview1.2 DStream Model1.3 Failure Recovery1.4 Consistency Semantics1.5 DStream API1.6 Evaluation2......

问答 2018-12-05 来自:开发者社区

Spark Streaming Kafka Stream批处理执行

我目前正在实现一个从Kafka主题流式传输数据的应用程序。是否常常使用应用程序仅运行一次批处理,例如,当天结束,收集主题中的所有数据,进行一些聚合和转换等等?这意味着在使用spark-submit启动应用程序后,所有这些内容将在一个批处理中执行,然后应用程序将关闭。或者是spark流构建用于连续批量运行无限和永久流数据?

文章 2018-12-05 来自:开发者社区

Apache Spark 系列技术直播 - 从 Spark Streaming 到 Structured Streaming

从 Spark Streaming 到 Structured Streaming Spark Streaming 介绍 数据模型 容错处理 扩展性、吞吐量分析 Google Dataflow 介绍 Dataflow 设计思想介绍 Structured Streaming 介绍 设计思想 编程模型 API 介绍 一致性语义分析 Continuous Processing Mode 介绍 详...

问答 2018-12-03 来自:开发者社区

spark streaming和kafka集成的时候,auto commit offset设置位false,存储这个offset,大家是怎么做的啊?

1、一个rdd处理完去更新一下吗?还是rdd里的一个msg处理完就更新?那会不会有问题啊?比如rdd拿了n个msg,处理到m(n2、拿出来处理了,然后插到mysql里,失败了,你让我把rdd中前面的m-1个都从mysql里删除掉?你失败了那不就是offset没存到mysql中去么,下次还是从原先的offset读取吧

问答 2018-12-03 来自:开发者社区

spark streaming可以处理数据延迟的问题吗

spark 2.x版本后,推荐 structured streaming

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

Apache Spark 中国技术社区

阿里巴巴开源大数据技术团队成立 Apache Spark 中国技术社区,定期推送精彩案例,问答区数个 Spark 技术同学每日在线答疑,只为营造 Spark 技术交流氛围,欢迎加入!

+关注