文章 2016-09-09 来自:开发者社区

Spark Streaming Dynamic Resource Allocation 文档(非官方特性)

必要配置 通过下面参数开启DRA spark.streaming.dynamicAllocation.enabled=true 设置最大最小的Executor 数目: spark.streaming.dynamicAllocation.minExecutors=0 spark.streaming.dynamicAllocation.maxExecutors=50 可选配置 这些参数可以不用配...

文章 2016-09-09 来自:开发者社区

Spark Streaming 1.6 流式状态管理分析

关于状态管理 在流式计算中,数据是持续不断来的,有时候我们要对一些数据做跨周期(Duration)的统计,这个时候就不得不维护状态了。而状态管理对Spark 的 RDD模型是个挑战,因为在spark里,任何数据集都需要通过RDD来呈现,而RDD 的定义是一个不变的分布式集合。在状态管理中,比如Spark Streaming中的word-count 就涉及到更新原有的记录,比如在batch 1 中....

文章 2016-09-09 来自:开发者社区

Spark Streaming 妙用之实现工作流调度器

之前有说过要设计一个工作流调度器。开发一个完善的工作流调度器应该并不是一件简单的事情。但是通过Spark Streaming(基于Transfomer架构的理念),我们可能能简化这些工作。我在这块并没有什么经验,这只是一个存在于脑海中的东西。 下面是Azkaban的架构图: 也就是说要搭建一个稳定可靠的Azkaban的工作流调度器,你可能需要 两台 互为主备MySQL 两台Execu...

文章 2016-09-08 来自:开发者社区

Spark Streaming 的玫瑰与刺

前言 说人话:其实就是讲Spark Streaming 的好处与坑。好处主要从一些大的方面讲,坑则是从实际场景中遇到的一些小细节描述。 玫瑰篇 玫瑰篇主要是说Spark Streaming的优势点。 玫瑰之代码复用 这主要得益于Spark的设计,以及平台的全面性。你写的流处理的代码可以很方便的适用于Spark平台上的批处理,交互式处理。因为他们本身都是基于RDD模型的,并且Spark Strea....

文章 2016-09-07 来自:开发者社区

Spark Streaming 流式计算实战

这篇文章由一次平安夜的微信分享整理而来。在Stuq 做的分享,原文内容。  业务场景 这次分享会比较实战些。具体业务场景描述: 我们每分钟会有几百万条的日志进入系统,我们希望根据日志提取出时间以及用户名称,然后根据这两个信息形成 userName/year/month/day/hh/normal  userName/year/month/day/hh/delay 路径,存储到H...

文章 2016-09-07 来自:开发者社区

Spark Streaming Direct Approach (No Receivers) 分析

前言 这个算是Spark Streaming 接收数据相关的第三篇文章了。 前面两篇是: Spark Streaming 数据产生与导入相关的内存分析 Spark Streaming 数据接收优化 Spark Streaming 接受数据的方式有两种: Receiver-based Approach Direct Approach (No Receivers) 上面提...

文章 2016-09-07 来自:开发者社区

Spark Streaming Crash 如何保证Exactly Once Semantics

前言 其实这次写Spark Streaming相关的内容,主要是解决在其使用过程中大家真正关心的一些问题。我觉得应该有两块: 数据接收。我在用的过程中确实产生了问题。 应用的可靠性。因为SS是7*24小时运行的问题,我想知道如果它Crash了,会不会丢数据。 第一个问题在之前的三篇文章已经有所阐述: Spark Streaming 数据产生与导入相关的内存分析 Spark...

文章 2016-09-07 来自:开发者社区

Spark Streaming 数据接收优化

看这篇文章前,请先移步Spark Streaming 数据产生与导入相关的内存分析, 文章重点讲的是从Kafka消费到数据进入BlockManager的这条线路的分析。 这篇内容是个人的一些经验,大家用的时候还是建议好好理解内部的原理,不可照搬 让Receiver均匀的分布到你的Executor上 在Spark Streaming 数据产生与导入相关的内存分析中我说了这么一句话: 我发现在数据量....

文章 2016-09-07 来自:开发者社区

Spark Streaming 数据产生与导入相关的内存分析

前言 我这篇文章会分几个点来描述Spark Streaming 的Receiver在内存方面的表现。 一个大致的数据接受流程 一些存储结构的介绍 哪些点可能导致内存问题,以及相关的配置参数 另外,有位大牛写了Spark Streaming 源码解析系列,我觉得写的不错,这里也推荐下。 我在部门尽力推荐使用Spark Streaming做数据处理,目前已经应用在日志处理,机器学习等领...

问答 2016-06-07 来自:开发者社区

spark streaming接loghub数据的输出格式

spark streaming接loghub数据的输出格式

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

Apache Spark 中国技术社区

阿里巴巴开源大数据技术团队成立 Apache Spark 中国技术社区,定期推送精彩案例,问答区数个 Spark 技术同学每日在线答疑,只为营造 Spark 技术交流氛围,欢迎加入!

+关注