文章 2017-11-07 来自:开发者社区

Spark Streaming kafka实现数据零丢失的几种方式

 在使用Spark streaming消费kafka数据时,程序异常中断的情况下发现会有数据丢失的风险,本文简单介绍如何解决这些问题。 在问题开始之前先解释下流处理中的几种可靠性语义: 1、At most once - 每条数据最多被处理一次(0次或1次),这种语义下会出现数据丢失的问题; 2、At least once - 每条数据最少被处理一次 (1次或更多),这个不会出现数据丢失,...

文章 2017-11-03 来自:开发者社区

Spark Streaming概念学习系列之Spark Streaming 架构(二)

                                图 1      Spark Streaming 架构图       Spark Streaming 组件介绍    Network Input Tracker  通 过 接 收 器 接 收 流 数 据 并 将 流 数 据 映...

文章 2017-11-03 来自:开发者社区

Apache Spark Streaming的优点

Apache Spark Streaming的优点:  (1)优势及特点 1)多范式数据分析管道:能和 Spark 生态系统其他组件融合,实现交互查询和机器学习等多范式组合处理。 2)扩展性:可以运行在 100 个节点以上的集群,延迟可以控制在秒级。 3)容错性:使用 Spark 的 Lineage 及内存维护两份数据进行备份达到容错。 RDD通过 Lineage 记录下之前的操作,如果某节点在....

文章 2017-11-01 来自:开发者社区

谈谈Spark与Spark-Streaming关系

spark程序是使用一个spark应用实例一次性对一批历史数据进行处理,spark streaming是将持续不断输入的数据流转换成多个batch分片,使用一批spark应用实例进行处理,侧重点在Steaming上面。我们常说的Spark-Streaming依赖了Spark Core的意思就是,实际计算的核心框架还是spark。我们还是上一张老生常谈的官方图: 从原理上看,我们将spark-s.....

谈谈Spark与Spark-Streaming关系
问答 2017-10-23 来自:开发者社区

如何通过 Spark Streaming消费?

[font=PingFangSC, 'helvetica neue', 'hiragino sans gb', arial, 'microsoft yahei ui', 'microsoft yahei', simsun, sans-serif]E-MapReduce 实现了一套通用的Spark Streaming实时消费LogHub的接口,参见 GitHub [font=PingFangSC,....

文章 2017-10-02 来自:开发者社区

Spark入门:Spark Streaming 概览

概览 Spark Streaming是Spark API的一个可横向扩容,高吞吐量,容错的实时数据流处理引擎,Spark能够从Kafka、Flume、Kinesis或者TCP等等输入获取数据,然后能够使用复杂的计算表达式如map,reduce,join和window对数据进行计算。计算完后的数据能够被推送到文件系统,数据库,和实时的仪表盘。另外,你也可以使用Spark ML和图计算处理实时数据流....

Spark入门:Spark Streaming 概览
文章 2017-10-02 来自:开发者社区

Spark Streaming vs. Kafka Stream 哪个更适合你

译者注:本文介绍了两大常用的流式处理框架,Spark Streaming和Kafka Stream,并对他们各自的特点做了详细说明,以帮助读者在不同的场景下对框架进行选择。以下是译文。流式处理的需求每天都在增加,仅仅对大量的数据进行处理是不够的。数据必须快速地得到处理,以便企业能够实时地对不断变化的业务环境做出反应。流式处理是持续而又并发地对数据进行实时处理。流式处理是处理数据流或传感器数据的理....

Spark Streaming vs. Kafka Stream 哪个更适合你
文章 2017-08-01 来自:开发者社区

Spark Streaming场景应用- Spark Streaming计算模型及监控

Spark Streaming是一套优秀的实时计算框架。其良好的可扩展性、高吞吐量以及容错机制能够满足我们很多的场景应用。本篇结合我们的应用场景,介结我们在使用Spark Streaming方面的技术架构,并着重讲解Spark Streaming两种计算模型,无状态和状态计算模型以及该两种模型的注意事项;接着介绍了Spark Streaming在监控方面所做的一些事情,最后总结了Spark St....

文章 2017-07-04 来自:开发者社区

为什么越来越多的公司在使用Spark Streaming

Databricks最近对1400多家Spark用户进行了一次调查,结果显示这些用户对Spark Streaming的使用率与2014年相比增长了56%,另外,有48%的受访者将Spark Streaming标记为最常用的Spark组件。在Spark Streaming不断增长的用户群中,Uber、Netflix和Pinterest等家喻户晓的公司赫然在列,那么为什么使用Spark Stream....

文章 2017-05-02 来自:开发者社区

Spark Streaming和Flink的Word Count对比

准备: nccat for windows/linux 都可以 通过 TCP 套接字连接,从流数据中创建了一个 Spark DStream/ Flink DataSream, 然后进行处理, 时间窗口大小为10s 因为 示例需要, 所以 需要下载一个netcat, 来构造流的输入。 代码: spark streaming package cn.kee.spark; public...

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

Apache Spark 中国技术社区

阿里巴巴开源大数据技术团队成立 Apache Spark 中国技术社区,定期推送精彩案例,问答区数个 Spark 技术同学每日在线答疑,只为营造 Spark 技术交流氛围,欢迎加入!

+关注