文章 2019-07-08 来自:开发者社区

使用Spark Streaming SQL基于时间窗口进行数据统计

作者:关文选,花名云魄,阿里云E-MapReduce 高级开发工程师,专注于流式计算,Spark Contributor 1.背景介绍 流式计算一个很常见的场景是基于事件时间进行处理,常用于检测、监控、根据时间进行统计等系统中。比如埋点日志中每条日志记录了埋点处操作的时间,或者业务系统中记录了用户操作时间,用于统计各种操作处理的频率等,或者根据规则匹配,进行异常行为检测或监控系统告警。这样的时间....

文章 2019-07-05 来自:开发者社区

使用Spark Streaming SQL基于时间窗口进行数据统计

1.背景介绍 流式计算一个很常见的场景是基于事件时间进行处理,常用于检测、监控、根据时间进行统计等系统中。比如埋点日志中每条日志记录了埋点处操作的时间,或者业务系统中记录了用户操作时间,用于统计各种操作处理的频率等,或者根据规则匹配,进行异常行为检测或监控系统告警。这样的时间数据都会包含在事件数据中,需要提取时间字段并根据一定的时间范围进行统计或者规则匹配等。使用Spark Streaming ....

文章 2019-06-21 来自:开发者社区

Spark Streaming 框架在 5G 中的应用

原文链接:[https://www.ericsson.com/en/blog/2019/6/applying-the-spark-streaming-framework-to-5g] 编译:明柏,阿里巴巴计算平台事业部EMR团队技术专家,Apache Spark Contributor,目前从事 Spark 内核优化相关的工作,在分布式系统和大数据调度也有较为深入的了解和实践。 我们已经很长时间....

文章 2019-06-20 来自:开发者社区

【译】Spark Streaming 框架在 5G 中的应用

原文链接: Applying the Spark Streaming framework to 5G 编译:明柏,阿里巴巴计算平台事业部EMR团队技术专家,Apache Spark Contributor,目前从事 Spark 内核优化相关的工作,在分布式系统和大数据调度也有较为深入的了解和实践。 我们已经很长时间没有更新流处理框架的相关博客(apache-storm-vs-spark-stre....

文章 2019-06-20 来自:开发者社区

从 Spark Streaming 到 Apache Flink : 实时数据流在爱奇艺的演进

作者:陈越晨 整理:刘河 本文将为大家介绍Apache Flink在爱奇艺的生产与实践过程。你可以借此了解到爱奇艺引入Apache Flink的背景与挑战,以及平台构建化流程。主要内容如下: 爱奇艺在实时计算方面的的演化和遇到的一些挑战 爱奇艺使用Flink的User Case 爱奇艺Flink平台化构建流程 爱奇艺在Flink上的改进 未来工作 爱奇艺简介 爱奇艺在2010年正式上线...

文章 2019-06-18 来自:开发者社区

Spark Streaming的优化之路—从Receiver到Direct模式

作者:个推数据研发工程师 学长    1 业务背景   随着大数据的快速发展,业务场景越来越复杂,离线式的批处理框架MapReduce已经不能满足业务,大量的场景需要实时的数据处理结果来进行分析、决策。Spark Streaming是一种分布式的大数据实时计算框架,他提供了动态的,高吞吐量的,可容错的流式数据处理,不仅可以实现用户行为分析,还能在金融、舆情分析、网络监...

Spark Streaming的优化之路—从Receiver到Direct模式
文章 2019-06-04 来自:开发者社区

使用 Kafka + Spark Streaming + Cassandra 构建数据实时处理引擎

Apache Kafka 是一个可扩展,高性能,低延迟的平台,允许我们像消息系统一样读取和写入数据。我们可以很容易地在 Java 中使用 Kafka。 Spark Streaming 是 Apache Spark 的一部分,是一个可扩展、高吞吐、容错的实时流处理引擎。虽然是使用 Scala 开发的,但是支持 Java API。 Apache Cassandra 是分布式的 NoSQL 数据库。在....

问答 2019-05-29 来自:开发者社区

spark streaming读取loghub数据报错LogHubClientWorkerException: consumer group is not agreed, AlreadyExistedConsumerGroup,是什么情况

com.aliyun.openservices.loghub.client.exceptions.LogHubClientWorkerException: consumer group is not agreed, AlreadyExistedConsumerGroup: {"consumeInOrder": false, "timeoutInMillSecond": 60}

问答 2019-05-28 来自:开发者社区

使用spark streaming连接loghub报错,是什么问题

"main" java.lang.ClassNotFoundException: Failed to find data source: loghub. Please find packages at http://spark.apache.org/third-party-projects.htmlat org.apache.spark.sql.execution.datasources.Dat....

文章 2019-05-19 来自:开发者社区

Airbnb 是如何通过 balanced Kafka reader 来扩展 Spark streaming 实时流处理能力的

Airbnb 日志事件获取 日志事件从客户端(例如移动应用程序和 Web 浏览器)和在线服务发出,其中包含行为或操作的关键信息。每个事件都有一个特定的信息。例如,当客人在 Airbnb.com 上搜索马里布的海滨别墅时,将生成包含位置,登记和结账日期等的搜索事件。 在 Airbnb,事件记录对于我们理解客人和房东,然后为他们提供更好的体验至关重要。它为业务决策提供信息,并推动工程功能(如搜索,实....

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

Apache Spark 中国技术社区

阿里巴巴开源大数据技术团队成立 Apache Spark 中国技术社区,定期推送精彩案例,问答区数个 Spark 技术同学每日在线答疑,只为营造 Spark 技术交流氛围,欢迎加入!

+关注