文章 2022-10-19 来自:开发者社区

Flume+Kafka+Spark Streaming+MySQL实时日志分析

项目背景网络发展迅速的时代,越来越多人通过网络获取跟多的信息或通过网络作一番自己的事业,当投身于搭建属于自己的网站、APP或小程序时会发现,经过一段时间经营和维护发现浏览量和用户数量的增长速度始终没有提升。在对其进行设计改造时无从下手,当在不了解用户的浏览喜欢和个用户群体的喜好。虽然服务器日志中明确的记载了用户访浏览的喜好但是通过普通方式很难从大量的日志中及时有效的筛选出优质信息。Spark S....

Flume+Kafka+Spark Streaming+MySQL实时日志分析
问答 2022-08-17 来自:开发者社区

流式计算 Spark Streaming 如何应treaming 如何应用?

流式计算 Spark Streaming 如何应用?

文章 2022-06-19 来自:开发者社区

Spark Streaming 快速入门(实操)

0x00 教程内容Spark Streaming 编程校验结果并删除测试数据本案例是在官方文档上做了一定的修改,实现的过程非常简单:开启一个 Spark Streaming 应用,实时接受 TCP Socket 传过来的数据,并进行统计。0x01 Spark Streaming 编程Spark Streaming 上构建应用与 Spark 相似,都要先创建 Context 对象,并对抽象数据对象....

Spark Streaming 快速入门(实操)
文章 2022-06-19 来自:开发者社区

Spark Streaming 快速入门(理论)

0x00 教程内容Spark Streaming 相关概念Spark Streaming 编程基础0x01 Spark Streaming 相关概念1. Spark Streaming 介绍Spark Streaming 是在 Spark 上建立的可扩展的、高吞吐量的、实时处理流数据的框架,数据可以来自于多种不同的源,例如 Kafka、Flume、HDFS/S3、Twitter、ZeroMQ 或....

Spark Streaming 快速入门(理论)
文章 2022-06-12 来自:开发者社区

Storm vs. Kafka Streams vs. Spark Streaming vs. Flink ,流式处理框架一网打尽!2

五、现有流处理框架介绍5.1 StormStorm是最老的流媒体框架,技术成熟可靠。社区也很活跃。ali还开发了jstorm,对storm进行了拓展完善。后续jstorm也融入到storm中,对于storm也是一个质的提升。比较适合于基于事件的一些简单用例场景。优点:极低的延迟,真正的流媒体,成熟和高吞吐量非常适合非复杂的流媒体用例缺点:不支持状态管理没有事件时间处理,聚合,窗口,会话,水印等高....

Storm vs. Kafka Streams vs. Spark Streaming vs. Flink ,流式处理框架一网打尽!2
文章 2022-06-12 来自:开发者社区

Storm vs. Kafka Streams vs. Spark Streaming vs. Flink ,流式处理框架一网打尽!1

文章目录一、前言二、什么是流式处理三、流式处理的重点有哪些3.1 交付保障3.2 故障容错3.3 状态管理3.4 性能3.5 成熟四、流式处理的两种类型4.1 Native流4.2 小批量处理4.3 两种类型都有一些优点和缺点五、现有流处理框架介绍5.1 Storm5.2 Spark Streaming5.3 Flink5.4 Kafka Steams5.5 Kafka Streams vs. ....

Storm vs. Kafka Streams vs. Spark Streaming vs. Flink ,流式处理框架一网打尽!1
文章 2022-06-11 来自:开发者社区

【Spark Streaming】(五)Spark Streaming 与 Kafka 集成实战!

文章目录一、前言二、项目准备2.1 添加Kafka的pom依赖2.2 启动zookeeper集群2.3 启动kafka集群2.4 创建topic2.5 向topic中生产数据三、KafkaUtils.createDstream3.1 原理3.2 实战四、KafkaUtils.createDirectStream4.1 原理4.2 实战4.3 结果展示一、前言首先,我们先来简单的了解下 Kafka....

【Spark Streaming】(五)Spark Streaming 与 Kafka 集成实战!
文章 2022-06-11 来自:开发者社区

【Spark Streaming】(三)DStream 算子详解

文章目录一、前言二、Transformations on DStreams三、 Window Operations(窗口操作)四、Output Operations on DStreams(输出操作)一、前言Spark Streaming是核心Spark API的扩展,它支持对实时数据流进行可伸缩、高吞吐量和容错的流处理。数据可以从Kafka、Flume、Kinesis或TCP套接字等多个源获取....

【Spark Streaming】(三)DStream 算子详解
文章 2022-06-11 来自:开发者社区

【Spark Streaming】(二)DStream 编码实战

文章目录一、前言二、DStream 编程模型三、DStream 操作3.1 套接字流:通过监听 Socket 端口来接收数据3.2 文件流3.2 RDD队列流3.4 带状态的处理 StateFull一、前言从前一篇博客 【Spark Streaming】(一)架构及工作原理 ,我们了解到 Sprak Streaming 是属于 Saprk API 的扩展,它支持实时数据流(live data s....

文章 2022-06-11 来自:开发者社区

【Spark Streaming】(一)架构及工作原理

文章目录一、简介二、流处理架构三、Micro-Batch Architecture四、工作原理4.1 Streaming Context4.2 DStream4.3 Input DStreams & Receivers五、DStream 操作六、Spark Streaming 架构七、Key Points for InputStream八、Sources of Spark Streami....

【Spark Streaming】(一)架构及工作原理

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

Apache Spark 中国技术社区

阿里巴巴开源大数据技术团队成立 Apache Spark 中国技术社区,定期推送精彩案例,问答区数个 Spark 技术同学每日在线答疑,只为营造 Spark 技术交流氛围,欢迎加入!

+关注