阿里云文档 2024-07-05

如何使用Spark DataFrame API开发一个流式作业消费LogService数据

本文简单介绍如何使用Spark DataFrame API开发一个流式作业消费LogService数据。

阿里云文档 2024-07-05

如何通过Spark Structured Streaming流式写入Iceberg表

本文为您介绍如何通过Spark Structured Streaming流式写入Iceberg表。

文章 2023-07-17 来自:开发者社区

Hadoop生态系统中的流式数据处理技术:Apache Flink和Apache Spark的比较

Hadoop生态系统中的流式数据处理技术:Apache Flink和Apache Spark的比较 引言:在大数据时代,处理海量的实时数据变得愈发重要。Hadoop生态系统中的两个主要的流式数据处理框架,Apache Flink和Apache Spark,都提供了强大的功能来应对这一挑战。本文将对这两个框架进行比较࿰...

文章 2023-02-19 来自:开发者社区

流式读取热搜词汇并解析,urllib+Kafka+Spark

环境必备上文有部分配置信息,此处不再赘述。使用python+spark爬取百度热搜写入mysql首先肯定是jdk,这里选用的1.8,因为高版本的时候,kafka会报一个高版本的错误,同时安装spark,kafka,zookeeper,安装mysql以及下载jdbc的包(可以直接在maven仓库下载不同版本的jdbc)。这里的安装使用scoop来进行安装,包都会出现在用户根的scoop/apps中....

流式读取热搜词汇并解析,urllib+Kafka+Spark
文章 2022-06-13 来自:开发者社区

Storm vs. Kafka Streams vs. Spark Streaming vs. Flink ,流式处理框架一网打尽!2

五、现有流处理框架介绍5.1 StormStorm是最老的流媒体框架,技术成熟可靠。社区也很活跃。ali还开发了jstorm,对storm进行了拓展完善。后续jstorm也融入到storm中,对于storm也是一个质的提升。比较适合于基于事件的一些简单用例场景。优点:极低的延迟,真正的流媒体,成熟和高吞吐量非常适合非复杂的流媒体用例缺点:不支持状态管理没有事件时间处理,聚合,窗口,会话,水印等高....

Storm vs. Kafka Streams vs. Spark Streaming vs. Flink ,流式处理框架一网打尽!2
文章 2022-06-13 来自:开发者社区

Storm vs. Kafka Streams vs. Spark Streaming vs. Flink ,流式处理框架一网打尽!1

文章目录一、前言二、什么是流式处理三、流式处理的重点有哪些3.1 交付保障3.2 故障容错3.3 状态管理3.4 性能3.5 成熟四、流式处理的两种类型4.1 Native流4.2 小批量处理4.3 两种类型都有一些优点和缺点五、现有流处理框架介绍5.1 Storm5.2 Spark Streaming5.3 Flink5.4 Kafka Steams5.5 Kafka Streams vs. ....

Storm vs. Kafka Streams vs. Spark Streaming vs. Flink ,流式处理框架一网打尽!1
文章 2022-04-21 来自:开发者社区

图解大数据 | Spark Streaming @流式数据处理

作者:韩信子@ShowMeAI教程地址:http://www.showmeai.tech/tutorials/84本文地址:http://www.showmeai.tech/article-detail/179声明:版权所有,转载请联系平台与作者并注明出处收藏ShowMeAI查看更多精彩内容1.Spark Streaming解读1)Spark Streaming简介Spark Streaming....

图解大数据 | Spark Streaming @流式数据处理
文章 2022-02-17 来自:开发者社区

地铁译:Spark for python developers ---Spark流式数据处理

先研究一下不断改变的动态环境带来的挑战,在列出流处理应用的先决条件(如,Twitter的TCP Sockets连接)之后, 结合Spark, Kafka 和 Flume 把数据放入一个低延迟,高吞吐量,可缩放的处理流水线。
 要点如下: 
• 分析流式应用架构的挑战,约束和需求
 
• 利用Spark Streaming 从 TCP socket 中处理实时数据 

• 连接 ...

地铁译:Spark for python developers ---Spark流式数据处理
文章 2021-12-03 来自:开发者社区

Spark Sreaming实战(二)-小试流式处理

1 业务分析1.1 需求统计主站每个(指定)教程访问的客户端、地域信息分布地域: ip转换 Spark SQL项目实战客户端:useragent获取 Hadoop基础教程=》如上两个操作:采用离线(Spark/MapReduce )的方式进行统计1.2 实现步骤课程编号、ip信息、useragent进行相应的统计分析操作: MapReduce/Spark1.3 项目架构日志收集: Flume离线....

Spark Sreaming实战(二)-小试流式处理
问答 2020-07-16 来自:开发者社区

spark odps流式读取datahub数据,写到odps有没有参考文档或者代码?

spark odps流式读取datahub数据,写到odps有没有参考文档或者代码?

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

Apache Spark 中国技术社区

阿里巴巴开源大数据技术团队成立 Apache Spark 中国技术社区,定期推送精彩案例,问答区数个 Spark 技术同学每日在线答疑,只为营造 Spark 技术交流氛围,欢迎加入!

+关注