阿里云文档 2024-07-05

如何使用Spark DataFrame API开发一个流式作业消费LogService数据

本文简单介绍如何使用Spark DataFrame API开发一个流式作业消费LogService数据。

阿里云文档 2024-07-05

如何通过Spark Structured Streaming流式写入Iceberg表

本文为您介绍如何通过Spark Structured Streaming流式写入Iceberg表。

文章 2023-07-17 来自:开发者社区

Hadoop生态系统中的流式数据处理技术:Apache Flink和Apache Spark的比较

Hadoop生态系统中的流式数据处理技术:Apache Flink和Apache Spark的比较 引言:在大数据时代,处理海量的实时数据变得愈发重要。Hadoop生态系统中的两个主要的流式数据处理框架,Apache Flink和Apache Spark,都提供了强大的功能来应对这一挑战。本文将对这两个框架进行比较࿰...

文章 2023-02-19 来自:开发者社区

流式读取热搜词汇并解析,urllib+Kafka+Spark

环境必备上文有部分配置信息,此处不再赘述。使用python+spark爬取百度热搜写入mysql首先肯定是jdk,这里选用的1.8,因为高版本的时候,kafka会报一个高版本的错误,同时安装spark,kafka,zookeeper,安装mysql以及下载jdbc的包(可以直接在maven仓库下载不同版本的jdbc)。这里的安装使用scoop来进行安装,包都会出现在用户根的scoop/apps中....

流式读取热搜词汇并解析,urllib+Kafka+Spark
文章 2022-02-17 来自:开发者社区

【观察】常用的流式框架(二)-- Spark与Flink

Spark由加州大学伯克利分校于2009年开发,第二年开源,2014年成为Apache顶级项目。作为MapReduce的继任者,Spark可以提供高水准API(如RDD--可恢复分布式数据集;Dstream--离散无序的RDD),其社区在2015年就有超过1000名贡献者,知名的用户包括亚马逊、eBay、雅虎、IBM、百度等。 2013年Spark Streaming成为Spark的核心...

文章 2022-02-16 来自:开发者社区

流式大数据处理的三种框架:Storm,Spark和Samza

流式大数据处理的三种框架:Storm,Spark和Samza

文章 2022-02-16 来自:开发者社区

流式大数据处理的三种框架:Storm,Spark和Samza

许多分布式计算系统都可以实时或接近实时地处理大数据流。本文将对三种Apache框架分别进行简单介绍,然后尝试快速、高度概述其异同。 Apache Storm 在Storm中,先要设计一个用于实时计算的图状结构,我们称之为拓扑(topology)。这个拓扑将会被提交给集群,由集群中的主控节点(master node)分发代码,将任务分配给工作节点(worker node)执行。一个拓扑中包括spo....

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

Apache Spark 中国技术社区

阿里巴巴开源大数据技术团队成立 Apache Spark 中国技术社区,定期推送精彩案例,问答区数个 Spark 技术同学每日在线答疑,只为营造 Spark 技术交流氛围,欢迎加入!

+关注