文章 2024-08-16 来自:开发者社区

EMR Serverless Spark 实践教程 | 通过 Apache Airflow 使用 Livy Operator 提交任务

Apache Airflow 是一个强大的工作流程自动化和调度工具,它允许开发者编排、计划和监控数据管道的执行。EMR Serverless Spark 为处理大规模数据处理任务提供了一个无服务器计算环境。本文为您介绍如何通过 Apache Airflow 的 Livy Operator 实现自动化地向 EMR Serverless Spark 提交任务,以实现任务调度和执行的自动化,帮助您更有....

EMR Serverless Spark 实践教程 | 通过 Apache Airflow 使用 Livy Operator 提交任务
文章 2024-08-05 来自:开发者社区

【Deepin 20系统】Linux 系统安装Spark教程及使用

系统:Deepin 系统 Debian内核 1 安装Java JDK 查看是否安装了java环境 java -version 如果没有安装 安装方法:https://zhuanlan.zhihu.com/p/343227137 2 下载安装包 清华镜像下载,快速:https://mirrors.tuna.tsinghu...

【Deepin 20系统】Linux 系统安装Spark教程及使用
文章 2024-07-16 来自:开发者社区

EMR Serverless Spark 实践教程 | 通过 spark-submit 命令行工具提交 Spark 任务

前提条件 已安装 Java 1.8 或以上版本。 操作流程 步骤一:下载并安装 EMR Serverless spark-submit 工具 单击emr-serverless-spark-tool-0.1.0-bin.zip,下载安装包。 执行以下命令,解压并安装EMR Serverless spark-submit工具。 ...

EMR Serverless Spark 实践教程 | 通过 spark-submit 命令行工具提交 Spark 任务
文章 2024-07-05 来自:开发者社区

EMR Serverless Spark 实践教程 | 通过 EMR Serverless Spark 提交 PySpark 流任务

在大数据快速发展的时代,流式处理技术对于实时数据分析至关重要。EMR Serverless Spark提供了一个强大而可扩展的平台,它不仅简化了实时数据处理流程,还免去了服务器管理的烦恼,提升了效率。本文将指导您使用EMR Serverless Spark提交PySpark流式任务,展示其在流处理方面的易用性和可运维性。 前提条件 已创建工作空间,详情请参见创建工作空间...

EMR Serverless Spark 实践教程 | 通过 EMR Serverless Spark 提交 PySpark 流任务
文章 2024-04-30 来自:开发者社区

【Spark】Spark基础教程知识点

第 1 部分 Spark 基础 Spark 概述 本章介绍 Spark 的一些基本认识. Spark官方地址 一:什么是 Spark ...

【Spark】Spark基础教程知识点
文章 2023-12-29 来自:开发者社区

Spark 基础教程:wordcount+Spark SQL

Spark wordCount具体代码参考:src/main/java/WordCount.java · Spark SQL具体代码参考:src/main/java/WordCountSql.java

文章 2023-12-29 来自:开发者社区

Spark 教程系列

1.spark 基本概念spark学习笔记(2)spark基本概念和术语解释_攻城的蒂巴格的博客-CSDN博客2.广播变量和累加器的理解Spark共享变量(广播变量、累加器)_SunnyRivers的博客-CSDN博客spark 广播变量 - Angel_jing - 博客园3.线上实际任务分析第一部分是driver 日志,第二部分是excutor 日志4.spark 资源设置(1)首先检查你的....

Spark 教程系列
文章 2023-11-20 来自:开发者社区

Flink教程(30)- Flink VS Spark(下)

2.7 kafka 动态分区检测2.7.1 Spark StreamingSpark Streaming:对于有实时处理业务需求的企业,随着业务增长数据量也会同步增长,将导致原有的 kafka 分区数不满足数据写入所需的并发度,需要扩展 kafka 的分区或者增加 kafka 的 topic,这时就要求实时处理程序,如 SparkStreaming、flink 能检测到 kafka 新增的 to....

Flink教程(30)- Flink VS Spark(下)
文章 2023-11-20 来自:开发者社区

Flink教程(30)- Flink VS Spark(上)

01 引言在前面的博客,我们学习了Flink的内存管理了,有兴趣的同学可以参阅下:《Flink教程(01)- Flink知识图谱》《Flink教程(02)- Flink入门》《Flink教程(03)- Flink环境搭建》《Flink教程(04)- Flink入门案例》《Flink教程(05)- Flink原理简单分析》《Flink教程(06)- Flink批流一体API(Source示例)》《....

Flink教程(30)- Flink VS Spark(上)
文章 2023-06-19 来自:开发者社区

spark与pyspark教程(一)

大数据生态圈简介大数据生态圈可以分为7层,总的可以归纳为数据采集层、数据计算层和数据应用层。spark1.简介spark是一种计算引擎,类似于hadoop架构下mapreduce,与mapreduce不同的是将计算的结果存入hdfs分布式文件系统。spark则是写入内存中,像mysql一样可以实现实时的计算,包括SQL查询。spark不单单支持传统批量处理应用,更支持交互式查询、流式计算、机器学....

spark与pyspark教程(一)

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

Apache Spark 中国技术社区

阿里巴巴开源大数据技术团队成立 Apache Spark 中国技术社区,定期推送精彩案例,问答区数个 Spark 技术同学每日在线答疑,只为营造 Spark 技术交流氛围,欢迎加入!

+关注