文章 2025-03-13 来自:开发者社区

Dataphin功能Tips系列(48)-如何根据Hive SQL/Spark SQL的任务优先级指定YARN资源队列

一、场景 客户A需要对生产和开发环境的Hive SQL/Spark SQL根据任务优先级指定YARN资源队列,提高任务执行效率和资源利用率,在Dataphin上如何实现? 二、解决方案及功能 Dataphin支持根据任务优先级指定YARN资源队列 ①【计算源-队列信息配置】配置资源队列,具体可以联系Hadoop的运维团队或者是从yarn-site.xml中获取资源...

Dataphin功能Tips系列(48)-如何根据Hive SQL/Spark SQL的任务优先级指定YARN资源队列
文章 2025-03-13 来自:开发者社区

Dataphin功能Tips系列(47)-支持通过Spark本地客户端提交Spark Batch任务

一、场景 原来的Spark Jar任务和PySpark任务提交,需要借助外部执行机器作为“跳板机”,这会产生以下问题: 单点故障风险,缺乏高可用性: 跳板机作为单一的连接点,一旦发生故障(如硬件故障、网络中断等),将导致整个Spark任务提交流程中断,无法实现高可用性。 资源分配集中,无法实现均衡负载: ...

Dataphin功能Tips系列(47)-支持通过Spark本地客户端提交Spark Batch任务
阿里云文档 2025-02-25

SparkSQL任务快速入门

EMR Serverless Spark支持通过SQL代码编辑和运行任务。本文带您快速体验SQL的创建、启动和运维等操作。

文章 2025-02-01 来自:开发者社区

【赵渝强老师】Spark RDD的依赖关系和任务阶段

Spark RDD彼此之间会存在一定的依赖关系。依赖关系有两种不同的类型:窄依赖和宽依赖。 窄依赖:如果父RDD的每一个分区最多只被一个子RDD的分区使用,这样的依赖关系就是窄依赖; 宽依赖:如果父RDD的每一个分区被多个子RDD的分区使用,这样的依赖关系就是宽依赖。 map、filter、union等操作都是典型的窄依赖操作,...

【赵渝强老师】Spark RDD的依赖关系和任务阶段
文章 2024-10-14 来自:开发者社区

Spark任务OOM问题如何解决?

大家好,我是 V 哥。在实际的业务场景中,Spark任务出现OOM(Out of Memory) 问题通常是由于任务处理的数据量过大、资源分配不合理或者代码存在性能瓶颈等原因造成的。针对不同的业务场景和原因,可以从以下几个方面进行优化和解决。 一、业务场景及可能的OOM原因分析 数据量过大: 业务场景࿱...

文章 2024-09-27 来自:开发者社区

Linux环境下 java程序提交spark任务到Yarn报错

摘要 情况1:JSON解析异常情况2:java.lang.InstantiationException spark.sql.driver情况3 中kafka:java.lang.NoClassDefFoundError: org/apache/kafka/clients/producer/Callback情况4 idea启动报错:Conne...

Linux环境下 java程序提交spark任务到Yarn报错
文章 2024-09-01 来自:开发者社区

Spark适合处理哪些任务?

Spark适合处理哪些任务? Spark 适合处理多种类型的任务,包括大规模数据处理、实时数据分析、机器学习等。以下将详细探讨 Spark 适合处理的具体任务类型: 大规模数据处理数据清洗和转换:Spark 提供了强大的数据转换和操作功能,例如使用 Spark SQL 进行数据筛选、过滤和聚合,使用 Spark ...

文章 2024-08-24 来自:开发者社区

Spark在供应链核算中应用问题之通过Spark UI进行任务优化如何解决

问题一:如何通过Spark UI进行任务优化? 如何通过Spark UI进行任务优化? 参考回答: 通过Spark UI可以查看任务的job/stage/task的可视化分析数据,包括执行过程、日志等,从而可以针对性地优化提升任务性能。 关于本问题的更多问答可点击原文查看: https://developer.aliyun.c...

文章 2024-08-19 来自:开发者社区

DataWorks产品使用合集之如何开发ODPS Spark任务

问题一:DataWorks为什么这个用不了 怎么选择? DataWorks为什么这个用不了 怎么选择? ...

DataWorks产品使用合集之如何开发ODPS Spark任务
文章 2024-08-16 来自:开发者社区

EMR Serverless Spark 实践教程 | 通过 Apache Airflow 使用 Livy Operator 提交任务

Apache Airflow 是一个强大的工作流程自动化和调度工具,它允许开发者编排、计划和监控数据管道的执行。EMR Serverless Spark 为处理大规模数据处理任务提供了一个无服务器计算环境。本文为您介绍如何通过 Apache Airflow 的 Livy Operator 实现自动化地向 EMR Serverless Spark 提交任务,以实现任务调度和执行的自动化,帮助您更有....

EMR Serverless Spark 实践教程 | 通过 Apache Airflow 使用 Livy Operator 提交任务

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

Apache Spark 中国技术社区

阿里巴巴开源大数据技术团队成立 Apache Spark 中国技术社区,定期推送精彩案例,问答区数个 Spark 技术同学每日在线答疑,只为营造 Spark 技术交流氛围,欢迎加入!

+关注