问答 2024-05-27 来自:开发者社区

DataWorks如何设置环境变量哈,便于spark 运行任务时动态获取?

DataWorks如何设置环境变量哈,便于spark 运行任务时动态获取?我本意是想把敏感信息 放到环境变量里,在任务运行时动态获取, 类似这种情况

问答 2023-07-17 来自:开发者社区

大数据计算MaxCompute的Maxcompute Spark 任务,开启动态资源调度,怎么报错?

问题一:大数据计算MaxCompute的Maxcompute Spark 任务,开启动态资源调度,怎么报错? FetchFailed(BlockManagerId(21, workera90f372b-92dd-49f9-9c01-eb3e9ca0e350cupid-11-220-53-239, 45007, None), shuffleId=0, mapIndex=41, mapId=41, ....

问答 2023-02-14 来自:开发者社区

基于yarn,spark任务可以配置动态资源内存和核数,flink呢?

基于yarn,spark任务可以配置动态资源内存和核数,flink呢,是任务一开始配置多大内存就是多大吗?flink不用配置核数,一个任务会使用多少核呢?

文章 2022-08-06 来自:开发者社区

SPARK最新特性Runtime Filtering(运行时过滤)以及与动态分区裁剪的区别

背景本文基于 SPARK 3.3.0在最新发布的SPARK RELEASE,第一个显著的特性就是row-level Runtime Filtering,我们来分析一下分析直接转到对应的Jira SPARK-32268,里面涉及到的TPC benchmark,在数据行数比较大的情况下,BloomFilter带来的性能提升还是很明显的,最重要的设计文档在Row-level Runtime Filte....

SPARK最新特性Runtime Filtering(运行时过滤)以及与动态分区裁剪的区别
文章 2022-05-29 来自:开发者社区

Spark DPP(动态分区裁剪)导致的DataSourceScanExec NullPointerException问题分析以及解决

背景本文基于spark 3.1.2,且运行在yarn模式下最近在调试 spark sql的时候遇到了空指针的问题,如下: Caused by: java.lang.NullPointerException at org.apache.spark.sql.execution.DataSourceScanExec.$init$(DataSourceScanExec.scala:57) at ...

Spark DPP(动态分区裁剪)导致的DataSourceScanExec NullPointerException问题分析以及解决
文章 2022-05-29 来自:开发者社区

【spark系列11】spark 的动态分区裁剪下(Dynamic partition pruning)-物理计划

背景本文基于delta 0.7.0spark 3.0.1spark 3.x引入了动态分区裁剪,在 spark 的动态分区裁剪上(Dynamic partition pruning)-逻辑计划我们提到在逻辑计划阶段会加入DynamicPruningSubquery,今天我们分析一下在物理阶段怎么对DynamicPruningSubquery进行优化以及实现的分析直接转到PlanDynamicPru....

文章 2022-05-29 来自:开发者社区

【spark系列9】spark 的动态分区裁剪上(Dynamic partition pruning)-逻辑计划

背景本文基于delta 0.7.0spark 3.0.1spark 3.x引入了动态分区裁剪,今天我们分析以下代码是怎么实现的分析直接定位到PartitionPruning.applyPartitionPruning是逻辑计划的规则override def apply(plan: LogicalPlan): LogicalPlan = plan match { // Do not rew...

问答 2021-12-06 来自:开发者社区

spark动态资源申请功能被禁用是在什么情况?

spark动态资源申请功能被禁用是在什么情况?

文章 2021-12-01 来自:开发者社区

「Spark从精通到重新入门(一)」Spark 中不可不知的动态优化

前言Apache Spark 自 2010 年面世,到现在已经发展为大数据批计算的首选引擎。而在 2020 年 6 月份发布的Spark 3.0 版本也是 Spark 有史以来最大的 Release,其中将近一半的 issue 都属于 SparkSQL。这也迎合我们现在的主要场景(90% 是 SQL),同时也是优化痛点和主要功能点。我们 Erda 的 FDP 平台(Fast Data Platf....

「Spark从精通到重新入门(一)」Spark 中不可不知的动态优化
问答 2020-12-28 来自:开发者社区

Spark 3.0中的AQE中动态优化join中的数据倾斜什么意思?

Spark 3.0中的AQE中动态优化join中的数据倾斜什么意思? 求大佬解答

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

Apache Spark 中国技术社区

阿里巴巴开源大数据技术团队成立 Apache Spark 中国技术社区,定期推送精彩案例,问答区数个 Spark 技术同学每日在线答疑,只为营造 Spark 技术交流氛围,欢迎加入!

+关注