文章 2023-01-14 来自:开发者社区

Apache Spark 2.3 加入支持Native Kubernetes及新特性文档下载

在开始之前我们需要知道什么是KubernetesKubernetes(通常写成“k8s”)是最开始由google设计开发最后贡献给Cloud Native Computing Foundation的开源容器集群管理项目。它的设计目标是在主机集群之间提供一个能够自动化部署、可拓展、应用容器可运营的平台。Kubernetes通常结合docker容器工具工作,并且整合多个运行着docker容器的主机集....

Apache Spark 2.3 加入支持Native Kubernetes及新特性文档下载
文章 2022-08-06 来自:开发者社区

SPARK最新特性Runtime Filtering(运行时过滤)以及与动态分区裁剪的区别

背景本文基于 SPARK 3.3.0在最新发布的SPARK RELEASE,第一个显著的特性就是row-level Runtime Filtering,我们来分析一下分析直接转到对应的Jira SPARK-32268,里面涉及到的TPC benchmark,在数据行数比较大的情况下,BloomFilter带来的性能提升还是很明显的,最重要的设计文档在Row-level Runtime Filte....

SPARK最新特性Runtime Filtering(运行时过滤)以及与动态分区裁剪的区别
问答 2022-07-29 来自:开发者社区

全托管Spark技术栈的指标特性是什么?

全托管Spark技术栈的指标特性是什么?

文章 2022-02-17 来自:开发者社区

Spark RDD详解 —— RDD特性、lineage、缓存、checkpoint、依赖关系

RDD(Resilient Distributed Datasets)弹性的分布式数据集,又称Spark core,它代表一个只读的、不可变、可分区,里面的元素可分布式并行计算的数据集。 RDD是一个很抽象的概念,不易于理解,但是要想学好Spark,必须要掌握RDD,熟悉它的编程模型,这是学习Spark其他组件的基础。笔者在这里从名字和几个重要的概念给大家一一解读: Resilient(弹性的)....

Spark RDD详解 —— RDD特性、lineage、缓存、checkpoint、依赖关系
文章 2022-02-17 来自:开发者社区

Apache Spark 3.0.0重磅发布 —— 重要特性全面解析

2020年6月18日,开发了近两年(自2018年10月份至今)的Apache Spark 3.0.0正式发布! Apache Spark 3.0.0版本包含3400多个补丁,是开源社区做出巨大贡献的结晶,在Python和SQL功能方面带来了重大进展并且将重点聚焦在了开发和生产的易用性上。同时,今年也是Spark开源10周年,这些举措反映了Spark自开源以来,是如何不断的满足更广泛的受众需求以及....

Apache Spark 3.0.0重磅发布 —— 重要特性全面解析
文章 2022-02-16 来自:开发者社区

新版本来袭:Apache Spark 1.5新特性介绍

Apache Spark社区2015年9月9日发布了1.5版本,该版本由230+开发人员和80+机构参与,修复了1400多个补丁,该版本可以通过 http://spark.apache.org/downloads.html进行下载。Spark1.5中最主要的修改内容是为了提升Spark性能、可用性和操作稳定性,特别在该版本中引入了Project Tungsten(钨丝项目),该...

新版本来袭:Apache Spark 1.5新特性介绍
文章 2022-02-16 来自:开发者社区

Apache Spark 2.2.0新特性介绍(转载)

这个版本是 Structured Streaming 的一个重要里程碑,因为其终于可以正式在生产环境中使用,实验标签(experimental tag)已经被移除。在流系统中支持对任意状态进行操作;Apache Kafka 0.10 的 streaming 和 batch API支持读和写操作。除了在 SparkR, MLlib 和 GraphX 里面添加新功能外,该版本更多的工作在系统的可用性....

文章 2022-02-16 来自:开发者社区

呼之欲出!比Spark快10倍的Hadoop3.0有哪些实用新特性?

Apache hadoop 项目组最新消息,hadoop3.x以后将会调整方案架构,将Mapreduce 基于内存+io+磁盘,共同处理数据。 其实最大改变的是hdfs,hdfs 通过最近black块计算,根据最近计算原则,本地black块,加入到内存,先计算,通过IO,共享内存计算区域,最后快速形成计算结果。 Hadoop Hadoop 3.0简介Hadoop 2.0是基于JDK 1.7开发的....

文章 2022-02-15 来自:开发者社区

Apache Spark 1.5新特性介绍

Apache Spark社区刚刚发布了1.5版本,大家一定想知道这个版本的主要变化,这篇文章告诉你答案。 DataFrame执行后端优化(Tungsten第一阶段) DataFrame可以说是整个Spark项目最核心的部分,在1.5这个开发周期内最大的变化就是Tungsten项目的第一阶段已经完成。主要的变化是由Spark自己来管理内存而不是使用JVM,这样可以避免JVM GC带来的性能损失。内....

文章 2022-02-15 来自:开发者社区

Spark Streaming Dynamic Resource Allocation 文档(非官方特性)

必要配置 通过下面参数开启DRA spark.streaming.dynamicAllocation.enabled=true 设置最大最小的Executor 数目: spark.streaming.dynamicAllocation.minExecutors=0 spark.streaming.dynamicAllocation.maxExecutors=50 可选配置 这些参数可以不用配...

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

Apache Spark 中国技术社区

阿里巴巴开源大数据技术团队成立 Apache Spark 中国技术社区,定期推送精彩案例,问答区数个 Spark 技术同学每日在线答疑,只为营造 Spark 技术交流氛围,欢迎加入!

+关注