问答 2021-12-11 来自:开发者社区

Spark on yarn/K8s限制条件都有什么呢?

Spark on yarn/K8s限制条件都有什么呢?

文章 2021-08-25 来自:开发者社区

分布式计算引擎 Flink/Spark on k8s 的实现对比以及实践

以 Flink 和 Spark 为代表的分布式流批计算框架的下层资源管理平台逐渐从 Hadoop 生态的 YARN 转向 Kubernetes 生态的 k8s 原生 scheduler 以及周边资源调度器,比如 Volcano 和 Yunikorn 等。这篇文章简单比较一下两种计算框架在 Native Kubernetes 的支持和实现上的异同,以及对于应用到生产环境我们还需要做些什么。1. 什....

分布式计算引擎 Flink/Spark on k8s 的实现对比以及实践
文章 2021-06-04 来自:开发者社区

阿里大数据云原生化实践,EMR Spark on ACK 产品介绍

开源大数据社区 & 阿里云 EMR 系列直播 第六期主题:EMR spark on ACK 产品演示及最佳实践讲师:石磊,阿里云 EMR 团队技术专家内容框架:云原生化挑战及阿里实践Spark 容器化方案产品介绍和演示直播回放:扫描文章底部二维码加入钉群观看回放,或进入链接https://developer.aliyun.com/live/246868一、云原生化挑战及阿里实践大数据技术....

阿里大数据云原生化实践,EMR Spark on ACK 产品介绍
问答 2021-01-07 来自:开发者社区

Spark on Kubernetes存在哪些问题?

Spark on Kubernetes存在哪些问题?

问答 2020-12-28 来自:开发者社区

Spark on k8s的核心概念是什么?

Spark on k8s的核心概念是什么? 求大佬解答

文章 2020-11-06 来自:开发者社区

Apache Spark on ACK

Apache Spark是一个大规模数据处理的统一分析引擎,是当今最流行的大数据框架之一。Spark常用于进行分布式、大数据处理,相比MapReduce,Spark提供了更高级的编程接口和更好的性能。同时Spark提供了对流式计算、机器学习的支持。 Kubernetes(k8s)是一个开源的容器集群管理系统。在Docker技术的基础上,为容器化的应用提供部署运行、资源调度、服务发现和动态伸缩等一....

Apache Spark on ACK
文章 2020-11-06 来自:开发者社区

EMR Spark on ACK

如上文Apache Spark on ACK介绍,Spark on Kubernetes能给我们带来诸多优点,但社区版的解决方案还不是那么完善,存在以下几个关键问题: Shuffle流程,按照目前的Shuffle方式,我们是没办法打开动态资源特性的。而且还需要挂载云盘,云盘面临着Shuffle数据量的问题,挂的比较大会很浪费,挂的比较小又支持不了Shuffle Heavy的任务。 调度和队列管.....

EMR Spark on ACK
文章 2020-09-28 来自:开发者社区

如何实现Spark on Kubernetes?

作者:范振,花名辰繁,阿里云智能 EMR 团队高级技术专家。曾在搜狐京东工作,分别参与了 linux 内核、CDN、分布式计算和存储的研发工作。目前专注于大数据云原生化工作。 云原生背景介绍与思考 “数据湖”正在被越来越多人提起,尽管定义并不统一,但企业已纷纷投入实践,无论是在云上自建还是使用云产品。 阿里云大数据团队认为:数据湖是大数据和AI时代融合存储和计算的全新体系。为什么这么说?在数据.....

如何实现Spark on Kubernetes?
文章 2020-09-28 来自:开发者社区

如何实现Spark on Kubernetes?

云原生背景介绍与思考 “数据湖”正在被越来越多人提起,尽管定义并不统一,但企业已纷纷投入实践,无论是在云上自建还是使用云产品。 阿里云大数据团队认为:数据湖是大数据和AI时代融合存储和计算的全新体系。为什么这么说?在数据量爆发式增长的今天,数字化转型成为IT行业的热点,数据需要更深度的价值挖掘,因此确保数据中保留的原始信息不丢失,应对未来不断变化的需求。当前以Oracle为代表的数据库中间件已经....

如何实现Spark on Kubernetes?
文章 2020-07-21 来自:开发者社区

在kubernetes上运行apache spark:最佳实践和陷阱

一、Data Mechanics平台介绍 这块是data mechanics平台的一个介绍。首先,它是一个serverless的平台,即一个全托管的平台,用户不用去关心自己的机器。所有的应用的启动和扩容都是在这种秒级的。然后,对于这种本地的开发转到这种线上的部署,它是一种无缝的转换。然后,它还能提供这种配置自动的spark的一些参数调优,整个这条pipeline都会做得非常的快,已经非常地稳定。....

在kubernetes上运行apache spark:最佳实践和陷阱

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐

阿里云容器服务 ACK

云端最佳容器应用运行环境,安全、稳定、极致弹性

+关注