文章 2022-02-14 来自:开发者社区

阿里云EMR Remote Shuffle Service在小米的实践

作者 | 一锤、明济、紫槿来源 | 阿里技术公众号阿里云EMR自2020年推出Remote Shuffle Service(RSS)以来,帮助了诸多客户解决Spark作业的性能、稳定性问题,并使得存算分离架构得以实施,与此同时RSS也在跟合作方小米的共建下不断演进。本文将介绍RSS的最新架构,在小米的实践,以及开源。一 问题回顾Shuffle是大数据计算中最为重要的算子。首先,覆盖率高,超过5.....

阿里云EMR Remote Shuffle Service在小米的实践
文章 2022-01-17 来自:开发者社区

阿里云EMR Remote Shuffle Service在小米的实践,以及开源

问题回顾Shuffle是大数据计算中最为重要的算子。首先,覆盖率高,超过50%的作业都包含至少一个Shuffle[2]。其次,资源消耗大,阿里内部平台Shuffle的CPU占比超过20%,LinkedIn内部Shuffle Read导致的资源浪费高达15%[1],单Shuffle数据量超100T[2]。第三,不稳定,硬件资源的稳定性CPU>内存>磁盘≈网络,而Shuffle的资源消耗....

阿里云EMR Remote Shuffle Service在小米的实践,以及开源
文章 2020-09-14 来自:开发者社区

Serverless Spark的弹性利器 - EMR Shuffle Service

背景与动机 计算存储分离下的刚需 计算存储分离是云原生的重要特征。通常来讲,计算是CPU密集型,存储是IO密集型,他们对于硬件配置的需求是不同的。在传统计算存储混合的架构中,为了兼顾计算和存储,CPU和存储设备都不能太差,因此牺牲了灵活性,提高了成本。在计算存储分离架构中,可以独立配置计算机型和存储机型,具有极大的灵活性,从而降低成本。 存储计算分离是新型的硬件架构,但以往的系统是基于混合架构设....

Serverless Spark的弹性利器 - EMR Shuffle Service

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐