文章 2024-08-23 来自:开发者社区

EMR Remote Shuffle Service实践问题之阿里云RSS的开源计划内容如何解决

问题一:阿里云RSS的开源计划包括哪些重要功能和特性? 阿里云RSS的开源计划包括哪些重要功能和特性? 参考回答: 阿里云RSS的开源计划包括多引擎支持、Spark多版本支持、更好的流控、更好的监控、更好的HA等重要功能和特性。开源代码已包含核心功能及容错,满足生产要求,并欢迎各路开发者共建。 关于本问题的更多问答可点击原文查看: ...

文章 2024-08-23 来自:开发者社区

EMR Remote Shuffle Service实践问题之集群中落地阿里云RSS如何解决

问题一:阿里云RSS与开源系统X在TPCDS-3T性能测试中的表现差异是什么? 阿里云RSS与开源系统X在TPCDS-3T性能测试中的表现差异是什么? 参考回答: 在TPCDS-3T性能测试中,阿里云RSS的总时间比开源系统X快了20%。 ...

EMR Remote Shuffle Service实践问题之集群中落地阿里云RSS如何解决
文章 2024-08-23 来自:开发者社区

EMR Remote Shuffle Service实践问题之Leader节点变化导致的中断如何解决

问题一:阿里云RSS的滚动升级过程中,如何避免Leader节点变化导致的中断? 阿里云RSS的滚动升级过程中,如何避免Leader节点变化导致的中断? 参考回答: 在滚动升级过程中,如果Leader节点发生变化,由于Master实现了HA且通过Raft协议管理状态,升级过程不会中断或出现异常。 关于本问题的更多问答可点击原文查看: ...

EMR Remote Shuffle Service实践问题之Leader节点变化导致的中断如何解决
文章 2024-08-23 来自:开发者社区

EMR Remote Shuffle Service实践问题之优化Master的负载和扩展性如何解决

问题一:阿里云RSS如何优化Master的负载和扩展性? 阿里云RSS如何优化Master的负载和扩展性? 参考回答: 阿里云RSS通过将生命周期状态管理下沉到Driver,由Application管理自己的Shuffle,来优化Master的负载和扩展性,使得Master只需维护RSS集群本身的状态。 ...

EMR Remote Shuffle Service实践问题之优化Master的负载和扩展性如何解决
文章 2024-08-23 来自:开发者社区

EMR Remote Shuffle Service实践问题之Mapper的首次PushData请求如何解决

问题一:阿里云RSS如何处理Mapper的首次PushData请求? 阿里云RSS如何处理Mapper的首次PushData请求? 参考回答: Mapper在首次PushData时会请求Master分配Worker资源,Worker记录自己所需要服务的Partition列表。 关于本问题的更多问答可点击原文查看: https:...

EMR Remote Shuffle Service实践问题之Mapper的首次PushData请求如何解决
文章 2024-08-23 来自:开发者社区

EMR Remote Shuffle Service实践问题之混合Cosco和Zeus的设计如何解决

问题一:FireStorm是如何混合Cosco和Zeus的设计的? FireStorm是如何混合Cosco和Zeus的设计的? 参考回答: FireStorm在2021年混合了Cosco和Zeus的设计,服务端采用Master-Worker架构,通过Client多写实现多副本。它使用了本地盘+对象存储的多层存储,并采用较大的PushBlock(默认3M...

文章 2024-08-23 来自:开发者社区

EMR Remote Shuffle Service实践问题之改进Shuffle性能如何解决

问题一:Facebook Riffle采用了什么方法来改进Shuffle性能? Facebook Riffle采用了什么方法来改进Shuffle性能? 参考回答: Facebook Riffle在2018年采用了在Mapper端Merge的方法,通过物理节点上部署的Riffle服务,将节点上的Shuffle数据按照PartitionId做Merge,从...

文章 2024-08-23 来自:开发者社区

EMR Remote Shuffle Service实践问题之性能和稳定性问题如何解决

问题一:存算分离架构的主要优势是什么? 存算分离架构的主要优势是什么? 参考回答: 存算分离架构的主要优势在于它解耦了计算和存储,使得计算节点可以设计为强CPU弱磁盘,而存储节点则强磁盘强网络弱CPU。这种设计使得计算节点无状态,可以根据负载弹性伸缩,而存储端则可以通过对象存储(OSS, S3)和数据湖格式(Delta, Iceberg, Hudi)等...

文章 2022-02-14 来自:开发者社区

阿里云EMR Remote Shuffle Service在小米的实践,以及开源

问题回顾Shuffle是大数据计算中最为重要的算子。首先,覆盖率高,超过50%的作业都包含至少一个Shuffle[2]。其次,资源消耗大,阿里内部平台Shuffle的CPU占比超过20%,LinkedIn内部Shuffle Read导致的资源浪费高达15%[1],单Shuffle数据量超100T[2]。第三,不稳定,硬件资源的稳定性CPU>内存>磁盘≈网络,而Shuffle的资源消耗....

阿里云EMR Remote Shuffle Service在小米的实践,以及开源
文章 2022-02-14 来自:开发者社区

阿里云EMR Remote Shuffle Service在小米的实践

作者 | 一锤、明济、紫槿来源 | 阿里技术公众号阿里云EMR自2020年推出Remote Shuffle Service(RSS)以来,帮助了诸多客户解决Spark作业的性能、稳定性问题,并使得存算分离架构得以实施,与此同时RSS也在跟合作方小米的共建下不断演进。本文将介绍RSS的最新架构,在小米的实践,以及开源。一 问题回顾Shuffle是大数据计算中最为重要的算子。首先,覆盖率高,超过5.....

阿里云EMR Remote Shuffle Service在小米的实践

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐