文章 2020-07-01 来自:开发者社区

在 kubernetes 中用 alluxio 加速 spark 数据访问

镜像下载、域名解析、时间同步请点击 阿里巴巴开源镜像站 一、背景信息 1. alluxio Alluxio是一个开源的基于内存的分布式存储系统,适合作为云上大数据和AI / ML的数据编排方案。Alluxio可以同时管理多个底层文件系统,将不同的文件系统统一在同一个名称空间下,让上层客户端可以自由访问统一名称空间内的不同路径,不同存储系统的数据。 alluxio的short-circuit功能可....

在 kubernetes 中用 alluxio 加速 spark 数据访问
文章 2020-06-30 来自:开发者社区

在kubernetes中用alluxio加速spark数据访问(二)

相关文章: 在kubernetes中用alluxio加速spark数据访问(一) 1.背景信息 1.1 alluxio Alluxio是一个开源的基于内存的分布式存储系统,适合作为云上大数据和AI / ML的数据编排方案。Alluxio可以同时管理多个底层文件系统,将不同的文件系统统一在同一个名称空间下,让上层客户端可以自由访问统一名称空间内的不同路径,不同存储系统的数据。 alluxio的sh....

在kubernetes中用alluxio加速spark数据访问(二)
文章 2020-06-30 来自:开发者社区

在Kubernetes中用Alluxio加速Spark数据访问(一)

相关文章: 在Kubernetes中用Alluxio加速Spark数据访问(二) 1.背景信息 1.1 alluxio Alluxio是一个开源的基于内存的分布式存储系统,适合作为云上大数据和AI / ML的数据编排方案。Alluxio可以同时管理多个底层文件系统,将不同的文件系统统一在同一个名称空间下,让上层客户端可以自由访问统一名称空间内的不同路径,不同存储系统的数据。 alluxio的sh....

在Kubernetes中用Alluxio加速Spark数据访问(一)
文章 2020-04-07 来自:开发者社区

Spark on Kubernetes PodTemplate 的配置

1 Overview 本文主要讲 Apache Spark 在 on Kubernetes 的 PodTemplate 的问题,以及也会讲到 Spark Operator 里关于 PodTemplate 的问题,当然也会讲到 Apache Spark 2.2 on Kubernetes 那个 Fork 的版本,感兴趣的同学可以往下看看。 之前讲过 Apache Spark on Kubernet....

Spark on Kubernetes PodTemplate 的配置
问答 2020-03-20 来自:开发者社区

如何Kubernetes + ECI 部署 Spark 作业体验极致弹性?

如何Kubernetes + ECI 部署 Spark 作业体验极致弹性?

文章 2020-02-22 来自:开发者社区

Spark on Kubernetes与阿里云的深度整合

最近,笔者尝试将Spark on Kubernetes与阿里云深度整合,设计一个开箱即用的Spark on Kubernetes镜像。 首先通过Terraform在阿里云上一键创建和销毁Kubernetes集群。然后写了一个脚本生成Spark镜像,使其在Kubernetes上运行时可以直接读写阿里云OSS上的数据。最后还写了一个spark-submit脚本,可以让镜像动态地从阿里云OSS上下载需....

文章 2019-12-24 来自:开发者社区

相比Spark等传统模式,Flink 和 K8S是怎样的结合

Apache Flink 是近年来越来越流行的一款开源大数据计算引擎,它同时支持了批处理和流处理。大数据起源自批处理,Spark最初的定位就是改进Hadoop, 更快速的进行批处理。而Storm擅长的则是进行无状态的流计算(在无状态的流计算领域, 它的延迟是最小的), 进而出现的Flink则是Storm的下一代解决方案。它既可以处理stream data也可以处理batch data,可以同时兼....

文章 2019-11-12 来自:开发者社区

11月14日Spark社区直播【 Spark on Kubernetes & YARN】

主题: Spark on Kubernetes & YARN 点击这里是直播间直达链接(回看链接) 时间11月14日:19:00-20:00 直播介绍:以Kubernetes为代表的云原生技术越来越流行起来,spark是如何跑在Kubernetes之上来享受云原生技术的红利?Spark跑在Kubernetes之上和跑在Hadoop YARN上又有什么区别?以及Kubernetes 和YA....

11月14日Spark社区直播【 Spark on Kubernetes & YARN】
文章 2019-08-02 来自:开发者社区

Spark on Kubernetes 的现状与挑战

作者:陶克路,花名敌珐,阿里巴巴技术专家。Apache Pulsar 等开源软件 Contributor。技术领域包括大数据和云原生技术栈,目前致力于构建大数据领域业界领先的 APM 产品。 云原生时代,Kubernetes 的重要性日益凸显,这篇文章以 Spark 为例来看一下大数据生态 on Kubernetes 生态的现状与挑战。 1. Standalone 模式 Spark 运行在 K.....

文章 2019-08-02 来自:开发者社区

Spark on Kubernetes 的现状与挑战

云原生时代,Kubernetes 的重要性日益凸显,这篇文章以 Spark 为例来看一下大数据生态 on Kubernetes 生态的现状与挑战。 1. Standalone 模式 Spark 运行在 Kubernetes 集群上的第一种可行方式是将 Spark 以 Standalone 模式运行,但是很快社区就提出使用 Kubernetes 原生 Scheduler 的运行模式,也就是 Nat....

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐

阿里云容器服务 ACK

云端最佳容器应用运行环境,安全、稳定、极致弹性

+关注