阿里云文档 2025-12-08

阿里云StarRocks业务使用最佳实践-开源大数据平台 E-MapReduce-阿里云

本文旨在为您介绍StarRocks的基础使用方法和常见操作,适用于首次接触StarRocks的用户。

阿里云文档 2025-09-19

阿里云EMR Serverless Spark Notebook集成DuckDB,支持免密访问OSS/OSS-HDFS并高效操作多种数据格式。

阿里云 EMR Serverless Spark 的 Notebook 会话中引入了 DuckDB 的 Python 库,除了支持 DuckDB 开源版本所具备的所有功能外,还额外提供了免密访问 OSS/OSS-HDFS 的能力,从而能够直接读取 OSS 路径下的文件进行操作。

阿里云文档 2025-07-08

阿里云EMR on ECS部分版本(EMR-1.xx-EMR-5.4.x)即将终止服务与支持

考虑到开源社区技术更迭和EMR产品功能升级,E-MapReduce制定了生命周期策略。根据生命周期策略,阿里云 EMR on ECS 部分版本计划于2025年10月20日EOS(服务与支持终止),建议您尽快升级使用EOS版本的EMR集群实例。

阿里云文档 2025-06-09

使用PyJindo访问阿里云OSS-HDFS

本文将以两种方式为您介绍如何在Python 3.6及更高版本中,利用Python的工具包PyJindo来操作OSS-HDFS。

文章 2024-06-21 来自:开发者社区

阿里云 EMR StarRocks VS 开源版本功能差异介绍

内容导读 : 主题:EMR StarRocks 线上公开课第2期 - EMR Serverless StarRocks VS 开源版本功能差异介绍 讲师:弘锐,阿里云 E-MapReduce 产品专家 内容框架: EMR Serverless StarRocks VS 开源版本能力对比 EMR Serverless Sta...

阿里云 EMR StarRocks VS 开源版本功能差异介绍
文章 2024-05-08 来自:开发者社区

阿里云EMR数据湖文件系统: 面向开源和云打造下一代 HDFS

前言 最近,阿里云EMR重磅推出新版数据湖Datalake,100%兼容社区大数据开源组件,具备极强的弹性能力,支持数据湖构建DLF、对象存储OSS和OSS-HDFS,支持 Delta Lake、Hudi、Iceberg 三种湖格式。结合阿里云DataWorks,可以为用户提供从入湖、建模、开发、调度、治理、安全等全链路数据湖开发治理能力,帮助客户提升数据的应用效率。同时,也是...

阿里云EMR数据湖文件系统: 面向开源和云打造下一代 HDFS
阿里云文档 2024-04-25

阿里云账号角色授权

使用EMR Serverless Spark前,需要授予您的阿里云账号AliyunServiceRoleForEMRServerlessSpark和AliyunEMRSparkJobRunDefaultRole系统默认角色。本文为您介绍角色授权的基本操作。

文章 2023-02-21 来自:开发者社区

阿里云EMR 2.0:兼容开源,贡献开源,超越开源

摘要:本文整理自阿里云资深技术专家吴威(无谓)在 阿里云EMR2.0线上发布会 的分享。本篇内容主要分为三个部分:兼容开源阶段贡献开源阶段超越开源阶段点击查看直播回放兼容开源阶段开源这个词在最近这几年异常的火爆,各行各业的各个厂商纷纷宣布拥抱开源并且支持开源生态。尤其在大数据这个领域,开源技术已经成为了推动整个大数据技术演进和行业发展的最重要的一股力量,同时开源技术栈也成为大数据行业的一个技术标....

阿里云EMR 2.0:兼容开源,贡献开源,超越开源
文章 2022-02-14 来自:开发者社区

阿里云EMR Remote Shuffle Service在小米的实践,以及开源

问题回顾Shuffle是大数据计算中最为重要的算子。首先,覆盖率高,超过50%的作业都包含至少一个Shuffle[2]。其次,资源消耗大,阿里内部平台Shuffle的CPU占比超过20%,LinkedIn内部Shuffle Read导致的资源浪费高达15%[1],单Shuffle数据量超100T[2]。第三,不稳定,硬件资源的稳定性CPU>内存>磁盘≈网络,而Shuffle的资源消耗....

阿里云EMR Remote Shuffle Service在小米的实践,以及开源

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐