E-MapReduce_EMR_大数据框架

开源大数据平台 E-MapReduce

播放视频

开源大数据平台 E-MapReduce（简称“EMR”）是云原生开源大数据平台，为客户提供简单易集成的Hadoop、Hive、Spark、StarRocks、Flink、Presto、ClickHouse等开源大数据计算和存储引擎。EMR计算资源支持灵活的弹性控制。EMR支持on ECS、on ACK以及Serverless多种部署形态。

EMR Serverless StarRocks 入门版首月 59 元

EMR Serverless Spark 版

向量检索 Milvus 版

产品计费

产品文档

EMR用户社区

产品案例喜马拉雅耳朵经济快速增长背后，喜马拉雅数据价值如何释放猿辅导猿辅导基于 EMR StarRocks 的 OLAP 演进之路水滴筹水滴筹基于阿里云 EMR StarRocks 实战分享趣头条降本增效利器！趣头条Spark Remote Shuffle Service最佳实践数禾科技数禾云上数据湖最佳实践

产品系列

可根据不同业务需求场景进行产品类型选择

EMR on ECS

EMR on ECS 是指EMR在ECS上运行的方式。EMR on ECS将EMR的大数据处理功能与ECS的容器化部署优势相结合，使得您可以更加灵活地配置和管理EMR集群，从而更好地适应复杂的数据处理和分析场景。通过EMR on ECS，您可以快速创建、管理和运维EMR集群，同时也能够更加高效地使用计算和存储资源。

EMR on ACK

EMR on ACK 提供了全新构建大数据平台的方式。您可以将开源大数据服务部署在阿里云容器服务Kubernetes版（ACK）之上，利用ACK在服务部署和容器应用管理的优势，减少对底层集群资源的运维投入，以便于您可以更加专注大数据任务本身。

EMR Serverless StarRocks

E-MapReduce Serverless StarRocks 版是阿里云提供的 Serverless StarRocks 全托管服务，提供高性能、全场景、极速统一的数据分析体验，具备开箱即用、弹性扩展、监控管理、慢 SQL 诊断分析等全生命周期能力。内核 100% 兼容 StarRocks，性能比传统 OLAP 引擎提升 3-5 倍，助力企业高效构建大数据应用。

产品优势

新一代开源大数据平台

稳定可靠易用

支持节点故障容忍和补偿；100节点扩容时间<2分钟；全面的服务巡检和事件通知；EMR Studio提供一站式开发调度服务

存算分离架构

按需归档，节省20%-40%存储成本；OSS-HDFS存储，免运维，免维护; DLF湖管理实现湖数据生命周期管理

大幅节约成本

基于时间的弹性伸缩能力，抢占式实例可进一步降低成本；支持神龙/AMD等高性价比机型；On ack形态，支持混用资源

领先开源生态

深度优化Spark，性能提升100%；提供Hadoop、Spark、Hive、Kafka、HBase、Presto、Impala、Hudi、StarRocks等开源组件

产品功能

集群管理方便快捷的集群管理，快速实现集群创建与扩容

集群创建通过控制台页面或OpenAPI即可快速的进行多种类型的集群创建，如Hadoop、Dataflow、Datascience、Druid、ZooKeeper等开源大数据框架，无需关心底层的硬件与软件部署

集群扩容通过控制台页面或OpenAPI即可方便地增加或减少已有集群的节点数目

服务配置可以快速添加EMR提供的服务，可以监控服务的状态，并对服务组件进行配置和运维操作

弹性伸缩通过控制台界面可以方便的增加需要的组件，并进行组件的配置与运维操作

动态扩容可以设置多种弹性伸缩策略，自动地对集群计算资源进行动态的伸缩，降低TCO

运维中心完善的运维管理工具，方便快速发现和定位集群问题

集群监控提供丰富的服务监控指标和主机监控指标展示，通过可视化的方式快速定位服务和主机异常

事件中心EMR服务提供丰富的事件类型，包含服务事件、管控服务事件、主机事件，可以更加快速、具体地获取到集群问题，并可以对问题发生链路进行溯源

作业列表对集群作业运行情况进行统计，快速对比异常作业，方便作业和集群性能调优

诊断分析提供HDFS冷热数据分析和小文件分析功能，对服务性能优化提供依据

丰富的组件丰富的组件支持，可以根据需要进行组件的选择

DataLake一个更灵活、可靠、高效的大数据计算集群

Spark基于内存的新一代分布式开源大数据框架，支持离线，实时计算，也支持 SQL 语法以及机器学习的处理

Hive基于Hadoop的一套离线数据处理系统，在HDFS之上提供了结构化的表数据的管理能力，提供类 SQL 的查询语法进行数据分析处理

KafkaKafka是一种高吞吐量的分布式发布订阅消息系统，具有出色的性能和可靠性

Flink针对流数据和批数据的分布式处理引擎，EMR提供基于Apache Flink的商业化产品Ververica Platform构建的企业级大数据计算平台提供实时计算服务

Presto开源的分布式SQL查询引擎，适用于交互式查询分析

ClickHouse开源OLAP分析引擎，主要特性：列式存储、MPP架构、支持SQL、实时的数据更新、支持索引等

Hudi一种数据湖的存储格式，提供更新数据和删除数据的能力以及消费变化数据的能力

StarRocks开源MPP架构的OLAP分析引擎，支持亚秒级的数据查询和多表Join

完善的云上生态支持对阿里云上的产品环境进行了深度的整合支持

支持DataWorks为客户提供专业高效、安全可靠的一站式大数据开发与治理平台

支持MaxCompute支持阿里云的MaxCompute产品的数据的读写

支持ElasticSearch在Hadoop中内置了ES-Hadoop插件，可以直接支持ES的相关操作

支持数据湖构建DLFEMR默认支持使用DLF进行元数据管理，方便数据湖场景下元数据管理。

支持对象存储OSSEMR中所有计算引擎均支持采用OSS作为存储，可以将OSS像HDFS一样使用。并采用JindoFS对OSS数据读写进行加速。

支持云监控可以在云监控中设置对于EMR服务和操作的监控，方便问题快速告警

支持SLS支持将SLS作为实时数据输入源使用，提供了SDK直接操作

支持阿里云的消息产品支持如消息队列，消息服务等的读写，提供SDK包装，方便用户使用

应用场景

大数据搬站

云原生数据湖

智能推荐

交互式分析

延续开源技术栈，链接阿里云生态和开源大数据生态

大数据搬站会遇到如下挑战：大数据技术栈繁杂，数据规模和任务数量大；开源社区版本迭代演进速度快，且开源组件之间的兼容性和社区bug会影响作业和业务的连续性。大数据搬站迁移通过EMR可以延续开源技术栈，链接阿里云生态和开源大数据生态

能够提供

采用社区开源软件

场景覆盖程度高，能延续现有技术栈和组织架构，迁移风险和成本低

成熟稳定

组件采用社区最新的稳定版本，通过组件稳定性和兼容性验证测试，更加稳定可靠

与阿里云生态集成

可以灵活根据业务需求和技术路线，实现和阿里云生态集成，如数据开发DataWorks+EMR、机器学习PAI+EMR、湖仓一体MaxCompute+Data Lake Formation+EMR

多种迁移方案

根据数据规模和预算的不同，可以通过闪电立方、专线和公网方式按计划高效率的迁移上云

推荐搭配使用

云服务器 ECS

对象存储 OSS

降低成本，解决资源闲置，适用多种数据分析场景

随着企业积累数据规模迅速膨胀，数据分析使用会遇到：数据规模膨胀的成本挑战；计算和存储耦合带来的某项资源闲置问题；由于多种数据分析场景，如离线计算、流式计算、交互式分析、机器学习等，导致多引擎间频繁的引动数据，造成数据不一致和成本问题。通过EMR及配套云原生数据解决方案，可以有效解决以上问题

能够提供

计算存储分离

数据存储在OSS对象存储，通过EMR JindoFS或Alluxio实现数据湖的加速，实现计算和存储解耦的同时，提升和保障计算效率，避免了资源闲置问题

数据分层存储

Jindo Table结合OSS的分层存储能力，将大数据业务和底层基础能力相结合，根据数据冷、热、温分层，与不同OSS存储类型匹配，最大限度实现成本节省

对接多种计算引擎

EMR数据湖解决方案，可以对接实时计算、PAI、MaxCompute、ElasticSearch等计算引擎，避免数据重复移动

元数据多引擎统一管控

通过EMR+Data Lake Formation，实现对元数据的统一管理，DLF可以对EMR不同计算引擎统一进行权限控制

推荐搭配使用

对象存储 OSS

数据湖构建 DLF

通过EMR构建机器学习和算法平台，加速模型训练

采集用户行为数据，通过EMR构建机器学习和算法平台，通过Hive/Spark构建机器学习的特征库、模型库和算法库，通过EMR Data Science集群TensorFlow/Pytorch实现模型训练，通过PAI EAS实现将模型在线推理服务

能够提供

稳定可靠

经过业内经大规模生产验证的推荐系统解决方案，实现CTR点击率大幅提升

灵活可控

适用于离线推荐和实时推荐场景，用户可以根据需求和技术栈方向灵活选择开源技术组件

集成性好

可以根据PAI EAS/PAI Studio等快速集成，灵活选择合适ECS GPU实例类型

推荐搭配使用

机器学习平台PAI

完全兼容开源版本特性，与EMR其他组件快速集成

采集用户在APP上的各种行为数据，通过EMR平台进行数据的加工和分析，写入ClickHouse，支持上层业务灵活、快速的分析，提升业务决策的效率

能够支持

秒级查询

ClickHouse支持秒级的数据查询，支持应用层的快速调用和人工分析

灵活查询

完整的SQL语句支持，支持灵活的业务逻辑分析

易运维

半托管集群，提供集群管理、监控、扩容等运维能力，让技术人员更多的投入业务开发

推荐搭配使用

云服务器ECS

客户案例

为什么选择E-MapReduce?

数禾科技

数禾科技以大数据技术为驱动，为金融机构提供智能金融解决方案。随着公司业务的扩张，业务方提出的大量数据需求考验着现有集群的能力。为了减轻现有集群的压力，数禾使用阿里云EMR落地了适合数禾当前业务的数据湖，可以任意规模存储结构化和非结构化数据，运用不同类型的引擎进行分析，为业务发展提供了更好的决策依据。

凯叔讲故事

凯叔讲故事是中国知名的儿童内容教育品牌。刚开始凯叔讲故事使用第三方SAAS平台作为运营支撑，周期长、展示死板，个性化开发受到很大局限，很难支撑团队的精细化运营需求。采用阿里云的E-MapReduce大数据平台支撑业务团队后，帮助业务团队做到对用户的精准触达、实时反馈和主动服务，系统上线后业务增量明显。

Yeahmobi点告

Yeahmobi是一家以技术驱动的全球智能营销服务公司，公司主要提供的服务包括了效果营销、品牌服务，以及各个垂类的综合性的营销解决方案。Yeahmobi点告基于阿里云OSS+E-MapReduce 所有数据统一OSS存储，动态调整计算资源，并使用E-MapReduce支撑离线式分析，满足业务场景要求，整体TOC下降30%。

流利说

流利说是一家科技驱动的教育公司，在离线计算任务中，大部分数据源来自业务DB。随着数据量增多，无法满足近实时的查询需求。流利说选择阿里云E-MapReduce, 采用 CDC + Delta Lake 之后，成本节省了近80%。凌晨DB数据接入的时间成本大大降低，确保所有非特殊要求的DB数据接入都能在1个小时内跑完，大大提升了效率。

开源大数据平台 E-MapReduce与自建Hadoop集群对比

对比维度

成本

性能

易用

弹性

安全

可靠

服务

阿里云E-MapReduce

资源按量付费，支持集群资源灵活调整，数据分层存储，资源使用率高。无额外软件License费用。

较开源版本性能大幅提升，如EMR SparkSQL性能是开源版本6倍。

分钟级别启动Hadoop集群，敏捷响应业务需求。

可根据作业临时启动和销毁集群。集群资源可根据时间周期或集群负载动态自动调整。基于JindoFS计算存储分离架构，轻松分别扩展计算和存储资源。

支持企业级多租户资源管理能力，支持对表、列、行级别的权限控制和日志审计，支持数据加密。

大规模、企业级环境的检验，随开源版本升级，并经过专业的兼容性验证测试，提供优于社区版本的使用体验。

专业和资深大数据专家技术服务团队提供售后支持。

自建Hadoop集群

提前预估资源，且资源相对固定，资源使用率低。采用Hadoop发行版，需额外支付License费用。

采用开源社区版本，性能需自行优化。

采购服务器，部署Hadoop生态组件，周期长达数周。

计算和存储耦合，资源相对固定，无法弹性调整资源。

多租户管理能力需自行配置，能力不完善，无法满足企业级需求。

需自行更新和升级开源版本，验证各组件版本兼容性，自行修复社区bug。

社区版本无服务支持，Hadoop发行版，需额外支付License和服务费用。

产品动态

查看详情

2017-01-18 新产品

EMR支持推出独享套餐

查看详情

2017-01-18 新功能/规格

EMR支持Spark 2.0

查看详情

2017-02-23 新功能/规格

支持统一的Hive表元数据管理

查看详情

2017-04-26 新地域/新可用区

E-MapReduce 华北3地域上线

查看详情

2017-05-03 新功能/规格

执行计划调度增强

查看详情

2017-05-10 新功能/规格

作业增加重试支持

查看详情

2017-06-15 新功能/规格

集群配置管理系统发布

查看详情

2017-07-29 价格调整

E-MapReduce国际站价格全面下调

查看详情

2017-08-05 新地域/新可用区

E-MapReduce 德国站上线服务

查看详情

2017-08-08 新功能/规格

EMR大数据机型整体方案发布

查看详情

2017-11-23 新功能/规格

Gateway功能上线

查看详情

2018-01-03 新地域/新可用区

E-MapReduce 产品香港，呼和浩特地域上线服务

查看详情

2018-03-01 新功能/规格

细化的权限控制组件Ranger发布

查看详情

2018-03-03 新地域/新可用区

E-MapReduce印度孟买Region上线服务

查看详情

2018-03-20 功能优化

E-MapReduce支持机型升配

查看详情

2018-04-18 新功能/规格

E-MapReduce支持集群从按量装换为包月

查看详情

2018-07-05 新功能/规格

Hadoop弹性伸缩能力发布

查看详情

2018-09-06 新功能/规格

E-MapReduce 性能大幅度优化

查看详情

2018-09-22 新功能/规格

EMR TensorFlow发布

查看详情

2018-11-01 功能优化

EMR云盘数据盘一键扩容

查看详情

2018-11-01 新功能/规格

EMR支持抢占式实例

查看详情

2018-12-07 新功能/规格

EMR APM功能发布

查看详情

2019-01-21 新功能/规格

EMR 升级Hadoop 2.8.5

查看详情

2019-03-15 新功能/规格

EMR Knox支持Flink并适配YARN time line service

查看详情

2019-06-08 新地域/新可用区

E-MapReduce 成都地域服务上线

查看详情

2019-07-09 新功能/规格

EMR 工作流新增支持流式作业类型

查看详情

2019-07-28 新功能/规格

EMR 最新版 EMR-3.22.0 发布

查看详情

2019-07-28 新功能/规格

EMR 新加入 Kudu 组件

查看详情

2019-08-01 新功能/规格

EMR 新发布针对云上存储定制的自研大数据存储服务 JindoFS

查看详情

2019-11-18 新功能/规格

E-MapReduce-3.24.0版本发行

查看详情

2019-11-18 新功能/规格

EMR支持TensorFlow on spark

查看详情

2019-11-20 新功能/规格

E-MapReduce 3.23.0发行版本

查看详情

2019-11-21 新功能/规格

EMR中国站/国际站上线第六代ECS企业级实例

查看详情

2020-06-30 新功能/规格

E-MapReduce支持ECS D2S新一代大数据实例

查看详情

2020-07-31 新功能/规格

阿里云E-MapReduce新增ECS大数据实例规格D2C

查看详情

2021-01-05 新功能/规格

阿里云E-MapReduce新增Remote Shuffle Service

查看详情

2021-02-28 新地域/新可用区

阿里云E-MapReduce在华北6 乌兰察布正式开服

查看详情

2021-04-01 新功能/规格

阿里云E-MapReduce发布Clickhouse集群类型

查看详情

2021-05-01 新功能/规格

阿里云E-MapReduce上线最新一代本地SSD实例

查看详情

2021-07-31 新功能/规格

E-mapreduce半托管Clickhouse集群发布

查看详情

2021-09-30 新功能/规格

E-MapReduce on ACK 全新发布

查看详情

2022-01-26 功能优化

E-MapReduce新版控制台重磅发布

查看详情

2022-03-28 新功能/规格

StarRocks 在新版控制台上线，致力于构建极速统一分析体验

查看详情

2022-04-15 新功能/规格

JindoData发布，支持OSS-HDFS服务

查看详情

2022-04-22 新功能/规格

StarRocks 升级至2.1.1版本将大幅提升查询性能

查看详情

2022-06-16 新功能/规格

数据湖集群上线

查看详情

2022-07-15 新功能/规格

DataWorks支持EMR DataLake集群

查看详情

2022-07-22 新功能/规格

Doctor上线

查看详情

2022-08-04 新功能/规格

数据服务（DataServing）发布

查看详情

2022-08-16 新功能/规格

新管控平台支持更多高阶特性

查看详情

2022-09-02 新功能/规格

添加弹性伸缩规则

查看详情

2022-09-07 新功能/规格

开启自动补偿

查看详情

2022-09-09 新功能/规格

克隆集群

查看详情

2022-10-17 新功能/规格

自定义集群上线

查看详情

2022-11-17 新功能/规格

OSS-HDFS支持冷热分层存储

查看详情

2022-11-25 新功能/规格

DataWorks支持EMR自定义集群

查看详情

2022-12-20 新功能/规格

EMR Doctor实时风险检测

查看详情

2022-12-28 新功能/规格

EMR Doctor集群日报

查看详情

2023-02-14 新功能/规格

访问链接与端口功能升级

查看详情

2023-02-24 新功能/规格

支持数据盘加密

查看详情

2023-03-02 新功能/规格

弹性伸缩规则新增配置参数

查看详情

2023-03-08 新功能/规格

新增应用配置导出功能

查看详情

2023-03-15 新功能/规格

事件中心新增系统事件

查看详情

2023-03-23 新功能/规格

支持默认创建存算分离集群

查看详情

2023-04-10 新功能/规格

Serverless StarRocks免费公测版发布

查看详情

2023-04-23 新功能/规格

支持控制台可视化管理YARN分区

查看详情

2023-05-15 新功能/规格

查看集群日报与分析

查看详情

2023-05-23 新功能/规格

Serverless StarRocks商业化发布

查看详情

2023-05-26 新功能/规格

支持倚天云服务器（邀测中）

查看详情

2023-06-21 新功能/规格

通过SQL Editor操作StarRocks实例

查看详情

2023-07-04 新功能/规格

EMR Workflow 公测

查看详情

2023-07-14 新功能/规格

支持无状态集群

查看详情

2023-07-14 新功能/规格

EMR on ACK形态支持Data Science类型集群

查看详情

2023-08-09 新功能/规格

新增弹性伸缩管理模块

查看详情

2023-08-17 新功能/规格

支持YARN分区和队列关联

查看详情

2023-08-29 新功能/规格

新增集群模版功能

查看详情

2023-09-12 新功能/规格

StarRocks支持存算分离

查看详情

2023-10-24 新功能/规格

支持倚天云服务器

查看详情

2023-11-21 新功能/规格

新增报警管理功能

查看详情

2023-11-24 新功能/规格

新增节点健康状态

查看详情

2023-12-05 新功能/规格

通过DMS连接StarRocks实例

查看详情

2023-12-08 新功能/规格

通过Quick BI连接StarRocks实例

查看详情

2023-12-21 新功能/规格

Workflow 新增工作空间管理

查看详情

2023-12-25 新功能/规格

Workflow 工作流支持提交至集群模板执行

查看详情

2024-01-10 新功能/规格

Workflow商业化发布

查看详情

查看全部日志

入门与实践

EMR开源大数据迁移专区

HDFS，Hive，Kafka迁移到EMR最佳实践

查看详情

EMR弹性计算实践

EMR弹性低成本离线大数据分析最佳实践

查看详情

增量数据实时统计实践

通过Serverless StarRocks实现增量数据实时统计

查看详情

分钟级准实时分析实践

通过Serverless StarRocks分钟级准实时分析

查看详情

文档与工具