E-MapReduce_EMR_大数据框架_大数据-阿里云
产品
解决方案
文档与社区
免费试用
定价
云市场
合作伙伴
支持与服务
了解阿里云
备案
控制台
登录/注册
< 查看全部产品
开源大数据平台 E-MapReduce
播放视频
开源大数据平台 E-MapReduce(简称“EMR”)是云原生开源大数据平台,为客户提供简单易集成的Hadoop、Hive、Spark、StarRocks、Flink、Presto、ClickHouse等开源大数据计算和存储引擎。EMR计算资源支持灵活的弹性控制。EMR支持on ECS、on ACK以及Serverless多种部署形态。
EMR Serverless StarRocks 5000CU*H 免费试用
立即购买
管理控制台
快速入门
选型配置
产品计费
产品文档
EMR用户社区
产品优势
产品功能
应用场景
产品规格
客户案例
产品动态
入门与实践
文档与工具
近期更新
最新发布
EMR Workflow正式开启公测
重磅发布
全链路数据湖开发治理解决方案2.0重磅升级
最新发布
阿里云智能数据湖入选第六届数字中国建设峰会“十大硬核科技”
最新发布
阿里云EMR 2.0:重新定义新一代开源大数据平台
重磅功能
EMR重磅发布智能运维诊断系统(EMR Doctor)——开源大数据平台运维利器
重磅功能
重磅发布!EMR+DataWorks 全链路数据湖开发治理方案
最新发布
阿里云E-MapReduce产品新动态及开源大数据前沿技术 2023-4月刊
产品案例
猿辅导
猿辅导基于 EMR StarRocks 的 OLAP 演进之路
水滴筹
水滴筹基于阿里云 EMR StarRocks 实战分享
趣头条
降本增效利器!趣头条Spark Remote Shuffle Service最佳实践
数禾科技
数禾云上数据湖最佳实践
任意门
Delta Lake在Soul的应用实践
流利说
阿里云 EMR Delta Lake 在流利说数据接入中的架构和实践
产品优势
新一代开源大数据平台
稳定可靠易用
支持节点故障容忍和补偿;100节点扩容时间<2分钟;全面的服务巡检和事件通知;EMR Studio提供一站式开发调度服务
存算分离架构
按需归档,节省20%-40%存储成本;OSS-HDFS存储,免运维,免维护; DLF湖管理实现湖数据生命周期管理
大幅节约成本
基于时间的弹性伸缩能力,抢占式实例可进一步降低成本;支持神龙/AMD等高性价比机型;On ack形态,支持混用资源
领先开源生态
深度优化Spark,性能提升100%;提供Hadoop、Spark、Hive、Kafka、HBase、Presto、Impala、Hudi、StarRocks等开源组件
产品功能
集群管理
方便快捷的集群管理,快速实现集群创建与扩容
集群创建
通过控制台页面或OpenAPI即可快速的进行多种类型的集群创建,如Hadoop、Dataflow、Datascience、Druid、ZooKeeper等开源大数据框架,无需关心底层的硬件与软件部署
集群扩容
通过控制台页面或OpenAPI即可方便地增加或减少已有集群的节点数目
服务配置
可以快速添加EMR提供的服务,可以监控服务的状态,并对服务组件进行配置和运维操作
弹性伸缩
通过控制台界面可以方便的增加需要的组件,并进行组件的配置与运维操作
动态扩容
可以设置多种弹性伸缩策略,自动地对集群计算资源进行动态的伸缩,降低TCO
运维中心
完善的运维管理工具,方便快速发现和定位集群问题
集群监控
提供丰富的服务监控指标和主机监控指标展示,通过可视化的方式快速定位服务和主机异常
事件中心
EMR服务提供丰富的事件类型,包含服务事件、管控服务事件、主机事件,可以更加快速、具体地获取到集群问题,并可以对问题发生链路进行溯源
作业列表
对集群作业运行情况进行统计,快速对比异常作业,方便作业和集群性能调优
诊断分析
提供HDFS冷热数据分析和小文件分析功能,对服务性能优化提供依据
丰富的组件
丰富的组件支持,可以根据需要进行组件的选择
DataLake
一个更灵活、可靠、高效的大数据计算集群
Spark
基于内存的新一代分布式开源大数据框架,支持离线,实时计算,也支持 SQL 语法以及机器学习的处理
Hive
基于Hadoop的一套离线数据处理系统,在HDFS之上提供了结构化的表数据的管理能力,提供类 SQL 的查询语法进行数据分析处理
Kafka
Kafka是一种高吞吐量的分布式发布订阅消息系统,具有出色的性能和可靠性
Flink
针对流数据和批数据的分布式处理引擎,EMR提供基于Apache Flink的商业化产品Ververica Platform构建的企业级大数据计算平台提供实时计算服务
Presto
开源的分布式SQL查询引擎,适用于交互式查询分析
ClickHouse
开源OLAP分析引擎,主要特性:列式存储、MPP架构、支持SQL、实时的数据更新、支持索引等
Hudi
一种数据湖的存储格式,提供更新数据和删除数据的能力以及消费变化数据的能力
StarRocks
开源MPP架构的OLAP分析引擎,支持亚秒级的数据查询和多表Join
完善的云上生态支持
对阿里云上的产品环境进行了深度的整合支持
支持DataWorks
为客户提供专业高效、安全可靠的一站式大数据开发与治理平台
支持MaxCompute
支持阿里云的MaxCompute产品的数据的读写
支持ElasticSearch
在Hadoop中内置了ES-Hadoop插件,可以直接支持ES的相关操作
支持数据湖构建DLF
EMR默认支持使用DLF进行元数据管理,方便数据湖场景下元数据管理。
支持对象存储OSS
EMR中所有计算引擎均支持采用OSS作为存储,可以将OSS像HDFS一样使用。并采用JindoFS对OSS数据读写进行加速。
支持云监控
可以在云监控中设置对于EMR服务和操作的监控,方便问题快速告警
支持SLS
支持将SLS作为实时数据输入源使用,提供了SDK直接操作
支持阿里云的消息产品
支持如消息队列,消息服务等的读写,提供SDK包装,方便用户使用
应用场景
大数据搬站
云原生数据湖
智能推荐
交互式分析
延续开源技术栈,链接阿里云生态和开源大数据生态
大数据搬站会遇到如下挑战:大数据技术栈繁杂,数据规模和任务数量大;开源社区版本迭代演进速度快,且开源组件之间的兼容性和社区bug会影响作业和业务的连续性。大数据搬站迁移通过EMR可以延续开源技术栈,链接阿里云生态和开源大数据生态
能够提供
采用社区开源软件
场景覆盖程度高,能延续现有技术栈和组织架构,迁移风险和成本低
成熟稳定
组件采用社区最新的稳定版本,通过组件稳定性和兼容性验证测试,更加稳定可靠
与阿里云生态集成
可以灵活根据业务需求和技术路线,实现和阿里云生态集成,如数据开发DataWorks+EMR、机器学习PAI+EMR、湖仓一体MaxCompute+Data Lake Formation+EMR
多种迁移方案
根据数据规模和预算的不同,可以通过闪电立方、专线和公网方式按计划高效率的迁移上云
推荐搭配使用
云服务器 ECS
对象存储 OSS
降低成本,解决资源闲置,适用多种数据分析场景
随着企业积累数据规模迅速膨胀,数据分析使用会遇到:数据规模膨胀的成本挑战;计算和存储耦合带来的某项资源闲置问题;由于多种数据分析场景,如离线计算、流式计算、交互式分析、机器学习等,导致多引擎间频繁的引动数据,造成数据不一致和成本问题。通过EMR及配套云原生数据解决方案,可以有效解决以上问题
能够提供
计算存储分离
数据存储在OSS对象存储,通过EMR JindoFS或Alluxio实现数据湖的加速,实现计算和存储解耦的同时,提升和保障计算效率,避免了资源闲置问题
数据分层存储
Jindo Table结合OSS的分层存储能力,将大数据业务和底层基础能力相结合,根据数据冷、热、温分层,与不同OSS存储类型匹配,最大限度实现成本节省
对接多种计算引擎
EMR数据湖解决方案,可以对接实时计算、PAI、MaxCompute、ElasticSearch等计算引擎,避免数据重复移动
元数据多引擎统一管控
通过EMR+Data Lake Formation,实现对元数据的统一管理,DLF可以对EMR不同计算引擎统一进行权限控制
推荐搭配使用
对象存储 OSS
数据湖构建 DLF
通过EMR构建机器学习和算法平台,加速模型训练
采集用户行为数据,通过EMR构建机器学习和算法平台,通过Hive/Spark构建机器学习的特征库、模型库和算法库,通过EMR Data Science集群TensorFlow/Pytorch实现模型训练,通过PAI EAS实现将模型在线推理服务
能够提供
稳定可靠
经过业内经大规模生产验证的推荐系统解决方案,实现CTR点击率大幅提升
灵活可控
适用于离线推荐和实时推荐场景,用户可以根据需求和技术栈方向灵活选择开源技术组件
集成性好
可以根据PAI EAS/PAI Studio等快速集成,灵活选择合适ECS GPU实例类型
推荐搭配使用
机器学习平台PAI
完全兼容开源版本特性,与EMR其他组件快速集成
采集用户在APP上的各种行为数据,通过EMR平台进行数据的加工和分析,写入ClickHouse,支持上层业务灵活、快速的分析,提升业务决策的效率
能够支持
秒级查询
ClickHouse支持秒级的数据查询,支持应用层的快速调用和人工分析
灵活查询
完整的SQL语句支持,支持灵活的业务逻辑分析
易运维
半托管集群,提供集群管理、监控、扩容等运维能力,让技术人员更多的投入业务开发
推荐搭配使用
云服务器ECS
产品规格
可根据不同业务场景进行集群类型选择
新版数据湖
提供更灵活、可靠、高效的管理集群,更快的运行大数据计算引擎并提供出色的数据分析能力。 支持构建数据湖架构,使用JindoFS进行数据湖加速。 支持OSS-HDFS(全托管HDFS)作为存储,减少您的运维成本,完全基于使用量计费。
立即购买
数据分析
将海量数据通过导入或者外表等形式引入到OLAP分析引擎里,例如,Clickhouse、StarRocks,提供高效、实时和灵活的数据分析能力,满足用户画像、人群圈选、BI报表和业务分析等一系列的业务场景。
立即购买
实时数据流
是EMR平台上提供的实时计算一站式解决方案,拥有分布式的、高吞吐量和高可扩展性的消息系统Kafka和基于Apache Flink官方产品Ververica提供的Flink商业内核两大组件,专注于解决实时计算端到端的各类问题、广泛应用于实时数据ETL和日志采集分析等场景,您也可以单独使用其中任一组件。
立即购买
数据服务
提供更灵活、可靠、高效的数据服务集群。 提供半托管HBase集群,同时可以基于OSS-HDFS(JindoFS服务)解耦计算集群与数据存储。 支持JindoData本地缓存以进一步提高数据服务集群的读写性能。
立即购买
Serverless StarRocks
开源StarRocks在阿里云上的全托管服务,您可以通过EMR Serverless StarRocks灵活的创建和管理StarRocks实例以及数据。兼容MySQL协议,为用户提供OLAP多维分析、数据湖分析、高并发查询以及实时数据分析服务。
立即购买
客户案例
为什么选择E-MapReduce?
数禾科技
数禾科技以大数据技术为驱动,为金融机构提供智能金融解决方案。随着公司业务的扩张,业务方提出的大量数据需求考验着现有集群的能力。为了减轻现有集群的压力,数禾使用阿里云EMR落地了适合数禾当前业务的数据湖,可以任意规模存储结构化和非结构化数据,运用不同类型的引擎进行分析,为业务发展提供了更好的决策依据。
查看详情
凯叔讲故事
凯叔讲故事是中国知名的儿童内容教育品牌。刚开始凯叔讲故事使用第三方SAAS平台作为运营支撑,周期长、展示死板,个性化开发受到很大局限,很难支撑团队的精细化运营需求。采用阿里云的E-MapReduce大数据平台支撑业务团队后,帮助业务团队做到对用户的精准触达、实时反馈和主动服务,系统上线后业务增量明显。
查看详情
Yeahmobi点告
Yeahmobi是一家以技术驱动的全球智能营销服务公司,公司主要提供的服务包括了效果营销、品牌服务,以及各个垂类的综合性的营销解决方案。Yeahmobi点告基于阿里云OSS+E-MapReduce 所有数据统一OSS存储,动态调整计算资源, 并使用E-MapReduce支撑离线式分析,满足业务场景要求,整体TOC下降30%。
查看详情
流利说
流利说是一家科技驱动的教育公司,在离线计算任务中,大部分数据源来自业务DB。随着数据量增多,无法满足近实时的查询需求。 流利说选择阿里云E-MapReduce, 采用 CDC + Delta Lake 之后,成本节省了近80%。凌晨DB数据接入的时间成本大大降低,确保所有非特殊要求的DB数据接入都能在1个小时内跑完,大大提升了效率。
查看详情
开源大数据平台 E-MapReduce与自建Hadoop集群对比
对比维度
成本
性能
易用
弹性
安全
可靠
服务
阿里云E-MapReduce
资源按量付费,支持集群资源灵活调整,数据分层存储,资源使用率高。 无额外软件License费用。
较开源版本性能大幅提升,如EMR SparkSQL性能是开源版本6倍。
分钟级别启动Hadoop集群,敏捷响应业务需求。
可根据作业临时启动和销毁集群。集群资源可根据时间周期或集群负载动态自动调整。基于JindoFS计算存储分离架构,轻松分别扩展计算和存储资源。
支持企业级多租户资源管理能力,支持对表、列、行级别的权限控制和日志审计,支持数据加密。
大规模、企业级环境的检验,随开源版本升级,并经过专业的兼容性验证测试,提供优于社区版本的使用体验。
专业和资深大数据专家技术服务团队提供售后支持。
自建Hadoop集群
提前预估资源,且资源相对固定,资源使用率低。 采用Hadoop发行版,需额外支付License费用。
采用开源社区版本,性能需自行优化。
采购服务器,部署Hadoop生态组件,周期长达数周。
计算和存储耦合,资源相对固定,无法弹性调整资源。
多租户管理能力需自行配置,能力不完善,无法满足企业级需求。
需自行更新和升级开源版本,验证各组件版本兼容性,自行修复社区bug。
社区版本无服务支持,Hadoop发行版,需额外支付License和服务费用。
产品动态
2017-01-18 新产品
EMR支持推出独享套餐
查看详情
2017-01-18 新功能/规格
EMR支持Spark 2.0
查看详情
2017-02-23 新功能/规格
支持统一的Hive表元数据管理
查看详情
2017-04-26 新地域/新可用区
E-MapReduce 华北3地域上线
查看详情
2017-05-03 新功能/规格
执行计划调度增强
查看详情
2017-05-10 新功能/规格
作业增加重试支持
查看详情
2017-06-15 新功能/规格
集群配置管理系统发布
查看详情
2017-07-29 价格调整
E-MapReduce国际站价格全面下调
查看详情
2017-08-05 新地域/新可用区
E-MapReduce 德国站上线服务
查看详情
2017-08-08 新功能/规格
EMR大数据机型整体方案发布
查看详情
2017-11-23 新功能/规格
Gateway功能上线
查看详情
2018-01-03 新地域/新可用区
E-MapReduce 产品 香港,呼和浩特 地域上线服务
查看详情
2018-03-01 新功能/规格
细化的权限控制组件Ranger发布
查看详情
2018-03-03 新地域/新可用区
E-MapReduce印度孟买Region上线服务
查看详情
2018-03-20 功能优化
E-MapReduce支持机型升配
查看详情
2018-04-18 新功能/规格
E-MapReduce支持集群从按量装换为包月
查看详情
2018-07-05 新功能/规格
Hadoop弹性伸缩能力发布
查看详情
2018-09-06 新功能/规格
E-MapReduce 性能大幅度优化
查看详情
2018-09-22 新功能/规格
EMR TensorFlow发布
查看详情
2018-11-01 功能优化
EMR云盘数据盘一键扩容
查看详情
2018-11-01 新功能/规格
EMR支持抢占式实例
查看详情
2018-12-07 新功能/规格
EMR APM功能发布
查看详情
2019-01-21 新功能/规格
EMR 升级Hadoop 2.8.5
查看详情
2019-03-15 新功能/规格
EMR Knox支持Flink并适配YARN time line service
查看详情
2019-06-08 新地域/新可用区
E-MapReduce 成都地域服务上线
查看详情
2019-07-09 新功能/规格
EMR 工作流新增支持流式作业类型
查看详情
2019-07-28 新功能/规格
EMR 最新版 EMR-3.22.0 发布
查看详情
2019-07-28 新功能/规格
EMR 新加入 Kudu 组件
查看详情
2019-08-01 新功能/规格
EMR 新发布针对云上存储定制的自研大数据存储服务 JindoFS
查看详情
2019-11-18 新功能/规格
E-MapReduce-3.24.0版本发行
查看详情
2019-11-18 新功能/规格
EMR支持TensorFlow on spark
查看详情
2019-11-20 新功能/规格
E-MapReduce 3.23.0发行版本
查看详情
2019-11-21 新功能/规格
EMR中国站/国际站上线第六代ECS企业级实例
查看详情
2020-06-30 新功能/规格
E-MapReduce支持ECS D2S新一代大数据实例
查看详情
2020-07-31 新功能/规格
阿里云E-MapReduce新增ECS大数据实例规格D2C
查看详情
2021-01-05 新功能/规格
阿里云E-MapReduce新增Remote Shuffle Service
查看详情
2021-02-28 新地域/新可用区
阿里云E-MapReduce在华北6 乌兰察布正式开服
查看详情
2021-04-01 新功能/规格
阿里云E-MapReduce发布Clickhouse集群类型
查看详情
2021-05-01 新功能/规格
阿里云E-MapReduce上线最新一代本地SSD实例
查看详情
2021-07-31 新功能/规格
E-mapreduce半托管Clickhouse集群发布
查看详情
2021-09-30 新功能/规格
E-MapReduce on ACK 全新发布
查看详情
2022-01-26 功能优化
E-MapReduce新版控制台重磅发布
查看详情
2022-03-28 新功能/规格
StarRocks 在新版控制台上线,致力于构建极速统一分析体验
查看详情
2022-04-15 新功能/规格
JindoData发布,支持OSS-HDFS服务
查看详情
2022-04-22 新功能/规格
StarRocks 升级至2.1.1版本将大幅提升查询性能
查看详情
2022-06-16 新功能/规格
数据湖集群上线
查看详情
2022-07-15 新功能/规格
DataWorks支持EMR DataLake集群
查看详情
2022-07-22 新功能/规格
Doctor上线
查看详情
2022-08-04 新功能/规格
数据服务(DataServing)发布
查看详情
2022-08-16 新功能/规格
新管控平台支持更多高阶特性
查看详情
2022-09-02 新功能/规格
添加弹性伸缩规则
查看详情
2022-09-07 新功能/规格
开启自动补偿
查看详情
2022-09-09 新功能/规格
克隆集群
查看详情
2022-10-17 新功能/规格
自定义集群上线
查看详情
2022-11-17 新功能/规格
OSS-HDFS支持冷热分层存储
查看详情
2022-11-25 新功能/规格
DataWorks支持EMR自定义集群
查看详情
2022-12-20 新功能/规格
EMR Doctor实时风险检测
查看详情
2022-12-28 新功能/规格
EMR Doctor集群日报
查看详情
2023-02-14 新功能/规格
访问链接与端口功能升级
查看详情
2023-02-24 新功能/规格
支持数据盘加密
查看详情
2023-03-02 新功能/规格
弹性伸缩规则新增配置参数
查看详情
2023-03-08 新功能/规格
新增应用配置导出功能
查看详情
2023-03-15 新功能/规格
事件中心新增系统事件
查看详情
2023-03-23 新功能/规格
支持默认创建存算分离集群
查看详情
2023-04-10 新功能/规格
Serverless StarRocks免费公测版发布
查看详情
2023-04-23 新功能/规格
支持控制台可视化管理YARN分区
查看详情
2023-05-15 新功能/规格
查看集群日报与分析
查看详情
2023-05-23 新功能/规格
Serverless StarRocks商业化发布
查看详情
2023-05-26 新功能/规格
支持倚天云服务器(邀测中)
查看详情
2023-06-21 新功能/规格
通过SQL Editor操作StarRocks实例
查看详情
2023-07-04 新功能/规格
EMR Workflow 公测
查看详情
2023-07-14 新功能/规格
支持无状态集群
查看详情
2023-07-14 新功能/规格
EMR on ACK形态支持Data Science类型集群
查看详情
2023-08-09 新功能/规格
新增弹性伸缩管理模块
查看详情
2023-08-17 新功能/规格
支持YARN分区和队列关联
查看详情
2023-08-29 新功能/规格
新增集群模版功能
查看详情
查看全部日志
入门与实践
EMR开源大数据迁移专区
HDFS,Hive,Kafka迁移到EMR最佳实践
查看详情
EMR弹性计算实践
EMR弹性低成本离线大数据分析最佳实践
查看详情
增量数据实时统计实践
通过Serverless StarRocks实现增量数据实时统计
查看详情
分钟级准实时分析实践
通过Serverless StarRocks分钟级准实时分析
查看详情
文档与工具
产品文档
如何上手、使用和开发
快速入门
快速创建集群并执行作业
集群类型
不同场景下集群选型规划
常见问题
常见报错&问题汇总