E-MapReduce_EMR_大数据框架_大数据-阿里云

开源大数据平台 E-MapReduce
播放视频
开源大数据平台 E-MapReduce(简称“EMR”)是云原生开源大数据平台,为客户提供简单易集成的Hadoop、Hive、Spark、StarRocks、Flink、Presto、ClickHouse等开源大数据计算和存储引擎。EMR计算资源支持灵活的弹性控制。EMR支持on ECS、on ACK以及Serverless多种部署形态。

产品系列

可根据不同业务需求场景进行产品类型选择

产品优势

新一代开源大数据平台
稳定可靠易用
支持节点故障容忍和补偿;100节点扩容时间<2分钟;全面的服务巡检和事件通知;EMR Studio提供一站式开发调度服务
存算分离架构
按需归档,节省20%-40%存储成本;OSS-HDFS存储,免运维,免维护; DLF湖管理实现湖数据生命周期管理
大幅节约成本
基于时间的弹性伸缩能力,抢占式实例可进一步降低成本;支持神龙/AMD等高性价比机型;On ack形态,支持混用资源
领先开源生态
深度优化Spark,性能提升100%;提供Hadoop、Spark、Hive、Kafka、HBase、Presto、Impala、Hudi、StarRocks等开源组件

产品功能

集群管理方便快捷的集群管理,快速实现集群创建与扩容
集群创建通过控制台页面或OpenAPI即可快速的进行多种类型的集群创建,如Hadoop、Dataflow、Datascience、Druid、ZooKeeper等开源大数据框架,无需关心底层的硬件与软件部署
集群扩容通过控制台页面或OpenAPI即可方便地增加或减少已有集群的节点数目
服务配置可以快速添加EMR提供的服务,可以监控服务的状态,并对服务组件进行配置和运维操作
弹性伸缩通过控制台界面可以方便的增加需要的组件,并进行组件的配置与运维操作
动态扩容可以设置多种弹性伸缩策略,自动地对集群计算资源进行动态的伸缩,降低TCO
运维中心完善的运维管理工具,方便快速发现和定位集群问题
集群监控提供丰富的服务监控指标和主机监控指标展示,通过可视化的方式快速定位服务和主机异常
事件中心EMR服务提供丰富的事件类型,包含服务事件、管控服务事件、主机事件,可以更加快速、具体地获取到集群问题,并可以对问题发生链路进行溯源
作业列表对集群作业运行情况进行统计,快速对比异常作业,方便作业和集群性能调优
诊断分析提供HDFS冷热数据分析和小文件分析功能,对服务性能优化提供依据
丰富的组件丰富的组件支持,可以根据需要进行组件的选择
DataLake一个更灵活、可靠、高效的大数据计算集群
Spark基于内存的新一代分布式开源大数据框架,支持离线,实时计算,也支持 SQL 语法以及机器学习的处理
Hive基于Hadoop的一套离线数据处理系统,在HDFS之上提供了结构化的表数据的管理能力,提供类 SQL 的查询语法进行数据分析处理
KafkaKafka是一种高吞吐量的分布式发布订阅消息系统,具有出色的性能和可靠性
Flink针对流数据和批数据的分布式处理引擎,EMR提供基于Apache Flink的商业化产品Ververica Platform构建的企业级大数据计算平台提供实时计算服务
Presto开源的分布式SQL查询引擎,适用于交互式查询分析
ClickHouse开源OLAP分析引擎,主要特性:列式存储、MPP架构、支持SQL、实时的数据更新、支持索引等
Hudi一种数据湖的存储格式,提供更新数据和删除数据的能力以及消费变化数据的能力
StarRocks开源MPP架构的OLAP分析引擎,支持亚秒级的数据查询和多表Join
完善的云上生态支持对阿里云上的产品环境进行了深度的整合支持
支持DataWorks为客户提供专业高效、安全可靠的一站式大数据开发与治理平台
支持MaxCompute支持阿里云的MaxCompute产品的数据的读写
支持ElasticSearch在Hadoop中内置了ES-Hadoop插件,可以直接支持ES的相关操作
支持数据湖构建DLFEMR默认支持使用DLF进行元数据管理,方便数据湖场景下元数据管理。
支持对象存储OSSEMR中所有计算引擎均支持采用OSS作为存储,可以将OSS像HDFS一样使用。并采用JindoFS对OSS数据读写进行加速。
支持云监控可以在云监控中设置对于EMR服务和操作的监控,方便问题快速告警
支持SLS支持将SLS作为实时数据输入源使用,提供了SDK直接操作
支持阿里云的消息产品支持如消息队列,消息服务等的读写,提供SDK包装,方便用户使用

应用场景

大数据搬站
云原生数据湖
智能推荐
交互式分析
延续开源技术栈,链接阿里云生态和开源大数据生态
大数据搬站会遇到如下挑战:大数据技术栈繁杂,数据规模和任务数量大;开源社区版本迭代演进速度快,且开源组件之间的兼容性和社区bug会影响作业和业务的连续性。大数据搬站迁移通过EMR可以延续开源技术栈,链接阿里云生态和开源大数据生态
能够提供
采用社区开源软件
场景覆盖程度高,能延续现有技术栈和组织架构,迁移风险和成本低
成熟稳定
组件采用社区最新的稳定版本,通过组件稳定性和兼容性验证测试,更加稳定可靠
与阿里云生态集成
可以灵活根据业务需求和技术路线,实现和阿里云生态集成,如数据开发DataWorks+EMR、机器学习PAI+EMR、湖仓一体MaxCompute+Data Lake Formation+EMR
多种迁移方案
根据数据规模和预算的不同,可以通过闪电立方、专线和公网方式按计划高效率的迁移上云
推荐搭配使用
降低成本,解决资源闲置,适用多种数据分析场景
随着企业积累数据规模迅速膨胀,数据分析使用会遇到:数据规模膨胀的成本挑战;计算和存储耦合带来的某项资源闲置问题;由于多种数据分析场景,如离线计算、流式计算、交互式分析、机器学习等,导致多引擎间频繁的引动数据,造成数据不一致和成本问题。通过EMR及配套云原生数据解决方案,可以有效解决以上问题
能够提供
计算存储分离
数据存储在OSS对象存储,通过EMR JindoFS或Alluxio实现数据湖的加速,实现计算和存储解耦的同时,提升和保障计算效率,避免了资源闲置问题
数据分层存储
Jindo Table结合OSS的分层存储能力,将大数据业务和底层基础能力相结合,根据数据冷、热、温分层,与不同OSS存储类型匹配,最大限度实现成本节省
对接多种计算引擎
EMR数据湖解决方案,可以对接实时计算、PAI、MaxCompute、ElasticSearch等计算引擎,避免数据重复移动
元数据多引擎统一管控
通过EMR+Data Lake Formation,实现对元数据的统一管理,DLF可以对EMR不同计算引擎统一进行权限控制
推荐搭配使用
通过EMR构建机器学习和算法平台,加速模型训练
采集用户行为数据,通过EMR构建机器学习和算法平台,通过Hive/Spark构建机器学习的特征库、模型库和算法库,通过EMR Data Science集群TensorFlow/Pytorch实现模型训练,通过PAI EAS实现将模型在线推理服务
能够提供
稳定可靠
经过业内经大规模生产验证的推荐系统解决方案,实现CTR点击率大幅提升
灵活可控
适用于离线推荐和实时推荐场景,用户可以根据需求和技术栈方向灵活选择开源技术组件
集成性好
可以根据PAI EAS/PAI Studio等快速集成,灵活选择合适ECS GPU实例类型
推荐搭配使用
完全兼容开源版本特性,与EMR其他组件快速集成
采集用户在APP上的各种行为数据,通过EMR平台进行数据的加工和分析,写入ClickHouse,支持上层业务灵活、快速的分析,提升业务决策的效率
能够支持
秒级查询
ClickHouse支持秒级的数据查询,支持应用层的快速调用和人工分析
灵活查询
完整的SQL语句支持,支持灵活的业务逻辑分析
易运维
半托管集群,提供集群管理、监控、扩容等运维能力,让技术人员更多的投入业务开发
推荐搭配使用

客户案例

为什么选择E-MapReduce?
数禾科技
数禾科技以大数据技术为驱动,为金融机构提供智能金融解决方案。随着公司业务的扩张,业务方提出的大量数据需求考验着现有集群的能力。为了减轻现有集群的压力,数禾使用阿里云EMR落地了适合数禾当前业务的数据湖,可以任意规模存储结构化和非结构化数据,运用不同类型的引擎进行分析,为业务发展提供了更好的决策依据。
凯叔讲故事
凯叔讲故事是中国知名的儿童内容教育品牌。刚开始凯叔讲故事使用第三方SAAS平台作为运营支撑,周期长、展示死板,个性化开发受到很大局限,很难支撑团队的精细化运营需求。采用阿里云的E-MapReduce大数据平台支撑业务团队后,帮助业务团队做到对用户的精准触达、实时反馈和主动服务,系统上线后业务增量明显。
Yeahmobi点告
Yeahmobi是一家以技术驱动的全球智能营销服务公司,公司主要提供的服务包括了效果营销、品牌服务,以及各个垂类的综合性的营销解决方案。Yeahmobi点告基于阿里云OSS+E-MapReduce 所有数据统一OSS存储,动态调整计算资源, 并使用E-MapReduce支撑离线式分析,满足业务场景要求,整体TOC下降30%。
流利说
流利说是一家科技驱动的教育公司,在离线计算任务中,大部分数据源来自业务DB。随着数据量增多,无法满足近实时的查询需求。 流利说选择阿里云E-MapReduce, 采用 CDC + Delta Lake 之后,成本节省了近80%。凌晨DB数据接入的时间成本大大降低,确保所有非特殊要求的DB数据接入都能在1个小时内跑完,大大提升了效率。

开源大数据平台 E-MapReduce与自建Hadoop集群对比

对比维度
成本
性能
易用
弹性
安全
可靠
服务
阿里云E-MapReduce
资源按量付费,支持集群资源灵活调整,数据分层存储,资源使用率高。 无额外软件License费用。
较开源版本性能大幅提升,如EMR SparkSQL性能是开源版本6倍。
分钟级别启动Hadoop集群,敏捷响应业务需求。
可根据作业临时启动和销毁集群。集群资源可根据时间周期或集群负载动态自动调整。基于JindoFS计算存储分离架构,轻松分别扩展计算和存储资源。
支持企业级多租户资源管理能力,支持对表、列、行级别的权限控制和日志审计,支持数据加密。
大规模、企业级环境的检验,随开源版本升级,并经过专业的兼容性验证测试,提供优于社区版本的使用体验。
专业和资深大数据专家技术服务团队提供售后支持。
自建Hadoop集群
提前预估资源,且资源相对固定,资源使用率低。 采用Hadoop发行版,需额外支付License费用。
采用开源社区版本,性能需自行优化。
采购服务器,部署Hadoop生态组件,周期长达数周。
计算和存储耦合,资源相对固定,无法弹性调整资源。
多租户管理能力需自行配置,能力不完善,无法满足企业级需求。
需自行更新和升级开源版本,验证各组件版本兼容性,自行修复社区bug。
社区版本无服务支持,Hadoop发行版,需额外支付License和服务费用。

产品动态

2017-01-18 新产品
EMR支持推出独享套餐
查看详情
2017-01-18 新功能/规格
EMR支持Spark 2.0
查看详情
2017-02-23 新功能/规格
支持统一的Hive表元数据管理
查看详情
2017-04-26 新地域/新可用区
E-MapReduce 华北3地域上线
查看详情
2017-05-03 新功能/规格
执行计划调度增强
查看详情
2017-05-10 新功能/规格
作业增加重试支持
查看详情
2017-06-15 新功能/规格
集群配置管理系统发布
查看详情
2017-07-29 价格调整
E-MapReduce国际站价格全面下调
查看详情
2017-08-05 新地域/新可用区
E-MapReduce 德国站上线服务
查看详情
2017-08-08 新功能/规格
EMR大数据机型整体方案发布
查看详情
2017-11-23 新功能/规格
Gateway功能上线
查看详情
2018-01-03 新地域/新可用区
E-MapReduce 产品 香港,呼和浩特 地域上线服务
查看详情
2018-03-01 新功能/规格
细化的权限控制组件Ranger发布
查看详情
2018-03-03 新地域/新可用区
E-MapReduce印度孟买Region上线服务
查看详情
2018-03-20 功能优化
E-MapReduce支持机型升配
查看详情
2018-04-18 新功能/规格
E-MapReduce支持集群从按量装换为包月
查看详情
2018-07-05 新功能/规格
Hadoop弹性伸缩能力发布
查看详情
2018-09-06 新功能/规格
E-MapReduce 性能大幅度优化
查看详情
2018-09-22 新功能/规格
EMR TensorFlow发布
查看详情
2018-11-01 功能优化
EMR云盘数据盘一键扩容
查看详情
2018-11-01 新功能/规格
EMR支持抢占式实例
查看详情
2018-12-07 新功能/规格
EMR APM功能发布
查看详情
2019-01-21 新功能/规格
EMR 升级Hadoop 2.8.5
查看详情
2019-03-15 新功能/规格
EMR Knox支持Flink并适配YARN time line service
查看详情
2019-06-08 新地域/新可用区
E-MapReduce 成都地域服务上线
查看详情
2019-07-09 新功能/规格
EMR 工作流新增支持流式作业类型
查看详情
2019-07-28 新功能/规格
EMR 最新版 EMR-3.22.0 发布
查看详情
2019-07-28 新功能/规格
EMR 新加入 Kudu 组件
查看详情
2019-08-01 新功能/规格
EMR 新发布针对云上存储定制的自研大数据存储服务 JindoFS
查看详情
2019-11-18 新功能/规格
E-MapReduce-3.24.0版本发行
查看详情
2019-11-18 新功能/规格
EMR支持TensorFlow on spark
查看详情
2019-11-20 新功能/规格
E-MapReduce 3.23.0发行版本
查看详情
2019-11-21 新功能/规格
EMR中国站/国际站上线第六代ECS企业级实例
查看详情
2020-06-30 新功能/规格
E-MapReduce支持ECS D2S新一代大数据实例
查看详情
2020-07-31 新功能/规格
阿里云E-MapReduce新增ECS大数据实例规格D2C
查看详情
2021-01-05 新功能/规格
阿里云E-MapReduce新增Remote Shuffle Service
查看详情
2021-02-28 新地域/新可用区
阿里云E-MapReduce在华北6 乌兰察布正式开服
查看详情
2021-04-01 新功能/规格
阿里云E-MapReduce发布Clickhouse集群类型
查看详情
2021-05-01 新功能/规格
阿里云E-MapReduce上线最新一代本地SSD实例
查看详情
2021-07-31 新功能/规格
E-mapreduce半托管Clickhouse集群发布
查看详情
2021-09-30 新功能/规格
E-MapReduce on ACK 全新发布
查看详情
2022-01-26 功能优化
E-MapReduce新版控制台重磅发布
查看详情
2022-03-28 新功能/规格
StarRocks 在新版控制台上线,致力于构建极速统一分析体验
查看详情
2022-04-15 新功能/规格
JindoData发布,支持OSS-HDFS服务
查看详情
2022-04-22 新功能/规格
StarRocks 升级至2.1.1版本将大幅提升查询性能
查看详情
2022-06-16 新功能/规格
数据湖集群上线
查看详情
2022-07-15 新功能/规格
DataWorks支持EMR DataLake集群
查看详情
2022-07-22 新功能/规格
Doctor上线
查看详情
2022-08-04 新功能/规格
数据服务(DataServing)发布 
查看详情
2022-08-16 新功能/规格
新管控平台支持更多高阶特性
查看详情
2022-09-02 新功能/规格
添加弹性伸缩规则
查看详情
2022-09-07 新功能/规格
开启自动补偿
查看详情
2022-09-09 新功能/规格
克隆集群
查看详情
2022-10-17 新功能/规格
自定义集群上线
查看详情
2022-11-17 新功能/规格
OSS-HDFS支持冷热分层存储
查看详情
2022-11-25 新功能/规格
DataWorks支持EMR自定义集群
查看详情
2022-12-20 新功能/规格
EMR Doctor实时风险检测
查看详情
2022-12-28 新功能/规格
EMR Doctor集群日报
查看详情
2023-02-14 新功能/规格
访问链接与端口功能升级
查看详情
2023-02-24 新功能/规格
支持数据盘加密
查看详情
2023-03-02 新功能/规格
弹性伸缩规则新增配置参数
查看详情
2023-03-08 新功能/规格
新增应用配置导出功能
查看详情
2023-03-15 新功能/规格
事件中心新增系统事件
查看详情
2023-03-23 新功能/规格
支持默认创建存算分离集群
查看详情
2023-04-10 新功能/规格
Serverless StarRocks免费公测版发布
查看详情
2023-04-23 新功能/规格
支持控制台可视化管理YARN分区
查看详情
2023-05-15 新功能/规格
查看集群日报与分析
查看详情
2023-05-23 新功能/规格
Serverless StarRocks商业化发布
查看详情
2023-05-26 新功能/规格
支持倚天云服务器(邀测中)
查看详情
2023-06-21 新功能/规格
通过SQL Editor操作StarRocks实例
查看详情
2023-07-04 新功能/规格
EMR Workflow 公测
查看详情
2023-07-14 新功能/规格
支持无状态集群
查看详情
2023-07-14 新功能/规格
EMR on ACK形态支持Data Science类型集群
查看详情
2023-08-09 新功能/规格
新增弹性伸缩管理模块
查看详情
2023-08-17 新功能/规格
支持YARN分区和队列关联
查看详情
2023-08-29 新功能/规格
新增集群模版功能
查看详情
2023-09-12 新功能/规格
StarRocks支持存算分离
查看详情
查看全部日志

入门与实践

EMR开源大数据迁移专区
HDFS,Hive,Kafka迁移到EMR最佳实践
查看详情
EMR弹性计算实践
EMR弹性低成本离线大数据分析最佳实践
查看详情
增量数据实时统计实践
通过Serverless StarRocks实现增量数据实时统计
查看详情
分钟级准实时分析实践
通过Serverless StarRocks分钟级准实时分析
查看详情

文档与工具