E-MapReduce

产品介绍

阿里云 E-MapReduce (EMR) 是构建在阿里云云服务器 ECS 上的开源 Hadoop、Spark、HBase、Hive、Flink 生态大数据 PaaS 产品。提供用户在云上使用开源技术建设数据仓库、离线批处理、在线流式处理、即时查询、机器学习等场景下的大数据解决方案。欢迎加入钉钉产品交流群:21784001,技术交流群:23109202

更多机型方案

Hadoop 集群

开源大数据离线、实时、Ad-hoc查询场景。Hadoop是完全使用开源Hadoop生态,采用YARN管理集群资源,提供Hive、Spark离线大规模分布式数据存储和计算,SparkStreaming、Flink、Storm流式数据计算,Presto、Impala交互式查询,Oozie、Pig等Hadoop生态圈的组件,支持OSS存储,支持Kerberos的数据认证与加密。

Kafka 集群

开源高吞吐量,可扩展性的消息系统。Kafka提供一套完整的服务监控体系和元数据管理。广泛用于日志收集、监控数据聚合等场景,支持离线或流式数据处理、实时数据分析等。

Data Science 集群

大数据+AI场景。Science针对大数据+AI场景,提供了Hive、Spark离线大数据ETL,TensorFlow模型训练,用户可以选择CPU+GPU的异构计算框架,利用英伟达GPU对部分深度学习算法就行高性能计算。

产品优势
操作简单易用
无需配置硬件与软件,直接选择即可快速启动集群使用。全Web化的管理运维操作
按需节约成本
按需创建集群,满足短时间计算的需求。动态的按需伸缩计算节点,应对各种的临时需求
集群环境稳定安全
深度优化的集群环境,后台的自动化运维,多渠道的在线支持;支持Kerberos认证与数据加密,支持 RAM 主子账号对服务权限进行细化管理
深度整合资源
与阿里云其它产品(如 OSS、MNS、RDS、MaxCompute 等)进行了深度整合,支持以这些产品作为 Hadoop/Spark 计算引擎的输入源或者输出目的地

应用场景

数据集成

离线计算

Ad Hoc数据分析

流式计算

支持丰富的数据集成方式
支持开源、阿里云自研、离线、实时等各种的数据集成工具连接到 E-MapReduce 之上。
能够解决

文件数据

实时日志文件或其他文本数据的采集

数据库

批量或者实时数据库数据的采集

推荐搭配使用
  • 数据集成

    数据集成

    支持开源、阿里云自研、离线、实时等各种的数据集成工具连接到 E-MapReduce 之上。

    • 文件数据

      实时日志文件或其他文本数据的采集

    • 数据库

      批量或者实时数据库数据的采集

  • 离线计算
  • Ad Hoc数据分析
  • 流式计算

精心打造的功能

自动化集群部署与伸缩

通过Web页面即可快速的进行集群的部署与伸缩,无需关心底层的硬件与软件处理

集群的创建

通过界面方便快速的部署多种用途的集群,如Hadoop、Kafka、Druid、ZooKeeper等

集群的扩容

通过界面方便快速的对已有集群进行任意类型节点的扩容

定期的自动创建

通过执行计划可以定期自动创建集群和运行作业,并在运行结束后释放集群

组件的自动部署

通过界面可以方便的增加需要的组件,并进行组件的配置与运维操作

动态扩容

在指定时间点对集群计算资源进行动态的伸缩,降低TCO

工作流调度

方便的作业编排与作业调度

作业编辑和管理

界面化的作业编辑与管理,方便进行多种类型作业的运行编排

工作流调度

界面化的将多个作业编排成DAG流进行调度,支持作业的定时和依赖调度

动态集群

可以定期的启动一个临时的集群进行作业的执行,完成以后自动关闭集群

作业的稳定保证

作业支持设置失败自动重试,运行失败可以进行实时报警

丰富的组件

丰富的组件支持,可以根据需要进行组件的选择

Hadoop

支持PB级别数据存储与计算能力的大数据平台

Spark

基于内存的新一代分布式计算框架,支持离线,实时计算,也支持 SQL 语法以及机器学习的处理

Hive

基于Hadoop的一套离线数据处理系统,在HDFS之上提供了结构化的表数据的管理能力,提供类 SQL 的查询语法进行数据分析处理

Kafka

Kafka是一种高吞吐量的分布式发布订阅消息系统,具有出色的性能和可靠性

Storm

实时处理计算引擎,支持毫秒级别的实时数据处理

ZooKeeper

分布式的,开放源码的分布式应用程序协调服务,为分布式应用提供一致性服务的软件

Hue

方便的Web端管理工具

Oozie

开源的作业调度工具

Druid

开源的实时大数据分析软件

Flink

针对流数据和批数据的分布式处理引擎

完善的生态支持

对阿里云上的产品环境进行了深度的整合支持

支持OSS

支持在几乎所有的组件中使用OSS,将OSS像HDFS一样使用

支持SLS

支持将SLS作为实时数据输入源使用,提供了SDK直接操作

支持ElasticSearch

在Hadoop中内置了ES-Hadoop插件,可以直接支持ES的相关操作

支持MaxCompute

支持阿里云的MaxCompute产品的数据的读写

支持阿里云的消息产品

支持如消息队列,消息服务等的读写,提供SDK包装,方便用户使用

视频学习

基本介绍

创建集群

使用数据开发编写工作流

创建并运行作业

产品动态

  • 查看详情
  • 查看详情
    查看全部日志>
    产品发布信息详情