E-MapReduce

基于开源生态,包括 Hadoop、Spark、Kafka、Flink、Storm等组件,为您提供集群、作业、数据管理等服务的一站式企业大数据平台

}

精心打造的功能

  • 自动化集群部署与伸缩

    通过Web页面即可快速的进行集群的部署与伸缩,无需关心底层的硬件与软件处理

    集群的创建

    通过界面方便快速的部署多种用途的集群,如Hadoop、Kafka、Druid、ZooKeeper等

    集群的扩容

    通过界面方便快速的对已有集群进行任意类型节点的扩容

    定期的自动创建

    通过执行计划可以定期自动创建集群和运行作业,并在运行结束后释放集群

    组件的自动部署

    通过界面可以方便的增加需要的组件,并进行组件的配置与运维操作

    动态扩容

    在指定时间点对集群计算资源进行动态的伸缩,降低TCO

  • 工作流调度

    方便的作业编排与作业调度

    作业编辑和管理

    界面化的作业编辑与管理,方便进行多种类型作业的运行编排

    工作流调度

    界面化的将多个作业编排成DAG流进行调度,支持作业的定时和依赖调度

    动态集群

    可以定期的启动一个临时的集群进行作业的执行,完成以后自动关闭集群

    作业的稳定保证

    作业支持设置失败自动重试,运行失败可以进行实时报警

  • 丰富的组件

    丰富的组件支持,可以根据需要进行组件的选择

    Hadoop

    支持PB级别数据存储与计算能力的大数据平台

    Spark

    基于内存的新一代分布式计算框架,支持离线,实时计算,也支持 SQL 语法以及机器学习的处理

    Hive

    基于Hadoop的一套离线数据处理系统,在HDFS之上提供了结构化的表数据的管理能力,提供类 SQL 的查询语法进行数据分析处理

    Kafka

    Kafka是一种高吞吐量的分布式发布订阅消息系统,具有出色的性能和可靠性

    Storm

    实时处理计算引擎,支持毫秒级别的实时数据处理

    ZooKeeper

    分布式的,开放源码的分布式应用程序协调服务,为分布式应用提供一致性服务的软件

    Hue

    方便的Web端管理工具

    Oozie

    开源的作业调度工具

    Druid

    开源的实时大数据分析软件

    Flink

    针对流数据和批数据的分布式处理引擎

  • 完善的生态支持

    对阿里云上的产品环境进行了深度的整合支持

    支持OSS

    支持在几乎所有的组件中使用OSS,将OSS像HDFS一样使用

    支持SLS

    支持将SLS作为实时数据输入源使用,提供了SDK直接操作

    支持ElasticSearch

    在Hadoop中内置了ES-Hadoop插件,可以直接支持ES的相关操作

    支持MaxCompute

    支持阿里云的MaxCompute产品的数据的读写

    支持阿里云的消息产品

    支持如消息队列,消息服务等的读写,提供SDK包装,方便用户使用

应用场景

数据集成

离线计算

Ad Hoc数据分析

流式计算

数据集成
支持丰富的数据集成方式
支持开源、阿里云自研、离线、实时等各种的数据集成工具连接到 E-MapReduce 之上。

文件数据

实时日志文件或其他文本数据的采集

数据库

批量或者实时数据库数据的采集

推荐搭配使用
  • 数据集成

    数据集成

    支持开源、阿里云自研、离线、实时等各种的数据集成工具连接到 E-MapReduce 之上。

    • 文件数据

      实时日志文件或其他文本数据的采集

    • 数据库

      批量或者实时数据库数据的采集

  • 离线计算
  • Ad Hoc数据分析
  • 流式计算