E-MapReduce

E-MapReduce 是构建于阿里云 ECS 弹性虚拟机之上,利用开源大数据生态系统,包括 Hadoop、Spark、Kafka、Storm,为用户提供集群、作业、数据等管理的一站式大数据处理分析服务。

产品动态

最新动态

  • d1本地盘机型上线服务:大数据机型d1正式上线服务,EMR提供了基于d1机型的数据高可靠方案,针对自建的风险,保证用户的数据持久可靠。
  • 集群服务配置和管理:通过Web控制台可以方便的管理所有的服务进程的启停,并配置服务的参数。不用再登陆集群来进行服务的运维了。
  • 失败作业自动重试:现在在设置作业的时候,可以设置作业的自动重试选项,当作业失败的时候可以自动的进行重试,特别是实时作业的时候能够持续的守护作业进程不中断。
  • Spark 2.x支持:推出了EMR-3.x的镜像,Spark的基础版本升级到2.0.2
  • 统一的Hive Meta数据库:支持用户创建的集群使用统一的Meta存储Hive表的元数据信息。释放集群不会释放Meta,新集群可以直接继承之前的Hive表元数据。大大简化数据处理的使用成本。 查看详情
  • 控制台新增交互式工作台:直接在web上编写代码,立即运行,并查看结果。 查看详情

E-MapReduce 概述

  • 基本介绍

  • 离线计算使用介绍

  • 流式计算使用介绍

  • 创建EMR集群

  • 管理执行计划与日志查看

E-MapReduce 与传统物理集群方式相比,有着诸多优势

E-MapReduce 物理集群模式

易用性

按照所选硬件机型(CPU、内存、磁盘),所选软件组合和版本,进行自动化部署 固定机型,固定软件版本,手动部署

成本

可以按需创建集群,即离线作业运行结束就可以释放集群。可以动态的在需要的时候增加节点。 也可以选择包年包月长期运行 租用费高,需要人工运维,成本高

深度整合

与阿里云其他产品如 OSS,MNS,RDS,ONS,ODPS 等深度整合,作为 E-MapReduce 产品中 Hadoop/Spark 计算引擎的输入源或者输出目的地 需要搭建额外的消息中间件集群,或者关系型数据

安全

整合阿里云 RAM 资源权限管理系统,可以通过主子账号对服务权限进行整合阿里云 RAM 资源权限管理系统,可以通过主子账号对服务权限进行隔离 需要额外的安全机制

E-MapReduce 功能

自动化

自动化按需创建集群

  • 自由选择机器配置(CPU,内存)和磁盘类型和容量
  • 自由选择服务器规模,包括 Master 和 Core 的数量
  • 根据业务量的上升可对集群动态扩容
  • 自由选择开源大数据生态软件组合和版本,目前包括 Hadoop 和 Spark
  • 自由选择启动集群的方式,分为临时集群和长时间运行集群

作业类型

支持丰富的作业类型

  • MapReduce:离线处理作业
  • Hive:关系型分析查询作业
  • Pig:数据清洗,ETL 等脚本作业
  • Spark MLlib:基于 Spark 的机器学习作业
  • Spark GraphX:基于 Spark 的图处理作业
  • Spark Streaming:基于 Spark 的在线/流式 作业
  • Spark SQL & DataFrames:基于 Spark 的数据科学交互式作业

作业执行

灵活的作业执行计划

  • 将作业(包括 Hadoop/Spark/Hive/Pig)任意组合成执行计划
  • 执行计划的执行策略有两种,分为立即执行和定时周期执行

E-MapReduce 典型应用场景

  • 离线数据处理
  • Ad hoc数据分析
  • 海量数据在线服务
  • 流式数据处理

E-MapReduce 文档与帮助