阿里云 E-MapReduce (EMR) 是构建在阿里云云服务器 ECS 上的开源 Hadoop、Spark、Hive、Flink 生态大数据 PaaS 产品。提供用户在云上使用开源技术建设数据仓库、离线批处理、在线流式处理、即时查询、机器学习等场景下的大数据解决方案。
EMR核心能力
集群自动化部署
可视化的通过Web页面快速方便的进行集群的部署,服务即开即用,扩展简单,无需关心底层的硬件与软件处理。分钟级别的启动时间,可以根据需要动态的任何时间创建计算资源使用,并在完毕以后释放。集群根据需要随时控制服务的增删,可视化配置界面管理。支持通过API&SDK进行远程调用。
存储与计算资源的弹性伸缩
支持丰富的机型规格,从普通的通用计算、内存型、大数据机型到深度学习GPU,根据需要可以对不同的场景选用不同的机型。平台层面支持对集群进行弹性伸缩,在需要的时候快速的动态添加计算资源,并在不必要的时候快速的释放。支持竞价实例,更大程度上的降低使用成本。
丰富的开源组件
支持Hadoop,Hive,Spark,Kafka,Flink,tensorflow,ZooKeeper等丰富的开源组件,并不断的更新和补充。基于此支持PB级别的任意数据格式存储,支持高性能的数据计算,支持前沿的深度学习。100%的完全兼容开源,所有开源的可行方案均可在EMR之上方便的应用。
作业管理与调度
提供可视化的作业编辑与管理,支持丰富的作业类型。支持快速的进行Hive或SparkSQL编写及运行,可直接进行快速的运行调试。支持可视化的将多个作业与工作流编排成DAG流进行调度,支持作业的定时和依赖调度。提供完善的监控和报警机制,失败工作流可快速的重试。
无缝对接OSS
支持在集群上的核心组件中无缝的使用OSS,就像HDFS一样使用OSS,并且提供了高安全的临时AK的方式来提高访问的安全性。支持计算与存储分离的大数据部署模式,方便的构建弹性的可快速扩容的大数据平台。
产品优势
灵活易用
无需配置硬件与软件,直接选择即可快速启动集群使用。全Web化的管理运维操作。可以基于EMR构建大数据平台,也可以在EMR之上部署自己的组件构建大数据平台。
服务稳定
深度优化的集群环境,后台的自动化运维,多渠道的在线支持。完善的后台监控报警体系,历史记录,全方位的保障你的集群可靠性。
成本降低
按需创建集群,满足短时间计算的需求。动态的按需伸缩计算节点,应对各种的临时需求。极大的降低人力和硬件成本
安全可控
支持Kerberos认证与数据加密,支持 RAM 主子账号对服务权限进行细化管理。