EMR Serverless Spark 版

    EMR Serverless Spark 版

    EMR Serverless Spark 是一款面向 Data+AI 的高性能 Lakehouse 产品。它为企业提供了一站式的数据平台服务,包括任务开发、调试、调度和运维等,极大地简化了数据处理和模型训练的全流程。同时,它100%兼容开源 Spark 生态,能够无缝集成到客户现有的数据平台。使用 EMR Serverless Spark,企业可以更专注于数据处理分析和模型训练调优,提高工作效率。

    预览图
    产品简介
    产品介绍图片

    EMR Serverless Spark 版

    EMR Serverless Spark 是一款面向 Data+AI 的高性能 Lakehouse 产品。它为企业提供了一站式的数据平台服务,包括任务开发、调试、调度和运维等,极大地简化了数据处理和模型训练的全流程。同时,它100%兼容开源 Spark 生态,能够无缝集成到客户现有的数据平台。使用 EMR Serverless Spark,企业可以更专注于数据处理分析和模型训练调优,提高工作效率。

    产品优势

    云原生极速计算引擎

    内置 Spark Native Engine,相对开源版本性能提升3倍; 内置企业级 Celeborn (Remote Shuffle Service),支持 PB 级 Shuffle 数据,计算资源总成本最高下降 30% 。

    弹性资源管理

    资源调度具备秒级弹性,支持按需分配最小粒度为 1 核的资源,按任务或队列级别进行精细化资源计量,确保资源使用的最大化与灵活性。

    DATA 和 AI

    提供完全兼容 PySpark/Python 的开发与运行环境,支持 Python 生态的机器学习 Lib,以及 Spark MLlib,支持产品化管理 Python 三方依赖库。

    生态兼容

    具备强大的兼容性与集成能力。支持 DLF 和 Hive MetaStore 数据目录,兼容 Paimon、Iceberg、Hudi 和 Delta 等主流湖格式,可对接 Airflow 和 Dolphin Scheduler 等主流调度系统,支持 Kerberos/LDAP 认证和 Ranger 鉴权,还支持 DataWorks 和 DBT 提交任务,全方位满足用户需求。
    产品功能
    卡片头图
    SQL Editor
    SQL Editor 提供了一个 SQL 集成开发环境,方便您编写、调试和执行 SparkSQL 代码。 使用 SQL Editor 可以高效地进行数据分析,为您提供关键的数据洞察和决策支持。
    卡片头图
    Notebook
    为数据分析师、数据科学家及数据工程师提供了一个交互式的工作环境,支持 PySpark、Markdown 的开发,您可以编写代码、运行查询、可视化数据并即时查看结果。
    卡片头图
    工作流
    提供工作空间内不同类型任务(如PySpark、SQL、Notebook、Spark JAR)的编排和运行,轻松构建数据管道。同时提供网格与拓扑依赖两种视角,方便管理工作流。
    卡片头图
    资源管理
    在资源管理中,可以添加不同的队列来实现对资源的隔离和管理,为不同的业务团队创建生产、开发环境队列,用于承载任务的运行。
    卡片头图
    自定义环境
    在提交 PySpark 任务或运行 Notebook 时,您可以使用运行环境来管理第三方 Python 库, Serverless Spark 将自动帮您安装和部署依赖库,从而简化环境准备流程。
    卡片头图
    任务历史
    提供丰富的任务实例指标,辅助您了解任务运行情况,包括成本指标 CU*时,资源指标 MB-seconds、vcores-seconds,任务所对应的 Spark UI 以及日志文件。
    产品选型
    入门与试用
    免费试用
    快速上手

    在 EMR Serverless Spark 版页面快速创建工作空间

    工作空间是 EMR Serverless Spark 版的基本单元,用于管理任务、成员、角色和权限。所有的任务开发都需要在具体的工作空间内进行。因此,在开始任务开发之前,您需要先创建工作空间。

    技术解决方案
    • 通用数据湖建设与分析场景
    • 数据与 AI 一体化应用场景
    • 工业智能设备实时监控应用场景
    产品定价

    EMR Serverless Spark 的计费项目主要来源于计算资源,即实际可用于计算的资源,资源会被折算为 CU 费用。

    计费方式

    支持按量付费、包年包月和资源抵扣包计费方式,您可以根据需要选择合适的计费方式。

    • 按量付费(后付费)

      按量付费是一种先使用后付费的计费方式。您无需提前购买大量资源,系统会根据您工作空间实际的资源使用量进行结算。费用按照每小时整点进行一次计算(以UTC+8时间为准),计算完成后将进入新的计费周期。
      适用于业务用量经常变化的场景。
      查看详情
    • 包年包月(预付费)

      包年包月是一种预付费计费方式,在购买时需根据所选时长预先支付费用,EMR Serverless Spark 会按照您购买的时长,严格计算计费周期的价格。
      适用于长期稳定使用或预算规划明确的场景。
      查看详情
    • 资源抵扣包

      预先购买针对不同容量的优惠资源包,在费用结算时,优先从资源包抵扣用量。超出资源包额度的部分,采用按量付费。
      适用于业务用量相对稳定的场景。
      查看详情
    安全合规

    权限管理

    工作空间权限:支持添加RAM用户到工作空间,并按照职能为用户分配工作空间角色,对工作空间内不同用户的操作权限进行控制。

    RAM Policy:RAM Policy 是基于用户的授权策略。您可以使用 RAM Policy 控制用户对工作空间的操作权限。

    网络安全

    为客户提供虚拟安全的网络环境,支持通过 VPC 安全组规则配置,访问 VPC 内的数据源、服务器,或调用 VPC 内的其他服务。

    操作审计

    支持通过阿里云操作审计ActionTrail的控制台、OpenAPI、开发者工具等,查询近90天内的实例操作事件日志,同时提供Query日志信息。

     

    客户案例
    bannerbannerbanner
    01
    微财科技
    微财科技选择基于 EMR Serverless Spark 建立数据平台,有了单独的资源池进行模型训练,避免了资源冲突,同时还解决了存算分离架构下需要处理 Shuffle 稳定性和性能问题的困扰。
    了解更多
    02
    鹰角网络
    选择EMR Serverless Spark作为离线计算引擎,显著减少了运维成本,提高了系统稳定性和可靠性。其Celeborn能力解决了大Shuffle任务操作中的磁盘限制问题,同时任务状态与调度工具实现了强一致性,无需二次确认,进一步优化了数据处理流程。
    03
    美的楼宇
    美的楼宇科技基于EMR Serverless Spark构建LakeHouse湖仓数据平台,使数据与AI技术的有效融合,最终实现了不同场景下整体性能提升50%以上,同时综合成本下降30%。
    了解更多
    常见问题
    Q:什么是EMR Serverless Spark版?产品有什么优势?
    A:EMR Serverless Spark版是一款云原生,专为大规模数据处理和分析而设计的全托管Serverless产品。它为企业提供了一站式的数据平台服务,包括任务开发、调试、调度和运维等,极大地简化了数据......查看详情
    Q:EMR Serverless Spark的应用场景有哪些?
    A:EMR Serverless Spark可以满足企业级用户的多种数据处理与分析需求,如建立数据平台,数据查询与分析场景等。查看详情
    Q:什么是Fusion?
    A:Fusion引擎是EMR Serverless Spark内置的高性能向量化SQL执行引擎,相比开源Spark在TPC-DS基准测试上有3倍性能提升。Fusion引擎与开源Spark完全兼容,您无需对现有代码做任何修改。查看详情
    Q:产品支持哪些计费模式,计费项有哪些?
    A:本文为您介绍EMR Serverless Spark的资源估算策略、计费项、计算方式,以及支持地域的费用单价等信息。查看详情
    Q:如何在EMR Serverless Spark中使用Paimon?
    A:本文为您介绍如何在EMR Serverless Spark中实现Paimon表的读取与写入操作。查看详情
    Q:如何在EMR Serverless Spark中连接外部Hive Metastore?
    A:EMR Serverless Spark支持连接外部Hive Metastore服务,您可以便捷地访问存储在Hive Metastore中的数据。本文将介绍如何在EMR Serverless Spark中配置和连接外部Hive Metastore服务,以便......查看详情
    Q:如何通过Airflow向EMR Serverless Spark提交任务?
    A:本文为您介绍如何通过Apache Airflow实现自动化地向EMR Serverless Spark提交任务,以实现作业调度和执行的自动化,帮助您更有效地管理数据处理任务。查看详情
    Q:如何通过DolphinScheduler向EMR Serverless Spark提交任务?
    A:DolphinScheduler是一款分布式、易扩展的可视化DAG工作流任务调度开源系统,能高效地执行和管理大数据流程。本文为您介绍如何通过DolphinScheduler Web界面轻松创建、编辑、调度Spark作业。查看详情
    Q:如何通过Jupyter Notebook与EMR Serverless Spark进行交互?
    A:Jupyter Notebook是一个强大的交互式开发工具,您可以在Web界面中即时编写和执行代码,并实时查看结果,无需进行预编译或单独执行脚本。本文将为您介绍如何构建高效的与Serverless Spark交......查看详情
    免费试用

    想体验更多产品功能?

    立即购买 EMR Serverless Spark 版产品

    了解更多阿里云产品介绍?

    探索 阿里云产品 了解更多产品介绍

    遇到了困难需要帮助?

    联系我们 咨询阿里云服务团队