工作流调度Zeppelin Notebook

在Databricks数据开发中,您可以在项目空间的作业编辑中创建一组有依赖...填写作业名称、作业描述,作业类型选择 zeppline、单击 确定 编辑调度 Notebook、单击保存 使用作业调度Notebook有2种方式 方式一:使用OSS路径调度Notebook oss:/ddi-...

计算资源使用

配额组(Quota)是MaxCompute的计算资源池,为MaxCompute中的计算作业提供所需计算资源(CPU及内存)。在MaxCompute中支持根据计算作业对计算资源的需求,指定匹配的Quota,...如上规则项也可以结合起来使用,实现更细粒度的作业调度控制。

使用Apache Airflow调度MaxCompute

MaxCompute支持您使用Apache Airflow通过Python接口实现作业调度。本文为您介绍如何使用Apache Airflow的Python Operator调度MaxCompute作业。背景信息 Apache Airflow是Airbnb开源的、基于Python编写的调度工具,基于有向无环图(DAG),...

使用Kettle调度MaxCompute

步骤三:创建作业调度流程 您可以在Spoon界面的 核心对象 页签通过创建、关联核心对象(作业)的方式构造作业调度流程。此处以通过LOAD命令从OSS加载数据,并写入MaxCompute内部表的ETL过程为例为您介绍操作流程,对应示例数据请参见 通过...

使用Azkaban调度MaxCompute

背景信息 Azkaban是一套作业调度系统,可以调度Command、Hadoop MapReduce、Hive、Spark、Pig等类型作业,而且支持自定义Plugin,其中最简单而且最常用的是Command类型。更多Azkaban信息,请参见 Azkaban。您需要将待调度作业依赖的源数据...

使用插件部署混合云集群

打开 云上代理节点 代理节点可感知作业调度状态,用于弹性伸缩等场景。请根据自身业务负载情况选择合适的规格,建议选择2 vCPU,4 GiB内存及以上规格。ecs.c7.large VPC、交换机 选择集群所属的VPC和交换机。请请确保交换机下的IP地址空间...

常见问题

E-HPC在管控节点上配置作业调度器。以上流程都依赖于E-HPC服务部署。若您使用ECS管理控制台对节点进行操作,则可能会导致集群或部分节点状态异常,或集群相关资源不可使用等问题。因此不允许使用ECS管理控制台对E-HPC集群的节点进行操作。E...

使用ECI弹性调度Spark作业

使用阿里云弹性容器实例(Elastic Container Instance)调度Spark作业可以不受限于ACK集群的节点计算容量,灵活动态地按需创建Pod(容器组),有效地降低计算成本。本文为您介绍如何使用ECI弹性调度Spark作业。背景信息 如果您需要使用更...

使用ECI弹性调度Flink作业

使用阿里云弹性容器实例(Elastic Container Instance)调度Flink作业可以不受限于ACK集群的节点计算容量,灵活动态地按需创建Pod(容器组),有效地降低计算成本。本文为您介绍如何使用ECI弹性调度Flink作业。背景信息 如果您需要使用更...

创建EMR Spark节点

配置任务调度 如果您需要周期性执行创建的节点任务,可以单击节点编辑页面右侧的 调度配置,根据业务需求配置该节点任务的调度信息:配置任务调度的基本信息,详情请参见 配置基础属性。配置时间调度周期、重跑属性和上下游依赖关系,详情...

Node Labels特性使用

目前只有Capacity Scheduler调度器支持Node Labels分区调度,您可以通过调度器配置或者计算引擎node-label-expression参数让队列上的任务容器调度到队列可访问的分区上。更详细的Node Labels特性说明,请参见 YARN Node Labels。使用限制 ...

文档修订记录

本文为您介绍DataWorks文档更新的最新动态,基于此您可以及时了解DataWorks的新增特性及功能变更。2024年2月更新记录 时间 特性 类别 描述 产品文档 2024.2.22 新增功能 账单订阅及查询分析 用户中心支持订阅不同类型的账单数据,例如,...

产品概述

BatchCompute 可支持海量作业并发规模,系统自动完成资源管理、作业调度和数据加载,并按实际使用量计费。通俗的讲,就是您可以提交一个任意的计算机程序,让它在阿里云的多个 VM 实例上同时运行,然后把结果写入到指定的持久化存储位置...

功能特性

均衡型资源调度可以最大化追求更稳定的系统表现,优先从未分配资源或已分配资源较少的主机中分配资源。资源调度 管理集群 混合部署 支持应用与数据库混合部署 MyBase托管版开放了数据库实例所部署主机的一部分OS权限,在实例主机上,您可以...

通过命令行提交作业

E-HPC支持PBS、SLURM、SGE等作业调度系统,本文介绍如何使用三种调度系统,通过命令行提交作业。准备工作 创建集群用户。具体操作,请参见 创建用户。集群用户用于登录集群,进行编译软件、提交作业等操作,本文创建的用户示例如下:用户名...

定期调度Zeppelin中的作业

当您在Zeppelin里完成作业开发后,您就可以通过Airflow定期调度作业。本文为您介绍如何使用Airflow调度作业。前提条件 已创建EMR Studio集群。创建集群详情,请参见 创建集群。安全组规则已开启8000、8081和8443端口。添加安全组规则,详情...

定期调度Jupyter中的作业

当您在Jupyter里完成作业开发后,您就可以通过Airflow定期调度作业。本文为您介绍如何将Jupyter中编写的Notebook,生成调度任务并定时执行。前提条件 已创建EMR Studio集群。创建集群详情,请参见 创建集群。安全组规则已开启8000、8081和...

使用 Gang Scheduling

ACS 为作业调度场景提供了 Gang Scheduling 能力,满足作业调度场景 All-or-Nothing 需求。本文介绍如何使用 Gang Scheduling。功能介绍 作业(Job)一般会创建多个 Pod,并且这些 Pod 需要协调一致地启动运行。这要求在调度时一定要按照一...

拓扑感知调度

在 容器服务 Kubernetes 版 中,可以结合Gang调度能力以及拓扑感知调度能力,实现Pod在多个拓扑域中重试,直到找到一个能够满足整个作业拓扑域的功能。更进一步,可以结合 容器服务 Kubernetes 版 的节点池以及ECS的部署集能力,将Pod调度...

时间属性配置说明

调度任务的时间属性配置,仅定义任务预期执行时间,其实际是否执行与实际执行时间受多方因素影响,包括但不限于以下场景:调度开关控制 仅当DataWorks工作空间开启 启用调度周期 开关后,工作空间中的任务才可以根据其配置自动调度运行。...

功能特性

单元化架构 任务调度支持单元化架构,在单元化架构下,任务调度可以识别到任务客户端所在的单元信息,指定单元进行任务触发。具体架构实现流程如下:客户端连接所有的 server,注册连接时携带单元信息。服务端任务触发时,会根据启动的单元...

概述

HoloStudio的数据开发模块与DataWorks无缝连接,提供一站式稳定高效的ETL(Extract-Transform-Load)服务,帮助您使用可视化方式周期性调度作业、创建外部表、同步外部表数据以及上传本地文件。数据开发 的核心功能如下:文件夹 用于存放并...

概述

HoloStudio的数据开发模块与DataWorks无缝连接,提供一站式稳定高效的ETL(Extract-Transform-Load)服务,帮助您使用可视化方式周期性调度作业、创建外部表、同步外部表数据以及上传本地文件。数据开发 的核心功能如下:文件夹 用于存放并...

工作流编辑

每个作业节点被拖入画布后,在 节点编辑 面板可以做如下配置。配置项 描述 关联作业 需要关联对应作业类型的作业。自定义作业配置 根据业务情况打开或者关闭 自定义作业配置。打开:您可以选择该作业节点的 执行集群。关闭(默认):该作业...

数据开发常见问题

问题分析:作业Task数目过多或Spark Executor数目过多,导致AppMaster调度启动Task的时间过长,单个Task运行时间较短,作业调度的Overhead较大。解决方法:减少Task数目,使用CombinedInputFormat。提高前序作业产出数据的Block Size(dfs....

调度任务

手动调度 不仅手动调度可以手动发起调度,周期调度、触发调度也支持手动发起调度。单击 手动调度,即可手动发起一次调度。查看执行结果 调度任务执行至少一次后,列表将显示最近一次执行的状态(执行成功/执行失败)。说明 若执行失败,可...

CancelDNAJob-取消DNA作业

建议先调用更新管道接口(UpdatePipeline)将管道状态置为 Paused,暂停作业调度,再调用取消作业接口取消作业;取消完后需要恢复管道状态为 Active,管道中的作业才会被调度执行。调试 您可以在OpenAPI Explorer中直接运行该接口,免去您...

设置调度器参数

调度器是集群上调度作业的软件,负责分发作业、处理作业优先级、按需分配计算节点资源(如vCPU、内存、节点个数)等。您可以根据作业大小,预估使用的节点资源和作业完成时间,设置集群的调度器参数,从而提高资源使用率。本文介绍如何在...

通过控制台提交作业

作业指提交到E-HPC集群进行高性能计算的基本工作单元,包括Shell脚本、可执行文件等,具体作业执行顺序根据您设置的队列以及调度器决定。E-HPC管理控制台提供了作业相关的提交作业、停止作业、查看作业状态等功能,本文介绍如何使用E-HPC...

配置示例:MaxCompute

数据质量的关联调度可以关联单个或多个节点任务,关联调度完成后,离线数据质量监控任务可以自动运行。说明 数据质量的关联可以灵活配置,您关联的任务并非一定与您的表有关系。在相应表的监控规则页面,单击 关联调度,配置规则与任务的...

什么是弹性高性能计算E-HPC

什么是文件存储NAS 对象存储OSS(Object Storage Service)对象存储服务可以存储您的作业数据及执行文件,您可以将对象存储服务内的作业数据及执行文件导入E-HPC集群。什么是对象存储OSS 功能特性 弹性高性能计算E-HPC主要提供以下功能。...

扩展MapReduce(MR2)

相比于传统的MapReudce,MaxCompute提供的扩展MapReduce模型(简称MR2)改变了底层的调度和IO模型,可避免作业时冗余的IO操作。与MaxCompute相比,MR2在Map、Reduce等函数编写方式上基本一致,较大的不同点发生在执行作业时,示例请参见 ...

创建CDH Spark节点

相关场景 DataWorks平台提供了完善的作业调度和监控功能,确保您的Spark作业能够顺利提交到CDH集群执行。这种方式不仅简化了作业的运维流程,还使得资源管理更为高效,以下是一些Spark任务的应用场景:数据分析:利用Spark SQL、Dataset...

BUILD

当需要按业务紧急程度调度BUILD任务时,可以通过Hint或者 SET ADB_CONFIG 调整单表或多表BUILD调度的优先级。重要 仅3.1.5.0及以上版本的集群支持配置BUILD调度的优先级。如何查看集群内核版本,请参见 如何查看实例版本信息。如需升级内核...

作业运维(新版)

查看包年包月Quota某个时间点作业占用资源情况 运维场景 您的 预付费默认Quota 这个Quota当前资源使用的水位很满,很多作业在等待,您需要查看具体什么作业在占用Quota资源。操作步骤 登录 MaxCompute管理控制台 的 作业运维 页面。设置 ...

Quota管理(新版)

如果有多个交互式Quota,MCQA作业默认调度到最早创建的交互式Quota里执行,因此需要结合Quota规则,可以实现不同Project发起的MCQA作业调度到不同的交互式Quota里执行,Quota规则详情请参见 Quota规则。单击 确定。配置Quota计划。新增的...

运行模式

使用场景适合于离线作业,可与阿里云DataWorks产品结合进行作业调度,命令行提交方式如下。path/to/MaxCompute-Spark为编译后的Application JAR包路径。cd$SPARK_HOME bin/spark-submit-master yarn-cluster-class ...

创建EMR Hive节点

可以创建EMR(E-MapReduce)HIVE节点,通过类SQL语句协助读写、管理存储在分布式存储系统上的大数据集的数据仓库,完成海量日志数据的分析和开发工作。前提条件 数据开发(DataStudio)中已创建业务流程。数据开发(DataStudio)基于业务...

任务冻结与解冻

什么做了冻结操作,任务还是执行?如何查看哪些用户对任务做过哪些操作?冻结周期任务和周期实例的影响 冻结与解冻周期任务 系统每晚会根据周期任务生成第二天要运行的周期实例,冻结周期任务会导致之后生成的周期实例处于冻结状态,并...

迁移方案

本文为您介绍从原有集群(线下IDC自建集群或ECS自建)迁移Flink作业到DataFlow集群的整体流程,包括准备工作,如何迁移作业,以及常见问题等。背景信息 EMR集群的基础信息,请参见 集群规划。准备工作 集群规划 创建DataFlow集群时,集群...
共有168条 < 1 2 3 4 ... 168 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
批量计算 开源大数据平台 E-MapReduce 实时计算 Flink版 音视频通信 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用