阿里云文档 2025-12-09

如何配置整库离线同步任务

DataWorks的整库离线同步功能,支持将源数据库中的全部或部分表结构与数据,批量、周期性地进行全量或增量同步至目标端,是实现高效数据迁移的关键解决方案。本文将以MySQL整库迁移至MaxCompute为例,介绍配置此类任务的通用流程。

阿里云文档 2025-11-03

使用DistCp任务实现大规模文件迁移

当您需要大文件或多文件的纯文件复制时,可以使用DataWorks创建DistCp任务,该方式能够极大的提高同步传输的效率,实现跨文件系统、大规模数据迁移和同步需求。

阿里云文档 2025-10-24

本文介绍了使用VS Code、通义灵码和spark-submit工具自动生成PySpark任务代码并提交至EMR Serverless Spark的全流程方法,显著简化了开发与执行复杂度。

通过VS Code、通义灵码以及Serverless Spark提供的spark-submit工具,用户能够快速生成Spark任务代码并将其提交至Serverless Spark进行执行。本文将为您详细介绍如何使用上述工具提交Serverless Spark任务。

阿里云文档 2025-10-16

通过离线同步任务实现Embedding向量化处理

阿里云DataWorks数据集成推出Embedding向量化功能,支持将分散在OSS、MaxCompute、HDFS等异构来源中的数据抽取并转化为向量,写入Milvus、Elasticsearch、Opensearch等向量库,以及Hologres向量表等具备向量存储能力的目标端,能够大幅简化ETL流程,高效实现知识向量化,助力RAG等AI场景落地。

问答 2024-08-14 来自:开发者社区

大数据计算MaxCompute的任务依赖调度问题。调度任务起来的时候,是如何形成依赖链的?

大数据计算MaxCompute的任务依赖调度问题。调度任务起来的时候,是如何形成依赖链的。当所有任务都是天调度,中间有一部分需要小时调度,会怎么样。这个是问您还是问datawork群里的人?

问答 2024-07-17 来自:开发者社区

MaxCompute odps天任务依赖小时任务

问题描述MaxCompute odps天任务依赖小时任务,天任务是当天跑昨天数据,昨天的数据都是小时任务。发现昨天的小时任务还没完全跑完,天任务就已经开始运行了,导致天任务获取的数据不完整。期望结果昨天的00-23,24个小时分区数据运行完成之后,天任务再运行。保证天任务的数据是完整的。已尝试的方法...

问答 2024-06-25 来自:开发者社区

在大数据计算MaxCompute中未发布但是提交的etl任务可以按照依赖调度不?

在大数据计算MaxCompute中未发布但是提交的etl任务可以按照依赖调度不?

文章 2022-02-16 来自:开发者社区

【大数据开发套件调度配置实践】——不同周期任务依赖配置

大数据开发过程中常遇到不同运行周期的任务进行依赖,常见 天任务依赖小时任务、 小时任务依赖分钟任务 。那么如何通过大数据开发套件开发这两种场景呢? 本文将从这两个场景出发,结合调度依赖/参数/调度执行等,介绍不同周期调度依赖的最佳操作实践。 再此之前,我们先明确几个概念: 业务日期:业务数据产生的日期,这里指完整一天的业务数据。在大数据开发套件里任务每天能处理的最近的完整一天业务数据是昨天的数.....

【大数据开发套件调度配置实践】——不同周期任务依赖配置

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

云原生大数据计算服务 MaxCompute任务相关内容

云原生大数据计算服务 MaxCompute更多任务相关

云原生大数据计算服务 MaxCompute您可能感兴趣

产品推荐

阿里巴巴大数据计算

阿里大数据官方技术圈

+关注