阿里云文档 2025-11-03

使用DistCp任务实现大规模文件迁移

当您需要大文件或多文件的纯文件复制时,可以使用DataWorks创建DistCp任务,该方式能够极大的提高同步传输的效率,实现跨文件系统、大规模数据迁移和同步需求。

阿里云文档 2025-10-16

创建一个具备AI处理能力的数据集成任务

该功能在DataWorks数据集成链路中,原生集成了AI大模型处理能力。它将传统的数据同步从简单的“搬运”升级为智能的“加工”,允许用户在数据从源到端的传输过程中,实时调用AI模型对流经的数据进行内容分析、处理与增强,在数据流转的过程中释放非结构化数据的隐藏价值。

阿里云文档 2025-10-16

通过离线同步任务实现Embedding向量化处理

阿里云DataWorks数据集成推出Embedding向量化功能,支持将分散在OSS、MaxCompute、HDFS等异构来源中的数据抽取并转化为向量,写入Milvus、Elasticsearch、Opensearch等向量库,以及Hologres向量表等具备向量存储能力的目标端,能够大幅简化ETL流程,高效实现知识向量化,助力RAG等AI场景落地。

阿里云文档 2025-09-12

如何配置整库离线同步任务

DataWorks的整库离线同步功能,支持将源数据库中的全部或部分表结构与数据,批量、周期性地进行全量或增量同步至目标端,是实现高效数据迁移的关键解决方案。本文将以MySQL整库迁移至MaxCompute为例,介绍配置此类任务的通用流程。

阿里云文档 2025-08-29

如何配置单表实时同步

DataWorks数据集成提供了单表实时同步任务,旨在实现不同数据源之间低延迟、高吞吐量的数据复制与流转。该功能基于先进的实时计算引擎,能够捕获源端数据的实时变更(增、删、改),并将其快速应用到目标端。本文以Kafka单表实时同步至MaxCompute为例,讲述单表实时的配置方式。

文章 2024-08-19 来自:开发者社区

DataWorks产品使用合集之怎么配置定时调度任务

问题一:DataWorks数据开发参数? DataWorks数据开发参数? 参考回答: 参数类型包括常量、变量和透传变量。 常量:参数取值为一个固定值。 变量:参数取值为变量,如果您需要使用系统时间等这类变量参数时,添加参数的参数类型需选择为变量。变量参数的详细介绍可参见调度参数支持的格式。 透传变量:透传变量主要用于将上游节点...

DataWorks产品使用合集之怎么配置定时调度任务
文章 2024-08-19 来自:开发者社区

DataWorks产品使用合集之如何配置指定日期进行调度任务

问题一:DataWorks这次又出现问题了但是我怀疑不是公网波动导致的影响怎么办? "DataWorks这次又出现问题了 但是我怀疑不是公网波动导致的影响 我们从多个不同的数据源进行了数据抽取,发现网络速度都下降了不少,怀疑是同步写入的时候速度慢导致" 参考回答: 内网会相对公网稳定一点,目前任务并发数也只配置了1 ;还是建议走内网 并...

DataWorks产品使用合集之如何配置指定日期进行调度任务
文章 2024-07-18 来自:开发者社区

DataWorks产品使用合集之SAP数据源怎么通过向导模式配置同步任务

问题一:dataworks中SAP数据源是否支持通过向导模式配置同步任务呢? dataworks中SAP数据源是否支持通过向导模式配置同步任务呢? 参考回答: 在DataWorks中,通过向导模式配置同步任务主要适用于支持标准数据集成流程的数据源。至于SAP数据源,具体是否支持向导模式配置同步任务取决于SAP数据源的集成方式和所提供的接口。 一...

DataWorks产品使用合集之SAP数据源怎么通过向导模式配置同步任务
文章 2024-07-17 来自:开发者社区

DataWorks产品使用合集之如何配置参数来控制同步任务每次读取数据的条数

问题一:DataWorks非结构化数据系统可以管理起来么? DataWorks非结构化数据系统可以管理起来么?我们有图片,文件这些资料,也想在系统里能够管理起来,但是我没找到地方,不知道能不能做到 参考回答: DataWorks确实有能力管理非结构化数据,如图片和文件等资料。 以下是DataWorks在非结构化数据管理方面的主要功能: ...

DataWorks产品使用合集之如何配置参数来控制同步任务每次读取数据的条数
文章 2024-07-17 来自:开发者社区

DataWorks产品使用合集之如何配置数据过滤规则以确保在同一时间调度执行的数据抽取或同步任务处理的是同一时间范围的数据

问题一:datawork 中这个界面的搜索框咋没了? datawork 中这个界面的搜索框咋没了? 换了个位置,放在左边了 ...

DataWorks产品使用合集之如何配置数据过滤规则以确保在同一时间调度执行的数据抽取或同步任务处理的是同一时间范围的数据

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

大数据开发治理平台 DataWorks任务相关内容

大数据开发治理平台 DataWorks更多任务相关

产品推荐

DataWorks

DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。作为阿里巴巴数据中台的建设者,DataWorks从2009年起不断沉淀阿里巴巴大数据建设方法论,同时与数万名政务/金融/零售/互联网/能源/制造等客户携手,助力产业数字化升级。

+关注