文章 2023-05-22 来自:开发者社区

带你读《全链路数据治理-全域数据集成》之22:1. 背景信息

四、离线同步至 MaxCompute 实践概述:DataWorks 数据集成是阿里云数据上云的核心枢纽,提供了功能丰富强大的一站式离线&实时数据同步能力,满足数据入仓入湖的需求。 本文将以 MySQL 离线同步写入离线数仓 MaxCompute 场景为例,为您介绍数据集成离线同步最佳实践。 1. 背景信息MaxCompute 是阿里云自研的离线数仓,具备高效强大的离线数据处理分析能力。数....

文章 2023-05-22 来自:开发者社区

带你读《全链路数据治理-全域数据集成》之23:2. 使用限制

2. 使用限制为保证同步资源能够独占稳定使用,对于生产级别同步任务建议使用数据集成独享资源组。

文章 2023-05-22 来自:开发者社区

带你读《全链路数据治理-全域数据集成》之24:3. 准备工作:添加数据源

3. 准备工作:添加数据源1) 新建 MySQL 数据源新建 MySQL 数据源,支持阿里云实例模式和连接串模式。 l 阿里云实例模式:适用于阿里云 RDS For MySQL。 l 连接串模式:适用于自建、公网或本地 IDC 机房 MySQL。 本文以阿里云 RDS For MySQL 为例,新建数据源如下: 点击要同步该数据源的数据集成独享资源组测试连通性,确保数据源连通状态为“可连通”。2....

带你读《全链路数据治理-全域数据集成》之24:3. 准备工作:添加数据源
文章 2023-05-22 来自:开发者社区

带你读《全链路数据治理-全域数据集成》之25:4. 配置任务

4. 配置任务1) 创建同步任务l 新建业务流程:进入 DataWorks DataStudio(数据开发)页面,选中已存在业务流程或新建业务流程。 l 创建离线同步节点:选中离线任务所属的业务流程,单击右键,新建“离线同步”节点。l 设置数据来源:设置数据源类型、数据源名称、待同步源表、数据过滤规则和切分键。数据过滤规则支持数据源 SQL 的 where 过滤语句和 DataWorks的调度系....

带你读《全链路数据治理-全域数据集成》之25:4. 配置任务
文章 2023-05-22 来自:开发者社区

带你读《全链路数据治理-全域数据集成》之26:5. 提交执行任务

5. 提交执行任务1) 提交任务任务配置已经完成,此时可以依次点击保存和提交按钮将同步任务发不到生产环境运行。 2) 版本管理点击右侧版本按钮可以进行版本查看、对比、回滚等操作。 3) 任务运维进入 DataWorks 运维中心(工作流)->周期任务运维->周期任务页面可以找到刚才提交发布的周期任务,支持对周期任务进行任务暂停、恢复、补数据等运维操作,详细文档可以参见周期任务运维帮助....

带你读《全链路数据治理-全域数据集成》之26:5. 提交执行任务
文章 2023-05-22 来自:开发者社区

带你读《全链路数据治理-全域数据集成》之32:1. 背景信息

六、分库分表至 MaxCompute 实践1. 背景信息1) 业务诉求MySQL 分库分表的场景下,上游的表和库非常多,都需要同时写入一张MaxCompute 表,如果要同时配置多个任务则会导致配置非常复杂且运维困难。 针对上诉痛点,阿里云 DataWorks 数据集成分库分表同步解决方案提供了面向业务场景的同步任务配置化方案,支持不同数据源的一键同步功能,方便业务简单快速的进行数据同步。 2)....

带你读《全链路数据治理-全域数据集成》之32:1. 背景信息
文章 2023-05-22 来自:开发者社区

带你读《全链路数据治理-全域数据集成》之33:2. 使用限制

2. 使用限制1) 同步资源组:分库分表同步至 MaxCompute 需要使用 DataWorks 独享数据集成资源组2) 表数量上限:l 单数据源,源库支持的数量上限为 50。l 单数据源,源表支持的数量上限为 5000。l 单同步任务逻辑表数量上限为 3000。3) 跨时区同步限制:同步解决方案暂不支持跨时区同步数据。如果同步任务中同步的数据源与使用的DataWorks 资源组不在同一个时区....

文章 2023-05-22 来自:开发者社区

带你读《全链路数据治理-全域数据集成》之34:3. 准备工作:添加数据源

3. 准备工作:添加数据源1) 新建 MySQL 数据源新建 MySQL 数据源,支持阿里云实例模式和连接串模式。 l 阿里云实例模式:适用于阿里云 RDS For MySQL。l 连接串模式:适用于自建、公网或本地 IDC 机房 MySQL。本文以阿里云 RDS for MySQL 为例,新建数据源如下:点击要同步该数据源的数据集成独享资源组测试连通性,确保数据源连通状态为“可连通”。2) 新....

带你读《全链路数据治理-全域数据集成》之34:3. 准备工作:添加数据源
文章 2023-05-22 来自:开发者社区

带你读《全链路数据治理-全域数据集成》之35:4.任务配置(上)

4. 任务配置 1) 创建同步任务在 DataWorks 管控台进入数据集成主站,点击同步任务,新建任务。 选择分库分表实时同步至 MaxCompute 解决方案。 2) 配置同步网络连接在数据来源中选择多个数据源,作为分库分表解决方案的数据来源,点击各个数据来源可以收缩、展开。其中多个数据源必须保持类型一致,比如都是 MySQL 数据源。 本步骤要求所选用的数据源和资源组具有网络连通性。 3)....

带你读《全链路数据治理-全域数据集成》之35:4.任务配置(上)
文章 2023-05-22 来自:开发者社区

带你读《全链路数据治理-全域数据集成》之35:4.任务配置(中)

《全链路数据治理-全域数据集成》——六、分库表至 MaxCompute 实践——4.任务配置(上): https://developer.aliyun.com/article/12229396) 手动配置逻辑表在“自动生成逻辑表”与期望的匹配结果不符时,可以编辑逻辑表匹配规则,也可以通过“添加逻辑表”添加没有扫描到的逻辑表。有几个逻辑表需要同步,就在此处添加几个。同一逻辑表的数据会同步到目标表中....

带你读《全链路数据治理-全域数据集成》之35:4.任务配置(中)

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

DataWorks

DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。作为阿里巴巴数据中台的建设者,DataWorks从2009年起不断沉淀阿里巴巴大数据建设方法论,同时与数万名政务/金融/零售/互联网/能源/制造等客户携手,助力产业数字化升级。

+关注