文章 2023-05-22 来自:开发者社区

带你读《全链路数据治理-全域数据集成》之19:5. 场景(下)

《全链路数据治理-全域数据集成》——三、数据同步网络连通实践——. 场景(上) :https://developer.aliyun.com/article/1223037场景四:通过 VPC(内网)同步数据库数据,且数据库与 DataWorks工作空间使用不同阿里云主账号1) 网络连通方案2) 网络连通方案架构图3) 网络连通配置操作指导l 为独享数据集成资源组绑定一个 VPC。 Ø 在 Dat....

带你读《全链路数据治理-全域数据集成》之19:5. 场景(下)
文章 2023-05-22 来自:开发者社区

带你读《全链路数据治理-全域数据集成》之20:6. 附录

6. 附录1) 网络连通解决方案如下:l 云企业网使用场景示例,请参见云企业网。l VPN 网关使用场景示例,请参见 VPN 网关。2) 查看数据集成任务执行集群的方式如下:l 任务运行在默认的资源组上,日志中会出现如下信息:running in Pipeline[basecommon_ group_xxxxxxxxx]。l 任务运行在独享数据集成资源上,日志中会出现如下信息:running i....

文章 2023-05-22 来自:开发者社区

带你读《全链路数据治理-全域数据集成》之21:7. 后续步骤

7. 后续步骤1) 网络连通配置l 选择合适的网络连通方案后,您可参考连通方案对应的操作引导配置数据源与资源组的网络连通。l 完成网络连通配置后,您可根据数据库是否开启白名单设置,如果开启了白名单,则您需要将资源组相应的 IP 地址段添加至数据库的白名单中,避免资源组无法正常读写数据库的数据,详情可参见添加白名单。l 如果您的数据库是 ECS 自建数据库,您还需安全组配置,详情可参见 ECS自建....

文章 2023-05-22 来自:开发者社区

带你读《全链路数据治理-全域数据集成》之22:1. 背景信息

四、离线同步至 MaxCompute 实践概述:DataWorks 数据集成是阿里云数据上云的核心枢纽,提供了功能丰富强大的一站式离线&实时数据同步能力,满足数据入仓入湖的需求。 本文将以 MySQL 离线同步写入离线数仓 MaxCompute 场景为例,为您介绍数据集成离线同步最佳实践。 1. 背景信息MaxCompute 是阿里云自研的离线数仓,具备高效强大的离线数据处理分析能力。数....

文章 2023-05-22 来自:开发者社区

带你读《全链路数据治理-全域数据集成》之23:2. 使用限制

2. 使用限制为保证同步资源能够独占稳定使用,对于生产级别同步任务建议使用数据集成独享资源组。

文章 2023-05-22 来自:开发者社区

带你读《全链路数据治理-全域数据集成》之24:3. 准备工作:添加数据源

3. 准备工作:添加数据源1) 新建 MySQL 数据源新建 MySQL 数据源,支持阿里云实例模式和连接串模式。 l 阿里云实例模式:适用于阿里云 RDS For MySQL。 l 连接串模式:适用于自建、公网或本地 IDC 机房 MySQL。 本文以阿里云 RDS For MySQL 为例,新建数据源如下: 点击要同步该数据源的数据集成独享资源组测试连通性,确保数据源连通状态为“可连通”。2....

带你读《全链路数据治理-全域数据集成》之24:3. 准备工作:添加数据源
文章 2023-05-22 来自:开发者社区

带你读《全链路数据治理-全域数据集成》之25:4. 配置任务

4. 配置任务1) 创建同步任务l 新建业务流程:进入 DataWorks DataStudio(数据开发)页面,选中已存在业务流程或新建业务流程。 l 创建离线同步节点:选中离线任务所属的业务流程,单击右键,新建“离线同步”节点。l 设置数据来源:设置数据源类型、数据源名称、待同步源表、数据过滤规则和切分键。数据过滤规则支持数据源 SQL 的 where 过滤语句和 DataWorks的调度系....

带你读《全链路数据治理-全域数据集成》之25:4. 配置任务
文章 2023-05-22 来自:开发者社区

带你读《全链路数据治理-全域数据集成》之26:5. 提交执行任务

5. 提交执行任务1) 提交任务任务配置已经完成,此时可以依次点击保存和提交按钮将同步任务发不到生产环境运行。 2) 版本管理点击右侧版本按钮可以进行版本查看、对比、回滚等操作。 3) 任务运维进入 DataWorks 运维中心(工作流)->周期任务运维->周期任务页面可以找到刚才提交发布的周期任务,支持对周期任务进行任务暂停、恢复、补数据等运维操作,详细文档可以参见周期任务运维帮助....

带你读《全链路数据治理-全域数据集成》之26:5. 提交执行任务
文章 2023-05-22 来自:开发者社区

带你读《全链路数据治理-全域数据集成》之27:1.背景信息

五、分库分表至 Hologres 最佳实践概述:DataWorks 数据集成是阿里云数据上云的核心枢纽,提供了功能丰富强大的一站式实时数据同步能力,满足实时数据实时入仓入湖的需求。 本文将以 MySQL 分库分表实时写入实时数仓 Hologres 场景为例,为您介绍分库分表写入 Hologres 数据集成最佳实践。 1. 背景信息1) 业务诉求MySQL 分库分表的场景下,上游的表和库非常多,都....

带你读《全链路数据治理-全域数据集成》之27:1.背景信息
文章 2023-05-22 来自:开发者社区

带你读《全链路数据治理-全域数据集成》之28:2. 使用限制

2. 使用限制 l 目前仅支持 MySQL/PolarDB for MySQL 单实例同步。 l 需要使用 DataWorks 独享数据集成资源组。

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

DataWorks

DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。作为阿里巴巴数据中台的建设者,DataWorks从2009年起不断沉淀阿里巴巴大数据建设方法论,同时与数万名政务/金融/零售/互联网/能源/制造等客户携手,助力产业数字化升级。

+关注