相比于传统数据集成流水线,Flink CDC 提供了全量和增量一体化同步的解决方案。对于一个同步任务,只需使用一个 Flink 作业即可将上游的全量数据和增量数据一致地同步到下游系统。此外, Flink CDC 使用了增量快照算法,无需任何额外配置即可实现全量和增量数据的无缝切换。
Flink CDC 基于数据库日志的 CDC(变更数据捕获)技术实现了统一的增量和全量数据读取,减少维护组件,简化实时链路,降低部署成本。
Flink CDC 能够实时捕获并同步源数据库的增量变动,保证数据的实时性和一致性。Flink CDC 采用流式处理方式,能够高效地处理大规模的增量变动数据。
Flink CDC 可以轻松地扩展到大规模数据处理场景,满足不断增长的数据同步需求。API 和连接器设计简洁易用,方便快速开发和集成,灵活适配多种业务需求。
传统数据同步方案 | VS | 阿里云 Flink CDC 数据同步方案 |
全增量两套架构,维护困难 需维护全量与增量同步两条链路,定时合并数据以获得最终结果,但合并任务受调度系统间隔限制,数据时效性欠佳。此外,增量同步位点需手动指定,难以与全量同步链路的完成位点对接,数据一致性难以确保。 | 成本与运维 | 全增量一体化,简化维护 统一的全增量数据读取框架简化了维护工作。阿里云提供了丰富的自动化运维工具,使用户能够轻松监控系统运行状态,无需过多关注底层服务器和基础设施。此外,支持横向扩展,有效减轻了运维压力。 |
需手动管理服务器资源 传统数据增量同步工具 Debezium 和 Canal 仅支持单机部署,无法横向扩展,只能通过升级服务器配置来应对资源瓶颈。 | 稳定与弹性 | 自动弹性伸缩、高可用 基于 Serverless 的服务支持作业弹性扩缩容, 根据实时需求动态调整资源,适应不同的工作负载。 |
支持的数据源和转换功能有限 传统数据集成工具生态支持不完善,需为不同数据源配置特定的增量同步服务,且数据转换功能有限,操作复杂。 | 生态与转换 | 丰富的生态与强大的转换能力 支持丰富的上下游生态系统,包括Kafka、Paimon、StarRocks、Hologres等,同时还支持自定义连接器。另外还具备强大的数据转换功能,可通过 CDC YAML 作业实现数据同步过程中的多种转换操作。 |
Flink CDC 支持丰富的上下游生态,如 Kafka、Paimon、StarRocks、Hologres 等。本方案以云数据库 RDS MySQL 作为数据摄入源端,借助阿里云实时计算 Flink 版快速地在云端 OSS 上构建以 Apache Paimon 为湖存储格式的实时湖仓一体架构。
本方案通过在实时计算 Flink 版配置 Flink CDC YAML 作业,实现将云数据库 RDS MySQL 的分库分表数据合并至数据湖仓中的一张表,并将其他数据库整库同步至数据湖 Paimon。同时,业务库修改源端表结构会自动被发现并实时同步到下游数据湖 Paimon 中。
Flink CDC 在数据分发方面,确保数据能够高效、可靠地从源端传输到下游 Paimon、Kafka、StarRocks 等系统。
Flink CDC 支持将分散异构的数据源实时集成到数据湖仓中,消除数据孤岛,强化数据一致性和利用率。
Flink CDC 支持 YAML API 表达筛选、过滤和自定义函数等数据变换操作,实现流式清洗数据。
本方案是基于开放可控数据湖仓构建的大数据/搜索/ AI 一体化解决方案。通过元数据管理平台 DLF 管理结构化和半/非结构化数据,提供湖仓数据表和文件的安全访问及 IO 加速。支持多引擎对接和平权协同计算,通过 DataWorks 统一开发,并保障大规模任务调度。
本方案将 Hologres 与 Flink 深度集成,提供一体化的实时数仓联合解决方案,实现了数仓分层之间实时数据的高效流动,解决实时数仓分层问题。本方案能够支撑实时推荐、实时风控等多种实时数仓应用场景,满足企业的实时分析需求,具有中间层数据可查、支持数仓分层复用和架构简单等优势。