SelectDB 深度融合 Iceberg、Paimon 等开放湖仓格式,结合向量化执行引擎、物化视图和现代化的查询优化器,能够获得极佳的湖仓数据分析体验。
SelectDB 不仅支持 MySQL、PostgreSQL、Oracle、Clickhouse 等多种 JDBC 协议的数据库和湖仓系统,实现快捷的多数据源联邦分析,同时还具有 ZeroETL 能力。
基于无状态的计算节点,SelectDB 可以按需创建不同的计算组资源,在共享湖仓数据的同时,隔离计算资源,按需应对不同的业务负载需求。
Trino/Presto | VS | SelectDB |
功能单一,依赖外部组件 仅支持手动和全量的物化视图刷新,并且依赖开放湖格式提供存储能力。 | 物化视图 | 增量更新和透明加速 高效支持各个数据源的物化视图构建,以及物化视图的增量更新和查询透明加速能力,极大提升查询效率。 |
复杂查询优化效果差 基于代价和规则的查询优化器,支持复杂SQL优化,但不支持统计信息的自动收集。 | 查询优化器 | 复杂查询精准优化 基于代价和规则的查询优化器。拥有丰富的统计信息自动收集和采样能力,能够获得更精准的查询规划。 |
依靠第三方组件 依赖外部组件如 Alluxio 提供缓存能力。 | 缓存能力 | 开箱即用 内置基于内存和本地高速磁盘的数据缓存能力,并拥有丰富的缓存预热与淘汰策略。 |
适用场景单一 仅作为查询引擎。 | 应用场景 | 适用场景丰富 云原生数据仓库,内置高性能表格存储,既可支持低延迟的高并发查询,又可作为湖仓查询引擎进行交互式查询分析。 |
本方案通过 SelectDB 在 OSS(对象存储)上构建 Iceberg 湖格式的 TPC-H 100G 测试数据集,来验证 SelectDB 对于开放湖格式 Iceberg 的数据写入能力和分析加速能力。同时,通过 DTS(数据传输服务)将云数据库 RDS MySQL 版实例中的业务数据实时同步到 SelectDB 中,并利用 SelectDB 的异步物化视图和透明改写的功能,进行 SelectDB 内表、MySQL 表、Iceberg 表的联邦分析查询和多数据源的轻量级 ETL。通过湖仓分析加速、湖仓数据处理和多源联邦分析三个典型场景,实现了基于 SelectDB 湖仓一体的最佳实践。
通过 SelectDB 直接访问存储在 OSS、HDFS上的 Iceberg、Paimon 格式的数据。并利用数据本地缓存、物化视图透明改写等技术,显著提升湖上数据分析性能。
利用 SelectDB 内置的多种连接器,将 Hive、Iceberg、Paimon、RDS 以及 SelectDB 内表数据关联查询,彻底解决数据孤岛问题,提升数据分析时效性,降低数据在不同系统间传输转换的成本。
通过 SelectDB 的高性能数据湖处理引擎对各类数据源数据进行加工处理,并且可以将加工后的数据直接写回 Hive、Iceberg 或 RDS 等,让数据在不同数据源间自由流转。
本方案是基于开放可控数据湖仓构建的大数据/搜索/ AI 一体化解决方案。通过元数据管理平台 DLF 管理结构化和半/非结构化数据,提供湖仓数据表和文件的安全访问及 IO 加速。支持多引擎对接和平权协同计算,通过 DataWorks 统一开发,并保障大规模任务调度。
本方案将 Hologres 与 Flink 深度集成,提供一体化的实时数仓联合解决方案,实现了数仓分层之间实时数据的高效流动,解决实时数仓分层问题。本方案能够支撑实时推荐、实时风控等多种实时数仓应用场景,满足企业的实时分析需求,具有中间层数据可查、支持数仓分层复用和架构简单等优势。