文章 2024-03-07 来自:开发者社区

探索Apache Hudi核心概念 (1) - File Layouts

在以往众多介绍Apcache Hudi的文章中,对核心概念的解读大多会引用官方文档中的概念图,像Timeline(时间线)、File Layouts(文件布局)这类结构清晰,逻辑严谨的概念,图解是很好的说明方式。但是,抽象概念与实际运行状况还是有不少差异的,相信很多学习和使用Hudi的开发者都曾尝试过:将文档中的概念和Hudi的实际运行状况结合起来推导每个动作背后的逻辑是什么。这个过程非常有意义....

探索Apache Hudi核心概念 (1) - File Layouts
文章 2024-03-07 来自:开发者社区

探索Apache Hudi核心概念 (3) - Compaction

Compaction是MOR表的一项核心机制,Hudi利用Compaction将MOR表产生的Log File合并到新的Base File中。本文我们会通过Notebook介绍并演示Compaction的运行机制,帮助您理解其工作原理和相关配置。 1. 运行 Notebook 本文使用的Notebook是:《Apache Hudi Core Conceptions (4) - M...

探索Apache Hudi核心概念 (3) - Compaction
文章 2024-03-07 来自:开发者社区

探索Apache Hudi核心概念 (4) - Clustering

探索Apache Hudi核心概念 (4) - Clustering Clustering是Hudi在0.7.0版本引入的一项特性,用于优化文件布局,提升读写性能,现在它已经成为Hudi的一项重要性能优化手段。本文我们会通过Notebook介绍并演示Clustering的运行机制,帮助您理解其工作原理和相关配置。 1. 运行 Notebook 本文使用的Notebook是...

探索Apache Hudi核心概念 (4) - Clustering
文章 2022-05-06 来自:开发者社区

Apache Hudi核心概念一网打尽

1. 场景近实时写入减少碎片化工具的使用CDC 增量导入 RDBMS 数据限制小文件的大小和数量近实时分析相对于秒级存储 (Druid, OpenTSDB) ,节省资源提供分钟级别时效性,支撑更高效的查询Hudi 作为 lib,非常轻量增量 pipeline区分 arrivetime 和 event time 处理延迟数据更短的调度 interval 减少端到端延迟 (小时 -> 分钟) ....

Apache Hudi核心概念一网打尽

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐

Apache Spark 中国技术社区

阿里巴巴开源大数据技术团队成立 Apache Spark 中国技术社区,定期推送精彩案例,问答区数个 Spark 技术同学每日在线答疑,只为营造 Spark 技术交流氛围,欢迎加入!

+关注
相关镜像