文章 2024-03-12 来自:开发者社区

一文了解Apache Hudi架构、工具和最佳实践

1. 什么是Hudi? Apache Hudi代表Hadoop Upserts anD Incrementals,管理大型分析数据集在HDFS上的存储。Hudi的主要目的是高效减少摄取过程中的数据延迟。由Uber开发并开源,HDFS上的分析数据集通过两种类型的表提供服务:读优化表(Read Optimized Table)和近实时表(Near-Real-Time Table)。 ...

一文了解Apache Hudi架构、工具和最佳实践
文章 2024-03-12 来自:开发者社区

Apache Hudi实时入湖之DeltaStreamer最佳实践

1. 背景 传统大数据平台的组织架构是针对离线数据处理需求设计的,常用的数据导入方式为采用sqoop定时作业批量导入。随着数据分析对实时性要求不断提高,按小时、甚至分钟级的数据同步越来越普遍。由此展开了基于spark/flink流处理机制的(准)实时同步系统的开发。 然而实时同步从一开始就面临如下几个挑战: •小文件问题。不论是spark的microbatch模式,还是f...

Apache Hudi实时入湖之DeltaStreamer最佳实践
文章 2024-03-07 来自:开发者社区

万字长文:基于Apache Hudi + Flink多流拼接(大宽表)最佳实践

1. 背景 经典场景 Flink 侧实现 ...

万字长文:基于Apache Hudi + Flink多流拼接(大宽表)最佳实践

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐

Apache Spark 中国技术社区

阿里巴巴开源大数据技术团队成立 Apache Spark 中国技术社区,定期推送精彩案例,问答区数个 Spark 技术同学每日在线答疑,只为营造 Spark 技术交流氛围,欢迎加入!

+关注
相关镜像