文章 2024-03-07 来自:开发者社区

详解Apache Hudi Schema Evolution(模式演进)

Schema Evolution(模式演进)允许用户轻松更改 Hudi 表的当前模式,以适应随时间变化的数据。从 0.11.0 版本开始,支持 Spark SQL(spark3.1.x 和 spark3.2.1)对 Schema 演进的 DDL 支持并且标志为实验性的。 场景 • 可以添加、删除、修改和移动列(包括嵌套列) • 分区列不能演进 • 不能对 Arra...

详解Apache Hudi Schema Evolution(模式演进)
文章 2024-03-07 来自:开发者社区

医疗在线OLAP场景下基于Apache Hudi 模式演变的改造与应用

背景 在 Apache Hudi支持完整的Schema演变的方案中 硬核!Apache Hudi Schema演变深度分析与应用 读取方面,只完成了SQL on Spark的支持(Spark3以上,用于离线分析场景),Presto(用于在线OLAP场景)及Apache Hive(Hudi的bundle包)的支持,在正式发布版本中(Hudi 0.12.1, PrestoDB 0.277)还...

医疗在线OLAP场景下基于Apache Hudi 模式演变的改造与应用
文章 2023-06-12 来自:开发者社区

Apache Hudi初探(九)(与spark的结合)--非bulk_insert模式

背景之前讨论的都是’hoodie.datasource.write.operation’:'bulk_insert’的前提下,在这种模式下,是没有json文件的已形成如下的文件:/dt=1/.hoodie_partition_metadata /dt=1/2ffe3579-6ddb-4c5f-bf03-5c1b5dfce0a0-0_0-41263-0_20230528233336713.parq....

文章 2022-05-07 来自:开发者社区

Apache Hudi 如何加速传统的批处理模式?

1. 现状说明1.1 数据湖摄取和计算过程 - 处理更新在我们的用例中1-10% 是对历史记录的更新。当记录更新时,我们需要从之前的 updated_date 分区中删除之前的条目,并将条目添加到最新的分区中,在没有删除和更新功能的情况下,我们必须重新读取整个历史表分区 -> 去重数据 -> 用新的去重数据覆盖整个表分区1.2 当前批处理过程中的挑战这个过程有效,但也有其自身的缺陷:....

Apache Hudi 如何加速传统的批处理模式?

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐

Apache Spark 中国技术社区

阿里巴巴开源大数据技术团队成立 Apache Spark 中国技术社区,定期推送精彩案例,问答区数个 Spark 技术同学每日在线答疑,只为营造 Spark 技术交流氛围,欢迎加入!

+关注
相关镜像