文章 2024-03-07 来自:开发者社区

基于Apache Hudi + MinIO 构建流式数据湖

Apache Hudi 是一个流式数据湖平台,将核心仓库和数据库功能直接引入数据湖。Hudi 不满足于将自己称为 Delta 或 Apache Iceberg 之类的开放文件格式,它提供表、事务、更新/删除、高级索引、流式摄取服务、数据聚簇/压缩优化和并发性。Hudi 于 2016 年推出,牢牢扎根于 Hadoop 生态系统,解释了名称背后的含义:Hadoop Upserts Deletes a....

基于Apache Hudi + MinIO 构建流式数据湖
文章 2024-03-07 来自:开发者社区

Zoom 基于Apache Hudi 的流式日志处理实践

在当今的数字时代,日志记录是应用程序开发和管理的一个重要方面,但在遵守数据保护法规的同时有效管理日志可能是一项重大挑战。Zoom 与 AWS 数据实验室团队合作,开发了一种创新架构来克服这些挑战并简化日志记录和记录删除流程。在本文中我们探讨了架构及其为 Zoom 及其用户提供的优势。 应用程序日志挑战:数据管理和合规性 应用程序日志是任何应用程序的重要组成部分;它们提供有关系统的...

Zoom 基于Apache Hudi 的流式日志处理实践
文章 2022-05-07 来自:开发者社区

Apache Hudi 0.9.0版本重磅发布!更强大的流式数据湖平台

1. 重点特性1.1 Spark SQL支持0.9.0 添加了对使用 Spark SQL 的 DDL/DML 的支持,朝着使所有角色(非工程师、分析师等)更容易访问和操作 Hudi 迈出了一大步。 用户现在可以使用 CREATE TABLE....USING HUDI 和 CREATE TABLE .. AS SELECT 语句直接在 Hive 等目录中创建和管理表。 然后用户可以使用 INSE....

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐

Apache Spark 中国技术社区

阿里巴巴开源大数据技术团队成立 Apache Spark 中国技术社区,定期推送精彩案例,问答区数个 Spark 技术同学每日在线答疑,只为营造 Spark 技术交流氛围,欢迎加入!

+关注
相关镜像