文章 2024-03-07 来自:开发者社区

记录级别索引:Apache Hudi 针对大型数据集的超快索引

介绍 索引是一个关键组件,有助于 Hudi 写入端快速更新和删除,并且它在提高查询执行方面也发挥着关键作用。Hudi提供了多种索引类型,包括全局变化的Bloom索引和Simple索引、利用HBase服务的HBase索引、基于哈希的Bucket索引以及通过元数据表实现的多模态索引。索引的选择取决于表大小、分区数据分布或流量模式等因素,其中特定索引可能更适合更简单的操作或更好的性能。用户在为...

记录级别索引:Apache Hudi 针对大型数据集的超快索引
文章 2022-05-06 来自:开发者社区

官宣!AWS Athena正式可查询Apache Hudi数据集

1. 引入Apache Hudi是一个开源的增量数据处理框架,提供了行级insert、update、upsert、delete的细粒度处理能力(Upsert表示如果数据集中存在记录就更新;否则插入)。Hudi处理数据插入和更新,不会创建太多的小文件(小文件会导致查询端性能降低),Apache Hudi自动管理及合并小文件,让其保持指定大小,这避免了自建解决方案来监控和重写小文件为大文件。Hudi....

文章 2022-05-06 来自:开发者社区

实战 | 将Apache Hudi数据集写入阿里云OSS

1. 引入云上对象存储的廉价让不少公司将其作为主要的存储方案,而Hudi作为数据湖解决方案,支持对象存储也是必不可少。之前AWS EMR已经内置集成Hudi,也意味着可以在S3上无缝使用Hudi。当然国内用户可能更多使用阿里云OSS作为云上存储方案,那么如果用户想基于OSS构建数据湖,那么Hudi是否支持呢?随着Hudi社区主分支已经合并了支持OSS的PR,现在只需要基于master分支buil....

实战 | 将Apache Hudi数据集写入阿里云OSS

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐

Apache Spark 中国技术社区

阿里巴巴开源大数据技术团队成立 Apache Spark 中国技术社区,定期推送精彩案例,问答区数个 Spark 技术同学每日在线答疑,只为营造 Spark 技术交流氛围,欢迎加入!

+关注
相关镜像