文章 2024-03-12 来自:开发者社区

查询时间降低60%!Apache Hudi数据布局黑科技了解下

1. 背景 Apache Hudi将流处理带到大数据,相比传统批处理效率高一个数量级,提供了更新鲜的数据。在数据湖/仓库中,需要在摄取速度和查询性能之间进行权衡,数据摄取通常更喜欢小文件以改善并行性并使数据尽快可用于查询,但很多小文件会导致查询性能下降。在摄取过程中通常会根据时间在同一位置放置数据,但如果把查询频繁的数据放在一起时,查询引擎的性能会更好,大多数系统都倾向于支持独立的优化来...

查询时间降低60%!Apache Hudi数据布局黑科技了解下
文章 2022-05-07 来自:开发者社区

查询性能提升3倍!Apache Hudi 查询优化了解下?

1. 背景Amazon EMR 团队最近发表了一篇很不错的文章展示了对数据进行聚簇是如何提高查询性能的,为了更好地了解发生了什么以及它与空间填充曲线的关系,让我们仔细研究该文章的设置。文章中比较了 2 个 Apache Hudi 表(均来自 Amazon Reviews 数据集):未聚簇的 amazon_reviews 表(即数据尚未按任何特定键重新排序)amazon_reviews_clust....

查询性能提升3倍!Apache Hudi 查询优化了解下?
文章 2022-05-06 来自:开发者社区

官宣!AWS Athena正式可查询Apache Hudi数据集

1. 引入Apache Hudi是一个开源的增量数据处理框架,提供了行级insert、update、upsert、delete的细粒度处理能力(Upsert表示如果数据集中存在记录就更新;否则插入)。Hudi处理数据插入和更新,不会创建太多的小文件(小文件会导致查询端性能降低),Apache Hudi自动管理及合并小文件,让其保持指定大小,这避免了自建解决方案来监控和重写小文件为大文件。Hudi....

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐

Apache Spark 中国技术社区

阿里巴巴开源大数据技术团队成立 Apache Spark 中国技术社区,定期推送精彩案例,问答区数个 Spark 技术同学每日在线答疑,只为营造 Spark 技术交流氛围,欢迎加入!

+关注
相关镜像