文章 2024-03-12 来自:开发者社区

Apache Hudi:统一批和近实时分析的存储和服务

一篇由三位Hudi PMC在2018年做的关于Hudi的分享,介绍了Hudi产生的背景及设计,现在看来也很有意义。 分为产生背景、动机、设计、使用案例、demo几个模块讲解。 ...

Apache Hudi:统一批和近实时分析的存储和服务
文章 2024-03-12 来自:开发者社区

Apache Hudi与机器学习特征存储

1. 在线和离线特征 如果在训练和推理系统中特征工程代码不相同,则存在代码不一致的风险,因此,预测可能不可靠,因为特征可能不相同。一种解决方案是让特征工程作业将特征据写入在线和离线数据库。训练和推理应用程序在做出预测时都需要读取特征-在线应用可能需要低延迟(实时)访问该特征数据,另一种解决方案是使用共享特征工程库(在线应用程序和训练应用程序使用相同的共享库)。 2. 时间旅行 ...

Apache Hudi与机器学习特征存储
文章 2024-03-07 来自:开发者社区

Apache Hudi从零到一:存储格式初探(一)

在花了大约 4 年时间致力于 Apache Hudi(其中包括 3 年Committer身份)之后,我决定开始这个博客系列(blog.datumagic.com),旨在以有组织且适合初学者的方式展示 Hudi 的设计和用法。我的目标是确保对分布式数据系统有一定了解的人能够轻松地理解该系列。该系列将包含 10 篇文章,每篇文章都会深入探讨 Hudi 的一个关键方面。(为什么是 10?纯粹是对 0 ....

Apache Hudi从零到一:存储格式初探(一)

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐

Apache Spark 中国技术社区

阿里巴巴开源大数据技术团队成立 Apache Spark 中国技术社区,定期推送精彩案例,问答区数个 Spark 技术同学每日在线答疑,只为营造 Spark 技术交流氛围,欢迎加入!

+关注
相关镜像