文章 2024-03-12 来自:开发者社区

字节跳动基于Apache Hudi构建实时数据湖平台实践

一篇关于字节跳动基于 Apache Hudi 的实时数据湖平台的分享。 ...

字节跳动基于Apache Hudi构建实时数据湖平台实践
文章 2024-03-07 来自:开发者社区

万字长文 | 泰康人寿基于 Apache Hudi 构建湖仓一体平台的应用实践

文章贡献者 Authors • 技术指导: 泰康人寿 数据架构资深专家工程师 王可 • 文章作者: 泰康人寿 数据研发工程师 田昕峣 摘要 Abstract 本文详细介绍了泰康人寿基于 Apache Hudi 构建湖仓一体分布式数据处理平台的技术选型方法、整体架构设计与实施、以及针对大健康领域的领域特征和公司战略对 Apache Hudi 进行的功能扩展与实施的详...

万字长文 | 泰康人寿基于 Apache Hudi 构建湖仓一体平台的应用实践
文章 2022-05-07 来自:开发者社区

基于 Apache Hudi 构建增量和无限回放事件流的 OLAP 平台

1. 摘要在本博客中,我们将讨论在构建流数据平台时如何利用 Hudi 的两个最令人难以置信的能力。增量消费--每 30 分钟处理一次数据,并在我们的组织内构建每小时级别的OLAP平台事件流的无限回放--利用 Hudi 的提交时间线在超级便宜的云对象存储(如 AWS S3)中存储 10 天的事件流(想象一个具有 10 天保留期的 kafka 主题)具有部分记录更新的自定义 Hudi Payload....

基于 Apache Hudi 构建增量和无限回放事件流的 OLAP 平台
文章 2022-05-07 来自:开发者社区

基于Apache Hudi在Google云构建数据湖平台

自从计算机出现以来,我们一直在尝试寻找计算机存储一些信息的方法,存储在计算机上的信息(也称为数据)有多种形式,数据变得如此重要,以至于信息现在已成为触手可及的商品。多年来数据以多种方式存储在计算机中,包括数据库、blob存储和其他方法,为了进行有效的业务分析,必须对现代应用程序创建的数据进行处理和分析,并且产生的数据量非常巨大!有效地存储数PB数据并拥有必要的工具来查询它以便使用它至关重要,只有....

基于Apache Hudi在Google云构建数据湖平台
文章 2022-05-07 来自:开发者社区

Apache Hudi 0.9.0版本重磅发布!更强大的流式数据湖平台

1. 重点特性1.1 Spark SQL支持0.9.0 添加了对使用 Spark SQL 的 DDL/DML 的支持,朝着使所有角色(非工程师、分析师等)更容易访问和操作 Hudi 迈出了一大步。 用户现在可以使用 CREATE TABLE....USING HUDI 和 CREATE TABLE .. AS SELECT 语句直接在 Hive 等目录中创建和管理表。 然后用户可以使用 INSE....

问答 2022-01-19 来自:开发者社区

Apache Hudi是一个什么样的平台?

Apache Hudi是一个什么样的平台?

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐

Apache Spark 中国技术社区

阿里巴巴开源大数据技术团队成立 Apache Spark 中国技术社区,定期推送精彩案例,问答区数个 Spark 技术同学每日在线答疑,只为营造 Spark 技术交流氛围,欢迎加入!

+关注
相关镜像