文章 2024-03-12 来自:开发者社区

Apache Hudi与Apache Flink更好地集成,最新方案了解下?

1. 现有架构 现有Flink写Hudi架构如下 现有的架构存在如下瓶颈 •InstantGeneratorOperator并发度为1,将限制高吞吐的消费,因为所有的split都将会打到一个线程内,网络IO会...

Apache Hudi与Apache Flink更好地集成,最新方案了解下?
文章 2024-03-12 来自:开发者社区

使用Apache Pulsar + Hudi 构建Lakehouse方案了解下?

由StreamNative Founder & CEO 郭斯杰 执笔的Apache Pulsar作为Lakehouse的提案,阐述如何利用Apache Hudi解决Pulsar作为Lakehouse的痛点问题,强烈推荐! 1. 动机 Lakehouse最早由Databricks公司提出,其可作为低成本、直接访问云存储并提供传统DBMS管系统性能和ACID事务、版...

使用Apache Pulsar + Hudi 构建Lakehouse方案了解下?
文章 2024-03-07 来自:开发者社区

基于TIS构建Apache Hudi千表入湖方案

拥抱数据湖 随着大数据时代的到来,数据量动辄PB级,因此亟需一种低成本、高稳定性的实时数仓解决方案来支持海量数据的OLAP查询需求,Apache Hudi[1]应运而生。Hudi借助与存放在廉价的分布式文件系统之中列式存储文件,并将其元数据信息存放在Hive元数据库中与传统查询引擎Hive、Presto、Spark等整合,完美地实现了计算与存储的分离。Hudi数据湖方案比传统的Hive数...

基于TIS构建Apache Hudi千表入湖方案
文章 2023-05-25 来自:开发者社区

《Apache Flink 案例集(2022版)》——1.数据集成——37手游-基于 Flink CDC + Hudi 湖仓一体方案实践

作者:徐润柏 用户背景 37手游着重强化自身游戏运营能力、市场推广能力、广告设计能力,提出了立体化、AI智能化营销的“流量经营”策略。37手游秉承“创新点亮梦想,分享成就未来”和“相信创造奇迹”的文化理念,强调创新、分享、自信、梦想和追求的经营理念。 业务需求37手游的原有技术架构如上图所示,主要存在如下业务痛点:  1. 数据实时性不够 日志类数据通过 sqoop 每 30min 同....

《Apache Flink 案例集(2022版)》——1.数据集成——37手游-基于 Flink CDC + Hudi 湖仓一体方案实践
文章 2022-05-07 来自:开发者社区

使用Apache Pulsar + Hudi构建Lakehouse方案了解下?

1. 动机Lakehouse最早由Databricks公司提出,其可作为低成本、直接访问云存储并提供传统DBMS管系统性能和ACID事务、版本、审计、索引、缓存、查询优化的数据管理系统,Lakehouse结合数据湖和数据仓库的优点:包括数据湖的低成本存储和开放数据格式访问,数据仓库强大的管理和优化能力。Delta Lake,Apache Hudi和Apache Iceberg是三种构建Lakeh....

使用Apache Pulsar + Hudi构建Lakehouse方案了解下?
文章 2021-05-07 来自:开发者社区

百信银行基于 Apache Hudi 实时数据湖演进方案

本文介绍了百信银行实时计算平台的建设情况,实时数据湖构建在 Hudi 上的方案和实践方法,以及实时计算平台集成 Hudi 和使用 Hudi 的方式。内容包括:背景百信银行基于 Flink 的实时计算平台设计与实践百信银行实时计算平台与实时数据湖的集成实践百信银行实时数据湖的未来总结GitHub 地址 https://github.com/apache/flink欢迎大家给 Flink 点赞送 s....

百信银行基于 Apache Hudi 实时数据湖演进方案

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐

Apache Spark 中国技术社区

阿里巴巴开源大数据技术团队成立 Apache Spark 中国技术社区,定期推送精彩案例,问答区数个 Spark 技术同学每日在线答疑,只为营造 Spark 技术交流氛围,欢迎加入!

+关注
相关镜像