文章 2022-05-06 来自:开发者社区

使用Apache Spark和Apache Hudi构建分析数据湖

1. 引入大多数现代数据湖都是基于某种分布式文件系统(DFS),如HDFS或基于云的存储,如AWS S3构建的。遵循的基本原则之一是文件的“一次写入多次读取”访问模型。这对于处理海量数据非常有用,如数百GB到TB的数据。但是在构建分析数据湖时,更新数据并不罕见。根据不同场景,这些更新频率可能是每小时一次,甚至可能是每天或每周一次。另外可能还需要在最新视图、包含所有更新的历史视图甚至仅是最新增量视....

使用Apache Spark和Apache Hudi构建分析数据湖
文章 2022-05-06 来自:开发者社区

Uber基于Apache Hudi构建PB级数据湖实践

1. 引言从确保准确预计到达时间到预测最佳交通路线,在Uber平台上提供安全、无缝的运输和交付体验需要可靠、高性能的大规模数据存储和分析。2016年,Uber开发了增量处理框架Apache Hudi,以低延迟和高效率为关键业务数据管道赋能。一年后,我们开源了该解决方案,以使得其他有需要的组织也可以利用Hudi的优势。接着在2019年,我们履行承诺,进一步将其捐赠给了Apache Software....

Uber基于Apache Hudi构建PB级数据湖实践
文章 2022-02-17 来自:开发者社区

原理解析 | Apache Flink 结合 Kafka 构建端到端的 Exactly-Once 处理

文章目录:Apache Flink 应用程序中的 Exactly-Once 语义Flink 应用程序端到端的 Exactly-Once 语义示例 Flink 应用程序启动预提交阶段在 Flink 中实现两阶段提交 Operator总结Apache Flink 自2017年12月发布的1.4.0版本开始,为流计算引入了一个重要的里程碑特性:TwoPhaseCommitSinkFunction(相关....

文章 2022-01-17 来自:开发者社区

Apache RocketMQ + Hudi 快速构建 Lakehouse

本文目录背景知识大数据时代的构架演进RocketMQ Connector&StreamApache Hudi构建Lakehouse实操本文标题包含三个关键词:Lakehouse、RocketMQ、Hudi。我们先从整体Lakehouse架构入手,随后逐步分析架构产生的原因、架构组件特点以及构建Lakehouse架构的实操部分。背景知识1、Lakehouse架构Lakehouse最初由Da....

Apache RocketMQ + Hudi 快速构建 Lakehouse
问答 2021-11-20 来自:开发者社区

Apache RocketMQ中 如何构建 commit 请求包?

Apache RocketMQ中 如何构建 commit 请求包?

文章 2021-09-06 来自:开发者社区

Apache Hudi 在 B 站构建实时数据湖的实践

本文作者喻兆靖,介绍了为什么 B 站选择 Flink + Hudi 的数据湖技术方案,以及针对其做出的优化。主要内容为:传统离线数仓痛点数据湖技术方案Hudi 任务稳定性保障数据入湖实践增量数据湖平台收益社区贡献未来的发展与思考GitHub 地址 https://github.com/apache/flink欢迎大家给 Flink 点赞送 star~一、传统离线数仓痛点1. 痛点之前 B 站数仓....

Apache Hudi 在 B 站构建实时数据湖的实践
文章 2020-08-11 来自:开发者社区

实时计算 Flink:基于 Apache Flink 构建的大数据计算平台(附白皮书)

Apache Flink:全球领先的开源大数据计算引擎 Apache Flink 是一个开源的分布式大数据处理引擎, 可对有限数据流和无限数据流进行有状态计算。作为 Apache 软件基金会 (ASF) 顶级项目之一,Flink 在流处理方面具有绝对的优势,提供高吞吐、低延时的计算能力, Exactly-once 语义保证数据的准确性,亚秒级别的处理延迟确保业务的快速响应。 作为快速发展的新一代....

实时计算 Flink:基于 Apache Flink 构建的大数据计算平台(附白皮书)
文章 2020-07-31 来自:开发者社区

基于阿里云数据湖分析服务和Apache Hudi构建云上实时数据湖

1. 什么是实时数据湖 大数据时代数据格式的多样化,如结构化数据、半结构化数据、非结构化数据,传统数据仓库难以满足各类数据的存储,同时传统数仓已经难以满足上层应用如交互式分析、流式分析、ML等的多样化需求。而数仓T+1的数据延迟导致分析延迟较大,不利于企业及时洞察数据价值;同时随着云计算技术发展以及云上对象存储的廉价性,使得越来越多企业基于云来构建数据湖,而传统数据湖由于缺失ACID事务能力,导....

基于阿里云数据湖分析服务和Apache Hudi构建云上实时数据湖
问答 2020-06-08 来自:开发者社区

求助:apache kylin流式构建报错(zookeeper设置的地址貌似没生效)?报错

从kafka读取消息,并构建cube,在“#15 Step Name: Convert Cuboid Data to HFile”这一步骤报错: INFO [main-SendThread(localhost:2181)] org.apache.zookeeper.ClientCnxn: Opening socket connection to server localhost/127....

文章 2020-02-24 来自:开发者社区

首发|《Apache Flink 年度最佳实践》,揭秘一线大厂实时平台构建实践

点击免费下载《Apache Flink 年度最佳实践》>>> 《Apache Flink 年度最佳实践》公开下载啦!首次一次性公布来自B站、美团点评、小米、快手、菜鸟、Lyft、Netflix 等精彩内容,9篇深度文章揭秘一线大厂实时平台构建实践。不容错过的精品电子书,大数据工程师必读实战“真经”! 
Flink 作为业界公认为最好的流计算引擎,不仅仅局限于做流处理,而是一...

首发|《Apache Flink 年度最佳实践》,揭秘一线大厂实时平台构建实践

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐

Apache Spark 中国技术社区

阿里巴巴开源大数据技术团队成立 Apache Spark 中国技术社区,定期推送精彩案例,问答区数个 Spark 技术同学每日在线答疑,只为营造 Spark 技术交流氛围,欢迎加入!

+关注
相关镜像