基于数据湖格式构建流式增量数仓—CDC
摘要:本文整理自阿里云开源大数据平台技术专家毕岩(寻径)在 Apache Con ASIA 的分享。本篇内容主要分为四个部分:湖格式& Hudi & CDC湖格式设计实现 CDC 的思考Hudi CDC 实现湖格式 Streaming 的优化2021年中 Databricks 发布了一篇基于 Delta Lake 实现 CDC 场景的介绍文档,2022年初我们在阿里云EMR 内部....
《如何基于MaxCompute快速打通数仓和数据湖的湖仓一体实践-亦朵-529北京峰会-v1.3》电子版地址
《如何基于MaxCompute快速打通数仓和数据湖的湖仓一体实践-亦朵-529北京峰会-v1.3》【5】如何基于MaxCompute快速打通数仓和数据湖的湖仓一体实践-亦朵-529北京峰会-v1.3-to赵慧(格确定稿) 电子版下载地址:https://developer.aliyun.com/ebook/6659 电子书: ...
Hive 数仓迁移 JindoFS/OSS 数据湖最佳实践
Hive 数仓是大多数迁移客户都会遇到的场景。在迁移过程中,不建议同时在新集群进行业务升级(比如从 Hive on MR 迁移到 Hive on Tez 或 Spark SQL等),这些业务升级可以在迁移完成后进行。1. 元数据同步Hive 元数据是对于 Hi...
云数仓与数据湖元数据 ACID 介绍与对比
云数仓与数据湖元数据 ACID 介绍与对比项目开发之外抽空调研ACID功能的一个总结记录,仅讨论功能,后续抽空会再补一个设计实现层面的介绍和对比(zz 2022.3.4)背景ACID 逐渐成为 云数据仓库(cloud data warehouse) 和 数据湖(data lake)关键功能(ACID 在数仓场景关注和讨论度不高,但却不可缺少,并成为了诸多开源元数据项目的核心卖点)。ACID 的基....
OPPO 数仓与数据湖融合架构升级的实践与思考
当我们谈数据湖,谈的是什么?InfoQ:数据湖和数仓融合架构是当下大数据领域非常重要的议题之一,不仅各大云厂商先后提出了自己的技术方案,开源社区也有一些项目(包括 DeltaLake、Iceberg 和 Hudi)非常活跃。其实数据湖这个概念诞生至今有挺长时间了,在您看来,目前业内对数据湖的定义和重要性是否已经达成一致?云厂商的产品和开源项目之间有什么差异吗?鲍永成:回答这个问题之前,我们得明确....
快速打通数仓和数据湖的湖仓一体最佳实践 | 学习笔记
开发者学堂课程【SaaS 模式云数据仓库系列课程 —— 2021数仓必修课:快速打通数仓和数据湖的湖仓一体最佳实践】学习笔记,与课程紧密联系,让用户快速学习知识。课程地址:https://developer.aliyun.com/learning/course/55/detail/1060快速打通数仓和数据湖的湖仓一体最佳实践 目录:一、数据湖 vs 数据仓库二、下一代大数....
数据湖实操讲解【 JindoTable 计算加速】第二十二讲:对 Hive 数仓表进行高效小文件合并
本期导读 :【JindoTable 计算加速】第二十二讲主题:对 Hive 数仓表进行高效小文件合并d+JindoFS 对 OSS 上数据进行训练加速讲师:辰石,阿里巴巴计算平台事业部 技术专家内容框架:背景介绍主要功能实操演示直播回放链接:(22讲)https://developer.aliyun.com/live/247112一、背景介绍小文件如何产生 动态分区插....
数据湖实操讲解【 JindoTable 计算加速】第二十一讲:分层更高效,对 Hive 数仓进行热度/冷度统计
本期导读 :【JindoTable 计算加速】第二十一讲主题:分层更高效,对 Hive 数仓进行热度/冷度统计uid+JindoFS 对 OSS 上数据进行训练加速讲师:羊川,阿里巴巴计算平台事业部 开发工程师内容框架:热/冷度统计介绍热/冷度统计用法演示直播回放链接:(21讲)https://developer.aliyun.com/live/247112一、热/冷度统计介绍为什么要分层统计 ....
本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。