文章 2023-02-17 来自:开发者社区

基于数据湖格式构建流式增量数仓—CDC

摘要:本文整理自阿里云开源大数据平台技术专家毕岩(寻径)在 Apache Con ASIA 的分享。本篇内容主要分为四个部分:湖格式& Hudi & CDC湖格式设计实现 CDC 的思考Hudi CDC 实现湖格式 Streaming 的优化2021年中 Databricks 发布了一篇基于 Delta Lake 实现 CDC 场景的介绍文档,2022年初我们在阿里云EMR 内部....

基于数据湖格式构建流式增量数仓—CDC
文章 2022-09-22 来自:开发者社区

《如何基于MaxCompute快速打通数仓和数据湖的湖仓一体实践-亦朵-529北京峰会-v1.3》电子版地址

《如何基于MaxCompute快速打通数仓和数据湖的湖仓一体实践-亦朵-529北京峰会-v1.3》【5】如何基于MaxCompute快速打通数仓和数据湖的湖仓一体实践-亦朵-529北京峰会-v1.3-to赵慧(格确定稿) 电子版下载地址:https://developer.aliyun.com/ebook/6659 电子书: ...

《如何基于MaxCompute快速打通数仓和数据湖的湖仓一体实践-亦朵-529北京峰会-v1.3》电子版地址
问答 2022-07-28 来自:开发者社区

针对数仓迁移或向数据湖演进,Databricks如何开展?

针对数仓迁移或向数据湖演进,Databricks如何开展?

文章 2022-04-14 来自:开发者社区

Hive 数仓迁移 JindoFS/OSS 数据湖最佳实践

Hive 数仓是大多数迁移客户都会遇到的场景。在迁移过程中,不建议同时在新集群进行业务升级(比如从 Hive on MR 迁移到 Hive on Tez 或 Spark SQL等),这些业务升级可以在迁移完成后进行。1. 元数据同步Hive 元数据是对于 Hi...

文章 2022-03-16 来自:开发者社区

云数仓与数据湖元数据 ACID 介绍与对比

云数仓与数据湖元数据 ACID 介绍与对比项目开发之外抽空调研ACID功能的一个总结记录,仅讨论功能,后续抽空会再补一个设计实现层面的介绍和对比(zz 2022.3.4)背景ACID 逐渐成为 云数据仓库(cloud data warehouse) 和 数据湖(data lake)关键功能(ACID 在数仓场景关注和讨论度不高,但却不可缺少,并成为了诸多开源元数据项目的核心卖点)。ACID 的基....

文章 2021-12-29 来自:开发者社区

OPPO 数仓与数据湖融合架构升级的实践与思考

当我们谈数据湖,谈的是什么?InfoQ:数据湖和数仓融合架构是当下大数据领域非常重要的议题之一,不仅各大云厂商先后提出了自己的技术方案,开源社区也有一些项目(包括 DeltaLake、Iceberg 和 Hudi)非常活跃。其实数据湖这个概念诞生至今有挺长时间了,在您看来,目前业内对数据湖的定义和重要性是否已经达成一致?云厂商的产品和开源项目之间有什么差异吗?鲍永成:回答这个问题之前,我们得明确....

OPPO 数仓与数据湖融合架构升级的实践与思考
文章 2021-12-19 来自:开发者社区

快速打通数仓和数据湖的湖仓一体最佳实践 | 学习笔记

开发者学堂课程【SaaS  模式云数据仓库系列课程 —— 2021数仓必修课:快速打通数仓和数据湖的湖仓一体最佳实践】学习笔记,与课程紧密联系,让用户快速学习知识。课程地址:https://developer.aliyun.com/learning/course/55/detail/1060快速打通数仓和数据湖的湖仓一体最佳实践 目录:一、数据湖 vs 数据仓库二、下一代大数....

快速打通数仓和数据湖的湖仓一体最佳实践 | 学习笔记
文章 2021-07-29 来自:开发者社区

数据湖实操讲解【 JindoTable 计算加速】第二十二讲:对 Hive 数仓表进行高效小文件合并

本期导读 :【JindoTable 计算加速】第二十二讲主题:对 Hive 数仓表进行高效小文件合并d+JindoFS 对 OSS 上数据进行训练加速讲师:辰石,阿里巴巴计算平台事业部 技术专家内容框架:背景介绍主要功能实操演示直播回放链接:(22讲)https://developer.aliyun.com/live/247112一、背景介绍小文件如何产生     动态分区插....

数据湖实操讲解【 JindoTable 计算加速】第二十二讲:对 Hive 数仓表进行高效小文件合并
文章 2021-07-28 来自:开发者社区

数据湖实操讲解【 JindoTable 计算加速】第二十一讲:分层更高效,对 Hive 数仓进行热度/冷度统计

本期导读 :【JindoTable 计算加速】第二十一讲主题:分层更高效,对 Hive 数仓进行热度/冷度统计uid+JindoFS 对 OSS 上数据进行训练加速讲师:羊川,阿里巴巴计算平台事业部 开发工程师内容框架:热/冷度统计介绍热/冷度统计用法演示直播回放链接:(21讲)https://developer.aliyun.com/live/247112一、热/冷度统计介绍为什么要分层统计 ....

数据湖实操讲解【 JindoTable 计算加速】第二十一讲:分层更高效,对 Hive 数仓进行热度/冷度统计

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐

{"cardStyle":"productCardStyle","productCardInfo":{"productTitle":"OpenLake 数据湖","productDescription":"基于开放可控的数据目录服务 Data Lake Formation(DLF)构建的大数据、搜索与 AI 一体化的多模态智能体数据解决方案。通过 Omini Catalog(5类数据目录)支持全模态数据,实现多引擎对同一份数据的平权协同计算,并通过 DataWorks 的 OpenLake Studio 提供 IDE 或 Notebook 方式的 Data+AI 集成开发。","productContentLink":"https://www.aliyun.com/product/openlake","isDisplayProductIcon":true,"productButton1":{"productButtonText":"产品详情","productButtonLink":"https://www.aliyun.com/product/openlake"},"productButton2":{"productButtonText":"文档","productButtonLink":"https://help.aliyun.com/document_detail/3011133.html"},"productButton3":{"productButtonText":"控制台","productButtonLink":"https://dataworks.console.aliyun.com/openlake"},"productPromotionInfoBlock":[{"$id":"0","productPromotionGroupingTitle":"深度解读","productPromotionInfoFirstText":"阿里云OpenLake:AI 时代的全模态、多引擎、一体化解决方案","productPromotionInfoFirstLink":"https://developer.aliyun.com/article/1707898","productPromotionInfoSecondText":"【云栖发布】阿里云OpenLake及行业解决方案","productPromotionInfoSecondLink":"https://mp.weixin.qq.com/s/Ds4qSW4GwrUxRMINv9R0lQ"},{"$id":"1","productPromotionGroupingTitle":"核心功能","productPromotionInfoFirstText":"统一元数据与表管理","productPromotionInfoFirstLink":"https://help.aliyun.com/zh/dlf/dlf-2-0/product-overview/what-is-data-lake-formation","productPromotionInfoSecondText":"存储成本优化","productPromotionInfoSecondLink":"https://help.aliyun.com/zh/dlf/dlf-2-0/user-guide/storage-optimization-usage-guide"},{"$id":"2","productPromotionGroupingTitle":"核心功能","productPromotionInfoFirstText":"实时湖流一体","productPromotionInfoFirstLink":"https://help.aliyun.com/zh/flink/realtime-fluss/product-overview/what-is-alibaba-cloud-fluss","productPromotionInfoSecondText":"企业级高性能引擎","productPromotionInfoSecondLink":"https://mp.weixin.qq.com/s/3xeCurNSh_ccWe469mgK3A"},{"$id":"3","productPromotionGroupingTitle":"核心功能","productPromotionInfoFirstText":"大数据&AI 协同开发","productPromotionInfoFirstLink":"https://help.aliyun.com/zh/dataworks/user-guide/basic-notebook-development","productPromotionInfoSecondText":"Agent&Copilot 集成","productPromotionInfoSecondLink":"https://help.aliyun.com/zh/dataworks/user-guide/dataworks-agent"}],"isOfficialLogo":false},"activityCardInfo":{"activityTitle":"","activityDescription":"","cardContentBackgroundMode":"LightMode","activityContentBackgroundImageLink":"","activityCardBottomInfoSelect":"activityPromotionInfoBlock","activityPromotionInfoBlock":[]}}