企业数据上云构建数据湖的正确姿势
一、前言在刚刚落幕的2019中国数据与存储峰会上,阿里云对象存储OSS(Object Storage Service)和业界专家一起探讨了《企业数据上云构建数据湖的正确姿势》。OSS作为非结构化数据存储池和数据湖底座,为双十一期间淘宝、天猫、支付宝等应用提供了如丝般顺滑的图片、视频体验,OSS基于多年支撑双一的上云经验,从“迁、存、稳、用”四个纬度总结了上云的正确姿势。二、(迁)数据迁移之道:闪....
使用 Flink Hudi 构建流式数据湖平台
摘要:本文整理自阿里巴巴技术专家陈玉兆 (玉兆)、阿里巴巴开发工程师刘大龙 (风离) 在 Flink Forward Asia 2021 的分享。主要内容包括:Apache Hudi 101Flink Hudi IntegrationFlink Hudi Use CaseApache Hudi RoadmapFFA 2021 直播回放 & 演讲 PDF 下载一、Apache Hudi 1....
Flink CDC 系列 - 同步 MySQL 分库分表,构建 Iceberg 实时数据湖
作者:罗宇侠本篇教程将展示如何使用 Flink CDC 构建实时数据湖,并处理分库分表合并同步的场景。Flink-CDC 项目地址:https://github.com/ververica/flink-cdc-connectorsFlink 中文学习网站https://flink-learning.org.cn在 OLTP 系统中,为了解决单表数据量大的问题,通常采用分库分表的方式将单个大表进行....
百草味基于“ EMR+Databricks+DLF ”构建云上数据湖的最佳实践
作者刘凯廷 百草味-信息数据中心负责人 朱齐天 百草味-信息数据中心-数据部负责人内容框架:百草味公司及业务简介IDC 自建大数据平台的痛点上云大数据架构选型云原生数据湖架构解析核心模块设计与实施未来展望总结一、百草味公司及业务简介百草味是以休闲食品研发、加工、生产、贸易、仓储、物流为主体,集互联网商务经营模式、新零售为一体的全渠道品牌和综合型品牌。百草味以“....
Apache Hudi 在 B 站构建实时数据湖的实践
本文作者喻兆靖,介绍了为什么 B 站选择 Flink + Hudi 的数据湖技术方案,以及针对其做出的优化。主要内容为:传统离线数仓痛点数据湖技术方案Hudi 任务稳定性保障数据入湖实践增量数据湖平台收益社区贡献未来的发展与思考GitHub 地址 https://github.com/apache/flink欢迎大家给 Flink 点赞送 star~一、传统离线数仓痛点1. 痛点之前 B 站数仓....
使用 Flink Hudi 构建流式数据湖
本文介绍了 Flink Hudi 通过流计算对原有基于 mini-batch 的增量计算模型不断优化演进。用户可以通过 Flink SQL 将 CDC 数据实时写入 Hudi 存储,且在即将发布的 0.9 版本 Hudi 原生支持 CDC format。主要内容为:背景增量 ETL演示GitHub 地址 https://github.com/apache/flink欢迎大家给 Flink 点赞送....
Flink + Iceberg + 对象存储,构建数据湖方案
本文整理自 Dell 科技集团高级软件研发经理孙伟在 4 月 17 日 上海站 Flink Meetup 分享的《Iceberg 和对象存储构建数据湖方案》,文章内容为:数据湖和 Iceberg 简介对象存储支撑 Iceberg 数据湖演示方案存储优化的一些思考GitHub 地址 https://github.com/apache/flink欢迎大家给 Flink 点赞送 star~一、数据湖和....
Flink + Hudi 在 Linkflow 构建实时数据湖的生产实践
可变数据的处理一直以来都是大数据系统,尤其是实时系统的一大难点。在调研多种方案后,我们选择了 CDC to Hudi 的数据摄入方案,目前在生产环境可实现分钟级的数据实时性,希望本文所述对大家的生产实践有所启发。内容包括:背景CDC 和数据湖技术挑战效果未来计划总结一、背景Linkflow 作为客户数据平台(CDP),为企业提供从客户数据采集、分析到执行的运营闭环。每天都会通过一方数据采集端点(....
本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。