文章 2025-02-17 来自:开发者社区

AllData数据中台核心菜单十三:数据湖平台

🔥🔥 AllData大数据产品是可定义数据中台,以数据平台为底座,以数据中台为桥梁,以机器学习平台为中层框架,以大模型应用为上游产品,提供全链路数字化解决方案。 「 AllData数据中台 - 主页 」 「 数据湖平台 - 功能描述 」 1、AllData数据同步平台基于开源项目Paimo...

AllData数据中台核心菜单十三:数据湖平台
文章 2024-03-12 来自:开发者社区

字节跳动基于Apache Hudi构建实时数据湖平台实践

一篇关于字节跳动基于 Apache Hudi 的实时数据湖平台的分享。 ...

字节跳动基于Apache Hudi构建实时数据湖平台实践
文章 2023-12-26 来自:开发者社区

流数据湖平台Apache Paimon(六)集成Spark之DML插入数据

4.4. 插入数据INSERT 语句向表中插入新行。插入的行可以由值表达式或查询结果指定,跟标准的sql语法一致。INSERT INTO table_identifier [ part_spec ] [ column_list ] { value_expr | query }part_spec可选,指定分区的键值对列表,多个用逗号分隔。可以使用类型文字(例如,date’2019-01-02’)。....

文章 2023-12-26 来自:开发者社区

流数据湖平台Apache Paimon(五)集成 Spark 引擎

第4章 集成 Spark 引擎4.1 环境准备Paimon 目前支持 Spark 3.4、3.3、3.2 和 3.1。课程使用的Spark版本是3.3.1。1)上传并解压Spark安装包tar -zxvf spark-3.3.1-bin-hadoop3.tgz -C /opt/module/mv /opt/module/spark-3.3.1-bin-hadoop3 /opt/module/sp....

文章 2023-12-26 来自:开发者社区

流数据湖平台Apache Paimon(四)集成 Hive 引擎

第3章 集成 Hive 引擎前面与Flink集成时,通过使用 paimon Hive Catalog,可以从 Flink 创建、删除、查询和插入到 paimon 表中。这些操作直接影响相应的Hive元存储。以这种方式创建的表也可以直接从 Hive 访问。更进一步的与 Hive 集成,可以使用 Hive SQL创建、查询Paimon表。3.1 环境准备Paimon 目前支持 Hive 3.1、2.....

文章 2023-12-26 来自:开发者社区

流数据湖平台Apache Paimon(三)Flink进阶使用

2.9 进阶使用2.9.1 写入性能Paimon的写入性能与检查点密切相关,因此需要更大的写入吞吐量:增加检查点间隔,或者仅使用批处理模式。增加写入缓冲区大小。启用写缓冲区溢出。如果您使用固定存储桶模式,请重新调整存储桶数量。2.9.1.1 并行度建议sink的并行度小于等于bucket的数量,最好相等。选项必需的默认类型描述sink.parallelismNo(none)Integer定义si....

流数据湖平台Apache Paimon(三)Flink进阶使用
文章 2023-12-26 来自:开发者社区

流数据湖平台Apache Paimon(二)集成 Flink 引擎

第2章 集成 Flink 引擎Paimon目前支持Flink 1.17, 1.16, 1.15 和 1.14。本课程使用Flink 1.17.0。2.1 环境准备环境准备2.1.1 安装 Flink1)上传并解压Flink安装包tar -zxvf flink-1.17.0-bin-scala_2.12.tgz -C /opt/module/2)配置环境变量sudo vim /etc/profil....

流数据湖平台Apache Paimon(二)集成 Flink 引擎
文章 2023-12-26 来自:开发者社区

流数据湖平台Apache Paimon(一)概述

第1章 概述1.1 简介Flink 社区希望能够将 Flink 的 Streaming 实时计算能力和 Lakehouse 新架构优势进一步结合,推出新一代的 Streaming Lakehouse 技术,促进数据在数据湖上真正实时流动起来,并为用户提供实时离线一体化的开发体验。Flink 社区内部孵化了 Flink Table Store (简称 FTS )子项目,一个真正面向 Streami....

流数据湖平台Apache Paimon(一)概述
文章 2022-11-25 来自:开发者社区

袋鼠云数据湖平台「DataLake」,存储全量数据,打造数字底座

一、什么是数据湖?在探讨数据湖技术或如何构建数据湖之前,我们需要先明确,什么是数据湖?数据湖的起源,应该追溯到 2010 年 10 月。基于对半结构化、非结构化存储的需求,同时为了推广自家的 Pentaho 产品以及 Hadoop,2010 年 Pentaho 的创始人兼 CTO James Dixon 首次提出了数据湖的概念。数据湖概念一经提出,便受到了广泛关注,人们发现此概念代表了一种新的数....

袋鼠云数据湖平台「DataLake」,存储全量数据,打造数字底座
问答 2022-05-10 来自:开发者社区

原生数据湖平台为什么需打通云基础设施?

原生数据湖平台为什么需打通云基础设施?

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐