文章 2024-08-25 来自:开发者社区

构建智能数据湖:DataWorks助力企业实现数据驱动转型

摘要 本文将详细介绍如何利用阿里巴巴云的DataWorks平台构建一个智能、灵活、可扩展的数据湖存储体系,以帮助企业实现数据驱动的业务转型。我们将通过具体的案例和技术实践来展示DataWorks如何集成各种数据源,并通过数据湖进行高级分析和挖掘,最终基于数据洞察驱动业务增长和创新。 引言 随着数字化转型的加速,数据湖作为数据存储的核心组成部...

阿里云文档 2024-07-30

如何访问OSS-HDFS数据

Hologres从V1.3.26版本开始,支持读写存储于OSS-HDFS上的数据。本文为您介绍基于DLF访问OSS-HDFS数据湖数据的使用方法。

文章 2024-07-28 来自:开发者社区

阿里巴巴大数据实践之数据建模:构建企业级数据湖

引言随着互联网和移动互联网的快速发展,数据已成为推动业务增长的重要驱动力。阿里巴巴作为全球领先的电子商务公司之一,其大数据平台支撑着整个集团的数据处理需求。本文将重点介绍阿里巴巴在数据建模领域的实践,包括数据湖的概念、数据建模的原则和方法、以及在实际业务场景中的应用案例。 一、数据湖概念与重要性1.1 数据湖定义数据湖是一种存储企业所有原始数据的集中式存...

阿里云文档 2024-05-20

调用GetRegionStatus获取数据湖构建服务开通状态

获取数据湖构建指定地域的服务开通状态。

文章 2024-03-12 来自:开发者社区

Yotpo构建零延迟数据湖实践

1. 介绍 随着系统变得越来越复杂,我们需要更多的解决方案来集中维护大量数据,以便对其进行监控和查询,而又不会干扰运营数据库。在Yotpo,我们有许多微服务和数据库,因此将数据传输到集中式数据湖中的需求至关重要。我们一直在寻找易于使用的基础架构(仅需配置),以节省工程师的时间。 变更数据捕获(Changed Data Capture,简称为CDC)架构是指跟踪变更的数据,以便可以...

Yotpo构建零延迟数据湖实践
文章 2024-03-12 来自:开发者社区

使用Apache Hudi构建大规模、事务性数据湖

一个近期由Hudi PMC & Uber Senior Engineering Manager Nishith Agarwal分享的Talk 关于Nishith Agarwal更详细的介绍,主要从事数据方面的工作,包...

使用Apache Hudi构建大规模、事务性数据湖
文章 2024-03-12 来自:开发者社区

Apache Hudi在Linkflow构建实时数据湖的生产实践

1. 背景 Linkflow 作为客户数据平台(CDP),为企业提供从客户数据采集、分析到执行的运营闭环。每天都会通过一方数据采集端点(SDK)和三方数据源,如微信,微博等,收集大量的数据。这些数据都会经过清洗,计算,整合后写入存储。使用者可以通过灵活的报表或标签对持久化的数据进行分析和计算,结果又会作为MA (Marketing Automation) 系统的数据源,从而实现对特定人群...

Apache Hudi在Linkflow构建实时数据湖的生产实践
文章 2024-03-12 来自:开发者社区

字节跳动基于Apache Hudi构建EB级数据湖实践

接下来将分为场景需求、设计选型、功能支持、性能调优、未来展望五部分介绍Hudi在字节跳动推荐系统中的实践。 ...

字节跳动基于Apache Hudi构建EB级数据湖实践
文章 2024-03-12 来自:开发者社区

Flink CDC + Hudi + Hive + Presto构建实时数据湖最佳实践

1. 测试过程环境版本说明 Flink1.13.1 Scala2.11 CDH6.2.0 Hadoop3.0.0 Hive2.1.1 Hudi0.10(master) PrestoDB0.256 Mysql5.7 2. 集群服务器基础环境 2.1 Maven和JDK环境版本 ...

Flink CDC + Hudi + Hive + Presto构建实时数据湖最佳实践
文章 2024-03-12 来自:开发者社区

字节跳动基于Apache Hudi构建实时数据湖平台实践

一篇关于字节跳动基于 Apache Hudi 的实时数据湖平台的分享。 ...

字节跳动基于Apache Hudi构建实时数据湖平台实践

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐