基于阿里云大数据平台的实时数据湖构建与数据分析实战
在大数据时代,数据湖作为一种集中存储和处理海量数据的架构,逐渐成为企业数据管理的核心。阿里云提供了完整的大数据平台,包括MaxCompute、DataWorks、E-MapReduce等,帮助企业高效构建实时数据湖并实现数据价值挖掘。本文将带您从零开始,基于阿里云大数据平台构建一个实时数据湖,并通过实战案例展示其...
如何访问OSS-HDFS数据
Hologres从V1.3.26版本开始,支持读写存储于OSS-HDFS上的数据。本文为您介绍基于DLF访问OSS-HDFS数据湖数据的使用方法。
阿里巴巴大数据实践之数据建模:构建企业级数据湖
引言随着互联网和移动互联网的快速发展,数据已成为推动业务增长的重要驱动力。阿里巴巴作为全球领先的电子商务公司之一,其大数据平台支撑着整个集团的数据处理需求。本文将重点介绍阿里巴巴在数据建模领域的实践,包括数据湖的概念、数据建模的原则和方法、以及在实际业务场景中的应用案例。 一、数据湖概念与重要性1.1 数据湖定义数据湖是一种存储企业所有原始数据的集中式存...
数据湖建设实践:使用AWS S3与LakeFormation构建灵活数据存储
作为一位热衷于大数据技术和云服务应用的博主,我有幸在多个项目中亲历了数据湖的构建过程,其中尤以使用Amazon Web Services (AWS)的S3对象存储服务与LakeFormation数据湖管理服务构建灵活、高效的数据存储体系印象深刻。在此,我将分享这一实践过程中的关键步骤、价值体现以及心得体会,希望能为同样关注数据湖建设的读者带...
Yotpo构建零延迟数据湖实践
1. 介绍 随着系统变得越来越复杂,我们需要更多的解决方案来集中维护大量数据,以便对其进行监控和查询,而又不会干扰运营数据库。在Yotpo,我们有许多微服务和数据库,因此将数据传输到集中式数据湖中的需求至关重要。我们一直在寻找易于使用的基础架构(仅需配置),以节省工程师的时间。 变更数据捕获(Changed Data Capture,简称为CDC)架构是指跟踪变更的数据,以便可以...

使用Apache Hudi构建大规模、事务性数据湖
一个近期由Hudi PMC & Uber Senior Engineering Manager Nishith Agarwal分享的Talk 关于Nishith Agarwal更详细的介绍,主要从事数据方面的工作,包...

字节跳动基于Apache Hudi构建EB级数据湖实践
接下来将分为场景需求、设计选型、功能支持、性能调优、未来展望五部分介绍Hudi在字节跳动推荐系统中的实践。 ...

基于 Apache Hudi 构建分析型数据湖
为了更好地发展业务,每个组织都在迅速采用分析。在分析过程的帮助下,产品团队正在接收来自用户的反馈,并能够以更快的速度交付新功能。通过分析提供的对用户的更深入了解,营销团队能够调整他们的活动以针对特定受众。只有当我们能够大规模提供分析时,这一切才有可能。 对数据湖的需求 在 NoBrokercom[1],出于操作目的,事务数据存储在基于 SQL 的数据库中,事件数据存储在 No-S...

基于Apache Hudi + MinIO 构建流式数据湖
Apache Hudi 是一个流式数据湖平台,将核心仓库和数据库功能直接引入数据湖。Hudi 不满足于将自己称为 Delta 或 Apache Iceberg 之类的开放文件格式,它提供表、事务、更新/删除、高级索引、流式摄取服务、数据聚簇/压缩优化和并发性。Hudi 于 2016 年推出,牢牢扎根于 Hadoop 生态系统,解释了名称背后的含义:Hadoop Upserts Deletes a....

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。