文章 2022-05-13 来自:开发者社区

基于Apache doris怎么构建数据中台(四)-数据接入系统

基于Apache doris怎么构建数据中台(四)-数据接入系统上一次我们讲解了数据资产,元数据管理,血缘关系等,这次我们开始将数据接入,怎么实现快速的数据接入在开发数据模型时,我们必须有一个统一的平台,能够像流水线一样,把数据一步步加工成数据模型。这其中涉及到数据萃取、数据聚合、作业调度等。主要是为了实现业务数据的快速接入,零代码实现,数据分析人员只需要通过UI进行简单的配置、提交任务即可完成....

基于Apache doris怎么构建数据中台(四)-数据接入系统
文章 2022-05-13 来自:开发者社区

基于Apache doris怎么构建数据中台(三)-数据资产管理

前面我们讲了什么是数据中台,及数据中台的架构及功能规划,这次我们开始从数据资产开始拆解每个功能模块做的内容1.概述数据资产管理平台可以定量评估数据资产的成本,价值,质量。帮助企业优化存储成本,节约计算资源。精细化的数据生命周期管理,帮助企业更好的管理数据的生产到销毁的整个生命周期。在管理方面:管理者在规划数据文化建设时,对企业数据资产的全局构成、使用形式、 使用效果都需要详细的指标输入,往往这些....

基于Apache doris怎么构建数据中台(三)-数据资产管理
文章 2022-05-13 来自:开发者社区

基于Apache doris怎么构建数据中台(二)-数据中台建设内容

这次主要是将基于Doris的数据中台建设内容及系统架构设计围绕着上次将的我们要解决的五个问题:找数,理解数据,问题评估,取数及数据可视化,给出一个概要的设计及框架数据中台建设内容数据规范统一:采用维度事实建模理论进行严格的,规范化、标准化的定义,保障数据质量,避免数据指标的二义性。一站式研发体验:从数据接入、建模、研发、运维、数据查找及探查等过程提供高效一站式统一的研发立案率。系统化构建数据体系....

基于Apache doris怎么构建数据中台(二)-数据中台建设内容
文章 2022-05-13 来自:开发者社区

基于Apache doris怎么构建数据中台(一)-什么是数据中台

这是数据中台系列的第一篇文章,主要阐述数据中台概念,从技术和业务视觉看数据中台及数据中台要解决的问题1.什么是数据中台数据是从业务系统产生的,而业务系统也需要数据分析的结果,那么是否可以把业务系统的数据存储和计算能力抽离,由单独的数据处理平台提供存储和计算能力?这样不仅可以简化业务系统的复杂性,还可以让各个系统采用更合适的技术,专注做本身擅长的事。这个专用的数据处理平台即数据中台。数据中台是一个....

文章 2022-05-07 来自:开发者社区

基于 Apache Hudi 构建增量和无限回放事件流的 OLAP 平台

1. 摘要在本博客中,我们将讨论在构建流数据平台时如何利用 Hudi 的两个最令人难以置信的能力。增量消费--每 30 分钟处理一次数据,并在我们的组织内构建每小时级别的OLAP平台事件流的无限回放--利用 Hudi 的提交时间线在超级便宜的云对象存储(如 AWS S3)中存储 10 天的事件流(想象一个具有 10 天保留期的 kafka 主题)具有部分记录更新的自定义 Hudi Payload....

基于 Apache Hudi 构建增量和无限回放事件流的 OLAP 平台
文章 2022-05-07 来自:开发者社区

基于Apache Hudi在Google云构建数据湖平台

自从计算机出现以来,我们一直在尝试寻找计算机存储一些信息的方法,存储在计算机上的信息(也称为数据)有多种形式,数据变得如此重要,以至于信息现在已成为触手可及的商品。多年来数据以多种方式存储在计算机中,包括数据库、blob存储和其他方法,为了进行有效的业务分析,必须对现代应用程序创建的数据进行处理和分析,并且产生的数据量非常巨大!有效地存储数PB数据并拥有必要的工具来查询它以便使用它至关重要,只有....

基于Apache Hudi在Google云构建数据湖平台
文章 2022-05-07 来自:开发者社区

基于Apache Hudi和Debezium构建CDC入湖管道

1. 背景当想要对来自事务数据库(如 Postgres 或 MySQL)的数据执行分析时,通常需要通过称为更改数据捕获 CDC的过程将此数据引入数据仓库或数据湖等 OLAP 系统。 Debezium 是一种流行的工具,它使 CDC 变得简单,其提供了一种通过读取更改日志来捕获数据库中行级更改的方法,通过这种方式 Debezium 可以避免增加数据库上的 CPU 负载,并确保捕获包括删除在内的所有....

基于Apache Hudi和Debezium构建CDC入湖管道
文章 2022-05-07 来自:开发者社区

基于Apache Hudi构建数据湖的典型应用场景介绍

1. 传统数据湖存在的问题与挑战传统数据湖解决方案中,常用Hive来构建T+1级别的数据仓库,通过HDFS存储实现海量数据的存储与水平扩容,通过Hive实现元数据的管理以及数据操作的SQL化。虽然能够在海量批处理场景中取得不错的效果,但依然存在如下现状问题:问题一:不支持事务由于传统大数据方案不支持事务,有可能会读到未写完成的数据,造成数据统计错误。为了规避该问题,通常控制读写任务顺序调用,在保....

基于Apache Hudi构建数据湖的典型应用场景介绍
文章 2022-05-07 来自:开发者社区

使用Apache Pulsar + Hudi构建Lakehouse方案了解下?

1. 动机Lakehouse最早由Databricks公司提出,其可作为低成本、直接访问云存储并提供传统DBMS管系统性能和ACID事务、版本、审计、索引、缓存、查询优化的数据管理系统,Lakehouse结合数据湖和数据仓库的优点:包括数据湖的低成本存储和开放数据格式访问,数据仓库强大的管理和优化能力。Delta Lake,Apache Hudi和Apache Iceberg是三种构建Lakeh....

使用Apache Pulsar + Hudi构建Lakehouse方案了解下?
文章 2022-05-06 来自:开发者社区

使用Apache Hudi + Amazon S3 + Amazon EMR + AWS DMS构建数据湖

1. 引入数据湖使组织能够在更短的时间内利用多个源的数据,而不同角色用户可以以不同的方式协作和分析数据,从而实现更好、更快的决策。Amazon Simple Storage Service(amazon S3)是针对结构化和非结构化数据的高性能对象存储服务,可以用来作为数据湖底层的存储服务。然而许多用例,如从上游关系数据库执行变更数据捕获(CDC)到基于Amazon S3的数据湖,都需要在记录级....

使用Apache Hudi + Amazon S3 + Amazon EMR + AWS DMS构建数据湖

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐

Apache Spark 中国技术社区

阿里巴巴开源大数据技术团队成立 Apache Spark 中国技术社区,定期推送精彩案例,问答区数个 Spark 技术同学每日在线答疑,只为营造 Spark 技术交流氛围,欢迎加入!

+关注
相关镜像