文章 2023-03-01 来自:开发者社区

Apache RocketMQ + Hudi 快速构建 Lakehouse

本文目录背景知识大数据时代的构架演进RocketMQ Connector&StreamApache Hudi构建Lakehouse实操本文标题包含三个关键词:Lakehouse、RocketMQ、Hudi。我们先从整体Lakehouse架构入手,随后逐步分析架构产生的原因、架构组件特点以及构建Lakehouse架构的实操部分。背景知识1、Lakehouse架构Lakehouse最初由Da....

Apache RocketMQ +  Hudi 快速构建 Lakehouse
文章 2023-02-12 来自:开发者社区

《基于Apache Flink的平台化构建及运维优化经验》电子版地址

《基于Apache Flink的平台化构建及运维优化经验》基于Apache Flink的平台化构建及运维优化经验 电子版下载地址: https://developer.aliyun.com/ebook/3574 电子书: </div>

《基于Apache Flink的平台化构建及运维优化经验》电子版地址
文章 2023-01-05 来自:开发者社区

Apache Spark + 海豚调度:PB 级数据调度挑战,教你如何构建高效离线工作流

点击预约直播2010 年,我国进入移动互联网,数据规模成几何式增长。在大数据开源技术领域,以 Hadoop 为核心的大数据生态系统面对海量数据也不断发展与迭代,大数据处理流程中的各个开源组件,也一起开启了狂飙突进的大数据时代,推动了整个行业开启了数字化变革之路。近年来,大数据行业的开发者都在感慨:技术迭代更新速度的太快了,今年还在流行,明年就可能被雪藏!其实我们非常清楚,技术永远是在“更新”或“....

Apache Spark + 海豚调度:PB 级数据调度挑战,教你如何构建高效离线工作流
文章 2022-10-15 来自:开发者社区

《# Apache Spark系列技术直播# 第八讲 【 微软Azure平台利用Intel Analytics Zoo构建AI客服支持实践 】》电子版地址

《# Apache Spark系列技术直播# 第八讲 【 微软Azure平台利用Intel Analytics Zoo构建AI客服支持实践 】》# Apache Spark系列技术直播# 第八讲 【 微软Azure平台利用Intel Analytics Zoo构建AI客服支持实践 】 电子版下载地址:https://developer.aliyun.com/ebook/3514 电...

《# Apache Spark系列技术直播# 第八讲 【 微软Azure平台利用Intel Analytics Zoo构建AI客服支持实践 】》电子版地址
文章 2022-07-12 来自:开发者社区

Apache Doris 整合 FLINK CDC + Iceberg 构建实时湖仓一体的联邦查询

1.概览这篇教程将展示如何使用 Flink CDC + Iceberg + Doris 构建实时湖仓一体的联邦查询分析,Doris 1.1版本提供了Iceberg的支持,本文主要展示Doris和Iceberg怎么使用,同时本教程整个环境是都基于伪分布式环境搭建,大家按照步骤可以一步步完成。完整体验整个搭建操作的过程。1.1 软件环境本教程的演示环境如下:Centos7Apahce doris 1....

Apache Doris 整合 FLINK CDC + Iceberg 构建实时湖仓一体的联邦查询
文章 2022-05-28 来自:开发者社区

基于Apache SkyWalking构建企业级APM(Application Performance Monitoring)监控系统

正文一、什么是SkyWalkingSkyWalking是一个开源的观测平台,用于从服务和云原生等基础设施中收集、分析、聚合以及可视化数据。SkyWalking 提供了一种简便的方式来清晰地观测分布式系统。相比较zipkin而言,skywalking利用agent字节码增强技术实现代码无侵入,通信方式采用GRPC,性能较好,实现方式是java探针,支持告警,支持JVM监控,支持全局调用统计,UI界....

基于Apache SkyWalking构建企业级APM(Application Performance Monitoring)监控系统
文章 2022-05-14 来自:开发者社区

基于Apache doris怎么构建数据中台(八)-数仓管理

数仓分层模型数仓分层模型的好处:1、数据结构化更清晰:每一个数据分层都有它的作用域和职责,在使用表的时候能更方便地定位和理解。2、数据血缘追踪:提供给外界使用的是一张业务表,但是这张业务表可能来源很多张表。如果有一张来源表出问题了,我们可以快速准确的定位到问题,并清楚每张表的作用范围。3、增强数据复用能力:减少重复开发,通过数据分层规范化,开发一些通用的中间层数据,能够减少重复计算,提高单张业务....

基于Apache doris怎么构建数据中台(八)-数仓管理
文章 2022-05-14 来自:开发者社区

基于Apache-doris怎么构建数据中台(七)-数据指标管理

指标体系定义指标体系是将零散单点的具有相互联系的指标,系统化的组织起来,通过单点看全局,通过全局解决单点的问题。它主要由指标和体系两部分组成。指标是指将业务单元细分后量化的度量值,它使得业务目标可描述、可度量、可拆解,它是业务和数据的结合,是统计的基础,也是量化效果的重要依据。指标主要分为结果型和过程型:结果型指标 用于衡量用户发生某个动作后所产生的结果,通常是延后知道的,很难进行干预。结果型指....

基于Apache-doris怎么构建数据中台(七)-数据指标管理
文章 2022-05-14 来自:开发者社区

基于Apache doris怎么构建数据中台(六)-数据服务管理

上次讲数据质量的控制,那么针对据仓的数据及各种数据指标怎么快捷的对外提供数据服务,怎么快速的完成数据服务接口的开发,这次我们重点围绕这个进行展开。怎么实现接口开发零代码实现数据服务从字面上理解就是数据相关的服务,和业务服务的最大不同之处它并不包含具体业务逻辑处理,与之产出的数据服务大多为统计、决策类的数据结果。很多时候大数据平台服务都是提供了数据分析的能力,分析的结果可以导出Excel,或直接查....

基于Apache doris怎么构建数据中台(六)-数据服务管理
文章 2022-05-13 来自:开发者社区

基于Apache doris怎么构建数据中台(五)-数据质量管理

上一次我们讲了,数据怎么进行快速的接入,这次我们讲在接入及后续的数据处理中质量怎么控制如何更加合理、高效的监控每类作业的运行状态,并将原本分散、孤岛式的监控日志信息通过规则引擎集中共享、关联、处理;洞察关键信息,形成事前预判、事中监控、事后跟踪的质量管理闭环流程;沉淀故障问题,搭建解决方案的知识库体系。在数据质量监管平台的规划建设中,面临如下挑战:缺乏统一监控视图,离线和实时作业监控分散,影响性....

基于Apache doris怎么构建数据中台(五)-数据质量管理

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐

Apache Spark 中国技术社区

阿里巴巴开源大数据技术团队成立 Apache Spark 中国技术社区,定期推送精彩案例,问答区数个 Spark 技术同学每日在线答疑,只为营造 Spark 技术交流氛围,欢迎加入!

+关注
相关镜像