文章 2023-05-25 来自:开发者社区

《Apache Flink 案例集(2022版)》——1.数据集成——小米-Flink 流批一体在小米的实践

作者:金风 用户背景 小米科技有限责任公司成立于2010年3月3日,是一家专注于智能硬件和电子产品研发的全球化移动互联网企业,同时也是一家专注于智能手机、互联网电视及智能家居生态链建设的创新型科技企业。 小米公司创造了用互联网模式开发手机操作系统、发烧友参与开发改进的模式。 业务需求小米的大数据发展演变史大概如下:   2019 年之前,小米的实时计算主要以 SparkStreamin....

《Apache Flink 案例集(2022版)》——1.数据集成——小米-Flink 流批一体在小米的实践
文章 2023-05-25 来自:开发者社区

《Apache Flink 案例集(2022版)》——1.数据集成——小米-Flink 流批一体在小米的实践(2)

《Apache Flink 案例集(2022版)》——1.数据集成——小米-Flink 流批一体在小米的实践(1) https://developer.aliyun.com/article/12284723、作业调度 小米在作业调度方面也做了一些尝试。如上图左边这段 SQL,在离线调度模式下它是一个批作业,但在实时调度下它就是一个流作业。在批流混合的调度下,会先启动批作业,执行完成之后再启动流作....

《Apache Flink 案例集(2022版)》——1.数据集成——小米-Flink 流批一体在小米的实践(2)
高性能

Flink CDC 实现企业级实时数据同步

传统的数据集成通常由全量和增量同步两套系统构成,在全量同步完成后,还需要进一步将增量表和全量表进行合并操作,这种架构的组件构成较为复杂,系统维护困难。本方案提供 Flink CDC 技术实现了统一的增量和全量数据的实时集成。
技术解决方案背景图
文章 2023-05-25 来自:开发者社区

《Apache Flink 案例集(2022版)》——1.数据集成——小米-Flink 流批一体在小米的实践(3)

《Apache Flink 案例集(2022版)》——1.数据集成——小米-Flink 流批一体在小米的实践(2) https://developer.aliyun.com/article/12284702. 实时数据集成  主要分为两个部分:  第一部分是实时数据的收集,小米内部主要分为两大类, 分别是日志数据和 DB 的 Binlog 数据。这里主要介绍 DB 系统的 B....

《Apache Flink 案例集(2022版)》——1.数据集成——小米-Flink 流批一体在小米的实践(3)
文章 2023-05-25 来自:开发者社区

《Apache Flink 案例集(2022版)》——1.数据集成——小米-Flink 流批一体在小米的实践(3)

2. 实时数据集成  主要分为两个部分:  第一部分是实时数据的收集,小米内部主要分为两大类, 分别是日志数据和 DB 的 Binlog 数据。这里主要介绍 DB 系统的 Binlog 数据收集。最初小米使用自研的 LCS Binlog 服务来进行统一的 Binlog 收集,类似于 Canal 服务,通过该服务将 Binlog 的数据统一收集到消息队列中。  第二部....

《Apache Flink 案例集(2022版)》——1.数据集成——小米-Flink 流批一体在小米的实践(3)
文章 2023-05-25 来自:开发者社区

《Apache Flink 案例集(2022版)》——1.数据集成——伴鱼-伴鱼基于 Flink 构建数据集成平台的设计与实现(1)

作者:李辉用户背景 伴鱼是一个创新驱动的互联网+教育公司,也是一个基于互联网的在线学习平台,致力于打造一个自适应学习 Adaptive Learning + 社会化学习 Social Learning 的完整语言学习环境。 业务需求目前伴鱼内部数据的集成需求主要体现在三块:Stat Log (业务标准化日志或称统计日志)、TiDB 及 MongoDB。另外,由于实时数仓正处于建设过程中,目前数据....

《Apache Flink 案例集(2022版)》——1.数据集成——伴鱼-伴鱼基于 Flink 构建数据集成平台的设计与实现(1)
文章 2023-05-25 来自:开发者社区

《Apache Flink 案例集(2022版)》——1.数据集成——伴鱼-伴鱼基于 Flink 构建数据集成平台的设计与实现(2)

《Apache Flink 案例集(2022版)》——1.数据集成——伴鱼-伴鱼基于 Flink 构建数据集成平台的设计与实现(1) https://developer.aliyun.com/article/1228434用户提交集成任务后将同步创建三个任务:  增量任务 (流):增量任务将 DB 日志数据由 Kafka 同步至 Hive。由于采集组件都是按照集群粒度进行采集,且集群数....

《Apache Flink 案例集(2022版)》——1.数据集成——伴鱼-伴鱼基于 Flink 构建数据集成平台的设计与实现(2)
文章 2023-05-25 来自:开发者社区

《Apache Flink 案例集(2022版)》——1.数据集成——伴鱼-伴鱼基于 Flink 构建数据集成平台的设计与实现(3)

《Apache Flink 案例集(2022版)》——1.数据集成——伴鱼-伴鱼基于 Flink 构建数据集成平台的设计与实现(2) https://developer.aliyun.com/article/12284312. Merge任务  Merge 任务的前提是存量数据与增量数据都已经 ready,通过 _SUCCESS 文件进行标记。整个Merge 任务的工作流如下图所示: ....

《Apache Flink 案例集(2022版)》——1.数据集成——伴鱼-伴鱼基于 Flink 构建数据集成平台的设计与实现(3)
文章 2023-05-25 来自:开发者社区

《Apache Flink 案例集(2022版)》——1.数据集成——37手游-基于 Flink CDC + Hudi 湖仓一体方案实践

作者:徐润柏 用户背景 37手游着重强化自身游戏运营能力、市场推广能力、广告设计能力,提出了立体化、AI智能化营销的“流量经营”策略。37手游秉承“创新点亮梦想,分享成就未来”和“相信创造奇迹”的文化理念,强调创新、分享、自信、梦想和追求的经营理念。 业务需求37手游的原有技术架构如上图所示,主要存在如下业务痛点:  1. 数据实时性不够 日志类数据通过 sqoop 每 30min 同....

《Apache Flink 案例集(2022版)》——1.数据集成——37手游-基于 Flink CDC + Hudi 湖仓一体方案实践
文章 2023-05-25 来自:开发者社区

《Apache Flink 案例集(2022版)》——1.数据集成——XTransfer-基Flink MongoDB CDC 在 XTransfer 的生产实践(上)

作者:孙家宝 用户背景 XTransfer 专注为跨境 B2B 电商中小企业提供跨境金融和风控服务,通过建立数据化、自动化、互联网化和智能化的风控基础设施,搭建通达全球的财资管理平台,提供开立全球和本地收款账户、外汇兑换、海外外汇管制国家申报等多种跨境金融服务的综合解决方案。 业务需求在业务发展早期,XTransfer选择了传统的离线数仓架构,采用全量采集、批量处理、覆盖写入的数据集成方式,数据....

《Apache Flink 案例集(2022版)》——1.数据集成——XTransfer-基Flink MongoDB CDC 在 XTransfer 的生产实践(上)
文章 2023-05-25 来自:开发者社区

《Apache Flink 案例集(2022版)》——1.数据集成——XTransfer-基Flink MongoDB CDC 在 XTransfer 的生产实践(下)

《Apache Flink 案例集(2022版)》——1.数据集成——XTransfer-基Flink MongoDB CDC 在 XTransfer 的生产实践(上) https://developer.aliyun.com/article/1228399生产实践 在实际的生产使用过程当中,XTransfer积累了如下的实践经验: 1. 使用 RocksDB State Backend Cha....

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐

阿里云实时计算Flink

一套基于Apache Flink构建的一站式、高性能实时大数据处理平台,广泛适用于流式数据处理、离线数据处理、DataLake计算等场景。

+关注