湖仓一体

湖仓一体
大数据平台新一代架构
数据仓库VS数据湖
circle
hucangimg
Lakehouse–Next Generation of
BigData Infrastructure_
数据仓库
数据湖
数据仓库
数据体系严格,提前建模
灵活性较低
数据治理容易
数据种类单一(结构化、半结构化)
面向成熟数据的企业级分析与处理
向特定引擎开放,易获得高度优化
数据湖
数据体系松散,事后建模
灵活性较高
数据治理困难
数据种类丰富(结构化、半结构化、非结构化)
面向异构数据的科学探查与价值挖掘
向所有引擎开放,各引擎有限优化
湖仓一体
兼具数据湖的灵活性
数据仓库的成长性
graphmissing
灵活性
Flexibility
数据湖
Data Lake
成长性
sustainability
云数据仓库
Data Warehouse
总体拥有成本(TCO)
特定规模前,数据湖灵活性占优,之后数仓成长性占优
业务规模
客户如何才能同时享受数据湖的灵活性和
云数据仓库的成长性?
湖仓一体
兼具数据湖的灵活性
数据仓库的成长性
客户如何才能同时享受数据湖的灵活性和云数据仓库的成长性?
MaxCompute 湖仓一体方案特性
MaxCompute湖仓一体方案打破数据湖与数据仓库割裂的体系,架构上将数据湖的灵活性、生态丰富与数据仓库的企业级能力进行融合,
构建数据湖和数据仓库融合的数据管理平台。
01
企业级高性能数据仓库,通过云原生大数据服务以更低成本满足业务高弹性和敏捷性需求。
02
与数据湖(OSS、EMR-HDFS)联动,无需数据搬迁即可无缝处理和分析数据湖数据。
03
通过DataWorks开发平台,提供统一的数据开发、数据管理和数据治理。
湖仓一体技术架构
jiagoutu
MaxCompute 湖仓一体关键技术
快速接入
全新自创PrivateAccess网络连通术,可连接IDC Hadoop、云上ECS自建Hadoop以及EMR Hadoop集群。
经过快速简单的开通步骤即可和购买的 MaxCompute 数仓相连通。
统一开发体验
基于DataWorks强大的数据开发/管理/治理能力,提供统一的湖仓开发体验,降低两套系统的管理成本。
MaxCompute高度兼容Hive/Spark,支持一套任务可以在湖仓两套体系中灵活无缝的运行。
MaxCompute提供高效的数据通道接口,可以让数据湖中的Hadoop生态引擎直接访问,提升了进仓数据的开放性。
cangkuimg
统一数据/元数据管理
既支持hadoop开源数据湖,也支持oss数据湖。
数据湖中的元数据DB直接映射为 MaxCompute Project,享受数仓配套工具链。
自动数仓
极大降低数据迁移和作业迁移的难度。在统一管理框架下,用户可根据自身资产使用情况构建混合计算架构,通过自动数仓合理的数据分层,不仅享受数据湖带来的灵活性也享受了MaxCompute 带来的企业级数仓能力。
MaxCompute 和 EMR 湖仓一体方案价值与收益
支持超大规模的
机器学习、深度学习
基于开源的数据湖依托湖仓一体混合云架构,可以实现超大数据集进行机器学习、深度学习训练,以及高性能的超大规模样本生成和特征处理的完整pipeline,极大提升AI类作业效率。
高效使用阿里数据中台
提升企业大数据能力
企业依托开源建设了数据湖,在借助使用阿里数据中台能力过程中,湖仓一体方案解决了迁移带来的利旧、确保业务连续性、与已有系统协同、提升迁移速度的问题。
敏捷运营、降本提效
强运营行业(视频、直播、游戏等),数据驱动运营决策频次高,对计算资源临时性需求强。湖仓一体方案以更低成本快速的满足业务高弹性需求。
微博应用MaxCompute和EMR湖仓一体构建混合云AI计算中台
ztjiagoutu
_核心痛点
ccmissing
_方案收益
ccmissing
核心痛点
1
微博现有开源Hadoop数据湖和阿里巴巴大数据及AI两套异构的大数据平台,且两套大数据平台在集群层面是完全割裂的。
2
两套割裂的大数据平台无法兼顾面向AI的各类数据和计算的灵活性,和超大规模下的计算和算法的性能、成本问题。
3
数据和计算无法在两套大数据平台间自由流动,增加了大量的数据移动和计算开发等成本,制约业务发展。
dotline
方案收益
1
不仅融合了数据湖和数据仓库的优势,在灵活性和效率上找到最佳平衡,还快速构建了一套统一的AI计算中台,极大提升该机器学习平台团队的业务支撑能力。
2
无须进行数据搬迁和作业迁移,即可将一套作业无缝灵活调度在MaxCompute集群和EMR集群中。
3
基于PAI丰富且强大的算法能力,封装出很多贴近业务场景的算法服务,满足增量业务需求。SQL数据处理任务被广泛运行到MaxCompute集群,性能有明显提升。
4
MaxCompute云原生的弹性资源和EMR集群资源形成互补,两套体系之间进行资源的削峰填谷,不仅减少作业排队,且降低整体成本。
MaxCompute 开通方式
标准预付费
适合业务负载稳定,对费用支出要求平稳、可预测的业务需求。
购 买
预付费套餐(存储+计算)
适合业务负载稳定,对费用支出要求可预测。该套餐,同配置下,云上成本最低。
购 买
按量计费
完全的按需付费模式,无需容量规划,无需资源管理,适合计算需求波动较大场景,灵活性高、总体拥有成本低。
开 通
非预留资源预付费
较标准预付费价格降低超过70%,不保障即时资源并发能力,提供单日内一定大小的总算力供给。
购 买