技术解决方案

稳定可靠、弹性伸缩, 助您轻松低成本大数据上云

开源大数据平台 E-MapReduce

    方案详情
    云原生企业级数据湖

    对象存储 OSS 作为数据湖统一存储,可以存储来自于不同数据源的各类型数据。 通过多种存储类型实现数据冷热分层,可无缝对接 EMR 、PAI 等大数据分析和训练引擎。结合高性能文件存储 CPFS,实现 OSS 与 CPFS 数据双向流通,同时,热点训练数据以透明方式同步到 CPFS,通过 CPFS 的文件语义与机器学习平台 PAI 对接,满足高性能训练场景需求。

    解决问题:数据孤岛林立

    不同业务部门由于数据规模、数据类型不同而出现不同的数据孤岛,难以从统一位置访问和管理所有数据,数据无法实现有效共享。

    解决问题:数据存储成本高

    传统存储方案中不同类型数据往往需要不同的存储系统,同时,数据缺乏有效的生命周期管理策略,导致数据存储成本高。

    解决问题:数据分析难,安全性低

    传统方案无法有效对接数据分析平台,缺乏体系化的安全管理机制,无法实现数据加密和访问控制,难以保障数据的安全性和隐私性。

    方案优势

    内容区小图标

    数据无需处理、直接存储

    支持结构化、半结构化、非结构化等多种类型数据,数据可以按照原始产生的形态直接存储到数据湖,支持多种数据输入源对接,提供便捷的数据接入和数据消费通道。

    内容区小图标

    一份存储、多种引擎

    各种类型的数据以集中方式统一存储在对象存储 OSS,解决数据孤岛,避免数据分散在多种不同的系统,极大降低运维管理难度,基于生命周期管理,优化 TCO。无缝对接多种计算引擎,在需要分析阶段,再通过数据引擎进行处理。

    内容区小图标

    计算与存储解耦合

    提供更灵活的系统架构设计,让计算、存储资源具备更好的可扩展性,对 Hadoop 生态体系有良好的支持能力,通过细粒度的权限控制、数据加密和日志记录与审计等机制保障数据安全。
    应用场景
    基于开源生态构建大数据分析
    支撑 Hadoop 开源生态构建大数据分析方案,解决了传统 Hadoop 在扩展性、运维模式、成本优化方面的难题,覆盖离线分析、交互式查询、流式处理等多个数据管理场景,支持多种数据通道,全面覆盖日志、消息、数据库、HDFS 各种数据源接入。
    海量数据冷热分层
    大数据场景中有大量数据累积,并且数据随着时间推移访问热度会大幅降低。冷热分层能力将不同访问热度的数据存储在不同类型,解决了数据分散在各个集群,需要在不同存储系统中反复拷贝等运维困扰,优化长期存储成本。
    基于数据湖的人工智能
    通过数据湖支撑人工智能从训练数据存储、预处理、特征提取、训练、模型部署和推理多个重要过程,充分发挥机器学习平台的技术优势,凭借高吞吐能力,进一步训练速度提升,为人工智能算法提供有效数据支撑。
    方案部署
    01部署准备
    开通OSS、EMR、机器学习平台PAI、文件存储CPFS服务。
    02创建资源
    创建OSS存储桶(Bucket)和EMR集群, 并完成Bucket和EMR集群对应配置,创建PAI和对应的AI工作空间。
    03准备数据
    将需要分析的数据上传到对应的Bucket,配置对应的EMR或PAI作业/训练任务和Bucket中上传数据对应。
    04运行作业
    在EMR集群上运行对应的分析作业,分析存储在OSS中数据,并查看运行状态。
    05下载结果
    在EMR集群或PAI运行对应的分析作业/训练,分析存储在OSS中数据,并查看运行状态。
    免费试用

    想体验更多产品功能?

    立即购买 开源大数据平台 E-MapReduce产品

    了解更多阿里云产品介绍?

    探索 阿里云产品 了解更多产品介绍

    遇到了困难需要帮助?

    联系我们 咨询阿里云服务团队