阿里云文档 2025-04-25

选择业务场景

阿里云EMR针对不同业务场景提供了数据湖集群、数据分析集群、实时数据流集群、数据服务集群四类预定义业务场景。若您的业务需集成特定组合的组件,您可创建自定义集群,灵活组合EMR提供的组件,打造适配业务特性的大数据平台。本文将为您介绍这些集群的区别,帮助您快速选型。

阿里云文档 2025-04-18

与自建集群的对比优势

与自建Hadoop集群相比,开源大数据开发平台EMR提供弹性资源管理和自动化运维,降低运维复杂度,通过用户管理、数据加密和权限管理等为数据安全保驾护航,同时EMR集成了丰富的开源组件并打通开源生态与阿里云生态,便于快速搭建大数据处理和分析场景。

阿里云文档 2025-04-16

使用Hadoop命令操作OSS/OSS-HDFS

在使用阿里云EMR Serverless Spark的Notebook时,您可以通过Hadoop命令直接访问OSS或OSS-HDFS数据源。本文将详细介绍如何通过Hadoop命令操作OSS/OSS-HDFS。

阿里云文档 2025-02-14

基于自建Hadoop集群进行自定义CDH镜像

本文为您介绍如何在DataWorks绑定自建 Hadoop 集群并进行任务开发,以及如何自定义自建集群运行环境。

文章 2024-06-12 来自:开发者社区

大数据之hadoop3入门到精通(三)

大数据之hadoop3入门到精通(二);https://developer.aliyun.com/article/1535226 HDFS—核心参数 NameNode 内存生产配置 1)NameNode 内存计算 每个文件块大概占用 150byte,一台服务器 128G 内存为例,能存储多少文件块呢? 128 * 1024 * 1024 * 1024 / ...

文章 2024-06-12 来自:开发者社区

大数据之hadoop3入门到精通(二)

大数据之hadoop3入门到精通(一):https://developer.aliyun.com/article/1535224 常见错误及解决方案 1)防火墙没关闭、或者没有启动 YARN INFO client.RMProxy: Connecting to ResourceManager at hadoop108/192.168.10.108:8032 ...

文章 2024-06-12 来自:开发者社区

大数据之hadoop3入门到精通(一)

hadoop3.x搭建学习 Hadoop概述 什么是hadoop? 1)Hadoop是一个由Apache基金会所开发的分布式系统基础架构。 2)主要解决,海量数据的存储和海量数据的分析计算问题。 3)广义上来说,Hadoop通常是指一个更广泛的概念——Hadoop生态圈。 Hadoop四大特点 1)高可靠性:Hadoop底层维护多个数据副本...

阿里云文档 2024-04-03

迁移Hadoop集群至DataLake集群

本文将详细阐述如何将您已有的旧版数据湖集群(Hadoop),高效地迁移至数据湖集群(DataLake),以下分别简称“旧集群”和“新集群”。迁移过程将充分考虑旧集群的版本、元数据类型以及存储方式,并针对这些因素,提供适应新集群的迁移策略与步骤。

文章 2022-02-17 来自:开发者社区

大数据Hadoop入门需要填的坑

1、Hadoop生态概况 Hadoop是一个由Apache基金会所开发的分布式系统集成架构,用户可以在不了解分布式底层细节情况下,开发分布式程序,充分利用集群的威力来进行高速运算与存储,具有可靠、高效、可伸缩的特点: 高可靠性:提供按位处理的存储和计算能力值得用户信赖。 高扩展性:可以轻松地从小量集群扩展到数以千计的节点中。 高效性:提供并发的分布式计算框架,处理速度非常快。 高容错性:即使在少....

文章 2022-02-17 来自:开发者社区

大数据hadoop从入门到精通之hadoop家族产品

大数据这个词也许几年前你听着还会觉得陌生,但我相信你现在听到hadoop这个词的时候你应该都会觉得“熟悉”!越来越发现身边从事hadoop开发或者是正在学习hadoop的人变多了。作为一个hadoop入门级的新手,你会觉得哪些地方很难呢?运行环境的搭建恐怕就已经足够让新手头疼。如果每一个发行版hadoop都可以做到像大快DKHadoop那样把各种环境搭建集成到一起,一次安装搞定所有,那对于新手来....

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐

大数据

大数据计算实践乐园,近距离学习前沿技术

+关注