阿里云文档 2025-05-12

访问开启Kerberos的Hadoop集群

本文介绍如何配置Serverless StarRocks实例,以安全访问启用了Kerberos的Hadoop集群,实现高效的数据查询与分析,确保数据访问的安全性与性能。

阿里云文档 2025-04-25

选择业务场景

阿里云EMR针对不同业务场景提供了数据湖集群、数据分析集群、实时数据流集群、数据服务集群四类预定义业务场景。若您的业务需集成特定组合的组件,您可创建自定义集群,灵活组合EMR提供的组件,打造适配业务特性的大数据平台。本文将为您介绍这些集群的区别,帮助您快速选型。

阿里云文档 2025-04-18

与自建集群的对比优势

与自建Hadoop集群相比,开源大数据开发平台EMR提供弹性资源管理和自动化运维,降低运维复杂度,通过用户管理、数据加密和权限管理等为数据安全保驾护航,同时EMR集成了丰富的开源组件并打通开源生态与阿里云生态,便于快速搭建大数据处理和分析场景。

阿里云文档 2025-04-16

使用Hadoop命令操作OSS/OSS-HDFS

在使用阿里云EMR Serverless Spark的Notebook时,您可以通过Hadoop命令直接访问OSS或OSS-HDFS数据源。本文将详细介绍如何通过Hadoop命令操作OSS/OSS-HDFS。

文章 2024-10-13 来自:开发者社区

Hadoop-05-Hadoop集群 集群WordCount 超详细 真正的分布式计算 上传HDFS MapReduce计算 YRAN查看任务 上传计算下载查看

PS:小知识点, yarn 应该写为: YARN,通常使用大写的 “YARN” 来指代 “Yet Another Resource Negotiator” 章节内容 上一节完成: Hadoop分发 单节点启动 NameNode初始化 DataNode启动 YRAN启动 ResourceManager NodeManager 集群...

Hadoop-05-Hadoop集群 集群WordCount 超详细 真正的分布式计算 上传HDFS MapReduce计算 YRAN查看任务 上传计算下载查看
文章 2024-06-06 来自:开发者社区

Hadoop性能优化MapReduce任务中的小文件问题

Hadoop性能优化MapReduce任务中的小文件问题,主要可以从以下几个方面进行考虑和操作: 一、小文件问题产生的原因 实时计算:在实时计算过程中,如果时间窗口设置得较小,可能会在HDFS上产生大量的小文件。 数据源:数据源本身可能就包含大量的小文件,或者在进行数据处理时没有进行适当的合并。 MapReduce配置:MapReduce作业的配置未设置合理的reducer数量,或者...

Hadoop性能优化MapReduce任务中的小文件问题
阿里云文档 2024-04-03

迁移Hadoop集群至DataLake集群

本文将详细阐述如何将您已有的旧版数据湖集群(Hadoop),高效地迁移至数据湖集群(DataLake),以下分别简称“旧集群”和“新集群”。迁移过程将充分考虑旧集群的版本、元数据类型以及存储方式,并针对这些因素,提供适应新集群的迁移策略与步骤。

文章 2022-02-17 来自:开发者社区

实践Hadoop MapReduce 任务的性能翻倍之路

作者:李万雪, eBay软件开发工程师,2017年毕业于上海交通大学。目前负责日志在大数据平台上的分析和opentracing在ebay日志平台的实现。 原文链接:https://mp.weixin.qq.com/s?__biz=MzA3MDMyNDUzOQ==&mid=2650505625&idx=1&sn=374ae0fdf7b02cf3dfdd9180580204c....

实践Hadoop MapReduce 任务的性能翻倍之路
文章 2022-02-17 来自:开发者社区

记Hadoop2.5.0线上mapreduce任务执行map任务划分的一次问题解决

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/beliefer/article/details/51397729 前言 近日在线上发现有些mapreduce作业的执行时间很长,我们需要解决这个问题。输入文件的大小是5G,采用了lzo压缩,整个集群的默认b...

记Hadoop2.5.0线上mapreduce任务执行map任务划分的一次问题解决
文章 2022-02-17 来自:开发者社区

Hadoop旧mapreduce的map任务切分原理

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/beliefer/article/details/51395043 前言 最近在工作过程中接触一些Hive数据仓库中的表,这些表实际是从关系型数据库通过Sqoop抽到Hive的。在开发过程中对map任务的划分...

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐

大数据

大数据计算实践乐园,近距离学习前沿技术

+关注