文章 2023-03-16 来自:开发者社区

JAVA面试——Hadoop

25.1.1. 概念就是一个大数据解决方案。它提供了一套分布式系统基础架构。 核心内容包含 hdfs 和mapreduce。hadoop2.0 以后引入 yarn. hdfs 是提供数据存储的,mapreduce 是方便数据计算的。1. hdfs 又对应 namenode 和 datanode. namenode 负责保存元数据的基本信息,datanode 直接存放数...

JAVA面试——Hadoop
文章 2022-10-21 来自:开发者社区

【Hadoop技术篇】hive的优化,经典面试

 目录Map Join作用触发条件Bucket-Map Join作用触发条件SMB Join (sort merge bucket)作用触发条件Join-Skew关联查询时数据倾斜运行时优化编译时优化Unoin优化GroupBy-Skew统计时数据倾斜Map先行打散MR Job随机数打散Map Join作用大表 和 小表 关联查询时,提升性能,避免数据倾斜。触发条件-...

【Hadoop技术篇】hive的优化,经典面试
文章 2022-09-20 来自:开发者社区

Hadoop(HDFS)概述、HDFS产生背景、HDFS定义、HDFS优缺点、HDFS组成架构、HDFS文件块大小(面试重点)

$stringUtil.substring( $!{XssContent1.description},200)...

Hadoop(HDFS)概述、HDFS产生背景、HDFS定义、HDFS优缺点、HDFS组成架构、HDFS文件块大小(面试重点)
文章 2022-06-09 来自:开发者社区

【Hadoop】(六)详解 HDFS 的数据流 (面试重点)

文章目录一、HDFS写数据流程1. 剖析文件写入2. 网络拓扑-节点距离计算3. 机架感知(副本存储节点选择)二、HDFS读数据流程前言:在《Hadoop系列》的第一篇博文里,就已经提到了 【hadoop】(一)分布式文件系统 HDFS,但作为面试中经常遇到的数据流的问题,特地拎出来专...

【Hadoop】(六)详解 HDFS 的数据流 (面试重点)
文章 2022-04-27 来自:开发者社区

Hadoop MapReduce 保姆级吐血宝典,学习与面试必读此文!(三)

8. Map端实现 JOIN8.1 概述适用于关联表中有小表的情形.使用分布式缓存,可以将小表分发到所有的map节点,这样,map节点就可以在本地对自己所读到的大表数据进行join并输出最终结果,可以大大提高join操作的并发度,加快处理速度8.2 实现步骤先在mapper类中预先定义好小表,进行join引入实际场景中的解决方...

文章 2022-04-27 来自:开发者社区

Hadoop MapReduce 保姆级吐血宝典,学习与面试必读此文!(二)

6. MapReduce的运行机制详解6.1 MapTask 工作机制整个Map阶段流程大体如上图所示。简单概述:inputFile通过split被逻辑切分为多个split文件,通过Record按行读取内容给map(用户自己实现的)进行处理,数据被map处理结束之后交给OutputCollector收集器,对其结...

Hadoop MapReduce 保姆级吐血宝典,学习与面试必读此文!(二)
文章 2022-04-27 来自:开发者社区

Hadoop MapReduce 保姆级吐血宝典,学习与面试必读此文!(一)

Hadoop 涉及的知识点如下图所示,本文将逐一讲解:本文档参考了关于 Hadoop 的官网及其他众多资料整理而成,为了整洁的排版及舒适的阅读,对于模糊不清晰的图片及黑白图片进行重新绘制成了高清彩图。目前企业应用较多的是Hadoop2.x,所以本文是以Hadoop2.x为主,对于Hadoop3.x新增的内容会进行...

Hadoop MapReduce 保姆级吐血宝典,学习与面试必读此文!(一)
文章 2022-04-26 来自:开发者社区

Hadoop面试题(一)

1、集群的最主要瓶颈磁盘IO2、Hadoop运行模式单机版、伪分布式模式、完全分布式模式3、Hadoop生态圈的组件并做简要描述1)Zookeeper:是一个开源的分布式应用程序协调服务,基于zookeeper可以实现同步服务,配置维护,命名服务。2)Flume:一个高可用的,高可靠的,...

文章 2022-04-26 来自:开发者社区

Hadoop面试题总结(二)——HDFS

1、 HDFS 中的 block 默认保存几份?默认保存3份2、HDFS 默认 BlockSize 是多大?默认64MB3、负责HDFS数据存储的是哪一部分?DataNode负责数据存储4、SecondaryNameNode的目的是什么?他的目的使帮助NameNode合并编辑日志,减少NameNode 启动时间5、文件大小设置...

Hadoop面试题总结(二)——HDFS

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐

大数据

大数据计算实践乐园,近距离学习前沿技术

+关注