文章 2023-09-20 来自:开发者社区

大数据开发的面试总结 2

4 spark家族接下来我们来看一下spark。那在对应的一个spark 出现之前,我们整个的一个mapreduce 任务也好,hive 也好,底层本质上来说都是基于mapreduce 加hdfs 的一个文件传输去做运行的。因此整个mapreduce 和hive对应它的mapreduce 运行速度都是非常的慢的。我甚至于执行一个非常简单的一个组件查询的sql 语句。由于它内部并不是sql的inn....

大数据开发的面试总结 2
文章 2023-09-20 来自:开发者社区

大数据开发的面试总结 1

复盘一下对于我这个java程序员/项目经理/架构师,在简历中写了很多对于大数据项目开发的人的一些问题,也许能帮到大家,因为我是一个对于分布式,高并发,高性能,高可用,海量数据都有解决方案和架构思想一个人,不断的突破自己,能更好的发挥自己在企业中的价值。对于大数据和算法体系可能有些java工程师觉得这不关我们的事儿,但是随着业务发展数据体系不断变大,用户量剧增,除非这个企业不发展技术,那是很可怕的....

大数据开发的面试总结 1
文章 2023-07-29 来自:开发者社区

大数据面试题:Hive count(distinct)有几个reduce,海量数据会有什么问题

参考答案:count(distinct)只有1个reduce。为什么只有一个reducer呢,因为使用了distinct和count(full aggreates),这两个函数产生的mr作业只会产生一个reducer,而且哪怕显式指定set mapred.reduce.tasks=100000也是没用的。当使用count(distinct)处理海量数据(比如达到一亿以上)时,会使得运行速度变得很....

大数据面试题:Hive count(distinct)有几个reduce,海量数据会有什么问题
文章 2023-06-18 来自:开发者社区

3万字100道大数据技术之高频面试题总结(附答案)

前言最近有很多粉丝问我,有什么方法能够快速提升自己,通过阿里、腾讯、字节跳动、京东等互联网大厂的面试,我觉得短时间提升自己最快的手段就是背面试题,最近总结了大数据高频面试题,分享给大家,希望大家都能圆梦大厂,加油,我命由我不由天。目录1、Hadoop常用端口号?2、Hadoop配置文件?3、HDFS读流程和写流程4、HDFS小文件处理5、HDFS的NameNode内存6、NameNode心跳并发....

3万字100道大数据技术之高频面试题总结(附答案)
文章 2023-02-01 来自:开发者社区

大数据知识面试题-通用

1.1 数据倾斜当某个job长时间运行没有结束,可能发生了数据倾斜。1.1.1 hive设置map端聚合和二次group by保证reduce数据大概平均,然后再设置reduce数量减少每个reduce的数据量尽量少用distinct,不仅吃不到map端聚合(distinct原理是全局排序去重),而且多个distinct也吃不到二次group的优化。如果group by 多个字段,或者其它二次g....

文章 2023-01-31 来自:开发者社区

大数据知识面试题-Scala

1、scala1.1、scala介绍 scala是运行在JVM上的多范式编程语言,同时支持面向对象和面向函数式编程。1.2、scala解释器要启动scala解释器,只需要以下几步:按住windows键 + r输入scala即可在scala命令提示窗口中执行:quit,即可退出解释器1.3、scala的基本语法1.3.1、声明变量在scala中,可以使用val或者var来定义变量,语法格式如下:v....

大数据知识面试题-Scala
文章 2023-01-31 来自:开发者社区

大数据知识面试题-Sqoop

1、sqoop1.1、sqoop介绍sqoop是apache旗下一款**“Hadoop和关系数据库服务器之间传送数据”**的工具。导入数据:MySQL,Oracle导入数据到Hadoop的HDFS、HIVE、HBASE等数据存储系统;**导出数据:**从Hadoop的文件系统中导出数据到关系数据库mysql等将导入或导出命令翻译成mapreduce程序来实现在翻译出的mapreduce中主要是对....

大数据知识面试题-Sqoop
文章 2023-01-31 来自:开发者社区

大数据知识面试题-Azkaban

1.1 什么是 AzkabanAzkaban 是由Linkedin 公司推出的一个批量工作流任务调度器,主要用于在一个工作流 内以一个特定的顺序运行一组工作和流程,它的配置是通过简单的 key:value 对的方式, 通 过配置中的 Dependencies 来设置依赖关系。Azkaban 使用job 配置文件建立任务之间的依赖 关系, 并提供一个易于使用的 web 用户界面维护和跟踪你的工作流....

大数据知识面试题-Azkaban
文章 2023-01-31 来自:开发者社区

大数据知识面试题-Flume

1.1 Flume定义Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构,灵活简单。1.2 Flume组成架构Flume组成架构如图1-1,图1-2所示:图1-1 Flume组成架构图1-2 Flume组成架构详解下面我们来详细介绍一下Flume架构中的组件。1.2.1 AgentAgent是一个JVM进程,它以事件的形式将数....

大数据知识面试题-Flume
文章 2023-01-31 来自:开发者社区

大数据知识面试题-Kafka

1、kafka1.1、kafka介绍 kafka是最初由linkedin公司开发的,使用scala语言编写,kafka是一个分布式,分区的,多副本的,多订阅者的消息队列系统。1.2、kafka相比其他消息队列的优势 常见的消息队列:RabbitMQ,Redis ,zeroMQ ,ActiveMQkafka的优势:可靠性:分布式的,分区,复制和容错的。可扩展性:kafka消息传递系统轻松缩放,无需....

大数据知识面试题-Kafka

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

Java面试那些事儿

手把手带您学习Java,开启编程之路。

+关注