这......Spark面试题完全不会啊!
1.什么是 Apache Spark? 它有什么特点?Apache Spark是一个分布式计算框架,它可以在大 规模数据集上进行高效的数据处理和分析。它最初由加州大学伯克利分校的AMPLab开发,并于2013年成为Apache软件基金会的顶级项目。Apache Spark的特点包括:快速:相比于传统...
spark 几道面试题
Spark与mapreduce的区别?spark on yarn client模式与cluster的区别?spark 的三种shuffle ?spark sql三种join方式?RDD有什么缺陷?Checkpoint 和持久化机制的区别?groupByKey和reduceByKey区别?为什么Spa...

【大数据面试题】(五)Spark 相关面试题总结
文章目录一、spark中的RDD是什么,有哪些特性?二、概述一下spark中的常用算子区别(map,mapPartitions,foreach,foreachPatition)?三、谈谈spark中的宽窄依赖?四、spark中如何划分stage?五、RDD缓存...

Spark面试题
1、spark的有几种部署模式,每种模式特点?(☆☆☆☆☆)1)本地模式 Spark不一定非要跑在hadoop集群,可以在本地,起多个线程的方式来指定。将Spark应用以多线程的方式直接运行在本地,一般都是为了方便调试,本地模式分三类 local:只启动...
Spark面试题(二)
1、Spark有哪两种算子?Transformation(转化)算子和Action(执行)算子。2、Spark有哪些聚合类的算子,我们应该尽量避免什么类型的算子?在我们的开发过程中,能避免则尽可能避免使用reduceByKey、join、distinct、repartition等会进行shuffle...
Spark面试题整理(三)
1、为什么要进行序列化序列化?可以减少数据的体积,减少存储空间,高效存储和传输数据,不好的是使用的时候要反序列化,非常消耗CPU。2、Yarn中的container是由谁负责销毁的,在Hadoop Mapreduce中container可以复用么?ApplicationMaster负责销毁ÿ...

Spark面试题(四)
1、Spark中的HashShufle的有哪些不足?1)shuffle产生海量的小文件在磁盘上,此时会产生大量耗时的、低效的IO操作;2)容易导致内存不够用,由于内存需要保存海量的文件操作句柄和临时缓存信息,如果数据处理规模比较大的话,容易出现OOM;3)容...

Spark面试题(五)——数据倾斜调优
1、数据倾斜数据倾斜指的是,并行处理的数据集中,某一部分(如Spark或Kafka的一个Partition)的数据显著多于其它部分,从而使得该部分的处理速度成为整个数据集处理的瓶颈。数据倾斜俩大直接致命后果。1、数据倾斜直接会导致一种情况:Out Of Memory。2、运行速度慢。主要是发生在Sh...

Spark面试题(六)——Spark资源调优
1、资源运行情况2、资源运行中的集中情况(1)实践中跑的Spark job,有的特别慢,查看CPU利用率很低,可以尝试减少每个executor占用CPU core的数量,增加并行的executor数量,同时配合增加分片,整体上增加了CPU的利用率,加快数据处理速度。&#x...

Spark面试题(七)——Spark程序开发调优
1、程序开发调优 :避免创建重复的RDD需要对名为“hello.txt”的HDFS文件进行一次map操作,再进行一次reduce操作。也就是说,需要对一份数据执行两次算子操作。错误的做法:对于同一份数据执行多次算子操作时,创建多个RDD。//这里执行了两次textFile方法,针对同一个HDFS文件...
本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。