apache spark 云计算背景
这......Spark面试题完全不会啊! 1.什么是 Apache Spark? 它有什么特点?Apache Spark是一个分布式计算框架,它可以在大 规模数据集上进行高效的数据处理和分析。它最初由加州大学伯克利分校的AMPLab开发,并于2013年成为Apache软件基金会的顶级项目。Apache Spark的特点包括:快速:相比于传统...
spark 几道面试题 Spark与mapreduce的区别?spark on yarn client模式与cluster的区别?spark 的三种shuffle ?spark sql三种join方式?RDD有什么缺陷?Checkpoint 和持久化机制的区别?groupByKey和reduceByKey区别?为什么Spa...

大数据实战项目:反爬虫系统(Lua+Spark+Redis+Hadoop框架搭建)第一阶段

33 课时 |
254 人已学 |
免费

大数据实战项目:反爬虫系统(Lua+Spark+Redis+Hadoop框架搭建)第二阶段

28 课时 |
240 人已学 |
免费

大数据实战项目:反爬虫系统(Lua+Spark+Redis+Hadoop框架搭建)第三阶段

25 课时 |
88 人已学 |
免费
开发者课程背景图
【大数据面试题】(五)Spark 相关面试题总结
【大数据面试题】(五)Spark 相关面试题总结 文章目录一、spark中的RDD是什么,有哪些特性?二、概述一下spark中的常用算子区别(map,mapPartitions,foreach,foreachPatition)?三、谈谈spark中的宽窄依赖?四、spark中如何划分stage?五、RDD缓存࿱...
Spark面试题
Spark面试题 1、spark的有几种部署模式,每种模式特点?(☆☆☆☆☆)1)本地模式  Spark不一定非要跑在hadoop集群,可以在本地,起多个线程的方式来指定。将Spark应用以多线程的方式直接运行在本地,一般都是为了方便调试,本地模式分三类  local:只启动...
Spark面试题(二) 1、Spark有哪两种算子?Transformation(转化)算子和Action(执行)算子。2、Spark有哪些聚合类的算子,我们应该尽量避免什么类型的算子?在我们的开发过程中,能避免则尽可能避免使用reduceByKey、join、distinct、repartition等会进行shuffle...
Spark面试题整理(三) 1、为什么要进行序列化序列化?可以减少数据的体积,减少存储空间,高效存储和传输数据,不好的是使用的时候要反序列化,非常消耗CPU。2、Yarn中的container是由谁负责销毁的,在Hadoop Mapreduce中container可以复用么?ApplicationMaster负责销毁ÿ...
Spark面试题(四)
Spark面试题(四) 1、Spark中的HashShufle的有哪些不足?1)shuffle产生海量的小文件在磁盘上,此时会产生大量耗时的、低效的IO操作;2)容易导致内存不够用,由于内存需要保存海量的文件操作句柄和临时缓存信息,如果数据处理规模比较大的话,容易出现OOM;3)容...
Spark面试题(五)——数据倾斜调优
Spark面试题(五)——数据倾斜调优 1、数据倾斜数据倾斜指的是,并行处理的数据集中,某一部分(如Spark或Kafka的一个Partition)的数据显著多于其它部分,从而使得该部分的处理速度成为整个数据集处理的瓶颈。数据倾斜俩大直接致命后果。1、数据倾斜直接会导致一种情况:Out Of Memory。2、运行速度慢。主要是发生在Sh...
Spark面试题(六)——Spark资源调优
Spark面试题(六)——Spark资源调优 1、资源运行情况2、资源运行中的集中情况(1)实践中跑的Spark job,有的特别慢,查看CPU利用率很低,可以尝试减少每个executor占用CPU core的数量,增加并行的executor数量,同时配合增加分片,整体上增加了CPU的利用率,加快数据处理速度。&#x...
Spark面试题(七)——Spark程序开发调优
Spark面试题(七)——Spark程序开发调优 1、程序开发调优 :避免创建重复的RDD需要对名为“hello.txt”的HDFS文件进行一次map操作,再进行一次reduce操作。也就是说,需要对一份数据执行两次算子操作。错误的做法:对于同一份数据执行多次算子操作时,创建多个RDD。//这里执行了两次textFile方法,针对同一个HDFS文件...
本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

社区圈子

Apache Spark 中国技术社区
Apache Spark 中国技术社区
阿里巴巴开源大数据技术团队成立 Apache Spark 中国技术社区,定期推送精彩案例,问答区数个 Spark 技术同学每日在线答疑,只为营造 Spark 技术交流氛围,欢迎加入!
4459+人已加入
加入
相关电子书
更多
云HBaseSQL及分析 ——Phoenix&Spark
R AND SPARK
Spark Autotuning
立即下载 立即下载 立即下载
apache spark面试题相关内容
apache spark面试题调优
apache spark调试 apache spark数据 apache spark代码 apache spark组件 apache spark大数据分析 apache spark Apache apache spark应用 apache spark开发 apache spark rdd apache spark分区 apache spark streaming apache spark SQL apache spark Hadoop apache spark summit apache spark运行 apache spark大数据 apache spark集群 apache spark Scala apache spark模式 apache spark源码分析 apache spark机器学习 apache spark flink apache spark操作 apache spark技术 apache spark实战