【大数据面试题】(七)Kafka 相关面试题总结1
文章目录一、请说明什么是Apache Kafka?二、Kafka的设计是什么样的呢?三、请说明什么是传统的消息传递方法?四、请说明Kafka相对传统技术有什么优势?五、在 Kafka 中 broker 的意义是什么?六、什么是broker?作用是什么?七、Kafka服务器能接收到的最大信息是多少?八、解释Kafka的Zookeeper是什么?我们可以在没有Zookeeper的情况下使用Kafka....

【大数据面试题】(五)Spark 相关面试题总结
文章目录一、spark中的RDD是什么,有哪些特性?二、概述一下spark中的常用算子区别(map,mapPartitions,foreach,foreachPatition)?三、谈谈spark中的宽窄依赖?四、spark中如何划分stage?五、RDD缓存?六、driver 的功能是什么?七、Spark master 使用zookeeper 进行HA 的,有哪些元数据保存在Zookeeper....

【大数据面试题】(四)HBase 相关面试题总结2
十五、HBase 宕机如何处理?宕机分为 HMaster 宕机和 HRegisoner 宕机.如果是 HRegisoner 宕机,HMaster 会将其所管理的 region 重新分布到其他活动的 RegionServer 上,由于数据和日志都持久在 HDFS 中,该操作不会导致数据丢失,所以数据的一致性和安全性是有保障的。如果是 HMaster 宕机, HMaster 没有单点问题, HBas....

【大数据面试题】(四)HBase 相关面试题总结1
文章目录一、Hbase是什么?二、HBase 的特点是什么?三、HBase 和 Hive 的区别?1)两者是什么?2)两者的特点3)两者的限制4)两者的应用场景5)总结四、HBase 适用于怎样的情景?五、描述 HBase 的 rowKey 的设计原则?1)Rowkey 长度原则2)Rowkey 散列原则3)Rowkey 唯一原则六、描述HBase 中scan 和get 的功能以及实现的异同?七....

【大数据面试题】(三)Hive 基础知识及优化总结2
4.cluster bycluster by除了具有distribute by的功能外还兼具sort by的功能。当distribute by和sort by 是同一个字段的时候可以使用cluster by替代。但是排序只能是倒叙排序,不能指定排序规则为ASC或者DESC。三种分组的区别1.row_number:不管col2字段的值是否相等,行号一直递增,比如:有两条记录的值相等,但一个是第一,....
【大数据面试题】(三)Hive 基础知识及优化总结1
hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。Metastore (hive元数据)Hive将元数据存储在数据库中,比如mysql 、derby。Hive中的元数据包括表的名称,表的列和分区及其属性,表的数据所在的目录。Hive数据存储在HDFS,大部分的查询、计算由map....
【大数据面试题】(二)Hive 相关面试题总结
文章目录1、Hive 表关联查询,如何解决数据倾斜的问题?2、请谈一下 Hive 的特点,Hive 和 RDBMS 有什么异同?3、请说明 hive 中 Sort By,Order By,Cluster By,Distrbute By各代表什么意思?4、Hive 有哪些方式保存元数据,各有哪些特点?5、Hive 内部表和外部表的区别?6、Hive 的 HSQL 转换为 MapReduce 的过程....

大数据开发面试必会的SQL 30题!!!(二)
(16)查询获奖员工信息数据源:16_table1.csv、16_table2.csvid,name 1,王小凤 2,刘诗迪 3,李思雨 4,张文华 5,张青云 6,徐文杰 7,李智瑞 8,徐雨秋 9,孙皓然 id,name 1,王小凤 2,刘诗迪 3,李思雨 7,李智瑞 8,徐雨秋 9,孙皓然 需求:现在我们想通过table1表获取获奖员工的更多信息。select * from test.`1....

大数据开发面试必会的SQL 30题!!!(一)
开发工具:mysql-8.0DataGrip(1)查询每个区域的用户数数据源:stu_table.csvid,name,class,sex 4,张文华,二区,男 3,李思雨,一区,女 1,王小凤,一区,女 7,李智瑞,三区,男 6,徐文杰,二区,男 8,徐雨秋,三区,男 5,张青云,二区,女 9,孙皓然,三区,男 10,李春山,三区,男 2,刘诗迪,一区,女 需求:我们想知道每个区域有多少用户解....

大数据组件以及流程相关的面试题
1.kafka为什么不支持读写分离?在 Kafka 中,生产者写入消息、消费者读取消息的操作都是与 leader 副本进行交互的,从 而实现的是一种主写主读的生产消费模型。主写从读也就是读写分离,容易产生数据一致性问题,延时问题。2.hadoop造成宕机的原因以及恢复的方法?1)如果MR造成系统宕机。此时要控制Yarn同时运行的任务数,和每个任务申请的最大内存。调整参数:yarn.schedul....
本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。
Java面试那些事儿
手把手带您学习Java,开启编程之路。
+关注