文章 2022-06-10 来自:开发者社区

【大数据面试题】(七)Kafka 相关面试题总结1

文章目录一、请说明什么是Apache Kafka?二、Kafka的设计是什么样的呢?三、请说明什么是传统的消息传递方法?四、请说明Kafka相对传统技术有什么优势?五、在 Kafka 中 broker 的意义是什么?六、什么是broker?作用是什么?七、Kafka服务器能接收到的最大信息是多少?八、解释Kafka的Zookeeper是什么?我们可以在没有Zookeeper的情况下使用Kafka....

【大数据面试题】(七)Kafka 相关面试题总结1
文章 2022-06-10 来自:开发者社区

【大数据面试题】(五)Spark 相关面试题总结

文章目录一、spark中的RDD是什么,有哪些特性?二、概述一下spark中的常用算子区别(map,mapPartitions,foreach,foreachPatition)?三、谈谈spark中的宽窄依赖?四、spark中如何划分stage?五、RDD缓存?六、driver 的功能是什么?七、Spark master 使用zookeeper 进行HA 的,有哪些元数据保存在Zookeeper....

【大数据面试题】(五)Spark 相关面试题总结
文章 2022-06-10 来自:开发者社区

【大数据面试题】(四)HBase 相关面试题总结2

十五、HBase 宕机如何处理?宕机分为 HMaster 宕机和 HRegisoner 宕机.如果是 HRegisoner 宕机,HMaster 会将其所管理的 region 重新分布到其他活动的 RegionServer 上,由于数据和日志都持久在 HDFS 中,该操作不会导致数据丢失,所以数据的一致性和安全性是有保障的。如果是 HMaster 宕机, HMaster 没有单点问题, HBas....

【大数据面试题】(四)HBase 相关面试题总结2
文章 2022-06-10 来自:开发者社区

【大数据面试题】(四)HBase 相关面试题总结1

文章目录一、Hbase是什么?二、HBase 的特点是什么?三、HBase 和 Hive 的区别?1)两者是什么?2)两者的特点3)两者的限制4)两者的应用场景5)总结四、HBase 适用于怎样的情景?五、描述 HBase 的 rowKey 的设计原则?1)Rowkey 长度原则2)Rowkey 散列原则3)Rowkey 唯一原则六、描述HBase 中scan 和get 的功能以及实现的异同?七....

【大数据面试题】(四)HBase 相关面试题总结1
文章 2022-06-10 来自:开发者社区

【大数据面试题】(三)Hive 基础知识及优化总结2

4.cluster bycluster by除了具有distribute by的功能外还兼具sort by的功能。当distribute by和sort by 是同一个字段的时候可以使用cluster by替代。但是排序只能是倒叙排序,不能指定排序规则为ASC或者DESC。三种分组的区别1.row_number:不管col2字段的值是否相等,行号一直递增,比如:有两条记录的值相等,但一个是第一,....

文章 2022-06-10 来自:开发者社区

【大数据面试题】(三)Hive 基础知识及优化总结1

hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。Metastore (hive元数据)Hive将元数据存储在数据库中,比如mysql 、derby。Hive中的元数据包括表的名称,表的列和分区及其属性,表的数据所在的目录。Hive数据存储在HDFS,大部分的查询、计算由map....

文章 2022-06-10 来自:开发者社区

【大数据面试题】(二)Hive 相关面试题总结

文章目录1、Hive 表关联查询,如何解决数据倾斜的问题?2、请谈一下 Hive 的特点,Hive 和 RDBMS 有什么异同?3、请说明 hive 中 Sort By,Order By,Cluster By,Distrbute By各代表什么意思?4、Hive 有哪些方式保存元数据,各有哪些特点?5、Hive 内部表和外部表的区别?6、Hive 的 HSQL 转换为 MapReduce 的过程....

【大数据面试题】(二)Hive 相关面试题总结
文章 2022-05-19 来自:开发者社区

大数据开发面试必会的SQL 30题!!!(二)

(16)查询获奖员工信息数据源:16_table1.csv、16_table2.csvid,name 1,王小凤 2,刘诗迪 3,李思雨 4,张文华 5,张青云 6,徐文杰 7,李智瑞 8,徐雨秋 9,孙皓然 id,name 1,王小凤 2,刘诗迪 3,李思雨 7,李智瑞 8,徐雨秋 9,孙皓然 需求:现在我们想通过table1表获取获奖员工的更多信息。select * from test.`1....

大数据开发面试必会的SQL 30题!!!(二)
文章 2022-05-19 来自:开发者社区

大数据开发面试必会的SQL 30题!!!(一)

开发工具:mysql-8.0DataGrip(1)查询每个区域的用户数数据源:stu_table.csvid,name,class,sex 4,张文华,二区,男 3,李思雨,一区,女 1,王小凤,一区,女 7,李智瑞,三区,男 6,徐文杰,二区,男 8,徐雨秋,三区,男 5,张青云,二区,女 9,孙皓然,三区,男 10,李春山,三区,男 2,刘诗迪,一区,女 需求:我们想知道每个区域有多少用户解....

大数据开发面试必会的SQL 30题!!!(一)
文章 2022-04-28 来自:开发者社区

大数据组件以及流程相关的面试题

1.kafka为什么不支持读写分离?在 Kafka 中,生产者写入消息、消费者读取消息的操作都是与 leader 副本进行交互的,从 而实现的是一种主写主读的生产消费模型。主写从读也就是读写分离,容易产生数据一致性问题,延时问题。2.hadoop造成宕机的原因以及恢复的方法?1)如果MR造成系统宕机。此时要控制Yarn同时运行的任务数,和每个任务申请的最大内存。调整参数:yarn.schedul....

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

Java面试那些事儿

手把手带您学习Java,开启编程之路。

+关注