文章 2023-08-26 来自:开发者社区

MySQL海量数据优化(理论+实战) 吊打面试官

一、准备表数据咱们建一张用户表,表中的字段有用户ID、用户名、地址、记录创建时间,如图所示OK,接下来准备写一个存储过程插入一百万条数据CREATE TABLE `t_user` ( `id` int NOT NULL, `user_name` varchar(32) CHARACTER SET utf8 COLLATE utf8_general_ci DEFAULT NULL, `...

MySQL海量数据优化(理论+实战) 吊打面试官
文章 2023-08-08 来自:开发者社区

【位图&&布隆过滤器&&海量数据面试题】(二)

注意布隆过滤器的模板参数N表示的是数据个数,因为不管数据有多大我们取模后的数据都是小于len的长度的。为了测试我们可以写一个测试程序来测试一下误判率:void test_bloomfilter1() { srand(time(0)); const size_t N = 10000; bloomfilter<N> bf; std::vector<...

【位图&&布隆过滤器&&海量数据面试题】(二)
文章 2023-08-08 来自:开发者社区

【位图&&布隆过滤器&&海量数据面试题】(一)

1 位图首先我们来看看一个腾讯的面试题:给40亿个不重复的无符号整数,没排过序。给一个无符号整数,如何快速判断一个数是否在这40亿个数中。分析:40亿个不重复整形数据,大概有160亿字节,也就是16GB大小左右的数据,直接放在内存肯定是行不通的,一般内存没有那么大的空间,所以我们不能够用set/unoedered_set等容器来存放数据,那我们应该如何处理呢?我们可以用哈希的思想来处理:将每一个....

【位图&&布隆过滤器&&海量数据面试题】(一)
文章 2023-07-11 来自:开发者社区

海量数据被面试官逼问,就那几种死记硬背下来,没多大技术含量,建议面试前准备下

面试逼问,你该肿么办你不能想象面试官是你大姐,很随和也很善良,他们有时候表现的很暴躁有时候表现的很淡定,有时候甚至一言不发就等你开口说:今天就先到这里吧。所以很多看似在校招当中的问题也在社招中问,这样的面试官水平一般,根本就没进步,那为了安抚这样的面试官,你最好肚子里装点墨水以备不时之需。闲话不多说,开始正题。1. 如何从大量的 URL 中找出相同的 URL?给定 a、b 两个文件,各存放 50....

海量数据被面试官逼问,就那几种死记硬背下来,没多大技术含量,建议面试前准备下
文章 2023-02-27 来自:开发者社区

海量数据处理面试题:给定a、b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,让你找出a、b文件共同的url?

问题:给定a、b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,让你找出a、b文件共同的url?分析:50亿个url,每个url 64字节:一共需要 50亿 × 64字节 ÷ 1024 ÷ 1024 ÷ 1024 = 298G ≈ 300G ,显然无法一次读入内存的。因此这里采用将大文件切割的分治法。假设将每个大文件分割为1000个小文件,那么每个小文件大小为:300G ....

海量数据处理面试题:给定a、b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,让你找出a、b文件共同的url?
文章 2022-05-20 来自:开发者社区

最新 | 10 道 BAT 大厂海量数据面试题(附题解+方法总结)

先来看一下都有哪些题目:•如何从大量的 URL 中找出相同的 URL?(百度)•如何从大量数据中找出高频词?(百度)•如何找出某一天访问百度网站最多的 IP?(百度)•如何在大量的数据中找出不重复的整数?(百度)•如何在大量的数据中判断一个数是否存在?(腾讯)•如何查询最热门的查询串?(腾讯)•如何统计不同电话号码的个数?(百度)•如何从 5 亿个数中找出中位数?(百度)•如何按照 query ....

文章 2022-05-02 来自:开发者社区

海量数据处理面试题[转]

作者:July、youwang、yanxionglu。时间:二零一一年三月二十六日本文之总结:教你如何迅速秒杀掉:99%的海量数据处理面试题。有任何问题,欢迎随时交流、指正。出处:http://blog.csdn.net/v_JULY_v。第一部分、十道海量数据处理面试题1、海量日志数据,提取出某日访问百度次数最多的那个IP。      首先是这一天,并且是访问百度....

文章 2016-04-06 来自:开发者社区

海量数据面试题

1. 给定a、b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,让你找出a、b文件共同的url? 方案1:   可以估计每个文件安的大小为50G×64=320G,远远大于内存限制的4G。所以不可能将其完全加载到内存中处理。考虑采取分而治之的方法。 s 遍历文件a,对每个url求取,然后根据所取得的值将url分别存储到1000个小文件(记为)中。这样每个小文件的大约为300....

海量数据面试题

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

Java面试那些事儿

手把手带您学习Java,开启编程之路。

+关注