文章 2022-02-17 来自:开发者社区

存储大量爬虫数据的数据库,了解一下?

"当然, 并不是所有数据都适合" 在学习爬虫的过程中, 遇到过不少坑. 今天这个坑可能以后你也会遇到, 随着爬取数据量的增加, 以及爬取的网站数据字段的变化, 以往在爬虫入门时使用的方法局限性可能会骤增. 怎么个骤增法? Intro 引例 在爬虫入门的时候, 我们爬取豆瓣电影Top250这些数据量并不是很大的网页时(仅计算文本数据量), 通常无需考虑数据存储的效率问题, 使用MySQL这些关系.....

问答 2022-02-15 来自:开发者社区

小型垂直搜索引擎如何更好用HBase来存储爬虫数据

背景小型的垂直搜索引擎, 监控不到1万个站点, 每天吞入新闻页数只有不超过200万页. 每月纯HTML(不包含附件) 只有不到1TB问题如何更好的设计RowKey来满足爬虫爬取的Raw HTML的存储请求?OpenTSDB是否适合这样的应用场景?

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

大数据

大数据计算实践乐园,近距离学习前沿技术

+关注