问答 2020-06-22 来自:开发者社区

python爬取页面的时候如何过滤非GBK编码的不读取??报错

就是我要爬一个页面的数据,这个页面是GBK的,但是里面会有人回复非GBK的帖子,比如“傘€傘€傘€傘€ ”,这样爬出来的字符如果要decode('gbk')的时候会报错 >>> new.decode('gbk') Traceback (most recent call last): File "", line 1, in UnicodeDecodeError: 'gbk...

文章 2017-12-15 来自:开发者社区

python --selenium+phantomjs爬取动态页面广告源码

背景:利用爬虫,爬取网站页面广告元素,监控爬取元素的数目,定时发送监控邮件 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 5...

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐

Python学习站

Python学习资料大全,包含Python编程学习、实战案例分享、开发者必知词条等内容。

+关注
相关镜像