文章 2015-10-25 来自:开发者社区

[python爬虫] Selenium定向爬取虎扑篮球海量精美图片

前言:          作为一名从小就看篮球的球迷,会经常逛虎扑篮球及湿乎乎等论坛,在论坛里面会存在很多精美图片,包括NBA球队、CBA明星、花边新闻、球鞋美女等等,如果一张张右键另存为的话真是手都点疼了。作为程序员还是写个程序来进行吧!         所以我通过Python+Selenium+正则表达式...

文章 2015-09-24 来自:开发者社区

Python爬取百度贴吧图片

一、获取URL   Urllib 模块提供了读取web页面数据的接口,我们可以像读取本地文件一样读取www和ftp上的数据。首先,我们定义了一个getHtml()函数:   urllib.urlopen()方法用于打开一个URL地址。   read()方法用于读取URL上的数据,向getHtml()函数传递一个网址,并把整个页面下载下来。执行程序就会把整个网页打印输出。 二、查看图片地址 &nbs...

文章 2015-08-27 来自:开发者社区

python爬虫爬取csdn博客专家所有博客内容

python爬虫爬取csdn博客专家所有博客内容: 全部过程采取自动识别与抓取,抓取结果是将一个博主的所有 文章存放在以其名字命名的文件内,代码如下 #coding:utf-8 import urllib2 from bs4 import BeautifulSoup import os import re #import sys #reload(sys) #sys.setdefaulten...

文章 2015-08-11 来自:开发者社区

Python爬取CSDN博客专家系列——移动开发

注明:小编亲测,只要把第一部分里面的url修改,即可抓取博客专家里边所有的专家的博客内容和标题,后续小编还会对此代码改进,敬请期待 文章分为两部分:Python爬虫爬取移动开发专家的姓名和博客首页地址,爬取每个专家的所有博客存放在已该专家名字命名的txt文件中 说明:本爬虫主要是采用BeautifulSoup和少量的正则匹配,在第一部分抓取完毕后需要将文件格式改为ANSI,代码如下: 第一部分:....

文章 2015-07-21 来自:开发者社区

[Python学习] 简单爬取CSDN下载资源信息

        这是一篇Python爬取CSDN下载资源信息的例子,主要是通过urllib2获取CSDN某个人所有资源的资源URL、资源名称、下载次数、分数等信息;写这篇文章的原因是我想获取自己的资源所有的评论信息,但是由于评论采用JS临时加载,所以这篇文章先简单介绍如何人工分析HTML页面爬取信息。源代码# coding=utf-8 import urll...

文章 2015-05-19 来自:开发者社区

python 爬虫爬取腾讯新闻科技类的企鹅智酷系列(1)

废话不多说,直接贴代码,主要采用BeautifulSoup写的 #coding:utf8 from bs4 import BeautifulSoup import urllib2 import urllib import os i = 0 j = 0 list_a = [] def gettext(href):     global j,list_a    ...

文章 2015-03-20 来自:开发者社区

[python学习] 简单爬取图片网站图库中图片

        最近老师让学习Python与维基百科相关的知识,无聊之中用Python简单做了个爬取“游讯网图库”中的图片,因为每次点击下一张感觉非常浪费时间又繁琐。主要分享的是如何爬取HTML的知识和Python如何下载图片;希望对大家有所帮助,同时发现该网站的图片都挺精美的,建议阅读原网下载图片,支持游讯网不要去破坏它。     &n...

文章 2014-12-21 来自:开发者社区

[Python]爬取糗事百科

# coding=utf-8 import urllib2 import urllib import re class QiuShi: def _init_(self): self.page = 1 # 从网页获取糗事 def GetQiuShis(self,page): #网址 url = "http://www.qiushibaike.com...

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐

Python学习站

Python学习资料大全,包含Python编程学习、实战案例分享、开发者必知词条等内容。

+关注
相关镜像