文章 2018-02-22 来自:开发者社区

DC学院爬虫学习笔记(六):浏览器抓包及headers设置

爬虫的一般思路: 抓取网页、分析请求 解析网页、寻找数据 储存数据、多页处理 - 分析具体网页请求: 1. 观察以下网址翻页后的URL: http://www.zkh360.com/zkh_catalog/3.html 可以看到,有些网址翻页后URL是不变的,那该怎么爬取,请看下文。 2. 使用谷歌浏览器分析网页的真实请求 谷歌浏览器——检查——Network 首先清空请求列表,点击下...

文章 2018-02-22 来自:开发者社区

DC学院爬虫学习笔记(五):使用pandas保存豆瓣短评数据

保存数据的方法: open函数保存 pandas包保存(本节课重点讲授) csv模块保存 numpy包保存 使用open函数保存数据 1. open函数用法 使用with open()新建对象 写入数据 import requests from lxml import etree url = 'https://book.douban.com/subject/1084336/commen...

文章 2018-02-22 来自:开发者社区

DC学院爬虫学习笔记(四):使用Xpath解析豆瓣短评

解析神器Xpath: 1. 什么是Xpath XPath即为XML路径语言(XML Path Language),它是一种用来确定XML文档中某部分位置的语言。 XPath基于XML的树状结构,提供在数据结构树中找寻节点的能力。起初XPath的提出的初衷是将其作为一个通用的、介于XPointer与XSL间的语法模型。但是XPath很快的被开发者采用来当作小型查询语言。 2. Xpath解析网页的....

文章 2018-02-22 来自:开发者社区

DC学院爬虫学习笔记(三):使用Requests爬取豆瓣短评

Requests库介绍: Requests库官方的介绍有这么一句话:Requests 唯一的一个非转基因的 Python HTTP 库,人类可以安全享用。 这句话直接并霸气地宣示了Requests库是python最好的一个HTTP库。 Requests的简单用法 Requests库的七个主要方法 Requests.get的用法: import requests #导入Requests库 r ...

文章 2018-02-22 来自:开发者社区

DC学院爬虫学习笔记(二):初识爬虫

创建第一个实例: 使用urllib包获取百度首页信息: import urllib.request #导入urllib.request f = urllib.request.urlopen('http://www.baidu.com/') #打开网址,返回一个类文件对象 f.read(500) #打印前500字符 f.read(500).decode('utf-8') #打印前500字符并...

文章 2018-02-22 来自:开发者社区

DC学院爬虫学习笔记(一):什么是爬虫?

在DC学院买的第一门课程——数据分析,终于搞定了!今天是大年初六了,跟高中同学聚了一下,再过几天就要回学校了(ノへ ̄、) 感觉爬虫这块知识还欠缺,一咬牙,也买下了爬虫的课,老样子,主要是记录下老师每节课的笔记,如果有代码要运行,补充一些。OK,开始爬虫之旅! 爬虫的定义: 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网....

文章 2018-02-08 来自:开发者社区

DC学院数据分析学习笔记(四):爬虫的一些高级技巧

继续爬虫之旅!做完整个爬虫过程之后,成就感爆棚<( ̄︶ ̄)↗[GO!] 三大爬虫技巧 1. 设定 程序休止的时间 n为想要实现的时间间隔 import time time.sleep(n) 2. 设定代理 #使用urllib.request的两个方法进行代理的设置 proxy = urlrequest.ProxyHandler({'https': '47.91.78.201:3128'}.....

文章 2018-02-07 来自:开发者社区

DC学院数据分析学习笔记(三):基于HTML的网页爬虫

终于可以用python实践一下html的爬虫了,之前零散的也学过一些,这次希望能通过在DC学院的学习慢慢深入的了解爬虫的理论知识。OK,来看今天的数据分析学习笔记! 希望能有所收获( ̄︶ ̄)↗  from bs4 import BeautifulSoup html_doc = """ <html><head><title>The Dormouse's sto.....

文章 2018-02-07 来自:开发者社区

DC学院数据分析学习笔记(二):爬虫需要的HTML

关于html,之前也稍微了解过一些,又碰到了,那么就系统的学习一下 HTML 超文本标记语言(HyperText Markup Language,简称:HTML)是一种用于创建网页的标准标记语言。 什么是 HTML? HTML 是用来描述网页的一种语言。 HTML 指的是超文本标记语言 (Hyper Text Markup Language) HTML 不是一种编程语...

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

大数据

大数据计算实践乐园,近距离学习前沿技术

+关注