本文作者:崔庆才
GitHub地址:https://github.com/Python3WebSpider/CookiesPool
小编推荐一本崔大大写的网络爬虫的书籍《Python3网络爬虫开发实战》
关注后私信【网络爬虫】即可获取
很多时候,在爬取没有登录的情况下,我们也可以访问一部分页面或请求一些接口,因为毕竟网站本身需要做SEO,不会对所有页面都设置登录限制。
但是,不登录直接爬取会有一些弊端,弊端主要有以下两点。
- 设置了登录限制的页面无法爬取。比如论坛,博客等等
- 如果没有登录请求频繁就很容易被限制或者IP直接被封
下面我们就第二种情况做一个简单的实验。以微博为例,我们先找到一个Ajax接口,例如新浪财经官方微博的信息接口
如果用浏览器直接访问,返回的数据是JSON格式,如下图所示:
但是如果频繁访问的话:
登录微博账号之后重新打开此链接,则页面正常显示接口的结果,而未登录的页面仍然显示请求过于频繁,如下图所示: