当前位置:首页 > 经验 >

网络爬虫爬取实例(永久免费的爬虫软件)

来源:原点资讯(www.yd166.com)时间:2022-11-08 14:34:05作者:YD166手机阅读>>

一次爬多篇文章,逻辑是先从主网址爬到每篇文章的网址,再从各个网址处爬取文章,很简单的静态网页爬取,不需考虑反扒问题。话不多说,直接案例说话。

实例:从https://www.biquge.com.cn/book/24032/,爬取小说的全部章节的内容。

网络爬虫爬取实例,永久免费的爬虫软件(1)

图1

实现方法:requests 访问 BeautifulSoup解析

1、目标网址是静态网页,浏览网址和数据网址相同,可直接使用。

import requests # 导入requests库 from bs4 import BeautifulSoup # 导入BeautifulSoup库 url = ''https://www.biquge.com.cn/book/23341/'' # 准备好目标网址

2、requests 访问网址获得网页

打开浏览器控制台,查看Network下的Response发现有我们需要用的章节的标题和链接,用requests访问网址,就是为了获取下图中response界面下红框的内容。

网络爬虫爬取实例,永久免费的爬虫软件(2)

图2

requests 访问网址代码:

import requests from bs4 import BeautifulSoup url = ''https://www.biquge.com.cn/book/23341/'' response= requests.get(url) # requests访问网址,获得的内容放入response

获得的内容放入response变量(自定义,可随意取)里。

3、BeautifulSoup解析网页获得内容

用BeautifulSoup解析response变量里的内容,方法为:

import requests from bs4 import BeautifulSoup url = ''https://www.biquge.com.cn/book/23341/'' response= requests.get(url) soup = BeautifulSoup(response.content, 'lxml') # BeautifulSoup解析response里的内容,放入soup里

现在网页内容已经被赋值到变量soup了,此时若打印s,会得到上面图2红框的内容。

4、解析内容爬取小说名,并用其创建一个文件夹,以备放后面下载的小说正文

通过在response里查找,我们发现标题在图3如下位置有出现:

网络爬虫爬取实例,永久免费的爬虫软件(3)

图3

booktitle = soup.find('h1').text if not os.path.isdir(booktitle): # 判断当前文件夹下是否存在和小说名同名的文件夹 os.makedirs(booktitle) # 若不存在,则创建小说同名文件夹

网络爬虫爬取实例,永久免费的爬虫软件(4)

首页 123下一页

栏目热文

爬虫软件是干嘛的(爬虫技术可以做什么)

爬虫软件是干嘛的(爬虫技术可以做什么)

大家都知道,互联网是由海浪构成的,因为人人都可以在里面冲浪。但很多人不知道的是,相比于浪花,互联网上最多的东西,其实是爬...

2022-11-08 14:34:01查看全文 >>

怎么学习爬虫技术(爬虫技术零基础学习)

怎么学习爬虫技术(爬虫技术零基础学习)

作为一门历史悠久的语言,Python比R更具有通用性,比C 更灵活,可以说python是一个很全面的语言,尤其是在数...

2022-11-08 14:46:24查看全文 >>

为什么爬虫技术可以学但是别乱用(爬虫技术到底有多重要)

为什么爬虫技术可以学但是别乱用(爬虫技术到底有多重要)

近日,多家通过爬虫技术开展大数据信贷风控的公司被查。短短几天时间,“爬虫”技术被推上了风口浪尖,大数据风控行业也迎来了...

2022-11-08 15:10:27查看全文 >>

爬虫软件排行榜前十名(免费爬虫软件app)

爬虫软件排行榜前十名(免费爬虫软件app)

3月的Tiobe编程语言排行榜如期而至,这个月有哪些新的看点呢?程序员,一起来看看:Tiobe编程排行榜前20名Tiob...

2022-11-08 14:56:13查看全文 >>

什么是爬虫工具(app爬虫工具)

什么是爬虫工具(app爬虫工具)

程序开发领域有这样一句话:人生苦短,我用Python。有趣的是,很多人并非专职程序员,但却把这句话奉为神谕。所以Pyth...

2022-11-08 14:30:38查看全文 >>

爬虫技术需要学哪些(爬虫技术有什么重要性)

爬虫技术需要学哪些(爬虫技术有什么重要性)

如今,整个世界已经进入了数据时代。无论你从事什么工作,获取尽量多的相关数据,都是做好工作的前提。而世界上最大的数据源,就...

2022-11-08 15:06:00查看全文 >>

抖音爬虫软件(爬虫软件是干嘛的)

抖音爬虫软件(爬虫软件是干嘛的)

现在这个大数据,高科技的时代,自媒体也是比较好的一个发展趋势了,其实自媒体的发展方式也有很多,其实主要的方式还是在各个...

2022-11-08 15:02:55查看全文 >>

爬虫有什么用的技能(学爬虫技术有什么用)

爬虫有什么用的技能(学爬虫技术有什么用)

前段时间我妈突然问我:儿子,爬虫是什么?我当时既惊讶又尴尬,惊讶的是为什么我妈会对爬虫好奇?尴尬的是我该怎么给她解释呢?...

2022-11-08 15:15:22查看全文 >>

爬虫技术干什么的(爬虫技术到底指什么)

爬虫技术干什么的(爬虫技术到底指什么)

对于很多对于不懂编程语言的GGMM来说,爬虫技术高深莫测。但是对于IT工程师来说,爬虫技术可以说信手拈来。虽然熟知爬虫技...

2022-11-08 15:13:39查看全文 >>

爬虫技术有什么规定(为什么爬虫技术可以学但是别乱用)

爬虫技术有什么规定(为什么爬虫技术可以学但是别乱用)

◆尽管技术无好坏,但运用技术的行为有善恶之分,需准确认定行为人的主观故意,这就要结合具体事实综合认定。◆网络服务器的承载...

2022-11-08 15:14:35查看全文 >>

文档排行