当前位置:首页 > 经验 >

爬虫技术是什么(爬虫技术违法吗)

来源:原点资讯(www.yd166.com)时间:2022-11-08 14:30:37作者:YD166手机阅读>>

爬虫技术是什么,爬虫技术违法吗(1)

“放下你手里的代码,小心被抓。”

最近程序员圈子不乏这样的戏谑调侃。

原因是最近发生的多起涉及爬虫技术的公司被司法部门调查。近日,51信用卡被查,更是将暴力催收背后非法使用爬虫技术爬取个人隐私数据的丑行,暴露在阳光之下。

一时间,“爬虫”成为众矢之的,一些公司紧急下架了爬虫相关的招聘信息,给大数据风控、人工智能从业者带来些许恐慌,头发又多落了几根。

实际上,大部分人都听说过爬虫,认为爬虫就是到人家网站上去爬东西、偷数据,有些人甚至认为只要有爬虫,什么数据都可以搞到。

今天,我们就打开爬虫这个“工具箱”,把涉及到的技术盲区放到灯光下,让大家可以清楚地看下。下面,本文就从这个角度来聊聊爬虫这个熟悉而又陌生的技术。

爬虫的技术原理

搜索引擎收集网上信息的主要手段就是网络爬虫(也叫网页蜘蛛、网络机器人)。它是一种“自动化浏览网络”的程序,按照一定的规则,自动抓取互联网信息,比如:网页、各类文档、图片、音频、视频等。搜索引擎通过索引技术组织这些信息,根据用户的查询,快速地提供搜索结果。

设想一下,我们平时浏览网页的时候会怎么做?

一般情况下,首先,会用浏览器打开一个网站的主页,在页面上寻找感兴趣的内容,然后点击本站或其它网站在该网页上的链接,跳转到新的网页,阅读内容,如此循环往复。如下图所示:

爬虫技术是什么,爬虫技术违法吗(2)

图中的虚线圆角矩形代表一个网站,每个实线矩形表示一个网页。可以看到,每个网站一般以首页为入口,该首页链接到几个、几万个、甚至上千万个的内部网页。同时,这些网页往往又链接了很多外部网站。例如,用户从苏宁金融的网页为起点,浏览发现了PP视频的链接,点击后跳转到了PP视频主页,作为体育爱好者,在体育频道中找到了相关的新浪微博的内容,再次点击后又来到微博的页面继续阅读,从而形成了一条路径。如果把所有的可能路径呈现出来,就会看到一个网络结构。

网络爬虫模拟了人们浏览网页的行为,只是用程序代替了人类的操作,在广度和深度上遍历网页。如果把互联网上的网页或网站理解为一个个节点,大量的网页或网站通过超链接形成网状结构。爬虫通过遍历网页上的链接,从一个节点跳转到下一个节点,就像是在一张巨大的网上爬行,但是比人类的速度更快,跳转的节点更全面,所以被形象地称为网络爬虫或网络蜘蛛。

爬虫的发展历史

网络爬虫最早的用途是服务于搜索引擎的数据收集,而现代意义上的搜索引擎的鼻祖是1990年由加拿大麦吉尔大学(University of McGill)学生Alan Emtage发明的的Archie。

人们使用FTP服务器共享交流资源,大量的文件散布在各个FTP主机上,查询起来非常不方便。因此,他开发了一个可以按照文件名查找文件的系统,能定期搜集并分析FTP服务器上的文件名信息,自动索引这些文件。工作原理与现在的搜索引擎已经非常接近,依靠脚本程序自动搜索分散在各处FTP主机中的文件,然后对有关信息进行索引,供使用者以一定的表达式查询。

世界上第一个网络爬虫“互联网漫游者”(“www wanderer”)是由麻省理工学院(MIT)的学生马休·格雷(Matthew Gray)在 1993 年写成。刚开始,它只用来统计互联网上的服务器数量,后来则发展为能够通过它检索网站域名。

随着互联网的迅速发展,使得检索所有新出现的网页变得越来越困难,因此,在“互联网漫游者”基础上,一些编程者将传统的“蜘蛛”程序工作原理作了些改进。其设想是,既然所有网页都可能有连向其他网站的链接,那么从跟踪一个网站的链接开始,就有可能检索整个互联网。

其后,无数的搜索引擎促使了爬虫越写越复杂,并逐渐向多策略、负载均衡及大规模增量抓取等方向发展。爬虫的工作成果是搜索引擎能够遍历链接的网页,甚至被删除的网页也可以通过“网页快照”的功能访问。

网络爬虫的礼仪

礼仪一:robots.txt文件

每个行业都有其Code of Conduct,成为行为准则或行为规范。比如,你是某个协会中的成员,那就必须遵守这个协会的行为准则,破坏了行为准则是要被踢出去的。

最简单的例子,你加入的很多微信群,一般群主都会要求不可以私自发广告,如果未经允许发了广告,会被立刻踢出群,但是发红包就没事,这就是行为准则。

爬虫也有行为准则。早在1994年,搜索引擎技术刚刚兴起。那时的初创搜索引擎公司,比如AltaVista和DogPile,通过爬虫技术来采集整个互联网的资源,与Yahoo这样的资源分类网站激烈竞争。随着互联网搜索规模的增长,爬虫收集信息的能力快速进化,网站开始考虑对于搜索引擎爬取信息做出限制,于是robots.txt应运而生,成为爬虫界的“君子协定”。

robots.txt文件是业内惯用做法,不是强制性的约束。robots.txt的形式如下:

爬虫技术是什么,爬虫技术违法吗(3)

在上面这个robots.txt例子中,所有的爬虫都被禁止访问网站的任意内容。但是Google的爬虫机器人,可以访问除了private位置的所有内容。如果一个网站上没有robots.txt,是被认为默许爬虫爬取所有信息。如果robots.txt做了访问的限制,但是爬虫却没有遵守,那就不是技术实现这么简单的事情了。

礼仪二:爬取吞吐量的控制

曾经出现假冒Google搜索引擎的爬虫去对网站进行DDoS攻击,让网站瘫痪的事情。近年来,恶意爬虫造成的DDoS攻击行为有增无减,给大数据行业蒙上了爬虫的阴影。因为其背后的恶意攻击者,往往具备更为复杂和专业的技术,能绕过各种防御机制,让防范这样攻击行为难上加难。

礼仪三:做一个优雅的爬虫

优雅的爬虫背后,一定站着一个文明人或者一个文明团队。他们会考虑自己写的爬虫程序是否符合robots.txt协议,是否会对被爬网站的性能造成影响,如何才能不侵害知识产权所有者的权益以及非常重要的个人隐私数据等问题。

出于能力的差别,并不是每个爬虫团队都能考虑到这些问题。2018年,欧盟出台的《General Data Protection Regulation》(通用数据保护条例)中对数据的保护做出了严格的说明。2019年5月28日,国家互联网信息办公室发布的《数据安全管理办法》(征求意见稿)对爬虫和个人信息安全做出了非常严格的规定。比如:

(1)第十六条 网络运营者采取自动化手段访问收集网站数据,不得妨碍网站正常运行;此类行为严重影响网站运行,如自动化访问收集流量超过网站日均流量三分之一,网站要求停止自动化访问收集时,应当停止。

(2)第二十七条 网络运营者向他人提供个人信息前,应当评估可能带来的安全风险,并征得个人信息主体同意。

其实,我国2017年6月1日施行的《中华人民共和国网络安全法》第四章第四十一条和四十四条就已经对个人隐私信息数据的收集和使用做出明文规定,这也与爬虫直接相关。

爬虫技术是什么,爬虫技术违法吗(4)

首页 123下一页

栏目热文

爬虫技术的基础是什么(爬虫技术到底指什么)

爬虫技术的基础是什么(爬虫技术到底指什么)

随着互联网信息的“爆炸”,网络爬虫渐渐为人们所熟知,并被应用到了社会生活的众多领域。作为一种自动采集网页数据的技术,很多...

2022-11-08 14:46:39查看全文 >>

网络爬虫的基本步骤(网络爬虫新手入门教程)

网络爬虫的基本步骤(网络爬虫新手入门教程)

你有网络抓取技能,或者你想知道拥有这种技能的前景吗?那么现在就进来,发现你可以通过网络抓取赚钱的最佳方法。在世界各地的许...

2022-11-08 14:34:39查看全文 >>

爬虫技术有什么规定(为什么爬虫技术可以学但是别乱用)

爬虫技术有什么规定(为什么爬虫技术可以学但是别乱用)

◆尽管技术无好坏,但运用技术的行为有善恶之分,需准确认定行为人的主观故意,这就要结合具体事实综合认定。◆网络服务器的承载...

2022-11-08 15:14:35查看全文 >>

爬虫技术干什么的(爬虫技术到底指什么)

爬虫技术干什么的(爬虫技术到底指什么)

对于很多对于不懂编程语言的GGMM来说,爬虫技术高深莫测。但是对于IT工程师来说,爬虫技术可以说信手拈来。虽然熟知爬虫技...

2022-11-08 15:13:39查看全文 >>

爬虫有什么用的技能(学爬虫技术有什么用)

爬虫有什么用的技能(学爬虫技术有什么用)

前段时间我妈突然问我:儿子,爬虫是什么?我当时既惊讶又尴尬,惊讶的是为什么我妈会对爬虫好奇?尴尬的是我该怎么给她解释呢?...

2022-11-08 15:15:22查看全文 >>

爬虫工具可以干什么(个人能使用爬虫工具吗)

爬虫工具可以干什么(个人能使用爬虫工具吗)

随着大数据时代的来临,以及互联网技术的飞速发展,在企业的日常经营管理中,数据无处不在,各类数据的汇总、整合、分析、研究对...

2022-11-08 15:14:13查看全文 >>

爬虫数据抓取犯法吗(爬虫爬取vip视频违法吗)

爬虫数据抓取犯法吗(爬虫爬取vip视频违法吗)

近几年来,因为开发者使用爬虫技术锒铛入狱的案例越来越多。2015年,某公司授意五名程序员,利用网络爬虫获取一公司服务器的...

2022-11-08 14:41:47查看全文 >>

鸡爪不能和什么一起吃(鸡爪不能和什么同食)

鸡爪不能和什么一起吃(鸡爪不能和什么同食)

来源:工人日报广东海警局10月6日通报,近日,该局连续查获4起涉嫌走私冻品案件,查扣涉案“三无”船舶4艘,冻品约94吨,...

2022-11-08 15:15:30查看全文 >>

生鸡爪怎么做好吃又简单(已经熟的鸡爪怎么做好吃)

生鸡爪怎么做好吃又简单(已经熟的鸡爪怎么做好吃)

一酱在手,美味尽收By 嘿嘿辣妈用料生鸡爪 若干生姜 适量盐 适量鸡精 适量酱油 适量八角花椒 适量料酒 2小勺做法步骤...

2022-11-08 15:18:13查看全文 >>

生鸡爪做法大全(鸡爪十种做法大全)

生鸡爪做法大全(鸡爪十种做法大全)

酸酸甜甜有点辣是孩子们最喜欢的味道。调好汤汁泡上一盆凤爪,开胃!解腻!By 爱宝家的厨房用料生鸡爪 1000克酸甜泡椒(...

2022-11-08 15:11:53查看全文 >>

文档排行