当前位置:首页 > 经验 >

爬虫能爬到哪些数据(爬虫怎么实时爬取数据)

来源:原点资讯(www.yd166.com)时间:2022-10-28 21:52:28作者:YD166手机阅读>>

爬虫技术应用合法性引争议

保障数据安全亟待规制非法爬取数据行为

核心阅读

在大数据时代的背景下,愈来愈多的市场主体投入巨资收集、整理和挖掘信息。如果任由网络爬虫任意使用他人通过巨大投入获取的数据资源,将不利于鼓励商业投入、产业创新和诚实经营,甚至可能直接违背了数据来源用户的意愿和知情权,最终势必损害健康的竞争机制。

□ 本报记者 张 维

□ 法制网见习记者 邢国涵

随着社会经济的快速发展,数据的价值日益凸显,已然成为企业科技创新的必备要素。但企业通过技术手段获取数据时,数据抓取技术的应用行为是否合理合法,是一个值得深思的问题。

近年来,网络爬虫“爬取数据”成为热词,相关司法案例不断出现。据不完全统计,近些年涉及网络爬虫的司法案件达十余起,其中既包括民事案件,还包括刑事案件。这类案例甚至还有愈演愈烈之势。

在近日于上海举行的长三角数据合规论坛(第三期)暨数据爬虫的法律规制研讨会上,上海市人民检察院研究室副主任陈超然透露,检察机关正在积极推动企业合规改革试点工作,数据合规正是其中重点。“目前爬虫爬取数据案件非常普遍,当网络平台或者个人通过技术手段抓取别的平台数据时,这种行为是否合法,平台数据主体是谁,归谁使用,值得深入研讨。”

杭州长三角大数据研究院副院长郭兵认为,数据爬虫作为中立性的技术,已在互联网产业领域得到广泛应用。需要注意的是,如果爬虫技术不当应用,会对其他竞争者的合法权益造成损害,甚至涉嫌违法或者犯罪,也将对产业的健康发展产生非常大的负面影响。

爬取数据涉嫌侵权

从技术角度看,爬虫是通过程序去模拟人类上网或者浏览网页、App行为,让其高效地在网上抓取爬虫制造者所需要的信息。

欧莱雅中国数字化负责人刘煜晨说,大多数网站拒绝爬虫访问,其中的原因既包括商业利益考量,也包括自身网站运营安全的考量。除了爬虫可能爬到网站不愿被爬取的数据以外,网站经营者往往还会担心爬虫干扰网站正常运营。

而非正规爬虫自动持续且高频地对被爬取方进行访问,服务器负载飙升,也会给服务器带来“难以承受”之重:应对经验不足的网站,尤其是中小网站可能会面临网站打不开、网页加载极其缓慢、有时甚至直接瘫痪的情况。

新浪集团诉讼总监张喆说,无论是爬虫还是实现其他目的的技术,就其本身而言,都是中立的,但爬虫技术的应用不是中立的,技术应用都带有应用者的目的。这时候不应该评价技术原理,而是需要评价技术用来干什么,这一行为手段是否具有正当性。

提及网络爬虫,robots协议是绕不开的话题。robots协议(也称爬虫协议)的全称是“网络爬虫排除标准”,网站通过robots协议明确警示搜索引擎哪些页面可以爬取,哪些页面不能爬取。该协议也被行业称为搜索领域的“君子协定”。

刘煜晨说,当网络爬虫访问一个网站,robots协议像立在自己房间门口的一个牌子,告诉外来者谁可以过来,谁不可以过来。但是,这只是一个君子协议,只能起到告示作用,起不到技术防范作用。

实践中,恶意爬虫爬取时不遵守网站的robots协议,并可能爬取到不该爬的数据,这种情形并非孤例。小红书法务负责人曾翔说,恶意爬虫案例经常发生在内容平台和电商平台。在内容上被爬取的更多是视频、图片、文字、网红互动数据、用户行为等,在电商领域则多为商家信息和商品信息。

“内容平台一般约定了相关内容知识产权归发布者或者发布者和平台共同所有,这些爬虫没有签订协议就获得用户授权,涉嫌对知识产权人权利的侵犯。”曾翔说。

或应明确网站权利

这就涉及到数据的权属及是否能开放的问题。

上海市浦东区人民法院知识产权庭法官徐弘韬认为,数据是内容产业的核心竞争资源,内容平台经过汇总分析处理后的数据往往具有极高的经济价值。

“如果要求内容平台经营者将其核心竞争资源向竞争对手无限开放,不仅有违‘互联互通’精神的实质,也不利于优质内容的不断更迭和互联网产业的持续发展。”徐弘韬说。

恶意爬虫爬取数据案件频发的背后,是数据的价值增加,以数据为核心的市场竞争愈发激烈。

华东政法大学教授高富平说,进入大数据时代,数据价值再次凸显,现在的爬虫技术已经从原来的网页爬虫进入到底层数据的爬取。数据爬虫问题会变得越来越严重。

在大数据时代的背景下,愈来愈多的市场主体投入巨资收集、整理和挖掘信息,业内人士对此表示担忧:如果任由网络爬虫任意使用或利用他人通过巨大投入所获取的数据资源,将不利于鼓励商业投入、产业创新和诚实经营,甚至可能直接违背了数据来源用户的意愿和知情权,最终势必损害健康的竞争机制。

高富平认为,如果网站合法积累数据资源,那么这些数据资源就应该属于网站的资产。“允许数据生产者、控制者基于商业目的开放数据是有好处的,通过许可使用、交换交易等方式,可以让更多人享用数据服务。期待在未来确认数据所有合法生产者对数据的控制权、使用权。”

有序流转同等重要

目前,网站虽然可以去指定相应策略或技术手段,防止爬虫抓取数据,但爬虫也有更多技术手段来反制这种反爬策略。

刘煜晨说,反爬和爬取的技术一直在迭代,在技术领域,没有爬不了的网站和App,只有愿不愿意爬和多难爬的问题。

据了解,现实中恶意网络爬虫制造者抗辩时,往往将robots协议限制爬取与数据流转联系起来。徐弘韬认为,在“互联互通”的语境下,“有序”和“流转”同等重要、缺一不可,需排除假借“互联互通”妨碍公平竞争、危害用户数据安全的行为。

“对于非搜索引擎爬虫的正当性判别,要考虑是否足以保障用户数据的安全性。包括身份数据、行为数据等在内的用户数据,从属性来讲不仅仅是经营者的竞争资源,同样具有用户的个人隐私属性,而此类数据的集合更涉及社会公共利益。”徐弘韬说。

据了解,近年来有关数据安全的法律规范正在不断完善中。数据安全法作为数据安全的基本法,承载着解决我国数据安全核心制度框架的重要任务。此外,还有2019年通过的密码法,工信部拟出台《工业和信息领域数据安全管理办法(试行)》等,一些地方如深圳、上海等也在探索制定数据管理相关规范。

来源: 法治日报

栏目热文

python学多久可以接单(为什么不建议普通人学python)

python学多久可以接单(为什么不建议普通人学python)

以我差不多四年的 python 使用经验来看,大概可以按以下这些路子来赚到钱,但编程技能其实只是当中必不可少的一部分,搭...

2022-10-28 22:05:01查看全文 >>

python如何赚外快(学会了python如何搞副业)

python如何赚外快(学会了python如何搞副业)

首先是找渠道,虽说猪八戒网这一类的的接单网站被大家口口相传,但我通过python还真的没有找到一个合适的兼职接单平台,难...

2022-10-28 21:45:23查看全文 >>

最简单的爬虫代码(爬虫代码简单实例)

最简单的爬虫代码(爬虫代码简单实例)

经常会遇到一些简单的需求,需要爬取某网站上的一些数据,但这些页面的结构非常的简单,并且数据量比较小,自己写代码固然可以实...

2022-10-28 21:50:17查看全文 >>

爬虫技术抓取网站数据(爬虫怎么抓取网页数据)

爬虫技术抓取网站数据(爬虫怎么抓取网页数据)

编者按:互联网上有浩瀚的数据资源,要想抓取这些数据就离不开爬虫。鉴于网上免费开源的爬虫框架多如牛毛,很多人认为爬虫定是非...

2022-10-28 21:54:36查看全文 >>

爬虫技术可以做什么(爬虫爬取vip视频违法吗)

爬虫技术可以做什么(爬虫爬取vip视频违法吗)

爬虫可以从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网...

2022-10-28 21:32:50查看全文 >>

什么是网络爬虫(爬虫赚钱的真实经历)

什么是网络爬虫(爬虫赚钱的真实经历)

作为一家大数据公司的运营小编,经常会有人问我“诶?你说的爬虫是什么呀”“爬虫的用途是什么呀?”“你们公司是卖爬虫的吗,有...

2022-10-28 22:05:18查看全文 >>

网页爬虫代码(网页爬虫编写方法)

网页爬虫代码(网页爬虫编写方法)

导读:本文主要分为两个部分:一部分是网络爬虫的概述,帮助大家详细了解网络爬虫;另一部分是HTTP请求的Python实现,...

2022-10-28 21:31:37查看全文 >>

防火卷帘门规范要求(防火卷帘门安装步骤)

防火卷帘门规范要求(防火卷帘门安装步骤)

6.5.1 防火门的设置应符合下列规定: 1设置在建筑内经常有人通行处的防火门宜采用常开防火门。常开防火门应能在火灾时自...

2022-10-28 21:49:53查看全文 >>

防火卷帘门的构成是什么(防火卷帘门的构造组成你了解多少)

防火卷帘门的构成是什么(防火卷帘门的构造组成你了解多少)

防火卷帘是在一定时间内,连同框架能满足耐火稳定性和完整性要求的卷帘,由帘板、卷轴、电动机、导轨、支架、防护罩和控制机构等...

2022-10-28 22:09:11查看全文 >>

防火卷帘门的作用是防火隔离吗(防火卷帘门的用处)

防火卷帘门的作用是防火隔离吗(防火卷帘门的用处)

当前为了避免和减少火灾带来的损失,消防工程越来越受到重视。一个合格的消防工程能够有效地减少人们的损失,对人们的安全保障起...

2022-10-28 21:35:31查看全文 >>

文档排行